thắc mắc của 1 newbie!!

Discussion in 'AutoBlog' started by Gheralt, Dec 23, 2021.

  1. AkuVn

    AkuVn Hương Chủ

    Em đang mắc khoản xử lý để auto về cho nó nhàn ấy bác còn em copy tay cũng oải rồi dạo này khoái auto :3
     
  2. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Mấy group đó lùa thế nòa mà tư duy sai lệch vậy?
     
  3. AkuVn

    AkuVn Hương Chủ

    Nói cái đoán được đang nói tới bên nào rồi :D
     
  4. ssayyhi

    ssayyhi Sơ Nhập Giang Hồ

    Hiện tại ở VN cũng thấy có 2 site của 1 bác ở Đà Nẵng làm dạng trộn content thấy khá tốt
     
  5. Nai

    Nai MiddleMan Staff Member

    Làm dc kiểu nào làm hết luôn bạn,
     
  6. money

    money Hương Chủ

    Cách anh làm thật ra đơn giản lắm, chỉ mất công code (code xử lý cắt chuỗi này nọ chứ ko có gì khó). Anh share ý tưởng chung thì được, còn chi tiết hơn thì không.

    Qui trình đại khái như sau:

    1. Bắt đầu từ danh sách title: (bằng cách nào đó em có dc nó: ví dụ em copy tay hay sinh ra từ 1 longtail keyword, hay crawl title của người ta bằng tiếng Pháp rồi dịch title sang tiếng Anh, ...)

    2. Từ title trên, em bỏ đi các meaningless words: em phải có danh sách các từ vô nghĩa này, ví dụ: ["a", "an", "the", "of", "is", "to" ...] ==> tìm trong chuỗi title và bỏ nó đi ==> em có 1 chuỗi title mới (gọi là title_new)

    3. Query chuỗi title_new: đến Google, Bing hay database mà em đã crawl sẵn (hiện anh đang làm cách này, anh crawl data từ nhiều nguồn và lưu trữ lại).

    - Query Google , Bing thì cần proxy.
    - Query đến database sẵn thì:
    + database nhỏ cỡ chục triệu rows dùng mysql với SSD là đủ.
    + data lớn hàng trăm triệu rows:nên chuyển sang mongo hay ES.

    4. Query đến Google/Bing hay DB có sẵn nhưng query như nào?

    4.1. Nếu bê nguyên cái title_new vào query thì có khi không có results hoặc chỉ có vài results --> nội dung mình có khá ngắn. Do đó, muốn có 1 bài viết phải query vài lần.

    Ví dụ: title = "how to kiss a girl on the first date" ==> title_new = "kiss girl first date". Lúc này, anh tạo 1 array:
    title_arr = ["kiss girl first date", "kiss girl first", "girl first date", "kiss girl", "first date"]

    4.2. Lần lượt query từng chuỗi trong title_arr và lưu lại kết quả vào result_arr (result_arr chứa cái gì thì đã là coder phải biết mà làm)

    - Nếu query Google/Bing thì dễ. Chỉ lưu ý là Google/Bing có option để 1 query trả về 50, 100 results. Làm vậy cho nhanh, đỡ tốn công.
    - Query Google/Bing nên dùng các search operator như: intitle, intext, inurl, ... để có search results phong phú hơn và sát với nội dung mình cần hơn
    - Nếu query đến data có sẵn chú ý cách query "exact match", "exact phrase" để có nhiều kết quả hơn

    4.3. Cuối cùng, nếu result_arr vượt qua 1 ngưỡng nào đó thì mới dùng để tạo ra 1 post. Ví dụ tổng số kết quả tìm thấy tối thiểu là 10, ...

    5. Khó khăn

    Thật ra chỉ có 1 khó khăn, đó là phải kiên trì. Cái đám code theo kiểu trên, anh code chỉ 1 ngày là xong. Ai chưa quen nhưng code tốt có lẽ 2-3 ngày là max. Bèo bèo thì cứ cho là 1 tuần, không đáng bao nhiêu. Nhưng kiên trì ở đây là kiên trì thu thập data. Anh crawl rất nhiều data, từ các trang như kaggle và anh tự crawl (có những thời gian anh chạy tool liên tục gần 2 năm chỉ để crawl)

    Chuẩn bị danh sách keywords, danh sách title, database để mình query, .... mất rất nhiều thời gian.

    Viết thêm 1 số tool xử lý file txt như split file, merge file, ... (không code dc thì tìm tool có sẵn hay Excel cũng tạm ổn, nhưng tool ko chạy nhanh như anh code thôi)

    Thôi anh stop đây. Nghỉ ngủ xíu rồi tắm rửa xức nước hoa đi offline :D
     
  7. AkuVn

    AkuVn Hương Chủ

    Anh em Off xôm mà ko có tý ảnh ọt gì buồn quá @@
     
  8. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Đang nghe cụ Andy chia sex kn xương máu làm auto đây. Nghe xong đỡ bao nhiêu năm cày cuốc
     
    AkuVn likes this.
  9. Dark

    Dark Tân Thủ Thôn

    @money anh có khoảng bn website vậy. Các anh đều đặt quảng cáo GA à chứ mấy net khác em thấy bèo bọt quá.
     
  10. AkuVn

    AkuVn Hương Chủ

    Anh ấy ít site thôi nhưng toàn site khủng :D
     
  11. money

    money Hương Chủ

    Hiện tại thì anh có khoảng 30 sites. Giờ anh làm chủ yếu adsense và aff. Các net khác ít thôi.

    --- Double Post Merged, Dec 27, 2021, Original Post Date: Dec 27, 2021 ---
    Haha anh đủ ăn thôi em. 4rum mình tháng rồi có ông hơn 100K, có ông 6xK mà chẳng bao giờ lên comment câu nào.
     
    Last edited: Dec 27, 2021
  12. Tạ hơi nặng

    Tạ hơi nặng Bang Chúng

    E cứ nghĩ a money phải 100 site là ít :v
     
  13. AkuVn

    AkuVn Hương Chủ

    Hjx các anh kiếm thế đàn em lại tự ti hết thôi :D
     
  14. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    chắc mấy ổng xài nick cờ lôn vô chém gió đó a ơi
     
  15. money

    money Hương Chủ

    Ngày xưa thì anh làm nhiều, giờ anh chỉ giữ lại site nào tốt thôi. Từ ngày chuyển sang auto nghiêm túc, lâu lâu anh mới lên 1 dàn. Và cũng lâu lâu mới có 1 dàn nó kiếm ăn được :D
     
    thangvbvb25 likes this.
  16. thangvbvb25

    thangvbvb25 Sơ Nhập Giang Hồ

    Vàng ngọc rơi vãi nhiều quá ,,, mai mốt site nào ko tốt cho em nhé, vứt đi phí lắm a {big_smile}{big_smile}{big_smile}
     
  17. automan

    automan Hương Chủ

    Ước được 100k {cry}
     
  18. Nai

    Nai MiddleMan Staff Member

    Ráng lên cụ kiếm thêm 1k là chẵn rồi {baffle}
     
    Sang likes this.
  19. Dark

    Dark Tân Thủ Thôn

    Cho em xin net aff với ạ. Em đặt thử xem thế nào
     
  20. money

    money Hương Chủ

    Skimlink và viglink (thằng này đổi sang tên gì đó anh quên rồi)