Về Verified Bots với Cloudflare

Discussion in 'Thảo Luận Chung' started by command, Sep 14, 2021.

  1. command

    command Bang Chúng

    Chào ae,

    Mình không rõ có bao nhiêu Verified Bots với Cloudflare, nhưng mình thấy một vài Bots có vẻ không tốt, đó là các bots của SEO tools như Majestic, Semrush, Ahrefs,... Đặc biệt là Majestic, 1 ngày trung bình có khoảng 25k Majestic vào site rồi. Nếu cộng với các SEO tools khác thì lượng bots này cũng khá nhiều và làm tăng khả năng hao phí xử lý của server.

    Liệu mình có nên mạnh tay Block các verified bots dạng này không ae?

    Mình chưa nghĩ ra lợi ích của các bots dạng này vào site mình thì liệu mình sẽ được lợi gì?

    Mong ae tư vấn và thông não giúp!
     
  2. I Love Php

    I Love Php Bang Chúng

    Mình thấy ko có lợi gì, đôi lúc mình còn chặn ở bot yandex
     
  3. command

    command Bang Chúng

    Châu Âu và dân Nga sử dụng Yandex nhiều đó bạn nhé, giống như Baidu được sử dụng nhiều bởi dân TQ.
     
  4. I Love Php

    I Love Php Bang Chúng

    Đôi lúc mà, có nghĩa là mình không tập trung vàn yandex, mấy con bot đó không biết thương mình đâu, crawl như ăn vã
     
    command likes this.
  5. TheLooter

    TheLooter Khách Qua Đường

    Cloudflare cho phép tạo firewall rule dạng custom
     
    Last edited: Sep 14, 2021
    command likes this.
  6. Thanh Nguyen

    Thanh Nguyen Bang Chúng

    E chặn hết. để mỗi bot gg, bing, tw và face thôi
     
    command likes this.
  7. money

    money Hương Chủ

    Các bot khác anh không chặn nhưng trả về cho nó 1 page html bé xíu với dòng chữ: Thank you !!!

    Các bot này thì cho vô (filter theo useragent):

    Code:
    google
    bing
    msn
    yahoo
    facebook
    yandex
    aol
    duckduckgo
     
    ducanhtian, command and laogiavn like this.
  8. command

    command Bang Chúng

    Chặn theo User Agents hở bác?

    A @money có thể filter user-agent và Allow được à? Vì nếu filter Allow, thì site a có thể cho vào những bot hoặc script tự động sử dụng User Agent của những bot a chấp nhận. Mặc định e thấy Cloudflare có chức năng "Managed Challenge" những truy cập giả bot. E nghĩ Block hoặc "Thanks you" như a nhưng theo nguyên tắt loại ra tốt hơn chứ anh?

    A @money làm thế nào để hiển thị trang "Thank you" thế? Với Firewall rule thì e chưa thấy chức năng nào cấu hình hiển thị trang hoặc nội dung để show ra "Thank you" như a chia sẻ.

    Như site e hiện tại còn đang thấy 1 tình trạng giả bot mà qua được Cloudflare nè, cụ thể e random check thì rất nhiều IP của Bingbot ko phải thật (sử dụng chức năng Verify bot trong Webmaster của Bing để biết Bingbot với IP đó thật hay giả). Tuy thế, e kệ script tự động dạng này vì chưa nghĩ ra cách phòng thủ thế nào. Dù sao tình trạng này vẫn ít hơn những verified bots được Cloudflare cho qua mà e thấy bots này ko giúp gì cho site cả.
     
    Last edited: Sep 14, 2021
  9. money

    money Hương Chủ

    anh tự code php thôi em.

    anh không block vì sợ bot nó phát hiện mình block nó chuyển sang chế độ crawl không có useragent thì mắc công check lại nữa.

    trả về file thank you thì php đọc file và return rồi (không rédirect vì lí do sợ nó đổi crawl như trên)
     
    command and Nai like this.
  10. Nai

    Nai MiddleMan Staff Member

    Thật là người đàn ông tâm lý {beauty}
     
  11. ducanhtian

    ducanhtian Sơ Nhập Giang Hồ

    Hóng ae có tut chặn bot tốt và bót xấu :))
     
  12. Thanh Nguyen

    Thanh Nguyen Bang Chúng

    command likes this.
  13. command

    command Bang Chúng

    Thâm niên kinh nghiệm nhiều nên a @money mới sáng chế ra vụ này, e thì áp dụng cách này ko được rồi vì e sử dụng page cache của Nginx hơi nhiều, nên áp dụng ko được tip này.
    --- Double Post Merged, Sep 14, 2021, Original Post Date: Sep 14, 2021 ---
    Đang bị Bingbot hấp diêm, ngẫu nhiên kiểm tra IP của Bingbot trên Webmaster của Bing thì đa số ko phải của Bingbot. Hix,... ko biết phải làm gì luôn vì cấm User-Agent của Bingbot thì bị ảnh hưởng Bingbot thật.
    [​IMG]
     
  14. fkphua

    fkphua Tân Thủ Thôn

    CF nó detect được bot từ đâu mà , còn xài php thì tìm dns cua useragent roi allow thôi bác
     
  15. laogiavn

    laogiavn Sơ Nhập Giang Hồ

    E cũng hóng tut chặn bot đỉnh cao. Kkk
     
  16. command

    command Bang Chúng

    Ý bạn @fkphua là ASN à? DNS thì liên quan gì đến chặn bots vậy?
     
  17. fkphua

    fkphua Tân Thủ Thôn

    Tụi bot tìm kiếm thì khi bác reverse dns của ip bằng php nó sẽ ra domain của nó như google thì có dang bot.google.om ,nói chung bác vào mấy trang search của tụi nó có hết
    Còn CF nó detect được useragent có phải bot k từ việc reverse dns của tụi này mà
    --- Double Post Merged, Sep 14, 2021, Original Post Date: Sep 14, 2021 ---
    Như google là googlebot com,https://johnmu.com/fake-googlebots/
     
    command likes this.
  18. command

    command Bang Chúng

    Thanks bác @fkphua , được học thêm cách phòng chống bots, cách này với mình ko khả năng thì check cái này phải làm rất nhiều và đặc biệt là cập nhật IPs thường xuyên. Đành pó thác vào Cloudflare vậy, ai qua mặt được CF thì cũng tuyệt kỹ cao thâm rồi.
     
  19. fkphua

    fkphua Tân Thủ Thôn

    Trước crawl site xài CF dùng useragent googlebot bị chặn nên mới hiểu cơ chế của tụi nó =))
     
  20. thanh858036

    thanh858036 Sơ Nhập Giang Hồ

    cái này fake được không bác. giờ cf nó gắt quá