Chào ae, Mình không rõ có bao nhiêu Verified Bots với Cloudflare, nhưng mình thấy một vài Bots có vẻ không tốt, đó là các bots của SEO tools như Majestic, Semrush, Ahrefs,... Đặc biệt là Majestic, 1 ngày trung bình có khoảng 25k Majestic vào site rồi. Nếu cộng với các SEO tools khác thì lượng bots này cũng khá nhiều và làm tăng khả năng hao phí xử lý của server. Liệu mình có nên mạnh tay Block các verified bots dạng này không ae? Mình chưa nghĩ ra lợi ích của các bots dạng này vào site mình thì liệu mình sẽ được lợi gì? Mong ae tư vấn và thông não giúp!
Đôi lúc mà, có nghĩa là mình không tập trung vàn yandex, mấy con bot đó không biết thương mình đâu, crawl như ăn vã
Các bot khác anh không chặn nhưng trả về cho nó 1 page html bé xíu với dòng chữ: Thank you !!! Các bot này thì cho vô (filter theo useragent): Code: google bing msn yahoo facebook yandex aol duckduckgo
Chặn theo User Agents hở bác? A @money có thể filter user-agent và Allow được à? Vì nếu filter Allow, thì site a có thể cho vào những bot hoặc script tự động sử dụng User Agent của những bot a chấp nhận. Mặc định e thấy Cloudflare có chức năng "Managed Challenge" những truy cập giả bot. E nghĩ Block hoặc "Thanks you" như a nhưng theo nguyên tắt loại ra tốt hơn chứ anh? A @money làm thế nào để hiển thị trang "Thank you" thế? Với Firewall rule thì e chưa thấy chức năng nào cấu hình hiển thị trang hoặc nội dung để show ra "Thank you" như a chia sẻ. Như site e hiện tại còn đang thấy 1 tình trạng giả bot mà qua được Cloudflare nè, cụ thể e random check thì rất nhiều IP của Bingbot ko phải thật (sử dụng chức năng Verify bot trong Webmaster của Bing để biết Bingbot với IP đó thật hay giả). Tuy thế, e kệ script tự động dạng này vì chưa nghĩ ra cách phòng thủ thế nào. Dù sao tình trạng này vẫn ít hơn những verified bots được Cloudflare cho qua mà e thấy bots này ko giúp gì cho site cả.
anh tự code php thôi em. anh không block vì sợ bot nó phát hiện mình block nó chuyển sang chế độ crawl không có useragent thì mắc công check lại nữa. trả về file thank you thì php đọc file và return rồi (không rédirect vì lí do sợ nó đổi crawl như trên)
https://developers.cloudflare.com/f...firewall-rules-handle-traffic-from-known-bots. E chặn trong firewall rule của CF bro ạ
Thâm niên kinh nghiệm nhiều nên a @money mới sáng chế ra vụ này, e thì áp dụng cách này ko được rồi vì e sử dụng page cache của Nginx hơi nhiều, nên áp dụng ko được tip này. --- Double Post Merged, Sep 14, 2021, Original Post Date: Sep 14, 2021 --- Đang bị Bingbot hấp diêm, ngẫu nhiên kiểm tra IP của Bingbot trên Webmaster của Bing thì đa số ko phải của Bingbot. Hix,... ko biết phải làm gì luôn vì cấm User-Agent của Bingbot thì bị ảnh hưởng Bingbot thật.
Tụi bot tìm kiếm thì khi bác reverse dns của ip bằng php nó sẽ ra domain của nó như google thì có dang bot.google.om ,nói chung bác vào mấy trang search của tụi nó có hết Còn CF nó detect được useragent có phải bot k từ việc reverse dns của tụi này mà --- Double Post Merged, Sep 14, 2021, Original Post Date: Sep 14, 2021 --- Như google là googlebot com,https://johnmu.com/fake-googlebots/
Thanks bác @fkphua , được học thêm cách phòng chống bots, cách này với mình ko khả năng thì check cái này phải làm rất nhiều và đặc biệt là cập nhật IPs thường xuyên. Đành pó thác vào Cloudflare vậy, ai qua mặt được CF thì cũng tuyệt kỹ cao thâm rồi.