Hiện web em có vài web đang craw nhìn ức chế quá, em muốn hỏi có cách nào chặn được hay dò được ip để block không ạ? Thanks all
em mở lâu rùi, không ăn thua ạ :< --- Double Post Merged, Oct 15, 2021, Original Post Date: Oct 15, 2021 --- bác nói cụ thể hơn được không ạ. em chưa làm bao giờ nên không rõ lắm
thì ko thể chặn dc 100% bạn, mà bạn lại hỏi đúng cái động chuyên cào =) nên hơi khó, tốt nhất chạy ở localhost là sẽ tuyệt đối.
@lazyboyy9 xem trong file /var/log/nginx/access.log là thấy. Nếu site có dùng CF thì phải sửa access log format để thêm $http_cf_connecting_ip hoặc $http_x_forwarded_for (vì website dùng CF nó chỉ show ra IP của CF chứ không thấy IP của visitor) Dùng apache thì tự tìm hiểu, cơ chế cũng na ná như nginx. Nếu biết code thì càng dễ, dùng code tự tracking thông tin visitor, ghi vào file log rồi xem thằng nào crawl chặn nó lại.
Sai nhé. Vẫn có khi mình crawl bất chấp cấu trúc, chỉ lấy từ <body> đến </body> xong strip_tags parse content.