Lúc trước em hay crawl content của Lazada bằng simple_html_dom (để lấy giá làm site so giá). Gần đây LZD làm web lại, có chức năng phải vượt captcha khi detect có bot crawl (không biết detect như nào). Có khi F5 trang nhiều lần bằng trình duyệt cũng hem thấy hiện captcha gì cả, nhưng chỉ cần request 1 lần đến bằng simple_html_dom là lập tức dính captcha, thử file_get_content hay curl của php cũng bị y hệt. Có thể lzd nó check cookie hay gì đó? Code: $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, "https://www.lazada.vn/dien-thoai-di-dong"); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); $output = curl_exec($ch); curl_close($ch); Code đại ý như trên. Cần cao nhân giúp vượt captcha. Đội ơn anh em đã xem ^^
Xài đồng thời cả cookies và user agent nữa. Với những site nó làm không chặt thì mình 2 thằng này là đủ. Có nhiều site thì cần thêm cả IP. Với những site ntn mình chạy trên vps. Chặn IP này lại tạo lại IP mới và chạy tiếp. Nhưng mà mệt lắm. Giờ nghỉ hẳn rồi. Đã chặn thì thôi luôn
Cái này hình như mới bị qua nay gì à thôi thì phải. Đã thêm UA và cookie khi cURL vẫn gặp tình trạng trên
mà sao e crawl thử thì chừng 30 phút là bị nhập captcha, thay cookie mới lại dc, có để thử delay chừng 5s mỗi request mà hem cũng hem dc các cao nhân ạ
chỉ cần thay cookie là lại dc bác Nai ơi. mà nếu mua 10 proxies đi nữa thì 30' bị block 1 lần mà nó block tận 1 ngày thì bao nhiêu px cho đủ