Bắt nhập captcha khi bot crawl content

Discussion in 'Thảo Luận Chung' started by thetrue, Nov 2, 2018.

  1. thetrue

    thetrue Sơ Nhập Giang Hồ

    Lúc trước em hay crawl content của Lazada bằng simple_html_dom (để lấy giá làm site so giá). Gần đây LZD làm web lại, có chức năng phải vượt captcha khi detect có bot crawl (không biết detect như nào). Có khi F5 trang nhiều lần bằng trình duyệt cũng hem thấy hiện captcha gì cả, nhưng chỉ cần request 1 lần đến bằng simple_html_dom là lập tức dính captcha, thử file_get_content hay curl của php cũng bị y hệt. Có thể lzd nó check cookie hay gì đó?

    Code:
     
    
        $ch = curl_init(); 
        curl_setopt($ch, CURLOPT_URL, "https://www.lazada.vn/dien-thoai-di-dong"); 
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
        $output = curl_exec($ch); 
        curl_close($ch);
    
    
    [​IMG]

    Code đại ý như trên. Cần cao nhân giúp vượt captcha. Đội ơn anh em đã xem ^^
     
  2. thitgaluoc

    thitgaluoc Hương Chủ

    Fake UA chưa?
     
  3. thetrue

    thetrue Sơ Nhập Giang Hồ

    user agent hả bác? để e thử ạ. giờ fake gg bot hả bác?
     
  4. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Xài thêm cookies nữa nha
     
  5. Thanh Nguyen

    Thanh Nguyen Bang Chúng

    Xài đồng thời cả cookies và user agent nữa. Với những site nó làm không chặt thì mình 2 thằng này là đủ. Có nhiều site thì cần thêm cả IP. Với những site ntn mình chạy trên vps. Chặn IP này lại tạo lại IP mới và chạy tiếp. Nhưng mà mệt lắm. Giờ nghỉ hẳn rồi. Đã chặn thì thôi luôn {big_smile}{big_smile}{big_smile}
     
    thetrue likes this.
  6. thetrue

    thetrue Sơ Nhập Giang Hồ

    đã làm dc, đội ơn các cao nhân <3{sweet_kiss}{sweet_kiss}{sweet_kiss}
     
  7. Nai

    Nai MiddleMan Staff Member

    Cái này hình như mới bị qua nay gì à thôi thì phải. Đã thêm UA và cookie khi cURL vẫn gặp tình trạng trên
     
  8. thetrue

    thetrue Sơ Nhập Giang Hồ

    mà sao e crawl thử thì chừng 30 phút là bị nhập captcha, thay cookie mới lại dc, có để thử delay chừng 5s mỗi request mà hem cũng hem dc các cao nhân ạ
     
  9. Nai

    Nai MiddleMan Staff Member

    Nó block theo IP rồi, chuẩn bị sẵn 1 litst IP ở dưới chữ ký mình nè. :D
     
    thetrue likes this.
  10. thetrue

    thetrue Sơ Nhập Giang Hồ

    chỉ cần thay cookie là lại dc bác Nai ơi. mà nếu mua 10 proxies đi nữa thì 30' bị block 1 lần mà nó block tận 1 ngày thì bao nhiêu px cho đủ {beat_brick}{beat_brick}
     
  11. console

    console Bang Chúng

    Thì xài loại proxies mỗi request 1 ip :D
     
  12. EDM

    EDM Sơ Nhập Giang Hồ

    Bác nào biết chỗ nào bán proxies rotation ngon không ạ?
     
  13. thetrue

    thetrue Sơ Nhập Giang Hồ

  14. console

    console Bang Chúng