Cào google search nên delay bao nhiêu giây?

Discussion in 'Hỏi Đáp Kỹ Thuật' started by thitgaluoc, Nov 7, 2019.

  1. thitgaluoc

    thitgaluoc Hương Chủ

    Em chỉ có câu hỏi như title.
    Bao nhiêu giây theo kinh nghiệm các bác để cho đỡ tốn proxy và cào được nhiều nhất :D?
     
  2. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Tùy ip, nếu ip us thì hình như 5s là dc rồi
     
  3. Dang

    Dang Bang Chúng

    Và thêm kinh nghiệm cá nhân là đăng nhập vào Google để lấy cookie. Và dùng (các) cookie này request đến Google sẽ hạn chế dính captcha hơn.
     
    hocauo40 likes this.
  4. Nai

    Nai MiddleMan Staff Member

    Code delay 1s của mình
    Code này dùng trên local ổn, bỏ lên VPS hay dùng proxy thì bị block. Chả hiểu tại sao :D
    Chắc do gái ua
    PHP:
    <?php
    // dung curl de lay html thay the file_get_html
    function curl_get_html($url$proxy=null$proxy_type=null)
    {
        
    $ch=curl_init();
     
     
        
    curl_setopt($chCURLOPT_RETURNTRANSFERtrue);
        
    curl_setopt($chCURLOPT_USERAGENT'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:46.0) Gecko/20100101 Firefox/46.0');
        
    curl_setopt($chCURLOPT_REFERER'http://google.com.vn/');
        
    curl_setopt($chCURLOPT_ENCODING'gzip');
        
    curl_setopt($chCURLOPT_CONNECTTIMEOUT30);
        
    curl_setopt($chCURLOPT_SSL_VERIFYPEERFALSE);
        
    //curl_setopt($ch, CURLOPT_COOKIESESSION, TRUE); 
        
    curl_setopt($chCURLOPT_TIMEOUT30);
        
    curl_setopt($chCURLOPT_FOLLOWLOCATIONtrue);
        
    curl_setopt($chCURLOPT_MAXREDIRS5);
     
        
    curl_setopt($chCURLOPT_URL$url);
        
    //proxy
        
    if(isset($proxy/*&& check_live_proxy($proxy)*/){
     
            
    curl_setopt($chCURLOPT_PROXY$proxy);
         
            
    //if(isset($proxy_type))
                //curl_setopt($ch, CURLOPT_PROXYTYPE, $proxy_type);
        
    }
     
        
    $html=curl_exec($ch);
        
    curl_close($ch);
        return 
    $html
    }

    // Kiểm tra proxy sống chết
    function check_live_proxy($proxy)
    {
        
    $waittimeouproxy 10;
     
        
    $proxy_split explode(':',$proxy);
     
        
    $ip=$proxy_split[0];
        
    $port=$proxy_split[1];
     
        
    $result=false;
     
        if(
    $fp=fsockopen($ip$port$errCode$errStr$waittimeouproxy))
        {
            
    $result=true;
         
            
    fclose($fp);
        }
     
        return 
    $result;
     
    }

    ?>
     
    xmenvn2510 and Hoa Mãn Lâu like this.
  5. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Do local là xài ip người dùng nó khác với ip vps
     
    nhat.itsuper and Nai like this.
  6. DichVuSeo

    DichVuSeo Tân Thủ Thôn

    Bác thiếu đoạn xử lý CAPTCHA rồi! Có nó sẽ trả lời cho bi nhiêu giây! Trước đây không biết captcha thì tầm 365-566
     
  7. Nai

    Nai MiddleMan Staff Member

    Thớt hỏi làm cách nào để ko dính captcha đấy
     
    DichVuSeo likes this.
  8. money

    money Hương Chủ

    Tuỳ proxy. Nên câu hỏi này là vô nghĩa. Anh dùng instantproxy delay có 1s nhưng package khác cùng ínstantproxy phải delay 5s. Tốt nhất là tự thử và rút ra con số tối ưu. Nhưng proxy nào mà phải delay quá 5s thì nên đổi.
     
  9. thitgaluoc

    thitgaluoc Hương Chủ

    Thì đăng lên chủ yếu tham khảo kinh nghiệm của moii người mà :D mỗi người sẽ rút ra 1 cái sweet spot của riêng mình :D
     
  10. DichVuSeo

    DichVuSeo Tân Thủ Thôn

    Sư phụ ! Chỉ có mua captcha lấy API chèn vô là không bị dính thôi! Chứ bình thường thì khó qua cửa Google với thống kê traffic của hắn rồi!
     
  11. money

    money Hương Chủ

    Mua AndyTools là đủ rồi, crawl thoải mái.
     
  12. dungnq

    dungnq Khách Qua Đường

    Mình thường delay 1s, nếu gặp lỗi thì ngưng lại 60s rồi chạy tiếp, hiện không thấy vấn đề gì cả suốt 1 năm. Dùng 3 proxy thôi.