Những yếu tố ảnh hưởng tới rate limit của Google và bing?

Discussion in 'Thảo Luận Chung' started by tearofboy, Sep 2, 2020.

  1. tearofboy

    tearofboy Tân Thủ Thôn

    Mình đang cào google và bing để lấy thông tin làm dữ liệu xào nấu, việc này cần cào kha khá data. Bing thì hơi ít data với lại có vẻ dễ chịu hơn nhưng cào mạnh vẫn ăn block
    Google thì cú pháp search dạng như sau:
    keyword site:abc.com "wordpress" inurl:/blog
    việc bộ keyword, gửi, nhận và xử lý dữ liệu khá là suôn sẻ, nhưng vấn đề đau đầu nhất là cái captcha của google nó rất là nhạy, mình đã thử các cách sau nhưng chưa thấy khả quan:
    1. User agent: đã thử qua các UA thông dụng, rồi của ngay trình duyệt mình đang sử dụng nhưng vẫn không ổn. Chưa thử random mỗi request 1 UA nhưng mình đoán là cũng không khả quan
    2. Cookie, mình đã thử dùng 1 cookie cho mỗi từ khóa, hoặc gom nhóm tất cả các page của 1 từ khóa đều cùng cookie => không được
    3. Referer url: thử để đủ kiểu, từ trang trước đó, cho tới để trống, cho tới mặc định google.com đều không khả quan
    4. Timelapse: thử sleep 60s, 30s, 15s, 2s cho mỗi request, đến lúc nó dính là vẫn dính
    5. IP, mình nghĩ là cái này quan trọng, mình có tìm hiểu khá kỹ các bài của ae trong đây, và thấy mọi người hay dùng thằng instantproxies để request và trộn các bài thử bên trên để test, có vẻ lâu chết hơn một chút, nhưng chỉ cỡ vài phút là tạch => vẫn không ổn
    Mình cũng đã thử gửi mail cho supporter, nhờ nó đổi thành cái list nào dành cho mục đích search, nó cũng đã đổi cho mình list mới nhưng không khá hơn

    upload_2020-9-2_11-19-39.png

    6. Tool: mình đang dùng python, gửi trực tiếp httprequest lên google thông qua proxy, có đổi vài tham số cho header giống thật nhất có thể => vẫn không ăn thua.

    Mình đang định bỏ ý tưởng dùng python, chuyển qua puppeteer tìm kiếm vận may, nhưng cách này có vẻ sẽ cào chậm và tốn CPU nên chưa dám.

    Mình đọc trong forum thì thấy mọi người vẫn cào ổn thông qua proxy với delay chỉ tầm vài giây, mình mò chưa ra được cách tương tự, ae giúp mình với, mình hết phép với anh Gồ rồi :'(
     
  2. Nai

    Nai MiddleMan Staff Member

    Thử code này nhé, lần gần đây nhất mình dùng chắc cũng tầm 4 tháng. 10 proxies + random + delay 1s vẫn cào tốt.
    PHP:
    function curl_get_html($url$proxy=null$proxy_type=null)
    {
        
    $ch=curl_init();
       
       
        
    curl_setopt($chCURLOPT_RETURNTRANSFERtrue);
        
    curl_setopt($chCURLOPT_USERAGENT'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:46.0) Gecko/20100101 Firefox/46.0');
        
    curl_setopt($chCURLOPT_REFERER'http://google.com.vn/');
        
    curl_setopt($chCURLOPT_ENCODING'gzip');
        
    curl_setopt($chCURLOPT_CONNECTTIMEOUT30);
        
    curl_setopt($chCURLOPT_SSL_VERIFYPEERFALSE);
        
    //curl_setopt($ch, CURLOPT_COOKIESESSION, TRUE);   
        
    curl_setopt($chCURLOPT_TIMEOUT30);
        
    curl_setopt($chCURLOPT_FOLLOWLOCATIONtrue);
        
    curl_setopt($chCURLOPT_MAXREDIRS5);
       
        
    curl_setopt($chCURLOPT_URL$url);
        
    //proxy
        
    if(isset($proxy/*&& check_live_proxy($proxy)*/){
       
            
    curl_setopt($chCURLOPT_PROXY$proxy);
           
            if(isset(
    $proxy_type))
                
    curl_setopt($chCURLOPT_PROXYTYPE$proxy_type);
        }
       
        
    $html=curl_exec($ch);
        
    curl_close($ch);
        return 
    $html;   
    }
     
    congloi and tearofboy like this.
  3. tearofboy

    tearofboy Tân Thủ Thôn

    lạ quá, mình mới thử code này thì nó hiện capcha sau 5 request. có thể là do proxy của mình bị lởm rồi. Cảm ơn bạn nhé :(
     
  4. thetrue

    thetrue Sơ Nhập Giang Hồ

    lúc trc m cào api gg search bằng curl php delay 1s 2s gì đó ko bị chặn. ko cần đổi user agent gì hết