Em chỉ có câu hỏi như title. Bao nhiêu giây theo kinh nghiệm các bác để cho đỡ tốn proxy và cào được nhiều nhất ?
Và thêm kinh nghiệm cá nhân là đăng nhập vào Google để lấy cookie. Và dùng (các) cookie này request đến Google sẽ hạn chế dính captcha hơn.
Code delay 1s của mình Code này dùng trên local ổn, bỏ lên VPS hay dùng proxy thì bị block. Chả hiểu tại sao Chắc do gái ua PHP: <?php// dung curl de lay html thay the file_get_htmlfunction curl_get_html($url, $proxy=null, $proxy_type=null){ $ch=curl_init(); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:46.0) Gecko/20100101 Firefox/46.0'); curl_setopt($ch, CURLOPT_REFERER, 'http://google.com.vn/'); curl_setopt($ch, CURLOPT_ENCODING, 'gzip'); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 30); curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE); //curl_setopt($ch, CURLOPT_COOKIESESSION, TRUE); curl_setopt($ch, CURLOPT_TIMEOUT, 30); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true); curl_setopt($ch, CURLOPT_MAXREDIRS, 5); curl_setopt($ch, CURLOPT_URL, $url); //proxy if(isset($proxy) /*&& check_live_proxy($proxy)*/){ curl_setopt($ch, CURLOPT_PROXY, $proxy); //if(isset($proxy_type)) //curl_setopt($ch, CURLOPT_PROXYTYPE, $proxy_type); } $html=curl_exec($ch); curl_close($ch); return $html; }// Kiểm tra proxy sống chếtfunction check_live_proxy($proxy){ $waittimeouproxy = 10; $proxy_split = explode(':',$proxy); $ip=$proxy_split[0]; $port=$proxy_split[1]; $result=false; if($fp=fsockopen($ip, $port, $errCode, $errStr, $waittimeouproxy)) { $result=true; fclose($fp); } return $result; }?>
Bác thiếu đoạn xử lý CAPTCHA rồi! Có nó sẽ trả lời cho bi nhiêu giây! Trước đây không biết captcha thì tầm 365-566
Tuỳ proxy. Nên câu hỏi này là vô nghĩa. Anh dùng instantproxy delay có 1s nhưng package khác cùng ínstantproxy phải delay 5s. Tốt nhất là tự thử và rút ra con số tối ưu. Nhưng proxy nào mà phải delay quá 5s thì nên đổi.
Thì đăng lên chủ yếu tham khảo kinh nghiệm của moii người mà mỗi người sẽ rút ra 1 cái sweet spot của riêng mình
Sư phụ ! Chỉ có mua captcha lấy API chèn vô là không bị dính thôi! Chứ bình thường thì khó qua cửa Google với thống kê traffic của hắn rồi!
Mình thường delay 1s, nếu gặp lỗi thì ngưng lại 60s rồi chạy tiếp, hiện không thấy vấn đề gì cả suốt 1 năm. Dùng 3 proxy thôi.