Crawl google search đặt sleep bao lâu / 1 request để ko dính capcha ạ ?!!!

Discussion in 'Thảo Luận Chung' started by thangvbvb25, Sep 27, 2021.

  1. thangvbvb25

    thangvbvb25 Sơ Nhập Giang Hồ

    Em đang có hơn chục con vps để crawl google search nhưng ko biết lên đặt sleep bao lâu / 1 request ạ ?

    Em mò tung bài đăng trong group thì thấy có anh nói 15 phút vẫn limit, có bác đặt 15s mà ko dính
    Vậy túm lại là em đi đặt sleep bao lâu ạ
    Tại em ko chơi proxy mà dùng ip của vps lên chưa dám thử, sợ ban ip là đi luôn con vps ạ {bad_smelly}
    Em xin cám ơn ^^ {beauty}{beauty}{beauty}
     
  2. Nai

    Nai MiddleMan Staff Member

    Có hơn chục con thì đặt thử 1p 1p30s 2p,...
    Google block IP trong 1 khoản thời gian đâu chứ đâu block vĩnh viễn đâu.
    Mà mình nhớ lúc trước mình delay 1s thì phải, lâu quá ko nhớ nữa, nên bác thử để 5s đi cho chắc ăn, chục con delay 5s thì trung bình dc 2 request/giây rồi
     
  3. money

    money Hương Chủ

    Mỗi người nói 1 kiểu do IP hoặc proxy của mỗi người khác nhau. Dải IP sạch thì crawl ít bị chặn hơn. Nhưng nếu crawl mãi thì sớm hay muộn cũng bị thôi. Em nên test thử bắt đầu từ 10s, rồi giảm dần xuống để có số delay phù hợp từng IP.
     
  4. firefox

    firefox Bang Chúng

    mình dùng instantproxies, lúc đầu cứ đụng là nó captcha, sau mới biết phải mở ticket chửi bới để nó cho bộ proxy ổn hơn. Mình dùng bộ đó đặt delay 4s khá ổn
     
  5. thitgaluoc

    thitgaluoc Hương Chủ

    em xài proxy public cào được trên web, rotate vòng quanh mỗi proxy tối thiểu 2 request cách nhau 5 giây thấy ok, chưa thử nhanh hơn.
    test thử vài ngày rồi tắt, cũng chưa làm gì với bộ code đó :D
     
  6. fkphua

    fkphua Tân Thủ Thôn

    bác xài proxy pulic trang nào vậy @@ , coi rotate proxy mà nhiều thằng giá ảo kinh @@
     
  7. loyki

    loyki Bang Chúng

    Crawl của bing ít dính captcha hơn
     
  8. thitgaluoc

    thitgaluoc Hương Chủ

    mình xài proxy lấy trên mạng thôi, cái này ko share được, hiệu suất cũng k cao, ngày được tầm 50k page thôi
     
  9. quoc nguyen

    quoc nguyen Sơ Nhập Giang Hồ

    Đù, sao thím nào cũng thực hành bộ môn cào mặt google thế :))
     
  10. Tạ hơi nặng

    Tạ hơi nặng Bang Chúng

    Đang trend vụ làm giống mấy cái site share trong box nâng cao mà :D

    e đã pass qua mấy dạng đó rồi, dự là sắp nát, e đã phát triển thành 1 system khác rồi kkk
     
  11. command

    command Bang Chúng

    Sao ko thử dạng proxies mình share trong box kín kia, chắc lọt hơn 50k page/d mà :)
    --- Double Post Merged, Sep 27, 2021, Original Post Date: Sep 27, 2021 ---
    Share ý tưởng System khác đi :)
     
    thitgaluoc likes this.
  12. Tạ hơi nặng

    Tạ hơi nặng Bang Chúng

    Bác command ơi cơ bản cũng k có gì to tát đâu, nó vẫn là thế thôi nâng cấp lên thêm mắm muối vào bác ak

    còn ý tưởng khác thì nhiều lắm ạ, đi đâu hay niche nào e cũng thấy ae auto làm kinh hồn luôn {baffle}
     
  13. thangvbvb25

    thangvbvb25 Sơ Nhập Giang Hồ

    Em đang dùng vps của google cloud, em đặt 5s mới đầu chạy ngon rồi ạ, xin chân thành cám ơn các anh em ạ

    Ngoài set delay ra thì em còn có thể set thêm user-agent hay gì đó nữa để giảm khả năng dính capcha ko anh ?
     
  14. money

    money Hương Chủ

    Dùng chrome user agent là tốt nhất. Ít captcha và dc ưu tiên như 1 request lấy dc 100 results (các agent loại khác chỉ dc 50 - đó là mấy năm trước lúc anh còn crawl G nhiều, giờ ko chắc).