Crawl web bằng curl bị nó chặn ip thì có option nào qua được ko các bro?

Discussion in 'Hỏi Đáp Kỹ Thuật' started by Tường Vy, Aug 11, 2017.

  1. Tường Vy

    Tường Vy Tân Thủ Thôn

    Vâng, câu hỏi của e nằm hết ở tiêu đề rồi ạ :)
     
    error likes this.
  2. Sói

    Sói Administrator Staff Member

    Crawl là luôn phải có proxy.
     
    Do Xuan Thang likes this.
  3. Do Xuan Thang

    Do Xuan Thang Khách Qua Đường

    bác Sói cho em hỏi cách reset DCOM với ạ :D, với cả có nguồn proxy nào alive nhiều nhiều chút không ạ? em check trên mạng thấy die nhiều quá
     
  4. Sói

    Sói Administrator Staff Member

    Mình biết vụ reset DCOM nhưng chưa code bao giờ cả :D
    Còn proxy thì mua thôi. Proxy free chỉ dùng cho mấy chức năng đơn giản chứ dùng liên tục thì ko dc vì bị block rất nhanh.
    Free proxy hay xài của thằng này: http:// spys. ru/en/
     
  5. fixbug

    fixbug Moderator Staff Member

    Proxy thôi bác :D
     
  6. evilbaby

    evilbaby Khách Qua Đường

    xài ssh nguồn cũng nhiều mà free nữa
     
  7. DVince

    DVince Khách Qua Đường

    Bác Sói cho em hỏi mua proxy ở đâu thì chất lượng ạ? Em đang cần mua proxy mà không rành chỗ mua hê hê.
     
  8. giangnam233

    giangnam233 Tân Thủ Thôn

    Ko có proxy thì sleep cũng dc, nhưng như vậy thì crawl chậm.
     
  9. Sói

    Sói Administrator Staff Member

    Mình đang xài Instant Proxies . com
     
  10. DVince

    DVince Khách Qua Đường

    Vâng em cảm ơn bác. À bác dùng thì thấy proxy live lâu không ạ? Em thấy 10$ / 10 proxies thì hơi đắt mà không biết live lâu không :D
     
  11. Sói

    Sói Administrator Staff Member

    Cũng không lâu lắm đâu, package cũ nhất thì xài dc khoảng 2 năm, mới nhất thì khoảng 1 năm. Giờ vẫn đang xài 3 package, crawl 247 chưa vấn đề gì.
     
  12. DVince

    DVince Khách Qua Đường

    {feel_good}{feel_good}{feel_good} Đúng là tiền nào của đấy. Để em mua luôn cho nóng, em cảm ơn bác.
     
  13. Sói

    Sói Administrator Staff Member

    Hên xui nhé, nhưng dc cái thằng này support nhanh, nếu crawl bị block quá thì có thể request nó đổi IP class khác.
     
  14. Phan Thị

    Phan Thị Bang Chúng

    Bọn instalproxy nó đổi ip liên tục mà.
     
  15. Sói

    Sói Administrator Staff Member

    Đâu ra mà liên tục?
    KLQ nhưng avatar xinh vãi {big_smile}
     
  16. Phan Thị

    Phan Thị Bang Chúng

    Thường thì mình check thấy vài ngày là nó lại cập nhật ip một lần. {adore}
     
  17. Sói

    Sói Administrator Staff Member

    Default là 1 tháng, request thì lúc nào cũng được nhưng khi đã có list IP tốt thì cứ xài thôi, đừng đổi làm gì. Mình xài 30 IPs chưa đổi bao giờ.
     
  18. DVince

    DVince Khách Qua Đường

    Em đang bị thắc mắc xíu bác ạ. Hôm qua e test thì tầm 6k request thì bị ăn captcha vào mặt, nếu tính ra thì 10 proxies thì e chỉ request được tầm 60k thôi à {beat_shot}
    Bác có giải pháp nào tiết kiệm mà ít ăn captcha không bác Sói? Em cho nó sleep 1s rồi {angry}
     
  19. Jack

    Jack Tân Thủ Thôn

    chuẩn cmnr. reset Dcom lâu bỏ chấy. Mình mua mẹ tool GSA Proxy rồi tự export ra txt. tool mình tự nhập txt vào thôi :v
     
  20. Sói

    Sói Administrator Staff Member

    Mình đang làm như này:
    - Dùng random useragent và random proxy.
    - Chạy song song nhiều process, trung bình 10 proxies thì chạy 20 process cùng lúc.
    - Sleep 2s sau mỗi request của mỗi process
    - 1 proxy request nếu bị fail 3 lần thì remove ra khỏi list proxy.
    - Khi list proxy = empty thì nạp lại chạy tiếp.
    - Nếu nạp lại chạy tiếp mà fail hết thì nghỉ vài phút (trường hợp này chưa bao giờ bị).
     
    DVince and Jack like this.