Trời, làm sao curl Amazon mà không bị Captcha?

Discussion in 'Linux - PHP - Python - C# - Java' started by Cải Lão Ngoan Đồng, Jun 1, 2018.

  1. Cải Lão Ngoan Đồng

    Cải Lão Ngoan Đồng Tân Thủ Thôn

    Chào các đồng code, em đang làm affiliate amazon nên làm site để khách search trong site mình luôn. Dùng Amazon API thì quá sơ sài, nên em dùng cUrl để get, mọi thứ có vẻ ổn cho tới khi em up lên server.

    Cứ 2,3 request liên tiếp là hiện Captcha amazon lên, công trình của em đang bên bờ đổ vỡ. Các bác có cao kiến gì về vụ này không giúp em với

    Xin đa tạ...!!!
     
  2. Nai

    Nai MiddleMan Staff Member

    Hóng.
     
  3. Tọi

    Tọi Sơ Nhập Giang Hồ

    Anh để ý các HTTP headers nha anh. Cái này quan trọng nhất. header của 1 bot sẽ khác với 1 header của browser

    Và thường khi anh cURL, cần có nhiều proxy, vì 1 IP a request, nó note cache thì lần sau a reqeust sẽ k có data.

    Đây là em CURL http://nimb.ws/s3y9jJ
     
    Nai likes this.
  4. Cải Lão Ngoan Đồng

    Cải Lão Ngoan Đồng Tân Thủ Thôn

    cURL link nào mà ra array đẹp thế kia bác {beauty}
    Em dùng agent này: Mozilla/5.0 (Windows NT 6.1; rv:8.0) Gecko/20100101 Firefox/8.0
    Bác xem ổn ko vì nó phát hiện ra bot
     
  5. nguagovt

    nguagovt Sơ Nhập Giang Hồ

    Hóng ké {beauty}
     
  6. Luxifer

    Luxifer Sơ Nhập Giang Hồ

    Mấy cái này thì chỉ có chạy nhiều test xem hành vi phản hồi của nó như thế nào mà mình tối ưu theo thôi.
    Bạn nên:
    - Thay đổi User Agent / Referrer
    - Dùng cùng 1 cookie/session cho mỗi IP/User Agent.
    - Giới hạn số lượng request / giây / phút blabla
    Hard core hơn
    - Thay đổi IP (Proxy) thường xuyên
    - Tránh dùng các well-known AS number, thường là các Hosting provider lớn.

    Ah cái hình của bác kia hình như xài Post man nên mới chẹp thế :D
     
  7. money

    money Hương Chủ

    Bỏ chức năng search là xong. Mất thời gian chưa chắc đã ra tiền.
     
  8. Cải Lão Ngoan Đồng

    Cải Lão Ngoan Đồng Tân Thủ Thôn

    Thay proxy không ăn thua bác à, vì chỉ cần 2 request sát nhau là cũng có thể ăn đòn rồi
    Cái search là cái cốt lõi mà e cần làm nên cũng ko bỏ được. Hự hự
     
  9. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Cụ thể thím cần search lấy giá trị gì của amz ? Đua cái input và output mong muốn của thím ra xem nào?
     
  10. Tọi

    Tọi Sơ Nhập Giang Hồ

    Nó tuỳ vào nhu càu của anh.

    Ví dụ như anh lấy cái XML feed của nó thì nó update mỗi tiếng 1 lần, thì a set cache-control rồi khỏi chạy nữa.

    Còn search sản phẩm, anh tham khảo nodejs, nó parse lẹ mà ít bị ban, a thử với runkit xem sao.

    Em thấy chủ yếu là hành vi thôi, như user agent là mobile là cái window size là 1920 là bot chắc cú rồi.

    Anh có thể thử phantomJS
     
    Nai likes this.
  11. Dung Vuong

    Dung Vuong Sơ Nhập Giang Hồ

    Theo ngu kiến của em thì bác crawl hết db của amz về. Sau đó search trên server của mình là ok nhất đó ạ {big_smile}{big_smile}
     
  12. Trần Trọng Bách

    Trần Trọng Bách Sơ Nhập Giang Hồ

    Bạn kiểm tra thử xem liệu bot vào trang có request đến cái search đó không? Vì nếu chỉ muốn để khách search mà link search bot bò vào được thì mỗi lần bot vào lại bị request đến amazon, dễ bị ban. Chứ mới làm user không nhiều chắc k bị vậy. Sau đó khi nhiều thì xài proxy, nhiều proxy thì 2 request sát nhau qua 2 proxy sao die được.
     
  13. console

    console Bang Chúng

    Cái cm này là chuẩn nhất {biggrin}
     
  14. Cháu dì Sáu

    Cháu dì Sáu Bang Chúng

    API amazon ngu?
     
  15. thetrue

    thetrue Sơ Nhập Giang Hồ

    amz có cho datafeed ko vậy mn?
     
  16. Tọi

    Tọi Sơ Nhập Giang Hồ

    Ngồi nghĩ nghĩ em đang không hiểu.

    Nếu mình giả làm 1 con bot của google (user agent), thì có bị chặn không =)).

    Vì thường ai cũng whitelist user-agent của search engine :D
     
  17. money

    money Hương Chủ

    Giả được user agent chứ không giả được IP.
     
    Nai likes this.
  18. thetrue

    thetrue Sơ Nhập Giang Hồ

    amz hay site nào check dc IP của gg bot cũng dạng kinh hả a? chứ gg biết bao nhiêu ip mà nói
     
  19. money

    money Hương Chủ

    Nó có công bố các giải IP của nó mà. Có thể có 1 số hidden IP nhưng gbot vẫn dùng các dải IP public là chính.
     
    thetrue likes this.
  20. thitgaluoc

    thitgaluoc Hương Chủ

    google nó nắm cả block ip ấy chứ