Proxy của instantproxies.com có crawl được sốppi không ??

Discussion in 'Hỏi Đáp Kỹ Thuật' started by Tusupper, Nov 21, 2020.

  1. Tusupper

    Tusupper Tân Thủ Thôn

    Hi!
    E cần crawl một số trang trên sốp pi mà nó dùng js kết hợp ajax để render, e thì không rành webdriver nên chỉ cào bằng cách call qua public api của nó nhưng bị limit, nên e định mua gói private 10$/10 proxy của nó để crawl nhưng sợ không dùng được, vì e có thử mấy cái free proxy trên mạng thì không connect được (crawl thử google.com thì vẫn được). sẵn tiện bác nào đang có proxy bên thằng này PM cho e mượn 1 cái test thử được k ạ??
     
  2. Nai

    Nai MiddleMan Staff Member

    Curl trực tiếp ko biết thế nào chứ qua API thì IP bị block nhanh lắm. Dùng rotate proxy hoặc phương pháp khác.
    --- Double Post Merged, Nov 21, 2020, Original Post Date: Nov 21, 2020 ---
    Nhưng dùng rotate proxy thì hơi bị chậm. Nếu site chưa có traffic hoặc ít thì nên tìm giải pháp khác.
     
  3. Tusupper

    Tusupper Tân Thủ Thôn

    nó dùng js call api bằng ajax rồi render html bác ơi,e đang tìm hiểu splash bên python chứ selenium ăn ram kinh quá
     
  4. thitgaluoc

    thitgaluoc Hương Chủ

    hồi mình cào nó là API ko bị limit. k hiểu bạn cào kiểu gì?
     
  5. Nai

    Nai MiddleMan Staff Member

    Hồi trước ko, giờ thì có nhưng ko phải limit mà là lúc hiển thị dữ liệu, lúc ko :D
     
  6. Tusupper

    Tusupper Tân Thủ Thôn

    uhm đúng vậy đó bác, e phát hiện là do nó thiếu cái if-none-match- trong request header nên ngồi decode đống js để gửi thêm vào request nhưng chạy liên tục căng lắm được 17 lần call là nó trả về trống rỗng à. Chắc chắn là limit vì e thử đổi ip phát là lại cào được ngay
    --- Double Post Merged, Nov 22, 2020, Original Post Date: Nov 22, 2020 ---
    e nhấn F12 bấm sang tab network chọn xhr xem request ngầm của nó phát hiện nó lấy thông tin qua api (nó request api khác mấy bước mới request đến api này nhưng api này nó trả về json) nên e copy thử thay đổi lại tham số??
    vầy đã đúng chưa bác??
     
  7. thitgaluoc

    thitgaluoc Hương Chủ

    [​IMG]
    như này bạn
     
  8. Tusupper

    Tusupper Tân Thủ Thôn

    ý
    ý bác là referer hay là cái dnt kia ạ
     
  9. thitgaluoc

    thitgaluoc Hương Chủ

    ý mình là cái endpoint của nó ấy, lâu rồi k check k biết nó đã đổi chưa
    header dnt với ref k quan trọng đâu, quan trọng là cái If-None-Match- kia kìa
     
  10. Tusupper

    Tusupper Tân Thủ Thôn

    Endpoint này e chưa test nhưng endpoint khi mà a search từ khóa hoặc category cụ thể thì mới bị
    Chạy đc 10 lần là nó trống rỗng, đổi ip cái là chạy ngon lành
     
  11. thetrue

    thetrue Sơ Nhập Giang Hồ

    crawl 1 hồi kết quả trả về ko đủ, vd như name ko đủ dài, thiếu giá... phải fake header ntn để pass các cụ hả?
     
    thitgaluoc likes this.
  12. Nai

    Nai MiddleMan Staff Member

    Qua được vòng 1 là pass cái vụ block sau hơn chục request chưa đã
     
  13. snowman2

    snowman2 Tân Thủ Thôn

    api hinh như mình call thấy đẻ ra thiếu data kiểu thiếu các trường. Api xịn thật..trước định crawl thành trang sản phẩm mà khoai ..dùng selenium lấy dom thôi
     
  14. thitgaluoc

    thitgaluoc Hương Chủ

    api này nó mã hoá mà, tính ra đúng cái header If-None-Match của nó thì nó trả về kết quả đúng thôi :D
    bác nào cần chi tiết hơn thì inbox nhé
     
  15. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    4rum nhiều cao nhân về crawler vãi lúa. Site nào củng qua dc :3
     
  16. Tusupper

    Tusupper Tân Thủ Thôn

    Em cũng mò đc cái if-none-match rồi bác ơi, má nó pass qua cái anonymous function nhưng thực chất là nó bind ngầm hàm đó với hàm md5, dễ vl nhưng ko biết debug gần chết, nhưng vẫn dính limit khi call liên tục hà. E vẫn ko hiểu tại sao luôn, mấy nay bận quá nên vứt đó chưa làm xong
    --- Double Post Merged, Nov 27, 2020, Original Post Date: Nov 27, 2020 ---
    Nhưng cào kiểu lấy dom thì ko bị limit, cào 100trang liên tục vẫn ok,nhưng lấy dom nó ko đầy đủ
     
    thitgaluoc, snowman2 and Nai like this.
  17. Nai

    Nai MiddleMan Staff Member

    Lấy DOM ko đầy đủ là sao bác? Giống như thiếu if none match?
     
  18. snowman2

    snowman2 Tân Thủ Thôn

    tài mò thật em crawl toàn dùng selenium với headless browser lấy thôi đỡ phải nghĩ nhiều
     
  19. thitgaluoc

    thitgaluoc Hương Chủ

    chắc nó mới thêm firewall bảo vệ chứ trước e k thấy bị limit :D
     
  20. Nai

    Nai MiddleMan Staff Member

    Nhà có điều kiện nên đi chợ đâu cần nhìn giá =))
     
    snowman2 and thitgaluoc like this.