hỏi cách crawl website sử dụng Super Bot Fight Mode cf

Discussion in 'Thảo Luận Chung' started by thanh858036, Jun 3, 2021.

  1. thanh858036

    thanh858036 Sơ Nhập Giang Hồ

    website sử dụng cái này chỉ có trình duyệt mới qua được còn lại request toàn bị captcha
     
    Last edited: Jun 6, 2021
  2. firefox

    firefox Bang Chúng

    xài headless thử đi bác
     
  3. thanh858036

    thanh858036 Sơ Nhập Giang Hồ

    ngoài headless thì sao. headless vừa chậm vừa nặng
     
  4. Madkelele

    Madkelele Tân Thủ Thôn

    puppeteer thì bật JS, set user-agent là qua được kiểu này mà.
     
  5. Tọi

    Tọi Sơ Nhập Giang Hồ

    headless biết tối ưu thì k nặng nhé.
     
  6. sincos

    sincos Bang Chúng

    Mình đã đi tìm giải pháp cho cái này hơn 1 năm rồi mà chưa ra. Không biết nó dùng cơ chế gì nhưng đang nghi ngờ liên quan tới SSL.....

    Mình chưa hiểu nguyên lý detect của nó, và chỉ biết rằng request từ các lib khác (đã import CA) vẫn không được.

    Giải pháp hiện tại phải dựng proxy thông qua puppeteer thôi.
     
  7. thitgaluoc

    thitgaluoc Hương Chủ

    puppeteer cho nó nhanh, còn thời gian đi làm việc khác cho rồi :D