Mong được giải đáp ạ !!! [Crawler Image PHP]

Discussion in 'Hỏi Đáp Kỹ Thuật' started by Newbie88, Apr 27, 2021.

  1. sincos

    sincos Bang Chúng

    Selenium hay Puppeteer tớ đều dùng cả.... nhưng chỉ khi bắt buộc thôi vì nó quá tốn tài nguyên và chậm nữa. Chưa kể khi triển khai trên môi trường server nó yêu cầu cài đặt thêm nhiều thư viện nữa rất mệt.
     
    Last edited: May 16, 2021
  2. PhimYo

    PhimYo Tân Thủ Thôn

    Nhiều trang phải kết hợp với selenium chứ simple html dom không cào đc hết đâu.
     
  3. Newbie88

    Newbie88 Tân Thủ Thôn

    Em cảm ơn các bác đã góp ý ạ, e mới tìm hiểu về mảng này nên có nhiều cái chưa biết mong các bác thông cảm :D
     
  4. mmo2013

    mmo2013 Khách Qua Đường

    Kinh nghiệm của em là dùng mấy thư viện render DOM ảo luôn và tương tác.
     
    ungthienchinh122 likes this.
  5. ungthienchinh122

    ungthienchinh122 Khách Qua Đường

    có những trang bị dính cloudflare vô crawler thì bị báo
    Please turn JavaScript on and reload the page.

    DDoS protection by cloudflare
    Ray ID: 662a56239bba0b6f
    Vậy làm sao để by pass qua được vậy mọi người
     
  6. thitgaluoc

    thitgaluoc Hương Chủ

    bật js lên
     
  7. ungthienchinh122

    ungthienchinh122 Khách Qua Đường

    trong code C# thì bật sao bạn
     
  8. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Cậu xài code gì của C# vậy?
     
  9. ungthienchinh122

    ungthienchinh122 Khách Qua Đường

    RestSharp hoặc httpRequest đều bị dính cloudflare
    --- Double Post Merged, Jun 21, 2021, Original Post Date: Jun 21, 2021 ---
    bạn có cách nào bypass thằng cloudflare không
     
  10. sincos

    sincos Bang Chúng

    Có... viết 1 cái proxy chạy bằng puppeteer hoặc selenium.
     
    Newbie88 likes this.
  11. ungthienchinh122

    ungthienchinh122 Khách Qua Đường

    viết selenium với options hả bạn Argument, hay là proxy cho selenium, bạn có code mẫu selenium không
     
    Newbie88 likes this.
  12. sincos

    sincos Bang Chúng

    Đưa link lên đây thử xem.
     
    Newbie88 likes this.
  13. ungthienchinh122

    ungthienchinh122 Khách Qua Đường

    đây nè link hơi nhạy cảm nha
    onejav(.)com/search/IPZ-481
     
  14. sincos

    sincos Bang Chúng

    Last edited: Jun 22, 2021
  15. ungthienchinh122

    ungthienchinh122 Khách Qua Đường

    chưa hiểu cách làm lắm
    --- Double Post Merged, Jun 22, 2021, Original Post Date: Jun 22, 2021 ---
    là mình viết proxy rồi đẩy lên herokuapp như bạn hả
    --- Double Post Merged, Jun 22, 2021 ---
    bạn viết bằng PHP hả, nếu đc cho xin file PHP đó đi, mình up lên cho nhanh {big_smile}
     
  16. sincos

    sincos Bang Chúng

    Chỉ chỗ cho câu cá thôi. Muốn ăn cá mà không phải câu thì ra chợ nhé.
     
    Last edited: Jun 22, 2021
  17. catd3vjl

    catd3vjl Khách Qua Đường

    bác sincos cho em xin keyword để học làm cái proxy gate giống vậy với, em bí kw qá.
     
  18. thitgaluoc

    thitgaluoc Hương Chủ

    cách của bác sincos đại loại là API-hoá cái web đó bằng cách dùng puppeteer parse nó ra rồi trả về kết quả ấy, bạn làm 1 cái hàm cũng đc mà
     
    catd3vjl likes this.
  19. Tạ hơi nặng

    Tạ hơi nặng Bang Chúng

    Bác sincos có dạy code ko e theo học với méo hiểu cgi cả @@
     
  20. sincos

    sincos Bang Chúng

    Keyword: puppeteer.

    Nguyên lý cơ bản của cái này là dùng 1 headless browser để truy cập vào trang web. CF nó chỉ challenge lần đầu hoặc lâu lâu hiện tại để verify thôi.

    Thì bạn cứ học thôi, không hiểu chỗ nào thì post lên hoặc PM hỏi riêng. Mình cũng không có nhiều thời gian lắm nhưng cũng không tiếc với các bạn hiếu học.
     
    Nai, Hoa Mãn Lâu and catd3vjl like this.