E cần thuê người cào dữ liệu

Discussion in 'Chợ Việc Làm MMO' started by laogiavn, Oct 15, 2022.

  1. laogiavn

    laogiavn Sơ Nhập Giang Hồ

    E đang cần thuê người cào dữ liệu cho 1 vài site e cần yêu cầu bypass cloudflade
    inbox hoặc telegram @bamamvoz e gửi site
     
  2. noenmo

    noenmo Sơ Nhập Giang Hồ

    Thấy bác này hỏi khá nhiều trên forum nhưng hình như vẫn chưa tìm được giải pháp thì phải :D
    bác xem qua topic này xem có giải quyết được vấn đề của bác không?
    https://cafemmo.club/threads/lay-du-lieu-cua-site-bao-ve-boi-cloudflare.3256/page-2
    --- Double Post Merged, Oct 15, 2022, Original Post Date: Oct 15, 2022 ---
    demo cho bác một giải pháp như video bên dưới là em crawl nettruyen


    Và giới thiệu với bác một số thư viện xử lý việc bypass cf
    + python: cfscrape
    ex:
    Code:
    import cfscrape
    scraper = cfscrape.create_scraper()
    a=scraper.get("https://www.nettruyenme.com/truyen-tranh/dai-quan-gia-la-ma-hoang-219482").content
    print(a)
    + php: Em search trên github thì thấy nhiều mà chưa thử thằng nào, bác thử xem
    Code:
    https://github.com/IhsanDevs/cloudflare-bypasser
    https://github.com/GuardIran/CloudHound
    node thì em thấy hình như là rất nhiều thư viện hỗ trợ nhưng theo kiểu headless nó không tiện cho multithreads lắm, bác có thể tham khảo các thư viện kiểu như puppeteer
    bác nên tham khảo qua một số topic trên forum, có rất nhiều chia sẻ liên quan đến vấn đề này rồi.
    Chúc bác vượt cf thành công :D
     
    Last edited: Oct 15, 2022
  3. sincos

    sincos Bang Chúng

    @noenmo các thư viện kia out-of-date hết rồi bác.
     
  4. laogiavn

    laogiavn Sơ Nhập Giang Hồ

    e tìm đc rồi nhé cảm ơn ae
     
  5. noenmo

    noenmo Sơ Nhập Giang Hồ

    mình không dùng python nhưng cái lib python mình test vẫn ok mà nhỉ :)
     
  6. takeda

    takeda Khách Qua Đường

    Mình thì cào không dùng headless mà qua cái API không quá phổ biến của Cloudflare, cũng dùng mấy năm nay rồi chưa thấy bị fix gì cả, cái khổ là cứ 1 tháng phải cho nó query tạo lại API key mới, so với headless chắc là tiện hơn vì headless bản chất là mở cả cái Chrome to bự ra cào, nặng vãi.
     
  7. huvo6789

    huvo6789 Tân Thủ Thôn

    API nào thế bác ơi. bác có thể share ko? e đang cào 1 web mà đang vướng Cloudflare. dùng cfscrape thì không gắn proxy được
     
  8. Thị Nở

    Thị Nở Tân Thủ Thôn

    các bác có cách nào để bypass cf mới không.
    Em đang dùng headless, cũng tắt đủ option rồi nhưng mà ăn CPU ko chịu được