Dịch vụ Crawl Websites

Discussion in 'Thảo Luận Chung' started by RockSoft, Oct 26, 2021.

  1. RockSoft

    RockSoft Culi Manager Staff Member

    Chào toàn thể anh em,

    Mình đang làm private crawler cho sếp ở US nên mạng phép thăm dò nhu cầu anh em. Nếu anh em có nhu cầu có thể mình sẽ mở dịch vụ public API phục vụ cho anh em.

    Tóm gọn crawler của mình sẽ theo dạng:
    - Mỗi một users/clients sẽ chạy 1 Docker riêng để crawl. Tùy vào mức độ crawl của mỗi users mà sẽ thêm Docker nếu cần.
    - Phí hàng tháng: trung bình tầm $50/tháng cho 100.000 requests. Mỗi request là 1 url web mà cần crawl.
    - Proxies mặc định: dùng pool proxy chung.
    - Proxies premium: pool premium proxy. Nếu dùng premium proxy thì $50/tháng cho 10.000 requests. Đa phần những website bật chế độ super bot fight đều phải dùng premium proxy mới qua được.

    Căn bản là anh em không cần phải lo vụ coding cũng như proxy khi crawl, toàn bộ request chỉ tính phí khi trả về html thành công. Còn nếu anh em nào muốn parse luôn dữ liệu và trả về json thì liên hệ riêng vì tùy thuộc vào website nguồn và dữ liệu cần lấy.

    Các anh em cho ý kiến với nha. Liệu với phí căn bản $50/tháng anh em có sẵn sàng mua không? Nếu anh em nào cần crawl webs nào đặc biệt thì cứ inbox mình xem cho nhé.
     
  2. loyki

    loyki Bang Chúng

    Bác có thể inbox skype để em tiện liên hệ được không
     
  3. Nai

    Nai MiddleMan Staff Member

    Bất chấp victim là gì đều trả về full html đã load xong của page luôn hả anh.
    Nếu là vậy thì ngon quá, vì có nhiều site load data từ script và còn bị captcha kiểu kéo trượt nữa.
     
  4. no-reply

    no-reply Bang Chúng

    Cứ crawl theo tool của m gặp khó thì mới đẩy qua api kể ra cũng đc. Vụ giá thì e mù tịt để các b sau lên tiếng.
     
  5. RockSoft

    RockSoft Culi Manager Staff Member

    Load data từ script nghĩa là cần render javascript thì giá tăng một chút: $50 cho 20.000 requests. Còn captcha thì không cần lo vì hệ thống sẽ tự đổi proxy để vượt captcha và chỉ tính phí khi trả về được html.

    Như anh đề cập thì nhiều victim bật super bot fight hoặc sử dụng các bên thứ 3 như perimeterX thì phải xài premium proxy mới crawl được.

    Bản chất dịch vụ không xử lý captcha mà dựa vào số lượng lớn proxy + premium proxy để bypass captcha.
     
    Last edited: Oct 27, 2021
    Tony Vu, Nai and firefox like this.
  6. Phan Thị

    Phan Thị Bang Chúng

    Cái này nhiều service lắm rồi. Giá thì tạo sam sam họ là có khách
     
  7. noenmo

    noenmo Sơ Nhập Giang Hồ

    Vụ này hay đấy, em cũng đang cần crawl mấy thằng mà chưa biết crawl kiểu gì?
    Bác tính phí cho em thằng similarweb.com với ạ.
     
  8. Coder lởm

    Coder lởm Khách Qua Đường

    bác cho em xin mấy bên được k ạ?
     
  9. AkuVn

    AkuVn Hương Chủ

    Hay quá em có tận dụng đc gì ko anh Lồng Đèn @@
     
  10. Mr Ghost

    Mr Ghost Sơ Nhập Giang Hồ

    Có thể nào @RockSoft public cái skype để anh em liên hệ khi cần hoặc có trang web nào giới thiệu dịch vụ này không?
     
  11. RockSoft

    RockSoft Culi Manager Staff Member

    Dịch vụ crawl websites chắc không bao giờ public! Vì mình cũng như khá nhiều anh em ở đây đều đang làm crawler cho chính mình hoặc cho team, nên hiểu rõ bản chất của công việc này không chỉ đơn giản là crawl một đống data về, mà là cần làm gì tiếp theo để kiếm tiền từ đống data đó.

    Mình đang think out of the box để chuyển việc crawl data thành data mining/data analysis. Có như thế thì developers mới có nguồn thu hàng tháng từ những dòng code mình viết ra. Nếu chỉ đơn giản là crawl data 1 lần của 1 web nào đó rồi thôi thì các bạn có thể tìm thấy nhan nhản ở các platform freelancers. Và những clients dạng như thế thì mình tránh càng xa càng tốt :)!

    Mindset mình hướng đến là tìm kiếm những clients có nhu cầu cập nhật data hàng ngày hoặc realtime. Khi đó mình mang đến cho họ giải pháp dashboard, APIs....và ngược lại mình sẽ nhận $ hàng tháng từ họ. Đây là mối quan hệ phụ thuộc lẫn nhau nên cả 2 cùng win-win chứ không mua đứt bán đoạn 1 giải pháp nào cả.

    Mình tin một điều là bất cứ thợ crawl nào ở forum này đều có giải pháp crawl tẹt ga bất kể search engineer hay bot fighting mode nào. Tất cả phụ thuộc vào bước đầu tiên (tiền đâu) mà khách hàng có sẵn sàng chi hay không thôi!
     
    Tony Vu, watanabeuk, no-reply and 4 others like this.
  12. money

    money Hương Chủ

    Ý tưởng được đấy shop ơi. Chúc shop mua may bán đắt nhé.
     
  13. AkuVn

    AkuVn Hương Chủ

    Đại ka RockSoft có thể cho em xin lại cái SĐT để call trao đổi cho tiện ko :D Vì cơ bản em ko biết kỹ thuật giải quyết đc ko mà viết thì hơi loằng ngoằng.