xin phương án cào dữ liệu số lượng lớn

Discussion in 'Hỏi Đáp Kỹ Thuật' started by paduc83, Jun 6, 2022.

  1. paduc83

    paduc83 Tân Thủ Thôn

    Mình có tìm thấy 1 trang web có API , dữ liệu khoảng 600 triệu bài, hiện tại cố lắm mình cào một ngày dc 50.000 bài nên chả biết bao h xong
    xin các bác có phương án nào cào nhanh hơn ko
     
  2. huvo6789

    huvo6789 Tân Thủ Thôn

    Mutile thread hết thớt
     
  3. noenmo

    noenmo Sơ Nhập Giang Hồ

    50k url/ ngày thì 600 triệu mất 33 năm à :D
    nếu không có captcha thì với 600 triệu urls, thời gian cào khoảng 3-5 ngày tuỳ từng trang, bản thân thằng trang gốc đó phải có tốc độ tốt.
    Chắc chắn là phải multithreads rồi.
     
  4. Tạ hơi nặng

    Tạ hơi nặng Bang Chúng

    Cứ show site lên các pro coder request 1 phát là hết :v
     
  5. noenmo

    noenmo Sơ Nhập Giang Hồ

    {big_smile}{beauty}
     
  6. command

    command Bang Chúng

    Trang mà có 600 triệu bài viết thuộc dạng hàng ít lắm như Wikipedia chẳng hạn,... Ngay cả pornhub mà chưa tới tầm 600 triệu posts nữa mà.

    Lưu ý dân auto không ai cào hết dữ liệu 1 web làm chi nếu chưa kiếm được tiền dư dã nuôi sống dự án đó với 1-5 triệu posts theo tiêu chí của người cào, nên cân nhắc lại việc cào hết 600 triệu posts vì có nhiều thứ khác rối hơn với Big data.

    Mô hình mình đang sử dụng để cào nè:
    Scraper thứ n ----> Redis: chứa các urls đã cào hoặc sẽ cào hoặc seed urls. Muốn cào nhanh thì thêm nhiều VPS chạy scraper, mỗi scraper hỗ trợ đa luồng (giàu hoặc nâng cao gì đó thì server).
     
    Last edited: Jun 6, 2022
    Tony Vu and noenmo like this.
  7. paduc83

    paduc83 Tân Thủ Thôn

    Nó là site do người dùng toàn thế giới up lên mà
     
    Last edited: Jun 6, 2022
  8. leonardo_17

    leonardo_17 Tân Thủ Thôn

    Nghe quen quen, phải site bra... ko bác =))))
    --- Double Post Merged, Jun 6, 2022, Original Post Date: Jun 6, 2022 ---
    Nếu nhiều bài quá, thì thường e chia mớ link cần cào ra, rồi ném lên các VPS riêng, kiểu giống bác command, 2 máy là tốc độ gấp 2 rồi, 5 cái là tốc độ gấp 5 (có dùng đa luồng)
     
  9. thitgaluoc

    thitgaluoc Hương Chủ

    đù, làm gì có site học tập nào tới 60 triệu post :D hay do em chưa biết zậy
     
  10. command

    command Bang Chúng

    Chủ topic nói cào web 600 triệu post nhé @thitgaluoc , 60 triệu chỉ là 10% thôi đó. Với số posts đó thì nằm trong top 50 thế giới rồi, rãnh thì check https://www.similarweb. com/top-websites/
     
  11. money

    money Hương Chủ

    Hóng share site
     
  12. firefox

    firefox Bang Chúng

    check inbox em chỉ cho {smile}
     
    money likes this.
  13. money

    money Hương Chủ

    Ib em tele rồi nhé. Thank you {sweet_kiss}
     
  14. noenmo

    noenmo Sơ Nhập Giang Hồ

    Thớt public site lên là có share json results ngay =)).
     
    Last edited: Jun 6, 2022
  15. Nai

    Nai MiddleMan Staff Member

    600tr post, site đó traffic 5% số lượng post thôi thì cũng là 1 miếng bánh to :D
     
  16. Tạ hơi nặng

    Tạ hơi nặng Bang Chúng

    Site học tập mà resource như kiểu chegg nó kiện chít mịa đấy {beat_brick}
     
  17. Hốc

    Hốc Sơ Nhập Giang Hồ

    600tr post thì data bao nhiêu T bác nhỉ
     
  18. automan

    automan Hương Chủ

    có đám cào chegg lên mấy triệu visit có thấy bị kiện gì đâu, vẫn đặt gà sống thôi {boss}
     
    Tạ hơi nặng likes this.
  19. noenmo

    noenmo Sơ Nhập Giang Hồ

    Nó còn tuỳ text mà bác, như em làm social (ít text), thì 1b posts cũng chỉ khoảng 1TB data thôi (bao gồm cả index)
     
    Hốc likes this.
  20. paduc83

    paduc83 Tân Thủ Thôn

    ......
     
    Last edited: Jul 1, 2022