Mình có tìm thấy 1 trang web có API , dữ liệu khoảng 600 triệu bài, hiện tại cố lắm mình cào một ngày dc 50.000 bài nên chả biết bao h xong xin các bác có phương án nào cào nhanh hơn ko
50k url/ ngày thì 600 triệu mất 33 năm à nếu không có captcha thì với 600 triệu urls, thời gian cào khoảng 3-5 ngày tuỳ từng trang, bản thân thằng trang gốc đó phải có tốc độ tốt. Chắc chắn là phải multithreads rồi.
Trang mà có 600 triệu bài viết thuộc dạng hàng ít lắm như Wikipedia chẳng hạn,... Ngay cả pornhub mà chưa tới tầm 600 triệu posts nữa mà. Lưu ý dân auto không ai cào hết dữ liệu 1 web làm chi nếu chưa kiếm được tiền dư dã nuôi sống dự án đó với 1-5 triệu posts theo tiêu chí của người cào, nên cân nhắc lại việc cào hết 600 triệu posts vì có nhiều thứ khác rối hơn với Big data. Mô hình mình đang sử dụng để cào nè: Scraper thứ n ----> Redis: chứa các urls đã cào hoặc sẽ cào hoặc seed urls. Muốn cào nhanh thì thêm nhiều VPS chạy scraper, mỗi scraper hỗ trợ đa luồng (giàu hoặc nâng cao gì đó thì server).
Nghe quen quen, phải site bra... ko bác =)))) --- Double Post Merged, Jun 6, 2022, Original Post Date: Jun 6, 2022 --- Nếu nhiều bài quá, thì thường e chia mớ link cần cào ra, rồi ném lên các VPS riêng, kiểu giống bác command, 2 máy là tốc độ gấp 2 rồi, 5 cái là tốc độ gấp 5 (có dùng đa luồng)
Chủ topic nói cào web 600 triệu post nhé @thitgaluoc , 60 triệu chỉ là 10% thôi đó. Với số posts đó thì nằm trong top 50 thế giới rồi, rãnh thì check https://www.similarweb. com/top-websites/
Nó còn tuỳ text mà bác, như em làm social (ít text), thì 1b posts cũng chỉ khoảng 1TB data thôi (bao gồm cả index)