xin phương án cào dữ liệu số lượng lớn

paduc83 · Jun 6, 2022

Mình có tìm thấy 1 trang web có API , dữ liệu khoảng 600 triệu bài, hiện tại cố lắm mình cào một ngày dc 50.000 bài nên chả biết bao h xong
xin các bác có phương án nào cào nhanh hơn ko

huvo6789 · Jun 6, 2022

Mutile thread hết thớt

noenmo · Jun 6, 2022

50k url/ ngày thì 600 triệu mất 33 năm à
nếu không có captcha thì với 600 triệu urls, thời gian cào khoảng 3-5 ngày tuỳ từng trang, bản thân thằng trang gốc đó phải có tốc độ tốt.

huvo6789 said: ↑

Mutile thread hết thớt
Click to expand...

Chắc chắn là phải multithreads rồi.

Tạ hơi nặng · Jun 6, 2022

Cứ show site lên các pro coder request 1 phát là hết :v

noenmo · Jun 6, 2022

Tạ hơi nặng said: ↑

Cứ show site lên các pro coder request 1 phát là hết :v
Click to expand...

${big_smile}$

command · Jun 6, 2022

Tạ hơi nặng said: ↑

Cứ show site lên các pro coder request 1 phát là hết :v
Click to expand...

Trang mà có 600 triệu bài viết thuộc dạng hàng ít lắm như Wikipedia chẳng hạn,... Ngay cả pornhub mà chưa tới tầm 600 triệu posts nữa mà.

Lưu ý dân auto không ai cào hết dữ liệu 1 web làm chi nếu chưa kiếm được tiền dư dã nuôi sống dự án đó với 1-5 triệu posts theo tiêu chí của người cào, nên cân nhắc lại việc cào hết 600 triệu posts vì có nhiều thứ khác rối hơn với Big data.

Mô hình mình đang sử dụng để cào nè:
Scraper thứ n ----> Redis: chứa các urls đã cào hoặc sẽ cào hoặc seed urls. Muốn cào nhanh thì thêm nhiều VPS chạy scraper, mỗi scraper hỗ trợ đa luồng (giàu hoặc nâng cao gì đó thì server).

paduc83 · Jun 6, 2022

Nó là site do người dùng toàn thế giới up lên mà

leonardo_17 · Jun 6, 2022

Nghe quen quen, phải site bra... ko bác =))))

--- Double Post Merged, Jun 6, 2022, Original Post Date: Jun 6, 2022 ---

Nếu nhiều bài quá, thì thường e chia mớ link cần cào ra, rồi ném lên các VPS riêng, kiểu giống bác command, 2 máy là tốc độ gấp 2 rồi, 5 cái là tốc độ gấp 5 (có dùng đa luồng)

thitgaluoc · Jun 6, 2022

paduc83 said: ↑

Nó là site về học tập do người dùng toàn thế giới up lên mà
Click to expand...

đù, làm gì có site học tập nào tới 60 triệu post hay do em chưa biết zậy

command · Jun 6, 2022

paduc83 said: ↑

Mình có tìm thấy 1 trang web có API , dữ liệu khoảng 600 triệu bài, hiện tại cố lắm mình cào một ngày dc 50.000 bài nên chả biết bao h xong
xin các bác có phương án nào cào nhanh hơn ko
Click to expand...

Chủ topic nói cào web 600 triệu post nhé @thitgaluoc , 60 triệu chỉ là 10% thôi đó. Với số posts đó thì nằm trong top 50 thế giới rồi, rãnh thì check https://www.similarweb. com/top-websites/

money · Jun 6, 2022

Hóng share site

firefox · Jun 6, 2022

check inbox em chỉ cho

money · Jun 6, 2022

firefox said: ↑

check inbox em chỉ cho
Click to expand...

Ib em tele rồi nhé. Thank you ${sweet_kiss}$

noenmo · Jun 6, 2022

Thớt public site lên là có share json results ngay =)).

Nai · Jun 6, 2022

600tr post, site đó traffic 5% số lượng post thôi thì cũng là 1 miếng bánh to

Tạ hơi nặng · Jun 6, 2022

Site học tập mà resource như kiểu chegg nó kiện chít mịa đấy ${beat_brick}$

Hốc · Jun 6, 2022

600tr post thì data bao nhiêu T bác nhỉ

automan · Jun 6, 2022

Tạ hơi nặng said: ↑

Site học tập mà resource như kiểu chegg nó kiện chít mịa đấy ${beat_brick}$
Click to expand...

có đám cào chegg lên mấy triệu visit có thấy bị kiện gì đâu, vẫn đặt gà sống thôi

noenmo · Jun 6, 2022

Hốc said: ↑

600tr post thì data bao nhiêu T bác nhỉ
Click to expand...

Nó còn tuỳ text mà bác, như em làm social (ít text), thì 1b posts cũng chỉ khoảng 1TB data thôi (bao gồm cả index)

paduc83 · Jul 1, 2022

......

Log in or Sign up

xin phương án cào dữ liệu số lượng lớn

paduc83 Tân Thủ Thôn

More Threads in same category

huvo6789 Tân Thủ Thôn

noenmo Sơ Nhập Giang Hồ

Tạ hơi nặng Bang Chúng

noenmo Sơ Nhập Giang Hồ

command Bang Chúng

paduc83 Tân Thủ Thôn

leonardo_17 Tân Thủ Thôn

thitgaluoc Hương Chủ

command Bang Chúng

money Hương Chủ

firefox Bang Chúng

money Hương Chủ

noenmo Sơ Nhập Giang Hồ

Nai MiddleMan Staff Member

Tạ hơi nặng Bang Chúng

Hốc Sơ Nhập Giang Hồ

automan Hương Chủ

noenmo Sơ Nhập Giang Hồ

paduc83 Tân Thủ Thôn

Log in or Sign up

xin phương án cào dữ liệu số lượng lớn

paduc83 Tân Thủ Thôn

More Threads in same category

huvo6789 Tân Thủ Thôn

noenmo Sơ Nhập Giang Hồ

Tạ hơi nặng Bang Chúng

noenmo Sơ Nhập Giang Hồ

command Bang Chúng

paduc83 Tân Thủ Thôn

leonardo_17 Tân Thủ Thôn

thitgaluoc Hương Chủ

command Bang Chúng

money Hương Chủ

firefox Bang Chúng

money Hương Chủ

noenmo Sơ Nhập Giang Hồ

Nai MiddleMan Staff Member

Tạ hơi nặng Bang Chúng

Hốc Sơ Nhập Giang Hồ

automan Hương Chủ

noenmo Sơ Nhập Giang Hồ

paduc83 Tân Thủ Thôn

Useful Searches