Tình hình ngày 05/04/2001 yahoo shutdown (Cái này ai cũng biết). - yahho có khoản 85tr question (1777 file sitemap, mỗi file khoản 47k link question) - 1 mình lấy không hết (một ngày lấy tối đa 5 file) Vậy mời AE hợp tác lấy question answers yahoo (một người lấy 10 file sitemap) vì vậy cần 30 AE Sau ngày 05/04/2001 AE up lên chia sẻ với nhau (không chia sẻ ra ngoài). - Mình có làm bằng file php có thể up lên host chạy luôn hoặc chạy xamp trên locohost AE ai có hứng thú đăng ký thì điền email Đăng ký để mình phân phối file cần lấy, tránh trường hợp AE lấy trùng file
- 10 file sitemap có 30MB thôi - Lấy question khoản 100MB file txt - Chuyển txt sang csv: tìm "|" thay thành "\t" và đổi đuôi file thành .csv
Hiện tại chỉ có 3 người tham gia và mình là 4. Một người chạy được 5 file x 10 ngày / 1 IP = 50 file Tính ra tổng cộng chạy được 200 file => quá ít => tổng file 1777 file Quyền lợi và trách nhiệm: - Sau ngày 4/5 mình gom lại toàn bộ file txt để tạo file csv - AE nào tham gia craw được chia sẻ toàn bộ dữ liệu - Trách nhiệm: AE không chia sẻ ra bên ngoài cho bất kỳ ai (trừ AE tham gia craw) còn tại sao thì AE tự hiểu. AE nào tham gia đăng ký đến sáng mai nhé.
Chia sẻ là tốt, nhưng vô hình chung việc này nó làm data của bác ít giá trị hơn, nếu cào theo sitemap thì có mỗi 83.6m post, 1 người thuê 1 loạt vps DO cào 1 2 ngày là xong hết, chi phí vps <15$