Hi bác, e đang tìm cách cào Amazon, e tính cào cỡ vài M product của nó. Vấn đề e đang gặp phải là Proxy. Em thấy bác có thảo luận về vấn đề này,...
Hình như nodejs không thực sự đa luồng kể cả có dùng cluster các bác ạ
E muốn tối ưu tiền mua VPS cào ạ
Giải pháp là phải lưu Mysql rùi ạ
E đang dùng nodejs để cào dữ liệu, bây giờ muốn cào số lượng lớn url nên có tìm hiểu Cluster, anh em nào đã từng dùng cho e lời khuyên. Liệu...
Dữ liệu crawl e vẫn cập Nhật thường xuyên anh ạ. Vậy theo như cách a làm thì em chia làm 2 loại dât. Loại nào dữ liệu lớn thì đẩy hết qua Es còn...
Đỉnh quá anh! Nếu đẩy luôn sang Es thì có cần insert bên mysql nữa ko a nhỉ? Và bên Es thì đẩy toàn bộ field sang được ko anh, e nghĩ nếu đẩy toàn...
Check skype a ơi
Ok anh
Cụ thể quá anh! Nhưng phần Stats phải là tạo mới chứ không phải là update ạ. Dữ liệu giống như kiểu làm biểu đồ thống kê views từng ngày của Post...
Để đẩy 100k post qua ES thì tốn nhiều thời gian không anh. Thank a
Mình làm để cho user nó lọc kết quả bạn à
Em định Table sẽ thế này: Posts -id, title, total_views Stats -id, post_id, daily_view, date Ý tưởng của em là hàng ngày sẽ quét toàn bộ 100k...
Các bác có giải pháp filter ra top bài post có lượng views cao nhất trong 1 khoảng thời gian tuỳ thích không ạ. Dữ liệu cỡ 10M row mysql. Mong ae...
Separate names with a comma.