Nay đi dạo group mình thấy có cách crawl dữ liệu khá tiện mà ko tốn nhiều tài nguyên và limit 100k link / ngày bằng cách dùng https://developer.yahoo.com/yql/#php Đã bác nào dùng cái này chưa nhỉ ?
Em có đề xuất, là bác nào ngày xưa có đăng ký OpenShift thì nên tìm và kích hoạt lại. Sẽ được 3 cái VPS Em đang nuôi 1 hệ 27 cái VPS chuyên Crawl. Ưu điểm của OpenShift là CPU mạnh, mạng mạnh, không giới hạn băng thông, hỗ trợ mysql, php, cron, mongodb... (nhiều lắm) Nhược: giới hạn 1GB . Phải có request vào vps đó trong 24h, không thì sẽ về trạng thái ngủ. (Dùng uptimerobot, cứ 6h request về vps 1 lần cho khỏi ngủ) Có thể là proxy (đặt 1 file php chạy CURL), hoặc xử lý dữ liệu thành dữ liệu đẹp để server chính GET về. Lưu ý: nick cũ mới được nhé, giờ đăng ký mới không được nữa nha
Em may mắn có 1 mớ xài như VPS thường thôi ạ nhưng 1 số cái thì bắt buộc phải mua VPS mới chạy nổi, thì phải mua hihi
Cái YQL giờ hình như k sài được rồi nha thím. Nếu biết code thì cứ CURL mà phang vào. Change proxy với useragent crawl ầm ầm @@