Chào các bác , có cách nào crawler nội dung site của họ mà ko làm ảnh hưởng đến site của họ không ạ . trước giờ e toàn trỏ trực tiếp url web của họ rồi get content . ngoài cách trực tiếp này thì còn cách nào gián tiếp ko các bác ?
Nếu b để tốc độ crawl vừa phải thì việc get content ảnh hưởng gì đến site đích đâu. Họ cũng chả quan tâm bạn đang get content hay làm gì. Miễn đừng làm quá đến độ sập cả server của họ như mấy pro ở đây ra thì việc gì đâu
Cách khác nữa là crawl qua cache của google hoặc archive. Nhưng như vậy thì content không phải lúc nào cũng đủ và mới nhất.
không bạn, lúc này là bạn đang request đến server của archive.org, và nó móc từ database của nó ra, k phải từ site bạn cào
Dùng server của google hoặc bing request thử là được. Còn 1 cách khác là bạn đi kiếm mấy dịch vụ tạo hosting free ấy, Đăng ký tầm chục cái rồi bắt đầu roud robin các hosting ấy để làm proxy. Ngoài ra còn 1 cách nữa cho anh em MMO có free proxy. Mua cái D-COM rồi xài. Cứ khi nào block IP thì tắt D-COM bật lại là có IP mới Vừa rẻ vừa dễ
Còn 1 cách khác là tạo proxy từ vps nhé http://cafemmo.club/threads/huong-dan-tao-sock-5-tu-vps-ubuntu.2930/ Kiếm mấy con vps giá rẻ tầm 1-2$ mà làm
Kiểu này nè bác, dùng cái tương tự như dạng này https://github.com/mcnemesis/proxy.php , sau đó đăng ký một đống tầm vài chục cái host free, quăng script lên, tuy tốc độ hơi thấp nhưng craw thoải mái. còn roundrobin tức là làm lần lượt xoay vòng trong danh sách ấy, mỗi ip request lượng vừa đủ thôi, mục đích để giảm số lượng request từ 1 IP. Giàu hơn thì tự tạo sock, tự scan, hoặc mua proxy cho thoải mái
Như bác dưới nói là đúng rồi đó. Đúng rồi, bác giải thích chuẩn rồi ạ. Anh em có thể reg host free, hoặc mua thêm IP ở 1 vài dịch vụ là được. Ngoài ra có thể crawl bằng trình duyệt Cách làm thì đơn giản thôi. Viết code javascript sau đó vào trang web nhấn F12 rồi chạy trong console. Cao cấp hơn tí thì dùng extension https://chrome.google.com/webstore/detail/tampermonkey/dhdgffkkebhmkfjojejmpbldmpobfkfo?hl=vi Sau đó tự viết javascript, select từng link truy cập bóc tách dữ liệu rồi export hoặc bắn qua rest api để lưu lại. Trình duyệt thì chắc nó ko cấm, làm 1 phát 10 tab chrome thì không khác gì có 10 job crawl cả. Kiếm máy khỏe hoặc ra nét mà cắm là được. Trước em cắm 1 đêm là xong cái site có vài triệu bản ghi.
Không chậm lắm đâu, tại vì mình ngồi nhìn thì nó chậm. Trước em reg cái vps free của google, làm mỗi tí xong vứt đó rồi mò xem sau cungx đc khối