Chả là e có bít 1 chút php và mài mò tìm cách cwarl các url mình thu nhập về, nhưng để lấy nội dung từ hàng trăm K url thì mình phải làm sao ạ, e ko hỉu phải làm như thế nào cho đúng, với nếu các url đó từ các website khác nhau thì mình lấy bằng cách nào ạ, vì mỗi website nó đều có 1 class riêng, id riêng, thuộc tính riêng,... Ko bít e có hỏi gì ngớ ngẩn ko, mong các cao nhân giải đáp giúp e
+ Thường thì mỗi web sẽ có cấu trúc chung cho phần lớn các page chính. Bạn viết code để lấy content của 1 page thì cũng lấy được các page khác cùng cấu trúc đó luôn. Ví dụ như một web abcxyz.com bạn thấy phần nội dung cần lấy của 1 page nó nằm trong tag "<div id="main-content">.....</div><!--END MAIN CONTENT-->" thì 99,99% các page khác tương tự cũng có nội dung cần lấy nằm trong tag đó thôi. Bạn viết code lấy nội dung trong tag trên là xài được cho tất cả các page tương tự của web. + Các web khác nếu khác cấu trúc thì phải chấp nhận code lại thôi. + Bởi vậy khi chọn nguồn để lấy content thì nên chọn các web có nhiều page, vài nghìn, vài trăm nghìn, vài triệu page cùng cấu trúc chẳng hạn, như thế đỡ mệt hơn.
+ Vâng bác cái này e hỉu, e có lấy đc 1 page nhưng ko bít code như thế nào để lấy đc nhìu page ấy ạ, tại code e còn hơi gà mờ nên suy nghĩ mãi ko ra, vs tham khảo mấy cách trên gg nhưng nó chỉ hd 1 page à +.... + MÌnh check kiểu gì để bít 1 web có nhìu page hả bác Em cảm ơn
dựa theo paginate nhé đa số dựa vào đó mà loop, để lấy hết content, có thể paginate theo homepage hoặc tag/category site nào giấu không tìm được cái đó thì thường ở post detail sẽ có tag/random search/random keyword/ dựa vào đó loop tiếp. hoặc có thể kiếm sitemap , đa số trang nghiêm túc nó làm thì có paginate đầy đủ, còn mấy trang giấu hết chỉ show random ra thì là của những thánh cùng ngành auto tránh bị crawl
Hix xem bộ còn rắc rối quá , thế mà e cứ nghĩ là minh cwarl mấy cái url để lấy content, decs, img, title,... r đổ vào database là xong chứ
Quan trọng là hàng trăm nghìn url của bác nó cùng cấu trúc thì sẽ lấy được hết. Còn hàng trăm nghìn url mà có hàng trăm nghìn cấu trúc thì.. sửa hàng trăm nghìn lần -1.
e thu thập url bằng scarepox, thế mình có cách nào tìm đc các url cũng cấu trúc ko bác nhỉ , vs h e vẫn chưa hỉu code như nào để đặt list hàng trăm k url để lấy ạ
Thằng scrape box nghe nói có hỗ trợ lọc content đó: 1. Là lên Black hat world hỏi. 2. Là nhờ người đã có kinh nghiệm trên 4rum như: Cụ Chuyên, @Đêm Tàn
1. Lấy nhiều page: code lấy 1 page rồi thì cronjob cho nó chạy. Mỗi lần chạy lấy 1 url ra rồi crawl data, xào nấu, lưu db, ... Không thích cron thì meta refresh 1 hay vài giây 1 lần, mỗi lần crawl 1 url. 2. Vấn đề cấu trúc: - hoặc crawl những thằng to, nhiều pages. Cùng site sẽ cùng cấu trúc - hoặc chấp nhận crawl chỉ 1 phần url, title, desc, image: chỉ cần crawl google, bing là đủ - hoặc chấp nhận crawl gì xài đó: cơ bản thì nội dung 1 url bất kỳ chỉ có trong 2 tag đóng mở <body>. Giờ lấy nội dung trong 2 tag đó, viết code remove script, strip html tags, ... phần còn lại là tẽxt thì mình lấy là xong.
nếu bạn biết php rồi thì nó ko rắc rối đến thế đâu. Nghe tả thì vậy thôi, chứ lấy ví dụ thực tế là thấy nó bình thường thôi. + Ví dụ luôn thằng dantri.com.vn Mình muốn lấy nội dung của các bài trong mục tin tức - sự kiện http://dantri.com.vn/su-kien.htm + Đầu tiên là bạn tìm cấu trúc chia trang của nó, thì bạn sẽ thấy nó có dạng http://dantri.com.vn/su-kien/trang-n.htm Mình thử n=5000 vẫn ok chưa phải lớn nhất, mỗi trang có khoảng 10 bài => được ít nhất 50000 bài rồi. => bạn crawl các url dạng http://dantri.com.vn/su-kien/trang-n.htm với n từ 1 đến tùy ý để lấy url bài viết. + Để nhanh bạn cứ lấy tất cả các url có thể trong các trang đó, khỏi cần code lọc url làm gì, sau đó vác lên excel lọc. Các url cần lấy có dạng http://dantri.com.vn/su-kien/mat-ma...inh-nang-luc-sieu-nhien-20170920143137958.htm Mấy url có cấu trúc khác mình bỏ đi. + Sau khi có list url rồi bạn bỏ vào file text, code 1 file php load từng url đó để lấy content, lưu vào máy. Hoặc chơi lấy nội dung trực tiếp mỗi khi có visitor vào web. Bạn cứ thực hành vài lần là quen tay ngay thôi, nếu đã biết code php rồi thì nên tận dụng, đỡ phí tiền thuê.Làm vài cái vps + vài chục cái proxy là ngày lấy được cả triệu bài viết.