New cần hướng dẫn về cwarl data website

Sì Ke · Sep 20, 2017

Chả là e có bít 1 chút php và mài mò tìm cách cwarl các url mình thu nhập về, nhưng để lấy nội dung từ hàng trăm K url thì mình phải làm sao ạ, e ko hỉu phải làm như thế nào cho đúng, với nếu các url đó từ các website khác nhau thì mình lấy bằng cách nào ạ, vì mỗi website nó đều có 1 class riêng, id riêng, thuộc tính riêng,...
Ko bít e có hỏi gì ngớ ngẩn ko, mong các cao nhân giải đáp giúp e

Sì Ke · Sep 20, 2017

Có ai giúp e về vấn đề này ko ạ ${burn_joss_stick}$

TNA90 · Sep 20, 2017

+ Thường thì mỗi web sẽ có cấu trúc chung cho phần lớn các page chính. Bạn viết code để lấy content của 1 page thì cũng lấy được các page khác cùng cấu trúc đó luôn.
Ví dụ như một web abcxyz.com bạn thấy phần nội dung cần lấy của 1 page nó nằm trong tag "<div id="main-content">.....</div>" thì 99,99% các page khác tương tự cũng có nội dung cần lấy nằm trong tag đó thôi. Bạn viết code lấy nội dung trong tag trên là xài được cho tất cả các page tương tự của web.
+ Các web khác nếu khác cấu trúc thì phải chấp nhận code lại thôi.
+ Bởi vậy khi chọn nguồn để lấy content thì nên chọn các web có nhiều page, vài nghìn, vài trăm nghìn, vài triệu page cùng cấu trúc chẳng hạn, như thế đỡ mệt hơn.

Sì Ke · Sep 20, 2017

+ Vâng bác cái này e hỉu, e có lấy đc 1 page nhưng ko bít code như thế nào để lấy đc nhìu page ấy ạ, tại code e còn hơi gà mờ nên suy nghĩ mãi ko ra, vs tham khảo mấy cách trên gg nhưng nó chỉ hd 1 page à
+....
+ MÌnh check kiểu gì để bít 1 web có nhìu page hả bác
Em cảm ơn

TNA90 said: ↑

+ Thường thì mỗi web sẽ có cấu trúc chung cho phần lớn các page chính. Bạn viết code để lấy content của 1 page thì cũng lấy được các page khác cùng cấu trúc đó luôn.
Ví dụ như một web abcxyz.com bạn thấy phần nội dung cần lấy của 1 page nó nằm trong tag "<div id="main-content">.....</div>" thì 99,99% các page khác tương tự cũng có nội dung cần lấy nằm trong tag đó thôi. Bạn viết code lấy nội dung trong tag trên là xài được cho tất cả các page tương tự của web.
+ Các web khác nếu khác cấu trúc thì phải chấp nhận code lại thôi.
+ Bởi vậy khi chọn nguồn để lấy content thì nên chọn các web có nhiều page, vài nghìn, vài trăm nghìn, vài triệu page cùng cấu trúc chẳng hạn, như thế đỡ mệt hơn.
Click to expand...

automan · Sep 20, 2017

Sì Ke said: ↑

+ Vâng bác cái này e hỉu, e có lấy đc 1 page nhưng ko bít code như thế nào để lấy đc nhìu page ấy ạ, tại code e còn hơi gà mờ nên suy nghĩ mãi ko ra, vs tham khảo mấy cách trên gg nhưng nó chỉ hd 1 page à
+....
+ MÌnh check kiểu gì để bít 1 web có nhìu page hả bác
Em cảm ơn
Click to expand...

dựa theo paginate nhé ${big_smile}$

đa số dựa vào đó mà loop, để lấy hết content,

có thể paginate theo homepage hoặc tag/category

site nào giấu không tìm được cái đó thì thường ở post detail sẽ có tag/random search/random keyword/ dựa vào đó loop tiếp.

hoặc có thể kiếm sitemap ,
đa số trang nghiêm túc nó làm thì có paginate đầy đủ, còn mấy trang giấu hết chỉ show random ra thì là của những thánh cùng ngành auto tránh bị crawl

Sì Ke · Sep 20, 2017

automan said: ↑

dựa theo paginate nhé ${big_smile}$

đa số dựa vào đó mà loop, để lấy hết content,

có thể paginate theo homepage hoặc tag/category

site nào giấu không tìm được cái đó thì thường ở post detail sẽ có tag/random search/random keyword/ dựa vào đó loop tiếp.

hoặc có thể kiếm sitemap ,
đa số trang nghiêm túc nó làm thì có paginate đầy đủ, còn mấy trang giấu hết chỉ show random ra thì là của những thánh cùng ngành auto tránh bị crawl
Click to expand...

Hix xem bộ còn rắc rối quá , thế mà e cứ nghĩ là minh cwarl mấy cái url để lấy content, decs, img, title,... r đổ vào database là xong chứ

Nai · Sep 20, 2017

Sì Ke said: ↑

Hix xem bộ còn rắc rối quá , thế mà e cứ nghĩ là minh cwarl mấy cái url để lấy content, decs, img, title,... r đổ vào database là xong chứ
Click to expand...

Quan trọng là hàng trăm nghìn url của bác nó cùng cấu trúc thì sẽ lấy được hết. Còn hàng trăm nghìn url mà có hàng trăm nghìn cấu trúc thì.. sửa hàng trăm nghìn lần -1.

Sì Ke · Sep 20, 2017

Nai said: ↑

Quan trọng là hàng trăm nghìn url của bác nó cùng cấu trúc thì sẽ lấy được hết. Còn hàng trăm nghìn url mà có hàng trăm nghìn cấu trúc thì.. sửa hàng trăm nghìn lần -1.
Click to expand...

e thu thập url bằng scarepox, thế mình có cách nào tìm đc các url cũng cấu trúc ko bác nhỉ , vs h e vẫn chưa hỉu code như nào để đặt list hàng trăm k url để lấy ạ

Nai · Sep 20, 2017

Sì Ke said: ↑

e thu thập url bằng scarepox, thế mình có cách nào tìm đc các url cũng cấu trúc ko bác nhỉ , vs h e vẫn chưa hỉu code như nào để đặt list hàng trăm k url để lấy ạ
Click to expand...

Thằng scrape box nghe nói có hỗ trợ lọc content đó:
1. Là lên Black hat world hỏi.
2. Là nhờ người đã có kinh nghiệm trên 4rum như: Cụ Chuyên, @Đêm Tàn

Sì Ke · Sep 20, 2017

Nai said: ↑

Thằng scrape box nghe nói có hỗ trợ lọc content đó:
1. Là lên Black hat world hỏi.
2. Là nhờ người đã có kinh nghiệm trên 4rum như: Cụ Chuyên, @Đêm Tàn
Click to expand...

Thế bác cwarl data website bằng cách nào thế ạ, hay bác thuê

Nai · Sep 20, 2017

Sì Ke said: ↑

Thế bác cwarl data website bằng cách nào thế ạ, hay bác thuê
Click to expand...

Thuê

Sì Ke · Sep 20, 2017

Nai said: ↑

Thuê
Click to expand...

thuê thế nhiu $ 1 site vậy ạ, beginer tụi e ko có nhìu vốn nên cũng khá khó khăn

money · Sep 20, 2017

1. Lấy nhiều page: code lấy 1 page rồi thì cronjob cho nó chạy. Mỗi lần chạy lấy 1 url ra rồi crawl data, xào nấu, lưu db, ... Không thích cron thì meta refresh 1 hay vài giây 1 lần, mỗi lần crawl 1 url.
2. Vấn đề cấu trúc:
- hoặc crawl những thằng to, nhiều pages. Cùng site sẽ cùng cấu trúc
- hoặc chấp nhận crawl chỉ 1 phần url, title, desc, image: chỉ cần crawl google, bing là đủ
- hoặc chấp nhận crawl gì xài đó: cơ bản thì nội dung 1 url bất kỳ chỉ có trong 2 tag đóng mở <body>. Giờ lấy nội dung trong 2 tag đó, viết code remove script, strip html tags, ... phần còn lại là tẽxt thì mình lấy là xong.

TNA90 · Sep 20, 2017

nếu bạn biết php rồi thì nó ko rắc rối đến thế đâu. Nghe tả thì vậy thôi, chứ lấy ví dụ thực tế là thấy nó bình thường thôi.
+ Ví dụ luôn thằng dantri.com.vn
Mình muốn lấy nội dung của các bài trong mục tin tức - sự kiện http://dantri.com.vn/su-kien.htm
+ Đầu tiên là bạn tìm cấu trúc chia trang của nó, thì bạn sẽ thấy nó có dạng http://dantri.com.vn/su-kien/trang-n.htm
Mình thử n=5000 vẫn ok chưa phải lớn nhất, mỗi trang có khoảng 10 bài => được ít nhất 50000 bài rồi.
=> bạn crawl các url dạng http://dantri.com.vn/su-kien/trang-n.htm với n từ 1 đến tùy ý để lấy url bài viết.
+ Để nhanh bạn cứ lấy tất cả các url có thể trong các trang đó, khỏi cần code lọc url làm gì, sau đó vác lên excel lọc.
Các url cần lấy có dạng http://dantri.com.vn/su-kien/mat-ma...inh-nang-luc-sieu-nhien-20170920143137958.htm
Mấy url có cấu trúc khác mình bỏ đi.
+ Sau khi có list url rồi bạn bỏ vào file text, code 1 file php load từng url đó để lấy content, lưu vào máy. Hoặc chơi lấy nội dung trực tiếp mỗi khi có visitor vào web.

Bạn cứ thực hành vài lần là quen tay ngay thôi, nếu đã biết code php rồi thì nên tận dụng, đỡ phí tiền thuê.Làm vài cái vps + vài chục cái proxy là ngày lấy được cả triệu bài viết.

Sì Ke · Sep 20, 2017

TNA90 said: ↑

nếu bạn biết php rồi thì nó ko rắc rối đến thế đâu. Nghe tả thì vậy thôi, chứ lấy ví dụ thực tế là thấy nó bình thường thôi.
+ Ví dụ luôn thằng dantri.com.vn
Mình muốn lấy nội dung của các bài trong mục tin tức - sự kiện http://dantri.com.vn/su-kien.htm
+ Đầu tiên là bạn tìm cấu trúc chia trang của nó, thì bạn sẽ thấy nó có dạng http://dantri.com.vn/su-kien/trang-n.htm
Mình thử n=5000 vẫn ok chưa phải lớn nhất, mỗi trang có khoảng 10 bài => được ít nhất 50000 bài rồi.
=> bạn crawl các url dạng http://dantri.com.vn/su-kien/trang-n.htm với n từ 1 đến tùy ý để lấy url bài viết.
+ Để nhanh bạn cứ lấy tất cả các url có thể trong các trang đó, khỏi cần code lọc url làm gì, sau đó vác lên excel lọc.
Các url cần lấy có dạng http://dantri.com.vn/su-kien/mat-ma...inh-nang-luc-sieu-nhien-20170920143137958.htm
Mấy url có cấu trúc khác mình bỏ đi.
+ Sau khi có list url rồi bạn bỏ vào file text, code 1 file php load từng url đó để lấy content, lưu vào máy. Hoặc chơi lấy nội dung trực tiếp mỗi khi có visitor vào web.

Bạn cứ thực hành vài lần là quen tay ngay thôi, nếu đã biết code php rồi thì nên tận dụng, đỡ phí tiền thuê.Làm vài cái vps + vài chục cái proxy là ngày lấy được cả triệu bài viết.
Click to expand...

Cảm ơn bác nhìu, bác góp ý như này thấy dễ hỉu thật

Sì Ke · Sep 20, 2017

money said: ↑

1. Lấy nhiều page: code lấy 1 page rồi thì cronjob cho nó chạy. Mỗi lần chạy lấy 1 url ra rồi crawl data, xào nấu, lưu db, ... Không thích cron thì meta refresh 1 hay vài giây 1 lần, mỗi lần crawl 1 url.
2. Vấn đề cấu trúc:
- hoặc crawl những thằng to, nhiều pages. Cùng site sẽ cùng cấu trúc
- hoặc chấp nhận crawl chỉ 1 phần url, title, desc, image: chỉ cần crawl google, bing là đủ
- hoặc chấp nhận crawl gì xài đó: cơ bản thì nội dung 1 url bất kỳ chỉ có trong 2 tag đóng mở <body>. Giờ lấy nội dung trong 2 tag đó, viết code remove script, strip html tags, ... phần còn lại là tẽxt thì mình lấy là xong.
Click to expand...

Ý kiến của bác dưới e thấy dễ hỉu hơn hehe nhưng cũng cảm ơn bác ạ ^^

cudem199 · Sep 21, 2017

Blog thì đơn chỉ cần 1 dong lệnh là crawl hết data của nó rồi... web thì chưa từng thử

Log in or Sign up

New cần hướng dẫn về cwarl data website

Sì Ke Sơ Nhập Giang Hồ

More Threads in same category

Sì Ke Sơ Nhập Giang Hồ

TNA90 Sơ Nhập Giang Hồ

Sì Ke Sơ Nhập Giang Hồ

automan Hương Chủ

Sì Ke Sơ Nhập Giang Hồ

Nai MiddleMan Staff Member

Sì Ke Sơ Nhập Giang Hồ

Nai MiddleMan Staff Member

Sì Ke Sơ Nhập Giang Hồ

Nai MiddleMan Staff Member

Sì Ke Sơ Nhập Giang Hồ

money Hương Chủ

TNA90 Sơ Nhập Giang Hồ

Sì Ke Sơ Nhập Giang Hồ

Sì Ke Sơ Nhập Giang Hồ

cudem199 Tân Thủ Thôn

Log in or Sign up

New cần hướng dẫn về cwarl data website

Sì Ke Sơ Nhập Giang Hồ

More Threads in same category

Sì Ke Sơ Nhập Giang Hồ

TNA90 Sơ Nhập Giang Hồ

Sì Ke Sơ Nhập Giang Hồ

automan Hương Chủ

Sì Ke Sơ Nhập Giang Hồ

Nai MiddleMan Staff Member

Sì Ke Sơ Nhập Giang Hồ

Nai MiddleMan Staff Member

Sì Ke Sơ Nhập Giang Hồ

Nai MiddleMan Staff Member

Sì Ke Sơ Nhập Giang Hồ

money Hương Chủ

TNA90 Sơ Nhập Giang Hồ

Sì Ke Sơ Nhập Giang Hồ

Sì Ke Sơ Nhập Giang Hồ

cudem199 Tân Thủ Thôn

Useful Searches