Các bác cho em hỏi có cách nào Craw dữ liệu nhanh không ạ, em dùng pipe, auto blog, nhưng nó lấy được 1 thời gian là dừng lại, và không chạy được nhiều, thỉnh thoảng lấy được 1 bài, có bác nào có giải pháp khác không ạ ? 5k bài viết mà ngày lấy được có 4 bài thì đến bao giờ mới xong . Các bác cho em xin giải pháp với ạ
nếu có thời gian bạn nên học code dể tự lấy dữ liệu là hay nhất. Vừa chủ động vừa nhanh. Ngày xưa mình ngồi đọc php căn bản có 1 ngày, xong rồi code ầm ầm, cứ cái nào ko biết lên google search là ra hết. 5000 post nếu có mạng ngon + proxy thì 2 chục phút là xong. Ngoài ra có phần mềm webharvy chuyên để lấy content, bạn thử tìm và dùng xem. Có bản crack đó. Cứ lấy hết data về máy rồi tìm cách import lên blog sau.
em thì chả biết code, nên hạn chế quá. Gợi ý cho em cái phần code auto craw data với, kiểu như bài căn bản
bác nói thế làm e cảm thấy mình ngáo đá vcc , ngồi đọc php căn bản và làm theo mấy clip hd cwarl trên youtube thì chỉ lấy đc 1 số ít chứ k lấy đc số lượng lớn và h đang học php ở trung tâm
+ Bạn kiếm quyển ebook php căn bản rồi đọc 1 lượt để nắm cấu trúc cơ bản của php, sql. Sau đó muốn làm cái gì thì lên google tìm. Chứ mình cũng chả biết sách php nào chuyên dạy về crawl cả. VD: bạn muốn biết làm sao crawl url lấy nội dung của nó thì gõ "php how to get content from url" , "how to get html source from url" là nó sẽ ra. Bạn muốn tách lấy content giữa 2 tags hoặc 2 string nào đó thì gõ "php how to get string between two tags", "how to get string between 2 strings". Đại loại thế. Sở dĩ khuyên bạn đọc sách php căn bản để bạn có thể đọc và hiểu mấy cái code người ta hướng dẫn, từ đó tùy biến theo cách của mình. Có mấy hàm php chủ yếu mình hay dùng cho crawl là "file_get_contents","curl","preg_match_all","str_pos","explode","implode"... tất cả cái này bạn chắc chắn sẽ tự tìm ra chỉ với vài câu gõ google search, thực sự không cần ai chỉ dẫn trước làm gì. + Nói chung là bạn phải tự mày mò đi, mọi thứ nó có hết và rất rõ ràng trên mạng. Với mỗi website bạn cần crawl, nó lại có cấu trúc riêng biệt, bạn phải tự nghiên cứu và bóc tách chứ giờ chả ai có công thức chung dành cho mọi web để mà chỉ bạn cả. + Lời khuyên chân thành của mình là hãy bắt tay vào học và thực hành ngay đi, không nên chần chừ đợi người khác hướng dẫn hay định hướng chi tiết giùm mình. Một khi bạn bắt tay vào làm nghiêm túc bạn sẽ thấy mọi thứ nó ko khó để học, và cũng chả cần thầy cô gì cả. Trong lúc học và thực hành thấy cái nào bí thì vác lên hỏi mọi người là ok. VD bạn có cái url này mà không biết crawl ra sao, thì vứt lên, nói cụ thể ra em cần lọc cái gì, ai rảnh họ viết code ra cho rồi đem về nghiên cứu tiếp.
Mình dùng plugin WP Content Crawler chạy trên VPS 1GB RAM và chỉ chứa 1 website wordpress, lấy bài về khá nhanh, 11k post có cả hình ảnh, lấy về tất cả trong 2 ngày (cũng chẳng nhớ chính xác vì lúc đó đi du lịch), xong toàn bộ dữ liệu gần 5GB. Theo mình đánh giá thì plugin này khá toàn diện, gần như đáp ứng mọi mong muốn, chỉ là cần kiến thức về CSS Selector và Regex.
Plugin này đăng ký theo domain, khác domain đăng ký thì không chạy được nha bạn, một domain đăng ký là 500k
ý bạn là plugin này hả : https://codecanyon.net/item/wp-cont...t-from-almost-any-site-automatically/15983018 Nếu cái này thì dùng đa domain được mà, ko cần nhập key vẫn chiến được, mình hỏi mấy ông bạn rồi , đang test xem sao
Mình thấy cái PHP CURL Examples Book + Webbots Spiders and Screen Scrapers đọc cũng ok cho người mới đi cào
Mình mù code, nên mua tool dùng. Bạn mua SB ấy, cào dữ liệu về, dùng excel và notepad xử lý. Có mấy chục đô dùng mãi mãi cũng...đáng mà. Tìm tiếp hay thuê ai đó viết tiếp cái tool lấy data từ file excel hay txt đó tùy bạn. Sau đó vừa làm vừa học code mà xử lý tùy biến trên WP....@@.
Lấy dữ liệu thì Scrapebox ấy bác. Bác vọc cỡ vài ngày thì merchant nào hầu như cũng lấy dc, nó chặn dùng proxy mà lấy bác. Bác xử lý notepad và excel nữa là xong. Ví dụ bác có file excel có 5,6 cột gì đó (title, url product, url img, description, price, detail....). Từ file đó bác tạo sql rồi import WP thôi