[HỎI cafemmo] Cách craw dữ liệu nhanh cho Wordpress

Thuansky · Aug 15, 2017

Các bác cho em hỏi có cách nào Craw dữ liệu nhanh không ạ, em dùng pipe, auto blog, nhưng nó lấy được 1 thời gian là dừng lại, và không chạy được nhiều, thỉnh thoảng lấy được 1 bài, có bác nào có giải pháp khác không ạ ? 5k bài viết mà ngày lấy được có 4 bài thì đến bao giờ mới xong .
Các bác cho em xin giải pháp với ạ

EDM · Aug 15, 2017

dùng tool crawl rồi dùng wp-import up lên là nhanh nhất

Thuansky · Aug 15, 2017

EDM said: ↑

dùng tool crawl rồi dùng wp-import up lên là nhanh nhất
Click to expand...

Bác cho em giải pháp với, dùng tool gì để crawl về ạ ?

TNA90 · Aug 15, 2017

nếu có thời gian bạn nên học code dể tự lấy dữ liệu là hay nhất. Vừa chủ động vừa nhanh.
Ngày xưa mình ngồi đọc php căn bản có 1 ngày, xong rồi code ầm ầm, cứ cái nào ko biết lên google search là ra hết.
5000 post nếu có mạng ngon + proxy thì 2 chục phút là xong.
Ngoài ra có phần mềm webharvy chuyên để lấy content, bạn thử tìm và dùng xem. Có bản crack đó.
Cứ lấy hết data về máy rồi tìm cách import lên blog sau.

EDM · Aug 15, 2017

Code tay thôi bác ơi ${big_smile}$

Thuansky · Aug 15, 2017

em thì chả biết code, nên hạn chế quá.

TNA90 said: ↑

nếu có thời gian bạn nên học code dể tự lấy dữ liệu là hay nhất. Vừa chủ động vừa nhanh.
Ngày xưa mình ngồi đọc php căn bản có 1 ngày, xong rồi code ầm ầm, cứ cái nào ko biết lên google search là ra hết.
5000 post nếu có mạng ngon + proxy thì 2 chục phút là xong.
Ngoài ra có phần mềm webharvy chuyên để lấy content, bạn thử tìm và dùng xem. Có bản crack đó.
Cứ lấy hết data về máy rồi tìm cách import lên blog sau.
Click to expand...

Gợi ý cho em cái phần code auto craw data với, kiểu như bài căn bản

Ngoc Nguyen · Aug 15, 2017

TNA90 said: ↑

nếu có thời gian bạn nên học code dể tự lấy dữ liệu là hay nhất. Vừa chủ động vừa nhanh.
Ngày xưa mình ngồi đọc php căn bản có 1 ngày, xong rồi code ầm ầm, cứ cái nào ko biết lên google search là ra hết.
5000 post nếu có mạng ngon + proxy thì 2 chục phút là xong.
Ngoài ra có phần mềm webharvy chuyên để lấy content, bạn thử tìm và dùng xem. Có bản crack đó.
Cứ lấy hết data về máy rồi tìm cách import lên blog sau.
Click to expand...

bác nói thế làm e cảm thấy mình ngáo đá vcc , ngồi đọc php căn bản và làm theo mấy clip hd cwarl trên youtube thì chỉ lấy đc 1 số ít chứ k lấy đc số lượng lớn và h đang học php ở trung tâm ${beat_shot}$ ${beat_shot}$ ${beat_shot}$

TNA90 · Aug 15, 2017

Thuansky said: ↑

em thì chả biết code, nên hạn chế quá.
Gợi ý cho em cái phần code auto craw data với, kiểu như bài căn bản
Click to expand...

+ Bạn kiếm quyển ebook php căn bản rồi đọc 1 lượt để nắm cấu trúc cơ bản của php, sql. Sau đó muốn làm cái gì thì lên google tìm. Chứ mình cũng chả biết sách php nào chuyên dạy về crawl cả.
VD: bạn muốn biết làm sao crawl url lấy nội dung của nó thì gõ "php how to get content from url" , "how to get html source from url" là nó sẽ ra.
Bạn muốn tách lấy content giữa 2 tags hoặc 2 string nào đó thì gõ "php how to get string between two tags", "how to get string between 2 strings". Đại loại thế.
Sở dĩ khuyên bạn đọc sách php căn bản để bạn có thể đọc và hiểu mấy cái code người ta hướng dẫn, từ đó tùy biến theo cách của mình.
Có mấy hàm php chủ yếu mình hay dùng cho crawl là "file_get_contents","curl","preg_match_all","str_pos","explode","implode"... tất cả cái này bạn chắc chắn sẽ tự tìm ra chỉ với vài câu gõ google search, thực sự không cần ai chỉ dẫn trước làm gì.
+ Nói chung là bạn phải tự mày mò đi, mọi thứ nó có hết và rất rõ ràng trên mạng. Với mỗi website bạn cần crawl, nó lại có cấu trúc riêng biệt, bạn phải tự nghiên cứu và bóc tách chứ giờ chả ai có công thức chung dành cho mọi web để mà chỉ bạn cả.
+ Lời khuyên chân thành của mình là hãy bắt tay vào học và thực hành ngay đi, không nên chần chừ đợi người khác hướng dẫn hay định hướng chi tiết giùm mình. Một khi bạn bắt tay vào làm nghiêm túc bạn sẽ thấy mọi thứ nó ko khó để học, và cũng chả cần thầy cô gì cả. Trong lúc học và thực hành thấy cái nào bí thì vác lên hỏi mọi người là ok. VD bạn có cái url này mà không biết crawl ra sao, thì vứt lên, nói cụ thể ra em cần lọc cái gì, ai rảnh họ viết code ra cho rồi đem về nghiên cứu tiếp.

Thuansky · Aug 15, 2017

OK, cảm ơn bạn về nội dung chia sẻ (Y)

buiductrong · Aug 15, 2017

Mình dùng plugin WP Content Crawler chạy trên VPS 1GB RAM và chỉ chứa 1 website wordpress, lấy bài về khá nhanh, 11k post có cả hình ảnh, lấy về tất cả trong 2 ngày (cũng chẳng nhớ chính xác vì lúc đó đi du lịch), xong toàn bộ dữ liệu gần 5GB.
Theo mình đánh giá thì plugin này khá toàn diện, gần như đáp ứng mọi mong muốn, chỉ là cần kiến thức về CSS Selector và Regex.

Thuansky · Aug 15, 2017

buiductrong said: ↑

Mình dùng plugin WP Content Crawler chạy trên VPS 1GB RAM và chỉ chứa 1 website wordpress, lấy bài về khá nhanh, 11k post có cả hình ảnh, lấy về tất cả trong 2 ngày (cũng chẳng nhớ chính xác vì lúc đó đi du lịch), xong toàn bộ dữ liệu gần 5GB.
Theo mình đánh giá thì plugin này khá toàn diện, gần như đáp ứng mọi mong muốn, chỉ là cần kiến thức về CSS Selector và Regex.
Click to expand...

Có share cho em được plugin không bác ơi !

buiductrong · Aug 15, 2017

Thuansky said: ↑

Có share cho em được plugin không bác ơi !
Click to expand...

Plugin này đăng ký theo domain, khác domain đăng ký thì không chạy được nha bạn, một domain đăng ký là 500k

Thuansky · Aug 15, 2017

ý bạn là plugin này hả : https://codecanyon.net/item/wp-cont...t-from-almost-any-site-automatically/15983018

Nếu cái này thì dùng đa domain được mà, ko cần nhập key vẫn chiến được, mình hỏi mấy ông bạn rồi , đang test xem sao

Stone Vo · Aug 16, 2017

Mình thấy cái PHP CURL Examples Book + Webbots Spiders and Screen Scrapers đọc cũng ok cho người mới đi cào

Đêm Tàn · Aug 16, 2017

Thuansky said: ↑

Các bác cho em hỏi có cách nào Craw dữ liệu nhanh không ạ, em dùng pipe, auto blog, nhưng nó lấy được 1 thời gian là dừng lại, và không chạy được nhiều, thỉnh thoảng lấy được 1 bài, có bác nào có giải pháp khác không ạ ? 5k bài viết mà ngày lấy được có 4 bài thì đến bao giờ mới xong .
Các bác cho em xin giải pháp với ạ
Click to expand...

Mình mù code, nên mua tool dùng. Bạn mua SB ấy, cào dữ liệu về, dùng excel và notepad xử lý. Có mấy chục đô dùng mãi mãi cũng...đáng mà. Tìm tiếp hay thuê ai đó viết tiếp cái tool lấy data từ file excel hay txt đó tùy bạn. Sau đó vừa làm vừa học code mà xử lý tùy biến trên WP....@@.

buiductrong · Aug 16, 2017

Thuansky said: ↑

ý bạn là plugin này hả : https://codecanyon.net/item/wp-cont...t-from-almost-any-site-automatically/15983018

Nếu cái này thì dùng đa domain được mà, ko cần nhập key vẫn chiến được, mình hỏi mấy ông bạn rồi , đang test xem sao
Click to expand...

Nó cho trial một thời gian rồi bắt nhập key đăng ký.

Thuansky · Aug 16, 2017

buiductrong said: ↑

Nó cho trial một thời gian rồi bắt nhập key đăng ký.
Click to expand...

Bản xịn luôn mà, không cần nhập key, nó vẫn bắt nhập nhưng kệ nó !

Thuansky · Aug 16, 2017

Đêm Tàn said: ↑

Mình mù code, nên mua tool dùng. Bạn mua SB ấy, cào dữ liệu về, dùng excel và notepad xử lý. Có mấy chục đô dùng mãi mãi cũng...đáng mà. Tìm tiếp hay thuê ai đó viết tiếp cái tool lấy data từ file excel hay txt đó tùy bạn. Sau đó vừa làm vừa học code mà xử lý tùy biến trên WP....@@.
Click to expand...

Bác cho em xin cái tên tool cụ thể với ạ

Đêm Tàn · Aug 16, 2017

Thuansky said: ↑

Bác cho em xin cái tên tool cụ thể với ạ
Click to expand...

Lấy dữ liệu thì Scrapebox ấy bác. Bác vọc cỡ vài ngày thì merchant nào hầu như cũng lấy dc, nó chặn dùng proxy mà lấy bác. Bác xử lý notepad và excel nữa là xong. Ví dụ bác có file excel có 5,6 cột gì đó (title, url product, url img, description, price, detail....). Từ file đó bác tạo sql rồi import WP thôi

buiductrong · Aug 16, 2017

Thuansky said: ↑

Bản xịn luôn mà, không cần nhập key, nó vẫn bắt nhập nhưng kệ nó !
Click to expand...

nulled hả bác?

Log in or Sign up

[HỎI cafemmo] Cách craw dữ liệu nhanh cho Wordpress

Thuansky Sơ Nhập Giang Hồ

More Threads in same category

EDM Sơ Nhập Giang Hồ

Thuansky Sơ Nhập Giang Hồ

TNA90 Sơ Nhập Giang Hồ

EDM Sơ Nhập Giang Hồ

Thuansky Sơ Nhập Giang Hồ

Ngoc Nguyen Khách Qua Đường

TNA90 Sơ Nhập Giang Hồ

Thuansky Sơ Nhập Giang Hồ

buiductrong Khách Qua Đường

Thuansky Sơ Nhập Giang Hồ

buiductrong Khách Qua Đường

Thuansky Sơ Nhập Giang Hồ

Stone Vo Khách Qua Đường

Đêm Tàn Tân Thủ Thôn

buiductrong Khách Qua Đường

Thuansky Sơ Nhập Giang Hồ

Thuansky Sơ Nhập Giang Hồ

Đêm Tàn Tân Thủ Thôn

buiductrong Khách Qua Đường

Log in or Sign up

[HỎI cafemmo] Cách craw dữ liệu nhanh cho Wordpress

Thuansky Sơ Nhập Giang Hồ

More Threads in same category

EDM Sơ Nhập Giang Hồ

Thuansky Sơ Nhập Giang Hồ

TNA90 Sơ Nhập Giang Hồ

EDM Sơ Nhập Giang Hồ

Thuansky Sơ Nhập Giang Hồ

Ngoc Nguyen Khách Qua Đường

TNA90 Sơ Nhập Giang Hồ

Thuansky Sơ Nhập Giang Hồ

buiductrong Khách Qua Đường

Thuansky Sơ Nhập Giang Hồ

buiductrong Khách Qua Đường

Thuansky Sơ Nhập Giang Hồ

Stone Vo Khách Qua Đường

Đêm Tàn Tân Thủ Thôn

buiductrong Khách Qua Đường

Thuansky Sơ Nhập Giang Hồ

Thuansky Sơ Nhập Giang Hồ

Đêm Tàn Tân Thủ Thôn

buiductrong Khách Qua Đường

Useful Searches