[HỎI cafemmo] Cách craw dữ liệu nhanh cho Wordpress

Discussion in 'AutoBlog' started by Thuansky, Aug 15, 2017.

  1. Thuansky

    Thuansky Sơ Nhập Giang Hồ

    Các bác cho em hỏi có cách nào Craw dữ liệu nhanh không ạ, em dùng pipe, auto blog, nhưng nó lấy được 1 thời gian là dừng lại, và không chạy được nhiều, thỉnh thoảng lấy được 1 bài, có bác nào có giải pháp khác không ạ ? 5k bài viết mà ngày lấy được có 4 bài thì đến bao giờ mới xong .
    Các bác cho em xin giải pháp với ạ
     
  2. EDM

    EDM Sơ Nhập Giang Hồ

    dùng tool crawl rồi dùng wp-import up lên là nhanh nhất
     
    Thuansky likes this.
  3. Thuansky

    Thuansky Sơ Nhập Giang Hồ

    Bác cho em giải pháp với, dùng tool gì để crawl về ạ ?
     
  4. TNA90

    TNA90 Sơ Nhập Giang Hồ

    nếu có thời gian bạn nên học code dể tự lấy dữ liệu là hay nhất. Vừa chủ động vừa nhanh.
    Ngày xưa mình ngồi đọc php căn bản có 1 ngày, xong rồi code ầm ầm, cứ cái nào ko biết lên google search là ra hết.
    5000 post nếu có mạng ngon + proxy thì 2 chục phút là xong.
    Ngoài ra có phần mềm webharvy chuyên để lấy content, bạn thử tìm và dùng xem. Có bản crack đó.
    Cứ lấy hết data về máy rồi tìm cách import lên blog sau.
     
    Thuansky likes this.
  5. EDM

    EDM Sơ Nhập Giang Hồ

    Code tay thôi bác ơi {big_smile}
     
    Thuansky likes this.
  6. Thuansky

    Thuansky Sơ Nhập Giang Hồ

    em thì chả biết code, nên hạn chế quá.
    Gợi ý cho em cái phần code auto craw data với, kiểu như bài căn bản
     
  7. Ngoc Nguyen

    Ngoc Nguyen Khách Qua Đường

    bác nói thế làm e cảm thấy mình ngáo đá vcc :(, ngồi đọc php căn bản và làm theo mấy clip hd cwarl trên youtube thì chỉ lấy đc 1 số ít chứ k lấy đc số lượng lớn và h đang học php ở trung tâm {beat_shot}{beat_shot}{beat_shot}
     
  8. TNA90

    TNA90 Sơ Nhập Giang Hồ

    + Bạn kiếm quyển ebook php căn bản rồi đọc 1 lượt để nắm cấu trúc cơ bản của php, sql. Sau đó muốn làm cái gì thì lên google tìm. Chứ mình cũng chả biết sách php nào chuyên dạy về crawl cả.
    VD: bạn muốn biết làm sao crawl url lấy nội dung của nó thì gõ "php how to get content from url" , "how to get html source from url" là nó sẽ ra.
    Bạn muốn tách lấy content giữa 2 tags hoặc 2 string nào đó thì gõ "php how to get string between two tags", "how to get string between 2 strings". Đại loại thế.
    Sở dĩ khuyên bạn đọc sách php căn bản để bạn có thể đọc và hiểu mấy cái code người ta hướng dẫn, từ đó tùy biến theo cách của mình.
    Có mấy hàm php chủ yếu mình hay dùng cho crawl là "file_get_contents","curl","preg_match_all","str_pos","explode","implode"... tất cả cái này bạn chắc chắn sẽ tự tìm ra chỉ với vài câu gõ google search, thực sự không cần ai chỉ dẫn trước làm gì.
    + Nói chung là bạn phải tự mày mò đi, mọi thứ nó có hết và rất rõ ràng trên mạng. Với mỗi website bạn cần crawl, nó lại có cấu trúc riêng biệt, bạn phải tự nghiên cứu và bóc tách chứ giờ chả ai có công thức chung dành cho mọi web để mà chỉ bạn cả.
    + Lời khuyên chân thành của mình là hãy bắt tay vào học và thực hành ngay đi, không nên chần chừ đợi người khác hướng dẫn hay định hướng chi tiết giùm mình. Một khi bạn bắt tay vào làm nghiêm túc bạn sẽ thấy mọi thứ nó ko khó để học, và cũng chả cần thầy cô gì cả. Trong lúc học và thực hành thấy cái nào bí thì vác lên hỏi mọi người là ok. VD bạn có cái url này mà không biết crawl ra sao, thì vứt lên, nói cụ thể ra em cần lọc cái gì, ai rảnh họ viết code ra cho rồi đem về nghiên cứu tiếp.
     
  9. Thuansky

    Thuansky Sơ Nhập Giang Hồ

    OK, cảm ơn bạn về nội dung chia sẻ (Y)
     
  10. buiductrong

    buiductrong Khách Qua Đường

    Mình dùng plugin WP Content Crawler chạy trên VPS 1GB RAM và chỉ chứa 1 website wordpress, lấy bài về khá nhanh, 11k post có cả hình ảnh, lấy về tất cả trong 2 ngày (cũng chẳng nhớ chính xác vì lúc đó đi du lịch), xong toàn bộ dữ liệu gần 5GB.
    Theo mình đánh giá thì plugin này khá toàn diện, gần như đáp ứng mọi mong muốn, chỉ là cần kiến thức về CSS Selector và Regex.
     
    Thuansky likes this.
  11. Thuansky

    Thuansky Sơ Nhập Giang Hồ

    Có share cho em được plugin không bác ơi !
     
  12. buiductrong

    buiductrong Khách Qua Đường

    Plugin này đăng ký theo domain, khác domain đăng ký thì không chạy được nha bạn, một domain đăng ký là 500k
     
  13. Thuansky

    Thuansky Sơ Nhập Giang Hồ

  14. Stone Vo

    Stone Vo Khách Qua Đường

  15. Đêm Tàn

    Đêm Tàn Tân Thủ Thôn

    Mình mù code, nên mua tool dùng. Bạn mua SB ấy, cào dữ liệu về, dùng excel và notepad xử lý. Có mấy chục đô dùng mãi mãi cũng...đáng mà. Tìm tiếp hay thuê ai đó viết tiếp cái tool lấy data từ file excel hay txt đó tùy bạn. Sau đó vừa làm vừa học code mà xử lý tùy biến trên WP....@@.
     
    Hoa Mãn Lâu likes this.
  16. buiductrong

    buiductrong Khách Qua Đường

    Thuansky likes this.
  17. Thuansky

    Thuansky Sơ Nhập Giang Hồ

    Bản xịn luôn mà, không cần nhập key, nó vẫn bắt nhập nhưng kệ nó !
     
  18. Thuansky

    Thuansky Sơ Nhập Giang Hồ

    Bác cho em xin cái tên tool cụ thể với ạ
     
  19. Đêm Tàn

    Đêm Tàn Tân Thủ Thôn

    Lấy dữ liệu thì Scrapebox ấy bác. Bác vọc cỡ vài ngày thì merchant nào hầu như cũng lấy dc, nó chặn dùng proxy mà lấy bác. Bác xử lý notepad và excel nữa là xong. Ví dụ bác có file excel có 5,6 cột gì đó (title, url product, url img, description, price, detail....). Từ file đó bác tạo sql rồi import WP thôi
     
  20. buiductrong

    buiductrong Khách Qua Đường

    nulled hả bác?