WebHarvy Web Scraper: cào tự động text, image, link, email từ các website

Discussion in 'Chia Sẻ Tool & Bot' started by buiductrong, Oct 31, 2018.

?

Bạn đã sử dụng phần mềm nào tương tự WebHarvy không?

  1. Không, tôi chỉ dùng WebHarvy

    37.5%
  2. Không, tôi còn không biết có những phần mềm này

    37.5%
  3. CÓ, để tôi giới thiệu ở comment bên dưới nhe

    25.0%
  1. vipkhongtin

    vipkhongtin Sơ Nhập Giang Hồ

    à ngày xưa từ thời bên daivietpda còn thịnh vượng ạ, bác ấy chuyên viết code leech rồi share cho ae làm johncms {beauty}
     
  2. princenuce

    princenuce Sơ Nhập Giang Hồ

    Xamp laf webserver ma, ý mình là bạn dùng wp hay cái gì khác thì lúc đó mới có thể add dc, còn việc lấy dc những gì thì tùy mình, mình muốn lấy những cái gì thì lấy cái đó miễn là victim có :D
     
  3. vipkhongtin

    vipkhongtin Sơ Nhập Giang Hồ

    em vừa thử chọc ngoái code của bác viết cho bác trên kia.
    Bác cho e hỏi e sai chỗ nào mà nó xuất 1 phát hết luôn mà ko load nhỉ?
    upload_2018-12-21_9-42-31.png
     
    princenuce likes this.
  4. princenuce

    princenuce Sơ Nhập Giang Hồ

    PHP:
    for(..){
        
    // ..............
        
    exit; // or break;
    }
     
  5. vipkhongtin

    vipkhongtin Sơ Nhập Giang Hồ

    em xử được rồi bác ạ :D
    đơn giản vậy mà mãi mới thông đc, e cho vào điều kiện if là xong =))
     
  6. chungviet811

    chungviet811 Khách Qua Đường

    các bác cho em hỏi có pm nào cào như web harvy mà tốc độ nhanh hơn ko, thêm nữa bác nào biết cài đặt web harvy làm sao cho nó bỏ qua những thông tin trống khi quét ko?
    Thanks
     
  7. IvanOoze

    IvanOoze Khách Qua Đường

    Mình đang tìm phần mềm trích xuất dữ liệu website mà có các chức năng như thế này :


    1. Nó có tính năng trích xuất dữ liệu ra file SQL, HTML,...


    • Ví dụ khi mình dùng phần mềm mở 1 trang bài viết (abc.com/bai-viet-1.html), sẽ có tiêu đề, có những bình luận của bài viết và phần phân trang cho bài viết. Thì khi mình di chuột đến mục nào, phần mềm sẽ tô màu tạm thời cho mục đó.

    • Nếu mình click chọn 1 mục, mục đó sẽ được tô màu giữ nguyên 1 cách chính thức.

    • Nếu mình chọn 1 bình luận của bài viết thì phần mềm sẽ tô màu cho hàng loạt các bình luận khác trong bài viết đó, nhằm mục đích để tạo ra công thức (regex) cho các bình luận đó và tạo ra 1 list danh sách các bình luận của bài viết đó (bao gồm tất cả các trang của bài viết đó, nếu tính cả phân trang).

    • Sau khi click chọn các mục trong bài viết, cũng như click chọn phần phân trang, thì phần mềm sẽ tạo ra công thức cho các mục đã chọn, ứng với link bài viết này. Đồng thời lưu lại cái công thức dạng này.

    • Khi mở 1 bài viết khác của trang web đang xem mà có cùng công thức dạng như vừa nói thì chỉ việc chọn công thức là xuất ra luôn không cần phải thao tác lại nữa.

    • Khi mở 1 trang bài viết vừa nói hoặc bất kể 1 trang web nào trên trình duyệt của phần mềm, thì nó có nút chức năng "Favorite" cho phép mình lưu cái url này lại để lúc nào vào menu "Menu Favorite Links" nó sẽ liệt kê ra các url mà ta đã lưu, tiện lợi cho việc xem lại. Ví dụ nếu ta lưu trang abc.com vào Favorite, thì sẽ có tên menu của trang web :

    abc.com


    <== Trong menu này nó sẽ liệt kê ra các menu con dạng abc.com/x, abc.com/y, abc.com/bai-viet.html,... <== nếu như ta lưu các url (có cùng tên miền abc.com) vào trong Favorite.


    • Khi trích xuất ra file .SQL thì trích xuất ra luôn không cần hỏi kết nối csdl, server name như thế nào, user, pass như thế nào. Vì ở đây là mình lưu trên localhost nên không cần phải chuỗi kết nối gì cả, cứ thế xuất ra file .SQL luôn.

    2. Đôi khi có những lúc mình chỉ muốn xem các bài viết chứ chưa cần trích xuất dữ liệu ra file SQL. Tức là mình chỉ muốn lấy nội dung bài viết về phần mềm và hiển thị ra.


    Ví dụ khi mở 1 url link bài viết trên phần mềm thì nó sẽ cho phép ta click chuột vào tiêu đề, click vào các bình luận (các post) của bài viết đó, cũng như các phần mình muốn xem. Sau đó click vào nút Submit một cái thì phần mềm sẽ chỉ hiển thị ra những cái thứ mà mình vừa chọn (vừa click) thôi chứ không hiển thị ra tất cả những thứ linh tinh khác của trang bài viết đó (ví dụ như quảng cáo, chức năng phụ, cột phải, cột trái, footer,...)
     
  8. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Yêu cầu của pác có vẻ hơi phức tạp, ko biết webharvy có làm dc ko nữa, thuê ai đó viết tool cho lẹ pác
     
  9. Hốc

    Hốc Sơ Nhập Giang Hồ

    co bác nào thử octoparse chưa nhỉ
     
  10. solice

    solice Khách Qua Đường

    cài bản mới nhất. xong cp file fix sau đó lỗi :v