New cần hướng dẫn về cwarl data website

Discussion in 'Thảo Luận Chung' started by Sì Ke, Sep 20, 2017.

  1. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    Chả là e có bít 1 chút php và mài mò tìm cách cwarl các url mình thu nhập về, nhưng để lấy nội dung từ hàng trăm K url thì mình phải làm sao ạ, e ko hỉu phải làm như thế nào cho đúng, với nếu các url đó từ các website khác nhau thì mình lấy bằng cách nào ạ, vì mỗi website nó đều có 1 class riêng, id riêng, thuộc tính riêng,...
    Ko bít e có hỏi gì ngớ ngẩn ko, mong các cao nhân giải đáp giúp e {surrender}{surrender}
     
    Last edited: Sep 20, 2017
  2. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    Có ai giúp e về vấn đề này ko ạ {burn_joss_stick}
     
  3. TNA90

    TNA90 Sơ Nhập Giang Hồ

    + Thường thì mỗi web sẽ có cấu trúc chung cho phần lớn các page chính. Bạn viết code để lấy content của 1 page thì cũng lấy được các page khác cùng cấu trúc đó luôn.
    Ví dụ như một web abcxyz.com bạn thấy phần nội dung cần lấy của 1 page nó nằm trong tag "<div id="main-content">.....</div><!--END MAIN CONTENT-->" thì 99,99% các page khác tương tự cũng có nội dung cần lấy nằm trong tag đó thôi. Bạn viết code lấy nội dung trong tag trên là xài được cho tất cả các page tương tự của web.
    + Các web khác nếu khác cấu trúc thì phải chấp nhận code lại thôi.
    + Bởi vậy khi chọn nguồn để lấy content thì nên chọn các web có nhiều page, vài nghìn, vài trăm nghìn, vài triệu page cùng cấu trúc chẳng hạn, như thế đỡ mệt hơn.
     
  4. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    + Vâng bác cái này e hỉu, e có lấy đc 1 page nhưng ko bít code như thế nào để lấy đc nhìu page ấy ạ, tại code e còn hơi gà mờ nên suy nghĩ mãi ko ra, vs tham khảo mấy cách trên gg nhưng nó chỉ hd 1 page à
    +....
    + MÌnh check kiểu gì để bít 1 web có nhìu page hả bác
    Em cảm ơn

     
  5. automan

    automan Hương Chủ


    dựa theo paginate nhé{big_smile}

    đa số dựa vào đó mà loop, để lấy hết content,

    có thể paginate theo homepage hoặc tag/category

    site nào giấu không tìm được cái đó thì thường ở post detail sẽ có tag/random search/random keyword/ dựa vào đó loop tiếp.{ah}

    hoặc có thể kiếm sitemap ,
    đa số trang nghiêm túc nó làm thì có paginate đầy đủ, còn mấy trang giấu hết chỉ show random ra thì là của những thánh cùng ngành auto tránh bị crawl {brick}
     
    love and Linh like this.
  6. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    Hix xem bộ còn rắc rối quá {ah}, thế mà e cứ nghĩ là minh cwarl mấy cái url để lấy content, decs, img, title,... r đổ vào database là xong chứ {cry}
     
  7. Nai

    Nai MiddleMan Staff Member

    Quan trọng là hàng trăm nghìn url của bác nó cùng cấu trúc thì sẽ lấy được hết. Còn hàng trăm nghìn url mà có hàng trăm nghìn cấu trúc thì.. sửa hàng trăm nghìn lần -1.
     
  8. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    e thu thập url bằng scarepox, thế mình có cách nào tìm đc các url cũng cấu trúc ko bác nhỉ {adore}, vs h e vẫn chưa hỉu code như nào để đặt list hàng trăm k url để lấy ạ {confuse}
     
  9. Nai

    Nai MiddleMan Staff Member

    Thằng scrape box nghe nói có hỗ trợ lọc content đó:
    1. Là lên Black hat world hỏi.
    2. Là nhờ người đã có kinh nghiệm trên 4rum như: Cụ Chuyên, @Đêm Tàn
     
  10. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    Thế bác cwarl data website bằng cách nào thế ạ, hay bác thuê {sad}{sad}
     
  11. Nai

    Nai MiddleMan Staff Member

    Thuê
     
  12. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    thuê thế nhiu $ 1 site vậy ạ, beginer tụi e ko có nhìu vốn nên cũng khá khó khăn {adore}{adore}
     
  13. money

    money Hương Chủ

    1. Lấy nhiều page: code lấy 1 page rồi thì cronjob cho nó chạy. Mỗi lần chạy lấy 1 url ra rồi crawl data, xào nấu, lưu db, ... Không thích cron thì meta refresh 1 hay vài giây 1 lần, mỗi lần crawl 1 url.
    2. Vấn đề cấu trúc:
    - hoặc crawl những thằng to, nhiều pages. Cùng site sẽ cùng cấu trúc
    - hoặc chấp nhận crawl chỉ 1 phần url, title, desc, image: chỉ cần crawl google, bing là đủ
    - hoặc chấp nhận crawl gì xài đó: cơ bản thì nội dung 1 url bất kỳ chỉ có trong 2 tag đóng mở <body>. Giờ lấy nội dung trong 2 tag đó, viết code remove script, strip html tags, ... phần còn lại là tẽxt thì mình lấy là xong.
     
    Vito_King, Ch3st3r, EDM and 2 others like this.
  14. TNA90

    TNA90 Sơ Nhập Giang Hồ

    nếu bạn biết php rồi thì nó ko rắc rối đến thế đâu. Nghe tả thì vậy thôi, chứ lấy ví dụ thực tế là thấy nó bình thường thôi.
    + Ví dụ luôn thằng dantri.com.vn
    Mình muốn lấy nội dung của các bài trong mục tin tức - sự kiện http://dantri.com.vn/su-kien.htm
    + Đầu tiên là bạn tìm cấu trúc chia trang của nó, thì bạn sẽ thấy nó có dạng http://dantri.com.vn/su-kien/trang-n.htm
    Mình thử n=5000 vẫn ok chưa phải lớn nhất, mỗi trang có khoảng 10 bài => được ít nhất 50000 bài rồi.
    => bạn crawl các url dạng http://dantri.com.vn/su-kien/trang-n.htm với n từ 1 đến tùy ý để lấy url bài viết.
    + Để nhanh bạn cứ lấy tất cả các url có thể trong các trang đó, khỏi cần code lọc url làm gì, sau đó vác lên excel lọc.
    Các url cần lấy có dạng http://dantri.com.vn/su-kien/mat-ma...inh-nang-luc-sieu-nhien-20170920143137958.htm
    Mấy url có cấu trúc khác mình bỏ đi.
    + Sau khi có list url rồi bạn bỏ vào file text, code 1 file php load từng url đó để lấy content, lưu vào máy. Hoặc chơi lấy nội dung trực tiếp mỗi khi có visitor vào web.

    Bạn cứ thực hành vài lần là quen tay ngay thôi, nếu đã biết code php rồi thì nên tận dụng, đỡ phí tiền thuê.Làm vài cái vps + vài chục cái proxy là ngày lấy được cả triệu bài viết.
     
    love, Ch3st3r, EDM and 1 other person like this.
  15. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    Cảm ơn bác nhìu, bác góp ý như này thấy dễ hỉu thật {adore}{adore}
     
  16. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    Ý kiến của bác dưới e thấy dễ hỉu hơn hehe nhưng cũng cảm ơn bác ạ ^^
     
  17. cudem199

    cudem199 Tân Thủ Thôn

    Blog thì đơn chỉ cần 1 dong lệnh là crawl hết data của nó rồi... web thì chưa từng thử :D