Hỏi kinh nghiệm crawl content có images bên trong?

Discussion in 'AutoBlog' started by Tường Vy, Sep 5, 2017.

  1. Tường Vy

    Tường Vy Tân Thủ Thôn

    Các bác thường crawl bài viết có ảnh kiểu gì vậy ???
    Lưu vào database thì ý tưởng là sao ạ?
     
  2. pipapipo

    pipapipo Sơ Nhập Giang Hồ

    tống thẳng link gốc vào db thôi ạ _ _!
     
  3. bumkom

    bumkom Khách Qua Đường

    tải ảnh về rồi thay đổi lại đường dẫn trong bài {big_smile}
     
  4. Luxifer

    Luxifer Sơ Nhập Giang Hồ

    Có 3 cách:
    - Tải ảnh về, lưu trên server của mình, rồi replace lại cái src trong bài viết gốc.
    - Để nguyên link ảnh của người ta, nó chết mình chết theo.
    - Lưu ảnh thẳng vào DB, cái này là convert từ ảnh --> text, không khuyến khích cách này.

    Mình thì hay làm cách 1.
     
  5. Tường Vy

    Tường Vy Tân Thủ Thôn

    ý mình là 1 bài viết nó bao gồm cả images xen giữa các content khác ấy ạ :(
     
  6. Trí Mén

    Trí Mén Moderator Staff Member

    Không hiểu ý của thớt lắm
     
  7. Luxifer

    Luxifer Sơ Nhập Giang Hồ

    Chắc bác ấy đang hỏi lại câu đầu tiên của topic.

    @Tường Vy : cái này thì tuỳ tool / ngôn ngữ bác xài thôi. Làm sao filter ra được các img tag để lấy link là được, hehe.
     
  8. console

    console Bang Chúng

    Trường hợp của bạn nhanh nhất là down hết về như @Luxifer nói. Lưu y cái name của nó replace url là xong.
     
  9. Tường Vy

    Tường Vy Tân Thủ Thôn

    [​IMG]
    Ý e là như này này bro? Làm sao để lấy 1 bài news có xen kẽ cả content lẫn images vậy ạ
     
  10. money

    money Hương Chủ

    Rõ khổ, chồng của @Tường Vy không biết code nên anh em giải thích mãi mà ko hiểu :D
     
  11. EDM

    EDM Sơ Nhập Giang Hồ

    Theo các anh thì mình storage ảnh như thế nào là dễ quản lý ạ?
    1. Image/year/month/filename.jpg
    2. Image/category/id-post/filename.jpg
     
  12. pipapipo

    pipapipo Sơ Nhập Giang Hồ

    E toàn chơi kiểu 1 bác ạ, vì theo em nghĩ thì để folder kiểu y/m/d/file nó tiện cho việc mình backup data hơn
     
  13. EDM

    EDM Sơ Nhập Giang Hồ

    E nghĩ mỗi cái tuỳ vào mỗi niche site, vd site new thì cách 1, site movie thì cách 2 quản lý dễ hơn??
     
  14. pipapipo

    pipapipo Sơ Nhập Giang Hồ

    @EDM Vậy khi backup data bác zip nguyên cả folder images ạ {ops}
     
  15. EDM

    EDM Sơ Nhập Giang Hồ

    Đúng rồi bác ơi :(, mà tất cả image của e đều đc xử lý nên rất nhẹ, ảnh nhỏ tầm 15kb, lớn thì <100kb
     
  16. pipapipo

    pipapipo Sơ Nhập Giang Hồ

    OK bác, nếu vậy thì đúng theo bác nói là tùy niche thật {big_smile}
     
  17. I Love Php

    I Love Php Bang Chúng

    lưu luôn link của site nguồn thì sao nhỉ?
     
  18. Tường Vy

    Tường Vy Tân Thủ Thôn

    Vây theo ý các bác là khi crawl đống bài viết kia thì khi nào thấy ảnh thì lưu nó về máy và gắn cờ vào đoạn ảnh ấy. Khí nào show ra thì replace ảnh mình đã lưu vào cờ đã gắn à các bro :(
     
  19. I Love Php

    I Love Php Bang Chúng

    cứ lấy luôn đoạn html của bài viết nếu link ảnh dạng ko có http thì add thêm domain của site nguồn vào mỗi thẻ img. B lưu ảnh về sever thì nặng lắm. Còn ko muốn dùng link thì nên up ảnh lên site khác rồi lấy link ảnh replace luôn
     
  20. wpresources

    wpresources Bang Chúng

    Dùng ảnh nó luôn cũng được,lấy ảnh nó tải về up lên host rồi thay đường dẫn vào hơi mất công đấy.Tùy theo nhu cầu bạn chọn phương án phù hợp