Về việc giữ nguyên cấu trúc khi cwarl data website ??

Discussion in 'Thảo Luận Chung' started by Sì Ke, Mar 11, 2018.

  1. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    Các bác cho em hỏi là e dùng code php ( simple html dom ) để cwarl content từ các site khi e dùng plaintext thì content lấy về nó loại bỏ hết các html của website đó nhưng nó không giữ được cấu trúc bài của site mà mình lấy ( như hình ạ )
    [​IMG]
    - đây là khi em dùng plaintext đã xóa hết các html của nó

    [​IMG]
    còn đây là em ko dùng gì cả, cấu trúc thư mục của nó vẫn còn nguyên, nhưng ko loại bỏ các thành phần html ( trừ hình vì e đã lấy vào máy ạ )

    - Thế bây h em phải làm gì để content lấy về vẫn giữ được cấu trúc nhưng vẫn loại bỏ đc các html ạ

    E bít 1 tí về php, html vs css thì cơ bản, mong các bác giúp e ạ {beat_brick}{beat_brick}
     
  2. TrangInTrang

    TrangInTrang Tân Thủ Thôn

    Dùng hàm nl2br để thêm <br /> thử xem bác.
     
    Sì Ke likes this.
  3. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    ko đc bác ạ {beat_shot}
     
  4. TrangInTrang

    TrangInTrang Tân Thủ Thôn

    Mình dùng bình thường mà, Hoặc dùng strip_tags lọc những thẻ không cần thiết.
     
  5. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    bác chụp xong cắt cho e xem đoạn code đó như thế nào với ạ
     
  6. TrangInTrang

    TrangInTrang Tân Thủ Thôn

    Mình không ngồi máy. Bác search là ra ngay mà.
     
    Sì Ke likes this.
  7. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    vâng, tk bác ạ
     
  8. Nai

    Nai MiddleMan Staff Member

    Xóa hết html thì làm sao mà còn cấu trúc được.
    Bác giữ lại những cái cần thiết thôi, giả dụ như thẻ p, img là đủ
     
  9. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    img nhưng lại là link hình của nó, bác bít làm sao để thành hình của mình ko nhỉ
     
  10. Nai

    Nai MiddleMan Staff Member

    Tải về đúng thư mục là được
     
    Sì Ke likes this.
  11. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    [​IMG]
    còn đối với mấy site vừa có ảnh, vừa có content như này, sau khi mình import vào wp thì làm như nào cho nó đúng theo từng cái của nó hả bác
     
  12. buihoang91tin

    buihoang91tin Khách Qua Đường

    Với mình thì mình không lấy plaintext mà lấy outtertext. Muốn remove html nào thì simple html dom có hỗ trợ tìm kiếm các elemnt. Sau khi lấy được thì cho outtertext của elemnt đó bằng rỗng.
     
    Sì Ke likes this.
  13. automan

    automan Hương Chủ

    sao không lấy rich text mà xài plaintext {doubt}

    dùng lấy full bình thuường, cho qua hàm lọc striptags, và giữ lại tag cần giữ, còn lại nó clean hết cho {doubt}
     
    Sì Ke likes this.
  14. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    vâng bác, e đã xử lí đc r ạ, còn hơi rối phần ảnh làm sao lấy về r import vào wp như chúng nó ấy ạ
     
  15. console

    console Bang Chúng

    Đã xài hình chùa thì lấy nguyên người ta về cho ng ta xíu bl :d
     
  16. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    {beat_shot}{beat_shot}{beat_shot}
     
  17. automan

    automan Hương Chủ

    xài auto thì gắn link site nó hay site mình không quan trọng, gắn bên mình tốn résource chứ làm gì, coi xem site nó có chặn image từ host khác không, nếu chặn mới tính đến chuyện lấy hình về {doubt}

    muốn lấy hình thì cũng đơn giản, dùng regular expression, quét url là image, xong down image đó, up lên host rồi replace lại là xong {doubt}
    search thử wordpress có plugin nào làm không, mình ko chơi wordpress, {doubt}
     
    Sì Ke likes this.
  18. Sì Ke

    Sì Ke Sơ Nhập Giang Hồ

    thank bác, em hỉu rồi {beauty}{beauty}