Các bác cho em hỏi là e dùng code php ( simple html dom ) để cwarl content từ các site khi e dùng plaintext thì content lấy về nó loại bỏ hết các html của website đó nhưng nó không giữ được cấu trúc bài của site mà mình lấy ( như hình ạ ) - đây là khi em dùng plaintext đã xóa hết các html của nó còn đây là em ko dùng gì cả, cấu trúc thư mục của nó vẫn còn nguyên, nhưng ko loại bỏ các thành phần html ( trừ hình vì e đã lấy vào máy ạ ) - Thế bây h em phải làm gì để content lấy về vẫn giữ được cấu trúc nhưng vẫn loại bỏ đc các html ạ E bít 1 tí về php, html vs css thì cơ bản, mong các bác giúp e ạ
Xóa hết html thì làm sao mà còn cấu trúc được. Bác giữ lại những cái cần thiết thôi, giả dụ như thẻ p, img là đủ
còn đối với mấy site vừa có ảnh, vừa có content như này, sau khi mình import vào wp thì làm như nào cho nó đúng theo từng cái của nó hả bác
Với mình thì mình không lấy plaintext mà lấy outtertext. Muốn remove html nào thì simple html dom có hỗ trợ tìm kiếm các elemnt. Sau khi lấy được thì cho outtertext của elemnt đó bằng rỗng.
sao không lấy rich text mà xài plaintext dùng lấy full bình thuường, cho qua hàm lọc striptags, và giữ lại tag cần giữ, còn lại nó clean hết cho
xài auto thì gắn link site nó hay site mình không quan trọng, gắn bên mình tốn résource chứ làm gì, coi xem site nó có chặn image từ host khác không, nếu chặn mới tính đến chuyện lấy hình về muốn lấy hình thì cũng đơn giản, dùng regular expression, quét url là image, xong down image đó, up lên host rồi replace lại là xong search thử wordpress có plugin nào làm không, mình ko chơi wordpress,