Về việc giữ nguyên cấu trúc khi cwarl data website ??

Sì Ke · Mar 11, 2018

Các bác cho em hỏi là e dùng code php ( simple html dom ) để cwarl content từ các site khi e dùng plaintext thì content lấy về nó loại bỏ hết các html của website đó nhưng nó không giữ được cấu trúc bài của site mà mình lấy ( như hình ạ )

- đây là khi em dùng plaintext đã xóa hết các html của nó

còn đây là em ko dùng gì cả, cấu trúc thư mục của nó vẫn còn nguyên, nhưng ko loại bỏ các thành phần html ( trừ hình vì e đã lấy vào máy ạ )

- Thế bây h em phải làm gì để content lấy về vẫn giữ được cấu trúc nhưng vẫn loại bỏ đc các html ạ

E bít 1 tí về php, html vs css thì cơ bản, mong các bác giúp e ạ ${beat_brick}$ ${beat_brick}$

TrangInTrang · Mar 11, 2018

Dùng hàm nl2br để thêm <br /> thử xem bác.

Sì Ke · Mar 11, 2018

TrangInTrang said: ↑

Dùng hàm nl2br để thêm <br /> thử xem bác.
Click to expand...

ko đc bác ạ ${beat_shot}$

TrangInTrang · Mar 11, 2018

Sì Ke said: ↑

ko đc bác ạ ${beat_shot}$
Click to expand...

Mình dùng bình thường mà, Hoặc dùng strip_tags lọc những thẻ không cần thiết.

Sì Ke · Mar 11, 2018

TrangInTrang said: ↑

Mình dùng bình thường mà, Hoặc dùng strip_tags lọc những thẻ không cần thiết.
Click to expand...

bác chụp xong cắt cho e xem đoạn code đó như thế nào với ạ

TrangInTrang · Mar 11, 2018

Sì Ke said: ↑

bác chụp xong cắt cho e xem đoạn code đó như thế nào với ạ
Click to expand...

Mình không ngồi máy. Bác search là ra ngay mà.

Sì Ke · Mar 11, 2018

TrangInTrang said: ↑

Mình không ngồi máy. Bác search là ra ngay mà.
Click to expand...

vâng, tk bác ạ

Nai · Mar 11, 2018

Xóa hết html thì làm sao mà còn cấu trúc được.
Bác giữ lại những cái cần thiết thôi, giả dụ như thẻ p, img là đủ

Sì Ke · Mar 11, 2018

Nai said: ↑

Xóa hết html thì làm sao mà còn cấu trúc được.
Bác giữ lại những cái cần thiết thôi, giả dụ như thẻ p, img là đủ
Click to expand...

img nhưng lại là link hình của nó, bác bít làm sao để thành hình của mình ko nhỉ

Nai · Mar 11, 2018

Sì Ke said: ↑

img nhưng lại là link hình của nó, bác bít làm sao để thành hình của mình ko nhỉ
Click to expand...

Tải về đúng thư mục là được

Sì Ke · Mar 11, 2018

Nai said: ↑

Tải về đúng thư mục là được
Click to expand...

còn đối với mấy site vừa có ảnh, vừa có content như này, sau khi mình import vào wp thì làm như nào cho nó đúng theo từng cái của nó hả bác

buihoang91tin · Mar 12, 2018

Với mình thì mình không lấy plaintext mà lấy outtertext. Muốn remove html nào thì simple html dom có hỗ trợ tìm kiếm các elemnt. Sau khi lấy được thì cho outtertext của elemnt đó bằng rỗng.

automan · Mar 12, 2018

sao không lấy rich text mà xài plaintext

dùng lấy full bình thuường, cho qua hàm lọc striptags, và giữ lại tag cần giữ, còn lại nó clean hết cho

Sì Ke · Mar 12, 2018

automan said: ↑

sao không lấy rich text mà xài plaintext

dùng lấy full bình thuường, cho qua hàm lọc striptags, và giữ lại tag cần giữ, còn lại nó clean hết cho
Click to expand...

vâng bác, e đã xử lí đc r ạ, còn hơi rối phần ảnh làm sao lấy về r import vào wp như chúng nó ấy ạ

console · Mar 12, 2018

Đã xài hình chùa thì lấy nguyên người ta về cho ng ta xíu bl :d

Sì Ke · Mar 12, 2018

console said: ↑

Đã xài hình chùa thì lấy nguyên người ta về cho ng ta xíu bl :d
Click to expand...

${beat_shot}$ ${beat_shot}$ ${beat_shot}$

automan · Mar 12, 2018

Sì Ke said: ↑

vâng bác, e đã xử lí đc r ạ, còn hơi rối phần ảnh làm sao lấy về r import vào wp như chúng nó ấy ạ
Click to expand...

xài auto thì gắn link site nó hay site mình không quan trọng, gắn bên mình tốn résource chứ làm gì, coi xem site nó có chặn image từ host khác không, nếu chặn mới tính đến chuyện lấy hình về

muốn lấy hình thì cũng đơn giản, dùng regular expression, quét url là image, xong down image đó, up lên host rồi replace lại là xong
search thử wordpress có plugin nào làm không, mình ko chơi wordpress,

Sì Ke · Mar 12, 2018

automan said: ↑

xài auto thì gắn link site nó hay site mình không quan trọng, gắn bên mình tốn résource chứ làm gì, coi xem site nó có chặn image từ host khác không, nếu chặn mới tính đến chuyện lấy hình về

muốn lấy hình thì cũng đơn giản, dùng regular expression, quét url là image, xong down image đó, up lên host rồi replace lại là xong
search thử wordpress có plugin nào làm không, mình ko chơi wordpress,
Click to expand...

thank bác, em hỉu rồi

Log in or Sign up

Về việc giữ nguyên cấu trúc khi cwarl data website ??

Sì Ke Sơ Nhập Giang Hồ

More Threads in same category

TrangInTrang Tân Thủ Thôn

Sì Ke Sơ Nhập Giang Hồ

TrangInTrang Tân Thủ Thôn

Sì Ke Sơ Nhập Giang Hồ

TrangInTrang Tân Thủ Thôn

Sì Ke Sơ Nhập Giang Hồ

Nai MiddleMan Staff Member

Sì Ke Sơ Nhập Giang Hồ

Nai MiddleMan Staff Member

Sì Ke Sơ Nhập Giang Hồ

buihoang91tin Khách Qua Đường

automan Hương Chủ

Sì Ke Sơ Nhập Giang Hồ

console Bang Chúng

Sì Ke Sơ Nhập Giang Hồ

automan Hương Chủ

Sì Ke Sơ Nhập Giang Hồ

Log in or Sign up

Về việc giữ nguyên cấu trúc khi cwarl data website ??

Sì Ke Sơ Nhập Giang Hồ

More Threads in same category

TrangInTrang Tân Thủ Thôn

Sì Ke Sơ Nhập Giang Hồ

TrangInTrang Tân Thủ Thôn

Sì Ke Sơ Nhập Giang Hồ

TrangInTrang Tân Thủ Thôn

Sì Ke Sơ Nhập Giang Hồ

Nai MiddleMan Staff Member

Sì Ke Sơ Nhập Giang Hồ

Nai MiddleMan Staff Member

Sì Ke Sơ Nhập Giang Hồ

buihoang91tin Khách Qua Đường

automan Hương Chủ

Sì Ke Sơ Nhập Giang Hồ

console Bang Chúng

Sì Ke Sơ Nhập Giang Hồ

automan Hương Chủ

Sì Ke Sơ Nhập Giang Hồ

Useful Searches