Chào các anh! Em mới tập crawl nên chưa biết nhiều mong các anh chỉ giáo giúp Em muốn crawl 1 trang tin tức và dịch nó sang 1 ngôn ngữ khác nhưng vẫn muốn giữ nguyên cấu trúc content các thẻ html của web gốc thì có cách nào không ạ, em dịch bằng google không được mong các anh chỉ giáo
Em thấy dùng cách này hay: - vi.wordpress.org/plugins/qtranslate-x/ - Bing Auto translate. Mình sẽ config làm sao để tạo ra đc mỗi language sẽ là 1 đường dẫn rồi khi vào path đó, bing nó sẽ tự translate. Bài e viết: https://www.wpwiseguys.com/3191-wordpress-auto-translate-content/
Mình mới tập nhưng yêu cầu nó như thế thì mình phải làm thôi chứ gì mà bày đặt đâu bạn, bạn biết bạn có lòng thì chỉ giùm ko thì cũng đâu ảnh hưởng tới bạn đâu mà nói mình bày đặt gì
Nếu muốn giữ nguyên cấu trúc content và các thẻ thì chắc bạn tách text lần lượt từ từng thẻ ra rồi translate, xong lại ghép lại với chính thẻ đó.
lúc mới làm mình cũng làm như đồng chí này nhưng cực khổ vl chủ thớt nếu làm bằng python mình bày cho 2 cách : cách 1 : crawl raw html, biến nó thành BeautifulSoup tree, sau đó loop từng element trong cái tree đó, cái nào type là NavigableString thì lấy text của nó ra, dịch rồi tạo cái tag mới y như cái cũ rồi dùng method replace_with của BeautifulSoup mà replace cái string cũ. Cách này modify cái tree trực tiếp luôn (không return lại cái gì cả). Cuối cùng dùng method prettify() của nó để trả lại cái tree thành dạng text thôi Chi tiết thì cứ docs của BeautifulSoup mà giã nhé cách 2 : tương tự cách 1, nhưng dùng lxml.html parser, gói này thì mạnh và nhiều đồ chơi vkl, bạn có thể lọc nội dung html cũ và tạo html mới cũng đc, nhưng gói này dùng khó hơn, google ít bài hướng dẫn hơn. Quan trọng là dịch xong rồi có khách hay không. Site mình clone nội dung từ nhiều nguồn về đc 10k bài mà lên 2 tháng rồi lèo tèo ngày vài ba mống organic, chán lắm. Bác nào có hướng ngon cho tool kiểu này gợi ý em với, code mòn đít mà bỏ thì phí quá :/
@thitgaluoc: thực ra ý mình chính là dùng beautifulsoup để bóc như cách 1 bạn làm, nhưng vì k biết chủ thớt dùng code gì nên k nói cụ thể. Có điều mình thấy đọc docs của bs phức tạp, dùng để tra cứu chi tiết các option thì còn được, còn lại search trên stackoverflows để tìm hướng dẫn dùng bs còn dễ hơn.
docs của bs4 là dễ đọc rồi, bác đọc docs của thằng lxml còn khủng nữa ) trên stack không có hướng dẫn modify tree này mấy đâu, em đọc rồi )