Hỏi về crawl và translate

Discussion in 'Hỏi Đáp Kỹ Thuật' started by duytb1404, Jun 23, 2018.

  1. duytb1404

    duytb1404 Khách Qua Đường

    Chào các anh! Em mới tập crawl nên chưa biết nhiều mong các anh chỉ giáo giúp
    Em muốn crawl 1 trang tin tức và dịch nó sang 1 ngôn ngữ khác nhưng vẫn muốn giữ nguyên cấu trúc content các thẻ html của web gốc thì có cách nào không ạ, em dịch bằng google không được mong các anh chỉ giáo
     
  2. iposter

    iposter Khách Qua Đường

    replace các thẻ html sang dạng dãy số nào đó, dịch xong replace lại :D
     
    Vito_King and Hoa Mãn Lâu like this.
  3. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    kiểu như làm dấu ấy, xong rồi convert về lại
     
  4. money

    money Hương Chủ

    G-translate cho dịch nguyên 1 url đó.
     
    duytb1404 likes this.
  5. Nai

    Nai MiddleMan Staff Member

    Thớt làm theo cách anh @money thử coi sao nhé. Thay vì crawl về rồi dịch thì dịch xong crawl về.
     
  6. Tọi

    Tọi Sơ Nhập Giang Hồ

    Em thấy dùng cách này hay:

    - vi.wordpress.org/plugins/qtranslate-x/
    - Bing Auto translate.

    Mình sẽ config làm sao để tạo ra đc mỗi language sẽ là 1 đường dẫn rồi khi vào path đó, bing nó sẽ tự translate.

    Bài e viết: https://www.wpwiseguys.com/3191-wordpress-auto-translate-content/
     
    Vito_King and Hoa Mãn Lâu like this.
  7. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Suy nghĩ thú vị đó thím
     
    Tọi likes this.
  8. duytb1404

    duytb1404 Khách Qua Đường

    Vâng cám ơn bác để em thử
     
  9. Cháu dì Sáu

    Cháu dì Sáu Bang Chúng

    Mới tập mà bày đặt chơi hardcore
     
  10. duytb1404

    duytb1404 Khách Qua Đường

    Mình mới tập nhưng yêu cầu nó như thế thì mình phải làm thôi chứ gì mà bày đặt đâu bạn, bạn biết bạn có lòng thì chỉ giùm ko thì cũng đâu ảnh hưởng tới bạn đâu mà nói mình bày đặt gì
     
  11. Trần Trọng Bách

    Trần Trọng Bách Sơ Nhập Giang Hồ

    Nếu muốn giữ nguyên cấu trúc content và các thẻ thì chắc bạn tách text lần lượt từ từng thẻ ra rồi translate, xong lại ghép lại với chính thẻ đó.
     
  12. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Bạn ấy chọc thôi, Hẻm có gì đâu
     
  13. thitgaluoc

    thitgaluoc Hương Chủ

    lúc mới làm mình cũng làm như đồng chí này nhưng cực khổ vl :D
    chủ thớt nếu làm bằng python mình bày cho 2 cách :
    cách 1 : crawl raw html, biến nó thành BeautifulSoup tree, sau đó loop từng element trong cái tree đó, cái nào type là NavigableString thì lấy text của nó ra, dịch rồi tạo cái tag mới y như cái cũ rồi dùng method replace_with của BeautifulSoup mà replace cái string cũ. Cách này modify cái tree trực tiếp luôn (không return lại cái gì cả). Cuối cùng dùng method prettify() của nó để trả lại cái tree thành dạng text thôi :D Chi tiết thì cứ docs của BeautifulSoup mà giã nhé

    cách 2 : tương tự cách 1, nhưng dùng lxml.html parser, gói này thì mạnh và nhiều đồ chơi vkl, bạn có thể lọc nội dung html cũ và tạo html mới cũng đc, nhưng gói này dùng khó hơn, google ít bài hướng dẫn hơn.

    Quan trọng là dịch xong rồi có khách hay không. Site mình clone nội dung từ nhiều nguồn về đc 10k bài mà lên 2 tháng rồi lèo tèo ngày vài ba mống organic, chán lắm. Bác nào có hướng ngon cho tool kiểu này gợi ý em với, code mòn đít mà bỏ thì phí quá :/
     
    Nai likes this.
  14. Trần Trọng Bách

    Trần Trọng Bách Sơ Nhập Giang Hồ

    @thitgaluoc: thực ra ý mình chính là dùng beautifulsoup để bóc như cách 1 bạn làm, nhưng vì k biết chủ thớt dùng code gì nên k nói cụ thể. Có điều mình thấy đọc docs của bs phức tạp, dùng để tra cứu chi tiết các option thì còn được, còn lại search trên stackoverflows để tìm hướng dẫn dùng bs còn dễ hơn.
     
  15. thitgaluoc

    thitgaluoc Hương Chủ

    docs của bs4 là dễ đọc rồi, bác đọc docs của thằng lxml còn khủng nữa :)) trên stack không có hướng dẫn modify tree này mấy đâu, em đọc rồi :))
     
  16. Vito_King

    Vito_King Sơ Nhập Giang Hồ

    Link lỗi rồi bạn ơi.
     
  17. xmenvn2510

    xmenvn2510 Moderator + MiddleMan Staff Member

    Em dạo này đào mộ các topic cũ àh.
     
  18. Vito_King

    Vito_King Sơ Nhập Giang Hồ

    Không, tìm trên diễn đàn kiến thức em cần
     
  19. wpresources

    wpresources Bang Chúng

    Google mà dùng api nó có hỗ trợ dịch cả text,html đó thớt.