Như title Mọi người biết script hay cách nào tốt để lấy nội dug chính của 1 page bất kì trên trang web không nhi ? Web có thể tiếng Việt, tiếng Anh, tiếng Tàu .... thanks a lot
readability hoặc diffbot làm được nhưng cả 2 anh đều chưa xài Vài năm trước cũng định làm kiểu này nên có tìm hiểu thử nhưng sau đó thấy ko cần thiết.
Theo tình hình số lượng web hiện nay thì: Nội dung chính sẽ xuất hiện trước hoặc sau các thẻ meta date, author hoặc các script share social. Còn cách làm thì em chưa nghĩ ra. Khi nào thớt làm xong có code luôn cho em xin 1 lisence nhìn lướt qua cũng được
nội dung chính ở đây là content trong phần main của trang web, ko fai nói đến description có 100-200 word đâu
PyGoose rất hân hạnh tài trợ tuy nhiên chỉ được phần lớn thôi một số trang không lấy được https://github.com/goose3/goose3
Có thể lấy được bác. Theo em nghĩ như thế này sẽ lấy được đại đa số. Lấy tất cả các div trong body. Remove hết html tab, trim lại, count word thử thằng nào lớn nhất thì có khả năng là main content. Đệ quy nó cho đến khi còn thằng cuối cùng. Xong chỉ cần get h1,h2,.. p, span, hoặc div. Bác có thể tính toán thêm trường hợp để lấy đc đại đa số. Ý kiến cá nhân là vậy Viết thêm tí là xét các trường hợp có tab article thì có khả năng cao là main content ở đây. Bác viết xong tool, hoặc có gì hay thì cho em xem với, tham khảo hehe