Em có data 1 triệu bài, em muốn tạo 100 site..., các bài liên quan ở mỗi site không site nào giống site nào mà vẫn liên quan đến nội dung chính làm thế nào các bác ơi. Em code lấy bài liên quan dựa tạo theo tag1 tag2...hoặc theo từ trong titile bài viết, nhưng làm như vậy chỉ tạo được 1 vài site chứ không tạo được nhiều site. Các bác có cách nào giúp em với.
dùng elasticsearch, hàm more_like_this, vọc các parameter của nó sẽ ra được các bài liên quan. Còn spam ra được bao nhiêu site thì tùy vào độ đẹp trai của bác
Câu hỏi về 100 sites với 1 triệu bài và yêu cầu các bài liên quan ở mỗi sites ko sites nào giống sites nào thì cách dễ nhất là chia 1 triệu data cho 100 sites, mỗi site 10.000 bài (mà mình nghĩ ko cần tổng records cho 100 đâu, chỉ cần chia 10-20 ngẫu nhiên cho từng sites thì dup hiếm gặp hơn rồi) thì dễ gì bài viết liên quan trùng nhau giữa các sites. Còn muốn 1 triệu bài mỗi sites mà yêu cầu bài viết liên quan phải khác nhau thì phải tự viết hàm thôi vì yêu cầu này cá biệt. Mình nghĩ bạn đã crawl được 1 triệu bài viết thì hãy crawl thêm vài triệu bài đi, sau đó chi nhỏ DB ra các sites, rồi tìm bài viết liên quan theo như @firefox khuyến nghị.