Mới tìm được một thư viện tách từ tiếng Việt cực ngon viết bằng python2 với độ chính xác kinh khủng, dành cho anh em nào đang nhập môn xử lý ngôn ngữ tự nhiên. Có cả tài liệu + thuật toán đầy đủ để anh em nghiên cứu. Ngoài ra còn kèm theo bộ data từ điển tiếng Việt cùng toàn bộ tên người và tỉnh thành tại Việt Nam * Cho anh em nào chưa biết: tách câu là một vấn đề bắt buộc và cơ bản nhất để có thể xử lý tiếng Việt, trong tiếng anh nó phân cách từ bằng dấu cách nhưng tiếng Việt dấu cách nó lại để tách các âm tiết, ví dụ từ đất + nước đứng riêng sẽ là 2 tư khác nhau nhưng ghép chung lại thì nó lại mang nghĩa khác, thư viện này sẽ tự tìm các từ ghép để chúng ta xử lý câu văn dễ hơn Link: https://github.com/roy-a/Roy_VnTokenizer
Bác có thể hướng dẫn cách sử dụng bằng một video hoặc viết sơ sơ các bước cần làm để chạy mấy cái file này không, chứ dân ngoại như em mò khó quá
Cái danh sách tên kìa em thấy thiếu tên "Lý Thị Địt" nguồn tên: http://baobaclieu.vn/tin-tuc/trao-qua-ban-doc-ung-ho-ba-ly-thi-dit-38872.html
Xin phép đào mộ phát ạ Tool hay quá bác ơi, đỉnh của chóp Em lướt qua code thấy tool này giúp phân tích đoạn văn thành các từ Giờ em muốn spin các từ này thì cần database các từ đồng nghĩa ạ?! Tool bên trên có database các từ đồng nghĩa ko bác, em vào mò mà ko thấy ạ