Cách phát hiện ngôn ngữ của 1 đoạn text (chính xác ~ 100%)
money06/03/20182433 lượt xem10 bình luận
Lúc trước mình có code 1 cái tool tự detect ngôn ngữ của 1 đoạn text ngắn, khá chính xác nhưng tỉ lệ chỉ được khoảng 95%. Khi sử dụng cho database chục triệu records thì số lượng sai cũng khá nhiều. Nay mới phát hiện ra 1 cách mới chính xác hơn nhiều, đó là dùng function DETECTLANGUAGE() của Google Spreadsheet.
- Login account tạo 1 spreadsheet mới
- Copy data vào cột A
- Sang cell B1 nhập hàm: =DETECTLANGUAGE(A1)
- Double click vào góc dưới bên phải của cell B1 để áp dụng công thức cho toàn bộ cột B
- Nếu data quá nhiều thì để nó chạy 1 lúc rồi tắt tab đi và vào lại Google Drive mở lại Spreadsheet sau đó chọn chức năng Download as CSV (lưu ý là với data quá nhiều rows nếu chọn Download as Excel có thể bị sai, không hiểu lí do)
Nhược điểm: tốc độ hơi chậm. Mềnh làm với data gần 100K rows, sau khi double click appy công thức cho cột B đợi khoảng 30 phút mà vẫn thấy nó Loading ... nhưng khi vào Google Drive download as CSV thì thấy nó đã xong rồi :D Nên cũng không rõ 100K rows thì mất bao lâu.
Bonus: Google Spreadsheet dùng để dịch từng cell cũng được nha 500 ae. Cách làm như trên, nhưng dùng hàm =GOOGLETRANSLATE(A1,"es","en") (thay "es" và "en" bằng các ngôn ngữ phù hợp)
Bình luận
Đang tải...
Đang kiểm tra đăng nhập...
