Lúc trước mình có code 1 cái tool tự detect ngôn ngữ của 1 đoạn text ngắn, khá chính xác nhưng tỉ lệ chỉ được khoảng 95%. Khi sử dụng cho database chục triệu records thì số lượng sai cũng khá nhiều. Nay mới phát hiện ra 1 cách mới chính xác hơn nhiều, đó là dùng function DETECTLANGUAGE() của Google Spreadsheet. - Login account tạo 1 spreadsheet mới - Copy data vào cột A - Sang cell B1 nhập hàm: =DETECTLANGUAGE(A1) - Double click vào góc dưới bên phải của cell B1 để áp dụng công thức cho toàn bộ cột B - Nếu data quá nhiều thì để nó chạy 1 lúc rồi tắt tab đi và vào lại Google Drive mở lại Spreadsheet sau đó chọn chức năng Download as CSV (lưu ý là với data quá nhiều rows nếu chọn Download as Excel có thể bị sai, không hiểu lí do) Nhược điểm: tốc độ hơi chậm. Mềnh làm với data gần 100K rows, sau khi double click appy công thức cho cột B đợi khoảng 30 phút mà vẫn thấy nó Loading ... nhưng khi vào Google Drive download as CSV thì thấy nó đã xong rồi Nên cũng không rõ 100K rows thì mất bao lâu. Bonus: Google Spreadsheet dùng để dịch từng cell cũng được nha 500 ae. Cách làm như trên, nhưng dùng hàm =GOOGLETRANSLATE(A1,"es","en") (thay "es" và "en" bằng các ngôn ngữ phù hợp)
Dở là nó chậm quá. Nên anh vẫn dùng tool của anh detect trước và chỉ check lại một số record mà tool không detect ra ngôn ngữ nào.
lúc nào bác cũng toàn bí kíp chất nhất quả đất. Toàn cái ai cũng dùng, mà mỗi bác biết. Cám ơn bác nhiều nhiều.
Tớ dùng cả google lẫn bing, nhưng cách trên hay ở chỗ là không cần code Check Skype nha bé già Gì chứ bé là cứ phải code mới thích. 80% là dc rồi em Nhưng nếu có thể hoàn thiện mà ko tốn sức thì vẫn thích