Mình có file .csv khoản 1.000.000 sản phẩm nhưng danh mục thì loạn cả lên, có cái có danh mục, có cái không có danh mục. Danh mục thì không giống phân chia như danh mục của mình. Giờ có cách nào phân chia hay nhận dạng sản phẩm để sắp xếp vào danh mục nhanh và đúng không. Mình làm tay mất 3 ngày rồi chưa xong (1 ngày 8h).
Tạo một danh sách danh mục(dm).Đọc file cái nào chưa có danh mục thì đọc thông tin liên quan trong mô tả hay tiêu đề có từ nào là giống với dm thì cập nhât.Không có lưu riêng ra làm thủ công.Mà với hình thức cập nhật kiểu này thì nên lưu sql hay hơn csv
Nếu được thì cũng tương đối thôi thớt ơi. Theo mình nghĩ danh mục thì phải chính xác, cái nào không có danh mục bác cho nó vào 1 danh một others thôi. Mình cũng gặp trường hợp như vậy, nhưng sản phẩm mấy trăm k ai rảnh đâu mà lọc tay, nên breadcrumb 1 là không để cho các sản phẩm như vậy, còn 2 là random cho khỏe, đỡ mệt óc . Còn trường hợp thứ 3 nếu sản phẩm ko quan trọng mình xóa luôn để lần sau curl lại thì cập nhật.
Có data rồi thì train một con bot cho nó phân loại. Code thì có đầy rồi https://www.google.com.vn/search?q=...thub&ie=UTF-8&oe=UTF-8&hl=en-vn&client=safari Lười train dataset thì vào kaggle, hình như có dataset train sẵn 100 triệu pro của amazon thì phải (?!)
Qua đó xem chút bị ngáo luôn. Có cái gì đơn giản dễ hiểu hơn không? --- Double Post Merged, Jan 28, 2021, Original Post Date: Jan 26, 2021 --- Run mấy cái code đó sao không thấy cái nào xài được, toàn lỗi không.
Giờ học và làm không biết lúc nào xong. Bác nào làm được inbox mình cái giá với. (Chỉ nhận dang text: title và desc để ra category)
Cái này thuộc dạng machine learning. python cực mạnh xử lý cái này. --- Double Post Merged, Feb 3, 2021, Original Post Date: Jan 29, 2021 --- Link đây có mẫu luôn htt[1]ps://github.com/shashank31mar/Product-Classification ht[1]tps://github.com/gallib2/product-categorization
bác có sample tầm 100 sp không ạ, nếu không ngại thì hộp kín em nghịch thử. Em có làm qua vài cái tương tự về classification nhưng bên xử lý ảnh, c# .netcore
Đây là 2 file train và test https://drive.google.com/file/d/1V_RiNBb5aVcIGCXBk-96g8I3WyMtLrMK/view?usp=sharing
data này không cần train đâu bác, mapping bình thường là được rồi, tốn tầm buổi sáng mà cũng lạ, file train không có category còn file test lại có nhỉ
Vậy là xong rồi phải không ? --- Double Post Merged, Feb 5, 2021, Original Post Date: Feb 4, 2021 --- Theo mình hiểu: - File train là file cần làm - File test là để máy học - Sau khi máy học thì tạo ra file kết quả. Vì vậy file train nó không có category vì đó là cái cần làm. Còn kết quả chính xác bao nhiêu % là do thuật toán và file test quyết định. --- Double Post Merged, Feb 19, 2021 --- Có AE nào làm được cho mình xin cái giá nhé.
Món này chắc ít ae nghiên cứu, có làm thì đa phần theo nhu cầu cá nhân nên chưa chắc là có thể giúp dc thớt