Chào ae, Mình đang tìm cách crawl dữ liệu từ site klazify[.com] để lấy category của urls. Mình đã lấy trường "_token" và "XSRF-TOKEN" để giả lập POST đến /api/categorize?url=<url>, nhưng thất bại (website trả về trang đăng nhập), trong khi trên trình duyệt thì vẫn có kết quả trả về (ko phải cần login hay API key). Website này nó hạn chế trả về kết quả theo số lượt truy cập dựa trên IP nhé, khi trên 3 lần truy cập POST lấy category trong 1 khoảng thời gian (chưa rõ site cấu hình trong bao lâu nhưng nếu crawl đc dữ liệu thì dùng proxy mà quất ) thì phải cần API key hoặc login. Ae tư vấn giúp với, xin cám ơn.
cách 1 là search trên các forum, stackoverflow, các site cung cấp api, ... cách 2 là ,,, hổng share dc
API ẩn thì em không thấy, chứ cái này nếu chơi kiểu cào thì đơn giản mà. Bác làm tới bước lấy XSRF là xong 99% công việc rồi đó, giờ để ý cái request đầu tiên về site nó có nhả một đống cookie, gom hết lại và sử dụng cho lần sau đó mới là chân ái C# gọi là cookie container, php curl gọi là cookiejar/ cookiefile Em có ngứa tay làm chút code sử dụng lumita/brightdata rotating proxy, thấy cũng ổn, cào kiểu này sll hơi tốn tiền thôi, kkk --- Double Post Merged, Aug 23, 2021, Original Post Date: Aug 23, 2021 --- tản mạn sơ một chút về site này, cái này em thấy nếu clone luôn ý tưởng của site này cũng chả có gì khó, không cần cào nhiều hoặc đao to búa lớn gì đâu. Ý tưởng của em là dùng RNN thông qua keras, ta chỉ cần cào một lượng đủ lớn để train/test, các thông tin con lại như facebook url, youtube url, icon thì có vẻ như nó kéo ra từ thẻ head. Bác nào hiểu về ML nhìn vào thấy ngay vấn đề Bác nào chơi thử đi, nhớ update cho ae nhé, kkk
có thể là để spam kiếm tiền bác ơi. Ví dụ bác đang 1 tháng 1 tỷ thì spam thêm đống này hên xui 1 tháng lên được tỷ rưỡi 2 tỷ
Thanks bác @firefox, mình cũng đoán mình sai sót gì đó ở khâu cookie vì mình ko tìm thấy các thông số khác khi truyền POST, để mình check kỹ hơn, mình xài Python Với ML thì chắc phải nghiên cứu nhiều để làm được model thế này. Mình chưa đoán dữ liệu nó đưa vào model này từ bao nhiêu nguồn, nhưng chắc chắc ko chỉ bao gồm là text trên url vì ae nào đưa url có text ko liên quan đến category thì nó vẫn dự đoán tương đối chuẩn bên cạnh tốc độ trả về rất nhanh (có vẻ site đó nó đã crawl rồi nên dự đoán category thông qua content web chứ ko chỉ text trên url). Ủa mà site test gì mà đầu tiên là nhập vào url xvideos[.com] thế, quen thuộc thế à?
Có lẽ site đó chưa được crawl và thêm vào model trong ML của nó Mình đã thử vài site có url ko liên quan đến lĩnh vực đó và traffic cũng kha khá mà nó vẫn đề xuất đúng thì mình nghĩ nó có crawl dữ liệu của một lượng websites.