Tư vấn crawl site klazify

command · Aug 22, 2021

Chào ae,

Mình đang tìm cách crawl dữ liệu từ site klazify[.com] để lấy category của urls.

Mình đã lấy trường "_token" và "XSRF-TOKEN" để giả lập POST đến /api/categorize?url=<url>, nhưng thất bại (website trả về trang đăng nhập), trong khi trên trình duyệt thì vẫn có kết quả trả về (ko phải cần login hay API key). Website này nó hạn chế trả về kết quả theo số lượt truy cập dựa trên IP nhé, khi trên 3 lần truy cập POST lấy category trong 1 khoảng thời gian (chưa rõ site cấu hình trong bao lâu nhưng nếu crawl đc dữ liệu thì dùng proxy mà quất ) thì phải cần API key hoặc login.

Ae tư vấn giúp với, xin cám ơn.

money · Aug 22, 2021

Ca này khoai quá. Hóng cao nhân vào hỗ trợ. Anh có mò thử mà không thấy hidden API của site này.

command · Aug 22, 2021

money said: ↑

Ca này khoai quá. Hóng cao nhân vào hỗ trợ. Anh có mò thử mà không thấy hidden API của site này.
Click to expand...

Mò hidden API thế nào vậy a? Có tools check ko a?

money · Aug 22, 2021

command said: ↑

Mò hidden API thế nào vậy a? Có tools check ko a?
Click to expand...

cách 1 là search trên các forum, stackoverflow, các site cung cấp api, ...
cách 2 là ,,, hổng share dc

Hoa Mãn Lâu · Aug 22, 2021

You need to get your API Key to do more API calls.
Click to expand...

Nó kêu như vầy là phải login vô để lấy api key mới à. Query dc 3 lần cần api key mới cmnr.

dưqdw · Aug 22, 2021

Liên hệ mình xem cho:fb: devqanh22

firefox · Aug 23, 2021

API ẩn thì em không thấy, chứ cái này nếu chơi kiểu cào thì đơn giản mà. Bác làm tới bước lấy XSRF là xong 99% công việc rồi đó, giờ để ý cái request đầu tiên về site nó có nhả một đống cookie, gom hết lại và sử dụng cho lần sau đó mới là chân ái
C# gọi là cookie container, php curl gọi là cookiejar/ cookiefile

Em có ngứa tay làm chút code sử dụng lumita/brightdata rotating proxy, thấy cũng ổn, cào kiểu này sll hơi tốn tiền thôi, kkk

--- Double Post Merged, Aug 23, 2021, Original Post Date: Aug 23, 2021 ---

tản mạn sơ một chút về site này, cái này em thấy nếu clone luôn ý tưởng của site này cũng chả có gì khó, không cần cào nhiều hoặc đao to búa lớn gì đâu.
Ý tưởng của em là dùng RNN thông qua keras, ta chỉ cần cào một lượng đủ lớn để train/test, các thông tin con lại như facebook url, youtube url, icon thì có vẻ như nó kéo ra từ thẻ head. Bác nào hiểu về ML nhìn vào thấy ngay vấn đề
Bác nào chơi thử đi, nhớ update cho ae nhé, kkk

Tạ hơi nặng · Aug 23, 2021

Cái này e nhìn vào e cũng k hiểu rồi có data này để làm gì ta

btw bắc firefox pro vãi lúa @@

firefox · Aug 23, 2021

Tạ hơi nặng said: ↑

Cái này e nhìn vào e cũng k hiểu rồi có data này để làm gì ta
Click to expand...

có thể là để spam kiếm tiền bác ơi. Ví dụ bác đang 1 tháng 1 tỷ thì spam thêm đống này hên xui 1 tháng lên được tỷ rưỡi 2 tỷ

command · Aug 23, 2021

firefox said: ↑

API ẩn thì em không thấy, chứ cái này nếu chơi kiểu cào thì đơn giản mà. Bác làm tới bước lấy XSRF là xong 99% công việc rồi đó, giờ để ý cái request đầu tiên về site nó có nhả một đống cookie, gom hết lại và sử dụng cho lần sau đó mới là chân ái
C# gọi là cookie container, php curl gọi là cookiejar/ cookiefile

Em có ngứa tay làm chút code sử dụng lumita/brightdata rotating proxy, thấy cũng ổn, cào kiểu này sll hơi tốn tiền thôi, kkk

--- Double Post Merged, Aug 23, 2021, Original Post Date: Aug 23, 2021 ---

tản mạn sơ một chút về site này, cái này em thấy nếu clone luôn ý tưởng của site này cũng chả có gì khó, không cần cào nhiều hoặc đao to búa lớn gì đâu.
Ý tưởng của em là dùng RNN thông qua keras, ta chỉ cần cào một lượng đủ lớn để train/test, các thông tin con lại như facebook url, youtube url, icon thì có vẻ như nó kéo ra từ thẻ head. Bác nào hiểu về ML nhìn vào thấy ngay vấn đề
Bác nào chơi thử đi, nhớ update cho ae nhé, kkk
Click to expand...

Thanks bác @firefox, mình cũng đoán mình sai sót gì đó ở khâu cookie vì mình ko tìm thấy các thông số khác khi truyền POST, để mình check kỹ hơn, mình xài Python

Với ML thì chắc phải nghiên cứu nhiều để làm được model thế này.

Mình chưa đoán dữ liệu nó đưa vào model này từ bao nhiêu nguồn, nhưng chắc chắc ko chỉ bao gồm là text trên url vì ae nào đưa url có text ko liên quan đến category thì nó vẫn dự đoán tương đối chuẩn bên cạnh tốc độ trả về rất nhanh (có vẻ site đó nó đã crawl rồi nên dự đoán category thông qua content web chứ ko chỉ text trên url).

Ủa mà site test gì mà đầu tiên là nhập vào url xvideos[.com] thế, quen thuộc thế à?

thitgaluoc · Aug 23, 2021

vừa thử test logo api của nó với domain này : https://www.iseclisboa.pt

không ra luôn lmao =))

wpresources · Aug 23, 2021

command said: ↑

Ủa mà site test gì mà đầu tiên là nhập vào url xvideos[.com] thế, quen thuộc thế à?
Click to expand...

Thật ra nó test số 5

command · Aug 23, 2021

thitgaluoc said: ↑

vừa thử test logo api của nó với domain này : https://www.iseclisboa.pt

không ra luôn lmao =))
Click to expand...

Có lẽ site đó chưa được crawl và thêm vào model trong ML của nó Mình đã thử vài site có url ko liên quan đến lĩnh vực đó và traffic cũng kha khá mà nó vẫn đề xuất đúng thì mình nghĩ nó có crawl dữ liệu của một lượng websites.

Log in or Sign up

Tư vấn crawl site klazify

command Bang Chúng

More Threads in same category

money Hương Chủ

command Bang Chúng

money Hương Chủ

Hoa Mãn Lâu Trưởng Môn

dưqdw Khách Qua Đường

firefox Bang Chúng

Tạ hơi nặng Bang Chúng

firefox Bang Chúng

command Bang Chúng

thitgaluoc Hương Chủ

wpresources Bang Chúng

command Bang Chúng

Log in or Sign up

Tư vấn crawl site klazify

command Bang Chúng

More Threads in same category

money Hương Chủ

command Bang Chúng

money Hương Chủ

Hoa Mãn Lâu Trưởng Môn

dưqdw Khách Qua Đường

firefox Bang Chúng

Tạ hơi nặng Bang Chúng

firefox Bang Chúng

command Bang Chúng

thitgaluoc Hương Chủ

wpresources Bang Chúng

command Bang Chúng

Useful Searches