Tư vấn crawl site klazify

Discussion in 'Thảo Luận Chung' started by command, Aug 22, 2021.

  1. command

    command Bang Chúng

    Chào ae,

    Mình đang tìm cách crawl dữ liệu từ site klazify[.com] để lấy category của urls.

    Mình đã lấy trường "_token" và "XSRF-TOKEN" để giả lập POST đến /api/categorize?url=<url>, nhưng thất bại (website trả về trang đăng nhập), trong khi trên trình duyệt thì vẫn có kết quả trả về (ko phải cần login hay API key). Website này nó hạn chế trả về kết quả theo số lượt truy cập dựa trên IP nhé, khi trên 3 lần truy cập POST lấy category trong 1 khoảng thời gian (chưa rõ site cấu hình trong bao lâu nhưng nếu crawl đc dữ liệu thì dùng proxy mà quất :) ) thì phải cần API key hoặc login.

    Ae tư vấn giúp với, xin cám ơn.
     
    Last edited: Aug 22, 2021
  2. money

    money Hương Chủ

    Ca này khoai quá. Hóng cao nhân vào hỗ trợ. Anh có mò thử mà không thấy hidden API của site này.
     
  3. command

    command Bang Chúng

    Mò hidden API thế nào vậy a? Có tools check ko a?
     
  4. money

    money Hương Chủ

    cách 1 là search trên các forum, stackoverflow, các site cung cấp api, ...
    cách 2 là ,,, hổng share dc :D
     
  5. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Nó kêu như vầy là phải login vô để lấy api key mới à. Query dc 3 lần cần api key mới cmnr.
     
  6. dưqdw

    dưqdw Khách Qua Đường

    Liên hệ mình xem cho:fb: devqanh22
     
  7. firefox

    firefox Bang Chúng

    API ẩn thì em không thấy, chứ cái này nếu chơi kiểu cào thì đơn giản mà. Bác làm tới bước lấy XSRF là xong 99% công việc rồi đó, giờ để ý cái request đầu tiên về site nó có nhả một đống cookie, gom hết lại và sử dụng cho lần sau đó mới là chân ái {band}
    C# gọi là cookie container, php curl gọi là cookiejar/ cookiefile

    Em có ngứa tay làm chút code sử dụng lumita/brightdata rotating proxy, thấy cũng ổn, cào kiểu này sll hơi tốn tiền thôi, kkk {brick}

    [​IMG]
    --- Double Post Merged, Aug 23, 2021, Original Post Date: Aug 23, 2021 ---
    tản mạn sơ một chút về site này, cái này em thấy nếu clone luôn ý tưởng của site này cũng chả có gì khó, không cần cào nhiều hoặc đao to búa lớn gì đâu.
    Ý tưởng của em là dùng RNN thông qua keras, ta chỉ cần cào một lượng đủ lớn để train/test, các thông tin con lại như facebook url, youtube url, icon thì có vẻ như nó kéo ra từ thẻ head. Bác nào hiểu về ML nhìn vào thấy ngay vấn đề
    Bác nào chơi thử đi, nhớ update cho ae nhé, kkk {brick}
     
  8. Tạ hơi nặng

    Tạ hơi nặng Bang Chúng

    Cái này e nhìn vào e cũng k hiểu rồi có data này để làm gì ta

    btw bắc firefox pro vãi lúa @@
     
  9. firefox

    firefox Bang Chúng

    có thể là để spam kiếm tiền bác ơi. Ví dụ bác đang 1 tháng 1 tỷ thì spam thêm đống này hên xui 1 tháng lên được tỷ rưỡi 2 tỷ {brick}{brick}{brick}
     
    Tạ hơi nặng likes this.
  10. command

    command Bang Chúng

    Thanks bác @firefox, mình cũng đoán mình sai sót gì đó ở khâu cookie vì mình ko tìm thấy các thông số khác khi truyền POST, để mình check kỹ hơn, mình xài Python :)

    Với ML thì chắc phải nghiên cứu nhiều để làm được model thế này.

    Mình chưa đoán dữ liệu nó đưa vào model này từ bao nhiêu nguồn, nhưng chắc chắc ko chỉ bao gồm là text trên url vì ae nào đưa url có text ko liên quan đến category thì nó vẫn dự đoán tương đối chuẩn bên cạnh tốc độ trả về rất nhanh (có vẻ site đó nó đã crawl rồi nên dự đoán category thông qua content web chứ ko chỉ text trên url).

    Ủa mà site test gì mà đầu tiên là nhập vào url xvideos[.com] thế, quen thuộc thế à?
     
    firefox likes this.
  11. thitgaluoc

    thitgaluoc Hương Chủ

  12. wpresources

    wpresources Bang Chúng

    Thật ra nó test số 5
     
    command likes this.
  13. command

    command Bang Chúng

    Có lẽ site đó chưa được crawl và thêm vào model trong ML của nó :) Mình đã thử vài site có url ko liên quan đến lĩnh vực đó và traffic cũng kha khá mà nó vẫn đề xuất đúng thì mình nghĩ nó có crawl dữ liệu của một lượng websites.