Thảo luận kỹ thuật về cào dữ liệu (crawling bot)

Discussion in 'Hỏi Đáp Kỹ Thuật' started by command, Jan 19, 2019.

  1. Phan Thị

    Phan Thị Bang Chúng

    Đăng nhập xong curl nó lưu cookie vào file text kia,load file text đó lấy cookie rồi dùng curl với cái cookie đó. lấy trang nào chẳng dc, tự tìm hiểu đi
     
  2. thetrue

    thetrue Sơ Nhập Giang Hồ

    có anh chị nào từng cralw giá sp trên lazada ko ạ? có cách nào vượt dc capcha của lzd ạ, cho e vài hướng đi với. e đang dùng php để trích xuất dom html, dùng curl kèm cookie trình duyệt mà chỉ vượt dc chừng 30p, sau tgian này phải lấy cookie thủ công paste vô curl để crawl tiếp. cách này hơi thủ công.
     
  3. pipapipo

    pipapipo Sơ Nhập Giang Hồ

    Đồng chí paste thẳng cookie vào mảng headers rồi truyền vào CURL đúng không
     
  4. Nai

    Nai MiddleMan Staff Member

    Đó giờ CURL thêm cookie mình chỉ biết mỗi cách đó. Còn cách khác và hiệu quả tốt hơn sao bác?
    Trước mình cũng chơi với lazada, đổi sang rotate proxy thì cũng chữa cháy được nhưng hơi bị hao CPU vì cũng bị block liên tục.
     
  5. thetrue

    thetrue Sơ Nhập Giang Hồ

    dạ đúng rồi ạ
     
  6. huy hoang

    huy hoang Khách Qua Đường

    hiện tại mình dùng cái này để crawl website yêu cầu đăng nhập. https://incarnate.github.io/curl-to-php/

    Chỉ cần paste cái cURL là nó sẽ general ra đoạn code xử lý
     
    Hoa Mãn Lâu likes this.