Cần giúp đỡ về crawl các site wp

Discussion in 'Hỏi Đáp Kỹ Thuật' started by loyki, Apr 27, 2022.

  1. loyki

    loyki Bang Chúng

    Bình thường em crawl các victim wp bằng WP Content Crawler. Giờ crawl 1 site(em k thể public) mà lưu hình ảnh của nó về web của mình thì nó chuyển thành đuôi .html, nhưng mà web của victim thì vẫn là .jpg

    Có cách nào khắc phục k các bác
     
  2. command

    command Bang Chúng

    Giả sử hình bạn muốn lấy là:
    Thử dùng thế này: thì có ra hình ko?
     
    loyki likes this.
  3. Dang

    Dang Bang Chúng

    Bạn nhúng ảnh hay tải về host?
    - Nếu nhúng thì bị Hotlink Protection rồi!
    - Nếu host thì bạn view source file đó xem nội dung nó như thế nào! Có dính lỗi 4xx hoặc 5xx không? Chắc site đó dùng cdn, plugin đó không qua được ...
     
  4. loyki

    loyki Bang Chúng

    nó trả kết quả như này bác ạ
    Em vào trình duyệt thì tải ảnh ok, nhưng check http status thì nó 302
    --- Double Post Merged, Apr 28, 2022, Original Post Date: Apr 28, 2022 ---
    hình như xài jetpack cdn bác ạ, có cách gì vượt k bác
     
    Dang likes this.
  5. thitgaluoc

    thitgaluoc Hương Chủ

    phải có cái link thì mới bắt bệnh đc bác ạ