Nhờ craw site này

Discussion in 'Thảo Luận Chung' started by Phan Thị, May 22, 2019.

  1. Phan Thị

    Phan Thị Bang Chúng

    Mình có site này nó chặn sao ko thể craw được
    pub
    Code:
    https://dlscrib.com/gary-halbert-how-to-write-sales-letters-that-will-make-you-rich_58d6b048dc0d60c913c34687_txt.html
    Thank
     
  2. xmenvn2510

    xmenvn2510 Moderator + MiddleMan Staff Member

    Khá khoai đấy bro.
     
  3. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Craw by pass recaptcha à?
     
  4. sincos

    sincos Bang Chúng

    Proxy là xong..... kệ thằng end-user đầu tiên tự pass recaptcha. Cache lại cho những thằng sau.

    Done.
     
  5. Cháu dì Sáu

    Cháu dì Sáu Bang Chúng

    Anh Sincos mưu cao thặc
     
  6. Phan Thị

    Phan Thị Bang Chúng

    proxy đầy mồm vẫn ko dc nhé
     
  7. Phan Thị

    Phan Thị Bang Chúng

    Craw nó cho ra google luôn
     
  8. thitgaluoc

    thitgaluoc Hương Chủ

    file của nó chứa tại https++++++++++++dlscrib.com/downloadFile/59f4bdebe2b6f55b278c4d67 với cái đoạn dài dài đằng sau là id của file, lấy từ link gốc:
    https://dlscrib.com/download/strong-merchandiser-strong-resume-samples_58d07aebdc0d60ac18c34608_pdf

    có vẻ như không có bảo vệ gì ở cái link down file
    ko hiểu sao cái link của thớt thì lại phải chờ nó queue, chắc nó có riêng 1 cái backend để lấy file từ scribd rồi mới lưu vào hệ thống.
     
    Phan Thị likes this.
  9. Phan Thị

    Phan Thị Bang Chúng

    Vẫn vậy mà nó 1 là ra
    Apache is functioning normally
    2 là nó cho ra thẳng google luôn, khoai
     
  10. money

    money Hương Chủ

    Tóm lại thớt muốn crawl cái gì? Download file à?
     
  11. Phan Thị

    Phan Thị Bang Chúng

    Không cần download chỉ cần lấy content thôi.
     
  12. money

    money Hương Chủ

    Ủa content nó có gì đâu mà lấy? Chỉ có mấy cái thông tin chút xíu generate từ title thôi mà?
     
  13. money

    money Hương Chủ

    Còn cái captcha là bắt verify để download chứ có phải captcha để xem content đâu?
     
  14. Phan Thị

    Phan Thị Bang Chúng

    Mục đich mình lấy cái đó thôi mà.
     
  15. money

    money Hương Chủ

    Vậy thì cứ vào lấy thôi vì mình duyệt mấy chục trang cũng ko bị limit gì mà.
    Còn ko thì search site:domain + key1, site:domain + key2, ... rồi lấy link và parse ra title sau đó remove những cái duplicate.
     
  16. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Chủ thớt bị limit khi duyệt trang à?
     
  17. thitgaluoc

    thitgaluoc Hương Chủ

    mình down bình thường mà, thớt thử lại coi, cái redirect sang google chắc file nó k có sẵn thôi
     
  18. xhauto

    xhauto Khách Qua Đường

    này để get tài liệu à
     
  19. sincos

    sincos Bang Chúng

    Ối zời..... tưởng cần lấy file..... data thì cứ húc vào mà hốt. Thằng này nó ko listing chắc phải lấy qua google search như cụ @money nói rồi.
     
  20. money

    money Hương Chủ

    Kể cả dowload file cũng easy luôn.