Mình có site này nó chặn sao ko thể craw được pub Code: https://dlscrib.com/gary-halbert-how-to-write-sales-letters-that-will-make-you-rich_58d6b048dc0d60c913c34687_txt.html Thank
Proxy là xong..... kệ thằng end-user đầu tiên tự pass recaptcha. Cache lại cho những thằng sau. Done.
file của nó chứa tại https++++++++++++dlscrib.com/downloadFile/59f4bdebe2b6f55b278c4d67 với cái đoạn dài dài đằng sau là id của file, lấy từ link gốc: https://dlscrib.com/download/strong-merchandiser-strong-resume-samples_58d07aebdc0d60ac18c34608_pdf có vẻ như không có bảo vệ gì ở cái link down file ko hiểu sao cái link của thớt thì lại phải chờ nó queue, chắc nó có riêng 1 cái backend để lấy file từ scribd rồi mới lưu vào hệ thống.
Vậy thì cứ vào lấy thôi vì mình duyệt mấy chục trang cũng ko bị limit gì mà. Còn ko thì search site:domain + key1, site:domain + key2, ... rồi lấy link và parse ra title sau đó remove những cái duplicate.
Ối zời..... tưởng cần lấy file..... data thì cứ húc vào mà hốt. Thằng này nó ko listing chắc phải lấy qua google search như cụ @money nói rồi.