Nhờ craw site này

Phan Thị · May 22, 2019

Mình có site này nó chặn sao ko thể craw được
pub
Code:
https://dlscrib.com/gary-halbert-how-to-write-sales-letters-that-will-make-you-rich_58d6b048dc0d60c913c34687_txt.html
Thank

xmenvn2510 · May 22, 2019

Phan Thị said: ↑
Mình có site này nó chặn sao ko thể craw được
pub
Code:
https://dlscrib.com/gary-halbert-how-to-write-sales-letters-that-will-make-you-rich_58d6b048dc0d60c913c34687_txt.html
Thank
Click to expand...
Khá khoai đấy bro.

Hoa Mãn Lâu · May 22, 2019

Craw by pass recaptcha à?

sincos · May 23, 2019

Proxy là xong..... kệ thằng end-user đầu tiên tự pass recaptcha. Cache lại cho những thằng sau.

Done.

Cháu dì Sáu · May 23, 2019

sincos said: ↑

Proxy là xong..... kệ thằng end-user đầu tiên tự pass recaptcha. Cache lại cho những thằng sau.

Done.
Click to expand...

Anh Sincos mưu cao thặc

Phan Thị · May 23, 2019

sincos said: ↑

Proxy là xong..... kệ thằng end-user đầu tiên tự pass recaptcha. Cache lại cho những thằng sau.

Done.
Click to expand...

proxy đầy mồm vẫn ko dc nhé

Phan Thị · May 23, 2019

Hoa Mãn Lâu said: ↑

Craw by pass recaptcha à?
Click to expand...

Craw nó cho ra google luôn

thitgaluoc · May 23, 2019

file của nó chứa tại https++++++++++++dlscrib.com/downloadFile/59f4bdebe2b6f55b278c4d67 với cái đoạn dài dài đằng sau là id của file, lấy từ link gốc:
https://dlscrib.com/download/strong-merchandiser-strong-resume-samples_58d07aebdc0d60ac18c34608_pdf

có vẻ như không có bảo vệ gì ở cái link down file
ko hiểu sao cái link của thớt thì lại phải chờ nó queue, chắc nó có riêng 1 cái backend để lấy file từ scribd rồi mới lưu vào hệ thống.

Phan Thị · May 23, 2019

thitgaluoc said: ↑

file của nó chứa tại https++++++++++++dlscrib.com/downloadFile/59f4bdebe2b6f55b278c4d67 với cái đoạn dài dài đằng sau là id của file, lấy từ link gốc:
https://dlscrib.com/download/strong-merchandiser-strong-resume-samples_58d07aebdc0d60ac18c34608_pdf

có vẻ như không có bảo vệ gì ở cái link down file
ko hiểu sao cái link của thớt thì lại phải chờ nó queue, chắc nó có riêng 1 cái backend để lấy file từ scribd rồi mới lưu vào hệ thống.
Click to expand...

Vẫn vậy mà nó 1 là ra
Apache is functioning normally
2 là nó cho ra thẳng google luôn, khoai

money · May 23, 2019

Tóm lại thớt muốn crawl cái gì? Download file à?

Phan Thị · May 23, 2019

money said: ↑

Tóm lại thớt muốn crawl cái gì? Download file à?
Click to expand...

Không cần download chỉ cần lấy content thôi.

money · May 23, 2019

Ủa content nó có gì đâu mà lấy? Chỉ có mấy cái thông tin chút xíu generate từ title thôi mà?

money · May 23, 2019

Còn cái captcha là bắt verify để download chứ có phải captcha để xem content đâu?

Phan Thị · May 23, 2019

money said: ↑

Ủa content nó có gì đâu mà lấy? Chỉ có mấy cái thông tin chút xíu generate từ title thôi mà?
Click to expand...

Mục đich mình lấy cái đó thôi mà.

money · May 23, 2019

Phan Thị said: ↑

Mục đich mình lấy cái đó thôi mà.
Click to expand...

Vậy thì cứ vào lấy thôi vì mình duyệt mấy chục trang cũng ko bị limit gì mà.
Còn ko thì search site:domain + key1, site:domain + key2, ... rồi lấy link và parse ra title sau đó remove những cái duplicate.

Hoa Mãn Lâu · May 23, 2019

Chủ thớt bị limit khi duyệt trang à?

thitgaluoc · May 23, 2019

Phan Thị said: ↑

Vẫn vậy mà nó 1 là ra
Apache is functioning normally
2 là nó cho ra thẳng google luôn, khoai
Click to expand...

mình down bình thường mà, thớt thử lại coi, cái redirect sang google chắc file nó k có sẵn thôi

xhauto · May 23, 2019

này để get tài liệu à

sincos · May 23, 2019

Phan Thị said: ↑

Mục đich mình lấy cái đó thôi mà.
Click to expand...

Ối zời..... tưởng cần lấy file..... data thì cứ húc vào mà hốt. Thằng này nó ko listing chắc phải lấy qua google search như cụ @money nói rồi.

money · May 24, 2019

sincos said: ↑

Ối zời..... tưởng cần lấy file..... data thì cứ húc vào mà hốt. Thằng này nó ko listing chắc phải lấy qua google search như cụ @money nói rồi.
Click to expand...

Kể cả dowload file cũng easy luôn.

Log in or Sign up

Nhờ craw site này

Phan Thị Bang Chúng

More Threads in same category

xmenvn2510 Moderator + MiddleMan Staff Member

Hoa Mãn Lâu Trưởng Môn

sincos Bang Chúng

Cháu dì Sáu Bang Chúng

Phan Thị Bang Chúng

Phan Thị Bang Chúng

thitgaluoc Hương Chủ

Phan Thị Bang Chúng

money Hương Chủ

Phan Thị Bang Chúng

money Hương Chủ

money Hương Chủ

Phan Thị Bang Chúng

money Hương Chủ

Hoa Mãn Lâu Trưởng Môn

thitgaluoc Hương Chủ

xhauto Khách Qua Đường

sincos Bang Chúng

money Hương Chủ

Log in or Sign up

Nhờ craw site này

Phan Thị Bang Chúng

More Threads in same category

xmenvn2510 Moderator + MiddleMan Staff Member

Hoa Mãn Lâu Trưởng Môn

sincos Bang Chúng

Cháu dì Sáu Bang Chúng

Phan Thị Bang Chúng

Phan Thị Bang Chúng

thitgaluoc Hương Chủ

Phan Thị Bang Chúng

money Hương Chủ

Phan Thị Bang Chúng

money Hương Chủ

money Hương Chủ

Phan Thị Bang Chúng

money Hương Chủ

Hoa Mãn Lâu Trưởng Môn

thitgaluoc Hương Chủ

xhauto Khách Qua Đường

sincos Bang Chúng

money Hương Chủ

Useful Searches