[Hỏi] anh em chỉ giáo vụ anti crawl cú

grayhatvn · Dec 9, 2018

Đặt firewall lên có ảnh hưởng đến boot google không mọi người, mình config thế nào cho phù hợp để boot không google không ảnh hưởng, hiện tại số giây tối thiểu giữa các lần truy cập là 2 giây

iposter · Dec 9, 2018

Chặn xong vài hôm có ông nữa lên forum hỏi dùng proxy để craw dữ liệu bị chặn

thetrue · Dec 9, 2018

hình như gg bot có dãy ip đi crawl

grayhatvn · Dec 9, 2018

uhm, nó ramdom ip nên ip nó ko bi lock, mình theo dõi rồi, code block mình chỉ block ip request liên tục, kiểu trong vòng 5p request 1ip mà trên 100 lần là block ip đó

console · Dec 9, 2018

grayhatvn said: ↑

uhm, nó ramdom ip nên ip nó ko bi lock, mình theo dõi rồi, code block mình chỉ block ip request liên tục, kiểu trong vòng 5p request 1ip mà trên 100 lần là block ip đó
Click to expand...

Lấy cái “python-requests” đấy ra deny

mitom · Dec 10, 2018

Lấy cái headers ấy ra deny không ổn lắm thì phải, change header là xong, mình thấy làm như grayhatvn ổn hơn.

console · Dec 10, 2018

mitom said: ↑

Lấy cái headers ấy ra deny không ổn lắm thì phải, change header là xong, mình thấy làm như grayhatvn ổn hơn.
Click to expand...

Trong cái hình đó, cái UA là cái python-requests thì lấy cái đó deny sao k ổn. Trường hợp random UA thì mới tính cách khác, như là xem dãi IP để deny hoặc tùy trường hợp cụ thể. Còn riêng cách của chủ thớt thì đã nói rõ là nó request 5phút/1ip/100 lần thì mới block nhưng nó lại là random theo IP vậy chỉ cần 6 IP random thì đâu bị chặn.

mitom · Dec 11, 2018

Theo mình là deny ua không tối ưu lắm thôi, còn nếu random ip với random ua xử lý sao vậy bác console? Em cũng đang bí.

grayhatvn · Dec 11, 2018

chặn crawl này cũng tùy content mà chặn thôi, tại mình đang làm mấy dạng content như phim, truyện, chia sẻ dữ liệu.. nên mới chặn crawl, vì loai content này mình phải đi gom góp từ nhiều site về , mình gom góp mệt chết bà có thằng chỉ cần vô site mình lấy hết thì dễ dàng quá nên mới tìm cách chặn , giải pháp thì có nhiều, nhưng sợ ảnh hưởng tới bot của google, bing.... nên config cho nó dễ thở chút, chứ config kỹ chút là hết crawl. Mình đang căn cứ vào số giây tối thiểu cho moi lần truy cập ( ở đây toàn dân crawl cũng biết bot vô crawl thì giao động tầm 1 đến 3 giây là out request đó, chuyển request khác ) vậy cứ ước tính để config thôi, cách này thì chắc chắn là bị ảnh hưởng thằng google nên mình cũng đang theo dõi boot google bing có bị ảnh hưởng không, khả năng chặn bot google hơi cao nếu xử lý cách triệt để này

P/s: anh em có ý tưởng gì hay, cho xin ít ý tưởng nhé

Trần Trọng Bách · Dec 11, 2018

grayhatvn said: ↑

chặn crawl này cũng tùy content mà chặn thôi, tại mình đang làm mấy dạng content như phim, truyện, chia sẻ dữ liệu.. nên mới chặn crawl, vì loai content này mình phải đi gom góp từ nhiều site về , mình gom góp mệt chết bà có thằng chỉ cần vô site mình lấy hết thì dễ dàng quá nên mới tìm cách chặn , giải pháp thì có nhiều, nhưng sợ ảnh hưởng tới bot của google, bing.... nên config cho nó dễ thở chút, chứ config kỹ chút là hết crawl. Mình đang căn cứ vào số giây tối thiểu cho moi lần truy cập ( ở đây toàn dân crawl cũng biết bot vô crawl thì giao động tầm 1 đến 3 giây là out request đó, chuyển request khác ) vậy cứ ước tính để config thôi, cách này thì chắc chắn là bị ảnh hưởng thằng google nên mình cũng đang theo dõi boot google bing có bị ảnh hưởng không, khả năng chặn bot google hơi cao nếu xử lý cách triệt để này

P/s: anh em có ý tưởng gì hay, cho xin ít ý tưởng nhé
Click to expand...

Anh tìm cách check bot google trước, nếu là bot của google, bing, yandex mà muốn cho nó crawl thì cho em nó thoải mái, rồi đám còn lại mới áp dụng config về số giây request.

command · Dec 11, 2018

grayhatvn said: ↑

chặn crawl này cũng tùy content mà chặn thôi, tại mình đang làm mấy dạng content như phim, truyện, chia sẻ dữ liệu.. nên mới chặn crawl, vì loai content này mình phải đi gom góp từ nhiều site về , mình gom góp mệt chết bà có thằng chỉ cần vô site mình lấy hết thì dễ dàng quá nên mới tìm cách chặn , giải pháp thì có nhiều, nhưng sợ ảnh hưởng tới bot của google, bing.... nên config cho nó dễ thở chút, chứ config kỹ chút là hết crawl. Mình đang căn cứ vào số giây tối thiểu cho moi lần truy cập ( ở đây toàn dân crawl cũng biết bot vô crawl thì giao động tầm 1 đến 3 giây là out request đó, chuyển request khác ) vậy cứ ước tính để config thôi, cách này thì chắc chắn là bị ảnh hưởng thằng google nên mình cũng đang theo dõi boot google bing có bị ảnh hưởng không, khả năng chặn bot google hơi cao nếu xử lý cách triệt để này

P/s: anh em có ý tưởng gì hay, cho xin ít ý tưởng nhé
Click to expand...

Ý tưởng chặn dựa trên số lần requests thực tế ko phải là ý tưởng tốt và căn cơ, bạn lưu ý các Google, Bing và các bots khác có cơ chế tự động tăng requests tuỳ theo mức độ quan trọng, chịu tải của từng website. Ví dụ như site bạn được tín nhiệm cao thì bots sẽ vào nhiều hơn so với website mới.

Chặn Bots thì dựa vào UA và hỗ trợ JS là giải pháp tốt hơn. Bạn thử crawl thằng https://www.similarweb. com thử xem, mình đoán nó có cơ chế chặn Bot dựa theo trình duyệt có hỗ trợ JS hay không? Còn nó chặn thế nào thì mình ko biết nha, vì mình đang tìm cách crawl thằng này trực tiếp mà ^^

money · Dec 11, 2018

Content của mình có là lấy từ người khác thì không nên chặn crawl làm gì. Của thiên hạ thì cứ trả về cho thiên hạ, vậy mới công bằng.
Mình lấy data về mệt 1 thì người tạo ra data original mệt 10. Mà sao họ không chặn mình? Vậy sao mình lại chặn thiên hạ?
Còn nếu người tạo data có chặn mình mà mình vẫn lấy được thì lấy gì đảm bảo khi mình chặn sẽ không có ai lấy được data của mình?

grayhatvn · Dec 11, 2018

Cũng đang tracking theo dõi, đang có 1 vấn đề là vụ IP coi ra không có tác dung.
https://themereviews. net/logs/ip.html đang test chỉ dùng 1 IP để crawl mà tracking đoc đc quá trời IP , ai hiểu đoạn ni không vậy?
Thêm một vấn đề python đang dùng : headers={'user-agent': generate_user_agent()} mà log trả về toàn bộ User-agent: python-requests/2.20.1.
Xem ra chặn UA cũng là giải pháp tạm thời ,
P/s: anh em đang xài hàng chi crawl cho xin vài request để coi log nó nhận thêm được gì

grayhatvn · Dec 11, 2018

money said: ↑

Content của mình có là lấy từ người khác thì không nên chặn crawl làm gì. Của thiên hạ thì cứ trả về cho thiên hạ, vậy mới công bằng.
Mình lấy data về mệt 1 thì người tạo ra data original mệt 10. Mà sao họ không chặn mình? Vậy sao mình lại chặn thiên hạ?
Còn nếu người tạo data có chặn mình mà mình vẫn lấy được thì lấy gì đảm bảo khi mình chặn sẽ không có ai lấy được data của mình?
Click to expand...

Cũng có nhiều uổn khúc lắm bác , chuyện là thế này,vì content đang làm manga, hình thì đi crawl xong reup lại qua google drive, nhưng google drive nó ko cho output ra link gốc toàn link cache, mà link cache của nó nếu không biết xài là die link ngay, sợ là sợ nó crawl về không biết xài làm die mẹ cái link là mình bị dính theo

Nai · Dec 11, 2018

grayhatvn said: ↑

Cũng có nhiều uổn khúc lắm bác , chuyện là thế này,vì content đang làm manga, hình thì đi crawl xong reup lại qua google drive, nhưng google drive nó ko cho output ra link gốc toàn link cache, mà link cache của nó nếu không biết xài là die link ngay, sợ là sợ nó crawl về không biết xài làm die mẹ cái link là mình bị dính theo
Click to expand...

Vậy thì làm cái page how to use luôn

console · Dec 11, 2018

money said: ↑

Content của mình có là lấy từ người khác thì không nên chặn crawl làm gì. Của thiên hạ thì cứ trả về cho thiên hạ, vậy mới công bằng.
Mình lấy data về mệt 1 thì người tạo ra data original mệt 10. Mà sao họ không chặn mình? Vậy sao mình lại chặn thiên hạ?
Còn nếu người tạo data có chặn mình mà mình vẫn lấy được thì lấy gì đảm bảo khi mình chặn sẽ không có ai lấy được data của mình?
Click to expand...

Trông nó crawl để cache, lúc bot vào cho nhanh phải k anh

money · Dec 11, 2018

grayhatvn said: ↑

Cũng có nhiều uổn khúc lắm bác , chuyện là thế này,vì content đang làm manga, hình thì đi crawl xong reup lại qua google drive, nhưng google drive nó ko cho output ra link gốc toàn link cache, mà link cache của nó nếu không biết xài là die link ngay, sợ là sợ nó crawl về không biết xài làm die mẹ cái link là mình bị dính theo
Click to expand...

Vậy che link google drive đi, fake bằng link read.php?id=xxxxx rồi tuỳ theo id đó đọc link google drive show ra cho user xem.

Log in or Sign up

[Hỏi] anh em chỉ giáo vụ anti crawl cú

grayhatvn Bang Chúng

More Threads in same category

iposter Khách Qua Đường

thetrue Sơ Nhập Giang Hồ

grayhatvn Bang Chúng

console Bang Chúng

mitom Tân Thủ Thôn

console Bang Chúng

mitom Tân Thủ Thôn

grayhatvn Bang Chúng

Trần Trọng Bách Sơ Nhập Giang Hồ

command Bang Chúng

money Hương Chủ

grayhatvn Bang Chúng

grayhatvn Bang Chúng

Nai MiddleMan Staff Member

console Bang Chúng

money Hương Chủ

Log in or Sign up

[Hỏi] anh em chỉ giáo vụ anti crawl cú

grayhatvn Bang Chúng

More Threads in same category

iposter Khách Qua Đường

thetrue Sơ Nhập Giang Hồ

grayhatvn Bang Chúng

console Bang Chúng

mitom Tân Thủ Thôn

console Bang Chúng

mitom Tân Thủ Thôn

grayhatvn Bang Chúng

Trần Trọng Bách Sơ Nhập Giang Hồ

command Bang Chúng

money Hương Chủ

grayhatvn Bang Chúng

grayhatvn Bang Chúng

Nai MiddleMan Staff Member

console Bang Chúng

money Hương Chủ

Useful Searches