[Hỏi] anh em chỉ giáo vụ anti crawl cú

Discussion in 'Thảo Luận Chung' started by grayhatvn, Dec 9, 2018.

Tags:
  1. grayhatvn

    grayhatvn Bang Chúng

    Đặt firewall lên có ảnh hưởng đến boot google không mọi người, mình config thế nào cho phù hợp để boot không google không ảnh hưởng, hiện tại số giây tối thiểu giữa các lần truy cập là 2 giây
    [​IMG]
     
  2. iposter

    iposter Khách Qua Đường

    Chặn xong vài hôm có ông nữa lên forum hỏi dùng proxy để craw dữ liệu bị chặn
     
    thetrue likes this.
  3. thetrue

    thetrue Sơ Nhập Giang Hồ

    hình như gg bot có dãy ip đi crawl
     
  4. grayhatvn

    grayhatvn Bang Chúng

    uhm, nó ramdom ip nên ip nó ko bi lock, mình theo dõi rồi, code block mình chỉ block ip request liên tục, kiểu trong vòng 5p request 1ip mà trên 100 lần là block ip đó
     
  5. console

    console Bang Chúng

    Lấy cái “python-requests” đấy ra deny
     
  6. mitom

    mitom Tân Thủ Thôn

    Lấy cái headers ấy ra deny không ổn lắm thì phải, change header là xong, mình thấy làm như grayhatvn ổn hơn.
     
  7. console

    console Bang Chúng

    Trong cái hình đó, cái UA là cái python-requests thì lấy cái đó deny sao k ổn. Trường hợp random UA thì mới tính cách khác, như là xem dãi IP để deny hoặc tùy trường hợp cụ thể. Còn riêng cách của chủ thớt thì đã nói rõ là nó request 5phút/1ip/100 lần thì mới block nhưng nó lại là random theo IP vậy chỉ cần 6 IP random thì đâu bị chặn.
     
    mitom likes this.
  8. mitom

    mitom Tân Thủ Thôn

    Theo mình là deny ua không tối ưu lắm thôi, còn nếu random ip với random ua xử lý sao vậy bác console? Em cũng đang bí.
     
  9. grayhatvn

    grayhatvn Bang Chúng

    chặn crawl này cũng tùy content mà chặn thôi, tại mình đang làm mấy dạng content như phim, truyện, chia sẻ dữ liệu.. nên mới chặn crawl, vì loai content này mình phải đi gom góp từ nhiều site về :D, mình gom góp mệt chết bà có thằng chỉ cần vô site mình lấy hết thì dễ dàng quá nên mới tìm cách chặn :D, giải pháp thì có nhiều, nhưng sợ ảnh hưởng tới bot của google, bing.... nên config cho nó dễ thở chút, chứ config kỹ chút là hết crawl. Mình đang căn cứ vào số giây tối thiểu cho moi lần truy cập ( ở đây toàn dân crawl cũng biết bot vô crawl thì giao động tầm 1 đến 3 giây là out request đó, chuyển request khác ) vậy cứ ước tính để config thôi, cách này thì chắc chắn là bị ảnh hưởng thằng google nên mình cũng đang theo dõi boot google bing có bị ảnh hưởng không, khả năng chặn bot google hơi cao nếu xử lý cách triệt để này :D

    P/s: anh em có ý tưởng gì hay, cho xin ít ý tưởng nhé :D
     
    Last edited: Dec 11, 2018
  10. Trần Trọng Bách

    Trần Trọng Bách Sơ Nhập Giang Hồ

    Anh tìm cách check bot google trước, nếu là bot của google, bing, yandex mà muốn cho nó crawl thì cho em nó thoải mái, rồi đám còn lại mới áp dụng config về số giây request.
     
  11. command

    command Bang Chúng

    Ý tưởng chặn dựa trên số lần requests thực tế ko phải là ý tưởng tốt và căn cơ, bạn lưu ý các Google, Bing và các bots khác có cơ chế tự động tăng requests tuỳ theo mức độ quan trọng, chịu tải của từng website. Ví dụ như site bạn được tín nhiệm cao thì bots sẽ vào nhiều hơn so với website mới.

    Chặn Bots thì dựa vào UA và hỗ trợ JS là giải pháp tốt hơn. Bạn thử crawl thằng https://www.similarweb. com thử xem, mình đoán nó có cơ chế chặn Bot dựa theo trình duyệt có hỗ trợ JS hay không? Còn nó chặn thế nào thì mình ko biết nha, vì mình đang tìm cách crawl thằng này trực tiếp mà ^^
     
  12. money

    money Hương Chủ

    Content của mình có là lấy từ người khác thì không nên chặn crawl làm gì. Của thiên hạ thì cứ trả về cho thiên hạ, vậy mới công bằng.
    Mình lấy data về mệt 1 thì người tạo ra data original mệt 10. Mà sao họ không chặn mình? Vậy sao mình lại chặn thiên hạ?
    Còn nếu người tạo data có chặn mình mà mình vẫn lấy được thì lấy gì đảm bảo khi mình chặn sẽ không có ai lấy được data của mình?
     
    console likes this.
  13. grayhatvn

    grayhatvn Bang Chúng

    Cũng đang tracking theo dõi, đang có 1 vấn đề là vụ IP coi ra không có tác dung.
    https://themereviews. net/logs/ip.html đang test chỉ dùng 1 IP để crawl mà tracking đoc đc quá trời IP , ai hiểu đoạn ni không vậy?
    Thêm một vấn đề python đang dùng : headers={'user-agent': generate_user_agent()} mà log trả về toàn bộ User-agent: python-requests/2.20.1.
    Xem ra chặn UA cũng là giải pháp tạm thời ,
    P/s: anh em đang xài hàng chi crawl cho xin vài request để coi log nó nhận thêm được gì :D
     
  14. grayhatvn

    grayhatvn Bang Chúng

    Cũng có nhiều uổn khúc lắm bác :D , chuyện là thế này,vì content đang làm manga, hình thì đi crawl xong reup lại qua google drive, nhưng google drive nó ko cho output ra link gốc toàn link cache, mà link cache của nó nếu không biết xài là die link ngay, sợ là sợ nó crawl về không biết xài làm die mẹ cái link là mình bị dính theo :D
     
  15. Nai

    Nai MiddleMan Staff Member

    Vậy thì làm cái page how to use luôn :D
     
  16. console

    console Bang Chúng

    Trông nó crawl để cache, lúc bot vào cho nhanh phải k anh :D
     
  17. money

    money Hương Chủ

    Vậy che link google drive đi, fake bằng link read.php?id=xxxxx rồi tuỳ theo id đó đọc link google drive show ra cho user xem.