Google Weblight ngừng hoạt động?

Discussion in 'Hỏi Đáp Kỹ Thuật' started by money, Oct 17, 2020.

  1. money

    money Hương Chủ

    Mình vẫn dùng google weblight để lấy content của 1 số web chặn crawl nhưng khoảng 1 tuần nay thấy tool báo error hoài mà chưa rảnh để kiểm tra.

    Hôm nay debug code thì mới thấy lí do là vì google weblight chỉ redirect về trang gốc chứ không show data như cũ nữa.

    Anh em có ai gặp vấn đề này không? Có cách nào khắc phục hoặc có service nào thay thế không share mình với.

    Thanks all.
    --- Double Post Merged, Oct 18, 2020, Original Post Date: Oct 17, 2020 ---
    Không có anh em nào xài món này à.
     
  2. Nai

    Nai MiddleMan Staff Member

    Anh ko share ra em cũng ko biết luôn :(
     
  3. money

    money Hương Chủ

    Nói từ hồi trên group fb autoblog rồi mà em. Cái này xưa quá nên anh nghĩ ai cũng biết.
    --- Double Post Merged, Oct 18, 2020, Original Post Date: Oct 18, 2020 ---
    À mà hồi xưa tên nó khác, sau này mới đổi thành weblight. Anh nhớ từ cái thời rộ lên phong trào mấy hãng công nghệ lớn hỗ trợ người dùng ở các vùng nông thôn hoặc quốc gia nghèo nơi có băng thông yếu. Họ mới xây dựng công nghệ để truy cập cho nhanh: google thì ra cái công nghệ này và AMP, FB thì ra cái gì hỗ trợ 3G anh cũng ko nhớ + chức năng hỗ trợ khi offline và cái chức năng chuyển giao diện simple khi FB detect ra mạng yếu ...
     
    Hoa Mãn Lâu and Nai like this.
  4. sincos

    sincos Bang Chúng

    Chặn kiểu gì mà làm khó đc anh vậy @money
     
  5. money

    money Hương Chủ

    Nó dùng CF em ạ. Crawl vài page là chặn nên anh crawl qua weblight để lấy data.
     
  6. sincos

    sincos Bang Chúng

    Code cái proxy chạy pupeteer rồi táng lên heroku.
     
    money likes this.
  7. money

    money Hương Chủ

    Toàn những thứ anh ko biết là gì :D Anh đó giờ vẫn C# với HttpRequest em ạ.
     
  8. sincos

    sincos Bang Chúng

    Trước em cũng thế..... nhưng giờ protect web lên 1 tầng mới nên bắt buộc phải update. Rất nhiều site dùng CF để protect.
     
    money likes this.
  9. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

  10. Dang

    Dang Bang Chúng

    Anh thử post request đến thằng :
    Code:
    Request URL: https://search.google.com/structured-data/testing-tool/validate
    
    Request Headers :
    referer: https://search.google.com/structured-data/testing-tool
    
    Form data :
    url: https://domain.name/path/to/xyz
    
    Xong decode json -> html

    Ngoài ra còn 1 số service khác của Google có thể làm proxy được, nhưng em chưa test thử.
     
  11. money

    money Hương Chủ

    Thanks em, để anh code lại thử xem sao.
     
  12. Dang

    Dang Bang Chúng

    Em cũng chỉ test thử 1 vài site CF thôi, chưa crawl liên tục. Nếu bypass được, anh cho anh, em xin ít reviews :D
     
  13. money

    money Hương Chủ

    Sure em, anh sẽ review nhưng chắc cần vài ngày vì giờ anh đang busy quá.
    Như cái weblight cũ crawl sướng vãi, ko cần proxy, anh chạy trực tiếp từ con laptop khủng bố tại nhà anh (chém gió tí chứ laptop còi còi thôi :D ) delay 1s/request nhưng chạy dc 3 threads song song --> tức là 1s quất 3 nhót ngày này qua ngày khác mà chẳng sao cả.
     
    Dang and thitgaluoc like this.
  14. thitgaluoc

    thitgaluoc Hương Chủ

    cái này response hơi chậm bác nhỉ, chắc phải thêm nhiều threads mới cào nhanh đc :D
     
    Dang likes this.