[share api] Get-source DOM HTML dùng proxy google

Discussion in 'AutoBlog' started by sad_logger, Aug 8, 2020.

Tags:
  1. sad_logger

    sad_logger Sơ Nhập Giang Hồ

    Tình hình em có request và thấy báo bị chặn, nghĩ mình chỉ view source cơ bản mà mua proxy phí quá.
    Sau hồi tìm kiếm, share luôn cho ae nào cần:


    HTML:
    victimUrl= 'https://feedback.googleusercontent.com/gadgets/proxy?container=fbk&url='+ encodeURI(victimUrl);
    Nhược điểm:
    • ko custom được request header gửi đi
     
    vipkhongtin and remake2020 like this.
  2. thanh858036

    thanh858036 Sơ Nhập Giang Hồ

    không đc rồi
    We're sorry...
    ... but your computer or network may be sending automated queries. To protect our users, we can't process your request right now.
     
    sad_logger likes this.
  3. Dang

    Dang Bang Chúng

    Cái này bị GG block rồi thớt! Tạo api trên Google Apps Script dùng cũng được.
     
    Nai and sad_logger like this.
  4. sad_logger

    sad_logger Sơ Nhập Giang Hồ

    Hài thật, qua mới băm khoảng 300K post, nay test lại thấy y như bạn nói.
    Đây là sự tình cờ chăng???
     
  5. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Lấy từ trang gốc là trang nào vậy thím? ae mò tiếp
     
    sad_logger likes this.
  6. JohnWick

    JohnWick Sơ Nhập Giang Hồ

    Đang muốn crawl site render bằng js. Có bác nào có tricks gì ko? selenium thì chậm quá nên ko đạt yêu cầu
     
    sad_logger likes this.
  7. firefox

    firefox Bang Chúng

    em thấy puppeteer và phantomjs lợi về tốc độ hơn selenium đó bác ạ, đặc biệt là casperjs kết hợp phantomjs, vừa nhẹ vừa dễ dùng. Lúc craw thì config chặn hết ảnh và css đi, mấy js thừa thải cũng thịt luôn
     
  8. sincos

    sincos Bang Chúng

    puppeteer => best.... tớ đang dùng nè.
    phantomjs: out of date rồi không nên dùng.

    Site render = js thì kiểu gì nó cũng get data từ server thông qua API. Sao ko debug mà lấy.
     
  9. sad_logger

    sad_logger Sơ Nhập Giang Hồ

    Bóc DOM thôi bác:
    Nếu nodejs thì dùng 2 module request+ cheerio.

    Đôi lúc trang gốc ren từ mã javascript, lợi thế của nodejs là nó hiểu đc mã js này: safe-eval nữa sẽ ra đc content gốc.

    Em có viết đôi bài trên www. nodejsauto .com:

    Điển hình là bài:
    https://www.nodejsauto.com/2020/06/bypass-ddos-protection-by-cloudflare.html
    www. nodejsauto. com/2020/03/part-2-backend-side-eval-js-code.html

    p/s: update tình hình cho anh em là fembed, hay các custom domain của fembed đang bảo trì.
    các trang video nước ngoài đa số ngõm. các site dùng mixdrop là còn ok thôi.
     
    Last edited: Aug 11, 2020
    firefox likes this.