[share api] Get-source DOM HTML dùng proxy google

sad_logger · Aug 8, 2020

Tình hình em có request và thấy báo bị chặn, nghĩ mình chỉ view source cơ bản mà mua proxy phí quá.
Sau hồi tìm kiếm, share luôn cho ae nào cần:
HTML:
victimUrl= 'https://feedback.googleusercontent.com/gadgets/proxy?container=fbk&url='+ encodeURI(victimUrl);
Nhược điểm:

ko custom được request header gửi đi

thanh858036 · Aug 8, 2020

không đc rồi
We're sorry...
... but your computer or network may be sending automated queries. To protect our users, we can't process your request right now.

Dang · Aug 8, 2020

sad_logger said: ↑
Tình hình em có request và thấy báo bị chặn, nghĩ mình chỉ view source cơ bản mà mua proxy phí quá.
Sau hồi tìm kiếm, share luôn cho ae nào cần:
HTML:
victimUrl= 'https://feedback.googleusercontent.com/gadgets/proxy?container=fbk&url='+ encodeURI(victimUrl);
Nhược điểm:

ko custom được request header gửi đi
Click to expand...
Cái này bị GG block rồi thớt! Tạo api trên Google Apps Script dùng cũng được.

sad_logger · Aug 8, 2020

thanh858036 said: ↑

không đc rồi
We're sorry...
... but your computer or network may be sending automated queries. To protect our users, we can't process your request right now.
Click to expand...

Hài thật, qua mới băm khoảng 300K post, nay test lại thấy y như bạn nói.
Đây là sự tình cờ chăng???

Hoa Mãn Lâu · Aug 8, 2020

sad_logger said: ↑
Tình hình em có request và thấy báo bị chặn, nghĩ mình chỉ view source cơ bản mà mua proxy phí quá.
Sau hồi tìm kiếm, share luôn cho ae nào cần:
HTML:
victimUrl= 'https://feedback.googleusercontent.com/gadgets/proxy?container=fbk&url='+ encodeURI(victimUrl);
Nhược điểm:

ko custom được request header gửi đi
Click to expand...
Lấy từ trang gốc là trang nào vậy thím? ae mò tiếp

JohnWick · Aug 8, 2020

Đang muốn crawl site render bằng js. Có bác nào có tricks gì ko? selenium thì chậm quá nên ko đạt yêu cầu

firefox · Aug 8, 2020

JohnWick said: ↑

Đang muốn crawl site render bằng js. Có bác nào có tricks gì ko? selenium thì chậm quá nên ko đạt yêu cầu
Click to expand...

em thấy puppeteer và phantomjs lợi về tốc độ hơn selenium đó bác ạ, đặc biệt là casperjs kết hợp phantomjs, vừa nhẹ vừa dễ dùng. Lúc craw thì config chặn hết ảnh và css đi, mấy js thừa thải cũng thịt luôn

sincos · Aug 8, 2020

firefox said: ↑

em thấy puppeteer và phantomjs lợi về tốc độ hơn selenium đó bác ạ, đặc biệt là casperjs kết hợp phantomjs, vừa nhẹ vừa dễ dùng. Lúc craw thì config chặn hết ảnh và css đi, mấy js thừa thải cũng thịt luôn
Click to expand...

puppeteer => best.... tớ đang dùng nè.
phantomjs: out of date rồi không nên dùng.

Site render = js thì kiểu gì nó cũng get data từ server thông qua API. Sao ko debug mà lấy.

sad_logger · Aug 11, 2020

Hoa Mãn Lâu said: ↑

Lấy từ trang gốc là trang nào vậy thím? ae mò tiếp
Click to expand...

JohnWick said: ↑

Đang muốn crawl site render bằng js. Có bác nào có tricks gì ko? selenium thì chậm quá nên ko đạt yêu cầu
Click to expand...

Bóc DOM thôi bác:
Nếu nodejs thì dùng 2 module request+ cheerio.

Đôi lúc trang gốc ren từ mã javascript, lợi thế của nodejs là nó hiểu đc mã js này: safe-eval nữa sẽ ra đc content gốc.

Em có viết đôi bài trên www. nodejsauto .com:

Điển hình là bài:
https://www.nodejsauto.com/2020/06/bypass-ddos-protection-by-cloudflare.html
www. nodejsauto. com/2020/03/part-2-backend-side-eval-js-code.html

p/s: update tình hình cho anh em là fembed, hay các custom domain của fembed đang bảo trì.
các trang video nước ngoài đa số ngõm. các site dùng mixdrop là còn ok thôi.

Log in or Sign up

[share api] Get-source DOM HTML dùng proxy google

sad_logger Sơ Nhập Giang Hồ

More Threads in same category

thanh858036 Sơ Nhập Giang Hồ

Dang Bang Chúng

sad_logger Sơ Nhập Giang Hồ

Hoa Mãn Lâu Trưởng Môn

JohnWick Sơ Nhập Giang Hồ

firefox Bang Chúng

sincos Bang Chúng

sad_logger Sơ Nhập Giang Hồ

Log in or Sign up

[share api] Get-source DOM HTML dùng proxy google

sad_logger Sơ Nhập Giang Hồ

More Threads in same category

thanh858036 Sơ Nhập Giang Hồ

Dang Bang Chúng

sad_logger Sơ Nhập Giang Hồ

Hoa Mãn Lâu Trưởng Môn

JohnWick Sơ Nhập Giang Hồ

firefox Bang Chúng

sincos Bang Chúng

sad_logger Sơ Nhập Giang Hồ

Useful Searches