Tình hình em có request và thấy báo bị chặn, nghĩ mình chỉ view source cơ bản mà mua proxy phí quá. Sau hồi tìm kiếm, share luôn cho ae nào cần: HTML: victimUrl= 'https://feedback.googleusercontent.com/gadgets/proxy?container=fbk&url='+ encodeURI(victimUrl); Nhược điểm: ko custom được request header gửi đi
không đc rồi We're sorry... ... but your computer or network may be sending automated queries. To protect our users, we can't process your request right now.
Đang muốn crawl site render bằng js. Có bác nào có tricks gì ko? selenium thì chậm quá nên ko đạt yêu cầu
em thấy puppeteer và phantomjs lợi về tốc độ hơn selenium đó bác ạ, đặc biệt là casperjs kết hợp phantomjs, vừa nhẹ vừa dễ dùng. Lúc craw thì config chặn hết ảnh và css đi, mấy js thừa thải cũng thịt luôn
puppeteer => best.... tớ đang dùng nè. phantomjs: out of date rồi không nên dùng. Site render = js thì kiểu gì nó cũng get data từ server thông qua API. Sao ko debug mà lấy.
Bóc DOM thôi bác: Nếu nodejs thì dùng 2 module request+ cheerio. Đôi lúc trang gốc ren từ mã javascript, lợi thế của nodejs là nó hiểu đc mã js này: safe-eval nữa sẽ ra đc content gốc. Em có viết đôi bài trên www. nodejsauto .com: Điển hình là bài: https://www.nodejsauto.com/2020/06/bypass-ddos-protection-by-cloudflare.html www. nodejsauto. com/2020/03/part-2-backend-side-eval-js-code.html p/s: update tình hình cho anh em là fembed, hay các custom domain của fembed đang bảo trì. các trang video nước ngoài đa số ngõm. các site dùng mixdrop là còn ok thôi.