Mình cài selenium https://github.com/facebook/php-webdriver Cài selenium-server-standalone-3.6.0.jar va 3.9.1 test thử code demo nhưng bị lỗi cài trên centos 6 64 Đã cài java và chạy ở port 4444
Bữa cũng thử thằng này nhưng setup môi trường không được nên bỏ và rất hài lòng với https://github.com/GoogleChrome/puppeteer. Hơi tiếc 1 chút nó chỉ support Nodejs.
puppeteer Nó có làm được lấy content 1 trang load hết ajax js rồi print ra html như dùng Inspect của chrome không, Mình muốn pass mấy site mà nó yêu cầu cao quá chưa qua được
Thím chạy với php hay java vậy? Nếu mà muốn load ajax thì bắt gói tin rồi query ko dc tốt hơn à? sao phải xài cái nầy cho nó nặng nề thím?
Không làm được thím ah, nó khoá bằng cookie, load cookie thì ajax mới load được Ví dụ nhé lấy content cái site này Code: https://k2s.cc/file/2162474cfc577 Nó có cái api get bằng ajax nhưng phải có cookie mới chạy được
puppeteer có pyppeteer chạy bằng python nếu bác dùng python nhé! request gói tin có luôn cookies được mà bác..
cụ đã cài Chrome Driver chưa? và config đúng đường dẫn tới folder assets. Mình dùng selenium thấy ổn định, nhưng dùng .net
dùng selenium đơn giản mà bác, bác cứ lên trang chủ nó tải thư viện nó về, và thích dùng trình duyệt nào cũng tải về luôn, xong cứ thế mà code chạy thôi
Được anh, puppeteer dùng để render mấy site full JS và anh vẫn select đc virtual DOM bthg. Em đang dùng nó để cào GG SERP và mấy trang full JS như ali này kia, ổn. Anh để ý nếu code sai cú pháp sẽ sinh ra zoombies process, làm overload RAM nhé.
dùng post get 1 cái Rest full php á bác. Dùng JS để lấy parse dữ liệu. Sau khi có dữ liệu thì bắn nó sang server thông qua Post json