Selenium hay Puppeteer tớ đều dùng cả.... nhưng chỉ khi bắt buộc thôi vì nó quá tốn tài nguyên và chậm nữa. Chưa kể khi triển khai trên môi trường server nó yêu cầu cài đặt thêm nhiều thư viện nữa rất mệt.
Em cảm ơn các bác đã góp ý ạ, e mới tìm hiểu về mảng này nên có nhiều cái chưa biết mong các bác thông cảm
có những trang bị dính cloudflare vô crawler thì bị báo Please turn JavaScript on and reload the page. DDoS protection by cloudflare Ray ID: 662a56239bba0b6f Vậy làm sao để by pass qua được vậy mọi người
RestSharp hoặc httpRequest đều bị dính cloudflare --- Double Post Merged, Jun 21, 2021, Original Post Date: Jun 21, 2021 --- bạn có cách nào bypass thằng cloudflare không
Demo nè: puppy-gates.herokuapp.com/?request_url=https://onejav.com/search/IPZ-481 Hướng cũng chỉ rồi, demo cũng có rồi..... tự xử nhé.
chưa hiểu cách làm lắm --- Double Post Merged, Jun 22, 2021, Original Post Date: Jun 22, 2021 --- là mình viết proxy rồi đẩy lên herokuapp như bạn hả --- Double Post Merged, Jun 22, 2021 --- bạn viết bằng PHP hả, nếu đc cho xin file PHP đó đi, mình up lên cho nhanh
cách của bác sincos đại loại là API-hoá cái web đó bằng cách dùng puppeteer parse nó ra rồi trả về kết quả ấy, bạn làm 1 cái hàm cũng đc mà
Keyword: puppeteer. Nguyên lý cơ bản của cái này là dùng 1 headless browser để truy cập vào trang web. CF nó chỉ challenge lần đầu hoặc lâu lâu hiện tại để verify thôi. Thì bạn cứ học thôi, không hiểu chỗ nào thì post lên hoặc PM hỏi riêng. Mình cũng không có nhiều thời gian lắm nhưng cũng không tiếc với các bạn hiếu học.