Chào các bác, em muốn cào data 1 trang, dữ liệu update mỗi ngày. Mà em dùng simpledomhtml curl, request api của nó cũng bị chặn luôn không cào được. Em newbie nên mong các bác chỉ giúp em 1 hướng đi. Em cảm ơn các bác rất nhiều.
Dùng proxy,dùng tor,selenium là qua được khá nhiều trang web chặn rồi.Mà mới tìm hiểu cào thì học java dùng thư viện jsoup: Java HTML parser, built for HTML editing, cleaning, scraping, and XSS safety đi dễ hơn đấy
bạn nên viết bot cào trên ứng dựng lập trình tối ưu hơn : ví c# forrm ( cào thì dùng http client , hay selenium ) để vượt qua firewall bạn nen thêm chức năng reset ip ( sử dụng ipvanish , namecheap,... unlimited device connect cung luc ) mỗi lần cào check xem có chặn ko chăn thì reset ip rồi cào tiếp p/s : viet trên php k tối ưu đc, bạn nên có hệ thống cào riêng, đưng nhé vô cùng code chạy, có ngày lag hết