Chào ae,
Mình muốn lấy dữ liệu của site bảo vệ bởi CloudFlare, ví dụ như similarweb[.]com
Hiện tại, mình test với 1 IP (sau khi test ổn thì dùng nhiều proxies), mình kết hợp kỹ thuật sau: + Trình duyệt hỗ trợ JS (Splash). + Lưu cookie lại (để tái sử dụng cho lần request sau) + Delay từ 40-60s.
Tuy nhiên, khi lấy được tầm 20 pages trở lên thì lại bị chặn bởi CF. Mình ko muốn dùng mấy services xử lý captcha tự động để vượt CF vì sẽ tốn khá nhiều $.
Có ae nào lấy dữ liệu site bảo vệ bởi CF thành công với số lượng lớn chưa? Nếu có thể, có thể chia sẻ kỹ thuật vượt qua CF được ko?
Mong nhận góp ý và chia sẻ của ae, thanks.
