em chưa hiểu vụ proxy này lắm, có bài viết hay keyword nào về nó không share em với admin đọc bài thì có vẻ như trước khi crawl 1 site, thì nó chạy thông qua proxy chứ không trực tiếp xài ip mình để crawl đúng chứ ạ ?
ý e đang hỏi cách thức hoạt động, php - how to use CURL via a proxy? Bình thường crawl sử dụng ip vps -> victim còn thông qua proxy, thì thêm 1 bước crawl->proxy->victim e là e hỏi cái đó đó, để e search thử xem nào, cái này chưa biết
Google phát ra quá trời mà bạn. https://www.google.com.vn/search?q=php+curl+use+proxy&oq=php+curl+use+proxy. Chỉ cần set option cho CURL là được thôi.
Cơ chế nó giống như đi đường vòng thôi. 1 request bình thường đến 1 website sẽ là: IP của máy client (của user - ví dụ là người đang duyệt web) --> đi lòng lòng qua các DNS (phần này bỏ qua đi, ko cần quan tâm) --> đến IP của server mà web đang host. Web server xử lý yêu cầu --> trả về lòng vòng qua các DNS --> cuối cùng đến client và hiện ra kết quả cho người dùng xem. Còn nếu thông qua proxy thì mô hình xử lý 1 request nó cũng na ná như thế nhưng thêm vào 1 khúc trung gian thông qua proxy: client --> DNS --> proxy --> DNS --> web server rồi trả về theo chiều ngược lại. Đại khái nó là thế, mình cũng ko rành về mạng mẽo lắm. Nhưng dùng proxy thì sẽ chậm hơn, bù lại sẽ có nhiều lợi ích khác. Ở trên là cơ chế hoạt động. Còn về mặt lập trình thì đơn giản. Php, CURL, .Net hay bất kỳ môi trường nào đều có hỗ trợ và khi code chỉ thêm vài dòng là xong.
API của thằng nào cũng vào trang developer của nó là có hướng dẫn hết mà. Mình đã từng làm với Twitter API (lâu rồi), mà thấy Twitter thuộc dạng keo kiệt bủn xỉn nhất rồi. Hình như 15 phút chỉ được mấy trăm calls, chẳng bõ vào đâu đâu nhưng mà chỉ làm demo cho khách thôi rồi nghỉ Dùng parse HTML thì chưa thử bao giờ, không biết mấy bọn như Twitter, facebook, instagram... request rồi parse HTML thì có bị limit không?
Các bác muốn chơi với api của các mxh/se thì cứ email cho nó: tao là jack ma của Việt Nam đây + 400 trang documents mô tả (viết dài cho nó lười đọc) là nó cho xài api tẹt ga, no limit à