Nghệ thuật crawl Bing, Twitter và Instagram là đây :D

Discussion in 'Web hay Ý lạ' started by Sói, Aug 7, 2017.

  1. JanKim

    JanKim Tân Thủ Thôn

    Google proxy
     
  2. _nEwbiE

    _nEwbiE Sơ Nhập Giang Hồ

    em chưa hiểu vụ proxy này lắm, có bài viết hay keyword nào về nó không share em với admin

    đọc bài thì có vẻ như trước khi crawl 1 site, thì nó chạy thông qua proxy chứ không trực tiếp xài ip mình để crawl đúng chứ ạ ?
     
  3. console

    console Bang Chúng

    Day: https://www.google.com/search?q=proxy+la+gi
    Khong can cam on {baffle}
     
  4. _nEwbiE

    _nEwbiE Sơ Nhập Giang Hồ

    ý e đang hỏi cách thức hoạt động, php - how to use CURL via a proxy?
    Bình thường crawl sử dụng ip vps -> victim
    còn thông qua proxy, thì thêm 1 bước crawl->proxy->victim

    e là e hỏi cái đó đó, để e search thử xem nào, cái này chưa biết :D
     
  5. Luxifer

    Luxifer Sơ Nhập Giang Hồ

    Google phát ra quá trời mà bạn. https://www.google.com.vn/search?q=php+curl+use+proxy&oq=php+curl+use+proxy. Chỉ cần set option cho CURL là được thôi.
     
    _nEwbiE likes this.
  6. money

    money Hương Chủ

    Cơ chế nó giống như đi đường vòng thôi.
    1 request bình thường đến 1 website sẽ là: IP của máy client (của user - ví dụ là người đang duyệt web) --> đi lòng lòng qua các DNS (phần này bỏ qua đi, ko cần quan tâm) --> đến IP của server mà web đang host. Web server xử lý yêu cầu --> trả về lòng vòng qua các DNS --> cuối cùng đến client và hiện ra kết quả cho người dùng xem.
    Còn nếu thông qua proxy thì mô hình xử lý 1 request nó cũng na ná như thế nhưng thêm vào 1 khúc trung gian thông qua proxy: client --> DNS --> proxy --> DNS --> web server rồi trả về theo chiều ngược lại.
    Đại khái nó là thế, mình cũng ko rành về mạng mẽo lắm. Nhưng dùng proxy thì sẽ chậm hơn, bù lại sẽ có nhiều lợi ích khác.
    Ở trên là cơ chế hoạt động. Còn về mặt lập trình thì đơn giản. Php, CURL, .Net hay bất kỳ môi trường nào đều có hỗ trợ và khi code chỉ thêm vài dòng là xong.
     
    _nEwbiE likes this.
  7. _nEwbiE

    _nEwbiE Sơ Nhập Giang Hồ

    em cũng đang lờ mờ nhận ra rồi, để test thêm chút là ok ngay
     
  8. Phan Thị

    Phan Thị Bang Chúng

    Dễ nha nhưng limit lắm. Phải dùng nhiều api mới chơi được
     
  9. bksparrow

    bksparrow Khách Qua Đường

    API của thằng nào cũng vào trang developer của nó là có hướng dẫn hết mà.

    Mình đã từng làm với Twitter API (lâu rồi), mà thấy Twitter thuộc dạng keo kiệt bủn xỉn nhất rồi. Hình như 15 phút chỉ được mấy trăm calls, chẳng bõ vào đâu đâu nhưng mà chỉ làm demo cho khách thôi rồi nghỉ :)

    Dùng parse HTML thì chưa thử bao giờ, không biết mấy bọn như Twitter, facebook, instagram... request rồi parse HTML thì có bị limit không?
     
  10. RockSoft

    RockSoft Culi Manager Staff Member

    Các bác muốn chơi với api của các mxh/se thì cứ email cho nó: tao là jack ma của Việt Nam đây + 400 trang documents mô tả (viết dài cho nó lười đọc) là nó cho xài api tẹt ga, no limit à {boss}
     
  11. money

    money Hương Chủ

    Để xem @RockSoft giữ dc độ sung trong bao lâu. Qua giờ chém gió kinh quá {brick}
     
  12. RockSoft

    RockSoft Culi Manager Staff Member