Cách crawl dữ liệu khá tiện mà ko tốn nhiều tài nguyên và limit 100k link / ngày

Discussion in 'AutoBlog' started by Thuansky, Aug 1, 2017.

  1. Thuansky

    Thuansky Sơ Nhập Giang Hồ

    Nay đi dạo group mình thấy có cách crawl dữ liệu khá tiện mà ko tốn nhiều tài nguyên và limit 100k link / ngày bằng cách dùng https://developer.yahoo.com/yql/#php

    Đã bác nào dùng cái này chưa nhỉ ?
     
    Last edited by a moderator: Aug 8, 2017
  2. Nam

    Nam Sơ Nhập Giang Hồ

    Em có đề xuất, là bác nào ngày xưa có đăng ký OpenShift thì nên tìm và kích hoạt lại.
    Sẽ được 3 cái VPS :D
    Em đang nuôi 1 hệ 27 cái VPS chuyên Crawl.
    Ưu điểm của OpenShift là CPU mạnh, mạng mạnh, không giới hạn băng thông, hỗ trợ mysql, php, cron, mongodb... (nhiều lắm)
    Nhược: giới hạn 1GB :D. Phải có request vào vps đó trong 24h, không thì sẽ về trạng thái ngủ. (Dùng uptimerobot, cứ 6h request về vps 1 lần cho khỏi ngủ)
    Có thể là proxy (đặt 1 file php chạy CURL), hoặc xử lý dữ liệu thành dữ liệu đẹp để server chính GET về.

    Lưu ý: nick cũ mới được nhé, giờ đăng ký mới không được nữa nha :D
     
  3. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Hình như nick mới nó chuyển qua ver 3. Em củng đăng kí thử mà chịu. KO biết xài thế nào
     
    Nam likes this.
  4. Nam

    Nam Sơ Nhập Giang Hồ

    Em may mắn có 1 mớ :D xài như VPS thường thôi ạ :D nhưng 1 số cái thì bắt buộc phải mua VPS mới chạy nổi, thì phải mua :D hihi
     
  5. Dung Vuong

    Dung Vuong Sơ Nhập Giang Hồ

    Cái YQL giờ hình như k sài được rồi nha thím. Nếu biết code thì cứ CURL mà phang vào. Change proxy với useragent crawl ầm ầm @@