Em crawled dữ liệu trên vps tốc độ 3k-4k url một phút,ram dùng 70-80%,rồi lưu dữ liệu vào database thấy mới lưu được 1GB dữ liệu mà băng thông vultr báo đã sử dụng hơn 90GB.Em nghĩ lấy dữ liệu từ internet 1GB thì băng thông cũng chỉ sàn sàn ngần đấy thôi chứ ạ? Em gà không hiểu,các pro giải thích em chút được ko ạ
BW nó tính theo cái cao nhất của inbound hoặc outbound. Bạn crawl thì là inbound traffic, bạn xem lại inbound với outbound cái nào đang lớn hơn? Btw, bạn lấy được 1GB dữ liệu không có nghĩa là bạn tốn 1GB BW đường truyền. Nó còn phụ thuộc vào nhiều yếu tố như: TCP retransmit, header data, handshake, etc. Nhưng mà 1GB với 90GB thì thực sự chênh lệch quá lớn, hơi ảo.
Có gì khó hiểu đâu. 1 request crawl lấy về 1 trang web gồm html, text, scripts, hình ảnh, ... trung bình cũng vài MB. Còn data lưu lại chỉ có chút xíu text, bảo sao nó không chênh lệch.