Tư vấn về giải pháp lưu trữ ảnh khoảng 30TB

Discussion in 'Hỏi Đáp Kỹ Thuật' started by command, Oct 25, 2021.

  1. command

    command Bang Chúng

    Chào ae,

    Hiện tại, mình có site ảnh, dung lượng thì hơn 10TB.

    Mình cần nơi lưu trữ ảnh với khoảng tối thiểu 30TB và dễ dàng mở rộng trong tương lai, mình muốn tìm hiểu giải pháp lưu trữ ảnh trên nền cloud kinh tế nhất có thể, cài đặt trên nhiều máy chủ, duplicate file ở tối thiểu 2 máy chủ và mình chỉ cần 1 link đến file đó mà không quan tâm file đó đặt ở máy chủ nào.

    Mình thấy bác @firefox có tư vấn sử dụng min.io ở 1 thread khác, đọc qua tài liệu giải pháp này cũng đáp ứng nhu cầu của mình, ngoài ra còn giải pháp nào khả thi hơn không các bác?

    Ngoài ra, có dịch vụ lưu trữ ảnh nào với chi phí <= $15/TB (bao gồm chi phí lưu trữ và bandwidth) không ae?

    Mong nhận tư vấn của ae,
     
    Last edited: Oct 25, 2021
  2. Thanh Nguyen

    Thanh Nguyen Bang Chúng

    Có DMCA không cụ. Nếu có thì cũng khá là căng

    E chưa có site nào lưu nhiều ntn nên đặt gạch ngồi hóng giải pháp thôi. Biết đâu sau này dùng đến
     
  3. Tạ hơi nặng

    Tạ hơi nặng Bang Chúng

    thế này thì tiền tấn ah :))
     
  4. command

    command Bang Chúng

    Ko dính DMCA bác à, nhưng nhìn giá mấy dịch vụ cloud thì giá hơi cao quá.

    Chơi site ảnh thì rate thấp lắm, site tháng này mới chỉ đủ nuôi sống bản thân nó thôi, mới có 4 tháng tuổi hà.
     
    Last edited: Oct 25, 2021
  5. Phan Thị

    Phan Thị Bang Chúng

    Use Cloudflare Images to store, resize and deliver images affordably.

    Resizing: Free
    You can create up to 20 variants.

    Storage: $5.00 per 100,000 images (prepaid)
    You only pay for the original image. If you have 10 original images with 5 configured variants, only the 10 original images count towards your storage limit.

    Delivery: $1.00 per 100,000 images served (postpaid)
    You will only be billed for number of images served.
     
    command likes this.
  6. command

    command Bang Chúng

    Thanks bác @Phan Thị , số lượng ảnh hiện tại hơn 15 triệu rồi (tương lai thì còn hơn nữa), với cách tính này thì mình chịu ko nổi tiền chi phí ở đây :)
     
  7. Phan Thị

    Phan Thị Bang Chúng

    command likes this.
  8. fixbug

    fixbug Moderator Staff Member

    Căng nhỉ, chạy cái này mà ko backup cũng căng, mà backup cũng căng :D
     
  9. command

    command Bang Chúng

    Thanks bác @Phan Thị , hiện tại mình cũng đang thuê server ở đây cho site này.

    Hihi, đúng là site này mình cũng đang trăn trở vấn đề backup, hiện tại chỉ có RAID thôi, nếu máy chủ có vấn đề hoặc hư nhiều HDD thì coi như toi, xác suất có lẽ cũng ít nên tạm thời như thế thôi vì site còn chưa có sinh lời mà.
     
  10. money

    money Hương Chủ

    Anh em đầu tư ghê quá. Site chưa sinh lời mà, theo anh thì lựa cơm gắp mắm thôi.

    Nếu là anh thì anh sẽ chọn 1 con Hetnzer 10TB hay 16TB chạy web. Còn backup thì download về HDD ở nhà cất vô tủ thôi. 1 cái HDD 12TB giờ cũng tầm 10tr (~ 450$ = 3 tháng thuê server backup).

    Việc quản lý vài chục M file ảnh anh thấy cũng không có gì khó. Anh từng làm khoảng 100M file ảnh rồi, tự code có vài dòng là xong.
    1. Chia file ảnh ra nhiều folder nhỏ, mỗi folder có IP riêng và các thông tin này lưu trong database, các field như sau: file_name_jpg, folder_name, IP, ... và các thông tin khác
    2. Code web: khi show ảnh từ DB ra web thì query lấy thông tin ảnh. Từ thông tin ảnh có file_name, folder_name, IP --> viết 1 file php đọc ảnh theo IP và show ra.

    Down/upload 10-30TB thì cũng khá là mệt, nhưng chỉ cần cắm máy để đó thôi, cùng lắm thì vài tuần là xong. Tuy nhiên vì số lượng file quá nhiều nên cần có cách kiểm tra việc down/upload có sai sót gì không. Anh làm bằng cách:
    - đếm số file trong folder và dung lượng tổng của folder trên server --> có lệnh sẵn của Linux
    - đếm số file trong folder và dung lượng tổng của folder trên ổ cứng ở nhà --> laptop anh dùng Windows nên viết 1 tool riêng, cũng dễ (anh không dùng chức năng của Windows vì khi số lượng file trong 1 folder quá nhiều thì Windows xử lý rất lâu)

    Đây là 1 database hồi 2015/2016 lúc anh còn làm nhiều về site ảnh, khoảng hơn 100M ảnh. Vì anh lưu ảnh nhỏ nên chỉ tầm 8 hay 10TB chẳng nhớ, anh chia ra mấy server khác nhau để lưu ảnh. Lúc đó anh chỉ thuê 4 server (cái 2TB, cái 4TB và có cái ở OVH có cái ở Hetzner, có cái ổ WSI, ... anh không nhớ chính xác nhưng đại khái là cái ở Mỹ, cái Canada, cái ở châu Âu, ...). Lúc đó anh còn ngu, anh chưa tổ chức đàng hoàng mà anh code như sau:
    - field id để xác định ảnh ở server nào (theo IP): ví dụ như ID từ 1 đến 30,000,000 thì ở IP A, từ 30,000,001 đến 60,000,000 thì IP A, ...
    - field imgfolder là dạng chuỗi fortmat dạng p001/0001, p0001/0002, .... để chứa folder của ảnh

    Mà cũng mắc cười, hồi đó ban đầu anh còn không thèm backup vì lúc đầu nó không ra tiền. Một thời gian sau kiếm dc thì anh bắt đầu backup --> viết mấy cái tool nhỏ nhỏ như trên nói rồi download về ổ cứng ở nhà. Mới backup khoảng 4TB thì site bị mất rank :D Anh lại ngừng backup, lấy data đó làm 1 số site khác xong rồi dc 1 thời gian nữa thì bỏ luôn niche này.


    upload_2021-10-26_10-20-25.png
    --- Double Post Merged, Oct 26, 2021, Original Post Date: Oct 26, 2021 ---
    À có lưu ý quan trọng là làm nhiều file thì nên chia nhiều folder, mỗi folder khoảng 5K files thôi là đẹp. Vừa dễ quản lý mà các thao tác copy/delete/... đều nhanh (nhất là trên Windows, folder có nhiều file quản lý đuối lắm)
     

    Attached Files:

    congloi, AkuVn, fixbug and 6 others like this.
  11. Cái bang

    Cái bang Sơ Nhập Giang Hồ

    Data lớn thì không nên dùng raid 1, mà hãy dùng ít nhất 2 con server raid 0 và loadbalancing, rồi tìm cách đồng bộ dữ liệu.
    Ưu điểm là tốc độ nhanh hơn, dễ scale. Khi có sự cố xảy ra thì có thể có backup ngay lập tức.

    Bên Hetnzer bán chỉ có khoảng 40euro cho 1 con server 4x6TB. Hoặc 60Euro cho 1 con server 4x10TB. Tuỳ thuộc vào băng thông sử dụng như nào mà chọn dung lượng ổ cứng và số lượng server loadbalancing cho thích hợp.

    Nếu có thể sử dụng cloudflare làm CDN free thì rất tốt.
     
    command likes this.
  12. command

    command Bang Chúng

    Thanks anh @money site anh tận 100M mà bị xử thì tiếc lắm a há, e vất vả lắm mới crawl khoảng 15M ảnh, 100M như a thì càng vất vả và mất nhiều thời gian crawl hơn. Hiện tại tạm thời thấy site cũng ổn về mặt traffic và nghiên cứu thử định hướng trong tương lai, hy vọng site sống thọ. Cấu trúc quản lý file ảnh thì e cũng có sự sắp xếp riêng để nhằm giảm số files trong 1 folder. E dự tính mở rộng site này nếu có lời trong 3 tháng tới, còn ko thì dễ gì đầu tư tiếp.

    Thanks bác @Cái bang mình cũng đang sử dụng HDD nhiều ở Hetzner và nghiên cứu thử cái giải pháp khả thi khác nếu site phát triển ổn. Mình thích thiên hướng sử dụng server nhiều HDD hơn vì ko phải tốn sức so với giải pháp sử dụng phần mềm như min.io. Site này mình chưa có lời nên chỉ mới dùng 1 server để chứa files, khi site có lợi nhuận thì mình sẽ dùng giải pháp bạn tư vấn với 2 máy chủ raid 0 để vừa tối ưu về hiệu năng vừa đảm bảo khả năng dự phòng hơn. Mình cũng đang tận dụng Cloudflare free để cache images được 1 month :)
     
  13. sincos

    sincos Bang Chúng

    Làm 1 con VPS tầm trung rồi mua volume gắn vô.... hết volume này mua thêm vol khác gắn vào thì bác đã có 1 máy chủ có tính mở rộng vô hạn rồi. Sau đó dùng NSF để share file cho các con VPS nhỏ - loader.... tùy vào traffic mà cần scale nhiều hay ít loader....

    Còn nếu muốn thêm kho dự phòng thì setup thêm livesync nữa là đủ bộ...... không thiếu thứ gì nữa.
     
  14. slowboy

    slowboy Sơ Nhập Giang Hồ

    Thằng hetzner này có áp đụngMCA ko các bác nhỉ? e có site ảnh dính nhiều DMCA -_-
     
  15. command

    command Bang Chúng

    Có, các cty hosting lớn thì vẫn tuân thủ DMCA.
     
  16. slowboy

    slowboy Sơ Nhập Giang Hồ

    Nếu tầm 30TB thì như e là e làm con NAS J3455 hoặc J1900 rồi làm 4 con HDD 8T gắn vào. Chi phí hơn chục tr mà tiện
     
  17. thitgaluoc

    thitgaluoc Hương Chủ

    vậy còn "trên nền cloud"?
     
  18. fixbug

    fixbug Moderator Staff Member

    Bro sử dụng cache của CF cũng giảm kha khá traffic đó. còn lưu trữ gốc thì vẫn cần ổ cứng để lưu, tìm bọn nào rẻ rẻ rồi xúc :D
     
  19. slowboy

    slowboy Sơ Nhập Giang Hồ

    "Ngoài ra, có dịch vụ lưu trữ ảnh nào với chi phí <= $15/TB (bao gồm chi phí lưu trữ và bandwidth) không ae?"
     
  20. command

    command Bang Chúng

    Thanks, mình có dùng server của Hetzner, với chỉ khoảng 190euro/tháng thì bạn có server với HDD 10 x 16TB rồi. Cần gì NAS yếu xều làm chi bác. NAS tầm giá này làm backup thì còn được, còn dùng làm file server để phục vụ visitors thì đảm bảo ko ổn về hiệu năng phục vụ.
    --- Double Post Merged, Nov 2, 2021, Original Post Date: Nov 2, 2021 ---
    Thanks bác, site nào mình cũng dùng CF ấy, ko dùng CF bị khủng bố scan, spam, bot rác đủ loại và che các sites chung chủ :)
     
    fixbug likes this.