như nào nhỉ ) chi tiết hơn đi, bạn vẫn muốn dùng site đó chỉ cần cài thêm plugin vào để vượt hotlink à? thế thì k bền đâu và sv chịu tải cao nha
Sử dụng IP của google search để craw thì chắc sẽ không ai dám lock. https ://feedback. googleusercontent. com/gadgets/proxy?container=fbk&url=https ://image. shutterstock. com/image-photo/image-flu-covid19-virus-cell-600w-1658787640.jpg
https://feedback.googleusercontent....200218/3293191a2424b963a4eda3833f75b57501.png tùy thằng block hay không
Google nó không lock, mà chỉ chặn referer. Nghĩa là dùng để craw vô tư. IP của đám proxy này là IP của google search luôn. Site nào dám chặn google search thì bá đạo quá. Với lại Ảnh thì có thể cache dễ dàng ở cloudflare. Xây dựng 1 cái server dung lượng 5-10TB để lưu trữ Ảnh chắc không tới 50$/tháng.
Nếu chủ thớt muốn dùng tool proxy để vượt qua hotlink protected thì theo m là nên bỏ ý tưởng này đi. HDD giờ rẻ như cho, chi phí chủ yếu là bandwidth chứ không phải storage nữa. Craw về server của mình xong muốn làm gì làm, chẳng sợ ai chặn nữa. Mua 1 con server 2x4TB bên Hetzner có 35$ mỗi tháng rồi lưu trữ ảnh tha hồ.
@Cái bang nói rất chuẩn, anh đã đề cập vấn đề này lâu lắm rồi, không hiểu sao anh em cứ muốn làm kiểu free? Chi phí vài chục $/tháng cũng coi như tiền cafe thôi.
Ảnh thì kiểu gì cloudflare nó cũng cache giùm , khỏi cần CDN chi cho tốn kém. cũng khỏi cần SSD làm gì, cứ táng HDD được rồi, vì đã có cache của cloudflare chịu tải . Còn muốn craw thẳng vào CDN thì phải biết CDN đó sử dụng như nào mới biết cách mà craw chứ. thớt có skype ko quẳng m thử làm xem. Trọn bộ giải pháp gồm : Tự động craw ảnh về lưu trữ ở server, 1 con VPS cùi làm dùng nginx làm proxy để giấu IP của server lưu trữ, chống DMCA, cloudflare làm CDN ở lớp ngoài cùng , cache file ảnh để tăng tốc độ load. Tổng chi phí server tầm 50$/tháng m tự tin có thể lưu trữ 4-8TB ảnh với lượng ccu bao nhiêu cũng chấp hết.
để code demo xem thế nào đã. m vừa thử craw 1 vài site truyện tranh, đa số link ảnh đã lock không cho truy cập từ IP của server, kể cả IP của google proxy. Nên cách duy nhất để craw là phải dùng nhiều proxy.
Có nghĩa là cách bác nói https ://feedback. googleusercontent. com/gadgets/proxy?container=fbk&url=https ://image. shutterstock. com/image-photo/image-flu-covid19-virus-cell-600w-1658787640.jpg sẽ không sài được nữa ?