Mới test sơ sơ thì request tầm 1K lần liên tục là block. Anh chưa gấp nên để khi nào rảnh nghiên cứu sau vậy.
mình có tut dùng được không giới hạn nhé, private endpoint luôn. Các gói bên trên sử dụng public endpoint, thứ nhất là sẽ bị limit theo pattern, thứ hai là không ném cả cục HTML vào được hehe
Ko phải dễ hay khó mà đi đúng hướng hay không. Mình chắc chắn là đc thì mình mới nói, vì trước đây mình test rồi. Bây h code cũng chỉ 1 tiếng là xong.
Thắc mắc 1 tí là nếu k xài proxy request liên tục có bị block k bác. Vì anh gồ hơi khó chịu đoạn này. Thư viện bác kia share nó ghi unlimit còn bôi đen lên to tướng nên cũng thắc mắc vậy
bác vào cái phần issues sẽ thấy bị block liên tục nhé https://github.com/ssut/py-googletrans/issues/117 github[dot]com/ssut/py-googletrans/issues/105 mấy cái thư viện cũng là reverse engineer từ giao diện web thôi bác trong chrome còn có 1 endpoint có thể gửi nhiều string trong 1 request nữa, nhưng hơi khó dùng
Đây nhé, đúng 60 dòng python mình vừa code lại xong. Như này chắc bạn hiểu rồi https://streamable.com/s/vfgvb/rklmg
Cái này có phải xài endpoint api request đâu bác. Cái này kiểu open browser rồi, vậy thì nói làm gì bác ơi . Ah mà nếu bác code rồi thì ném luôn cho ae ai xài xài
Em thấy cách của cụ santorini ok mà, hơi chậm xíu thôi nhưng quá ok khỏi suy nghĩ nhiều với tình hình hiện giờ, nếu mà đa phần các site cần lấy chơi block qua cloudflare, captcha google.
Nếu request translate vài triệu lần thì sao bé? Có bị block không? Thật ra nếu cách này ko bị block thì cũng hay đó, tốc độ chậm thì cứ túc tắc cũng ko sao.
Mình ko biết, mình chưa test quá 2 tiếng bao giờ, đây mình chạy có 5 threads, để headless và chạy 1 lúc 100 - 200 threads cũng ok với ram 16gb. Cái này chỉ phù hợp với có sẵn data trên máy thôi. Mà hiện tại mình đang cho google dịch nguồn rồi mới scrape xong rồi post luôn nên bỏ dùng cách trên. Cách hiện tại mình đang dùng thì ko hề bị limit. Cách trên thì các bạn test thử, mình hết máy để treo rồi )
Bạn có đã thử thằng này: https://github.com/GoogleChrome/puppeteer chưa? Thấy nhiều người đánh giá là hiệu năng tốt hơn selenium. Chạy trên nodejs.