Em đang làm cái tool nho nhỏ để cào anh gồ mà gặp mấy vấn đề sau. Xin các anh tư vấn với ạ. E dùng http requests để cào serp google. Có sử dụng proxy chạy multi process không có time sleep. E chạy con máy 8 nhân 16 luồng, chạy được 400 bài thì bị lỗi 429 to many request. Hiện tại hình như gần 100 IP của e đều bị block hết rồi. Ae có kinh nghiệm cho e xin giải pháp với ạ. Em cảm ơn
Bác tạ gợi ý cho em vài nguồn content với, em chơi crawl thằng google site tiếng việt thì thấy lên mà site tiếng anh khó ăn quá
Trên bing có rất nhiều cái hay nhé, ít block nữa --- Double Post Merged, Oct 22, 2021, Original Post Date: Oct 22, 2021 --- mình ko có ý múa rìu qua mắt thợ nhưng theo mình quan trọng nhất là cách tiếp cận, hầu hết mng làm đều cào theo kiểu cào cho nát, post tùm lum bài lên, mình ko theo cách này làm giống bạn loyki kìa, bước chọn niche từ khoá khá là quan trọng để dễ rank. Ví dụ luôn niche movie thay vì làm thông tin phim, hãy làm về diễn viên, làm về diễn viên hãy làm cực ngách ntn nhé : how old is tom cruise in top gun ( keyword : how old is actor in movie x) Site demo : inthatmovie. com/500-744/tom-cruise/top-gun (mình ko hay share site nên tầm 24h tới mình sẽ gỡ nhé) nếu ko chọn niche và từ khoá thích làm búa xua content thì cứ thằng to mà ngâm cứu : bing, youtube, insta, tiktok hay chplay, wikipedia,… đều là mỏ vàng mình thấy có rất nhiều thứ có thể khai thác được
Time sleep bao nhiêu thì ok vậy a. Mà ngộ cái là mấy 1 của e sài bộ IP và user agent đó bị block, xong mang sang máy khác chạy tiếp với bộ này thì lại chạy được. Nhưng cũng tầm vài trăm đến 1k bài là bị tiếp --- Double Post Merged, Oct 22, 2021, Original Post Date: Oct 22, 2021 --- Có chổ nào mua proxy ngon k a? --- Double Post Merged, Oct 22, 2021 --- Tốc độ load của ping nó chậm vải đái bác ạ.
Lấy suggest keyword của google, convert link qua bing => ví dụ: key "từ khóa" -> chuyển qua bing-> https://www.bing.com/search?q=Từ+khóa - thêm &first=11 hoặc 21,... để có content độc lạ hơn. Crawl phát ăn ngay. Em chưa từng auto dạng này nhưng bác cứ làm như em sẽ ổn thôi
Bác @Tạ hơi nặng chắc chưa thử cái guide mình chia sẻ trong box https://cafemmo.club/forums/thao-luan-nang-cao.37/ rồi, thử dùng nó rồi cào thử Bing xem, có bị block ko? Haha
ủa Bing có chặn gì đâu nhỉ các anh em? Cứ cào tẹt ga thôi. Thỉnh thoảng nó bị lỗi tầm vài ngày đến 1 tuần, thường không trả về kết quả gì. Khi đó thì nghỉ cào. Đó là từ 1-2 năm trước, giờ mình không cào nữa nên không biết có gì thay đổi không
em mới update cách dễ hơn 1 chút rồi đấy, mời bác vào thẩm Giờ nó trả zero liên tục đó anh, đổi IP đi là ngon ngay, ông Bing này mỗi location trả 1 kiểu kết quả khác nhau nên content cứ gọi là unique
@firefox khi nào hàng quán mở lại làm cái offline em nhỉ. 4rum mình cũng lâu chưa off và anh cũng hâm mộ các super coder quá, gặp mặt để chiêm ngưỡng dung nhan rạng ngời cho thỏa niềm đam mê
Ý e là nó chậm hơn gồ ấy. Kk. --- Double Post Merged, Oct 22, 2021, Original Post Date: Oct 22, 2021 --- Code e vừa cào gồ vừa cào bing. Gồ chặn thì e sang bing. Mà so sánh tốc độ ra bài thì gồ nhanh gắp 4 5 lần. --- Double Post Merged, Oct 22, 2021 --- Cảm ơn a. E cũng đang làm kiểu vậy. --- Double Post Merged, Oct 22, 2021 --- Làm sao vào group này anh ơi. Cho e vào học hỏi với. --- Double Post Merged, Oct 22, 2021 --- E mới vào 4rum vài tháng mà thấy ae trên này toàn cao thủ và quý hơn nữa là ae chia sẽ nhiệt tình quá. Chắc a gồ, chị bing sắp để ý group này rồi
Em cám ơn bác, trước giờ em toàn cào tùm lum xong ăn may theo từng bài viết, nhưng số bài lên top ít lắm :V để em thử chơi theo từng niche xem sao
Ý mình k hẳn là phải bắt buộc theo niche, mà nếu làm theo niche thì sẽ dễ rank hơn vì độ liên quan trong các topic của bài ấy bạn
E là ng mới dù theo dõi 4rum củng lâu, cho e hỏi cào ping với google là cào những gì ạ, ko phải mình cào các web khác mới có content chứ nhỉ, e hỏi hơi ngu mong các anh lượng thứ ạ