Mời các coder tự nghiền ngẫm và bình loạn. Cách làm quá rõ rồi, chẳng còn gì để chia sẻ cả P/S: mò vừa thôi kẻo lại mò vào site của mềnh thì khổ, không có đường thoát đâu nhá. Hễ visitor lạc vào là phải mang tiền về cho tớ https:// topsy. one/hashtag. php?q=test%20search
Nó làm theo kiểu ai nhập chuỗi tìm kiếm gì thì nó query theo chuỗi đó đến instagram, bing, twit lấy image và tẽxt rồi cache thành file. Nó ko quan tâm tiếng Anh hay Nhật, lấy dc gì show ra cái đó.
Bọn nào cũng chặn. Đã crawl data thì xác định phải mua proxy để chạy nhiều thread cùng lúc chứ chạy 1 cái thì dc bao nhiêu data đâu.
Anh đang dùng instantproxies . com Nhưng mua proxy hên xui, gặp package ngon thì crawl miệt mài ko sao, package chuối bị chặn hoài.
Nó làm dc cái gì bé? Anh chẳng bao giờ xài api của thằng nào, cứ request thẳng rồi parse HTML (như twitter thì anh chưa crawl nhưng request theo hashtag chắc ổn)