Newbie hỏi kinh nghiệm làm web auto crawl YouTube

Dang Viet Hieu · Jul 8, 2019

Em xin chào các bác, em là newbie mới vào nghề. Em muốn tham khảo mọi người về cách để tránh block khi crawl thằng YouTube, e thấy mấy thằng như findclip, clipzui thấy nó cũng clone link trực tiếp từ YouTube mà ko bị block bao giờ, có thủ thuật gì hay ko các bác? Chứ e sợ cứ ko ko chạy như thế khi số request lên thì sớm hay muộn gì nó cũng block sạch ${beat_brick}$
Cảm ơn mn nhiều nhiều

Thanh Nguyen · Jul 9, 2019

Thằng nào block vậy. GG hay youtube

Dang Viet Hieu · Jul 9, 2019

Dạ YouTube chứ ạ

Hoa Mãn Lâu · Jul 9, 2019

Làm chục acc gmail console xong random thay đổi chắc ko bị block đâu

Thanh Nguyen · Jul 9, 2019

Dang Viet Hieu said: ↑

Dạ YouTube chứ ạ
Click to expand...

Tưởng gg block mới sợ chứ yt block thì thiếu gì cách đâu. Như cụ @Hoa Mãn Lâu kia cũng là 1 cách kìa. Dùng 1 tk request liên tục lại chả limit ak

level10 · Jul 9, 2019

Giờ làm site kiểu này có được index nữa đâu ${burn_joss_stick}$

Dang Viet Hieu · Jul 9, 2019

Dạ e cảm ơn các bác!
@level10 sao ko dc index nữa vậy bác nghe hoang mang quá

vipkhongtin · Jul 12, 2019

không api thì xài dom hoặc regex bóc tách đi bác.

sincos · Jul 12, 2019

Cào trực tiếp trên web hay qua API của app nó ấy.

wpresources · Jul 16, 2019

sincos said: ↑

Cào trực tiếp trên web hay qua API của app nó ấy.
Click to expand...

Bạn trực tiếp bằng cách nào thế ?

Dang Viet Hieu · Jul 16, 2019

Có bị chặn ip bằng captcha ko các bác, e nghĩ nếu cứ dùng 1 ip của máy chủ để đi cào thì mơ sẽ chặn, có giải pháp gì ko ạ?

Hoa Mãn Lâu · Jul 16, 2019

Dang Viet Hieu said: ↑

Có bị chặn ip bằng captcha ko các bác, e nghĩ nếu cứ dùng 1 ip của máy chủ để đi cào thì mơ sẽ chặn, có giải pháp gì ko ạ?
Click to expand...

Nghĩ thôi à, làm thử i, nó ko chặn đâu, Bớt nghĩ và làm thực tế vào

wpresources said: ↑

Bạn trực tiếp bằng cách nào thế ?
Click to expand...

Cào bằng tool hoặc code tự viết nhé. có thể dùng tool bên thứ 3

chamchich · Jul 18, 2019

Đặt Google adsense trên web chỉ chứa video youtube có vi phạm gì ko các bác?

wpresources · Jul 21, 2019

Hoa Mãn Lâu said: ↑

Cào bằng tool hoặc code tự viết nhé. có thể dùng tool bên thứ 3
Click to expand...

À mình muốn hỏi xem có kỹ thuật nào cào trực tiếp từ youtube mà không dùng api thôi? Ví dụ: lần pro chỉ mình tìm link json ẩn trong network ấy

Hoa Mãn Lâu · Jul 22, 2019

wpresources said: ↑

À mình muốn hỏi xem có kỹ thuật nào cào trực tiếp từ youtube mà không dùng api thôi? Ví dụ: lần pro chỉ mình tìm link json ẩn trong network ấy
Click to expand...

À gì chứ yt thấy cào trực tiếp xài curl để cào thôi thím. vô tư nó ko chặn nên cứ xài curl + xử lý string là ngon

wpresources · Jul 22, 2019

Hoa Mãn Lâu said: ↑

À gì chứ yt thấy cào trực tiếp xài curl để cào thôi thím. vô tư nó ko chặn nên cứ xài curl + xử lý string là ngon
Click to expand...

Giao diện youtube mới toàn javascript nên để crawl mình chuyển về lại giao diện cũ bằng cách thêm mã cookie: cookie("PREF", "f6=43418&hl=en-GB") dễ lấy hơn nhiều

Hoa Mãn Lâu · Jul 22, 2019

wpresources said: ↑

Giao diện youtube mới toàn javascript nên để crawl mình chuyển về lại giao diện cũ bằng cách thêm mã cookie: cookie("PREF", "f6=43418&hl=en-GB") dễ lấy hơn nhiều
Click to expand...

Em toàn xài regex nên nếu có js thì củng lấy dc tốt. Thớt craw và xử lý bằng gì vậy ạ?

wpresources · Jul 22, 2019

Regex thì với mình hơi khó.Mình dùng java và thư viện jsoup mã nó kiểu như dưới đây,khi crawl mình ko thấy báo bị youtube chặn nếu crawl nhiều nên vẫn dùng cách này.

Code:

public NewClass() {
        try {
            Connection.Response response = getResponse("https://www.youtube.com/channel/UCfihLMEFuVwt915maUhSG7w");
            if (response != null) {
                Document document = response.parse();
//Để lấy các selector bạn muốn thì có thể chuyển tạm giao diện về youtube loại cũ cho dễ lấy như sau https://kstranminhquang.com/huong-dan-khoi-phuc-giao-dien-youtube-cu/
                System.out.println("Title: " + document.select("title").text());
                System.out.println("Author Name: " + document.select("span.qualified-channel-title-text a").text());
                System.out.println("...................");
            }
        } catch (IOException ex) {
            Logger.getLogger(NewClass.class.getName()).log(Level.SEVERE, null, ex);
        }
    }

    public Connection.Response getResponse(String url) throws IOException {
        try {
            return Jsoup.connect(url).cookie("PREF", "f6=43418&hl=en-GB")
                    .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1")
                    .followRedirects(false)
                    .ignoreContentType(true)
                    .ignoreHttpErrors(true).timeout(6000).execute();
        } catch (IOException ex) {
        }
        return null;
    }

sincos · Jul 22, 2019

parse text mình chưa thấy thằng nào nhanh gọn bằng regx của PHP. Tiếc PHP ko có multi thread thôi. Khắc phục bằng cách chạy nhiều instance là ok.

Nai · Jul 22, 2019

sincos said: ↑

parse text mình chưa thấy thằng nào nhanh gọn bằng regx của PHP. Tiếc PHP ko có multi thread thôi. Khắc phục bằng cách chạy nhiều instance là ok.
Click to expand...

Chạy nhiều instance là sao cụ. CHo em keyword để search.
Many thanks

Log in or Sign up

Newbie hỏi kinh nghiệm làm web auto crawl YouTube

Dang Viet Hieu Khách Qua Đường

More Threads in same category

Thanh Nguyen Bang Chúng

Dang Viet Hieu Khách Qua Đường

Hoa Mãn Lâu Trưởng Môn

Thanh Nguyen Bang Chúng

level10 Tân Thủ Thôn

Dang Viet Hieu Khách Qua Đường

vipkhongtin Sơ Nhập Giang Hồ

sincos Bang Chúng

wpresources Bang Chúng

Dang Viet Hieu Khách Qua Đường

Hoa Mãn Lâu Trưởng Môn

chamchich Sơ Nhập Giang Hồ

wpresources Bang Chúng

Hoa Mãn Lâu Trưởng Môn

wpresources Bang Chúng

Hoa Mãn Lâu Trưởng Môn

wpresources Bang Chúng

sincos Bang Chúng

Nai MiddleMan Staff Member

Log in or Sign up

Newbie hỏi kinh nghiệm làm web auto crawl YouTube

Dang Viet Hieu Khách Qua Đường

More Threads in same category

Thanh Nguyen Bang Chúng

Dang Viet Hieu Khách Qua Đường

Hoa Mãn Lâu Trưởng Môn

Thanh Nguyen Bang Chúng

level10 Tân Thủ Thôn

Dang Viet Hieu Khách Qua Đường

vipkhongtin Sơ Nhập Giang Hồ

sincos Bang Chúng

wpresources Bang Chúng

Dang Viet Hieu Khách Qua Đường

Hoa Mãn Lâu Trưởng Môn

chamchich Sơ Nhập Giang Hồ

wpresources Bang Chúng

Hoa Mãn Lâu Trưởng Môn

wpresources Bang Chúng

Hoa Mãn Lâu Trưởng Môn

wpresources Bang Chúng

sincos Bang Chúng

Nai MiddleMan Staff Member

Useful Searches