Hỏi cách crawler nội dung mà ko ảnh hưởng đến site của họ.

Discussion in 'Thảo Luận Chung' started by mrthanhjqk, Jun 21, 2020.

  1. mrthanhjqk

    mrthanhjqk Khách Qua Đường

    Chào các bác , có cách nào crawler nội dung site của họ mà ko làm ảnh hưởng đến site của họ không ạ . trước giờ e toàn trỏ trực tiếp url web của họ rồi get content . ngoài cách trực tiếp này thì còn cách nào gián tiếp ko các bác ?
     
  2. Thanh Nguyen

    Thanh Nguyen Bang Chúng

    Có. Ngồi copy - paste từng bài 1 nhé
     
  3. Thanh Nguyen

    Thanh Nguyen Bang Chúng

    Nếu b để tốc độ crawl vừa phải thì việc get content ảnh hưởng gì đến site đích đâu. Họ cũng chả quan tâm bạn đang get content hay làm gì. Miễn đừng làm quá đến độ sập cả server của họ như mấy pro ở đây ra thì việc gì đâu
     
    Le Hieu likes this.
  4. mrthanhjqk

    mrthanhjqk Khách Qua Đường

    ko còn cách nào khác à các bác
     
  5. Nai

    Nai MiddleMan Staff Member

    Cách khác nữa là crawl qua cache của google hoặc archive. Nhưng như vậy thì content không phải lúc nào cũng đủ và mới nhất.
     
  6. mrthanhjqk

    mrthanhjqk Khách Qua Đường

    Cách này có reqest trực tiếp đến site của họ ko bác ?
     
  7. Tọi

    Tọi Sơ Nhập Giang Hồ

    không bạn, lúc này là bạn đang request đến server của archive.org, và nó móc từ database của nó ra, k phải từ site bạn cào
     
    mrthanhjqk likes this.
  8. mrthanhjqk

    mrthanhjqk Khách Qua Đường

    Thanks bác
     
  9. levis012

    levis012 Sơ Nhập Giang Hồ

    Không phải sợ nó sập đâu, mà có thì mình lại có unique content =)))))))))))))
     
  10. mrthanhjqk

    mrthanhjqk Khách Qua Đường

    Ko phải , nó ban ip e luôn bác ạ
     
  11. mrthanhjqk

    mrthanhjqk Khách Qua Đường

    Cách nó có trị được nó check reqest nhiều nó ban ip ko bác
     
  12. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Xài proxy nha, nói chung đã craw thì phải chấp nhận bị banned thôi
     
  13. levis012

    levis012 Sơ Nhập Giang Hồ

    Dùng server của google hoặc bing request thử là được.

    Còn 1 cách khác là bạn đi kiếm mấy dịch vụ tạo hosting free ấy,

    Đăng ký tầm chục cái rồi bắt đầu roud robin các hosting ấy để làm proxy.

    Ngoài ra còn 1 cách nữa cho anh em MMO có free proxy.

    Mua cái D-COM rồi xài. Cứ khi nào block IP thì tắt D-COM bật lại là có IP mới
    Vừa rẻ vừa dễ
     
  14. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Còn 1 cách khác là tạo proxy từ vps nhé
    http://cafemmo.club/threads/huong-dan-tao-sock-5-tu-vps-ubuntu.2930/
    Kiếm mấy con vps giá rẻ tầm 1-2$ mà làm
     
    levis012 likes this.
  15. wpresources

    wpresources Bang Chúng

    Bạn có thể giải thích thêm đoạn này được ko?
     
  16. firefox

    firefox Bang Chúng

    Kiểu này nè bác, dùng cái tương tự như dạng này https://github.com/mcnemesis/proxy.php , sau đó đăng ký một đống tầm vài chục cái host free, quăng script lên, tuy tốc độ hơi thấp nhưng craw thoải mái.
    còn roundrobin tức là làm lần lượt xoay vòng trong danh sách ấy, mỗi ip request lượng vừa đủ thôi, mục đích để giảm số lượng request từ 1 IP.
    Giàu hơn thì tự tạo sock, tự scan, hoặc mua proxy cho thoải mái
     
    wpresources and Nai like this.
  17. levis012

    levis012 Sơ Nhập Giang Hồ

    Như bác dưới nói là đúng rồi đó.

    Đúng rồi, bác giải thích chuẩn rồi ạ.

    Anh em có thể reg host free, hoặc mua thêm IP ở 1 vài dịch vụ là được.
    Ngoài ra có thể crawl bằng trình duyệt


    Cách làm thì đơn giản thôi.
    Viết code javascript sau đó vào trang web nhấn F12 rồi chạy trong console.
    Cao cấp hơn tí thì dùng extension https://chrome.google.com/webstore/detail/tampermonkey/dhdgffkkebhmkfjojejmpbldmpobfkfo?hl=vi
    Sau đó tự viết javascript, select từng link truy cập bóc tách dữ liệu rồi export hoặc bắn qua rest api để lưu lại.

    Trình duyệt thì chắc nó ko cấm, làm 1 phát 10 tab chrome thì không khác gì có 10 job crawl cả.
    Kiếm máy khỏe hoặc ra nét mà cắm là được. Trước em cắm 1 đêm là xong cái site có vài triệu bản ghi.
     
    congloi and Nai like this.
  18. wpresources

    wpresources Bang Chúng

    Đọc dùng trực tiếp trình duyệt tưởng chậm gì ra mà bác làm nhanh quá
     
  19. levis012

    levis012 Sơ Nhập Giang Hồ

    Không chậm lắm đâu, tại vì mình ngồi nhìn thì nó chậm.
    Trước em reg cái vps free của google, làm mỗi tí xong vứt đó rồi mò xem sau cungx đc khối