Cần draw data của youtube với URL, tittle, Desc,... thì dùng tool gì

Discussion in 'Youtube' started by Dung Le, Feb 1, 2018.

  1. Nai

    Nai MiddleMan Staff Member

    Lưu phân content của product ấy anh. 1 file html tầm 150 KB
     
  2. money

    money Hương Chủ

    700 x 150KB = ? GB mà VPS 20$/tháng không đủ? {look_down}{look_down}{look_down}
     
  3. Nai

    Nai MiddleMan Staff Member

    700k product anh ơi, 700 thì em đâu có bán than =.=
    Nãy em ghi nhầm á :D
     
  4. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    product éo gì nặng thế, người ta lưu tính bằng vài kb thôi mà {beat_brick}{beat_plaster}{beat_shot}
     
  5. Nai

    Nai MiddleMan Staff Member

    em cũng éo biết nữa cụ, nó dao động từ vài chục đến 150 nên em lấy max :D
     
  6. Dung Le

    Dung Le Sơ Nhập Giang Hồ

    Sẵn bác @Nai bàn chuyện dung lượng lớn , cho hỏi thăm thêm cách chơi data lớn luôn nha bác :
    1.Nền tảng Wordpress co cho phép post lên tới vài triệu post/page không ? Nếu câu trả lời là không chắc mình giải nghệ luôn vì biết mỗi thằng này , hic hic .
    2.VPS cùi cùi tầm 10$/tháng thì chứa tầm mấy site dạng 1M post ? Có khả năng bị sập không bác ?
    3.WP all import : thằng này cho phép mình import lên VPS cùi 10$ thì tối đa nên bao nhiêu record/ file hay tống hết 1M record/file luôn ?
    4. Bác crawl data về để dưới dạng CSV / JSON hay excel ? mà dung lượng như thế chắc phải split nó ra thành nhiều file mới import được hết chứ ?
    Rất mong nghe cao kiến chứ newbie như mình mò mẫm lâu lắm .
     
  7. Nai

    Nai MiddleMan Staff Member

    1. Được.
    2. Mấy site tùy thuộc vào config và data như thế nào. Vì data có thể dùng cho cho hàng tỉ site.
    3. Tùy theo con server. $10 thì chắc đợi hơn chục ngày mới xong.
    4. Hồi xưa là txt, xlsx. Giờ là mysql.
     
    Last edited: Feb 23, 2018
  8. Dung Le

    Dung Le Sơ Nhập Giang Hồ

    2. à, hình như bắt đầu thông tí tí cái vụ database dùng chung ,kaka, có vẻ hợp lý , nếu thế thì khỏe rồi .
    3. Tèo , nhà em nghèo mà không chơi sang được , có giải pháp nào thay thế không bác .
    4. Nếu chơi SQL thì phải import trực tiếp vào rồi , cách này phải tìm hiểu tiếp , cảm ơn bác nhiều.
     
  9. quang mít

    quang mít Sơ Nhập Giang Hồ

    sài cái BlasterSuite Manager cũng được đó chế. nhưng mất phí.
     
  10. princenuce

    princenuce Sơ Nhập Giang Hồ

    Nhận crawl :))
     
  11. thitgaluoc

    thitgaluoc Hương Chủ

    scrapy chơi được, nhưng bác cần lấy info của 50k bài thì bác phải có url rồi chứ nhỉ, đằng này bác lại lấy cả url???
    scrapy nó xuất ra json hoặc csv nhé, ưu tiên csv vì csv nhẹ và ngon hơn :))
     
  12. vipkhongtin

    vipkhongtin Sơ Nhập Giang Hồ

    Bon chen cho e hỏi ngu xíu ạ
    1. Sao mọi người ko code grab để đỡ phải mất công lưu lại rồi lại import? Thay vào đó sẽ có cả trang clone luôn?
    Hay tại clone nó dễ bị sandbox/die ạ?
     
  13. Nai

    Nai MiddleMan Staff Member

    Grab là gì?
     
  14. vipkhongtin

    vipkhongtin Sơ Nhập Giang Hồ

    Ko biết e nói đúng ko nhưng đại loại là viết code clone dữ liệu của nó ý ạ.
     
  15. Nai

    Nai MiddleMan Staff Member

    Bác thử clone Google thử xem.
    Lấy dữ liệu trực tiếp thì cũng có ưu và nhược điểm. Trường hợp web nguồn sập thì mình sập theo. Hoặc đơn giản là nó đột ngột chặn thì hay update liên tục code thì mình cũng phải update theo nó nữa.
    Có khá nhiều cái bất tiện nhưng bên cạnh đó thì ưu điểm là dữ liệu cập nhật realtime nên rất là tốt cho web
     
    Last edited: Jun 19, 2018
  16. vipkhongtin

    vipkhongtin Sơ Nhập Giang Hồ

    Clone gôle cũng ko khó lắm bác ạ.
    Trước có 1 bác làm rồi :)
     
  17. wpresources

    wpresources Bang Chúng

    Mình không dùng tool đó có thể cho mình hỏi khoảng bao lâu thì được 10k clip không
     
  18. Nguyễn Thế Thảo

    Nguyễn Thế Thảo Moderator Staff Member

    50k cơ à bác. dã man quá :D
     
  19. vandungldc

    vandungldc Tân Thủ Thôn

    cho xin thông tin liên hệ!
     
  20. princenuce

    princenuce Sơ Nhập Giang Hồ

    inbox