Yahoo Answer shutdown vào tháng 5/2021

Discussion in 'Thảo Luận Chung' started by automan, Apr 17, 2021.

  1. automan

    automan Hương Chủ

    Yahoo Answer chuẩn bị shutdown sau gần 20 năm, đã có anh em nào nhanh tay backup nó chưa, hình như nó chuyển sang chế độ read-only sau 20.04, và tới 04.05 thì sẽ down hẳn.

    • April 20: No new content can be contributed to Yahoo Answers, but users can continue to read existing content.
    • May 4: Yahoo Answers will no longer be accessible. The website answers.yahoo.com will redirect users to the Yahoo homepage.
    • June 30: The last day users can request a download of their own data.
    Và đó là cơ hội cho anh em làm SEO chăng ? read here https://www.seroundtable.com/yahoo-answers-shutting-down-31208.html . Theo bác John Muller (Cố vấn cấp cao Google Search) thì Yahoo Anser không phải là thằng cạnh tranh chính. {byebye}
     
  2. money

    money Hương Chủ

    Hehehe anh đang download nó
     
  3. Nguyen Son

    Nguyen Son Sơ Nhập Giang Hồ

    Cái này mình chỉ dowload được phần Answer của mình thôi à các anh? Mình có thể tải all hoặc một lĩnh vực được không ạ?
     
  4. money

    money Hương Chủ

    Download all chứ em.
    Quan trọng có đủ resource để download hay ko :D
     
  5. Nguyen Son

    Nguyen Son Sơ Nhập Giang Hồ

    Vâng. Anh có thể cho thêm keyword có thể tải được không ạ, em cũng chỉ tải nhánh muốn làm thôi, chứ all thì không đủ chỗ để chứa được ạ.
     
  6. money

    money Hương Chủ

    Em crawl theo nhánh thì hơi mất công vì nó ko có sitemap theo category.
    Tuy nhiên có thể vào 1 post thuộc Category mà em muốn, rồi vừa parse data của post đó vừa lấy url của các post có liên quan cùng Categpory đó và crawl tiếp (như hình dưới)

    Còn nếu em hỏi anh là do em chưa biết cách tải (crawl data) thì hơi khó để giải thích vì anh tự code để crawl. Nếu em không code được thì nên hoặc thuê coder hoặc dùng các phần mềm hỗ trợ (như teleport, Webharvy, ... các soft này anh ko biết nhiều)
    [​IMG]
     
    Nguyen Son, EDM, Mr.BTD and 4 others like this.
  7. firefox

    firefox Bang Chúng

    em cũng đang cào nào, có vẻ data khủng. Riêng phần vn toàn mấy cái bậy bựa :))
     
  8. Mr.BTD

    Mr.BTD Moderator Staff Member

    Anh em nên cào english, phần vn thì yahoo answer như một cái deep web :D
     
    firefox likes this.
  9. automan

    automan Hương Chủ

    mình ko dám đọc yahoo answer vn luôn đó, đọc xong level đen tối lại lên thêm 1 bậc {beat_plaster}
     
  10. dev9x

    dev9x Sơ Nhập Giang Hồ

    Cào hết đến hàng tb ko các bác
     
  11. thitgaluoc

    thitgaluoc Hương Chủ

    đến đó, tầm 100TB mình nghĩ là tới
     
  12. longhcm

    longhcm Sơ Nhập Giang Hồ

    Sao toàn năm 2021 không vậy ?
    Những năm trước không thấy nhỉ
     
  13. firefox

    firefox Bang Chúng

    bác cào theo user, sẽ thấy những cái cũ hơn, từ đó cào theo kiểu dầu loang sẽ ra kha khá, chắc e được vài tb thôi, không nhiều như bác thitgaluoc ước lượng
     
  14. longhcm

    longhcm Sơ Nhập Giang Hồ

    Theo mình ướt lượng khoản 5tr question thôi chứ không có nhiều đâu.
     
  15. Cháu dì Sáu

    Cháu dì Sáu Bang Chúng

    nhân 30 thì vừa bạn nhé
     
    money likes this.
  16. Nguyen Son

    Nguyen Son Sơ Nhập Giang Hồ

    Thanks anh @money. Em nghe các anh nói dowload thì em tưởng nó cho nén và tải dữ liệu về. Còn cào thì em cào được, do code hơi cùi không làm được proxy nên chắc chậm túc tắc được ít nào hay ít đó vậy.
     
    money likes this.
  17. money

    money Hương Chủ

    riêng answers US là hơn 100M rồi. Cùng mảng tiếng Anh, thấy còn có Úc, UK.

    không nên cào theo kiểu này, tốn resource em nhé
    Về dung lượng thì đại khái như sau. Anh đang crawl lấy raw text, lưu file txt các thông tin:
    - Question: ID, question title, question content, asker name, asker level.
    - Answers: question ID, answer text, answer name, answer level, voteup, votedown
    Trung bình khoảng 2KB/1 question. Cứ thế mà nhân lên.
    Đúng ra thì lớn hơn 2KB/question nhưng anh chỉ lấy tối đa 10 câu trả lời đầu tiên cho nhanh (lấy nhiều hơn phải request ajax) nên dung lượng ít hơn thực tế của Yahoo Answers có.
     
    Last edited: Apr 19, 2021
    firefox likes this.
  18. longhcm

    longhcm Sơ Nhập Giang Hồ

    Có cách nào download mấy cái link dạng này không
    https://xx.answers.yahoo.com/question/index?qid=xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
    Mình Xenu download khoản 600.000 link (lọc lại được 260.000 link như trên) là nó đơ chương trình
     
  19. firefox

    firefox Bang Chúng

    nếu chỉ để download data thôi thì dùng API này nhé bác:
    Ví dụ xxxx của em là 20210419144415AAJqmCT
    PHP:
    PUT https://answers.yahoo.com/_reservice_/ HTTP/1.1
    Hostanswers.yahoo.com
    Connection
    keep-alive
    Content
    -Length195
    sec
    -ch-ua"Google Chrome";v="89""Chromium";v="89"";Not A Brand";v="99"
    Acceptapplication/json
    DNT
    1
    sec
    -ch-ua-mobile: ?0
    User
    -AgentMozilla/5.0 (Windows NT 10.0Win64x64AppleWebKit/537.36 (KHTMLlike GeckoChrome/89.0.4389.128 Safari/537.36
    Content
    -Typeapplication/json
    Origin
    https://answers.yahoo.com
    Sec-Fetch-Sitesame-origin
    Sec
    -Fetch-Modecors
    Sec
    -Fetch-Dest: empty
    Accept-Encodinggzipdeflatebr
    Accept
    -Languageen-US,en;q=0.9,vi;q=0.8

    {"type":"CALL_RESERVICE","payload":{"qid":"20210419144415AAJqmCT","lang":"en-US"},"reservice":{"name":"FETCH_EXTRA_QUESTION_LIST_END","start":"FETCH_EXTRA_QUESTION_LIST_START","state":"CREATED"}}
    Đây hình như cũng là API nhả 2kb mà anh money có nhắc đến
    Cách khác, bác có thể parse html, sẽ thấy 1 thẻ id = isoredux-data , bên trong cũng có question data, answer dât, user data...
     
    Nai likes this.
  20. longhcm

    longhcm Sơ Nhập Giang Hồ

    Ý mình lấy tất cả được danh sách mấy cái link dạng: https://xx.answers.yahoo.com/question/index?qid=xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
    Chứ không phải nội dung của mấy cái link đó