Yahoo Answer shutdown vào tháng 5/2021

automan · Apr 17, 2021

Yahoo Answer chuẩn bị shutdown sau gần 20 năm, đã có anh em nào nhanh tay backup nó chưa, hình như nó chuyển sang chế độ read-only sau 20.04, và tới 04.05 thì sẽ down hẳn.

Yahoo Answers is shutting down on May 4th, 2021 (Eastern Time) and beginning April 20th, 2021 (Eastern Time) the Yahoo Answers website will be in read-only mode. There will be no changes to other Yahoo properties or services, or your Yahoo account. You can find more information about the Yahoo Answers shutdown and how to download your data on this help page.
Click to expand...

April 20: No new content can be contributed to Yahoo Answers, but users can continue to read existing content.

May 4: Yahoo Answers will no longer be accessible. The website answers.yahoo.com will redirect users to the Yahoo homepage.

June 30: The last day users can request a download of their own data.

Và đó là cơ hội cho anh em làm SEO chăng ? read here https://www.seroundtable.com/yahoo-answers-shutting-down-31208.html . Theo bác John Muller (Cố vấn cấp cao Google Search) thì Yahoo Anser không phải là thằng cạnh tranh chính.

money · Apr 17, 2021

Hehehe anh đang download nó

Nguyen Son · Apr 17, 2021

Cái này mình chỉ dowload được phần Answer của mình thôi à các anh? Mình có thể tải all hoặc một lĩnh vực được không ạ?

money · Apr 17, 2021

Nguyen Son said: ↑

Cái này mình chỉ dowload được phần Answer của mình thôi à các anh? Mình có thể tải all hoặc một lĩnh vực được không ạ?
Click to expand...

Download all chứ em.
Quan trọng có đủ resource để download hay ko

Nguyen Son · Apr 17, 2021

Vâng. Anh có thể cho thêm keyword có thể tải được không ạ, em cũng chỉ tải nhánh muốn làm thôi, chứ all thì không đủ chỗ để chứa được ạ.

money · Apr 17, 2021

Nguyen Son said: ↑

Vâng. Anh có thể cho thêm keyword có thể tải được không ạ, em cũng chỉ tải nhánh muốn làm thôi, chứ all thì không đủ chỗ để chứa được ạ.
Click to expand...

Em crawl theo nhánh thì hơi mất công vì nó ko có sitemap theo category.
Tuy nhiên có thể vào 1 post thuộc Category mà em muốn, rồi vừa parse data của post đó vừa lấy url của các post có liên quan cùng Categpory đó và crawl tiếp (như hình dưới)

Nguyen Son said: ↑

cho thêm keyword có thể tải
Click to expand...

Còn nếu em hỏi anh là do em chưa biết cách tải (crawl data) thì hơi khó để giải thích vì anh tự code để crawl. Nếu em không code được thì nên hoặc thuê coder hoặc dùng các phần mềm hỗ trợ (như teleport, Webharvy, ... các soft này anh ko biết nhiều)

firefox · Apr 17, 2021

em cũng đang cào nào, có vẻ data khủng. Riêng phần vn toàn mấy cái bậy bựa )

Mr.BTD · Apr 17, 2021

Anh em nên cào english, phần vn thì yahoo answer như một cái deep web

automan · Apr 17, 2021

firefox said: ↑

em cũng đang cào nào, có vẻ data khủng. Riêng phần vn toàn mấy cái bậy bựa )
Click to expand...

mình ko dám đọc yahoo answer vn luôn đó, đọc xong level đen tối lại lên thêm 1 bậc ${beat_plaster}$

dev9x · Apr 18, 2021

Cào hết đến hàng tb ko các bác

thitgaluoc · Apr 18, 2021

dev9x said: ↑

Cào hết đến hàng tb ko các bác
Click to expand...

đến đó, tầm 100TB mình nghĩ là tới

longhcm · Apr 18, 2021

Sao toàn năm 2021 không vậy ?
Những năm trước không thấy nhỉ

firefox · Apr 18, 2021

longhcm said: ↑

Sao toàn năm 2021 không vậy ?
Những năm trước không thấy nhỉ
Click to expand...

bác cào theo user, sẽ thấy những cái cũ hơn, từ đó cào theo kiểu dầu loang sẽ ra kha khá, chắc e được vài tb thôi, không nhiều như bác thitgaluoc ước lượng

longhcm · Apr 18, 2021

Theo mình ướt lượng khoản 5tr question thôi chứ không có nhiều đâu.

Cháu dì Sáu · Apr 19, 2021

longhcm said: ↑

Theo mình ướt lượng khoản 5tr question thôi chứ không có nhiều đâu.
Click to expand...

nhân 30 thì vừa bạn nhé

Nguyen Son · Apr 19, 2021

Thanks anh @money. Em nghe các anh nói dowload thì em tưởng nó cho nén và tải dữ liệu về. Còn cào thì em cào được, do code hơi cùi không làm được proxy nên chắc chậm túc tắc được ít nào hay ít đó vậy.

money · Apr 19, 2021

longhcm said: ↑

Theo mình ướt lượng khoản 5tr question thôi chứ không có nhiều đâu.
Click to expand...

riêng answers US là hơn 100M rồi. Cùng mảng tiếng Anh, thấy còn có Úc, UK.

firefox said: ↑

bác cào theo user, sẽ thấy những cái cũ hơn, từ đó cào theo kiểu dầu loang sẽ ra kha khá, chắc e được vài tb thôi, không nhiều như bác thitgaluoc ước lượng
Click to expand...

không nên cào theo kiểu này, tốn resource em nhé
Về dung lượng thì đại khái như sau. Anh đang crawl lấy raw text, lưu file txt các thông tin:
- Question: ID, question title, question content, asker name, asker level.
- Answers: question ID, answer text, answer name, answer level, voteup, votedown
Trung bình khoảng 2KB/1 question. Cứ thế mà nhân lên.
Đúng ra thì lớn hơn 2KB/question nhưng anh chỉ lấy tối đa 10 câu trả lời đầu tiên cho nhanh (lấy nhiều hơn phải request ajax) nên dung lượng ít hơn thực tế của Yahoo Answers có.

longhcm · Apr 20, 2021

Có cách nào download mấy cái link dạng này không
https://xx.answers.yahoo.com/question/index?qid=xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Mình Xenu download khoản 600.000 link (lọc lại được 260.000 link như trên) là nó đơ chương trình

firefox · Apr 20, 2021

longhcm said: ↑

Có cách nào download mấy cái link dạng này không
https://xx.answers.yahoo.com/question/index?qid=xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Mình Xenu download khoản 600.000 link (lọc lại được 260.000 link như trên) là nó đơ chương trình
Click to expand...

nếu chỉ để download data thôi thì dùng API này nhé bác:
Ví dụ xxxx của em là 20210419144415AAJqmCT

PHP:

PUT https://answers.yahoo.com/_reservice_/ HTTP/1.1 Host: answers.yahoo.com Connection: keep-alive Content-Length: 195 sec-ch-ua: "Google Chrome";v="89", "Chromium";v="89", ";Not A Brand";v="99" Accept: application/json DNT: 1 sec-ch-ua-mobile: ?0 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36 Content-Type: application/json Origin: https://answers.yahoo.com Sec-Fetch-Site: same-origin Sec-Fetch-Mode: cors Sec-Fetch-Dest: empty Accept-Encoding: gzip, deflate, br Accept-Language: en-US,en;q=0.9,vi;q=0.8 {"type":"CALL_RESERVICE","payload":{"qid":"20210419144415AAJqmCT","lang":"en-US"},"reservice":{"name":"FETCH_EXTRA_QUESTION_LIST_END","start":"FETCH_EXTRA_QUESTION_LIST_START","state":"CREATED"}}

Đây hình như cũng là API nhả 2kb mà anh money có nhắc đến
Cách khác, bác có thể parse html, sẽ thấy 1 thẻ id = isoredux-data , bên trong cũng có question data, answer dât, user data...

longhcm · Apr 20, 2021

firefox said: ↑

Ví dụ xxxx của em là 20210419144415AAJqmCT
Click to expand...

Ý mình lấy tất cả được danh sách mấy cái link dạng: https://xx.answers.yahoo.com/question/index?qid=xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Chứ không phải nội dung của mấy cái link đó

Log in or Sign up

Yahoo Answer shutdown vào tháng 5/2021

automan Hương Chủ

More Threads in same category

money Hương Chủ

Nguyen Son Sơ Nhập Giang Hồ

money Hương Chủ

Nguyen Son Sơ Nhập Giang Hồ

money Hương Chủ

firefox Bang Chúng

Mr.BTD Moderator Staff Member

automan Hương Chủ

dev9x Sơ Nhập Giang Hồ

thitgaluoc Hương Chủ

longhcm Sơ Nhập Giang Hồ

firefox Bang Chúng

longhcm Sơ Nhập Giang Hồ

Cháu dì Sáu Bang Chúng

Nguyen Son Sơ Nhập Giang Hồ

money Hương Chủ

longhcm Sơ Nhập Giang Hồ

firefox Bang Chúng

longhcm Sơ Nhập Giang Hồ

Log in or Sign up

Yahoo Answer shutdown vào tháng 5/2021

automan Hương Chủ

More Threads in same category

money Hương Chủ

Nguyen Son Sơ Nhập Giang Hồ

money Hương Chủ

Nguyen Son Sơ Nhập Giang Hồ

money Hương Chủ

firefox Bang Chúng

Mr.BTD Moderator Staff Member

automan Hương Chủ

dev9x Sơ Nhập Giang Hồ

thitgaluoc Hương Chủ

longhcm Sơ Nhập Giang Hồ

firefox Bang Chúng

longhcm Sơ Nhập Giang Hồ

Cháu dì Sáu Bang Chúng

Nguyen Son Sơ Nhập Giang Hồ

money Hương Chủ

longhcm Sơ Nhập Giang Hồ

firefox Bang Chúng

longhcm Sơ Nhập Giang Hồ

Useful Searches