Yahoo Answer chuẩn bị shutdown sau gần 20 năm, đã có anh em nào nhanh tay backup nó chưa, hình như nó chuyển sang chế độ read-only sau 20.04, và tới 04.05 thì sẽ down hẳn. April 20: No new content can be contributed to Yahoo Answers, but users can continue to read existing content. May 4: Yahoo Answers will no longer be accessible. The website answers.yahoo.com will redirect users to the Yahoo homepage. June 30: The last day users can request a download of their own data. Và đó là cơ hội cho anh em làm SEO chăng ? read here https://www.seroundtable.com/yahoo-answers-shutting-down-31208.html . Theo bác John Muller (Cố vấn cấp cao Google Search) thì Yahoo Anser không phải là thằng cạnh tranh chính.
Cái này mình chỉ dowload được phần Answer của mình thôi à các anh? Mình có thể tải all hoặc một lĩnh vực được không ạ?
Vâng. Anh có thể cho thêm keyword có thể tải được không ạ, em cũng chỉ tải nhánh muốn làm thôi, chứ all thì không đủ chỗ để chứa được ạ.
Em crawl theo nhánh thì hơi mất công vì nó ko có sitemap theo category. Tuy nhiên có thể vào 1 post thuộc Category mà em muốn, rồi vừa parse data của post đó vừa lấy url của các post có liên quan cùng Categpory đó và crawl tiếp (như hình dưới) Còn nếu em hỏi anh là do em chưa biết cách tải (crawl data) thì hơi khó để giải thích vì anh tự code để crawl. Nếu em không code được thì nên hoặc thuê coder hoặc dùng các phần mềm hỗ trợ (như teleport, Webharvy, ... các soft này anh ko biết nhiều)
bác cào theo user, sẽ thấy những cái cũ hơn, từ đó cào theo kiểu dầu loang sẽ ra kha khá, chắc e được vài tb thôi, không nhiều như bác thitgaluoc ước lượng
Thanks anh @money. Em nghe các anh nói dowload thì em tưởng nó cho nén và tải dữ liệu về. Còn cào thì em cào được, do code hơi cùi không làm được proxy nên chắc chậm túc tắc được ít nào hay ít đó vậy.
riêng answers US là hơn 100M rồi. Cùng mảng tiếng Anh, thấy còn có Úc, UK. không nên cào theo kiểu này, tốn resource em nhé Về dung lượng thì đại khái như sau. Anh đang crawl lấy raw text, lưu file txt các thông tin: - Question: ID, question title, question content, asker name, asker level. - Answers: question ID, answer text, answer name, answer level, voteup, votedown Trung bình khoảng 2KB/1 question. Cứ thế mà nhân lên. Đúng ra thì lớn hơn 2KB/question nhưng anh chỉ lấy tối đa 10 câu trả lời đầu tiên cho nhanh (lấy nhiều hơn phải request ajax) nên dung lượng ít hơn thực tế của Yahoo Answers có.
Có cách nào download mấy cái link dạng này không https://xx.answers.yahoo.com/question/index?qid=xxxxxxxxxxxxxxxxxxxxxxxxxxxxx Mình Xenu download khoản 600.000 link (lọc lại được 260.000 link như trên) là nó đơ chương trình
nếu chỉ để download data thôi thì dùng API này nhé bác: Ví dụ xxxx của em là 20210419144415AAJqmCT PHP: PUT https://answers.yahoo.com/_reservice_/ HTTP/1.1Host: answers.yahoo.comConnection: keep-aliveContent-Length: 195sec-ch-ua: "Google Chrome";v="89", "Chromium";v="89", ";Not A Brand";v="99"Accept: application/jsonDNT: 1sec-ch-ua-mobile: ?0User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36Content-Type: application/jsonOrigin: https://answers.yahoo.comSec-Fetch-Site: same-originSec-Fetch-Mode: corsSec-Fetch-Dest: emptyAccept-Encoding: gzip, deflate, brAccept-Language: en-US,en;q=0.9,vi;q=0.8{"type":"CALL_RESERVICE","payload":{"qid":"20210419144415AAJqmCT","lang":"en-US"},"reservice":{"name":"FETCH_EXTRA_QUESTION_LIST_END","start":"FETCH_EXTRA_QUESTION_LIST_START","state":"CREATED"}} Đây hình như cũng là API nhả 2kb mà anh money có nhắc đến Cách khác, bác có thể parse html, sẽ thấy 1 thẻ id = isoredux-data , bên trong cũng có question data, answer dât, user data...
Ý mình lấy tất cả được danh sách mấy cái link dạng: https://xx.answers.yahoo.com/question/index?qid=xxxxxxxxxxxxxxxxxxxxxxxxxxxxx Chứ không phải nội dung của mấy cái link đó