Cách lấy hết data multi lang

Discussion in 'Thảo Luận Chung' started by automan, Sep 23, 2019.

  1. automan

    automan Hương Chủ

    Chào các bác,

    hiện tại mình có 1 target site, theo db nó ghi là có 11 triệu record. Các record này gồm cả tiếng Anh lẫn các tiếng "Em" khác.

    Giao diện site chỉ có khung search, khi search thì chỉ ra max 100 item cho 10 trang, cái này nó có api nên crawl khá sướng.

    Có vấn đề là không biết làm sao lấy hết được data của nó.

    Nếu xài char list abc , kết hợp tối đa 3 char là sẽ được khoảng 18000 keyword, query hết số này về site target thì chỉ lấy được tầm 1 triệu. Còn thiếu khá nhiều. Khi search thử 1 word lạ ra cả data tiếng Thái

    À Site index Google 5M, Organic 90%

    Các bác có cách nào hay suggest em với.
     
    Last edited: Sep 23, 2019
  2. money

    money Hương Chủ

    Split content đã crawl của nó ra các words rồi quẳng vào search tiếp chứ chơi kiểu ghép chữ abc, abd ... nhiều cái ko ra kết quả đâu em, phí công.
     
    automan likes this.
  3. wpresources

    wpresources Bang Chúng

    Tìm theo search khả năng tìm hết theo em là không có.Thay vì mất công ghép từ anh chuẩn bị một danh sách từ khóa có sẵn(nên dùng database hơn dùng file) đọc theo

    Em cũng từng thấy một trang kiểu api search tương tự share cùng cho vui ạ contextualwebsearch.com
     
    dungnq and automan like this.
  4. paduc83

    paduc83 Tân Thủ Thôn

    Ký tự search tối thiểu mấy ký tự nhỉ
     
  5. nguagovt

    nguagovt Sơ Nhập Giang Hồ

    Up luôn site đó lên đây để ae cùng vọc ké {bad_smelly}