Tư vấn giải pháp cào sub-url của 1 website.

Discussion in 'Thảo Luận Chung' started by automan, Jun 30, 2022.

  1. automan

    automan Hương Chủ

    Chào các bác,

    Hiện tại mình có 1 website victim, total index khoảng 3M index, trong đó có 1 đường dẫn dạng domain.com/abc-url/* với total index khoảng 400k index.

    Mình cần cào data của các url từ đường dẫn domain.com/abc-url/* .

    Mình lướt xem site và check từ các item riêng lẻ và cả sitemap thì không có dấu vết nào link đến cái url dạng domain.com/abc-url/* mà mình cần cào.

    Như thế thì có giải pháp nào không các bác,
    Hiện tại mình dùng google search loop bảng char 3 vòng lặp, và search keyword đó với site:domain.com/abc-url thì cách này có vẻ củ chuối. nhưng mình chưa nghĩ ra cách nào khác, mọi người có thể tư vấn giúp mình không ?

    Kiểu mình muốn dạng như dưới đây
    Code:
    https://analyticslog.com/blog/2019/7/14/how-to-crawl-select-folders-in-screaming-frog-using-regex
     
  2. firefox

    firefox Bang Chúng

    Bác check rss hoặc chức năng search xem sao, hoặc giữa các site có link với nhau thì cào dạng duyệt bfs.
     
    automan likes this.
  3. command

    command Bang Chúng

    Ko share url thì khó tìm được giải pháp, tuy nhiên, mình nghĩ site đó thế nào cũng có link đến domain.com/abc-url/* thôi, chẳng qua là bác nhìn sơ lượt hoặc chưa đúng path nên chưa thấy. Google index url vì có thể path đó nằm hơi sâu trên trang web (nếu web đó ko hiển thị trên web mà chỉ hiển thị trong sitemap ẩn thì chắc gì Google index những urls đó). Nên bác thử cào vài chục nghìn url của site đó theo chiều sâu thử xem, có lẽ có ra urls bác cần.
     
    automan likes this.
  4. money

    money Hương Chủ

    Quẳng domain đây anh crawl list url cho. Nếu không bị chặn bởi kỹ thuật antibot thì tầm 1,2 ngày là có full list vài M urls
     
    Tony Vu and automan like this.
  5. paduc83

    paduc83 Tân Thủ Thôn

    site ấy có biết dùng mã nguồn gì ko
     
  6. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    thử rà post id thử xem thím