Chào các bác, Hiện tại mình có 1 website victim, total index khoảng 3M index, trong đó có 1 đường dẫn dạng domain.com/abc-url/* với total index khoảng 400k index. Mình cần cào data của các url từ đường dẫn domain.com/abc-url/* . Mình lướt xem site và check từ các item riêng lẻ và cả sitemap thì không có dấu vết nào link đến cái url dạng domain.com/abc-url/* mà mình cần cào. Như thế thì có giải pháp nào không các bác, Hiện tại mình dùng google search loop bảng char 3 vòng lặp, và search keyword đó với site:domain.com/abc-url thì cách này có vẻ củ chuối. nhưng mình chưa nghĩ ra cách nào khác, mọi người có thể tư vấn giúp mình không ? Kiểu mình muốn dạng như dưới đây Code: https://analyticslog.com/blog/2019/7/14/how-to-crawl-select-folders-in-screaming-frog-using-regex
Bác check rss hoặc chức năng search xem sao, hoặc giữa các site có link với nhau thì cào dạng duyệt bfs.
Ko share url thì khó tìm được giải pháp, tuy nhiên, mình nghĩ site đó thế nào cũng có link đến domain.com/abc-url/* thôi, chẳng qua là bác nhìn sơ lượt hoặc chưa đúng path nên chưa thấy. Google index url vì có thể path đó nằm hơi sâu trên trang web (nếu web đó ko hiển thị trên web mà chỉ hiển thị trong sitemap ẩn thì chắc gì Google index những urls đó). Nên bác thử cào vài chục nghìn url của site đó theo chiều sâu thử xem, có lẽ có ra urls bác cần.
Quẳng domain đây anh crawl list url cho. Nếu không bị chặn bởi kỹ thuật antibot thì tầm 1,2 ngày là có full list vài M urls