Xin chào các bác, Chả là em muốn lấy link tất cả các cards trang http://hanaslexis.com/cards/trum-boys-in-the-backroom-1 để lấy dữ liệu bỏ vào Anki học cho tiện. mà Nhấn " Tiếp " ở dưới nó ra random link cards. Nhưng nó lặp đi lặp lại. Nhấn cả 3k lần, lấy urls. lọc trùng ra còn có hơn 300 cards không trùng. Xin hỏi có cách nào scrape dc hết link site này ko ạ? Xin cám ơn ạ.
Site này mới, index ít. Tuy random nhưng chắc chưa có nhiều kết quả đâu, thấy content có tính đầu tư ban đầu cao chứ không đơn thuần là content random nên khó mà tạo ra con số khổng lồ được. Vì vừa có text mà hình ảnh lại có nghĩa với content nữa.
Site random như thế này khả năng không lấy hết được. Code: http://hanaslexis.com/cards/api/get20 => Mỗi lần được 20 items, sau đó filter unique.
Này fake ip, trình duyệt rồi request lại API là lại lấy 20 cards khác hả bác. ? Em muốn lấy nhiều nhiều chút r bỏ vào phần mềm học cho tiện thôi. Mà hqua dùng tool nhấn next rồi copy url mà hơn 5k cards, lọc trùng vẫn ra có hơn 300 card .
em sợ k đổi nó lặp lại thôi. chứ site chắc k có để chặn. Em có để change proxy, agent rồi. Hy vọng oke. Cám ơn bác .
em thử change IP, agent. vẫn ko thêm dc card mới nào. Vẫn 350 Card cũ. Tìm thử vài tử ở mục ô tìm kiếm, rồi so với list. thì vẫn nhiều card chưa có. Vậy là k chỉ có 350cards. Chắc vài hôm get 1 lần mới dc list mới :3.