Xin chỉ cách lấy hết url trang hanaslexis.com

noname007 · Dec 3, 2019

Xin chào các bác,
Chả là em muốn lấy link tất cả các cards trang http://hanaslexis.com/cards/trum-boys-in-the-backroom-1
để lấy dữ liệu bỏ vào Anki học cho tiện.
mà Nhấn " Tiếp " ở dưới nó ra random link cards. Nhưng nó lặp đi lặp lại. Nhấn cả 3k lần, lấy urls. lọc trùng ra còn có hơn 300 cards không trùng.
Xin hỏi có cách nào scrape dc hết link site này ko ạ?
Xin cám ơn ạ.

thanh858036 · Dec 3, 2019

hanaslexis.com/cards/random
nó random rồi xài tool request rồi lọc thôi

Nai · Dec 4, 2019

Site này mới, index ít. Tuy random nhưng chắc chưa có nhiều kết quả đâu, thấy content có tính đầu tư ban đầu cao chứ không đơn thuần là content random nên khó mà tạo ra con số khổng lồ được. Vì vừa có text mà hình ảnh lại có nghĩa với content nữa.

Dang · Dec 4, 2019

Site random như thế này khả năng không lấy hết được.
Code:
http://hanaslexis.com/cards/api/get20
=> Mỗi lần được 20 items, sau đó filter unique.

noname007 · Dec 4, 2019

Dang said: ↑
Site random như thế này khả năng không lấy hết được.
Code:
http://hanaslexis.com/cards/api/get20
=> Mỗi lần được 20 items, sau đó filter unique.
Click to expand...
Này fake ip, trình duyệt rồi request lại API là lại lấy 20 cards khác hả bác. ?
Em muốn lấy nhiều nhiều chút r bỏ vào phần mềm học cho tiện thôi. Mà hqua dùng tool nhấn next rồi copy url mà hơn 5k cards, lọc trùng vẫn ra có hơn 300 card .

Dang · Dec 4, 2019

noname007 said: ↑

Này fake ip, trình duyệt rồi request lại API là lại lấy 20 cards khác hả bác. ?
Em muốn lấy nhiều nhiều chút r bỏ vào phần mềm học cho tiện thôi. Mà hqua dùng tool nhấn next rồi copy url mà hơn 5k cards, lọc trùng vẫn ra có hơn 300 card .
Click to expand...

Mình request trực tiếp mà không dùng proxy / vpn, cũng như đổi user-agent thì không thấy bị chặn.

noname007 · Dec 4, 2019

Dang said: ↑

Mình request trực tiếp mà không dùng proxy / vpn, cũng như đổi user-agent thì không thấy bị chặn.
Click to expand...

em sợ k đổi nó lặp lại thôi. chứ site chắc k có để chặn.
Em có để change proxy, agent rồi. Hy vọng oke.
Cám ơn bác .

noname007 · Dec 4, 2019

Dang said: ↑

Mình request trực tiếp mà không dùng proxy / vpn, cũng như đổi user-agent thì không thấy bị chặn.
Click to expand...

em thử change IP, agent. vẫn ko thêm dc card mới nào. Vẫn 350 Card cũ.
Tìm thử vài tử ở mục ô tìm kiếm, rồi so với list. thì vẫn nhiều card chưa có. Vậy là k chỉ có 350cards.
Chắc vài hôm get 1 lần mới dc list mới :3.

hoangvn92.it · Dec 4, 2019

biết đâu dc data nó có như vậy thôi =))

noname007 · Dec 4, 2019

Chuyển sang chế độ tìm kiếm rồi scrape vậy . có vẻ khả thi.

Log in or Sign up

Xin chỉ cách lấy hết url trang hanaslexis.com

noname007 Tân Thủ Thôn

More Threads in same category

thanh858036 Sơ Nhập Giang Hồ

Nai MiddleMan Staff Member

Dang Bang Chúng

noname007 Tân Thủ Thôn

Dang Bang Chúng

noname007 Tân Thủ Thôn

noname007 Tân Thủ Thôn

hoangvn92.it Sơ Nhập Giang Hồ

noname007 Tân Thủ Thôn

Log in or Sign up

Xin chỉ cách lấy hết url trang hanaslexis.com

noname007 Tân Thủ Thôn

More Threads in same category

thanh858036 Sơ Nhập Giang Hồ

Nai MiddleMan Staff Member

Dang Bang Chúng

noname007 Tân Thủ Thôn

Dang Bang Chúng

noname007 Tân Thủ Thôn

noname007 Tân Thủ Thôn

hoangvn92.it Sơ Nhập Giang Hồ

noname007 Tân Thủ Thôn

Useful Searches