Lấy dữ liệu của site bảo vệ bởi CloudFlare

command · Dec 9, 2020

Cái bang said: ↑
Requests package của python không thể truyền cookie qua headers được.

M thường gửi cookie bằng requests session :
Code:
s = requests.session()
for cookie in cookies:
    s.cookies.set(cookie['name'], cookie['value'])
s.get('https://google.com')
Click to expand...
Thanks @Cái bang , mình thường truyền tham số dict của cookie vào requests của Python cho tiện

thitgaluoc said: ↑

có bạn ơi, gửi được mà
bạn gửi dạng dict kèm với request nhé
r = requests.get(ep, cookies=cookies, headers=headers)
Click to expand...

@thitgaluoc mình đang dùng cách này, trong hình mình chụp ở trên, tại bước 5, CloudProxy trả về mảng chứa các dict của cookie bypass CF, và mình chưa biết dùng cái nào trong tham số trả về cookie của CloudProxy mà bạn @firefox đã giới thiệu ở trên.

[{'name': 'sc_is_visitor_unique', 'value': 'rx8617147.1607484640.9120C801E0094F80C9AB38FBC2D5E339.1.1.1.1.1.1.1.1.1', 'domain': '.victimdomain[.]com', 'path': '/', 'expires': 1670556640, 'size': 91, 'httpOnly': False, 'secure': False, 'session': False, 'sameSite': 'Lax'}, {'name': '_vwo_uuid_v2', 'value': 'D49A4E240CD4666C73DD0540D01DCEAFA|f76953635ccc8571c97b9e27e659aa5d', 'domain': '.victimdomain[.]com', 'path': '/', 'expires': 1639107039, 'size': 78, 'httpOnly': False, 'secure': False, 'session': False}, {'name': '_gid', 'value': 'GA1.2.1405875997.1607484640', 'domain': '.victimdomain[.]com', 'path': '/', 'expires': 1607571039, 'size': 31, 'httpOnly': False, 'secure': False, 'session': False}, {'name': '_ga', 'value': 'GA1.2.1759184606.1607484640', 'domain': '.victimdomain[.]com', 'path': '/', 'expires': 1670556639, 'size': 30, 'httpOnly': False, 'secure': False, 'session': False}, {'name': 'fsrndid', 'value': 'false', 'domain': 'www[.]victimdomain[.]com', 'path': '/', 'expires': 1607488239.745479, 'size': 12, 'httpOnly': False, 'secure': True, 'session': False}, {'name': 'loyal-user', 'value': '{%22date%22:%222020-12-09T03:30:39.649Z%22%2C%22isLoyal%22:false}', 'domain': 'www[.]victimdomain[.]com', 'path': '/', 'expires': 1639020639, 'size': 75, 'httpOnly': False, 'secure': False, 'session': False}, {'name': 'sgID', 'value': '7c91c0fb-ef46-1179-6b77-8902b5e47d3d', 'domain': '.victimdomain[.]com', 'path': '/', 'expires': 1633404639, 'size': 40, 'httpOnly': False, 'secure': False, 'session': False}, {'name': '_gat', 'value': '1', 'domain': '.victimdomain[.]com', 'path': '/', 'expires': 1607484699, 'size': 5, 'httpOnly': False, 'secure': False, 'session': False}, {'name': '_gcl_au', 'value': '1.1.873150682.1607484640', 'domain': '.victimdomain[.]com', 'path': '/', 'expires': 1615260639, 'size': 31, 'httpOnly': False, 'secure': False, 'session': False}, {'name': '.AspNetCore.Antiforgery.xd9Q-ZnrZJo', 'value': 'CfDJ8DiAP5IlIepIkIvxCJ8WaiuEPKZ_VCLKoEeMM4oMdGF0ng2XG3ZbRAZhcOmpzYh_wsvQsSpJ4YtTYR10HZSIz4yln3XQB3d123Gt8-USKh7HHVIuLhzcMzdbaJ09Uaz3TLZR2ZnU7XHpDdZjjYm6URc', 'domain': 'www[.]victimdomain[.]com', 'path': '/', 'expires': -1, 'size': 190, 'httpOnly': True, 'secure': False, 'session': True, 'sameSite': 'Strict'}, {'name': 'locale', 'value': 'en-us', 'domain': '.victimdomain[.]com', 'path': '/', 'expires': 1610076637.144251, 'size': 11, 'httpOnly': False, 'secure': False, 'session': False, 'sameSite': 'Lax'}]
Click to expand...

Ak1974 · Dec 9, 2020

bạn dùng thử Web Scraper xem. nó load web lên xong mới cào dữ liệu. phải treo máy hơi lâu à.

command · Dec 9, 2020

Ak1974 said: ↑

bạn dùng thử Web Scraper xem. nó load web lên xong mới cào dữ liệu. phải treo máy hơi lâu à.
Click to expand...

Thanks @Ak1974, nhưng sản phẩm webscraper ko hỗ trợ coder nhiều tính năng như ae ở trên cùng thảo luận á.

firefox · Dec 9, 2020

thitgaluoc said: ↑

có bạn ơi, gửi được mà
bạn gửi dạng dict kèm với request nhé
r = requests.get(ep, cookies=cookies, headers=headers)
Click to expand...

Cách của bác cái bang chuẩn hơn đấy bác, nó cover được việc server set lại cookie ở các hàm đại loại như login, logout...

--- Double Post Merged, Dec 9, 2020, Original Post Date: Dec 9, 2020 ---

command said: ↑

tại bước 5, CloudProxy trả về mảng chứa các dict của cookie bypass CF, và mình chưa biết dùng cái nào trong tham số trả về cookie của CloudProxy mà bạn @firefox đã giới thiệu ở trên.
Click to expand...

Làm vòng for rồi hết luôn bác, đỡ đau đầu. Cơ mà e thấy cái list đấy chưa có cookie của cf thì phải, nhiều quá nhìn ko rõ

xmenvn2510 · Dec 9, 2020

Lót dép hóng.

command · Dec 9, 2020

firefox said: ↑

Cách của bác cái bang chuẩn hơn đấy bác, nó cover được việc server set lại cookie ở các hàm đại loại như login, logout...

--- Double Post Merged, Dec 9, 2020, Original Post Date: Dec 9, 2020 ---

Làm vòng for rồi hết luôn bác, đỡ đau đầu. Cơ mà e thấy cái list đấy chưa có cookie của cf thì phải, nhiều quá nhìn ko rõ
Click to expand...

Mình ko hiểu sao CloudProxy trả về đóng cookies gồm mảng chứa 8 dict như trên, for trong trường hợp này ko được bạn, vì key ở 8 dict đó giống nhau mà.

Nhưng mà mình mò ra vụ khác, site mình muốn crawl có vẻ như CF lúc nào cũng check JS thì phải, nên dù có dùng cookie cũ cũng ko bypass được, tóm lại là phải hỗ trợ JS thì mới vượt qua và nó giới hạn số lượng truy cập. Đã thử nhiều proxies + JS thì bypass êm đẹp, kiểu này hơi hao proxies và căng chỉnh requests/s phù hợp với số lượng proxies.

Qua vụ này, mình nghĩ mình phải học NodeJS, vì lúc thì Python + NodeJS service thì sẽ làm chậm hơn tốc độ xử lý và thấy thư viện NodeJS rất phong phú cho scrape mà Python chưa hỗ trợ như Puppeteer chẳng hạn. Các bạn giới thiệu crawler framework nào của NodeJS êm êm với, mình lướt qua sơ bộ thì thấy có thư viện https://github.com/apify/apify-js có vẻ ngon, ngoài ra còn crawler framework nào khác tuyệt hơn ko các pác?

catd3vjl · Dec 10, 2020

python có thằng pyppeteer mà nhỉ? bác thử xem sao https://pypi.org/project/pyppeteer/

Tusupper · Dec 10, 2020

catd3vjl said: ↑

python có thằng pyppeteer mà nhỉ? bác thử xem sao https://pypi.org/project/pyppeteer/
Click to expand...

Cái này là ko chính thức bác ạ, với lại tác giả cũng tạm dừng lại rồi , ko còn phát triển nữa

thitgaluoc · Dec 11, 2020

Tusupper said: ↑

Cái này là ko chính thức bác ạ, với lại tác giả cũng tạm dừng lại rồi , ko còn phát triển nữa
Click to expand...

đâu nhỉ, vẫn active mà

command · Dec 11, 2020

thitgaluoc said: ↑

đâu nhỉ, vẫn active mà
View attachment 990
Click to expand...

Có thời gian tác giả github đó đã archived package này, có vẻ mới mở lại hay sao á, lúc trước mình đã thấy archived và ngay lúc @Tusupper nói mình cũng đã kiểm tra và đúng là lúc đó archived

thitgaluoc · Dec 11, 2020

command said: ↑

Có thời gian tác giả github đó đã archived package này, có vẻ mới mở lại hay sao á, lúc trước mình đã thấy archived và ngay lúc @Tusupper nói mình cũng đã kiểm tra và đúng là lúc đó archived
Click to expand...

cái này tác giả ban đầu (miyakogi) ngưng phát triển nên có ông khác nhảy vào phát triển tiếp mà
mà thôi k quan trọng, cái này xài cũng được nhưng k hỗ trợ đầy dủ các tính năng của puppetter

nguyenphongmmo2001 · Dec 19, 2020

Các bác cho e hỏi puppetter và selenium chrome headless khác nhau chỗ nào. puppetter có đỡ tốn RAM hơn ko?

sincos · Dec 20, 2020

2 cái đều là 2 thư viện điều khiển browser... Nhưng puppeteer mạnh mẽ hơn..... và cả 2 cái đều nặng ${beat_shot}$

firefox · Dec 20, 2020

nguyenphongmmo2001 said: ↑

Các bác cho e hỏi puppetter và selenium chrome headless khác nhau chỗ nào. puppetter có đỡ tốn RAM hơn ko?
Click to expand...

Đúng như bác xmen đã nói, cả 2 đều nặng, nhưng thằng puppetter trong vài trường hợp nó nhẹ hơn một chút. Và đặc biệt là nó có khá nhiều plugin hay cho ae cào, ví dụ như extra steath

Oreo · Aug 2, 2023

Cái bang said: ↑

Cái cookie của Cloudflare chỉ có tác dụng vượt qua captcha của nó trong vài phút. Cần phải get lại cookie mới. Một khi đã có cookie của cloudflare rồi thì không cần thiết phải delay 40-60s nữa. Cứ request vô tư cho đến khi thay cookie mới.
Click to expand...

làm cách nào để get cookie mới vậy bác. Mong bác chỉ giáo

manguyen1990 · Aug 8, 2023

Vote puppeteer, cũng không tốn RAM lắm đâu, nếu RAM ít chút thì setup thêm swap là được, đang dùng con vps $6 DO (1Gb RAM, 1 core CPU), ubuntu mở khoảng 5 page đồng thời chạy vẫn ok

Log in or Sign up

Lấy dữ liệu của site bảo vệ bởi CloudFlare

command Bang Chúng

Ak1974 Sơ Nhập Giang Hồ

command Bang Chúng

firefox Bang Chúng

xmenvn2510 Moderator + MiddleMan Staff Member

command Bang Chúng

catd3vjl Khách Qua Đường

Tusupper Tân Thủ Thôn

thitgaluoc Hương Chủ

command Bang Chúng

thitgaluoc Hương Chủ

nguyenphongmmo2001 Khách Qua Đường

sincos Bang Chúng

firefox Bang Chúng

Oreo Khách Qua Đường

manguyen1990 Khách Qua Đường

Log in or Sign up

Lấy dữ liệu của site bảo vệ bởi CloudFlare

command Bang Chúng

Ak1974 Sơ Nhập Giang Hồ

command Bang Chúng

firefox Bang Chúng

xmenvn2510 Moderator + MiddleMan Staff Member

command Bang Chúng

catd3vjl Khách Qua Đường

Tusupper Tân Thủ Thôn

thitgaluoc Hương Chủ

command Bang Chúng

thitgaluoc Hương Chủ

nguyenphongmmo2001 Khách Qua Đường

sincos Bang Chúng

firefox Bang Chúng

Oreo Khách Qua Đường

manguyen1990 Khách Qua Đường

Useful Searches