[Hỏi] Crawl và bị chặn bởi javascript

Discussion in 'Linux - PHP - Python - C# - Java' started by levis012, Jun 5, 2018.

  1. levis012

    levis012 Sơ Nhập Giang Hồ

    MÌnh đang crawl và bị chặn bởi javascript, nó set cookie để đi tiếp/
    Code như dưới, bác nào xem hộ với.
    https://pastebin.com/7VrX4pVQ
     
  2. Nai

    Nai MiddleMan Staff Member

    Nhìn vào không hiểu gì hết.
    Đặt gách hóng cao nhân giải thích
     
  3. Joctvn

    Joctvn Tân Thủ Thôn

    Lót dép vì ko biết viết code như vậy :((
     
  4. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Xài selenium để craw dc hem, chấp mọi thể loại cookies, Quăng site lên đây ae xem thử xem
     
  5. console

    console Bang Chúng

  6. Victor nguyen

    Victor nguyen Khách Qua Đường

    Chắc vấn đề của em tương tự với chủ để này.
    Ví dụ Link: https:// www(.) muathuoc(.) vn/ collections/ all
    Các page của nó toàn chơi theo dạng Javascript, mà hình như java bị lỗi hay sao ý, nên khi click vào các page nó không ra link của page đó mà vẫn ở lại trang đầu tiên.
    Vậy, có cách nào để em xem được các page link của trang này không các bác?
     
  7. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    https://www.muathuoc.vn/search?q=&view=grid_and_control&page=1 Dùng link nầy để lấy info thím nhé thay số 1 bằng số page thím muốn lấy. Đưa site lên vầy ae dễ xử hơn nhiều hem nà {big_smile}{big_smile}{big_smile}
     
  8. vipkhongtin

    vipkhongtin Sơ Nhập Giang Hồ

    Cao thủ :D
    Còn e toàn viết 1 trang trung gian cho gọn rồi dùng scrapes lấy về wp.
    Hơi rườm rà nhưng kqua thì ok với cái mình cần lấy :)
     
    Victor nguyen likes this.
  9. Victor nguyen

    Victor nguyen Khách Qua Đường

  10. levis012

    levis012 Sơ Nhập Giang Hồ

    Tốc độ như thế nào thím, em đang làm site crawl trực tiếp từ site chủ về site minhf, ko lưu vào db. Mỗi lần vào thì crawl 1 lần. Cho nên tốc độ cũng khá là quan trọng.
     
  11. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Tốc độ nếu xài selenium thì đúng là ko dc nhanh rồi, Thím quăng site lên ae xem thử có cách nào khác hem
     
  12. console

    console Bang Chúng

    Selenium voi cai github minh send kia xu ly dc het ma
     
  13. Nam

    Nam Sơ Nhập Giang Hồ

  14. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Thử áp cái cookies vô rồi truy cập xem thím
     
    Nam likes this.
  15. Nam

    Nam Sơ Nhập Giang Hồ

    mỗi Cookie được có vài tiếng là hư. Mà muốn sinh ra cookie đó phải qua bài chặn lại, kiểm tra = js rồi mới cho vô :((
     
  16. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Dùng phantomjs để gen lấy cookies xong xuất ra cho bên craw xài. Củng là 1 hướng đi đó thím. Vài tiếng gen 1 lần thì tốc độ củng ko tệ đâu
     
    Vito_King and Nam like this.
  17. levis012

    levis012 Sơ Nhập Giang Hồ

    phantomjs cũng không gen đc luôn.
    thím có thấy đoạn

    1. if (typeof phantom !== 'undefined') return 'phantom';
    2. if (typeof module !== 'undefined' && module.exports) return 'node';
    site hơi bẩn bựa nên em không đưa lên đây được.
     
  18. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Vậy xài selenium headless i thím, củng y như phantomjs ^^ hoặc xài phantomjs mà chỉnh header lại thành cái khác
     
    Vito_King, Nam and levis012 like this.
  19. levis012

    levis012 Sơ Nhập Giang Hồ

    Để em nghiên cứu thử xem. =))
    Nhân tiện có cách nào realtime spin content mà ko high cpu ko thím.
    Em đang có site clone, get thẳng từ thẳng chủ về mà ko lưu vào db. Site chạy 2 năm mà lẹt đẹt lắm. Online tầm 200 người 1 lúc thôi. Ko ăn thua. Khả năng do có gì đó chưa đúng.
     
  20. Nai

    Nai MiddleMan Staff Member

    200 1 lúc mà lẹt đẹt =.=. 1 ngày bao nhiêu người.