[hỏi] Nên chọn chromedriver và chrome phiên bản nào để chạy selenium

Discussion in 'Thảo Luận Chung' started by karu88, Sep 5, 2019.

  1. karu88

    karu88 Tân Thủ Thôn

    Em đang học làm auto bằng selenium. Em đang xài chromedriver và chrome phiên bản mới nhất. Mà thấy nó chậm với tốn tài nguyên quá.
    Bác nào rành tư vấn giúp em là nên xài version nào để chạy nhẹ, ổn định với.
    Với cả làm cách nào để fake giống người nhất. ví dụ http header, UA, click random....
    Em cảm ơn trước
     
  2. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    puppeteer thử thằng nầy xem sao nhé thím
     
    Vito_King likes this.
  3. karu88

    karu88 Tân Thủ Thôn

    cảm ơn bác
     
  4. Trần Trọng Bách

    Trần Trọng Bách Sơ Nhập Giang Hồ

    Puppeteer thì hiệu năng ngon hơn. Còn không thì bạn xem đã để headless chrome chưa?
     
    Vito_King likes this.
  5. Dung Vuong

    Dung Vuong Sơ Nhập Giang Hồ

    Thằng Puppeteer so với Imacros thì thằng nào hiệu năng hơn các bác. E chạy thấy Imacros chạy lâu cũng chậm vãi luôn. Nó tốn Ram quá
     
  6. Trần Trọng Bách

    Trần Trọng Bách Sơ Nhập Giang Hồ

    Chắc Puppeteer thôi, thằng này hiện tại là nhanh nhất rồi, nó chạy k cần bật trình duyệt thì sẽ nhẹ hơn các dạng imacros.
     
    Vito_King likes this.
  7. sincos

    sincos Bang Chúng

    Curl nhé.
     
  8. karu88

    karu88 Tân Thủ Thôn

    mình đang chạy selenium headless chrome driver. chạy 80 thread trên con vps 4 core, 8G ram mà hay bị scrash quá. Muốn kiếm cái nhẹ để chạy được nhiều thread hơn
     
  9. money

    money Hương Chủ

    Mấy pé crawl cái gì mà phức tạp vậy? Laptop anh chạy 100 thread để crawl google với 10 proxies trên 1 line internet Viettel. Chưa bao giờ lăn tăn.
     
  10. karu88

    karu88 Tân Thủ Thôn

    em làm auto view chứ ko phải craw. làm click chuột, lăn lên lăn xuống các kiểu. Đang xài selenium chromedriver mà thấy nặng quá.
     
    Tony Vu, Vito_King and money like this.
  11. grayhatvn

    grayhatvn Bang Chúng

    nếu auto boot cần hits đc rồi, cheat mới cần thao tác thôi, dùng selenium cẩn thận bị tràn HDD đó
     
  12. money

    money Hương Chủ

    À hiểu rồi.
     
  13. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Làm để fake cho nó giống thật hơn hở thím?
     
  14. sincos

    sincos Bang Chúng

    Webdrive giờ có lib chặn phát 1.
     
  15. karu88

    karu88 Tân Thủ Thôn

    đúng rồi bác
     
  16. karu88

    karu88 Tân Thủ Thôn

    là sao vậy bác
     
  17. grayhatvn

    grayhatvn Bang Chúng

    1. phải hiểu dc bản chất muốn bơm site thì cần thông tin gì, đừng làm mò mà mất time, làm như thật làm này kia.. làm ai xem, làm cho hệ thống nào tracking..
     
  18. Tuan

    Tuan Tân Thủ Thôn

    Mình có vài app với selenium, hồi đầu cũng hay bị đơ và khi crash tạo ra rất lắm rác tràn cả ổ cứng. Sau này hết. Điểm cơ bản là theo mình bạn không nên dựa hẳn vào selenium để lấy thông tin, ví dụ nếu bạn viết code kiểu var elements = seleniumDoc.Elements là sẽ đơ, khả năng là selenium sẽ load toàn bộ elements vào bộ nhớ. Thay vào đó theo mình bạn nên dùng kết hợp với một API phân tích html nào đó khi cần lấy thông tin, ví dụ với .net có thể dùng htmlAgilityPack. Như vậy khi cần lấy thông tin của một element nào đó trước hết bạn lấy html source từ selenium, sau đó load vào htmldocument của htmlAgilityPack và từ đó tách thông tin. Chỉ khi nào bạn cần thao tác của browser, thí dụ click một thành phần nào đó thì bạn mới dùng selenium cùng với một selector nào đó - mình hay dùng XPath, để click đúng thành phần đó. Mình thử theo phương pháp này và thấy chạy hiệu năng nói chung là ổn, nhưng mình chỉ test trên 1 thread duy nhất.
    Tuy nhiên việc ngụy tạo selenium thành người dùng thì theo mình ko khả thi đâu, nó giống như đuổi theo bóng ma vậy :)
     
  19. karu88

    karu88 Tân Thủ Thôn

    Cảm ơn bác, để em làm thử theo cách của bác xem ok hơn ko
     
  20. Vito_King

    Vito_King Sơ Nhập Giang Hồ

    Cảm ơn thím, bài viết chất