Cách lấy từ khóa của các chữ tượng hình ( none-latin ) ?!

Discussion in 'Thảo Luận Chung' started by thangvbvb25, Apr 16, 2022.

  1. firefox

    firefox Bang Chúng

    con hàng này nuôi tốn 450x5=2250k/năm, mỗi ngày chắc được tầm 1.3-1.5tr request lên G nè ae, hồi trước build để lách mấy case cào cực khó mà thấy nó cào cũng tạm nên tận dụng xài luôn. Ưu điểm là rẻ và tỷ lệ pass các thể loại antibot cực cao, yếu điểm là chi phí ban đầu lớn, tốc độ như con rùa lại còn bị ảnh hưởng bởi babyshark cắn cáp


    [​IMG] upload_2022-4-18_19-7-42.png
     
    Dang and money like this.
  2. money

    money Hương Chủ

    @firefox vậy cũng rẻ mà em

    Mà 2250K/năm là đã max khả năng của nó chưa em? Nếu max rồi thì cũng ko hẳn là rẻ :D
     
  3. firefox

    firefox Bang Chúng

    em ưa cào bằng lumi hơn, bộ này em cào nghịch test khả năng thôi anh, chưa max, chủ yếu em cheat mấy cái khác ^^
     
    Last edited: Apr 18, 2022
  4. thitgaluoc

    thitgaluoc Hương Chủ

    nghe hợp ný đấy anh, nhưng Big Four thì dùng phương pháp loại trừ em ra được mỗi F, câu đố này khó vãi :D
    --- Double Post Merged, Apr 18, 2022, Original Post Date: Apr 18, 2022 ---
    đếm sơ sơ thì delay có 3s thôi à bác? PRO!
     
  5. money

    money Hương Chủ

    Delay 3s thì 1 ngày được ít request lắm em.

    @firefox nói dc 1.3-1.5M requests/day thì phải đạt tốc độ 15-17 requests trong 1s. Tức là mỗi con đó phải chạy được ít nhất 3 requests trong 1s. Với 4G ổn định thì may ra. Chưa kể request liên tục với tần suất như vậy có lẽ chỉ được vài phút là phải đổi IP vì G nó block.
     
    firefox likes this.
  6. thangvbvb25

    thangvbvb25 Sơ Nhập Giang Hồ

    Em cào google suggestions với các web khác thôi, trước em có kiếm được vài bên cấp vpn cào gg search con nghẻ lắm nhưng chả hiểu sao được 1 thời gian là ăn block hết :V
     
    money likes this.
  7. money

    money Hương Chủ

    Uh em, G suggestions thì không khó. Anh em đang chuyển đề tài sang cào G Search Result. Vài triệu requests/ngày lấy kết quả search với chi phí rẻ cũng khoai lắm.
     
  8. firefox

    firefox Bang Chúng

    em chưa thử nhưng đoán là hãng M hoặc C, vì hãng M sở hữu site G siêu to khổng lồ, nếu dùng IP từ 4g auto tạo acc G một cách khéo khéo tránh bị ban thì theo lý thuyết sẽ số một số lượng proxy rất khủng. Hãng C thì vài ae đề cập rồi, bác nào nhiều domain thì sẽ có nhiều thú vui tao nhã với nó.

    trong hình đang là 18 request/giây á anh, đứt cáp nên nó chậm hơn xíu. Đẩy request kiểu burst cục súc như em thế này thì tầm 1p là GoogleSearch nó ban IP. Ở Tân Bình, nếu xài sim viettel sẽ mất khoảng 2-3s để có IP lớp B mới, nhà mạng khác request nhanh hơn nhưng sẽ tốn nhiều thời gian để đổi IP hơn, cũng dễ trùng lớp C.
    ở phần request thì em thiết kế có 1 chút bài vở, để UA = mobile, gzip các thứ để gói tin nhỏ hơn từ đó request được nhanh hơn, thấy captcha là đánh dấu cái dcom đó không request nữa và đổi ip ngay, không dùng schedule. Nhìn chung thì nó khá là toán học do cái lumi em dùng nó tính theo lưu lượng nên phải tiết kiệm tối đa
     
    Last edited: Apr 19, 2022
    Tony Vu, Nai, Dang and 2 others like this.
  9. Nai

    Nai MiddleMan Staff Member

    Mấy đại ca cào Gồ ghê quá :D. Giã phành phạch thế này thì bé bé như em vào Gồ hèn gì ko thèm đếm xỉa :v
     
  10. thitgaluoc

    thitgaluoc Hương Chủ

    hãng C em thử rồi, không cào G được :D

    cách dễ nhất là em mở puppeteer, login vào acc G lấy trust, lấy cookie rồi chèn vào request, 5 request cục súc xong delay 10 secs rồi tiếp tục. Mỗi IP được khoảng 5 sessions.
    hơi cồng kềnh nhưng an toàn :D
     
    firefox likes this.
  11. money

    money Hương Chủ

    @thangvbvb25 thêm hl=ko vào ổn không em? Thông báo cho anh em biết với.

    Mấy ngôn ngữ kiểu này anh chưa crawl nhiều nên cũng muốn biết kết quả để sau này có đụng đến đỡ mất thời gian.
     
    thangvbvb25 likes this.
  12. thangvbvb25

    thangvbvb25 Sơ Nhập Giang Hồ

    upload_2022-4-19_14-47-46.png

    Vẫn pha tạp lắm anh ạ, mặc dù em đã cho "hl=ja" với set prefix và suffix cho từ khóa là bảng chữ cái tiếng nhật vẫn bị trả về tiếng latin, anh gồ ảo ma canada quá
    Test thử với hàn nhật và hindi thì vẫn vậy {oh}{oh}{oh}
     
  13. firefox

    firefox Bang Chúng

    như từ khóa ở trên kia có thể thay bằng cái này không bác
    Code:
    http://suggestqueries.google.com/complete/search?output=chrome&client=chrome&q=映画&uule=w+CAIQICIFSmFwYW4&gl=jp&hl=ja
     
    thangvbvb25 likes this.
  14. thitgaluoc

    thitgaluoc Hương Chủ

    các keyword trên giống như kiểu "xem phim lamb 2021 online" hoặc "cách vào dood.la không quảng cáo" thôi, lẫn latin và non latin là chuyện bt
     
    thangvbvb25 likes this.
  15. thangvbvb25

    thangvbvb25 Sơ Nhập Giang Hồ

    Em thay thử thấy vẫn pha tạp, không được japan nguyên chất {cheers}

    Vậy chắc phải lọc từ khóa như anh money gợi ý ạ ?! Chủ yếu em muốn thuần tiếng nhật để tý mình crawl theo từ khóa nó không bị pha tạp tiếng latin vào web
     
  16. Tạ hơi nặng

    Tạ hơi nặng Bang Chúng

    Miễn có nghĩa là được chứ bác
     
  17. money

    money Hương Chủ

    Nếu muốn vậy thì khi crawl SERP em lại thêm parameter chỉ định language vào ( hl= )
    --- Double Post Merged, Apr 19, 2022, Original Post Date: Apr 19, 2022 ---
    Còn muốn keyword thuần non-latin thì code như anh đã nói.

    Hoặc code kiểu: duyệt từng char, nếu có char nào là latin thì loại.