Làm cách nào để chặn nó đây ae Đầu tiên mình nghĩ là nó revesre proxy web mình, mình đặt chuyển hướng ở head vào check head web nó thì đoạn script này hiển thị https://domaincuano nên không bị chuyển hướng Tiếp đó tôi vào tắt thử sever đi thì vào web nó vẫn hoạt động, chính tỏ web đó có srouce web và cả data bài viết của mình, không phải do lộ ip sv đúng không ae mình đăng cái gì nó web nó hiện cái đó gần như là realtime theo ae mình bị lộ ip sv hay là do nó api coppy y hệt vậy mục đích của nó là tạo ra trang trùng lặp với trang của mình để mình k lên top được có 1 chi tiết là mình bật I'm Under Attack! ở CF thì web nó bị down khoảng 1 2p rồi lại vào bthuong mình đang không biết nó đang coppy của mình hay trỏ về ip sv của mình vì mình sửa code như nào là web nó như thế, có file robotstxt mình sửa thì check web nó k bị sửa giống mình mong cao nhân giúp đỡ, mình search web nó lên google thì đã được index và traffic mình đang bị giảm (
ở site của bác, viết 1 hàm check ip / useragent / ssl gì đó cố tìm điểm chung của các request từ user. xong bác vào site nó, request đến đúng user có cài log xem có gì manh mối không nếu lọc được đúng các request đến từ site nó, thì bác viết lại code, return ra ảnh Tailor swift khỏa thân, rồi spam các kiểu trêu nó chơi :v
e thử tải 1 file r request trên size của nó, log trả về vẫn là domain của mình chứ k phải domain của nó, theo bác là nó đang dùng cách nào lạ 1 cái là e sửa file web với cache thì y hết web em, khi nào e thay đổi xóa cache web nó cũng thay đổi realtime nhưng cái file robottxt e sửa thì web nó không bị đổi, nên e k hiểu nó dùng cách gì mà làm được vậy
thì proxy nào cũng có chức năng rewrite mà, tùy nó viết cái rule thôi, rewrite lại domain và mấy cái analytic id là việc đơn giản nhất, là thứ đầu tiên nó làm khi proxy web của bác. ví dụ nó viết lấy mấy bài trong mục domain.com/blog/* chẳng hạn Giờ quan trọng là bác xem log thấy nó đến từ IP nào, nguồn nào, điểm chung là gì. Sau đó mới kiếm cách block hoặc trêu đùa lại được.
đã mò ra ip nhưng khi chặn ip thì nó tự động đổi ip khác whois tất cả ip thì đều ra nhà cung cấp này, có cách nào chặn không bác https://www.whois.com/whois/185.162.11.230
Bỏ lâu quá cũng quên! Đợt trước mình cũng bị 1 mớ link tào lao nó trỏ về web cùi của mình, kiểm tra thì nó cũng clone 1-1. Mình thêm 2 dòng bên dưới vào .htaccess (thay domain\.name thành tên miền của thread, sau RewriteEngine On): Code: RewriteCond %{SERVER_NAME} !^(www\.)?domain\.name$ RewriteRule ^ - [F] Không biết có giúp được thread không, nhưng cách này đối với mình nó hiệu quả!
không ăn thua bác à. có 1 chi tiết là mình dùng sv openlitespeed, mình tắt sv này đi mà web nó vẫn hoạt động thế mới tài cache browser khi tắt sv đi nó có hoạt động k vậy ạ, web mình thì down web nó vẫn hoạt động, giỏi thật
theo mình liên quan đến vấn này, thì nhất phải cho mọi người biết site nó như thế nào để dùng nhiều phương tiện, coi phương thức nó hoạt động, biết đâu có cao nhân giúp được bạn, nói phong long kiểu này muốn giúp cũng khó,
bác cũng bị à ) như bác ở trên họ có trình rewrite reverse thì không có cách nào họ dung cả proxy CF nữa thì thua luôn, phải sống chung với lũ thôi
rảnh rỗi lướt ngang giờ đọc kỹ thì bạn đang bị cũng giống như mình đang clone của 1 site victim , site victim lên bài thì bên mình cũng lên bài tương tự readline luôn, nhưng mà code mình không clone căn cứ vào dữ liệu bài viết victim mình clear lại một số thứ như hình ảnh, title, content thì có fix chút, nên mình nghĩ ngoại trừ chặn crawler thông qua nhiều giải pháp, hiện tại mình đang chặn crawler bằng phương thức xác minh người dùng thật và người dùng thật đó có hành động không phải spam mới cho hiển thị content... bạn thử xem coi còn bị không, vì dựng 1 hệ thống crawler readline thì đa phần request ngầm thông qua gì gì đó... còn khi website có code chặn crawler thì đỡ hơn, chặn bằng phương pháp chặn IP xưa rồi, thử cách chặn bằng cách xác minh nó là người dùng thật thử, còn đối phương vẫn dùng cách người dùng thật đi vào crawler thì hết cách, hiện tại đối phương bị mình crawler readline mình vẫn đi vào lấy bài với phương thức người dùng thật nên họ cũng vô phương với mình, nhưng mình không clone 100%
mình bị như kiểu bị reverse ấy, clone bác cho hỏi nếu bác clone web khác code bác có sửa realtime không , như mình thêm code direct vào head hoặc body, thì web của họ cũng có realtime luôn, nhưng link direct lại là domain của họ mình sửa cái gì bên web đó cũng realtime, quảng cáo họ cũng để là của mình có duy nhất cái file robot.txt nội dung khác nhau, thế mới tài
cách mình làm tuy là readline nhưng mà không clone nguyên bản, ví dụ họ đang chạy site với scoure A còn mình chạy site với scoure B không cần thiết y chang họ, chỉ là mình có cách xử lý lại dữ liệu readline (nói là readline chứ bài đăng sau họ 1 phut, nhưng mẹo của mình là trong bài viết mình update lại bài viết thì thời gian đăng bài lại mới hơn họ, kiểu vậy), còn bạn bị kiểu ads này nọ thì mình không rõ bạn thử check lại mysql bạn thử, nó nhúng virus vào trong đó rồi, trước đây mình bị rồi, sau khi log và check mày mò, nó nhét vào trong mysql
Đây là skill mình từng làm nhiều cho các site auto. Nhưng chỉ auto data, realtime data từ source site thôi chứ ko clone cả design. Mình cũng từng chống đối thủ sử dụng chiêu này đối với mình. Vào CF chặn theo cái này nếu nó chỉ rotate IP từ 1 nhà cung cấp. CF cho cấu hình chặn theo AS đấy -- origin: AS207728 Trước đây mình còn gặp 1 đối thủ nó dùng rất rất nhiều IP từ nhiều nhà cung cấp (có thể dùng dịch vụ proxy ở đâu đó). Bạn tạo 1 trang dynamic log lại IP của request..... rồi dùng API của CF bắn chặn hoặc trả lại shit content. Nhớ trang này ngụy trang cẩn thận để không bị nó tìm thấy. Kỹ thuật dạng này gọi là webproxy phiên bản nâng cao. Use vào web nó ==> Code nó chạy tới lấy content ở site bạn => Về remove, replace content => Cache lại ==> User khác vào trang đó => nếu ko lấy được từ site bạn do chặn hoặc gì đó thì nó sẽ show cache => Không thì nó refresh data nếu lấy thành công.