Xin chào các tiền bối, ngâm 4rum đã lâu, nay e mới mạn phép hỏi các tiền bối trên đây xin đừng chê cười e ạ. Thường các bác nhắm đến victim rồi craw luôn 1 cục rồi post luôn lên site hay craw cái nào up cái đó, e chỉ rành c# chứ php thì e hơi bị ngu, tiền bối nào đi ngang thông não e phát ạ, e cảm ơn ạ
Nếu data của victim liên tục update mới thì đâu thể cào 1 cục được. Vậy nên sẽ tùy site, ngoài ra thì có thể publish 1 cục hoặc publish từng phần tùy theo duyên của mỗi người.
Bác nai ơi, bác cho e hỏi, nếu site của victim update bài liên tục thì làm sao mình có thể craw chính xác những bài ng ta mới up nhỉ, nếu craw 1 cục thì nó lại bị trùng bài, bác có thể nào chia sẽ giúp e với được ko bác, e cảm ơn ạ
tùy site và loại backend của họ, nếu để ý có thể tìm được post id của bài đó và check, ví dụ như bài này có id là 3951, đại loại thế
Cảm ơn 2 bác nhé, bác cho e hỏi ví dụ mình có data 1tr post thì check ngược lại xem mấy bài vừa cào có trong đống data của mình ko là được đúng ko bác.
Cách mình làm giống bui cong.Chi tiết hơn thì nó kiểu Ví dụ khi crawl site abc.com ta lưu thông tin vào bảng tbl_crawl của mysql với các cột url của abc.com content nội dung trong url đó identifier varchar(32) là md5 của url,đặt cột này là unique Mỗi khi crawl một url mới thì mã hóa url mới thành md5 rồi kiểm tra trùng với cột identifier.Nếu trùng thì bỏ qua chưa thì tiếp tục crawl,việc dùng md5 và unique sẽ giúp bạn check nhanh hơn.Lý do không đặt url nếu url ngắn chỉ tầm 191 ký tự thì được nhưng nhiều khi url rất dài vì vậy tạo thêm cột idenfier là tốt nhất