Gà xin hỏi về autoblog, mong các tiền bối chỉ giáo

Discussion in 'AutoBlog' started by Ducvu, Oct 16, 2021.

Tags:
  1. Ducvu

    Ducvu Tân Thủ Thôn

    Xin chào các tiền bối, ngâm 4rum đã lâu, nay e mới mạn phép hỏi các tiền bối trên đây xin đừng chê cười e ạ.
    Thường các bác nhắm đến victim rồi craw luôn 1 cục rồi post luôn lên site hay craw cái nào up cái đó, e chỉ rành c# chứ php thì e hơi bị ngu, tiền bối nào đi ngang thông não e phát ạ, e cảm ơn ạ
     
  2. Nai

    Nai MiddleMan Staff Member

    Nếu data của victim liên tục update mới thì đâu thể cào 1 cục được. Vậy nên sẽ tùy site, ngoài ra thì có thể publish 1 cục hoặc publish từng phần tùy theo duyên của mỗi người.
     
    Ducvu likes this.
  3. Ducvu

    Ducvu Tân Thủ Thôn

    Cảm ơn bác nai nhiều nhé
     
  4. Tạ hơi nặng

    Tạ hơi nặng Bang Chúng

    cứ làm site xong ném url lên đây sai đâu các bác ấy chỉ cho {beauty}
     
    Ducvu likes this.
  5. Ducvu

    Ducvu Tân Thủ Thôn

    Bác nai ơi, bác cho e hỏi, nếu site của victim update bài liên tục thì làm sao mình có thể craw chính xác những bài ng ta mới up nhỉ, nếu craw 1 cục thì nó lại bị trùng bài, bác có thể nào chia sẽ giúp e với được ko bác, e cảm ơn ạ
     
  6. firefox

    firefox Bang Chúng

    tùy site và loại backend của họ, nếu để ý có thể tìm được post id của bài đó và check, ví dụ như bài này có id là 3951, đại loại thế
     
    Ducvu likes this.
  7. Ducvu

    Ducvu Tân Thủ Thôn

    Cảm ơn 2 bác nhé, bác cho e hỏi ví dụ mình có data 1tr post thì check ngược lại xem mấy bài vừa cào có trong đống data của mình ko là được đúng ko bác.
     
  8. wpresources

    wpresources Bang Chúng

    Cách mình làm giống bui cong.Chi tiết hơn thì nó kiểu
    Ví dụ khi crawl site abc.com ta lưu thông tin vào bảng tbl_crawl của mysql với các cột
    url của abc.com
    content nội dung trong url đó
    identifier varchar(32) là md5 của url,đặt cột này là unique
    Mỗi khi crawl một url mới thì mã hóa url mới thành md5 rồi kiểm tra trùng với cột identifier.Nếu trùng thì bỏ qua chưa thì tiếp tục crawl,việc dùng md5 và unique sẽ giúp bạn check nhanh hơn.Lý do không đặt url nếu url ngắn chỉ tầm 191 ký tự thì được nhưng nhiều khi url rất dài vì vậy tạo thêm cột idenfier là tốt nhất
     
    Tony Vu, Nai, Ducvu and 1 other person like this.
  9. Ducvu

    Ducvu Tân Thủ Thôn

    Cảm ơn bạn bạn nhiều nhé, chân thành cảm ơn