E có 1 vấn đề là ngoại trừ content họ đã post thì khi họ post bài viết mới làm sao mình xác định được bằng php các bác nhỉ. Hiện tại e dùng html dom parser để lấy content của họ, có trường ngày tháng nhưng định dạng nó khác với kiểu DATE trong mysql, nếu muốn so sánh ngày tháng để lấy post mới thì phải có bước chuyển ngày tháng của post mới theo định dạng của databse mình, rồi so sánh nếu ngày post của họ lớn hơn thì mới lấy. Còn cách nào tối ưu hơn ko các bác nhỉ.
Thím có thể lấy cái danh sách mới nhất title bài viết của nó xong so sánh trong db của mình. Qui cả 2 ra md5 xong so củng dc
Theo mình thay vì cố so sánh thời gian,trang bạn sắp xếp theo ngày thì nên làm kiểu sau +Thêm trường md5 cho url để tiện check trùng +Khi đọc từ trang crawl bắt đầu nếu url đã tồn tại thì dừng chương trình lại. Đợi đến thời gian cần crawl lần sau,như vậy bạn sẽ lấy được bài viết mới nhất
Với trang ko có id post thì e lấy url rồi chuyển thành md5 như bác @Hoa Mãn Lâu rồi ạ. Cảm ơn các bác