Sẵn bác @Nai bàn chuyện dung lượng lớn , cho hỏi thăm thêm cách chơi data lớn luôn nha bác : 1.Nền tảng Wordpress co cho phép post lên tới vài triệu post/page không ? Nếu câu trả lời là không chắc mình giải nghệ luôn vì biết mỗi thằng này , hic hic . 2.VPS cùi cùi tầm 10$/tháng thì chứa tầm mấy site dạng 1M post ? Có khả năng bị sập không bác ? 3.WP all import : thằng này cho phép mình import lên VPS cùi 10$ thì tối đa nên bao nhiêu record/ file hay tống hết 1M record/file luôn ? 4. Bác crawl data về để dưới dạng CSV / JSON hay excel ? mà dung lượng như thế chắc phải split nó ra thành nhiều file mới import được hết chứ ? Rất mong nghe cao kiến chứ newbie như mình mò mẫm lâu lắm .
1. Được. 2. Mấy site tùy thuộc vào config và data như thế nào. Vì data có thể dùng cho cho hàng tỉ site. 3. Tùy theo con server. $10 thì chắc đợi hơn chục ngày mới xong. 4. Hồi xưa là txt, xlsx. Giờ là mysql.
2. à, hình như bắt đầu thông tí tí cái vụ database dùng chung ,kaka, có vẻ hợp lý , nếu thế thì khỏe rồi . 3. Tèo , nhà em nghèo mà không chơi sang được , có giải pháp nào thay thế không bác . 4. Nếu chơi SQL thì phải import trực tiếp vào rồi , cách này phải tìm hiểu tiếp , cảm ơn bác nhiều.
scrapy chơi được, nhưng bác cần lấy info của 50k bài thì bác phải có url rồi chứ nhỉ, đằng này bác lại lấy cả url??? scrapy nó xuất ra json hoặc csv nhé, ưu tiên csv vì csv nhẹ và ngon hơn )
Bon chen cho e hỏi ngu xíu ạ 1. Sao mọi người ko code grab để đỡ phải mất công lưu lại rồi lại import? Thay vào đó sẽ có cả trang clone luôn? Hay tại clone nó dễ bị sandbox/die ạ?
Bác thử clone Google thử xem. Lấy dữ liệu trực tiếp thì cũng có ưu và nhược điểm. Trường hợp web nguồn sập thì mình sập theo. Hoặc đơn giản là nó đột ngột chặn thì hay update liên tục code thì mình cũng phải update theo nó nữa. Có khá nhiều cái bất tiện nhưng bên cạnh đó thì ưu điểm là dữ liệu cập nhật realtime nên rất là tốt cho web