Hỏi về Curl để làm site auto

Discussion in 'Linux - PHP - Python - C# - Java' started by Nai, Aug 8, 2017.

Tags:
  1. Nai

    Nai MiddleMan Staff Member

    Chào mọi người!
    Mình đang học Curl để tập tành làm site không cần database. Nhưng có xem hướng dẫn trên freetuts thì thấy không có mảng nào là curl từng phần của web cả.

    Nên thắc mắc mà em đặt ra là? Nếu em muốn làm site truyện từ curl thì có phải là curl nguyên cái source của nó về rồi sau đó học html dom để bóc tách ra reg để bóc tách ạ.

    Hóng cao CULR nhân @nguagovt
     
  2. console

    console Bang Chúng

    Ý kiến cá nhân là không nên làm site truyện kiểu này vì load chậm lắm. Tốt nhất nên crawl hết cả nó về lưu database. Giờ SSD cũng rẻ mà. Hết!
     
    Nai likes this.
  3. Nai

    Nai MiddleMan Staff Member

    Vậy muốn Curl lưu vào database thì phải học gì để làm được đây cụ. Đó giờ em toàn dùng tool nên chỉ làm site lần đầu, khi có dữ liệu mới phải xác định ID này nọ bla blla rất cực và mất thời gian nên muốn học cái gì đó cho nó auto hoàn toàn.
     
  4. Luxifer

    Luxifer Sơ Nhập Giang Hồ

    Đọc không hiểu bạn đang nói mấy khái niệm CURL, từng phân, reg ở đây là gì. Đã có target rồi thì cần gì thì lấy đấy thôi, sao phải đi hỏi từng phần hay toàn phần?.
    Mỗi request từ user bạn tạo 1 request tương ứng map tới target, lấy html, lọc, trộn, xào nấu rồi đưa ra output cho user bên bạn. Làm kiểu này nếu visit cao hoặc thằng target chậm thì bạn có thể làm thêm caching.
     
    Nai likes this.
  5. Nai

    Nai MiddleMan Staff Member

    Ý mình ở đây là mình đang tìm hiểu Curl để làm, nhưng thấy nó chỉ lấy cái source về thôi. Nhưng chẳng hạn mình muốn lấy cái content, cái hình của bài viết hay trang danh mục thì mình phải học riêng cái gì để bóc tách (sử dụng php luôn) hay là curl nó có cái thư viện nào đó hỗ trợ mình bóc tách luôn.
     
  6. console

    console Bang Chúng

    Học STFW trước. Hết
     
    Nai likes this.
  7. Luxifer

    Luxifer Sơ Nhập Giang Hồ

    Bạn đã học qua 1 ngôn ngữ lập trình nào chưa? Nếu chưa thì nên bắt đầu với 1 ngôn ngữ dễ học, PHP hay Python, đều có thể làm được chuyện này. Python thì viết nhanh và nhiều thư viện như scrapy, beautifulsoup.
     
    Nai likes this.
  8. Nai

    Nai MiddleMan Staff Member

    Search thì nó ra chi tiết từng con đường, nhưng em lập topic này để hỏi xem đi đường nào ấy ạ.
    Mong bác tỏ lòng từ bi chỉ giúp em với
     
  9. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Theo ý kiến cá nhân của mình là curl cái trang truyện để lấy cho dc cái khúc nó chứa các image ảnh thôi. Xong embed thẳng image ảnh đó về site mình luôn. Đỡ tốn công upload lên. Nên cách thím nói là đúng hướng rồi đó
     
    Nai likes this.
  10. Nai

    Nai MiddleMan Staff Member

    Hiz, Admin ơi, ý em là muốn lấy được cái khúc đó để embed hoặc là list url image thì em có thể dùng những thằng nào trong các thằng sau đây mà em biết hoặc những ai khác biết ấy ạ
    1. DOM
    2. Regular Express
    3. Hóng bổ sung
    Thank Admin đã hiểu
     
  11. console

    console Bang Chúng

    Theo mình thì bác này chưa hiểu mấy cái này là gì. Mình khuyên thật là học 1 ngôn ngữ nào đó đi. Rồi hãy nghĩ web crawl. Giờ có nói thêm bác này cũng không hiểu được nhiều mà lại hỏi lung tung nữa. Còn không thì xài tool như mấy pro khác vẫn đang xài hoặc thuê người code nếu tư duy tốt. Hết
     
  12. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Cá nhân mình thì xài Regular Express {haha}. Nó tùy biến dc tốt. Thím có thể ngâm em nó. DOM củng là 1 lưa chọn không tồi đâu. Đôi khi RE em ko lấy dc phải chuyển qua DOM nhưng chỉ ở khoảng 1% thôi {pudency}. Biết dc hết cả 2 thì vẫn là tốt nhất. Thím biết lập trình gì chưa? {doubt}
     
    Nai likes this.
  13. Phan Thị

    Phan Thị Bang Chúng

  14. Nai

    Nai MiddleMan Staff Member

    EM chỉ biết lập website bằng wordpress có sẵn source (download từ internet về thôi cụ ạ)
     
  15. fixbug

    fixbug Moderator Staff Member

    Lưu data về file cũng đc, ko cần db, còn curl ko thì nằm xuống thôi :D
     
  16. Phan Thị

    Phan Thị Bang Chúng

    ko biết thì học đi, mấy dòng code là add dc vào database thôi mà
     
  17. Nai

    Nai MiddleMan Staff Member

    Cái này là DOM để bóc tách dữ liệu trong PHP mà thiên hạ vẫn đồn phải ko cụ.
    Mà cụ bảo biết CURL nữa càng tốt tức là CURL cũng bóc tách được ạ.
     
  18. Nai

    Nai MiddleMan Staff Member

    Nằm là sao ạ?
     
  19. Phan Thị

    Phan Thị Bang Chúng

    curl + regular expression là bóc dc hết
     
    Nai likes this.
  20. fixbug

    fixbug Moderator Staff Member

    Như quỳ đó bác
     
    Nai likes this.