Cách tôi crawl 1tr sp để import vào woocommerce như thế nào

Discussion in 'Chia Sẻ Con Đường Tôi Đi' started by console, Dec 31, 2021.

  1. console

    console Bang Chúng

    Đây là seri tâm sự tiếp theo của việc import 1tr sp. Nếu tính ra nó sẽ là phần mở đầu của tất cả. Nếu Ae hứng thú thì mình tiếp tục chia sẽ tiếp.
    Vẫn là lưu ý cũ: Tất cả mình chia sẽ chỉ là con đường, cách thực hiện. Mình k chia sẽ về code nha. Nói chung là lý thuyết chay :D

    Edited by Sói:
    Link thread trước của thớt, anh thêm vào đây cho tiên theo dõi:
    Cách import 1tr sản phẩm vào woocommerce | Cafe MMO Chiều Thứ 7

    1. Đầu bài:

    Phần crawl này thì chắc chắn ae phải động tay động chân rồi. Ai có súng thì dùng súng, ai có dao thì xài dao, ai k có dao có súng thì chịu khó quay tay nha. Riêng mình xài php, có 1 số trường hợp mình phải xài cả python, lắm lúc xài cả chrome extension, nói chung mình code đc cái gì mình xài cái đó.

    Riêng vụ crawl và database này mình tạo luôn thành 1 project để làm. Mình muốn tập trung toàn bộ data về 1 chỗ. Lý do mà mình khuyên ae tập trung toàn bộ lại 1 chỗ là dễ quản lý là 1, chống trùng lặp việc cào đi cào lại đỡ tốn resource và lỡ có đói quá đem bán data mà kiếm ăn.

    AE theo dõi bài trc thì đã thấy Input của mình cần là gì, chỉ là 1 cái title và 1 cái image. Khá đơn giản. Vậy ae cũng tổ chức dữ liệu đơn giản thôi k nên cầu kì gì cho phức tạp. Mình lưu lại cả domain đã cào, để tránh trùng lặp, mình phân loại domain đó theo platform riêng. Tại vì mỗi platform nó có 1 cách cào riêng và bóc tách dữ liệu riêng.

    Công tác chuẩn bị vậy thôi: php + mysql

    2. Thân bài:

    Ae chắc cũng biết platform là ntn thế nào rồi chứ nhỉ. Nếu ai chưa biết thì mình giải thích sơ đơn giản ntn: nó là nơi mà cho phép cách bạn lên bán các sp (ở đây mình xin nói luôn là áo thun) của mình trên nền tảng của nó, ai ai cũng bán được và rất đa dạng mẫu mã. Như vậy ae cũng đã hiểu nó số lượng sp nó nhiều tới mức nào. Vậy thì tại sao mình k cào của nó cho nhanh.

    Platform:

    Merch by amazon:

    Thằng này khá nỗi tiếng rồi đúng k ae. Nó là của amazon ae có thể lên google đoc thêm chi tiết về nó. Lượng áo trên nó chắc cũng vài chục tr. AE chỉ cần cào 1 phần thôi là có thể đủ cái target của mình 1tr. Kĩ thuật cào amazon ntn thì mình xin phép bỏ qua vì ở đây ae khá quen với việc cào amazon rồi.
    Chắc chắn ae sẽ thắc mắc là trên merch nó cũng của amazon nó bán áo, vậy mình cào về mình bán có được k trong khi thấy giá nó cực kì rẻ ? Mình xin trả lời vs ae là được, mà k những được mà là quá được. Tại sao vậy: đầu tiên là ae có thể nhìn thấy màu áo của amazon khá buồn chán, k có đa dạng như suplier của ae được, thêm phần nữa là merch đa số chủ yếu là áo tshirt. Còn suplier thì dạ kính thưa các loại áo. Đơn cử như mùa đông này nè, thì ai cũng muốn mua loại hoodie, sweashirt mặc cho ấm hoặc long sleeve, mấy loại ntn mùa đông bán cực tốt nhưng rất tiếc merch lại chán quá. Vậy ng ta kiếm mẫu đó nhưng thêm thể loại khác vô thì chắc chắn ae có rồi :D
    Áo của merch là áo sạch. Định nghĩa sạch ở đây là áo k có TM vậy cho dễ hiểu. Nó rất an toàn cho payment của mình tránh bị các bên kiện cáo. Đây là điểm cộng lớn nhất của merch. Vậy điểm trừ là gì: khó cào quá ae haha, cào tốn proxy bà cố haha.

    Thêm 1 số cái giúp ae:
    Code:
    https://merchinformer.com/merch-amazon-listings/
    Mình xài link này kèm theo keyword để search áo trên merch. Ae có thể fake ip us và search thử sẽ ra cả ghe áo.

    Đây là áo merch:
    Code:
    https://www.amazon.com/Funny-Whale-Gift-Women-T-Shirt/dp/B0854GH3M6
    Tại sao mình biết, đơn giản là mình f12 chỗ hình và thây cái hình đó là png là áo merch, còn jpg là áo của seller amazon bán :D

    Thêm 1 gợi ý nhỏ cho ae là Merch mình có thể lấy đc cả design của nó :D design này ae chỉnh lại xíu đi fulfil luôn cũng đc khoẻ re đỡ thuê designer làm haha.

    Shopify

    Đây cũng là platform khá nổi tiếng của sản phẩm POD. Riêng thằng này thì việc crawl cực kì khoẻ, đơn giản vì nó có sitemap cụ thể. Mà thường là mấy platform toàn có sitemap để google đọc cho khoẻ. Vậy thì mình sẽ crawl hết toàn bộ được dữ liệu của nó. Riêng mình thì sẽ tracking luôn cả các site đó nếu site đó mạnh, để nó có sp gì mới mình update luôn.

    Cách search những site này thường mình sẽ dựa vào google shopping và bing shopping để search, search kèm theo keyword của sp của mình là. hoặc là search google vs cú pháp tìm subdomain nó site: myshopify.com cũng ra cả ghe.

    Tiếp theo mình sẽ lọc toàn bộ những site mà bán sp POD. còn những site nào k bán sp POD sẽ bỏ qua. Thường những site bán sp POD thì chỉ bán sp POD thôi ah.

    Thêm 1 số cái giúp ae:
    - View source xem có cdn của shopify k nếu có là shopify
    - Đây là cách cào cho nhanh, mình vd vs 1 link sp là của shopify
    Code:
    https://vikingenes.com/products/tomorrow-shirt
    Và đây là điều kì diệu:
    Code:
    https://vikingenes.com/products/tomorrow-shirt.json
    Đây là sitemap, 1 link product tương đương vs 5000 sp:
    Code:
    https://vikingenes.com/sitemap.xml
    Shopbase

    Trong lúc mà search những keyword theo cách trên của shopify. Tình cờ mình phát hiện ra 1 platform của VN là thắng này.

    Nó cũng có sitemap y như shopify, nhưng có 1 cái hay hơn là nó là platform sinh ra cho việc POD này thì ối zoi ôi, k cần lựa chi nhiều cứ quất hết của nó thì quá trời so vs cái target kia

    Mình là người tự tin nói : Đã cào sạch sản phẩm của shopbase từ store lớn đến nhỏ. Platform này có 1 cái mà mình tình cờ phát hiện ra là toàn bộ domain đc trỏ về 1 server. AE hiểu ý mình rồi chứ haha. Trc mình quét sạch domain trên server đó rồi lọc ra store nào còn hoạt động bỏ vào tool chạy khoảng 1 tuần thì sạch sành sanh.

    Thêm 1 số cái giúp ae:
    - Đây là store shopbase:
    Code:
    https://www.vivianstores.com/
    - Đây là sitemap:
    Code:
    https://www.vivianstores.com/sitemap.xml
    Còn cách code, cào ntn thì ae tự tính nha

    Một số loại store kiểu khác

    Thường 1 loại store nữa mà mình hay cào là wordpress, chính áo của những thằng như mình. Loại này thì k có cụ thể chung code mà thường mình sửa code xíu quất cho nhanh rồi import vô data của mình.

    Ngoài ra còn vô số platform khác cứ cái nào mình thấy có khả năng bán đc ok thì quất thôi. Ae cứ tìm toài thêm theo cách mình search sẽ ra nhiều cái hay.

    3. Kết luận:

    Mình gom chung những thằng nào tương tự để setup crawl tự động.
    AE có thể follow theo mình:
    - PHP xài Laravel, Jobs, Queue, Redis ( ưu tiên xài server mạnh loại dedi nhiều cpu, ram)
    - Python xài Scrapy

    Kết thúc phần này dựa vào những gì mình chia sẽ, ae có thể bắt tay vào crawl được rồi. con số 1tr đó cực kì nhỏ so với số lượng mà trên platfom có. Crawl và tổ chức dữ liệu thiệt tốt thì sau này nó là tiền đề để mình sự dụng woo cực kì hiệu quả.

    End phần tâm sự tại đây! Hẹn ae phần tiếp theo
     
    Last edited: Jan 4, 2022
  2. thitgaluoc

    thitgaluoc Hương Chủ

    hứng thú bằng 1 like, và bây giờ thêm comment này chắc tính là hứng thú x2 cũng đc đấy bác nhỉ :D
     
  3. Vajimi

    Vajimi Sơ Nhập Giang Hồ

    bài trước của bác cho mình rất nhiều ý tưởng đẻ code
     
  4. Nai

    Nai MiddleMan Staff Member

    Quất liên tục, mà cú sau mạnh hơn cú trước khối ae lên đỉnh vì anh. {beauty}
     
  5. wpresources

    wpresources Bang Chúng

    {loveyou} Hóng mạnh
     
  6. slowboy

    slowboy Sơ Nhập Giang Hồ

    Đặt đôi tông lào ngồi hóng
     
  7. console

    console Bang Chúng

    update sơ sơ xíu cho ae đọc
     
    Nai likes this.
  8. Nai

    Nai MiddleMan Staff Member

    Em thấy cũng khá cực từ chia sẻ trước. Đủ bước mới có tiền dc cái bán kê giá theo ý.{adore}
     
  9. Vajimi

    Vajimi Sơ Nhập Giang Hồ

    {loveyou}Cưng xỉu
     
  10. console

    console Bang Chúng

    Hiện tại có rất nhiều suplier nha bạn, bạn có thể tham khảo dreamship, customcat, teezily, gearment, những thằng này đều có cơ sở sản xuất tại us nên fee ship khá rẻ, còn base cost thì mỗi thằng mỗi khác, tuỳ vị của bạn
    --- Double Post Merged, Dec 31, 2021, Original Post Date: Dec 31, 2021 ---
    Nếu đơn giản thì còn gì thú vị :D
     
    bui cong likes this.
  11. Nai

    Nai MiddleMan Staff Member

    Anh quả là người thú vị {beauty}
     
  12. wpresources

    wpresources Bang Chúng

    Trước em nghe nói làm amazon mà crawl dữ liệu bê nguyên xi về nhiều pro kêu kiếm được ít thì bị nó khóa tài khoản vì vi phạm.Bây giờ nó dễ tính hơn rồi à anh hay thể loại này nó ít ban hơn a
     
  13. console

    console Bang Chúng

    update tiếp 1 phần nhỏ, năm mới toàn ăn nhậu, tranh thủ viết xíu xíu cho ae tham khảo
    --- Double Post Merged, Jan 4, 2022, Original Post Date: Jan 2, 2022 ---
    Kết thúc phần này, hẹn ae phần sau