Dữ liệu cào từ dramafever

Discussion in 'Chia Sẻ Tài Nguyên Online' started by thitgaluoc, Aug 7, 2018.

  1. thitgaluoc

    thitgaluoc Hương Chủ

    DramaFever là cái site streaming show hàn xẻng trung quốc nhật bổn vv nhé. Xem traffic của nó ghê vãi lều. Chiều nay em vừa thọc đc vào cái api của nó, thấy thông tin đầy đủ phết hehe. Tải về, tiện thể share lên đây xin 5 xu ý tưởng vì em cũng chưa biết làm gì với bọn này [​IMG]

    Code:
    https://drive.google.com/open?id=1tm6q5Z3cUd3kho1zMSTU6Sh3T288PUTd
    Dữ liệu bao gồm nhiều file json chứa thông tin về show, diễn viên, đạo diễn, cảnh sex, vv, ngoài ra còn có source cho các bác tham khảo :D Tổng có 4000-5000 show gì đó
    Screenshot_2018-08-07_23-36-59.png
     
    Last edited: Aug 7, 2018
    FreshMeat, nhat.itsuper, EDM and 3 others like this.
  2. xmenvn2510

    xmenvn2510 Moderator + MiddleMan Staff Member

    Tuyệt vời. Để mình check api rồi lên content xem sao.
     
  3. Nai

    Nai MiddleMan Staff Member

    Sao vào trang đó nó cứ bảo ko có sẵn ở Việt Nam nhỉ
     
  4. xmenvn2510

    xmenvn2510 Moderator + MiddleMan Staff Member

    Fake ip hoặc vào 4G là được. Mình vào 4G ok.
     
  5. thitgaluoc

    thitgaluoc Hương Chủ

    giống xem đá bóng thôi bác, bản quyền nó mua chỉ cho các nước A,B,C nên nó chỉ nhận ip cac nước đó thôi
     
  6. automan

    automan Hương Chủ

    vài ý tưởng cho mấy site kiểu này , ý là làm auto nhé, đi ngách hẹp hơn {ah}
    crawl diễn viên, đi seo theo diễn viên + tên phim, screenshot , tên phim ở các nước, cần tìm nguồn khác để trans cho chuẩn, ví dụ tên tiếng Anh là xyz, tên tiếng Hàn là abc, tên tiếng Việt là acf ...

    kết hợp vs alternate lang như kiểu này

    PHP:
    https://hinative.com/vi/questions/254929
    ví dụ cho thấy google còn lỗi vaaxi lồng, search keyword tiếng Việt ra site này, nó chỉ có cái title trans = Gtranslate ra tiếng Việt, còn comment vẫn nguyen mẫu {big_smile}

    keywords

    hinative.png

    Tương tự các bác các cụ có thể làm niche khác, kết hợp gstranlate cho cái title, và spam tẹt ga nhé {beauty}
     
    Last edited: Aug 8, 2018
  7. trong max

    trong max Bang Chúng

    nếu mình đoán không lầm thì lần này google nó sẽ kết hợp AI của nó vô hệ thông SE
     
  8. Nai

    Nai MiddleMan Staff Member

    Vậy mà mình tưởng nó kết hợp từ lâu rồi chứ
     
  9. automan

    automan Hương Chủ

    đem AI vô rồi sao nữa ? {look_down}

    AI vẫn chưa đạt level thông minh hơn con người, nhất là mấy cái cheat trick đâu, vì vẫn đang dạy nó basic, giống như dạy học sinh lớp 1 fai lấy cái tốt dạy trước, chứ ai lại đi lấy cái chưa tốt đi chỉ nó đầu tiên {look_down} khi nào vượt qua cái basic , suy luận thành thạo rồi may ra train nó mấy skill về trick black hat các thứ {sure}
     
  10. trong max

    trong max Bang Chúng

    làm cái gì e chịu á bác chuyên ơi, làm cái gì thì chỉ thằng gồ nó biết. còn e chỉ phỏng đoán thôi. nhưng nhiều khả năng theo em nó update lại core thì nó sẽ tích hợp AI. em củng đang theo vụ này mấy ngày nay để tìm cách Au sờ tu với cái gô dịch
     
  11. automan

    automan Hương Chủ

    tặng cho cái script trans = gtrans cloud nà, vào console gồ tạo key rồi xài nhá {sexy_girl}, 1 tháng được 200$ free credit, nên dịch vài trăm nghìn hoặc 1 triệu từ vô tư, {still_dreaming}

    PHP:
    <?php

    //extract data from the post
    //set POST variables
    $url 'https://translation.googleapis.com/language/translate/v2';

    $gkey '';
    $input 'hello';

    $target_lang "vi";
    $source_lang "en";

    $fields = array(
        
    'q' => $input,
        
    'target' => $target_lang// https://cloud.google.com/translate/docs/languages
        
    'source' => $source_lang,
        
    'format' => 'text'// text or html
        
    'key' => $gkey,
    );


    //open connection
    $ch curl_init();

    //set the url, number of POST vars, POST data
    curl_setopt($chCURLOPT_URL$url);
    curl_setopt($chCURLOPT_POSTFIELDS$fields);
    curl_setopt($chCURLOPT_SSL_VERIFYHOST0);
    curl_setopt($chCURLOPT_SSL_VERIFYPEER0);
    curl_setopt($chCURLOPT_RETURNTRANSFER1);

    //execute post
    $result curl_exec($ch);

    //close connection
    curl_close($ch);

    var_dump($result);
    input "beauty", output sẽ dạng như này {boss}

    HTML:
    {
    "data": {
    "translations": [
    {
    "translatedText": "sắc đẹp, vẻ đẹp"
    }
    ]
    }
    }
    
     
    Last edited: Aug 8, 2018
    vipkhongtin and Nai like this.
  12. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    AI cỡ nào củng sml với các anh blackhat thôi, người thật duyệt tay còn không ăn thua thì đừng trông mong gì tới đám máy thím à.
     
  13. Nai

    Nai MiddleMan Staff Member

    copy lẹ ko thôi đổi ý
     
  14. trong max

    trong max Bang Chúng

    mấy bác chưa hiểu ý em rồi. cơ bản là e dùng GG Trans để làm auto nên phải theo cái vụ này, nếu nó tích hợp AI thì nó sẽ quét qua được nội dung nào là dịch lại từ nội dung chính thống. mà nội dung trans là nội dung vi phạm luật DCMA, từ đó nó đánh rớt hạng. nếu nó dúng AI để soi thì sẽ nhanh hơn là mấy con bot hay gì đó để soi. cái chính e muốn nói là như vậy á . Bác nào có cái trick hay cho e ý kiến phát
     
  15. automan

    automan Hương Chủ

    vấn đè là bác làm chưa, và bị sml chưa ? thử đi, khi nào sml rồi tính, cứ phỏng đoán chi cho mệt vậy, trong khi nó nằm trong cái hộp không ai biết được nó làm gì trong đó. Có thể bác nói đúng nó sẽ dùng AI vào SE nhưng nếu con AI đó đánh lỗi nhiều thì chưa chắc à nghen {sexy_girl}

    btw đừng quá cuồng và tôn sùng AI quá {go}, bị nó hype cho nhiều quá sợ éo dám làm gì {amazed}
     
  16. JanKim

    JanKim Tân Thủ Thôn

    đức :D
     
  17. Phan Thị

    Phan Thị Bang Chúng

    chỗ nào cho 200$ vậy thím
     
  18. Hoa Mãn Lâu

    Hoa Mãn Lâu Trưởng Môn

    Quất đại i thím, chửa thì đẻ, Lo gì ko biết nữa
     
  19. automan

    automan Hương Chủ

    à xem lại lộn sang Maps API, gtrans thì 20$ cho 1trieu char {big_smile}
     
  20. thitgaluoc

    thitgaluoc Hương Chủ

    cá nhân mình đã test thử thì nếu bạn dùng google trans mà vẫn giữ nguyên cấu trúc html thì nó sẽ không index hoặc index rất chậm, tuy nhiên nếu làm 1 cái template sau đó dí thông tin crawl đc vào, hoặc mô đi phê cấu trúc html đi thì vào WMT index ngay. Không biết bạn làm auto google trans kiểu nào mà vẫn ăn được vậy?