kaggleがちょっとみたくなる。 #Netflix Movies and TV Shows 編

これなに

kaggle 不慣れなWebエンジニアが Karnels を読んで、先人たちの知恵を読み取っていくシリーズ。 「こんなデータがあったよ!」っていうのをまとめていく。

興味を持って、「自分もデータ解析したい。」「こんなことも解析できるんだ」っていう気づきがえられれば良いかなと思っています。

呼んでいく方針

今回は Netflix Movies and TV Shows に挙げられている Kernelsを読んでいきます。

www.kaggle.com

voteが10以上積まれているKernelsをみていきます。

Simple Matplotlib & Visualization Tips

グラフとか、データの表示方法を書いている。 色の使い方とか詳しく書いている。 多分どこかのkaggle tutorialみたいなサイトから飛んできているのが多いんだと思う。

Netflix Shows and Movies - Exploratory Analysis

ちゃんとデータ解析している。良いお手本。 - 国別の表示 - 地図へのoutput - シーズンもののシーズン表示とかすごい

参考になる。

Storytelling with Data - Netflix ver.

年号のグラフとか出している。 どこの国のビデオが多いかのグラフを出している。 USの作品が多いみたい。日本は6番目みたい。 同じデータをいろんなグラフで表示していて、面白い。

該当年ごとに世界地図でheatmapが変わっていくグラフがある。 すごいこういうの作ってみたい。

ジャンルごとの相関図出している!SFとアクションの相関が高い

NETFLIX Analysis

各年ごとの映画・テレビ番組の遷移グラフがある。 各国のNetflixの過去5年の人気割合を出している。 トルコはあまり、人気ではなさそう。 2016前後で年にすごい伸びている。何かイベントあったのかな。すごい気になる。 日本はちょっと前倒しで2015の10月くらいから人気が出ている様子

各国のコンテントの量と映画/テレビ番組の表が出ている オーストラリア2018年から2019年にかけて映画の割合が減っている...どうしたんだろ 台湾は圧倒的にテレビ番組の方が「人気なんだな」っていうのがわかるグラフ

最後は各国どのディレクターが多くの作品を出しているかを表示している。 そういう分析方法もあるのかと思うと非常に面白い。

Netflix Movies and Shows: Plotly & Recommender SYS

NLPを使って頻出ワードを表示させている。 カテゴリーとかワーディングによる解析が多い NETWORKXの相関図がすごい興味深い。 他の解析系よりも、言語・役者に寄り添った解析が多く他のKernelsとは違うものを感じた。

Cinema in the ERA of NetFlix

映画の情報にフォーカスを当てて解析をしている。 毎年どれくらいの映画がリリースされているかとか いくらくらいの売り上げが出ているとかがみれる