kaggleがちょっとみたくなる。 #Netflix Movies and TV Shows 編
これなに
kaggle 不慣れなWebエンジニアが Karnels を読んで、先人たちの知恵を読み取っていくシリーズ。 「こんなデータがあったよ!」っていうのをまとめていく。
興味を持って、「自分もデータ解析したい。」「こんなことも解析できるんだ」っていう気づきがえられれば良いかなと思っています。
呼んでいく方針
今回は Netflix Movies and TV Shows に挙げられている Kernelsを読んでいきます。
voteが10以上積まれているKernelsをみていきます。
Simple Matplotlib & Visualization Tips
グラフとか、データの表示方法を書いている。 色の使い方とか詳しく書いている。 多分どこかのkaggle tutorialみたいなサイトから飛んできているのが多いんだと思う。
Netflix Shows and Movies - Exploratory Analysis
ちゃんとデータ解析している。良いお手本。 - 国別の表示 - 地図へのoutput - シーズンもののシーズン表示とかすごい
参考になる。
Storytelling with Data - Netflix ver.
年号のグラフとか出している。 どこの国のビデオが多いかのグラフを出している。 USの作品が多いみたい。日本は6番目みたい。 同じデータをいろんなグラフで表示していて、面白い。
該当年ごとに世界地図でheatmapが変わっていくグラフがある。 すごいこういうの作ってみたい。
ジャンルごとの相関図出している!SFとアクションの相関が高い
NETFLIX Analysis
各年ごとの映画・テレビ番組の遷移グラフがある。 各国のNetflixの過去5年の人気割合を出している。 トルコはあまり、人気ではなさそう。 2016前後で年にすごい伸びている。何かイベントあったのかな。すごい気になる。 日本はちょっと前倒しで2015の10月くらいから人気が出ている様子
各国のコンテントの量と映画/テレビ番組の表が出ている オーストラリア2018年から2019年にかけて映画の割合が減っている...どうしたんだろ 台湾は圧倒的にテレビ番組の方が「人気なんだな」っていうのがわかるグラフ
最後は各国どのディレクターが多くの作品を出しているかを表示している。 そういう分析方法もあるのかと思うと非常に面白い。
Netflix Movies and Shows: Plotly & Recommender SYS
NLPを使って頻出ワードを表示させている。 カテゴリーとかワーディングによる解析が多い NETWORKXの相関図がすごい興味深い。 他の解析系よりも、言語・役者に寄り添った解析が多く他のKernelsとは違うものを感じた。
Cinema in the ERA of NetFlix
映画の情報にフォーカスを当てて解析をしている。 毎年どれくらいの映画がリリースされているかとか いくらくらいの売り上げが出ているとかがみれる