Pythonを使って、神奈川県のコロナ患者数について分析してみます。神奈川県のホームページから、コロナの患者数のデータがcsvファイルでダウンロードできるので、それを使います。
numpyやpandasの練習には、ちょうどいい材料だと思います。
さて、今回のプログラムの概要は、pandasのread_csvを用いて、神奈川県のコロナの患者数をデータフレーム に入れ、それをseabornを使ってグラフ化します。seabornの関数で表示する際に、引数の設定で、年代や居住地で層別して、いくつかのグラフを作成してみたいと思います。
プログラムの手順
プログラムの流れです。神奈川県のホームページのリンク先からコロナの患者数のcsvファイルをダウンロードして、保存してください。
以下からダウンロードできます。
http://www.pref.kanagawa.jp/osirase/1369/data/csv/patient.csv
CSVファイルを読み込みグラフ化するプログラム(10行)
- pandas,matplotlib,seaborn,japanize_matplotlibをインポートする
- pandasのread_csv関数で、上記リンク先のcsvファイル(神奈川県のコロナの患者数)からデータフレームに取り込む。
- seabornのcountplotを用いて、性別を年齢や居住地で層別し、グラフ化する。
より詳細に分析したい方は、Udemy の以下の講座で学べます。
【世界で5万人が受講】実践 Python データサイエンス・オンライン講座
この講座の中で取り扱っている、タイタニック号の乗客の分析が参考になります。
Pythonによるデータ解析の結果
神奈川県におけるコロナの男女別患者数
seabornでグラフ化した結果です。神奈川県のコロナ患者の男女比率は、6:4くらいということがわかります。
男女別の患者数を年齢別に層別
男女別で出力したグラフを、"年代"で送別してみます。男女ともに、30代、40代、50台の感染が目立ちます。
男女別の患者数を居住地で層別
居住地で層別をかけてみると、横浜市と川崎市の感染が拡大していることがわかります。
感染者の発表日でグラフ化
以下は、2020年1月16日〜5月13日までの発表日ごとの患者数です。4月13日をピークに緩やかに減ってきているように見えます。
まとめ
Pythonはデータ解析をするためのモジュールが豊富です。今回は、ただグラフ化して層別という内容でしたが、人口密度であったり、路線状況などを組み合わせて分析したり、今後どうなるかを予測することができれば、だんだんデータサイエンティストに近づけると思います。