Pythonデータ解析

Pythonで神奈川県のコロナの患者数を分析する

Pythonを使って、神奈川県のコロナ患者数について分析してみます。神奈川県のホームページから、コロナの患者数のデータがcsvファイルでダウンロードできるので、それを使います。

numpyやpandasの練習には、ちょうどいい材料だと思います。

さて、今回のプログラムの概要は、pandasのread_csvを用いて、神奈川県のコロナの患者数をデータフレーム に入れ、それをseabornを使ってグラフ化します。seabornの関数で表示する際に、引数の設定で、年代や居住地で層別して、いくつかのグラフを作成してみたいと思います。


プログラムの手順

プログラムの流れです。神奈川県のホームページのリンク先からコロナの患者数のcsvファイルをダウンロードして、保存してください。

以下からダウンロードできます。

http://www.pref.kanagawa.jp/osirase/1369/data/csv/patient.csv

 CSVファイルを読み込みグラフ化するプログラム(10行)

  1. pandas,matplotlib,seaborn,japanize_matplotlibをインポートする
  2. pandasのread_csv関数で、上記リンク先のcsvファイル(神奈川県のコロナの患者数)からデータフレームに取り込む。
  3. seabornのcountplotを用いて、性別を年齢や居住地で層別し、グラフ化する。

 

より詳細に分析したい方は、Udemy の以下の講座で学べます。

【世界で5万人が受講】実践 Python データサイエンス・オンライン講座

この講座の中で取り扱っている、タイタニック号の乗客の分析が参考になります。



Pythonによるデータ解析の結果

神奈川県におけるコロナの男女別患者数

seabornでグラフ化した結果です。神奈川県のコロナ患者の男女比率は、6:4くらいということがわかります。

 

 

 

 

 

 

男女別の患者数を年齢別に層別

男女別で出力したグラフを、"年代"で送別してみます。男女ともに、30代、40代、50台の感染が目立ちます。

 

 

 

 

 

 

男女別の患者数を居住地で層別

居住地で層別をかけてみると、横浜市と川崎市の感染が拡大していることがわかります。

 

 

 

 

 

感染者の発表日でグラフ化

以下は、2020年1月16日〜5月13日までの発表日ごとの患者数です。4月13日をピークに緩やかに減ってきているように見えます。

 

 

 

 

 

 

まとめ

Pythonはデータ解析をするためのモジュールが豊富です。今回は、ただグラフ化して層別という内容でしたが、人口密度であったり、路線状況などを組み合わせて分析したり、今後どうなるかを予測することができれば、だんだんデータサイエンティストに近づけると思います。



スポンサーリンク

-Pythonデータ解析

Copyright© MAYRのPython活用法! , 2021 All Rights Reserved Powered by AFFINGER5.