【世田谷シリーズ】新型コロナ感染症23区別感染者数を回帰分析してみた

新型コロナまだまだ収まらず。

そんな中、都内23区別の感染者数が公表されました。3月31日時点の数。

 

www3.nhk.or.jp

 

キタよ、世田谷ディスり。

実際に事実だからいいんですけどね、報道記事タイトルの切り取り方がイヤな感じ。

まぁ常識的に考えれば、「人口に比例するよね」と思い浮かぶと思うのですが、人によっては「世田谷あぶねー!!」ってなるかも知れません。

 

記事の中でも、

世田谷区「住民が多いことが感染者の数に比例か」

新型コロナウイルスの感染者が最も多い世田谷区の担当者は「区内では今のところクラスターは発生していない。感染の分析はまだだが、世田谷区に住んでいる人が多いことが感染者の数に比例して表れているのではないか」と話していて、感染は別の地域で起こっているという認識を示しています。

 

と書かれているので、「当たり前や!」と思うのですが、一応世田谷デジルと名乗っているので、世田谷の風評被害を払拭するべく、数値から見える感染者数を少しだけ掘り下げてみたいと思います。

 

f:id:setagayadezil:20200404130321j:plain

 

 

人口比で考える

定量分析

まず、世田谷区は感染者44人と言われてますが、そもそも東京23区で世田谷区は人口一番多いからね。2020年3月1日時点で93万人。23区人口の10%近くを占めてます。

www.toukei.metro.tokyo.lg.jp

 

ということで各区の感染者数と人口を並べて、1万人あたりの感染者数を出してみるとこんな感じ。

 

f:id:setagayadezil:20200404113650j:plain

東京23区別 1万人当たり新型コロナ感染症数

定性分析

  1. 世田谷区は23区中9番手。真ん中よりもちょっと上くらい。大した事ない。世田谷アブナクナイ(危なくないことはないけど)。
  2. 港区と中央区が圧倒的。1万人当たり1人以上感染者数がいる模様。それに渋谷区が続くイメージ。
 
なるほどね。これを上手く解釈すると
  • ウェーイ、俺ら港区男子と港区女子、イエーイ!今日も東京カレンダーしようぜ、ウェーイ。コロナなんて関係ない!自粛?シラネ。非港区民の貧乏人だけやってろよ、ウェーイ!
  • 中央区ザギンでしっぽりとクラブやバーで感染。大人の感染スタイル。又はコリドー街でウェーイ感染。
  • 若者の街シブヤでウェーイ感染。コロナなんて老人がなるんだろ?俺ら若いしウェーイ!

 といった感じでしょうか。まぁザギンやシブヤで飲んでる人が中央区・渋谷区在住というわけではないのでちょっと暴論ですが、港区は当たってるかもしれません。

 

他の要素も考える

さて、単純な人口比だけで考えると、「世田谷区って別にそこまであぶなくないじゃん」っていう結論に落ち着きました。

言い換えると、人口がダイレクトに感染者数に響くというわけではない、ということ。

では、一体どんな要素が感染者数に影響するんだろう、という疑問が出てくるわけです。

まぁこの辺はきっと国・都・専門機関等が緻密なシミュレーションをしているのでしょうけど、自分なりに遊びの延長でエクセルで分析してみます。

 

まず、東京23区の基礎データを集めてみるところから。

 

使用データ

とりあえずは統計データを使ってみます。

 

------【このへんのサイトから拝借】----------------------------

https://www.toukei.metro.tokyo.lg.jp/jsuikei/2020/js203f0100.pdf

http://www.sangyo-rodo.metro.tokyo.jp/toukei/SK2018-all.pdf

https://www.tokyo-23city.or.jp/chosa/tokei/joho/documents/to_data.pdf

男女5歳階級別データ- 日本の地域別将来推計人口(平成25(2013)年3月推計)|国立社会保障・人口問題研究所

政府統計の総合窓口

---------------------------------------------------------------------

 

使えそうなデータ抽出

サイトからなーんとなく関係しそうな23区データを引っ張ってみました。まぁ感染者がその区の中で全ての生活を完結させているわけではないので、そもそもこの分析は確実に不十分なのですが(住民の移動までは考慮出来ていないので)。

とりあえずこのくらいで分析してみましょう。

人口、面積、企業・事業所数あたりで使えそうなデータを並べるとこんな感じ。

f:id:setagayadezil:20200404122228j:plain

東京23区別 新型コロナ感染症数分析用基礎データ

そして、感染者数と各要素の相関係数を取ってみると、一番下の行の通り。相関係数というのは、どの程度その数値と感染者数が関係あるか、という指標です。これが「1」の場合は全く同じ動きをする、「0」の場合はまるで無関係、「-1」の場合は完全に逆の動きをする、といったイメージです。

 

相関係数の分析

さて、相関係数を見てみるとこんな感じ。

  • 人口は0.31。あまり相関があるというわけではない。
  • 高齢者人口は0.20、全然相関がない。むしろ非高齢者の方が0.35と高い。これは非高齢者は移動で色々なところからアクティブに持って帰ってくるということかな?高齢者が報道で取りざたされているのは、やはり重篤化し易いから感染者数として表に出やすい、ということなんでしょうね。
  • 面積は0.23。全然相関がない。人口密度が高いと感染者数が伸びるのかとも思ったのですが、数字面だけではそうではないみたいです。
  • 事業所数(全産業)は0.50、一方宿泊・飲食・生活関連(ジム含む)・娯楽といったサービス業の相関係数は0.66と高め。つまり、サービス業の店舗等を介して感染者数が増えている、と言えるかも知れません。
 

回帰分析でモデル化

ということで、相関係数で何がどう関係するのかをなんとなく掴んだところで、折角なのでエクセルアドイン機能のデータ分析から「回帰分析」をかけてみましょう。今回は要素が複数あるので重回帰分析。
 
↓昔書いた重回帰分析のお話。
 

結果概要

重回帰分析のコツは、適切な要素を準備すること、そして要素同士が独立した性質を持つこと、でした。ここでは割愛しますが、先ほどのデータを色々と試行錯誤して回してみた結果、まぁこれなら説明付くかな?という結果がコレ。

f:id:setagayadezil:20200404123326j:plain

東京23区別 新型コロナ感染者数重回帰分析概要

要素選定に右往左往しましたが、結局以下の4つを使いました。

■非高齢者人口

■高齢者人口

■サービス業事業所数

■非サービス業事業所数

 

たぶん高齢者と非高齢者で動きが異なるであろうこと、サービス業と非サービス業で感染場所となる傾向がことなるであろうこと、からのこの4つです。

独立した要素を山ほど準備して並べて・・・ていうやり方もあるんですけど、出来るだけシンプルにモデル化したかったのでこのくらいで勘弁してください。

 

これによれば感染者数の計算式は

感染者数 = -3.126 + 非高齢者人口 x 0.0001517 - 高齢者人口 x 0.000476 

+ サービス業事業所数 x 0.004762 - 非サービス業事業所数 x 0.000634 

となりました。

高齢者人口と非サービス業事業所数はマイナス(つまり増えるほど感染者数は減る)、非高齢者数とサービス業事業所数はプラス。一番インパクトが大きいのはサービス業事業所数ぽいですね。係数がそれなりに大きいので。

 

ちなみに、このモデルは今回23区の23個のデータに対しては、ざっくり7割~8割当てはまりますよ、となっています。但し、これはモデルが良い悪い、ということではなく、データに対してモデルが当てはまっている、というだけに過ぎません。

 

回帰分析結果による解釈

ということで、これで超簡易回帰分析をしたわけですが、ここから読み取れるのは

■非高齢者が増えると感染者数が増える。つまり、アクティブな非高齢者がウィルスを持ち帰ってきているとも考えられ、非高齢者はちゃんと外出自粛とかして気を付けましょうね。

■サービス業事業所数が感染者数に寄与するので、宿泊・飲食・生活関連・娯楽等の店舗には出来るだけ行かない(又は長居しない)ように気を付けましょう。

 

といった感じで、実はこれは小池知事ほかからのメッセージ内容と同じですね。

 

ということで定量面でもあのメッセージの妥当性が確認されました。

 

 

ちょっと無理やりロジックをこじつけたような気がしないでもないですが、エクセルだけでもこの程度の分析は可能だったりします。

在宅勤務で時間が出来るとこういう余計なことしてしまう・・・。

本来この作業はAIのアルゴリズムにぶち込んで精度が上がるような要素をひたすら試行錯誤してもらえば出来る作業なんだろうなー・・・。

 

早くコロナ収まらないかな。

 

↓ポチっと回帰分析(世田谷に罪はないよ)

にほんブログ村 地域生活(街) 東京ブログ 世田谷区情報へ
にほんブログ村