第3回のブログでは、SAS Visual Analytics の活用例として統計解析のひとつである線形回帰を紹介しました。その続きのブログとなる今回は、ロジスティック回帰について説明します。
回帰分析は変数どうしの関係を分析することができます。そのなかでも以前紹介した線形回帰はシンプルでよく利用されますが、すべての場合において最も適当な分析手法であるとは限りません。たとえば、目的変数が離散的な場合(例:喫煙の有無、就業状態、移住の意思)には、ロジスティック回帰のほうが当てはまりのよい結果を得ることができます。本記事では、ロジスティック回帰を用いて待機児童の有無に影響を与える変数の分析を紹介します。
- このスライドでは、厚生労働省が公開している保育所等関連状況取りまとめ(平成30年4月1日)から申込者の状況についてのデータと、総務省が公開している平成28年度地方公共団体の主要財政指標一覧から全市町村の主要財政指標を利用しました。データのインポートについてスライド内でも説明していますが、インポートの際の注意点など詳細に関してはこちらのブログを参考にしてください。
ロジスティック回帰オブジェクトでは、自動的に最適なモデルが選択されます。オブジェクトを最大化し、詳細を表示すると使用したモデルを確認することができます。
- スライド内の分析では、ロジットモデルを使用していました。
また、詳細からは当てはめの統計量、パラメータ推計値などの情報を確認することができます。
今回の分析結果の解釈として、待機児童の有無に影響を与えている要因は「財政力指数」「経常収支比率」「ラスパイレス指数」「実質公債費比率」でした。それぞれの変数についてパラメータ(効果量)推定値をみると、「財政力指数」が最も大きい正の値(2.49)となっており、「財政状況のよい市区町村ほど待機児童が発生しやすい」といえます。対して「申込者数」の推定値は(5%有意であるものの)0.000094と非常に小さく、申込者数の多寡が待機児童の有無に与える影響は小さいと言えます。ここから、自治体規模の大小と待機児童の有無は関係していないと推測できます。
そのほかのパラメータをみても、財政状況がよいほど待機児童がいることが分かりますが、ここから単純に「待機児童を減らすためには、財政状況を悪化させればよい」ということにはなりません。たとえば、待機児童が多い自治体では共働きが多く、結果として住民税収が増加し財政状況がよくなるなど、さまざまなストーリーを想定することができます。回帰分析から因果関係を主張するときには注意が必要です。
この分析では、財政指標を利用しましたが、他にも女性の就業率、出生率、世帯構成などのデータを利用するとより効果的な分析ができるでしょう。データセット内に2値の変数がない場合でも、スライド内の例のように自分で基準を決めることで新しい変数を作成することができます。これによって分析の幅が広がりますが、レポートには必ず変数の定義を記述してください。
引き続き本ブログのシリーズでは、図表・グラフの作成や統計解析の方法について紹介いたします。
第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしています。(追記:募集は締め切られました)