前回の記事では、SAS Visual Analytics を用いて時系列データを扱う手法をご説明しました。第7回目となる本記事では、データをグループ分けするクラスタリングについてご紹介します。 クラスタリングとは、多様な特徴を持つデータ群の中から、似通った性質を持つサンプルを抽出しグループ化する機械学習手法です。例えば、顧客をクラスタリングし、各クラスターの特徴(年齢・嗜好等)に合わせた適切なDMを送る、などの活用例があります。本記事では、行政基盤の性質に基づき都道府県をクラスタリングします。本ブログのシリーズの第3回・第5回にて同じデータを異なる手法で分析しておりますので、併せてご参照ください。 本記事では、総務省の「社会・人口統計体系 都道府県データ 社会生活統計指標 :D 行政基盤」のデータを使用しました。 SAS Visual Analytics 8.3 におけるクラスタリング分析 from SAS Institute Japan 本例で作成したクラスターの数は5つですが、オプションから数の変更ができます。特徴量のビンの数も同様に変更可能です。 さて、今回使用した5つの変数は第3回・第5回の記事の分析で、人口増減率に影響を及ぼすとされた要素でした。スライド内クラスター2のラインをご覧ください。財政力指数は低いものの、土木費割合が高いという特徴を共有するクラスターであると読み取れます。これは、第5回の記事のディシジョンツリーを用いた分析によると、財政力が弱いにも関わらず人口増減率が高い自治体の持つ特徴でした。したがってクラスター2内の要素の人口増減率が高い傾向にあることが予想されます。また最も要素数の多いクラスター5についてですが、どのビンにおいても概ね中程度の値を取っており、平均的なクラスターであるとみなせます。このようにクラスタリングによってデータを分類し、各クラスターの特徴に着目することで、データをより分析しやすくすることが可能です。 ここで、SAS Visual Analytics におけるクラスタリングに使われている手法、k-means法の仕組みついてご紹介します。ここではn個のデータをk個のクラスターに分類するとします。 1) n個のデータのうち最初のk個をクラスターの核とし、各データを一番近い核のクラスターに属するように分割します。 2) 各クラスターの重心を求めます。 3) 各データを、それぞれが一番近い重心のクラスターに属するように再分割します。 4) 再分割されたクラスターの重心を求め、(3)の操作をクラスターに変化がなくなるまで行います。 このように、最終的に変動がなくなったクラスターに基づきクラスタリングが行われています。 以上、クラスタリングの手法についてご説明しました。引き続き本ブログのシリーズでは、SAS Visual Analytics を用いた図表・グラフの作成や統計解析の方法について紹介いたします。ぜひご参照ください。 高校生・大学生を対象とした第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、奮ってご参加ください。(追記:募集は締め切られました)
Tag: wakayama analytics competition
第3回のブログでは、SAS Visual Analytics の活用例として統計解析のひとつである線形回帰を紹介しました。その続きのブログとなる今回は、ロジスティック回帰について説明します。 回帰分析は変数どうしの関係を分析することができます。そのなかでも以前紹介した線形回帰はシンプルでよく利用されますが、すべての場合において最も適当な分析手法であるとは限りません。たとえば、目的変数が離散的な場合(例:喫煙の有無、就業状態、移住の意思)には、ロジスティック回帰のほうが当てはまりのよい結果を得ることができます。本記事では、ロジスティック回帰を用いて待機児童の有無に影響を与える変数の分析を紹介します。 このスライドでは、厚生労働省が公開している保育所等関連状況取りまとめ(平成30年4月1日)から申込者の状況についてのデータと、総務省が公開している平成28年度地方公共団体の主要財政指標一覧から全市町村の主要財政指標を利用しました。データのインポートについてスライド内でも説明していますが、インポートの際の注意点など詳細に関してはこちらのブログを参考にしてください。 SAS Visual Analytics 8.3 におけるロジスティック回帰の利用 from SAS Institute Japan ロジスティック回帰オブジェクトでは、自動的に最適なモデルが選択されます。オブジェクトを最大化し、詳細を表示すると使用したモデルを確認することができます。 スライド内の分析では、ロジットモデルを使用していました。 また、詳細からは当てはめの統計量、パラメータ推計値などの情報を確認することができます。 今回の分析結果の解釈として、待機児童の有無に影響を与えている要因は「財政力指数」「経常収支比率」「ラスパイレス指数」「実質公債費比率」でした。それぞれの変数についてパラメータ(効果量)推定値をみると、「財政力指数」が最も大きい正の値(2.49)となっており、「財政状況のよい市区町村ほど待機児童が発生しやすい」といえます。対して「申込者数」の推定値は(5%有意であるものの)0.000094と非常に小さく、申込者数の多寡が待機児童の有無に与える影響は小さいと言えます。ここから、自治体規模の大小と待機児童の有無は関係していないと推測できます。 そのほかのパラメータをみても、財政状況がよいほど待機児童がいることが分かりますが、ここから単純に「待機児童を減らすためには、財政状況を悪化させればよい」ということにはなりません。たとえば、待機児童が多い自治体では共働きが多く、結果として住民税収が増加し財政状況がよくなるなど、さまざまなストーリーを想定することができます。回帰分析から因果関係を主張するときには注意が必要です。 この分析では、財政指標を利用しましたが、他にも女性の就業率、出生率、世帯構成などのデータを利用するとより効果的な分析ができるでしょう。データセット内に2値の変数がない場合でも、スライド内の例のように自分で基準を決めることで新しい変数を作成することができます。これによって分析の幅が広がりますが、レポートには必ず変数の定義を記述してください。 引き続き本ブログのシリーズでは、図表・グラフの作成や統計解析の方法について紹介いたします。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしています。(追記:募集は締め切られました)
これまでのSAS Visual Analytics 活用例では、一時点のデータを表やグラフに示し、分析していましたが、統計データには毎年、毎月や四半期ごとに集計されているものが多くあります。そこで今回はデータのなかに時間情報が存在する時系列データの操作について説明します。 時系列データには国や地方自治体が公表しているデータに加え、気象情報、商品の売上、株価、為替レートなど様々なデータがあります。時系列データを利用することで、過去の傾向やパターンを把握したり、将来はどうなるのか予測することができます。SAS Visual Analytics のオブジェクトには、時系列データではないと作成できないものがあり、その中でも今回は、二軸の時系列プロットと予測の利用例を説明します。 このスライドでは、日本政府観光局(JNTO)が公開している「年別 訪日外客数・出国日本人数・国際旅行収支(IMF方式)の推移」を利用しました。このファイルには、1959年から2016年までの年ごとの訪日外客数、出国日本人数とその伸び率、国際旅行収支のデータがあります。データのインポートについてスライド内でも説明していますが、インポートの際の注意点など詳細に関してはこちらのブログを参考にしてください。 SAS Visual Analytics 8.3 における時系列データの利用 from SAS Institute Japan 予測オブジェクトでは、自動的に最適な予測モデルが選択されます。オブジェクトを最大化し、詳細を表示すると使用された予測モデルを確認することができます。 スライド内の予測では、ARIMAが使用されていました。 また、データ役割からWhat-If 分析を選択すると、シナリオ分析とゴール探索を実行することができます。シナリオ分析では、要因の値を設定することで、予測値がどれくらい変化するかを確認できます。ゴール探索では、予測の目標値を設定することで、その目標を達成するために必要な要因の値を決定することができます。 今回スライド内で紹介したほかに時系列データを利用するオブジェクトとしては、時系列プロットと比較時系列プロットがあります。作成したオブジェクトを右クリックするとメニューが表示されるのでそこから変更することができます。 引き続き本ブログのシリーズでは、図表・グラフの作成や統計解析の方法について紹介いたします。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしています。(追記:募集は締め切られました)
本ブログのシリーズでは、SAS Visual Analyticsを用いた図・グラフの作成や統計解析についてご紹介しています。第5回目となる今回は、ディシジョンツリーを用いた分析方法をご説明します。 第1回和歌山県データ利活用コンペティション:大学生の部の課題は「人口減少問題を解決するための施策」でした。前々回の記事では、各自治体の行政基盤が人口増減率に与える影響を線形回帰を用いて評価しました。この手法は説明変数の与える影響の大きさを定量的に評価できるものの、各説明変数間の関係の読み取ることは困難でした。そこで本記事では同じ題材を用いて「ディシジョンツリー」による分析方法をご説明します。ディシジョンツリーでは、各説明変数が目的変数に及ぼす影響を階層ごとに分析することができます。 前々回の記事と同じく、総務省の「社会・人口統計体系 都道府県データ 社会生活統計指標 :D 行政基盤」と「人口推計:都道府県別人口増減率-総人口」のデータを使用しました。 SAS Visual Analytics 8.3 におけるディシジョンツリーの利用 from SAS Institute Japan 今回の分析において、人口増減に最も大きな影響を与える要素は「財政力指数」でした。都市部など財政力が強い地域の人口が増加しやすいことは感覚的に自然な結果でしょう。 注目すべきは、財政力指数が低い自治体において次に大きな影響を与える要素が「土木費割合」であったことです。無論インフラの整備は市民の暮らしやすさに欠かせない要素ですが、人口増加につながる理由としては、「公共事業による雇用の創出」と捉えることが適切でしょう。今回は行政基盤のみを説明変数に設定しましたが、有効求人倍率や最低賃金等、市民の生活や労働に関連する要素を説明変数に据えることで、より詳細な分析が可能であると予想されます。第一回和歌山県データ利活用コンペティションのサイトにこのテーマに関する優秀作品が掲載されておりますので、ご参照ください。 ディシジョンツリーによる分析は、説明変数が目的変数に及ぼす影響や各説明変数間の関係が理解しやすいというメリットがありますが、モデル作成時に用いたデータに過剰適合し汎化性能が低いというデメリットもあります。目的に応じてツリーの枝数や階層数を適切に調整するようにしましょう。 以上、ディシジョンツリーを用いた分析手法についてご説明しました。本ブログのシリーズの他の記事もぜひご参照ください。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしております。(追記:募集は締め切られました)
前回のブログでは、統計解析の一例として、線形回帰分析の方法をご紹介しました。今回はデータを用いてクロス集計表(分割表)を作成し、円グラフ・棒グラフに可視化する方法をご紹介いたします。 第1回和歌山県データ利活用コンペティションでテーマに挙げられていた「人口減少問題を解決するための施策」をテーマに分析をします。人口減少の原因に女性の社会進出に対する意識が影響しているのではないかと考えました。もし、まだ子育てをしていない女性が育児と仕事を両立したくてもそれが難しいと感じるようでしたら、このことは人口減少の障害になりかねません。そこで、就業希望者と求職者について男女・育児活動の有無を項目にし、関連性を探りました。 以前、データのインポート方法を紹介したブログで利用した総務省統計局の平成29年 就業構造基本調査 都道府県編 「男女,育児の有無・頻度・育児休業等制度利用の有無,年齢,就業希望の有無・求職活動の有無別人口(無業者)-全国,全国市部,都道府県,都道府県市部,政令指定都市」のデータを利用します。 データのインポート方法に関する記事は過去のブログ記事をご参照ください。 SAS Visual Analytics 8.3 におけるクロス集計表の作成と可視化 from SAS Institute Japan 作成したグラフから、女性の中でも育児活動の有無により求職者数にはあまり差がない一方で、就業希望者数は育児活動をしている女性の方が多いことがわかります。このことから、子育てをしている女性は仕事をしたいとは思っても実際には求職活動を行っていないということがわかります。 今回のように男女・育児活動の有無など質的変数同士の関係を考察する場合、データをクロス集計表にまとめると分析がしやすくなります。また、インポートしたデータの中から必要なものを取り出すためにフィルタを活用することが効果的です。グラフを作成する際は、軸にどのようなカテゴリを選択するか、メジャーには何を用いるかなどについて自分の分析したい目的に合わせて考えてみてください。 引き続き本ブログのシリーズ Visual Analyticsを用いた図・グラフの作成や統計解析について紹介いたします。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしております。(追記:募集は締め切られました)
前回のブログではSAS Visual Analyticsを用いて地図上にデータを表示するジオマップの作成方法をご紹介しました。本記事では統計解析の一例として、線形回帰分析の方法をご説明します。 第1回和歌山県データ利活用コンペティション:大学生の部の課題は「人口減少問題を解決するための施策」でした。人口減少の原因を把握することは、施策を決定するうえで重要な過程の一つです。社会福祉や育児支援等、さまざまな要素がその原因の候補として考えられますが、どの要素が原因として最も妥当であるかを判別するために、各要素が人口増減に与える影響を線形回帰により分析します。本記事では、都道府県ごとの人口増減率と行政基盤との関係を例にとり、線形回帰の分析方法をご紹介します。 今回使用したデータは、総務省の「社会・人口統計体系 都道府県データ 社会生活統計指標 :D 行政基盤」と「人口推計:都道府県別人口増減率-総人口」です。 SAS Visual Analytics 8.3 における線形回帰の利用 from SAS Institute Japan データのインポート方法の記事はこちらです。 今回は連続型データの説明変数のみを分析しましたが、離散型データの説明変数も「分類効果」に設定することで分析可能です。また、説明変数同士に関係性がある場合は、それらを「交互作用効果」に追加します。 線形回帰のモデル評価において、「財政力指数」と「社会福祉費割合」のp値が有意水準0.05を下回っていたため、これらは説明変数として有効であると判断できます。「財政力指数」が高い自治体は多方面にわたり数々のサービスを提供可能で、「社会福祉費割合」が高い自治体は市民の生活の安定により多く貢献しています。これらのことから、市民の生活支援を充実させることが、人口増加のために行政のなすべき課題の一つであることがわかります。 しかし、今回作成した回帰モデルの決定係数は0.6995であり、依然として改善の余地が見受けられました。第一回和歌山県データ利活用コンペティションのサイトにこのテーマに関する優秀作品が掲載されておりますので、ご参照ください。 以上、線形回帰の方法をご説明しました。引き続き本ブログのシリーズではSAS Visual Analyticsを用いた図・グラフの作成や統計解析について紹介いたします。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしております。(追記:募集は締め切られました)
前回のブログでは、SAS Visual Analytics にデータをインポートする方法を紹介しました。こうしてインポートしたデータをもとに、さまざまな図表・グラフの作成や統計解析を実行することができます。本記事では地図上にデータを表示するジオマップの使い方を説明します。 第1回和歌山県データ利活用コンペティションでは、「観光客を誘客するための施策」と「人口減少問題を解決するための施策」が募集テーマとなっていました。施策を検討するためには、まず現状を把握することが重要です。観光客の誘客に関しては、年間の訪問者数、宿泊者数、消費額や訪問目的などが考えられます。人口減少問題に関しては、人口の増減率、年齢別の人口構成、転出先や転入元などが考えられます。これらのデータは地理情報を含んでおり、地図上に表すことで効果的な図を作成することができます。本記事の例では、和歌山県が属する関西地区の宿泊データを利用してジオマップを作成します。 まずは、観光庁の宿泊旅行統計調査から平成29年1月~12月分(年の確定値)の集計結果をダウンロードします。ダウンロードしたファイルをSAS Visual Analytics にインポートする方法は、前回のブログ記事を参考にしてください。 SAS Visual Analytics 8.3 におけるジオマップの利用 -宿泊旅行統計- from SAS Institute Japan ジオマップをもとに調査をすすめると、和歌山県の宿泊稼働率が比較的低い要因を知ることができました。客室稼働率を高めるには、季節変動を抑え、年間を通じて旅行者を集客することが重要であるといえそうです。 つぎに、第2回のテーマである「高齢者が活躍できる社会づくり」「UIターン就職・若者の定住促進」に関連するデータを利用した例です。このスライド内では、時系列データを利用したアニメーション形式のジオマップ作成を紹介しています。時系列データに関しての詳細は、こちらのブログ記事を参考にしてください。 SAS Visual Analytics 8.3 におけるジオマップの利用 -高齢者の就労- from SAS Institute Japan ジオマップを用いてデータを図示することで、地域比較がより分かりやすくなり時系列の変化も直感的に把握することができます。また、分析を進めるための手がかりともなります。今回のコンペティションでは地理情報を含むデータの利用が予想されますので、その際はぜひジオマップを活用してみてください。 引き続き本ブログのシリーズでは、図表・グラフの作成や統計解析の方法について紹介いたします。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしています。(追記:募集は締め切られました)
SAS Japan と伊藤忠テクノソリューションズ株式会社は、第2回和歌山県データ利活用コンペティションに共同で協賛し、参加者に「データサイエンス教育プラットフォーム」を提供します。 このブログでは、データサイエンス教育プラットフォームの利用例をシリーズで紹介します。 本コンペティションは次世代のデータサイエンティストを育成することを目的に開催され、全国の高校生及び大学生が腕をふるいます。データサイエンス教育プラットフォームでは、プログラミングを知らない学生でもデータ分析ができるように、データの取り込み、集計、基本的な統計解析、高度な機械学習手法などをビジュアルなインターフェースで実行できる SAS Visual Analytics をWebブラウザから利用できます。