和歌山県データ利活用コンペティション参考資料(8) 都道府県を行政基盤でグループ分けする (クラスタリング )

前回の記事では、SAS Visual Analytics を用いて時系列データを扱う手法をご説明しました。第７回目となる本記事では、データをグループ分けするクラスタリングについてご紹介します。

クラスタリングとは、多様な特徴を持つデータ群の中から、似通った性質を持つサンプルを抽出しグループ化する機械学習手法です。例えば、顧客をクラスタリングし、各クラスターの特徴（年齢・嗜好等）に合わせた適切なDMを送る、などの活用例があります。本記事では、行政基盤の性質に基づき都道府県をクラスタリングします。本ブログのシリーズの第３回・第５回にて同じデータを異なる手法で分析しておりますので、併せてご参照ください。

本記事では、総務省の「社会・人口統計体系都道府県データ社会生活統計指標：D　行政基盤」のデータを使用しました。

SAS Visual Analytics 8.3 におけるクラスタリング分析 from SAS Institute Japan

本例で作成したクラスターの数は５つですが、オプションから数の変更ができます。特徴量のビンの数も同様に変更可能です。

さて、今回使用した５つの変数は第３回・第５回の記事の分析で、人口増減率に影響を及ぼすとされた要素でした。スライド内クラスター２のラインをご覧ください。財政力指数は低いものの、土木費割合が高いという特徴を共有するクラスターであると読み取れます。これは、第５回の記事のディシジョンツリーを用いた分析によると、財政力が弱いにも関わらず人口増減率が高い自治体の持つ特徴でした。したがってクラスター２内の要素の人口増減率が高い傾向にあることが予想されます。また最も要素数の多いクラスター５についてですが、どのビンにおいても概ね中程度の値を取っており、平均的なクラスターであるとみなせます。このようにクラスタリングによってデータを分類し、各クラスターの特徴に着目することで、データをより分析しやすくすることが可能です。

ここで、SAS Visual Analytics におけるクラスタリングに使われている手法、k-means法の仕組みついてご紹介します。ここではn個のデータをk個のクラスターに分類するとします。

1)　n個のデータのうち最初のk個をクラスターの核とし、各データを一番近い核のクラスターに属するように分割します。

2)　各クラスターの重心を求めます。

3)　各データを、それぞれが一番近い重心のクラスターに属するように再分割します。

4)　再分割されたクラスターの重心を求め、(3)の操作をクラスターに変化がなくなるまで行います。

このように、最終的に変動がなくなったクラスターに基づきクラスタリングが行われています。

以上、クラスタリングの手法についてご説明しました。引き続き本ブログのシリーズでは、SAS Visual Analytics を用いた図表・グラフの作成や統計解析の方法について紹介いたします。ぜひご参照ください。

高校生・大学生を対象とした第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、奮ってご参加ください。（追記:募集は締め切られました）

Blogs

Blogs

和歌山県データ利活用コンペティション参考資料(8) 都道府県を行政基盤でグループ分けする (クラスタリング )

About Author