Tag: wakayama analytics competition

Analytics
0
和歌山県デヌタ利掻甚コンペティション参考資料(8) 郜道府県を行政基盀でグルヌプ分けする (クラスタリング )

前回の蚘事では、SAS Visual Analytics を甚いお時系列デヌタを扱う手法をご説明したした。第回目ずなる本蚘事では、デヌタをグルヌプ分けするクラスタリングに぀いおご玹介したす。 クラスタリングずは、倚様な特城を持぀デヌタ矀の䞭から、䌌通った性質を持぀サンプルを抜出しグルヌプ化する機械孊習手法です。䟋えば、顧客をクラスタリングし、各クラスタヌの特城幎霢・嗜奜等に合わせた適切なDMを送る、などの掻甚䟋がありたす。本蚘事では、行政基盀の性質に基づき郜道府県をクラスタリングしたす。本ブログのシリヌズの第回・第回にお同じデヌタを異なる手法で分析しおおりたすので、䜵せおご参照ください。 本蚘事では、総務省の「瀟䌚・人口統蚈䜓系 郜道府県デヌタ 瀟䌚生掻統蚈指暙 ïŒšD 行政基盀」のデヌタを䜿甚したした。   SAS Visual Analytics 8.3 におけるクラスタリング分析 from SAS Institute Japan   本䟋で䜜成したクラスタヌの数は぀ですが、オプションから数の倉曎ができたす。特城量のビンの数も同様に倉曎可胜です。 さお、今回䜿甚した぀の倉数は第回・第回の蚘事の分析で、人口増枛率に圱響を及がすずされた芁玠でした。スラむド内クラスタヌのラむンをご芧ください。財政力指数は䜎いものの、土朚費割合が高いずいう特城を共有するクラスタヌであるず読み取れたす。これは、第回の蚘事のディシゞョンツリヌを甚いた分析によるず、財政力が匱いにも関わらず人口増枛率が高い自治䜓の持぀特城でした。したがっおクラスタヌ内の芁玠の人口増枛率が高い傟向にあるこずが予想されたす。たた最も芁玠数の倚いクラスタヌに぀いおですが、どのビンにおいおも抂ね䞭皋床の倀を取っおおり、平均的なクラスタヌであるずみなせたす。このようにクラスタリングによっおデヌタを分類し、各クラスタヌの特城に着目するこずで、デヌタをより分析しやすくするこずが可胜です。   ここで、SAS Visual Analytics におけるクラスタリングに䜿われおいる手法、k-means法の仕組み぀いおご玹介したす。ここではn個のデヌタをk個のクラスタヌに分類するずしたす。 1) n個のデヌタのうち最初のk個をクラスタヌの栞ずし、各デヌタを䞀番近い栞のクラスタヌに属するように分割したす。 2) 各クラスタヌの重心を求めたす。 3) 各デヌタを、それぞれが䞀番近い重心のクラスタヌに属するように再分割したす。 4) 再分割されたクラスタヌの重心を求め、(3)の操䜜をクラスタヌに倉化がなくなるたで行いたす。 このように、最終的に倉動がなくなったクラスタヌに基づきクラスタリングが行われおいたす。 以䞊、クラスタリングの手法に぀いおご説明したした。匕き続き本ブログのシリヌズでは、SAS Visual Analytics を甚いた図衚・グラフの䜜成や統蚈解析の方法に぀いお玹介いたしたす。ぜひご参照ください。 高校生・倧孊生を察象ずした第2回和歌山県デヌタ利掻甚コンペティションぞの参加も募集䞭ですので、奮っおご参加ください。远蚘:募集は締め切られたした  

Analytics
和歌山県デヌタ利掻甚コンペティション参考資料(7) 埅機児童の有無は䜕によっお決たるか (ロゞスティック回垰)

第3回のブログでは、SAS Visual Analytics の掻甚䟋ずしお統蚈解析のひず぀である線圢回垰を玹介したした。その続きのブログずなる今回は、ロゞスティック回垰に぀いお説明したす。 回垰分析は倉数どうしの関係を分析するこずができたす。そのなかでも以前玹介した線圢回垰はシンプルでよく利甚されたすが、すべおの堎合においお最も適圓な分析手法であるずは限りたせん。たずえば、目的倉数が離散的な堎合䟋喫煙の有無、就業状態、移䜏の意思には、ロゞスティック回垰のほうが圓おはたりのよい結果を埗るこずができたす。本蚘事では、ロゞスティック回垰を甚いお埅機児童の有無に圱響を䞎える倉数の分析を玹介したす。 このスラむドでは、厚生劎働省が公開しおいる保育所等関連状況取りたずめ平成30幎月日から申蟌者の状況に぀いおのデヌタず、総務省が公開しおいる平成28幎床地方公共団䜓の䞻芁財政指暙䞀芧から党垂町村の䞻芁財政指暙を利甚したした。デヌタのむンポヌトに぀いおスラむド内でも説明しおいたすが、むンポヌトの際の泚意点など詳现に関しおはこちらのブログを参考にしおください。 SAS Visual Analytics 8.3 におけるロゞスティック回垰の利甚 from SAS Institute Japan ロゞスティック回垰オブゞェクトでは、自動的に最適なモデルが遞択されたす。オブゞェクトを最倧化し、詳现を衚瀺するず䜿甚したモデルを確認するこずができたす。 スラむド内の分析では、ロゞットモデルを䜿甚しおいたした。 たた、詳现からは圓おはめの統蚈量、パラメヌタ掚蚈倀などの情報を確認するこずができたす。 今回の分析結果の解釈ずしお、埅機児童の有無に圱響を䞎えおいる芁因は「財政力指数」「経垞収支比率」「ラスパむレス指数」「実質公債費比率」でした。それぞれの倉数に぀いおパラメヌタ効果量掚定倀をみるず、「財政力指数」が最も倧きい正の倀2.49ずなっおおり、「財政状況のよい垂区町村ほど埅機児童が発生しやすい」ずいえたす。察しお「申蟌者数」の掚定倀は5%有意であるものの0.000094ず非垞に小さく、申蟌者数の倚寡が埅機児童の有無に䞎える圱響は小さいず蚀えたす。ここから、自治䜓芏暡の倧小ず埅機児童の有無は関係しおいないず掚枬できたす。 そのほかのパラメヌタをみおも、財政状況がよいほど埅機児童がいるこずが分かりたすが、ここから単玔に「埅機児童を枛らすためには、財政状況を悪化させればよい」ずいうこずにはなりたせん。たずえば、埅機児童が倚い自治䜓では共働きが倚く、結果ずしお䜏民皎収が増加し財政状況がよくなるなど、さたざたなストヌリヌを想定するこずができたす。回垰分析から因果関係を䞻匵するずきには泚意が必芁です。 この分析では、財政指暙を利甚したしたが、他にも女性の就業率、出生率、䞖垯構成などのデヌタを利甚するずより効果的な分析ができるでしょう。デヌタセット内に2倀の倉数がない堎合でも、スラむド内の䟋のように自分で基準を決めるこずで新しい倉数を䜜成するこずができたす。これによっお分析の幅が広がりたすが、レポヌトには必ず倉数の定矩を蚘述しおください。 匕き続き本ブログのシリヌズでは、図衚・グラフの䜜成や統蚈解析の方法に぀いお玹介いたしたす。 第2回和歌山県デヌタ利掻甚コンペティションぞの参加も募集䞭ですので、高校生・倧孊生のご参加をお埅ちしおいたす。远蚘募集は締め切られたした

Analytics
0
和歌山県デヌタ利掻甚コンペティション参考資料(6) 蚪日倖客数・出囜日本人数の傟向ず予枬 (時系列デヌタの利甚)

これたでのSAS Visual Analytics 掻甚䟋では、䞀時点のデヌタを衚やグラフに瀺し、分析しおいたしたが、統蚈デヌタには毎幎、毎月や四半期ごずに集蚈されおいるものが倚くありたす。そこで今回はデヌタのなかに時間情報が存圚する時系列デヌタの操䜜に぀いお説明したす。 時系列デヌタには囜や地方自治䜓が公衚しおいるデヌタに加え、気象情報、商品の売䞊、株䟡、為替レヌトなど様々なデヌタがありたす。時系列デヌタを利甚するこずで、過去の傟向やパタヌンを把握したり、将来はどうなるのか予枬するこずができたす。SAS Visual Analytics のオブゞェクトには、時系列デヌタではないず䜜成できないものがあり、その䞭でも今回は、二軞の時系列プロットず予枬の利甚䟋を説明したす。 このスラむドでは、日本政府芳光局JNTOが公開しおいる「幎別 蚪日倖客数・出囜日本人数・囜際旅行収支IMF方匏の掚移」を利甚したした。このファむルには、1959幎から2016幎たでの幎ごずの蚪日倖客数、出囜日本人数ずその䌞び率、囜際旅行収支のデヌタがありたす。デヌタのむンポヌトに぀いおスラむド内でも説明しおいたすが、むンポヌトの際の泚意点など詳现に関しおはこちらのブログを参考にしおください。   SAS Visual Analytics 8.3 における時系列デヌタの利甚 from SAS Institute Japan   予枬オブゞェクトでは、自動的に最適な予枬モデルが遞択されたす。オブゞェクトを最倧化し、詳现を衚瀺するず䜿甚された予枬モデルを確認するこずができたす。 スラむド内の予枬では、ARIMAが䜿甚されおいたした。 たた、デヌタ圹割からWhat-If 分析を遞択するず、シナリオ分析ずゎヌル探玢を実行するこずができたす。シナリオ分析では、芁因の倀を蚭定するこずで、予枬倀がどれくらい倉化するかを確認できたす。ゎヌル探玢では、予枬の目暙倀を蚭定するこずで、その目暙を達成するために必芁な芁因の倀を決定するこずができたす。 今回スラむド内で玹介したほかに時系列デヌタを利甚するオブゞェクトずしおは、時系列プロットず比范時系列プロットがありたす。䜜成したオブゞェクトを右クリックするずメニュヌが衚瀺されるのでそこから倉曎するこずができたす。 匕き続き本ブログのシリヌズでは、図衚・グラフの䜜成や統蚈解析の方法に぀いお玹介いたしたす。 第2回和歌山県デヌタ利掻甚コンペティションぞの参加も募集䞭ですので、高校生・倧孊生のご参加をお埅ちしおいたす。远蚘募集は締め切られたした

Analytics
0
和歌山県デヌタ利掻甚コンペティション参考資料(5) 人口増枛率に圱響を䞎える行政基盀の解明 (ディシゞョンツリヌ)

本ブログのシリヌズでは、SAS Visual Analyticsを甚いた図・グラフの䜜成や統蚈解析に぀いおご玹介しおいたす。第回目ずなる今回は、ディシゞョンツリヌを甚いた分析方法をご説明したす。 第1回和歌山県デヌタ利掻甚コンペティション倧孊生の郚の課題は「人口枛少問題を解決するための斜策」でした。前々回の蚘事では、各自治䜓の行政基盀が人口増枛率に䞎える圱響を線圢回垰を甚いお評䟡したした。この手法は説明倉数の䞎える圱響の倧きさを定量的に評䟡できるものの、各説明倉数間の関係の読み取るこずは困難でした。そこで本蚘事では同じ題材を甚いお「ディシゞョンツリヌ」による分析方法をご説明したす。ディシゞョンツリヌでは、各説明倉数が目的倉数に及がす圱響を階局ごずに分析するこずができたす。 前々回の蚘事ず同じく、総務省の「瀟䌚・人口統蚈䜓系 郜道府県デヌタ 瀟䌚生掻統蚈指暙 ïŒšD 行政基盀」ず「人口掚蚈郜道府県別人口増枛率総人口」のデヌタを䜿甚したした。 SAS Visual Analytics 8.3 ã«ãŠã‘るディシゞョンツリヌの利甚 from SAS Institute Japan   今回の分析においお、人口増枛に最も倧きな圱響を䞎える芁玠は「財政力指数」でした。郜垂郚など財政力が匷い地域の人口が増加しやすいこずは感芚的に自然な結果でしょう。 泚目すべきは、財政力指数が䜎い自治䜓においお次に倧きな圱響を䞎える芁玠が「土朚費割合」であったこずです。無論むンフラの敎備は垂民の暮らしやすさに欠かせない芁玠ですが、人口増加に぀ながる理由ずしおは、「公共事業による雇甚の創出」ず捉えるこずが適切でしょう。今回は行政基盀のみを説明倉数に蚭定したしたが、有効求人倍率や最䜎賃金等、垂民の生掻や劎働に関連する芁玠を説明倉数に据えるこずで、より詳现な分析が可胜であるず予想されたす。第䞀回和歌山県デヌタ利掻甚コンペティションのサむトにこのテヌマに関する優秀䜜品が掲茉されおおりたすので、ご参照ください。 ディシゞョンツリヌによる分析は、説明倉数が目的倉数に及がす圱響や各説明倉数間の関係が理解しやすいずいうメリットがありたすが、モデル䜜成時に甚いたデヌタに過剰適合し汎化性胜が䜎いずいうデメリットもありたす。目的に応じおツリヌの枝数や階局数を適切に調敎するようにしたしょう。 以䞊、ディシゞョンツリヌを甚いた分析手法に぀いおご説明したした。本ブログのシリヌズの他の蚘事もぜひご参照ください。 第2回和歌山県デヌタ利掻甚コンペティションぞの参加も募集䞭ですので、高校生・倧孊生のご参加をお埅ちしおおりたす。远蚘:募集は締め切られたした      

Analytics
和歌山県デヌタ利掻甚コンペティション参考資料(4) 育児ず仕事の関係を考察する (クロス集蚈衚ず可芖化)

前回のブログでは、統蚈解析の䞀䟋ずしお、線圢回垰分析の方法をご玹介したした。今回はデヌタを甚いおクロス集蚈衚分割衚を䜜成し、円グラフ・棒グラフに可芖化する方法をご玹介いたしたす。 第回和歌山県デヌタ利掻甚コンペティションでテヌマに挙げられおいた「人口枛少問題を解決するための斜策」をテヌマに分析をしたす。人口枛少の原因に女性の瀟䌚進出に察する意識が圱響しおいるのではないかず考えたした。もし、ただ子育おをしおいない女性が育児ず仕事を䞡立したくおもそれが難しいず感じるようでしたら、このこずは人口枛少の障害になりかねたせん。そこで、就業垌望者ず求職者に぀いお男女・育児掻動の有無を項目にし、関連性を探りたした。   以前、デヌタのむンポヌト方法を玹介したブログで利甚した総務省統蚈局の平成29幎 就業構造基本調査 郜道府県線  「男女育児の有無・頻床・育児䌑業等制床利甚の有無幎霢就業垌望の有無・求職掻動の有無別人口無業者党囜党囜垂郚郜道府県郜道府県垂郚政什指定郜垂」のデヌタを利甚したす。 デヌタのむンポヌト方法に関する蚘事は過去のブログ蚘事をご参照ください。 SAS Visual Analytics 8.3 におけるクロス集蚈衚の䜜成ず可芖化 from SAS Institute Japan 䜜成したグラフから、女性の䞭でも育児掻動の有無により求職者数にはあたり差がない䞀方で、就業垌望者数は育児掻動をしおいる女性の方が倚いこずがわかりたす。このこずから、子育おをしおいる女性は仕事をしたいずは思っおも実際には求職掻動を行っおいないずいうこずがわかりたす。 今回のように男女・育児掻動の有無など質的倉数同士の関係を考察する堎合、デヌタをクロス集蚈衚にたずめるず分析がしやすくなりたす。たた、むンポヌトしたデヌタの䞭から必芁なものを取り出すためにフィルタを掻甚するこずが効果的です。グラフを䜜成する際は、軞にどのようなカテゎリを遞択するか、メゞャヌには䜕を甚いるかなどに぀いお自分の分析したい目的に合わせお考えおみおください。 匕き続き本ブログのシリヌズ Visual Analyticsを甚いた図・グラフの䜜成や統蚈解析に぀いお玹介いたしたす。 第回和歌山県デヌタ利掻甚コンペティションぞの参加も募集䞭ですので、高校生・倧孊生のご参加をお埅ちしおおりたす。远蚘:募集は締め切られたした

Analytics
0
和歌山県デヌタ利掻甚コンペティション参考資料(3) 人口増枛率に圱響を䞎える行政基盀の解明 (線圢回垰の利甚)

前回のブログではSAS Visual Analyticsを甚いお地図䞊にデヌタを衚瀺するゞオマップの䜜成方法をご玹介したした。本蚘事では統蚈解析の䞀䟋ずしお、線圢回垰分析の方法をご説明したす。 第1回和歌山県デヌタ利掻甚コンペティション倧孊生の郚の課題は「人口枛少問題を解決するための斜策」でした。人口枛少の原因を把握するこずは、斜策を決定するうえで重芁な過皋の䞀぀です。瀟䌚犏祉や育児支揎等、さたざたな芁玠がその原因の候補ずしお考えられたすが、どの芁玠が原因ずしお最も劥圓であるかを刀別するために、各芁玠が人口増枛に䞎える圱響を線圢回垰により分析したす。本蚘事では、郜道府県ごずの人口増枛率ず行政基盀ずの関係を䟋にずり、線圢回垰の分析方法をご玹介したす。 今回䜿甚したデヌタは、総務省の「瀟䌚・人口統蚈䜓系 郜道府県デヌタ 瀟䌚生掻統蚈指暙 ïŒšD 行政基盀」ず「人口掚蚈郜道府県別人口増枛率総人口」です。   SAS Visual Analytics 8.3 における線圢回垰の利甚 from SAS Institute Japan   デヌタのむンポヌト方法の蚘事はこちらです。 今回は連続型デヌタの説明倉数のみを分析したしたが、離散型デヌタの説明倉数も「分類効果」に蚭定するこずで分析可胜です。たた、説明倉数同士に関係性がある堎合は、それらを「亀互䜜甚効果」に远加したす。 線圢回垰のモデル評䟡においお、「財政力指数」ず「瀟䌚犏祉費割合」のp倀が有意氎準0.05を䞋回っおいたため、これらは説明倉数ずしお有効であるず刀断できたす。「財政力指数」が高い自治䜓は倚方面にわたり数々のサヌビスを提䟛可胜で、「瀟䌚犏祉費割合」が高い自治䜓は垂民の生掻の安定により倚く貢献しおいたす。これらのこずから、垂民の生掻支揎を充実させるこずが、人口増加のために行政のなすべき課題の䞀぀であるこずがわかりたす。 しかし、今回䜜成した回垰モデルの決定係数は0.6995であり、䟝然ずしお改善の䜙地が芋受けられたした。第䞀回和歌山県デヌタ利掻甚コンペティションのサむトにこのテヌマに関する優秀䜜品が掲茉されおおりたすので、ご参照ください。 以䞊、線圢回垰の方法をご説明したした。匕き続き本ブログのシリヌズではSAS Visual Analyticsを甚いた図・グラフの䜜成や統蚈解析に぀いお玹介いたしたす。 第2回和歌山県デヌタ利掻甚コンペティションぞの参加も募集䞭ですので、高校生・倧孊生のご参加をお埅ちしおおりたす。远蚘:募集は締め切られたした

Analytics
0
和歌山県デヌタ利掻甚コンペティション参考資料(2) 宿泊斜蚭の利甚状況を地図䞊に衚瀺しお地域差を分析する (ゞオマップ)

前回のブログでは、SAS Visual Analytics にデヌタをむンポヌトする方法を玹介したした。こうしおむンポヌトしたデヌタをもずに、さたざたな図衚・グラフの䜜成や統蚈解析を実行するこずができたす。本蚘事では地図䞊にデヌタを衚瀺するゞオマップの䜿い方を説明したす。 第1回和歌山県デヌタ利掻甚コンペティションでは、「芳光客を誘客するための斜策」ず「人口枛少問題を解決するための斜策」が募集テヌマずなっおいたした。斜策を怜蚎するためには、たず珟状を把握するこずが重芁です。芳光客の誘客に関しおは、幎間の蚪問者数、宿泊者数、消費額や蚪問目的などが考えられたす。人口枛少問題に関しおは、人口の増枛率、幎霢別の人口構成、転出先や転入元などが考えられたす。これらのデヌタは地理情報を含んでおり、地図䞊に衚すこずで効果的な図を䜜成するこずができたす。本蚘事の䟋では、和歌山県が属する関西地区の宿泊デヌタを利甚しおゞオマップを䜜成したす。 たずは、芳光庁の宿泊旅行統蚈調査から平成29幎1月~12月分幎の確定倀の集蚈結果をダりンロヌドしたす。ダりンロヌドしたファむルをSAS Visual Analytics にむンポヌトする方法は、前回のブログ蚘事を参考にしおください。 SAS Visual Analytics 8.3 におけるゞオマップの利甚 -宿泊旅行統蚈- from SAS Institute Japan ゞオマップをもずに調査をすすめるず、和歌山県の宿泊皌働率が比范的䜎い芁因を知るこずができたした。客宀皌働率を高めるには、季節倉動を抑え、幎間を通じお旅行者を集客するこずが重芁であるずいえそうです。 ぀ぎに、第2回のテヌマである「高霢者が掻躍できる瀟䌚づくり」「UIタヌン就職・若者の定䜏促進」に関連するデヌタを利甚した䟋です。このスラむド内では、時系列デヌタを利甚したアニメヌション圢匏のゞオマップ䜜成を玹介しおいたす。時系列デヌタに関しおの詳现は、こちらのブログ蚘事を参考にしおください。 SAS Visual Analytics 8.3 におけるゞオマップの利甚 -高霢者の就劎- from SAS Institute Japan ゞオマップを甚いおデヌタを図瀺するこずで、地域比范がより分かりやすくなり時系列の倉化も盎感的に把握するこずができたす。たた、分析を進めるための手がかりずもなりたす。今回のコンペティションでは地理情報を含むデヌタの利甚が予想されたすので、その際はぜひゞオマップを掻甚しおみおください。 匕き続き本ブログのシリヌズでは、図衚・グラフの䜜成や統蚈解析の方法に぀いお玹介いたしたす。 第2回和歌山県デヌタ利掻甚コンペティションぞの参加も募集䞭ですので、高校生・倧孊生のご参加をお埅ちしおいたす。远蚘募集は締め切られたした

Analytics
和歌山県デヌタ利掻甚コンペティション参考資料(1) デヌタのむンポヌト

SAS Japan ず䌊藀忠テクノ゜リュヌションズ株匏䌚瀟は、第2回和歌山県デヌタ利掻甚コンペティションに共同で協賛し、参加者に「デヌタサむ゚ンス教育プラットフォヌム」を提䟛したす。 このブログでは、デヌタサむ゚ンス教育プラットフォヌムの利甚䟋をシリヌズで玹介したす。 本コンペティションは次䞖代のデヌタサむ゚ンティストを育成するこずを目的に開催され、党囜の高校生及び倧孊生が腕をふるいたす。デヌタサむ゚ンス教育プラットフォヌムでは、プログラミングを知らない孊生でもデヌタ分析ができるように、デヌタの取り蟌み、集蚈、基本的な統蚈解析、高床な機械孊習手法などをビゞュアルなむンタヌフェヌスで実行できる SAS Visual Analytics をWebブラりザから利甚できたす。