Tag: academic

Students & Educators
データサイエンティストに求められる「本当の役割」とは

最近、SNSなどで「AI開発ミステリー ~そして誰も作らなかった~」という記事が話題になりました。人工知能(AI)を導入しようという企業の最悪の顛末をコミカルに描いたジョーク・ストーリーですが、これを面白がる人が多いというのは、多少なりとも日本のIT業界の現実を反映しているのかもしれません。 このような事態になっているのは、AIに対する過度な期待が原因の一つかもしれません。AIは、機械に任せれば素晴らしいことが起こる魔法ではなく、明確に定義されたタスクを実行するように機械をトレーニングする方法です。人間が行うタスクを機械が代替することになるのですが、人間が活動しているシステムのなかで、どの部分を機械にやらせるかを考え、実装し、運用しなければなりません。これは、これまでSASが実現してきたアナリティクスの延長にほかなりません。 「AIが発達すればデータサイエンティストはいらない」という説もあります。データサイエンティストが機械学習を実装する役割だけを持つのであれば、そうかもしれません。しかし、本当に必要とされる仕事が「人間が活動するシステムの中でのアナリティクスの活用」であるなら、まさにAIが使われる仕組みを考え、実装し、運用できる状態にする人材こそが求められているのではないでしょうか。 今年5月、SAS Forum Japan のなかで開催された「データサイエンティスト・キャリア・トラック」では、アナリティクスを活用する組織のなかでデータサイエンティストがどのように活躍するかについて、企業の方々から学生向けの講演をいただきました。例えば、ITや数理モデルを使いこなせることは初級レベルで、ビジネススキルを身に着けながら、最終的には経営幹部候補となるキャリアパスを提示している組織や、一方で、趣味で培ったスキルをビジネスに生かすデータサイエンティストがいます。このように、データサイエンティストのキャリアは組織・個人によってさまざまですので、多様人材がそれぞれの強みをもって活躍することができそうです。 しかし、どの組織・個人でも共通しているのは「目的志向」である点です。何のためにデータ分析をするのか、それがどのような価値を持つのかを明確にしなければ、課題解決のためのデータ分析はできません。データサイエンティストは単にデータ分析の技術で課題解決するだけでなく、「課題設定」をする役割を持たなければ本当の価値は生み出せないのです。そもためには、さまざまな問題意識を抱える人たちと異業種交流をするなど、幅広い視野が必要となりそうです。 データサイエンティスト協会が示した3つのスキルのうち、「ビジネススキル」については、ときどき「ドメイン知識」(業界や業務についての知識)として紹介されることがあります。しかし、本当に必要なのは、その知識を解決すべき課題に変換する力だと考えます。データサイエンティストを目指す学生が、すべての業界・業務についての知識を得ることは難しいですが、アナリティクスが活用される代表的な業界において、どんな課題がどのようにアナリティクスにより解決されているかを知ることで、応用力を身に着けられるのではないでしょうか。そこで、SAS Japanでは、次のような内容の学生向けセミナー「データサイエンティストのキャリアと活躍のかたち」をシリーズで開催します。 データサイエンティストのキャリア ... 「データサイエンティスト・キャリア・トラック」の講師陣による、それぞれの組織や個人としてのデータサイエンティストのキャリアや活躍のかたちを紹介 ビジネスで活用されるアナリティクス ... データサイエンスやアナリティクスがどのような業界のどんな課題を解決するために活用されているかをSAS社員が紹介 学生によるデータサイエンスの学び ... 学生がどのようにデータサイエンスを学習しているかを学生自身による体験を交えながら紹介 第1回は11月30日(金)に開催します。データサイエンティストを目指す学生の皆様のご参加をお待ちしています。

Analytics
0
和歌山県データ利活用コンペティション参考資料(8) 都道府県を行政基盤でグループ分けする (クラスタリング )

前回の記事では、SAS Visual Analytics を用いて時系列データを扱う手法をご説明しました。第7回目となる本記事では、データをグループ分けするクラスタリングについてご紹介します。 クラスタリングとは、多様な特徴を持つデータ群の中から、似通った性質を持つサンプルを抽出しグループ化する機械学習手法です。例えば、顧客をクラスタリングし、各クラスターの特徴(年齢・嗜好等)に合わせた適切なDMを送る、などの活用例があります。本記事では、行政基盤の性質に基づき都道府県をクラスタリングします。本ブログのシリーズの第3回・第5回にて同じデータを異なる手法で分析しておりますので、併せてご参照ください。 本記事では、総務省の「社会・人口統計体系 都道府県データ 社会生活統計指標 :D 行政基盤」のデータを使用しました。   SAS Visual Analytics 8.3 におけるクラスタリング分析 from SAS Institute Japan   本例で作成したクラスターの数は5つですが、オプションから数の変更ができます。特徴量のビンの数も同様に変更可能です。 さて、今回使用した5つの変数は第3回・第5回の記事の分析で、人口増減率に影響を及ぼすとされた要素でした。スライド内クラスター2のラインをご覧ください。財政力指数は低いものの、土木費割合が高いという特徴を共有するクラスターであると読み取れます。これは、第5回の記事のディシジョンツリーを用いた分析によると、財政力が弱いにも関わらず人口増減率が高い自治体の持つ特徴でした。したがってクラスター2内の要素の人口増減率が高い傾向にあることが予想されます。また最も要素数の多いクラスター5についてですが、どのビンにおいても概ね中程度の値を取っており、平均的なクラスターであるとみなせます。このようにクラスタリングによってデータを分類し、各クラスターの特徴に着目することで、データをより分析しやすくすることが可能です。   ここで、SAS Visual Analytics におけるクラスタリングに使われている手法、k-means法の仕組みついてご紹介します。ここではn個のデータをk個のクラスターに分類するとします。 1) n個のデータのうち最初のk個をクラスターの核とし、各データを一番近い核のクラスターに属するように分割します。 2) 各クラスターの重心を求めます。 3) 各データを、それぞれが一番近い重心のクラスターに属するように再分割します。 4) 再分割されたクラスターの重心を求め、(3)の操作をクラスターに変化がなくなるまで行います。 このように、最終的に変動がなくなったクラスターに基づきクラスタリングが行われています。 以上、クラスタリングの手法についてご説明しました。引き続き本ブログのシリーズでは、SAS Visual Analytics を用いた図表・グラフの作成や統計解析の方法について紹介いたします。ぜひご参照ください。 高校生・大学生を対象とした第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、奮ってご参加ください。(追記:募集は締め切られました)  

Analytics
0
和歌山県データ利活用コンペティション参考資料(7) 待機児童の有無は何によって決まるか (ロジスティック回帰)

第3回のブログでは、SAS Visual Analytics の活用例として統計解析のひとつである線形回帰を紹介しました。その続きのブログとなる今回は、ロジスティック回帰について説明します。 回帰分析は変数どうしの関係を分析することができます。そのなかでも以前紹介した線形回帰はシンプルでよく利用されますが、すべての場合において最も適当な分析手法であるとは限りません。たとえば、目的変数が離散的な場合(例:喫煙の有無、就業状態、移住の意思)には、ロジスティック回帰のほうが当てはまりのよい結果を得ることができます。本記事では、ロジスティック回帰を用いて待機児童の有無に影響を与える変数の分析を紹介します。 このスライドでは、厚生労働省が公開している保育所等関連状況取りまとめ(平成30年4月1日)から申込者の状況についてのデータと、総務省が公開している平成28年度地方公共団体の主要財政指標一覧から全市町村の主要財政指標を利用しました。データのインポートについてスライド内でも説明していますが、インポートの際の注意点など詳細に関してはこちらのブログを参考にしてください。 SAS Visual Analytics 8.3 におけるロジスティック回帰の利用 from SAS Institute Japan ロジスティック回帰オブジェクトでは、自動的に最適なモデルが選択されます。オブジェクトを最大化し、詳細を表示すると使用したモデルを確認することができます。 スライド内の分析では、ロジットモデルを使用していました。 また、詳細からは当てはめの統計量、パラメータ推計値などの情報を確認することができます。 今回の分析結果の解釈として、待機児童の有無に影響を与えている要因は「財政力指数」「経常収支比率」「ラスパイレス指数」「実質公債費比率」でした。それぞれの変数についてパラメータ(効果量)推定値をみると、「財政力指数」が最も大きい正の値(2.49)となっており、「財政状況のよい市区町村ほど待機児童が発生しやすい」といえます。対して「申込者数」の推定値は(5%有意であるものの)0.000094と非常に小さく、申込者数の多寡が待機児童の有無に与える影響は小さいと言えます。ここから、自治体規模の大小と待機児童の有無は関係していないと推測できます。 そのほかのパラメータをみても、財政状況がよいほど待機児童がいることが分かりますが、ここから単純に「待機児童を減らすためには、財政状況を悪化させればよい」ということにはなりません。たとえば、待機児童が多い自治体では共働きが多く、結果として住民税収が増加し財政状況がよくなるなど、さまざまなストーリーを想定することができます。回帰分析から因果関係を主張するときには注意が必要です。 この分析では、財政指標を利用しましたが、他にも女性の就業率、出生率、世帯構成などのデータを利用するとより効果的な分析ができるでしょう。データセット内に2値の変数がない場合でも、スライド内の例のように自分で基準を決めることで新しい変数を作成することができます。これによって分析の幅が広がりますが、レポートには必ず変数の定義を記述してください。 引き続き本ブログのシリーズでは、図表・グラフの作成や統計解析の方法について紹介いたします。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしています。(追記:募集は締め切られました)

1 7 8 9 10 11 15