Students & Educators

Discover how SAS is shaping tomorrow’s brightest analytical minds

Analytics | Learn SAS | Students & Educators
見習いデータサイエンティストが思うキャリアの選び方 【アナリティクスを活用するキャリア: SAS Japan】

アカデミア向けにアナリティクス・データサイエンスのキャリアを紹介するイベント「SAS アナリティクス・キャリアシンポジウム」において、SAS Institute Japan 株式会社 コンサルティングサービス統括本部のクラウス 舞恵瑠 氏が講演しました。本イベントは、「データサイエンティストになりたい」と考える学生が業務内容やキャリアをイメージできるようになることを目指し、2021年12月22日(水)に開催されました。前回の記事はこちら。 「大学院のときに学会に参加し、『もっと数学をやりたい』と気づいたときには、すでに就活が終わっていました…」と振り返るクラウス氏は、大学院ではオペレーションズ・リサーチを専攻していました。「やりたいことが分からないから」という理由でコンサルティングファームに就職し、システムの導入支援の業務につきましたが、在学中に参加した学会で芽生えた「数理的な手法で問題解決をしてみたい」という思いが強くなり、SAS Japanへの転職を決意します。 クラウス氏がSASで携わっている直近のプロジェクトのテーマは、「不良債権回収業務の回収益向上」というものです。通常、債務の返済を督促するときは電話をかけますが、人によっては訴訟に発展してしまう可能性もあります。そこで、返済状況や債務者のタイプによって督促の方法を変更したり、場合によっては債務を減額する提案をするほうが長期的には回収額が向上する場合があったりします。どのような督促・回収方法を取るのがよいのか、回収担当者の意思決定を支援するために、強化学習や最適化手法といったデータ分析を活用します。 「一般的なプロジェクトには業務フローがありますが、それぞれのフェーズにおいて必要となるスキルや知識は異なります」とクラウス氏は言います。プロジェクトのフェーズは①現状分析/効果検証、②要件定義、③設計/開発/テスト、④導入支援、⑤本番稼働、の5つに分けられます。それぞれのフェーズにおいて、①分析とドメイン知識、②コミュニケーション、③エンジニアリング、④コミュニケーション、⑤エンジニアリングのスキルが重要になります。 分析スキルのベースには線形代数、微分、統計などの数学的な力があり、それを活用するためにSASやPythonなどのツールやプログラミングのスキルがあります。業界やクライアントの業務に関する知識であるドメイン知識は、クラウス氏によると「非常に重要なもの」ですが、一方で「学生の間に身につけることは難しい」ものです。コミュニケーション・スキルは、クライアントの課題を明確にするためにヒアリングを実施し、また、プランや結果をクライアントにフィードバックするための資料を作成し、わかりやすく説明するためのスキルです。エンジニアリング・スキルは、参画するプロジェクトにもよりますが、GithubやSQLなどのテクノロジーを扱う技術が求められる傾向にあります。このうち、分析スキルは大学の授業などを通して、コミュニケーション・スキルはゼミなどを通して学生のうちに身につけることができそうです。 「これらのスキルをすべて伸ばしていくことはもちろん望ましいですが、私の現在の課題としては、より高度な分析スキルを身につけることです。そのためには、独学、勉強会、YouTubeなどさまざまな勉強法がありますが、一番大切なのは実務経験だと考えています」とクラウス氏は述べます。「学生にとっては実務経験を得ることは難しいですが、就職したあとに積極的に実務に携わり、経験を通してスキルを向上させていく意欲が大切です」と学生にエールを送りました。

Analytics | Students & Educators
0
本当の原因は何か?:潜在アウトカムによる因果効果の定義

はじめに   データに基づいた意思決定が必要とされる場面が近年ますます増えており、そういった際には、データからいかに因果関係を導き出すかが非常に重要な問題です。”因果”を統計学的に捉え、いかにしてそれに迫るかは、統計的因果推論として体系化がなされています。SAS Blogでは、前回の記事からこの統計的因果推論に関する連載コラム・シリーズが始まりました。  因果関係を統計学的に導くことを目的とする統計的因果推論には、主に2つの枠組みがあります。1つは潜在アウトカムを用いるRubin流の考え方、そしてもう1つが構造的因果モデルを用いるPearl流の考え方です。これら2つの考え方は相反するものではなく、Pearl流の因果推論では、ある変数の特徴とそれらの関係を記述するために構造的因果モデル  (SCM; Structural Causal Model) が用いられています。このSCMには対応するグラフィカル因果モデルがそれぞれ存在しており、その際に使用されるのが有向非巡回グラフ (DAG; Directed Acyclic Graph)※1です。このDAGはRubin流の因果推論においても、変数間の関係を視覚的に理解するために補助的に利用がされています。本コラム・シリーズでは前者の潜在アウトカムの枠組みでの因果推論について紹介を行います。今回は特にその根底となる潜在アウトカムについて、また、それを用いた因果関係の定義について説明します。  ※1 補足資料を参照    相関関係と因果関係   相関関係とは、ある2つの変数において、一方が増加するにつれてもう一方も増加(減少)する傾向があるという双方向の関係を意味しています。これに対し因果関係とは、ある2つの変数のうち、一方の操作可能な変数(原因)の値を変化させる(介入を行う)と、もう一方(結果)の値が変化するという、原因から結果への一方向的な関係です。これらの関係の違いを理解することは社会生活を送る上で非常に重要です。例えば、相関関係がある有名な例として、年収と血圧の関係があります。この2つの変数の間には正の相関関係(年収が高くなるほど血圧が高い傾向)があります。しかし、年収を上げるために血圧を上げる(Ex, 暴飲暴食を行う)ことは妥当でしょうか。もしくは、血圧を下げるために年収を下げる(Ex, 転職をする)ことは受け入れられることでしょうか。おそらく多くの読者の方の意見は「No」であるかと思います。この例からも察することができるように、相関関係と因果関係の存在とその方向というものは必ずしも一致しません。また、これらの関係を混同することは大きな不利益につながる可能性があります。上記の例であれば、真には血圧の増加は年収増加に対して因果的な効果を持たないのにも関わらず年収を上げるために無駄に暴飲暴食を行ってしまうことで、結果として不健康につながる可能性があります。   このように興味の対象が因果関係、因果効果である場面は比較的多く存在します。統計的因果推論 (causal inference) とはこれらを形而的、哲学的にではなく、統計学的に考える学問分野です。また、単に因果推論と言われる場合もあり、コラム中で単に因果推論と呼称した場合には、統計的因果推論を意味していることにご注意ください。データから因果効果を推定するために「傾向スコア」を用いた手法など様々なものが用いられています。しかし、これらの手法は適用さえすれば因果効果を適切に推定することができるというわけではありません。因果推論を行うにあたっては因果関係を検討する集団はどういった集団であるか、考える因果効果はどのような介入の効果であるかといった因果的な疑問 (causal question) を明確にすることがまず重要です。その上でデータへの手法の適用があります。また、それぞれの手法は異なる仮定を必要とするため、無条件で因果効果を求めることはできず、その仮定が目の前にあるデータに対してどの程度成立するものであるかといった議論も必要です。 加えて、推定する対象が手法間で異なるといった点や真の関係をゆがませる要因は何が想定されるのかなど、他にも様々な事を考慮する必要があり、慎重に議論を行っていくことが大切です。本コラムでは潜在アウトカムの枠組みでの因果推論の理論(考え方)と、一部の因果効果の推定手法についてのみ取り扱いますが、現実的にはそのような総合的な議論が重要です。    本コラムにおける用語   今回のコラムでは、心臓移植とその5日後の生存の間の因果関係を具体例として考えます。すなわち、心臓移植という介入が5日間の生存というアウトカムに対して、因果効果を持つかどうかを検討します。医療の分野では原因として考える要因を介入 (intervention) や処置 (treatment) 、曝露 (exposure)、結果変数のことをアウトカム (outcome) と呼ぶことが一般的であり、このコラム・シリーズでは、具体例として主に医療関連の話題を取り上げるため、基本的にはこのような呼称を行います。経済・金融系の分野では、因果効果があるかどうか検討したい要因が施策等である場面があるかと思いますが、因果推論の理論に関して変わりはないので、本コラムの例を読者の方がそれぞれ抱えている疑問に置き換えて考えるとよいでしょう。ただ、今後紹介する因果推論に関する様々な仮定の妥当性や分析に用いられるデータの特徴は、それぞれの分野によって異なりますので、その点ご理解ください。    潜在アウトカムによる因果効果   それでは早速、例を用いて潜在アウトカムとは何か、因果関係とは何かを考えていきます。具体的には心臓移植(介入)が5日後の生存(アウトカム)に対して因果的な効果があるのかどうかを考えます。この関係を検討するために、まずゼウスとヘラというある2人に対し、ともに介入を行うことを想定し、何らかの方法で以下の結果が得られたものとします。  ゼウスは1月1日に心臓移植を受けると、その5日後には死亡している。 ヘラは1月1日に心臓移植を受けると、その5日後は生存している。   このもしもの結果(介入を行う場合の結果)が分かったとき、心臓移植はゼウスとヘラの5日間の生存に対してそれぞれ因果効果を持つと結論付けることは可能でしょうか。一見すると、ゼウスは心臓移植後に死亡し、ヘラは生存していますので、ゼウスに対してはnegativeな因果効果(心臓移植により死亡した)、ヘラに対してはpositiveな因果効果(心臓移植により生存した)があったように見えます。しかし、その結論は正しいのでしょうか。もしかすると心臓移植を受けずとも、ゼウスは5日後には亡くなり、ヘラは生きていたのかもしれません(結果は変わらなかった)。もしくは心臓移植を行わなければ、逆にゼウスは生存し、ヘラは亡くなっていたのかもしれません。つまり因果効果があるかどうかについては、この結果だけでは判断することはできません。   では、どのような状況であれば因果関係かどうかを判断することができるでしょうか。その1つのアイディアがもし介入を受けなかったらどのような結果が得られたのかを考えることです。実際にはゼウスもヘラも介入を受けるか受けないかのいずれかしか取り得ないため、必ずどちらか一方の結果は現実的には得られない(反事実)ものとなってしまいますが※2、先ほどと同様に何かしらの方法でその場合の結果を知ることができたと仮定し、それぞれの場合の結果を比較するわけです。そして、それらの値が異なるのであれば介入の因果効果があるとし、同一であるのならば因果効果がないと判断します。   ゼウスとヘラに関しては、以下のようなifの結果が得られたとします。  ゼウスは1月1日に心臓移植を受けないと、その5日後は生存している。 ヘラは1月1日に心臓移植を受けないと、その5日後は生存している。   先程の結果も含め、介入を受ける場合と受けない場合の結果をまとめたものが下図です。   介入を受けない場合の結果が得られたことにより、心臓移植はゼウスに対しては5日後の生存に対し因果効果を与えた(ネガティブな効果)、ヘラには因果効果を与えなかった(介入があってもなくても結果は同じ)と判断することができます。おそらく、この判断に関しては読者の方々も特に異論はないかと思います。この例のように、ある介入を受けた場合のifの結果のことを潜在アウトカム (potential outcomes)

Analytics | Students & Educators
0
本当の原因は何か?:コラム概要

はじめに   根拠に基づいた意思決定を行うこと (EBPM; Evidence Based Policy Making) が、近年分野を問わず重要視されるようになってきています。意思決定を行う立場としては、根拠となる事象と結果の事象の間に因果関係があるのか、それとも相関関係しかないのかは大変大きな違いです。   因果関係と相関関係を混同した1つの有名な例として、チョコレート摂取量とノーベル賞の受賞者数に関する研究があります。この研究では、「チョコレートを多く摂取するとノーベル賞受賞者数が増加する」という因果関係の存在について触れられています。この論文は、2012年に世界で最も権威のある医学雑誌の1つである New England Journal of Medicine に掲載され、世界規模で大きな論争を引き起こしました。論文では、国ごとのチョコレート消費量とノーベル賞受賞者数を調べたところ、チョコレート消費量の多い国ほどノーベル賞受賞者数が多いというデータが示されました。論争のポイントとなったのは、各国のチョコレート消費量とノーベル賞受賞者数の関係が以下のどちらの関係であるかについてです。  チョコレートを摂取すればノーベル賞受賞者は増加する(因果関係)  別の隠れた要因がそれぞれに影響を与えており、チョコレート消費量とノーベル賞受賞者数の間に見かけ上の関連性が生まれている(相関関係)   一体どちらの主張が正しいのでしょうか。読者の方には、ぜひ今の意見と、このコラム連載が終了した後の意見を比較していただきたいと考えています。   統計的因果推論 (Causal causal inference)  とは、因果関係をデータから導くための体系的な学問領域であり、2021年に David Card, Joshua Angrist, Guido Imbensの3名がノーベル経済学賞を受賞したことも相まって、現在大きな注目を集めています。しかし、その注目の程度と比べると、内容についてはあまり認知されていないように思います。そこで本ブログ・シリーズでは、統計的因果推論(または、単に因果推論)に関する連載を行います。データアナリティクスに関わる多くの方に、因果とは何か、それをデータから導くためには何が必要となるのかを理解をしていただき、適切なデータアナリティクスのために活用されることを望みます。連載コラムで取り扱う内容は以下を予定しています。  理論編 潜在アウトカムの枠組み 因果効果を求めるために必要な条件 観察研究と実験研究における交換可能性 選択バイアス (selection bias) 測定誤差 (measurement error) 手法・実装編 推定におけるモデルの必要性 層別化・回帰・標準化 傾向スコアとそれを用いた手法 操作変数法  理論編では、データから因果関係を考えるために必要となる概念、および仮定について取り扱います。また、観測される関係が真の関係と異なる要因について解説を行います。手法・実装編では、理論編で扱う潜在アウトカムの枠組みで因果効果を推定する手法についてSASでの実装方法とともに紹介を行います。SASソフトウェアでは、2016年以降のバージョンで、因果推論に特化した機能が利用できます。   なお、手法・実装編で紹介する因果効果の推定手法は、すべてを網羅しているわけではなく、回帰不連続デザインなど他にもいくつかの手法があることにご注意ください。 本コラムでは出来る限り数学的な記載は避け、直感的な表現をすることに努めますが、数理的な部分に興味がある方に向けた参考資料も準備しています。コラム中に登場する解析例で使用したプログラム・コードは著者のGithub上で公開を行う予定です。    謝辞  この連載記事では、参考文献として主に以下の2つを使用します。 Causal

Analytics | Data for Good | Students & Educators
0
あなた自身の「好奇心」に耳を傾けよう

Curiosity Forever SASは約束します。データの探索や、アナリティクスそして学習、これらの進化を止めません。好奇心と能力が出会う時、世界は前進するからです。 SASは、”Curiosity=好奇心”から生まれるユニークで大胆な問いに対して、アナリティクスを用いて解を探すことを大切にしています。これまでにも自然やウェルネス・教育・スポーツなど多岐にわたる分野の好奇心溢れる問いに取り組んでいます。そしてこのCuriosity Foreverを、現代の子どもたちが体験できる環境を築くことが、私たちの未来を豊かにすると考えられます。 データネイティブの世代を育てる準備ができていますか? 1990年代半ばから2000年代前半に生まれたZ世代は、これまでで最も多様性に富み、最も教育水準の高い世代であり、社会変革の原動力として位置づけられています。2014年、Monica Rogati氏は データネイティブという言葉を作り、「データネイティブは、自分たちの世界がスマートで、自分たちの好みや習慣に一貫して適応することを期待している」と述べました。データネイティブの子どもたちは読書量、成績、スクリーンの使用時間などを記録するようになります。スマートで、プログラム可能で、データが豊富な世界で育ちながら、彼らは毎日データに浸かっていると言えるでしょう。 Z世代が社会で活躍する時代の到来とともにテクノロジーも進化し、私たちは膨大なデータを持つことになります。データはこれまで学術研究や政府の政策など、社会の一部に限定されたツールでしたが、今や主流になりつつあり、専門家だけでなく全ての人がデータリテラシーを身につけることが不可欠です。 若者がデータリテラシーへの関心を高める鍵は、生徒が関心を持つ問題にデータリテラシーを結びつけることにあります。これまでの学校教育におけるデータは、数学などの科目でデータの基礎として扱われることが多いです。しかしデータの活用が出来る分野には、社会的不公正との戦い、環境保護、飢餓との戦いなど世の中の実際に起こっていること・子どもたちにも身近なことに広がっていて、それらを通じて若者の生来の情熱に訴えかけることができます。また、データがどのように責任を持って使われ、進歩やイノベーションを促進するのか、子どもたちに伝えましょう。それと同じくらい重要なのは、データサイエンスの分野に自分たちが反映されていることを確認することです。この分野への参加を広げ、多様性を高めることは、社会的格差の縮小に取り組む上で最も重要なことです。 わたしたちはデータに慣れ親しむZ世代の探究心や情熱とともに、私たちは創造性と革新性を育む環境を育み、社会全体をよりよい方向に進めていく必要があります。 ※このセクションはAre we prepared to raise a generation of data native?の内容を要約しています。詳細はこちらをご参照ください。 Curiosity: 東京は暑い! 筆者もZ世代の学生として、好奇心からアナリティクスにつながるちょっとした体験をしました。 上京してきた際に「東京って思ったよりも暑いんだ」と感じてから、都市部の暑さに興味を持ちました。近年、夏に注意を促される熱中症。毎年患者数が増加しており、日本全体で暑さに関する対策として緑のカーテンなど緑化を行っています。しかし、その緑化はどれくらい効果があるかピンとこない気がしていました。そこで今回は仮説として、「緑地率が高い区ほど熱中症患者数が少ない」を立てたので、東京都23区の緑地率と熱中症患者数にどのような関係があるかについて確かめたいと思います。 上図は、年次ごとに東京都23区の100万人当たりの熱中症患者数と緑地率(AVNIR-2の光学センサの衛星データより緑地を抽出して求めた割合)の相関を確かめるために作成した散布図です。 散布図から、6年分全体でみて緑地が増えると熱中症患者が減るという傾向は読み取れませんでした。相関係数0.4と正の方向に相関が少し出ていますが、年次で色分けした部分で縦軸方向に層ができているように見えるので、相関係数のみで判断するのは難しいと考えました。また区ごとに時系列で比較したとき、たった6年で緑被率に大幅な差がありました。これは私が取得できた衛星データに雲がかぶっているなどの原因で、緑地率のデータが正確でないためである可能性もあります。 今回の観察期間で熱中症患者数は年々増加しており、機会があれば、緑地率以外に考えられる要因を集めて影響度を確かめてみたいと思いました。 このように日常生活でふと気づいた疑問を積極的に考えて、実際はどうなんだろうか、何か出来ることはないかとアナリティクスを用いる動きは、学生の好奇心を刺激しデータ活用の第一歩となります。学生の皆さん、いま浮かんだ疑問をデータを使って深掘りしてみませんか? What are you curious about?

Analytics | Students & Educators
0
データアナリティクスにおける統計学の必要性

現代において統計学は様々な分野で利用されており、データアナリティクスとは切っても切れない関係にあります。しかし、実際にデータアナリティクを行う人すべてが、その内容を適切に理解しているのでしょうか。「有意差がつくかどうかとりあえず検定を行ってみる」、「集めたデータ全てをモデルに組み込んでみる」このような経験を持つ方も実は多いのではないでしょうか。分析に用いる手法の仮定や限界、その他解釈や留意事項への理解がないまま行われるデータアナリティクスは、誤った解釈を生む可能性があります。しかし、実社会においては、統計学はその活用事例が注目されがちであり、適切ではない事例が身の回りにあるというのもまた事実です。データアナリティクスを行う側としても、その結果を受け取る側としても、統計学を一般教養として学んでみてはどうでしょうか。 今回紹介するのは、e-learningコース「Statistics 1: Introduction to ANOVA, Regression, and Logistic Regression」です。統計学を学ぶ時に、学習がうまく進まない一つの理由として、各種内容が実際にどう活用されるか、そのイメージがつかないという声を多く耳にします。本コースは純粋な統計学の知識だけでなく、そのような具体的なデータアナリティクスに至るまでの「何を目的とするのか」、「目的によってどのような手法が適切であるのか」といった「データリテラシー」に関する内容も潤沢に用意されているため、一環した流れの中で学習を行う事ができます。このような何のために統計学を学ぶ必要があるのかという点は、どうしても”学問としての”統計学の学習の際には意識がされないため、統計学を初めて学ぶ方だけではなく、簡単にその内容を触れたことがある中級者の方にも最適な学習教材です。 統計学は「記述統計学」と「推測統計学」に分類されます。前者はデータの持つ特徴(最大値、平均など)を記述し、整理することによって、そのデータ自体への理解を行おうというものです。それに対し後者は、データをとある大きな集団からのサンプルであると仮定し、データからその大きな集団(母集団)の持つ特徴について、推測を行うものです。ここでは、実際に推測統計学でよく用いられている「統計的仮説検定」と「統計モデル」という、2つの手法について紹介します。これらについてもコース中ではより詳細に、活用されている事例とともに紹介されているので、ご興味のある方はぜひ一度コースに登録・受講してみてください。登録手順はこちらの以前の記事を参照ください。   統計的仮説検定 ある大きな集団(母集団)に対しその特徴を知りたい場合、すべてのデータを得ることができるのは非常に稀です。例えば、日本国民全員があるテレビ番組Aを見ているかどうかの情報を得ることは、労力的にも、費用的にもほぼ不可能です。統計的仮説検定はそういった場合に、標本である一部のデータを用いて、母集団に対する特定の仮説が成立するか否かを、背理法的に判断する方法です。先のテレビ番組の視聴率調査は、実際にこの考えに基づくものであり、よく見かける視聴率はおおよそ1万世帯のデータをもとに、統計的に推定されています。検定の手順は以下の通りです。 母集団に対し、帰無仮説とそれに対応する対立仮説の計2種類の仮説を設定する 帰無仮説の下で、得られたデータ(とそれ以上に極端な結果)が得られる確率(P値)を計算する 事前に設定した基準(有意水準)とその確率を比較する 基準よりも確率が低いのであれば、そもそも帰無仮説が妥当ではないと判断する(帰無仮説を棄却) 統計学でよく誤解を生みやすい「P値」というものが利用される内容になります。仮説検定は非常によく用いられる方法ですので、自分でどういった手順で検定は行われているのか、その解釈はどう行えばいいのか、を説明できない方は受講してみることをお勧めします。   統計モデル データから母集団の特徴について推定を行う場合には「統計モデル」というものが用いられます。このモデルはなぜ必要なのでしょうか?ここで、日本人の男性と女性の身長について、それぞれ推測をするという例を考えます。また、現実に得られるデータは、男性のみデータだけだとします。すると一つ問題が生じます。それは「女性については推定を行うことができない」ということです。男性については、得られたデータが男性50名の身長データですので、妥当な推定が可能です(ここにも男性の身長分布は正規分布であるという仮定は置きます)。しかし、女性の身長について推定を行おうとしても手元には男性のみのデータしかないため、推定ができません。もし何の仮定もなければ、男性の身長データを女性の身長の推定のために用いることは妥当ではありません。ではここに、『女性の身長の分布は男性の分布より10cm低く、分布の形状は同じである』という仮定があるとどうでしょうか?(いくつかの調査によると期待値としては12~13cmほど低いそうですが) 上記の仮定があるのであれば、男性の身長分布から女性の身長分布が想定可能なので、男性のみのデータからデータには含まれていない女性についても推定を行うことが可能になります。つまり、「統計モデル」とは観測されたデータにはない未知の部分について推測を行うために、仮定する一種の数学的・統計学的な制約条件になります。ただ一概にモデルといっても様々なものがあるため、データの置かれている状況によって想定される適切なモデルは異なり、どれを選択すべきかはケースバイケースです。このモデルの選択をどうすべきかは先行研究やこれまでの知見による部分が大きいため、様々な場面でのデータアナリティクスを学ぶ必要があります。   学生の方であれば今後、卒業研究やコンペティション参加など、多くの場面で統計学の知識が必要になるかと思います。数日学習を行えば統計学への理解が深まるだけでなく、SASから学習認定デジタルバッジを無料でもらうこともできます。ぜひこの機会に一度統計学について、学習を行ってみてはいかがでしょうか?

Analytics | Learn SAS | Students & Educators
0
SASのオンライン学習コース「Skill Builder for Students」の紹介(4)Statistical Analysis, Predictive Modeling, and Machine Learning編

以前の記事では、学生であれば無料で利用可能なオンライン学習コース「Skill Builder for Students」についての紹介を行いました。このSkill Builder for Studentsには5つのコースが準備されており、今回の記事ではStatistical Analysis, Predictive Modeling, and Machine Learningコースについての概要を紹介します。このコースでは統計的仮説検定から回帰分析、予測モデル、教師あり機械学習まで「統計・機械学習モデル」の基礎的な部分と、SASソフトウェアでの実践を学習することができます。 データ析を行う際には、しばしば統計モデルや数理モデルと呼ばれる「モデル」を利用します。このモデルの学術的理論や実装方法を学習する機会は多数ありますが、モデルを利用する目的をはっきり意識できているでしょうか。モデルは現象を数式等で模式的に表現したものですが、このようなモデルによる表現の目的が、その現象に対する説明を行いたいのか、未知のイベントの予測を行いたいのかを区別する必要があります。前者は記述的アナリティクス(および診断的アナリティクス)、後者は予測的アナリティクスと呼ばれます。 記述的・診断的アナリティクスでは、現象を観察して得られたデータから、その現象に関する情報の関連や因果関係を推測し、現象を説明することが目的です。例えば、住宅価格を考えるとき、価格を決定する要素(面積、駅からの距離、築年数、階数、近隣施設など)は何か、どの要素が最も価格と強い関係を持っているかといったことを理解するために統計モデルを活用します。 一方、予測的アナリティクスでは、面積や駅からの距離といった既知の情報から住宅の価格を推定・予測するためにモデルを活用します。記述的・診断的アナリティクスのような「現象の理解」よりも、「予測の精度」に注目することになります。 今回のコースは、このような「何のためにデータアナリティクスを行うのか」という点が特に意識されており、SASでの実装を紹介するだけではなく、統計学の概要、モデルを使って何を考えるのかについてのイメージや理論の説明が豊富に用意されています。近年、アナリティクスに関係する職種を目指す方が増加しており、統計検定に代表されるような資格を取得しようとしている方も多いと思います。それに伴い、関連した書籍・講座が世に出るようになってきていますが、手法のみに着目しているものも多く、「なぜ」、「どんな場面で」その手法を利用するのかをイメージできないものも見られます。今回この記事で紹介しているコースは、そのような今後データに関連する分野に関わっていきたいという初学者の方に特におすすめです。単に統計的手法の実施方法や結果の見方を紹介しているだけではなく、どういったモチベーションでその手法の利用を考えるのか、現実に起こり得るシナリオに沿って理解できる教材だと思います。    Statistical Analysis, Predictive Modeling, and Machine Learningコースへのアクセスは以下の手順です。 Skill Builder for Studentsへログイン 「Learn SAS」というタブをクリック 画面中央の「Start Learning」をクリック 「Statistical Analysis, Predictive Modeling, and Machine Learning」をクリック 展開される各種e-learningコースをクリック 画面下部にある「enroll」をクリック このコースは後述のように、6つの項目に分かれており、各項目にはさらに複数のLessonが準備されています。各項目に含まれるLessonをすべて終了すると学習完了を証明する「SAS digital Learn Badge」(下図)が発行されます。   コースで学習できる内容 Statistics 1:

Analytics | Learn SAS | Students & Educators
金融業界のデジタル化を担うデータサイエンティストの業務とは? 【アナリティクスを活用するキャリア: 信金中央金庫】

「お客様とFace to Faceで向き合うことができるという信用金庫の強みが、コロナ禍により十分発揮できなくなっています。そんな今だからこそ、業界のセントラルバンクである信金中金で、業界のデジタル化を推し進める役割を皆さんも一緒に担いませんか?」 信金中央金庫 しんきんイノベーションハブの狩野 詩生(かのう しゅう)氏は、アカデミア向けにアナリティクス・データサイエンスのキャリアを紹介するイベント「SAS アナリティクス・キャリアシンポジウム」でこう学生に問いかけました。 本イベントは、2021年12月22日(水)、SAS Japan六本木オフィスで開催され、同時にオンライン配信されました。「データサイエンティストが21世紀の最もセクシーな仕事」と言われて10年近くが経とうとしており、企業や組織でデータ活用の役割は徐々に広がりを見せていますが、どのようなスキルをどんな業務に活用しているかについては、まだ一般的ではありません。「データサイエンティストになりたい」と考える学生も、業務内容やキャリアを明確にイメージできないのではないでしょうか。このイベントでは、社会におけるアナリティクス・データサイエンスの活用をアカデミアに紹介するとともに、教育の側からのアプローチも論じます。 信金中央金庫は、全国の信用金庫の「セントラルバンク」として、信用金庫からの預金を投資・融資して運用しています。金融機関では、以前より金融リスクの管理や不正取引の検知の業務において、アナリティクスが活用されてきました。国の経済インフラを担う金融機関が健全な取引を行い、金融犯罪を防止するための対策は、監督省庁が目を光らせる規制業務であり、金融機関が必ず整備しなければいけない領域です。例えば、金融機関が保有している資産が将来どのような価値を持つのか、そのばらつきを予測するために統計学と金融工学をフル活用したり、また、国際犯罪組織による資金洗浄(マネー・ロンダリング)目的の海外送金を検知し、ストップをかけるために、統計モデルや機械学習モデルを構築したり、実は、データサイエンティストが世界の金融を支えているのです。 狩野氏は大学でマーケティングや経営学を専攻し、信金中央金庫で融資業務やコンサルティング業務を経験後、信用スコアリングモデルを作成・研究する業務に従事しました。信用スコアリングとは、端的に言えば、融資先が返済不能になる可能性がどれぐらいあるかを数値化することです。このために、場合分けのルールや統計モデルを活用します。また、最近では、EBM(Event Based Marketing)でのデータ活用に取り組んでいます。入出金データなどから、顧客の資金ニーズを予測し、適切なタイミングで商品を提案できるようにすることが狙いです。従来であれば、大まかな顧客カテゴリに応じた提案しかできなかったのが、予測モデルの活用により、よりパーソナライズされた提案ができるようになります。 このような目的のために、次のような業務があります。 どのようなデータをどのように受け取り、蓄積するかを設計する データのありかを整理し、内容を理解した上で、基礎分析により特徴を把握する 予測モデリングのためにデータの整形・加工を行う 統計学や機械学習を駆使してモデルを構築する データサイエンティストといえば、4番のモデル構築のスキルが重要に思われがちですが、それまでの準備も大切です。狩野氏は、データサイエンティストの業務において求められるスキルとして、「データ理解」「プログラミング」「モデル構築」に加え、「企画・立案」「サービス提供」を挙げています。特に、しんきんイノベーションハブのような組織では、顧客である信用金庫がどのように活用するかも考えてサービスを設計することが必要です。さらに、統計やデータ分析の専門家ではない顧客に説明し、使ってもらえるようにすることも求められています。特に金融機関のアナリティクス活用では「説明力」に重きが置かれており、モデリングにおいても、ブラックボックスのAI・機械学習より、説明力の高い統計モデルが利用されることが多いようです。 また、普段はSASやPythonプログラミングで業務にあたりますが、「どのような分析環境が利用できるかは組織によって異なるので、プログラミング言語については、広く勉強したほうが有利かもしれない」と狩野氏は述べました。「データ理解」についても、入社しないと業務についての知識を得ることは難しいので、組織のなかで学ぶ意欲とコミュニケーション力が重要になります。 信金中央金庫では、全国の信用金庫のデジタル体制の整備を担うため、幅広い業務があり、今後人材需要が高まります。データサイエンスに興味のある学生のみなさん、金融業界での活躍を目指してみませんか? 学生のみなさんは、統計学や機械学習を用いた予測モデルについて、SAS Skill Builder for Students で学習することができます。特に、「Predictive Modeling Using Logistic Regression」や「Machine Learning Using SAS Viya」は、SASソフトウェアの学習と同時に、予測モデルを利用する目的や、モデル構築や評価での注意点を学習できます。SAS Skill Builder for Student については、こちらのブログ記事シリーズもご参照ください。

Analytics | Data Visualization | Learn SAS | Students & Educators
0
SASのオンライン学習コース「Skill Builder for Students」の紹介(3)Visual Analytics and Visual Statistics編

前回の記事では、学生であれば無料で利用可能なオンライン学習コース「Skill Builder for Students」のProgrammingコースについての概要を紹介しました。今回は引き続きまして、Visual Analytics and Visual Statisticsコースについて紹介していきます。 データアナリティクスへの興味・関心は近年急激に増加しています。ただ特に学習を始めた学生では、データアナリティクスと聞くと、どうしても複雑なモデルを組むことや機械学習を実施することだけに意識が向いている印象を受けます。しかしデータアナリティクスの本質はそこではありません。根幹にあるのは意思決定や業績の改善にどれほど貢献できるかです。データの可視化、見える化は学生ですとしばしば軽視されがちな部分ではありますが、意思決定や現状の把握においては非常に有用な有用な方法の一つです。 今回紹介するコースではSAS Viyaプラットフォーム上でSAS Visual AnalyticsとSAS Visual Statisticsを使用し、様々な可視化方法、予測モデルについて学習を行います。これらを学習することによってデータに潜む傾向やパターンを把握し、そしていかにその後のリスク管理や傾向の予測などへとつなげていくかといった実践的なデータアナリティクスを学ぶことが可能です。またSAS ViyaはSASによるプログラミング以外にもRやPythonといった他のプログラミング言語をサポートしているため、SASのコーディングができない方であっても不自由なく利用することが可能となっています。 Visual Analytics and Visual Statisticsコースへのアクセスは以下の手順です。 Skill Builder for Studentsへログイン 「Learn SAS」というタブをクリック 画面中央の「Start Learning」をクリック 「Visual Analytics and Visual Statistics」をクリック 展開される各種e-learningコースをクリック 画面下部にある「enroll」をクリック     Visual Analytics and Visual Statisticsコースの概要 本コースは SAS Visual Analytics 1 for SAS

Analytics | Learn SAS | Students & Educators
0
SASのオンライン学習コース「Skill Builder for Students」の紹介(2)Programming編

前回の記事では、学生であれば無料で利用可能なオンライン学習コース「Skill Builder for Students」についての紹介を行いました。このSkill Builder for Studentsには5つのコースが準備されており、今回の記事ではProgrammingコースについての概要を紹介します。このコースではSASプログラミング言語、そのコーディング方法について学習を行います。 近年、データ解析をプログラミングをせずに行うGUIデータ分析ツールが普及し始め、SASからもEnterprise Guideといった製品が提供されており、データ分析の民主化が進んでいます。もちろんこういったツールによって多くの人がデータ解析に関わる各種機能にアクセスできるようになったことは大変大きなメリットです。 しかし、もし将来データ解析を行う職に就きたいという思いがあるのであれば自分でコードを書き、前処理や解析を行うことができるようになるべきだと個人的には考えています。あくまで個人的な意見になりますがツールに依存してしまうと解析や前処理で実行できることには限界がありますし、またデータに関連する分野の学生であればシミュレーションなどを自由に行うことも難しいです。誤解がないように言うとGUIツールを使うことが悪というわけではなく、GUIのほうが生産性や共有性が高い場面もありますが、いざという時に自らの力で実装できるというのがプロフェッショナルなのではないでしょうか? この記事を見ている方の大部分は、今後データ解析に本格的に携わっていきたい、自らのスキルを増やしたいという方だと考えています。このコースを修了したからと言ってデータ解析のプロフェッショナルになれるかというとそうではありません。しかし、その第一歩としては非常に良い内容だと思います。私自身もこのコースを受講しています。ぜひ一緒に学びましょう!!   Programmingコースへのアクセスは以下の手順です。 Skill Builder for Studentsへログイン 「Learn SAS」というタブをクリック 画面中央の「Start Learning」をクリック 「Programing」をクリック 展開される各種e-learningコースをクリック 画面下部にある「enroll」をクリック コース内にある各レッスンではそれぞれのテーマに沿った内容が動画で紹介がされており、また適宜「Activity」や「Practice」という形で問題も出題されています。学生という立場からの個人的な感想ですが、単に動画を視聴するだけではなく、手を動かしつつ学習を行うことができるという点は非常に良いと感じています。デモとして紹介されている内容についてもプログラミングコードやデータセットも提供がされているので、動画を見つつ別画面で同じ手順を踏むとより理解も深まるかなと思います。 なおこのオンライン学習コースはすべて英語での提供です。もし英語が苦手でちょっと....という方は、動画の下部に動画の内容がすべてテキスト化されているので、適宜翻訳をかけつつ学習を行っていただければいいかなと思います。   Programinngコースの概要 programmingコースでは統計解析を行うためのプログラミングだけではなく、そもそものSASプログラミングの構成や、グラフ・レポートの作成、マクロなどを幅広く学ぶことができます。この記事の最後にあるように8つの項目に分かれており、各項目にはさらに複数のLessonが準備されています。各項目に含まれるLessonをすべて終了すると学習完了を証明する「SAS digital Learn Badge」(下図)が発行されます。   コース内容を実行する環境としては大きく3つあります。 SAS Virtual LabのSAS Studio SAS OnDemand for Academics のSAS Stuido 自らが契約しているSASソフトウェア ただ、今回の学習にあたり推奨するのは一番上の「SAS Virtual Lab」です。各コースでは様々なデータセット、プログラミングファイルを使いますが、SAS virtual Labではそれらがすべて既に保管されています。SAS

1 2 3 4 7