以前の記事では、学生であれば無料で利用可能なオンライン学習コース「Skill Builder for Students」についての紹介を行いました。このSkill Builder for Studentsには5つのコースが準備されており、今回の記事ではStatistical Analysis, Predictive Modeling, and Machine Learningコースについての概要を紹介します。このコースでは統計的仮説検定から回帰分析、予測モデル、教師あり機械学習まで「統計・機械学習モデル」の基礎的な部分と、SASソフトウェアでの実践を学習することができます。
データ析を行う際には、しばしば統計モデルや数理モデルと呼ばれる「モデル」を利用します。このモデルの学術的理論や実装方法を学習する機会は多数ありますが、モデルを利用する目的をはっきり意識できているでしょうか。モデルは現象を数式等で模式的に表現したものですが、このようなモデルによる表現の目的が、その現象に対する説明を行いたいのか、未知のイベントの予測を行いたいのかを区別する必要があります。前者は記述的アナリティクス(および診断的アナリティクス)、後者は予測的アナリティクスと呼ばれます。
記述的・診断的アナリティクスでは、現象を観察して得られたデータから、その現象に関する情報の関連や因果関係を推測し、現象を説明することが目的です。例えば、住宅価格を考えるとき、価格を決定する要素(面積、駅からの距離、築年数、階数、近隣施設など)は何か、どの要素が最も価格と強い関係を持っているかといったことを理解するために統計モデルを活用します。
一方、予測的アナリティクスでは、面積や駅からの距離といった既知の情報から住宅の価格を推定・予測するためにモデルを活用します。記述的・診断的アナリティクスのような「現象の理解」よりも、「予測の精度」に注目することになります。
今回のコースは、このような「何のためにデータアナリティクスを行うのか」という点が特に意識されており、SASでの実装を紹介するだけではなく、統計学の概要、モデルを使って何を考えるのかについてのイメージや理論の説明が豊富に用意されています。近年、アナリティクスに関係する職種を目指す方が増加しており、統計検定に代表されるような資格を取得しようとしている方も多いと思います。それに伴い、関連した書籍・講座が世に出るようになってきていますが、手法のみに着目しているものも多く、「なぜ」、「どんな場面で」その手法を利用するのかをイメージできないものも見られます。今回この記事で紹介しているコースは、そのような今後データに関連する分野に関わっていきたいという初学者の方に特におすすめです。単に統計的手法の実施方法や結果の見方を紹介しているだけではなく、どういったモチベーションでその手法の利用を考えるのか、現実に起こり得るシナリオに沿って理解できる教材だと思います。
Statistical Analysis, Predictive Modeling, and Machine Learningコースへのアクセスは以下の手順です。
- Skill Builder for Studentsへログイン
- 「Learn SAS」というタブをクリック
- 画面中央の「Start Learning」をクリック
- 「Statistical Analysis, Predictive Modeling, and Machine Learning」をクリック
- 展開される各種e-learningコースをクリック
- 画面下部にある「enroll」をクリック
このコースは後述のように、6つの項目に分かれており、各項目にはさらに複数のLessonが準備されています。各項目に含まれるLessonをすべて終了すると学習完了を証明する「SAS digital Learn Badge」(下図)が発行されます。
コースで学習できる内容
- Statistics 1: Introduction to ANOVA, Regression, and Logistic Regression
- 住宅データを用いてさまざまな統計モデルを作成します。
- t検定、分散分析、回帰分析についてをメインに取り扱い、またロジスティック回帰の簡単な紹介も行います。次のパートの前提となる内容です。
- それぞれの解析手法をどういったタイミング、データに対して用いるべきかの紹介も含まれます。
- Statistics 2: ANOVA and Regression
- Statistics 1: Introduction to ANOVAのでも取り扱った分散分析、回帰分析のよりadvancedなレベルのものを取り扱います。
- 具体的なデータを用いて各種モデルの作成を行い、それらのフィッティング、仮定の妥当性を検討します。
- Predictive Modeling Using Logistic Regression
- Programming 2: Data Manipulation Techniques courseおよびStatistics 1: Introduction to ANOVA, Regression, and Logistic Regression courseを修了していることが前提です。
- 主に主にロジスティク回帰の作成や、データの欠損、多重共線性への対処などモデル作成時にしばしば発生しうる問題への対処法を学習します。
- また作成したモデルの評価、複数モデルがある場合の比較方法についても学習を行います。
- Applied Analytics Using SAS Enterprise Miner
- SAS Enterprise Minerを使用しつつ、データの可視化や決定木、回帰モデルといった予測モデルの作成方法について紹介がされています。
- またコースの最後にはケーススタディとして、銀行における顧客へのセグメントの例、ニューラルネットワーク分析を利用した信用リスク評価の例などが紹介されています。
- Machine Learning Using SAS Viya
- 教師ありの機械学習モデルに関する様々な技術の理論について学習を行います。
- また理論面だけではなく、いくつかのビジネスストーリーの下で、問題の定義、データの準備・前処理、モデルの学習、評価など一連の分析上の手順を進んでいくといった流れになっています。
- 学習を行う機械学習の手法としては決定木、ランダムフォレスト、ニューラルネットワーク、サポートベクターマシンなどです。
- Using SAS Viya REST APIs with Python and R
- オープンソースなプログラミング言語であるPython、RとSAS製品との連携方法について学習を行います。
- コンピュータ、クラウド関連についてが中心的な内容であるため、具体的な解析、予測方法については取り扱っていません。
統計学や機械学習といった分野に興味を持つ人に対しては、このSASのオンライン学習コース「Skill Builder for Students」の中でも一番のオススメです。検定のことなんて知ってるよ、、という人でもきっと新たな発見や気づきがあります。ぜひ一度コースを覗いてみてはいかがでしょうか?