現代において統計学は様々な分野で利用されており、データアナリティクスとは切っても切れない関係にあります。しかし、実際にデータアナリティクを行う人すべてが、その内容を適切に理解しているのでしょうか。「有意差がつくかどうかとりあえず検定を行ってみる」、「集めたデータ全てをモデルに組み込んでみる」このような経験を持つ方も実は多いのではないでしょうか。分析に用いる手法の仮定や限界、その他解釈や留意事項への理解がないまま行われるデータアナリティクスは、誤った解釈を生む可能性があります。しかし、実社会においては、統計学はその活用事例が注目されがちであり、適切ではない事例が身の回りにあるというのもまた事実です。データアナリティクスを行う側としても、その結果を受け取る側としても、統計学を一般教養として学んでみてはどうでしょうか。 今回紹介するのは、e-learningコース「Statistics 1: Introduction to ANOVA, Regression, and Logistic Regression」です。統計学を学ぶ時に、学習がうまく進まない一つの理由として、各種内容が実際にどう活用されるか、そのイメージがつかないという声を多く耳にします。本コースは純粋な統計学の知識だけでなく、そのような具体的なデータアナリティクスに至るまでの「何を目的とするのか」、「目的によってどのような手法が適切であるのか」といった「データリテラシー」に関する内容も潤沢に用意されているため、一環した流れの中で学習を行う事ができます。このような何のために統計学を学ぶ必要があるのかという点は、どうしても”学問としての”統計学の学習の際には意識がされないため、統計学を初めて学ぶ方だけではなく、簡単にその内容を触れたことがある中級者の方にも最適な学習教材です。 統計学は「記述統計学」と「推測統計学」に分類されます。前者はデータの持つ特徴(最大値、平均など)を記述し、整理することによって、そのデータ自体への理解を行おうというものです。それに対し後者は、データをとある大きな集団からのサンプルであると仮定し、データからその大きな集団(母集団)の持つ特徴について、推測を行うものです。ここでは、実際に推測統計学でよく用いられている「統計的仮説検定」と「統計モデル」という、2つの手法について紹介します。これらについてもコース中ではより詳細に、活用されている事例とともに紹介されているので、ご興味のある方はぜひ一度コースに登録・受講してみてください。登録手順はこちらの以前の記事を参照ください。 統計的仮説検定 ある大きな集団(母集団)に対しその特徴を知りたい場合、すべてのデータを得ることができるのは非常に稀です。例えば、日本国民全員があるテレビ番組Aを見ているかどうかの情報を得ることは、労力的にも、費用的にもほぼ不可能です。統計的仮説検定はそういった場合に、標本である一部のデータを用いて、母集団に対する特定の仮説が成立するか否かを、背理法的に判断する方法です。先のテレビ番組の視聴率調査は、実際にこの考えに基づくものであり、よく見かける視聴率はおおよそ1万世帯のデータをもとに、統計的に推定されています。検定の手順は以下の通りです。 母集団に対し、帰無仮説とそれに対応する対立仮説の計2種類の仮説を設定する 帰無仮説の下で、得られたデータ(とそれ以上に極端な結果)が得られる確率(P値)を計算する 事前に設定した基準(有意水準)とその確率を比較する 基準よりも確率が低いのであれば、そもそも帰無仮説が妥当ではないと判断する(帰無仮説を棄却) 統計学でよく誤解を生みやすい「P値」というものが利用される内容になります。仮説検定は非常によく用いられる方法ですので、自分でどういった手順で検定は行われているのか、その解釈はどう行えばいいのか、を説明できない方は受講してみることをお勧めします。 統計モデル データから母集団の特徴について推定を行う場合には「統計モデル」というものが用いられます。このモデルはなぜ必要なのでしょうか?ここで、日本人の男性と女性の身長について、それぞれ推測をするという例を考えます。また、現実に得られるデータは、男性のみデータだけだとします。すると一つ問題が生じます。それは「女性については推定を行うことができない」ということです。男性については、得られたデータが男性50名の身長データですので、妥当な推定が可能です(ここにも男性の身長分布は正規分布であるという仮定は置きます)。しかし、女性の身長について推定を行おうとしても手元には男性のみのデータしかないため、推定ができません。もし何の仮定もなければ、男性の身長データを女性の身長の推定のために用いることは妥当ではありません。ではここに、『女性の身長の分布は男性の分布より10cm低く、分布の形状は同じである』という仮定があるとどうでしょうか?(いくつかの調査によると期待値としては12~13cmほど低いそうですが) 上記の仮定があるのであれば、男性の身長分布から女性の身長分布が想定可能なので、男性のみのデータからデータには含まれていない女性についても推定を行うことが可能になります。つまり、「統計モデル」とは観測されたデータにはない未知の部分について推測を行うために、仮定する一種の数学的・統計学的な制約条件になります。ただ一概にモデルといっても様々なものがあるため、データの置かれている状況によって想定される適切なモデルは異なり、どれを選択すべきかはケースバイケースです。このモデルの選択をどうすべきかは先行研究やこれまでの知見による部分が大きいため、様々な場面でのデータアナリティクスを学ぶ必要があります。 学生の方であれば今後、卒業研究やコンペティション参加など、多くの場面で統計学の知識が必要になるかと思います。数日学習を行えば統計学への理解が深まるだけでなく、SASから学習認定デジタルバッジを無料でもらうこともできます。ぜひこの機会に一度統計学について、学習を行ってみてはいかがでしょうか?
Tag: Skill Builder for Students
以前の記事では、学生であれば無料で利用可能なオンライン学習コース「Skill Builder for Students」についての紹介を行いました。このSkill Builder for Studentsには5つのコースが準備されており、今回の記事ではStatistical Analysis, Predictive Modeling, and Machine Learningコースについての概要を紹介します。このコースでは統計的仮説検定から回帰分析、予測モデル、教師あり機械学習まで「統計・機械学習モデル」の基礎的な部分と、SASソフトウェアでの実践を学習することができます。 データ析を行う際には、しばしば統計モデルや数理モデルと呼ばれる「モデル」を利用します。このモデルの学術的理論や実装方法を学習する機会は多数ありますが、モデルを利用する目的をはっきり意識できているでしょうか。モデルは現象を数式等で模式的に表現したものですが、このようなモデルによる表現の目的が、その現象に対する説明を行いたいのか、未知のイベントの予測を行いたいのかを区別する必要があります。前者は記述的アナリティクス(および診断的アナリティクス)、後者は予測的アナリティクスと呼ばれます。 記述的・診断的アナリティクスでは、現象を観察して得られたデータから、その現象に関する情報の関連や因果関係を推測し、現象を説明することが目的です。例えば、住宅価格を考えるとき、価格を決定する要素(面積、駅からの距離、築年数、階数、近隣施設など)は何か、どの要素が最も価格と強い関係を持っているかといったことを理解するために統計モデルを活用します。 一方、予測的アナリティクスでは、面積や駅からの距離といった既知の情報から住宅の価格を推定・予測するためにモデルを活用します。記述的・診断的アナリティクスのような「現象の理解」よりも、「予測の精度」に注目することになります。 今回のコースは、このような「何のためにデータアナリティクスを行うのか」という点が特に意識されており、SASでの実装を紹介するだけではなく、統計学の概要、モデルを使って何を考えるのかについてのイメージや理論の説明が豊富に用意されています。近年、アナリティクスに関係する職種を目指す方が増加しており、統計検定に代表されるような資格を取得しようとしている方も多いと思います。それに伴い、関連した書籍・講座が世に出るようになってきていますが、手法のみに着目しているものも多く、「なぜ」、「どんな場面で」その手法を利用するのかをイメージできないものも見られます。今回この記事で紹介しているコースは、そのような今後データに関連する分野に関わっていきたいという初学者の方に特におすすめです。単に統計的手法の実施方法や結果の見方を紹介しているだけではなく、どういったモチベーションでその手法の利用を考えるのか、現実に起こり得るシナリオに沿って理解できる教材だと思います。 Statistical Analysis, Predictive Modeling, and Machine Learningコースへのアクセスは以下の手順です。 Skill Builder for Studentsへログイン 「Learn SAS」というタブをクリック 画面中央の「Start Learning」をクリック 「Statistical Analysis, Predictive Modeling, and Machine Learning」をクリック 展開される各種e-learningコースをクリック 画面下部にある「enroll」をクリック このコースは後述のように、6つの項目に分かれており、各項目にはさらに複数のLessonが準備されています。各項目に含まれるLessonをすべて終了すると学習完了を証明する「SAS digital Learn Badge」(下図)が発行されます。 コースで学習できる内容 Statistics 1:
前回の記事では、学生であれば無料で利用可能なオンライン学習コース「Skill Builder for Students」のProgrammingコースについての概要を紹介しました。今回は引き続きまして、Visual Analytics and Visual Statisticsコースについて紹介していきます。 データアナリティクスへの興味・関心は近年急激に増加しています。ただ特に学習を始めた学生では、データアナリティクスと聞くと、どうしても複雑なモデルを組むことや機械学習を実施することだけに意識が向いている印象を受けます。しかしデータアナリティクスの本質はそこではありません。根幹にあるのは意思決定や業績の改善にどれほど貢献できるかです。データの可視化、見える化は学生ですとしばしば軽視されがちな部分ではありますが、意思決定や現状の把握においては非常に有用な有用な方法の一つです。 今回紹介するコースではSAS Viyaプラットフォーム上でSAS Visual AnalyticsとSAS Visual Statisticsを使用し、様々な可視化方法、予測モデルについて学習を行います。これらを学習することによってデータに潜む傾向やパターンを把握し、そしていかにその後のリスク管理や傾向の予測などへとつなげていくかといった実践的なデータアナリティクスを学ぶことが可能です。またSAS ViyaはSASによるプログラミング以外にもRやPythonといった他のプログラミング言語をサポートしているため、SASのコーディングができない方であっても不自由なく利用することが可能となっています。 Visual Analytics and Visual Statisticsコースへのアクセスは以下の手順です。 Skill Builder for Studentsへログイン 「Learn SAS」というタブをクリック 画面中央の「Start Learning」をクリック 「Visual Analytics and Visual Statistics」をクリック 展開される各種e-learningコースをクリック 画面下部にある「enroll」をクリック Visual Analytics and Visual Statisticsコースの概要 本コースは SAS Visual Analytics 1 for SAS
前回の記事では、学生であれば無料で利用可能なオンライン学習コース「Skill Builder for Students」についての紹介を行いました。このSkill Builder for Studentsには5つのコースが準備されており、今回の記事ではProgrammingコースについての概要を紹介します。このコースではSASプログラミング言語、そのコーディング方法について学習を行います。 近年、データ解析をプログラミングをせずに行うGUIデータ分析ツールが普及し始め、SASからもEnterprise Guideといった製品が提供されており、データ分析の民主化が進んでいます。もちろんこういったツールによって多くの人がデータ解析に関わる各種機能にアクセスできるようになったことは大変大きなメリットです。 しかし、もし将来データ解析を行う職に就きたいという思いがあるのであれば自分でコードを書き、前処理や解析を行うことができるようになるべきだと個人的には考えています。あくまで個人的な意見になりますがツールに依存してしまうと解析や前処理で実行できることには限界がありますし、またデータに関連する分野の学生であればシミュレーションなどを自由に行うことも難しいです。誤解がないように言うとGUIツールを使うことが悪というわけではなく、GUIのほうが生産性や共有性が高い場面もありますが、いざという時に自らの力で実装できるというのがプロフェッショナルなのではないでしょうか? この記事を見ている方の大部分は、今後データ解析に本格的に携わっていきたい、自らのスキルを増やしたいという方だと考えています。このコースを修了したからと言ってデータ解析のプロフェッショナルになれるかというとそうではありません。しかし、その第一歩としては非常に良い内容だと思います。私自身もこのコースを受講しています。ぜひ一緒に学びましょう!! Programmingコースへのアクセスは以下の手順です。 Skill Builder for Studentsへログイン 「Learn SAS」というタブをクリック 画面中央の「Start Learning」をクリック 「Programing」をクリック 展開される各種e-learningコースをクリック 画面下部にある「enroll」をクリック コース内にある各レッスンではそれぞれのテーマに沿った内容が動画で紹介がされており、また適宜「Activity」や「Practice」という形で問題も出題されています。学生という立場からの個人的な感想ですが、単に動画を視聴するだけではなく、手を動かしつつ学習を行うことができるという点は非常に良いと感じています。デモとして紹介されている内容についてもプログラミングコードやデータセットも提供がされているので、動画を見つつ別画面で同じ手順を踏むとより理解も深まるかなと思います。 なおこのオンライン学習コースはすべて英語での提供です。もし英語が苦手でちょっと....という方は、動画の下部に動画の内容がすべてテキスト化されているので、適宜翻訳をかけつつ学習を行っていただければいいかなと思います。 Programinngコースの概要 programmingコースでは統計解析を行うためのプログラミングだけではなく、そもそものSASプログラミングの構成や、グラフ・レポートの作成、マクロなどを幅広く学ぶことができます。この記事の最後にあるように8つの項目に分かれており、各項目にはさらに複数のLessonが準備されています。各項目に含まれるLessonをすべて終了すると学習完了を証明する「SAS digital Learn Badge」(下図)が発行されます。 コース内容を実行する環境としては大きく3つあります。 SAS Virtual LabのSAS Studio SAS OnDemand for Academics のSAS Stuido 自らが契約しているSASソフトウェア ただ、今回の学習にあたり推奨するのは一番上の「SAS Virtual Lab」です。各コースでは様々なデータセット、プログラミングファイルを使いますが、SAS virtual Labではそれらがすべて既に保管されています。SAS