SAS Japan

活用事例からデータ分析のテクニックまで、SAS Japanが解き明かすアナリティクスの全て
Analytics | Internet of Things
0
製造業DXにおけるITとOTとの融合 (2) - 生産ラインにおけるAIを用いた状態監視の種類

医者の診断に例えて学ぶ AIを用いたセンサデータ分析システムに関するよくある誤解について 製造業で盛んに導入されているセンサ。 そのセンサデータを分析してビジネスインパクトのある結果を出すには、どのようにしたら良いのでしょうか? データ分析を成功させるためには、様々な要素が考えられますが、ここではセンサデータの質に注目したいと思います。いくら高度なデータ分析手法を用いても、分析対象のセンサデータが正しく取得できていない場合は、結果が出ないことは容易に想像できますが、あまり議論されることはありません。 これは、センサ計測とデータ分析の両方を視野に入れた幅広いノウハウが必要となり、Information Technology (IT) と Operational Technology (OT)との融合という課題に行き着くためです。 本ブログでは、このマニアックな話題を、医者の診断に例えながら、わかりやすく解説していきます。 はい、今回は、「生産ラインにおけるAIを用いた状態監視の種類」について解説します。 図1に示した通り、種類としては4つに大別されます。 どれを実現したいのかで、取得すべきセンサデータの種類や、データ分析システムの構築難易度が変わってきます。 読者の皆様は、どれを実現したいとお考えでしょうか? 図1.生産ラインにおけるAIを用いた状態監視の種類は4つある 1つ目が異常検知です  これは生産品の品質異常や生産ラインの設備機械の異常を捉えるものであり、学術的には「教師なし学習」と呼ばれる手法を用います。この場合、異常時のデータを予め用意する必要がないため、不具合データの取得が困難な製造業の現場において有効となります。例えば、正常時の各種センサデータを基準とし、どれだけ正常状態から離れたかで、異常を検出する方法です。 2つ目は原因診断です これは異常発生後に、何が原因なのか特定するものであり、学術的には「教師あり学習」と呼ばれる手法を用います。この場合、異常時のデータを予め用意しておく必要があります。 原因診断が必要とされる理由としては、対処方法の検討をつけるためです。 製造装置であれば、点検箇所や分解すべき箇所を特定することにより、分解コストや部品交換コストを抑えることができます。 これは大型機械の場合、特に重要であり、この原因診断は「精密診断」とも呼ばれ、まさに職人技が要求される分野です。 3つ目が品質/寿命予測です これは各種データから、生産品の品質を予測したり、稼働中の設備や部品が、あとどれくらい使用できるか日数を予測するものです。 例えば、生産品の品質予測が可能になると、抜き取り検査の精度が向上し、ランダムにサンプル取得をするのではなく、品質上懸念がありそうなものをサンプルして効率良く評価できるようになります。 また、設備や部品の寿命予測が可能になれば、高額な部品をできるだけ長く使用することができますし、メンテナンス日程を戦略的に決めることも可能になります。 4つ目がパラメータ最適化です これは、期待した品質で生産するためには、どのような製造環境や材料構成が必要なのか、また、どのように製造装置を制御したらよいのか決定することができます。 図1に示したデータ活用の流れは、人間の健康診断と全く同じであり、1番から4番まで順番に実施する必要があり、飛び越えることはできません。 医療に例えますと、1番の「異常検知」は、正常時との変化を検出するものであり、いわば定期健康診断に相当するものです。 2番の「原因診断」は、定期健康診断で早期発見された異常を、さらに掘り下げて精密検査を行うものです。 3番の「品質/寿命予測」に関しては、医学でも同様であるが、これまでの長年にわたるデータが揃うことにより、治癒率予測が可能になります。 4番の「パラメータ最適化」は、健康で過ごすための予防方法だと言えます(図2)。そして、豊かな人生を過ごすために、どなたも4番の予防までを期待されておられると思います。 図2. 医療診断の流れと、生産ラインにおける品質管理/設備状態監視の流れはよく似ている 生産ラインでも同様です。最後の4番まで実現できれば、ビジネス上の費用対効果(ROI)は最大となります。 それには、分析に必要な各種データを準備する必要があり、その質も重要になります。 しかしながら現実問題として、いきなり4番から実現することはできないため、4番のパラメータ最適化の実現をゴールとしながら、1番から順番に実現していく必要があることを御理解ください。また、医学でも同様のことがいえるかと思いますが、生産ラインにおける状態監視対象物によっては、1番の異常検知が技術的な限界となり、2番以降に進めない場合もあります。 この見極めも重要となってきますが、この点は本ブログのテーマとして別途取り扱いたいと思います。 前回のブログ  次回に続く

Analytics | Data for Good | Students & Educators
0
あなた自身の「好奇心」に耳を傾けよう

Curiosity Forever SASは約束します。データの探索や、アナリティクスそして学習、これらの進化を止めません。好奇心と能力が出会う時、世界は前進するからです。 SASは、”Curiosity=好奇心”から生まれるユニークで大胆な問いに対して、アナリティクスを用いて解を探すことを大切にしています。これまでにも自然やウェルネス・教育・スポーツなど多岐にわたる分野の好奇心溢れる問いに取り組んでいます。そしてこのCuriosity Foreverを、現代の子どもたちが体験できる環境を築くことが、私たちの未来を豊かにすると考えられます。 データネイティブの世代を育てる準備ができていますか? 1990年代半ばから2000年代前半に生まれたZ世代は、これまでで最も多様性に富み、最も教育水準の高い世代であり、社会変革の原動力として位置づけられています。2014年、Monica Rogati氏は データネイティブという言葉を作り、「データネイティブは、自分たちの世界がスマートで、自分たちの好みや習慣に一貫して適応することを期待している」と述べました。データネイティブの子どもたちは読書量、成績、スクリーンの使用時間などを記録するようになります。スマートで、プログラム可能で、データが豊富な世界で育ちながら、彼らは毎日データに浸かっていると言えるでしょう。 Z世代が社会で活躍する時代の到来とともにテクノロジーも進化し、私たちは膨大なデータを持つことになります。データはこれまで学術研究や政府の政策など、社会の一部に限定されたツールでしたが、今や主流になりつつあり、専門家だけでなく全ての人がデータリテラシーを身につけることが不可欠です。 若者がデータリテラシーへの関心を高める鍵は、生徒が関心を持つ問題にデータリテラシーを結びつけることにあります。これまでの学校教育におけるデータは、数学などの科目でデータの基礎として扱われることが多いです。しかしデータの活用が出来る分野には、社会的不公正との戦い、環境保護、飢餓との戦いなど世の中の実際に起こっていること・子どもたちにも身近なことに広がっていて、それらを通じて若者の生来の情熱に訴えかけることができます。また、データがどのように責任を持って使われ、進歩やイノベーションを促進するのか、子どもたちに伝えましょう。それと同じくらい重要なのは、データサイエンスの分野に自分たちが反映されていることを確認することです。この分野への参加を広げ、多様性を高めることは、社会的格差の縮小に取り組む上で最も重要なことです。 わたしたちはデータに慣れ親しむZ世代の探究心や情熱とともに、私たちは創造性と革新性を育む環境を育み、社会全体をよりよい方向に進めていく必要があります。 ※このセクションはAre we prepared to raise a generation of data native?の内容を要約しています。詳細はこちらをご参照ください。 Curiosity: 東京は暑い! 筆者もZ世代の学生として、好奇心からアナリティクスにつながるちょっとした体験をしました。 上京してきた際に「東京って思ったよりも暑いんだ」と感じてから、都市部の暑さに興味を持ちました。近年、夏に注意を促される熱中症。毎年患者数が増加しており、日本全体で暑さに関する対策として緑のカーテンなど緑化を行っています。しかし、その緑化はどれくらい効果があるかピンとこない気がしていました。そこで今回は仮説として、「緑地率が高い区ほど熱中症患者数が少ない」を立てたので、東京都23区の緑地率と熱中症患者数にどのような関係があるかについて確かめたいと思います。 上図は、年次ごとに東京都23区の100万人当たりの熱中症患者数と緑地率(AVNIR-2の光学センサの衛星データより緑地を抽出して求めた割合)の相関を確かめるために作成した散布図です。 散布図から、6年分全体でみて緑地が増えると熱中症患者が減るという傾向は読み取れませんでした。相関係数0.4と正の方向に相関が少し出ていますが、年次で色分けした部分で縦軸方向に層ができているように見えるので、相関係数のみで判断するのは難しいと考えました。また区ごとに時系列で比較したとき、たった6年で緑被率に大幅な差がありました。これは私が取得できた衛星データに雲がかぶっているなどの原因で、緑地率のデータが正確でないためである可能性もあります。 今回の観察期間で熱中症患者数は年々増加しており、機会があれば、緑地率以外に考えられる要因を集めて影響度を確かめてみたいと思いました。 このように日常生活でふと気づいた疑問を積極的に考えて、実際はどうなんだろうか、何か出来ることはないかとアナリティクスを用いる動きは、学生の好奇心を刺激しデータ活用の第一歩となります。学生の皆さん、いま浮かんだ疑問をデータを使って深掘りしてみませんか? What are you curious about?

Analytics | Students & Educators
0
データアナリティクスにおける統計学の必要性

現代において統計学は様々な分野で利用されており、データアナリティクスとは切っても切れない関係にあります。しかし、実際にデータアナリティクを行う人すべてが、その内容を適切に理解しているのでしょうか。「有意差がつくかどうかとりあえず検定を行ってみる」、「集めたデータ全てをモデルに組み込んでみる」このような経験を持つ方も実は多いのではないでしょうか。分析に用いる手法の仮定や限界、その他解釈や留意事項への理解がないまま行われるデータアナリティクスは、誤った解釈を生む可能性があります。しかし、実社会においては、統計学はその活用事例が注目されがちであり、適切ではない事例が身の回りにあるというのもまた事実です。データアナリティクスを行う側としても、その結果を受け取る側としても、統計学を一般教養として学んでみてはどうでしょうか。 今回紹介するのは、e-learningコース「Statistics 1: Introduction to ANOVA, Regression, and Logistic Regression」です。統計学を学ぶ時に、学習がうまく進まない一つの理由として、各種内容が実際にどう活用されるか、そのイメージがつかないという声を多く耳にします。本コースは純粋な統計学の知識だけでなく、そのような具体的なデータアナリティクスに至るまでの「何を目的とするのか」、「目的によってどのような手法が適切であるのか」といった「データリテラシー」に関する内容も潤沢に用意されているため、一環した流れの中で学習を行う事ができます。このような何のために統計学を学ぶ必要があるのかという点は、どうしても”学問としての”統計学の学習の際には意識がされないため、統計学を初めて学ぶ方だけではなく、簡単にその内容を触れたことがある中級者の方にも最適な学習教材です。 統計学は「記述統計学」と「推測統計学」に分類されます。前者はデータの持つ特徴(最大値、平均など)を記述し、整理することによって、そのデータ自体への理解を行おうというものです。それに対し後者は、データをとある大きな集団からのサンプルであると仮定し、データからその大きな集団(母集団)の持つ特徴について、推測を行うものです。ここでは、実際に推測統計学でよく用いられている「統計的仮説検定」と「統計モデル」という、2つの手法について紹介します。これらについてもコース中ではより詳細に、活用されている事例とともに紹介されているので、ご興味のある方はぜひ一度コースに登録・受講してみてください。登録手順はこちらの以前の記事を参照ください。   統計的仮説検定 ある大きな集団(母集団)に対しその特徴を知りたい場合、すべてのデータを得ることができるのは非常に稀です。例えば、日本国民全員があるテレビ番組Aを見ているかどうかの情報を得ることは、労力的にも、費用的にもほぼ不可能です。統計的仮説検定はそういった場合に、標本である一部のデータを用いて、母集団に対する特定の仮説が成立するか否かを、背理法的に判断する方法です。先のテレビ番組の視聴率調査は、実際にこの考えに基づくものであり、よく見かける視聴率はおおよそ1万世帯のデータをもとに、統計的に推定されています。検定の手順は以下の通りです。 母集団に対し、帰無仮説とそれに対応する対立仮説の計2種類の仮説を設定する 帰無仮説の下で、得られたデータ(とそれ以上に極端な結果)が得られる確率(P値)を計算する 事前に設定した基準(有意水準)とその確率を比較する 基準よりも確率が低いのであれば、そもそも帰無仮説が妥当ではないと判断する(帰無仮説を棄却) 統計学でよく誤解を生みやすい「P値」というものが利用される内容になります。仮説検定は非常によく用いられる方法ですので、自分でどういった手順で検定は行われているのか、その解釈はどう行えばいいのか、を説明できない方は受講してみることをお勧めします。   統計モデル データから母集団の特徴について推定を行う場合には「統計モデル」というものが用いられます。このモデルはなぜ必要なのでしょうか?ここで、日本人の男性と女性の身長について、それぞれ推測をするという例を考えます。また、現実に得られるデータは、男性のみデータだけだとします。すると一つ問題が生じます。それは「女性については推定を行うことができない」ということです。男性については、得られたデータが男性50名の身長データですので、妥当な推定が可能です(ここにも男性の身長分布は正規分布であるという仮定は置きます)。しかし、女性の身長について推定を行おうとしても手元には男性のみのデータしかないため、推定ができません。もし何の仮定もなければ、男性の身長データを女性の身長の推定のために用いることは妥当ではありません。ではここに、『女性の身長の分布は男性の分布より10cm低く、分布の形状は同じである』という仮定があるとどうでしょうか?(いくつかの調査によると期待値としては12~13cmほど低いそうですが) 上記の仮定があるのであれば、男性の身長分布から女性の身長分布が想定可能なので、男性のみのデータからデータには含まれていない女性についても推定を行うことが可能になります。つまり、「統計モデル」とは観測されたデータにはない未知の部分について推測を行うために、仮定する一種の数学的・統計学的な制約条件になります。ただ一概にモデルといっても様々なものがあるため、データの置かれている状況によって想定される適切なモデルは異なり、どれを選択すべきかはケースバイケースです。このモデルの選択をどうすべきかは先行研究やこれまでの知見による部分が大きいため、様々な場面でのデータアナリティクスを学ぶ必要があります。   学生の方であれば今後、卒業研究やコンペティション参加など、多くの場面で統計学の知識が必要になるかと思います。数日学習を行えば統計学への理解が深まるだけでなく、SASから学習認定デジタルバッジを無料でもらうこともできます。ぜひこの機会に一度統計学について、学習を行ってみてはいかがでしょうか?

Analytics | Learn SAS | Students & Educators
0
SASのオンライン学習コース「Skill Builder for Students」の紹介(4)Statistical Analysis, Predictive Modeling, and Machine Learning編

以前の記事では、学生であれば無料で利用可能なオンライン学習コース「Skill Builder for Students」についての紹介を行いました。このSkill Builder for Studentsには5つのコースが準備されており、今回の記事ではStatistical Analysis, Predictive Modeling, and Machine Learningコースについての概要を紹介します。このコースでは統計的仮説検定から回帰分析、予測モデル、教師あり機械学習まで「統計・機械学習モデル」の基礎的な部分と、SASソフトウェアでの実践を学習することができます。 データ析を行う際には、しばしば統計モデルや数理モデルと呼ばれる「モデル」を利用します。このモデルの学術的理論や実装方法を学習する機会は多数ありますが、モデルを利用する目的をはっきり意識できているでしょうか。モデルは現象を数式等で模式的に表現したものですが、このようなモデルによる表現の目的が、その現象に対する説明を行いたいのか、未知のイベントの予測を行いたいのかを区別する必要があります。前者は記述的アナリティクス(および診断的アナリティクス)、後者は予測的アナリティクスと呼ばれます。 記述的・診断的アナリティクスでは、現象を観察して得られたデータから、その現象に関する情報の関連や因果関係を推測し、現象を説明することが目的です。例えば、住宅価格を考えるとき、価格を決定する要素(面積、駅からの距離、築年数、階数、近隣施設など)は何か、どの要素が最も価格と強い関係を持っているかといったことを理解するために統計モデルを活用します。 一方、予測的アナリティクスでは、面積や駅からの距離といった既知の情報から住宅の価格を推定・予測するためにモデルを活用します。記述的・診断的アナリティクスのような「現象の理解」よりも、「予測の精度」に注目することになります。 今回のコースは、このような「何のためにデータアナリティクスを行うのか」という点が特に意識されており、SASでの実装を紹介するだけではなく、統計学の概要、モデルを使って何を考えるのかについてのイメージや理論の説明が豊富に用意されています。近年、アナリティクスに関係する職種を目指す方が増加しており、統計検定に代表されるような資格を取得しようとしている方も多いと思います。それに伴い、関連した書籍・講座が世に出るようになってきていますが、手法のみに着目しているものも多く、「なぜ」、「どんな場面で」その手法を利用するのかをイメージできないものも見られます。今回この記事で紹介しているコースは、そのような今後データに関連する分野に関わっていきたいという初学者の方に特におすすめです。単に統計的手法の実施方法や結果の見方を紹介しているだけではなく、どういったモチベーションでその手法の利用を考えるのか、現実に起こり得るシナリオに沿って理解できる教材だと思います。    Statistical Analysis, Predictive Modeling, and Machine Learningコースへのアクセスは以下の手順です。 Skill Builder for Studentsへログイン 「Learn SAS」というタブをクリック 画面中央の「Start Learning」をクリック 「Statistical Analysis, Predictive Modeling, and Machine Learning」をクリック 展開される各種e-learningコースをクリック 画面下部にある「enroll」をクリック このコースは後述のように、6つの項目に分かれており、各項目にはさらに複数のLessonが準備されています。各項目に含まれるLessonをすべて終了すると学習完了を証明する「SAS digital Learn Badge」(下図)が発行されます。   コースで学習できる内容 Statistics 1:

1 11 12 13 14 15 54