SAS Japan
活用事例からデータ分析のテクニックまで、SAS Japanが解き明かすアナリティクスの全て医者の診断に例えて学ぶ AIを用いたセンサデータ分析システムに関するよくある誤解について 製造業で盛んに導入されているセンサ。そのセンサデータを分析してビジネスインパクトのある結果を出すには、どのようにしたら良いのでしょうか? データ分析を成功させるためには、様々な要素が考えられますが、ここではセンサデータの質に注目したいと思います。いくら高度なデータ分析手法を用いても、分析対象のセンサデータが正しく取得できていない場合は、結果が出ないことは容易に想像できますが、あまり議論されることはありません。 これは、センサ計測とデータ分析の両方を視野に入れた幅広いノウハウが必要となり、Information Technology (IT) と Operational Technology (OT)との融合という課題に行き着くためです。 本ブログでは、このマニアックな話題を、医者の診断に例えながら、わかりやすく解説していきます。 今回から、「自覚症状が無いセンサデータの品質問題」に関連した話題をお伝えしていきます。 結果が出ないPoC(Proof of Concept:概念実証) SASは世界各国に支社を持ち、製造業DXの実現に向けた数多くのデータ分析案件を取り扱っています。 よく頂く御相談内容としては、生産品の品質管理と設備保全系に関連するデータ分析システムの導入検討です。(図1) 図1. 生産ライン向けDXとしてよくある御相談 ところが、PoCとしてセンサデータを用いてデータ分析をしているが、思うような結果が得られていないというケースが市場で発生しています。多くの方がデータ分析手法に問題があるのではないかと考え、データ分析のスペシャリストである弊社に御連絡を頂きます。たしかに分析手法の問題もあり、原因は様々ですが、意外と盲点になっているのが分析対象となるセンサデータ自体の品質問題です。 センサデータの品質問題とは何か? データ分析はデータ収集から始まります。そして、そのデータの質が分析結果に影響を与えることは容易に想像できます。図2はセンサデータ分析システムの構築の流れを示しています。システム構築は、データ収集からスタートし、データ蓄積、そしてデータ分析という順番で実施され、手動でデータ分析の結果が出るようになった段階で自動化するという流れが一般的です。 図2. センサデータ分析システムの構築の流れ 図3は、センサデータの分析の際にAIの導入を意識して描いたものです。流れとしては、経営上の目標設定から始まり、データ取得、特徴量抽出/次元削減、そしてモデル作成へと進んでいきます。ここで皆様に質問させて頂きたいのは、どの工程が一番重要なのかということです。無論、どの工程も専門家の知見が必要であり、重要かつ難易度が高いのは当然ですが、最も重要なのは前半のデータ取得と特徴量抽出だと、あえて強調します。言い換えますと、モデル作成に使用されるセンサデータの品質(精度)が重要だということです。当然ではありますが、センサデータの質が悪い場合、データ分析(作成するモデルの精度)に影響が出てしまうためです。 医者の診断に例えれば、検査データが間違っていたら間違った診断を下してしまうのと一緒であり、センサデータの品質は極めて重要だと言えます。 図3. AIを用いたセンサデータ分析システムの開発の流れ 自覚症状が無いセンサデータの品質問題 この問題の恐ろしい点は、システム開発に携わっている関係者の皆様にとって自覚症状が表れない場合が多いことです。 そもそも、データ分析の結果が出ない原因が、上述のセンサデータの質に関係していることを、どうやって判断すれば良いのでしょうか? 当然、他の原因も考えられます。 先日、お医者様と健康診断の検査結果のお話をした際に気がついたのですが、お医者様は検査データの意味や限界、誤差要因をよく御存知のようでした。そして総合的に私の健康状態を判断しておられるようでした。思わず、その秘密を知りたいと思い質問してしまったのですが、お医者様の回答は「過去の事例と経験即かなぁ~~??」と、お答えいただきました。 ということで、次回以降、私の経験即に基づいたチェックポイントを御紹介していきます。 前回のブログ 次回に続く
はじめに 近年サステナビリティ経営は多くの分野で注目されています。環境・社会の変化や価値観の変革に対応しながら、長期にわたり市場から求められ、継続的に価値提供を行い、社会から信頼され続けることが企業にとって最も重要と考えられています。 最近では、気候変動、COVID-19パンデミックなどの社会環境の変動により、生活者、消費動向、企業活動、サプライチェーンなどに大きな影響を及ぼす中で、どのように対応し取り組んでいくかが喫緊の課題となっています。 今回のブログでは、これらの変化対して持続可能な世界を実現するための「サステナビリティ経営」に関してSASのアナリティクスアプローチをテーマに数回にわたり見ていきたいと思います。 SDGsとESG 地球規模の課題を踏まえた全世界共通の持続可能な成長戦略であるSDGsは、今や大企業の多くがサステナビリティ経営*1の計画にマテリアリティ(重要課題)として織り込み取り組まれています。また、環境・社会・ガバナンスの観点で企業活動を分析評価するESG*2は、企業価値を見通す上での重要性として認識されています。 アナリティクスが果たす役割 環境や社会で起こっている多くの変化は、生活者の価値観および消費活動に変化をもたらします。企業は、その変化を的確に捉え迅速に対応していくことが求められます。それらの変化を近年のデジタル・テクノロジーを用いて迅速に把握し、AIやアナリティクスによるインサイトに基づく意思決定や課題解決、商品やサービスの継続的な改善や高度化などにより新たな価値を提供することは、企業のサステナビリティと競争力を創出し、サステナビリティ経営において非常に重要となります。 中長期計画のマテリアリティとして掲げられたSDGsの達成度評価やESG評価においてもアナリティクスの手法を用いた評価手法やツールが多く用いられ、企業活動の見える化を推進するとともに、投資家などへ開示することでESG投資を促すとともに、企業価値向上や創造を進めています。SASは、AIによるESG管理とレポート作成に関するサービスを提供しています。 また、企業や組織の活動においても、AIやアナリティクスによるインサイトや予測といったデータ利活用をもとに、CO2削減、エネルギー対策、フードロス削減、水資源保全、汚染軽減など様々なサステナビリティに関する課題解決に向けて、アナリティクスが活用されています。*3*4 SASの取り組み SASは自社のCSR活動として、エネルギー節約、GHG(温室効果ガス)排出管理、汚染軽減、水保全、グリーンビルディング、およびその他のプログラムにより環境を改善などに取り組んでいます。また、サステナビリティ経営のリーダーおよび提唱者として、高度なテクノロジーと経験豊富なスタッフにより、多くのソフトウエア、ツール、サービスなどを企業や組織に提供してきています。これらは追って紹介いたします。今回はSASのCSRレポート*5から抜粋してSASの取り組みをいくつか紹介します。 アナリティクスによる人道支援/社会支援 ビッグデータアナリティクスが世界中の短期および⾧期の開発⽬標の達成に役立つという広範な証拠があります。アナリティクスの世界的リーダーとして、SASは、貧困、病気、飢餓、⾮識字などの社会の最⼤の問題のいくつかを解決するために、最先端のテクノロジーと専⾨知識を適⽤することに情熱を注いでいます。 SASは、常により良い世界を構築するためにそのテクノロジーを使⽤することを挑戦しています。国連のSDGsが不平等を減らし、健康的な⽣活を確保するために取り組んでおり、SASはそれがすべての⼈にとってより明るい未来を創造するのを助けることができる機会を探しています。 SASの社会イノベーションイニシアチブは、世界の進歩を加速させ、世界をより持続可能な未来に向けて動かす創造的な⽅法の発見を支援します。 SASがこの⽬標をサポートする⽅法の1つは、 Data for Goodを推進する運動です。貧困、健康、⼈権、教育、環境に関する⼈道問題を解決するために有意義な⽅法でデータを使⽤することを奨励します。 ⾼度なアナリティクスとIoTによる健康なミツバチの個体数の増加 World Bee Countを使用すると、ミツバチのデータをクラウドソーシングして、地球上のミツバチの個体数を視覚化し、これまでのミツバチに関する最大かつ最も有益なデータセットの1つを作成できます。 SASのデータ視覚化により、クラウドソーシングされたミツバチや他の花粉交配者の場所が表示されます。 プロジェクトの後の段階で、研究者は作物の収穫量、降水量、その他のハチの健康に寄与する要因などの重要なデータポイントを重ね合わせて、世界の花粉交配者のより包括的な理解を集めることができます。 Joseph Cazier, アパラチア州立大学分析研究教育センター教授兼常務理事 ミツバチを救うことは私たちの⾷糧供給にとって最も重要であり、⾼度なアナリティクスがミツバチと私たちの未来を維持するための鍵となる可能性があります。 SASのモノのインターネット(IoT)、機械学習、視覚アナリティクス機能により、健康なミツバチの個体数の維持とそのサポートができる可能性があります。 2020年、SASは、テクノロジーが世界中の花粉交配者の個体数を監視、追跡、改善する3つの別々のプロジェクトに参加しました。まず、SASのデータサイエンティストは、聴覚データと機械学習アルゴリズムを通じて、侵入しないで蜂の巣のリアルタイムの状態を監視する⽅法を開発しました。 SASはまた、世界のミツバチの数についてアパラチア州立⼤学と協力して、世界のミツバチの個体数データを視覚化し、それらを保存するための最良の⽅法を抽出しました。さらに、SAS Viya Hackathonの受賞者は、機械学習を通じてハチのコミュニケーションを解読し、⾷料へのアクセスを最⼤化し、⼈間の⾷料供給を増やしました。 困っている⼈を助けるための最善のサポートを理解する 私たちの優先事項は、人生の最も困難な季節を通して家族を支援することです。その仕事の多くは、目に見えないところに隠れているホームレスを支援することです。それが私たちの最善の策です。SASは私たちの目の前でデータを取得し、以前は見ることができなかった隠された洞察を発見することができました。それはSASが最も得意とすることです。正直なところ、完璧な組み合わせでした。 Leslie Covington, Executive Director, The Carying Place ホームレスに苦しんでいる多くの人は、自給自足できるための指導と支援を求めてThe Carying Place(TCP)に目を向けます。 手書きのドキュメントと一貫性のないスプレッドシートの山の中に27年分のデータがあるため、TCPはSASを利用して、参加者の成功の指標をより適切に測定し家族にふさわしい支援を提供しました。 SASボランティアは、デモグラフィック、保険、住宅、退役軍人のステータス、障害のステータス、予算ファイルなど、参加している家族のデータを分析し、TCPのニーズを最もよくサポートできるモデルを選択しました。
医者の診断に例えて学ぶ AIを用いたセンサデータ分析システムに関するよくある誤解について 製造業で盛んに導入されているセンサ。 そのセンサデータを分析してビジネスインパクトのある結果を出すには、どのようにしたら良いのでしょうか? データ分析を成功させるためには、様々な要素が考えられますが、ここではセンサデータの質に注目したいと思います。いくら高度なデータ分析手法を用いても、分析対象のセンサデータが正しく取得できていない場合は、結果が出ないことは容易に想像できますが、あまり議論されることはありません。 これは、センサ計測とデータ分析の両方を視野に入れた幅広いノウハウが必要となり、Information Technology (IT) と Operational Technology (OT)との融合という課題に行き着くためです。 本ブログでは、このマニアックな話題を、医者の診断に例えながら、わかりやすく解説していきます。 はい、今回は、「生産ラインにおけるAIを用いた状態監視の種類」について解説します。 図1に示した通り、種類としては4つに大別されます。 どれを実現したいのかで、取得すべきセンサデータの種類や、データ分析システムの構築難易度が変わってきます。 読者の皆様は、どれを実現したいとお考えでしょうか? 図1.生産ラインにおけるAIを用いた状態監視の種類は4つある 1つ目が異常検知です これは生産品の品質異常や生産ラインの設備機械の異常を捉えるものであり、学術的には「教師なし学習」と呼ばれる手法を用います。この場合、異常時のデータを予め用意する必要がないため、不具合データの取得が困難な製造業の現場において有効となります。例えば、正常時の各種センサデータを基準とし、どれだけ正常状態から離れたかで、異常を検出する方法です。 2つ目は原因診断です これは異常発生後に、何が原因なのか特定するものであり、学術的には「教師あり学習」と呼ばれる手法を用います。この場合、異常時のデータを予め用意しておく必要があります。 原因診断が必要とされる理由としては、対処方法の検討をつけるためです。 製造装置であれば、点検箇所や分解すべき箇所を特定することにより、分解コストや部品交換コストを抑えることができます。 これは大型機械の場合、特に重要であり、この原因診断は「精密診断」とも呼ばれ、まさに職人技が要求される分野です。 3つ目が品質/寿命予測です これは各種データから、生産品の品質を予測したり、稼働中の設備や部品が、あとどれくらい使用できるか日数を予測するものです。 例えば、生産品の品質予測が可能になると、抜き取り検査の精度が向上し、ランダムにサンプル取得をするのではなく、品質上懸念がありそうなものをサンプルして効率良く評価できるようになります。 また、設備や部品の寿命予測が可能になれば、高額な部品をできるだけ長く使用することができますし、メンテナンス日程を戦略的に決めることも可能になります。 4つ目がパラメータ最適化です これは、期待した品質で生産するためには、どのような製造環境や材料構成が必要なのか、また、どのように製造装置を制御したらよいのか決定することができます。 図1に示したデータ活用の流れは、人間の健康診断と全く同じであり、1番から4番まで順番に実施する必要があり、飛び越えることはできません。 医療に例えますと、1番の「異常検知」は、正常時との変化を検出するものであり、いわば定期健康診断に相当するものです。 2番の「原因診断」は、定期健康診断で早期発見された異常を、さらに掘り下げて精密検査を行うものです。 3番の「品質/寿命予測」に関しては、医学でも同様であるが、これまでの長年にわたるデータが揃うことにより、治癒率予測が可能になります。 4番の「パラメータ最適化」は、健康で過ごすための予防方法だと言えます(図2)。そして、豊かな人生を過ごすために、どなたも4番の予防までを期待されておられると思います。 図2. 医療診断の流れと、生産ラインにおける品質管理/設備状態監視の流れはよく似ている 生産ラインでも同様です。最後の4番まで実現できれば、ビジネス上の費用対効果(ROI)は最大となります。 それには、分析に必要な各種データを準備する必要があり、その質も重要になります。 しかしながら現実問題として、いきなり4番から実現することはできないため、4番のパラメータ最適化の実現をゴールとしながら、1番から順番に実現していく必要があることを御理解ください。また、医学でも同様のことがいえるかと思いますが、生産ラインにおける状態監視対象物によっては、1番の異常検知が技術的な限界となり、2番以降に進めない場合もあります。 この見極めも重要となってきますが、この点は本ブログのテーマとして別途取り扱いたいと思います。 前回のブログ 次回に続く
Curiosity Forever SASは約束します。データの探索や、アナリティクスそして学習、これらの進化を止めません。好奇心と能力が出会う時、世界は前進するからです。 SASは、”Curiosity=好奇心”から生まれるユニークで大胆な問いに対して、アナリティクスを用いて解を探すことを大切にしています。これまでにも自然やウェルネス・教育・スポーツなど多岐にわたる分野の好奇心溢れる問いに取り組んでいます。そしてこのCuriosity Foreverを、現代の子どもたちが体験できる環境を築くことが、私たちの未来を豊かにすると考えられます。 データネイティブの世代を育てる準備ができていますか? 1990年代半ばから2000年代前半に生まれたZ世代は、これまでで最も多様性に富み、最も教育水準の高い世代であり、社会変革の原動力として位置づけられています。2014年、Monica Rogati氏は データネイティブという言葉を作り、「データネイティブは、自分たちの世界がスマートで、自分たちの好みや習慣に一貫して適応することを期待している」と述べました。データネイティブの子どもたちは読書量、成績、スクリーンの使用時間などを記録するようになります。スマートで、プログラム可能で、データが豊富な世界で育ちながら、彼らは毎日データに浸かっていると言えるでしょう。 Z世代が社会で活躍する時代の到来とともにテクノロジーも進化し、私たちは膨大なデータを持つことになります。データはこれまで学術研究や政府の政策など、社会の一部に限定されたツールでしたが、今や主流になりつつあり、専門家だけでなく全ての人がデータリテラシーを身につけることが不可欠です。 若者がデータリテラシーへの関心を高める鍵は、生徒が関心を持つ問題にデータリテラシーを結びつけることにあります。これまでの学校教育におけるデータは、数学などの科目でデータの基礎として扱われることが多いです。しかしデータの活用が出来る分野には、社会的不公正との戦い、環境保護、飢餓との戦いなど世の中の実際に起こっていること・子どもたちにも身近なことに広がっていて、それらを通じて若者の生来の情熱に訴えかけることができます。また、データがどのように責任を持って使われ、進歩やイノベーションを促進するのか、子どもたちに伝えましょう。それと同じくらい重要なのは、データサイエンスの分野に自分たちが反映されていることを確認することです。この分野への参加を広げ、多様性を高めることは、社会的格差の縮小に取り組む上で最も重要なことです。 わたしたちはデータに慣れ親しむZ世代の探究心や情熱とともに、私たちは創造性と革新性を育む環境を育み、社会全体をよりよい方向に進めていく必要があります。 ※このセクションはAre we prepared to raise a generation of data native?の内容を要約しています。詳細はこちらをご参照ください。 Curiosity: 東京は暑い! 筆者もZ世代の学生として、好奇心からアナリティクスにつながるちょっとした体験をしました。 上京してきた際に「東京って思ったよりも暑いんだ」と感じてから、都市部の暑さに興味を持ちました。近年、夏に注意を促される熱中症。毎年患者数が増加しており、日本全体で暑さに関する対策として緑のカーテンなど緑化を行っています。しかし、その緑化はどれくらい効果があるかピンとこない気がしていました。そこで今回は仮説として、「緑地率が高い区ほど熱中症患者数が少ない」を立てたので、東京都23区の緑地率と熱中症患者数にどのような関係があるかについて確かめたいと思います。 上図は、年次ごとに東京都23区の100万人当たりの熱中症患者数と緑地率(AVNIR-2の光学センサの衛星データより緑地を抽出して求めた割合)の相関を確かめるために作成した散布図です。 散布図から、6年分全体でみて緑地が増えると熱中症患者が減るという傾向は読み取れませんでした。相関係数0.4と正の方向に相関が少し出ていますが、年次で色分けした部分で縦軸方向に層ができているように見えるので、相関係数のみで判断するのは難しいと考えました。また区ごとに時系列で比較したとき、たった6年で緑被率に大幅な差がありました。これは私が取得できた衛星データに雲がかぶっているなどの原因で、緑地率のデータが正確でないためである可能性もあります。 今回の観察期間で熱中症患者数は年々増加しており、機会があれば、緑地率以外に考えられる要因を集めて影響度を確かめてみたいと思いました。 このように日常生活でふと気づいた疑問を積極的に考えて、実際はどうなんだろうか、何か出来ることはないかとアナリティクスを用いる動きは、学生の好奇心を刺激しデータ活用の第一歩となります。学生の皆さん、いま浮かんだ疑問をデータを使って深掘りしてみませんか? What are you curious about?