SAS Japan

活用事例からデータ分析のテクニックまで、SAS Japanが解き明かすアナリティクスの全て
Analytics | Students & Educators
0
本当の原因は何か?:コラム概要

はじめに   根拠に基づいた意思決定を行うこと (EBPM; Evidence Based Policy Making) が、近年分野を問わず重要視されるようになってきています。意思決定を行う立場としては、根拠となる事象と結果の事象の間に因果関係があるのか、それとも相関関係しかないのかは大変大きな違いです。   因果関係と相関関係を混同した1つの有名な例として、チョコレート摂取量とノーベル賞の受賞者数に関する研究があります。この研究では、「チョコレートを多く摂取するとノーベル賞受賞者数が増加する」という因果関係の存在について触れられています。この論文は、2012年に世界で最も権威のある医学雑誌の1つである New England Journal of Medicine に掲載され、世界規模で大きな論争を引き起こしました。論文では、国ごとのチョコレート消費量とノーベル賞受賞者数を調べたところ、チョコレート消費量の多い国ほどノーベル賞受賞者数が多いというデータが示されました。論争のポイントとなったのは、各国のチョコレート消費量とノーベル賞受賞者数の関係が以下のどちらの関係であるかについてです。  チョコレートを摂取すればノーベル賞受賞者は増加する(因果関係)  別の隠れた要因がそれぞれに影響を与えており、チョコレート消費量とノーベル賞受賞者数の間に見かけ上の関連性が生まれている(相関関係)   一体どちらの主張が正しいのでしょうか。読者の方には、ぜひ今の意見と、このコラム連載が終了した後の意見を比較していただきたいと考えています。   統計的因果推論 (Causal causal inference)  とは、因果関係をデータから導くための体系的な学問領域であり、2021年に David Card, Joshua Angrist, Guido Imbensの3名がノーベル経済学賞を受賞したことも相まって、現在大きな注目を集めています。しかし、その注目の程度と比べると、内容についてはあまり認知されていないように思います。そこで本ブログ・シリーズでは、統計的因果推論(または、単に因果推論)に関する連載を行います。データアナリティクスに関わる多くの方に、因果とは何か、それをデータから導くためには何が必要となるのかを理解をしていただき、適切なデータアナリティクスのために活用されることを望みます。連載コラムで取り扱う内容は以下を予定しています。  理論編 潜在アウトカムの枠組み 因果効果を求めるために必要な条件 観察研究と実験研究における交換可能性 選択バイアス (selection bias) 測定誤差 (measurement error) 手法・実装編 推定におけるモデルの必要性 層別化・回帰・標準化 傾向スコアとそれを用いた手法 操作変数法  理論編では、データから因果関係を考えるために必要となる概念、および仮定について取り扱います。また、観測される関係が真の関係と異なる要因について解説を行います。手法・実装編では、理論編で扱う潜在アウトカムの枠組みで因果効果を推定する手法についてSASでの実装方法とともに紹介を行います。SASソフトウェアでは、2016年以降のバージョンで、因果推論に特化した機能が利用できます。   なお、手法・実装編で紹介する因果効果の推定手法は、すべてを網羅しているわけではなく、回帰不連続デザインなど他にもいくつかの手法があることにご注意ください。 本コラムでは出来る限り数学的な記載は避け、直感的な表現をすることに努めますが、数理的な部分に興味がある方に向けた参考資料も準備しています。コラム中に登場する解析例で使用したプログラム・コードは著者のGithub上で公開を行う予定です。    謝辞  この連載記事では、参考文献として主に以下の2つを使用します。 Causal

Analytics | Internet of Things
0
製造業DXにおけるITとOTとの融合 (6) – センサデータの品質を向上させる7つのポイント(後編)

医者の診断に例えて学ぶ AIを用いたセンサデータ分析システムに関するよくある誤解について 製造業で盛んに導入されているセンサ。そのセンサデータを分析してビジネスインパクトのある結果を出すには、どのようにしたら良いのでしょうか? データ分析を成功させるためには、様々な要素が考えられますが、ここではセンサデータの質に注目したいと思います。いくら高度なデータ分析手法を用いても、分析対象のセンサデータが正しく取得できていない場合は、結果が出ないことは容易に想像できますが、あまり議論されることはありません。 これは、センサ計測とデータ分析の両方を視野に入れた幅広いノウハウが必要となり、Information Technology (IT) と Operational Technology (OT)との融合という課題に行き着くためです。 本ブログでは、このマニアックな話題を、医者の診断に例えながら、わかりやすく解説していきます。 記事の振り返り: 自覚症状が無いセンサデータの品質問題 これまで「自覚症状が無いセンサデータの品質問題」をテーマとし、「センサデータの品質を向上させる7つのポイント」について(前編)と(中編)の2回に分けてお話ししました。生産ラインのDXのために、センサデータを用いてデータ分析をしているのだが、思うような結果が得られていないケースが市場で発生していることをお伝えし、その原因の一つとして、分析対象となるセンサデータ自体の品質問題があることをお伝えしました。この問題は関係者が気付きにくく、対処方法も専門知識と経験が必要となります。 今回の後編では下記の⑥~⑦について御説明します。  図1. センサデータの品質を向上させる7つのポイント ⑥データレイクに蓄積すべきデータの選択(特徴量抽出) これまでの記事で、課題解決にマッチした高品質なセンサデータを収集することが重要だと述べてきましたが、他にも重要なポイントがあります。データレイクに蓄積すべきデータをどのように選択するのかが、昨今、課題となっています。  理由としては、AIモデル開発と更新のために、ある程度の生データ保存が必要となるからです。 この問題は、PoC段階では大きな問題になりません。PoCと称して大量にデータを取って専門の担当者が解析するからです。問題はPoC後の現場での運用です。 図2. 関連データ/センサ/特徴量の戦略的選択  それはなぜでしょうか? 各種センサが作り出すデータ量は非常に大きく、センサによっては毎分1 GB 以上のデータを生成してしまい、通信ネットワークの負荷の問題や、クラウド上でのデータ保存のコストといった現実的な問題が見えてくるためです。 例えば、図1の右側の表に示すように、サーモグラフィは動画像のため、1分間で1GB以上のデータを生成します。この場合、従量課金/ネットワークトラフィック減への対応が必要となります。温度センサ等のデータ量は、数個であれば小容量ですが、数百個もセンサを使用するケースですと、1分間に数MBにもなります。このようなデータをクラウドへ転送し続ける必要があるのでしょうか? また、高額なセンサを減らすために、できるだけセンサの数を絞りたいという要望も出てきます。これがいわゆるデータ選択(特徴量抽出)をどうたらいのかという課題の本質であり、データ分析上、特徴量の選定が重要だという理由とは異なります。では一体、どんなデータが本当に必要なのか、またデータ量を減らす時にどのような形でエッジコンピューティングを活用すべきなのでしょうか? この技術的な見解は、今後、ブログにて紹介させて頂きたいと思っておりますが、ITとOTの両方の視点から検討する必要があります。 キーワードとしてはプロ同士の意見交換です。 ⑦プロ同士の意見交換が鍵となる ここまで、センサデータの品質がデータ分析に与える影響について、データ分析企業の視点で述べてきましたが、どの注意点も専門知識と経験を要するものばかりです。つまり、成功の鍵は、プロ同士の意見交換だと言えます(図3)。もしくは「業界を超えたコラボレーションの必要性」、「ITとOTとの融合が鍵になる」と表現しても良いかもしれません。 特に現場の熟練者との協業は必須となります。現場の熟練者から伺いたい事としては、測定対象物の詳細、製造プロセスや作業工程、異常状態の詳細、また、どういうメカニズムで異常が起こるのか情報交換させて頂くことが重要です。そして、それがどれだけ困ることなのかをプロジェクトチーム内で意見交換をして頂くことが重要だと言えます。そして、センサデータ収集からデータ分析までを広く見渡した上で、AIを用いたセンサデータ分析システムを構築していくことが成功への近道だと筆者は考えています。難しく感じられる方もおられると思いますが、このプロ同士の意見交換に関しては、日本人エンジニアが得意とする高度な擦り合わせ文化が活かせると信じております。 図3. プロ同士の意見交換が大事  以上、センサデータの品質を向上させる7つのポイントを、3回に分けて紹介致しました。気になる点がございましたら、弊社までお問い合わせ下さい! 前回のブログ

Analytics | Internet of Things
0
製造業DXにおけるITとOTとの融合 (5) – センサデータの品質を向上させる7つのポイント(中編)

医者の診断に例えて学ぶ AIを用いたセンサデータ分析システムに関するよくある誤解について 製造業で盛んに導入されているセンサ。そのセンサデータを分析してビジネスインパクトのある結果を出すには、どのようにしたら良いのでしょうか? データ分析を成功させるためには、様々な要素が考えられますが、ここではセンサデータの質に注目したいと思います。いくら高度なデータ分析手法を用いても、分析対象のセンサデータが正しく取得できていない場合は、結果が出ないことは容易に想像できますが、あまり議論されることはありません。 これは、センサ計測とデータ分析の両方を視野に入れた幅広いノウハウが必要となり、Information Technology (IT) と Operational Technology (OT)との融合という課題に行き着くためです。 本ブログでは、このマニアックな話題を、医者の診断に例えながら、わかりやすく解説していきます。 記事の振り返り: 自覚症状が無いセンサデータの品質問題  これまで「自覚症状が無いセンサデータの品質問題」をテーマとし、前回は「センサデータの品質を向上させる7つのポイント(前編)」についてお話ししました。生産ラインのDXのために、センサデータを用いてデータ分析をしているのだが、思うような結果が得られていないケースが市場で発生していることをお伝えし、その原因の一つとして、分析対象となるセンサデータ自体の品質問題があることをお伝えしました。 この問題は関係者が気付きにくく、対処方法も専門知識と経験が必要となります。 そこで、「センサデータの品質を向上させる7つのポイント」について、今回の中編では下記の④~⑤まで御説明します。  図1. センサデータの品質を向上させる7つのポイント ④センサの設置方法  センサは種類に応じて必ずメーカが推奨する設置方法が決められています。図2は圧電型加速度センサの設置方法と注意点であり、加速度センサメーカから提供されている一般的な公開情報です。重要なのは、設置方法によっては必要なデータが得られないことです。例えば、計測可能な上限周波数は、プローブだと1 kHzが限界ですが、ネジ留めだと15 kHz近くまで測れます。これも筆者が経験した事例ですが、ユーザ様が自己流で両面テープを用いて加速度センサを貼り付けておられたために、振動が吸収されてしまい、正確な計測ができていなかったことがありました。これはさすがに、高度なデータ分析を実施する以前の問題でしたので、すぐに改善をお願いしました。 図2.  加速度センサの設置ミスによる振動データのロスト   ⑤データ収集装置の選定  データ収集装置自体の性能不足が問題になることがあります。これは盲点であり、自覚症状が出にくいものです。たとえ高精度なセンサを設置してデータ収集したとしても、適切なデータ収集装置を選定しなかったために、データの精度を低下させてしまうケースがあります。特に重要なのは、サンプリング周波数、分解能、同期計測の3つです(図3)。 図3. 適切な計測装置の使用が不可欠  サンプリング周波数に関しては、計測器の選定基準の一つとして必ずカタログ等に記載されており、また、近年はサンプリング周波数が不足しているデータ収集装置は稀なため、選定ミスの原因にはなりにくくなっています。しかし、分解能に関しては注意が必要です。例えば、加速度センサやマイクロフォンを用いた計測では、 24 bit分解能のデータ収集装置を使用するのが業界標準だが、16 bit分解能の装置を使用しているケースがあります(一般的なオシロスコープは8 bit分解能)。この場合、計測データに与える影響としては、波形再現性の悪化と微少な変化の取りこぼしが発生します。仮に機械学習を用いて異常検出をするとしたら、感度不足が起こる可能性があります(表1)。  表1. センサ計測ミスの原因とデータ分析に与える影響    極めて重要であるにもかかわらず、ほとんど意識されていないのが、同期計測です。各種センサデータ同士の時間的タイミングが取れていない場合は、厳密なデータ分析ができない場合があるからです。例えば、周期性のある回転機械や往復運動機械の異常検知を行う場合には、各種信号の立ち上がりタイミングや信号の発生サイクルが異常検知上、大きな意味を持つため、同期が取れていないデータでは異常検出が困難な場合あります(図4)。厳密には、計測装置の同期精度が、実施したいデータ分析用途に合っているかどうか判断する必要があります。高速動作をする精密機械の状態監視では、マイクロ秒レベルの同期精度が要求される場合もあり、一般的な工作機械ではミリ秒レベルで十分な場合があります。 図4.同期計測の重要性 データ収集装置の選定ミスにより、不具合の発見ができなかったという事例を、筆者は数件経験しています。例えば、高速印刷機の印刷ズレの原因分析に携わった時のことです。原因はベアリングのわずかな損傷で、それが原因で印刷ズレが発生していました。ですが、お客様のお持ちのデータ収集装置は、サンプリング周波数と分解能が低く、異常波形が検出できておりませんでした。そのため、筆者が持ち込んだデータ収集装置を使い原因分析は成功しました。加速度センサは最高のものでしたが、それを活かしきれるデータ収集装置の選定に問題があったという事例でした。 これまでの記事で、センサデータの品質を向上させる7つのポイントのうち5つを紹介してきました。 残り2つのポイントは、後編にて御説明します。 前回のブログ  次回に続く

Analytics | Internet of Things
0
製造業DXにおけるITとOTとの融合 (4) – センサデータの品質を向上させる7つのポイント(前編)

医者の診断に例えて学ぶ AIを用いたセンサデータ分析システムに関するよくある誤解について 製造業で盛んに導入されているセンサ。そのセンサデータを分析してビジネスインパクトのある結果を出すには、どのようにしたら良いのでしょうか? データ分析を成功させるためには、様々な要素が考えられますが、ここではセンサデータの質に注目したいと思います。いくら高度なデータ分析手法を用いても、分析対象のセンサデータが正しく取得できていない場合は、結果が出ないことは容易に想像できますが、あまり議論されることはありません。 これは、センサ計測とデータ分析の両方を視野に入れた幅広いノウハウが必要となり、Information Technology (IT) と Operational Technology (OT)との融合という課題に行き着くためです。 本ブログでは、このマニアックな話題を、医者の診断に例えながら、わかりやすく解説していきます。 前回の振り返り: 結果が出ないPoC(Proof of Concept:概念実証)  前回の記事では「自覚症状が無いセンサデータの品質問題」についてお話ししました。生産ラインのDXのために、センサデータを用いてデータ分析をしているのだが、思うような結果が得られていないというケースが市場で発生していることをお伝えし、その原因の一つとして、分析対象となるセンサデータ自体の品質問題があることをお伝えしました。 この問題は関係者の自覚症状もないため気付きにくく、対処方法も専門知識と経験が必要となります。 そこで、今回から前編/中編/後編の3回に分けて、「センサデータの品質を向上させる7つのポイント」について御説明します。 センサデータの品質を向上させる7つのポイント  現場では正確なセンサデータ収集(計測)を行っているつもりでも、気付かずに失敗しているケースが数多く存在していることに注意して頂きたいです。これは、計測ミスしたデータをいくら解析しても、良い結果は得られないからです。このような計測ミスを防ぐためのポイントは以下の7つだと言えます。 ※本記事では、上記の①~③まで御説明します。 ① 異常状態の発生メカニズムの理解(測定対象物の理解) この異常状態の発生メカニズムの理解は、測定対象物の理解を深めることだと言い換えることもできます。 いくつか例をあげてみます。ポンプのような回転機械の軸受けの不具合は異常振動として現れ、その結果として異音が発生します。また、音響機器はスピーカの取り付け不具合により、ビビリ音という異音が現れます。そして、プレス機のような往復運動機械の場合は、往復周期がぶれることにより、生産品の加工精度にバラツキが生じることがあります。さらに、射出成形機の場合は、材料の注入圧力の時間的変化にバラツキが生じた場合にうまく成形できない場合があります。 このように、測定対象物の異常状態が、なぜ起きるのかを物理的な観点から把握することが第1ステップとなります。 ところがこれが意外と難しいため、解決策としては、異常状態を把握している可能性の高い、現場の熟練オペレータなどからの情報収集が重要になります。 ② センサの選択(取得データの選定) よくあるミスとしては、センサの選択ミス、いわゆる取得データの選定ミスがあげられます。原因の一つは、上述の「①異常状態の発生メカニズム」が事前に理解できておらず、適切なセンサ選定ができなかったことに起因しています。例えば、回転機械の軸受けの不具合は異常振動として現れるため、異常検知のためには加速度センサを用いて振動データを取得することがベストだと言えます。また、音響機器のスピーカの取り付け不具合によるビビリ音の検出にはマイクロフォンを用いた音響計測が適切だと考えられます。 実はセンサ選定が不要な場合もあります。例えば、機械の制御信号が外部出力されているようであれば、そのままデータ収集することも可能です。 他にも原因があります。それは、システム構築を担当しているシステムインテグレータ(SIer)の得意分野が影響しているケースがあります。実際、SIerが得意としていないセンサは選定候補に上がってこないケースがあります。表1は、状態監視のために使用される代表的なセンサをまとめたものです。センサの種類によっては専門メーカや専門のSIerがいるものもあり、中には高性能な計測器が必要とされるセンサもあります。これは筆者が経験したことですが、製造装置の状態監視の際に、電流を使った異常検知の方が適切だと思われるケースがありました。ですがそこでは加速度センサが使用されていました。理由は業者が得意とするセンサ計測領域に偏りがあったことと、特に明確な理由がないまま、加速度センサが選択されていた状況でした。無論、生データには異常信号が弱く含まれており、データ分析をしても良い結果が得られていませんでした。そのため、筆者はセンサの変更を進言しました。 表1.状態監視に使用される代表的なセンサ ③ センサの取付け位置 センサの取付け位置も重要です。例として生産品の品質管理と製造装置の異常検知の例をあげてみます。機械はローラ機械である。図1左側の写真は、加速度センサを用いた軸受けのモニタリングであり、X、Y、Z軸に加速度センサが取り付けられている。この例は正しく設置されている例である。  医者の診断に例えれば、心臓の診断のために心音を聴こうとする医者は、どこに聴診器をあてるでしょうか? もちろん胸ですよね? 足に聴診器をあてて心音を聴こうとするお医者様がいたらかなり心配になりますよね? このような、あり得ない状況がセンサの取付け位置のミスとして起こっている場合があります。このような事態を防ぐには、「なぜそのセンサを設置するのですか?」とSIerに質問するなり、自問自答してみると良いと思います。また、「設置するセンサの数、取り付け方向はどうすべきか?」という問いに関しても明確な理由を持っておきたいですね。             図1.生産品の品質管理と製造装置の異常検知(ローラ機械の例) 以上、センサデータの品質を向上させる7つのポイントのうち3つを紹介しました。 次回は、④~⑤について御紹介します。 前回のブログ  次回に続く

1 14 15 16 17 18 59