Japanese

Analytics | Learn SAS | Students & Educators
見習いデータサイエンティストが思うキャリアの選び方 【アナリティクスを活用するキャリア: SAS Japan】

アカデミア向けにアナリティクス・データサイエンスのキャリアを紹介するイベント「SAS アナリティクス・キャリアシンポジウム」において、SAS Institute Japan 株式会社 コンサルティングサービス統括本部のクラウス 舞恵瑠 氏が講演しました。本イベントは、「データサイエンティストになりたい」と考える学生が業務内容やキャリアをイメージできるようになることを目指し、2021年12月22日(水)に開催されました。前回の記事はこちら。 「大学院のときに学会に参加し、『もっと数学をやりたい』と気づいたときには、すでに就活が終わっていました…」と振り返るクラウス氏は、大学院ではオペレーションズ・リサーチを専攻していました。「やりたいことが分からないから」という理由でコンサルティングファームに就職し、システムの導入支援の業務につきましたが、在学中に参加した学会で芽生えた「数理的な手法で問題解決をしてみたい」という思いが強くなり、SAS Japanへの転職を決意します。 クラウス氏がSASで携わっている直近のプロジェクトのテーマは、「不良債権回収業務の回収益向上」というものです。通常、債務の返済を督促するときは電話をかけますが、人によっては訴訟に発展してしまう可能性もあります。そこで、返済状況や債務者のタイプによって督促の方法を変更したり、場合によっては債務を減額する提案をするほうが長期的には回収額が向上する場合があったりします。どのような督促・回収方法を取るのがよいのか、回収担当者の意思決定を支援するために、強化学習や最適化手法といったデータ分析を活用します。 「一般的なプロジェクトには業務フローがありますが、それぞれのフェーズにおいて必要となるスキルや知識は異なります」とクラウス氏は言います。プロジェクトのフェーズは①現状分析/効果検証、②要件定義、③設計/開発/テスト、④導入支援、⑤本番稼働、の5つに分けられます。それぞれのフェーズにおいて、①分析とドメイン知識、②コミュニケーション、③エンジニアリング、④コミュニケーション、⑤エンジニアリングのスキルが重要になります。 分析スキルのベースには線形代数、微分、統計などの数学的な力があり、それを活用するためにSASやPythonなどのツールやプログラミングのスキルがあります。業界やクライアントの業務に関する知識であるドメイン知識は、クラウス氏によると「非常に重要なもの」ですが、一方で「学生の間に身につけることは難しい」ものです。コミュニケーション・スキルは、クライアントの課題を明確にするためにヒアリングを実施し、また、プランや結果をクライアントにフィードバックするための資料を作成し、わかりやすく説明するためのスキルです。エンジニアリング・スキルは、参画するプロジェクトにもよりますが、GithubやSQLなどのテクノロジーを扱う技術が求められる傾向にあります。このうち、分析スキルは大学の授業などを通して、コミュニケーション・スキルはゼミなどを通して学生のうちに身につけることができそうです。 「これらのスキルをすべて伸ばしていくことはもちろん望ましいですが、私の現在の課題としては、より高度な分析スキルを身につけることです。そのためには、独学、勉強会、YouTubeなどさまざまな勉強法がありますが、一番大切なのは実務経験だと考えています」とクラウス氏は述べます。「学生にとっては実務経験を得ることは難しいですが、就職したあとに積極的に実務に携わり、経験を通してスキルを向上させていく意欲が大切です」と学生にエールを送りました。

Analytics | Students & Educators
0
本当の原因は何か?:潜在アウトカムによる因果効果の定義

はじめに   データに基づいた意思決定が必要とされる場面が近年ますます増えており、そういった際には、データからいかに因果関係を導き出すかが非常に重要な問題です。”因果”を統計学的に捉え、いかにしてそれに迫るかは、統計的因果推論として体系化がなされています。SAS Blogでは、前回の記事からこの統計的因果推論に関する連載コラム・シリーズが始まりました。  因果関係を統計学的に導くことを目的とする統計的因果推論には、主に2つの枠組みがあります。1つは潜在アウトカムを用いるRubin流の考え方、そしてもう1つが構造的因果モデルを用いるPearl流の考え方です。これら2つの考え方は相反するものではなく、Pearl流の因果推論では、ある変数の特徴とそれらの関係を記述するために構造的因果モデル  (SCM; Structural Causal Model) が用いられています。このSCMには対応するグラフィカル因果モデルがそれぞれ存在しており、その際に使用されるのが有向非巡回グラフ (DAG; Directed Acyclic Graph)※1です。このDAGはRubin流の因果推論においても、変数間の関係を視覚的に理解するために補助的に利用がされています。本コラム・シリーズでは前者の潜在アウトカムの枠組みでの因果推論について紹介を行います。今回は特にその根底となる潜在アウトカムについて、また、それを用いた因果関係の定義について説明します。  ※1 補足資料を参照    相関関係と因果関係   相関関係とは、ある2つの変数において、一方が増加するにつれてもう一方も増加(減少)する傾向があるという双方向の関係を意味しています。これに対し因果関係とは、ある2つの変数のうち、一方の操作可能な変数(原因)の値を変化させる(介入を行う)と、もう一方(結果)の値が変化するという、原因から結果への一方向的な関係です。これらの関係の違いを理解することは社会生活を送る上で非常に重要です。例えば、相関関係がある有名な例として、年収と血圧の関係があります。この2つの変数の間には正の相関関係(年収が高くなるほど血圧が高い傾向)があります。しかし、年収を上げるために血圧を上げる(Ex, 暴飲暴食を行う)ことは妥当でしょうか。もしくは、血圧を下げるために年収を下げる(Ex, 転職をする)ことは受け入れられることでしょうか。おそらく多くの読者の方の意見は「No」であるかと思います。この例からも察することができるように、相関関係と因果関係の存在とその方向というものは必ずしも一致しません。また、これらの関係を混同することは大きな不利益につながる可能性があります。上記の例であれば、真には血圧の増加は年収増加に対して因果的な効果を持たないのにも関わらず年収を上げるために無駄に暴飲暴食を行ってしまうことで、結果として不健康につながる可能性があります。   このように興味の対象が因果関係、因果効果である場面は比較的多く存在します。統計的因果推論 (causal inference) とはこれらを形而的、哲学的にではなく、統計学的に考える学問分野です。また、単に因果推論と言われる場合もあり、コラム中で単に因果推論と呼称した場合には、統計的因果推論を意味していることにご注意ください。データから因果効果を推定するために「傾向スコア」を用いた手法など様々なものが用いられています。しかし、これらの手法は適用さえすれば因果効果を適切に推定することができるというわけではありません。因果推論を行うにあたっては因果関係を検討する集団はどういった集団であるか、考える因果効果はどのような介入の効果であるかといった因果的な疑問 (causal question) を明確にすることがまず重要です。その上でデータへの手法の適用があります。また、それぞれの手法は異なる仮定を必要とするため、無条件で因果効果を求めることはできず、その仮定が目の前にあるデータに対してどの程度成立するものであるかといった議論も必要です。 加えて、推定する対象が手法間で異なるといった点や真の関係をゆがませる要因は何が想定されるのかなど、他にも様々な事を考慮する必要があり、慎重に議論を行っていくことが大切です。本コラムでは潜在アウトカムの枠組みでの因果推論の理論(考え方)と、一部の因果効果の推定手法についてのみ取り扱いますが、現実的にはそのような総合的な議論が重要です。    本コラムにおける用語   今回のコラムでは、心臓移植とその5日後の生存の間の因果関係を具体例として考えます。すなわち、心臓移植という介入が5日間の生存というアウトカムに対して、因果効果を持つかどうかを検討します。医療の分野では原因として考える要因を介入 (intervention) や処置 (treatment) 、曝露 (exposure)、結果変数のことをアウトカム (outcome) と呼ぶことが一般的であり、このコラム・シリーズでは、具体例として主に医療関連の話題を取り上げるため、基本的にはこのような呼称を行います。経済・金融系の分野では、因果効果があるかどうか検討したい要因が施策等である場面があるかと思いますが、因果推論の理論に関して変わりはないので、本コラムの例を読者の方がそれぞれ抱えている疑問に置き換えて考えるとよいでしょう。ただ、今後紹介する因果推論に関する様々な仮定の妥当性や分析に用いられるデータの特徴は、それぞれの分野によって異なりますので、その点ご理解ください。    潜在アウトカムによる因果効果   それでは早速、例を用いて潜在アウトカムとは何か、因果関係とは何かを考えていきます。具体的には心臓移植(介入)が5日後の生存(アウトカム)に対して因果的な効果があるのかどうかを考えます。この関係を検討するために、まずゼウスとヘラというある2人に対し、ともに介入を行うことを想定し、何らかの方法で以下の結果が得られたものとします。  ゼウスは1月1日に心臓移植を受けると、その5日後には死亡している。 ヘラは1月1日に心臓移植を受けると、その5日後は生存している。   このもしもの結果(介入を行う場合の結果)が分かったとき、心臓移植はゼウスとヘラの5日間の生存に対してそれぞれ因果効果を持つと結論付けることは可能でしょうか。一見すると、ゼウスは心臓移植後に死亡し、ヘラは生存していますので、ゼウスに対してはnegativeな因果効果(心臓移植により死亡した)、ヘラに対してはpositiveな因果効果(心臓移植により生存した)があったように見えます。しかし、その結論は正しいのでしょうか。もしかすると心臓移植を受けずとも、ゼウスは5日後には亡くなり、ヘラは生きていたのかもしれません(結果は変わらなかった)。もしくは心臓移植を行わなければ、逆にゼウスは生存し、ヘラは亡くなっていたのかもしれません。つまり因果効果があるかどうかについては、この結果だけでは判断することはできません。   では、どのような状況であれば因果関係かどうかを判断することができるでしょうか。その1つのアイディアがもし介入を受けなかったらどのような結果が得られたのかを考えることです。実際にはゼウスもヘラも介入を受けるか受けないかのいずれかしか取り得ないため、必ずどちらか一方の結果は現実的には得られない(反事実)ものとなってしまいますが※2、先ほどと同様に何かしらの方法でその場合の結果を知ることができたと仮定し、それぞれの場合の結果を比較するわけです。そして、それらの値が異なるのであれば介入の因果効果があるとし、同一であるのならば因果効果がないと判断します。   ゼウスとヘラに関しては、以下のようなifの結果が得られたとします。  ゼウスは1月1日に心臓移植を受けないと、その5日後は生存している。 ヘラは1月1日に心臓移植を受けないと、その5日後は生存している。   先程の結果も含め、介入を受ける場合と受けない場合の結果をまとめたものが下図です。   介入を受けない場合の結果が得られたことにより、心臓移植はゼウスに対しては5日後の生存に対し因果効果を与えた(ネガティブな効果)、ヘラには因果効果を与えなかった(介入があってもなくても結果は同じ)と判断することができます。おそらく、この判断に関しては読者の方々も特に異論はないかと思います。この例のように、ある介入を受けた場合のifの結果のことを潜在アウトカム (potential outcomes)

Analytics | Students & Educators
0
本当の原因は何か?:コラム概要

はじめに   根拠に基づいた意思決定を行うこと (EBPM; Evidence Based Policy Making) が、近年分野を問わず重要視されるようになってきています。意思決定を行う立場としては、根拠となる事象と結果の事象の間に因果関係があるのか、それとも相関関係しかないのかは大変大きな違いです。   因果関係と相関関係を混同した1つの有名な例として、チョコレート摂取量とノーベル賞の受賞者数に関する研究があります。この研究では、「チョコレートを多く摂取するとノーベル賞受賞者数が増加する」という因果関係の存在について触れられています。この論文は、2012年に世界で最も権威のある医学雑誌の1つである New England Journal of Medicine に掲載され、世界規模で大きな論争を引き起こしました。論文では、国ごとのチョコレート消費量とノーベル賞受賞者数を調べたところ、チョコレート消費量の多い国ほどノーベル賞受賞者数が多いというデータが示されました。論争のポイントとなったのは、各国のチョコレート消費量とノーベル賞受賞者数の関係が以下のどちらの関係であるかについてです。  チョコレートを摂取すればノーベル賞受賞者は増加する(因果関係)  別の隠れた要因がそれぞれに影響を与えており、チョコレート消費量とノーベル賞受賞者数の間に見かけ上の関連性が生まれている(相関関係)   一体どちらの主張が正しいのでしょうか。読者の方には、ぜひ今の意見と、このコラム連載が終了した後の意見を比較していただきたいと考えています。   統計的因果推論 (Causal causal inference)  とは、因果関係をデータから導くための体系的な学問領域であり、2021年に David Card, Joshua Angrist, Guido Imbensの3名がノーベル経済学賞を受賞したことも相まって、現在大きな注目を集めています。しかし、その注目の程度と比べると、内容についてはあまり認知されていないように思います。そこで本ブログ・シリーズでは、統計的因果推論(または、単に因果推論)に関する連載を行います。データアナリティクスに関わる多くの方に、因果とは何か、それをデータから導くためには何が必要となるのかを理解をしていただき、適切なデータアナリティクスのために活用されることを望みます。連載コラムで取り扱う内容は以下を予定しています。  理論編 潜在アウトカムの枠組み 因果効果を求めるために必要な条件 観察研究と実験研究における交換可能性 選択バイアス (selection bias) 測定誤差 (measurement error) 手法・実装編 推定におけるモデルの必要性 層別化・回帰・標準化 傾向スコアとそれを用いた手法 操作変数法  理論編では、データから因果関係を考えるために必要となる概念、および仮定について取り扱います。また、観測される関係が真の関係と異なる要因について解説を行います。手法・実装編では、理論編で扱う潜在アウトカムの枠組みで因果効果を推定する手法についてSASでの実装方法とともに紹介を行います。SASソフトウェアでは、2016年以降のバージョンで、因果推論に特化した機能が利用できます。   なお、手法・実装編で紹介する因果効果の推定手法は、すべてを網羅しているわけではなく、回帰不連続デザインなど他にもいくつかの手法があることにご注意ください。 本コラムでは出来る限り数学的な記載は避け、直感的な表現をすることに努めますが、数理的な部分に興味がある方に向けた参考資料も準備しています。コラム中に登場する解析例で使用したプログラム・コードは著者のGithub上で公開を行う予定です。    謝辞  この連載記事では、参考文献として主に以下の2つを使用します。 Causal

Analytics | Internet of Things
0
製造業DXにおけるITとOTとの融合 (6) – センサデータの品質を向上させる7つのポイント(後編)

医者の診断に例えて学ぶ AIを用いたセンサデータ分析システムに関するよくある誤解について 製造業で盛んに導入されているセンサ。そのセンサデータを分析してビジネスインパクトのある結果を出すには、どのようにしたら良いのでしょうか? データ分析を成功させるためには、様々な要素が考えられますが、ここではセンサデータの質に注目したいと思います。いくら高度なデータ分析手法を用いても、分析対象のセンサデータが正しく取得できていない場合は、結果が出ないことは容易に想像できますが、あまり議論されることはありません。 これは、センサ計測とデータ分析の両方を視野に入れた幅広いノウハウが必要となり、Information Technology (IT) と Operational Technology (OT)との融合という課題に行き着くためです。 本ブログでは、このマニアックな話題を、医者の診断に例えながら、わかりやすく解説していきます。 記事の振り返り: 自覚症状が無いセンサデータの品質問題 これまで「自覚症状が無いセンサデータの品質問題」をテーマとし、「センサデータの品質を向上させる7つのポイント」について(前編)と(中編)の2回に分けてお話ししました。生産ラインのDXのために、センサデータを用いてデータ分析をしているのだが、思うような結果が得られていないケースが市場で発生していることをお伝えし、その原因の一つとして、分析対象となるセンサデータ自体の品質問題があることをお伝えしました。この問題は関係者が気付きにくく、対処方法も専門知識と経験が必要となります。 今回の後編では下記の⑥~⑦について御説明します。  図1. センサデータの品質を向上させる7つのポイント ⑥データレイクに蓄積すべきデータの選択(特徴量抽出) これまでの記事で、課題解決にマッチした高品質なセンサデータを収集することが重要だと述べてきましたが、他にも重要なポイントがあります。データレイクに蓄積すべきデータをどのように選択するのかが、昨今、課題となっています。  理由としては、AIモデル開発と更新のために、ある程度の生データ保存が必要となるからです。 この問題は、PoC段階では大きな問題になりません。PoCと称して大量にデータを取って専門の担当者が解析するからです。問題はPoC後の現場での運用です。 図2. 関連データ/センサ/特徴量の戦略的選択  それはなぜでしょうか? 各種センサが作り出すデータ量は非常に大きく、センサによっては毎分1 GB 以上のデータを生成してしまい、通信ネットワークの負荷の問題や、クラウド上でのデータ保存のコストといった現実的な問題が見えてくるためです。 例えば、図1の右側の表に示すように、サーモグラフィは動画像のため、1分間で1GB以上のデータを生成します。この場合、従量課金/ネットワークトラフィック減への対応が必要となります。温度センサ等のデータ量は、数個であれば小容量ですが、数百個もセンサを使用するケースですと、1分間に数MBにもなります。このようなデータをクラウドへ転送し続ける必要があるのでしょうか? また、高額なセンサを減らすために、できるだけセンサの数を絞りたいという要望も出てきます。これがいわゆるデータ選択(特徴量抽出)をどうたらいのかという課題の本質であり、データ分析上、特徴量の選定が重要だという理由とは異なります。では一体、どんなデータが本当に必要なのか、またデータ量を減らす時にどのような形でエッジコンピューティングを活用すべきなのでしょうか? この技術的な見解は、今後、ブログにて紹介させて頂きたいと思っておりますが、ITとOTの両方の視点から検討する必要があります。 キーワードとしてはプロ同士の意見交換です。 ⑦プロ同士の意見交換が鍵となる ここまで、センサデータの品質がデータ分析に与える影響について、データ分析企業の視点で述べてきましたが、どの注意点も専門知識と経験を要するものばかりです。つまり、成功の鍵は、プロ同士の意見交換だと言えます(図3)。もしくは「業界を超えたコラボレーションの必要性」、「ITとOTとの融合が鍵になる」と表現しても良いかもしれません。 特に現場の熟練者との協業は必須となります。現場の熟練者から伺いたい事としては、測定対象物の詳細、製造プロセスや作業工程、異常状態の詳細、また、どういうメカニズムで異常が起こるのか情報交換させて頂くことが重要です。そして、それがどれだけ困ることなのかをプロジェクトチーム内で意見交換をして頂くことが重要だと言えます。そして、センサデータ収集からデータ分析までを広く見渡した上で、AIを用いたセンサデータ分析システムを構築していくことが成功への近道だと筆者は考えています。難しく感じられる方もおられると思いますが、このプロ同士の意見交換に関しては、日本人エンジニアが得意とする高度な擦り合わせ文化が活かせると信じております。 図3. プロ同士の意見交換が大事  以上、センサデータの品質を向上させる7つのポイントを、3回に分けて紹介致しました。気になる点がございましたら、弊社までお問い合わせ下さい! 前回のブログ

Analytics | Internet of Things
0
製造業DXにおけるITとOTとの融合 (5) – センサデータの品質を向上させる7つのポイント(中編)

医者の診断に例えて学ぶ AIを用いたセンサデータ分析システムに関するよくある誤解について 製造業で盛んに導入されているセンサ。そのセンサデータを分析してビジネスインパクトのある結果を出すには、どのようにしたら良いのでしょうか? データ分析を成功させるためには、様々な要素が考えられますが、ここではセンサデータの質に注目したいと思います。いくら高度なデータ分析手法を用いても、分析対象のセンサデータが正しく取得できていない場合は、結果が出ないことは容易に想像できますが、あまり議論されることはありません。 これは、センサ計測とデータ分析の両方を視野に入れた幅広いノウハウが必要となり、Information Technology (IT) と Operational Technology (OT)との融合という課題に行き着くためです。 本ブログでは、このマニアックな話題を、医者の診断に例えながら、わかりやすく解説していきます。 記事の振り返り: 自覚症状が無いセンサデータの品質問題  これまで「自覚症状が無いセンサデータの品質問題」をテーマとし、前回は「センサデータの品質を向上させる7つのポイント(前編)」についてお話ししました。生産ラインのDXのために、センサデータを用いてデータ分析をしているのだが、思うような結果が得られていないケースが市場で発生していることをお伝えし、その原因の一つとして、分析対象となるセンサデータ自体の品質問題があることをお伝えしました。 この問題は関係者が気付きにくく、対処方法も専門知識と経験が必要となります。 そこで、「センサデータの品質を向上させる7つのポイント」について、今回の中編では下記の④~⑤まで御説明します。  図1. センサデータの品質を向上させる7つのポイント ④センサの設置方法  センサは種類に応じて必ずメーカが推奨する設置方法が決められています。図2は圧電型加速度センサの設置方法と注意点であり、加速度センサメーカから提供されている一般的な公開情報です。重要なのは、設置方法によっては必要なデータが得られないことです。例えば、計測可能な上限周波数は、プローブだと1 kHzが限界ですが、ネジ留めだと15 kHz近くまで測れます。これも筆者が経験した事例ですが、ユーザ様が自己流で両面テープを用いて加速度センサを貼り付けておられたために、振動が吸収されてしまい、正確な計測ができていなかったことがありました。これはさすがに、高度なデータ分析を実施する以前の問題でしたので、すぐに改善をお願いしました。 図2.  加速度センサの設置ミスによる振動データのロスト   ⑤データ収集装置の選定  データ収集装置自体の性能不足が問題になることがあります。これは盲点であり、自覚症状が出にくいものです。たとえ高精度なセンサを設置してデータ収集したとしても、適切なデータ収集装置を選定しなかったために、データの精度を低下させてしまうケースがあります。特に重要なのは、サンプリング周波数、分解能、同期計測の3つです(図3)。 図3. 適切な計測装置の使用が不可欠  サンプリング周波数に関しては、計測器の選定基準の一つとして必ずカタログ等に記載されており、また、近年はサンプリング周波数が不足しているデータ収集装置は稀なため、選定ミスの原因にはなりにくくなっています。しかし、分解能に関しては注意が必要です。例えば、加速度センサやマイクロフォンを用いた計測では、 24 bit分解能のデータ収集装置を使用するのが業界標準だが、16 bit分解能の装置を使用しているケースがあります(一般的なオシロスコープは8 bit分解能)。この場合、計測データに与える影響としては、波形再現性の悪化と微少な変化の取りこぼしが発生します。仮に機械学習を用いて異常検出をするとしたら、感度不足が起こる可能性があります(表1)。  表1. センサ計測ミスの原因とデータ分析に与える影響    極めて重要であるにもかかわらず、ほとんど意識されていないのが、同期計測です。各種センサデータ同士の時間的タイミングが取れていない場合は、厳密なデータ分析ができない場合があるからです。例えば、周期性のある回転機械や往復運動機械の異常検知を行う場合には、各種信号の立ち上がりタイミングや信号の発生サイクルが異常検知上、大きな意味を持つため、同期が取れていないデータでは異常検出が困難な場合あります(図4)。厳密には、計測装置の同期精度が、実施したいデータ分析用途に合っているかどうか判断する必要があります。高速動作をする精密機械の状態監視では、マイクロ秒レベルの同期精度が要求される場合もあり、一般的な工作機械ではミリ秒レベルで十分な場合があります。 図4.同期計測の重要性 データ収集装置の選定ミスにより、不具合の発見ができなかったという事例を、筆者は数件経験しています。例えば、高速印刷機の印刷ズレの原因分析に携わった時のことです。原因はベアリングのわずかな損傷で、それが原因で印刷ズレが発生していました。ですが、お客様のお持ちのデータ収集装置は、サンプリング周波数と分解能が低く、異常波形が検出できておりませんでした。そのため、筆者が持ち込んだデータ収集装置を使い原因分析は成功しました。加速度センサは最高のものでしたが、それを活かしきれるデータ収集装置の選定に問題があったという事例でした。 これまでの記事で、センサデータの品質を向上させる7つのポイントのうち5つを紹介してきました。 残り2つのポイントは、後編にて御説明します。 前回のブログ  次回に続く

Analytics | Internet of Things
0
製造業DXにおけるITとOTとの融合 (4) – センサデータの品質を向上させる7つのポイント(前編)

医者の診断に例えて学ぶ AIを用いたセンサデータ分析システムに関するよくある誤解について 製造業で盛んに導入されているセンサ。そのセンサデータを分析してビジネスインパクトのある結果を出すには、どのようにしたら良いのでしょうか? データ分析を成功させるためには、様々な要素が考えられますが、ここではセンサデータの質に注目したいと思います。いくら高度なデータ分析手法を用いても、分析対象のセンサデータが正しく取得できていない場合は、結果が出ないことは容易に想像できますが、あまり議論されることはありません。 これは、センサ計測とデータ分析の両方を視野に入れた幅広いノウハウが必要となり、Information Technology (IT) と Operational Technology (OT)との融合という課題に行き着くためです。 本ブログでは、このマニアックな話題を、医者の診断に例えながら、わかりやすく解説していきます。 前回の振り返り: 結果が出ないPoC(Proof of Concept:概念実証)  前回の記事では「自覚症状が無いセンサデータの品質問題」についてお話ししました。生産ラインのDXのために、センサデータを用いてデータ分析をしているのだが、思うような結果が得られていないというケースが市場で発生していることをお伝えし、その原因の一つとして、分析対象となるセンサデータ自体の品質問題があることをお伝えしました。 この問題は関係者の自覚症状もないため気付きにくく、対処方法も専門知識と経験が必要となります。 そこで、今回から前編/中編/後編の3回に分けて、「センサデータの品質を向上させる7つのポイント」について御説明します。 センサデータの品質を向上させる7つのポイント  現場では正確なセンサデータ収集(計測)を行っているつもりでも、気付かずに失敗しているケースが数多く存在していることに注意して頂きたいです。これは、計測ミスしたデータをいくら解析しても、良い結果は得られないからです。このような計測ミスを防ぐためのポイントは以下の7つだと言えます。 ※本記事では、上記の①~③まで御説明します。 ① 異常状態の発生メカニズムの理解(測定対象物の理解) この異常状態の発生メカニズムの理解は、測定対象物の理解を深めることだと言い換えることもできます。 いくつか例をあげてみます。ポンプのような回転機械の軸受けの不具合は異常振動として現れ、その結果として異音が発生します。また、音響機器はスピーカの取り付け不具合により、ビビリ音という異音が現れます。そして、プレス機のような往復運動機械の場合は、往復周期がぶれることにより、生産品の加工精度にバラツキが生じることがあります。さらに、射出成形機の場合は、材料の注入圧力の時間的変化にバラツキが生じた場合にうまく成形できない場合があります。 このように、測定対象物の異常状態が、なぜ起きるのかを物理的な観点から把握することが第1ステップとなります。 ところがこれが意外と難しいため、解決策としては、異常状態を把握している可能性の高い、現場の熟練オペレータなどからの情報収集が重要になります。 ② センサの選択(取得データの選定) よくあるミスとしては、センサの選択ミス、いわゆる取得データの選定ミスがあげられます。原因の一つは、上述の「①異常状態の発生メカニズム」が事前に理解できておらず、適切なセンサ選定ができなかったことに起因しています。例えば、回転機械の軸受けの不具合は異常振動として現れるため、異常検知のためには加速度センサを用いて振動データを取得することがベストだと言えます。また、音響機器のスピーカの取り付け不具合によるビビリ音の検出にはマイクロフォンを用いた音響計測が適切だと考えられます。 実はセンサ選定が不要な場合もあります。例えば、機械の制御信号が外部出力されているようであれば、そのままデータ収集することも可能です。 他にも原因があります。それは、システム構築を担当しているシステムインテグレータ(SIer)の得意分野が影響しているケースがあります。実際、SIerが得意としていないセンサは選定候補に上がってこないケースがあります。表1は、状態監視のために使用される代表的なセンサをまとめたものです。センサの種類によっては専門メーカや専門のSIerがいるものもあり、中には高性能な計測器が必要とされるセンサもあります。これは筆者が経験したことですが、製造装置の状態監視の際に、電流を使った異常検知の方が適切だと思われるケースがありました。ですがそこでは加速度センサが使用されていました。理由は業者が得意とするセンサ計測領域に偏りがあったことと、特に明確な理由がないまま、加速度センサが選択されていた状況でした。無論、生データには異常信号が弱く含まれており、データ分析をしても良い結果が得られていませんでした。そのため、筆者はセンサの変更を進言しました。 表1.状態監視に使用される代表的なセンサ ③ センサの取付け位置 センサの取付け位置も重要です。例として生産品の品質管理と製造装置の異常検知の例をあげてみます。機械はローラ機械である。図1左側の写真は、加速度センサを用いた軸受けのモニタリングであり、X、Y、Z軸に加速度センサが取り付けられている。この例は正しく設置されている例である。  医者の診断に例えれば、心臓の診断のために心音を聴こうとする医者は、どこに聴診器をあてるでしょうか? もちろん胸ですよね? 足に聴診器をあてて心音を聴こうとするお医者様がいたらかなり心配になりますよね? このような、あり得ない状況がセンサの取付け位置のミスとして起こっている場合があります。このような事態を防ぐには、「なぜそのセンサを設置するのですか?」とSIerに質問するなり、自問自答してみると良いと思います。また、「設置するセンサの数、取り付け方向はどうすべきか?」という問いに関しても明確な理由を持っておきたいですね。             図1.生産品の品質管理と製造装置の異常検知(ローラ機械の例) 以上、センサデータの品質を向上させる7つのポイントのうち3つを紹介しました。 次回は、④~⑤について御紹介します。 前回のブログ  次回に続く

Analytics | Data for Good | Data Visualization | Internet of Things | Learn SAS
0
サステナビリティ経営へのアナリティクス (2)

はじめに 今回は、地球環境に関する喫緊の課題であるカーボンニュートラル対策およびグリーン成長戦略におけるSASの取組みをご紹介します。 カーボンニュートラルに向けた動向 159か国・地域をカバーしたパリ協定*1に締結した日本は、2050年までにGHG(温室効果ガス)排出を全体としてゼロにする(GHGの排出量と吸収量を均衡させる)カーボンニュートラルを目指すことを宣言しています。すべてのインダストリーで多くの企業はこれをカバーするグリーンビジネス戦略の施策を展開し、マテリアリティの中核に置いたカーボンニュートラルに向けた事業を推進しています。すでにヨーロッパを中心に35の国(2021年9月時点)で炭素税が導入され、GHG排出量に応じた課税がされています。日本では地球温暖化対策税だけですが、今後より厳しい税率の炭素税の導入が検討されています。 グリーン成長戦略 温暖化への対応を成長の機会ととらえたグリーン成長戦略*2は、14の重点分野が設定されており、グローバル市場や世界の巨大なESG投資意識し国際連携を推進したゲームチェンジが始まっています。これらの重点分野での目標は、高いハードルによりイノベーションが必要と考えられています。企業はESGに係る情報開示を求められ、統合報告書やサスティナビリティレポートなどでESG情報を開示しており、カーボンニュートラルの取組みはその中核をなしています。SASにおいても長年にわたり推進しています。 サステナビリティのリーダーとしてのSAS SASは、企業のサステナビリティのリーダー*3として、従業員、サプライヤー、および顧客と緊密に連携し、省エネ、排出管理、汚染軽減、節水、グリーンビルディング、およびその他のプログラムに焦点を当てたプログラムで環境フットプリントを削減しています。スマートキャンパスプロジェクトを通じて運用を改善するためのデータのストリーミングから、ソーラーファームからのクリーンエネルギーでオフィスビルに電力を供給するまで、SAS Visual Analyticsを使用して、環境パフォーマンスを収集、管理、計算、および報告をしています。 SASの環境プログラムの成果 SASの2020年の環境プログラムの主な成果は次のとおりです。   カーボンニュートラルの取組み SASは、パリ協定の目標に引き続きコミットし、2050年のカーボンニュートラルな目標を設定しています。それによりサイエンスに基づく目標の達成に取組む最初の1,000社の1つとして認められました。 SASの主要なエネルギーおよびGHG排出削減イニシアチブには、積極的なエネルギーおよびGHG排出削減目標の設定、LEED® (建築や都市の環境性能評価システム) ガイドラインに準拠した施設の建設と維持、電気自動車充電ステーションの設置、再生可能エネルギーへの投資、オフィスビルおよびデータセンター向けのスマートなエネルギー効率の高い技術の追求、電話会議の奨励が含まれています。SASは、自社の独自のソフトウエアを使用して、世界中の施設のエネルギーと排出量の要件を収集、理解、管理するプロセスを改善し、消費傾向を報告して積極的に影響を与える能力を高めています。環境プログラムは、SASソフトウエアを使用して削減戦略を策定し、対策間の関係を分析して最大の効果を持つ施特定、決定パフォーマンス指標の開発および監視を実行しています。 次に代表的なイニシアチブを紹介します。 クリーンエネルギーシフト SDGs目標7「エネルギーをみんなにそしてクリーンに」とSDGs目標13「気候変動対策を支援するために」への施策 SASは再生可能エネルギーの導入とクリーンエネルギーの経済的および環境的利益を積極的に提唱しています。 SASは、ノースカロナイナ州ケリーにある広大なグローバル本部キャンパスに自らのSASソーラーファームを構築、グリーンエネルギー自社の電力、移動に利用するEVへの電源供給を実現しています。SASソーラーファームがノースカロライナ州知事ロイ・クーパーにクリーンエネルギー経済とパリ協定の支援のための執行命令に署名する場所として選ばれた後、SASはクリーンエネルギーと炭素政策の設計を支援するために州のクリーンエネルギー計画で推奨されているように利害関係者会議に継続的に参加ました。 スマートシティー SDGs目標11「住み続けられるまちづくりを」への施策 SASはSmart Cities Council*4、Envision America*5、Research Triangle Cleantech Cluster(RTCC)*6などの組織とも提携し、接続されたデバイス、ソーシャルメディア、モノのインターネット(IoT)から供給されるデータの爆発的な増加を利用して、自治体のスマート化(スマートシティー)を支援しています。人工知能(AI)、ブロードバンドワイヤレス、クラウドコンピューティング、IoTネットワークなどの相互依存テクノロジーの理解を深めることで、効率の向上、コストの削減、機会の特定、気候変動の影響の緩和を支援します。 スコープ別の世界のGHG排出量 サプライチェーン排出量(スコープ1からスコープ3に分類される*7)の全体像を把握し、効果的な削減対象を特定して長期的な環境負荷削減戦略や事業戦略策定のインサイトを抽出することが重要と考えています。 SASは自社ソフトウエアによりデータ収集、分析、可視化、予測を行っています。これにより現状を迅速かつ正確に把握し、統計モデルやAIモデルにより予測・最適化しゴールへの軌道や実現性を描いています。アナリティクスによる意思決定により確実な目標達成を実践しています。 *SAS Visual Analyticsによる環境ダイナミックレポート グラフ1: スコープ別GHG排出量   *SAS Visual Analyticsによる環境ダイナミックレポート グラフ2: スコープ1とスコープ2のGHG排出量トレンド その他の環境への取組み 環境におけるその他の分野でも次のように多くの取組みをSASのアナリティクスにより実施しています。詳細は割愛しますのでご興味がある方はCSRレポート*8をご覧ください。 廃棄物の転換(SDGs⽬標12)、紙の消費削減·リサイクル(SDGs⽬標12、15)、節水(SGD目標 6)、排水管理(SGD目標

Analytics | Data for Good | Learn SAS | Programming Tips
0
CData JDBC Driverを利用したSNS・ファイルストレージサービスとの連携のご紹介

SAS ViyaではCData JDBC Driverを使って下記のソーシャルメディア・ファイルストレージサービスにシームレスにかつ、素早く連結できます。 ・Facebook ・Google Analytics ・Google Drive ・Microsoft OneDrive ・Odata ・Twitter ・YouTube Analytics 本日はCData JDBCドライバーを使ってTwitterと連携し、「天気」に関するツイートを取得してみたいと思います。順番通り説明しますので、最後までお読みいただき、皆さんも是非ご活用ください。   1. Twitter API利用申請 Twitter Developer PlatformにてTwitter APIの利用申請を行います。申請にあたり、名前と住んでいる地域、利用目的などの情報を提供する必要がありますので、事前に用意しておいてください。また、利用申請の承認はTwitter側で数日かかる場合がありますのでご了承ください。 Twitter APIの利用申請が終わったら、申請完了のメールが届きます。 また、申請の検討が終わり、Twitter APIが利用できる状態になりましたら、「Account Application Approved」というメールが届きます。 2. CData Twitter JDBC Driverインストール インストールにはSASの契約とは別途、CData社との契約が必要ですが、30日間トライアルで使うことも可能ですので、ご紹介します。 まず、CData Twitter JDBC Driverインストールページにアクセスします。 次に、Downloadクリックします。 Download Trialをクリックします。 適切なOSを選択してDownloadをクリックします。今回はWindowsを選択しました。 ダウンロードされたTwitterJDBCDriver.exeファイルを開き、画面に表示されるステップに従ってインストールを完了します。   3. Connection String生成

Analytics | Internet of Things
0
製造業DXにおけるITとOTとの融合 (3) – 自覚症状が無いセンサデータの品質問題

医者の診断に例えて学ぶ AIを用いたセンサデータ分析システムに関するよくある誤解について 製造業で盛んに導入されているセンサ。そのセンサデータを分析してビジネスインパクトのある結果を出すには、どのようにしたら良いのでしょうか? データ分析を成功させるためには、様々な要素が考えられますが、ここではセンサデータの質に注目したいと思います。いくら高度なデータ分析手法を用いても、分析対象のセンサデータが正しく取得できていない場合は、結果が出ないことは容易に想像できますが、あまり議論されることはありません。 これは、センサ計測とデータ分析の両方を視野に入れた幅広いノウハウが必要となり、Information Technology (IT) と Operational Technology (OT)との融合という課題に行き着くためです。 本ブログでは、このマニアックな話題を、医者の診断に例えながら、わかりやすく解説していきます。 今回から、「自覚症状が無いセンサデータの品質問題」に関連した話題をお伝えしていきます。  結果が出ないPoC(Proof of Concept:概念実証)  SASは世界各国に支社を持ち、製造業DXの実現に向けた数多くのデータ分析案件を取り扱っています。 よく頂く御相談内容としては、生産品の品質管理と設備保全系に関連するデータ分析システムの導入検討です。(図1)    図1. 生産ライン向けDXとしてよくある御相談   ところが、PoCとしてセンサデータを用いてデータ分析をしているが、思うような結果が得られていないというケースが市場で発生しています。多くの方がデータ分析手法に問題があるのではないかと考え、データ分析のスペシャリストである弊社に御連絡を頂きます。たしかに分析手法の問題もあり、原因は様々ですが、意外と盲点になっているのが分析対象となるセンサデータ自体の品質問題です。  センサデータの品質問題とは何か?  データ分析はデータ収集から始まります。そして、そのデータの質が分析結果に影響を与えることは容易に想像できます。図2はセンサデータ分析システムの構築の流れを示しています。システム構築は、データ収集からスタートし、データ蓄積、そしてデータ分析という順番で実施され、手動でデータ分析の結果が出るようになった段階で自動化するという流れが一般的です。  図2. センサデータ分析システムの構築の流れ   図3は、センサデータの分析の際にAIの導入を意識して描いたものです。流れとしては、経営上の目標設定から始まり、データ取得、特徴量抽出/次元削減、そしてモデル作成へと進んでいきます。ここで皆様に質問させて頂きたいのは、どの工程が一番重要なのかということです。無論、どの工程も専門家の知見が必要であり、重要かつ難易度が高いのは当然ですが、最も重要なのは前半のデータ取得と特徴量抽出だと、あえて強調します。言い換えますと、モデル作成に使用されるセンサデータの品質(精度)が重要だということです。当然ではありますが、センサデータの質が悪い場合、データ分析(作成するモデルの精度)に影響が出てしまうためです。 医者の診断に例えれば、検査データが間違っていたら間違った診断を下してしまうのと一緒であり、センサデータの品質は極めて重要だと言えます。  図3. AIを用いたセンサデータ分析システムの開発の流れ 自覚症状が無いセンサデータの品質問題  この問題の恐ろしい点は、システム開発に携わっている関係者の皆様にとって自覚症状が表れない場合が多いことです。 そもそも、データ分析の結果が出ない原因が、上述のセンサデータの質に関係していることを、どうやって判断すれば良いのでしょうか? 当然、他の原因も考えられます。   先日、お医者様と健康診断の検査結果のお話をした際に気がついたのですが、お医者様は検査データの意味や限界、誤差要因をよく御存知のようでした。そして総合的に私の健康状態を判断しておられるようでした。思わず、その秘密を知りたいと思い質問してしまったのですが、お医者様の回答は「過去の事例と経験即かなぁ~~??」と、お答えいただきました。  ということで、次回以降、私の経験即に基づいたチェックポイントを御紹介していきます。  前回のブログ  次回に続く

Analytics | Data for Good | Internet of Things | Learn SAS
0
サステナビリティ経営へのアナリティクス (1)

はじめに 近年サステナビリティ経営は多くの分野で注目されています。環境・社会の変化や価値観の変革に対応しながら、長期にわたり市場から求められ、継続的に価値提供を行い、社会から信頼され続けることが企業にとって最も重要と考えられています。 最近では、気候変動、COVID-19パンデミックなどの社会環境の変動により、生活者、消費動向、企業活動、サプライチェーンなどに大きな影響を及ぼす中で、どのように対応し取り組んでいくかが喫緊の課題となっています。 今回のブログでは、これらの変化対して持続可能な世界を実現するための「サステナビリティ経営」に関してSASのアナリティクスアプローチをテーマに数回にわたり見ていきたいと思います。 SDGsとESG 地球規模の課題を踏まえた全世界共通の持続可能な成長戦略であるSDGsは、今や大企業の多くがサステナビリティ経営*1の計画にマテリアリティ(重要課題)として織り込み取り組まれています。また、環境・社会・ガバナンスの観点で企業活動を分析評価するESG*2は、企業価値を見通す上での重要性として認識されています。 アナリティクスが果たす役割 環境や社会で起こっている多くの変化は、生活者の価値観および消費活動に変化をもたらします。企業は、その変化を的確に捉え迅速に対応していくことが求められます。それらの変化を近年のデジタル・テクノロジーを用いて迅速に把握し、AIやアナリティクスによるインサイトに基づく意思決定や課題解決、商品やサービスの継続的な改善や高度化などにより新たな価値を提供することは、企業のサステナビリティと競争力を創出し、サステナビリティ経営において非常に重要となります。 中長期計画のマテリアリティとして掲げられたSDGsの達成度評価やESG評価においてもアナリティクスの手法を用いた評価手法やツールが多く用いられ、企業活動の見える化を推進するとともに、投資家などへ開示することでESG投資を促すとともに、企業価値向上や創造を進めています。SASは、AIによるESG管理とレポート作成に関するサービスを提供しています。 また、企業や組織の活動においても、AIやアナリティクスによるインサイトや予測といったデータ利活用をもとに、CO2削減、エネルギー対策、フードロス削減、水資源保全、汚染軽減など様々なサステナビリティに関する課題解決に向けて、アナリティクスが活用されています。*3*4 SASの取り組み SASは自社のCSR活動として、エネルギー節約、GHG(温室効果ガス)排出管理、汚染軽減、水保全、グリーンビルディング、およびその他のプログラムにより環境を改善などに取り組んでいます。また、サステナビリティ経営のリーダーおよび提唱者として、高度なテクノロジーと経験豊富なスタッフにより、多くのソフトウエア、ツール、サービスなどを企業や組織に提供してきています。これらは追って紹介いたします。今回はSASのCSRレポート*5から抜粋してSASの取り組みをいくつか紹介します。 アナリティクスによる人道支援/社会支援 ビッグデータアナリティクスが世界中の短期および⾧期の開発⽬標の達成に役立つという広範な証拠があります。アナリティクスの世界的リーダーとして、SASは、貧困、病気、飢餓、⾮識字などの社会の最⼤の問題のいくつかを解決するために、最先端のテクノロジーと専⾨知識を適⽤することに情熱を注いでいます。 SASは、常により良い世界を構築するためにそのテクノロジーを使⽤することを挑戦しています。国連のSDGsが不平等を減らし、健康的な⽣活を確保するために取り組んでおり、SASはそれがすべての⼈にとってより明るい未来を創造するのを助けることができる機会を探しています。 SASの社会イノベーションイニシアチブは、世界の進歩を加速させ、世界をより持続可能な未来に向けて動かす創造的な⽅法の発見を支援します。 SASがこの⽬標をサポートする⽅法の1つは、 Data for Goodを推進する運動です。貧困、健康、⼈権、教育、環境に関する⼈道問題を解決するために有意義な⽅法でデータを使⽤することを奨励します。 ⾼度なアナリティクスとIoTによる健康なミツバチの個体数の増加 World Bee Countを使用すると、ミツバチのデータをクラウドソーシングして、地球上のミツバチの個体数を視覚化し、これまでのミツバチに関する最大かつ最も有益なデータセットの1つを作成できます。 SASのデータ視覚化により、クラウドソーシングされたミツバチや他の花粉交配者の場所が表示されます。 プロジェクトの後の段階で、研究者は作物の収穫量、降水量、その他のハチの健康に寄与する要因などの重要なデータポイントを重ね合わせて、世界の花粉交配者のより包括的な理解を集めることができます。 Joseph Cazier, アパラチア州立大学分析研究教育センター教授兼常務理事   ミツバチを救うことは私たちの⾷糧供給にとって最も重要であり、⾼度なアナリティクスがミツバチと私たちの未来を維持するための鍵となる可能性があります。 SASのモノのインターネット(IoT)、機械学習、視覚アナリティクス機能により、健康なミツバチの個体数の維持とそのサポートができる可能性があります。 2020年、SASは、テクノロジーが世界中の花粉交配者の個体数を監視、追跡、改善する3つの別々のプロジェクトに参加しました。まず、SASのデータサイエンティストは、聴覚データと機械学習アルゴリズムを通じて、侵入しないで蜂の巣のリアルタイムの状態を監視する⽅法を開発しました。 SASはまた、世界のミツバチの数についてアパラチア州立⼤学と協力して、世界のミツバチの個体数データを視覚化し、それらを保存するための最良の⽅法を抽出しました。さらに、SAS Viya Hackathonの受賞者は、機械学習を通じてハチのコミュニケーションを解読し、⾷料へのアクセスを最⼤化し、⼈間の⾷料供給を増やしました。 困っている⼈を助けるための最善のサポートを理解する 私たちの優先事項は、人生の最も困難な季節を通して家族を支援することです。その仕事の多くは、目に見えないところに隠れているホームレスを支援することです。それが私たちの最善の策です。SASは私たちの目の前でデータを取得し、以前は見ることができなかった隠された洞察を発見することができました。それはSASが最も得意とすることです。正直なところ、完璧な組み合わせでした。 Leslie Covington, Executive Director, The Carying Place     ホームレスに苦しんでいる多くの人は、自給自足できるための指導と支援を求めてThe Carying Place(TCP)に目を向けます。 手書きのドキュメントと一貫性のないスプレッドシートの山の中に27年分のデータがあるため、TCPはSASを利用して、参加者の成功の指標をより適切に測定し家族にふさわしい支援を提供しました。 SASボランティアは、デモグラフィック、保険、住宅、退役軍人のステータス、障害のステータス、予算ファイルなど、参加している家族のデータを分析し、TCPのニーズを最もよくサポートできるモデルを選択しました。

1 5 6 7 8 9 24