SAS Japan
活用事例からデータ分析のテクニックまで、SAS Japanが解き明かすアナリティクスの全てアカデミア向けにアナリティクス・データサイエンスのキャリアを紹介するイベント「SAS アナリティクス・キャリアシンポジウム」において、SAS Institute Japan 株式会社 コンサルティングサービス統括本部のクラウス 舞恵瑠 氏が講演しました。本イベントは、「データサイエンティストになりたい」と考える学生が業務内容やキャリアをイメージできるようになることを目指し、2021年12月22日(水)に開催されました。前回の記事はこちら。 「大学院のときに学会に参加し、『もっと数学をやりたい』と気づいたときには、すでに就活が終わっていました…」と振り返るクラウス氏は、大学院ではオペレーションズ・リサーチを専攻していました。「やりたいことが分からないから」という理由でコンサルティングファームに就職し、システムの導入支援の業務につきましたが、在学中に参加した学会で芽生えた「数理的な手法で問題解決をしてみたい」という思いが強くなり、SAS Japanへの転職を決意します。 クラウス氏がSASで携わっている直近のプロジェクトのテーマは、「不良債権回収業務の回収益向上」というものです。通常、債務の返済を督促するときは電話をかけますが、人によっては訴訟に発展してしまう可能性もあります。そこで、返済状況や債務者のタイプによって督促の方法を変更したり、場合によっては債務を減額する提案をするほうが長期的には回収額が向上する場合があったりします。どのような督促・回収方法を取るのがよいのか、回収担当者の意思決定を支援するために、強化学習や最適化手法といったデータ分析を活用します。 「一般的なプロジェクトには業務フローがありますが、それぞれのフェーズにおいて必要となるスキルや知識は異なります」とクラウス氏は言います。プロジェクトのフェーズは①現状分析/効果検証、②要件定義、③設計/開発/テスト、④導入支援、⑤本番稼働、の5つに分けられます。それぞれのフェーズにおいて、①分析とドメイン知識、②コミュニケーション、③エンジニアリング、④コミュニケーション、⑤エンジニアリングのスキルが重要になります。 分析スキルのベースには線形代数、微分、統計などの数学的な力があり、それを活用するためにSASやPythonなどのツールやプログラミングのスキルがあります。業界やクライアントの業務に関する知識であるドメイン知識は、クラウス氏によると「非常に重要なもの」ですが、一方で「学生の間に身につけることは難しい」ものです。コミュニケーション・スキルは、クライアントの課題を明確にするためにヒアリングを実施し、また、プランや結果をクライアントにフィードバックするための資料を作成し、わかりやすく説明するためのスキルです。エンジニアリング・スキルは、参画するプロジェクトにもよりますが、GithubやSQLなどのテクノロジーを扱う技術が求められる傾向にあります。このうち、分析スキルは大学の授業などを通して、コミュニケーション・スキルはゼミなどを通して学生のうちに身につけることができそうです。 「これらのスキルをすべて伸ばしていくことはもちろん望ましいですが、私の現在の課題としては、より高度な分析スキルを身につけることです。そのためには、独学、勉強会、YouTubeなどさまざまな勉強法がありますが、一番大切なのは実務経験だと考えています」とクラウス氏は述べます。「学生にとっては実務経験を得ることは難しいですが、就職したあとに積極的に実務に携わり、経験を通してスキルを向上させていく意欲が大切です」と学生にエールを送りました。
はじめに データに基づいた意思決定が必要とされる場面が近年ますます増えており、そういった際には、データからいかに因果関係を導き出すかが非常に重要な問題です。”因果”を統計学的に捉え、いかにしてそれに迫るかは、統計的因果推論として体系化がなされています。SAS Blogでは、前回の記事からこの統計的因果推論に関する連載コラム・シリーズが始まりました。 因果関係を統計学的に導くことを目的とする統計的因果推論には、主に2つの枠組みがあります。1つは潜在アウトカムを用いるRubin流の考え方、そしてもう1つが構造的因果モデルを用いるPearl流の考え方です。これら2つの考え方は相反するものではなく、Pearl流の因果推論では、ある変数の特徴とそれらの関係を記述するために構造的因果モデル (SCM; Structural Causal Model) が用いられています。このSCMには対応するグラフィカル因果モデルがそれぞれ存在しており、その際に使用されるのが有向非巡回グラフ (DAG; Directed Acyclic Graph)※1です。このDAGはRubin流の因果推論においても、変数間の関係を視覚的に理解するために補助的に利用がされています。本コラム・シリーズでは前者の潜在アウトカムの枠組みでの因果推論について紹介を行います。今回は特にその根底となる潜在アウトカムについて、また、それを用いた因果関係の定義について説明します。 ※1 補足資料を参照 相関関係と因果関係 相関関係とは、ある2つの変数において、一方が増加するにつれてもう一方も増加(減少)する傾向があるという双方向の関係を意味しています。これに対し因果関係とは、ある2つの変数のうち、一方の操作可能な変数(原因)の値を変化させる(介入を行う)と、もう一方(結果)の値が変化するという、原因から結果への一方向的な関係です。これらの関係の違いを理解することは社会生活を送る上で非常に重要です。例えば、相関関係がある有名な例として、年収と血圧の関係があります。この2つの変数の間には正の相関関係(年収が高くなるほど血圧が高い傾向)があります。しかし、年収を上げるために血圧を上げる(Ex, 暴飲暴食を行う)ことは妥当でしょうか。もしくは、血圧を下げるために年収を下げる(Ex, 転職をする)ことは受け入れられることでしょうか。おそらく多くの読者の方の意見は「No」であるかと思います。この例からも察することができるように、相関関係と因果関係の存在とその方向というものは必ずしも一致しません。また、これらの関係を混同することは大きな不利益につながる可能性があります。上記の例であれば、真には血圧の増加は年収増加に対して因果的な効果を持たないのにも関わらず年収を上げるために無駄に暴飲暴食を行ってしまうことで、結果として不健康につながる可能性があります。 このように興味の対象が因果関係、因果効果である場面は比較的多く存在します。統計的因果推論 (causal inference) とはこれらを形而的、哲学的にではなく、統計学的に考える学問分野です。また、単に因果推論と言われる場合もあり、コラム中で単に因果推論と呼称した場合には、統計的因果推論を意味していることにご注意ください。データから因果効果を推定するために「傾向スコア」を用いた手法など様々なものが用いられています。しかし、これらの手法は適用さえすれば因果効果を適切に推定することができるというわけではありません。因果推論を行うにあたっては因果関係を検討する集団はどういった集団であるか、考える因果効果はどのような介入の効果であるかといった因果的な疑問 (causal question) を明確にすることがまず重要です。その上でデータへの手法の適用があります。また、それぞれの手法は異なる仮定を必要とするため、無条件で因果効果を求めることはできず、その仮定が目の前にあるデータに対してどの程度成立するものであるかといった議論も必要です。 加えて、推定する対象が手法間で異なるといった点や真の関係をゆがませる要因は何が想定されるのかなど、他にも様々な事を考慮する必要があり、慎重に議論を行っていくことが大切です。本コラムでは潜在アウトカムの枠組みでの因果推論の理論(考え方)と、一部の因果効果の推定手法についてのみ取り扱いますが、現実的にはそのような総合的な議論が重要です。 本コラムにおける用語 今回のコラムでは、心臓移植とその5日後の生存の間の因果関係を具体例として考えます。すなわち、心臓移植という介入が5日間の生存というアウトカムに対して、因果効果を持つかどうかを検討します。医療の分野では原因として考える要因を介入 (intervention) や処置 (treatment) 、曝露 (exposure)、結果変数のことをアウトカム (outcome) と呼ぶことが一般的であり、このコラム・シリーズでは、具体例として主に医療関連の話題を取り上げるため、基本的にはこのような呼称を行います。経済・金融系の分野では、因果効果があるかどうか検討したい要因が施策等である場面があるかと思いますが、因果推論の理論に関して変わりはないので、本コラムの例を読者の方がそれぞれ抱えている疑問に置き換えて考えるとよいでしょう。ただ、今後紹介する因果推論に関する様々な仮定の妥当性や分析に用いられるデータの特徴は、それぞれの分野によって異なりますので、その点ご理解ください。 潜在アウトカムによる因果効果 それでは早速、例を用いて潜在アウトカムとは何か、因果関係とは何かを考えていきます。具体的には心臓移植(介入)が5日後の生存(アウトカム)に対して因果的な効果があるのかどうかを考えます。この関係を検討するために、まずゼウスとヘラというある2人に対し、ともに介入を行うことを想定し、何らかの方法で以下の結果が得られたものとします。 ゼウスは1月1日に心臓移植を受けると、その5日後には死亡している。 ヘラは1月1日に心臓移植を受けると、その5日後は生存している。 このもしもの結果(介入を行う場合の結果)が分かったとき、心臓移植はゼウスとヘラの5日間の生存に対してそれぞれ因果効果を持つと結論付けることは可能でしょうか。一見すると、ゼウスは心臓移植後に死亡し、ヘラは生存していますので、ゼウスに対してはnegativeな因果効果(心臓移植により死亡した)、ヘラに対してはpositiveな因果効果(心臓移植により生存した)があったように見えます。しかし、その結論は正しいのでしょうか。もしかすると心臓移植を受けずとも、ゼウスは5日後には亡くなり、ヘラは生きていたのかもしれません(結果は変わらなかった)。もしくは心臓移植を行わなければ、逆にゼウスは生存し、ヘラは亡くなっていたのかもしれません。つまり因果効果があるかどうかについては、この結果だけでは判断することはできません。 では、どのような状況であれば因果関係かどうかを判断することができるでしょうか。その1つのアイディアがもし介入を受けなかったらどのような結果が得られたのかを考えることです。実際にはゼウスもヘラも介入を受けるか受けないかのいずれかしか取り得ないため、必ずどちらか一方の結果は現実的には得られない(反事実)ものとなってしまいますが※2、先ほどと同様に何かしらの方法でその場合の結果を知ることができたと仮定し、それぞれの場合の結果を比較するわけです。そして、それらの値が異なるのであれば介入の因果効果があるとし、同一であるのならば因果効果がないと判断します。 ゼウスとヘラに関しては、以下のようなifの結果が得られたとします。 ゼウスは1月1日に心臓移植を受けないと、その5日後は生存している。 ヘラは1月1日に心臓移植を受けないと、その5日後は生存している。 先程の結果も含め、介入を受ける場合と受けない場合の結果をまとめたものが下図です。 介入を受けない場合の結果が得られたことにより、心臓移植はゼウスに対しては5日後の生存に対し因果効果を与えた(ネガティブな効果)、ヘラには因果効果を与えなかった(介入があってもなくても結果は同じ)と判断することができます。おそらく、この判断に関しては読者の方々も特に異論はないかと思います。この例のように、ある介入を受けた場合のifの結果のことを潜在アウトカム (potential outcomes)
はじめに 根拠に基づいた意思決定を行うこと (EBPM; Evidence Based Policy Making) が、近年分野を問わず重要視されるようになってきています。意思決定を行う立場としては、根拠となる事象と結果の事象の間に因果関係があるのか、それとも相関関係しかないのかは大変大きな違いです。 因果関係と相関関係を混同した1つの有名な例として、チョコレート摂取量とノーベル賞の受賞者数に関する研究があります。この研究では、「チョコレートを多く摂取するとノーベル賞受賞者数が増加する」という因果関係の存在について触れられています。この論文は、2012年に世界で最も権威のある医学雑誌の1つである New England Journal of Medicine に掲載され、世界規模で大きな論争を引き起こしました。論文では、国ごとのチョコレート消費量とノーベル賞受賞者数を調べたところ、チョコレート消費量の多い国ほどノーベル賞受賞者数が多いというデータが示されました。論争のポイントとなったのは、各国のチョコレート消費量とノーベル賞受賞者数の関係が以下のどちらの関係であるかについてです。 チョコレートを摂取すればノーベル賞受賞者は増加する(因果関係) 別の隠れた要因がそれぞれに影響を与えており、チョコレート消費量とノーベル賞受賞者数の間に見かけ上の関連性が生まれている(相関関係) 一体どちらの主張が正しいのでしょうか。読者の方には、ぜひ今の意見と、このコラム連載が終了した後の意見を比較していただきたいと考えています。 統計的因果推論 (Causal causal inference) とは、因果関係をデータから導くための体系的な学問領域であり、2021年に David Card, Joshua Angrist, Guido Imbensの3名がノーベル経済学賞を受賞したことも相まって、現在大きな注目を集めています。しかし、その注目の程度と比べると、内容についてはあまり認知されていないように思います。そこで本ブログ・シリーズでは、統計的因果推論(または、単に因果推論)に関する連載を行います。データアナリティクスに関わる多くの方に、因果とは何か、それをデータから導くためには何が必要となるのかを理解をしていただき、適切なデータアナリティクスのために活用されることを望みます。連載コラムで取り扱う内容は以下を予定しています。 理論編 潜在アウトカムの枠組み 因果効果を求めるために必要な条件 観察研究と実験研究における交換可能性 選択バイアス (selection bias) 測定誤差 (measurement error) 手法・実装編 推定におけるモデルの必要性 層別化・回帰・標準化 傾向スコアとそれを用いた手法 操作変数法 理論編では、データから因果関係を考えるために必要となる概念、および仮定について取り扱います。また、観測される関係が真の関係と異なる要因について解説を行います。手法・実装編では、理論編で扱う潜在アウトカムの枠組みで因果効果を推定する手法についてSASでの実装方法とともに紹介を行います。SASソフトウェアでは、2016年以降のバージョンで、因果推論に特化した機能が利用できます。 なお、手法・実装編で紹介する因果効果の推定手法は、すべてを網羅しているわけではなく、回帰不連続デザインなど他にもいくつかの手法があることにご注意ください。 本コラムでは出来る限り数学的な記載は避け、直感的な表現をすることに努めますが、数理的な部分に興味がある方に向けた参考資料も準備しています。コラム中に登場する解析例で使用したプログラム・コードは著者のGithub上で公開を行う予定です。 謝辞 この連載記事では、参考文献として主に以下の2つを使用します。 Causal
医者の診断に例えて学ぶ AIを用いたセンサデータ分析システムに関するよくある誤解について 製造業で盛んに導入されているセンサ。そのセンサデータを分析してビジネスインパクトのある結果を出すには、どのようにしたら良いのでしょうか? データ分析を成功させるためには、様々な要素が考えられますが、ここではセンサデータの質に注目したいと思います。いくら高度なデータ分析手法を用いても、分析対象のセンサデータが正しく取得できていない場合は、結果が出ないことは容易に想像できますが、あまり議論されることはありません。 これは、センサ計測とデータ分析の両方を視野に入れた幅広いノウハウが必要となり、Information Technology (IT) と Operational Technology (OT)との融合という課題に行き着くためです。 本ブログでは、このマニアックな話題を、医者の診断に例えながら、わかりやすく解説していきます。 記事の振り返り: 自覚症状が無いセンサデータの品質問題 これまで「自覚症状が無いセンサデータの品質問題」をテーマとし、「センサデータの品質を向上させる7つのポイント」について(前編)と(中編)の2回に分けてお話ししました。生産ラインのDXのために、センサデータを用いてデータ分析をしているのだが、思うような結果が得られていないケースが市場で発生していることをお伝えし、その原因の一つとして、分析対象となるセンサデータ自体の品質問題があることをお伝えしました。この問題は関係者が気付きにくく、対処方法も専門知識と経験が必要となります。 今回の後編では下記の⑥~⑦について御説明します。 図1. センサデータの品質を向上させる7つのポイント ⑥データレイクに蓄積すべきデータの選択(特徴量抽出) これまでの記事で、課題解決にマッチした高品質なセンサデータを収集することが重要だと述べてきましたが、他にも重要なポイントがあります。データレイクに蓄積すべきデータをどのように選択するのかが、昨今、課題となっています。 理由としては、AIモデル開発と更新のために、ある程度の生データ保存が必要となるからです。 この問題は、PoC段階では大きな問題になりません。PoCと称して大量にデータを取って専門の担当者が解析するからです。問題はPoC後の現場での運用です。 図2. 関連データ/センサ/特徴量の戦略的選択 それはなぜでしょうか? 各種センサが作り出すデータ量は非常に大きく、センサによっては毎分1 GB 以上のデータを生成してしまい、通信ネットワークの負荷の問題や、クラウド上でのデータ保存のコストといった現実的な問題が見えてくるためです。 例えば、図1の右側の表に示すように、サーモグラフィは動画像のため、1分間で1GB以上のデータを生成します。この場合、従量課金/ネットワークトラフィック減への対応が必要となります。温度センサ等のデータ量は、数個であれば小容量ですが、数百個もセンサを使用するケースですと、1分間に数MBにもなります。このようなデータをクラウドへ転送し続ける必要があるのでしょうか? また、高額なセンサを減らすために、できるだけセンサの数を絞りたいという要望も出てきます。これがいわゆるデータ選択(特徴量抽出)をどうたらいのかという課題の本質であり、データ分析上、特徴量の選定が重要だという理由とは異なります。では一体、どんなデータが本当に必要なのか、またデータ量を減らす時にどのような形でエッジコンピューティングを活用すべきなのでしょうか? この技術的な見解は、今後、ブログにて紹介させて頂きたいと思っておりますが、ITとOTの両方の視点から検討する必要があります。 キーワードとしてはプロ同士の意見交換です。 ⑦プロ同士の意見交換が鍵となる ここまで、センサデータの品質がデータ分析に与える影響について、データ分析企業の視点で述べてきましたが、どの注意点も専門知識と経験を要するものばかりです。つまり、成功の鍵は、プロ同士の意見交換だと言えます(図3)。もしくは「業界を超えたコラボレーションの必要性」、「ITとOTとの融合が鍵になる」と表現しても良いかもしれません。 特に現場の熟練者との協業は必須となります。現場の熟練者から伺いたい事としては、測定対象物の詳細、製造プロセスや作業工程、異常状態の詳細、また、どういうメカニズムで異常が起こるのか情報交換させて頂くことが重要です。そして、それがどれだけ困ることなのかをプロジェクトチーム内で意見交換をして頂くことが重要だと言えます。そして、センサデータ収集からデータ分析までを広く見渡した上で、AIを用いたセンサデータ分析システムを構築していくことが成功への近道だと筆者は考えています。難しく感じられる方もおられると思いますが、このプロ同士の意見交換に関しては、日本人エンジニアが得意とする高度な擦り合わせ文化が活かせると信じております。 図3. プロ同士の意見交換が大事 以上、センサデータの品質を向上させる7つのポイントを、3回に分けて紹介致しました。気になる点がございましたら、弊社までお問い合わせ下さい! 前回のブログ