Japanese

Advanced Analytics | Analytics | Artificial Intelligence
小林 泉 0
守りの需要予測から、攻めの収益最大化への転換をするために

データサイエンスの使いどころ・・・攻めと守りの圧倒的な違い 以前のブログで、データ活用における攻めと守りについてお話しました。今回は小売業を例に多くのデータ活用プロジェクトが陥りやすい罠と、真の目的達成のための方法についてご紹介します。 小売業の目的はもちろん他の業種企業と変わらず、収益の最大化です。昨今データ分析を武器として売り上げの最大化、コストの削減、業務プロセスの生産性向上を目指す企業が増えてきています。時には、データサイエンティストが、データサイエンスを駆使してプロジェクトを実行しているケースもあるでしょう。 ここで、今一度現在取り組んでいる、またはこれから取り組もうとしているデータサイエンスやAI活用のプロジェクトがどんな利益を自社にもたらすのかを改めて考えてみましょう。昨今、需要予測についての相談が非常に多いので、ここでは需要予測について考えてみます。 弊社にご相談いただくケースの中で、少なくない企業が、需要予測をこのブログで言うところの「守りの意思決定」としてとらえています。多くのケースで、過去の実績をベースに将来の需要を予測することで、在庫過多や欠品を減らそうというプロジェクトに投資をしていたり、しようとしています。言い換えると、過去の実績を学習データとして、将来を予測するモデルを構築し、ひとつの将来の需要予測を作成し、それを在庫を加味したうえで、発注につなげています。 手段が目的化することで見失う可能性のある本来の目的とは 非常に典型的なAI活用、データサイエンス活用かと思いますが、実は、「AIで予測」、「機械学習で予測」といった言葉で最新のデータ活用をしているかのような錯覚に陥っているケースが見受けられます。数十年前から行われており、昨今でも同様に行われている、機械学習を用いた典型的な需要予測は、「守り」です。すなわち、どんなに多くの種類のデータを使うかどうかにかかわらず、過去の傾向が未来も続くという前提のもとに予測モデルを作成している場合には、あらかじめ定義した前提・業務プロセスの制約の下で、機会損失を最小化するために予測精度をあげているにすぎません。 つまり、そのような前提での需要予測は、小売業の収益向上という観点では、期待効果が限定的であるということです。では、最終的な収益の最大化を実現するには、何をすべきでしょうか? 収益を向上させるためにはもちろんより多くの商品を売ることにほかなりません。より多くの商品を売るためには当然、顧客の購買心理における購買機会に対して販売を最大化する必要があります。あるいは、顧客の購買心理そのものを潜在的なものから顕在化したものにすることも必要でしょう。つまり、販売機会を最大限に活用するということは、店舗中心ではなく、顧客中心に考えるということです。 小売業における攻めのデータ活用の1つは、品ぞろえの最適化 このように、顧客中心に考えることで初めて最適な品揃えの仮説検証のサイクルが可能となります。過去のデータは、単に過去の企業活動の結果であり、世の中の「真理~ここでは顧客の本当の購買思考」を表しているわけではありません。真理への到達は、仮説検証ベースの実験によってのみ可能になります。わかりやすく言うと皆さんよくご存じのABテストです。このような実験により、品ぞろえを最適化することで、販売機会を最大化することが可能なります。そのプロセスと並行して、オペレーショナルな需要予測を実践していくことが重要となります。 需要予測と品ぞろえ最適化の進化 昨今、AIブーム、データサイエンティストブーム、人手不足や働き方改革といったトレンドの中で、従来データ活用に投資してこなかった小売業においても投資が進んでいます。しかし多くのケースでこれまで述べてきたような守りのデータ活用にとどまっていたり、古くから行われている方法や手法にとどまっているケースが見受けられます。歴史から学ぶことで、無用なPOCや効率の悪い投資を避けることができます。今、自社で行っていることがこの歴史の中でどこに位置しているかを考えてみることで、投資の効率性の向上に是非役立てていただければと思います。 小売業におけるデータ活用のROI最大化にむけたフレームワーク SASでは長年、小売業や消費財メーカのお客様とともにお客様のビジネスの課題解決に取り組んできました。その過程で、小売業・消費財メーカー企業内の個々の業務プロセスを個別最適するのではなく、それら個々の業務プロセスを統合した、エンタープライズな意思決定フレームワークが重要であるとの結論に至っています。AIやデータサイエンスという手段を活用し、データドリブンな意思決定のための投資対効果を最大化するための羅針盤としてご活用いただければと思います。

Analytics
0
本当の原因とは何か:操作変数法(Instrumental variable mrthods)①

はじめに 統計的因果推論における1つの達成目標として「介入を行った場合には行わなかった場合と比較してどの程度結果(アウトカム)が変わったのか」という因果的な疑問に対し、定量的に答えることが挙げられるかと思います。以前のコラムでは、こういった因果効果を数学的・統計学的に議論していくために潜在アウトカムという考え方を導入し、その値を推定していくために重要ないくつかの仮定について紹介を行いました。この因果効果の推定の手法には様々なものがありますが、次回以降のコラムで紹介をする交絡調整に基づく因果効果の推定手法 (e.g., 回帰、層別化、傾向スコアを用いた手法)では、興味のある因果効果の推定値をバイアスなく得るためには、交絡や選択バイアスの調整に必要な全ての変数が完全に特定・測定されているという仮定が成立している必要があります。この仮定はデータからその成立を検証することはできず、もしもいずれかが成立しない場合には得られる推定値にはバイアスが含まれ、いわゆる残差交絡 (redidual confounding) が存在する状況となります。現実的に仮定が全て厳密に成立するケースというのは比較的稀ですので、そのような意味では大部分の研究結果(特に観察研究)・解析結果には一定のバイアスが含まれているとみることもできるかと思います。ただし交絡調整に基づく手法がダメだと言っているわけではなく、調整が不完全ながらもバイアスを軽減することは十分に意義があり、また最終的に結果に含まれるであろうバイアスの大きさとその方向(過大評価 or 過小評価)を議論することが重要かと思います。 今回のコラムでは、操作変数法(instrumental variable methods, IV methods)という因果効果の推定手法について紹介と解説を行っていきます。この推定手法は、操作変数 (instrumental variable, instrument) と呼ばれるいくつかの条件を満たす特殊な変数を利用することで因果効果の推定を行う手法になります。医学分野では、先行研究の結果(e.g., 医学的な知見)から交絡因子となりうる変数の特定・測定が比較的容易であることから先ほど言及した交絡調整に基づく推定手法が用いられるケースが比較的多いですが、経済学や社会科学といった分野ではそもそもの特定が出来なかったり、仮に交絡因子であろうと見込んだ場合であってもそれを測定することができないケースが非常に多く存在します。そのため交絡調整に基づかない手法である操作変数法というのは経済学や社会科学において、特にその理論が発展してきたという歴史的な背景があります。なお詳細については後述しますが、操作変数法は交絡因子の測定を必要としないというメリットもある一方、いくつかの検証不可能な仮定に基づく手法です。したがって、解析を行う研究・データにおいて因果効果の推定のために要求される仮定の成立を認めることがどの程度妥当であるかの議論が他の手法と同様に必要であることにご注意ください。   操作変数の3条件 操作変数法では、ある介入AのアウトカムYに対する因果効果を推定するために以下の3つの条件を満たす変数Zを利用します。この変数Zは操作変数 (instrumental variable, instrument) と呼ばれます。 操作変数の3条件 (Theree instrumental conditions)  Z is associated with A ZはAと関連する Z does not affect Y except through its potential effect on Y ZはYに対してAを介した以外の効果を持たない Z

Analytics | Students & Educators
イベントレポート: 東京理科大学×SAS 合同シンポジウム

社会におけるデータ活用の拡大に伴い、データ活用人材の需要はますます大きくなってきています。東京理科大学データサイエンスセンターとSAS Institute Japan 株式会社は、データサイエンス人材の教育とキャリアについての知見を深めるため、2022年12月21日(水)に合同でシンポジウムを開催しました。本記事では、このイベントの様子をご紹介したいと思います。 シンポジウムの開会にあたり、東京理科大学 副学長 坂田 英明 様、SAS Institute Japan 株式会社 営業統括本部長 宇野 林之からご挨拶がありました。坂田副学長は、2031年に150周年を迎える東京理科大学が掲げるTUS Vision 150のなかで、データサイエンス教育に重点を置いていることに触れ、2019年に設置された東京理科大学データサイエンスセンターが、データサイエンスの応用分野創造と人材育成を進めていることを紹介しました。SASの宇野からは、40年以上の間、アナリティクスを専業としてきたSASの歴史に触れながら、リソース不足で実りが少なかった第二次AIブームと違い、昨今の第三次AIブームは豊富な計算リソースを背景に社会に浸透しており、特にビジネスの世界では、データドリブン経営から業務のディシジョンのサポートまで、データサイエンスが幅広く活用されていることを紹介しました。両者ともにデータ活用人材の不足を課題に挙げ、本シンポジウムでの議論に期待を寄せました。 第1部:東京理科大学におけるデータサイエンス教育 第1部では、東京理科大学のデータサイエンス教育の紹介と、そこで学んだ学生からの研究発表が行われました。 まず、データサイエンスセンター長 矢部 博 様から、データサイエンス教育の取り組みについて紹介がありました。理系の総合大学である東京理科大学では、各学部でデータを活用した研究・教育がされてきましたが、学長直下の組織として設置されたデータサイエンスセンターが横串となり、各学部や教育推進機構、研究推進機構、産学連携機構と連携しながら、データサイエンス教育・研究のハブとしての役割を果たしています。 政府はAI戦略2019のなかで年間50万人のリテラシーレベルの人材と年間25万人の応用基礎レベルの人材の育成を目標に掲げていますが、東京理科大学では、既に2019 年度から独自の教育プログラムを展開しています。まず、全学部生が対象のデータサイエンス教育プログラム[基礎]は、数学、統計学、情報学、データサイエンス、その他の授業から20単位をB評価以上で取得することで、認証書が授与されます。大学院生が対象のデータサイエンス教育プログラム[専門]では、数理コース、ビジネスコース、人工知能コース、医薬コース、機械学習コース、医療統計コース、Informaticsコースの各コースが設定する科目から8単位をB評価以上で取得することを要件としており、高度な知識と技能を持った学生を認証しています。 また、SASとの共同認定プログラムであるSAS Academic Specializationでは、SASを活用したデータ分析を実践する授業の6単位を取得することで、SASスキルと統計解析の知識を認定します。特に、SASソフトウェアを用いた研究課題や実践課題に取り組み、論文を提出し、審査に合格することが条件となっています。このような教育プログラムをデータサイエンスセンターが提供することで、各学部での一般・専門教育と並行してデータサイエンス人材の育成を推進しています。 次に、理学部第二部数学科 教授 伊藤 弘道 様から、社会人履修証明プログラムについて紹介がありました。東京理科大学の理学部第二部は、日本唯一の夜間理学部として、特に理科・数学を中心とした学び直しの機会を提供してきました。現在、社会人学生の割合は1割程度で、教員免許の取得を目指す学生も多く在籍しています。学部の課程と並行して履修証明プログラムを2020年度から開始しています。コースの種類としては、SAS認定コース、データサイエンスコース、数理情報コース、統計学入門コース、数理モデリングコース、数学リテラシーコース、微分幾何入門コースがあり、さまざまなスキルや知識を持って社会で活躍できる人材を育成しようとしています。 続いて、SAS教育の実践を含む教育の一つとして、大学院講義「カテゴリカルデータ解析」に関し、工学部情報工学科 教授 寒水 孝司 様より紹介がありました。この授業は理論と演習から構成されます。演習パートについて、企業で活躍する専門家が講師として招聘され、担当しています。講師の統計解析への知見、SASプログラミングの専門的な知識や技術を吸収しようと、学生は理論の学習と演習課題に交互に取り組んでいます。特にこの授業では、クロス集計とその指標の推定から、交絡のあるデータを扱うための技術を習得します。 学生の研究発表 第1部の最後に、4組の学生からデータ分析を活用した研究発表がありました。独自に設定した課題について、大学のプログラムで提供されているデータや自身で収集したデータを用いた分析結果を発表しました。みなさん、基礎分析をしっかり行い、データの傾向を掴もうとしていたことが印象的でした。将来の夢の発表もあり、スキルを磨いて夢を実現されることを期待しています。 第2部:ビジネスにおけるデータサイエンス人材の活用 第2部では、ビジネスにおけるデータ活用事例およびデータ活用人材のニーズやキャリアについて、講演がありました。 採用市場におけるデータ活用人材のニーズ まず、株式会社マイナビ 就職情報事業本部 マイナビ編集長 高橋 誠人 様より、データ活用人材の採用市場におけるニーズについて紹介されました。株式会社マイナビは、就職活動支援サービスの提供のみではなく、大学や企業と連携してデータ活用人材の育成の支援を行っています。特に、2024年卒業学生向けの新卒就職活動サイト「マイナビ2024」からは、「DX(デジタル・トランスフォーメーション)がわかる超基礎講座」というe-learningを提供し、IT人材のキャリア形成を支援しています。 講演では、経済産業省の「新産業構造ビジョン」や情報処理推進機構の「DX白書2021」などからデータを引用しながら、IT人材のニーズについて論じました。ほぼすべての分野においてIT技術を核とした革新が期待されているなか、IT人材の需要は高まることが予測されています。米国ではIT人材不足が解消されてきている一方、日本国内のIT人材は質・量ともにまだまだ不足感があります。プロダクトマネージャー、ビジネスデザイナー、テックリード、データサイエンティストと、さまざまな側面のデータ活用人材が不足していると感じている企業が半数以上です。(一方で、「自社には必要ない」と考えている企業も2割程度あるのも問題かもしれません。)2030年には、中位シナリオで45万人のIT人材が不足すると予測されています。マイナビ社の調査結果を見ると、新卒の就職市場は全体的に堅調であるなかで、情報系学生の就職先が製造・ソフトウェア・通信分野に偏っていることが問題であるように思われます。転職市場では、全体と比較してIT・通信・インターネットの分野において、転職による給与の上昇が期待できるようです。最近では、経験者を募集する割合が減ってきていることも人材不足を反映しているかもしれません。

Analytics
小林 泉 0
そのデータ活用は攻め?守り?

ビジネスにおけるデータ活用のゴールとは? データ活用はもちろん手段ですのでビジネス上の様々な目的が考えられます。今回はSASが長年ソフトウェアとサービスをご提供している領域である「アナリティクス」すなわち「ビジネス課題を解決するためにデータ分析によって洞察を獲得し、よりよい意思決定をすること」を、ゴールとして話を進めたいと思います。 ビジネスにおける様々な意思決定とその分類 ビジネスにおける意思決定にはどのようなものがあるでしょうか。無数にあるので網羅的には無理ですが、例えば以下のようなものがあると思います。ビジネスにおける業務はいわゆるバックオフィス・フロントオフィスに大別できますが、ここではフロントオフィスすなわち企業・組織外部とのやりとりをする部門・役割における意思決定にフォーカスします。 さて、ビジネスにおける意思決定は大きく以下の3つに分類されると考えます。 先ほど例として挙げたものをこの定義を使って分類すると以下のようになるかと思います。 このような意思決定をよりよくするために使われるデータ活用のパターンをさらに右に記載してみます。皆さんもよく見かける、アナリティクス・ソリューションが並びますね。実は、これらのソリューションも守りの意思決定のためのものと、攻めの意思決定を目的としたものが混在していることがわかります。それぞれ、目的と、妥当な投資コストと、期待する価値の考え方が異なってくるので、検討の際にこれからご紹介する攻めか守りかを考慮に入れることが重要になってきます。   攻めの意思決定と、守りの意思決定 守りと書くと少し後ろ向きなイメージがあるのですが、ここでは攻めの反対語として使っています。意思決定には大きく、攻めの意思決定と守りの意思決定があります。それぞれ、次のような定義をしています。 守りの意思決定 決められた計画通りに業務を精度よく実行する。言い換えると事前に計画した期待収益を過不足なく実現するための業務遂行です。たとえばあらかじめ毎日平均100個売れると計画した商品を決められた平均欠品率を保つために、毎日110個発注するなどです。あるいは、期待反応率が一定以上の顧客に営業・マーケティング活動をする、などがあげられます。 あらかじめ業務プロセスを計画し、従来人間が行っていたような意思決定を自動化します。 つまり、計画した業務プロセスを実行した結果の過去のデータを使用して、それがそのまま未来も起きるであろうという予測モデルを活用することで実現できます。 あらかじめ期待収益の計画を立てているので、自然なバラツキ以上にはその期待収益を上回ることはありません。言い換えると過去に起きたこと以上のことは起きません。 こちらにおいて考慮すべき不確実性は「予測可能な不確実性」です。(参考:過去のブログ) 攻めの意思決定 一方攻めの意思決定は、過去に起きたことをそのまま延長するのではなく、過去の傾向を変え、将来の期待収益を最大化するための計画をすることです。 これは、仮説検証のプロセスーすなわち実験を繰り返すことでしかなしえません。 例えば、顧客の購買行動を理解・推定し、より多くのものを買ってもらうためには、どのような品ぞろえにすればよいかを常にテストしながら実装していく必要があります。あるいは、将来起こりうるシナリオを様々な前提で予測をし、備えることです。 こちらにおいて考慮すべき不確実性は「予測不可能な不確実性」です。(参考:過去のブログ) ポイントをまとめると以下のようになるでしょうか。 攻めの意思決定と守りの意思決定のどちらが大事か? 企業における意思決定において、守りの意思決定は無数に行われていることと思います。例えば、SASのユーザー企業で数千人が利用している環境が結構あるのですが、もうこれだけで、数千の意思決定のための活動がデータに基づいて行われていることがわかります。これらは一つ一つは小さいながらも、積み上げると企業全体の売り上げのほとんどを構成しています。そのために、アナリティクスによる自動化を進めていくと、一つ一つの予測モデルの精度や、意思決定フロー(ディシジョンと呼びます)そのものが収益に直結しますし、そのディシジョンが外部社会とのインターフェースとなるため、顧客の信用や社会的責任についても考慮する必要があり、この守りの意思決定に関しては、そういった「ディシジョン」の精度とガバナンスが非常に重要になってきており、優先度の高い投資領域となっています。 ということで、守りの意思決定すなわちデータ活用は、制度とガバナンスの観点で非常に重要です。 一方で、簡単に言い換えると、守りの意思決定は単なる既存プロセスの効率化と言えなくもありません。RPAなどの単なる作業の自動化ではなく、収益に直結する意思決定の自動化ではありますが、過去に起きたことをそのまま将来に延長しているだけでは、効率化の域を出ず、企業の成長の源泉にはなれど、ドライバーにはなりません。例えば、製造業において熟練エンジニアによる品質のチェックを標準化し自動化することも同様です。俗人化を排除し標準化し自動化することは重要ですが、それ以上でも以下でもありません。企業が持続的な成長するためには、成長のための仮説を立て、実験をして市場の潜在ニーズを掘り起こしていく必要があります。また、将来の成長機会を最大化するためには、予測不可能な未来に対しての備えをすることで、対応力を身に着けておく必要があります。そのためには、”予測モデル”や"AIモデル"を単に既存の業務プロセスに埋め込むだけではなく、後にに少しご紹介する「アナリティクス・レベル」の最終章としての活用を意識する必要があります。 つまり、攻めの意思決定およびそのためのデータ活用は、過去だけではなく未知の未来の推定とシミュレーションに基づいて、企業・組織が持続的な成長のために進むべき方向を根拠をもって決めていくという重要な使命があります。 そのデジタルトランスフォーメーション(DX)は攻め?守り? 文字通りとるとDXはプロセスを変革して新たな企業価値を創出することなので攻めの取り組みのはずです。一方でその定義とはかけ離れてDXと称されている単なるITやAIによる既存プロセスや意思決定の自動化などはDXの文字通りの定義からすると、DXではない気がします。しかし、そもそも意思決定が標準化されてない状態からデータに基づいて標準化され自動化された意思決定に変えるような場合には、「変革」に近いと言えると思うので、それがDXかどうかではなく、そのDXと称している取り組みが今回定義した攻めか守りかを意識して投資や計画をすると、投資検討がしやすかったり評価がしやすくなるのではないかと筆者は考えます。 (おまけ)アナリティクス・レベルの最終章の再考 アナリティクスにおいては、従来から以下の8のレベルで創出価値が変わってくると言われています。昨今のAIブームはこの段階の中のPredictiveにフォーカスがあたっています。本当はその手前のDescriptiveをちゃんとやらないといけないのでそちらの方が大事だったりします。そして、その二つが適切に実施されたうえで到達できる、この8つ目のレベルが実はとても重要です。 Prescriptiveは、あまりいい日本語訳が見つからないのですが、指示的・処方的という意味です。これは、守りの意思決定においては、生産スケジューリングなどの最適化や、マーケティング最適化のソリューションが当てはまります。個々の生産品質の予測やキャンペーンの反応率を予測するだけでなく、様々な関連するものを組み合わせたときに、最良のアクションが何か?ということを決める手法です。この段階にならないと、既存プロセスの最適化が実現できません。また、攻めの意思決定においては、あらゆる予測のシナリオを考慮したうえで、将来の期待収益機会を最大化するためのアクションを決めるということになります。その場合には、Descirptiveのフェーズでの洞察、適切なPredictiveモデリングに基づいた、シナリオ分析やシミュレーションといった手法表現がとられます。 このように、意思決定の種類すなわち、そのデータ分析を何のために行っているかを意識することで、そのインパクトを考慮しやすくなり、アナリティクスやDXへの投資、その際にどのような人材を育成・獲得する必要があるのかが見えてくるのではないでしょうか。

Advanced Analytics | Analytics | Artificial Intelligence
小林 泉 0
デジタルツインの話をする前にー将来を見通すために知っておくべき2種類の不確実性

近年、AI/アナリティクス市場に巨大ITベンダーが参入してきたことと、データサイエンティストがその存在感を高めようとしてきたことがあいまって、「予測」、「予測モデル」あるいは「AI予測」、「AIモデル」という言葉が、この市場で一般的になってきました。ビジネスにおいて、データ分析による洞察に基づいてよりよい意思決定と自動化を行うことーこれを「アナリティクス」と言いますーは、筆者がこの世界に足を踏み入れた20年以上前よりもっと前から、一部の「データを武器とする企業」において行われていました。それがより多くの企業に広まってきたということです。 今回は、より多くの方が「予測」について理解を深めてきているところで、その「予測」をもう少し深く理解し、近年の世界情勢において、大きく変化が求められている業界の1つである、流通小売業や製造業のサプライチェーン課題にフォーカスしたいと思います。まさにいま、サプライチェーンの大きな課題はレジリエンス強化です。そのための解決ソリューションとしてデジタルツインが注目されていますが、デジタルツインで何をすべきかを適切に見極めるために必要なおさらいとして、そもそも不確実性とは?について頭の中を整理したいと思います。 アナリティクスとは将来の不確実性に対して勇気を出して踏み出すーつまり行動するーことである。 「予測」という概念が広まることで、「予測」が確率的であるという認知も正しく広まってきました。需要予測値は確率的なものであるため、予測値そのものだけではなく安全在庫を計算するためにその確率を活用し、解約予兆、商品のレコメンデーションへの反応、不正検知、異常検知や歩留まりなど、アナリティクスつまり予測モデルを意思決定に適用するほとんどの意思決定は、すべて確率的なものです。よく見る予測モデル以外でも同様です。最適化も多くの場合その入力となる情報が確率的にばらついているケースが多いですし、近年、古典的な最適化手法が当てはまりずらいビジネス課題、例えばサプライチェーンの最適化、リアルタイムの配送スケジューリングなどの課題やカスタマージャーニーの最適化課題に対して適用される強化学習のアプローチにおいても、将来の報酬を確率的に計算して、目の前の一手を決めているといえます。 ここで唐突に余談ですが、リスクという言葉は日本語だとネガティブな意味に使われることが多いですが、本来はポジティブでもネガティブでもなく、単に確率的なバラツキを意味しています。なのでリスクを管理するということは、単に将来に対して確率的なバラツキを特定し意思決定の要因に組み込むということです。つまりこれはアナリティクスと同義です。なので、アナリティクスとアナリシスは語感は似ていますが、意味はだいぶ異なるということになります。 不確実性の1つは過去の経験から得られる確率 これは、上述した「リスク」です。どのような事象が起きたか?それが起こる確率はどれくらいか?そのインパクトはどの程度か?などについて過去の経験に基づいて洞察が得られるものです。例えば、輸送の遅れ、需要のバラツキ、ITシステムの障害、消費者の購買行動におけるバラツキ、設備などの停止、部品の故障率や製造品質などです。このような不確実性は過去のデータを分析することで予測可能です。このタイプの不確実性を今回は、「予測可能な不確実性」と呼ぶことにします。この「予測可能な不確実性」への対処に関しては、長年の経験から、多くのケースにおいて理論が確立してアナリティクスのベストプラクティスにすでに組み込まれています。 近年ニーズが増えてきたもう一つの不確実性への対応 こちらはずばり、過去に起きてないために予測することが困難な事象です。例えば、COVID-19、自然災害、特定地域での紛争や各国の政治情勢の変化などです。海洋の変化が予測とは大きく異なり漁獲高が計画と大きく乖離して輸出の計画が崩れて困っているという事例も該当します。特にサプライチェーン管理が必要な多くの企業は、近年特にこのような事象により、サプライチェーンが突如として混乱に見舞われるという経験をされているでしょう。このような不確実性は、過去に起きてない事象であっても、あらゆる情報を収集することで将来の起こる可能性についての洞察をある程度得ることができることもあります。ソーシャルメディアを分析することで、その国の経済の先行指標としての洞察を得たり、政治的な変化の予兆につなげるという活用方法も実際にされてきています。しかし、自社のサプライチェーンに関わる世界中のあらゆる状況に対して調べつくすということは、ほとんどの企業にとっては投資対効果的に見合わないと思います。したがって、サプライチェーンにおいては、そのような事象によって混乱した状態からなるべく早く回復するために、自社のサプライチェーンの脆弱性を理解し、起こりうるシナリオを想定して、それに備えることに投資の目を向けます。このようなタイプの不確実性を今回は、「予測困難な不確実性」と呼ぶことにします。 デジタルツインでは二つの不確実性への対応が価値をもたらす デジタルツインですが、そもそもビジネスをデータに基づいた意思決定にしている世界は部分的には47年前からデジタルツインだと言えます(ちょっと強引すぎますかね)。SASは1976年に穀物の収穫高の予測を電子的統計手法で行ったのがスタートです。ITの進化、IOT技術の進化に伴いより多くのデータが観測・収集できるようになり、ビジネスの一部だけでなくより全体がデータの世界で表現できる様になりました。近年ではそれを「デジタルツイン」と呼んでいます。サプライチェーンのデジタルツインを実現して、皆様はどんな課題を解決したいでしょうか?今回取り上げた「予測可能な不確実性」と「予測不可能な不確実性」を理解することで、デジタルツインを活用した「現実世界のよりよい理解」、「その理解に基づく意思決定」、「シナリオ分析」や「シミュレーション」を適切に行うことができるようになり、将来起こりうることに対して、よりよい対処が可能となるでしょう。 この話の続きが気になる方へ SASのデジタルツインの最新の取り組みについてはまずはこちらのプレスリリースをご覧ください。 また、デジタルツインやシミュレーションについて他のユースケースなどご興味ある方は、こちらのCosmo Tech社の(英語)もお役に立つと思います。    

Learn SAS | Students & Educators
0
SAS® OnDemand for Academicsがリニューアルしました

2023年を迎えて間も無く1ヶ月が経とうとしていますが、皆様はどのよう新年のスタートをされましたでしょうか。With コロナに向けた取り組みが社会的には広がり、自らが管理する時間が増えた中で、質の良い学習時間を確保することは社会人・学生問わず大変重要なことかと思います。 さて、SASでは学習および教育を目的とする方向けに、SAS® OnDemand for Academics (ODA) というアナリティクス・ソフトウェアを無料で提供しています。実は、このSAS ODAですが昨年末にログイン画面のアップグレードが行われ、提供されている各種機能へのアクセス方法がわかりやすくなりました。このブログ記事では、アップグレード後の SAS ODAについて紹介していきます。 ①ホーム画面(中央) 画面中央には大きく3つのセクションがあり、それぞれ下記の内容が提供されています。 Code with SAS® Studio すべての教員・学生・個人学習者を対象として、Webサイトにアクセスするだけで使用可能です 提供されている”タスク”からGUI的にSASコードを生成可能です(もちろん自分でコーディングすることも可能) SAS Studio上にプログラムファイルの新規作成、既存ファイルのアップロードが可能です(最大5GB) アクセス可能なSASソフトウェア一覧: SAS/STAT® Base SAS® SAS/IML® SAS/OR® SAS/QC® SAS/ETS® Learn SAS Programming Programming 1, Statistics 1といった統計学やプログラミングに関するいくつかのe-learningや、動画教材を提供しています SASソフトウェアや統計解析・機械学習を中心とした基礎的な知識、スキルをe-learningを通じて習得可能なオンライン学習プラットフォームSAS Skill Builder for Studentsを学生を対象として提供しています(大学ドメインのアドレスが必要) SASの認定資格に関するガイドをていきょうしています Collaborate with SAS Communities いくつかのSASに関連するコミュニティ情報が掲載されています プログラミングや解析にあたっての疑問点、Tipsを共有し、世界中のSASユーザーからコメントをもらうことが可能です ②ホーム画面(右) 初期状態では次の5つのアイコンが表示されます。 Files

Analytics
SAS ViyaでのSASプログラム実行用リソース管理(二):ユーザごとに計算リソースと権限の設定方法

一、背景の紹介 "データアナリストのようなヘビーユーザと利用頻度が低いユーザや参照系のユーザなど、さまざまなユーザがおり、SASプログラムを実行する際に利用するCPUとメモリなどの計算リソースを、ユーザタイプごとに割り当てる設定をしたい"。これは、多くのViya4ユーザ様が持つ課題です。これを実現するためには、次の2つのステップが必要です 1.異なるタイプのユーザごとに利用できる計算リソースを設定します。 2.異なるタイプのユーザに対して、権限を個別に割り当てる必要があります。 前回の記事では、Viyaのシステム管理者に向けて、ユーザが利用できる計算リソースの上限値の変更方法を紹介していきます。本記事では、異なるタイプのユーザに対して、利用できる計算リソースを個別に設定する方法と権限を個別に割り当てる方法を紹介します。 二、準備 ユーザがSAS Studioを使用しているときにSAS Viyaがどのように計算リソースを呼び出すかは、前回の記事で説明したとおりですので、ここで割愛します。 興味のある方は、こちらのリンク先のブログをご参照ください。 以下の紹介内容は、基本的に一回目の記事と同じくデプロイメントファイルとK8sクラスターに変更を加える必要があるため、以下を準備する必要があります。基本的にViyaをデプロイ時に必要なものと同じですので、もし下記に対して不明なところがある場合、ご利用のViya環境のデプロイ担当者にお問い合わせください。 ・k8sクラスターのAPIサーバーに接続できる作業用のサーバー、OSはLinux系がおすすめです。 ・k8sクラスターに接続用コンフィグファイル(管理者権限が必要)。~/.kube/configとして保存します。 ・k8sのコマンドラインツール:kubectl ・Viyaデプロイメントアセットのコンパイル用ツール:kutomize ・Viyaをデプロイ時に使ったkustomization.yamlやsite-configフォルダを含めたファイルアセット また、ユーザの権限を設定するには、ViyaのGUI上での操作が必要のため、以下の準備も必要です。 ・管理者権限を持つViyaアカウント 三、ユーザごとに計算リソースの上限値を設定する方法 この章の項目は多いので、読者は以下のリンクを使って興味のあるセクションに直接ジャンプすることができます。 1.シナリオの紹介 2.ユーザグループの作成 3.SAS Viyaのデプロイメントファイルの修正 4.ヘビーユーザ用ポッドテンプレートを作成 5.ユーザ権限の設定 6.ユーザ権限設定の検証 1.シナリオの紹介 こちらの章の内容は、下記のシナリオに基づいて、ヘビーユーザとライトユーザ二種類のタイプのユーザに対して、それぞれ異なる計算リソースの上限を設定するシナリオを紹介します。 ・ユーザタイプA:ヘビーユーザ 利用する最大CPU:8CPU 利用する最大メモリ:8Gi ・ユーザタイプB:ライトユーザ 利用する最大CPU:2CPU 利用する最大メモリ:2Gi 2.ユーザグループの作成 まず、Viyaにヘビーユーザとライトユーザの2つの独立したユーザグループを作成する必要があります。この部分の作業はSAS ViyaのGUI上で実施します。 ①SAS Viyaへログインし、左側のメニューから「環境の管理」を選択します。 ②環境管理の画面に切り替わったら、左のメニューから「ユーザ」を選択します。 ③そして、画面上部の「ビュー」をクリックし、「カスタムグループ」を選択し、「新規作成」ボタンをクリックします。 ④ヘビーユーザ用グループを作成しますので、グループ新規作成の画面に、名前とID、説明を下記の図のように入力し、「保存」ボタンをクリックします。 ⑤そして、ライトユーザに対しても、同様の方法でグループを作成します。 ⑥次は、作ったユーザグループにユーザを追加しますので、作ったグループ名を選択し、右側の編集アイコンをクリックします。 ⑦ユーザ追加画面で、追加するユーザを選択し、追加アイコンで追加し、終わったら「OK」ボタンをクリックします。同様な操作でもう一つのヘビーユーザ用グループに対しても実施します。これで、ユーザグループの作成は完了しまた。 3.ライトユーザ用ポッドテンプレートを作成 ユーザグループごとに使用する計算リソースが異なるため、ユーザグループを作成した後に、ユーザグループごとに個別のポッドテンプレートを定義する必要があります。この部分の作業は、kubernetes側で実施します。 ①まず、ライトユーザ向けのポッドテンプレートを作成してみましょう。下記のコマンドで既存のポッドテンプレートをファイルとして、ローカルに保存します。 kubectl

Analytics | Students & Educators
アナリティクス入門講義:要因分析・効果検証

SASが提供する大学講義「アナリティクス入門」のブログ・シリーズ、前回は記述的アナリティクスについてまとめました。今回は4つのアナリティクスのレベルの2つ目、診断的アナリティクスについてまとめます。診断的アナリティクスは、要因分析・効果検証・統計的因果推論などの手法を用い、事象がなぜ起こったかを分析します。 収入が多い家庭の子供は学力が高いか? 数年前のNewsweekの記事に、教育の不平等を取り上げたものがありました。子供の教育にはお金がかかり、収入が多い家庭しか良い学歴を得られないという論調です。東京大学生の親の年収分布と45-54歳男性の年収分布を比較し、前者では年収950万円以上が62.7%もいるのに対し、後者は12.2%であることをデータとして掲載しています。さて、このデータから「東大に入学できたのは親の収入が多いからである」と主張するのは正しいでしょうか? 子供の教育にお金がかかることは事実だと思いますが(日々実感しております)、先程のデータから「親の収入→東大」の因果関係を導くには、対応しなければいけない反論をいくつか思いつくことができます。 まず、取得したデータに偏りはないでしょうか。東京大学の学生は、東京を中心とした関東出身者が多いと思いますが、全国と比較して、東京在住者の収入は高いので、その影響が出た可能性があります。また、「一般の男性」は「大学生の子供がいる年代」のデータのようですが、「実際に大学生がいる」かどうかはわかりません。一般に、子供がいる世帯のほうが子供のいない世帯より収入が多いので、これも影響が出ている可能性があります。このように、集計対象のデータの偏り(バイアス)により、適切な比較がなされていない可能性があります。 また、「収入の多さ」と「東大への入学」に関係があっても、因果関係は無いかもしれません。例えば、家族や地域の「教育熱心に対する考え方」が収入や学歴に同時に影響を与える場合、擬似的な相関が現れる場合があります(偽相関)。このような交絡要因を考慮しないと、真の因果関係を割り出すことは難しいです。(念のため書いておきますが、Newsweekの記事が間違っていると主張しているわけではありません。考慮すべきバイアスや交絡がありそう、という主張です) キャンペーン・メールの効果 企業では、商品の購買促進のために、顧客に直接メールを送り、商品の案内をするということを行うことがあります。このとき、メール配信の効果を知るためには、メールを送った顧客の購買量とメールを送らなかった顧客の購買量の差分をとればよい、と考えることができます。しかし、もしメールの配信を「もともと買ってくれそうな人」を対象としていた場合はどうでしょうか。効果的にメールを送るには、このような対象に限定することは合理的ですので、このような場合は多いでしょう。しかし、買ってくれそうな人にメールを送っていたとすれば、メールを送った顧客は「もともとメールがなくても買っていた」人だったかもしれません。つまり、メールを配信した効果は単純比較の差分量より小さい可能性があります。このときの、「メールを送った人のほうがもともと購入しやすかった」という偏りをセレクション・バイアスと呼びます。 バイアスや交絡を除去する方法 バイアスや交絡を除去する最も強力な方法はランダム化比較実験です。対象を「メールを送るグループ」と「送らないグループ」に振り分けることにより、データ取得の段階からバイアスや交絡を含まない比較対象を作ることができます。薬剤やワクチンの効果の検証は、この方法が採られます。どれぐらいの実験対象を用意し、測定された効果が偶然現れたものではないことを統計学的に検証します。このあたりは、ライフサイエンスの事例の回で詳細に紹介します。 一方で、ランダム化比較実験はコストがかかります。さきほどのメールの例でいえば、買ってくれそうな人に送ったほうが効果的なメールを、あえて効果が低い人にも送る必要があります。薬剤の治験では、協力してくれた被験者に報酬を支払います。また、例えば「子供手当の効果」の検証など、そもそもランダムに振り分けることができない場合もあるでしょう。そういった場合には、実験で計測されたデータではない、観察データを用いて統計学的に効果や因果を検証することになります。この方法は統計的因果推論と呼ばれます。統計的因果推論については、こちらのブログ・シリーズで詳しく解説されています。 観察データから因果や効果を推定するには、「もしかしたらこういう要因があるのではないか」という候補を多く集め、それらの影響を丁寧に検証する必要があります。そういった候補を網羅的に思いつくには、その領域への深い知識が必要です。データサイエンスにおけるドメイン知識の重要性は、前回述べたデータ準備においてそれぞれのデータの意味や特徴を捉えるとともに、このような要因分析・因果推論における交絡要因を抜き出すことにも関連します。 研究における診断的アナリティクス 米国バージニア・コモンウェルス大学のMessyがんセンターで、がんによる死亡の社会要因を研究している事例があります。ここでは、所得や教育水準など、社会的な不利な立場ががんの死亡率に与える影響を研究しています。このためには、年齢や体重、喫煙、飲酒、食生活といったがんのリスク因子の他に、医療施設の場所や居住地域、人種、民族、収入などの社会的要因を総合的に検証する必要があります。このような多くの要因から、本当に影響がある要因を特定するためには、統計的因果推論が必要です。 また、ここでもやはり、データの質は重要です。多くのデータソースから個人をキーとしてデータを統合し、さまざまな要因(変数)を含む総合的なデータを作る必要があります。医療情報はセンシティブなデータになりやすいので、データの統合、研究者への共有、患者へのフィードバックといった利便性の追求と、セキュリティの確保の両面が大切です。

Analytics | Students & Educators
アナリティクス入門講義:記述的アナリティクスと可視化

SASが提供する大学講義「アナリティクス入門」のブログ・シリーズ、1回目の前回はイントロダクションとして「アナリティクスとは」についてまとめました。今日は4つのアナリティクスのレベルの1つ目、記述的アナリティクスについてまとめます。 前回も書いたように、記述的アナリティクスは、過去に何が起こったか、いま何が起こっているかを知るためのアナリティクスです。データの集計し、統計量を計算したり、集計結果を表やグラフを用いて可視化したりすることで、データを理解したり情報伝達をすることが目的です。 納得して仕事をするために 私の娘が小学校を卒業するとき、「卒業式は友達みんな袴を着るって言ってるよ!」と言い出しました。つまり、だから自分も袴を着たいと主張しているわけです。「小学校の卒業式なんて一生に一回だしな…」なんてよくわからない理屈でレンタルしましたが、蓋を開けてみると、3割ぐらいの女子しか着ていませんでした。小学生の言う「みんな」は信じてはいけません。 ところで、SAS Japan では、毎年夏休みに「親子でデータサイエンス」というイベントを開催しています。小学生とその保護者が、一緒にデータを活用したポスターを作るイベントです。何年か前、自分のおこづかいが少ないと感じた小学生が、おこづかいアップを目指すためのポスターを制作しました。学校のお友達に毎月のおこづかいの金額をアンケートし、集計した結果をヒストグラムに表し、平均値、中央値、最頻値を算出して、親を説得するための材料にしたのです。「みんな私よりおこづかい多いよ!」という主観的で非定量的な主張より、このようにデータとグラフで示されると、親は納得せざるを得ません。 子供が親を説得するのに限らず、組織として多くの人が関わる仕事では、ある種の同意を形成する必要があります。そこには納得感が必要であり、そのためには客観的なデータを示すことが役に立ちます。同意が形成されていることを、英語で “be on the same page” と表現しますが、同じページの同じ図表を見ていることが重要なのです。おそらく、どこの会社でも同様のものがあると思いますが、SAS Japan では毎月、全社員が参加する(ことになっている)ミーティングのなかで、現在の売上の状況が報告されます。どの部門が目標に対してどれぐらいの位置にいて、来月以降はどの程度の売上を予測しているのか、図表を使って全社員に共有します。そのことにより、全員が同じ目標に向かって活動することができます。 可視化の役割 データサイエンスという言葉には、人工知能や機械学習のイメージが強いかもしれませんが、実際の社会におけるデータ活用では、まだまだこのような可視化の役割が大きいと感じています。多くの人の同意を得るために客観的なデータを提示するだけでなく、日常的なデータをモニタリングし、非日常的な変化を検知してアラートを上げることができます。例えば新型コロナウイルスの陽性者は毎日報告されて、その遷移が可視化されています(例: 東京都のページ)。これにより、「感染者が増えてきたな」と感じることができますし、数値が基準を超えると、まん延防止措置や緊急事態宣言などの対策が取られることになります。 他にも、例えば工場のカーボン・フットプリントの総量が規制されているような場合、各ラインが毎日どれぐらいエネルギーを消費しているかについての情報を管理することが必要になります。このためには、データを集計し、報告する必要があります。毎日することですので、手作業で実施するのは大変です。データ取得から報告書作成までを自動化できれば、仕事の効率を上げることができます。そのためには、どんな分析をするか、だけではなく、いつデータを持ってきて、分析結果をどこにどのタイミングで出力するかを考慮してシステムを設計する必要があります。世の中には、まだまだこのように記述的アナリティクスにより解決できる課題が多く残っていると思われます。 可視化をサービスの透明性の確保のために行っている例もあります。米国のダーラム市の事例では、警察が市民の信頼を得るために、警察官の活動データを可視化して市民が閲覧できるようにしました。逮捕、出勤、苦情、トレーニングなどのデータを集め、指標をダッシュボードに表示します。市民が自分でダッシュボードを操作して「分析」することができれば、より「自分が調べている」感が出て納得しやすくなり気がします。 記述的アナリティクスとデータ準備、データ探索 記述的アナリティクスは記述統計量を計算したり、データをグラフで表したりするだけだから簡単だ、と思われるかもしれませんが、実際はそうではありません。可視化も含めたデータ分析のためには準備が必要で、この工程に80%もの時間が使われることも珍しくありません。データはどこにあるのか、どのようにアクセスするのか、そのデータの項目は何を意味しているのか、入力漏れはないか、ありえない値が入力されていないか、表記は統一されているか、複数のデータソースに整合性はあるか、など、正しいデータ分析のために必要な準備は多岐にわたります。これについては、データの管理と準備の回で詳細を紹介します。 逆に、データの準備のために記述的アナリティクスが活用されることもあります。例えば、記述統計量やヒストグラムにより各変数の分布を調べることで、それが想定している分布と一致しているか、おかしな値が入力されていないかをチェックすることができます。変数間の相関を見たり、散布図を描いたりすることで、異常値を発見しやすくなることもあります。 また、このようなデータ探索は、診断的アナリティクスや予測的アナリティクスのような、さらなるデータ分析のための準備にも使われます。変数の分布をみることで、どのような統計モデルを当てはめるかを検討することができます。機械学習の精度を上げるためには、変数を操作して適切な特徴量をつくることが必要ですが、そのために変数の分布や欠損をチェックし、変数変換や補完を行うかどうかを決定します。 このように記述的アナリティクスは、データの準備から高度なアナリティクスまで、幅広いフェーズに活用される基礎的なスキルです。 記述的アナリティクスの学習 SASソフトウェアで記述的アナリティクスを実践するときは、SAS Visual Analytics を活用するのが便利です。マウス操作でデータの可視化とレポート作成、データ分析を行うことができます。 学生であれば、学習用ポータル Skill Builder for Students に登録して、e-learningで学ぶことができます。「SAS Visual Analytics 1 for SAS Viya: Basics」というコースでは、データ準備と可視化、レポーティングを学ぶことができます。ぜひご活用ください。

Analytics | Students & Educators
アナリティクス入門講義:イントロダクション

SASのビジョンは「データがあふれる世界をインテリジェンスに満たされる世界に変える」ですが、そのためにはデータの活用について知っている人材が世の中でさまざまな役割を担うことが重要だと考えています。そこで、SASはグローバルで教育・アウトリーチ活動を実施しています。 SAS Japanでは、アナリティクスを学習するための入門編として、同志社大学や上智大学で講義を提供しています。この講義では、SAS社員が講師となり、アナリティクスの基本的な考え方や各業界での活用事例、アナリティクスを実現するためのテクノロジーなどを紹介します。SASソフトウェアを活用した実際のデータ分析に取り組む前に、アナリティクスがどこで活用されているのか、何のために使われているのかについて、データサイエンティストを目指す学生以外にも知ってほしいと考えて講義を構成しました。実際は90分×15回程度の講義なのですが、このブログ・シリーズでは講義の内容をまとめて紹介します。 アナリティクスとは 「アナリティクス(analytics)」はanalysisから派生した言葉ですが、analysisの語源としては、「ばらばらにする」という意味があるそうです。analysisの日本語訳である「分析」も、「分ける」「析(さ)く」という意味の漢字から成り立っていますから、analysisと同じ意味合いですね。近代以降の還元主義的な考え方によれば、「分ける」ことはすなわち「理解する」ことにつながります。分解することにより、ものごとを理解しようというのがanalysisの言葉的な意味になります。 近代の科学では、対象の理解のために観察や実験といった方法が採られてきました。そこには、データが必須です。対象を分解し、データを比較することがスタートです。比較対象をできるだけシンプルにすることが研究の基本的な態度ですが、対象が複雑になったり大規模になったりすると、多くのデータが必要になります。そのため、複雑で多様なデータから情報を引き出し、ものごとを理解するための技術が発展しました。それがアナリティクスです。analyticsを直訳すると「分析学」であり、analysisに関する知識や技術の総称になります。SASのWebページには次のように書いています。 アナリティクスは包括的かつ多面的な分野であり、記録されたデータに潜む有意義なパターンや知識を発見するために、数学、統計学、予測モデリング、機械学習などの手法を活用します。 SASはアナリティクスのソフトウェアとサービスを提供している企業ですが、単なる「技術」を売っているとは考えていません。人間が対象を理解しようとしているのは、その理解から利益を得たいからです。今日、世界中の組織でアナリティクスやデータサイエンスが活用されているのは、それが組織の役に立つからです。SASにはこんな言葉があります。 Data doesn’t drive your organization, Decisions do. データは組織を駆動しない。意識決定が駆動する。 アナリティクスはデータを分析し、インサイトを得るための技術ですが、それが人間の意思決定につながらない限りは組織の利益にはなりません。 意思決定をしてみよう 「意思決定」と言っても、べつに特別なことではありません。我々は日常的に意思決定をしています。少し例を上げてみましょう。 今日、傘を持っていくか? 週末のイベントに参加するか?(コロナ禍) ワクチンを接種するか? 運動会のリレーのクラス代表を誰にするか? どの授業に登録するか? みなさんは、これらの課題に対し、どのように意思決定をしますか? 傘を持っていくかどうかの判断は、天気予報を見て決めるでしょう。天気予報は、気象庁や気象予報士が過去のデータと現在の観測データ(衛星や気象観測所、各種センサーなど)を用いて未来の天気を予測しています。週末のイベントに参加するかどうかは、新型コロナウイルスの感染者の動向を見て決めるでしょう。ニュースやWebサイトでは、感染者の遷移がわかりやすく可視化されています。ワクチンを接種するかどうかは、ワクチンに効果があるかどうか、副反応が許容できる範囲かどうかを考慮して決めるでしょう。ワクチンの効果は、厳密にデータと統計学によって検証されます。運動会のリレーのクラス代表は、体育の授業の50m走のタイムを見て決めると納得しやすいです。1回だけだと「たまたま」かもしれないので、何回かの平均タイムを比較するかもしれません。どの授業に登録するかは、学部・学科の履修ガイドラインもさることながら、過去にその授業を受けた先輩が残したデータを参考にするでしょう(筆者の学生時代は、単位の取りやすさがA-Dにランク付けされたリストが出回っていました)。このように、みなさんは日常的に意思決定をしていますし、そこではデータを役立てていることが多いことがわかります。 みなさんのなかには、データサイエンティストを目指している人もいるかもしれません。組織のなかでアナリティクスを活用するには、この意思決定をどのように支援するかを考えることが重要です。データを取得し、分析し、その結果を意思決定者であるユーザーに提示するサービスを設計する必要があります。この「ユーザー」はアナリティクス・ソフトウェアのユーザーではなく、意思決定サービスのユーザーという意味です。データサイエンティストは、データがあるからとりあえず分析してみるのではなく、ユーザーが意思決定をする際の課題をいかにデータ分析により手助けするかをプランすることも役割の一つになります。 4つのアナリティクス ガートナーによると、アナリティクスは、データ分析をしてから意思決定にいたるまで、どの程度人間が介在するかによって4つのレベルに分けられます。 記述的アナリティクス … 過去に何が起こったか、いま何が起こっているかを知る。データの集計や平均値などの統計量の計算、グラフを用いた可視化など。 診断的アナリティクス … 事象なぜ起こったかを分析する。要因分析・効果検証・統計的因果推論など。 予測的アナリティクス … 未知の事象を過去のデータや入手できる情報から予測する。統計モデル・機械学習モデルを活用。 指示的アナリティクス … 次に何をすべきかを指し示す。数理最適化の手法を活用。 例えば、上記の意思決定の例であれば、イベントへの参加を検討するためにコロナ感染者の推移をグラフで見たり、リレーのクラス代表者を50m走のタイムで決めたりするのは、記述的アナリティクスに該当します。情報を解釈して判断する大部分を意思決定者自身が担います。ワクチンの効果を検証するのは診断的アナリティクスです。ランダム化比較実験や統計的因果推論の手法を用います(次回以降で解説します)。天気予報は、予測的アナリティクスに当たります。過去のデータと現在の観測情報から未来の天気を予測します。指示的アナリティクスでは、例えば最適な配送経路を計算するのに数理最適化の手法を用います。 次回以降は、これら4つのアナリティクスを詳しく見ていきましょう。

1 3 4 5 6 7 24