全般

全般

Advanced Analytics | Analytics | Artificial Intelligence
0
L'essor des données synthétiques et leur impact sur l'intelligence artificielle

Dans le paysage technologique actuel, les données synthétiques, nouveau sous ensemble de l’IA générative, apportent de nouvelles pistes de réflexion pour la création des modèles d'intelligence artificielle.   Contrairement aux données traditionnelles, pouvant être limitées par des contraintes de biais, de quantité, ou encore des contraintes de confidentialité et de conformité,

Analytics
小林 泉 0
データリテラシーが経営者の嘆きを救う

経営層による「データ活用がされてない」という嘆き ここ数年のAI・データサイエンスなどの「ブーム」およびクラウド化などのITインフラ・ツールの様相の進化により、数十年前からデータ分析を武器としてきた企業に加えて、より多くの企業で「データ活用」に取り組み始めました。その多くの取り組みは以下のようなものに代表されるのではないでしょうか。 クラウド化を期に「データ基盤構築」と称して様々なデータを一元的に蓄積する データサイエンティストを採用・育成する 民主化と称し全社にBIツール(レポーティング・グラフ化ツール)を配布する DX部門やデータサイエンス部門を配置する しかしその結果として、「これらのことをやってきているのに、経営的な意志決定にデータが十分活用されている実感がない」と嘆く経営層が多いのはなぜでしょうか? このような嘆きのパターンは以下に大別されます。 経営上の意志決定をする上でのファクトが見えないすなわち、「世の中の真実の理解」ができておらず、経営上の意志決定に役立てられていない 色々なビジネス上の取り組みをしている(ようだ)が全体の収益性へのインパクトが見えない、すなわち様々な角度での活動や取り組みの「収益性」管理ができていない データの価値を高められていない。自社内のデータ資産を価値に変えられていない。部門間同志、あるいは他の企業のデータと自社のデータを掛け合わせることで新しい価値を創出できるはずができていない。すわなち「イノベーション」が起こせていない 筆者は、これらの嘆きの理由を、「データリテラシーが不足しているからだ」と考えています。本ブログでは、「データリテラシー」の定義についてあらためて考察することで、その筆者の考えをお伝えします。 まずデータリテラシーとは データリテラシーとは、「データを読み解く力」と言い換えられることも多いですが、そもそも「データを読み解く力」とは何でしょうか?手元にあるデータをグラフ化してレポートを作成し、勝手な仮説の証拠とすることでしょうか?ビジネス上の意志決定というコンテキストの中では「データを読み解く力」を筆者は以下のように3つの力の総体として定義します。 ビジネス上の問いからスタートしてデータの可能性を見極める力 データそのものを正しく理解する力 データを通して真実を理解する力 1.ビジネス上の問いからスタートしてデータの可能性を見極める力 データ活用の取り組みで頻繁に見られ、また成果を発揮していないパターンはほぼ決まっていて、「このデータでなにかできないか」というデータの活用そのものが目的化している場合です。データから出発している時点で、イノベーションのアイディアに制約を課しており、また、思いついたアイディアに飛びつき投資を続けて形になりかけようやく価値を具体的に考え始めたところで、投資対効果が低いことに気づくというパターンです。これは、近年のAIやDXブームにおいて周りに後れを取らないことが目的化している企業に多く見られる結果です。 二十年以上前からデータ分析を武器としてきた企業は、スタート地点が異なります。1999年、筆者が初めてモデリングソフトウェア(当時のSAS Enterprise Minerという製品です)を使用したデータマイニングによる顧客分析プロジェクトでは、お客様の要望は、「このデータで何かできないか?」ではなく、「顧客の顔が見たい」という一言でした。我々はその「ビジネス課題」をデータでの表現に翻訳し現実世界と利用可能なデータのギャップを示しながら、モデリング結果に基づくアクションを実行する支援をしていました。 その当時からそのまま使われている、SASのData & AI ライフサイクル(図1)の定義が他社の類似方法論と大きく異なるのは、プロセスの最初が「問い」すなわち、ビジネス上の課題設定であるということです。社会人1年目の私でもそのデータマイニングプロジェクトでお客様の課題解決の手伝いができたのは、弊社の方法論の最初のステップに「問い」があったおかげです。 「データドリブン経営」の「データドリブン」が誤解を招く一因になっていることもあるようです。「データ」そのものは推進力にはなりません、データを活用し「ビジネス課題を解決するより良い意志決定」そのものがビジネスをドライブします。自動車を動かしているのは、ガソリンや電気ではなく、エンジンやモーターであるのと同じです。「データが語る」というのは正しくなく、「データを(必要に応じて)使って語る」が正しいのです。 また、対としてビジネス活動を正しく定量的に測れるスキルも必要です。バイアスだらけの過去のデータと比較して、企業や事業の成長率を正しく測っているかどうか、オペレーショナルなKPI(例えば在庫金額)が全体収益(売上やオペレーションコスト、調達コストなどを含めた全体の収益性)にどのように貢献しているか、などデータ活用によるビジネス変革を経営視点で正しく測れるようにすることも必要です。こちらのブログ(そのデータ活用は攻め?守り?)でご紹介した、ストラテジック、タクティカル、オペレーショナルの分類ごとに、各活動や業務単位での成果を測定し、連結したレポーティングをするということです。 2. データそのものを正しく理解する力 企業活動で生成されるデータは単に過去の企業活動つまり過去の意志決定とその実行結果と、市場との相互作用の産物でしかありません。例えば、商品Aの売上が下がっているデータがあったとしても、それが市場全体での商品Aの需要の落ち込みを表しているのか?あるいは競争の中でシェアを落としていることは表しているのか?あるいは商品陳列棚に欠品が多発しているのか?はたまた単に商品Aの販売を減らす意志決定を過去にしただけなのか?は、販売データだけを見てもわかりません。 簡単に手に入るデータが表している傾向からだけではその背後にある真実・理由はわからない、ということを理解する力(スキル)が必要になります。 優秀なデータ活用者は、データの出自の確認からスタートします。そのデータがどのように収集されたのか、収集時にはどのような制約があったのか、どのような過去のアクションの結果なのか、収集の精度やシステムはどのようなものなのか、などです。データを加工したり視覚化する前のこの最初の1歩ができているかできていないかで、その企業が真にデータ分析を競争力に変えられているかどうか判断することができます。 3. データを通して真実を理解する力 特にビジネスの世界において、データは世の中の真のあり方(消費者の行動特性や嗜好、市場のトレンド)をそのままの形で表現していることは稀で、一つの断面を切り取っていたり、過去の企業の意志や行動が介在していることがほとんどです。このような性質を持つ企業活動のデータから、真実を見通すにはどのようにすればよいでしょうか? 真実を見通すためには、実験と推定しかありません。仮説を基に計画的に実験を繰り返しその結果のデータを見ることで、真実を「推定」します。これが、データを通して真実を理解するということです。 図2は、ビジネスにおける意志決定を理解するために、歴史的なアプローチを模式化したものですが、右側にあるような一見社会全体をデータが表していると誤解しがちなアプローチでも、インターネット上のデータ、関連企業の販売・マーケティング活動の結果、というバイアスのかかったデータであることを理解することが必要です。 筆者は、以上3つの力が「データを正しく読み解き活用する」力であり、総称してデータリテラシーであると考えます。 データリテラシーを身につけ、嘆かないようにするために その①:まずデータリテラシーを身につける 多くの企業では、データサイエンス教育に力を入れていますが、前述のデータリテラシーの定義を見ると、それらは単にテクニカルにデータを加工し(データエンジニアリング)、分析やモデル開発をする(データモデリング)スキルではなく、経営管理者層が身に着けるべきData & AI 時代の「ビジネス(プロフェッショナル)スキル」であることがわかります。したがって、全社レベルの教育という点では、私は真っ先にデータリテラシー教育に力を入れるべきだと考えます。 例えば「サラリーマンの平均給与」のグラフがTVのニュースで出てきたときに、 そもそも調査方法は?母集団の条件は? そもそも分布が正規分布でないのだから平均よりは中央値を教えてほしい 年代別や勤続年数別でないとライフスタイルも異なるのだから参考にならない このグラフ縦軸が0から始まってなく何か意図的な誘導を感じる

Advanced Analytics | Analytics | Artificial Intelligence | Fraud & Security Intelligence
Carla Miranda 0
7 tendências baseadas em dados que impactam as operações das autoridades tributárias

A pandemia trouxe grandes desafios crónicos e específicos à atividade das autoridades tributárias – como os atrasos ou mesmo suspensão do pagamento de impostos, a necessidade da digitalização de processos, o repensar formas de tributar novas atividades resultantes de empresas que começaram então a operar digitalmente, etc. – que exigiram

Analytics
0
春になると回帰分析を思いだす

春になった。桜の開花時期が気になるが、今年の開花(※)は平年より少し遅かったそう。気温が上がると通常よりも早く咲くことがあるそうだが今年はそうはいかなかった。 桜の開花は主に気温が関わっており、簡単に予想できる方法がある。400度の法則といい、2月1日以降の日々の平均気温を合計して400度を超えると開花する、という代物。600度の法則というものもある。こちらは、平均気温ではなく、最高気温を合計したものだ。 いずれの法則も桜の花芽は秋から冬にかけて「休眠」状態に入り、真冬の寒さで目覚める「休眠打破」を2月1日とし、1日以降の気温の積み上げたものである。この法則が今年は当たらず、公式な開花日は予想より1週間くらい遅れての3月29日だったがとくに700度を超えた時であった。暖冬の影響で休眠スイッチがうまく作動しなかったからという説がある。異常気温の影響もあるだろうし、まさに異常値だった。 実は、上記のシンプルな指標以外に、桜の開花予測には回帰分析というデータ分析の手法が利用されている。気温、降水量、日照量などの気象データで統計モデルを構築して開花日を予測する。この手法は、例えば、一般的にはマーケティングの販売促進やロイヤルティ向上、金融業界では信用取引のスコアリングや不正検出に、医薬業界では疾病リスクや治療効果予測などに広く利用されている。具体的な紹介は、ぜひとも別の機会にしたい。 機械学習やAIばかり注目を浴びている中、その基盤となるものは回帰分析のようなデータ分析の手法であることに忘れてはいけない。5~6月には回帰分析をテーマにしたトレーニングコースが多く開催されるが(SAS Training | スケジュール)、春になったし新たなチャレンジの始まりと、ぜひ受講して新しいスキルを身につけて頂きたいところ。 ところで桜は、実に種類が多く、日本だけでも600種以上が分布しており、色もよく見かける白やピンク色だけでなく緑色もあるそう。とりわけ、日本でよく見かける桜を時間軸でいうと、河津桜、染井吉野、枝垂れ桜、八重桜、冬桜といったところ。うちの近所でピンク色で輝いていたカワズザクラはとくに散ってしまい、染井吉野と八重桜が満開の日を迎えている。 ※桜の開花日とは、標本木で5~6輪以上の花が開いた最初の日をいい、観測対象は主に染井吉野を対象としている(気象庁 | 生物季節観測の情報)。 2024年4月初 相吉

Advanced Analytics | Analytics | Artificial Intelligence | Customer Intelligence | Data for Good
Ricardo Galante 0
Tecnologia para melhorar a gestão das viagens durante a Páscoa

Estamos quase na Semana Santa o que, por ser uma das épocas em que mais viagens se realizam por todo o país, pode apresentar vários desafios à rede rodoviária e aos sistemas de transporte.  A variabilidade nos padrões de movimento durante estas datas acrescenta uma camada adicional de complexidade, o

Advanced Analytics | Analytics | Data Management | Data Visualization | Learn SAS | Students & Educators | Work & Life at SAS
Adriana Rojas 0
"Cada vez existen más asignaturas vinculadas a temas analíticos en todos los sectores”

La información certera es la base sobre la que se edifican las empresas, especialmente en un contexto en el que la preparación y la resiliencia son cada vez más importantes. Con el aumento en la cantidad de datos disponibles y la necesidad de aprovecharlos para tener mejores resultados, también hemos

Advanced Analytics | Analytics | Artificial Intelligence | Data Management | Data Visualization | Machine Learning | SAS Administrators
小林 泉 0
データ分析プロセス全体を管理~自己組織的に育てるナレッジのカタログ化とは

自己組織化とは、自然界において個体が全体を見渡すことなく個々の自律的なふるまいをした結果、秩序だった全体を作り出すこと 2010年から存在した解決アイディアがついに実現可能に 今から遡ること十数年前の2010年頃、支援をしていた大手製造業の会社ではすでにデータ分析スキルの社員間でのばらつきと組織全体のスキルの向上、データ分析作業の生産性の向上、人材のモビリティへの耐性としてのデータ分析業務の標準化が課題となっていました。 当時ご相談をいただいた私を含むSASの提案チームは、SASが提供するアナリティクス•ライフサイクル•プラットフォームを活用することで、その問題を支援できることがすぐにわかりました。つまり、ビジネス課題から始まり、利用データ、データ探索による洞察、データ加工プロセス、予測モデリングプロセス、モデル、そしてそれをアプリケーションに組み込むディシジョンプロセスという、一連のアナリティクス•ライフサイクルにまたがるすべての作業を電子的に記録し、全体のプロセスそのものをモデリングし、利活用することで、自己組織的にナレッジが蓄積され、且つ活用されるということです。 しかし、当時のSASだけではない周辺のIT環境、すなわちPCやアプリケーションアーキテクチャなどのインフラ、データの所在、セキュリティ管理などがサイロ化していること、またSAS以外のModelOps環境もシステムごとにアーキテクチャがバラバラすぎたこと、また、お客様社内のデータリテラシーそのものもまだ課題が多かったため、SASを中心としても、実現にはあまりにも周辺の開発コストがかかりすぎたために、提案を断念しました。 時代は変わり昨今、クラウド技術の採用およびそれに伴うビジネスプロセスの変革と標準化が急速に進んでいます。それに歩調を合わせるように、SASの製品も、上記の当時から市場をリードしてきたMLOpsフレームワークをDecisionOpsへと昇華させ、クラウド技術を最大活用すべく、クラウドネイティブなアーキテクチャおよび、プラットフォームとしての一貫性と俊敏性を高めてきました。そしてついに最新版のSAS Viyaでは、アナリティクスライフサイクル全体にわたり、データからデータ分析プロセス全体の作業を電子的に記録し、管理し、活用することが可能となりました。 自己組織的にナレッジを蓄積活用するデータ分析資産のガバナンス 昨今のデータマネージメントの取り組みの課題 詳しくはこちらのブログをご参照いただきたいのですが、多くのケースで過去と同じ過ちを繰り返しています。要約すると、データ分析文化を醸成したい、セルフサービス化を広めたいという目的に対しては、ある1時点のスナップショットでの完成を目的としたデータカタログやDWH/DMのデータモデル設計は問題の解決にはならないということです。必ず5年後にまた別の担当者やプロジェクトが「これではデータ分析しようにもどのデータを使えばわからない、問題だ、整備しよう」となります。 では解決策はなんでしょうか。 静的な情報を管理したり整備するのではなく、日々変わりゆく、どんどん蓄積され、評価され、改善、進化し続ける、データ分析業務に関わるすべての情報を記録統制することです。つまり、以下の三つのポイントを実現することです。各ポイントの詳細は後段でご紹介しています。 ポイント①あらゆるデータ分析資産(ナレッジ)を管理 ポイント②データ品質管理の自動化・省力化とガバナンス ポイント③社内ソーシャルの力による自己組織的情報の蓄積 まずは、それぞれが何を意味しているかを説明する前に、これらを実現するとどのような世界になるのかをユーザーの声によって示してみたいと思います。   個々の自由にデータ分析をしているユーザーによる行動を記録することで、全体を見渡している誰かがヒアリングや調査をして情報を管理することなく、データ分析がどのように行われているかを管理・共有・再利用が可能となるのです。 誰が、どのような目的で、どのデータを、どのように使用したのか、そしてその結果はどうだったのか? このアプリケーションの出した判定結果の説明をする必要がある。このモデルは誰が作ったのか?どのような学習データを使用したのか?どのようなモデリングプロセスだったのか? よく使用されるデータはどれか? そのデータはどのように使用すれば良いのか?注意事項はなにか? データ分析に長けた人は誰か?誰が助けになってくれそうか? 企業全体のデータ品質はどのようになっているか? データ品質と利用パターンのバランスは適切か?誤った使い方をしているユーザーはいないか? など従来、社内勉強会を開催したり、詳しい人を探し出してノウハウを聞いたり、正しくないことも多い仕様書をひっくり返してみたり、そのようにして時間と労力をかけて得られていたデータ分析を自律的に行う際に重要となる社内ナレッジが、自己組織的に形成されるということです。 「情報資産カタログ」とは~一般的な「データカタログ」との違い このような世界を実現する機能をSASでは、「情報資産カタログ」と呼んでいます。データ分析プロセス全体を管理・検索・関連付け・レポートできるようにするテクノロジーです。一般的に言われる、また多くの失敗の原因になる、「データカタログ」と対比するとその大きな違いが見えてきます。 こちらのブログでも述べましたが、データ分析者がセルフサービスでデータ分析を実践したり、初学者がなるべく自分自身で情報収集して、まずは標準的なデータ分析作業をマスターしたりするためには、既存ナレッジを活用する必要があります。一方で、そのようなナレッジは従来一部の優秀なデータ分析者に聞かないとわからなかったり、あるいはITシステム部門に質問して回答までに長い時間を要してビジネス機会を逸してしまう、という結果を招いていました。 既存ナレッジとは、どのようなデータを、どのような意図で、どのような目的で、どのように使い、どのようなアウトプットを得たかという一連の「考え方とやり方」であり、これは管理者が一時的にデータ分析者にヒアリングして「データカタログ」を整備して終わり、というものではなく、日々データ分析者たちの中で自律的に情報が作られていくものです。 ポイント①あらゆるデータ分析資産(ナレッジ)を管理 SAS Viyaでは、上述のアナリティクスライフサイクル各ステップのオブジェクトがすべて一元的に記録・管理されます。日々、新しく作られるレポート、データ加工プロセス、作成されるデータマートの情報が、自動的に管理され検索対象になっていきます。このようにアナリティクス・ライフサイクルの各ステップをすべて管理することで、データ、そのデータを使用しているレポート、そのデータを使用しているデータ加工フロー、その出力データ、さらにはそれを学習データとして使用している予測モデリングプロセスと作成されたモデル、これらを関連付けて見ることが可能となります。それにより例えば、ある目的に使用するデータを探している場合、参考にする業務名やプロジェクト名で検索をすることで、関連するレポートや、データ加工プロセスにたどり着き、そこから使用データやそのデータの使い方にたどり着くという効率的な情報の探し方が可能となります。 もちろん、この機能は昔からあるインパクト・アナリシス機能として、ITシステム部門が、データへの変更の影響調査ツールとして使用することも可能です。 ポイント②データ品質管理の自動化・省力化とガバナンス データ分析を組織的に行う際に気にすべきポイントの一つは、その正確性です。正しいマスターデータを使用しているか、適切な品質のデータを使用しているかは、最終的なアクションや意思決定の精度すなわち収益に影響します。また、結果に対する説明責任を果たすうえでもアクションに使用したデータの品質は属人的ではなく、組織的に管理されている必要があります。またデータ品質を組織的に管理することにより、データ分析の最初に行っていた品質確認という作業が省力化できます。また、属人的に行っていた品質確認作業も標準化されるため、組織全体のデータ分析作業の品質が向上します。 あるお客様では、DWHに格納するデータのETL処理において施すべき処理が実施されていないというミスがあるものの、データの数やETL処理があまりにも多いためそのミスを発見することが困難であるという状況にありました。網羅的な品質管理および品質レポートによってそのようなミスの発見が容易になります。 ポイント③社内ソーシャルの力による自己組織的情報の蓄積 前述のポイント①により基本的にはデータ分析者個人個人の自律的な活動が自動的に記録され、自己組織的に組織全体のナレッジとて蓄積され共有・再利用可能な状態が作られます。これは、データ分析者個人個人が特に意識しなくても自動的に実現できます。それに加えて、さらに意識的にこのプラットフォームを利用することで、蓄積されるナレッジに深みが増します。 例えば、あるビジネス課題をデータ分析で解決使用する場合のスタートは、「問い」です。上述のアナリティクス・ライフサイクルの一番左のスタートにあるものです。その際には、仮説設定をするためや仮説を検証する目的で、様々な角度から「データ探索」を行います。この初期のデータ探索プロセスは、その後のデータ加工やモデリングの根拠になっているため、ナレッジとしてまた説明責任の材料としてはとても重要になります。必ずしも最終的に使用したデータと同じデータを使うとも限らないので、自動的には他のデータ分析資産とは関連づきません。そのような探索プロセスも下記の図のように、同じプロジェクトフォルダに保存しておくことで、関連オブジェクトとして活用することが可能となります。また、プロアクティブに自信が使用したデータやレポートにコメントや評価を付与することで、より価値の高いナレッジへと育つことになります。 昨今企業内SNSなどで、オフィスツールの使い方などノウハウを共有をされている企業・組織もあるかと思います。それを全社規模のアナリティクス・プラットフォームで行うことで、データ分析に関わるナレッジをユーザー同士で培っていくイメージです。 まとめ 「このデータはこの目的に使えますか?」「あ、それはこの情報がないので使えないんですよ。こちらのデータを私は使ってますよ」データ分析者の間でよく交わされる会話です。この問いにいかに迅速に答えられるかが、データ分析の効率性と正確性を高めます。「情報資産カタログ」はまさにこの問いに答えるための機能なのです。

Analytics | Data Management
小林 泉 0
ようこそ古くて新しいデータマネージメントの世界へ~カギは自由と統制

ようこそ古くて新しいデータマネージメントの世界へ 2023年、DMBOK(データマネージメントの知識体系を網羅的にまとめたもの)という用語を改めて聞く機会が多くなりました。おそらくこれはアナリティクス(データ分析に基づくより良い意思決定の実践)の近年のブームで、新たにアナリティクス活用に踏み出し、ようやくビジネスに直結する使い方をするようになった企業・組織があらためてデータマネージメントの重要性に気付き始めたからだろうと推察します。 また一方で、クラウドシフトに伴いクラウドストレージの活用とともに、これまで蓄積していなかったデータを蓄積し始めたり、これまでのデータウェアハウスを一新する形で、データレイク/データウェアハウスを再構築するなど、従来からアナリティクスを活用していた企業もまた同様に、データマネージメントについて改めて考えているようです。 20年以上前からアナリティクスを競争優位の源泉としていた企業では、データマネージメントが大きな一つの関心ごとでした。その後、テクノロジーの進化によって、ソースデータのビッグデータ化(Volume, Variety and Velocity)や、ストレージ技術の進化、そしてアナリティクス・プラットフォームの進化によってITシステムに対するビジネスニーズも変化しました。また、消費者市場の変化や、データサイエンス人材の爆発的な増加といった市場の変化も目覚ましいものがあります。このような変化の中、近年あらたにアナリティクスの活用に踏み出しはじめた多くの企業だけでなく、従来、競争優位の源泉にしてきた高成熟度企業においても、データマネージメントの課題への遭遇と解決にむけて取り組んでいます。 いきなりですが、もっとも頻繁にお伺いする課題について 過去も今もお客様から聞く課題で最も多いのは、「作ったけど使われないデータウェアハウスやデータマート」です。そもそも、使われる/使われないというクライテリアそのものをもう少し注意深く定義する必要はあるとは思いますが、ITシステム部門主導で利用目的をないがしろにしたデータ基盤構築プロジェクトは往々にしてそのような結果になるようです。例えば、ITシステムサイドの都合で蓄積データの種類・期間や粒度を決めてしまうことで、データ分析要件を満たさないという結果になったり、データの出自や性質・品質や使い方のガイドがないために、データはそこにちゃんとあるのにユーザーから利用を敬遠され、別の独自のデータが作り出されたり、作成の要求が来たりしてしまいます。本ブログでは、このような結果に陥らないために意識すると良いと思われることをお伝えしていきます。 もっとも簡略化したデータマネージメントの歴史 アナリティクスに特化したデータマネージメント考察の第一期ーHadoopの到来 2015年以前はダッシュボードや定型レポート、一部の大規模なデータ分析処理用にRDBMSやデータベースアプライアンスが構えられるのみで、アナリティクス用途としてはSASデータセットやフラットファイルでの運用が主でした。これはアナリティクス的なデータ加工および統計解析・機械学習ワークロードに適したテクノロジーが世のなかにはあまりなかったからです。Hadoopの登場により、アナリティクス用途でのデータ活用が一気に拡大し、パフォーマンスやスケーラビリティの制約から解放されました。一方で、従来のように目的を先に決めてデータマートを先に設計してという方法では、アナリティクスによる効果創出が最大化されないという課題も見えてきました。このHadoopの登場は、アナリティクスのためのデータマネージメントの変革の最初のタイミングだったと思います。詳しくは2015の筆者のブログをご興味があればご参照ください。 アナリティクスの効果を最大化するデータマネージメント勘所 Hadoopだからこそ必要なセルフサービス-そしてアダプティブ・データマネジメントの時代へ データマネージメント第二期ークラウドデータベースへのシフト 2015年以降のAIブームによりアナリティクス市場が一気に拡大するとともに、アナリティクスをビジネス上の収益向上、コスト削減、リスク管理に役立てている企業では、データマネージメントの話題が再熱しています。不思議なのは、いや、多くの企業の機能別組織構造では仕方ないのですが、アナリティクスのために良かれと思って取り組んでいるデータマネージメントの課題は、多くのケースで、最終的にアナリティクスを活用して企業の経営に役立てるという目的が忘れ去られてしまいます。 そもそも、アナリティクスのためのデータマネージメントの目的 ともすると手段が目的化しがちなのがITシステムのプロジェクトです。まず、アナリティクスのためのデータマネージメントに何が求められているかを改めて掲げてみますが、そのまえに、そもそもデータマネージメントが課題になるのは、なぜでしょうか? ここでは昔も今もその構図が変わっていない世のなかの状況について共有します。 なぜ、データマネージメントタスクに80%も費やしていのでしょうか。ビジネスにおけるデータ分析の多くは、そもそも実験計画やマーケティング調査とは異なり目的に対してデータを生成・収集しているわけではありません。多くのケースでは、目的に対してそもそもその目的用に計画したわけではないが入手可能なデータを無理やり当てはめています。この目的と手段のギャップを埋める作業が非常に多くの時間とコストを要します。たとえば以下の例で考えてみてください。 製造業において生産設備の中の状態を正確に理解したいが、技術的・コスト的な制約で限定的な精度のセンサーを限定的な場所に設置して、状態の一部を前提条件付きで収集したデータを使うしかない 顧客の購買ニーズを知りたいのだが、店舗ごとの実験は難しいので、欠品情報や潜在的なニーズが表現されていない、過去の活動の結果というバイアス付きのPOSデータを使うしかない このように目的外で収集されたデータを、ある特定の目的のために使えるように評価・加工しなければいけないので、多くの時間をこのデータ準備に割く必要が生じてきます。 では、データマネージメントの取り組みはどこを目指せば良いでしょうか?データ分析者のため、を考えると必然的に以下のポイントが浮かび上がります。 目的に沿ったデータを準備すること データ分析による意思決定において、社会的責任とビジネス上の意思決定の精度を高めるため、品質を担保し、バイアスを理解し、データの生成過程(入力バイアスや基幹システム仕様と業務ルール)を理解し、適切な利用方法を確認する SQLだけでは非生産的な自由自在なデータ加工 データはその利用手法すなわち、統計解析、機械学習、ディープラーニング、自然言語解析、画像解析などによって、手法や使用ツールの仕様に応じて、また、処理パフォーマンスの観点も含めて、自由自在に加工する必要がある ビジネススピードを阻害しないパフォーマンスや処理時間 アナリティクスを競争優位に活用している企業では、24/365常に様々なデータ加工処理が、バッチ、リアルタイム、オンラインで実行されている。これら様々なワークロードを優先度とコスト効率よく、ITシステム部門が特別なチューニングやスケジューリングや、エラーによる再実行をしなくとも、業務スピードに合わせたパフォーマンスで、安定して実行可能な基盤が不可欠 データマネージメントの取り組みで失敗に陥りやすい行動 前述の目的を簡単に言い換えると、データ分析者が何か課題を解決したいと思ってからがスタートで、そこからいかに短時間で正しいデータを特定し、評価し、加工して目的の形に持っていくかが大事であるということになります。つまり、データを物理的にどこに配置されているかに関わらず、データへのアクセス性、評価や加工の俊敏性などが需要であることになります。また、その理解に基づくと、以下のような取り組みはデータマネージメントの目的に沿っておらず、俊敏性や正確性、拡張性を損なう「硬直化」の原因になっていることが多く見うけられます。 「データ統合」を目的化してしまう 1つのデータベースに格納するデータの範囲を決めようとする 汎用的なデータモデルを設計しようとする 変化を前提としないマスタデータ統合をしようとする 変化し続けるビジネス状況のなか、管理対象のデータは常に変化し続けるため、これが「完成」というゴール設定での取り組みは、破綻します。ある大手製造業では何十年にもわたり「ある一つの固定的なゴール」を目指したマスタデータの整備を続けた結果ようやく「マスタデータは時代とビジネスに合わせて常に変化する」と気づき、当初のプロジェクトをストップさせた、という事例もあります。また、取得可能なデータはテクノロジーの進化によって変わります。後で使うかもしれないからと「念のため」蓄積を開始したデータであっても、5年後には使い物にならないデータかもしれません。 「データマートを整備」しようとする スナップショット的なニーズに対応するデータマートを作ろうとする 目的別データマートは目的ごとに存在するにもかかわらず、データマートが多数あることを問題視してしまう データマートの品質(正確性、一貫性、説明性)を気にしていない データマートを固定化するということは目的を固定化することに他なりません。一方でデータ分析を広めるということは、より多くの異なる目的に対してデータ分析を実践することで、矛盾しています。データマートが散在しているという課題感は、本質的にはデータマートがたくさんあることが問題なのではなく、そこでどのようなデータ分析が行われているのか、その品質すなわち、正確性・一貫性・説明性のガバナンスが効いてないことにあります。この本質的な課題解決は別の手段で解決すべきです。 「データ・ディクショナリを整備」しようとする データ分析者にとって良かれと思いITシステム側でスナップショット的なメタデータを定義する データ基盤開発初期にのみ、データ分析者からヒアリングしてメタデータを定義する データの出自、仕様、生成元の情報、使い方、品質、評価などの情報が管理されていない データ・ディクショナリを作ったけどデータ分析者にとって有用な情報が定義されていなかったり、継続的なメンテナンスがされなかったりすることがほとんどです。データ・ディクショナリの目的は、データ分析者により迅速にデータを特定・評価・利用してもらうことなので、その目的達成のためには、より有用な情報を異なる方法で蓄積・管理するべきです。 データマネージメント課題の解決の視点は、自由と統制 原理・原則および、網羅的な知識体系はDMBOKに体系的にまとめられているのでそれは頭に入れてください。そのうえで、データ分析によるビジネス価値創出のための、筆者の経験に基づくデータマネージメント課題の解決のためには、自由と統制のバランスをとることだと考えます。これにより、従来、繰り返しているデータマネージメントの失敗を乗り越え、自己組織的に育つ企業・組織のデータ分析文化の醸成にようやく一歩を踏み出せることになります。 データ分析者の自由度を最大化する(ITシステム部門がボトルネックにならないようにする) あらゆるデータソースに自由にアクセスできるようにする。データの種類や利用目的によって最適なデータ格納方法は変わる。どのような形式でデータが格納されていてもデータ分析ツールから自由にアクセスできるようにすることが重要

Analytics | Data Management
小林 泉 0
ガウディとサグラダ・ファミリアに学ぶデータ分析基盤アーキテクチャのための原則

前回の筆者ブログ「STEAM教育の進化にみるAI活用に必要な芸術家的思考」において、AI/アナリティクス時代に芸術家的思考が必要だという話をしました。今回はその派生で、AI/アナリティクス時代に作られるデータ分析基盤の作り方について、「時間をかけて大規模に創造する」という点で類似している建築物、そのなかでも、自然摂理・数学・幾何学と芸術を融合された象徴としてのサグラダ・ファミリアとその大部分の設計を担ったガウディの考え方に学んでみようと思います。 ガウディとサグラダ・ファミリアの特徴 終わりがなく常にその時代の人によって継承され・作り続けられる ガウディは、サグラダ・ファミリアを完成という終わりを目指さないものとして考えていたそうです。教会という性質や、建築費を寄付で賄うという性質もあり、またガウディが世の中に残したかった、「象徴」として、建築物の完成・利用されるというアウトカムではなく、時代時代の人々が建築に携わり続けることで象徴としての役割をもたらすことをアウトカムとしたということだと私は個人的に解釈します。これは、誰かが作ったものを使うという一方的な関係性を超え、インクルージョンすなわち関与するという関係性をもたらします。 サグラダ・ファミリアの建設はゆっくりと進む。 なぜなら、私のクライアント(神)は完成をお急ぎではないからだ by ガウディ 自然摂理と数学・幾何学に基づく美しさ サグラダ・ファミリアの棟の形は放物線です。ネックレスを想像してみてください。長さや幅を変えると様々な放物線になることが分かると思いますが、そのような「逆さ実験」を繰り返しそれをさかさまにしてあの様々な棟の形になっています。これは、ガウディが何事も自然法則に基づくべきという考えに基づいています。 放物面は幾何学すべての父 by ガウディ 継続のための象徴性の維持 サグラダ・ファミリアは建築費を寄付に依存しています。そのため継続的に人々・社会の関心を惹き続ける必要があります。 サグラダ・ファミリアの思想に学ぶ、活用されるデータ分析基盤アーキテクチャに役立つ原則 原則①レジリエンスー蓄積するデータは常に変化する 「どのようなデータを蓄積しておいたらいいですか?SASさんの経験に基づいて教えてください」 「いま取得できるデータを全部蓄積しようと思うんです。あとでどれが必要になるかわからないから」 このようなお話をよくお聞きします。データ活用ニーズはマーケットの変化、競合他社の変化などによって刻々と変化していくため、利用データのニーズを気にすることは浸透していますが、一方で見落としがちなのは以下の2点です。 過去のデータは過去しか表していない。たとえば売上データ一つとっても、それは過去の自社の行動・意思決定の結果でしかなく、役に立つときもあれば、目的によっては全く役に立たない場合もある。 今得られているデータや分析に利用できそうなデータは今のテクノロジーで得られうるデータ、今のテクノロジーで分析しうるというデータにすぎない。将来テクノロジーの進化によって、新しいデータ、新しいデータ粒度が取得できるようになったり、また分析テクノロジーの進化によって想定してなかったデータが利用価値を生み出したりする可能性もある。 この2つの前提にたつと、どのようなデータをためるべきかという議論が意味がないわけではありませんが、「それほど」意味がないということが分かると思います。それよりは、システムアーキテクチャの原則として、将来、データのVolume, Velocity, Veriety に対応できるように硬直化しないことに、より注意を払うことが重要です。また、蓄積しておいたデータが結果的に使われないということもあるかもしれませんが、そのこと自体を失敗としてシステムの価値評価としては用いるべきではありません。重要なことはそのような重要でないデータが認識されたときに素早くストレージコストを低減するようなアクションができるという俊敏性なのです。それは最近のはやり言葉でいうと、レジリエンスと言ってもいいかもしれません。 原則②アーキテクト担当は芸術家的思考が大事 筆者自身、これまでデータ分析基盤システムのアーキテクチャを何度も担当してきました。そしてアーキテクトを育てる際にいつも言っていた言葉があります。「アーキテクチャは機械的に決まるものではないよ。意思だよ意思。あなたがやりたいように決めていいんだよ」いま思うと、STEAM教育に新たに加えられた芸術家的思考を唱えていたことになります。もちろん基本的な知識や経験に基づいたうえでですが、なかなか自分勝手にアーキテクチャを決めていいと思っているアーキテクト担当者も多くなく、結果として、様々な過去のしがらみに忖度したスパゲッティ状態の新システムが出来上がることも少なくありません。そのような結果にならないためには、その企業・自分たちの組織・自分自身ととことん向き合って、全体アーキテクチャにその思いを込める、ということが重要になってきます。もちろんコーチとしてはこのアドバイスの仕方では不足でして、もっと言語化してアクショナブルにしないといけないとは思いますが。 0から独創性は生まれない by ガウディ 原則③アーキテクチャ図は美しく 図やダイアグラムで人に何かを伝えるためには、見る際にそれを阻害する雑音となる不要な情報を削り本当に必要な情報のみに研ぎ澄ますという最低限のことだけではなく、見たいという気持ちにさせたり、見てみようと思わせたり、ちゃんと見ようと思わせたり、あるいは言語的な情報理解だけではない、感情を引き起こさせることで正しく記憶されます。幾何学的な対称性などのバランスを整えることは、「本日はお集まりいただきありがとうございます」に匹敵する挨拶レベルの基本行動規範です。さらには、複雑なアーキテクチャと向き合う場合には、数学的・幾何学的な視点で眺めなおすことで、構成要素が変わらなくても、アーキテクチャ図としてのエントロピーを低減し、構造の整理をすることで、オーディエンスの正しい理解・伝達コストを低減することが可能です。また、そのようにできる限り美しさを追求することで、逆に多くの部分が視覚情報として自然なものとなる、すなわち無の情報となることで、本質的に最も注目すべきポイントにオーディエンスの目を向けさせることができます。 原則④アーキテクチャの思想定義が重要 これは、上述の芸術家的思考と関連しますが、いわゆる芸術作品を評価した文章のような、背景・アーキテクトの思いなどをシステム設計思想として言語化し文書化して受け継いでいくことが重要です。芸術作品と同じように、作品=システムだけでは、作者がどのように自己と向き合い、世の中を見て、どのような思想で創造したのかを把握することは難しいです。サグラダ・ファミリアは未完成部分のガウディによる設計書が失われたため、現在の関係者たちはガウディの思想に基づきながら設計をしています。同様に、データ分析基盤システムが変化し続ける中担当者は変わっていきますが、システムの変更・改修の際にその「思想」に基づくことで、一貫性・効率性・投資対効果・透明性を高めることができるでしょう。 原則⑤アーキテクチャの思想定義の象徴化が重要 象徴化というと小難しい印象になりますが、データ分析基盤の「モットー」や「ビジョン」を常に発信していくということです。最近筆者が耳にした良いなぁと思った例を2つほどご紹介します。この2つの例では、情報システム部門のトップが常にこのワードを取引先ベンダーにもユーザーサイドにも宣伝していることが重要です。あらゆるステークホルダーがこのモットー、ビジョン、象徴に軸足を置くことで、そこからさまざまな提案・理解が派生するものの、このシステムに対する取り組みを将来に向けて継続・推進することに大きく役立っています。 「システム部門がボトルネックにならないセルフサービス化」 昨今、セルフサービスばやりですが、このフレーズにはユーザー部門からの並々ならぬプレッシャーと、それにこたえることがIT部門の使命だという企業としての一体となったデータ活用戦略が表現されており、様々な提案活動・意思決定の原則として非常によく機能しています。これによってステークホルダーが一丸となって、同じ世界を目指し続けることを可能としています。 「バッチ処理だけではなく真のリアルタイム処理にも同時に対応したシステム」 ビジネスにおいては、常に新しい技術・知識を関連付けて新しい商品やサービス、ビジネスプロセス、市場を創造していく必要がありますが、ITやAI/アナリティクスが主役の昨今、情報システム部門がそのような新しい技術・知識をユーザー部門に提案することが、外部ベンダーに頼らず自社内でスピーディーにイノベーション・トランスフォーメーションしていくうえで重要になってきます。ITの観点でいち早く世界中の情報を収集し、新しい技術を試し、ユーザー部門からのリクエストにリアクティブに備えるというよりは、プロアクティブに提案していく、こうすることで、データ分析基盤の位置づけや価値を確固たるものにし、継続的な進化をするものとして、持続的な成長をしていくことが可能になります。 原則⑥走りながらの変化を前提とする 筆者は、芸術の創作活動に詳しくありませんが、想像するに芸術作品の多くは、ウォーターフォール型ではなくアジャイル型ではないでしょうか。下書きを何度も繰り返したり、小さな単位の作品を小出しにしたりしながら、最終的にそれらの集大成として一つの大きな創造物が作られることが多いように見受けられます。場合によっては、その時代時代のトレンドに左右されながら、その一連の創造活動が行われる場合もあります。何事もそうですが、アイディアはエクスポーズしてフィードバックを得ながらブラッシュアップすることが最短経路での最大効果を生み出すことが多いです。データ分析基盤も同様です。まずデータを蓄積してそれが完了したら使ってみるというのをシーケンシャルに行おうとするケースがいまだ散見されます。蓄積してみた直後に、「使いたいデータがなかった」という事件は実際に起きています。なので、これはお勧めしません。データの価値は蓄積ではなく活用して始めて判明するからです。使ってもらって修正して、というフィードバックループを早く回して軌道修正をこまめに繰り返しながら進むことが重要です。 あらためて、Think Big, Start Small アナリティクスの世界では古くからある使い古された原則です。以前は、データ活用成熟度が高い企業のみがアナリティクスへの投資に踏み出していたため、他に参考にする企業もあまりなく、弊社がグローバルの知見や海外の先進事例や経験に基づいてお手伝いをしながらも、お客様自身でとことん考えビジョンを掲げ、少しずつ成果を出しながら投資を継続しながら、適用ビジネス、人材、組織共に、徐々に規模を拡大していくというやり方が主流でした。つまり芸術家的思考がやはりその根底にあったと言えます。 一方で、昨今AIブームの中AI市場が急速に拡大し、多くの企業がデータ活用に踏み出しています。そのため巷では、成功例・失敗例があふれ、それを参考にすることで、データ分析のビジネス活用に、組織的・人材育成的、IT投資的に、何か初めから答えがあるかのような錯覚をし、自社をとことん見つめたうえでのビジョンがないままに、手段が目的化し、組織化や人材育成あるいはデータ統合基盤の構築からスタートしようとしているケースをよく見かけます。その結果、人材育成は出来たはずなのにデータ活用によるビジネスの成果につながっていなかったり、データ統合基盤は出来たのに使われていない、データサイエンス組織に人材は集めたが具体的なビジネス適用につながらないといった結果に陥っているケースも見られます。会社の戦略が、自社のXXXというコアコンピテンスに基づき、XXXのようにビジネスを変革する、というものではなく、単に「データドリブン組織になる」「データドリブン経営をしていく」という手段が目的化しているときに、そのような思わしくない状況になるようです。 データ分析基盤のアーキテクチャもそうですが、今一度終わりのないこのデータ活用の取り組みに、ガウディがサグラダ・ファミリアに込めた戦略=芸術家的思考を参考にし、企業・組織の血となり骨となるデータ活用の取り組みの位置づけを考えてみるのはいかがでしょうか。

Analytics | Customer Intelligence
Luis García-Vacas 0
Potenciando las estrategias de marketing con modelos analíticos y navegación web

Los modelos analíticos de cliente son utilizados por las empresas para mejorar el conocimiento sobre su público objetivo, necesidades, comportamientos y, en general, anticipar sus movimientos.   La utilización de esta información en modelos analíticos nos permitirá descubrir patrones de comportamiento en los clientes.  Una vía de optimizar los modelos

Advanced Analytics | Analytics | Learn SAS | Work & Life at SAS
Adriana Rojas 0
Colaboración entre universidades y empresas: intercambio mutuo de conocimiento

No creo que ninguno de los lectores de este post llegue a sorprenderse si les contamos que en SAS estamos al 100% comprometidos con el mundo académico. No obstante, hace casi medio siglo que nuestra compañía nació precisamente en las aulas de una universidad, la de Carolina del Norte. Desde

Analytics | Artificial Intelligence | Cloud
Reyes Cerezo 0
Así están transformando SAS Viya y Microsoft Azure el sector sanitario

La inteligencia artificial y la analítica de datos han tenido un impacto trascendental en el sector de la salud. Gracias a sus numerosos usos en esta industria, los beneficios ya se han extendido desde el área asistencial hasta el campo de la investigación.   Recientemente, tuvimos el privilegio de ser anfitriones

Fraud & Security Intelligence | SAS Events
Carla Miranda 0
Cinco pontos chave para combater a fraude, retirados do SAS Innovate Madrid

A expectativa era grande em torno da comemoração do SAS Innovate Madrid, que aconteceu no passado dia 25 de maio. Ouvimos muitas conversas sobre o que as pessoas esperavam do evento, incluindo o desejo de uma vez mais encontrarem-se cara a cara com clientes, parceiros e colegas da área para falar

Analytics | Customer Intelligence | SAS Events
Diferencias y similitudes en la gestión de la experiencia de cliente y ciudadano

On May 25, we took advantage of the presence of the SAS management team at a global level in sunny Madrid to get together with our clients and partners , whom we already consider friends, to address such a fashionable topic as advanced analytics from different angles on our SAS

Analytics | Artificial Intelligence | SAS Events
0
SAS Hackathon biedt innovatieve oplossingen voor bestaande zakelijke en maatschappelijke problemen

Dit jaar deden zes teams uit de Benelux mee aan de wereldwijde SAS Hackathon competitie. Deze teams gingen spannende uitdagingen aan: van het voorspellen van verslechtering en sterfte van kankerpatiënten met synthetische data tot het optimaliseren van de kaasproductie en nog veel meer! Met hulp van de nieuwste SAS-software en

Analytics | Artificial Intelligence
Brecht Seifi 0
4 ways that data and AI can facilitate sustainability transformation

In the first of this two-part blog series, we discussed why corporate sustainability is gaining momentum and explored the benefits and challenges it brings to business. Let’s dive into some practical tips on how to facilitate sustainability transformation within your organization: 1. Analyse your current situation with a future-oriented approach

Analytics
Soundarya Palanisamy 0
3 ways ESG will impact the health care and life sciences industry

Health care and life science organizations have always prioritized saving lives and now extend that commitment to environmental, social and governance (ESG) goals. They are not merely checking boxes, but genuinely pursuing long term impact for individuals, future generations and the planet. However, they must now elevate their ESG efforts to

Advanced Analytics | Analytics | Artificial Intelligence | Cloud | Customer Intelligence | Data Management
Antonio Calvo 0
Los datos deberían ser el activo más valioso de la cuenta de resultados de la distribución y empresas de gran consumo

Actualmente los datos de la gran distribución no forman parte de la cuenta de resultados, pero es el activo que deberían monetizar con mayor urgencia. Gracias a este análisis avanzado se puede mejorar el margen de la compañía y aumentar la eficiencia de diferentes procesos. En este artículo vamos a

Advanced Analytics | Analytics | Data Management
Spiros Potamitis 0
How organizations can maximize productivity to maintain their competitive edge

Data science teams are no longer comprised of tiny groups of Ph.D. holders exploring cutting-edge projects. Organizations that wish to stay competitive in their marketplaces today need effective data science teams. A strategy to effectively apply advanced analytics and data science to drive better products, services and decisions has many

Analytics | Students & Educators
アナリティクス入門講義:要因分析・効果検証

SASが提供する大学講義「アナリティクス入門」のブログ・シリーズ、前回は記述的アナリティクスについてまとめました。今回は4つのアナリティクスのレベルの2つ目、診断的アナリティクスについてまとめます。診断的アナリティクスは、要因分析・効果検証・統計的因果推論などの手法を用い、事象がなぜ起こったかを分析します。 収入が多い家庭の子供は学力が高いか? 数年前のNewsweekの記事に、教育の不平等を取り上げたものがありました。子供の教育にはお金がかかり、収入が多い家庭しか良い学歴を得られないという論調です。東京大学生の親の年収分布と45-54歳男性の年収分布を比較し、前者では年収950万円以上が62.7%もいるのに対し、後者は12.2%であることをデータとして掲載しています。さて、このデータから「東大に入学できたのは親の収入が多いからである」と主張するのは正しいでしょうか? 子供の教育にお金がかかることは事実だと思いますが(日々実感しております)、先程のデータから「親の収入→東大」の因果関係を導くには、対応しなければいけない反論をいくつか思いつくことができます。 まず、取得したデータに偏りはないでしょうか。東京大学の学生は、東京を中心とした関東出身者が多いと思いますが、全国と比較して、東京在住者の収入は高いので、その影響が出た可能性があります。また、「一般の男性」は「大学生の子供がいる年代」のデータのようですが、「実際に大学生がいる」かどうかはわかりません。一般に、子供がいる世帯のほうが子供のいない世帯より収入が多いので、これも影響が出ている可能性があります。このように、集計対象のデータの偏り(バイアス)により、適切な比較がなされていない可能性があります。 また、「収入の多さ」と「東大への入学」に関係があっても、因果関係は無いかもしれません。例えば、家族や地域の「教育熱心に対する考え方」が収入や学歴に同時に影響を与える場合、擬似的な相関が現れる場合があります(偽相関)。このような交絡要因を考慮しないと、真の因果関係を割り出すことは難しいです。(念のため書いておきますが、Newsweekの記事が間違っていると主張しているわけではありません。考慮すべきバイアスや交絡がありそう、という主張です) キャンペーン・メールの効果 企業では、商品の購買促進のために、顧客に直接メールを送り、商品の案内をするということを行うことがあります。このとき、メール配信の効果を知るためには、メールを送った顧客の購買量とメールを送らなかった顧客の購買量の差分をとればよい、と考えることができます。しかし、もしメールの配信を「もともと買ってくれそうな人」を対象としていた場合はどうでしょうか。効果的にメールを送るには、このような対象に限定することは合理的ですので、このような場合は多いでしょう。しかし、買ってくれそうな人にメールを送っていたとすれば、メールを送った顧客は「もともとメールがなくても買っていた」人だったかもしれません。つまり、メールを配信した効果は単純比較の差分量より小さい可能性があります。このときの、「メールを送った人のほうがもともと購入しやすかった」という偏りをセレクション・バイアスと呼びます。 バイアスや交絡を除去する方法 バイアスや交絡を除去する最も強力な方法はランダム化比較実験です。対象を「メールを送るグループ」と「送らないグループ」に振り分けることにより、データ取得の段階からバイアスや交絡を含まない比較対象を作ることができます。薬剤やワクチンの効果の検証は、この方法が採られます。どれぐらいの実験対象を用意し、測定された効果が偶然現れたものではないことを統計学的に検証します。このあたりは、ライフサイエンスの事例の回で詳細に紹介します。 一方で、ランダム化比較実験はコストがかかります。さきほどのメールの例でいえば、買ってくれそうな人に送ったほうが効果的なメールを、あえて効果が低い人にも送る必要があります。薬剤の治験では、協力してくれた被験者に報酬を支払います。また、例えば「子供手当の効果」の検証など、そもそもランダムに振り分けることができない場合もあるでしょう。そういった場合には、実験で計測されたデータではない、観察データを用いて統計学的に効果や因果を検証することになります。この方法は統計的因果推論と呼ばれます。統計的因果推論については、こちらのブログ・シリーズで詳しく解説されています。 観察データから因果や効果を推定するには、「もしかしたらこういう要因があるのではないか」という候補を多く集め、それらの影響を丁寧に検証する必要があります。そういった候補を網羅的に思いつくには、その領域への深い知識が必要です。データサイエンスにおけるドメイン知識の重要性は、前回述べたデータ準備においてそれぞれのデータの意味や特徴を捉えるとともに、このような要因分析・因果推論における交絡要因を抜き出すことにも関連します。 研究における診断的アナリティクス 米国バージニア・コモンウェルス大学のMessyがんセンターで、がんによる死亡の社会要因を研究している事例があります。ここでは、所得や教育水準など、社会的な不利な立場ががんの死亡率に与える影響を研究しています。このためには、年齢や体重、喫煙、飲酒、食生活といったがんのリスク因子の他に、医療施設の場所や居住地域、人種、民族、収入などの社会的要因を総合的に検証する必要があります。このような多くの要因から、本当に影響がある要因を特定するためには、統計的因果推論が必要です。 また、ここでもやはり、データの質は重要です。多くのデータソースから個人をキーとしてデータを統合し、さまざまな要因(変数)を含む総合的なデータを作る必要があります。医療情報はセンシティブなデータになりやすいので、データの統合、研究者への共有、患者へのフィードバックといった利便性の追求と、セキュリティの確保の両面が大切です。

1 2 3 5

Back to Top