Author

小林 泉
RSS
Senior Manager, Analytics Platform and Cloud Solution, Customer Advisory Division

1999年SAS Institute Japan入社後、金融・通信・製造・小売・官公庁を中心に顧客分析やサプライチェーン最適化などのアナリティクス・プロジェクトにて、データウェアハウスやアナリティクス・プラットフォームの設計/構築からアナリティクスのコンサルティングを担当。その後、プリセールスとしてSASアナリティクス・ソリューションの提案、顧客のデータ・マネージメント課題解決への従事、最新技術を利用したビッグデータ活用やSAS on Hadoopビジネスの立ち上げ、普及活動に従事。 データのリアルタイム分析と、大規模分析基盤アーキテクチャ、機械学習についての豊富な知見、経験を持つ。 2016よりSAS Viyaの立ち上げを担当し、OSSの世界へ新しい価値を提供するビジネスを推進。2020年からSAS Cloudソリューションの推進を担当。最近の興味は、「現実世界のデジタライゼーションの限界と展望」。

Analytics
小林 泉 0
データリテラシーが経営者の嘆きを救う

経営層による「データ活用がされてない」という嘆き ここ数年のAI・データサイエンスなどの「ブーム」およびクラウド化などのITインフラ・ツールの様相の進化により、数十年前からデータ分析を武器としてきた企業に加えて、より多くの企業で「データ活用」に取り組み始めました。その多くの取り組みは以下のようなものに代表されるのではないでしょうか。 クラウド化を期に「データ基盤構築」と称して様々なデータを一元的に蓄積する データサイエンティストを採用・育成する 民主化と称し全社にBIツール(レポーティング・グラフ化ツール)を配布する DX部門やデータサイエンス部門を配置する しかしその結果として、「これらのことをやってきているのに、経営的な意志決定にデータが十分活用されている実感がない」と嘆く経営層が多いのはなぜでしょうか? このような嘆きのパターンは以下に大別されます。 経営上の意志決定をする上でのファクトが見えないすなわち、「世の中の真実の理解」ができておらず、経営上の意志決定に役立てられていない 色々なビジネス上の取り組みをしている(ようだ)が全体の収益性へのインパクトが見えない、すなわち様々な角度での活動や取り組みの「収益性」管理ができていない データの価値を高められていない。自社内のデータ資産を価値に変えられていない。部門間同志、あるいは他の企業のデータと自社のデータを掛け合わせることで新しい価値を創出できるはずができていない。すわなち「イノベーション」が起こせていない 筆者は、これらの嘆きの理由を、「データリテラシーが不足しているからだ」と考えています。本ブログでは、「データリテラシー」の定義についてあらためて考察することで、その筆者の考えをお伝えします。 まずデータリテラシーとは データリテラシーとは、「データを読み解く力」と言い換えられることも多いですが、そもそも「データを読み解く力」とは何でしょうか?手元にあるデータをグラフ化してレポートを作成し、勝手な仮説の証拠とすることでしょうか?ビジネス上の意志決定というコンテキストの中では「データを読み解く力」を筆者は以下のように3つの力の総体として定義します。 ビジネス上の問いからスタートしてデータの可能性を見極める力 データそのものを正しく理解する力 データを通して真実を理解する力 1.ビジネス上の問いからスタートしてデータの可能性を見極める力 データ活用の取り組みで頻繁に見られ、また成果を発揮していないパターンはほぼ決まっていて、「このデータでなにかできないか」というデータの活用そのものが目的化している場合です。データから出発している時点で、イノベーションのアイディアに制約を課しており、また、思いついたアイディアに飛びつき投資を続けて形になりかけようやく価値を具体的に考え始めたところで、投資対効果が低いことに気づくというパターンです。これは、近年のAIやDXブームにおいて周りに後れを取らないことが目的化している企業に多く見られる結果です。 二十年以上前からデータ分析を武器としてきた企業は、スタート地点が異なります。1999年、筆者が初めてモデリングソフトウェア(当時のSAS Enterprise Minerという製品です)を使用したデータマイニングによる顧客分析プロジェクトでは、お客様の要望は、「このデータで何かできないか?」ではなく、「顧客の顔が見たい」という一言でした。我々はその「ビジネス課題」をデータでの表現に翻訳し現実世界と利用可能なデータのギャップを示しながら、モデリング結果に基づくアクションを実行する支援をしていました。 その当時からそのまま使われている、SASのData & AI ライフサイクル(図1)の定義が他社の類似方法論と大きく異なるのは、プロセスの最初が「問い」すなわち、ビジネス上の課題設定であるということです。社会人1年目の私でもそのデータマイニングプロジェクトでお客様の課題解決の手伝いができたのは、弊社の方法論の最初のステップに「問い」があったおかげです。 「データドリブン経営」の「データドリブン」が誤解を招く一因になっていることもあるようです。「データ」そのものは推進力にはなりません、データを活用し「ビジネス課題を解決するより良い意志決定」そのものがビジネスをドライブします。自動車を動かしているのは、ガソリンや電気ではなく、エンジンやモーターであるのと同じです。「データが語る」というのは正しくなく、「データを(必要に応じて)使って語る」が正しいのです。 また、対としてビジネス活動を正しく定量的に測れるスキルも必要です。バイアスだらけの過去のデータと比較して、企業や事業の成長率を正しく測っているかどうか、オペレーショナルなKPI(例えば在庫金額)が全体収益(売上やオペレーションコスト、調達コストなどを含めた全体の収益性)にどのように貢献しているか、などデータ活用によるビジネス変革を経営視点で正しく測れるようにすることも必要です。こちらのブログ(そのデータ活用は攻め?守り?)でご紹介した、ストラテジック、タクティカル、オペレーショナルの分類ごとに、各活動や業務単位での成果を測定し、連結したレポーティングをするということです。 2. データそのものを正しく理解する力 企業活動で生成されるデータは単に過去の企業活動つまり過去の意志決定とその実行結果と、市場との相互作用の産物でしかありません。例えば、商品Aの売上が下がっているデータがあったとしても、それが市場全体での商品Aの需要の落ち込みを表しているのか?あるいは競争の中でシェアを落としていることは表しているのか?あるいは商品陳列棚に欠品が多発しているのか?はたまた単に商品Aの販売を減らす意志決定を過去にしただけなのか?は、販売データだけを見てもわかりません。 簡単に手に入るデータが表している傾向からだけではその背後にある真実・理由はわからない、ということを理解する力(スキル)が必要になります。 優秀なデータ活用者は、データの出自の確認からスタートします。そのデータがどのように収集されたのか、収集時にはどのような制約があったのか、どのような過去のアクションの結果なのか、収集の精度やシステムはどのようなものなのか、などです。データを加工したり視覚化する前のこの最初の1歩ができているかできていないかで、その企業が真にデータ分析を競争力に変えられているかどうか判断することができます。 3. データを通して真実を理解する力 特にビジネスの世界において、データは世の中の真のあり方(消費者の行動特性や嗜好、市場のトレンド)をそのままの形で表現していることは稀で、一つの断面を切り取っていたり、過去の企業の意志や行動が介在していることがほとんどです。このような性質を持つ企業活動のデータから、真実を見通すにはどのようにすればよいでしょうか? 真実を見通すためには、実験と推定しかありません。仮説を基に計画的に実験を繰り返しその結果のデータを見ることで、真実を「推定」します。これが、データを通して真実を理解するということです。 図2は、ビジネスにおける意志決定を理解するために、歴史的なアプローチを模式化したものですが、右側にあるような一見社会全体をデータが表していると誤解しがちなアプローチでも、インターネット上のデータ、関連企業の販売・マーケティング活動の結果、というバイアスのかかったデータであることを理解することが必要です。 筆者は、以上3つの力が「データを正しく読み解き活用する」力であり、総称してデータリテラシーであると考えます。 データリテラシーを身につけ、嘆かないようにするために その①:まずデータリテラシーを身につける 多くの企業では、データサイエンス教育に力を入れていますが、前述のデータリテラシーの定義を見ると、それらは単にテクニカルにデータを加工し(データエンジニアリング)、分析やモデル開発をする(データモデリング)スキルではなく、経営管理者層が身に着けるべきData & AI 時代の「ビジネス(プロフェッショナル)スキル」であることがわかります。したがって、全社レベルの教育という点では、私は真っ先にデータリテラシー教育に力を入れるべきだと考えます。 例えば「サラリーマンの平均給与」のグラフがTVのニュースで出てきたときに、 そもそも調査方法は?母集団の条件は? そもそも分布が正規分布でないのだから平均よりは中央値を教えてほしい 年代別や勤続年数別でないとライフスタイルも異なるのだから参考にならない このグラフ縦軸が0から始まってなく何か意図的な誘導を感じる

Advanced Analytics | Analytics | Artificial Intelligence | Data Management | Data Visualization | Machine Learning | SAS Administrators
小林 泉 0
データ分析プロセス全体を管理~自己組織的に育てるナレッジのカタログ化とは

自己組織化とは、自然界において個体が全体を見渡すことなく個々の自律的なふるまいをした結果、秩序だった全体を作り出すこと 2010年から存在した解決アイディアがついに実現可能に 今から遡ること十数年前の2010年頃、支援をしていた大手製造業の会社ではすでにデータ分析スキルの社員間でのばらつきと組織全体のスキルの向上、データ分析作業の生産性の向上、人材のモビリティへの耐性としてのデータ分析業務の標準化が課題となっていました。 当時ご相談をいただいた私を含むSASの提案チームは、SASが提供するアナリティクス•ライフサイクル•プラットフォームを活用することで、その問題を支援できることがすぐにわかりました。つまり、ビジネス課題から始まり、利用データ、データ探索による洞察、データ加工プロセス、予測モデリングプロセス、モデル、そしてそれをアプリケーションに組み込むディシジョンプロセスという、一連のアナリティクス•ライフサイクルにまたがるすべての作業を電子的に記録し、全体のプロセスそのものをモデリングし、利活用することで、自己組織的にナレッジが蓄積され、且つ活用されるということです。 しかし、当時のSASだけではない周辺のIT環境、すなわちPCやアプリケーションアーキテクチャなどのインフラ、データの所在、セキュリティ管理などがサイロ化していること、またSAS以外のModelOps環境もシステムごとにアーキテクチャがバラバラすぎたこと、また、お客様社内のデータリテラシーそのものもまだ課題が多かったため、SASを中心としても、実現にはあまりにも周辺の開発コストがかかりすぎたために、提案を断念しました。 時代は変わり昨今、クラウド技術の採用およびそれに伴うビジネスプロセスの変革と標準化が急速に進んでいます。それに歩調を合わせるように、SASの製品も、上記の当時から市場をリードしてきたMLOpsフレームワークをDecisionOpsへと昇華させ、クラウド技術を最大活用すべく、クラウドネイティブなアーキテクチャおよび、プラットフォームとしての一貫性と俊敏性を高めてきました。そしてついに最新版のSAS Viyaでは、アナリティクスライフサイクル全体にわたり、データからデータ分析プロセス全体の作業を電子的に記録し、管理し、活用することが可能となりました。 自己組織的にナレッジを蓄積活用するデータ分析資産のガバナンス 昨今のデータマネージメントの取り組みの課題 詳しくはこちらのブログをご参照いただきたいのですが、多くのケースで過去と同じ過ちを繰り返しています。要約すると、データ分析文化を醸成したい、セルフサービス化を広めたいという目的に対しては、ある1時点のスナップショットでの完成を目的としたデータカタログやDWH/DMのデータモデル設計は問題の解決にはならないということです。必ず5年後にまた別の担当者やプロジェクトが「これではデータ分析しようにもどのデータを使えばわからない、問題だ、整備しよう」となります。 では解決策はなんでしょうか。 静的な情報を管理したり整備するのではなく、日々変わりゆく、どんどん蓄積され、評価され、改善、進化し続ける、データ分析業務に関わるすべての情報を記録統制することです。つまり、以下の三つのポイントを実現することです。各ポイントの詳細は後段でご紹介しています。 ポイント①あらゆるデータ分析資産(ナレッジ)を管理 ポイント②データ品質管理の自動化・省力化とガバナンス ポイント③社内ソーシャルの力による自己組織的情報の蓄積 まずは、それぞれが何を意味しているかを説明する前に、これらを実現するとどのような世界になるのかをユーザーの声によって示してみたいと思います。   個々の自由にデータ分析をしているユーザーによる行動を記録することで、全体を見渡している誰かがヒアリングや調査をして情報を管理することなく、データ分析がどのように行われているかを管理・共有・再利用が可能となるのです。 誰が、どのような目的で、どのデータを、どのように使用したのか、そしてその結果はどうだったのか? このアプリケーションの出した判定結果の説明をする必要がある。このモデルは誰が作ったのか?どのような学習データを使用したのか?どのようなモデリングプロセスだったのか? よく使用されるデータはどれか? そのデータはどのように使用すれば良いのか?注意事項はなにか? データ分析に長けた人は誰か?誰が助けになってくれそうか? 企業全体のデータ品質はどのようになっているか? データ品質と利用パターンのバランスは適切か?誤った使い方をしているユーザーはいないか? など従来、社内勉強会を開催したり、詳しい人を探し出してノウハウを聞いたり、正しくないことも多い仕様書をひっくり返してみたり、そのようにして時間と労力をかけて得られていたデータ分析を自律的に行う際に重要となる社内ナレッジが、自己組織的に形成されるということです。 「情報資産カタログ」とは~一般的な「データカタログ」との違い このような世界を実現する機能をSASでは、「情報資産カタログ」と呼んでいます。データ分析プロセス全体を管理・検索・関連付け・レポートできるようにするテクノロジーです。一般的に言われる、また多くの失敗の原因になる、「データカタログ」と対比するとその大きな違いが見えてきます。 こちらのブログでも述べましたが、データ分析者がセルフサービスでデータ分析を実践したり、初学者がなるべく自分自身で情報収集して、まずは標準的なデータ分析作業をマスターしたりするためには、既存ナレッジを活用する必要があります。一方で、そのようなナレッジは従来一部の優秀なデータ分析者に聞かないとわからなかったり、あるいはITシステム部門に質問して回答までに長い時間を要してビジネス機会を逸してしまう、という結果を招いていました。 既存ナレッジとは、どのようなデータを、どのような意図で、どのような目的で、どのように使い、どのようなアウトプットを得たかという一連の「考え方とやり方」であり、これは管理者が一時的にデータ分析者にヒアリングして「データカタログ」を整備して終わり、というものではなく、日々データ分析者たちの中で自律的に情報が作られていくものです。 ポイント①あらゆるデータ分析資産(ナレッジ)を管理 SAS Viyaでは、上述のアナリティクスライフサイクル各ステップのオブジェクトがすべて一元的に記録・管理されます。日々、新しく作られるレポート、データ加工プロセス、作成されるデータマートの情報が、自動的に管理され検索対象になっていきます。このようにアナリティクス・ライフサイクルの各ステップをすべて管理することで、データ、そのデータを使用しているレポート、そのデータを使用しているデータ加工フロー、その出力データ、さらにはそれを学習データとして使用している予測モデリングプロセスと作成されたモデル、これらを関連付けて見ることが可能となります。それにより例えば、ある目的に使用するデータを探している場合、参考にする業務名やプロジェクト名で検索をすることで、関連するレポートや、データ加工プロセスにたどり着き、そこから使用データやそのデータの使い方にたどり着くという効率的な情報の探し方が可能となります。 もちろん、この機能は昔からあるインパクト・アナリシス機能として、ITシステム部門が、データへの変更の影響調査ツールとして使用することも可能です。 ポイント②データ品質管理の自動化・省力化とガバナンス データ分析を組織的に行う際に気にすべきポイントの一つは、その正確性です。正しいマスターデータを使用しているか、適切な品質のデータを使用しているかは、最終的なアクションや意思決定の精度すなわち収益に影響します。また、結果に対する説明責任を果たすうえでもアクションに使用したデータの品質は属人的ではなく、組織的に管理されている必要があります。またデータ品質を組織的に管理することにより、データ分析の最初に行っていた品質確認という作業が省力化できます。また、属人的に行っていた品質確認作業も標準化されるため、組織全体のデータ分析作業の品質が向上します。 あるお客様では、DWHに格納するデータのETL処理において施すべき処理が実施されていないというミスがあるものの、データの数やETL処理があまりにも多いためそのミスを発見することが困難であるという状況にありました。網羅的な品質管理および品質レポートによってそのようなミスの発見が容易になります。 ポイント③社内ソーシャルの力による自己組織的情報の蓄積 前述のポイント①により基本的にはデータ分析者個人個人の自律的な活動が自動的に記録され、自己組織的に組織全体のナレッジとて蓄積され共有・再利用可能な状態が作られます。これは、データ分析者個人個人が特に意識しなくても自動的に実現できます。それに加えて、さらに意識的にこのプラットフォームを利用することで、蓄積されるナレッジに深みが増します。 例えば、あるビジネス課題をデータ分析で解決使用する場合のスタートは、「問い」です。上述のアナリティクス・ライフサイクルの一番左のスタートにあるものです。その際には、仮説設定をするためや仮説を検証する目的で、様々な角度から「データ探索」を行います。この初期のデータ探索プロセスは、その後のデータ加工やモデリングの根拠になっているため、ナレッジとしてまた説明責任の材料としてはとても重要になります。必ずしも最終的に使用したデータと同じデータを使うとも限らないので、自動的には他のデータ分析資産とは関連づきません。そのような探索プロセスも下記の図のように、同じプロジェクトフォルダに保存しておくことで、関連オブジェクトとして活用することが可能となります。また、プロアクティブに自信が使用したデータやレポートにコメントや評価を付与することで、より価値の高いナレッジへと育つことになります。 昨今企業内SNSなどで、オフィスツールの使い方などノウハウを共有をされている企業・組織もあるかと思います。それを全社規模のアナリティクス・プラットフォームで行うことで、データ分析に関わるナレッジをユーザー同士で培っていくイメージです。 まとめ 「このデータはこの目的に使えますか?」「あ、それはこの情報がないので使えないんですよ。こちらのデータを私は使ってますよ」データ分析者の間でよく交わされる会話です。この問いにいかに迅速に答えられるかが、データ分析の効率性と正確性を高めます。「情報資産カタログ」はまさにこの問いに答えるための機能なのです。

Analytics | Data Management
小林 泉 0
ようこそ古くて新しいデータマネージメントの世界へ~カギは自由と統制

ようこそ古くて新しいデータマネージメントの世界へ 2023年、DMBOK(データマネージメントの知識体系を網羅的にまとめたもの)という用語を改めて聞く機会が多くなりました。おそらくこれはアナリティクス(データ分析に基づくより良い意思決定の実践)の近年のブームで、新たにアナリティクス活用に踏み出し、ようやくビジネスに直結する使い方をするようになった企業・組織があらためてデータマネージメントの重要性に気付き始めたからだろうと推察します。 また一方で、クラウドシフトに伴いクラウドストレージの活用とともに、これまで蓄積していなかったデータを蓄積し始めたり、これまでのデータウェアハウスを一新する形で、データレイク/データウェアハウスを再構築するなど、従来からアナリティクスを活用していた企業もまた同様に、データマネージメントについて改めて考えているようです。 20年以上前からアナリティクスを競争優位の源泉としていた企業では、データマネージメントが大きな一つの関心ごとでした。その後、テクノロジーの進化によって、ソースデータのビッグデータ化(Volume, Variety and Velocity)や、ストレージ技術の進化、そしてアナリティクス・プラットフォームの進化によってITシステムに対するビジネスニーズも変化しました。また、消費者市場の変化や、データサイエンス人材の爆発的な増加といった市場の変化も目覚ましいものがあります。このような変化の中、近年あらたにアナリティクスの活用に踏み出しはじめた多くの企業だけでなく、従来、競争優位の源泉にしてきた高成熟度企業においても、データマネージメントの課題への遭遇と解決にむけて取り組んでいます。 いきなりですが、もっとも頻繁にお伺いする課題について 過去も今もお客様から聞く課題で最も多いのは、「作ったけど使われないデータウェアハウスやデータマート」です。そもそも、使われる/使われないというクライテリアそのものをもう少し注意深く定義する必要はあるとは思いますが、ITシステム部門主導で利用目的をないがしろにしたデータ基盤構築プロジェクトは往々にしてそのような結果になるようです。例えば、ITシステムサイドの都合で蓄積データの種類・期間や粒度を決めてしまうことで、データ分析要件を満たさないという結果になったり、データの出自や性質・品質や使い方のガイドがないために、データはそこにちゃんとあるのにユーザーから利用を敬遠され、別の独自のデータが作り出されたり、作成の要求が来たりしてしまいます。本ブログでは、このような結果に陥らないために意識すると良いと思われることをお伝えしていきます。 もっとも簡略化したデータマネージメントの歴史 アナリティクスに特化したデータマネージメント考察の第一期ーHadoopの到来 2015年以前はダッシュボードや定型レポート、一部の大規模なデータ分析処理用にRDBMSやデータベースアプライアンスが構えられるのみで、アナリティクス用途としてはSASデータセットやフラットファイルでの運用が主でした。これはアナリティクス的なデータ加工および統計解析・機械学習ワークロードに適したテクノロジーが世のなかにはあまりなかったからです。Hadoopの登場により、アナリティクス用途でのデータ活用が一気に拡大し、パフォーマンスやスケーラビリティの制約から解放されました。一方で、従来のように目的を先に決めてデータマートを先に設計してという方法では、アナリティクスによる効果創出が最大化されないという課題も見えてきました。このHadoopの登場は、アナリティクスのためのデータマネージメントの変革の最初のタイミングだったと思います。詳しくは2015の筆者のブログをご興味があればご参照ください。 アナリティクスの効果を最大化するデータマネージメント勘所 Hadoopだからこそ必要なセルフサービス-そしてアダプティブ・データマネジメントの時代へ データマネージメント第二期ークラウドデータベースへのシフト 2015年以降のAIブームによりアナリティクス市場が一気に拡大するとともに、アナリティクスをビジネス上の収益向上、コスト削減、リスク管理に役立てている企業では、データマネージメントの話題が再熱しています。不思議なのは、いや、多くの企業の機能別組織構造では仕方ないのですが、アナリティクスのために良かれと思って取り組んでいるデータマネージメントの課題は、多くのケースで、最終的にアナリティクスを活用して企業の経営に役立てるという目的が忘れ去られてしまいます。 そもそも、アナリティクスのためのデータマネージメントの目的 ともすると手段が目的化しがちなのがITシステムのプロジェクトです。まず、アナリティクスのためのデータマネージメントに何が求められているかを改めて掲げてみますが、そのまえに、そもそもデータマネージメントが課題になるのは、なぜでしょうか? ここでは昔も今もその構図が変わっていない世のなかの状況について共有します。 なぜ、データマネージメントタスクに80%も費やしていのでしょうか。ビジネスにおけるデータ分析の多くは、そもそも実験計画やマーケティング調査とは異なり目的に対してデータを生成・収集しているわけではありません。多くのケースでは、目的に対してそもそもその目的用に計画したわけではないが入手可能なデータを無理やり当てはめています。この目的と手段のギャップを埋める作業が非常に多くの時間とコストを要します。たとえば以下の例で考えてみてください。 製造業において生産設備の中の状態を正確に理解したいが、技術的・コスト的な制約で限定的な精度のセンサーを限定的な場所に設置して、状態の一部を前提条件付きで収集したデータを使うしかない 顧客の購買ニーズを知りたいのだが、店舗ごとの実験は難しいので、欠品情報や潜在的なニーズが表現されていない、過去の活動の結果というバイアス付きのPOSデータを使うしかない このように目的外で収集されたデータを、ある特定の目的のために使えるように評価・加工しなければいけないので、多くの時間をこのデータ準備に割く必要が生じてきます。 では、データマネージメントの取り組みはどこを目指せば良いでしょうか?データ分析者のため、を考えると必然的に以下のポイントが浮かび上がります。 目的に沿ったデータを準備すること データ分析による意思決定において、社会的責任とビジネス上の意思決定の精度を高めるため、品質を担保し、バイアスを理解し、データの生成過程(入力バイアスや基幹システム仕様と業務ルール)を理解し、適切な利用方法を確認する SQLだけでは非生産的な自由自在なデータ加工 データはその利用手法すなわち、統計解析、機械学習、ディープラーニング、自然言語解析、画像解析などによって、手法や使用ツールの仕様に応じて、また、処理パフォーマンスの観点も含めて、自由自在に加工する必要がある ビジネススピードを阻害しないパフォーマンスや処理時間 アナリティクスを競争優位に活用している企業では、24/365常に様々なデータ加工処理が、バッチ、リアルタイム、オンラインで実行されている。これら様々なワークロードを優先度とコスト効率よく、ITシステム部門が特別なチューニングやスケジューリングや、エラーによる再実行をしなくとも、業務スピードに合わせたパフォーマンスで、安定して実行可能な基盤が不可欠 データマネージメントの取り組みで失敗に陥りやすい行動 前述の目的を簡単に言い換えると、データ分析者が何か課題を解決したいと思ってからがスタートで、そこからいかに短時間で正しいデータを特定し、評価し、加工して目的の形に持っていくかが大事であるということになります。つまり、データを物理的にどこに配置されているかに関わらず、データへのアクセス性、評価や加工の俊敏性などが需要であることになります。また、その理解に基づくと、以下のような取り組みはデータマネージメントの目的に沿っておらず、俊敏性や正確性、拡張性を損なう「硬直化」の原因になっていることが多く見うけられます。 「データ統合」を目的化してしまう 1つのデータベースに格納するデータの範囲を決めようとする 汎用的なデータモデルを設計しようとする 変化を前提としないマスタデータ統合をしようとする 変化し続けるビジネス状況のなか、管理対象のデータは常に変化し続けるため、これが「完成」というゴール設定での取り組みは、破綻します。ある大手製造業では何十年にもわたり「ある一つの固定的なゴール」を目指したマスタデータの整備を続けた結果ようやく「マスタデータは時代とビジネスに合わせて常に変化する」と気づき、当初のプロジェクトをストップさせた、という事例もあります。また、取得可能なデータはテクノロジーの進化によって変わります。後で使うかもしれないからと「念のため」蓄積を開始したデータであっても、5年後には使い物にならないデータかもしれません。 「データマートを整備」しようとする スナップショット的なニーズに対応するデータマートを作ろうとする 目的別データマートは目的ごとに存在するにもかかわらず、データマートが多数あることを問題視してしまう データマートの品質(正確性、一貫性、説明性)を気にしていない データマートを固定化するということは目的を固定化することに他なりません。一方でデータ分析を広めるということは、より多くの異なる目的に対してデータ分析を実践することで、矛盾しています。データマートが散在しているという課題感は、本質的にはデータマートがたくさんあることが問題なのではなく、そこでどのようなデータ分析が行われているのか、その品質すなわち、正確性・一貫性・説明性のガバナンスが効いてないことにあります。この本質的な課題解決は別の手段で解決すべきです。 「データ・ディクショナリを整備」しようとする データ分析者にとって良かれと思いITシステム側でスナップショット的なメタデータを定義する データ基盤開発初期にのみ、データ分析者からヒアリングしてメタデータを定義する データの出自、仕様、生成元の情報、使い方、品質、評価などの情報が管理されていない データ・ディクショナリを作ったけどデータ分析者にとって有用な情報が定義されていなかったり、継続的なメンテナンスがされなかったりすることがほとんどです。データ・ディクショナリの目的は、データ分析者により迅速にデータを特定・評価・利用してもらうことなので、その目的達成のためには、より有用な情報を異なる方法で蓄積・管理するべきです。 データマネージメント課題の解決の視点は、自由と統制 原理・原則および、網羅的な知識体系はDMBOKに体系的にまとめられているのでそれは頭に入れてください。そのうえで、データ分析によるビジネス価値創出のための、筆者の経験に基づくデータマネージメント課題の解決のためには、自由と統制のバランスをとることだと考えます。これにより、従来、繰り返しているデータマネージメントの失敗を乗り越え、自己組織的に育つ企業・組織のデータ分析文化の醸成にようやく一歩を踏み出せることになります。 データ分析者の自由度を最大化する(ITシステム部門がボトルネックにならないようにする) あらゆるデータソースに自由にアクセスできるようにする。データの種類や利用目的によって最適なデータ格納方法は変わる。どのような形式でデータが格納されていてもデータ分析ツールから自由にアクセスできるようにすることが重要

1 2 3 4 5 17