SAS Japan
活用事例からデータ分析のテクニックまで、SAS Japanが解き明かすアナリティクスの全て秋の風物詩であるキンモクセイ(金木犀)は、オレンジ色のフルーティで甘い香りが特徴で、英名はまさしく「フレラント・オリーブ(Fragrant olive)」。香りを楽しむには朝がおすすめで、酵素が活発になるため香りが強くなるそう。ぜひ通勤・通学時に香ってほしい。 キンモクセイはすべて国から持ち込まれた雄株のみで増やしたクローンなので、通常の植物と違って、同じ地域では一斉に開花する。サクラの場合とは逆に、キンモクセイの開花は寒くなる地域から徐々に、東北から九州に向かって進んでいく。ちなみに北海道と沖縄には挿し木がないらしい。 さて、今春のサクラの開花が暖冬で約1週間遅れたのに続き、今秋のキンモクセイも平年より遅れ気味の開花。これは夏が長引いたのが影響しているはずである。実際に10月の平均気温を見ると、関東や近畿は平年より高め、中国地方や九州北部は平年並み、ということで関東や近畿で開花が遅れているとみている。 サクラの開花予測には積算気温が用いられるが(春になると回帰分析を思いだす)、キンモクセイも高温が続くと遅れるため、同様の指標が考えられる。より精緻な統計モデルで予測することも可能である。おくれじとキンモクセイの香りに浸りながら、開花日を予測してみたい。 住宅価格や企業の売上予測においても、ローン支払いの不履行の可能性を見通すにしても、因果解析の手法が用いられる。11~12月は、線形回帰、ロジスティック回帰、生存時間など因果解析のコースがオンパレード(トレーニングコース詳細とスケジュール | SAS)、興味があれば受講してみるのも良いだろう。 2024年11月初旬 相吉
経営層による「データ活用がされてない」という嘆き ここ数年のAI・データサイエンスなどの「ブーム」およびクラウド化などのITインフラ・ツールの様相の進化により、数十年前からデータ分析を武器としてきた企業に加えて、より多くの企業で「データ活用」に取り組み始めました。その多くの取り組みは以下のようなものに代表されるのではないでしょうか。 クラウド化を期に「データ基盤構築」と称して様々なデータを一元的に蓄積する データサイエンティストを採用・育成する 民主化と称し全社にBIツール(レポーティング・グラフ化ツール)を配布する DX部門やデータサイエンス部門を配置する しかしその結果として、「これらのことをやってきているのに、経営的な意志決定にデータが十分活用されている実感がない」と嘆く経営層が多いのはなぜでしょうか? このような嘆きのパターンは以下に大別されます。 経営上の意志決定をする上でのファクトが見えないすなわち、「世の中の真実の理解」ができておらず、経営上の意志決定に役立てられていない 色々なビジネス上の取り組みをしている(ようだ)が全体の収益性へのインパクトが見えない、すなわち様々な角度での活動や取り組みの「収益性」管理ができていない データの価値を高められていない。自社内のデータ資産を価値に変えられていない。部門間同志、あるいは他の企業のデータと自社のデータを掛け合わせることで新しい価値を創出できるはずができていない。すわなち「イノベーション」が起こせていない 筆者は、これらの嘆きの理由を、「データリテラシーが不足しているからだ」と考えています。本ブログでは、「データリテラシー」の定義についてあらためて考察することで、その筆者の考えをお伝えします。 まずデータリテラシーとは データリテラシーとは、「データを読み解く力」と言い換えられることも多いですが、そもそも「データを読み解く力」とは何でしょうか?手元にあるデータをグラフ化してレポートを作成し、勝手な仮説の証拠とすることでしょうか?ビジネス上の意志決定というコンテキストの中では「データを読み解く力」を筆者は以下のように3つの力の総体として定義します。 ビジネス上の問いからスタートしてデータの可能性を見極める力 データそのものを正しく理解する力 データを通して真実を理解する力 1.ビジネス上の問いからスタートしてデータの可能性を見極める力 データ活用の取り組みで頻繁に見られ、また成果を発揮していないパターンはほぼ決まっていて、「このデータでなにかできないか」というデータの活用そのものが目的化している場合です。データから出発している時点で、イノベーションのアイディアに制約を課しており、また、思いついたアイディアに飛びつき投資を続けて形になりかけようやく価値を具体的に考え始めたところで、投資対効果が低いことに気づくというパターンです。これは、近年のAIやDXブームにおいて周りに後れを取らないことが目的化している企業に多く見られる結果です。 二十年以上前からデータ分析を武器としてきた企業は、スタート地点が異なります。1999年、筆者が初めてモデリングソフトウェア(当時のSAS Enterprise Minerという製品です)を使用したデータマイニングによる顧客分析プロジェクトでは、お客様の要望は、「このデータで何かできないか?」ではなく、「顧客の顔が見たい」という一言でした。我々はその「ビジネス課題」をデータでの表現に翻訳し現実世界と利用可能なデータのギャップを示しながら、モデリング結果に基づくアクションを実行する支援をしていました。 その当時からそのまま使われている、SASのData & AI ライフサイクル(図1)の定義が他社の類似方法論と大きく異なるのは、プロセスの最初が「問い」すなわち、ビジネス上の課題設定であるということです。社会人1年目の私でもそのデータマイニングプロジェクトでお客様の課題解決の手伝いができたのは、弊社の方法論の最初のステップに「問い」があったおかげです。 「データドリブン経営」の「データドリブン」が誤解を招く一因になっていることもあるようです。「データ」そのものは推進力にはなりません、データを活用し「ビジネス課題を解決するより良い意志決定」そのものがビジネスをドライブします。自動車を動かしているのは、ガソリンや電気ではなく、エンジンやモーターであるのと同じです。「データが語る」というのは正しくなく、「データを(必要に応じて)使って語る」が正しいのです。 また、対としてビジネス活動を正しく定量的に測れるスキルも必要です。バイアスだらけの過去のデータと比較して、企業や事業の成長率を正しく測っているかどうか、オペレーショナルなKPI(例えば在庫金額)が全体収益(売上やオペレーションコスト、調達コストなどを含めた全体の収益性)にどのように貢献しているか、などデータ活用によるビジネス変革を経営視点で正しく測れるようにすることも必要です。こちらのブログ(そのデータ活用は攻め?守り?)でご紹介した、ストラテジック、タクティカル、オペレーショナルの分類ごとに、各活動や業務単位での成果を測定し、連結したレポーティングをするということです。 2. データそのものを正しく理解する力 企業活動で生成されるデータは単に過去の企業活動つまり過去の意志決定とその実行結果と、市場との相互作用の産物でしかありません。例えば、商品Aの売上が下がっているデータがあったとしても、それが市場全体での商品Aの需要の落ち込みを表しているのか?あるいは競争の中でシェアを落としていることは表しているのか?あるいは商品陳列棚に欠品が多発しているのか?はたまた単に商品Aの販売を減らす意志決定を過去にしただけなのか?は、販売データだけを見てもわかりません。 簡単に手に入るデータが表している傾向からだけではその背後にある真実・理由はわからない、ということを理解する力(スキル)が必要になります。 優秀なデータ活用者は、データの出自の確認からスタートします。そのデータがどのように収集されたのか、収集時にはどのような制約があったのか、どのような過去のアクションの結果なのか、収集の精度やシステムはどのようなものなのか、などです。データを加工したり視覚化する前のこの最初の1歩ができているかできていないかで、その企業が真にデータ分析を競争力に変えられているかどうか判断することができます。 3. データを通して真実を理解する力 特にビジネスの世界において、データは世の中の真のあり方(消費者の行動特性や嗜好、市場のトレンド)をそのままの形で表現していることは稀で、一つの断面を切り取っていたり、過去の企業の意志や行動が介在していることがほとんどです。このような性質を持つ企業活動のデータから、真実を見通すにはどのようにすればよいでしょうか? 真実を見通すためには、実験と推定しかありません。仮説を基に計画的に実験を繰り返しその結果のデータを見ることで、真実を「推定」します。これが、データを通して真実を理解するということです。 図2は、ビジネスにおける意志決定を理解するために、歴史的なアプローチを模式化したものですが、右側にあるような一見社会全体をデータが表していると誤解しがちなアプローチでも、インターネット上のデータ、関連企業の販売・マーケティング活動の結果、というバイアスのかかったデータであることを理解することが必要です。 筆者は、以上3つの力が「データを正しく読み解き活用する」力であり、総称してデータリテラシーであると考えます。 データリテラシーを身につけ、嘆かないようにするために その①:まずデータリテラシーを身につける 多くの企業では、データサイエンス教育に力を入れていますが、前述のデータリテラシーの定義を見ると、それらは単にテクニカルにデータを加工し(データエンジニアリング)、分析やモデル開発をする(データモデリング)スキルではなく、経営管理者層が身に着けるべきData & AI 時代の「ビジネス(プロフェッショナル)スキル」であることがわかります。したがって、全社レベルの教育という点では、私は真っ先にデータリテラシー教育に力を入れるべきだと考えます。 例えば「サラリーマンの平均給与」のグラフがTVのニュースで出てきたときに、 そもそも調査方法は?母集団の条件は? そもそも分布が正規分布でないのだから平均よりは中央値を教えてほしい 年代別や勤続年数別でないとライフスタイルも異なるのだから参考にならない このグラフ縦軸が0から始まってなく何か意図的な誘導を感じる
秋の花といえば、「秋桜」という漢字名を持つコスモスが思い浮かぶ。コスモスはピンク、赤、白、黄、オレンジ、さらには複合色といったさまざまな色があり、実にカラフルである。発色やその遺伝的要因について統計的に研究することは面白いかもしれない。品種改良や育種に役立つ情報が得られるはずだ。 コスモスは非常に丈夫で、日当たりと風通しの良い場所であれば、土質をあまり選ばずに育つ。したがって、庭や花壇で栽培され、切り花や生け花などにも利用されてきた。コスモスの花壇のデザインに関する研究も興味深い。色の組み合わせや配置が視覚的、心理的にどう影響するかを統計的に分析すれば、より素敵なレイアウトやデザインが見つかるだろう。 さて、コスモスという名前は、ギリシャ語で「秩序」や「調和」を意味するそう。色の組み合わせがどれだけ秩序を保ち、調和しているかという視点で花壇のレイアウトやデザインを観察するのも、秋を楽しむ一つの方法かもしれない。 秩序や調和という意味に加え、花が星型に開いて輝く様子から、宇宙を意味する「コスモス」という名前が付けられたのかもしれない。 統計学の世界に長年身を置いてきた私にとって、機械学習やAIはまさに新大陸、いや宇宙と言っても過言ではない。ビッグデータとマシンパワーの力によって、統計学に手足が付いた、羽が生えたように進化したと言えると思う。SASでは、機械学習やAIのトレーニングコースが、中級から上級まで、年に数回開催されているので(トレーニングコース詳細とスケジュール | SAS)、ぜひ受講してみてはどうだろうか。 2024年10月初旬 相吉
夏といえばひまわり。鮮やかな黄色は一輪でも強い存在感を放ち、我が家の食卓を飾る花でもある。ひまわりの花は常に太陽に向かって咲き、時間とともに太陽を追いかけるとされている。しかし、実際にはこのように動くのは芽生えから開花前のつぼみの時期までの話だ。 自然界にあるひまわりの成長には、太陽、気温、降水量、土壌など多くの要因が影響するが、これらの要因がどう関係するのだろうか。人工的な実験でも可能だが、たとえばひまわりの成長データを収集し、統計分析を用いることで最適な成長条件や栽培環境が特定できるはずだ。また、ビッグデータならではの機械学習アルゴリズムを使えば成長のルールやパターンを見つけることもできる。アナリティクスを駆使すれば(SASで開講中のアナリティクスコースはこちら⇒トレーニングコース | SAS)、収穫量の予測や最適な施肥方法、栽培条件も見つけられるだろう。実際、ひまわりの市場は世界で5.6兆円に登る巨大なマーケットなのだ。 ところで、ひまわりといえば気象衛星を連想するのは私だけだろうか。初代号が1977年に打ち上げられ、今度が10号になるが、最初は愛称で呼ばれていたものが後に正式名称となった。気象庁のサイト(気象庁 Japan Meteorological Agency)では、ほぼリアルタイムでひまわりの衛星写真がさまざまな切り口から見られるが、天気や防災に関する情報のほか、上記のような分析に欠かせない環境や気象のデータも豊富に提供されている。 2024年9月初旬 相吉