Japanese

Analytics | Artificial Intelligence
0
AI時代にSASが示す新たな価値は

AI時代におけるSASの新たな価値 ~40年の信頼を礎に、日本市場で描く成長戦略~ 2025年8月25日付の週刊BCNでは、日本法人代表の手島主税とSAS米国本社のグローバルチャネルセールス担当VP スーザン・デュシュノーへのインタビューを通じて、AI時代におけるSASの進化と国内戦略が紹介されました。以下にその要点をまとめました。 [週刊BCN掲載記事] https://www.weeklybcn.com/journal/feature/detail/20250828_211479.html ■ 意志決定を支える「アナリティクス」の本質 SASは50年にわたりアナリティクスのリーディングカンパニーとして企業の意志決定を支えてきました。 日本法人代表の手島主税は、「アナリティクスとは単なる分析ではなく、人が意志決定に至るまでのプロセス」と定義。データそのものに価値はなく、意味を持たせて初めてインテリジェンスが生まれると強調しています。 ■ SAS Viya:先進的なアナリティクス・プラットフォーム 「SAS Viya」は、データ準備からAIモデルの構築・運用、意思決定の自動化までを一貫して支援する次世代のアナリティクス・プラットフォームです。クラウドやオンプレミスなど多様な環境に対応し、業務別の分析モデルも活用可能。AIと統計解析の因果検証力を組み合わせ、より精度の高い意志決定を支援します。 ■ 日本市場での成長と課題解決へのアプローチ 日本法人は現在「過去最高の規模で成長中」。既存ユーザーのデータ活用が進む一方で、新規ユーザーの獲得も順調。SASは、ビジネス目的から逆算したデータ整理・保存・分析モデル構築の支援を通じて、データを「価値創出のレイヤー」へと引き上げることを目指しています。 ■ パートナー戦略:多様な連携でエコシステムを構築 ISVやSIer、コンサルティング企業など多様なパートナーと連携し、それぞれの強みを活かしたエコシステムを構築中。SIerにはコンサルティングスキルの育成支援も行い、「市場に合わせたパートナー戦略」を推進しています。 ■ SAS米国本社の視点:日本市場は「極めて重要」 SAS米国本社のグローバルチャネルセールス担当VP スーザン・デュシュノーは、日本市場を「固有のニーズに適合した戦略が必要な重要市場」と位置づけ。AIの倫理的活用や中堅中小企業支援にも注力し、グローバル戦略と日本の成功事例の相互展開を視野に入れています。

Advanced Analytics | Analytics | Artificial Intelligence | Customer Intelligence | Data Management | Machine Learning | SAS Events | Students & Educators
0
SAS Innovate on Tour Tokyo 2025 開催のご報告

2025年7月24日(木)に開催された「SAS Innovate on Tour Tokyo 2025」は、大盛況のうちに無事閉幕いたしました。ご来場いただいた皆さまに、心より御礼申し上げます。また、スポンサーの皆さま、そして運営・制作・広報をはじめとする関係各位の多大なるご支援とご尽力に、深く感謝申し上げます。 開催報告として、弊社代表 手島 主税からの基調貢献に関するメッセージを以下に投稿させていただきます。   SASジャパン創立40周年を迎える節目の年に開催致しました「SAS Innovate on Tour Tokyo 2025」ですが、私が代表を担当させていただいてから3度目となりました。この3年間、毎年ご来場いただく規模が増えておりまして、今年は過去最大の規模で終えることができました。改めまして皆様に心から感謝申し上げます。 意志決定と人との関係性の力をデータ&AIで紐付ける、「人中心型イノベーション」のビジョンのもと、意志決定に携わる経営者とフロントラインワーカー(営業、マーケティング、工場長、主計など)が求める具体的なテーマでお届けしました。 SASは「データはそれ自体では価値を生まない。価値を生むのは意志決定である」という信念のもと、多様化したAIのモデルを統計的な手法と機械・強化学習の組み合わせを実行できる高度なアナリティクス技術を進化させてきました。重要なのは、データをいかに意志決定に結びつけ、行動変容を促すかという「プロセス」です。 私たちが提唱する「意志決定のデータパイプライン」は、ビジネス部門の課題提起から逆算して必要なデータを整備するアプローチです。システム先行ではなく、人の知見や問いを起点にすることで、真に活用されるデータ基盤を構築できます。SASは、意味付けされたデータを各部門に合わせて提供し、お客様の意志決定を支援しています。 今年の基調講演では、日本を代表する経営者、DX推進リーダー、アカデミアのリーダーの皆様とスペシャルゲストとしてお迎えし、示唆に富んだパネルディスカッションを実施しました。 最初のパネルでは、ソニー銀行様、中国銀行様、東京海上ホールディングス様の経営リーダーがご登壇。 益々過去に無い規模でデータが生成されていく時代になり、企業の価値を創り出す宝探しである。またこれから現場への権限移譲とデータリテラシーの底上げを進めながら、最終的な価値を生むのは人のシナリオ、判断力であることが改めて強調されました。特に印象的だったのは、金融商品に“共感価値”を織り込むという発想の転換。金融を単なる機能価値から、人の感性に響く体験へと昇華させる挑戦が語られました。 [パネルディスカッションご登壇者(※登壇順)] ソニー銀行株式会社 南 啓二様 株式会社中国銀行 山縣 正和様 東京海上ホールディングス株式会社 生田目 雅史様 株式会社ソウジョウデータ 西内 啓様 未来の学びの探求’Future Ready’のパネルでは、統計学で多くの著書、大学での教えも推進されてきている西内先生をお迎えし、「問いを立てる力」がAI活用の出発点であること、そして経営から現場まで“問い→仮説→検証”のリズムを組織全体で回すことの重要性が共有されました。 また、アストラゼネカ堀江様、NSW竹村様にもご登壇頂きました。 堀江様には最新のSASのテクノロジー、AIを活用いただいたモダイナイゼーションによるコスト最適化とフロントワーカーの効率性アップの具体的な事例をご紹介いただき、多くの方に反響を頂きました。 [関連記事] アストラゼネカが目指す医療・創薬の新たなステージ──実現に不可欠なデータサイエンス部の役割とは? 竹村様には、新たなSASとの製造業界向けの戦略的パートナーアライアンスの発表をご披露いただき、昨今の製造業界における課題へのソリューション(工場と経営DX)をご紹介頂きました。これからの両社によるパートナーシップに弊社も大きく期待しております。 [関連記事] NSW株式会社様との協業の発表について - SAS Japan 私個人的にも、日本を牽引する各業界のリーダー皆様の志、視座の高さ、人間力に感銘致しました!!改めまして、南様、山縣様、生田目様、堀江様、竹村様に感謝申し上げます。皆様のビジョンの具現化の力になるべく、引続きSASジャパンも社を挙げて果敢に挑戦してまいります。 これからのSASジャパンに乞うご期待ください。 SAS Institute Japan株式会社

Advanced Analytics | Analytics | Artificial Intelligence | Customer Intelligence | Data for Good | Data Management | Data Visualization | Fraud & Security Intelligence | Internet of Things | Learn SAS | Machine Learning | Programming Tips | Risk Management | SAS Administrators | SAS Events | Students & Educators | Work & Life at SAS
小林 泉 0
📣SAS Hackathon 2025 まもなく開幕(応募〆切8/31)📣

SAS Hackathon 2025が間もなく開幕 公式サイトはこちら☞ https://www.sas.com/sas/events/hackathon.html はじめに 課題、テーマや使用データ 課題やテーマ、使用データは参加者ご自身で準備いただきます 2023年の日本からの参加チームは、オープンデータを使用したチーム、普段の自社内の取り組みプロジェクトのデータを使用したチームなどがありました 分析環境や、専門スキルの支援などはSAS側で用意されます コミュニケーションに使用する言語 日本からの参加者をサポートするメンターはSAS Japanから日本語を話す社員が担当する予定ですが、エキスパートや他の参加者との交流は英語になります 成果物に使用する言語 成果物(プレゼン動画やプレゼン資料、アプリケーションなど)は英語になります。昨年の日本からの参加チームはそれぞれ、英語でのプレゼン、無音声英語文字のみのプレゼン、英語機械音声など様々な方法で対応されました 作業場所 オンラインでの約1か月間の作業なので、作業場所は、参加チームそれぞれで確保いただきます 2025 キックオフイベントの様子 ソーシャル メディア プラットフォーム経由で視聴する LinkedIn☞https://www.linkedin.com/events/7333469635326984193/ Youtube☞https://www.youtube.com/live/yp008_MVfF4 SAS Hackathonとは 好奇心は私たちの規範です 素晴らしいアイデアは、どこからでも誰からでも生まれます。さまざまな地域から、さまざまな背景やスキルレベルを持つデータ愛好家が集まると、驚くべきことが起こります。これらの優れた頭脳は、私たちの日常生活、ビジネスのやり方、人道的活動への取り組み方を変えるような新しいものを発明するでしょう。好奇心旺盛な頭脳が協力し合うと、世界が勝利するからです。 特長 仲間のプログラマーと協力する  経験豊富なデータ サイエンティストから初心者の技術者、パートナー、SAS エキスパートまで、誰もがクラウド上の SAS® Viya でオープン ソースを使用します。 無料の学習リソースを活用する トレーニング コースや仮想学習ラボを利用して、AI、クラウド環境、業界に関するコーチングを活用できます。 新しいテクノロジーを簡単に試すことができる SAS ハッカソンは、SAS ユーザーだけでなく、初心者や新規参入者の好奇心を刺激します。Python と R の専門知識を持つオープンソース プログラマーでも、そのスキルを SAS Viya

Advanced Analytics | Data Visualization
0
NSW株式会社様との協業の発表について

ITソリューションプロバイダのNSW株式会社様に、SAS Institute Japan 株式会社との協業について発表いただきました。 NSW、製造業の経営判断を高度化する意志決定プラットフォームの提供を開始 | NSW 以下が全文になります。 2025年7月24日 NSW株式会社 NSW、製造業の経営判断を高度化する意志決定プラットフォームの提供を開始 ~製造業の抱える生産性、安全性、持続可能性にまつわる課題をデータ活用で解決~ ITソリューションプロバイダのNSW株式会社(本社:東京都渋谷区、代表取締役執行役員社長 多田 尚二、以下NSW)は、データとAIのグローバルリーダーであるSAS Institute Japan 株式会社(本社:東京都港区、代表取締役社長 手島 主税、以下SAS)の技術を活用し、製造業向けの意志決定プラットフォーム「Factory Decision Making Platform」の提供を本日より開始します。 本サービスは、製造現場のOperational Technology(OT)データと企業内のITデータを統合し、AIによるインサイトを通じて、現場から経営層までタイムリーな判断と行動を可能にするソリューションです。意志決定までのリードタイムを短縮し、日々のオペレーション改善を従来よりもスピーディかつ確実に実行に移す仕組みを提供します。 ■提供の背景・概要  日本の製造業では、高度なオペレーションの知見が現場に蓄積されていながら、それが経営判断や全体最適に活かされないという構造的な課題が存在しています。 工程ごとにデータが分断されており、たとえ構造化されたデータとして蓄積されていたとしても、現場での可視化にとどまり、スピード感ある経営判断や業務判断に結びついていないのが実情です。 このような課題に応えるべく提供を開始する「Factory Decision Making Platform」は、SASの迅速な意志決定を支援する分析プラットフォームを活用し、NSWが蓄積してきたOT/ITデータ統合・業務改善のノウハウ、現場密着型のコンサルティング・導入・運用支援を組み込んだ、意志決定のリードタイムを短縮し、経営判断のスピードおよび確実性を高めるエンドツーエンド型サービスです。 単なる技術導入にとどまらず、顧客に寄り添いながら、改善サイクルの高速化を伴走型で支援することが最大の特長です。 本サービスにより、製造現場で発生する膨大なデータを、判断と行動につながる形に整理・統合することで、OEE(総合設備効率)やダウンタイム、CO2排出量などの主要KPIを着実に改善できます。現場改善の即応性を高め、生産性、安全性、持続可能性の最適化を実現します。 本サービスでは、以下の機能およびプロセスを通じて、顧客のデータ活用と意志決定を総合的に支援します。 OT/IT間のデータ収集・統合 データマートの構築および前処理 GUIベースで利用可能なプリセットAIモデル 工程改善コンサルティング、導入支援、教育、運用保守、AI活用のBPOに至るまでのエンドツーエンド支援 ■協業の背景と今後の展望 SASは、製造業を含む多様な業界に向けて高度な分析プラットフォームを提供し、企業のデータ活用と意志決定の高度化を支援しています。NSWはIoT/OT機器からのデータ取得やマネジメントにおいて豊富な実績を持ち、多くの製造工程における“リアルデータの利活用”を支援してきました。 両社がそれぞれ強みとする「分析基盤」「工程データの統合・活用力」「業務定着に向けた支援力」を結集することにより、「経営」と「現場」をシームレスにつなぐ意志決定プラットフォームの構築が実現しました。製造業が直面する意志決定の”スピード”と“精度”の両立という課題に対し、技術と人の知見の融合によって新たな解決策を提供します。 今後NSWとSASは、エンタープライズ企業への展開に加え、BPO支援やSaaS連携を通じた中堅中小市場へのスケールも視野に入れ、製造業におけるデータドリブン経営の実現をより広く支援してまいります。 また、本プラットフォームの提供にあたり、両社の知見やユースケースを集約し、顧客が実際のデータや業務シナリオをもとにソリューションを体感・検証できる共創の場を設ける取り組みを進めています。製造工程におけるイノベーションの“出発点”となるようなオンサイト型の拠点として、実践的な価値の創出を目指します。 ■SAS Institute Japan株式会社からのエンドースメント SASは、テクノロジーが人の力を最大限引き出す役割になるべく、人の意志決定をインテリジェンスにし、“人中心型イノベーション’を推進しております。 このたびNSW様との協業により、現場の知見と先進テクノロジーを融合し、製造業におけるDX戦略を支えるソリューション、インテリジェンスプラットフォームを提供できることを大変嬉しく思います。 本サービスは、工場現場で鍵となる生産性・安全性・持続可能性の向上にフォーカスし、製造能率や設備効率の改善、労働災害リスクの低減、エネルギー使用量の削減といった現場KPIを経営の視点で捉え直すことで、経営と現場双方の迅速かつ的確なアクションへとつなげます。 今後もNSW様と連携し、現場と経営をつなぐ新たな意志決定のかたちを共に広げてまいります。

Advanced Analytics | Analytics | Artificial Intelligence | Data Management
小林 泉 0
自由と統制:変化しながらもガバナンスを担保するための唯一無二のデータ分析プラットフォームとは

競争に勝つためのData & AI プラットフォームに完成はない 「ガウディとサグラダ・ファミリアに学ぶデータ分析基盤アーキテクチャのための原則」で考察したように、変化し続ける市場や消費者、経済環境において、企業・組織が意志決定する対象やその内容は刻々と変化していきます。また、よりよい意志決定のためのData & AI活用のためのテクノロジーも日々変化していきます。そのような環境においては、従来のようなある一時点のユーザー要件に基づいてData & AI環境を準備することは、企業・組織の俊敏性を損ない、まだ見ぬ将来への変化対応力(レジリエンシー)を弱め、結果として常に世の中のトレンドから大きく遅れた後追いのData & AI活用になってしまいます。例えば以下のような状況に陥っているとすると、それはその企業・組織の戦略がそのような常に後追いにしかならない方法論で進めていることになります。 「データ統合基盤」の過ち:あらたに「データ統合基盤」(*1) を構築しようとするが蓄積するデータが決まらずプロジェクトが開始できない、あるいは完了しない。また完了したと思ったのに使われない。 「Data Lakehouseツール」の過ち:アジャイル型を標榜して、クラウド型の「Data Lakehouse用」のデータベースを安価に採用したが、ユーザーの利用が進むにつれてより多くのデータが必要になってきたときに、そのデータベースのコストが指数関数的に膨れ上がる価格モデルであったため、必要なデータが結局蓄積できないという結果になった 「簡易なデータ分析ツール」の過ち:上記と同様にクラウドプラットフォームにほぼ無償でついてくるAI/機械学習機能でデータ分析をスタートする企業も多いです。しかし多くの企業が「データ分析始めました」の域を出ることができず、真にビジネス課題を解決するための機能が足らないことに気づかないまま、データ分析とはこの程度のものだと思い込み、結果として「始めましたプレゼンテーション」を最後に、真にビジネス価値を創出した事例発表に至ってない。 「AIガードレールツール」の過ち:生成AIのテクノロジーを活用して、自社のビジネスを成長させたいが生成AIを安全に使うためのAIガードレールツールを選定したが、いざ導入してみると、そもそも生成AIを活用してビジネス価値を出す案件がなかったり、あるいはテクノロジーの進化が速いために、必要なガバナンス機能がすぐに変わってしまい、当初の投資金額だけでなく、その投資にかかった時間や人的リソースが無駄になってしまった 「データモデル」の過ち:過去の経験のベストプラクティスとしてのデータモデルを導入したが、ある時点のデータモデルとして完成しすぎていて、新たな市場の要件に対応するために新たなデータを追加しようとした際に、対応できなかった 「機能特化型パッケージツール」の過ち:たとえば、金融不正対策アプリケーションにおいては、不正の手法が常に変化する中対策に必要なデータやアルゴリズム・手法をどんどん変化させていく必要があるが、限定的なデータモデル、限定的なアルゴリズムしか持たないツールを採用してしまったために、不正対策をスピード感をもって進化させられていない *1) データ統合基盤の過ち補足:そもそも日本市場・日本語でよく聞く、この「データ統合基盤」という言葉が過ちを生み出している元凶でもあります。データ・マネージメントの目的は、「欲しいときに」、「欲しい形で」、「欲しい品質で」、「欲しい人が」特定のビジネス課題を解決するという目的を達成するためにデータを活用できることです。必ずしも一か所にデータが蓄積されている必要はありませんし、データは膨大なため利用頻度や重要度に応じて格納の仕方を変える必要もありますし、目的に応じて必要なデータやその結合の仕方も変わるため、「あらかじめ統合」しておくことにもあまり意味がありません。もちろん、過去データウェアハウスの時代には、一時的に企業の構造化データを一貫性をもってER図的に定義・実装したデータモデル・データベースが非常に役立った時代もあります。特にそれはアドバンスト・アナリティクスというよりは、レポーティングやOLAPによるデータ探索目的に役立ちました。一方で、機械学習や最適化などアルゴリズム的に高度なデータ分析や、昨今のように非構造化データを扱う場合には、常に新しいデータを使いたくなることが多く、あらかじめデータモデルで定義しておくことの価値は低くなります。 なぜ常に時代遅れになりがちで、AIの取り組みの役に立たないData & AIプラットフォームを構築してしまうのか? 上記のような様々な過ちに企業陥ってしまうのはなぜでしょうか? 20年ほど前は一部のアナリティクス成熟度が高い(例えばこちらを参照ください データリテラシーが経営者の嘆きを救う)企業だけが、解決したいビジネス課題とそれを解決した時の期待効果の試算に基づいてあるいは野心的に大規模にData & AIプラットフォームへの投資を、ユーザー部門が主に自分たちの予算で企画・導入していました。 その後、テクノロジーの進化と共に、プログラマーニーズ、あるいはプログラミングを主たる作業とするデータサイエンティストニーズの高まりにより、データ分析、データサイエンスの取り組みのオーナーがあたかもIT部門やアプリケーションデベロッパーかのような時代になり、Data & AIプラットフォーム投資の意志決定のオーナーがITサイドに移動しました。 手段であるIT、データサイエンス、機械学習やプログラミングの底力が高まるのは良いことなのですが、それにより、「ビジネス課題解決(収益向上・コスト削減・リスクの管理)」というData & AIプラットフォームの目的定義がおざなりになり、あたかもERPを導入するかのような要件定義の仕方でData & AIプラットフォームへの投資の仕方に代わってしまいました。従来は目的ありきで作っていたものが、流行にのって作ってしまってから、後から使い方を考えるという世界に変わってしまったのです。データ統合基盤を作ったのに使われないという嘆き(前述の別ブログを参照のこと)はまさにその象徴です。 一方で、昨今の責任あるAIの視点から、ビジネスニーズに沿ってなんでもかんでも自由にやっていいわけではない 少し前までは、AIは、「人間の特定のタスクを置き換えるもの」という定義でしたが、昨今は違います。AIは人間とは異なる方法で知性を身につけており、ときにそれは人間の能力をはるかに超える能力を発揮します。言い換えると、AIは人間の理解ややり方が及ばない方法で、知的なアクションを行えるようになっています。これは次のようなことを意味しています。 人間の仕事が奪われるという視点は近視眼的:AIはすでに人間とは異なる方法で知性を身につけているので、従来の人間のタスクをそのまま置き換えるわけではありません。もちろんAIの能力を過小に使用して人間の従来のタスクをやらせても良いかもしれませんが、それはAIの潜在能力を生かし切っていません。これまで人間にはできなかったことができるAIを、これまで人間がやってこなかった仕事の量や質に当てはめて、仕事の仕方を効率化するのではなく、「変革」することができるという視点が重要です。 我々は人間社会をより良くする必要がある:一方で、人間の能力を超えた知性を人間の社会活動に取り入れることには最新の注意が必要です。人間の能力を超えた知性を人間の知性で開発されたテクノロジーだけで統制することは不可能です。かつて人間は様々な人間の能力を超えたものを開発してきました。例えば自動車です。自動車の利用を統制するには法律やルールが必要だったように、AIの利用を統制するためにはテクノロジーだけではなくルールや法律が必要になってきます。 人間中心のAI活用には人間のインクルージョンが不可欠:教育機関が生徒不在で「生徒はこれが欲しいはずだ」という取り組みを実施して失敗したり、イベントやマーケティングにおいて企画フェーズに実際のオーディエンスを参加させずに(実際の声を反映させずに)企画者が勝手に良かれと思った企画が失敗に終わるケースは後を絶ちません。オーディエンスが画一的ではなく多様化している今の時代「インクルージョン」が非常に大事になってきています。これは、SAS社が提供する責任あるイノベーションのためのリテラシートレーニング(Responsible Innovation and Trustworthy AI)で学ぶ内容です。AIにはデータが必要なため適切なリテラシーがないと現実世界を切り取っただけのバイアスだらけのデータだけを真実と見なしたAIアプリケーションが構築され、人間社会の倫理と公正性が危険にさらされます。AIアプリケーションの開発プロセスに人間が介在できるData & AIプラットフォームが求められます。 Data &

Analytics
0
📣2025/4/7開催📣 PharmaSUG Japan SDE 2025/SAS登壇のご案内

PharmaSUG Japan SDE 2025が今年は対面で開催されます。 本イベントは、製薬・医療データに関する最新のトピックや実践的な知見を共有する絶好の機会です。 SAS Institute Japanもこのイベントに登壇し、臨床試験やリアルワールドデータの分析生産性と コラボレーションの強化についてご紹介いたします。ぜひご参加ください。 💡 開催概要 •日時:2025年4月7日(月)10:00-18:00 (9:30受付開始) •会場:中外製薬株式会社 •参加費:75 USD(Winter Webinar登録者は50 USD) •主なプログラム PharmaSUG SDE Japan 2025 – PharmaSUG •オープンソースとAIの活用 – 製薬業界における最新の技術動向 •CDISC標準の実務適用 – 規制対応に関する最新情報 •Japan Programming Head Councilによるパネルディスカッション – 業界課題と今後の展望 🔷SAS Institute Japan 講演 •登壇者: 土生 敏明 Sr Business Solutions Manager, Architecture & Platform Solution

Analytics
0
時間依存性治療(Time-varying treatments)の因果推論:周辺構造モデルにおけるIPTW法

注) 本コラムは『経時的に変化する治療(Time-varying treatments)に対する因果推論』と題した以前のコラムを、時間依存性治療に関する部分と周辺構造モデルにおけるIPTW法に関する部分に分割し、内容の追加と修正を行い再構成したものの一部となります。   はじめに 以前のコラムでは、「時間依存性治療とはなにか」、「時間依存性治療の因果効果はどのように定義されるのか」、「定義した因果効果はどう推定すれば良いか」について紹介しました。時間依存性治療の因果効果の推定にあたっては、一般に条件付けに基づく手法(e.g., 回帰、層別化、マッチング)は不適であり、g-methods※1と総称される推定手法が広く用いられています。本コラムでは、それらの中でも直感的な理解や実装が最も容易である「周辺構造モデルにおけるIPTW法(inverse probability of treatment weighting (IPTW) of marginal structural models (MSMs)」の理論とSASでの実装方法について簡単に紹介します。コラム全体の流れは以下の通りです。 時間固定性治療(time-fixed treatments)※2に対する周辺構造モデルとIPTW法の紹介 IPTW法の概要 周辺構造モデルの設定がなぜ必要か 時間依存性治療(time-varying treatments)に対する周辺構造モデルとIPTW法の紹介 SASでの実装 まとめ なお、本コラムは統計的因果推論に関する基本的な理解があることを前提としております。また、文献や書籍によっては、IPTW(Inverse probability of treatment weighting)は、単にIPW(Inverse probability weighting)と記載される場合もあります。しかし、IPW(逆確率重み付け)は治療効果の直接的な推定を目的とした治療変数に関する重み付け以外にも、打ち切りに対する補正(i.e., 打ち切り変数に関する重み付け)等でも用いられることがあり、本コラムでは前者であることを強調するためにIPTWと記載します。加えて、本コラムでは連続もしくは二値であるアウトカム(結果変数)が、研究最終測定時点でのみ測定される状況を想定します。アウトカムが生存時間(time-to-event)である場合や各時点の治療実施後に繰り返し測定される場合など※3、異なる状況における議論についてはreferenceにある文献等をご参照いただくか、著者宛に別途ご連絡いただけると幸いです。 ※1 (i) Inverse probability of treatment weighting of marginal structural models(周辺構造モデルにおけるIPTW法)、(ii) g-computation algorithm formula("g-formula")、(iii) g-estimation of stractural nested model(構造ネストモデルにおけるg-estimation)のという3手法の総称

Analytics
0
収益を上げたいので「金になる木」を手元に

「金のなる木」という植物があるが、意外にも花が咲くことをご存じだろうか。実は、11月から晩秋から冬にかけて、白や淡いピンクの可憐な花が咲くのだ。もちろん、品種や育て方によって差はあるが、株が大きく成長し、日照や水やりに気を配ることが大切な条件となる。もちろん一定の寒さに当てることも欠かせない。花が咲くと、「幸運を招く」「富をもたらす」「一攫千金」など、縁起が良いとされている。ちなみに、英名は「dollar plant」、まさに金のなる木である。 ところで、マーケティングの世界では、相対的市場シェアと市場成長率を基に商品や事業を4つのカテゴリー、「金のなる木」「問題児」「花形」「負け犬」に分類して分析する手法がある(プロダクトポートフォリオ)。この手法は、ボストン・コンサルティング・グループ(BCG)が開発した「BCGマトリクス」として知られており、例えば、マーケットシェアと市場成長率が高いものは「花形」、成長は高くないがシェアが高い、つまり収益性の高いものは「金のなる木」と分類される。商品戦略としては、取捨選択を行い、負け犬の事業や商品からは力を抜き、金のなる木に力を入れる、といった具合となる。 さて、SASでは様々なトレーニングメニュー(コース詳細とスケジュール)が提供されており、SASプログラミングの初級・中級コースやSAS Enterprise Guideの操作入門、統計初級コースは「金のなる木」に当たり、特に人気が高いため、受講を検討してみてはいかがだろうか。一方で、SASでは分析基礎トレーニングやデータサイエンティスト超入門講座なども提供されており、論理的思考やロジカルシンキング、データ分析のスキルを磨きたい方は、ぜひお問い合わせいただければ幸いである。 2024年12月初旬 相吉

Analytics | Artificial Intelligence
0
クラウドにおける AI と分析の環境への影響の調査

SASクラウドエコノミクスおよびビジネスバリューチームのSpiros PotamitisとFrancesco Raininiがこの記事の執筆に協力しました。2023年11月16日に公開された英語の記事を翻訳しております。 クラウド コンピューティングは数え切れないほど多くの業界のバックボーンとなり、組織が分析、機械学習、AI の力を活用して洞察とイノベーションを実現できるよう支援しています。 クラウドコンピューティングの急速な拡大により、クラウドは大きな二酸化炭素排出量を生み出すようになりました。背景として、クラウドは世界の二酸化炭素排出量の最大 4%を占めると計算されており、これは航空業界が排出する量よりも多いと考えられています。 これに対して何ができるでしょうか? オンプレミスの展開についてはどうでしょうか? クラウドとオンプレミスの議論に関しては、大手市場調査会社である IDC は、コンピューティングリソースの集約効率が高いため、オンプレミスと比較してクラウドの方が環境に優しい選択肢であると主張しています。したがって、AI と分析のワークロードをクラウドに移行するのが環境にとって最善の方法であると言われています。 クラウドでの効率を向上できる組織が増えれば、累積的な影響を考慮すると、小さな改善でも大きな違いを生む可能性があります。 SAS® Viya®と環境 SAS Viya は、  5 年間で最大 50 トンの CO2eの炭素排出量を削減する可能性があります。成長した木がこの量のCO2eを吸収するには 4,513 年かかると言われています。     カーボンフットプリントを楽しく探る 様々な要点を総合的に考慮し、Viya の潜在的な環境的利点を計算するために、私たちはGreen Algorithm Calculator を使用しました。これは、計算ワークロードの二酸化炭素排出量を推定して報告するツールです。計算を完了するために、さまざまな Azure Cloud アーキテクチャにわたる 1,500 を超えるテストを含むFuturum ベンチマーク調査の数値を使用しました。この調査では、Viya がオープンソースや主要な代替手段と比較して平均で 30 倍高速であることが示されています。 私たちは、大規模な組織に典型的なインフラストラクチャと分析のワークロードを想定しました。同時に、Futurum の調査で使用された技術的設定を反映しているため、計算に自信を持ってメリットの数値を適用できます。 グリーンアルゴリズム 計算機を使用して計算するには、次の手順に従います。 実行時間から始めます。50 人のデータ

Analytics
0
キンモクセイの香りに浸かって

秋の風物詩であるキンモクセイ(金木犀)は、オレンジ色のフルーティで甘い香りが特徴で、英名はまさしく「フレラント・オリーブ(Fragrant olive)」。香りを楽しむには朝がおすすめで、酵素が活発になるため香りが強くなるそう。ぜひ通勤・通学時に香ってほしい。 キンモクセイはすべて国から持ち込まれた雄株のみで増やしたクローンなので、通常の植物と違って、同じ地域では一斉に開花する。サクラの場合とは逆に、キンモクセイの開花は寒くなる地域から徐々に、東北から九州に向かって進んでいく。ちなみに北海道と沖縄には挿し木がないらしい。 さて、今春のサクラの開花が暖冬で約1週間遅れたのに続き、今秋のキンモクセイも平年より遅れ気味の開花。これは夏が長引いたのが影響しているはずである。実際に10月の平均気温を見ると、関東や近畿は平年より高め、中国地方や九州北部は平年並み、ということで関東や近畿で開花が遅れているとみている。 サクラの開花予測には積算気温が用いられるが(春になると回帰分析を思いだす)、キンモクセイも高温が続くと遅れるため、同様の指標が考えられる。より精緻な統計モデルで予測することも可能である。おくれじとキンモクセイの香りに浸りながら、開花日を予測してみたい。 住宅価格や企業の売上予測においても、ローン支払いの不履行の可能性を見通すにしても、因果解析の手法が用いられる。11~12月は、線形回帰、ロジスティック回帰、生存時間など因果解析のコースがオンパレード(トレーニングコース詳細とスケジュール | SAS)、興味があれば受講してみるのも良いだろう。 2024年11月初旬 相吉 

Analytics
小林 泉 0
データリテラシーが経営者の嘆きを救う

経営層による「データ活用がされてない」という嘆き ここ数年のAI・データサイエンスなどの「ブーム」およびクラウド化などのITインフラ・ツールの様相の進化により、数十年前からデータ分析を武器としてきた企業に加えて、より多くの企業で「データ活用」に取り組み始めました。その多くの取り組みは以下のようなものに代表されるのではないでしょうか。 クラウド化を期に「データ基盤構築」と称して様々なデータを一元的に蓄積する データサイエンティストを採用・育成する 民主化と称し全社にBIツール(レポーティング・グラフ化ツール)を配布する DX部門やデータサイエンス部門を配置する しかしその結果として、「これらのことをやってきているのに、経営的な意志決定にデータが十分活用されている実感がない」と嘆く経営層が多いのはなぜでしょうか? このような嘆きのパターンは以下に大別されます。 経営上の意志決定をする上でのファクトが見えないすなわち、「世の中の真実の理解」ができておらず、経営上の意志決定に役立てられていない 色々なビジネス上の取り組みをしている(ようだ)が全体の収益性へのインパクトが見えない、すなわち様々な角度での活動や取り組みの「収益性」管理ができていない データの価値を高められていない。自社内のデータ資産を価値に変えられていない。部門間同志、あるいは他の企業のデータと自社のデータを掛け合わせることで新しい価値を創出できるはずができていない。すわなち「イノベーション」が起こせていない 筆者は、これらの嘆きの理由を、「データリテラシーが不足しているからだ」と考えています。本ブログでは、「データリテラシー」の定義についてあらためて考察することで、その筆者の考えをお伝えします。 まずデータリテラシーとは データリテラシーとは、「データを読み解く力」と言い換えられることも多いですが、そもそも「データを読み解く力」とは何でしょうか?手元にあるデータをグラフ化してレポートを作成し、勝手な仮説の証拠とすることでしょうか?ビジネス上の意志決定というコンテキストの中では「データを読み解く力」を筆者は以下のように3つの力の総体として定義します。 ビジネス上の問いからスタートしてデータの可能性を見極める力 データそのものを正しく理解する力 データを通して真実を理解する力 1.ビジネス上の問いからスタートしてデータの可能性を見極める力 データ活用の取り組みで頻繁に見られ、また成果を発揮していないパターンはほぼ決まっていて、「このデータでなにかできないか」というデータの活用そのものが目的化している場合です。データから出発している時点で、イノベーションのアイディアに制約を課しており、また、思いついたアイディアに飛びつき投資を続けて形になりかけようやく価値を具体的に考え始めたところで、投資対効果が低いことに気づくというパターンです。これは、近年のAIやDXブームにおいて周りに後れを取らないことが目的化している企業に多く見られる結果です。 二十年以上前からデータ分析を武器としてきた企業は、スタート地点が異なります。1999年、筆者が初めてモデリングソフトウェア(当時のSAS Enterprise Minerという製品です)を使用したデータマイニングによる顧客分析プロジェクトでは、お客様の要望は、「このデータで何かできないか?」ではなく、「顧客の顔が見たい」という一言でした。我々はその「ビジネス課題」をデータでの表現に翻訳し現実世界と利用可能なデータのギャップを示しながら、モデリング結果に基づくアクションを実行する支援をしていました。 その当時からそのまま使われている、SASのData & AI ライフサイクル(図1)の定義が他社の類似方法論と大きく異なるのは、プロセスの最初が「問い」すなわち、ビジネス上の課題設定であるということです。社会人1年目の私でもそのデータマイニングプロジェクトでお客様の課題解決の手伝いができたのは、弊社の方法論の最初のステップに「問い」があったおかげです。 「データドリブン経営」の「データドリブン」が誤解を招く一因になっていることもあるようです。「データ」そのものは推進力にはなりません、データを活用し「ビジネス課題を解決するより良い意志決定」そのものがビジネスをドライブします。自動車を動かしているのは、ガソリンや電気ではなく、エンジンやモーターであるのと同じです。「データが語る」というのは正しくなく、「データを(必要に応じて)使って語る」が正しいのです。 また、対としてビジネス活動を正しく定量的に測れるスキルも必要です。バイアスだらけの過去のデータと比較して、企業や事業の成長率を正しく測っているかどうか、オペレーショナルなKPI(例えば在庫金額)が全体収益(売上やオペレーションコスト、調達コストなどを含めた全体の収益性)にどのように貢献しているか、などデータ活用によるビジネス変革を経営視点で正しく測れるようにすることも必要です。こちらのブログ(そのデータ活用は攻め?守り?)でご紹介した、ストラテジック、タクティカル、オペレーショナルの分類ごとに、各活動や業務単位での成果を測定し、連結したレポーティングをするということです。 2. データそのものを正しく理解する力 企業活動で生成されるデータは単に過去の企業活動つまり過去の意志決定とその実行結果と、市場との相互作用の産物でしかありません。例えば、商品Aの売上が下がっているデータがあったとしても、それが市場全体での商品Aの需要の落ち込みを表しているのか?あるいは競争の中でシェアを落としていることは表しているのか?あるいは商品陳列棚に欠品が多発しているのか?はたまた単に商品Aの販売を減らす意志決定を過去にしただけなのか?は、販売データだけを見てもわかりません。 簡単に手に入るデータが表している傾向からだけではその背後にある真実・理由はわからない、ということを理解する力(スキル)が必要になります。 優秀なデータ活用者は、データの出自の確認からスタートします。そのデータがどのように収集されたのか、収集時にはどのような制約があったのか、どのような過去のアクションの結果なのか、収集の精度やシステムはどのようなものなのか、などです。データを加工したり視覚化する前のこの最初の1歩ができているかできていないかで、その企業が真にデータ分析を競争力に変えられているかどうか判断することができます。 3. データを通して真実を理解する力 特にビジネスの世界において、データは世の中の真のあり方(消費者の行動特性や嗜好、市場のトレンド)をそのままの形で表現していることは稀で、一つの断面を切り取っていたり、過去の企業の意志や行動が介在していることがほとんどです。このような性質を持つ企業活動のデータから、真実を見通すにはどのようにすればよいでしょうか? 真実を見通すためには、実験と推定しかありません。仮説を基に計画的に実験を繰り返しその結果のデータを見ることで、真実を「推定」します。これが、データを通して真実を理解するということです。 図2は、ビジネスにおける意志決定を理解するために、歴史的なアプローチを模式化したものですが、右側にあるような一見社会全体をデータが表していると誤解しがちなアプローチでも、インターネット上のデータ、関連企業の販売・マーケティング活動の結果、というバイアスのかかったデータであることを理解することが必要です。 筆者は、以上3つの力が「データを正しく読み解き活用する」力であり、総称してデータリテラシーであると考えます。 データリテラシーを身につけ、嘆かないようにするために その①:まずデータリテラシーを身につける 多くの企業では、データサイエンス教育に力を入れていますが、前述のデータリテラシーの定義を見ると、それらは単にテクニカルにデータを加工し(データエンジニアリング)、分析やモデル開発をする(データモデリング)スキルではなく、経営管理者層が身に着けるべきData & AI 時代の「ビジネス(プロフェッショナル)スキル」であることがわかります。したがって、全社レベルの教育という点では、私は真っ先にデータリテラシー教育に力を入れるべきだと考えます。 例えば「サラリーマンの平均給与」のグラフがTVのニュースで出てきたときに、 そもそも調査方法は?母集団の条件は? そもそも分布が正規分布でないのだから平均よりは中央値を教えてほしい 年代別や勤続年数別でないとライフスタイルも異なるのだから参考にならない このグラフ縦軸が0から始まってなく何か意図的な誘導を感じる

Analytics
0
統計学に羽が生えて「コスモス」へ

秋の花といえば、「秋桜」という漢字名を持つコスモスが思い浮かぶ。コスモスはピンク、赤、白、黄、オレンジ、さらには複合色といったさまざまな色があり、実にカラフルである。発色やその遺伝的要因について統計的に研究することは面白いかもしれない。品種改良や育種に役立つ情報が得られるはずだ。 コスモスは非常に丈夫で、日当たりと風通しの良い場所であれば、土質をあまり選ばずに育つ。したがって、庭や花壇で栽培され、切り花や生け花などにも利用されてきた。コスモスの花壇のデザインに関する研究も興味深い。色の組み合わせや配置が視覚的、心理的にどう影響するかを統計的に分析すれば、より素敵なレイアウトやデザインが見つかるだろう。 さて、コスモスという名前は、ギリシャ語で「秩序」や「調和」を意味するそう。色の組み合わせがどれだけ秩序を保ち、調和しているかという視点で花壇のレイアウトやデザインを観察するのも、秋を楽しむ一つの方法かもしれない。 秩序や調和という意味に加え、花が星型に開いて輝く様子から、宇宙を意味する「コスモス」という名前が付けられたのかもしれない。 統計学の世界に長年身を置いてきた私にとって、機械学習やAIはまさに新大陸、いや宇宙と言っても過言ではない。ビッグデータとマシンパワーの力によって、統計学に手足が付いた、羽が生えたように進化したと言えると思う。SASでは、機械学習やAIのトレーニングコースが、中級から上級まで、年に数回開催されているので(トレーニングコース詳細とスケジュール | SAS)、ぜひ受講してみてはどうだろうか。 2024年10月初旬 相吉

Analytics
0
ひまわりの成長ルールを見つけようと

夏といえばひまわり。鮮やかな黄色は一輪でも強い存在感を放ち、我が家の食卓を飾る花でもある。ひまわりの花は常に太陽に向かって咲き、時間とともに太陽を追いかけるとされている。しかし、実際にはこのように動くのは芽生えから開花前のつぼみの時期までの話だ。 自然界にあるひまわりの成長には、太陽、気温、降水量、土壌など多くの要因が影響するが、これらの要因がどう関係するのだろうか。人工的な実験でも可能だが、たとえばひまわりの成長データを収集し、統計分析を用いることで最適な成長条件や栽培環境が特定できるはずだ。また、ビッグデータならではの機械学習アルゴリズムを使えば成長のルールやパターンを見つけることもできる。アナリティクスを駆使すれば(SASで開講中のアナリティクスコースはこちら⇒トレーニングコース | SAS)、収穫量の予測や最適な施肥方法、栽培条件も見つけられるだろう。実際、ひまわりの市場は世界で5.6兆円に登る巨大なマーケットなのだ。 ところで、ひまわりといえば気象衛星を連想するのは私だけだろうか。初代号が1977年に打ち上げられ、今度が10号になるが、最初は愛称で呼ばれていたものが後に正式名称となった。気象庁のサイト(気象庁 Japan Meteorological Agency)では、ほぼリアルタイムでひまわりの衛星写真がさまざまな切り口から見られるが、天気や防災に関する情報のほか、上記のような分析に欠かせない環境や気象のデータも豊富に提供されている。 2024年9月初旬 相吉

Analytics
0
バラといえばナイチンゲールのバラ

幼い頃、家の庭にたくさんのバラがあり、手入れが大変だった思いがある。トゲに刺されて痛い思いをしたり、傷になったりしたことを覚えている。興味深いことに、統計学の歴史にはナイチンゲールの「バラ」というグラフが登場する。 「白衣の天使」として知られるイギリスの看護師フロレンス・ナイチンゲールは、優れた統計学者でもあった。彼女は19世紀のクリミア戦争で看護師として派遣され、膨大な戦死者・傷病者データを分析し、多くの兵士が戦傷ではなく劣悪な衛生状態のために命を落としていることを明らかにした。その後、政治や行政に向けに「ローズダイアグラム」という革新的なグラフで報告した。 ローズダイアグラムは、円グラフの一種で、死因を視覚的に示すチャートである。月ごとの死亡者数を戦傷を赤、衛生状態や栄養不足を青、その他の要因を黒で色分けし、それぞれの面積で表現したものである(Florence Nightingale's Rose Diagram)。このグラフにより、衛生改善の必要性が明確になり、医療環境の改善が進んで傷病兵の死亡率が大幅に減少したのは言うまでもない。 統計学は記述統計と推測統計に分かれ、記述統計はデータの特徴を分かりやすく表現することを目的とする。ナイチンゲールの事例は、記述統計とデータ可視化が如何に重要かを物語っている。SASには「SAS Visual Analytics」という優れた可視化ツールがあり、基礎から上級までの関連コースも提供されている(SASトレーニングコース)。 2024年8月初旬 相吉

Analytics
0
アジサイと書いて統計学と機械学習と読む

この時期の私の楽しみは、散歩の途中でかわいらしい色とりどりのアジサイの花を眺めることだ。アジサイは、「集まる」や「寄せ集める」という意味があり、花弁がいくつも集まっている咲き姿に由来しているそうだ。別名「七変化」とも呼ばれており、土の性質によって花色が変わるのが特徴。土が酸性だとブルー系、中性からアルカリ性だとピンク系になるそうだ。面白いことに、ブルーのアジサイをアルカリ性の土に植え替えると薄紫色のアジサイに変化するそうだ。 「統計学と機械学習の違いは何か」という質問を受けることがある。土の性質で色が変わるアジサイのように、機械学習と統計学も同じような関係ではないかと思う。両者の目的は似ているが、ビッグデータと高度な計算能力という土俵の違いが機械学習の発展に大きく寄与したのは間違いない。ただ、機械学習の歴史は比較的新しいが、統計学がなければその発展は考えにくい。例えば、決定木分析は機械学習が流行る前から統計学の手法の一つだったが、機械学習の進展とともに進化してきた。ちなみに決定木分析は樹形図の形式で結果を出力し、そのため初心者でも理解しやすい分析手法の一つ。SASでは、機械学習をはじめとして、ニューラルネットワーク、AI関連のトレーニングコースが年に数回開催されている(SASトレーニングコース)。 ※Google Trendによると日本での検索数は、2016年当りから交差する形で機械学習が統計学を上回るようになった。機械学習が統計学より広まったのは、ビジネスパーソンであろうが消費者であろうが、意思決定の場面で使われる頻度や処理速度に関連があると思う。 2024年7月初旬 相吉

Advanced Analytics | Analytics | Artificial Intelligence | Customer Intelligence | Data Management
0
保険業界向けインタラクティブセッション「新しい保険ビジネス創造に向けた事例と成功要因」を開催!【SAS Institute Japan】

2024年5月31日(金)、SAS Institute Japanは、「保険業界向けインタラクティブセッション 新しい保険ビジネス創造に向けた事例と成功要因」 を六本木ヒルズ森タワー11階のSAS Institute Japan本社で開催した。 開会挨拶 保険業界においても顧客ニーズは多様化、高度化している。たとえば、生保ではウェルビーイングのような包括的な顧客ニーズを充足することが求められている。そして、顧客ニーズを充足するためのエコシステムが台頭し、保険商品がエコシステムに組み込まれ、顧客の生活の中でフリクションレスに保険や関連サービスが提供されるようになっている。今、保険会社はどのように新しい商品・サービスを開発し、マーケティングを実行すべきなのか。本イベントでは、保険業界で実際に多数のイノベーションやCX変革に関わっている有識者をゲストに迎え、今取り組むべき課題やその実際を議論していく(SAS Institute Japan カスタマアドバイザリ事業本部 原島 淳氏)。 セッション1:保険業界におけるビジネスアーキテクチャの転換  まず、福島 渉氏(デロイトトーマツコンサルティング 執行役員 保険インダストリリーダー)が「保険業界におけるビジネスアーキテクチャの転換」について話した。  「これまで世界の保険業界において、ランキング上位企業の顔触れは大きく変わってこなかった。100年以上の歴史を持つ保険会社がランキング上位を占めている。それは従来の保険会社はバリューチェーンの各機能を内製化しており、それぞれの知見や能力が競争優位性の源泉であり、また参入障壁になっていたからだ。大手企業は、潤沢な資本を背景とした価格形成力を持ち、販売網を張り巡らせ、そして高い引受・査定能力により収益を維持してきた。 しかし、今日ではバリューチェーン各機能の分立と共有化が進んだことで、この構造が崩れ始めている。保険会社のビジネスモデルは多様化しており、また水平横断的機能提供を狙うプラットフォーマーが出現している。各保険会社は自らの強みを活かしながら、フィナンシャル&ヘルスマネジメント型、経済活動のあらゆるリスクをカバーするフルスペック型、ドメインフォーカス型、もしくはプダクトファクトリー型といったビジネスモデルを選択していくことになると予測する。また、機能特化/集約型プラットフォーマーとして、データアナリティクス、カスタマーエンゲージメント、キャピタル&インベストマネジメント、ITテクノロジーのプラットフォーマーが出現してくるだろう。たとえば、資産運用プラットフォームBlackRock、”Technology as a Service”のOneConnectといった企業はそれに当たる。保険会社はこういったプラットフォーマーを活用することも重要だ。  このような潮流を受けて、保険業界のビジネスアーキテクチャは変化している。これまでは、単一の商品を効率的に販売する”代理店モデル”が主流だった。しかし、これからは商品・サービスとチャネルをターゲット顧客に応じて最適な形で組み立てていくことが重要だろう。前述のような機能プラットフォーマーが提供する”モジュール化”された機能を自社の商品・サービスやチャネルと組み合わせることで新しいビジネスモデルを定義し、多数の顧客セグメントに効率よく価値提供することも可能だ。たとえば、よく知られるエンビデッド保険や、シンガポールIncomeのSNACKの革新的なサービスもその一例だ。  今日の保険業界ではスピーディーなイノベーションが強く求められている。イノベーションを加速させるには、モジュール化された機能を組み合わせることで、商品・サービスをスピーディーにプロデュースする能力が重要と言える。これからの保険会社に求められるのは、ブランド価値とビジネスケースの仮説構築力と、それをもとに商品・サービスをアジャイルで構築できる新しいテクノロジー基盤、そこで仮説検証を高速で廻せる業務プロセスである。今日の保険会社には、商品・サービス開発、マーケティング、テクノロジー、そして全体のガバナンスの各領域で、”モジュール”を活用したスピーディーな競争優位性の創造が求められている。」 セッション2:三井住友海上におけるCXマーケティングとデータ活用の取り組みについて  では、保険会社では実際にどのように商品・サービスを開発し、マーケティングを行っているのだろうか。続いて、佐藤 祐規氏(三井住友海上 CXマーケティング戦略部 データマーケティングチーム長)が「三井住友海上におけるCXマーケティングとデータ活用の取り組みについて」と題して、実際の取組みを紹介した。  「言うまでも無く、保険業界を取り巻く環境は大きく変化した。お客さまが自ら必要な情報を選択する時代では、事故補償時だけの関係性から脱却しなければならない。CXマーケティング戦略部では、お客様ロイヤルティ大手損保No.1を目指している。このためには、顧客接点を増強すること、そして、データ分析やリサーチを通してお客様の解像度を高め、お客さまごとのコミュニケーションを実施することで、新規獲得手法を高度化し、またお客さまの期待を超える体験価値を提供することが重要だ。そして、そのためにはデータ分析やデータ活用が欠かせない。  当社ではマーケティング領域のデータ活用を強化しているが、いくつかの取組事例を紹介する。まず、ドラレコ付き自動車保険のクリエイティブ開発の事例だ。従来、クリエイティブ開発は商品所管部門が担当しており、モノの視点(機能的価値)からの価値訴求が多かった。しかし、実際にお客さまへの訴求を行っている代理店への調査を行ってみると、お客さまは加入後の体験とそれによる安心に価値を感じていることがわかった。そういった体験価値の視点からプロトタイプを作成し、ターゲット層にアンケート調査を行うことでブラッシュアップを行い、より評価の高いクリエイティブを作成することができた。 この事例のように、消費者調査を行なうことで顧客のニーズや求められる価値を理解した上で、商品・サービス開発を進めている。お客さまに選んでいただくためには、良い商品を開発するだけでなく、当社の認知度や好感度、さらに契約体験や事故体験も重要な要因となる。それぞれの体験や認知が契約にどの程度寄与するのかも分析を行っている。 こういった分析を通してマーケティングミックスを最適化するために、弊社ではCDP(Customer Data Platform)を構築し、お客様起点で属性、契約、行動、調査、事故の情報を統合、活用している。この情報は代理店にも還元していて、代理店向け営業支援システムにNBA(Next Best Action)情報を配信している。  今後の方向性として、保険会社はプロダクト中心の発想から抜け出し、カスタマージャーニーにおける価値を中心に考える必要がある。顧客との接触頻度を拡大すべきだが、無意味な拡大は逆効果で、適度な距離感を持って、有用なコミュニケーションを行っていくことが重要だ。そのためにはお客さまの文脈を押さえた(”ジョブ理論”にもとづく)コミュニケーションが欠かせない。現在、ChatGPTを活用しながら、ジョブ理論にもとづくクリエイティブ開発を進めているが、こういった施策を通してCX向上を目指したい。保険会社の商品・サービスは今後拡大していくだろうが、差別化の最大のポイントはCXだと考えている。」 セッション3:保険イノベーションをサポートする新しいSASテクノロジと事例  こういった保険業界のイノベーションやCX高度化に求められるテクノロジーとは何か。原島 淳氏(SAS Institute Japan カスタマアドバイザリ事業本部)が「保険イノベーションをサポートする新しいSAS」と題して、SASが提供するテクノロジーと海外でのその活用事例を話した。  「保険会社は今、新しい商品・サービスとそのマーケティングモデルをスピーディーに創造していくことが求められている。競争力の源泉としてデータとAIを活用し、また新しいマーケットプレイスやテクノロジー企業が提供する”モジュール”との連携も重要だ。 SASはデータから価値実現のプロセスをEnd-to-Endでサポートし、アジャイルにも対応している。また、あらゆるシステム/モジュールとリアルタイムで統合可能なオープン性を持つ。SASを活用することで、データ・AIを活用した判断をカスタマージャーニーに組み込み、顧客体験を最適化できる。たとえば、外部ウェブサイトの顧客行動をリアルタイムで捕捉・分析し、最適な保険・サービスを最適な保険料で提案。申込があれば本人確認を行い、自動引受査定を行い、スピーディーに契約のご案内を行う、といった形で、業務横断のデータ・AI活用が可能だ 保険業界においてもSASを活用した事例は拡大している。その中から、(1)新しい商品・サービスをスピーディーに創造している事例、(2)優れたCXを提供する顧客接点を構築している事例、(3)業務横断の高度なデータ・AI活用を実施している事例を紹介したい。 まず、(1)海外ダイレクト保険プラットフォーマーでは、多数の外部パートナーに対し、APIを通して豊富な商品とSASで開発されたカスタマーエンゲージメントプラットフォームを”モジュール”として提供する。このプラットフォームはスケーラブルで、かつスピーディーに拡張できる点が特徴であり、多数の外部パートナー向けのエンベデッドの保険の提供や、金融・小売といった多数の販売パートナーとの提携によるマーケティングモデルの展開をサポートしている。次に、(2)カナダSun Lifeでは、デジタルアドバイザ”Ella”がアマゾンエコーなどのインターフェースを通して顧客のライフスタイルをサポートしながら、各種データにもとづいて健康や資産運用のための様々なナッジを提供している。(3)海外保険会社の中小企業向け保険のアンダーライティングでは、引受リスクだけでなく、保険+予防予後サービスを含むトータルの顧客LTVを加味して最適な提案(NBO=Next

Analytics | Data for Good | Learn SAS | SAS Events
0
SAS Hackathon Boot Camp/ 7月18日 SAS Innovate Tokyo にて開催

  SAS Hackathon Boot Camp が SAS Innovate Tokyo に登場 2024年7月18日からSAS Innovate Tokyoが東京丸の内で開催されます。参加される皆さんは、SAS Hackathon Boot Campにもぜひご参加ください。参加は無料です。この Boot Campは、提供されるダイナミックなAI環境の中で、"経験豊富な問題解決者" である皆さんが一丸となって課題に取り組むことができるプログラムとなっています。多様な専門的バッグラウンドを持つ皆さんのご参加をお待ちしてます。このプログラムは、与えられた課題に取り組む中で、融資業務の評価を実際に体験することができるものとなっています。金融業界でのバックグラウンドの有無にかかわらず参加いただけます。 プログラム Boot Campのプログラムは、信用審査モデルにおいて、特に性別、年齢、人種、場所、その他の潜在的な要因に関連する、"隠れたバイアスの蔓延"という問題に対して取り組む内容となっています。参加者には、そのようなバイアスが存在する可能性のある現実世界のシナリオをシミュレートするデータセットが提供されます。ゴールは、そのような既存のバイアスを持ち続けず、これ以上増やさないためにも、フェアな信用審査モデルを新たに作成することにあります。利害関係者とのコミュニケーションを可能にするための、データセット内の潜在的な問題の評価を支援するダッシュボードの作成ももう一つのゴールです。 オプション 参加者はローコード、ノーコード開発のどちらかを選択することができます。また、プログラムの課題を通して、SAS Viya 上での、AI、アナリティクス、オープンソースツールの組み合わせを体験していただけます。 ユースケースオプション: 信用審査モデリングデータのバイアスの検出 (ローコード) 一度に 1 つのダッシュボードで信頼性の確認ができる: 倫理的なデータ可視化の課題 (ノーコード) 必要な準備 インターネット環境に接続可能なご自身のPCをご持参ください。 サポート SASから提供されるものは以下です。 Azure上で実行され、Intelによって高速化されたSAS CloudでのSAS Viyaへのアクセス 問題の説明とデータ SASのメンターによる課題取組み中のコーチング 会場でのWi-Fi チーム チームは2〜4人で編成されます。歓迎されるスキルは以下です。 公平性を判断するための批判的思考 データに存在するさまざまなタイプのバイアスに関する認識 データインサイトを解釈して伝達する能力 複雑なコンセプトを伝えるための強力なコミュニケーションスキル

Analytics
0
タンポポの生存分析をしてみたい

タンポポは、生き生きとしたかつとても響きの良い、好きな日本語の一つである。 語源は、江戸時代頃までは「鼓草(ツヅミグサ)」と呼ばれていたものの、花のかたちが太鼓に似ている、または太鼓を叩くポンポンという音を連想させるとかで、たんぽぽになったという説が有力らしい。英語では「dandelion」と、たんぽぽの花の形がライオンのタテガミに似ているからかと思いきや、ギザギザの葉をライオンの歯に見立てたことから由来しているそう。 タンポポは、春に花を咲かせて夏には枯れてしまう短命のイメージがあるが、実はとても長生きする草本だそうだ。花が散った後、綿毛のタネを飛ばして(あのひらひらとした傘の形の綿毛で運が良ければ100キロ先まで飛ぶそうなので驚く。もちろん大概は数メートルのはずだが)、葉を枯らしてしまうが、しっかり根は残っていて(だからうちの庭の草むしりが大変だった)、そして翌年の春になるとまた茎を立ち上げて葉を伸ばし、花をつける。毎年それを繰り返し、根株が死なない限り何年でも生き続け、寿命は、10年から15年程度だそうなのでこれまた驚きである。 話が変わるが、統計学には生存分析、あるいは生存時間解析というのがあり、生物の死亡や機械の故障など寿命が分析対象で、医学や社会科学の多くの分野に利用されている。医学研究の例を挙げると、ある時間を過ぎて生存する人々の割合はどの程度か、生き残った人々はどの程度の割合で死亡するのか、特定の状況または特性が生存確率にどのような影響を与えるのか、などが挙げられる。SASでは6〜8月に生存時間解析、予測分析、といった講座が開設されているので(SASトレーニングコース )、「寿命」に興味関心がある方はぜひ受講してみて頂きたい。 2024年6月初旬 相吉

Analytics | SAS Events
0
SAS Hackathon Boot Camp in Las Vegas / チーム SHIONOGI 参加・入賞報告

4月16日-19日に開催されたSAS Innovate in Las Vegasにて、SAS Hackathon Boot Campが行われました。 日本からは塩野義製薬様が参加され、見事3位入賞いたしました。🎉 本記事では塩野義製薬様のチャレンジの様子や、いち早くSAS Viya Workbenchを利用した感想をお伝えします。 また、7月17-18日に開催予定のSAS Innovate in Tokyoでは、2日目にHackathon Boot Campが行われます。 ぜひこの記事を参考にし、皆様のチャレンジをお待ちしています。 SAS Hackathon、SAS Viya Workbenchに関する各種リンクは以下をご覧下さい: SAS Hackathon Boot Camp in Tokyo  (SAS Innovate Day2):Here ※参加登録時、ハッカソン参加希望をチェックください。 SAS Hackathon:Here SAS Viya Workbench:Here チーム SHIONOGI ? 今回SAS Hackathon Boot Campへ参加したのは、データサイエンス部の4名です。 参加された4名は、医薬品の有効性・安全性を確かめる臨床開発をはじめ、医薬品の研究~販売のすべてのバリューチェーンにおいて、データサイエンスの側面から業務プロセスの改革へ取り組まれています。 塩野義製薬様エントリーの背景 日頃から仮説(臨床試験/ビジネス)に対しデータサイエンスを使い向き合っていますが、3時間という限られた時間の中で普段扱わない業界・テーマへ向き合うことは、我々の実力試しが出来るいい機会と考えていました。 日々様々な業務テーマ/データと向き合い、高度なデータ活用へ取り組まれている皆さんにとって、Hackathon Boot Campはそれらの総合力と向き合う機会だったと言えます。

Analytics
0
ツツジのように統計学が広まってほしい

桜が散ったと思うと、いつの間にかツツジの季節がやってきた。ツツジは、4月中旬から5月中旬にかけて咲く、日本で最も親しまれている植物の一つであり、桜の散る頃から北海道から沖縄まで全国各地の様々な場所で楽しめる花でもある。歴史的には、徳川家のツツジ好きもあって江戸幕府が植栽に力を入れ、大名たちの間で庭園づくりブームが起きたとか。 さて、統計学のコースだが、多くの良質な書籍やコンテンツがあり、感心するものも多いが、しかし、入門としては物足りなさを否めない。特に、「社会人のための・・・」をうたったコースにおいては、統計学を長年体系的に勉強した者として、大学(統計学部)の授業のようなものが多く一般人にはレベルが高い印象を受ける。また、日本独自の事情やニーズに合った教材が必要ではないかと思う。 前述したツツジのように統計学が日本中に広まってほしい、データリテラシーの底上げに貢献したいという気持ちから、「統計学入門」コースを新設した。このコースは、統計の勉強をしたことがない社会人向けに分かりやすく統計の基礎を解説し、かつ実務へのつながりを意識した質問、例を盛り込むことで、統計学の概念の定着につながるように構成している。実務に統計学がどのように活用されているのかなどをより意識したコース内容となっている。また、本コースはSAS製品を使用していない方でも受講可能である。この機会にぜひ受講を検討いただきたい。 2024年5月初旬 相吉

Analytics
0
春になると回帰分析を思いだす

春になった。桜の開花時期が気になるが、今年の開花(※)は平年より少し遅かったそう。気温が上がると通常よりも早く咲くことがあるそうだが今年はそうはいかなかった。 桜の開花は主に気温が関わっており、簡単に予想できる方法がある。400度の法則といい、2月1日以降の日々の平均気温を合計して400度を超えると開花する、という代物。600度の法則というものもある。こちらは、平均気温ではなく、最高気温を合計したものだ。 いずれの法則も桜の花芽は秋から冬にかけて「休眠」状態に入り、真冬の寒さで目覚める「休眠打破」を2月1日とし、1日以降の気温の積み上げたものである。この法則が今年は当たらず、公式な開花日は予想より1週間くらい遅れての3月29日だったがとくに700度を超えた時であった。暖冬の影響で休眠スイッチがうまく作動しなかったからという説がある。異常気温の影響もあるだろうし、まさに異常値だった。 実は、上記のシンプルな指標以外に、桜の開花予測には回帰分析というデータ分析の手法が利用されている。気温、降水量、日照量などの気象データで統計モデルを構築して開花日を予測する。この手法は、例えば、一般的にはマーケティングの販売促進やロイヤルティ向上、金融業界では信用取引のスコアリングや不正検出に、医薬業界では疾病リスクや治療効果予測などに広く利用されている。具体的な紹介は、ぜひとも別の機会にしたい。 機械学習やAIばかり注目を浴びている中、その基盤となるものは回帰分析のようなデータ分析の手法であることに忘れてはいけない。5~6月には回帰分析をテーマにしたトレーニングコースが多く開催されるが(SAS Training | スケジュール)、春になったし新たなチャレンジの始まりと、ぜひ受講して新しいスキルを身につけて頂きたいところ。 ところで桜は、実に種類が多く、日本だけでも600種以上が分布しており、色もよく見かける白やピンク色だけでなく緑色もあるそう。とりわけ、日本でよく見かける桜を時間軸でいうと、河津桜、染井吉野、枝垂れ桜、八重桜、冬桜といったところ。うちの近所でピンク色で輝いていたカワズザクラはとくに散ってしまい、染井吉野と八重桜が満開の日を迎えている。 ※桜の開花日とは、標本木で5~6輪以上の花が開いた最初の日をいい、観測対象は主に染井吉野を対象としている(気象庁 | 生物季節観測の情報)。 2024年4月初 相吉

Analytics | Students & Educators
0
時間依存性治療(time-varying treatments)の因果推論:概論

注) 本コラムは『経時的に変化する治療(Time-varying treatments)に対する因果推論』と題した以前のコラムを、時間依存性治療に関する部分と周辺構造モデルにおけるIPTW法に関する部分に分割し、内容の追加と修正を行い再構成したものの一部となります。   はじめに 多くの統計的因果推論に関する書籍や文献では、ある治療※1が単時点で行われる場合の因果効果の推定手法について紹介がされています。しかし、治療が複数の時点にわたって実施され、その一連の治療による効果に興味があるという状況も存在するかと思います。例えば、新型コロナワクチンの接種が我々に身近な例として挙げられ、これ以外にも顧客に対する商品のレコメンデーションなど医学分野に限らず様々な例が挙げられます。 正確な定義は後述しますが、上記で挙げたような複数の時点において実施され、かつ各時点での値が異なりうる(時間経過とともにとる値が変化しうる)治療は、時間依存性治療(time-varying treatments)と呼ばれます。時間依存性治療に対する因果推論へのニーズは、近年の統計的因果推論という言葉自体の認知の広まりや個別化医療への関心の高まりに相まって増加しています。一方で、その統計学的理論の理解は点治療の状況と比較すると内容が高度になることや日本語での文献が少ないことからそれほど進んでいません。そこで、本コラムでは時間依存性治療に対する効果をどのように定義するか、問題となることは何か、どのように効果の推定を行えばよいかについて簡単に解説を行います。また、いくつかの代表的な推定手法についてはSASでの実装方法も併せて紹介を行います。なお、本コラムは潜在アウトカムモデルの枠組みの下での因果推論について基本的な理解があることを前提としています。適宜関連する書籍や文献、因果推論に関する連載コラムをご参照していただければ幸いです。 ※1 本コラムにおいては、介入(intervention)や曝露(exposure)など他の原因となる変数を治療(treatment)と同義的に用いて構わないものとする     因果推論を行う上での治療分類("time-fixed" or "time-varying") ある治療とアウトカムとの因果関係を議論する場合、治療はtime-fixed treatments(時間固定性治療)※2、もしくはtime-varying treatments(時間依存性治療)のいずれかに分類がされます。そして、このどちらに属するかによって扱いは大きく異なります。まず、治療が時間固定(time-fixed)であるとは、対象集団におけるすべての被験者に関して、初回の治療レベルが以降のすべての時点における各々の治療レベルを決定することを指します。この状況としては大きく3つあります。 治療が研究開始時点でのみ行われる 1つ目は、治療がベースラインやtime zeroとも呼ばれる研究やプロジェクトの開始時点でのみ行われる場合です。一般的な臨床試験で投与される被験薬・対照薬や、一回の投与で完全な免疫を与えるone-dose vaccine(e.g., 黄熱病ワクチン)などが実例として挙げられます。 初回の治療レベルが時間経過によって不変 2つ目は、初回の治療が2回目以降の治療時点においても変わらず継続的に行われる場合です。この状況の例としては、被験薬と対照薬の複数回投与が予定される臨床試験や近年いくつかの国で導入されているベーシックインカムといったものが挙げられるかと思います。 決定論的に各時点の治療レベルが定まる 3つ目は、初回の治療レベルが決定論的にその後の治療レベルを定める場合です。すなわち、初回治療での分岐以降はそれぞれ1つの治療パターンとなる場合です。例えば、A群に割り付けられた被験者は隔週で被験薬を、B群に割り付けられた被験者は毎週対照薬を投与(初回治療が被験薬なら毎週投与、対照薬なら隔週投与)されるといった実験が1つの例として考えられます。また、Aチームに配属された選手は実践練習と模擬戦を、Bチームに配属された選手は基礎練習と筋力トレーニング(初回練習が応用練習ならその後は模擬戦、基礎練習なら筋力トレーニング)をそれぞれ1日の練習メニューとして行うといったものもスポーツの領域における例として考えられます。 上記の分類からも類推されるように、治療が複数時点で行われるとしても2, 3の状況に該当する場合には、因果推論を行う上での扱いは治療が単時点で行われる場合と変わらず、ベースライン共変量の調整に基づく手法が適用可能です。これはすべての個人に関して初回治療によって2回目以降の治療が決定されるため、後述する時間依存性交絡(time-dependent confounding)という問題が生じ得ないためです。   次に、時間依存性治療(time-varying treatments)とは時間固定でない治療すべてを指します。すなわち、複数時点で行われる治療であり、かつ各時点でとる値が初回の治療によって決定論的に定まらない治療が時間依存性治療にあたります。例えば、月に1回のペースで運動指導プログラムをある市において行うというプロジェクトを考えてみます。ここで、「初回指導に参加した場合は何があっても絶対に毎回参加しなければならない」や「初回指導に参加しなかった場合には絶対に以降参加できない」などといった特殊な制約がない限りは、各指導日でプログラムという2つの選択肢を市民は取ることができます。そのため、この運動指導というのは時間依存性治療にあたります。 この他にも疫学研究における喫煙や投薬量が被験者の状態によって変更される処方、検索履歴に応じて表示される広告(レコメンド)など様々な曝露、治療、介入が時間依存の例として挙げられます。ただし、特に疫学・医学分野においては本質的には時間依存であるものの、測定の実現可能性から時間固定とされる場合もあります。また、対照的に研究・プロジェクトの計画時点では時間固定であるものの、研究実施後には時間依存であるとみなされる場合もあります。それが割付の不遵守(コンプライアンス違反)が存在する場合の治療です。例えば、上記の時間固定である治療の2番目のシナリオで紹介した継続的に被験薬と対照薬(実薬)を投与するという臨床試験においては、試験に参加する被験者が何らかの理由(e.g., 副作用の発現)で治療法を切り替える場合があります。このような状況においては、本来は時間固定であった治療を時間依存性治療とみなして解析(補正)を行うことが可能です。 ※2 執筆時点で対応する定訳が存在しないという筆者の認識であるが、本コラムにおいては時間固定性治療という訳をあてる     治療レジメン(treatment regime) ここまでは因果推論を行う上での治療分類について紹介を行いましたが、以降では治療レジメンとその分類について紹介と解説を行います。これらは、因果効果の定義やデータを用いて効果を推定する(識別のために必要な仮定を検討する)場合に非常に重要になります。ここから先は数学的な内容も入りますので、以下のように記法をおきます。基本的にはアルファベットの大文字は確率変数を、小文字はその実現値を指しています。 k:時点を表す添字(k = 0, 1, ..., K) Ak:時点kにおける二値である時間依存性治療(1: あり, 0: なし) A0:k

Analytics
0
SAS Viya環境のシングルサインオン設定方法(SAML編) 第2部 - 認証と認可の実装

背景 シングルサインオンのログイン方式(以下はSSO)は、多くのクラウドサービスの中で主流のログイン方法として、多くの利点があります。例えば、パスワードの使用が減少することで、セキュリティリスクを低下させることや一度のログインで複数のサービスやアプリケーションにアクセスできることによる、ユーザビリティの向上等です。 前回の記事(SAS Viya環境のシングルサインオン設定方法(SAML編) 第1部 - 基礎と準備)では、Azure ADとの連携でSSOを実現するための基礎概念と準備作業を紹介しました。本記事の第二部では、SAS Viyaのユーザーが運用や作業を行う際の参考となるよう、Azure ADとの連携でSSOを実現するための設定方法を下記のドキュメントの内容を基に整理することを目的としています。実際の設定を行う際は、常に最新バージョンのドキュメントを参照することをお勧めします。これにより、最新の情報に基づいた適切な手順で作業を進めることができます。 SAS Viyaドキュメント:SCIMの設定方法 SAS Viyaドキュメント:認証の設定方法 以下は本記事内容の一覧です。読者は以下のリンクで興味のあるセクションに直接ジャンプすることができます。 1.Microsoft Entra IDの作成 2.SCIM認可管理の設定 3.SAML認証の設定 1. Microsoft Entra IDの作成 1-1. 構築済みのSAS Viya環境とAzureのActive Directoryを連携するには、Azure側でAD Enterprise Appとアプリの管理者権限が必要です。 Azureポータル上で、「Microsoft Entra ID」と検索し、サービスを選択します。そして、左側メニューから「エンタープライズ アプリケーション」をクリックすると、既に登録したアプリの一覧画面が表示されます。新しいアプリを作成するために、画面上部の「新しいアプリケーション」ボタンをクリックします。その後に表示された画面の左上の「+独自のアプリケーションの作成」をクリックします。 1-2. アプリケーションの作成画面で、アプリの名前を設定し、「ギャラリーに見つからないその他のアプリケーションを統合します (非ギャラリー)」のオプションを選択し、「作成」ボタンをクリックします。 1-3. アプリの画面内で、左側の「Owners」をクリックし、アプリのオーナーが申請したユーザと一致しているかを確認します。これで、Microsoft Entra IDの作成は完了しました。 2. SCIM認可管理の設定 2-1. SAS Viyaのデフォルト認証方式はLDAPです。SSOログイン方式を利用するには、認証方式をSCIMに変更する必要があるため、まずはLDAPを無効にします。 ①sasbootユーザでSAS Viyaの環境管理画面にログインし、「Configuration」画面で「identities service」を検索し、右側の画面内の「spring」の編集ボタンをクリックします。 ②「profiles.active」からidentities-ldapを削除し、「Save」ボタンをクリックします。 ③右上の「New

Analytics
0
SAS Viya環境のシングルサインオン設定方法(SAML編) 第1部 - 基礎と準備

背景 シングルサインオンのログイン方式(以下はSSO)は、多くのクラウドサービスの中で主流のログイン方法として、多くの利点があります。例えば、パスワードの使用が減少することで、セキュリティリスクを低下させることや一度のログインで複数のサービスやアプリケーションにアクセスできることによる、ユーザビリティの向上等です。 SAS Viyaはクラウドネイティブアーキテクチャを採用したデータプラットフォームであり、様々な認証プロバイダーとSAMLやOIDCなどの接続方式を通じてSSOを実現し、ユーザーに高いセキュリティと利便性を提供することができます。 本記事の第1部では、SAS ViyaのユーザーがSAS Viya環境とAzure ADを連携させるためのSSOログイン方式を設定する際の基礎知識と初期準備に焦点を当てています。 以下は本記事内容の一覧です。読者は以下のリンクで興味のあるセクションに直接ジャンプすることができます。 1. SAS Viyaでの認可と認証 2. 作業の準備 3. 証明書のインストール 1. SAS Viyaでの認可と認証 SAS ViyaでのSSOログインは主にSCIM認可とSAML認証により実現されますが、この二つの概念についてまず簡単に紹介します。 1-1 SCIM認可とは SCIM(System for Cross-domain Identity Management)は、異なるシステム間でユーザー情報の管理と同期を効率化する標準化されたプロトコルです。SCIMを利用すると、ユーザーアカウントの作成や更新、削除を自動化できます。SAS ViyaとAzure ADの連携では、SCIMを使ってAzure ADのユーザー情報をSAS Viyaに同期し、管理作業を効率化します。 SAS ViyaでSCIM認可を利用するには以下のいくつかの注意点があります。 ・外部DNS名の要件: SAS Viyaでは公開インターネットで解決できる外部DNS名が必要です。SCIMクライアント(Azure AD)は、このDNS名を通じてSAS Viyaにアクセスします。 ・HTTPSを利用したセキュアな接続: SCIMクライアントは、HTTPSを通じてSAS ViyaのIdentitiesマイクロサービスに安全に接続する必要があります。 ・信頼できる証明書: SCIMサーバーの証明書は、Azure ADがサポートする商用証明機関から購入されるべきです。サポートされる証明機関にはCNNIC、Comodo、CyberTrust、DigiCertなどが含まれます。 ・ファイアウォール設定: SAS Viya環境へのアクセスを許可するため、適切なファイアウォールルールの設定が必要です。 1-2 SAML認証とは

Analytics
SAS Hackathon 2023 / チームSunny Compass参加報告

本記事では、Sunny Compass - analysis and suggestion of life satisfactionについて、チームメンバーに直接お話を聞き、背後にある思いやチャレンジなどについて解き明かします。 ユニークなチーム結成 チームSunny Compassは経済産業省主催のDX人材育成プログラム「マナビDX Quest 2022」(以下、マナビDX Quest)で出会ったメンバーで構成されるシビックテック・チームだ。 勤務先や居住地もまったく異なる中、オンライン上で交流し、それぞれの強みや専門性を活かしてデータとテクノロジーを使った課題解決に取り組んでいる。   SAS Hackathon 2023 参加の背景 SAS Hackathonが開催されるという話を聞き、どのようなテーマで取り組むかメンバー全員で話し合った。彼らにとって今回が初めての「ハッカソン」参加となったが、「人生の明るい方向を示す羅針盤になる」という想いをチーム名に込めたチームSunny Compassにとって、人々のウェルビーイングの向上を助ける取り組みをすることはメンバー全員が一致するところだった。データは自前で用意する必要があったため、内閣府の生活満足度調査データを使うことにした。 生活満足度調査の分析結果を可視化するモバイルアプリの開発をゴールに設定しました。ユーザーがアプリ上で性別、年齢、そして生活満足度を入力すると、自分が生活満足度の観点でどのくらいの位置にあるのかが分かり、どのような項目・活動に気を配ると更に生活満足度を向上させ得るのか、という改善に向けたヒントを得られる、というものです。   生活満足度調査データを使用するためには、内閣府に書面申請をする必要があった。書類審査に1週間程度要したが、市民に有益なアプリ開発のために利用するという点が評価され、無事データの提供を受けることができた。   ハッカソンに取り組む上で直面した様々な課題   初めての経験 最大の課題は、メンバー全員がハッカソンと呼ばれるイベントに参加するのは初めてであり、ハッカソンではどのようなことをすれば良いのか全く想像がついていなかったという点だった。また、メンバー全員がSAS製品を使ったことがなかったこと、モバイルアプリの開発も初めてだったこと、などがその他の課題として挙げられた。 完全リモートでのコミュニケーション メンバー全員が対面での面識が全くないところからのスタートだった。そのためグループチャットツールで頻繁に集まり、会話ベースで進捗やタスクを確認し合った。プロジェクトマネジメントの観点でタスクの洗い出しをして割り振るなどということよりも、口頭・テキスト問わずコミュニケーションを密に行って、動ける人が動く、全員が各自今抱えている問題について理解し助け合う、励ます、ということを重視した。 マナビDX Questの経験から、メンバー同士助け合うことが何よりも重要ということを全員が理解していたのと、メンバーごとに関連技術の知見・経験が少しずつあって、それを随所随所でうまく活かしたり、メンターの人が付いてくれて質問などに対応してくれたので何とかなりました。 具体的な取り組み内容 オープンデータを活用 内閣府による生活満足度調査のデータには、個人からの回答に基づき、様々な変数とともに、生活満足度が数値で表現されている。満足度が高いほど値が大きくなる。全体的に欠損値が多数含まれていたため前処理が必要だった。 これとは別にe-Statから取得した「都道府県・市区町村のすがた(社会・人口統計体系)」というデータも使用した。こちらには都道府県ごとの人口、世帯数、ヘルスケア関連情報、などが入っている。   モバイルアプリ メインのモバイルアプリの開発では、「どのような項目・活動が生活満足度の向上に役立つのか」という問いに答えられるよう、生活満足度を目的変数とした機械学習モデルを作成した。この機械学習モデルには変数ごとに変数重要度を出力できるタイプのものを採用し、最終的に変数重要度が高い順に上位5つまでの変数(重要変数)を取り出した。これらの重要変数をREST API経由でモバイルアプリから読みに行くという仕組みを作った。 SAS ViyaはREST APIに標準対応しているのでこういった仕組みづくりも無理なく進められました。 モバイルアプリ自体はオープンソースライブラリを利用して開発した。アプリの想定利用ユーザーは個人ということにした。ユーザーがアプリ上で性別、年齢、そして生活満足度を入力すると、類似の属性を持つ人の中で自分が生活満足度の観点でどのくらいの位置にあるのか、ということが可視化され、加えてどのような項目・活動に気を配ると更に生活満足度を向上させ得るのか、という改善に向けたヒントを取得できるようにした。 可視化ダッシュボード 次に可視化ダッシュボードの作成では、想定利用ユーザーを国や自治体の政策立案担当者とし、個人単位ではなくマクロ的な視点でデータを深堀りするための分析ツールというコンセプトに基づいて開発を進めた。モバイルアプリと同じ生活満足度調査データを使っているが、こちらは都道府県ごとに集計し直し、更に都道府県別の統計情報を加味するため、e-Statのデータと結合させたうえで利用した。

Analytics
0
本当の原因とはなにか:操作変数法(Instrumental variable methods)②

はじめに 因果推論コラム・シリーズでは潜在アウトカムモデルに基づく因果推論の解説を行なっています。今回のテーマは操作変数法(instrmental variable methods)です。 ある介入AがアウトカムYに及ぼす平均因果効果を推定する手法の1つに操作変数法があります。この手法は、操作変数と呼ばれる変数を利用することで交絡因子を調整することなく平均因果効果を推定する手法です。分野や状況によって交絡因子の特定や測定は困難であることは多く、それらの調整を行う必要がないという点で操作変数法は魅力的な手法です。ただ一方で、共変量調整に基づく因果効果の推定手法では必要とされない仮定が要求されますので、その点ご注意ください。ある変数が操作変数であるための条件は以下の3つです。各条件の詳細や実際にどのような変数が操作変数として提案されているか、操作変数と介入変数の相関が弱い場合に発生する問題については前回のコラムをご参照ください。 ZはAと関連する ZはYに対してAを介した以外の効果を持たない ZとYは共通原因を持たない 一般的な誤解として、操作変数法では操作変数が存在さえしていれば平均因果効果の推定が可能であるという認識があります。厳密には、操作変数が存在している場合に操作変数法によって推定可能なのはboundsと呼ばれる平均因果効果が含まれる幅であり、平均因果効果を推定するためには後述する仮定のいずれかが成立している必要があります。また、操作変数に関する3条件に加えて第4の条件としてどちらの仮定を置くかによっても、どのような集団における平均因果効果が推定可能であるかが異なります。本コラムではboundsと呼ばれる因果効果の部分識別について紹介した後、平均因果効果の識別に必要となるhomogeneity、およびmonotonicityについて紹介をします。なお、boundsは信頼区間とは異なる概念であることにご注意ください。   Bounds:因果効果の部分識別 このセクションでは本コラムシリーズの参考書籍である『Causal Inference: What If』の具体例を一部改変し、boundsについて簡単に紹介していきます。 「集団全員にある介入を行なった場合、行わなかった場合と比較して加法的なスケールで平均的にどの程度効果があるか」を示す平均因果効果E[Ya=1]-E[Ya=0]は、二値アウトカムに関してはPr[Ya=1=1]-Pr[Ya=0=1]と表すことが可能です。ここで、このPr[Ya=1=1]-Pr[Ya=0=1]のとりうる値の下限と上限を考えてみると、集団の潜在アウトカムに関して無情報である場合(データが何も存在しない場合)には、当然のことですが、下限は-1、上限は1です。 Pr[Ya=1=1]-Pr[Ya=0=1]=-1(下限) Pr[Ya=1=1]=0:介入を受ける場合の潜在アウトカムはすべての被験者に関して0 Pr[Ya=0=1]=1:介入を受けない場合の潜在アウトカムはすべての被験者に関して1 Pr[Ya=1=1]-Pr[Ya=0=1]=1(上限) Pr[Ya=1=1]=1:介入を受ける場合の潜在アウトカムはすべての被験者に関して1 Pr[Ya=0=1]=0:介入を受けない場合の潜在アウトカムはすべての被験者に関して1 すなわち、二値アウトカムに対する無条件での平均因果効果が含まれる幅(bounds)は[−1,1]です。例えば、集団が20名で構成されているとすると、下限と上限になる潜在アウトカムの状況は下図の通りです。 ここで集団(の一部)に関して実際にデータが得られた時、一致性の下でboundsはより狭く考えることが出来ます。これは、データとして一部の被験者らの潜在アウトカムYa=1, Ya=0の情報が得られるため、未知の部分に対して最も極端な場合の値を代入することによって下図のように下限と上限を計算することが出来ます。 なお、アウトカムが二値変数ではなく連続変数である場合にboundsを計算するためには、アウトカムが取り得る最小値と最大値を指定し、二値変数の場合と同様に代入する必要があります。また余談ですが、boundは前回のコラムで紹介した集団レベルでの除外制約 (condition (ii)) とmarginal exchangeability (condition (iii)) が成立する操作変数Zが存在する場合にはboundsをより狭く考えることが可能です。この場合のboundsはnatural boundsと呼ばれ、その幅はPr[A=1|Z=0]+Pr[A=0|Z=1] となり、データのみから識別されるものよりも狭くなります(Robins 1989, Manski 1990)。加えて、marginal exchangeabilityではなくjoint exchangeabilityが成立する場合には、さらに狭い幅となるsharp boundsを識別することが可能です。さらに追加の仮定を置くことでより狭いboundsが計算することができることも示されています(Richardson, Evans and Robins 2011)。しかし、上記のようなboundsは、一般には因果効果として用いる指標のnull value(e.g., E[Ya=1-Ya=0] であれば0)を含むかなり広い幅となり、有用でないことの方が一般的です。   第4の仮定:homogeneity(同質性)

Advanced Analytics | Analytics | Artificial Intelligence | Data Management | Data Visualization | Machine Learning | SAS Administrators
小林 泉 0
データ分析プロセス全体を管理~自己組織的に育てるナレッジのカタログ化とは

自己組織化とは、自然界において個体が全体を見渡すことなく個々の自律的なふるまいをした結果、秩序だった全体を作り出すこと 2010年から存在した解決アイディアがついに実現可能に 今から遡ること十数年前の2010年頃、支援をしていた大手製造業の会社ではすでにデータ分析スキルの社員間でのばらつきと組織全体のスキルの向上、データ分析作業の生産性の向上、人材のモビリティへの耐性としてのデータ分析業務の標準化が課題となっていました。 当時ご相談をいただいた私を含むSASの提案チームは、SASが提供するアナリティクス•ライフサイクル•プラットフォームを活用することで、その問題を支援できることがすぐにわかりました。つまり、ビジネス課題から始まり、利用データ、データ探索による洞察、データ加工プロセス、予測モデリングプロセス、モデル、そしてそれをアプリケーションに組み込むディシジョンプロセスという、一連のアナリティクス•ライフサイクルにまたがるすべての作業を電子的に記録し、全体のプロセスそのものをモデリングし、利活用することで、自己組織的にナレッジが蓄積され、且つ活用されるということです。 しかし、当時のSASだけではない周辺のIT環境、すなわちPCやアプリケーションアーキテクチャなどのインフラ、データの所在、セキュリティ管理などがサイロ化していること、またSAS以外のModelOps環境もシステムごとにアーキテクチャがバラバラすぎたこと、また、お客様社内のデータリテラシーそのものもまだ課題が多かったため、SASを中心としても、実現にはあまりにも周辺の開発コストがかかりすぎたために、提案を断念しました。 時代は変わり昨今、クラウド技術の採用およびそれに伴うビジネスプロセスの変革と標準化が急速に進んでいます。それに歩調を合わせるように、SASの製品も、上記の当時から市場をリードしてきたMLOpsフレームワークをDecisionOpsへと昇華させ、クラウド技術を最大活用すべく、クラウドネイティブなアーキテクチャおよび、プラットフォームとしての一貫性と俊敏性を高めてきました。そしてついに最新版のSAS Viyaでは、アナリティクスライフサイクル全体にわたり、データからデータ分析プロセス全体の作業を電子的に記録し、管理し、活用することが可能となりました。 自己組織的にナレッジを蓄積活用するデータ分析資産のガバナンス 昨今のデータマネージメントの取り組みの課題 詳しくはこちらのブログをご参照いただきたいのですが、多くのケースで過去と同じ過ちを繰り返しています。要約すると、データ分析文化を醸成したい、セルフサービス化を広めたいという目的に対しては、ある1時点のスナップショットでの完成を目的としたデータカタログやDWH/DMのデータモデル設計は問題の解決にはならないということです。必ず5年後にまた別の担当者やプロジェクトが「これではデータ分析しようにもどのデータを使えばわからない、問題だ、整備しよう」となります。 では解決策はなんでしょうか。 静的な情報を管理したり整備するのではなく、日々変わりゆく、どんどん蓄積され、評価され、改善、進化し続ける、データ分析業務に関わるすべての情報を記録統制することです。つまり、以下の三つのポイントを実現することです。各ポイントの詳細は後段でご紹介しています。 ポイント①あらゆるデータ分析資産(ナレッジ)を管理 ポイント②データ品質管理の自動化・省力化とガバナンス ポイント③社内ソーシャルの力による自己組織的情報の蓄積 まずは、それぞれが何を意味しているかを説明する前に、これらを実現するとどのような世界になるのかをユーザーの声によって示してみたいと思います。   個々の自由にデータ分析をしているユーザーによる行動を記録することで、全体を見渡している誰かがヒアリングや調査をして情報を管理することなく、データ分析がどのように行われているかを管理・共有・再利用が可能となるのです。 誰が、どのような目的で、どのデータを、どのように使用したのか、そしてその結果はどうだったのか? このアプリケーションの出した判定結果の説明をする必要がある。このモデルは誰が作ったのか?どのような学習データを使用したのか?どのようなモデリングプロセスだったのか? よく使用されるデータはどれか? そのデータはどのように使用すれば良いのか?注意事項はなにか? データ分析に長けた人は誰か?誰が助けになってくれそうか? 企業全体のデータ品質はどのようになっているか? データ品質と利用パターンのバランスは適切か?誤った使い方をしているユーザーはいないか? など従来、社内勉強会を開催したり、詳しい人を探し出してノウハウを聞いたり、正しくないことも多い仕様書をひっくり返してみたり、そのようにして時間と労力をかけて得られていたデータ分析を自律的に行う際に重要となる社内ナレッジが、自己組織的に形成されるということです。 「情報資産カタログ」とは~一般的な「データカタログ」との違い このような世界を実現する機能をSASでは、「情報資産カタログ」と呼んでいます。データ分析プロセス全体を管理・検索・関連付け・レポートできるようにするテクノロジーです。一般的に言われる、また多くの失敗の原因になる、「データカタログ」と対比するとその大きな違いが見えてきます。 こちらのブログでも述べましたが、データ分析者がセルフサービスでデータ分析を実践したり、初学者がなるべく自分自身で情報収集して、まずは標準的なデータ分析作業をマスターしたりするためには、既存ナレッジを活用する必要があります。一方で、そのようなナレッジは従来一部の優秀なデータ分析者に聞かないとわからなかったり、あるいはITシステム部門に質問して回答までに長い時間を要してビジネス機会を逸してしまう、という結果を招いていました。 既存ナレッジとは、どのようなデータを、どのような意図で、どのような目的で、どのように使い、どのようなアウトプットを得たかという一連の「考え方とやり方」であり、これは管理者が一時的にデータ分析者にヒアリングして「データカタログ」を整備して終わり、というものではなく、日々データ分析者たちの中で自律的に情報が作られていくものです。 ポイント①あらゆるデータ分析資産(ナレッジ)を管理 SAS Viyaでは、上述のアナリティクスライフサイクル各ステップのオブジェクトがすべて一元的に記録・管理されます。日々、新しく作られるレポート、データ加工プロセス、作成されるデータマートの情報が、自動的に管理され検索対象になっていきます。このようにアナリティクス・ライフサイクルの各ステップをすべて管理することで、データ、そのデータを使用しているレポート、そのデータを使用しているデータ加工フロー、その出力データ、さらにはそれを学習データとして使用している予測モデリングプロセスと作成されたモデル、これらを関連付けて見ることが可能となります。それにより例えば、ある目的に使用するデータを探している場合、参考にする業務名やプロジェクト名で検索をすることで、関連するレポートや、データ加工プロセスにたどり着き、そこから使用データやそのデータの使い方にたどり着くという効率的な情報の探し方が可能となります。 もちろん、この機能は昔からあるインパクト・アナリシス機能として、ITシステム部門が、データへの変更の影響調査ツールとして使用することも可能です。 ポイント②データ品質管理の自動化・省力化とガバナンス データ分析を組織的に行う際に気にすべきポイントの一つは、その正確性です。正しいマスターデータを使用しているか、適切な品質のデータを使用しているかは、最終的なアクションや意思決定の精度すなわち収益に影響します。また、結果に対する説明責任を果たすうえでもアクションに使用したデータの品質は属人的ではなく、組織的に管理されている必要があります。またデータ品質を組織的に管理することにより、データ分析の最初に行っていた品質確認という作業が省力化できます。また、属人的に行っていた品質確認作業も標準化されるため、組織全体のデータ分析作業の品質が向上します。 あるお客様では、DWHに格納するデータのETL処理において施すべき処理が実施されていないというミスがあるものの、データの数やETL処理があまりにも多いためそのミスを発見することが困難であるという状況にありました。網羅的な品質管理および品質レポートによってそのようなミスの発見が容易になります。 ポイント③社内ソーシャルの力による自己組織的情報の蓄積 前述のポイント①により基本的にはデータ分析者個人個人の自律的な活動が自動的に記録され、自己組織的に組織全体のナレッジとて蓄積され共有・再利用可能な状態が作られます。これは、データ分析者個人個人が特に意識しなくても自動的に実現できます。それに加えて、さらに意識的にこのプラットフォームを利用することで、蓄積されるナレッジに深みが増します。 例えば、あるビジネス課題をデータ分析で解決使用する場合のスタートは、「問い」です。上述のアナリティクス・ライフサイクルの一番左のスタートにあるものです。その際には、仮説設定をするためや仮説を検証する目的で、様々な角度から「データ探索」を行います。この初期のデータ探索プロセスは、その後のデータ加工やモデリングの根拠になっているため、ナレッジとしてまた説明責任の材料としてはとても重要になります。必ずしも最終的に使用したデータと同じデータを使うとも限らないので、自動的には他のデータ分析資産とは関連づきません。そのような探索プロセスも下記の図のように、同じプロジェクトフォルダに保存しておくことで、関連オブジェクトとして活用することが可能となります。また、プロアクティブに自信が使用したデータやレポートにコメントや評価を付与することで、より価値の高いナレッジへと育つことになります。 昨今企業内SNSなどで、オフィスツールの使い方などノウハウを共有をされている企業・組織もあるかと思います。それを全社規模のアナリティクス・プラットフォームで行うことで、データ分析に関わるナレッジをユーザー同士で培っていくイメージです。 まとめ 「このデータはこの目的に使えますか?」「あ、それはこの情報がないので使えないんですよ。こちらのデータを私は使ってますよ」データ分析者の間でよく交わされる会話です。この問いにいかに迅速に答えられるかが、データ分析の効率性と正確性を高めます。「情報資産カタログ」はまさにこの問いに答えるための機能なのです。

Analytics | Data Management
小林 泉 0
ようこそ古くて新しいデータマネージメントの世界へ~カギは自由と統制

ようこそ古くて新しいデータマネージメントの世界へ 2023年、DMBOK(データマネージメントの知識体系を網羅的にまとめたもの)という用語を改めて聞く機会が多くなりました。おそらくこれはアナリティクス(データ分析に基づくより良い意思決定の実践)の近年のブームで、新たにアナリティクス活用に踏み出し、ようやくビジネスに直結する使い方をするようになった企業・組織があらためてデータマネージメントの重要性に気付き始めたからだろうと推察します。 また一方で、クラウドシフトに伴いクラウドストレージの活用とともに、これまで蓄積していなかったデータを蓄積し始めたり、これまでのデータウェアハウスを一新する形で、データレイク/データウェアハウスを再構築するなど、従来からアナリティクスを活用していた企業もまた同様に、データマネージメントについて改めて考えているようです。 20年以上前からアナリティクスを競争優位の源泉としていた企業では、データマネージメントが大きな一つの関心ごとでした。その後、テクノロジーの進化によって、ソースデータのビッグデータ化(Volume, Variety and Velocity)や、ストレージ技術の進化、そしてアナリティクス・プラットフォームの進化によってITシステムに対するビジネスニーズも変化しました。また、消費者市場の変化や、データサイエンス人材の爆発的な増加といった市場の変化も目覚ましいものがあります。このような変化の中、近年あらたにアナリティクスの活用に踏み出しはじめた多くの企業だけでなく、従来、競争優位の源泉にしてきた高成熟度企業においても、データマネージメントの課題への遭遇と解決にむけて取り組んでいます。 いきなりですが、もっとも頻繁にお伺いする課題について 過去も今もお客様から聞く課題で最も多いのは、「作ったけど使われないデータウェアハウスやデータマート」です。そもそも、使われる/使われないというクライテリアそのものをもう少し注意深く定義する必要はあるとは思いますが、ITシステム部門主導で利用目的をないがしろにしたデータ基盤構築プロジェクトは往々にしてそのような結果になるようです。例えば、ITシステムサイドの都合で蓄積データの種類・期間や粒度を決めてしまうことで、データ分析要件を満たさないという結果になったり、データの出自や性質・品質や使い方のガイドがないために、データはそこにちゃんとあるのにユーザーから利用を敬遠され、別の独自のデータが作り出されたり、作成の要求が来たりしてしまいます。本ブログでは、このような結果に陥らないために意識すると良いと思われることをお伝えしていきます。 もっとも簡略化したデータマネージメントの歴史 アナリティクスに特化したデータマネージメント考察の第一期ーHadoopの到来 2015年以前はダッシュボードや定型レポート、一部の大規模なデータ分析処理用にRDBMSやデータベースアプライアンスが構えられるのみで、アナリティクス用途としてはSASデータセットやフラットファイルでの運用が主でした。これはアナリティクス的なデータ加工および統計解析・機械学習ワークロードに適したテクノロジーが世のなかにはあまりなかったからです。Hadoopの登場により、アナリティクス用途でのデータ活用が一気に拡大し、パフォーマンスやスケーラビリティの制約から解放されました。一方で、従来のように目的を先に決めてデータマートを先に設計してという方法では、アナリティクスによる効果創出が最大化されないという課題も見えてきました。このHadoopの登場は、アナリティクスのためのデータマネージメントの変革の最初のタイミングだったと思います。詳しくは2015の筆者のブログをご興味があればご参照ください。 アナリティクスの効果を最大化するデータマネージメント勘所 Hadoopだからこそ必要なセルフサービス-そしてアダプティブ・データマネジメントの時代へ データマネージメント第二期ークラウドデータベースへのシフト 2015年以降のAIブームによりアナリティクス市場が一気に拡大するとともに、アナリティクスをビジネス上の収益向上、コスト削減、リスク管理に役立てている企業では、データマネージメントの話題が再熱しています。不思議なのは、いや、多くの企業の機能別組織構造では仕方ないのですが、アナリティクスのために良かれと思って取り組んでいるデータマネージメントの課題は、多くのケースで、最終的にアナリティクスを活用して企業の経営に役立てるという目的が忘れ去られてしまいます。 そもそも、アナリティクスのためのデータマネージメントの目的 ともすると手段が目的化しがちなのがITシステムのプロジェクトです。まず、アナリティクスのためのデータマネージメントに何が求められているかを改めて掲げてみますが、そのまえに、そもそもデータマネージメントが課題になるのは、なぜでしょうか? ここでは昔も今もその構図が変わっていない世のなかの状況について共有します。 なぜ、データマネージメントタスクに80%も費やしていのでしょうか。ビジネスにおけるデータ分析の多くは、そもそも実験計画やマーケティング調査とは異なり目的に対してデータを生成・収集しているわけではありません。多くのケースでは、目的に対してそもそもその目的用に計画したわけではないが入手可能なデータを無理やり当てはめています。この目的と手段のギャップを埋める作業が非常に多くの時間とコストを要します。たとえば以下の例で考えてみてください。 製造業において生産設備の中の状態を正確に理解したいが、技術的・コスト的な制約で限定的な精度のセンサーを限定的な場所に設置して、状態の一部を前提条件付きで収集したデータを使うしかない 顧客の購買ニーズを知りたいのだが、店舗ごとの実験は難しいので、欠品情報や潜在的なニーズが表現されていない、過去の活動の結果というバイアス付きのPOSデータを使うしかない このように目的外で収集されたデータを、ある特定の目的のために使えるように評価・加工しなければいけないので、多くの時間をこのデータ準備に割く必要が生じてきます。 では、データマネージメントの取り組みはどこを目指せば良いでしょうか?データ分析者のため、を考えると必然的に以下のポイントが浮かび上がります。 目的に沿ったデータを準備すること データ分析による意思決定において、社会的責任とビジネス上の意思決定の精度を高めるため、品質を担保し、バイアスを理解し、データの生成過程(入力バイアスや基幹システム仕様と業務ルール)を理解し、適切な利用方法を確認する SQLだけでは非生産的な自由自在なデータ加工 データはその利用手法すなわち、統計解析、機械学習、ディープラーニング、自然言語解析、画像解析などによって、手法や使用ツールの仕様に応じて、また、処理パフォーマンスの観点も含めて、自由自在に加工する必要がある ビジネススピードを阻害しないパフォーマンスや処理時間 アナリティクスを競争優位に活用している企業では、24/365常に様々なデータ加工処理が、バッチ、リアルタイム、オンラインで実行されている。これら様々なワークロードを優先度とコスト効率よく、ITシステム部門が特別なチューニングやスケジューリングや、エラーによる再実行をしなくとも、業務スピードに合わせたパフォーマンスで、安定して実行可能な基盤が不可欠 データマネージメントの取り組みで失敗に陥りやすい行動 前述の目的を簡単に言い換えると、データ分析者が何か課題を解決したいと思ってからがスタートで、そこからいかに短時間で正しいデータを特定し、評価し、加工して目的の形に持っていくかが大事であるということになります。つまり、データを物理的にどこに配置されているかに関わらず、データへのアクセス性、評価や加工の俊敏性などが需要であることになります。また、その理解に基づくと、以下のような取り組みはデータマネージメントの目的に沿っておらず、俊敏性や正確性、拡張性を損なう「硬直化」の原因になっていることが多く見うけられます。 「データ統合」を目的化してしまう 1つのデータベースに格納するデータの範囲を決めようとする 汎用的なデータモデルを設計しようとする 変化を前提としないマスタデータ統合をしようとする 変化し続けるビジネス状況のなか、管理対象のデータは常に変化し続けるため、これが「完成」というゴール設定での取り組みは、破綻します。ある大手製造業では何十年にもわたり「ある一つの固定的なゴール」を目指したマスタデータの整備を続けた結果ようやく「マスタデータは時代とビジネスに合わせて常に変化する」と気づき、当初のプロジェクトをストップさせた、という事例もあります。また、取得可能なデータはテクノロジーの進化によって変わります。後で使うかもしれないからと「念のため」蓄積を開始したデータであっても、5年後には使い物にならないデータかもしれません。 「データマートを整備」しようとする スナップショット的なニーズに対応するデータマートを作ろうとする 目的別データマートは目的ごとに存在するにもかかわらず、データマートが多数あることを問題視してしまう データマートの品質(正確性、一貫性、説明性)を気にしていない データマートを固定化するということは目的を固定化することに他なりません。一方でデータ分析を広めるということは、より多くの異なる目的に対してデータ分析を実践することで、矛盾しています。データマートが散在しているという課題感は、本質的にはデータマートがたくさんあることが問題なのではなく、そこでどのようなデータ分析が行われているのか、その品質すなわち、正確性・一貫性・説明性のガバナンスが効いてないことにあります。この本質的な課題解決は別の手段で解決すべきです。 「データ・ディクショナリを整備」しようとする データ分析者にとって良かれと思いITシステム側でスナップショット的なメタデータを定義する データ基盤開発初期にのみ、データ分析者からヒアリングしてメタデータを定義する データの出自、仕様、生成元の情報、使い方、品質、評価などの情報が管理されていない データ・ディクショナリを作ったけどデータ分析者にとって有用な情報が定義されていなかったり、継続的なメンテナンスがされなかったりすることがほとんどです。データ・ディクショナリの目的は、データ分析者により迅速にデータを特定・評価・利用してもらうことなので、その目的達成のためには、より有用な情報を異なる方法で蓄積・管理するべきです。 データマネージメント課題の解決の視点は、自由と統制 原理・原則および、網羅的な知識体系はDMBOKに体系的にまとめられているのでそれは頭に入れてください。そのうえで、データ分析によるビジネス価値創出のための、筆者の経験に基づくデータマネージメント課題の解決のためには、自由と統制のバランスをとることだと考えます。これにより、従来、繰り返しているデータマネージメントの失敗を乗り越え、自己組織的に育つ企業・組織のデータ分析文化の醸成にようやく一歩を踏み出せることになります。 データ分析者の自由度を最大化する(ITシステム部門がボトルネックにならないようにする) あらゆるデータソースに自由にアクセスできるようにする。データの種類や利用目的によって最適なデータ格納方法は変わる。どのような形式でデータが格納されていてもデータ分析ツールから自由にアクセスできるようにすることが重要

Analytics
0
データ分析効率化の秘訣:SAS ViyaとAzure Synapseの高速データ転送方法の紹介

1.背景 データ管理と分析の世界では、効率的かつ迅速なデータの転送と書き込みは極めて重要です。特に大規模なデータウェアハウスサービスを利用する際には、このプロセスの最適化が不可欠です。Azure Synapse Analyticsは、そのようなサービスの一つとして注目を集めており、SAS Viyaを使用する多くの企業やデータアナリストも、より効率的なデータハンドリングを追求しています。 SAS ViyaのユーザーはSAS/ACCESS to Microsoft SQL Serverを使用してAzure Synapseにデータを転送および書き込む際に、より高いデータ書き込み効率と転送速度を求めるのは当然です。データ処理能力をさらに強化し、書き込み効率を高めるために、SAS Access to SynapseのBulkLoad機能は非常に優れた選択肢です。BulkLoad機能はデータの書き込み速度を大幅に向上させるだけでなく、Azure Data Lake Storage Gen 2(以下、ADLS2と称する)を利用して、安定かつ安全なデータストレージおよび転送環境を提供します。 ただし、BulkLoad機能を使用する際にはADLS2の設定と構成が関わってくるため、構成および使用のプロセスが複雑に感じられたり、疑問が生じたりすることがあります。このブログの目的は、管理者およびユーザーに対して、明確なステップバイステップの設定プロセスを提供し、構成の過程で見落とされがちなキーポイントを強調することで、設定時の参考になるようにすることです。 以下は本記事内容の一覧です。読者は以下のリンクをで興味のあるセクションに直接ジャンプすることができます。 2.Bulkload機能について 3.BULKLOAD機能を利用するためのAzure側で必要なサービスの作成 3-1.Azure Data Lake Storage (ADLS) Gen2のストレージアカウントの作成 3-2.ストレージアカウントのデータストレージコンテナの作成 3-3.ストレージアカウントの利用ユーザー権限の設定 3-4.データ書き込み用のSASコードの実行 3-5.Azureアプリの設定 4.SAS Viya側の設定とAzure Synapseへの接続 4-1.SAS Studioでの設定 4-2.Azure SynapseのSQLデータベースをSASライブラリとして定義 4-3.Azure Synapseへデータの書き込み 2.Bulkload機能について なぜSAS ViyaがBulkload機能を使用してAzure Synapseに効率的にデータを書き込む際にADLS2サービスが必要なのか、そしてそのプロセスがどのように行われるのかを説明します。 Azure Synapse Analyticsは、柔軟性が高く、高いスループットのデータ転送を可能にするために、COPY

Analytics | Data Management
小林 泉 0
ガウディとサグラダ・ファミリアに学ぶデータ分析基盤アーキテクチャのための原則

前回の筆者ブログ「STEAM教育の進化にみるAI活用に必要な芸術家的思考」において、AI/アナリティクス時代に芸術家的思考が必要だという話をしました。今回はその派生で、AI/アナリティクス時代に作られるデータ分析基盤の作り方について、「時間をかけて大規模に創造する」という点で類似している建築物、そのなかでも、自然摂理・数学・幾何学と芸術を融合された象徴としてのサグラダ・ファミリアとその大部分の設計を担ったガウディの考え方に学んでみようと思います。 ガウディとサグラダ・ファミリアの特徴 終わりがなく常にその時代の人によって継承され・作り続けられる ガウディは、サグラダ・ファミリアを完成という終わりを目指さないものとして考えていたそうです。教会という性質や、建築費を寄付で賄うという性質もあり、またガウディが世の中に残したかった、「象徴」として、建築物の完成・利用されるというアウトカムではなく、時代時代の人々が建築に携わり続けることで象徴としての役割をもたらすことをアウトカムとしたということだと私は個人的に解釈します。これは、誰かが作ったものを使うという一方的な関係性を超え、インクルージョンすなわち関与するという関係性をもたらします。 サグラダ・ファミリアの建設はゆっくりと進む。 なぜなら、私のクライアント(神)は完成をお急ぎではないからだ by ガウディ 自然摂理と数学・幾何学に基づく美しさ サグラダ・ファミリアの棟の形は放物線です。ネックレスを想像してみてください。長さや幅を変えると様々な放物線になることが分かると思いますが、そのような「逆さ実験」を繰り返しそれをさかさまにしてあの様々な棟の形になっています。これは、ガウディが何事も自然法則に基づくべきという考えに基づいています。 放物面は幾何学すべての父 by ガウディ 継続のための象徴性の維持 サグラダ・ファミリアは建築費を寄付に依存しています。そのため継続的に人々・社会の関心を惹き続ける必要があります。 サグラダ・ファミリアの思想に学ぶ、活用されるデータ分析基盤アーキテクチャに役立つ原則 原則①レジリエンスー蓄積するデータは常に変化する 「どのようなデータを蓄積しておいたらいいですか?SASさんの経験に基づいて教えてください」 「いま取得できるデータを全部蓄積しようと思うんです。あとでどれが必要になるかわからないから」 このようなお話をよくお聞きします。データ活用ニーズはマーケットの変化、競合他社の変化などによって刻々と変化していくため、利用データのニーズを気にすることは浸透していますが、一方で見落としがちなのは以下の2点です。 過去のデータは過去しか表していない。たとえば売上データ一つとっても、それは過去の自社の行動・意思決定の結果でしかなく、役に立つときもあれば、目的によっては全く役に立たない場合もある。 今得られているデータや分析に利用できそうなデータは今のテクノロジーで得られうるデータ、今のテクノロジーで分析しうるというデータにすぎない。将来テクノロジーの進化によって、新しいデータ、新しいデータ粒度が取得できるようになったり、また分析テクノロジーの進化によって想定してなかったデータが利用価値を生み出したりする可能性もある。 この2つの前提にたつと、どのようなデータをためるべきかという議論が意味がないわけではありませんが、「それほど」意味がないということが分かると思います。それよりは、システムアーキテクチャの原則として、将来、データのVolume, Velocity, Veriety に対応できるように硬直化しないことに、より注意を払うことが重要です。また、蓄積しておいたデータが結果的に使われないということもあるかもしれませんが、そのこと自体を失敗としてシステムの価値評価としては用いるべきではありません。重要なことはそのような重要でないデータが認識されたときに素早くストレージコストを低減するようなアクションができるという俊敏性なのです。それは最近のはやり言葉でいうと、レジリエンスと言ってもいいかもしれません。 原則②アーキテクト担当は芸術家的思考が大事 筆者自身、これまでデータ分析基盤システムのアーキテクチャを何度も担当してきました。そしてアーキテクトを育てる際にいつも言っていた言葉があります。「アーキテクチャは機械的に決まるものではないよ。意思だよ意思。あなたがやりたいように決めていいんだよ」いま思うと、STEAM教育に新たに加えられた芸術家的思考を唱えていたことになります。もちろん基本的な知識や経験に基づいたうえでですが、なかなか自分勝手にアーキテクチャを決めていいと思っているアーキテクト担当者も多くなく、結果として、様々な過去のしがらみに忖度したスパゲッティ状態の新システムが出来上がることも少なくありません。そのような結果にならないためには、その企業・自分たちの組織・自分自身ととことん向き合って、全体アーキテクチャにその思いを込める、ということが重要になってきます。もちろんコーチとしてはこのアドバイスの仕方では不足でして、もっと言語化してアクショナブルにしないといけないとは思いますが。 0から独創性は生まれない by ガウディ 原則③アーキテクチャ図は美しく 図やダイアグラムで人に何かを伝えるためには、見る際にそれを阻害する雑音となる不要な情報を削り本当に必要な情報のみに研ぎ澄ますという最低限のことだけではなく、見たいという気持ちにさせたり、見てみようと思わせたり、ちゃんと見ようと思わせたり、あるいは言語的な情報理解だけではない、感情を引き起こさせることで正しく記憶されます。幾何学的な対称性などのバランスを整えることは、「本日はお集まりいただきありがとうございます」に匹敵する挨拶レベルの基本行動規範です。さらには、複雑なアーキテクチャと向き合う場合には、数学的・幾何学的な視点で眺めなおすことで、構成要素が変わらなくても、アーキテクチャ図としてのエントロピーを低減し、構造の整理をすることで、オーディエンスの正しい理解・伝達コストを低減することが可能です。また、そのようにできる限り美しさを追求することで、逆に多くの部分が視覚情報として自然なものとなる、すなわち無の情報となることで、本質的に最も注目すべきポイントにオーディエンスの目を向けさせることができます。 原則④アーキテクチャの思想定義が重要 これは、上述の芸術家的思考と関連しますが、いわゆる芸術作品を評価した文章のような、背景・アーキテクトの思いなどをシステム設計思想として言語化し文書化して受け継いでいくことが重要です。芸術作品と同じように、作品=システムだけでは、作者がどのように自己と向き合い、世の中を見て、どのような思想で創造したのかを把握することは難しいです。サグラダ・ファミリアは未完成部分のガウディによる設計書が失われたため、現在の関係者たちはガウディの思想に基づきながら設計をしています。同様に、データ分析基盤システムが変化し続ける中担当者は変わっていきますが、システムの変更・改修の際にその「思想」に基づくことで、一貫性・効率性・投資対効果・透明性を高めることができるでしょう。 原則⑤アーキテクチャの思想定義の象徴化が重要 象徴化というと小難しい印象になりますが、データ分析基盤の「モットー」や「ビジョン」を常に発信していくということです。最近筆者が耳にした良いなぁと思った例を2つほどご紹介します。この2つの例では、情報システム部門のトップが常にこのワードを取引先ベンダーにもユーザーサイドにも宣伝していることが重要です。あらゆるステークホルダーがこのモットー、ビジョン、象徴に軸足を置くことで、そこからさまざまな提案・理解が派生するものの、このシステムに対する取り組みを将来に向けて継続・推進することに大きく役立っています。 「システム部門がボトルネックにならないセルフサービス化」 昨今、セルフサービスばやりですが、このフレーズにはユーザー部門からの並々ならぬプレッシャーと、それにこたえることがIT部門の使命だという企業としての一体となったデータ活用戦略が表現されており、様々な提案活動・意思決定の原則として非常によく機能しています。これによってステークホルダーが一丸となって、同じ世界を目指し続けることを可能としています。 「バッチ処理だけではなく真のリアルタイム処理にも同時に対応したシステム」 ビジネスにおいては、常に新しい技術・知識を関連付けて新しい商品やサービス、ビジネスプロセス、市場を創造していく必要がありますが、ITやAI/アナリティクスが主役の昨今、情報システム部門がそのような新しい技術・知識をユーザー部門に提案することが、外部ベンダーに頼らず自社内でスピーディーにイノベーション・トランスフォーメーションしていくうえで重要になってきます。ITの観点でいち早く世界中の情報を収集し、新しい技術を試し、ユーザー部門からのリクエストにリアクティブに備えるというよりは、プロアクティブに提案していく、こうすることで、データ分析基盤の位置づけや価値を確固たるものにし、継続的な進化をするものとして、持続的な成長をしていくことが可能になります。 原則⑥走りながらの変化を前提とする 筆者は、芸術の創作活動に詳しくありませんが、想像するに芸術作品の多くは、ウォーターフォール型ではなくアジャイル型ではないでしょうか。下書きを何度も繰り返したり、小さな単位の作品を小出しにしたりしながら、最終的にそれらの集大成として一つの大きな創造物が作られることが多いように見受けられます。場合によっては、その時代時代のトレンドに左右されながら、その一連の創造活動が行われる場合もあります。何事もそうですが、アイディアはエクスポーズしてフィードバックを得ながらブラッシュアップすることが最短経路での最大効果を生み出すことが多いです。データ分析基盤も同様です。まずデータを蓄積してそれが完了したら使ってみるというのをシーケンシャルに行おうとするケースがいまだ散見されます。蓄積してみた直後に、「使いたいデータがなかった」という事件は実際に起きています。なので、これはお勧めしません。データの価値は蓄積ではなく活用して始めて判明するからです。使ってもらって修正して、というフィードバックループを早く回して軌道修正をこまめに繰り返しながら進むことが重要です。 あらためて、Think Big, Start Small アナリティクスの世界では古くからある使い古された原則です。以前は、データ活用成熟度が高い企業のみがアナリティクスへの投資に踏み出していたため、他に参考にする企業もあまりなく、弊社がグローバルの知見や海外の先進事例や経験に基づいてお手伝いをしながらも、お客様自身でとことん考えビジョンを掲げ、少しずつ成果を出しながら投資を継続しながら、適用ビジネス、人材、組織共に、徐々に規模を拡大していくというやり方が主流でした。つまり芸術家的思考がやはりその根底にあったと言えます。 一方で、昨今AIブームの中AI市場が急速に拡大し、多くの企業がデータ活用に踏み出しています。そのため巷では、成功例・失敗例があふれ、それを参考にすることで、データ分析のビジネス活用に、組織的・人材育成的、IT投資的に、何か初めから答えがあるかのような錯覚をし、自社をとことん見つめたうえでのビジョンがないままに、手段が目的化し、組織化や人材育成あるいはデータ統合基盤の構築からスタートしようとしているケースをよく見かけます。その結果、人材育成は出来たはずなのにデータ活用によるビジネスの成果につながっていなかったり、データ統合基盤は出来たのに使われていない、データサイエンス組織に人材は集めたが具体的なビジネス適用につながらないといった結果に陥っているケースも見られます。会社の戦略が、自社のXXXというコアコンピテンスに基づき、XXXのようにビジネスを変革する、というものではなく、単に「データドリブン組織になる」「データドリブン経営をしていく」という手段が目的化しているときに、そのような思わしくない状況になるようです。 データ分析基盤のアーキテクチャもそうですが、今一度終わりのないこのデータ活用の取り組みに、ガウディがサグラダ・ファミリアに込めた戦略=芸術家的思考を参考にし、企業・組織の血となり骨となるデータ活用の取り組みの位置づけを考えてみるのはいかがでしょうか。

1 2 3 8