Japanese

Advanced Analytics | Analytics | Artificial Intelligence | Data Management | Data Visualization | Machine Learning | SAS Administrators
小林 泉 0
データ分析プロセス全体を管理~自己組織的に育てるナレッジのカタログ化とは

自己組織化とは、自然界において個体が全体を見渡すことなく個々の自律的なふるまいをした結果、秩序だった全体を作り出すこと 2010年から存在した解決アイディアがついに実現可能に 今から遡ること十数年前の2010年頃、支援をしていた大手製造業の会社ではすでにデータ分析スキルの社員間でのばらつきと組織全体のスキルの向上、データ分析作業の生産性の向上、人材のモビリティへの耐性としてのデータ分析業務の標準化が課題となっていました。 当時ご相談をいただいた私を含むSASの提案チームは、SASが提供するアナリティクス•ライフサイクル•プラットフォームを活用することで、その問題を支援できることがすぐにわかりました。つまり、ビジネス課題から始まり、利用データ、データ探索による洞察、データ加工プロセス、予測モデリングプロセス、モデル、そしてそれをアプリケーションに組み込むディシジョンプロセスという、一連のアナリティクス•ライフサイクルにまたがるすべての作業を電子的に記録し、全体のプロセスそのものをモデリングし、利活用することで、自己組織的にナレッジが蓄積され、且つ活用されるということです。 しかし、当時のSASだけではない周辺のIT環境、すなわちPCやアプリケーションアーキテクチャなどのインフラ、データの所在、セキュリティ管理などがサイロ化していること、またSAS以外のModelOps環境もシステムごとにアーキテクチャがバラバラすぎたこと、また、お客様社内のデータリテラシーそのものもまだ課題が多かったため、SASを中心としても、実現にはあまりにも周辺の開発コストがかかりすぎたために、提案を断念しました。 時代は変わり昨今、クラウド技術の採用およびそれに伴うビジネスプロセスの変革と標準化が急速に進んでいます。それに歩調を合わせるように、SASの製品も、上記の当時から市場をリードしてきたMLOpsフレームワークをDecisionOpsへと昇華させ、クラウド技術を最大活用すべく、クラウドネイティブなアーキテクチャおよび、プラットフォームとしての一貫性と俊敏性を高めてきました。そしてついに最新版のSAS Viyaでは、アナリティクスライフサイクル全体にわたり、データからデータ分析プロセス全体の作業を電子的に記録し、管理し、活用することが可能となりました。 自己組織的にナレッジを蓄積活用するデータ分析資産のガバナンス 昨今のデータマネージメントの取り組みの課題 詳しくはこちらのブログをご参照いただきたいのですが、多くのケースで過去と同じ過ちを繰り返しています。要約すると、データ分析文化を醸成したい、セルフサービス化を広めたいという目的に対しては、ある1時点のスナップショットでの完成を目的としたデータカタログやDWH/DMのデータモデル設計は問題の解決にはならないということです。必ず5年後にまた別の担当者やプロジェクトが「これではデータ分析しようにもどのデータを使えばわからない、問題だ、整備しよう」となります。 では解決策はなんでしょうか。 静的な情報を管理したり整備するのではなく、日々変わりゆく、どんどん蓄積され、評価され、改善、進化し続ける、データ分析業務に関わるすべての情報を記録統制することです。つまり、以下の三つのポイントを実現することです。各ポイントの詳細は後段でご紹介しています。 ポイント①あらゆるデータ分析資産(ナレッジ)を管理 ポイント②データ品質管理の自動化・省力化とガバナンス ポイント③社内ソーシャルの力による自己組織的情報の蓄積 まずは、それぞれが何を意味しているかを説明する前に、これらを実現するとどのような世界になるのかをユーザーの声によって示してみたいと思います。   個々の自由にデータ分析をしているユーザーによる行動を記録することで、全体を見渡している誰かがヒアリングや調査をして情報を管理することなく、データ分析がどのように行われているかを管理・共有・再利用が可能となるのです。 誰が、どのような目的で、どのデータを、どのように使用したのか、そしてその結果はどうだったのか? このアプリケーションの出した判定結果の説明をする必要がある。このモデルは誰が作ったのか?どのような学習データを使用したのか?どのようなモデリングプロセスだったのか? よく使用されるデータはどれか? そのデータはどのように使用すれば良いのか?注意事項はなにか? データ分析に長けた人は誰か?誰が助けになってくれそうか? 企業全体のデータ品質はどのようになっているか? データ品質と利用パターンのバランスは適切か?誤った使い方をしているユーザーはいないか? など従来、社内勉強会を開催したり、詳しい人を探し出してノウハウを聞いたり、正しくないことも多い仕様書をひっくり返してみたり、そのようにして時間と労力をかけて得られていたデータ分析を自律的に行う際に重要となる社内ナレッジが、自己組織的に形成されるということです。 「情報資産カタログ」とは~一般的な「データカタログ」との違い このような世界を実現する機能をSASでは、「情報資産カタログ」と呼んでいます。データ分析プロセス全体を管理・検索・関連付け・レポートできるようにするテクノロジーです。一般的に言われる、また多くの失敗の原因になる、「データカタログ」と対比するとその大きな違いが見えてきます。 こちらのブログでも述べましたが、データ分析者がセルフサービスでデータ分析を実践したり、初学者がなるべく自分自身で情報収集して、まずは標準的なデータ分析作業をマスターしたりするためには、既存ナレッジを活用する必要があります。一方で、そのようなナレッジは従来一部の優秀なデータ分析者に聞かないとわからなかったり、あるいはITシステム部門に質問して回答までに長い時間を要してビジネス機会を逸してしまう、という結果を招いていました。 既存ナレッジとは、どのようなデータを、どのような意図で、どのような目的で、どのように使い、どのようなアウトプットを得たかという一連の「考え方とやり方」であり、これは管理者が一時的にデータ分析者にヒアリングして「データカタログ」を整備して終わり、というものではなく、日々データ分析者たちの中で自律的に情報が作られていくものです。 ポイント①あらゆるデータ分析資産(ナレッジ)を管理 SAS Viyaでは、上述のアナリティクスライフサイクル各ステップのオブジェクトがすべて一元的に記録・管理されます。日々、新しく作られるレポート、データ加工プロセス、作成されるデータマートの情報が、自動的に管理され検索対象になっていきます。このようにアナリティクス・ライフサイクルの各ステップをすべて管理することで、データ、そのデータを使用しているレポート、そのデータを使用しているデータ加工フロー、その出力データ、さらにはそれを学習データとして使用している予測モデリングプロセスと作成されたモデル、これらを関連付けて見ることが可能となります。それにより例えば、ある目的に使用するデータを探している場合、参考にする業務名やプロジェクト名で検索をすることで、関連するレポートや、データ加工プロセスにたどり着き、そこから使用データやそのデータの使い方にたどり着くという効率的な情報の探し方が可能となります。 もちろん、この機能は昔からあるインパクト・アナリシス機能として、ITシステム部門が、データへの変更の影響調査ツールとして使用することも可能です。 ポイント②データ品質管理の自動化・省力化とガバナンス データ分析を組織的に行う際に気にすべきポイントの一つは、その正確性です。正しいマスターデータを使用しているか、適切な品質のデータを使用しているかは、最終的なアクションや意思決定の精度すなわち収益に影響します。また、結果に対する説明責任を果たすうえでもアクションに使用したデータの品質は属人的ではなく、組織的に管理されている必要があります。またデータ品質を組織的に管理することにより、データ分析の最初に行っていた品質確認という作業が省力化できます。また、属人的に行っていた品質確認作業も標準化されるため、組織全体のデータ分析作業の品質が向上します。 あるお客様では、DWHに格納するデータのETL処理において施すべき処理が実施されていないというミスがあるものの、データの数やETL処理があまりにも多いためそのミスを発見することが困難であるという状況にありました。網羅的な品質管理および品質レポートによってそのようなミスの発見が容易になります。 ポイント③社内ソーシャルの力による自己組織的情報の蓄積 前述のポイント①により基本的にはデータ分析者個人個人の自律的な活動が自動的に記録され、自己組織的に組織全体のナレッジとて蓄積され共有・再利用可能な状態が作られます。これは、データ分析者個人個人が特に意識しなくても自動的に実現できます。それに加えて、さらに意識的にこのプラットフォームを利用することで、蓄積されるナレッジに深みが増します。 例えば、あるビジネス課題をデータ分析で解決使用する場合のスタートは、「問い」です。上述のアナリティクス・ライフサイクルの一番左のスタートにあるものです。その際には、仮説設定をするためや仮説を検証する目的で、様々な角度から「データ探索」を行います。この初期のデータ探索プロセスは、その後のデータ加工やモデリングの根拠になっているため、ナレッジとしてまた説明責任の材料としてはとても重要になります。必ずしも最終的に使用したデータと同じデータを使うとも限らないので、自動的には他のデータ分析資産とは関連づきません。そのような探索プロセスも下記の図のように、同じプロジェクトフォルダに保存しておくことで、関連オブジェクトとして活用することが可能となります。また、プロアクティブに自信が使用したデータやレポートにコメントや評価を付与することで、より価値の高いナレッジへと育つことになります。 昨今企業内SNSなどで、オフィスツールの使い方などノウハウを共有をされている企業・組織もあるかと思います。それを全社規模のアナリティクス・プラットフォームで行うことで、データ分析に関わるナレッジをユーザー同士で培っていくイメージです。 まとめ 「このデータはこの目的に使えますか?」「あ、それはこの情報がないので使えないんですよ。こちらのデータを私は使ってますよ」データ分析者の間でよく交わされる会話です。この問いにいかに迅速に答えられるかが、データ分析の効率性と正確性を高めます。「情報資産カタログ」はまさにこの問いに答えるための機能なのです。

Analytics | Data Management
小林 泉 0
ようこそ古くて新しいデータマネージメントの世界へ~カギは自由と統制

ようこそ古くて新しいデータマネージメントの世界へ 2023年、DMBOK(データマネージメントの知識体系を網羅的にまとめたもの)という用語を改めて聞く機会が多くなりました。おそらくこれはアナリティクス(データ分析に基づくより良い意思決定の実践)の近年のブームで、新たにアナリティクス活用に踏み出し、ようやくビジネスに直結する使い方をするようになった企業・組織があらためてデータマネージメントの重要性に気付き始めたからだろうと推察します。 また一方で、クラウドシフトに伴いクラウドストレージの活用とともに、これまで蓄積していなかったデータを蓄積し始めたり、これまでのデータウェアハウスを一新する形で、データレイク/データウェアハウスを再構築するなど、従来からアナリティクスを活用していた企業もまた同様に、データマネージメントについて改めて考えているようです。 20年以上前からアナリティクスを競争優位の源泉としていた企業では、データマネージメントが大きな一つの関心ごとでした。その後、テクノロジーの進化によって、ソースデータのビッグデータ化(Volume, Variety and Velocity)や、ストレージ技術の進化、そしてアナリティクス・プラットフォームの進化によってITシステムに対するビジネスニーズも変化しました。また、消費者市場の変化や、データサイエンス人材の爆発的な増加といった市場の変化も目覚ましいものがあります。このような変化の中、近年あらたにアナリティクスの活用に踏み出しはじめた多くの企業だけでなく、従来、競争優位の源泉にしてきた高成熟度企業においても、データマネージメントの課題への遭遇と解決にむけて取り組んでいます。 いきなりですが、もっとも頻繁にお伺いする課題について 過去も今もお客様から聞く課題で最も多いのは、「作ったけど使われないデータウェアハウスやデータマート」です。そもそも、使われる/使われないというクライテリアそのものをもう少し注意深く定義する必要はあるとは思いますが、ITシステム部門主導で利用目的をないがしろにしたデータ基盤構築プロジェクトは往々にしてそのような結果になるようです。例えば、ITシステムサイドの都合で蓄積データの種類・期間や粒度を決めてしまうことで、データ分析要件を満たさないという結果になったり、データの出自や性質・品質や使い方のガイドがないために、データはそこにちゃんとあるのにユーザーから利用を敬遠され、別の独自のデータが作り出されたり、作成の要求が来たりしてしまいます。本ブログでは、このような結果に陥らないために意識すると良いと思われることをお伝えしていきます。 もっとも簡略化したデータマネージメントの歴史 アナリティクスに特化したデータマネージメント考察の第一期ーHadoopの到来 2015年以前はダッシュボードや定型レポート、一部の大規模なデータ分析処理用にRDBMSやデータベースアプライアンスが構えられるのみで、アナリティクス用途としてはSASデータセットやフラットファイルでの運用が主でした。これはアナリティクス的なデータ加工および統計解析・機械学習ワークロードに適したテクノロジーが世のなかにはあまりなかったからです。Hadoopの登場により、アナリティクス用途でのデータ活用が一気に拡大し、パフォーマンスやスケーラビリティの制約から解放されました。一方で、従来のように目的を先に決めてデータマートを先に設計してという方法では、アナリティクスによる効果創出が最大化されないという課題も見えてきました。このHadoopの登場は、アナリティクスのためのデータマネージメントの変革の最初のタイミングだったと思います。詳しくは2015の筆者のブログをご興味があればご参照ください。 アナリティクスの効果を最大化するデータマネージメント勘所 Hadoopだからこそ必要なセルフサービス-そしてアダプティブ・データマネジメントの時代へ データマネージメント第二期ークラウドデータベースへのシフト 2015年以降のAIブームによりアナリティクス市場が一気に拡大するとともに、アナリティクスをビジネス上の収益向上、コスト削減、リスク管理に役立てている企業では、データマネージメントの話題が再熱しています。不思議なのは、いや、多くの企業の機能別組織構造では仕方ないのですが、アナリティクスのために良かれと思って取り組んでいるデータマネージメントの課題は、多くのケースで、最終的にアナリティクスを活用して企業の経営に役立てるという目的が忘れ去られてしまいます。 そもそも、アナリティクスのためのデータマネージメントの目的 ともすると手段が目的化しがちなのがITシステムのプロジェクトです。まず、アナリティクスのためのデータマネージメントに何が求められているかを改めて掲げてみますが、そのまえに、そもそもデータマネージメントが課題になるのは、なぜでしょうか? ここでは昔も今もその構図が変わっていない世のなかの状況について共有します。 なぜ、データマネージメントタスクに80%も費やしていのでしょうか。ビジネスにおけるデータ分析の多くは、そもそも実験計画やマーケティング調査とは異なり目的に対してデータを生成・収集しているわけではありません。多くのケースでは、目的に対してそもそもその目的用に計画したわけではないが入手可能なデータを無理やり当てはめています。この目的と手段のギャップを埋める作業が非常に多くの時間とコストを要します。たとえば以下の例で考えてみてください。 製造業において生産設備の中の状態を正確に理解したいが、技術的・コスト的な制約で限定的な精度のセンサーを限定的な場所に設置して、状態の一部を前提条件付きで収集したデータを使うしかない 顧客の購買ニーズを知りたいのだが、店舗ごとの実験は難しいので、欠品情報や潜在的なニーズが表現されていない、過去の活動の結果というバイアス付きのPOSデータを使うしかない このように目的外で収集されたデータを、ある特定の目的のために使えるように評価・加工しなければいけないので、多くの時間をこのデータ準備に割く必要が生じてきます。 では、データマネージメントの取り組みはどこを目指せば良いでしょうか?データ分析者のため、を考えると必然的に以下のポイントが浮かび上がります。 目的に沿ったデータを準備すること データ分析による意思決定において、社会的責任とビジネス上の意思決定の精度を高めるため、品質を担保し、バイアスを理解し、データの生成過程(入力バイアスや基幹システム仕様と業務ルール)を理解し、適切な利用方法を確認する SQLだけでは非生産的な自由自在なデータ加工 データはその利用手法すなわち、統計解析、機械学習、ディープラーニング、自然言語解析、画像解析などによって、手法や使用ツールの仕様に応じて、また、処理パフォーマンスの観点も含めて、自由自在に加工する必要がある ビジネススピードを阻害しないパフォーマンスや処理時間 アナリティクスを競争優位に活用している企業では、24/365常に様々なデータ加工処理が、バッチ、リアルタイム、オンラインで実行されている。これら様々なワークロードを優先度とコスト効率よく、ITシステム部門が特別なチューニングやスケジューリングや、エラーによる再実行をしなくとも、業務スピードに合わせたパフォーマンスで、安定して実行可能な基盤が不可欠 データマネージメントの取り組みで失敗に陥りやすい行動 前述の目的を簡単に言い換えると、データ分析者が何か課題を解決したいと思ってからがスタートで、そこからいかに短時間で正しいデータを特定し、評価し、加工して目的の形に持っていくかが大事であるということになります。つまり、データを物理的にどこに配置されているかに関わらず、データへのアクセス性、評価や加工の俊敏性などが需要であることになります。また、その理解に基づくと、以下のような取り組みはデータマネージメントの目的に沿っておらず、俊敏性や正確性、拡張性を損なう「硬直化」の原因になっていることが多く見うけられます。 「データ統合」を目的化してしまう 1つのデータベースに格納するデータの範囲を決めようとする 汎用的なデータモデルを設計しようとする 変化を前提としないマスタデータ統合をしようとする 変化し続けるビジネス状況のなか、管理対象のデータは常に変化し続けるため、これが「完成」というゴール設定での取り組みは、破綻します。ある大手製造業では何十年にもわたり「ある一つの固定的なゴール」を目指したマスタデータの整備を続けた結果ようやく「マスタデータは時代とビジネスに合わせて常に変化する」と気づき、当初のプロジェクトをストップさせた、という事例もあります。また、取得可能なデータはテクノロジーの進化によって変わります。後で使うかもしれないからと「念のため」蓄積を開始したデータであっても、5年後には使い物にならないデータかもしれません。 「データマートを整備」しようとする スナップショット的なニーズに対応するデータマートを作ろうとする 目的別データマートは目的ごとに存在するにもかかわらず、データマートが多数あることを問題視してしまう データマートの品質(正確性、一貫性、説明性)を気にしていない データマートを固定化するということは目的を固定化することに他なりません。一方でデータ分析を広めるということは、より多くの異なる目的に対してデータ分析を実践することで、矛盾しています。データマートが散在しているという課題感は、本質的にはデータマートがたくさんあることが問題なのではなく、そこでどのようなデータ分析が行われているのか、その品質すなわち、正確性・一貫性・説明性のガバナンスが効いてないことにあります。この本質的な課題解決は別の手段で解決すべきです。 「データ・ディクショナリを整備」しようとする データ分析者にとって良かれと思いITシステム側でスナップショット的なメタデータを定義する データ基盤開発初期にのみ、データ分析者からヒアリングしてメタデータを定義する データの出自、仕様、生成元の情報、使い方、品質、評価などの情報が管理されていない データ・ディクショナリを作ったけどデータ分析者にとって有用な情報が定義されていなかったり、継続的なメンテナンスがされなかったりすることがほとんどです。データ・ディクショナリの目的は、データ分析者により迅速にデータを特定・評価・利用してもらうことなので、その目的達成のためには、より有用な情報を異なる方法で蓄積・管理するべきです。 データマネージメント課題の解決の視点は、自由と統制 原理・原則および、網羅的な知識体系はDMBOKに体系的にまとめられているのでそれは頭に入れてください。そのうえで、データ分析によるビジネス価値創出のための、筆者の経験に基づくデータマネージメント課題の解決のためには、自由と統制のバランスをとることだと考えます。これにより、従来、繰り返しているデータマネージメントの失敗を乗り越え、自己組織的に育つ企業・組織のデータ分析文化の醸成にようやく一歩を踏み出せることになります。 データ分析者の自由度を最大化する(ITシステム部門がボトルネックにならないようにする) あらゆるデータソースに自由にアクセスできるようにする。データの種類や利用目的によって最適なデータ格納方法は変わる。どのような形式でデータが格納されていてもデータ分析ツールから自由にアクセスできるようにすることが重要

Analytics
データ分析効率化の秘訣:SAS ViyaとAzure Synapseの高速データ転送方法の紹介

1.背景 データ管理と分析の世界では、効率的かつ迅速なデータの転送と書き込みは極めて重要です。特に大規模なデータウェアハウスサービスを利用する際には、このプロセスの最適化が不可欠です。Azure Synapse Analyticsは、そのようなサービスの一つとして注目を集めており、SAS Viyaを使用する多くの企業やデータアナリストも、より効率的なデータハンドリングを追求しています。 SAS ViyaのユーザーはSAS/ACCESS to Microsoft SQL Serverを使用してAzure Synapseにデータを転送および書き込む際に、より高いデータ書き込み効率と転送速度を求めるのは当然です。データ処理能力をさらに強化し、書き込み効率を高めるために、SAS Access to SynapseのBulkLoad機能は非常に優れた選択肢です。BulkLoad機能はデータの書き込み速度を大幅に向上させるだけでなく、Azure Data Lake Storage Gen 2(以下、ADLS2と称する)を利用して、安定かつ安全なデータストレージおよび転送環境を提供します。 ただし、BulkLoad機能を使用する際にはADLS2の設定と構成が関わってくるため、構成および使用のプロセスが複雑に感じられたり、疑問が生じたりすることがあります。このブログの目的は、管理者およびユーザーに対して、明確なステップバイステップの設定プロセスを提供し、構成の過程で見落とされがちなキーポイントを強調することで、設定時の参考になるようにすることです。 以下は本記事内容の一覧です。読者は以下のリンクをで興味のあるセクションに直接ジャンプすることができます。 2.Bulkload機能について 3.BULKLOAD機能を利用するためのAzure側で必要なサービスの作成 3-1.Azure Data Lake Storage (ADLS) Gen2のストレージアカウントの作成 3-2.ストレージアカウントのデータストレージコンテナの作成 3-3.ストレージアカウントの利用ユーザー権限の設定 3-4.データ書き込み用のSASコードの実行 3-5.Azureアプリの設定 4.SAS Viya側の設定とAzure Synapseへの接続 4-1.SAS Studioでの設定 4-2.Azure SynapseのSQLデータベースをSASライブラリとして定義 4-3.Azure Synapseへデータの書き込み 2.Bulkload機能について なぜSAS ViyaがBulkload機能を使用してAzure Synapseに効率的にデータを書き込む際にADLS2サービスが必要なのか、そしてそのプロセスがどのように行われるのかを説明します。 Azure Synapse Analyticsは、柔軟性が高く、高いスループットのデータ転送を可能にするために、COPY

Analytics | Data Management
小林 泉 0
ガウディとサグラダ・ファミリアに学ぶデータ分析基盤アーキテクチャのための原則

前回の筆者ブログ「STEAM教育の進化にみるAI活用に必要な芸術家的思考」において、AI/アナリティクス時代に芸術家的思考が必要だという話をしました。今回はその派生で、AI/アナリティクス時代に作られるデータ分析基盤の作り方について、「時間をかけて大規模に創造する」という点で類似している建築物、そのなかでも、自然摂理・数学・幾何学と芸術を融合された象徴としてのサグラダ・ファミリアとその大部分の設計を担ったガウディの考え方に学んでみようと思います。 ガウディとサグラダ・ファミリアの特徴 終わりがなく常にその時代の人によって継承され・作り続けられる ガウディは、サグラダ・ファミリアを完成という終わりを目指さないものとして考えていたそうです。教会という性質や、建築費を寄付で賄うという性質もあり、またガウディが世の中に残したかった、「象徴」として、建築物の完成・利用されるというアウトカムではなく、時代時代の人々が建築に携わり続けることで象徴としての役割をもたらすことをアウトカムとしたということだと私は個人的に解釈します。これは、誰かが作ったものを使うという一方的な関係性を超え、インクルージョンすなわち関与するという関係性をもたらします。 サグラダ・ファミリアの建設はゆっくりと進む。 なぜなら、私のクライアント(神)は完成をお急ぎではないからだ by ガウディ 自然摂理と数学・幾何学に基づく美しさ サグラダ・ファミリアの棟の形は放物線です。ネックレスを想像してみてください。長さや幅を変えると様々な放物線になることが分かると思いますが、そのような「逆さ実験」を繰り返しそれをさかさまにしてあの様々な棟の形になっています。これは、ガウディが何事も自然法則に基づくべきという考えに基づいています。 放物面は幾何学すべての父 by ガウディ 継続のための象徴性の維持 サグラダ・ファミリアは建築費を寄付に依存しています。そのため継続的に人々・社会の関心を惹き続ける必要があります。 サグラダ・ファミリアの思想に学ぶ、活用されるデータ分析基盤アーキテクチャに役立つ原則 原則①レジリエンスー蓄積するデータは常に変化する 「どのようなデータを蓄積しておいたらいいですか?SASさんの経験に基づいて教えてください」 「いま取得できるデータを全部蓄積しようと思うんです。あとでどれが必要になるかわからないから」 このようなお話をよくお聞きします。データ活用ニーズはマーケットの変化、競合他社の変化などによって刻々と変化していくため、利用データのニーズを気にすることは浸透していますが、一方で見落としがちなのは以下の2点です。 過去のデータは過去しか表していない。たとえば売上データ一つとっても、それは過去の自社の行動・意思決定の結果でしかなく、役に立つときもあれば、目的によっては全く役に立たない場合もある。 今得られているデータや分析に利用できそうなデータは今のテクノロジーで得られうるデータ、今のテクノロジーで分析しうるというデータにすぎない。将来テクノロジーの進化によって、新しいデータ、新しいデータ粒度が取得できるようになったり、また分析テクノロジーの進化によって想定してなかったデータが利用価値を生み出したりする可能性もある。 この2つの前提にたつと、どのようなデータをためるべきかという議論が意味がないわけではありませんが、「それほど」意味がないということが分かると思います。それよりは、システムアーキテクチャの原則として、将来、データのVolume, Velocity, Veriety に対応できるように硬直化しないことに、より注意を払うことが重要です。また、蓄積しておいたデータが結果的に使われないということもあるかもしれませんが、そのこと自体を失敗としてシステムの価値評価としては用いるべきではありません。重要なことはそのような重要でないデータが認識されたときに素早くストレージコストを低減するようなアクションができるという俊敏性なのです。それは最近のはやり言葉でいうと、レジリエンスと言ってもいいかもしれません。 原則②アーキテクト担当は芸術家的思考が大事 筆者自身、これまでデータ分析基盤システムのアーキテクチャを何度も担当してきました。そしてアーキテクトを育てる際にいつも言っていた言葉があります。「アーキテクチャは機械的に決まるものではないよ。意思だよ意思。あなたがやりたいように決めていいんだよ」いま思うと、STEAM教育に新たに加えられた芸術家的思考を唱えていたことになります。もちろん基本的な知識や経験に基づいたうえでですが、なかなか自分勝手にアーキテクチャを決めていいと思っているアーキテクト担当者も多くなく、結果として、様々な過去のしがらみに忖度したスパゲッティ状態の新システムが出来上がることも少なくありません。そのような結果にならないためには、その企業・自分たちの組織・自分自身ととことん向き合って、全体アーキテクチャにその思いを込める、ということが重要になってきます。もちろんコーチとしてはこのアドバイスの仕方では不足でして、もっと言語化してアクショナブルにしないといけないとは思いますが。 0から独創性は生まれない by ガウディ 原則③アーキテクチャ図は美しく 図やダイアグラムで人に何かを伝えるためには、見る際にそれを阻害する雑音となる不要な情報を削り本当に必要な情報のみに研ぎ澄ますという最低限のことだけではなく、見たいという気持ちにさせたり、見てみようと思わせたり、ちゃんと見ようと思わせたり、あるいは言語的な情報理解だけではない、感情を引き起こさせることで正しく記憶されます。幾何学的な対称性などのバランスを整えることは、「本日はお集まりいただきありがとうございます」に匹敵する挨拶レベルの基本行動規範です。さらには、複雑なアーキテクチャと向き合う場合には、数学的・幾何学的な視点で眺めなおすことで、構成要素が変わらなくても、アーキテクチャ図としてのエントロピーを低減し、構造の整理をすることで、オーディエンスの正しい理解・伝達コストを低減することが可能です。また、そのようにできる限り美しさを追求することで、逆に多くの部分が視覚情報として自然なものとなる、すなわち無の情報となることで、本質的に最も注目すべきポイントにオーディエンスの目を向けさせることができます。 原則④アーキテクチャの思想定義が重要 これは、上述の芸術家的思考と関連しますが、いわゆる芸術作品を評価した文章のような、背景・アーキテクトの思いなどをシステム設計思想として言語化し文書化して受け継いでいくことが重要です。芸術作品と同じように、作品=システムだけでは、作者がどのように自己と向き合い、世の中を見て、どのような思想で創造したのかを把握することは難しいです。サグラダ・ファミリアは未完成部分のガウディによる設計書が失われたため、現在の関係者たちはガウディの思想に基づきながら設計をしています。同様に、データ分析基盤システムが変化し続ける中担当者は変わっていきますが、システムの変更・改修の際にその「思想」に基づくことで、一貫性・効率性・投資対効果・透明性を高めることができるでしょう。 原則⑤アーキテクチャの思想定義の象徴化が重要 象徴化というと小難しい印象になりますが、データ分析基盤の「モットー」や「ビジョン」を常に発信していくということです。最近筆者が耳にした良いなぁと思った例を2つほどご紹介します。この2つの例では、情報システム部門のトップが常にこのワードを取引先ベンダーにもユーザーサイドにも宣伝していることが重要です。あらゆるステークホルダーがこのモットー、ビジョン、象徴に軸足を置くことで、そこからさまざまな提案・理解が派生するものの、このシステムに対する取り組みを将来に向けて継続・推進することに大きく役立っています。 「システム部門がボトルネックにならないセルフサービス化」 昨今、セルフサービスばやりですが、このフレーズにはユーザー部門からの並々ならぬプレッシャーと、それにこたえることがIT部門の使命だという企業としての一体となったデータ活用戦略が表現されており、様々な提案活動・意思決定の原則として非常によく機能しています。これによってステークホルダーが一丸となって、同じ世界を目指し続けることを可能としています。 「バッチ処理だけではなく真のリアルタイム処理にも同時に対応したシステム」 ビジネスにおいては、常に新しい技術・知識を関連付けて新しい商品やサービス、ビジネスプロセス、市場を創造していく必要がありますが、ITやAI/アナリティクスが主役の昨今、情報システム部門がそのような新しい技術・知識をユーザー部門に提案することが、外部ベンダーに頼らず自社内でスピーディーにイノベーション・トランスフォーメーションしていくうえで重要になってきます。ITの観点でいち早く世界中の情報を収集し、新しい技術を試し、ユーザー部門からのリクエストにリアクティブに備えるというよりは、プロアクティブに提案していく、こうすることで、データ分析基盤の位置づけや価値を確固たるものにし、継続的な進化をするものとして、持続的な成長をしていくことが可能になります。 原則⑥走りながらの変化を前提とする 筆者は、芸術の創作活動に詳しくありませんが、想像するに芸術作品の多くは、ウォーターフォール型ではなくアジャイル型ではないでしょうか。下書きを何度も繰り返したり、小さな単位の作品を小出しにしたりしながら、最終的にそれらの集大成として一つの大きな創造物が作られることが多いように見受けられます。場合によっては、その時代時代のトレンドに左右されながら、その一連の創造活動が行われる場合もあります。何事もそうですが、アイディアはエクスポーズしてフィードバックを得ながらブラッシュアップすることが最短経路での最大効果を生み出すことが多いです。データ分析基盤も同様です。まずデータを蓄積してそれが完了したら使ってみるというのをシーケンシャルに行おうとするケースがいまだ散見されます。蓄積してみた直後に、「使いたいデータがなかった」という事件は実際に起きています。なので、これはお勧めしません。データの価値は蓄積ではなく活用して始めて判明するからです。使ってもらって修正して、というフィードバックループを早く回して軌道修正をこまめに繰り返しながら進むことが重要です。 あらためて、Think Big, Start Small アナリティクスの世界では古くからある使い古された原則です。以前は、データ活用成熟度が高い企業のみがアナリティクスへの投資に踏み出していたため、他に参考にする企業もあまりなく、弊社がグローバルの知見や海外の先進事例や経験に基づいてお手伝いをしながらも、お客様自身でとことん考えビジョンを掲げ、少しずつ成果を出しながら投資を継続しながら、適用ビジネス、人材、組織共に、徐々に規模を拡大していくというやり方が主流でした。つまり芸術家的思考がやはりその根底にあったと言えます。 一方で、昨今AIブームの中AI市場が急速に拡大し、多くの企業がデータ活用に踏み出しています。そのため巷では、成功例・失敗例があふれ、それを参考にすることで、データ分析のビジネス活用に、組織的・人材育成的、IT投資的に、何か初めから答えがあるかのような錯覚をし、自社をとことん見つめたうえでのビジョンがないままに、手段が目的化し、組織化や人材育成あるいはデータ統合基盤の構築からスタートしようとしているケースをよく見かけます。その結果、人材育成は出来たはずなのにデータ活用によるビジネスの成果につながっていなかったり、データ統合基盤は出来たのに使われていない、データサイエンス組織に人材は集めたが具体的なビジネス適用につながらないといった結果に陥っているケースも見られます。会社の戦略が、自社のXXXというコアコンピテンスに基づき、XXXのようにビジネスを変革する、というものではなく、単に「データドリブン組織になる」「データドリブン経営をしていく」という手段が目的化しているときに、そのような思わしくない状況になるようです。 データ分析基盤のアーキテクチャもそうですが、今一度終わりのないこのデータ活用の取り組みに、ガウディがサグラダ・ファミリアに込めた戦略=芸術家的思考を参考にし、企業・組織の血となり骨となるデータ活用の取り組みの位置づけを考えてみるのはいかがでしょうか。

Analytics | Students & Educators
0
SASによる因果推論:PSMATCHプロシジャによる傾向スコアマッチング

はじめに 因果効果の推定手法の1つである傾向スコアマッチング、およびSASでの実装方法について紹介します。傾向スコアマッチングのSASでの実装にあたっては、本記事ではSAS/STAT 14.2(SAS 9.4)で追加されましたPSMATCHプロシジャを使用します。因果推論の基本的な枠組みや傾向スコア・傾向スコアマッチングの統計的理論については、詳しく解説を行いませんので、そちらに関心がある方は書籍等を参考にしていただければ幸いです。 理想的なランダム化比較試験においては、ランダム化により治療群と対照群間で測定・未測定の交絡因子(confounders)の分布が期待的に等しくなるため、単純な群間比較によって治療(介入、曝露)の興味のあるアウトカムに対する効果を評価することが可能です。しかし、ランダム化が行われなかった実験研究や観察研究のデータから因果関係を見出そうとする場合には、一般に交絡(confounding)と呼ばれるという問題が生じます。これは簡単に述べると、治療群と対照群で集団の特性が異なることで2つの集団が比較可能ではない状況、治療群と対照群でのアウトカムの違いが治療だけではなく集団の特性の違いにも依存する状況を意味しています。つまり、ランダム化が行われなかった実験研究や観察研究のデータから因果効果を推定する際には、交絡を十分に制御した上で群間比較を行う必要があり、世間一般で因果効果の推定手法と呼ばれるものは、交絡を調整方法する方法だと認識していただいてよいかと思います。因果効果の推定手法は回帰や層別化、標準化など様々なものがありますが、本記事ではマッチング法に注目します。マッチング法は、治療群と対照群から類似した特徴を持つ被験者をペアとし(マッチングさせ)、マッチした対象集団において治療を受けた群と受けなかった群を比較するという方法です。  ただ、一言にマッチング法と言っても複数の交絡因子(共変量)の情報をそのまま用いる「共変量マッチング」と、共変量の情報を傾向スコアという一次元の情報に落とし込んだ上でマッチングを行う「傾向スコアマッチング」という2つの方法に大きく分かれます。初学者にとっては前者の方がより直感的な方法かと思いますが、共変量が高次元である場合や変数のカテゴリ数が多い場合にはその実施が困難になります。そのような場合にしばしば用いられるのが後者の傾向スコアマッチングです。マッチングには、治療群と対照群の構成比率やマッチング方法など様々なオプションがありますが、傾向スコアの分布が同じ(治療群と対照群が交換可能)であるmatched populationを作成するというのが共通の考え方です。また、傾向スコアマッチングの実施手順は連続である単一の共変量を用いた共変量マッチングと同様であり、大きくは以下のような手順となります。 【傾向スコアマッチング法のステップ】 共変量の特定、測定 傾向スコアのモデル指定、傾向スコアの推定 マッチングアルゴリズムの決定、マッチングの実施 マッチングした対象者で構成された集団(matched population)における治療群と対照群での交絡因子の分布評価 4.で評価した共変量が不均衡である場合には2.に戻る 群間比較の実施 推定結果の解釈   記法と仮定 記法 以下の記法の下で傾向スコアマッチングに関する議論を行います。アルファベットの大文字は確率変数を、小文字はその実数値を意味するものとします。なお、以降でボ-ルド体としている場合は単一の変数ではなくベクトルであることを意味しているものとします。 A:二値の治療変数 Y:観察されるアウトカム Ya:潜在アウトカム X:共変量(一般にはベクトル) 仮定 本記事では以下の識別可能条件を仮定します。理想的なランダム化比較試験においては研究デザインによってその成立が認められますが、観察研究ではあくまで”仮定”となります。つまり、その成立を認めることが妥当であるかどうかの議論が別途必要となることにご注意ください。また、各条件の詳細や意図する内容については本記事では取り扱いませんので、他の記事や書籍等をご参照ください。 【識別可能条件 (Identifiability assumptions) 】 一致性 (consistency) If Ai = a, then YiA = Yia = Yi  特にAが二値であるとき、   Yi = AYia=1 + (1-A) Yia=0   条件付き交換可能性 (conditional

Analytics
SAS Hackathon 2023 / チームZEAL参加報告

本記事では、ZEAL - Analysis and Projections of the Japanese Economyについて、チームメンバーに直接お話を聞き、背後にある思いやチャレンジなどについて解き明かします。 SAS Hackathon 2023 参加の背景 SIerであるZEALには、データアナリスト・データサイエンティストといったロールで働く社員は現状まだ多くはない。しかし今後はそういった人材を増やし、データ活用の世界に進出していくという目標を掲げている。 SAS Hackathon開催の知らせを受け取ったとき進むべき道が定まった。部内でプレゼンを行い、SASの取り扱い経験を問わず、興味を持った社員でチームZEALを結成した。 それがハッカソン開催の約1年前でした。そして半年前頃からテーマを何にするかチーム内で議論してきました。 SDGsをキーワードに、カーボンフットプリントを可視化することでCO2排出量を減らす事に貢献する、であったり、今後人類が必ず直面する喫緊の課題で身近な問題でもあり必ず解決する必要がある問題でもある食料問題に取り組む、など様々な案が出た。 最終的に定まったテーマは、「不確実性を消し去ることで、新型コロナのようなアウトブレイクに対して飲食業界が効果的な対策を立案できるよう支援すること」になった。当初は有価証券報告書による企業業績の変動をコロナ前とコロナ後で比べていく方針だったが、データ数が少なかったため断念せざるを得なかった。そこで、ある程度データ数が確保できる家計の支出データを使うことにした。 やはり当初から食料問題に取り組むという案が出ていたことと、コロナのようなパンデミックの影響が強く出た分野であったため、飲食業界を選択しました。家計の外食支出の変動から、間接的に飲食業界の隆盛を予測する、というものです。 コロナによる影響の強弱について念のため全産業分野を網羅的に確認した。ここでSAS Viyaの機能が役に立った。コロナの影響が特に大きかった産業分野は、飲食、交通(航空)、教育・娯楽だった。中でも交通(航空)は飲食業以上に影響が大きかった。しかし交通(航空)はテーマには選ばなかった。食糧問題に取り組むという基本方針があったからだ。 SAS Viyaは統計的知識がそこまで無くても十分に扱え、確実に結果を出すことができました。これはZEALが得意とする、「可視化によるインサイトの引き出し」というアプローチにもとてもフィットしていました。操作性も他のBIツールと比べて特段難しいというわけではなかったので問題はありませんでした。 ハッカソンに取り組む上で直面したチャレンジ 当初使用を想定していた有価証券報告書データのデータ数が時系列予測をするうえで足りないということが途中で判明したため、そこから別のデータを探し出す作業に急遽取り組む必要があった。3,4日で新しいデータが見つかった。 この部分はテーマ選定の際にも問題になりましたが、テーマはいろいろ考えられたとしても、それに必要なデータソースを集められなければ実際には分析を進めることができません。使えるデータの種類によって、取り組めるテーマが決まる、という側面がありました。 幸いZEALのサービスに、CO-ODEという日本の政府・自治体が出しているオープンデータを集積したデータベースがあり、そこに分野別家計支出データがあったので使うことにした。   具体的な取り組み内容 2つの時系列予測モデル 時系列予測モデルを2つ用意し、2つのモデルの予測値の差分をパンデミックの影響度合いとして可視化した。 つまりは、2019年12月末までをパンデミック前期間、2020年1月以降をパンデミック後期間とし、パンデミック前期間のデータで訓練したモデルをパンデミック前モデル、パンデミック後期間のデータで訓練したモデルをパンデミック後モデルとし、両者同じ将来期間のデータに対して予測をさせたうえで、その予測値の差分を取りました。 パンデミック前モデルとパンデミック後モデルの作成はいずれもSAS Viya Visual Forecastで複数のモデルを作成し、その中から精度が最も良いもの(=チャンピオンモデル)を選ぶという方法を採用した。いずれもチャンピオンモデルは、季節性モデルが選ばれた。 この辺り大変な作業のように聞こえますが、全てSAS Viya Visual Forecastによって自動処理されるのでとても簡単でした。 データの加工・整形で一工夫 必要なデータは全てCO-ODEから得ることができたが、データの加工・整形に多少の工数が必要だった。 CO-ODEの最大の売りは網羅性で、様々なソースからデータを手当たり次第かき集めてきています。使い方は使う人によって千差万別、逆に言うと使い方によってはひと手間かける必要があります。今回特に問題になったのは、時間粒度の違いでした。 データソースによって四半期粒度のもの、日次粒度のもの、と様々だったが、最終的に、月次粒度で統一した。四半期粒度のものは内挿によって月次粒度に変換した。 そこは少し試行錯誤が必要でした。一方データのETLに関しては、CO-ODEからはCSVがそのまま取り出せるので、それをそのままViyaにアップロードするだけで済みました。 成果 パンデミックによる影響を、予測値の差として可視化することに成功した。これは将来また別のパンデミックが起きたときにも参考値として利用できるものだ。 また、直接的な成果というわけではないのですが、ハッカソンを通して普段関わりのない社員同士が初めて関わりを持つようになり、社内のコミュニケーションが活性化しました。これは思わぬ収穫でした。 展望

Analytics
小林 泉 0
STEAM教育の進化にみるAI活用に必要な芸術家的思考

遅ればせながら、最近STEMがSTEAMになっていることに気づきました。ここ数年でAI/アナリティクスブームの中、アナリティクスを活用し始めようとする企業が増え、どのような人材を配置すべきかという悩みをお聞きする機会が増えていますが、この、STEM⇒STEAMの進化についても、なるほどなと思うので簡単に整理してみます。   私は数学、科学、自然の間の相互接続性に常に興味を持っていました。私は空間の曲線、特に円弧や螺旋を探索するのが好きです。私はアーチの形而上学的な側面にも惹かれます。野原の真ん中にアーチを設置すれば、人々はわざわざそこを通り抜けようとするでしょう。アーチの下を通過することは変革的であり、あるものから別のものへの象徴的な変化です。それに抵抗することはできません。 (彫刻家のミカジャ・ビアンヴェヌ氏) 以前からあるSTEM教育とは STEMとは、多くの方がご存じの通り、Science, Technology, EngineeringそしてMathematicsの頭文字をとったもので、第四次産業革命のこの世の中をけん引する人材教育に必要な要素を並べています。アナリティクスの世界に長年身を置いてきた筆者の立場から、各要素に日本語訳を付与すると以下のようになります。教育の専門家からすると正確性に欠けるかもしれませんがご容赦ください。 Science-科学的な論証や根拠づけ推論をする科学的な思考(方法論) Techonology-創造物の構成要素および構成要素を作り出すための道具(道具) Engineering -創造物を作り出す実用的な実践(実践力) Mathematics-創造物の特徴の論理的な表現方法(測り方) 新しい工学製品やITシステムを想像するためには、これらを総合的に学ぶことが重要だという考え方です。大学ではもともとそれぞれの専門領域を突き詰めて研究するという考えで、サイロ化された学部・学科・研究室が作られてきました。もちろんそういった方向での探求はそれはそれで必要です。一方で、何か新しいものを創造するという目的を志向した場合には、「総合力」が必要になるということです。20年以上前ですが、筆者が大学生のころに、「総合学部」が世の中に登場し始めたのもこういう背景なのだと思います。 最近進化したSTEAM教育とは 近年、STEM教育にAを足した方が良いという流れになってきています。AはArtだけではなく、Liberal Artsも含むと言われますが、Liberal Artsをここに入れてしまうと全体の構造が分かりづらくなってしまうので、ここでは、Artすなわち、芸術家的思考が追加されたとします。 なぜ追加されたのでしょうか? 芸術家的思考とはそもそも何でしょうか?もちろん私たちが良く知る芸術は、斬新な視点や考え方で何か新しい表現をされたものに芸術性を見出すことが多いと思いますが、本質的には芸術家は、「自己の探求」です。それを象徴性をもって表現しているのだと思います。 つまり筆者が考えるに、新しい創造物、つまり既存の知と知を掛け合わせたイノベーションは、当然ながらSTEM教育を受けたところで機械的にできるものではなく、創造者の思いと象徴性が大事だということではないでしょうか。 AI/アナリティクスを活用したビジネス成長には、芸術家的思考が大事 ビジネスの世界でAI/アナリティクスを活用し持続的な成長をするためには、AI/アナリティクスをどのような目的で活用するかによって、その成果は種類が異なります。 ストラテジック - 将来の成長のため、収益最大化のための方向付けをする。(全社規模の収益最大化) タクティカル - ストラテジックな取り組みを実践する計画を立てる(事業部単位の計画) オペレーショナル - タクティカルな計画の通りに機会損失なくビジネスを遂行する(計画通りの遂行) より詳細は、こちらの筆者のブログ「そのデータ活用は攻め?守り?」を参照してください。 この3つのうち、単なる過去の実績の延長ではなく、非連続な将来の成長や収益最大化を担うのは、「ストラテジック」の領域です。不確実性の高まる世の中において、将来の予測的シミュレーションによって透明性の高いよりよい意思決定を行おうとしたり、あるいはイノベーションや、トランスフォーメーションによって過去の単純な延長としての予測ではなく、新たな市場・商品やサービス・ビジネスプロセスを生み出し、競争優位な未来を作り出す活動です。 この活動において大事なのは、他社の見よう見真似であったり、単に現在の市場ニーズだけに基づくのではなく、自社のコアコンピテンシーをとことん見つめ、自社独自の将来持続可能な戦略を打ち出すことです。これはまさに芸術家的思考にほかなりません。過去の経験を活かしつつも、過去や現在に構築された既存の枠組みにとらわれない視点・思考によって、自社あるいは社外にある既存の知と知との関係を見つめることで初めてあらたなイノベーションへとつながります。さらに、持続的という点に焦点を与えるとやはりここでも芸術の要素「象徴性」が大事になってきます。 「問題や仮説」に対して客観性や透明性をもって取り組むためには、科学的思考・数学的思考などは不可欠です。一方で、その「問題や仮説」を定義することは、道具や手段、方法論からは発生せず、芸術家的思考が必要になってきます。SASが大切にしているもの、「アナリティクス・ライフサイクル(*1)」の出発点が「問い」であること、そして、すべては「好奇心(*2)」からスタートするという考え方もまさに似たような話です。 次回は、この芸術家的思考がデータ分析基盤システムの構築にとても重要であることの話をしたいと思います。 *2) プレスリリース:SAS最新グローバル調査:「好奇心」というスキルの重要性が高まる大退職時代

Analytics
SAS Hackathon 2023 / チームCTC参加報告

本記事では、Critical Thinking Crew - Health Monitoring to Prevent Solitary Deathについて、チームメンバーに直接お話を聞き、背後にある思いやチャレンジなどについて解き明かします。 SAS Hackathon 2023 参加の背景 チームCTCのリーダー福永氏にとって今回のSAS Hackathon参加には特別な思いがあった。福永氏の個人的な活動として取り組んでいるプロボノを通して、孤独死にまつわる社会的課題があることを認識していたからだ。 日本では孤独死する人が年間25000人を超えていて、遺体が発見されるまでに平均2週間以上かかり、発見時に腐敗が進んでいることも多いそうです。これは高齢者の課題と捉えられがちですが、現役世代の孤独死も4割近くあるという報告があります。この社会的課題に取り組むという構想を2022年末頃から抱き始め、ソリューションの中身を漠然と考えていました。 それとは別にスマホカメラで脈拍を計測する手法があることを知った時、彼の頭の中で課題とソリューションが繋がり、構想が具体化し始めた。そこにタイミングよくSAS Hackathon開催の知らせが届いたためエントリーすることにした。 所属する部署においても企業のESG分析などに携わることもあり、ソーシャル・グッドのための活動としてハッカソン参加は会社も後押ししてくれました。 エントリー部門はヘルスケア&ライフサイエンス部門になった。福永氏にとって今回が3回目のSAS Hackathonの参加となった。1回目では数値データを、2回目ではテキストデータを扱ってきたが、3回目の今回では画像データを扱うことになった。 ハッカソンに取り組む上で直面した様々なチャレンジ 繁忙期と重なってしまった メンバー全員が非常に繁忙なタイミングと重なってしまったため、登録したあとにしばらく活動ができず、着手できたのは締め切りまで1か月を切ってからになってしまった。 結果的に最後の2週間でなんとか作り切ったという感じです。メンターさんが何度か相談会を設けてくれたこともあり、色々と困りごとを相談できましたし、良いペースメーカーになりました。 画像認識技術の習得と専用環境の準備 画像認識専門のエンジニアがメンバーにいなかったものの、画像認識に関するSASのブログとオープンソースの専用のライブラリを駆使して何とか乗り切った。まずは画像認識に関する知識を習得することろから始めた。 物体検知モデルのチュートリアルで骨格推定のやり方を学びました。遠回りのようで実はそれが一番手っ取り速かったと思います。 顔色から脈拍を推計する手法に関しては公開コードを探して利用することにした。姿勢推定のためのモデル訓練が短時間で収束するような工夫もした。また通常は必要になる環境構築のための工数を、Google Colaboratory(WEBブラウザ上で機械学習を実行できるサービス)を利用することで大幅に削減した。 また当初物体検知モデルをファインチューニングするうえで、与えられた環境とは別の環境を構築する必要がありました。そこはGoogle Colaboratoryを導入することで難なくクリア出来たのですが、GPUで事後訓練した後の物体検知モデルをCPU版に変更する部分でエラーが多発して大変でした。 その他、今回使用することにした物体検知モデルをSASとインテグレーションする部分の経験が無かったため新たな経験を得ることとなった。 具体的な取り組み内容 スマホで撮影した動画を利用 スマホで自身を撮影することで姿勢やバイタルを推定し、危険な状況になったら友人・家族に通知する自衛ツールを開発した。 一般的な見守りサービスですと、器材の設置や、知らない人に監視されている感じに抵抗感がある人が多く、特に比較的若い層にこの傾向があるとプロボノの活動を通して聞いたことがあります。そこでスマホを利用することにしたんです。 次に姿勢推定のための物体検知モデルをSAS Viya上に搭載した。スマホで撮影した動画から姿勢の状態を推定できるものだ。加えて、顔色の微妙な変化を波形から捉え、心拍数を推定した。最後に、姿勢と心拍数から、「倒れている」かつ「心拍数が極端に低い」等の閾値に該当する場合にアラートを発出する仕組みを構築した。 物体検知モデルの訓練とバイタル判定ルールの作成 使ったデータは2種類ある。まず物体検知モデルの事後訓練に必要な画像データについては、CTC社内にあった画像データを利用した。最終的に厳選した1500枚でモデルの事後訓練をした。 事後訓練には画像のアノテーションが必要だった。アノテーション作業の内容は、映っている人物を四角い枠線で囲い、囲われた人物がどのような姿勢でいるのか注釈を付ける、というものだ。姿勢の種類は全部で4種類、立っている、寄りかかっている、座っている、倒れている、の中からアノテーション作業者が手動で選択することになる。 そこは子会社のCTCひなり株式会社の障がい者スタッフさんの助けを借りることができ、大幅な工数削減を実現できました。1500枚のアノテーション作業を1週間で完了してもらえました。 脈拍の低下の推定に必要な心拍データについては、オープンデータを利用した。このデータは寝ている状態から運動して休息するという一連の流れを時系列で保持する波形データだ。 「こういう状況でこういう数値であれば生存を疑うレベルに該当すると言って良い」というルールを作るためにこのデータを用いました。心拍データのクレンジング作業には、Viyaのデータ準備機能を使いました。こちらはGUI上で簡単に実行できました。 成果 孤独死抑止ユースケースとして開発したが、事務作業員や建築現場の作業員のヘルスチェック、大規模災害時のトリアージ支援等、多くの応用例が考えられる。結果として技術部門賞を受賞することができた。 非常に名誉なことで会社のみんなや家族・友人もとても喜んでくれました。また、安定したViya環境を好きなだけ触れたことも大きな収穫でした。普段の業務では中々使うことのない機能を使うことができ、勉強になりました。 展望

Analytics
SAS Hackathon 2023 / ハッカソン紹介

Hack SAS! SAS HackathonはSAS社が毎年春に開催する完全オンライン開催のハッカソン・イベントです。参加チームは開催期間の1か月間を使って、自分たちで設定した社会課題やビジネス課題を、SAS Viya(および任意のツール)を使って解決に導きます。エントリーできる部門が複数用意されており、参加チームによって選べるようになっています。2023年は部門が計10個あり、部門ごとの賞に加え、技術賞、特別賞、地域賞の3つの部門横断賞が用意されました。各賞ごとに個別の審査基準が設けられているため、技術レベルを高めるのも良し、ビジネスインパクトを狙いに行くのも良し、等々様々な戦い方があり得ます。なお審査は部門ごとにSAS社員から選ばれたインダストリ・エキスパートが実施するため、常に適正な評価が期待できます。 今年は世界各国から130チーム以上がエントリーしました。受賞チームは9月開催のSAS Exploreに招待されました。その他ハッカソンについての詳しい内容については、EnterpriseZine編集部による日本語のSAS Hackathonについての紹介記事もありますのでご興味があればご覧ください。 ところでSAS Hackathonは他のハッカソン・イベントと比べてどんなところがユニークなのでしょうか?よくあるハッカソン・イベントでは、特定のツールの使い方を試行錯誤を通して学ぶ、であったり、新しいサービスやアプリケーションの開発、などが目的になっていますが、SAS Hackathonでは以下3点を主な目的にしています: ビジネス課題の解決 Data for Goodの観点から、データ分析の結果をより良い社会の実現のために使ってもらう(データ活用による人道支援や社会課題の解決) データリテラシーを備えた人材の育成・輩出・ネットワーキング そしてこれらの目的の先にあるもの、つまりはアプリケーションの開発およびサービス化といった段階における商業化の支援もSAS Hackathonで行います。もちろん、知的財産は参加者が保有します。 様々なオモテナシ 以上の3つの目的を達成するために重要な要素の一つが、組織の垣根を越えたコラボレーションの実現です。その実現を手助けするため、全世界のSAS社員が様々な工夫をして参加者をもてなします。オモテナシ駆動型ハッカソン・イベント、それがSAS Hackathon、と言っても過言ではありません。ではどのようにしてSAS社員はSAS Hackathonの参加者をもてなすのでしょうか? メンターによるオモテナシ イベントにエントリーしたチームにはそれぞれメンターが付きます。メンターはSAS製品やデータ分析に詳しいSAS社員から選ばれ、チームが成功裏にハッカソンを終えられるようサポートします。分からないことがあったら何でもメンターに質問できます。 学習コンテンツによるオモテナシ 普段は有償で提供されているSASのラーニング・コースやオンデマンド学習コンテンツが、ハッカソン期間中は参加者に無償で提供されるため、技術的なキャッチアップやデータリテラシーの習得がやり易くなっています。 分析環境によるオモテナシ 分析環境も無償で提供されます。既に構築済みですぐに使えるSAS Viya環境を使って直ちに分析を開始できます。そこにはJupyter Hubも入っていてPythonやRが使えます。環境構築の手間が要りません。その他、アプリケーション開発を簡便に行うためのツールなども提供されます。詳細はこちらのページをご覧ください。それ以外のツールを使いたい場合は、参加チーム自身で準備することになりますが、基本的にどんなツールを使ってもOKです。 フォーラムによるオモテナシ また、参加チームはSAS Hacker's Hubで他の参加チームと交流したりディスカッションすることができます。参加者同士のネットワーキングの場にもなっています。 自由闊達なムード醸成によるオモテナシ SASと聞くと少々お堅いイメージを持たれる方も多いかも知れません。しかし近頃のSAS社員はオレンジ色のSAS Hackathonフーディーを着て、課題解決のためのコラボレーションの重要性を表現したラップを歌います。   It's more than a competition It's your story told, the goals that

Analytics
~複雑なタスク制御、シンプルな管理~SAS Workload Orchestratorの機能紹介(一)

一、背景の紹介 過去のSAS Viya機能紹介のブログで、クラウドネイティブアーキテクチャを採用したSAS Viyaのユーザーのワークロードのリソース管理の仕組みと方法を紹介しました。これらの機能のほとんどはKubernetesの特徴や機能によって実現されていますが、実は、SAS Viyaにはワークロードの管理を強化する特別な機能が搭載されています。この機能のおかげで、ユーザーは従来に比べてさらに高度で柔軟な負荷管理が可能となり、これによりクラウドのコストを節約し、業務プロセスをより効率的に運用することができます。この記事では、まずこの新しい機能の主な特徴や基本的な動き方を紹介します。 二、機能の特長と価値 ビジネス上の分析業務は、その実行部門や目的、優先順位、データの規模、そして使用される分析手法によって異なる性質を持っています。多様な分析タスクを一つの環境で実行する際、さまざまな問題が生じることが知られています。例えば、低優先度のタスクが計算リソースを占めてしまうこと、あるいはシステム全体に影響するようなエラー、そして計算リソースの不足や無駄などです。 このような問題に答えを提供するのがSAS Viyaの「SAS Workload Orchestrator」という機能です。ここでは、その機能の特長と価値について解説します。 1. コストとアジリティのバランスを最適化 ・キューの優先順位付け: さまざまなワークロードの優先度を定義し、重要なタスクが最初に実行されることを保証します。 ・負荷分散: リソースの使用を最適化し、タスクの適切な分散を実現。 ・Kubernetesでの実行: 現代のクラウド環境に最適化された実行環境。 ・ユーザーの中断を最小限に: 重要な作業の妨げとなる中断を避けます。 2. スループット、可用性、生産性の向上 ・最適な実行順序: 作業の効率とスピードを最大化。 ・並列処理: 複数のタスクを同時に高速で処理。 ・ワークロードの事前中断と自動再開: エラーが生じた場合でも自動でジョブを再開し、データサイエンティストの作業が中断されることなく最良のモデルの構築を続けられる。 3. 管理の簡素化 ・SASのワークロードの集中管理: ポリシーやプログラム、キュー、優先度を一元管理。 ・リアルタイムモニタリング: ジョブの進行状況やリソースの使用状況をリアルタイムで確認。 ・オンプレミスまたはクラウドでの実行: 用途や環境に合わせて選択可能。 結論として、SAS Workload Orchestratorは、高度なビジネスの要件に応じて分析タスクの実行を効率的に行うための強力なツールです。そのグラフィカルなインターフェースを通じて、リソースの一元的な管理が可能となり、ビジネスの生産性と価値を最大限に引き出すことができます。 三、「SAS Workload Orchestrator」の画面と用語定義 それでは、「SAS Workload Orchestrator」の魅力的な機能とその価値を理解したところで、具体的に「SAS Workload Orchestrator」の操作画面や用語について詳しく解説していきましょう。ぜひ参考にしてください。 1.用語定義 SAS

1 2 3 4 5 6 24