SAS Blogs

Analytics

Find out how analytics, from data mining to cognitive computing, is changing the way we do business

Analytics | Learn SAS

Rick WicklinDecember 19, 2023 0

The difference between frequencies and weights in a correlation analysis

Statistical software often includes supports for a weight variable. Many SAS procedures make a distinction between integer frequencies and more general "importance weights." Frequencies are supported by using the FREQ statement in SAS procedures; general weights are supported by using the WEIGHT statement. An exception is PROC FREQ, which contains

English

Analytics

Robinson Cunalata GarciaDecember 18, 2023 0

10 beneficios del Anti-Money Laudering (AML)

Combatir el crimen financiero a través de SAS AML en Viya En la era digital, el crimen financiero se ha convertido en una preocupación global de gran magnitud. Uno de los delitos financieros más prominentes y destructivos es el lavado de activos, un proceso mediante el cual los delincuentes intentan

Spanish

Banking

Analytics | Learn SAS | Students & Educators

Cinzia GianfioriDecember 18, 2023 0

Certificazioni SAS e SAS Academic Specialization per favorire il contatto tra giovani studenti e aziende

Nel corso degli anni SAS ha costruito una solida partnership con il mondo accademico. Oggi collaboriamo con più di 40 università italiane e siamo presenti all’interno di percorsi di studio per formare giovani studenti e studentesse su temi come analytics, intelligenza artificiale e machine learning, stimolando la loro curiosità, il loro senso

Italian

Education

Analytics | Customer Intelligence

Fernanda BenhamiDecember 18, 2023 0

Cultura data-driven e personalização do relacionamento com o cliente

Maturidade de cada setor é diferente, e usar dados de todos os canais, de forma conjunta, ainda desafia gestores As abordagens de uso da tecnologia para relacionamento com o consumidor já são bem conhecidas por organizações que buscam estabelecer uma melhor experiência do cliente e mais eficiência operacional. Este conjunto

Brazilian Portuguese

Banking | Insurance | Retail

Analytics | Cloud

Lindsay MarshallDecember 16, 2023 0

Designing the perfect cloud solution for you

When organizations move to the cloud with a SAS-managed offering, SAS takes care of the design and delivery of software, infrastructure and services so that our customers can focus on using analytics to solve business challenges and see a quick return on investment. That’s where Michael Watson and his team of Technical Architects come in. Michael

English

Analytics

Ryosuke Horiuchi (堀内亮佑)December 15, 2023 0

SAS Hackathon 2023 / チームSunny Compass参加報告

本記事では、Sunny Compass - analysis and suggestion of life satisfactionについて、チームメンバーに直接お話を聞き、背後にある思いやチャレンジなどについて解き明かします。ユニークなチーム結成チームSunny Compassは経済産業省主催のDX人材育成プログラム「マナビDX Quest 2022」（以下、マナビDX Quest）で出会ったメンバーで構成されるシビックテック・チームだ。勤務先や居住地もまったく異なる中、オンライン上で交流し、それぞれの強みや専門性を活かしてデータとテクノロジーを使った課題解決に取り組んでいる。 SAS Hackathon 2023 参加の背景 SAS Hackathonが開催されるという話を聞き、どのようなテーマで取り組むかメンバー全員で話し合った。彼らにとって今回が初めての「ハッカソン」参加となったが、「人生の明るい方向を示す羅針盤になる」という想いをチーム名に込めたチームSunny Compassにとって、人々のウェルビーイングの向上を助ける取り組みをすることはメンバー全員が一致するところだった。データは自前で用意する必要があったため、内閣府の生活満足度調査データを使うことにした。生活満足度調査の分析結果を可視化するモバイルアプリの開発をゴールに設定しました。ユーザーがアプリ上で性別、年齢、そして生活満足度を入力すると、自分が生活満足度の観点でどのくらいの位置にあるのかが分かり、どのような項目・活動に気を配ると更に生活満足度を向上させ得るのか、という改善に向けたヒントを得られる、というものです。生活満足度調査データを使用するためには、内閣府に書面申請をする必要があった。書類審査に1週間程度要したが、市民に有益なアプリ開発のために利用するという点が評価され、無事データの提供を受けることができた。ハッカソンに取り組む上で直面した様々な課題初めての経験最大の課題は、メンバー全員がハッカソンと呼ばれるイベントに参加するのは初めてであり、ハッカソンではどのようなことをすれば良いのか全く想像がついていなかったという点だった。また、メンバー全員がSAS製品を使ったことがなかったこと、モバイルアプリの開発も初めてだったこと、などがその他の課題として挙げられた。完全リモートでのコミュニケーションメンバー全員が対面での面識が全くないところからのスタートだった。そのためグループチャットツールで頻繁に集まり、会話ベースで進捗やタスクを確認し合った。プロジェクトマネジメントの観点でタスクの洗い出しをして割り振るなどということよりも、口頭・テキスト問わずコミュニケーションを密に行って、動ける人が動く、全員が各自今抱えている問題について理解し助け合う、励ます、ということを重視した。マナビDX Questの経験から、メンバー同士助け合うことが何よりも重要ということを全員が理解していたのと、メンバーごとに関連技術の知見・経験が少しずつあって、それを随所随所でうまく活かしたり、メンターの人が付いてくれて質問などに対応してくれたので何とかなりました。具体的な取り組み内容オープンデータを活用内閣府による生活満足度調査のデータには、個人からの回答に基づき、様々な変数とともに、生活満足度が数値で表現されている。満足度が高いほど値が大きくなる。全体的に欠損値が多数含まれていたため前処理が必要だった。これとは別にe-Statから取得した「都道府県・市区町村のすがた（社会・人口統計体系）」というデータも使用した。こちらには都道府県ごとの人口、世帯数、ヘルスケア関連情報、などが入っている。モバイルアプリメインのモバイルアプリの開発では、「どのような項目・活動が生活満足度の向上に役立つのか」という問いに答えられるよう、生活満足度を目的変数とした機械学習モデルを作成した。この機械学習モデルには変数ごとに変数重要度を出力できるタイプのものを採用し、最終的に変数重要度が高い順に上位５つまでの変数（重要変数）を取り出した。これらの重要変数をREST API経由でモバイルアプリから読みに行くという仕組みを作った。 SAS ViyaはREST APIに標準対応しているのでこういった仕組みづくりも無理なく進められました。モバイルアプリ自体はオープンソースライブラリを利用して開発した。アプリの想定利用ユーザーは個人ということにした。ユーザーがアプリ上で性別、年齢、そして生活満足度を入力すると、類似の属性を持つ人の中で自分が生活満足度の観点でどのくらいの位置にあるのか、ということが可視化され、加えてどのような項目・活動に気を配ると更に生活満足度を向上させ得るのか、という改善に向けたヒントを取得できるようにした。可視化ダッシュボード次に可視化ダッシュボードの作成では、想定利用ユーザーを国や自治体の政策立案担当者とし、個人単位ではなくマクロ的な視点でデータを深堀りするための分析ツールというコンセプトに基づいて開発を進めた。モバイルアプリと同じ生活満足度調査データを使っているが、こちらは都道府県ごとに集計し直し、更に都道府県別の統計情報を加味するため、e-Statのデータと結合させたうえで利用した。

Japanese

Advanced Analytics | Analytics

Alexandre CarvalhoDecember 13, 2023 0

Analytics como parceiro na evolução das cooperativas de crédito

No Brasil, cooperativas financeiras têm uma estrutura complexa e autônoma, com centrais espalhadas pelo país e milhões de clientes. Essas instituições são muito ligadas ao setor de agronegócio e têm uma proposta diferenciada, na qual seus associados têm acesso a dividendos e linhas de crédito especiais. Sendo assim, elas desempenham

Brazilian Portuguese | Portuguese

Banking

Analytics | Learn SAS

Rick WicklinDecember 13, 2023 0

Estimate polychoric correlation by maximum likelihood estimation

SAS provides many built-in routines for data analysis. A previous article discusses polychoric correlation, which is a measure of association between two ordinal variables. In SAS, you can use PROC FREQ or PROC CORR to estimate the polychoric correlation, its standard error, and confidence intervals. Although SAS provides a built-in

English

Analytics | Learn SAS

Rick WicklinDecember 11, 2023 0

What is polychoric correlation?

Correlation is a statistic that measures the association between two variables. When two variables are positively correlated, low values of one variable tend to be associated with low values of the other variable. Medium values and high values are similarly associated. For negative correlation, the association is flipped: low values

English

Analytics

鈴木徳太December 8, 2023 0

本当の原因とはなにか：操作変数法（Instrumental variable methods）②

はじめに因果推論コラム・シリーズでは潜在アウトカムモデルに基づく因果推論の解説を行なっています。今回のテーマは操作変数法（instrmental variable methods）です。ある介入AがアウトカムYに及ぼす平均因果効果を推定する手法の1つに操作変数法があります。この手法は、操作変数と呼ばれる変数を利用することで交絡因子を調整することなく平均因果効果を推定する手法です。分野や状況によって交絡因子の特定や測定は困難であることは多く、それらの調整を行う必要がないという点で操作変数法は魅力的な手法です。ただ一方で、共変量調整に基づく因果効果の推定手法では必要とされない仮定が要求されますので、その点ご注意ください。ある変数が操作変数であるための条件は以下の3つです。各条件の詳細や実際にどのような変数が操作変数として提案されているか、操作変数と介入変数の相関が弱い場合に発生する問題については前回のコラムをご参照ください。 ZはAと関連する ZはYに対してAを介した以外の効果を持たない ZとYは共通原因を持たない一般的な誤解として、操作変数法では操作変数が存在さえしていれば平均因果効果の推定が可能であるという認識があります。厳密には、操作変数が存在している場合に操作変数法によって推定可能なのはboundsと呼ばれる平均因果効果が含まれる幅であり、平均因果効果を推定するためには後述する仮定のいずれかが成立している必要があります。また、操作変数に関する3条件に加えて第4の条件としてどちらの仮定を置くかによっても、どのような集団における平均因果効果が推定可能であるかが異なります。本コラムではboundsと呼ばれる因果効果の部分識別について紹介した後、平均因果効果の識別に必要となるhomogeneity、およびmonotonicityについて紹介をします。なお、boundsは信頼区間とは異なる概念であることにご注意ください。 Bounds：因果効果の部分識別このセクションでは本コラムシリーズの参考書籍である『Causal Inference: What If』の具体例を一部改変し、boundsについて簡単に紹介していきます。「集団全員にある介入を行なった場合、行わなかった場合と比較して加法的なスケールで平均的にどの程度効果があるか」を示す平均因果効果E[Ya=1]-E[Ya=0]は、二値アウトカムに関してはPr[Ya=1=1]-Pr[Ya=0=1]と表すことが可能です。ここで、このPr[Ya=1=1]-Pr[Ya=0=1]のとりうる値の下限と上限を考えてみると、集団の潜在アウトカムに関して無情報である場合（データが何も存在しない場合）には、当然のことですが、下限は-1、上限は1です。 Pr[Ya=1=1]-Pr[Ya=0=1]=-1（下限） Pr[Ya=1=1]=0：介入を受ける場合の潜在アウトカムはすべての被験者に関して0 Pr[Ya=0=1]=1：介入を受けない場合の潜在アウトカムはすべての被験者に関して1 Pr[Ya=1=1]-Pr[Ya=0=1]=1（上限） Pr[Ya=1=1]=1：介入を受ける場合の潜在アウトカムはすべての被験者に関して1 Pr[Ya=0=1]=0：介入を受けない場合の潜在アウトカムはすべての被験者に関して1 すなわち、二値アウトカムに対する無条件での平均因果効果が含まれる幅（bounds）は[−1,1]です。例えば、集団が20名で構成されているとすると、下限と上限になる潜在アウトカムの状況は下図の通りです。ここで集団（の一部）に関して実際にデータが得られた時、一致性の下でboundsはより狭く考えることが出来ます。これは、データとして一部の被験者らの潜在アウトカムYa=1, Ya=0の情報が得られるため、未知の部分に対して最も極端な場合の値を代入することによって下図のように下限と上限を計算することが出来ます。なお、アウトカムが二値変数ではなく連続変数である場合にboundsを計算するためには、アウトカムが取り得る最小値と最大値を指定し、二値変数の場合と同様に代入する必要があります。また余談ですが、boundは前回のコラムで紹介した集団レベルでの除外制約 (condition (ii)) とmarginal exchangeability (condition (iii)) が成立する操作変数Zが存在する場合にはboundsをより狭く考えることが可能です。この場合のboundsはnatural boundsと呼ばれ、その幅はPr[A=1|Z=0]+Pr[A=0|Z=1] となり、データのみから識別されるものよりも狭くなります（Robins 1989, Manski 1990）。加えて、marginal exchangeabilityではなくjoint exchangeabilityが成立する場合には、さらに狭い幅となるsharp boundsを識別することが可能です。さらに追加の仮定を置くことでより狭いboundsが計算することができることも示されています（Richardson, Evans and Robins 2011）。しかし、上記のようなboundsは、一般には因果効果として用いる指標のnull value（e.g., E[Ya=1-Ya=0] であれば0）を含むかなり広い幅となり、有用でないことの方が一般的です。第4の仮定：homogeneity（同質性）

Japanese

Analytics | Artificial Intelligence

Hyeshin HwangDecember 8, 2023 0

SAS, 2024년 AI 시장 및 기술 전망 발표

산업별 당면 문제 해결과 맞춤형 첨단 서비스 제공에 AI 활용도 증가 AI 관련 신규 일자리 창출과 직원 업무 성과 지원, 기업 의사 결정에 긍정적인 영향 줄 것 AI는 이제 더 이상 미래 공상 과학 이야기가 아닌 우리 삶 속의 현실이 되어 버렸습니다. 앞으로 AI 기술은 어떤 모습으로 변화, 발전할

Korean

Analytics | Artificial Intelligence

Keun-Tae KimDecember 8, 2023 0

성공적인 AI 구축의 필수 요건, Trustworthy AI 만들기

많은 사람들이 AI의 엄청난 잠재력에 대해 듣고 있으며 AI의 활용에 대해 높은 관심을 가지고 있습니다. 하지만, 최근 들어 AI에 대한 부정적 보도들이 많아지고 있으며, AI를 통한 의사결정에 대한 우려도 커지고 있습니다. AI를 도입하고자 하는 조직의 입장에서는 잘못된 AI의 적용으로 회사의 이름이 뉴스 헤드라인을 장식하는 것을 원하지 않습니다. 또한 차별이나 불공정한

Korean

小林泉December 8, 2023 0

データ分析プロセス全体を管理～自己組織的に育てるナレッジのカタログ化とは

自己組織化とは、自然界において個体が全体を見渡すことなく個々の自律的なふるまいをした結果、秩序だった全体を作り出すこと 2010年から存在した解決アイディアがついに実現可能に今から遡ること十数年前の2010年頃、支援をしていた大手製造業の会社ではすでにデータ分析スキルの社員間でのばらつきと組織全体のスキルの向上、データ分析作業の生産性の向上、人材のモビリティへの耐性としてのデータ分析業務の標準化が課題となっていました。当時ご相談をいただいた私を含むSASの提案チームは、SASが提供するアナリティクス•ライフサイクル•プラットフォームを活用することで、その問題を支援できることがすぐにわかりました。つまり、ビジネス課題から始まり、利用データ、データ探索による洞察、データ加工プロセス、予測モデリングプロセス、モデル、そしてそれをアプリケーションに組み込むディシジョンプロセスという、一連のアナリティクス•ライフサイクルにまたがるすべての作業を電子的に記録し、全体のプロセスそのものをモデリングし、利活用することで、自己組織的にナレッジが蓄積され、且つ活用されるということです。しかし、当時のSASだけではない周辺のIT環境、すなわちPCやアプリケーションアーキテクチャなどのインフラ、データの所在、セキュリティ管理などがサイロ化していること、またSAS以外のModelOps環境もシステムごとにアーキテクチャがバラバラすぎたこと、また、お客様社内のデータリテラシーそのものもまだ課題が多かったため、SASを中心としても、実現にはあまりにも周辺の開発コストがかかりすぎたために、提案を断念しました。時代は変わり昨今、クラウド技術の採用およびそれに伴うビジネスプロセスの変革と標準化が急速に進んでいます。それに歩調を合わせるように、SASの製品も、上記の当時から市場をリードしてきたMLOpsフレームワークをDecisionOpsへと昇華させ、クラウド技術を最大活用すべく、クラウドネイティブなアーキテクチャおよび、プラットフォームとしての一貫性と俊敏性を高めてきました。そしてついに最新版のSAS Viyaでは、アナリティクスライフサイクル全体にわたり、データからデータ分析プロセス全体の作業を電子的に記録し、管理し、活用することが可能となりました。自己組織的にナレッジを蓄積活用するデータ分析資産のガバナンス昨今のデータマネージメントの取り組みの課題詳しくはこちらのブログをご参照いただきたいのですが、多くのケースで過去と同じ過ちを繰り返しています。要約すると、データ分析文化を醸成したい、セルフサービス化を広めたいという目的に対しては、ある1時点のスナップショットでの完成を目的としたデータカタログやDWH/DMのデータモデル設計は問題の解決にはならないということです。必ず5年後にまた別の担当者やプロジェクトが「これではデータ分析しようにもどのデータを使えばわからない、問題だ、整備しよう」となります。では解決策はなんでしょうか。静的な情報を管理したり整備するのではなく、日々変わりゆく、どんどん蓄積され、評価され、改善、進化し続ける、データ分析業務に関わるすべての情報を記録統制することです。つまり、以下の三つのポイントを実現することです。各ポイントの詳細は後段でご紹介しています。ポイント①あらゆるデータ分析資産（ナレッジ）を管理ポイント②データ品質管理の自動化・省力化とガバナンスポイント③社内ソーシャルの力による自己組織的情報の蓄積まずは、それぞれが何を意味しているかを説明する前に、これらを実現するとどのような世界になるのかをユーザーの声によって示してみたいと思います。個々の自由にデータ分析をしているユーザーによる行動を記録することで、全体を見渡している誰かがヒアリングや調査をして情報を管理することなく、データ分析がどのように行われているかを管理・共有・再利用が可能となるのです。誰が、どのような目的で、どのデータを、どのように使用したのか、そしてその結果はどうだったのか？このアプリケーションの出した判定結果の説明をする必要がある。このモデルは誰が作ったのか？どのような学習データを使用したのか？どのようなモデリングプロセスだったのか？よく使用されるデータはどれか？　そのデータはどのように使用すれば良いのか？注意事項はなにか？データ分析に長けた人は誰か？誰が助けになってくれそうか？企業全体のデータ品質はどのようになっているか？　データ品質と利用パターンのバランスは適切か？誤った使い方をしているユーザーはいないか？など従来、社内勉強会を開催したり、詳しい人を探し出してノウハウを聞いたり、正しくないことも多い仕様書をひっくり返してみたり、そのようにして時間と労力をかけて得られていたデータ分析を自律的に行う際に重要となる社内ナレッジが、自己組織的に形成されるということです。「情報資産カタログ」とは～一般的な「データカタログ」との違いこのような世界を実現する機能をSASでは、「情報資産カタログ」と呼んでいます。データ分析プロセス全体を管理・検索・関連付け・レポートできるようにするテクノロジーです。一般的に言われる、また多くの失敗の原因になる、「データカタログ」と対比するとその大きな違いが見えてきます。こちらのブログでも述べましたが、データ分析者がセルフサービスでデータ分析を実践したり、初学者がなるべく自分自身で情報収集して、まずは標準的なデータ分析作業をマスターしたりするためには、既存ナレッジを活用する必要があります。一方で、そのようなナレッジは従来一部の優秀なデータ分析者に聞かないとわからなかったり、あるいはITシステム部門に質問して回答までに長い時間を要してビジネス機会を逸してしまう、という結果を招いていました。既存ナレッジとは、どのようなデータを、どのような意図で、どのような目的で、どのように使い、どのようなアウトプットを得たかという一連の「考え方とやり方」であり、これは管理者が一時的にデータ分析者にヒアリングして「データカタログ」を整備して終わり、というものではなく、日々データ分析者たちの中で自律的に情報が作られていくものです。ポイント①あらゆるデータ分析資産（ナレッジ）を管理 SAS Viyaでは、上述のアナリティクスライフサイクル各ステップのオブジェクトがすべて一元的に記録・管理されます。日々、新しく作られるレポート、データ加工プロセス、作成されるデータマートの情報が、自動的に管理され検索対象になっていきます。このようにアナリティクス・ライフサイクルの各ステップをすべて管理することで、データ、そのデータを使用しているレポート、そのデータを使用しているデータ加工フロー、その出力データ、さらにはそれを学習データとして使用している予測モデリングプロセスと作成されたモデル、これらを関連付けて見ることが可能となります。それにより例えば、ある目的に使用するデータを探している場合、参考にする業務名やプロジェクト名で検索をすることで、関連するレポートや、データ加工プロセスにたどり着き、そこから使用データやそのデータの使い方にたどり着くという効率的な情報の探し方が可能となります。もちろん、この機能は昔からあるインパクト・アナリシス機能として、ITシステム部門が、データへの変更の影響調査ツールとして使用することも可能です。ポイント②データ品質管理の自動化・省力化とガバナンスデータ分析を組織的に行う際に気にすべきポイントの一つは、その正確性です。正しいマスターデータを使用しているか、適切な品質のデータを使用しているかは、最終的なアクションや意思決定の精度すなわち収益に影響します。また、結果に対する説明責任を果たすうえでもアクションに使用したデータの品質は属人的ではなく、組織的に管理されている必要があります。またデータ品質を組織的に管理することにより、データ分析の最初に行っていた品質確認という作業が省力化できます。また、属人的に行っていた品質確認作業も標準化されるため、組織全体のデータ分析作業の品質が向上します。あるお客様では、DWHに格納するデータのETL処理において施すべき処理が実施されていないというミスがあるものの、データの数やETL処理があまりにも多いためそのミスを発見することが困難であるという状況にありました。網羅的な品質管理および品質レポートによってそのようなミスの発見が容易になります。ポイント③社内ソーシャルの力による自己組織的情報の蓄積前述のポイント①により基本的にはデータ分析者個人個人の自律的な活動が自動的に記録され、自己組織的に組織全体のナレッジとて蓄積され共有・再利用可能な状態が作られます。これは、データ分析者個人個人が特に意識しなくても自動的に実現できます。それに加えて、さらに意識的にこのプラットフォームを利用することで、蓄積されるナレッジに深みが増します。例えば、あるビジネス課題をデータ分析で解決使用する場合のスタートは、「問い」です。上述のアナリティクス・ライフサイクルの一番左のスタートにあるものです。その際には、仮説設定をするためや仮説を検証する目的で、様々な角度から「データ探索」を行います。この初期のデータ探索プロセスは、その後のデータ加工やモデリングの根拠になっているため、ナレッジとしてまた説明責任の材料としてはとても重要になります。必ずしも最終的に使用したデータと同じデータを使うとも限らないので、自動的には他のデータ分析資産とは関連づきません。そのような探索プロセスも下記の図のように、同じプロジェクトフォルダに保存しておくことで、関連オブジェクトとして活用することが可能となります。また、プロアクティブに自信が使用したデータやレポートにコメントや評価を付与することで、より価値の高いナレッジへと育つことになります。昨今企業内SNSなどで、オフィスツールの使い方などノウハウを共有をされている企業・組織もあるかと思います。それを全社規模のアナリティクス・プラットフォームで行うことで、データ分析に関わるナレッジをユーザー同士で培っていくイメージです。まとめ「このデータはこの目的に使えますか？」「あ、それはこの情報がないので使えないんですよ。こちらのデータを私は使ってますよ」データ分析者の間でよく交わされる会話です。この問いにいかに迅速に答えられるかが、データ分析の効率性と正確性を高めます。「情報資産カタログ」はまさにこの問いに答えるための機能なのです。

Japanese

Analytics | Data Management

小林泉December 7, 2023 0

ようこそ古くて新しいデータマネージメントの世界へ～カギは自由と統制

ようこそ古くて新しいデータマネージメントの世界へ 2023年、DMBOK（データマネージメントの知識体系を網羅的にまとめたもの）という用語を改めて聞く機会が多くなりました。おそらくこれはアナリティクス（データ分析に基づくより良い意思決定の実践）の近年のブームで、新たにアナリティクス活用に踏み出し、ようやくビジネスに直結する使い方をするようになった企業・組織があらためてデータマネージメントの重要性に気付き始めたからだろうと推察します。また一方で、クラウドシフトに伴いクラウドストレージの活用とともに、これまで蓄積していなかったデータを蓄積し始めたり、これまでのデータウェアハウスを一新する形で、データレイク／データウェアハウスを再構築するなど、従来からアナリティクスを活用していた企業もまた同様に、データマネージメントについて改めて考えているようです。 20年以上前からアナリティクスを競争優位の源泉としていた企業では、データマネージメントが大きな一つの関心ごとでした。その後、テクノロジーの進化によって、ソースデータのビッグデータ化（Volume, Variety and Velocity）や、ストレージ技術の進化、そしてアナリティクス・プラットフォームの進化によってITシステムに対するビジネスニーズも変化しました。また、消費者市場の変化や、データサイエンス人材の爆発的な増加といった市場の変化も目覚ましいものがあります。このような変化の中、近年あらたにアナリティクスの活用に踏み出しはじめた多くの企業だけでなく、従来、競争優位の源泉にしてきた高成熟度企業においても、データマネージメントの課題への遭遇と解決にむけて取り組んでいます。いきなりですが、もっとも頻繁にお伺いする課題について過去も今もお客様から聞く課題で最も多いのは、「作ったけど使われないデータウェアハウスやデータマート」です。そもそも、使われる／使われないというクライテリアそのものをもう少し注意深く定義する必要はあるとは思いますが、ITシステム部門主導で利用目的をないがしろにしたデータ基盤構築プロジェクトは往々にしてそのような結果になるようです。例えば、ＩＴシステムサイドの都合で蓄積データの種類・期間や粒度を決めてしまうことで、データ分析要件を満たさないという結果になったり、データの出自や性質・品質や使い方のガイドがないために、データはそこにちゃんとあるのにユーザーから利用を敬遠され、別の独自のデータが作り出されたり、作成の要求が来たりしてしまいます。本ブログでは、このような結果に陥らないために意識すると良いと思われることをお伝えしていきます。もっとも簡略化したデータマネージメントの歴史アナリティクスに特化したデータマネージメント考察の第一期ーHadoopの到来 2015年以前はダッシュボードや定型レポート、一部の大規模なデータ分析処理用にRDBMSやデータベースアプライアンスが構えられるのみで、アナリティクス用途としてはSASデータセットやフラットファイルでの運用が主でした。これはアナリティクス的なデータ加工および統計解析・機械学習ワークロードに適したテクノロジーが世のなかにはあまりなかったからです。Hadoopの登場により、アナリティクス用途でのデータ活用が一気に拡大し、パフォーマンスやスケーラビリティの制約から解放されました。一方で、従来のように目的を先に決めてデータマートを先に設計してという方法では、アナリティクスによる効果創出が最大化されないという課題も見えてきました。このHadoopの登場は、アナリティクスのためのデータマネージメントの変革の最初のタイミングだったと思います。詳しくは2015の筆者のブログをご興味があればご参照ください。アナリティクスの効果を最大化するデータマネージメント勘所 Hadoopだからこそ必要なセルフサービス－そしてアダプティブ・データマネジメントの時代へデータマネージメント第二期ークラウドデータベースへのシフト 2015年以降のAIブームによりアナリティクス市場が一気に拡大するとともに、アナリティクスをビジネス上の収益向上、コスト削減、リスク管理に役立てている企業では、データマネージメントの話題が再熱しています。不思議なのは、いや、多くの企業の機能別組織構造では仕方ないのですが、アナリティクスのために良かれと思って取り組んでいるデータマネージメントの課題は、多くのケースで、最終的にアナリティクスを活用して企業の経営に役立てるという目的が忘れ去られてしまいます。そもそも、アナリティクスのためのデータマネージメントの目的ともすると手段が目的化しがちなのがITシステムのプロジェクトです。まず、アナリティクスのためのデータマネージメントに何が求められているかを改めて掲げてみますが、そのまえに、そもそもデータマネージメントが課題になるのは、なぜでしょうか？　ここでは昔も今もその構図が変わっていない世のなかの状況について共有します。なぜ、データマネージメントタスクに80%も費やしていのでしょうか。ビジネスにおけるデータ分析の多くは、そもそも実験計画やマーケティング調査とは異なり目的に対してデータを生成・収集しているわけではありません。多くのケースでは、目的に対してそもそもその目的用に計画したわけではないが入手可能なデータを無理やり当てはめています。この目的と手段のギャップを埋める作業が非常に多くの時間とコストを要します。たとえば以下の例で考えてみてください。製造業において生産設備の中の状態を正確に理解したいが、技術的・コスト的な制約で限定的な精度のセンサーを限定的な場所に設置して、状態の一部を前提条件付きで収集したデータを使うしかない顧客の購買ニーズを知りたいのだが、店舗ごとの実験は難しいので、欠品情報や潜在的なニーズが表現されていない、過去の活動の結果というバイアス付きのPOSデータを使うしかないこのように目的外で収集されたデータを、ある特定の目的のために使えるように評価・加工しなければいけないので、多くの時間をこのデータ準備に割く必要が生じてきます。では、データマネージメントの取り組みはどこを目指せば良いでしょうか？データ分析者のため、を考えると必然的に以下のポイントが浮かび上がります。目的に沿ったデータを準備することデータ分析による意思決定において、社会的責任とビジネス上の意思決定の精度を高めるため、品質を担保し、バイアスを理解し、データの生成過程（入力バイアスや基幹システム仕様と業務ルール）を理解し、適切な利用方法を確認する SQLだけでは非生産的な自由自在なデータ加工データはその利用手法すなわち、統計解析、機械学習、ディープラーニング、自然言語解析、画像解析などによって、手法や使用ツールの仕様に応じて、また、処理パフォーマンスの観点も含めて、自由自在に加工する必要があるビジネススピードを阻害しないパフォーマンスや処理時間アナリティクスを競争優位に活用している企業では、24/365常に様々なデータ加工処理が、バッチ、リアルタイム、オンラインで実行されている。これら様々なワークロードを優先度とコスト効率よく、ITシステム部門が特別なチューニングやスケジューリングや、エラーによる再実行をしなくとも、業務スピードに合わせたパフォーマンスで、安定して実行可能な基盤が不可欠データマネージメントの取り組みで失敗に陥りやすい行動前述の目的を簡単に言い換えると、データ分析者が何か課題を解決したいと思ってからがスタートで、そこからいかに短時間で正しいデータを特定し、評価し、加工して目的の形に持っていくかが大事であるということになります。つまり、データを物理的にどこに配置されているかに関わらず、データへのアクセス性、評価や加工の俊敏性などが需要であることになります。また、その理解に基づくと、以下のような取り組みはデータマネージメントの目的に沿っておらず、俊敏性や正確性、拡張性を損なう「硬直化」の原因になっていることが多く見うけられます。「データ統合」を目的化してしまう 1つのデータベースに格納するデータの範囲を決めようとする汎用的なデータモデルを設計しようとする変化を前提としないマスタデータ統合をしようとする変化し続けるビジネス状況のなか、管理対象のデータは常に変化し続けるため、これが「完成」というゴール設定での取り組みは、破綻します。ある大手製造業では何十年にもわたり「ある一つの固定的なゴール」を目指したマスタデータの整備を続けた結果ようやく「マスタデータは時代とビジネスに合わせて常に変化する」と気づき、当初のプロジェクトをストップさせた、という事例もあります。また、取得可能なデータはテクノロジーの進化によって変わります。後で使うかもしれないからと「念のため」蓄積を開始したデータであっても、5年後には使い物にならないデータかもしれません。「データマートを整備」しようとするスナップショット的なニーズに対応するデータマートを作ろうとする目的別データマートは目的ごとに存在するにもかかわらず、データマートが多数あることを問題視してしまうデータマートの品質（正確性、一貫性、説明性）を気にしていないデータマートを固定化するということは目的を固定化することに他なりません。一方でデータ分析を広めるということは、より多くの異なる目的に対してデータ分析を実践することで、矛盾しています。データマートが散在しているという課題感は、本質的にはデータマートがたくさんあることが問題なのではなく、そこでどのようなデータ分析が行われているのか、その品質すなわち、正確性・一貫性・説明性のガバナンスが効いてないことにあります。この本質的な課題解決は別の手段で解決すべきです。「データ・ディクショナリを整備」しようとするデータ分析者にとって良かれと思いＩＴシステム側でスナップショット的なメタデータを定義するデータ基盤開発初期にのみ、データ分析者からヒアリングしてメタデータを定義するデータの出自、仕様、生成元の情報、使い方、品質、評価などの情報が管理されていないデータ・ディクショナリを作ったけどデータ分析者にとって有用な情報が定義されていなかったり、継続的なメンテナンスがされなかったりすることがほとんどです。データ・ディクショナリの目的は、データ分析者により迅速にデータを特定・評価・利用してもらうことなので、その目的達成のためには、より有用な情報を異なる方法で蓄積・管理するべきです。データマネージメント課題の解決の視点は、自由と統制原理・原則および、網羅的な知識体系はDMBOKに体系的にまとめられているのでそれは頭に入れてください。そのうえで、データ分析によるビジネス価値創出のための、筆者の経験に基づくデータマネージメント課題の解決のためには、自由と統制のバランスをとることだと考えます。これにより、従来、繰り返しているデータマネージメントの失敗を乗り越え、自己組織的に育つ企業・組織のデータ分析文化の醸成にようやく一歩を踏み出せることになります。データ分析者の自由度を最大化する（ITシステム部門がボトルネックにならないようにする）あらゆるデータソースに自由にアクセスできるようにする。データの種類や利用目的によって最適なデータ格納方法は変わる。どのような形式でデータが格納されていてもデータ分析ツールから自由にアクセスできるようにすることが重要

Japanese

Analytics | Artificial Intelligence | Students & Educators

Edwin van UnenDecember 6, 2023 0

Het belang van Data Literacy op School: Een reis door de wereld van AI

In Nederland leggen we sterk de nadruk op lezen en schrijven in het onderwijs, maar waarom zouden we niet hetzelfde doen voor technologie? Kennis van analytics en AI zou net zo verplicht moeten zijn als wiskunde. Data literacy, het vermogen om informatie uit data te begrijpen en te gebruiken, wordt

Dutch

Analytics | Risk Management

Hyeshin HwangDecember 6, 2023 0

기업 리스크 데이터, 이제 ‘KRIS’로 확인하세요!

국내 2,200개 상장사 포함 전세계 42,000개 상장기업에 대한 리스크 정보 제공 기업 부도 확률, 거시지표 민감도, 신용 등급, 채권 등급 등 분석 정보 포함 신청 기업에게 심사 과정 거쳐 30일 무료 체험 기회 제공 SAS코리아는 지난 10월 19일 국내 금융 및 투자사 임직원들을 모시고 급변하는 경제 환경에서 기업의 리스크

Korean

Banking

Analytics | Learn SAS | Programming Tips

Rick WicklinDecember 4, 2023 0

Bivariate normal probability in SAS

A previous article discussed how to compute probabilities for the bivariate standard normal distribution. The standard bivariate normal distribution with correlation ρ is denoted BVN(0,ρ). For any point (x,y), you can use the PROBBNRM function in SAS to compute the probability that the random variables (X,Y) ~ BVN(0,ρ) is observed

English

Analytics

Lindsay MarshallDecember 1, 2023 0

You’re in safe hands with a SAS managed offering in the cloud

Some organizations need advanced analytics that is customized, configured and managed off-site. That’s where the SAS-managed offerings come in. Ever wondered what it takes to get a SAS managed application services (MAS) project implemented and supported continuously? That’s where Jenny Welsh comes in. She’s the Senior Director of Cloud Customer Experience. Jenny and her teams

English

Analytics

侯鈞 (Hou Jun)November 30, 2023 0

データ分析効率化の秘訣：SAS ViyaとAzure Synapseの高速データ転送方法の紹介

1.背景データ管理と分析の世界では、効率的かつ迅速なデータの転送と書き込みは極めて重要です。特に大規模なデータウェアハウスサービスを利用する際には、このプロセスの最適化が不可欠です。Azure Synapse Analyticsは、そのようなサービスの一つとして注目を集めており、SAS Viyaを使用する多くの企業やデータアナリストも、より効率的なデータハンドリングを追求しています。 SAS ViyaのユーザーはSAS/ACCESS to Microsoft SQL Serverを使用してAzure Synapseにデータを転送および書き込む際に、より高いデータ書き込み効率と転送速度を求めるのは当然です。データ処理能力をさらに強化し、書き込み効率を高めるために、SAS Access to SynapseのBulkLoad機能は非常に優れた選択肢です。BulkLoad機能はデータの書き込み速度を大幅に向上させるだけでなく、Azure Data Lake Storage Gen 2（以下、ADLS2と称する）を利用して、安定かつ安全なデータストレージおよび転送環境を提供します。ただし、BulkLoad機能を使用する際にはADLS2の設定と構成が関わってくるため、構成および使用のプロセスが複雑に感じられたり、疑問が生じたりすることがあります。このブログの目的は、管理者およびユーザーに対して、明確なステップバイステップの設定プロセスを提供し、構成の過程で見落とされがちなキーポイントを強調することで、設定時の参考になるようにすることです。以下は本記事内容の一覧です。読者は以下のリンクをで興味のあるセクションに直接ジャンプすることができます。 2.Bulkload機能について 3.BULKLOAD機能を利用するためのAzure側で必要なサービスの作成 3-1.Azure Data Lake Storage (ADLS) Gen2のストレージアカウントの作成 3-2.ストレージアカウントのデータストレージコンテナの作成 3-3.ストレージアカウントの利用ユーザー権限の設定 3-4.データ書き込み用のSASコードの実行 3-5.Azureアプリの設定 4.SAS Viya側の設定とAzure Synapseへの接続 4-1.SAS Studioでの設定 4-2.Azure SynapseのSQLデータベースをSASライブラリとして定義 4-3.Azure Synapseへデータの書き込み 2.Bulkload機能についてなぜSAS ViyaがBulkload機能を使用してAzure Synapseに効率的にデータを書き込む際にADLS2サービスが必要なのか、そしてそのプロセスがどのように行われるのかを説明します。 Azure Synapse Analyticsは、柔軟性が高く、高いスループットのデータ転送を可能にするために、COPY

Japanese

Analytics | SAS Events

factory worker scans large roll of paper

Alison BolenNovember 29, 2023 0

Georgia-Pacific VP on building resilience in the era of disruption

If the last few years have taught us anything it’s this: business disruptions are not rare events. They are the norm. Today’s business leaders are grappling with logistics nightmares, economic upheaval, evolving consumer preferences, rapid technological advancements, regulatory changes, and armed conflicts. While it’s not possible to plan for every

English

Manufacturing

Analytics | Programming Tips

Rick WicklinNovember 29, 2023 0

Bivariate normal probability in SAS: Rectangular regions

This article shows how to use SAS to compute the probabilities for two correlated normal variables. Specifically, this article shows how to compute the probabilities for rectangular regions in the plane. A second article discusses the computation over infinite regions such as quadrants. If (X,Y) are random variables that are

English

Analytics | Data Management | Fraud & Security Intelligence

Yuri RuedaNovember 28, 2023 0

Crimen organizado, narco y remesas, principales fuentes de crímenes financieros en México: SAS

Los crímenes financieros, dentro de los que se ubica el lavado de dinero, provienen en su mayoría de fenómenos como el crimen organizado y el narcotráfico en México. Y una de sus manifestaciones más complejas es el envío de remesas, en las que se dificulta hacer un análisis de riesgo,

Spanish

Government

Advanced Analytics | Analytics | Artificial Intelligence

Sandra HernandezNovember 27, 2023 0

Capacidades analíticas: entre las principales habilidades a desarrollar por los CXO para triunfar en la era de la IA generativa

Lo vivido por la humanidad en los últimos años transformó la manera en que las empresas interactúan con sus clientes, cambiando sus hábitos, comportamientos y expectativas de forma permanente. En la actualidad, las empresas que han logrado adaptarse a estos cambios en el comportamiento del consumidor son las que tienen

Spanish

Communications

Analytics | Data Visualization | Programming Tips

Rick WicklinNovember 27, 2023 0

An example of finite-precision issues in a simple collinearity algorithm

The collinearity problem is to determine whether three points in the plane lie along a straight line. You can solve this problem by using middle-school algebra. An algebraic solution requires three steps. First, name the points: p, q, and r. Second, find the parametric equation for the line that passes

English

Analytics | Data for Good

Nicholas QuirkeNovember 27, 2023 0

2 paths to the top: How analytics gives students the professional edge

The global demand for analytics talent persists, with organisations facing challenges finding qualified individuals to support their growth. McKinsey’s recent survey revealed a significant shortage of skilled practitioners for the most in-demand tech skills, with less than 50% of the required professionals available worldwide. Despite the well-known STEM skills gap,

English

Education

Advanced Analytics | Analytics | Artificial Intelligence | Data Management | Risk Management

Luis BarrientosNovember 21, 2023 0

¿Cuáles son los retos de las entidades financieras de Guatemala para la Administración del Riesgo de Crédito?

Desde el pasado 1 de enero del 2023, en Guatemala entró en vigor la resolución JM-47-2022 de la Junta Monetaria. Esta, explicaron expertos, constituye el nuevo reglamento para la Administración del Riesgo de Crédito que las entidades financieras reguladas deberán utilizar en el país. Específicamente, el objetivo principal de esta

Spanish

Banking

Analytics

Albert QianNovember 15, 2023 0

SAS Decision Builder integration with Microsoft Fabric opens a world of opportunities

It’s easy to get overwhelmed by an onslaught of customer data. With so many data points, organizations need to find and effectively utilize the insights that help them better serve their customers. AI has only increased the stakes, creating more pressure to develop delightful customer experiences, build operational efficiencies and

English

Analytics

Alexis MallisNovember 15, 2023 0

How SAS® users are benefiting from the career versatility of data analytics

More than spreadsheets and formulas, data analytics combines technology, creativity and strategic thinking to help diverse industries make innovative discoveries and leave an impact where it matters most. Even historically, non-technical industries like agriculture, for instance, are tapping into data management and visualization to predict and reduce their carbon footprint

English

Education

Analytics | Fraud & Security Intelligence

John MaynardNovember 13, 2023 0

Medicaid program integrity means more than fighting fraud

Medicaid program integrity, in simple terms, is a program that ensures that the funds allocated for Medicaid are used appropriately, that patients receive the care they deserve and that resources aren’t mishandled. But consider this staggering fact: In 2020, the Centers for Medicare and Medicaid Services (CMS) reported that Medicaid

English

Previous 1 2 3 4 5 … 141 Next