Uncategorized

Analytics | Students & Educators
0
データアナリティクスにおける統計学の必要性

現代において統計学は様々な分野で利用されており、データアナリティクスとは切っても切れない関係にあります。しかし、実際にデータアナリティクを行う人すべてが、その内容を適切に理解しているのでしょうか。「有意差がつくかどうかとりあえず検定を行ってみる」、「集めたデータ全てをモデルに組み込んでみる」このような経験を持つ方も実は多いのではないでしょうか。分析に用いる手法の仮定や限界、その他解釈や留意事項への理解がないまま行われるデータアナリティクスは、誤った解釈を生む可能性があります。しかし、実社会においては、統計学はその活用事例が注目されがちであり、適切ではない事例が身の回りにあるというのもまた事実です。データアナリティクスを行う側としても、その結果を受け取る側としても、統計学を一般教養として学んでみてはどうでしょうか。 今回紹介するのは、e-learningコース「Statistics 1: Introduction to ANOVA, Regression, and Logistic Regression」です。統計学を学ぶ時に、学習がうまく進まない一つの理由として、各種内容が実際にどう活用されるか、そのイメージがつかないという声を多く耳にします。本コースは純粋な統計学の知識だけでなく、そのような具体的なデータアナリティクスに至るまでの「何を目的とするのか」、「目的によってどのような手法が適切であるのか」といった「データリテラシー」に関する内容も潤沢に用意されているため、一環した流れの中で学習を行う事ができます。このような何のために統計学を学ぶ必要があるのかという点は、どうしても”学問としての”統計学の学習の際には意識がされないため、統計学を初めて学ぶ方だけではなく、簡単にその内容を触れたことがある中級者の方にも最適な学習教材です。 統計学は「記述統計学」と「推測統計学」に分類されます。前者はデータの持つ特徴(最大値、平均など)を記述し、整理することによって、そのデータ自体への理解を行おうというものです。それに対し後者は、データをとある大きな集団からのサンプルであると仮定し、データからその大きな集団(母集団)の持つ特徴について、推測を行うものです。ここでは、実際に推測統計学でよく用いられている「統計的仮説検定」と「統計モデル」という、2つの手法について紹介します。これらについてもコース中ではより詳細に、活用されている事例とともに紹介されているので、ご興味のある方はぜひ一度コースに登録・受講してみてください。登録手順はこちらの以前の記事を参照ください。   統計的仮説検定 ある大きな集団(母集団)に対しその特徴を知りたい場合、すべてのデータを得ることができるのは非常に稀です。例えば、日本国民全員があるテレビ番組Aを見ているかどうかの情報を得ることは、労力的にも、費用的にもほぼ不可能です。統計的仮説検定はそういった場合に、標本である一部のデータを用いて、母集団に対する特定の仮説が成立するか否かを、背理法的に判断する方法です。先のテレビ番組の視聴率調査は、実際にこの考えに基づくものであり、よく見かける視聴率はおおよそ1万世帯のデータをもとに、統計的に推定されています。検定の手順は以下の通りです。 母集団に対し、帰無仮説とそれに対応する対立仮説の計2種類の仮説を設定する 帰無仮説の下で、得られたデータ(とそれ以上に極端な結果)が得られる確率(P値)を計算する 事前に設定した基準(有意水準)とその確率を比較する 基準よりも確率が低いのであれば、そもそも帰無仮説が妥当ではないと判断する(帰無仮説を棄却) 統計学でよく誤解を生みやすい「P値」というものが利用される内容になります。仮説検定は非常によく用いられる方法ですので、自分でどういった手順で検定は行われているのか、その解釈はどう行えばいいのか、を説明できない方は受講してみることをお勧めします。   統計モデル データから母集団の特徴について推定を行う場合には「統計モデル」というものが用いられます。このモデルはなぜ必要なのでしょうか?ここで、日本人の男性と女性の身長について、それぞれ推測をするという例を考えます。また、現実に得られるデータは、男性のみデータだけだとします。すると一つ問題が生じます。それは「女性については推定を行うことができない」ということです。男性については、得られたデータが男性50名の身長データですので、妥当な推定が可能です(ここにも男性の身長分布は正規分布であるという仮定は置きます)。しかし、女性の身長について推定を行おうとしても手元には男性のみのデータしかないため、推定ができません。もし何の仮定もなければ、男性の身長データを女性の身長の推定のために用いることは妥当ではありません。ではここに、『女性の身長の分布は男性の分布より10cm低く、分布の形状は同じである』という仮定があるとどうでしょうか?(いくつかの調査によると期待値としては12~13cmほど低いそうですが) 上記の仮定があるのであれば、男性の身長分布から女性の身長分布が想定可能なので、男性のみのデータからデータには含まれていない女性についても推定を行うことが可能になります。つまり、「統計モデル」とは観測されたデータにはない未知の部分について推測を行うために、仮定する一種の数学的・統計学的な制約条件になります。ただ一概にモデルといっても様々なものがあるため、データの置かれている状況によって想定される適切なモデルは異なり、どれを選択すべきかはケースバイケースです。このモデルの選択をどうすべきかは先行研究やこれまでの知見による部分が大きいため、様々な場面でのデータアナリティクスを学ぶ必要があります。   学生の方であれば今後、卒業研究やコンペティション参加など、多くの場面で統計学の知識が必要になるかと思います。数日学習を行えば統計学への理解が深まるだけでなく、SASから学習認定デジタルバッジを無料でもらうこともできます。ぜひこの機会に一度統計学について、学習を行ってみてはいかがでしょうか?

Analytics
Jihye Yoo 0
데이터 분석과 AI 기술로 기후 위기에 대응하는 방법

최근 보고서에 따르면 기후 위기는 심각한 상태에 놓여 있습니다. 대형 산불과 홍수, 허리케인, 해수면 상승 등 기후 변화로 인한 전례 없는 기상 이변으로 지구촌 수십억 명의 사람들이 목숨을 잃었습니다. 데이터와 분석은 이 같은 상황을 예측하고 알림으로써 예방 조치를 취하게 하고, 기후 개선에 대한 인식을 높입니다. IoT 분석을 통한 홍수 대응

Analytics | Artificial Intelligence
Caslee Sims 0
Behind the scenes of the SAS Hackathon: Why being a mentor is a win-win for everyone

During the SAS Hackathon, teams and mentors collaborate to find solutions to specific challenges. The hackathon is a win-win situation for all participants, from idea generation to the development of new technologies or solutions. The SAS Hackathon encourages developers to collaborate on practical ideas and offers employees the chance to

Analytics | Programming Tips
Rick Wicklin 0
Finite-difference derivatives of vector-valued functions

I previously showed how to use SAS to compute finite-difference derivatives for smooth scalar-valued functions of several variables. You can use the NLPFDD subroutine in SAS/IML software to approximate the gradient vector (first derivatives) and the Hessian matrix (second derivatives). The computation uses finite-difference derivatives to approximate the derivatives. The

Analytics | Learn SAS | Students & Educators
0
SASのオンライン学習コース「Skill Builder for Students」の紹介(4)Statistical Analysis, Predictive Modeling, and Machine Learning編

以前の記事では、学生であれば無料で利用可能なオンライン学習コース「Skill Builder for Students」についての紹介を行いました。このSkill Builder for Studentsには5つのコースが準備されており、今回の記事ではStatistical Analysis, Predictive Modeling, and Machine Learningコースについての概要を紹介します。このコースでは統計的仮説検定から回帰分析、予測モデル、教師あり機械学習まで「統計・機械学習モデル」の基礎的な部分と、SASソフトウェアでの実践を学習することができます。 データ析を行う際には、しばしば統計モデルや数理モデルと呼ばれる「モデル」を利用します。このモデルの学術的理論や実装方法を学習する機会は多数ありますが、モデルを利用する目的をはっきり意識できているでしょうか。モデルは現象を数式等で模式的に表現したものですが、このようなモデルによる表現の目的が、その現象に対する説明を行いたいのか、未知のイベントの予測を行いたいのかを区別する必要があります。前者は記述的アナリティクス(および診断的アナリティクス)、後者は予測的アナリティクスと呼ばれます。 記述的・診断的アナリティクスでは、現象を観察して得られたデータから、その現象に関する情報の関連や因果関係を推測し、現象を説明することが目的です。例えば、住宅価格を考えるとき、価格を決定する要素(面積、駅からの距離、築年数、階数、近隣施設など)は何か、どの要素が最も価格と強い関係を持っているかといったことを理解するために統計モデルを活用します。 一方、予測的アナリティクスでは、面積や駅からの距離といった既知の情報から住宅の価格を推定・予測するためにモデルを活用します。記述的・診断的アナリティクスのような「現象の理解」よりも、「予測の精度」に注目することになります。 今回のコースは、このような「何のためにデータアナリティクスを行うのか」という点が特に意識されており、SASでの実装を紹介するだけではなく、統計学の概要、モデルを使って何を考えるのかについてのイメージや理論の説明が豊富に用意されています。近年、アナリティクスに関係する職種を目指す方が増加しており、統計検定に代表されるような資格を取得しようとしている方も多いと思います。それに伴い、関連した書籍・講座が世に出るようになってきていますが、手法のみに着目しているものも多く、「なぜ」、「どんな場面で」その手法を利用するのかをイメージできないものも見られます。今回この記事で紹介しているコースは、そのような今後データに関連する分野に関わっていきたいという初学者の方に特におすすめです。単に統計的手法の実施方法や結果の見方を紹介しているだけではなく、どういったモチベーションでその手法の利用を考えるのか、現実に起こり得るシナリオに沿って理解できる教材だと思います。    Statistical Analysis, Predictive Modeling, and Machine Learningコースへのアクセスは以下の手順です。 Skill Builder for Studentsへログイン 「Learn SAS」というタブをクリック 画面中央の「Start Learning」をクリック 「Statistical Analysis, Predictive Modeling, and Machine Learning」をクリック 展開される各種e-learningコースをクリック 画面下部にある「enroll」をクリック このコースは後述のように、6つの項目に分かれており、各項目にはさらに複数のLessonが準備されています。各項目に含まれるLessonをすべて終了すると学習完了を証明する「SAS digital Learn Badge」(下図)が発行されます。   コースで学習できる内容 Statistics 1:

Analytics | Programming Tips
Rick Wicklin 0
Finite-difference derivatives in SAS

Many applications in mathematics and statistics require the numerical computation of the derivatives of smooth multivariate functions. For simple algebraic and trigonometric functions, you often can write down expressions for the first and second partial derivatives. However, for complicated functions, the formulas can get unwieldy (and some applications do not

Advanced Analytics | Analytics | Data Management
Lindsay Hart 0
"Hack the Case" competition challenges students to solve real business analytics problems

"Exhausting, but exhilarating," said participants in Hack the Case – a unique, 10-day competition hosted by Ivey Business School, SAS, Deloitte and Scotiabank, with the assistance of the Centre for Advanced Computing, Queen’s University. Students from Ivey Business School’s Master of Science (MSc) in Management, Business Analytics start with a

Advanced Analytics | Data Management | SAS Administrators
0
SAS Viya Blog ~Azure Fileを利用したWindowsとSAS Viya間のデータ共有方法の紹介~

背景の紹介 これまでのSAS製品は、SAS 9でもSAS Viya 3.5でも、ほとんどがWindowsやLinuxのプラットフォームで動作していました。 そのため、Windowsクライアントを持つユーザーは、SMBサービスやWindowsのファイル共有機能を介して、これらのプラットフォームに保存されたファイルに簡単にアクセスすることができていたのです。 SASが開発した最新のクラウドネイティブ・データアナリティクス・プラットフォーム「SAS Viya」は、WindowsやLinuxなどのOS上で直接動作するのではなく、コンテナ/ポッドの形でKubernetes(以下、K8s)上で動作し、従来の製品とはアーキテクチャが大きく変わっています。K8s上で動作するサービスのコンテナ内のデータは一時的なものなので消えてしまう特徴があります。この点に対して、お客様は最新の製品を使用する際に、K8sに保存したデータをローカルのWindowsシステムからどのようにアクセスするのか、SASで作成したレポートなどのデータをどこに保存するのかという疑問を持つことが多いようです。 今回は、下記の図の構造のような、K8sに保存されているファイルを、比較的簡単な方法でWindowsクライアントと共有する方法をご紹介したいと思います。 本記事の内容は、Microsoft Azure上にデプロイされたSAS Viya Stable 2021.2.3に基づいています。centos 7.9上で、kubectl、kustomization、azure cliなどのコマンドラインツールを利用する作業が含まれているので、Linux、Kubernetes、SAS ViyaのデプロイメントとAzureに関する一定の知識が必要です。また、お使いのクラウドベンダーや製品のバージョンによって、設定方法が異なる場合もありますので、詳細は各ドキュメントをご確認ください。 SAS Viya on Kubernetesが利用するストレージの紹介 まず、K8s上にデプロイされたSAS Viyaサービスを使用した場合のデータの保存方法について簡単に説明します。 例えば、SAS Studioを利用する場合、ユーザーがセッションを作成するたびに、SAS ViyaはK8s上に一つのコンテナを作成します。これは、ユーザーがセッションで実行したすべてのコードや操作がこのコンテナに入っているミニLinux内で実行されます。 ご存知のように、コンテナの最大の利点は、インストール作業や設定などが一切いらず、配置したらすぐに使えることです。コンテナが提供するサービスや機能を使用するために設定を行う必要はありませんが、同時に、コンテナ内のデータに加えた変更も保存されず、新しいセッションを作成するたびに、まったく同じ設定を持つまったく新しいコンテナが作成されます。 そのため、SAS Studioで作成した新しいデータを保存したい場合は、コンテナの外部にあるストレージに保存する必要があります。K8sではこの外部ストレージは永続ボリュームと呼びます。 永続ボリュームを利用することにより、SAS Studioのセッションが終了しても、作業中にユーザーが作成した新しいデータはちゃんと保存されています。次にユーザーが新しいセッションを作成する時、以前使用していた永続ボリュームが新しいセッションに自動的にマウントされ、ユーザーが永続ボリュームに保存されていたデータを使って引き続き作業できます。この記事で紹介するデータ共有方法も、こちらの永続ボリュームを利用しています。 データ共有するための設定方法 次に、K8sで作成したファイルをWindowsと共有する方法を紹介します。前述したように、作業中に発生したデータを永続ボリュームに保存することができるので、永続ボリュームをWindowsにマウントするだけで、作業用PCとK8sの間でデータを共有することができますが、実現方法は使用する永続ボリュームの外部ストレージの種類によって異なります。 AzureのK8sサービス上でSAS Viyaを利用する場合、使用する外部ストレージは、大体以下の3種類です。Azure Fileを共有ストレージとして使用する場合、追加のサーバは必要なく、使い方も比較的簡単なので、本記事ではAzure Fileを外部ストレージとして使用する場合の共有方法を紹介します。 - ネットワークファイルシステム(以下NFS) - Azure Disk - Azure File(本記事で紹介する方法) データを共有するためには、次のような手順が必要です。 これらの手順には、AzureとK8sの管理者権限と関連する知識が必要なため、一般的にはサーバ管理者やSAS Viya導入の担当者が行うことになることに注意してください。 1.ストレージクラスの作成 2.永続ボリューム要求の作成

Analytics | Fraud & Security Intelligence
Min-Gi Cho 0
[AML 시리즈 #2] 거래 모니터링을 보완하는 AI/ML

지난 1회에서는 날로 진화하는 자금세탁 유형에 스마트하게 대응하며 자금세탁 방지 의무를 준수하는 데 AI(인공지능)와 ML(머신러닝)이 어떤 도움을 줄 수 있는지, 그리고 이를 활용하는 전략으로 AML Compliance Analytics Maturity Model을 소개했습니다. 이번 글에서는 AI와 ML을 도입하기 위한 준비 단계인 ‘데이터 품질’에 이어, 나머지 성숙도 단계를 소개합니다. Level 1. 행동 모델(Behavioral Modeling)

Analytics | Learn SAS | Students & Educators
金融業界のデジタル化を担うデータサイエンティストの業務とは? 【アナリティクスを活用するキャリア: 信金中央金庫】

「お客様とFace to Faceで向き合うことができるという信用金庫の強みが、コロナ禍により十分発揮できなくなっています。そんな今だからこそ、業界のセントラルバンクである信金中金で、業界のデジタル化を推し進める役割を皆さんも一緒に担いませんか?」 信金中央金庫 しんきんイノベーションハブの狩野 詩生(かのう しゅう)氏は、アカデミア向けにアナリティクス・データサイエンスのキャリアを紹介するイベント「SAS アナリティクス・キャリアシンポジウム」でこう学生に問いかけました。 本イベントは、2021年12月22日(水)、SAS Japan六本木オフィスで開催され、同時にオンライン配信されました。「データサイエンティストが21世紀の最もセクシーな仕事」と言われて10年近くが経とうとしており、企業や組織でデータ活用の役割は徐々に広がりを見せていますが、どのようなスキルをどんな業務に活用しているかについては、まだ一般的ではありません。「データサイエンティストになりたい」と考える学生も、業務内容やキャリアを明確にイメージできないのではないでしょうか。このイベントでは、社会におけるアナリティクス・データサイエンスの活用をアカデミアに紹介するとともに、教育の側からのアプローチも論じます。 信金中央金庫は、全国の信用金庫の「セントラルバンク」として、信用金庫からの預金を投資・融資して運用しています。金融機関では、以前より金融リスクの管理や不正取引の検知の業務において、アナリティクスが活用されてきました。国の経済インフラを担う金融機関が健全な取引を行い、金融犯罪を防止するための対策は、監督省庁が目を光らせる規制業務であり、金融機関が必ず整備しなければいけない領域です。例えば、金融機関が保有している資産が将来どのような価値を持つのか、そのばらつきを予測するために統計学と金融工学をフル活用したり、また、国際犯罪組織による資金洗浄(マネー・ロンダリング)目的の海外送金を検知し、ストップをかけるために、統計モデルや機械学習モデルを構築したり、実は、データサイエンティストが世界の金融を支えているのです。 狩野氏は大学でマーケティングや経営学を専攻し、信金中央金庫で融資業務やコンサルティング業務を経験後、信用スコアリングモデルを作成・研究する業務に従事しました。信用スコアリングとは、端的に言えば、融資先が返済不能になる可能性がどれぐらいあるかを数値化することです。このために、場合分けのルールや統計モデルを活用します。また、最近では、EBM(Event Based Marketing)でのデータ活用に取り組んでいます。入出金データなどから、顧客の資金ニーズを予測し、適切なタイミングで商品を提案できるようにすることが狙いです。従来であれば、大まかな顧客カテゴリに応じた提案しかできなかったのが、予測モデルの活用により、よりパーソナライズされた提案ができるようになります。 このような目的のために、次のような業務があります。 どのようなデータをどのように受け取り、蓄積するかを設計する データのありかを整理し、内容を理解した上で、基礎分析により特徴を把握する 予測モデリングのためにデータの整形・加工を行う 統計学や機械学習を駆使してモデルを構築する データサイエンティストといえば、4番のモデル構築のスキルが重要に思われがちですが、それまでの準備も大切です。狩野氏は、データサイエンティストの業務において求められるスキルとして、「データ理解」「プログラミング」「モデル構築」に加え、「企画・立案」「サービス提供」を挙げています。特に、しんきんイノベーションハブのような組織では、顧客である信用金庫がどのように活用するかも考えてサービスを設計することが必要です。さらに、統計やデータ分析の専門家ではない顧客に説明し、使ってもらえるようにすることも求められています。特に金融機関のアナリティクス活用では「説明力」に重きが置かれており、モデリングにおいても、ブラックボックスのAI・機械学習より、説明力の高い統計モデルが利用されることが多いようです。 また、普段はSASやPythonプログラミングで業務にあたりますが、「どのような分析環境が利用できるかは組織によって異なるので、プログラミング言語については、広く勉強したほうが有利かもしれない」と狩野氏は述べました。「データ理解」についても、入社しないと業務についての知識を得ることは難しいので、組織のなかで学ぶ意欲とコミュニケーション力が重要になります。 信金中央金庫では、全国の信用金庫のデジタル体制の整備を担うため、幅広い業務があり、今後人材需要が高まります。データサイエンスに興味のある学生のみなさん、金融業界での活躍を目指してみませんか? 学生のみなさんは、統計学や機械学習を用いた予測モデルについて、SAS Skill Builder for Students で学習することができます。特に、「Predictive Modeling Using Logistic Regression」や「Machine Learning Using SAS Viya」は、SASソフトウェアの学習と同時に、予測モデルを利用する目的や、モデル構築や評価での注意点を学習できます。SAS Skill Builder for Student については、こちらのブログ記事シリーズもご参照ください。

Analytics | Programming Tips
Rick Wicklin 0
Passing-Bablok regression in SAS

This article implements Passing-Bablok regression in SAS. Passing-Bablok regression is a one-variable regression technique that is used to compare measurements from different instruments or medical devices. The measurements of the two variables (X and Y) are both measured with errors. Consequently, you cannot use ordinary linear regression, which assumes that

1 18 19 20 21 22 281