Discover how SAS is shaping tomorrow’s brightest analytical minds
The new SAS Certified Specialist: Statistics for Machine Learning credential is designed to help you showcase your expertise and commitment to staying ahead in the industry.
Discover how SAS is shaping tomorrow’s brightest analytical minds
The new SAS Certified Specialist: Statistics for Machine Learning credential is designed to help you showcase your expertise and commitment to staying ahead in the industry.
The Co-Founder of Ladies Learning Code and Canada Learning Code talks about strides in Canadian computer science education, AI, the future of coding, and more. Companies use many legacy processes to empower their employees, and that's just one of the many barriers employees face in the workplace. Organizations that prioritize
Careers in risk management can be rewarding. The disciplines are key to a broad range of industries. Risk management teases the analytical side of the brain and there is a clear line of contribution between the work and the organization's performance. Careers in risk management are also shrouded in mystery
注) 本コラムは『経時的に変化する治療(Time-varying treatments)に対する因果推論』と題した以前のコラムを、時間依存性治療に関する部分と周辺構造モデルにおけるIPTW法に関する部分に分割し、内容の追加と修正を行い再構成したものの一部となります。 はじめに 多くの統計的因果推論に関する書籍や文献では、ある治療※1が単時点で行われる場合の因果効果の推定手法について紹介がされています。しかし、治療が複数の時点にわたって実施され、その一連の治療による効果に興味があるという状況も存在するかと思います。例えば、新型コロナワクチンの接種が我々に身近な例として挙げられ、これ以外にも顧客に対する商品のレコメンデーションなど医学分野に限らず様々な例が挙げられます。 正確な定義は後述しますが、上記で挙げたような複数の時点において実施され、かつ各時点での値が異なりうる(時間経過とともにとる値が変化しうる)治療は、時間依存性治療(time-varying treatments)と呼ばれます。時間依存性治療に対する因果推論へのニーズは、近年の統計的因果推論という言葉自体の認知の広まりや個別化医療への関心の高まりに相まって増加しています。一方で、その統計学的理論の理解は点治療の状況と比較すると内容が高度になることや日本語での文献が少ないことからそれほど進んでいません。そこで、本コラムでは時間依存性治療に対する効果をどのように定義するか、問題となることは何か、どのように効果の推定を行えばよいかについて簡単に解説を行います。また、いくつかの代表的な推定手法についてはSASでの実装方法も併せて紹介を行います。なお、本コラムは潜在アウトカムモデルの枠組みの下での因果推論について基本的な理解があることを前提としています。適宜関連する書籍や文献、因果推論に関する連載コラムをご参照していただければ幸いです。 ※1 本コラムにおいては、介入(intervention)や曝露(exposure)など他の原因となる変数を治療(treatment)と同義的に用いて構わないものとする 因果推論を行う上での治療分類("time-fixed" or "time-varying") ある治療とアウトカムとの因果関係を議論する場合、治療はtime-fixed treatments(時間固定性治療)※2、もしくはtime-varying treatments(時間依存性治療)のいずれかに分類がされます。そして、このどちらに属するかによって扱いは大きく異なります。まず、治療が時間固定(time-fixed)であるとは、対象集団におけるすべての被験者に関して、初回の治療レベルが以降のすべての時点における各々の治療レベルを決定することを指します。この状況としては大きく3つあります。 治療が研究開始時点でのみ行われる 1つ目は、治療がベースラインやtime zeroとも呼ばれる研究やプロジェクトの開始時点でのみ行われる場合です。一般的な臨床試験で投与される被験薬・対照薬や、一回の投与で完全な免疫を与えるone-dose vaccine(e.g., 黄熱病ワクチン)などが実例として挙げられます。 初回の治療レベルが時間経過によって不変 2つ目は、初回の治療が2回目以降の治療時点においても変わらず継続的に行われる場合です。この状況の例としては、被験薬と対照薬の複数回投与が予定される臨床試験や近年いくつかの国で導入されているベーシックインカムといったものが挙げられるかと思います。 決定論的に各時点の治療レベルが定まる 3つ目は、初回の治療レベルが決定論的にその後の治療レベルを定める場合です。すなわち、初回治療での分岐以降はそれぞれ1つの治療パターンとなる場合です。例えば、A群に割り付けられた被験者は隔週で被験薬を、B群に割り付けられた被験者は毎週対照薬を投与(初回治療が被験薬なら毎週投与、対照薬なら隔週投与)されるといった実験が1つの例として考えられます。また、Aチームに配属された選手は実践練習と模擬戦を、Bチームに配属された選手は基礎練習と筋力トレーニング(初回練習が応用練習ならその後は模擬戦、基礎練習なら筋力トレーニング)をそれぞれ1日の練習メニューとして行うといったものもスポーツの領域における例として考えられます。 上記の分類からも類推されるように、治療が複数時点で行われるとしても2, 3の状況に該当する場合には、因果推論を行う上での扱いは治療が単時点で行われる場合と変わらず、ベースライン共変量の調整に基づく手法が適用可能です。これはすべての個人に関して初回治療によって2回目以降の治療が決定されるため、後述する時間依存性交絡(time-dependent confounding)という問題が生じ得ないためです。 次に、時間依存性治療(time-varying treatments)とは時間固定でない治療すべてを指します。すなわち、複数時点で行われる治療であり、かつ各時点でとる値が初回の治療によって決定論的に定まらない治療が時間依存性治療にあたります。例えば、月に1回のペースで運動指導プログラムをある市において行うというプロジェクトを考えてみます。ここで、「初回指導に参加した場合は何があっても絶対に毎回参加しなければならない」や「初回指導に参加しなかった場合には絶対に以降参加できない」などといった特殊な制約がない限りは、各指導日でプログラムという2つの選択肢を市民は取ることができます。そのため、この運動指導というのは時間依存性治療にあたります。 この他にも疫学研究における喫煙や投薬量が被験者の状態によって変更される処方、検索履歴に応じて表示される広告(レコメンド)など様々な曝露、治療、介入が時間依存の例として挙げられます。ただし、特に疫学・医学分野においては本質的には時間依存であるものの、測定の実現可能性から時間固定とされる場合もあります。また、対照的に研究・プロジェクトの計画時点では時間固定であるものの、研究実施後には時間依存であるとみなされる場合もあります。それが割付の不遵守(コンプライアンス違反)が存在する場合の治療です。例えば、上記の時間固定である治療の2番目のシナリオで紹介した継続的に被験薬と対照薬(実薬)を投与するという臨床試験においては、試験に参加する被験者が何らかの理由(e.g., 副作用の発現)で治療法を切り替える場合があります。このような状況においては、本来は時間固定であった治療を時間依存性治療とみなして解析(補正)を行うことが可能です。 ※2 執筆時点で対応する定訳が存在しないという筆者の認識であるが、本コラムにおいては時間固定性治療という訳をあてる 治療レジメン(treatment regime) ここまでは因果推論を行う上での治療分類について紹介を行いましたが、以降では治療レジメンとその分類について紹介と解説を行います。これらは、因果効果の定義やデータを用いて効果を推定する(識別のために必要な仮定を検討する)場合に非常に重要になります。ここから先は数学的な内容も入りますので、以下のように記法をおきます。基本的にはアルファベットの大文字は確率変数を、小文字はその実現値を指しています。 k:時点を表す添字(k = 0, 1, ..., K) Ak:時点kにおける二値である時間依存性治療(1: あり, 0: なし) A0:k
Women's voices are vital in technological development. Over the next few months, we will be highlighting women from diverse backgrounds as they share about their experiences in the tech industry. For the beginning of this series, we will focus on five women who were part of a panel at SAS
La información certera es la base sobre la que se edifican las empresas, especialmente en un contexto en el que la preparación y la resiliencia son cada vez más importantes. Con el aumento en la cantidad de datos disponibles y la necesidad de aprovecharlos para tener mejores resultados, también hemos
Nel corso degli anni SAS ha costruito una solida partnership con il mondo accademico. Oggi collaboriamo con più di 40 università italiane e siamo presenti all’interno di percorsi di studio per formare giovani studenti e studentesse su temi come analytics, intelligenza artificiale e machine learning, stimolando la loro curiosità, il loro senso
In Nederland leggen we sterk de nadruk op lezen en schrijven in het onderwijs, maar waarom zouden we niet hetzelfde doen voor technologie? Kennis van analytics en AI zou net zo verplicht moeten zijn als wiskunde. Data literacy, het vermogen om informatie uit data te begrijpen en te gebruiken, wordt
はじめに 因果効果の推定手法の1つである傾向スコアマッチング、およびSASでの実装方法について紹介します。傾向スコアマッチングのSASでの実装にあたっては、本記事ではSAS/STAT 14.2(SAS 9.4)で追加されましたPSMATCHプロシジャを使用します。因果推論の基本的な枠組みや傾向スコア・傾向スコアマッチングの統計的理論については、詳しく解説を行いませんので、そちらに関心がある方は書籍等を参考にしていただければ幸いです。 理想的なランダム化比較試験においては、ランダム化により治療群と対照群間で測定・未測定の交絡因子(confounders)の分布が期待的に等しくなるため、単純な群間比較によって治療(介入、曝露)の興味のあるアウトカムに対する効果を評価することが可能です。しかし、ランダム化が行われなかった実験研究や観察研究のデータから因果関係を見出そうとする場合には、一般に交絡(confounding)と呼ばれるという問題が生じます。これは簡単に述べると、治療群と対照群で集団の特性が異なることで2つの集団が比較可能ではない状況、治療群と対照群でのアウトカムの違いが治療だけではなく集団の特性の違いにも依存する状況を意味しています。つまり、ランダム化が行われなかった実験研究や観察研究のデータから因果効果を推定する際には、交絡を十分に制御した上で群間比較を行う必要があり、世間一般で因果効果の推定手法と呼ばれるものは、交絡を調整方法する方法だと認識していただいてよいかと思います。因果効果の推定手法は回帰や層別化、標準化など様々なものがありますが、本記事ではマッチング法に注目します。マッチング法は、治療群と対照群から類似した特徴を持つ被験者をペアとし(マッチングさせ)、マッチした対象集団において治療を受けた群と受けなかった群を比較するという方法です。 ただ、一言にマッチング法と言っても複数の交絡因子(共変量)の情報をそのまま用いる「共変量マッチング」と、共変量の情報を傾向スコアという一次元の情報に落とし込んだ上でマッチングを行う「傾向スコアマッチング」という2つの方法に大きく分かれます。初学者にとっては前者の方がより直感的な方法かと思いますが、共変量が高次元である場合や変数のカテゴリ数が多い場合にはその実施が困難になります。そのような場合にしばしば用いられるのが後者の傾向スコアマッチングです。マッチングには、治療群と対照群の構成比率やマッチング方法など様々なオプションがありますが、傾向スコアの分布が同じ(治療群と対照群が交換可能)であるmatched populationを作成するというのが共通の考え方です。また、傾向スコアマッチングの実施手順は連続である単一の共変量を用いた共変量マッチングと同様であり、大きくは以下のような手順となります。 【傾向スコアマッチング法のステップ】 共変量の特定、測定 傾向スコアのモデル指定、傾向スコアの推定 マッチングアルゴリズムの決定、マッチングの実施 マッチングした対象者で構成された集団(matched population)における治療群と対照群での交絡因子の分布評価 4.で評価した共変量が不均衡である場合には2.に戻る 群間比較の実施 推定結果の解釈 記法と仮定 記法 以下の記法の下で傾向スコアマッチングに関する議論を行います。アルファベットの大文字は確率変数を、小文字はその実数値を意味するものとします。なお、以降でボ-ルド体としている場合は単一の変数ではなくベクトルであることを意味しているものとします。 A:二値の治療変数 Y:観察されるアウトカム Ya:潜在アウトカム X:共変量(一般にはベクトル) 仮定 本記事では以下の識別可能条件を仮定します。理想的なランダム化比較試験においては研究デザインによってその成立が認められますが、観察研究ではあくまで”仮定”となります。つまり、その成立を認めることが妥当であるかどうかの議論が別途必要となることにご注意ください。また、各条件の詳細や意図する内容については本記事では取り扱いませんので、他の記事や書籍等をご参照ください。 【識別可能条件 (Identifiability assumptions) 】 一致性 (consistency) If Ai = a, then YiA = Yia = Yi 特にAが二値であるとき、 Yi = AYia=1 + (1-A) Yia=0 条件付き交換可能性 (conditional
This summer, SAS Academic Programs recognized four faculty members from across the country for their excellence in teaching data analytics. Awardees of the SAS Distinguished Award and the Emerging Educator Award received plaques at the SAS Summer Educator Conference, where they participated in a panel discussion about their experience teaching
SAS' long-standing commitment to academia and finding innovative applications for analytics to solve real-world problems is a core pillar of our purpose. In 2022, we introduced our first cohort of students from the University of New South Wales (UNSW) in Australia working with SAS' thought leaders to explore the work
SAS, the world-renowned leader in analytics software and solutions, recently visited Tamkang University to share the groundbreaking applications of data science in finance and biomedical industries with the students. Consultant Shu-Wei shared his knowledge and experience in digital banking, Customer Relationship Management, and various SAS solutions for Anti-Money Laundering, Fraud
Finir ses études, c’est aussi la promesse exhilarante d’avoir toute sa vie devant soi et de ne pas savoir ce que la carrière a en réserve pour nous. On prend une seule décision et juste comme ça, on gère l’analytique de l’une des meilleures équipes du rugby au monde. Voilà
Vous vous rappelez ce premier jour du reste de votre vie professionnelle ? Vous avez fini les cours, les examens, ces années d’organisation libre. Tout d’un coup, vous devez intégrer une entreprise. Comprendre le fonctionnement du monde corporate, avec toutes ses particularités. Cela peut être source d’angoisse – et c’est la
社会におけるデータ活用の拡大に伴い、データ活用人材の需要はますます大きくなってきています。東京理科大学データサイエンスセンターとSAS Institute Japan 株式会社は、データサイエンス人材の教育とキャリアについての知見を深めるため、2022年12月21日(水)に合同でシンポジウムを開催しました。本記事では、このイベントの様子をご紹介したいと思います。 シンポジウムの開会にあたり、東京理科大学 副学長 坂田 英明 様、SAS Institute Japan 株式会社 営業統括本部長 宇野 林之からご挨拶がありました。坂田副学長は、2031年に150周年を迎える東京理科大学が掲げるTUS Vision 150のなかで、データサイエンス教育に重点を置いていることに触れ、2019年に設置された東京理科大学データサイエンスセンターが、データサイエンスの応用分野創造と人材育成を進めていることを紹介しました。SASの宇野からは、40年以上の間、アナリティクスを専業としてきたSASの歴史に触れながら、リソース不足で実りが少なかった第二次AIブームと違い、昨今の第三次AIブームは豊富な計算リソースを背景に社会に浸透しており、特にビジネスの世界では、データドリブン経営から業務のディシジョンのサポートまで、データサイエンスが幅広く活用されていることを紹介しました。両者ともにデータ活用人材の不足を課題に挙げ、本シンポジウムでの議論に期待を寄せました。 第1部:東京理科大学におけるデータサイエンス教育 第1部では、東京理科大学のデータサイエンス教育の紹介と、そこで学んだ学生からの研究発表が行われました。 まず、データサイエンスセンター長 矢部 博 様から、データサイエンス教育の取り組みについて紹介がありました。理系の総合大学である東京理科大学では、各学部でデータを活用した研究・教育がされてきましたが、学長直下の組織として設置されたデータサイエンスセンターが横串となり、各学部や教育推進機構、研究推進機構、産学連携機構と連携しながら、データサイエンス教育・研究のハブとしての役割を果たしています。 政府はAI戦略2019のなかで年間50万人のリテラシーレベルの人材と年間25万人の応用基礎レベルの人材の育成を目標に掲げていますが、東京理科大学では、既に2019 年度から独自の教育プログラムを展開しています。まず、全学部生が対象のデータサイエンス教育プログラム[基礎]は、数学、統計学、情報学、データサイエンス、その他の授業から20単位をB評価以上で取得することで、認証書が授与されます。大学院生が対象のデータサイエンス教育プログラム[専門]では、数理コース、ビジネスコース、人工知能コース、医薬コース、機械学習コース、医療統計コース、Informaticsコースの各コースが設定する科目から8単位をB評価以上で取得することを要件としており、高度な知識と技能を持った学生を認証しています。 また、SASとの共同認定プログラムであるSAS Academic Specializationでは、SASを活用したデータ分析を実践する授業の6単位を取得することで、SASスキルと統計解析の知識を認定します。特に、SASソフトウェアを用いた研究課題や実践課題に取り組み、論文を提出し、審査に合格することが条件となっています。このような教育プログラムをデータサイエンスセンターが提供することで、各学部での一般・専門教育と並行してデータサイエンス人材の育成を推進しています。 次に、理学部第二部数学科 教授 伊藤 弘道 様から、社会人履修証明プログラムについて紹介がありました。東京理科大学の理学部第二部は、日本唯一の夜間理学部として、特に理科・数学を中心とした学び直しの機会を提供してきました。現在、社会人学生の割合は1割程度で、教員免許の取得を目指す学生も多く在籍しています。学部の課程と並行して履修証明プログラムを2020年度から開始しています。コースの種類としては、SAS認定コース、データサイエンスコース、数理情報コース、統計学入門コース、数理モデリングコース、数学リテラシーコース、微分幾何入門コースがあり、さまざまなスキルや知識を持って社会で活躍できる人材を育成しようとしています。 続いて、SAS教育の実践を含む教育の一つとして、大学院講義「カテゴリカルデータ解析」に関し、工学部情報工学科 教授 寒水 孝司 様より紹介がありました。この授業は理論と演習から構成されます。演習パートについて、企業で活躍する専門家が講師として招聘され、担当しています。講師の統計解析への知見、SASプログラミングの専門的な知識や技術を吸収しようと、学生は理論の学習と演習課題に交互に取り組んでいます。特にこの授業では、クロス集計とその指標の推定から、交絡のあるデータを扱うための技術を習得します。 学生の研究発表 第1部の最後に、4組の学生からデータ分析を活用した研究発表がありました。独自に設定した課題について、大学のプログラムで提供されているデータや自身で収集したデータを用いた分析結果を発表しました。みなさん、基礎分析をしっかり行い、データの傾向を掴もうとしていたことが印象的でした。将来の夢の発表もあり、スキルを磨いて夢を実現されることを期待しています。 第2部:ビジネスにおけるデータサイエンス人材の活用 第2部では、ビジネスにおけるデータ活用事例およびデータ活用人材のニーズやキャリアについて、講演がありました。 採用市場におけるデータ活用人材のニーズ まず、株式会社マイナビ 就職情報事業本部 マイナビ編集長 高橋 誠人 様より、データ活用人材の採用市場におけるニーズについて紹介されました。株式会社マイナビは、就職活動支援サービスの提供のみではなく、大学や企業と連携してデータ活用人材の育成の支援を行っています。特に、2024年卒業学生向けの新卒就職活動サイト「マイナビ2024」からは、「DX(デジタル・トランスフォーメーション)がわかる超基礎講座」というe-learningを提供し、IT人材のキャリア形成を支援しています。 講演では、経済産業省の「新産業構造ビジョン」や情報処理推進機構の「DX白書2021」などからデータを引用しながら、IT人材のニーズについて論じました。ほぼすべての分野においてIT技術を核とした革新が期待されているなか、IT人材の需要は高まることが予測されています。米国ではIT人材不足が解消されてきている一方、日本国内のIT人材は質・量ともにまだまだ不足感があります。プロダクトマネージャー、ビジネスデザイナー、テックリード、データサイエンティストと、さまざまな側面のデータ活用人材が不足していると感じている企業が半数以上です。(一方で、「自社には必要ない」と考えている企業も2割程度あるのも問題かもしれません。)2030年には、中位シナリオで45万人のIT人材が不足すると予測されています。マイナビ社の調査結果を見ると、新卒の就職市場は全体的に堅調であるなかで、情報系学生の就職先が製造・ソフトウェア・通信分野に偏っていることが問題であるように思われます。転職市場では、全体と比較してIT・通信・インターネットの分野において、転職による給与の上昇が期待できるようです。最近では、経験者を募集する割合が減ってきていることも人材不足を反映しているかもしれません。
Origem e benefícios do Laboratório Científico criado pelo SAS, na Faculdade de Ciências da Universidade de Lisboa. No final do ano passado, o SAS Portugal anunciou a criação de um laboratório científico - designado SAS-FCUL Lab - na FCUL - Faculdade de Ciências da Universidade de Lisboa, com o objetivo
2023年を迎えて間も無く1ヶ月が経とうとしていますが、皆様はどのよう新年のスタートをされましたでしょうか。With コロナに向けた取り組みが社会的には広がり、自らが管理する時間が増えた中で、質の良い学習時間を確保することは社会人・学生問わず大変重要なことかと思います。 さて、SASでは学習および教育を目的とする方向けに、SAS® OnDemand for Academics (ODA) というアナリティクス・ソフトウェアを無料で提供しています。実は、このSAS ODAですが昨年末にログイン画面のアップグレードが行われ、提供されている各種機能へのアクセス方法がわかりやすくなりました。このブログ記事では、アップグレード後の SAS ODAについて紹介していきます。 ①ホーム画面(中央) 画面中央には大きく3つのセクションがあり、それぞれ下記の内容が提供されています。 Code with SAS® Studio すべての教員・学生・個人学習者を対象として、Webサイトにアクセスするだけで使用可能です 提供されている”タスク”からGUI的にSASコードを生成可能です(もちろん自分でコーディングすることも可能) SAS Studio上にプログラムファイルの新規作成、既存ファイルのアップロードが可能です(最大5GB) アクセス可能なSASソフトウェア一覧: SAS/STAT® Base SAS® SAS/IML® SAS/OR® SAS/QC® SAS/ETS® Learn SAS Programming Programming 1, Statistics 1といった統計学やプログラミングに関するいくつかのe-learningや、動画教材を提供しています SASソフトウェアや統計解析・機械学習を中心とした基礎的な知識、スキルをe-learningを通じて習得可能なオンライン学習プラットフォームSAS Skill Builder for Studentsを学生を対象として提供しています(大学ドメインのアドレスが必要) SASの認定資格に関するガイドをていきょうしています Collaborate with SAS Communities いくつかのSASに関連するコミュニティ情報が掲載されています プログラミングや解析にあたっての疑問点、Tipsを共有し、世界中のSASユーザーからコメントをもらうことが可能です ②ホーム画面(右) 初期状態では次の5つのアイコンが表示されます。 Files
SASが提供する大学講義「アナリティクス入門」のブログ・シリーズ、前回は記述的アナリティクスについてまとめました。今回は4つのアナリティクスのレベルの2つ目、診断的アナリティクスについてまとめます。診断的アナリティクスは、要因分析・効果検証・統計的因果推論などの手法を用い、事象がなぜ起こったかを分析します。 収入が多い家庭の子供は学力が高いか? 数年前のNewsweekの記事に、教育の不平等を取り上げたものがありました。子供の教育にはお金がかかり、収入が多い家庭しか良い学歴を得られないという論調です。東京大学生の親の年収分布と45-54歳男性の年収分布を比較し、前者では年収950万円以上が62.7%もいるのに対し、後者は12.2%であることをデータとして掲載しています。さて、このデータから「東大に入学できたのは親の収入が多いからである」と主張するのは正しいでしょうか? 子供の教育にお金がかかることは事実だと思いますが(日々実感しております)、先程のデータから「親の収入→東大」の因果関係を導くには、対応しなければいけない反論をいくつか思いつくことができます。 まず、取得したデータに偏りはないでしょうか。東京大学の学生は、東京を中心とした関東出身者が多いと思いますが、全国と比較して、東京在住者の収入は高いので、その影響が出た可能性があります。また、「一般の男性」は「大学生の子供がいる年代」のデータのようですが、「実際に大学生がいる」かどうかはわかりません。一般に、子供がいる世帯のほうが子供のいない世帯より収入が多いので、これも影響が出ている可能性があります。このように、集計対象のデータの偏り(バイアス)により、適切な比較がなされていない可能性があります。 また、「収入の多さ」と「東大への入学」に関係があっても、因果関係は無いかもしれません。例えば、家族や地域の「教育熱心に対する考え方」が収入や学歴に同時に影響を与える場合、擬似的な相関が現れる場合があります(偽相関)。このような交絡要因を考慮しないと、真の因果関係を割り出すことは難しいです。(念のため書いておきますが、Newsweekの記事が間違っていると主張しているわけではありません。考慮すべきバイアスや交絡がありそう、という主張です) キャンペーン・メールの効果 企業では、商品の購買促進のために、顧客に直接メールを送り、商品の案内をするということを行うことがあります。このとき、メール配信の効果を知るためには、メールを送った顧客の購買量とメールを送らなかった顧客の購買量の差分をとればよい、と考えることができます。しかし、もしメールの配信を「もともと買ってくれそうな人」を対象としていた場合はどうでしょうか。効果的にメールを送るには、このような対象に限定することは合理的ですので、このような場合は多いでしょう。しかし、買ってくれそうな人にメールを送っていたとすれば、メールを送った顧客は「もともとメールがなくても買っていた」人だったかもしれません。つまり、メールを配信した効果は単純比較の差分量より小さい可能性があります。このときの、「メールを送った人のほうがもともと購入しやすかった」という偏りをセレクション・バイアスと呼びます。 バイアスや交絡を除去する方法 バイアスや交絡を除去する最も強力な方法はランダム化比較実験です。対象を「メールを送るグループ」と「送らないグループ」に振り分けることにより、データ取得の段階からバイアスや交絡を含まない比較対象を作ることができます。薬剤やワクチンの効果の検証は、この方法が採られます。どれぐらいの実験対象を用意し、測定された効果が偶然現れたものではないことを統計学的に検証します。このあたりは、ライフサイエンスの事例の回で詳細に紹介します。 一方で、ランダム化比較実験はコストがかかります。さきほどのメールの例でいえば、買ってくれそうな人に送ったほうが効果的なメールを、あえて効果が低い人にも送る必要があります。薬剤の治験では、協力してくれた被験者に報酬を支払います。また、例えば「子供手当の効果」の検証など、そもそもランダムに振り分けることができない場合もあるでしょう。そういった場合には、実験で計測されたデータではない、観察データを用いて統計学的に効果や因果を検証することになります。この方法は統計的因果推論と呼ばれます。統計的因果推論については、こちらのブログ・シリーズで詳しく解説されています。 観察データから因果や効果を推定するには、「もしかしたらこういう要因があるのではないか」という候補を多く集め、それらの影響を丁寧に検証する必要があります。そういった候補を網羅的に思いつくには、その領域への深い知識が必要です。データサイエンスにおけるドメイン知識の重要性は、前回述べたデータ準備においてそれぞれのデータの意味や特徴を捉えるとともに、このような要因分析・因果推論における交絡要因を抜き出すことにも関連します。 研究における診断的アナリティクス 米国バージニア・コモンウェルス大学のMessyがんセンターで、がんによる死亡の社会要因を研究している事例があります。ここでは、所得や教育水準など、社会的な不利な立場ががんの死亡率に与える影響を研究しています。このためには、年齢や体重、喫煙、飲酒、食生活といったがんのリスク因子の他に、医療施設の場所や居住地域、人種、民族、収入などの社会的要因を総合的に検証する必要があります。このような多くの要因から、本当に影響がある要因を特定するためには、統計的因果推論が必要です。 また、ここでもやはり、データの質は重要です。多くのデータソースから個人をキーとしてデータを統合し、さまざまな要因(変数)を含む総合的なデータを作る必要があります。医療情報はセンシティブなデータになりやすいので、データの統合、研究者への共有、患者へのフィードバックといった利便性の追求と、セキュリティの確保の両面が大切です。
SASが提供する大学講義「アナリティクス入門」のブログ・シリーズ、1回目の前回はイントロダクションとして「アナリティクスとは」についてまとめました。今日は4つのアナリティクスのレベルの1つ目、記述的アナリティクスについてまとめます。 前回も書いたように、記述的アナリティクスは、過去に何が起こったか、いま何が起こっているかを知るためのアナリティクスです。データの集計し、統計量を計算したり、集計結果を表やグラフを用いて可視化したりすることで、データを理解したり情報伝達をすることが目的です。 納得して仕事をするために 私の娘が小学校を卒業するとき、「卒業式は友達みんな袴を着るって言ってるよ!」と言い出しました。つまり、だから自分も袴を着たいと主張しているわけです。「小学校の卒業式なんて一生に一回だしな…」なんてよくわからない理屈でレンタルしましたが、蓋を開けてみると、3割ぐらいの女子しか着ていませんでした。小学生の言う「みんな」は信じてはいけません。 ところで、SAS Japan では、毎年夏休みに「親子でデータサイエンス」というイベントを開催しています。小学生とその保護者が、一緒にデータを活用したポスターを作るイベントです。何年か前、自分のおこづかいが少ないと感じた小学生が、おこづかいアップを目指すためのポスターを制作しました。学校のお友達に毎月のおこづかいの金額をアンケートし、集計した結果をヒストグラムに表し、平均値、中央値、最頻値を算出して、親を説得するための材料にしたのです。「みんな私よりおこづかい多いよ!」という主観的で非定量的な主張より、このようにデータとグラフで示されると、親は納得せざるを得ません。 子供が親を説得するのに限らず、組織として多くの人が関わる仕事では、ある種の同意を形成する必要があります。そこには納得感が必要であり、そのためには客観的なデータを示すことが役に立ちます。同意が形成されていることを、英語で “be on the same page” と表現しますが、同じページの同じ図表を見ていることが重要なのです。おそらく、どこの会社でも同様のものがあると思いますが、SAS Japan では毎月、全社員が参加する(ことになっている)ミーティングのなかで、現在の売上の状況が報告されます。どの部門が目標に対してどれぐらいの位置にいて、来月以降はどの程度の売上を予測しているのか、図表を使って全社員に共有します。そのことにより、全員が同じ目標に向かって活動することができます。 可視化の役割 データサイエンスという言葉には、人工知能や機械学習のイメージが強いかもしれませんが、実際の社会におけるデータ活用では、まだまだこのような可視化の役割が大きいと感じています。多くの人の同意を得るために客観的なデータを提示するだけでなく、日常的なデータをモニタリングし、非日常的な変化を検知してアラートを上げることができます。例えば新型コロナウイルスの陽性者は毎日報告されて、その遷移が可視化されています(例: 東京都のページ)。これにより、「感染者が増えてきたな」と感じることができますし、数値が基準を超えると、まん延防止措置や緊急事態宣言などの対策が取られることになります。 他にも、例えば工場のカーボン・フットプリントの総量が規制されているような場合、各ラインが毎日どれぐらいエネルギーを消費しているかについての情報を管理することが必要になります。このためには、データを集計し、報告する必要があります。毎日することですので、手作業で実施するのは大変です。データ取得から報告書作成までを自動化できれば、仕事の効率を上げることができます。そのためには、どんな分析をするか、だけではなく、いつデータを持ってきて、分析結果をどこにどのタイミングで出力するかを考慮してシステムを設計する必要があります。世の中には、まだまだこのように記述的アナリティクスにより解決できる課題が多く残っていると思われます。 可視化をサービスの透明性の確保のために行っている例もあります。米国のダーラム市の事例では、警察が市民の信頼を得るために、警察官の活動データを可視化して市民が閲覧できるようにしました。逮捕、出勤、苦情、トレーニングなどのデータを集め、指標をダッシュボードに表示します。市民が自分でダッシュボードを操作して「分析」することができれば、より「自分が調べている」感が出て納得しやすくなり気がします。 記述的アナリティクスとデータ準備、データ探索 記述的アナリティクスは記述統計量を計算したり、データをグラフで表したりするだけだから簡単だ、と思われるかもしれませんが、実際はそうではありません。可視化も含めたデータ分析のためには準備が必要で、この工程に80%もの時間が使われることも珍しくありません。データはどこにあるのか、どのようにアクセスするのか、そのデータの項目は何を意味しているのか、入力漏れはないか、ありえない値が入力されていないか、表記は統一されているか、複数のデータソースに整合性はあるか、など、正しいデータ分析のために必要な準備は多岐にわたります。これについては、データの管理と準備の回で詳細を紹介します。 逆に、データの準備のために記述的アナリティクスが活用されることもあります。例えば、記述統計量やヒストグラムにより各変数の分布を調べることで、それが想定している分布と一致しているか、おかしな値が入力されていないかをチェックすることができます。変数間の相関を見たり、散布図を描いたりすることで、異常値を発見しやすくなることもあります。 また、このようなデータ探索は、診断的アナリティクスや予測的アナリティクスのような、さらなるデータ分析のための準備にも使われます。変数の分布をみることで、どのような統計モデルを当てはめるかを検討することができます。機械学習の精度を上げるためには、変数を操作して適切な特徴量をつくることが必要ですが、そのために変数の分布や欠損をチェックし、変数変換や補完を行うかどうかを決定します。 このように記述的アナリティクスは、データの準備から高度なアナリティクスまで、幅広いフェーズに活用される基礎的なスキルです。 記述的アナリティクスの学習 SASソフトウェアで記述的アナリティクスを実践するときは、SAS Visual Analytics を活用するのが便利です。マウス操作でデータの可視化とレポート作成、データ分析を行うことができます。 学生であれば、学習用ポータル Skill Builder for Students に登録して、e-learningで学ぶことができます。「SAS Visual Analytics 1 for SAS Viya: Basics」というコースでは、データ準備と可視化、レポーティングを学ぶことができます。ぜひご活用ください。
SASのビジョンは「データがあふれる世界をインテリジェンスに満たされる世界に変える」ですが、そのためにはデータの活用について知っている人材が世の中でさまざまな役割を担うことが重要だと考えています。そこで、SASはグローバルで教育・アウトリーチ活動を実施しています。 SAS Japanでは、アナリティクスを学習するための入門編として、同志社大学や上智大学で講義を提供しています。この講義では、SAS社員が講師となり、アナリティクスの基本的な考え方や各業界での活用事例、アナリティクスを実現するためのテクノロジーなどを紹介します。SASソフトウェアを活用した実際のデータ分析に取り組む前に、アナリティクスがどこで活用されているのか、何のために使われているのかについて、データサイエンティストを目指す学生以外にも知ってほしいと考えて講義を構成しました。実際は90分×15回程度の講義なのですが、このブログ・シリーズでは講義の内容をまとめて紹介します。 アナリティクスとは 「アナリティクス(analytics)」はanalysisから派生した言葉ですが、analysisの語源としては、「ばらばらにする」という意味があるそうです。analysisの日本語訳である「分析」も、「分ける」「析(さ)く」という意味の漢字から成り立っていますから、analysisと同じ意味合いですね。近代以降の還元主義的な考え方によれば、「分ける」ことはすなわち「理解する」ことにつながります。分解することにより、ものごとを理解しようというのがanalysisの言葉的な意味になります。 近代の科学では、対象の理解のために観察や実験といった方法が採られてきました。そこには、データが必須です。対象を分解し、データを比較することがスタートです。比較対象をできるだけシンプルにすることが研究の基本的な態度ですが、対象が複雑になったり大規模になったりすると、多くのデータが必要になります。そのため、複雑で多様なデータから情報を引き出し、ものごとを理解するための技術が発展しました。それがアナリティクスです。analyticsを直訳すると「分析学」であり、analysisに関する知識や技術の総称になります。SASのWebページには次のように書いています。 アナリティクスは包括的かつ多面的な分野であり、記録されたデータに潜む有意義なパターンや知識を発見するために、数学、統計学、予測モデリング、機械学習などの手法を活用します。 SASはアナリティクスのソフトウェアとサービスを提供している企業ですが、単なる「技術」を売っているとは考えていません。人間が対象を理解しようとしているのは、その理解から利益を得たいからです。今日、世界中の組織でアナリティクスやデータサイエンスが活用されているのは、それが組織の役に立つからです。SASにはこんな言葉があります。 Data doesn’t drive your organization, Decisions do. データは組織を駆動しない。意識決定が駆動する。 アナリティクスはデータを分析し、インサイトを得るための技術ですが、それが人間の意思決定につながらない限りは組織の利益にはなりません。 意思決定をしてみよう 「意思決定」と言っても、べつに特別なことではありません。我々は日常的に意思決定をしています。少し例を上げてみましょう。 今日、傘を持っていくか? 週末のイベントに参加するか?(コロナ禍) ワクチンを接種するか? 運動会のリレーのクラス代表を誰にするか? どの授業に登録するか? みなさんは、これらの課題に対し、どのように意思決定をしますか? 傘を持っていくかどうかの判断は、天気予報を見て決めるでしょう。天気予報は、気象庁や気象予報士が過去のデータと現在の観測データ(衛星や気象観測所、各種センサーなど)を用いて未来の天気を予測しています。週末のイベントに参加するかどうかは、新型コロナウイルスの感染者の動向を見て決めるでしょう。ニュースやWebサイトでは、感染者の遷移がわかりやすく可視化されています。ワクチンを接種するかどうかは、ワクチンに効果があるかどうか、副反応が許容できる範囲かどうかを考慮して決めるでしょう。ワクチンの効果は、厳密にデータと統計学によって検証されます。運動会のリレーのクラス代表は、体育の授業の50m走のタイムを見て決めると納得しやすいです。1回だけだと「たまたま」かもしれないので、何回かの平均タイムを比較するかもしれません。どの授業に登録するかは、学部・学科の履修ガイドラインもさることながら、過去にその授業を受けた先輩が残したデータを参考にするでしょう(筆者の学生時代は、単位の取りやすさがA-Dにランク付けされたリストが出回っていました)。このように、みなさんは日常的に意思決定をしていますし、そこではデータを役立てていることが多いことがわかります。 みなさんのなかには、データサイエンティストを目指している人もいるかもしれません。組織のなかでアナリティクスを活用するには、この意思決定をどのように支援するかを考えることが重要です。データを取得し、分析し、その結果を意思決定者であるユーザーに提示するサービスを設計する必要があります。この「ユーザー」はアナリティクス・ソフトウェアのユーザーではなく、意思決定サービスのユーザーという意味です。データサイエンティストは、データがあるからとりあえず分析してみるのではなく、ユーザーが意思決定をする際の課題をいかにデータ分析により手助けするかをプランすることも役割の一つになります。 4つのアナリティクス ガートナーによると、アナリティクスは、データ分析をしてから意思決定にいたるまで、どの程度人間が介在するかによって4つのレベルに分けられます。 記述的アナリティクス … 過去に何が起こったか、いま何が起こっているかを知る。データの集計や平均値などの統計量の計算、グラフを用いた可視化など。 診断的アナリティクス … 事象なぜ起こったかを分析する。要因分析・効果検証・統計的因果推論など。 予測的アナリティクス … 未知の事象を過去のデータや入手できる情報から予測する。統計モデル・機械学習モデルを活用。 指示的アナリティクス … 次に何をすべきかを指し示す。数理最適化の手法を活用。 例えば、上記の意思決定の例であれば、イベントへの参加を検討するためにコロナ感染者の推移をグラフで見たり、リレーのクラス代表者を50m走のタイムで決めたりするのは、記述的アナリティクスに該当します。情報を解釈して判断する大部分を意思決定者自身が担います。ワクチンの効果を検証するのは診断的アナリティクスです。ランダム化比較実験や統計的因果推論の手法を用います(次回以降で解説します)。天気予報は、予測的アナリティクスに当たります。過去のデータと現在の観測情報から未来の天気を予測します。指示的アナリティクスでは、例えば最適な配送経路を計算するのに数理最適化の手法を用います。 次回以降は、これら4つのアナリティクスを詳しく見ていきましょう。
社会でのデータ活用が進むにつれ、それを推進する人材の必要性が増しています。データ活用人材、アナリティクス人材、データサイエンティスト、呼び方や役割はさまざまですが、そのスキルの根底にあるのは、「データリテラシー」です。データリテラシーとは、世界で起こっているさまざまなことを理解するために、データと対話できることを指します。データの有用性を見極め、信頼性を問い、意味を見出し、その洞察を意思決定に役立て、洞察を他者に伝えることができる一連のスキルです。内閣府、文部科学省、経済産業省は、大学における「リテラシーレベル」の数理・データサイエンス・AI教育プログラムについて、認定制度をはじめようとしています。 SASは、学生向けにデータサイエンスを学べる SAS Skill Builder for Students を無料で提供しています。Skill Builder for Students の e-Learning のなかに、データサイエンスを学ぶ最初のコースとして、Data Literacy Essential があります。このコースでは、身近な例を取り上げ、段階を踏んでわかりやすくデータリテラシーについて学ぶことができます。 SASは、アナリティクスが個人や組織の意思決定のために活用されるものであることを意識し、製品やサービスを展開しています。この Data Literacy Essential のコースでも、意思決定の際にデータとどう向き合えばよいのか、その理解のためのファースト・ステップを提供します。よく統計学の初級コースで、「まず平均や分散を計算してみましょう」という教材がありますが、実は、それ以前に理解すべきことがあります。なぜデータを見る必要があるのか、どのようにデータを集めるのか、そのデータはどういう性質を持っているのか、という疑問と、それらを知ろうとする姿勢が必要です。 このコースは6つのモジュールで構成されます。 Why Data Literacy Matters ... WebやSNSなどで出会うさまざまなデータを例にデータリテラシーの重要性を学びます。 Data Literacy Practices ... 商品の購入を例にデータリテラシーの実践を学びます。 Identifying Reliable Data ... ある家族の新型コロナ感染予防の取り組みを例に信頼できるデータの収集について学びます。 Discovering the Meaning of Data ... 新型コロナの影響を受けたビジネスを例にデータから知見をどのように得られるのかを学びます。 Making Data-informed Decisions ...
There is no excerpt because this is a protected post.
Inzicht krijgen in de kracht van analytics én leren omgaan met analytische software. En dat terwijl je gewoon een spel speelt. Dat is de SAS Energy Game. Inmiddels hebben al honderden studenten het spel gespeeld en daarmee hun analytische vaardigheden versterkt. Meer mensen kennis laten maken met analytics Data is
Whether you’re looking for technical or business opportunities, a strong resume will help you stand out from the crowd and make a good first impression. But resume creation is an art, not a science, and starting from scratch can feel daunting. Never fear – our Talent Acquisition Specialist, Christie Eades,
Higher Education has been slow to adopt analytics in comparison to the commercial sector, but those institutions that have embraced a culture of analytics have seen significant and tangible results. Higher Education analytics can help in nearly every corner of academia including enrollment and retention, student success, academic research and
El perfil de un analista de datos es cada vez más demandado en el plano profesional. Ante este panorama, el equipo de Academics de SAS y la Universidad Francisco de Vitoria (UFV) unieron fuerzas en el año 2020 para impulsar el Grado en Business Analytics powered by SAS con la
Nicht die Frage nach den Grundlagen sei einstellungsrelevant, sondern inwieweit sich die Nachwuchskräfte weiterentwickeln wollen, wenn sie dann im Job sind.
はじめに 前回のコラムでは因果関係を統計学的に考えるために「潜在アウトカム」という概念を導入しました。そして、因果効果を異なる介入レベルの潜在アウトカムの比較によって定義しました。例えば、心臓移植という介入がその後の生存に関して因果効果を持つかどうかを考えたい場合には、各個人が心臓移植を受けたらどうなったか、もしくは受けなかったらどうなっていたかという2つのifの結果(潜在アウトカム)を考え、それぞれを比較します。これが潜在アウトカムの枠組みでの因果推論(Rubin流の因果推論)の基本的な考え方になります。 しかし、詳細については後述しますが、このifの結果である潜在アウトカムは、現実にはいずれか1つしか観測はされず、もう一方は現実には得られない結果(反事実)となるため、個人における因果効果は定義することは可能であっても、その値を求めることは一般には出来ません。しかし、平均因果効果については識別可能条件 (identifiability conditions) と呼ばれる以下の3つの仮定の下では、その値をデータから推定することが可能です。 一致性 (consistency) 交換可能性 (exchangeability) 正値性 (positivity) 今回のコラムではこれらが意図する内容について解説を行います。なお推定手法によっては追加の仮定や、ここで紹介したものとは異なる仮定が置かれる場合(e.g., 操作変数法)、暗に置かれている条件については補足資料や、各推定手法に関するコラムをご参照ください。 一致性 前述のように潜在アウトカムを用いるRubin流の因果推論においては、因果効果は異なる介入レベルの潜在アウトカムの比較によって定義されます。ここで1つ重要なことがあります。それは、潜在アウトカムと観測されるアウトカムは異なる概念であるということです。あくまで潜在アウトカムとは、〇〇という介入を「仮に受けたとしたらどのような結果となるかというifの結果」であり、観測されるアウトカムは〇〇という介入を「実際に受けた場合の結果」です。つまり、潜在アウトカムを用いて定義される因果効果をデータ(観測される結果)から考えるためには、これら2つの異なるアウトカムをリンクさせる必要があります。 そこで必要となるのが一致性 (consistency) と呼ばれる仮定です。一致性とは全ての個人に関して、ある介入A=aを受ける場合の潜在アウトカム Ya が、実際にその介入を受けた場合に観測されるアウトカムYと一致することを意味します。例えば、介入Aを心臓移植の有無、アウトカムを介入から5日後の生存の有無としたとき、ある個人に対して想定される潜在アウトカムは、介入を受けない場合と受ける場合の結果であるYia=0, Yia=1の2つです。ここで仮に、被験者は実際に介入を受けたとします。すると、手術から5日後に観察された結果Yは、手術の前に考えた潜在アウトカム Yia=1と同じであるというのが一致性が指す内容です。一見すると、大変当たり前のことを言っているように思われます。しかし、一致性は以下の2つの要素から構成され※1、これらが成立しない場合には、潜在アウトカムと観測されるアウトカムが一致しない、もしくは後述の式の様な単純な関係とはならない場面があります。 precise definition of the counterfactual outcomes linkage of the counterfactual outcomes to the observed outcomes 1つ目の要素は、潜在アウトカムを構成する要素が十分に定義されているかどうかに関する項目です。ここまで心臓移植という介入の因果効果を考えるにあたり、介入を受ける場合の潜在アウトカム Ya=1と受けない場合の潜在アウトカムYa=0を比較しました。しかし、心臓移植を受けるといっても心臓移植を行う医師によって治療の効果は変わりうる可能性は十分考えられます(医師の手術の上手さが異なる)。このように単に介入を受けるといっても複数のバージョンがあり (multiple versions of treatment) 、かつ、それぞれの場合で介入による効果が異なる場合には、治療を受ける場合の潜在アウトカムを単にYia=1とするのではなく、どのような治療を受けるのかといった情報まで含めて、潜在アウトカムの定義をする必要があります。precise definition of the
A line in the sand was drawn in March 2020 at the beginning of the COVID-19 pandemic. Schools closed and all education-related stories focused on learning loss and other related events that happened after that date. As the discussion shifts to learning recovery, there is still a significant amount of
What does data have to do with dry-erase markers? Everything if you’re looking to help teachers stock their classrooms with supplies they actually need. That's the goal of the SAS Data Drive – a school-supply donation drive with a special focus on data, undertaken for the second-consecutive year – conducted