In statistical quality control, practitioners often estimate the variability of products that are being produced in a manufacturing plant. It is important to estimate the variability as soon as possible, which means trying to obtain an estimate from a small sample. Samples of size five or less are not uncommon
Uncategorized
In a recent Monte Carlo project, I needed to simulate numbers on an interval by using a continuous linear probability density function (PDF). An example is shown to the right. In this example, the linear density function is decreasing on the interval, but the function could also be constant or
注) 本コラムは『経時的に変化する治療(Time-varying treatments)に対する因果推論』と題した以前のコラムを、時間依存性治療に関する部分と周辺構造モデルにおけるIPTW法に関する部分に分割し、内容の追加と修正を行い再構成したものの一部となります。 はじめに 多くの統計的因果推論に関する書籍や文献では、ある治療※1が単時点で行われる場合の因果効果の推定手法について紹介がされています。しかし、治療が複数の時点にわたって実施され、その一連の治療による効果に興味があるという状況も存在するかと思います。例えば、新型コロナワクチンの接種が我々に身近な例として挙げられ、これ以外にも顧客に対する商品のレコメンデーションなど医学分野に限らず様々な例が挙げられます。 正確な定義は後述しますが、上記で挙げたような複数の時点において実施され、かつ各時点での値が異なりうる(時間経過とともにとる値が変化しうる)治療は、時間依存性治療(time-varying treatments)と呼ばれます。時間依存性治療に対する因果推論へのニーズは、近年の統計的因果推論という言葉自体の認知の広まりや個別化医療への関心の高まりに相まって増加しています。一方で、その統計学的理論の理解は点治療の状況と比較すると内容が高度になることや日本語での文献が少ないことからそれほど進んでいません。そこで、本コラムでは時間依存性治療に対する効果をどのように定義するか、問題となることは何か、どのように効果の推定を行えばよいかについて簡単に解説を行います。また、いくつかの代表的な推定手法についてはSASでの実装方法も併せて紹介を行います。なお、本コラムは潜在アウトカムモデルの枠組みの下での因果推論について基本的な理解があることを前提としています。適宜関連する書籍や文献、因果推論に関する連載コラムをご参照していただければ幸いです。 ※1 本コラムにおいては、介入(intervention)や曝露(exposure)など他の原因となる変数を治療(treatment)と同義的に用いて構わないものとする 因果推論を行う上での治療分類("time-fixed" or "time-varying") ある治療とアウトカムとの因果関係を議論する場合、治療はtime-fixed treatments(時間固定性治療)※2、もしくはtime-varying treatments(時間依存性治療)のいずれかに分類がされます。そして、このどちらに属するかによって扱いは大きく異なります。まず、治療が時間固定(time-fixed)であるとは、対象集団におけるすべての被験者に関して、初回の治療レベルが以降のすべての時点における各々の治療レベルを決定することを指します。この状況としては大きく3つあります。 治療が研究開始時点でのみ行われる 1つ目は、治療がベースラインやtime zeroとも呼ばれる研究やプロジェクトの開始時点でのみ行われる場合です。一般的な臨床試験で投与される被験薬・対照薬や、一回の投与で完全な免疫を与えるone-dose vaccine(e.g., 黄熱病ワクチン)などが実例として挙げられます。 初回の治療レベルが時間経過によって不変 2つ目は、初回の治療が2回目以降の治療時点においても変わらず継続的に行われる場合です。この状況の例としては、被験薬と対照薬の複数回投与が予定される臨床試験や近年いくつかの国で導入されているベーシックインカムといったものが挙げられるかと思います。 決定論的に各時点の治療レベルが定まる 3つ目は、初回の治療レベルが決定論的にその後の治療レベルを定める場合です。すなわち、初回治療での分岐以降はそれぞれ1つの治療パターンとなる場合です。例えば、A群に割り付けられた被験者は隔週で被験薬を、B群に割り付けられた被験者は毎週対照薬を投与(初回治療が被験薬なら毎週投与、対照薬なら隔週投与)されるといった実験が1つの例として考えられます。また、Aチームに配属された選手は実践練習と模擬戦を、Bチームに配属された選手は基礎練習と筋力トレーニング(初回練習が応用練習ならその後は模擬戦、基礎練習なら筋力トレーニング)をそれぞれ1日の練習メニューとして行うといったものもスポーツの領域における例として考えられます。 上記の分類からも類推されるように、治療が複数時点で行われるとしても2, 3の状況に該当する場合には、因果推論を行う上での扱いは治療が単時点で行われる場合と変わらず、ベースライン共変量の調整に基づく手法が適用可能です。これはすべての個人に関して初回治療によって2回目以降の治療が決定されるため、後述する時間依存性交絡(time-dependent confounding)という問題が生じ得ないためです。 次に、時間依存性治療(time-varying treatments)とは時間固定でない治療すべてを指します。すなわち、複数時点で行われる治療であり、かつ各時点でとる値が初回の治療によって決定論的に定まらない治療が時間依存性治療にあたります。例えば、月に1回のペースで運動指導プログラムをある市において行うというプロジェクトを考えてみます。ここで、「初回指導に参加した場合は何があっても絶対に毎回参加しなければならない」や「初回指導に参加しなかった場合には絶対に以降参加できない」などといった特殊な制約がない限りは、各指導日でプログラムという2つの選択肢を市民は取ることができます。そのため、この運動指導というのは時間依存性治療にあたります。 この他にも疫学研究における喫煙や投薬量が被験者の状態によって変更される処方、検索履歴に応じて表示される広告(レコメンド)など様々な曝露、治療、介入が時間依存の例として挙げられます。ただし、特に疫学・医学分野においては本質的には時間依存であるものの、測定の実現可能性から時間固定とされる場合もあります。また、対照的に研究・プロジェクトの計画時点では時間固定であるものの、研究実施後には時間依存であるとみなされる場合もあります。それが割付の不遵守(コンプライアンス違反)が存在する場合の治療です。例えば、上記の時間固定である治療の2番目のシナリオで紹介した継続的に被験薬と対照薬(実薬)を投与するという臨床試験においては、試験に参加する被験者が何らかの理由(e.g., 副作用の発現)で治療法を切り替える場合があります。このような状況においては、本来は時間固定であった治療を時間依存性治療とみなして解析(補正)を行うことが可能です。 ※2 執筆時点で対応する定訳が存在しないという筆者の認識であるが、本コラムにおいては時間固定性治療という訳をあてる 治療レジメン(treatment regime) ここまでは因果推論を行う上での治療分類について紹介を行いましたが、以降では治療レジメンとその分類について紹介と解説を行います。これらは、因果効果の定義やデータを用いて効果を推定する(識別のために必要な仮定を検討する)場合に非常に重要になります。ここから先は数学的な内容も入りますので、以下のように記法をおきます。基本的にはアルファベットの大文字は確率変数を、小文字はその実現値を指しています。 k:時点を表す添字(k = 0, 1, ..., K) Ak:時点kにおける二値である時間依存性治療(1: あり, 0: なし) A0:k
How to calculate a leap year in SAS - the easy way!
The SAS extension for VS Code supports SAS syntax and programming, and can connect to almost all SAS environments.
I read a journal article in which a researcher used a formula for the probability density function (PDF) of the sample correlation coefficient. The formula was rather complicated, and presented with no citation, so I was curious to learn more. I found the distribution for the correlation coefficient in the
Some hearts are famous. For example, there is the "Heart of Gold" (Neil Young), the "Heart of Glass" (Blondie), and the Heart of Darkness (Joseph Conrad). But have you heard of the "Heart of Ellipses"? No? Well, in 2023, Ted Conway published an amusingly titled article, "Total Ellipse of the
As nations gear up to transition to more intelligent job prospects, organisations seek to excel in pioneering job markets, particularly in the technology sector. Recognising and harnessing the talents of students is crucial for this to succeed. This means providing the right education, hands-on training, and mentorship from academic and
This article looks at a geometric method for estimating the center of a multivariate point cloud. The method is known as convex-hull peeling. In two-dimensions, you can perform convex-hull peeling in SAS 9 by using the CVEXHULL function in SAS IML software. For higher dimensions, you can use the CONVEXHULL
Retailers face unprecedented challenges with supply chain volatility, inflation, oil price fluctuations, labor shortages and geopolitical activities, making it difficult to plan across the organization. With retail evolving, coupled with persistent supply chain issues, this adds complexity to anticipating and planning for shifts in consumer demand. The emergence of an
The National Institute of Standards and Technology (NIST) has released a set of standards and best practices within their AI Risk Management Framework for building responsible AI systems. NIST sits under the U.S. Department of Commerce and their mission is to promote innovation and industrial competitiveness. NIST offers a portfolio
A SAS programmer wanted to find the name of the variable for each row that contains the largest value. This task is useful for wide data sets in which each observation has several variables that are measured on the same scale. For example, each observation in the data might represent
A colleague remarked that my recent article about using Jacobi's iterative method for solving a linear system of equations "seems like magic." Specifically, it seems like magic that you can solve a certain class of linear systems by using only matrix multiplication. For any initial guess, the iteration converges to
Use SAS DATA step to split a large binary file into smaller pieces, which can help with file upload operations,
In a first course in numerical analysis, students often encounter a simple iterative method for solving a linear system of equations, known as Jacobi's method (or Jacobi's iterative method). Although Jacobi's method is not used much in practice, it is introduced because it is easy to explain, easy to implement,
There are two popular ways to express the steepness of a line or ray. The most-often used mathematical definition is from high-school math where the slope is defined as "rise over run." A second way is to report the angle of inclination to the horizontal, as introduced in basic trigonometry.
Have you ever been curious about your monthly water consumption and how it compares to others in your community? Recently, I had this question and decided to get ahold of my family's water usage data for analysis. Harnessing the power of data visualization, I compared my family of four's monthly
I saw a fascinating Reddit thread titled: "What would you do if your son told you he’s dating an AI?" Here's the post verbatim: "My son (20M) just told my wife and I that he’s been in a relationship with a replika for the past few months. He claims that it’s
Statistical software provides methods to simulate independent random variates from continuous and discrete distributions. For example, in the SAS DATA step, you can use the RAND function to simulate variates from continuous distributions (such as the normal or lognormal distributions) or from discrete distributions (such as the Bernoulli or Poisson).
In a previous article, I presented some of the most popular blog posts from 2023. The popular articles tend to discuss elementary topics that have broad appeal. However, I also wrote many technical articles about advanced topics. The following articles didn't make the Top 10 list, but they deserve a
Where can you meet an iconic Silicon Valley reporter, a best-selling business book author, an experienced AI policy executive, a chief decision scientist from Google and a YouTube hot sauce sensation? All in one place? At our upcoming SAS Innovate event in Las Vegas, of course. SAS Innovate is the
An unobserved category is one that does not appear in a sample of data. For example, in a small sample of US voters, you are likely to observe members of the major political parties, but less likely to observe members of minor or fringe parties. This can cause a headache
In 2023, I wrote 90 articles for The DO Loop blog. My most popular articles were about SAS programming, data visualization, and statistics. In addition, several "general interest" articles were popular, including my article for Pi Day and an article about AI chatbots. If you missed any of these articles,
The SAS-managed services teams provide cutting-edge technology with dedicated service and support. Will Morris and his Build Services team are experienced SAS administrators and engineers who install, configure and tune SAS software and solutions in the cloud. With decades of experience hosting SAS solutions, Build Services utilizes proven best practices
Imagine scrolling through an online store and then clicking on a social media app to see who’s posted what. Suddenly, suggestions for products you liked on the online store pop up while on the app. That’s the magic, in a nutshell, of a retail media network (and machine learning) –
El lavado de activos se ha convertido en un problema de grandes proporciones para la economía de Ecuador. Cifras recientes del Observatorio Ecuatoriano de Crimen Organizado (OECO) lo ubican como el segundo gran flagelo producto de las bandas criminales en Ecuador (solo superado por el narcotráfico) y estimaciones del Centro
It's that time of year again where I get to blend together a holiday song with analytics. This time, we're rocking out to the tune of Jingle Bells about generative AI. Wasn’t Me, Must have been AI (To the tune of Jingle Bells) Wasn’t Me Wasn’t Me Must have been
급변하는 대외 환경 변화와 지속 가능한 성장을 위한 금융기관 조기경보시스템의 조건 최근 국내 대외 환경은 경기변동성 증가와 저성장 국면 진입의 가속화로 요약할 수 있습니다. 또한, 최근 30년을 돌아보면 ‘97년 외환 위기, ‘08년 글로벌 금융 위기와 ‘20년 COVID19 팬데믹 등 주기적인 경제위기 발생과 더불어 글로벌 경기 민감도 역시 증가한 상황입니다.
Statistical software often includes supports for a weight variable. Many SAS procedures make a distinction between integer frequencies and more general "importance weights." Frequencies are supported by using the FREQ statement in SAS procedures; general weights are supported by using the WEIGHT statement. An exception is PROC FREQ, which contains
SAS Enterprise Guide(이하 SAS EG)의 최근 버전에서는 기존의 폴더를 통한 접근뿐만 아니라 GitHub 레파지토리를 등록하여 프로그램을 실행, 수정, 관리할 수 있습니다. 회사나 개인 용도로 GitHub을 사용하고 있을 경우, SAS EG에 레파지토리를 등록하여 사용이 가능합니다. 기존에 SAS EG와 GitHub을 사용하는 분이라면 EG를 통해서 좀 더 효율적이고 편리하게 작업을 하실 수 있습니다.