Thanks to the ubiquity of smartphones and laptops, people are used to getting what they need at the press of a button – whether they’re looking for information, seeking action or trying to solve a problem. Citizens want that same ease of access from their city’s government. As more citizens
Uncategorized
The moment-ratio diagram is a tool that is useful when choosing a distribution that models a sample of univariate data. As I show in my book (Simulating Data with SAS, Wicklin, 2013), you first plot the skewness and kurtosis of the sample on the moment-ratio diagram to see what common
In a world where MarTech complexity is skyrocketing, utilization has declined sharply and the integration of data and technology are a marketer’s biggest tech challenges, CMOs are under pressure to prove marketing ROI. However, the combination of SAS and the Snowflake Data Cloud presents a value proposition that is hard
A SAS programmer wanted to simulate samples from a family of Beta(a,b) distributions for a simulation study. (Recall that a Beta random variable is bounded with values in the range [0,1].) She wanted to choose the parameters such that the skewness and kurtosis of the distributions varied over range of
A dot plot is a standard statistical graphic that displays a statistic (often a mean) and the uncertainty of the statistic for one or more groups. Statisticians and data scientists use it in the analysis of group data. In late 2023, I started noticing headlines about "dot plots" in the
Authors: Steven Harenberg and Amy Becker The total solar eclipse taking place across a thin band of the United States on April 8, 2024, is going to be a stellar event. In this post, we will help plan a journey to see the total solar eclipse. We will use algorithms
SAS Viya can allow users and organizations to more easily interface with the LLM application, build better prompts and evaluate systematically which of these prompts leads to the best responses to ensure the best outcomes.
My colleague Rick Wicklin maintains a nifty chart that shows the timeline of SAS releases since Version 8. A few of you asked if I could post a similar chart for SAS Enterprise Guide. Here it is. Like Rick, I used new features in SAS 9.4 to produce this chart
SAS' Varun Valsaraj demonstrates how to build a digital assistant for a warehouse space optimization use case.
Recently, I saw a scatter plot that displayed the ticks, values, and labels for a vertical axis on the right side of a graph. In the SGPLOT procedure in SAS, you can use the Y2AXIS option to move an axis on the right side of a graph. Similarly, you can
Adopting analytics and AI in the public sector is changing how governments make decisions. Technology improves the efficiency and transparency of work processes, positively impacting service delivery to increasingly demanding citizens. However, many government organizations still need help fully embracing a data-driven culture. The Covid-19 pandemic is one of the
A recent article describes how to estimate coefficients in a simple linear regression model by using maximum likelihood estimation (MLE). One of the nice properties of an MLE formulation is that you can compare a large model with a nested submodel in a natural way. For example, if you can
SAS announces continued support and releases for SAS 9 and a new role for SAS Enterprise Guide with SAS Viya.
Concerns about risk and the fear of change can be some of the biggest barriers to career development. Following the release of her book Leap: Why It’s Time to Let Go To Get Ahead in Your Career, author Jessica Galica invites you to reframe your view on risk. Speaking for
1. ‘SAS 컨테이너 런타임’이란? SAS는 SAS Viya 2021.1.1.3에서 SAS 컨테이너 런타임(SAS Container Runtime, 이하 SCR)을 출시했으며, 그 이후 많은 고객이 운영환경에서 SCR을 구현했습니다. 이 혁신적인 런타임 엔진은 SAS 모델과 의사결정을 Open Container Initiative (OCI) 호환 컨테이너에 배포하는 역할을 합니다. SCR은 표준 기술을 사용하여 SAS Viya 외부에서 모델과 의사결정을 실행합니다. 클라우드
A statistical analyst used the GENMOD procedure in SAS to fit a linear regression model. He noticed that the table of parameter estimates has an extra row (labeled "Scale") that is not a regression coefficient. The "scale parameter" is not part of the parameter estimates table produced by PROC REG
SAS' Julia Florou-Moreno shows you how to use generative AI to build a digital assistant that interacts with a model using natural language conversation.
Happy Pi Day! Every year on March 14th (written 3/14 in the US), people in the mathematical sciences celebrate all things pi-related because 3.14 is the three-decimal approximation to π ≈ 3.14159265358979.... Pi is a mathematical constant defined as the ratio of a circle's circumference (C) to its diameter (D).
Making a difference involves taking meaningful actions that contribute positively to society. Whether it's through volunteering, creating innovative solutions or advocating for important causes, each action advances change. This is the third post in a new series highlighting women from diverse backgrounds as they share their experiences in the tech
I recently wrote about the Number-Word Game, which is an iterative algorithm that generates a sequence of natural numbers by using the lengths of the words for the numbers. In English, the words are "one", "two", "three", and so on. You can play the Number-Word Game in any alphabetic language
Have you heard about the Number-Word Game? This is a simple game that has the following rules: Start with any positive integer. Write down the English word for the integer. Count the number of letters in the word. This gives a new positive integer. Go to (2). Repeat until a
I sometimes see analysts overuse colors in statistical graphics. My rule of thumb is that you do not need to use color to represent a variable that is already represented in a graph. For example, it is redundant to use a continuous color ramp to represent the lengths of bars
This phenomenon has been in the news recently, so I've updated this article that I originally published in 2017. The paper currency in circulation in the US is mostly $100 bills. And not just by a little bit -- these account for 34% of the notes by denomination and nearly
글로벌 시장 조사 및 분석 기관 차티스(Chartis) 리서치가 FRAML 솔루션에 대해 실시한 첫 평가에서 SAS를 리더(Leader) 기업으로 선정했습니다. 이와 더불어 SAS는 AML거래 모니터링 솔루션 부문에서도 리더로 인정받아 금융범죄 대응 솔루션 부문에서 SAS의 성능과 신뢰성을 확인받게 되었습니다. <그림 1> FRAML 솔루션 부문 리더 (Source : Chartis RiskTech Quadrant for FRAML Solutions,
“업무 프로세스를 보다 효율적으로 바꾸기 원하시나요? 리스크를 줄이고 서비스의 질을 높이고 싶으신가요? 우선 순위가 높은 일에 집중하거나 혁신에 보다 많은 시간을 투자하고 싶으신가요?” *아래 글은 Cindy Turner의 글을 SAS KOREA에서 번역한 것입니다. (원문 링크) 우리는 누구나 제품이나 서비스의 가치를 높이면서도 리스크를 줄이고, 보다 효율적으로 일할 수 있기를 바랍니다. AI 비서를
With four parameters I can fit an elephant. With five I can make his trunk wiggle. — John von Neumann Ever since the dawn of statistics, researchers have searched for the Holy Grail of statistical modeling. Namely, a flexible distribution that can model any continuous univariate data. As the quote
After reading about the tragic attack and death of Nex Benedict, a 16 year old non-binary student in Oklahoma, I sat down to write another blog post about why we need to take care of our gender diverse community and how to support our gender diverse teens at a time
In statistical quality control, practitioners often estimate the variability of products that are being produced in a manufacturing plant. It is important to estimate the variability as soon as possible, which means trying to obtain an estimate from a small sample. Samples of size five or less are not uncommon
In a recent Monte Carlo project, I needed to simulate numbers on an interval by using a continuous linear probability density function (PDF). An example is shown to the right. In this example, the linear density function is decreasing on the interval, but the function could also be constant or
注) 本コラムは『経時的に変化する治療(Time-varying treatments)に対する因果推論』と題した以前のコラムを、時間依存性治療に関する部分と周辺構造モデルにおけるIPTW法に関する部分に分割し、内容の追加と修正を行い再構成したものの一部となります。 はじめに 多くの統計的因果推論に関する書籍や文献では、ある治療※1が単時点で行われる場合の因果効果の推定手法について紹介がされています。しかし、治療が複数の時点にわたって実施され、その一連の治療による効果に興味があるという状況も存在するかと思います。例えば、新型コロナワクチンの接種が我々に身近な例として挙げられ、これ以外にも顧客に対する商品のレコメンデーションなど医学分野に限らず様々な例が挙げられます。 正確な定義は後述しますが、上記で挙げたような複数の時点において実施され、かつ各時点での値が異なりうる(時間経過とともにとる値が変化しうる)治療は、時間依存性治療(time-varying treatments)と呼ばれます。時間依存性治療に対する因果推論へのニーズは、近年の統計的因果推論という言葉自体の認知の広まりや個別化医療への関心の高まりに相まって増加しています。一方で、その統計学的理論の理解は点治療の状況と比較すると内容が高度になることや日本語での文献が少ないことからそれほど進んでいません。そこで、本コラムでは時間依存性治療に対する効果をどのように定義するか、問題となることは何か、どのように効果の推定を行えばよいかについて簡単に解説を行います。また、いくつかの代表的な推定手法についてはSASでの実装方法も併せて紹介を行います。なお、本コラムは潜在アウトカムモデルの枠組みの下での因果推論について基本的な理解があることを前提としています。適宜関連する書籍や文献、因果推論に関する連載コラムをご参照していただければ幸いです。 ※1 本コラムにおいては、介入(intervention)や曝露(exposure)など他の原因となる変数を治療(treatment)と同義的に用いて構わないものとする 因果推論を行う上での治療分類("time-fixed" or "time-varying") ある治療とアウトカムとの因果関係を議論する場合、治療はtime-fixed treatments(時間固定性治療)※2、もしくはtime-varying treatments(時間依存性治療)のいずれかに分類がされます。そして、このどちらに属するかによって扱いは大きく異なります。まず、治療が時間固定(time-fixed)であるとは、対象集団におけるすべての被験者に関して、初回の治療レベルが以降のすべての時点における各々の治療レベルを決定することを指します。この状況としては大きく3つあります。 治療が研究開始時点でのみ行われる 1つ目は、治療がベースラインやtime zeroとも呼ばれる研究やプロジェクトの開始時点でのみ行われる場合です。一般的な臨床試験で投与される被験薬・対照薬や、一回の投与で完全な免疫を与えるone-dose vaccine(e.g., 黄熱病ワクチン)などが実例として挙げられます。 初回の治療レベルが時間経過によって不変 2つ目は、初回の治療が2回目以降の治療時点においても変わらず継続的に行われる場合です。この状況の例としては、被験薬と対照薬の複数回投与が予定される臨床試験や近年いくつかの国で導入されているベーシックインカムといったものが挙げられるかと思います。 決定論的に各時点の治療レベルが定まる 3つ目は、初回の治療レベルが決定論的にその後の治療レベルを定める場合です。すなわち、初回治療での分岐以降はそれぞれ1つの治療パターンとなる場合です。例えば、A群に割り付けられた被験者は隔週で被験薬を、B群に割り付けられた被験者は毎週対照薬を投与(初回治療が被験薬なら毎週投与、対照薬なら隔週投与)されるといった実験が1つの例として考えられます。また、Aチームに配属された選手は実践練習と模擬戦を、Bチームに配属された選手は基礎練習と筋力トレーニング(初回練習が応用練習ならその後は模擬戦、基礎練習なら筋力トレーニング)をそれぞれ1日の練習メニューとして行うといったものもスポーツの領域における例として考えられます。 上記の分類からも類推されるように、治療が複数時点で行われるとしても2, 3の状況に該当する場合には、因果推論を行う上での扱いは治療が単時点で行われる場合と変わらず、ベースライン共変量の調整に基づく手法が適用可能です。これはすべての個人に関して初回治療によって2回目以降の治療が決定されるため、後述する時間依存性交絡(time-dependent confounding)という問題が生じ得ないためです。 次に、時間依存性治療(time-varying treatments)とは時間固定でない治療すべてを指します。すなわち、複数時点で行われる治療であり、かつ各時点でとる値が初回の治療によって決定論的に定まらない治療が時間依存性治療にあたります。例えば、月に1回のペースで運動指導プログラムをある市において行うというプロジェクトを考えてみます。ここで、「初回指導に参加した場合は何があっても絶対に毎回参加しなければならない」や「初回指導に参加しなかった場合には絶対に以降参加できない」などといった特殊な制約がない限りは、各指導日でプログラムという2つの選択肢を市民は取ることができます。そのため、この運動指導というのは時間依存性治療にあたります。 この他にも疫学研究における喫煙や投薬量が被験者の状態によって変更される処方、検索履歴に応じて表示される広告(レコメンド)など様々な曝露、治療、介入が時間依存の例として挙げられます。ただし、特に疫学・医学分野においては本質的には時間依存であるものの、測定の実現可能性から時間固定とされる場合もあります。また、対照的に研究・プロジェクトの計画時点では時間固定であるものの、研究実施後には時間依存であるとみなされる場合もあります。それが割付の不遵守(コンプライアンス違反)が存在する場合の治療です。例えば、上記の時間固定である治療の2番目のシナリオで紹介した継続的に被験薬と対照薬(実薬)を投与するという臨床試験においては、試験に参加する被験者が何らかの理由(e.g., 副作用の発現)で治療法を切り替える場合があります。このような状況においては、本来は時間固定であった治療を時間依存性治療とみなして解析(補正)を行うことが可能です。 ※2 執筆時点で対応する定訳が存在しないという筆者の認識であるが、本コラムにおいては時間固定性治療という訳をあてる 治療レジメン(treatment regime) ここまでは因果推論を行う上での治療分類について紹介を行いましたが、以降では治療レジメンとその分類について紹介と解説を行います。これらは、因果効果の定義やデータを用いて効果を推定する(識別のために必要な仮定を検討する)場合に非常に重要になります。ここから先は数学的な内容も入りますので、以下のように記法をおきます。基本的にはアルファベットの大文字は確率変数を、小文字はその実現値を指しています。 k:時点を表す添字(k = 0, 1, ..., K) Ak:時点kにおける二値である時間依存性治療(1: あり, 0: なし) A0:k