SAS Japan
活用事例からデータ分析のテクニックまで、SAS Japanが解き明かすアナリティクスの全て注) 本コラムは『経時的に変化する治療(Time-varying treatments)に対する因果推論』と題した以前のコラムを、時間依存性治療に関する部分と周辺構造モデルにおけるIPTW法に関する部分に分割し、内容の追加と修正を行い再構成したものの一部となります。 はじめに 以前のコラムでは、「時間依存性治療とはなにか」、「時間依存性治療の因果効果はどのように定義されるのか」、「定義した因果効果はどう推定すれば良いか」について紹介しました。時間依存性治療の因果効果の推定にあたっては、一般に条件付けに基づく手法(e.g., 回帰、層別化、マッチング)は不適であり、g-methods※1と総称される推定手法が広く用いられています。本コラムでは、それらの中でも直感的な理解や実装が最も容易である「周辺構造モデルにおけるIPTW法(inverse probability of treatment weighting (IPTW) of marginal structural models (MSMs)」の理論とSASでの実装方法について簡単に紹介します。コラム全体の流れは以下の通りです。 時間固定性治療(time-fixed treatments)※2に対する周辺構造モデルとIPTW法の紹介 IPTW法の概要 周辺構造モデルの設定がなぜ必要か 時間依存性治療(time-varying treatments)に対する周辺構造モデルとIPTW法の紹介 SASでの実装 まとめ なお、本コラムは統計的因果推論に関する基本的な理解があることを前提としております。また、文献や書籍によっては、IPTW(Inverse probability of treatment weighting)は、単にIPW(Inverse probability weighting)と記載される場合もあります。しかし、IPW(逆確率重み付け)は治療効果の直接的な推定を目的とした治療変数に関する重み付け以外にも、打ち切りに対する補正(i.e., 打ち切り変数に関する重み付け)等でも用いられることがあり、本コラムでは前者であることを強調するためにIPTWと記載します。加えて、本コラムでは連続もしくは二値であるアウトカム(結果変数)が、研究最終測定時点でのみ測定される状況を想定します。アウトカムが生存時間(time-to-event)である場合や各時点の治療実施後に繰り返し測定される場合など※3、異なる状況における議論についてはreferenceにある文献等をご参照いただくか、著者宛に別途ご連絡いただけると幸いです。 ※1 (i) Inverse probability of treatment weighting of marginal structural models(周辺構造モデルにおけるIPTW法)、(ii) g-computation algorithm formula("g-formula")、(iii) g-estimation of stractural nested model(構造ネストモデルにおけるg-estimation)のという3手法の総称
「金のなる木」という植物があるが、意外にも花が咲くことをご存じだろうか。実は、11月から晩秋から冬にかけて、白や淡いピンクの可憐な花が咲くのだ。もちろん、品種や育て方によって差はあるが、株が大きく成長し、日照や水やりに気を配ることが大切な条件となる。もちろん一定の寒さに当てることも欠かせない。花が咲くと、「幸運を招く」「富をもたらす」「一攫千金」など、縁起が良いとされている。ちなみに、英名は「dollar plant」、まさに金のなる木である。 ところで、マーケティングの世界では、相対的市場シェアと市場成長率を基に商品や事業を4つのカテゴリー、「金のなる木」「問題児」「花形」「負け犬」に分類して分析する手法がある(プロダクトポートフォリオ)。この手法は、ボストン・コンサルティング・グループ(BCG)が開発した「BCGマトリクス」として知られており、例えば、マーケットシェアと市場成長率が高いものは「花形」、成長は高くないがシェアが高い、つまり収益性の高いものは「金のなる木」と分類される。商品戦略としては、取捨選択を行い、負け犬の事業や商品からは力を抜き、金のなる木に力を入れる、といった具合となる。 さて、SASでは様々なトレーニングメニュー(コース詳細とスケジュール)が提供されており、SASプログラミングの初級・中級コースやSAS Enterprise Guideの操作入門、統計初級コースは「金のなる木」に当たり、特に人気が高いため、受講を検討してみてはいかがだろうか。一方で、SASでは分析基礎トレーニングやデータサイエンティスト超入門講座なども提供されており、論理的思考やロジカルシンキング、データ分析のスキルを磨きたい方は、ぜひお問い合わせいただければ幸いである。 2024年12月初旬 相吉
SASクラウドエコノミクスおよびビジネスバリューチームのSpiros PotamitisとFrancesco Raininiがこの記事の執筆に協力しました。2023年11月16日に公開された英語の記事を翻訳しております。 クラウド コンピューティングは数え切れないほど多くの業界のバックボーンとなり、組織が分析、機械学習、AI の力を活用して洞察とイノベーションを実現できるよう支援しています。 クラウドコンピューティングの急速な拡大により、クラウドは大きな二酸化炭素排出量を生み出すようになりました。背景として、クラウドは世界の二酸化炭素排出量の最大 4%を占めると計算されており、これは航空業界が排出する量よりも多いと考えられています。 これに対して何ができるでしょうか? オンプレミスの展開についてはどうでしょうか? クラウドとオンプレミスの議論に関しては、大手市場調査会社である IDC は、コンピューティングリソースの集約効率が高いため、オンプレミスと比較してクラウドの方が環境に優しい選択肢であると主張しています。したがって、AI と分析のワークロードをクラウドに移行するのが環境にとって最善の方法であると言われています。 クラウドでの効率を向上できる組織が増えれば、累積的な影響を考慮すると、小さな改善でも大きな違いを生む可能性があります。 SAS® Viya®と環境 SAS Viya は、 5 年間で最大 50 トンの CO2eの炭素排出量を削減する可能性があります。成長した木がこの量のCO2eを吸収するには 4,513 年かかると言われています。 カーボンフットプリントを楽しく探る 様々な要点を総合的に考慮し、Viya の潜在的な環境的利点を計算するために、私たちはGreen Algorithm Calculator を使用しました。これは、計算ワークロードの二酸化炭素排出量を推定して報告するツールです。計算を完了するために、さまざまな Azure Cloud アーキテクチャにわたる 1,500 を超えるテストを含むFuturum ベンチマーク調査の数値を使用しました。この調査では、Viya がオープンソースや主要な代替手段と比較して平均で 30 倍高速であることが示されています。 私たちは、大規模な組織に典型的なインフラストラクチャと分析のワークロードを想定しました。同時に、Futurum の調査で使用された技術的設定を反映しているため、計算に自信を持ってメリットの数値を適用できます。 グリーンアルゴリズム 計算機を使用して計算するには、次の手順に従います。 実行時間から始めます。50 人のデータ
秋の風物詩であるキンモクセイ(金木犀)は、オレンジ色のフルーティで甘い香りが特徴で、英名はまさしく「フレラント・オリーブ(Fragrant olive)」。香りを楽しむには朝がおすすめで、酵素が活発になるため香りが強くなるそう。ぜひ通勤・通学時に香ってほしい。 キンモクセイはすべて国から持ち込まれた雄株のみで増やしたクローンなので、通常の植物と違って、同じ地域では一斉に開花する。サクラの場合とは逆に、キンモクセイの開花は寒くなる地域から徐々に、東北から九州に向かって進んでいく。ちなみに北海道と沖縄には挿し木がないらしい。 さて、今春のサクラの開花が暖冬で約1週間遅れたのに続き、今秋のキンモクセイも平年より遅れ気味の開花。これは夏が長引いたのが影響しているはずである。実際に10月の平均気温を見ると、関東や近畿は平年より高め、中国地方や九州北部は平年並み、ということで関東や近畿で開花が遅れているとみている。 サクラの開花予測には積算気温が用いられるが(春になると回帰分析を思いだす)、キンモクセイも高温が続くと遅れるため、同様の指標が考えられる。より精緻な統計モデルで予測することも可能である。おくれじとキンモクセイの香りに浸りながら、開花日を予測してみたい。 住宅価格や企業の売上予測においても、ローン支払いの不履行の可能性を見通すにしても、因果解析の手法が用いられる。11~12月は、線形回帰、ロジスティック回帰、生存時間など因果解析のコースがオンパレード(トレーニングコース詳細とスケジュール | SAS)、興味があれば受講してみるのも良いだろう。 2024年11月初旬 相吉