Recently, I showed how to use a heat map to visualize measurements over time for a set of patients in a longitudinal study. The visualization is sometimes called a lasagna plot because it presents an alternative to the usual spaghetti plot. A reader asked whether a similar visualization can be
Uncategorized
Babeș-Bolyai University (UBB) is the largest and highest-ranked university in Romania. Its Faculty of Economics and Business Administration (FSEGA) is the largest faculty at any university in Romania. It is also the highest-ranked institution in the country for management and business and top-ranked for economics. The faculty was founded as
What is McNemar's test? How do you run the McNemar test in SAS? Why might other statistical software report a value for McNemar's test that is different from the SAS value? SAS supports an exact version of the McNemar test, but when should you use it? This article answers these
Data visualization is a critical way for anyone to turn endless rows of data into easy-to-understand results through dynamic and understandable visuals. Whether your favorite visualization is a pie chart, a geographic map or relies on natural language, showing the insights that empower you to make more informed decisions is a better way to do data-driven business. Analyst firms say that SAS has market-leading data visualization. This helps users across the globe find insights in their data using new and exciting trends in data visualization.
A note from Udo Sglavo: At SAS, what we deliver to our customers is a product of creative minds thinking differently, challenging the norm, taking risks, and learning from trial and error (The greatest teacher, failure is). For the return of World Creativity & Innovation Week, we want to share
It’s important to recognize the power that an idea can have. When looking back at the most amazing discoveries and inventions in the world, we must remember that ideas and dreams are what started them all. At SAS, we believe in dreaming big and bold. When we do this, creativity thrives.
Jim Goodnight, SAS founder and CEO, said in 2016, "Digital disruption is now a fact of life, and every organisation must have a plan to deal with it." And yet his observations could not be more apt today. Furthermore, the impacts of the global pandemic have accelerated digital disruption. I see
Some matrices are so special that they have names. The identity matrix is the most famous, but many are named after a researcher who studied them such as the Hadamard, Hilbert, Sylvester, Toeplitz, and Vandermonde matrices. This article is about the Pascal matrix, which is formed by using elements from
See how our customers are using analytics to cut carbon emissions while achieving other business goals.
When most of us see an abandoned mobile home, we see just that: an abandoned mobile home. But when Cindy Turner, Sr. Communications Specialist, sees an abandoned mobile home, she sees something different: opportunity. Cindy’s Big Idea “I kept seeing more and more about the lack of affordable housing in
Many discussions and articles about SAS Viya emphasize its ability to handle Big Data, perform parallel processing, and integrate open-source languages. These are important issues for some SAS customers. But for customers who program in SAS and do not have Big Data, SAS Viya is attractive because it is the
SAS EG 常見問題集 SAS EM 常見問題集 Q: SAS 程式(SAS 9.4) 繁體中文出現亂碼怎麼辦? A: 主要發生原因是因為近期 Windows 作業系統更新, [解法] 請至控制台 > 地區設定,將” Beta: 使用 Unicode UTF-8 提供全球語言支援” 選項取消勾選,避免亂碼問題。
When Los Angeles County invested in Whole Person Care (WPC) it could not have known just how important the system’s flexibility would be. Anyone who has had an interface with health care delivery, policy, oversight and management know things change quickly. As data becomes a priority, expectations of the use
During a SAS Hackathon, Zencos set out to help veterans reintegrate into a rapidly changing job market and discover potential career paths. Life after the military can be challenging, especially when it comes to finding meaningful employment that utilizes a returning service member’s unique knowledge and skills. Veterans must navigate the
The graph to the right is the quantile function for the standard normal distribution, which is sometimes called the probit function. Given any probability, p, the quantile function gives the value, x, such that the area under the normal density curve to the left of x is exactly p. This
Oh, no! Your boss just told you to change the way that SAS displays certain features in graphs, such as missing values. But you have a library of hundreds of SAS programs! Do you need to modify all of your previous programs? Fortunately, the answer is no. SAS provides ODS
Curiosity Forever SASは約束します。データの探索や、アナリティクスそして学習、これらの進化を止めません。好奇心と能力が出会う時、世界は前進するからです。 SASは、”Curiosity=好奇心”から生まれるユニークで大胆な問いに対して、アナリティクスを用いて解を探すことを大切にしています。これまでにも自然やウェルネス・教育・スポーツなど多岐にわたる分野の好奇心溢れる問いに取り組んでいます。そしてこのCuriosity Foreverを、現代の子どもたちが体験できる環境を築くことが、私たちの未来を豊かにすると考えられます。 データネイティブの世代を育てる準備ができていますか? 1990年代半ばから2000年代前半に生まれたZ世代は、これまでで最も多様性に富み、最も教育水準の高い世代であり、社会変革の原動力として位置づけられています。2014年、Monica Rogati氏は データネイティブという言葉を作り、「データネイティブは、自分たちの世界がスマートで、自分たちの好みや習慣に一貫して適応することを期待している」と述べました。データネイティブの子どもたちは読書量、成績、スクリーンの使用時間などを記録するようになります。スマートで、プログラム可能で、データが豊富な世界で育ちながら、彼らは毎日データに浸かっていると言えるでしょう。 Z世代が社会で活躍する時代の到来とともにテクノロジーも進化し、私たちは膨大なデータを持つことになります。データはこれまで学術研究や政府の政策など、社会の一部に限定されたツールでしたが、今や主流になりつつあり、専門家だけでなく全ての人がデータリテラシーを身につけることが不可欠です。 若者がデータリテラシーへの関心を高める鍵は、生徒が関心を持つ問題にデータリテラシーを結びつけることにあります。これまでの学校教育におけるデータは、数学などの科目でデータの基礎として扱われることが多いです。しかしデータの活用が出来る分野には、社会的不公正との戦い、環境保護、飢餓との戦いなど世の中の実際に起こっていること・子どもたちにも身近なことに広がっていて、それらを通じて若者の生来の情熱に訴えかけることができます。また、データがどのように責任を持って使われ、進歩やイノベーションを促進するのか、子どもたちに伝えましょう。それと同じくらい重要なのは、データサイエンスの分野に自分たちが反映されていることを確認することです。この分野への参加を広げ、多様性を高めることは、社会的格差の縮小に取り組む上で最も重要なことです。 わたしたちはデータに慣れ親しむZ世代の探究心や情熱とともに、私たちは創造性と革新性を育む環境を育み、社会全体をよりよい方向に進めていく必要があります。 ※このセクションはAre we prepared to raise a generation of data native?の内容を要約しています。詳細はこちらをご参照ください。 Curiosity: 東京は暑い! 筆者もZ世代の学生として、好奇心からアナリティクスにつながるちょっとした体験をしました。 上京してきた際に「東京って思ったよりも暑いんだ」と感じてから、都市部の暑さに興味を持ちました。近年、夏に注意を促される熱中症。毎年患者数が増加しており、日本全体で暑さに関する対策として緑のカーテンなど緑化を行っています。しかし、その緑化はどれくらい効果があるかピンとこない気がしていました。そこで今回は仮説として、「緑地率が高い区ほど熱中症患者数が少ない」を立てたので、東京都23区の緑地率と熱中症患者数にどのような関係があるかについて確かめたいと思います。 上図は、年次ごとに東京都23区の100万人当たりの熱中症患者数と緑地率(AVNIR-2の光学センサの衛星データより緑地を抽出して求めた割合)の相関を確かめるために作成した散布図です。 散布図から、6年分全体でみて緑地が増えると熱中症患者が減るという傾向は読み取れませんでした。相関係数0.4と正の方向に相関が少し出ていますが、年次で色分けした部分で縦軸方向に層ができているように見えるので、相関係数のみで判断するのは難しいと考えました。また区ごとに時系列で比較したとき、たった6年で緑被率に大幅な差がありました。これは私が取得できた衛星データに雲がかぶっているなどの原因で、緑地率のデータが正確でないためである可能性もあります。 今回の観察期間で熱中症患者数は年々増加しており、機会があれば、緑地率以外に考えられる要因を集めて影響度を確かめてみたいと思いました。 このように日常生活でふと気づいた疑問を積極的に考えて、実際はどうなんだろうか、何か出来ることはないかとアナリティクスを用いる動きは、学生の好奇心を刺激しデータ活用の第一歩となります。学生の皆さん、いま浮かんだ疑問をデータを使って深掘りしてみませんか? What are you curious about?
On s'accorde de plus en plus à dire que presque toutes les entreprises devront recourir davantage à l'analyse. L'utilisation des données n'est plus un luxe, mais une méthode de travail essentielle. C'est un facteur d'efficience, d'efficacité et de centrage sur le client. Pour ceux d'entre nous qui travaillent dans le
In an article about how to visualize missing data in a heat map, I noted that the SAS SG procedures (such as PROC SGPLOT) use the GraphMissing style element to color a bar or tile that represents a missing value. In the HTMLBlue ODS style, the color for missing values
Traffic collisions are the second leading cause of firefighter deaths in the United States and most of these collisions occur at intersections. That statistic, together with a vision to apply a combination of AI and IoT to find a solution for all emergency vehicle collisions inspired the Team Hackanadians in
Longitudinal data are measurements for a set of subjects at multiple points in time. Also called "panel data" or "repeated measures data," this kind of data is common in clinical trials in which patients are tracked over time. Recently, a SAS programmer asked how to visualize missing values in a
SAS' Brian Gaines provides a primer on GAMs.
This article shows how to compute properties of a discrete probability distribution from basic definitions. You can use the definitions to compute the mean, variance, and median of a discrete probability distribution when there is no simple formula for those quantities. This article is motivated by two computational questions about
While studying business intelligence as an undergraduate student at business school HEC Montreal, Camille Duchesne encountered Cortex, an analytics simulation that pits participants against each other to develop the most accurate models for a particular task. In this case, the simulation supports a fictional charity by predicting which subjects from
Statistical programmers need to access numerical constants that help us to write robust and accurate programs. Specifically, it is necessary to know when it is safe to perform numerical operations such as raising a number to a power without exceeding the largest number that is representable in finite-precision arithmetic. This
現代において統計学は様々な分野で利用されており、データアナリティクスとは切っても切れない関係にあります。しかし、実際にデータアナリティクを行う人すべてが、その内容を適切に理解しているのでしょうか。「有意差がつくかどうかとりあえず検定を行ってみる」、「集めたデータ全てをモデルに組み込んでみる」このような経験を持つ方も実は多いのではないでしょうか。分析に用いる手法の仮定や限界、その他解釈や留意事項への理解がないまま行われるデータアナリティクスは、誤った解釈を生む可能性があります。しかし、実社会においては、統計学はその活用事例が注目されがちであり、適切ではない事例が身の回りにあるというのもまた事実です。データアナリティクスを行う側としても、その結果を受け取る側としても、統計学を一般教養として学んでみてはどうでしょうか。 今回紹介するのは、e-learningコース「Statistics 1: Introduction to ANOVA, Regression, and Logistic Regression」です。統計学を学ぶ時に、学習がうまく進まない一つの理由として、各種内容が実際にどう活用されるか、そのイメージがつかないという声を多く耳にします。本コースは純粋な統計学の知識だけでなく、そのような具体的なデータアナリティクスに至るまでの「何を目的とするのか」、「目的によってどのような手法が適切であるのか」といった「データリテラシー」に関する内容も潤沢に用意されているため、一環した流れの中で学習を行う事ができます。このような何のために統計学を学ぶ必要があるのかという点は、どうしても”学問としての”統計学の学習の際には意識がされないため、統計学を初めて学ぶ方だけではなく、簡単にその内容を触れたことがある中級者の方にも最適な学習教材です。 統計学は「記述統計学」と「推測統計学」に分類されます。前者はデータの持つ特徴(最大値、平均など)を記述し、整理することによって、そのデータ自体への理解を行おうというものです。それに対し後者は、データをとある大きな集団からのサンプルであると仮定し、データからその大きな集団(母集団)の持つ特徴について、推測を行うものです。ここでは、実際に推測統計学でよく用いられている「統計的仮説検定」と「統計モデル」という、2つの手法について紹介します。これらについてもコース中ではより詳細に、活用されている事例とともに紹介されているので、ご興味のある方はぜひ一度コースに登録・受講してみてください。登録手順はこちらの以前の記事を参照ください。 統計的仮説検定 ある大きな集団(母集団)に対しその特徴を知りたい場合、すべてのデータを得ることができるのは非常に稀です。例えば、日本国民全員があるテレビ番組Aを見ているかどうかの情報を得ることは、労力的にも、費用的にもほぼ不可能です。統計的仮説検定はそういった場合に、標本である一部のデータを用いて、母集団に対する特定の仮説が成立するか否かを、背理法的に判断する方法です。先のテレビ番組の視聴率調査は、実際にこの考えに基づくものであり、よく見かける視聴率はおおよそ1万世帯のデータをもとに、統計的に推定されています。検定の手順は以下の通りです。 母集団に対し、帰無仮説とそれに対応する対立仮説の計2種類の仮説を設定する 帰無仮説の下で、得られたデータ(とそれ以上に極端な結果)が得られる確率(P値)を計算する 事前に設定した基準(有意水準)とその確率を比較する 基準よりも確率が低いのであれば、そもそも帰無仮説が妥当ではないと判断する(帰無仮説を棄却) 統計学でよく誤解を生みやすい「P値」というものが利用される内容になります。仮説検定は非常によく用いられる方法ですので、自分でどういった手順で検定は行われているのか、その解釈はどう行えばいいのか、を説明できない方は受講してみることをお勧めします。 統計モデル データから母集団の特徴について推定を行う場合には「統計モデル」というものが用いられます。このモデルはなぜ必要なのでしょうか?ここで、日本人の男性と女性の身長について、それぞれ推測をするという例を考えます。また、現実に得られるデータは、男性のみデータだけだとします。すると一つ問題が生じます。それは「女性については推定を行うことができない」ということです。男性については、得られたデータが男性50名の身長データですので、妥当な推定が可能です(ここにも男性の身長分布は正規分布であるという仮定は置きます)。しかし、女性の身長について推定を行おうとしても手元には男性のみのデータしかないため、推定ができません。もし何の仮定もなければ、男性の身長データを女性の身長の推定のために用いることは妥当ではありません。ではここに、『女性の身長の分布は男性の分布より10cm低く、分布の形状は同じである』という仮定があるとどうでしょうか?(いくつかの調査によると期待値としては12~13cmほど低いそうですが) 上記の仮定があるのであれば、男性の身長分布から女性の身長分布が想定可能なので、男性のみのデータからデータには含まれていない女性についても推定を行うことが可能になります。つまり、「統計モデル」とは観測されたデータにはない未知の部分について推測を行うために、仮定する一種の数学的・統計学的な制約条件になります。ただ一概にモデルといっても様々なものがあるため、データの置かれている状況によって想定される適切なモデルは異なり、どれを選択すべきかはケースバイケースです。このモデルの選択をどうすべきかは先行研究やこれまでの知見による部分が大きいため、様々な場面でのデータアナリティクスを学ぶ必要があります。 学生の方であれば今後、卒業研究やコンペティション参加など、多くの場面で統計学の知識が必要になるかと思います。数日学習を行えば統計学への理解が深まるだけでなく、SASから学習認定デジタルバッジを無料でもらうこともできます。ぜひこの機会に一度統計学について、学習を行ってみてはいかがでしょうか?
One approach to creating the Wordle game in the SAS programming language. Ready to play?
A previous article showed how to use SAS to compute finite-difference derivatives of smooth vector-valued multivariate functions. The article uses the NLPFDD subroutine in SAS/IML to compute the finite-difference derivatives. The article states that the third output argument of the NLPFDD subroutine "contains the matrix product J`*J, where J is
For the last three weeks, our Work/Life series on Coping with Symptoms of Anxiety and Worry has sent out short videos with strategies shared by Alex Harrison, LCSW, Alumni and Family Liaison for ERC/Pathlight Mood and Anxiety Center. Below you'll find all three videos on demand. Video One: Understanding
최근 보고서에 따르면 기후 위기는 심각한 상태에 놓여 있습니다. 대형 산불과 홍수, 허리케인, 해수면 상승 등 기후 변화로 인한 전례 없는 기상 이변으로 지구촌 수십억 명의 사람들이 목숨을 잃었습니다. 데이터와 분석은 이 같은 상황을 예측하고 알림으로써 예방 조치를 취하게 하고, 기후 개선에 대한 인식을 높입니다. IoT 분석을 통한 홍수 대응