I attended the Scottish Highland Games this past weekend ... nearby in Scotland County, North Carolina! They put on a great event, with kilt-wearing Scotsmen throwing things, bands playing bagpipes, kids dancing, and clans sharing their family history. And to get into the mood for this event, I decided to
Uncategorized
This article compares several ways to find the elements that are common to multiple sets. I test which method is the fastest in the SAS/IML language. However, all algorithms are intrinsically fast, which raises an important question: when is it worth the time and effort to optimize an algorithm? The
It is sometimes necessary for researchers to simulate data with thousands of variables. It is easy to simulate thousands of uncorrelated variables, but more difficult to simulate thousands of correlated variables. For that, you can generate a correlation matrix that has special properties, such as a Toeplitz matrix or a
Over the years, the US has drilled for crude oil in several locations, such as Pennsylvania, Texas, Alaska, and the Gulf of Mexico. A few years ago, as the US started drilling more in North Dakota, there were forecasts that we would surpass Saudi Arabia in crude oil production. And recently,
Once a disaster is over, and the frenzy of news stories and social media posts has subsided, it can seem like the crisis has passed. However, for those Hurricane Florence survivors left with ruined homes and businesses, damaged schools and buildings, there remains a struggle to return to normalcy. As
I often get asked for programming tips. Here, I share three of my favorite tips for beginners. Tip #1: COUNTC and CATS Functions Together The CATS function concatenates all of its arguments after it strips leading and trailing blanks. The COUNTC function counts characters. Together, they can let you operate
Jim Harris says learn the lineage of the data that fed the analysis before you get dazzled by visualizations or algorithms.
The solar farm at SAS world headquarters is a treasure trove of data. Jessica Peter, Senior User Experience Designer at SAS, had an idea about using that treasure in an art installation to show how data can tell a story. Her idea became a reality when she and others at SAS
모델 리스크 관리(MRM; Model Risk Management)는 새로운 주제가 아닙니다. 금융 기관은 이미 수십 년 전부터 의사결정 과정에서 모델을 활용해왔는데요. 최근 들어 MRM 관련 규제가 한층 더 형식화되고 엄격해지면서 관심이 커지고 있습니다. 유럽은행감독청(EBA; European Banking Authority)의 TRIM(Targeted Review of Internal Models)과 같은 규제는 은행에 모델 관리 컴플라이언스를 위한 더 큰 노력을
Programmers on a SAS discussion forum recently asked about the chi-square test for proportions as implemented in PROC FREQ in SAS. One person asked the basic question, "how do I test the null hypothesis that the observed proportions are equal to a set of known proportions?" Another person said that
About two-thirds of the way through her Analytics Experience presentation, Dr. Tricia Wang showed a video from Frans de Waal, a world-renowned primatologist. The video showed two monkeys receiving rewards for giving a researcher a rock. Each time a monkey handed over a rock it received a piece of cucumber.
The Grand Buddha at Ling Shan, located on the northern bank of Taihu Lake near Wuxi, China is a fitting metaphor for smart city initiatives in China, specifically Wuxi in the Jiangsu Province in Eastern China. One of the largest Buddha statues in the world, the bronze monument reaches 88
AIプラットフォームSAS Viyaでは、「AI実用化」や「AI民主化」を促進するために、従来から自動予測モデル生成や、機械学習やディープラーニングの判断根拠情報の提供などを可能としていましたが、SAS Visual Analytics on SAS Viyaの最新版8.3では、新たに「自動分析」機能が実装されました。 「自動分析」機能を使用すると、予測(ターゲット)に影響を与えている変数の特定や、変数ごとにどのような条件の組み合わせがターゲットに依存しているのかを「文章(条件文)」で表現して教えてくれます。 この例で使用するデータ「HMEQJ」は、ローンの審査を題材にしたもので、顧客ごとに1行の横持ちのデータです。このデータ内にある「延滞フラグ」が予測対象の項目(ターゲット変数)で、0(延滞なし)、1(延滞あり)の値が含まれています。 データリスト内の「延滞フラグ」を右クリックし、「分析」>「現在のページで分析」を選ぶだけで、「延滞フラグ」をターゲット変数に、その他の変数を説明変数とした分析が自動的に行われ、 以下のような結果が表示されます。 分析結果画面内説明: ① ドロップダウンリストで、予測対象値(0:延滞なし、1:延滞あり)の切り替えが可能です。この例では、「1:延滞あり」を選択し、「延滞する」顧客に関して分析しています。 ② 全体サマリーとして、すべての顧客の内、延滞実績のある顧客は19.95%であり、「延滞する」ことに関して影響度の高い変数が順に表記されています。 ③ 「延滞する」ことに関して影響を与えている変数の度合い(スコア)を視覚的に確認することができます。 ④ 「延滞する」可能性が最も高くなるグループ(条件の組み合わせ)が文章で示されています。この例では、③で「資産に対する負債の割合」が選択され、これに応じて文章内の該当箇所がハイライトしています。 ⑤ この例では、③で「資産に対する負債の割合」が選択され、これに応じて「0:延滞なし、1:延滞あり」別の顧客の分布状況がヒストグラムで表示されています。選択された変数が数値属性の場合は、ヒストグラムで、カテゴリ属性の場合は積み上げ棒グラフで表示されます。 分析に使用する説明変数(要因)に関しては、右側の「データ役割」画面内で選択することができます。 以上のように、分析スキルレベルの高くないビジネスユーザーでも、簡単かつ容易に、そして分かり易くデータから有効な知見を得ることができます。 ※AIプラットフォーム「SAS Viya」を分かり易く学べる「特設サイト」へGO!
これまでのSAS Visual Analytics 活用例では、一時点のデータを表やグラフに示し、分析していましたが、統計データには毎年、毎月や四半期ごとに集計されているものが多くあります。そこで今回はデータのなかに時間情報が存在する時系列データの操作について説明します。 時系列データには国や地方自治体が公表しているデータに加え、気象情報、商品の売上、株価、為替レートなど様々なデータがあります。時系列データを利用することで、過去の傾向やパターンを把握したり、将来はどうなるのか予測することができます。SAS Visual Analytics のオブジェクトには、時系列データではないと作成できないものがあり、その中でも今回は、二軸の時系列プロットと予測の利用例を説明します。 このスライドでは、日本政府観光局(JNTO)が公開している「年別 訪日外客数・出国日本人数・国際旅行収支(IMF方式)の推移」を利用しました。このファイルには、1959年から2016年までの年ごとの訪日外客数、出国日本人数とその伸び率、国際旅行収支のデータがあります。データのインポートについてスライド内でも説明していますが、インポートの際の注意点など詳細に関してはこちらのブログを参考にしてください。 SAS Visual Analytics 8.3 における時系列データの利用 from SAS Institute Japan 予測オブジェクトでは、自動的に最適な予測モデルが選択されます。オブジェクトを最大化し、詳細を表示すると使用された予測モデルを確認することができます。 スライド内の予測では、ARIMAが使用されていました。 また、データ役割からWhat-If 分析を選択すると、シナリオ分析とゴール探索を実行することができます。シナリオ分析では、要因の値を設定することで、予測値がどれくらい変化するかを確認できます。ゴール探索では、予測の目標値を設定することで、その目標を達成するために必要な要因の値を決定することができます。 今回スライド内で紹介したほかに時系列データを利用するオブジェクトとしては、時系列プロットと比較時系列プロットがあります。作成したオブジェクトを右クリックするとメニューが表示されるのでそこから変更することができます。 引き続き本ブログのシリーズでは、図表・グラフの作成や統計解析の方法について紹介いたします。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしています。(追記:募集は締め切られました)
Continuation of Q&A from the September 19, 2018 ASA web lecture "Why Are Forecasts So Wrong? What Management Must Know About Forecasting." Why Are Forecasts So Wrong? Q&A (Part 2) Q: Should we make a distinction between business as usual forecasts and major change forecasts and do FVA for these
고객 인텔리전스(CI)를 위한 챗봇 이미 많은 기업들이 인공지능(AI)으로 비즈니스를 자동화하고, 더 나은 고객 경험을 제공하며, 매출을 높이고 있습니다. 이미 수년 전부터 은행은 인공지능을 활용해 잠재적인 금융 사기를 탐지하고, 통신사는 고객 이탈을 예측해왔는데요. 챗봇은 한 단계 더 나아가 인공지능을 일상 가까이로 가져왔습니다. 챗봇은 머신러닝, 딥러닝, 음성 인식(voice-to-text), 자연어처리(NLP), 추천 엔진 등 여러
Last week I had the pleasure of delivering a one hour web lecture for the American Statistical Association on "Why Are Forecasts So Wrong? What Management Must Know About Forecasting." I find it helpful (both for myself and the audience) to follow up with written responses to all questions submitted
本ブログのシリーズでは、SAS Visual Analyticsを用いた図・グラフの作成や統計解析についてご紹介しています。第5回目となる今回は、ディシジョンツリーを用いた分析方法をご説明します。 第1回和歌山県データ利活用コンペティション:大学生の部の課題は「人口減少問題を解決するための施策」でした。前々回の記事では、各自治体の行政基盤が人口増減率に与える影響を線形回帰を用いて評価しました。この手法は説明変数の与える影響の大きさを定量的に評価できるものの、各説明変数間の関係の読み取ることは困難でした。そこで本記事では同じ題材を用いて「ディシジョンツリー」による分析方法をご説明します。ディシジョンツリーでは、各説明変数が目的変数に及ぼす影響を階層ごとに分析することができます。 前々回の記事と同じく、総務省の「社会・人口統計体系 都道府県データ 社会生活統計指標 :D 行政基盤」と「人口推計:都道府県別人口増減率-総人口」のデータを使用しました。 SAS Visual Analytics 8.3 におけるディシジョンツリーの利用 from SAS Institute Japan 今回の分析において、人口増減に最も大きな影響を与える要素は「財政力指数」でした。都市部など財政力が強い地域の人口が増加しやすいことは感覚的に自然な結果でしょう。 注目すべきは、財政力指数が低い自治体において次に大きな影響を与える要素が「土木費割合」であったことです。無論インフラの整備は市民の暮らしやすさに欠かせない要素ですが、人口増加につながる理由としては、「公共事業による雇用の創出」と捉えることが適切でしょう。今回は行政基盤のみを説明変数に設定しましたが、有効求人倍率や最低賃金等、市民の生活や労働に関連する要素を説明変数に据えることで、より詳細な分析が可能であると予想されます。第一回和歌山県データ利活用コンペティションのサイトにこのテーマに関する優秀作品が掲載されておりますので、ご参照ください。 ディシジョンツリーによる分析は、説明変数が目的変数に及ぼす影響や各説明変数間の関係が理解しやすいというメリットがありますが、モデル作成時に用いたデータに過剰適合し汎化性能が低いというデメリットもあります。目的に応じてツリーの枝数や階層数を適切に調整するようにしましょう。 以上、ディシジョンツリーを用いた分析手法についてご説明しました。本ブログのシリーズの他の記事もぜひご参照ください。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしております。(追記:募集は締め切られました)
前回のブログでは、統計解析の一例として、線形回帰分析の方法をご紹介しました。今回はデータを用いてクロス集計表(分割表)を作成し、円グラフ・棒グラフに可視化する方法をご紹介いたします。 第1回和歌山県データ利活用コンペティションでテーマに挙げられていた「人口減少問題を解決するための施策」をテーマに分析をします。人口減少の原因に女性の社会進出に対する意識が影響しているのではないかと考えました。もし、まだ子育てをしていない女性が育児と仕事を両立したくてもそれが難しいと感じるようでしたら、このことは人口減少の障害になりかねません。そこで、就業希望者と求職者について男女・育児活動の有無を項目にし、関連性を探りました。 以前、データのインポート方法を紹介したブログで利用した総務省統計局の平成29年 就業構造基本調査 都道府県編 「男女,育児の有無・頻度・育児休業等制度利用の有無,年齢,就業希望の有無・求職活動の有無別人口(無業者)-全国,全国市部,都道府県,都道府県市部,政令指定都市」のデータを利用します。 データのインポート方法に関する記事は過去のブログ記事をご参照ください。 SAS Visual Analytics 8.3 におけるクロス集計表の作成と可視化 from SAS Institute Japan 作成したグラフから、女性の中でも育児活動の有無により求職者数にはあまり差がない一方で、就業希望者数は育児活動をしている女性の方が多いことがわかります。このことから、子育てをしている女性は仕事をしたいとは思っても実際には求職活動を行っていないということがわかります。 今回のように男女・育児活動の有無など質的変数同士の関係を考察する場合、データをクロス集計表にまとめると分析がしやすくなります。また、インポートしたデータの中から必要なものを取り出すためにフィルタを活用することが効果的です。グラフを作成する際は、軸にどのようなカテゴリを選択するか、メジャーには何を用いるかなどについて自分の分析したい目的に合わせて考えてみてください。 引き続き本ブログのシリーズ Visual Analyticsを用いた図・グラフの作成や統計解析について紹介いたします。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしております。(追記:募集は締め切られました)
前回のブログではSAS Visual Analyticsを用いて地図上にデータを表示するジオマップの作成方法をご紹介しました。本記事では統計解析の一例として、線形回帰分析の方法をご説明します。 第1回和歌山県データ利活用コンペティション:大学生の部の課題は「人口減少問題を解決するための施策」でした。人口減少の原因を把握することは、施策を決定するうえで重要な過程の一つです。社会福祉や育児支援等、さまざまな要素がその原因の候補として考えられますが、どの要素が原因として最も妥当であるかを判別するために、各要素が人口増減に与える影響を線形回帰により分析します。本記事では、都道府県ごとの人口増減率と行政基盤との関係を例にとり、線形回帰の分析方法をご紹介します。 今回使用したデータは、総務省の「社会・人口統計体系 都道府県データ 社会生活統計指標 :D 行政基盤」と「人口推計:都道府県別人口増減率-総人口」です。 SAS Visual Analytics 8.3 における線形回帰の利用 from SAS Institute Japan データのインポート方法の記事はこちらです。 今回は連続型データの説明変数のみを分析しましたが、離散型データの説明変数も「分類効果」に設定することで分析可能です。また、説明変数同士に関係性がある場合は、それらを「交互作用効果」に追加します。 線形回帰のモデル評価において、「財政力指数」と「社会福祉費割合」のp値が有意水準0.05を下回っていたため、これらは説明変数として有効であると判断できます。「財政力指数」が高い自治体は多方面にわたり数々のサービスを提供可能で、「社会福祉費割合」が高い自治体は市民の生活の安定により多く貢献しています。これらのことから、市民の生活支援を充実させることが、人口増加のために行政のなすべき課題の一つであることがわかります。 しかし、今回作成した回帰モデルの決定係数は0.6995であり、依然として改善の余地が見受けられました。第一回和歌山県データ利活用コンペティションのサイトにこのテーマに関する優秀作品が掲載されておりますので、ご参照ください。 以上、線形回帰の方法をご説明しました。引き続き本ブログのシリーズではSAS Visual Analyticsを用いた図・グラフの作成や統計解析について紹介いたします。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしております。(追記:募集は締め切られました)
Wird KI die Spaltung unserer Gesellschaft in die „Elite“ und den „besorgten, abgehängten Rest“ dramatisch beschleunigen? Zum Beispiel durch hocheffektive personalisierte Medizin, die sich nur wenige leisten können? Oder den Wegfall von automatisierbaren Jobs im Mittelstand, während die hochqualifizierte Elite ihre Machtpositionen beibehält oder gar ausbaut? Oder bietet sich nicht
A radial basis function is a scalar function that depends on the distance to some point, called the center point, c. One popular radial basis function is the Gaussian kernel φ(x; c) = exp(-||x – c||2 / (2 σ2)), which uses the squared distance from a vector x to the
David Loshin raises questions about what needs to be done to ensure quality analytics.
Here in North Carolina, a hurricane recently moved very slowly across our state, causing major flooding, and even closing miles of interstate highways for longer than a week. There is data available online for gauges along the river (or gages, as they call them), but I doubt many people know
Why is teaching and learning analytics so important? Recently, I interviewed two professors to gain their perspective on teaching students the skills they’ll need to pursue a lucrative career in the digital age. Joni Shreve, PhD, Faculty, Louisiana State University, explains: “We teach students analytics because there’s a talent gap
Last week I compared the overhand shuffle to the riffle shuffle. I used random operations to simulate both kinds of shuffles and then compared how well they mix cards. The article caused one my colleague and fellow blogger, Rob Pratt, to ask if I was familiar with a bit of
前回のブログでは、SAS Visual Analytics にデータをインポートする方法を紹介しました。こうしてインポートしたデータをもとに、さまざまな図表・グラフの作成や統計解析を実行することができます。本記事では地図上にデータを表示するジオマップの使い方を説明します。 第1回和歌山県データ利活用コンペティションでは、「観光客を誘客するための施策」と「人口減少問題を解決するための施策」が募集テーマとなっていました。施策を検討するためには、まず現状を把握することが重要です。観光客の誘客に関しては、年間の訪問者数、宿泊者数、消費額や訪問目的などが考えられます。人口減少問題に関しては、人口の増減率、年齢別の人口構成、転出先や転入元などが考えられます。これらのデータは地理情報を含んでおり、地図上に表すことで効果的な図を作成することができます。本記事の例では、和歌山県が属する関西地区の宿泊データを利用してジオマップを作成します。 まずは、観光庁の宿泊旅行統計調査から平成29年1月~12月分(年の確定値)の集計結果をダウンロードします。ダウンロードしたファイルをSAS Visual Analytics にインポートする方法は、前回のブログ記事を参考にしてください。 SAS Visual Analytics 8.3 におけるジオマップの利用 -宿泊旅行統計- from SAS Institute Japan ジオマップをもとに調査をすすめると、和歌山県の宿泊稼働率が比較的低い要因を知ることができました。客室稼働率を高めるには、季節変動を抑え、年間を通じて旅行者を集客することが重要であるといえそうです。 つぎに、第2回のテーマである「高齢者が活躍できる社会づくり」「UIターン就職・若者の定住促進」に関連するデータを利用した例です。このスライド内では、時系列データを利用したアニメーション形式のジオマップ作成を紹介しています。時系列データに関しての詳細は、こちらのブログ記事を参考にしてください。 SAS Visual Analytics 8.3 におけるジオマップの利用 -高齢者の就労- from SAS Institute Japan ジオマップを用いてデータを図示することで、地域比較がより分かりやすくなり時系列の変化も直感的に把握することができます。また、分析を進めるための手がかりともなります。今回のコンペティションでは地理情報を含むデータの利用が予想されますので、その際はぜひジオマップを活用してみてください。 引き続き本ブログのシリーズでは、図表・グラフの作成や統計解析の方法について紹介いたします。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしています。(追記:募集は締め切られました)
If you were to ask Tricia Wang, PhD, about real business growth, she would tell you that it lies outside the boundaries of the known. Not everything valuable is measurable, she would say. And big data is hiding new customers in the market from you. Wang is more than just
SAS Japan と伊藤忠テクノソリューションズ株式会社は、第2回和歌山県データ利活用コンペティションに共同で協賛し、参加者に「データサイエンス教育プラットフォーム」を提供します。 このブログでは、データサイエンス教育プラットフォームの利用例をシリーズで紹介します。 本コンペティションは次世代のデータサイエンティストを育成することを目的に開催され、全国の高校生及び大学生が腕をふるいます。データサイエンス教育プラットフォームでは、プログラミングを知らない学生でもデータ分析ができるように、データの取り込み、集計、基本的な統計解析、高度な機械学習手法などをビジュアルなインターフェースで実行できる SAS Visual Analytics をWebブラウザから利用できます。
Digitalisierung: Konflikte, Kompetenzgerangel & Gräben zwischen etablierter und neuer Welt „Wir haben einen Data Lake, wer braucht heutzutage noch ein DWH? Das ist doch total antiquiert, ein Auslaufmodell.“ Solche und ähnliche Sätze höre ich in meiner Beratungstätigkeit bei Kunden häufig. Dynamische Analytics- und Digitalisierungsteams stehen vor den aus ihrer Sicht