![](https://blogs.sas.com/content/sastraining/files/2018/10/eBook-image.jpg)
SAS Press is changing to meet the needs of customers worldwide.
SAS Press is changing to meet the needs of customers worldwide.
Kennen Sie das? Sie sitzen in einer Kongressveranstaltung, das Programm auf der Bühne ist beeindruckend – und trotzdem werden Sie immer wieder per Mail in Ihren Alltag zurückgeholt. Genau so ging es mir diese Woche bei der SiriusDecisions in London, einer weltweiten Konferenzreihe rund um B2B-Marketing, die allein in London
We hear a lot about data science nowadays, but do you ever wonder how it’s being used to help solve real-world problems? In my first post of this blog series, we heard why two students chose to pursue a STEM field and what appealed to them about data science. Today, we'll hear
前回の記事では、SAS Visual Analytics を用いて時系列データを扱う手法をご説明しました。第7回目となる本記事では、データをグループ分けするクラスタリングについてご紹介します。 クラスタリングとは、多様な特徴を持つデータ群の中から、似通った性質を持つサンプルを抽出しグループ化する機械学習手法です。例えば、顧客をクラスタリングし、各クラスターの特徴(年齢・嗜好等)に合わせた適切なDMを送る、などの活用例があります。本記事では、行政基盤の性質に基づき都道府県をクラスタリングします。本ブログのシリーズの第3回・第5回にて同じデータを異なる手法で分析しておりますので、併せてご参照ください。 本記事では、総務省の「社会・人口統計体系 都道府県データ 社会生活統計指標 :D 行政基盤」のデータを使用しました。 SAS Visual Analytics 8.3 におけるクラスタリング分析 from SAS Institute Japan 本例で作成したクラスターの数は5つですが、オプションから数の変更ができます。特徴量のビンの数も同様に変更可能です。 さて、今回使用した5つの変数は第3回・第5回の記事の分析で、人口増減率に影響を及ぼすとされた要素でした。スライド内クラスター2のラインをご覧ください。財政力指数は低いものの、土木費割合が高いという特徴を共有するクラスターであると読み取れます。これは、第5回の記事のディシジョンツリーを用いた分析によると、財政力が弱いにも関わらず人口増減率が高い自治体の持つ特徴でした。したがってクラスター2内の要素の人口増減率が高い傾向にあることが予想されます。また最も要素数の多いクラスター5についてですが、どのビンにおいても概ね中程度の値を取っており、平均的なクラスターであるとみなせます。このようにクラスタリングによってデータを分類し、各クラスターの特徴に着目することで、データをより分析しやすくすることが可能です。 ここで、SAS Visual Analytics におけるクラスタリングに使われている手法、k-means法の仕組みついてご紹介します。ここではn個のデータをk個のクラスターに分類するとします。 1) n個のデータのうち最初のk個をクラスターの核とし、各データを一番近い核のクラスターに属するように分割します。 2) 各クラスターの重心を求めます。 3) 各データを、それぞれが一番近い重心のクラスターに属するように再分割します。 4) 再分割されたクラスターの重心を求め、(3)の操作をクラスターに変化がなくなるまで行います。 このように、最終的に変動がなくなったクラスターに基づきクラスタリングが行われています。 以上、クラスタリングの手法についてご説明しました。引き続き本ブログのシリーズでは、SAS Visual Analytics を用いた図表・グラフの作成や統計解析の方法について紹介いたします。ぜひご参照ください。 高校生・大学生を対象とした第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、奮ってご参加ください。(追記:募集は締め切られました)
비운의 영화 배우, 파킨슨병 치료를 위해 앞장서다 타임머신과 시간 여행을 다룬 영화 하면 무엇이 가장 먼저 떠오르시나요? 전 세계적으로 가장 크게 흥행한 영화 중 하나는 단연 스티븐 스필버그 감독 제작의 SF 영화 ‘백 투 더 퓨처(Back to the Future)’일텐데요. 1985년에 개봉된 이 영화는 11주 동안 미국 박스 오피스 1위를 차지하고,
인공지능(AI)은 금융 사기 탐지, 보험 비즈니스 모델 다각화, 의료 진단 개선, 스포츠 경기 성과 향상 등 다양한 분야에서 상상을 현실화하고 성과를 도출하고 있습니다. 최근 마케팅 분야도 예측 분석, 추천 엔진 등 다양한 형태의 인공지능 알고리즘을 적극 활용하면서 혁신을 체감하고 있는데요. 대기업은 물론 중소기업에 적합한 여러 인공지능 활용 마케팅 툴이 등장하면서 변화의 속도는 더욱 빨라지고 있습니다.
Nach dem diesjährigen SAS Global Forum in Denver bin ich weiter nach San Francisco gereist. Und wie viele Touristen bin ich auch zur Golden Gate Bridge gefahren und habe sie Fuß überquert. In der Mitte der Brücke, bemerkte ich einen Windsurfer in der Bucht von San Francisco, der sich der
This article shows how to use SAS to fit a growth curve to data. Growth curves model the evolution of a quantity over time. Examples include population growth, the height of a child, and the growth of a tumor cell. This article focuses on using PROC NLIN to estimate the
第3回のブログでは、SAS Visual Analytics の活用例として統計解析のひとつである線形回帰を紹介しました。その続きのブログとなる今回は、ロジスティック回帰について説明します。 回帰分析は変数どうしの関係を分析することができます。そのなかでも以前紹介した線形回帰はシンプルでよく利用されますが、すべての場合において最も適当な分析手法であるとは限りません。たとえば、目的変数が離散的な場合(例:喫煙の有無、就業状態、移住の意思)には、ロジスティック回帰のほうが当てはまりのよい結果を得ることができます。本記事では、ロジスティック回帰を用いて待機児童の有無に影響を与える変数の分析を紹介します。 このスライドでは、厚生労働省が公開している保育所等関連状況取りまとめ(平成30年4月1日)から申込者の状況についてのデータと、総務省が公開している平成28年度地方公共団体の主要財政指標一覧から全市町村の主要財政指標を利用しました。データのインポートについてスライド内でも説明していますが、インポートの際の注意点など詳細に関してはこちらのブログを参考にしてください。 SAS Visual Analytics 8.3 におけるロジスティック回帰の利用 from SAS Institute Japan ロジスティック回帰オブジェクトでは、自動的に最適なモデルが選択されます。オブジェクトを最大化し、詳細を表示すると使用したモデルを確認することができます。 スライド内の分析では、ロジットモデルを使用していました。 また、詳細からは当てはめの統計量、パラメータ推計値などの情報を確認することができます。 今回の分析結果の解釈として、待機児童の有無に影響を与えている要因は「財政力指数」「経常収支比率」「ラスパイレス指数」「実質公債費比率」でした。それぞれの変数についてパラメータ(効果量)推定値をみると、「財政力指数」が最も大きい正の値(2.49)となっており、「財政状況のよい市区町村ほど待機児童が発生しやすい」といえます。対して「申込者数」の推定値は(5%有意であるものの)0.000094と非常に小さく、申込者数の多寡が待機児童の有無に与える影響は小さいと言えます。ここから、自治体規模の大小と待機児童の有無は関係していないと推測できます。 そのほかのパラメータをみても、財政状況がよいほど待機児童がいることが分かりますが、ここから単純に「待機児童を減らすためには、財政状況を悪化させればよい」ということにはなりません。たとえば、待機児童が多い自治体では共働きが多く、結果として住民税収が増加し財政状況がよくなるなど、さまざまなストーリーを想定することができます。回帰分析から因果関係を主張するときには注意が必要です。 この分析では、財政指標を利用しましたが、他にも女性の就業率、出生率、世帯構成などのデータを利用するとより効果的な分析ができるでしょう。データセット内に2値の変数がない場合でも、スライド内の例のように自分で基準を決めることで新しい変数を作成することができます。これによって分析の幅が広がりますが、レポートには必ず変数の定義を記述してください。 引き続き本ブログのシリーズでは、図表・グラフの作成や統計解析の方法について紹介いたします。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしています。(追記:募集は締め切られました)
全世界のSASユーザーが集う年次のイベント SAS Global Forum。 次回は2019年4月28日から5月1日まで、米国テキサス州ダラスで開催予定です。 現在、SAS Global Forum 2019での発表演題を募集しています。 本イベントは、600を超えるセッションでワークショップ、プレゼンテーション、e-ポスター、デモおよび交流プログラムが用意されており、アナリティクス活用についての事例やテクノロジーが多数紹介されます。昨年は5400人もの登録者があり、世界中のデータサイエンティストと情報交換が可能です。(2017年の様子を過去のブログで紹介しています。その1, その2, その3) 学生向けのプログラムも用意されており、多くの大学生・教育関係者が参加します。 Student Ambassador Program ... 「学生大使」として無料でイベントに招待(旅費や宿泊代もサポートされます!) Student Symposium ... 学生がチームで戦うコンテスト。ファイナリストはイベントに招待されます。 Academic Summit ... 学生と教育関係者向けの講演と交流プログラム。昨年、参加した日本の学生によるレポートはこちら。 ビジネスやアカデミアのユーザーが一堂に会するグローバルイベントで、学生が自身の分析・研究・提案を発表することで、ビジネスやアナリティクスの専門家からのフィードバックにより自身のアイデアを深めると同時に、国際的にネットワークを広げることができます。 まずは、10月22日の締切までにアブストラクトを投稿しましょう! SAS Japan アカデミア推進室では、投稿に向けて学生の皆さんをサポートいたします。 興味のお持ちの方は JPNAcademicTeam@sas.com までご連絡ください。
An abundance of data does not equal an abundance of wisdom. At the SAS Government Leadership Forum, leaders from federal, state and local agencies will discuss how analytics can bridge the gap between data and wisdom to make meaningful changes in how government operates. Analytics, however, is not just about
Focus on data governance, quality and storage if you want to do data management for analytics right.
The SAS INFILE statement can read multiple text files in a single DATA step. Use file name wildcards (like * and ?) and a special FILENAME= option to keep track of which records come from which files.
This Fall 2018 issue of Foresight, our 51st, opens with Fotios Petropoulos’s review of Paul Goodwin’s latest book, How to Profit from Your Software: A Best-Practice Guide for Sales Forecasters. Fotios notes that the author doesn’t single out any one software system, but keeps the discussion general and so applicable to many products.
I attended the Scottish Highland Games this past weekend ... nearby in Scotland County, North Carolina! They put on a great event, with kilt-wearing Scotsmen throwing things, bands playing bagpipes, kids dancing, and clans sharing their family history. And to get into the mood for this event, I decided to
This article compares several ways to find the elements that are common to multiple sets. I test which method is the fastest in the SAS/IML language. However, all algorithms are intrinsically fast, which raises an important question: when is it worth the time and effort to optimize an algorithm? The
It is sometimes necessary for researchers to simulate data with thousands of variables. It is easy to simulate thousands of uncorrelated variables, but more difficult to simulate thousands of correlated variables. For that, you can generate a correlation matrix that has special properties, such as a Toeplitz matrix or a
Over the years, the US has drilled for crude oil in several locations, such as Pennsylvania, Texas, Alaska, and the Gulf of Mexico. A few years ago, as the US started drilling more in North Dakota, there were forecasts that we would surpass Saudi Arabia in crude oil production. And recently,
Once a disaster is over, and the frenzy of news stories and social media posts has subsided, it can seem like the crisis has passed. However, for those Hurricane Florence survivors left with ruined homes and businesses, damaged schools and buildings, there remains a struggle to return to normalcy. As
I often get asked for programming tips. Here, I share three of my favorite tips for beginners. Tip #1: COUNTC and CATS Functions Together The CATS function concatenates all of its arguments after it strips leading and trailing blanks. The COUNTC function counts characters. Together, they can let you operate
Jim Harris says learn the lineage of the data that fed the analysis before you get dazzled by visualizations or algorithms.
The solar farm at SAS world headquarters is a treasure trove of data. Jessica Peter, Senior User Experience Designer at SAS, had an idea about using that treasure in an art installation to show how data can tell a story. Her idea became a reality when she and others at SAS
모델 리스크 관리(MRM; Model Risk Management)는 새로운 주제가 아닙니다. 금융 기관은 이미 수십 년 전부터 의사결정 과정에서 모델을 활용해왔는데요. 최근 들어 MRM 관련 규제가 한층 더 형식화되고 엄격해지면서 관심이 커지고 있습니다. 유럽은행감독청(EBA; European Banking Authority)의 TRIM(Targeted Review of Internal Models)과 같은 규제는 은행에 모델 관리 컴플라이언스를 위한 더 큰 노력을
Programmers on a SAS discussion forum recently asked about the chi-square test for proportions as implemented in PROC FREQ in SAS. One person asked the basic question, "how do I test the null hypothesis that the observed proportions are equal to a set of known proportions?" Another person said that
About two-thirds of the way through her Analytics Experience presentation, Dr. Tricia Wang showed a video from Frans de Waal, a world-renowned primatologist. The video showed two monkeys receiving rewards for giving a researcher a rock. Each time a monkey handed over a rock it received a piece of cucumber.
The Grand Buddha at Ling Shan, located on the northern bank of Taihu Lake near Wuxi, China is a fitting metaphor for smart city initiatives in China, specifically Wuxi in the Jiangsu Province in Eastern China. One of the largest Buddha statues in the world, the bronze monument reaches 88
AIプラットフォームSAS Viyaでは、「AI実用化」や「AI民主化」を促進するために、従来から自動予測モデル生成や、機械学習やディープラーニングの判断根拠情報の提供などを可能としていましたが、SAS Visual Analytics on SAS Viyaの最新版8.3では、新たに「自動分析」機能が実装されました。 「自動分析」機能を使用すると、予測(ターゲット)に影響を与えている変数の特定や、変数ごとにどのような条件の組み合わせがターゲットに依存しているのかを「文章(条件文)」で表現して教えてくれます。 この例で使用するデータ「HMEQJ」は、ローンの審査を題材にしたもので、顧客ごとに1行の横持ちのデータです。このデータ内にある「延滞フラグ」が予測対象の項目(ターゲット変数)で、0(延滞なし)、1(延滞あり)の値が含まれています。 データリスト内の「延滞フラグ」を右クリックし、「分析」>「現在のページで分析」を選ぶだけで、「延滞フラグ」をターゲット変数に、その他の変数を説明変数とした分析が自動的に行われ、 以下のような結果が表示されます。 分析結果画面内説明: ① ドロップダウンリストで、予測対象値(0:延滞なし、1:延滞あり)の切り替えが可能です。この例では、「1:延滞あり」を選択し、「延滞する」顧客に関して分析しています。 ② 全体サマリーとして、すべての顧客の内、延滞実績のある顧客は19.95%であり、「延滞する」ことに関して影響度の高い変数が順に表記されています。 ③ 「延滞する」ことに関して影響を与えている変数の度合い(スコア)を視覚的に確認することができます。 ④ 「延滞する」可能性が最も高くなるグループ(条件の組み合わせ)が文章で示されています。この例では、③で「資産に対する負債の割合」が選択され、これに応じて文章内の該当箇所がハイライトしています。 ⑤ この例では、③で「資産に対する負債の割合」が選択され、これに応じて「0:延滞なし、1:延滞あり」別の顧客の分布状況がヒストグラムで表示されています。選択された変数が数値属性の場合は、ヒストグラムで、カテゴリ属性の場合は積み上げ棒グラフで表示されます。 分析に使用する説明変数(要因)に関しては、右側の「データ役割」画面内で選択することができます。 以上のように、分析スキルレベルの高くないビジネスユーザーでも、簡単かつ容易に、そして分かり易くデータから有効な知見を得ることができます。 ※AIプラットフォーム「SAS Viya」を分かり易く学べる「特設サイト」へGO!
これまでのSAS Visual Analytics 活用例では、一時点のデータを表やグラフに示し、分析していましたが、統計データには毎年、毎月や四半期ごとに集計されているものが多くあります。そこで今回はデータのなかに時間情報が存在する時系列データの操作について説明します。 時系列データには国や地方自治体が公表しているデータに加え、気象情報、商品の売上、株価、為替レートなど様々なデータがあります。時系列データを利用することで、過去の傾向やパターンを把握したり、将来はどうなるのか予測することができます。SAS Visual Analytics のオブジェクトには、時系列データではないと作成できないものがあり、その中でも今回は、二軸の時系列プロットと予測の利用例を説明します。 このスライドでは、日本政府観光局(JNTO)が公開している「年別 訪日外客数・出国日本人数・国際旅行収支(IMF方式)の推移」を利用しました。このファイルには、1959年から2016年までの年ごとの訪日外客数、出国日本人数とその伸び率、国際旅行収支のデータがあります。データのインポートについてスライド内でも説明していますが、インポートの際の注意点など詳細に関してはこちらのブログを参考にしてください。 SAS Visual Analytics 8.3 における時系列データの利用 from SAS Institute Japan 予測オブジェクトでは、自動的に最適な予測モデルが選択されます。オブジェクトを最大化し、詳細を表示すると使用された予測モデルを確認することができます。 スライド内の予測では、ARIMAが使用されていました。 また、データ役割からWhat-If 分析を選択すると、シナリオ分析とゴール探索を実行することができます。シナリオ分析では、要因の値を設定することで、予測値がどれくらい変化するかを確認できます。ゴール探索では、予測の目標値を設定することで、その目標を達成するために必要な要因の値を決定することができます。 今回スライド内で紹介したほかに時系列データを利用するオブジェクトとしては、時系列プロットと比較時系列プロットがあります。作成したオブジェクトを右クリックするとメニューが表示されるのでそこから変更することができます。 引き続き本ブログのシリーズでは、図表・グラフの作成や統計解析の方法について紹介いたします。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしています。(追記:募集は締め切られました)
Continuation of Q&A from the September 19, 2018 ASA web lecture "Why Are Forecasts So Wrong? What Management Must Know About Forecasting." Why Are Forecasts So Wrong? Q&A (Part 2) Q: Should we make a distinction between business as usual forecasts and major change forecasts and do FVA for these
고객 인텔리전스(CI)를 위한 챗봇 이미 많은 기업들이 인공지능(AI)으로 비즈니스를 자동화하고, 더 나은 고객 경험을 제공하며, 매출을 높이고 있습니다. 이미 수년 전부터 은행은 인공지능을 활용해 잠재적인 금융 사기를 탐지하고, 통신사는 고객 이탈을 예측해왔는데요. 챗봇은 한 단계 더 나아가 인공지능을 일상 가까이로 가져왔습니다. 챗봇은 머신러닝, 딥러닝, 음성 인식(voice-to-text), 자연어처리(NLP), 추천 엔진 등 여러