Analytics

Find out how analytics, from data mining to cognitive computing, is changing the way we do business

Analytics
AI実用化の鍵は「アナリティクス・ライフサイクル」に在り

近年、AIや機械学習がブームとなり、キーワードだけが先走りしている傾向にあります。結果、「AI・機械学習を活用する」こと自体が目的化し、ツールや環境を導入したものの、ビジネス価値創出に至らないケースも多いようです。 その最大の要因は、肝となる「アナリティクス・ライフサイクル」の欠如にあります。 まず、業務課題を明確化した上で、その課題を解決するためにはデータ分析が必要であり、分析には元となるデータが必要になります。必要なデータを準備し、その中身を探索し、その結果に基づいて予測モデルを開発し、作成されたモデルを業務に実装する、このサイクルを素早く回し続ける、これが、企業が抱える業務課題を解決し、ビジネス価値(収益の拡大、コストの削減、リスクの低減、など)を創出するための鍵なのです。   アナリティクス・ライフサイクルを構成する3つの要素: アナリティクス・ライフサイクルを素早く回すためには、上記3つの要素がシームレスに連携する必要があります。しかし、多くの企業では、従来から、複数の異なるベンダーの異なる商用ソフトウエアや環境、あるいはオープンソースソフトウエアなどを継ぎ接ぎして分析環境を構築してきたため、このサイクルを回すためには多大な時間を擁してしまい、変化への素早い対応は困難な状況にありました。 この課題に対して、AIプラットフォーム SAS® Viya®では、アナリティクス・ライフサイクルに必要な機能要素を網羅した上で、それぞれがシームレスに連携し、高速に回し続けることが可能となっています。 そして、SAS Viyaには、分析者のスキルレベルに応じて、プログラミングインターフェースとグラフィカルインターフェースの両方が備わっています。 データサイエンティストであれば、データの準備から探索、そしてモデル生成までをお好みの言語(SAS, Python, R, Java, Lua)を使用して実施することができます。 一方で、コーディングスキルを持たないビジネスユーザーであれば、統合グラフィカルユーザーインターフェース上でアナリティクス・ライフサイクルをシームレスかつ高速に回し続けることが可能となっています。 企業が、その企業の競合企業よりも早く、正確に、アナリティクス・ライフサイクルを回すことによって、以下が実現されます。: より多くの反応率の高いマーケティングキャンペーンをより早く実施し、より多くの新規顧客を獲得し、既存顧客の離反を防止 より早く正確に、より多くの製造設備の異常予兆を検出し、設備のダウンタイムを最小化し、生産量を最大化 より多くの種類の不正をより早く正確に検知し、不正により齎されるリスクや損失を低減し、企業の信頼度を向上 企業を取り巻く環境の変化に、より素早く対応 …など Data:データの準備 異なる分析要件ごとに、分析者自身で、分析に必要なデータは都度準備する必要があります。SAS Viyaでは、分析者自身で分析に必要なデータをセルフサービス型で準備することができるようになっています。 マウスのポイント&クリック操作だけで、データのプロファイリングからクレンジング、加工・変換・結合などを自由自在に行うことができ、分析プロセス全体の中で7、8割の工数を占めると言われるデータ準備工数や時間を大幅に削減することが可能となります。 Discovery:データの探索とモデル生成 次に、準備したデータの中身を探索します。SAS Viyaでは、コーディングスキルを持たないビジネスユーザーでもマウスの簡単操作だけで、データの探索や分析が可能になっています。単一の画面内で、過去の見える化から高度な機械学習までもが可能で、できあがった画面をレポートやダッシュボードとして即座に全社に公開し、共有することもできます。 データサイエンティストであれば、モデル生成の手前のビジュアルなデータ探索手段として活用することができます。 データ探索の結果に基づき、予測モデルを構築します。 SAS Viyaでは、ビジュアルなUIからマウスのドラッグ&ドロップ操作で、機械学習、時系列予測、テキスト解析の各種モデル生成プロセスをグラフィカルなフロー図(パイプライン)として描き、実行することが可能になっています。 このモデル生成パイプラインは、ドラッグ操作で一から作り上げることもできますし、SASの長年のベストプラクティスに基づき、予め用意されているパイプラインのテンプレートを使用して、精度の高い予測モデルを自動生成することも可能です。 Deployment:モデルの業務実装 生成されたモデルは統合的に管理した上で、業務に実装することができます。 モデル管理画面では、モデルにテストデータを当てはめてスコアリングテストの実施や、モデルのデプロイ(業務実装)、業務に実装後のモデル精度のモニタリング、再学習を実行し、モデル精度を改善、そしてバージョン管理など、モデルを統合管理することができます。 管理されたモデルは、異なる業務要件ごとに異なる環境へデプロイ(業務実装)することができます。 REST API:既存のアプリケーションからREST APIを通じて、SAS Viyaサーバー上にあるモデルにデータを当てはめてスコアリング(予測処理)を行い、結果を受け取ることができます。 インデータベース:モデルをデータベース内にデプロイし、データベース内で直接スコアリングを実施することができます。これによって、スコアリング対象の大量のデータを転送する必要が無くなり、処理の効率化や意思決定の迅速化も図れます。 インストリーム:SAS Viyaには、オンライン機械学習・リアルタイム処理向けにストリーミングのエンジンも実装されています。SAS Viyaのリアルタイムプロセスにモデルをデプロイすることで、リアルタイム・スコアリングも実現されます。 以上のように、企業が業務課題を解決し、ビジネス価値を創出するためには、「アナリティクス・ライフサイクル」が肝であり、このサイクルをシームレスかつ素早く回し続けることが、企業の変化対応力、競争力強化に直結するということです。 従来からSASを活用し、ビジネス価値を出している企業はすべてこのサイクルを回し続けています。そして、AIプラットフォームSAS Viyaでは、これを強力に支援することができるということです。

Analytics
0
Data for Good: 満員電車をなくすことはできるか

前回のブログ記事では、Data for Good活動の一環として、世界の絶滅危惧種についての考察をしました。本記事では、朝ラッシュ時の鉄道混雑について考えます。 首都圏における鉄道の通勤通学時間帯混雑率は、長期的にみて改善されているものの180%を超える路線が11路線あるなど(2017年)依然として満員電車は解消されていません。不快感や身体の圧迫はもとより、多くの乗客が集中することで、混雑による遅延が発生しています。車両の増備、長編成化、新路線の建設などハード面の強化により大幅な改善を図ることができますが、すでに容量の限界まで運行している場合や、構造物の制約、費用、期間の面からもこれらの施策をすぐに実現することは難しいです。そこで今回は、通勤ラッシュ回避のために乗客が通勤時間をずらすオフピーク通勤の実施について調査し、混雑緩和につながるかを検証したいと思います。 オフピーク通勤(時差通勤)は、個人の自発的な行動によるものであり、多くの会社・学校の始業時間がほぼ同じであるため鉄道事業者が呼びかけても定着することはありませんでした。2016年に「満員電車ゼロ」を含んだ公約を掲げ当選した小池都知事は、公約の実現のためオフピーク通勤を推進するキャンペーンである「時差Biz」を2017年にスタートしました。このことについて、東京都のサイトには以下の文章があります。 満員電車の混雑緩和は、社会の生産性向上のための重要な課題のひとつです。 東京都では、通勤時間をずらすことによって満員電車の混雑緩和を促進する「時差Biz」を実施中です。 時差Bizの参加に資格や決まりはなく、皆様が一斉に取り組むことにより、大きな効果があることが見込まれます。皆様のご参加、お待ちしております。 サイト内では、個人に対して時差通勤を推奨し、企業に対してフレックスタイム制やテレワークの導入などを推奨しています。参加企業は916社、鉄道事業者が集中取組期間中に臨時列車を運行するなど活動の広がりがみられますが、見込まれる効果は未知数なうえ関連するデータや分析結果も乏しいです。そのため簡単ではありますが、オフピーク通勤の効果の有無や程度を具体的に算出します。 まず、平成29年度の首都圏31区間におけるピーク時混雑率を示します。混雑率は、一定時間内の輸送人員(実際に輸送した乗客の数)を輸送力(車両の定員数の合計)で割ったものであり、最も高い東京メトロ東西線(木場→門前仲町)は199%と定員のほぼ2倍の人を乗せています。唯一100%を下回ったのは、JR東日本中央緩行線(代々木→千駄ヶ谷)で、混雑率は97%でした。 輸送人員と輸送力に注目すると、中央快速線の81,560人を筆頭に輸送人員が60,000人を超える路線が13路線ある一方で、輸送力は最も大きい小田急小田原線でも49,416人と大きな差があります。また、ピーク時の運行本数と編成数をみると、多くの路線で10両もしくはそれ以上の車両を2~3分おきに運行していて、これ以上輸送力を強化することは難しいです。 ここからは、オフピーク通勤の効果を検証するため、2つの仮想シナリオが実現した場合の結果を計算します。 1.時差通勤のみ 平成29年度から新たに追加された調査データを利用します。これは、首都圏36区間のピーク時と前後1時間の混雑率を算出したものです。 路線によってピーク時が違うため6:17~7:17から9:02~10:02まで約4時間にわたる混雑率を時間帯の早い順に並べたものが以下のグラフです。路線ごとのばらつきが大きいですが、3等分すると中心部が最も高くなり、ピークより前、ピークより後の順で混雑率が低下しています。このことは始業時間が決まっている場合、それを守るように通勤・通学する人が多いという説明ができるでしょう。 それぞれの路線についてピーク時と前後1時間の合計3時間の輸送人員と輸送力を算出し、そこからピーク時と前後1時間の3時間混雑率を算出したのが(例:ピーク時が7:30-8:30の場合、6:30-9:30の輸送人員/6:30-9:30の輸送力)、以下のグラフです。 混雑率をみると、すべての路線で国が目標としている180%を下回り大きく混雑が緩和されています。このことから、乗客の均等な利用を促す時差通勤は混雑率の低下につながるでしょう。 2.時差通勤+前後時間帯の増発 ピーク時と前後1時間の輸送人員と輸送力を時間帯ごとに示したのが以下のグラフです。ピーク時を中心に山ができていて、多くの乗客がピーク時に集中していることがわかります。 また、それぞれの路線でピーク時の輸送力を前後1時間においても実現した際のシナリオをもとに3時間混雑率を算出しました。(例:ピーク時が7:30-8:30の場合、6:30-9:30の輸送人員/(7:30-8:30の輸送力)×3)その結果、すべての路線で混雑率が150%を下回り、そのうち7路線は100%を下回りました。 しかし、ピーク時の前後1時間の輸送力を増強するためには列車の増発が必要で、鉄道事業者には新たなコストが発生します。このコストに見合うだけの効果が見込めなければ、事業者にとって列車を増発するインセンティブがありませんが、新倉(2009)によると、 増発による増加コストと混雑緩和による利用者便益を試算した結果、両者はほぼ同額でした。また、有料着席列車を導入することで、料金収入によって増加コストを賄うことが可能であるとし、列車の増発は双方にとってメリットがあると示しています。 首都圏36区間のデータからの計算結果をまとめると、ピーク時1時間の混雑率平均は165%でした。(最混雑区間は東京メトロ東西線木場→門前仲町:199%)また、ピーク時と前後1時間を加えた合計3時間の混雑率平均は143%となりました。(最混雑区間は、JR東日本横須賀線武蔵小杉→西大井:177%)そして、ピーク時の輸送力を前後1時間においても実現した場合には、合計3時間の混雑率平均は113%となることがわかりました。(最混雑区間は、東急田園都市線池尻大橋→渋谷:142%) 混雑と遅延の関係 つぎに、遅延証明書の発行状況に関するデータを利用して混雑との関係を調べます。東京圏(対象路線45路線の路線別)における1ヶ月(平日20日間)当たりの遅延証明書発行日数が記載されていて、平成28年度の1位は中央・総武線各駅停車の19.1日です。遅延証明書発行日数が10日を超えるのは45路線のうち29路線で、遅延の発生が常態化しています。 下の散布図は、先ほど使用した混雑率のデータと遅延証明書発行日数を組み合わせたものです。両者には正の相関がみられ、遅延が頻繁に発生している路線ほど混雑率が高くなっています。 遅延の発生は何によって説明されるかを明らかにするため、「混雑率(%)」「列車本数(本/h)」「営業キロ(km)」「他社乗り入れの有無(0or1)」の4つの変数を用いて回帰分析しました。分析の結果、混雑率のみが有意に正の影響を及ぼしていました。 上記データには遅延原因の記載もあり、大規模な遅延(30分以上の遅延)は、人身事故、車両・施設の故障、自然災害が原因である一方、小規模な遅延(10分未満の遅延)は、乗車時間超過が全体の47%を占め、ドアの再開閉が16%でした。これらは利用者の集中によるもので、オフピーク通勤によって混雑が緩和されれば、遅延の発生も減少することが予想されます。そして遅延が原因となっていた混雑の減少が見込まれます。 結論 結果をまとめると、計算上はオフピーク通勤・通学は混雑率の低下につながりますが、実現するには多くの人々の行動を変えなければなりません。そのためには、企業や学校の始業時間を分散させることや柔軟な勤務体系の導入などが必要です。理想的なのは6時台から9時台までムラのない通勤・通学ですが、数十万人が現在の出社・登校時間を変更することになり、さらなる取り組みの拡大が不可欠だといえるでしょう。また、オフピーク時における列車の増発は大幅な混雑緩和につながりますが、増加するコストの負担が課題であり、追加的な調査が必要です。そして、混雑と遅延については互いに影響し合い、一方が減るともう一方も減るという関係があるので、遅延対策の推進も混雑の緩和に寄与することがわかりました。 以上 SAS Visual Analytics 8.3 を用いて朝ラッシュ時におけるオフピーク通勤の有効性検証と混雑と遅延の関係について分析しました。SAS VAの各種使用法については、こちらのブログのシリーズでご説明しております。併せてご参照ください。 SAS Japanでは、学生がData for Goodを行うコミュニティ「SAS Japan Student Data for Good community」を発足します。目的としては、社会問題へのアプローチを通してData Scienceの流れの経験・スキルの向上、学生間の交流拡大、社会への貢献の達成があります。主な活動はふたつに分けられ、一つは社会課題の解決に向けたデータ分析で、オンラインでの議論や定期的な集まり、作成したレポートの公開、アクション(施策)の提案をします。もう一つは、イベント参加で、データサイエンスに関する講演への参加、データ分析コンペ出場、勉強会をすることを予定しています。これまで大学の講義や自習で学んだスキルの実践・アウトプットの場になるうえ、議論をしながらプロジェクトを進めることができます。(知識・アイデアの共有、その他参加者同士の交流)これは大人数の講義や独学ではできないですし、最終的には社会貢献にもつながります。 興味をお持ちでしたら以下のアドレスまでご連絡ください。みなさんの参加をお待ちしています。 JPNAcademicTeam@sas.com

Analytics
0
Data for Good: 人間の経済活動は生物を絶滅に導くのか?

“Data for Good”という言葉をご存知でしょうか。これはデータを活用して社会的な課題を解決しようとする活動です。SAS Japanでは”Data for Good”を目指した取り組みを展開しております。その一つとして、SASはData for Good活動をする学生コミュニティ、「SAS Japan Student Data for Good community」を発足します。これは、社会問題へのアプローチを通して、Data Scienceの流れの経験・スキルの向上・学生間の交流拡大・社会への貢献などの達成を目的とするコミュニティです。 このコミュニティのData for Good活動の一環として、本記事では世界の絶滅危惧種についての分析をご紹介します。 現在、世界中で何万種もの生物が絶滅の危機に瀕しています。個体数を減らすこととなった原因はもちろんそれぞれの生物によって異なるでしょうが、主たる原因は人間による環境破壊や開発であると言われています。確かに人間の活動が生物に悪影響を及ぼしうることは直感的に正しいと感じられますし、また、仮にそうだとすれば、人間の開発活動を示す値と絶滅危惧種の数には何らかの具体的な関係があるはずだと考えられます。そこで、今回は、国ごとの絶滅危惧種数や開発指数を用いて、それらの関係を調査します。 今回の調査ではSAS Visual Analytics 8.3を用いてデータ分析を行いました。 今回使用したデータのリストはこちらです。 総人口 (World Bank Data) https://data.worldbank.org/indicator/SP.POP.TOTL 面積  (World Bank Data)  https://data.worldbank.org/indicator/AG.SRF.TOTL.K2 人口増加率 (World Bank Data) https://data.worldbank.org/indicator/SP.POP.GROW CO2排出量 (World Bank Data) https://data.worldbank.org/indicator/EN.ATM.CO2E.PC?locations=1W 一人当たりCO2排出量  (World Bank Data) https://data.worldbank.org/indicator/EN.ATM.CO2E.PC?locations=1W GDP  (World

Analytics | Artificial Intelligence | Machine Learning
SAS Viya:一般物体検出(Object Detection)を試してみた

PythonからSAS Viyaの機能を利用するための基本パッケージであるSWATと、よりハイレベルなPython向けAPIパッケージであるDLPyを使用して、Jupyter NotebookからPythonでSAS Viyaの機能を使用して一般物体検出(Object Detection)を試してみました。  今回は、弊社で用意した数枚の画像データを使用して、処理の流れを確認するだけなので、精度に関しては度外視です。  大まかな処理の流れは以下の通りです。 1.必要なパッケージ(ライブラリ)のインポートとセッションの作成 2.一般物体検出向け学習用データの作成 3.モデル構造の定義 4.モデル生成(学習) 5.物体検出(スコアリング)  1.必要なパッケージ(ライブラリ)のインポートとセッションの作成 swatやdlpyなど、必要なパッケージをインポートします。 from swat import * import sys sys.path.append(dlpy_path) from dlpy.model import * from dlpy.layers import * from dlpy.applications import * from dlpy.utils import * from dlpy.images import ImageTable   from dlpy.splitting import two_way_split from dlpy.blocks import *

Advanced Analytics | Analytics | Artificial Intelligence | Machine Learning
SAS Viya:Python API向けパッケージ:DLPyの最新版1.0拡張機能概要紹介

SASでは、従来からオープン・AIプラットフォームであるSAS Viyaの機能をPythonから効率的に活用いただくためのハイレベルなPython向けAPIパッケージであるDLPyを提供してきました。 従来のDLPyは、Viya3.3以降のディープラーニング(CNN)と画像処理(image action set)のために作成された、Python API向けハイレベルパッケージです。 DLPyではKerasに似たAPIを提供し、より簡潔なコーディングで高度な画像処理やCNNモデリングが可能でした。 そして、この度、このDLPyが大幅に機能拡張されました。 最新版DLPy1.0では、以下の機能が拡張されています。 ■ 従来からの画像データに加え、テキスト、オーディオ、そして時系列データを解析可能 ■ 新たなAPIの提供: ・ RNN に基づくタスク: テキスト分類、テキスト生成、そして 系列ラベリング(sequence labeling) ・ 一般物体検出(Object Detection) ・ 時系列処理とモデリング ・ オーディオファイルの処理と音声認識モデル生成 ■ 事前定義ネットワーク(DenseNet, DarkNet, Inception, and Yolo)の追加 ■ データビジュアライゼーションとメタデータハンドリングの拡張 今回はこれらの拡張機能の中から「一般物体検出(Object Detection)」機能を覗いてみましょう。 SAS Viyaでは従来から画像分類(資料画像1.の左から2番目:Classification)は可能でした。例えば、画像に映っている物体が「猫」なのか「犬」なのかを認識・分類するものです。 これに加えて、DLPy1.0では、一般物体検出(資料画像1.の左から3番目:Object Detection)が可能になりました。 資料画像1. (引用:Fei-Fei Li & Justin Johnson & Serena Yeung’s Lecture

Analytics
0
和歌山県データ利活用コンペティション参考資料(8) 都道府県を行政基盤でグループ分けする (クラスタリング )

前回の記事では、SAS Visual Analytics を用いて時系列データを扱う手法をご説明しました。第7回目となる本記事では、データをグループ分けするクラスタリングについてご紹介します。 クラスタリングとは、多様な特徴を持つデータ群の中から、似通った性質を持つサンプルを抽出しグループ化する機械学習手法です。例えば、顧客をクラスタリングし、各クラスターの特徴(年齢・嗜好等)に合わせた適切なDMを送る、などの活用例があります。本記事では、行政基盤の性質に基づき都道府県をクラスタリングします。本ブログのシリーズの第3回・第5回にて同じデータを異なる手法で分析しておりますので、併せてご参照ください。 本記事では、総務省の「社会・人口統計体系 都道府県データ 社会生活統計指標 :D 行政基盤」のデータを使用しました。   SAS Visual Analytics 8.3 におけるクラスタリング分析 from SAS Institute Japan   本例で作成したクラスターの数は5つですが、オプションから数の変更ができます。特徴量のビンの数も同様に変更可能です。 さて、今回使用した5つの変数は第3回・第5回の記事の分析で、人口増減率に影響を及ぼすとされた要素でした。スライド内クラスター2のラインをご覧ください。財政力指数は低いものの、土木費割合が高いという特徴を共有するクラスターであると読み取れます。これは、第5回の記事のディシジョンツリーを用いた分析によると、財政力が弱いにも関わらず人口増減率が高い自治体の持つ特徴でした。したがってクラスター2内の要素の人口増減率が高い傾向にあることが予想されます。また最も要素数の多いクラスター5についてですが、どのビンにおいても概ね中程度の値を取っており、平均的なクラスターであるとみなせます。このようにクラスタリングによってデータを分類し、各クラスターの特徴に着目することで、データをより分析しやすくすることが可能です。   ここで、SAS Visual Analytics におけるクラスタリングに使われている手法、k-means法の仕組みついてご紹介します。ここではn個のデータをk個のクラスターに分類するとします。 1) n個のデータのうち最初のk個をクラスターの核とし、各データを一番近い核のクラスターに属するように分割します。 2) 各クラスターの重心を求めます。 3) 各データを、それぞれが一番近い重心のクラスターに属するように再分割します。 4) 再分割されたクラスターの重心を求め、(3)の操作をクラスターに変化がなくなるまで行います。 このように、最終的に変動がなくなったクラスターに基づきクラスタリングが行われています。 以上、クラスタリングの手法についてご説明しました。引き続き本ブログのシリーズでは、SAS Visual Analytics を用いた図表・グラフの作成や統計解析の方法について紹介いたします。ぜひご参照ください。 高校生・大学生を対象とした第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、奮ってご参加ください。(追記:募集は締め切られました)  

Analytics
0
和歌山県データ利活用コンペティション参考資料(7) 待機児童の有無は何によって決まるか (ロジスティック回帰)

第3回のブログでは、SAS Visual Analytics の活用例として統計解析のひとつである線形回帰を紹介しました。その続きのブログとなる今回は、ロジスティック回帰について説明します。 回帰分析は変数どうしの関係を分析することができます。そのなかでも以前紹介した線形回帰はシンプルでよく利用されますが、すべての場合において最も適当な分析手法であるとは限りません。たとえば、目的変数が離散的な場合(例:喫煙の有無、就業状態、移住の意思)には、ロジスティック回帰のほうが当てはまりのよい結果を得ることができます。本記事では、ロジスティック回帰を用いて待機児童の有無に影響を与える変数の分析を紹介します。 このスライドでは、厚生労働省が公開している保育所等関連状況取りまとめ(平成30年4月1日)から申込者の状況についてのデータと、総務省が公開している平成28年度地方公共団体の主要財政指標一覧から全市町村の主要財政指標を利用しました。データのインポートについてスライド内でも説明していますが、インポートの際の注意点など詳細に関してはこちらのブログを参考にしてください。 SAS Visual Analytics 8.3 におけるロジスティック回帰の利用 from SAS Institute Japan ロジスティック回帰オブジェクトでは、自動的に最適なモデルが選択されます。オブジェクトを最大化し、詳細を表示すると使用したモデルを確認することができます。 スライド内の分析では、ロジットモデルを使用していました。 また、詳細からは当てはめの統計量、パラメータ推計値などの情報を確認することができます。 今回の分析結果の解釈として、待機児童の有無に影響を与えている要因は「財政力指数」「経常収支比率」「ラスパイレス指数」「実質公債費比率」でした。それぞれの変数についてパラメータ(効果量)推定値をみると、「財政力指数」が最も大きい正の値(2.49)となっており、「財政状況のよい市区町村ほど待機児童が発生しやすい」といえます。対して「申込者数」の推定値は(5%有意であるものの)0.000094と非常に小さく、申込者数の多寡が待機児童の有無に与える影響は小さいと言えます。ここから、自治体規模の大小と待機児童の有無は関係していないと推測できます。 そのほかのパラメータをみても、財政状況がよいほど待機児童がいることが分かりますが、ここから単純に「待機児童を減らすためには、財政状況を悪化させればよい」ということにはなりません。たとえば、待機児童が多い自治体では共働きが多く、結果として住民税収が増加し財政状況がよくなるなど、さまざまなストーリーを想定することができます。回帰分析から因果関係を主張するときには注意が必要です。 この分析では、財政指標を利用しましたが、他にも女性の就業率、出生率、世帯構成などのデータを利用するとより効果的な分析ができるでしょう。データセット内に2値の変数がない場合でも、スライド内の例のように自分で基準を決めることで新しい変数を作成することができます。これによって分析の幅が広がりますが、レポートには必ず変数の定義を記述してください。 引き続き本ブログのシリーズでは、図表・グラフの作成や統計解析の方法について紹介いたします。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしています。(追記:募集は締め切られました)

Analytics | SAS Events | Students & Educators
SAS Global Forum 2019 で発表しよう(学生向けプログラムあり)

全世界のSASユーザーが集う年次のイベント SAS Global Forum。 次回は2019年4月28日から5月1日まで、米国テキサス州ダラスで開催予定です。 現在、SAS Global Forum 2019での発表演題を募集しています。 本イベントは、600を超えるセッションでワークショップ、プレゼンテーション、e-ポスター、デモおよび交流プログラムが用意されており、アナリティクス活用についての事例やテクノロジーが多数紹介されます。昨年は5400人もの登録者があり、世界中のデータサイエンティストと情報交換が可能です。(2017年の様子を過去のブログで紹介しています。その1, その2, その3) 学生向けのプログラムも用意されており、多くの大学生・教育関係者が参加します。 Student Ambassador Program ... 「学生大使」として無料でイベントに招待(旅費や宿泊代もサポートされます!) Student Symposium ... 学生がチームで戦うコンテスト。ファイナリストはイベントに招待されます。 Academic Summit ... 学生と教育関係者向けの講演と交流プログラム。昨年、参加した日本の学生によるレポートはこちら。 ビジネスやアカデミアのユーザーが一堂に会するグローバルイベントで、学生が自身の分析・研究・提案を発表することで、ビジネスやアナリティクスの専門家からのフィードバックにより自身のアイデアを深めると同時に、国際的にネットワークを広げることができます。 まずは、10月22日の締切までにアブストラクトを投稿しましょう! SAS Japan アカデミア推進室では、投稿に向けて学生の皆さんをサポートいたします。 興味のお持ちの方は JPNAcademicTeam@sas.com までご連絡ください。

Advanced Analytics | Analytics | Artificial Intelligence | Data Visualization | Machine Learning
AI民主化を加速する「自動分析機能」が登場

AIプラットフォームSAS Viyaでは、「AI実用化」や「AI民主化」を促進するために、従来から自動予測モデル生成や、機械学習やディープラーニングの判断根拠情報の提供などを可能としていましたが、SAS Visual Analytics on SAS Viyaの最新版8.3では、新たに「自動分析」機能が実装されました。 「自動分析」機能を使用すると、予測(ターゲット)に影響を与えている変数の特定や、変数ごとにどのような条件の組み合わせがターゲットに依存しているのかを「文章(条件文)」で表現して教えてくれます。 この例で使用するデータ「HMEQJ」は、ローンの審査を題材にしたもので、顧客ごとに1行の横持ちのデータです。このデータ内にある「延滞フラグ」が予測対象の項目(ターゲット変数)で、0(延滞なし)、1(延滞あり)の値が含まれています。 データリスト内の「延滞フラグ」を右クリックし、「分析」>「現在のページで分析」を選ぶだけで、「延滞フラグ」をターゲット変数に、その他の変数を説明変数とした分析が自動的に行われ、 以下のような結果が表示されます。 分析結果画面内説明: ① ドロップダウンリストで、予測対象値(0:延滞なし、1:延滞あり)の切り替えが可能です。この例では、「1:延滞あり」を選択し、「延滞する」顧客に関して分析しています。 ② 全体サマリーとして、すべての顧客の内、延滞実績のある顧客は19.95%であり、「延滞する」ことに関して影響度の高い変数が順に表記されています。 ③ 「延滞する」ことに関して影響を与えている変数の度合い(スコア)を視覚的に確認することができます。 ④ 「延滞する」可能性が最も高くなるグループ(条件の組み合わせ)が文章で示されています。この例では、③で「資産に対する負債の割合」が選択され、これに応じて文章内の該当箇所がハイライトしています。 ⑤ この例では、③で「資産に対する負債の割合」が選択され、これに応じて「0:延滞なし、1:延滞あり」別の顧客の分布状況がヒストグラムで表示されています。選択された変数が数値属性の場合は、ヒストグラムで、カテゴリ属性の場合は積み上げ棒グラフで表示されます。 分析に使用する説明変数(要因)に関しては、右側の「データ役割」画面内で選択することができます。 以上のように、分析スキルレベルの高くないビジネスユーザーでも、簡単かつ容易に、そして分かり易くデータから有効な知見を得ることができます。 ※AIプラットフォーム「SAS Viya」を分かり易く学べる「特設サイト」へGO!

Analytics
0
和歌山県データ利活用コンペティション参考資料(6) 訪日外客数・出国日本人数の傾向と予測 (時系列データの利用)

これまでのSAS Visual Analytics 活用例では、一時点のデータを表やグラフに示し、分析していましたが、統計データには毎年、毎月や四半期ごとに集計されているものが多くあります。そこで今回はデータのなかに時間情報が存在する時系列データの操作について説明します。 時系列データには国や地方自治体が公表しているデータに加え、気象情報、商品の売上、株価、為替レートなど様々なデータがあります。時系列データを利用することで、過去の傾向やパターンを把握したり、将来はどうなるのか予測することができます。SAS Visual Analytics のオブジェクトには、時系列データではないと作成できないものがあり、その中でも今回は、二軸の時系列プロットと予測の利用例を説明します。 このスライドでは、日本政府観光局(JNTO)が公開している「年別 訪日外客数・出国日本人数・国際旅行収支(IMF方式)の推移」を利用しました。このファイルには、1959年から2016年までの年ごとの訪日外客数、出国日本人数とその伸び率、国際旅行収支のデータがあります。データのインポートについてスライド内でも説明していますが、インポートの際の注意点など詳細に関してはこちらのブログを参考にしてください。   SAS Visual Analytics 8.3 における時系列データの利用 from SAS Institute Japan   予測オブジェクトでは、自動的に最適な予測モデルが選択されます。オブジェクトを最大化し、詳細を表示すると使用された予測モデルを確認することができます。 スライド内の予測では、ARIMAが使用されていました。 また、データ役割からWhat-If 分析を選択すると、シナリオ分析とゴール探索を実行することができます。シナリオ分析では、要因の値を設定することで、予測値がどれくらい変化するかを確認できます。ゴール探索では、予測の目標値を設定することで、その目標を達成するために必要な要因の値を決定することができます。 今回スライド内で紹介したほかに時系列データを利用するオブジェクトとしては、時系列プロットと比較時系列プロットがあります。作成したオブジェクトを右クリックするとメニューが表示されるのでそこから変更することができます。 引き続き本ブログのシリーズでは、図表・グラフの作成や統計解析の方法について紹介いたします。 第2回和歌山県データ利活用コンペティションへの参加も募集中ですので、高校生・大学生のご参加をお待ちしています。(追記:募集は締め切られました)

1 10 11 12 13 14 15