Japanese

Programming Tips
小林 泉 0
グラフ理論②PythonずSAS Viyaでグラフ分析

はじめに 以前このブログ「グラフ理論入門゜ヌシャル・ネットワヌクの分析䟋」でもご玹介したしたが。SASは埓来からネットワヌク分析グラフ分析をサポヌトしおいたす。ネットワヌク分析の基本的なこずはたず䞊蚘のブログをご参照ください。 今回は、プログラミングスキルがあるアプリケヌション開発者やデヌタサむ゚ンティスト向けです。Pythonからネむティブに利甚できるSAS Viyaを䜿甚しお、ネットワヌク分析をする簡単な利甚䟋をご玹介したす。 2016倏にリリヌスされたSAS Viyaは、アナリティクスに必芁な党おのアルゎリズムを提䟛し぀぀、か぀オヌプンさを兌ね備えた党く新しいプラットフォヌムです。これにより、SAS Viyaをアプリケヌションにシヌムレスに組み蟌むこずや、どのようなプログラミング蚀語からでもアナリティクス・モデルの開発が可胜になりたした。今回は、SASのパワフルなアナリティクス機胜にアクセスするために、そのオヌプンさがどのように圹立぀ののかにフォヌカスしたす。 前提条件 SAS Viyaは、REST APIにも察応しおいるため、それを䜿甚しおも良いのですが、䞀般的には、䜿い慣れたプログラミング蚀語を䜿甚する方が効率が良いず考えられるため、今回は、デヌタサむ゚ンティストや倧孊での利甚者が倚い、Pythonを䜿甚したいず思いたす。 デモ環境ずしおは、Pythonコヌドを実行できるだけでなく曞匏付テキストも付蚘できる、Webベヌスのオヌプンな察話型環境であるJupyter Notebookを䜿甚したす。Jupyterをむンストヌルした埌に、SAS Scripting Wrapper for Analytics Transfer(SWAT)をむンストヌルする必芁がありたす。このパッケヌゞは、SAS Cloud Analytic Services(CAS)に接続するためのPythonクラむアントです。これにより、Pythonから党おのCASアクションを実行するこずが可胜ずなりたす。SWATパッケヌゞの情報やJupyter Notebookのサンプルはこちらをごらんください。https://github.com/sassoftware SAS Cloud Analytic Services(CAS)にアクセスする SAS Viyaのコアにあるのは、SAS Cloud Analytic Services(CAS: キャスずいうアナリティクスの実行゚ンゞンです。"CASアクション"ずいう個々の機胜を実行したり、デヌタにアクセスしたりするためには、CASに接続するためのセッションが必芁ずなりたす。セッションからCASぞの接続には、バむナリ接続非垞に倧きなデヌタ転送の堎合にはこちらが掚奚ですあるいは、HTTP/HTTPS経由のREST API接続のどちらかを䜿甚するこずができたす。今回は、デモンストレヌション目的で非垞に小さなデヌタを扱うので、RESTプロトコルを䜿甚したす。SAS ViyaずCASのより詳现な情報はこちらのオンラむンドキュメントをごらんください。 倚くのプログラミングず同様、たずは䜿甚するラむブラリの定矩からです。Pythonでは、importステヌトメントを䜿甚したす。非垞に良く䜿われるmatplotlibラむブラリに加えお、ネットワヌクをビゞュアラむズするためのnetworkxも䜿甚したす。 from swat import * import numpy as np import pandas as pd import matplotlib.pyplot as

Data Management
小林 泉 0
Hadoopだからこそ必芁なセルフサヌビスそしおアダプティブ・デヌタマネゞメントの時代ぞ

2014 およそ2014幎からSAS on Hadoop゜リュヌションを本栌展開しおきたした。時代背景的には、2014頃は䟝然ずしお、業態の特性からデヌタが巚倧になりがちで、か぀そのデヌタを掻甚するこずそのものが競争優䜍の源泉ずなる事業を展開する䌁業にHadoopの掻甚が限られおいたず思いたす。その頃は、すでにHadoopをお持ちのお客様に察しお、SASのむンメモリ・アナリティクス・゚ンゞンをご提䟛するずいうケヌスが倧半でした。 その埌、急速にHadoopのコモディティ化が進んだず感じたす。 2015 2015頃になるず、前述の業態以倖においおもビッグデヌタ・アナリティクスの成熟床が䞊がりたした。デヌタ取埗技術の発展も䌎い、これたで掻甚しおいなかった皮類や量のデヌタを競争優䜍性のために掻甚を志向するようになり、蓄積および凊理手段ずしおのHadoopの遞択が加速したす。この頃になるず、数幎前には必ずあったHadoopそのものの怜蚌ステップを螏たない䌁業が増えおきたす。デヌタ量、凊理芏暡、拡匵性、コスト効率を考えたずきに劥圓なテクノロゞヌがHadoopずいう結論になりたす。ビッグデヌタはデヌタのサむズだけの話ではありたせんが、筆者の足で皌いだ統蚈によるず、圓時倧䜓10TBくらいが、埓来のテクノロゞヌのたた行くか、Hadoopを採甚するかの分岐点ずしお䌁業・組織は算段しおいたようです。この時期になるず、埓来のテクノロゞヌの代替手段ずしおのHadoopの適甚パタヌンが芋えおきたした。 新しいデヌタのための環境 埓来捚おおいた、あるいは新たに取埗可胜になった新しいデヌタをずりあえず蓄積しお、䜕か新しいこずを始めるためのある皋床独立した環境ずしお、コスト効率を考慮しおHadoopを採甚するパタヌン 既存のデヌタりェアハりスぞ䟡倀を付加䞊の発展圢であるこずが倚い 新たなデヌタを䜿甚しおHadoop䞊で加工し、アナリティクス・ベヌステヌブルにカラムを远加し、アナリティクスの粟床を向䞊 ETL凊理負荷やデヌタ栌玍堎所のHadoopぞのオフロヌド BI & アナリティクスの専甚基盀 SQLベヌスのアプリケヌションだけをRDBMSに残し、その他の機械孊習、ビゞュアラむれヌションなどSQLが䞍向きな凊理をすべおHadoop䞊で実斜 倚くは、むンメモリアナリティクス゚ンゞンず䜵甚 デヌタレむク 筆者の意芋ずしおはいざ新しいデヌタを䜿甚しようず思ったずきのスピヌド重芖で、盎近䜿甚しないデヌタも含めお、党おのデヌタを蓄積しおおく。よくあるのが、新しいデヌタを䜿甚しようず思ったずきには、ただデヌタが蓄積されおおらず、利甚開始たでタむムラグが生じおしたうケヌス。その時間的損倱すなわち利益の喪倱を重芁芖し、そのような方針にしおいる䌁業が実際に圓時から存圚したす。 2016 海倖の事䟋等では数幎前から芋られたしたが、2016になるず、日本でも以䞋の傟向が芋られたす 既存Hadoopをそのコンセプトどおりスケヌルアりトしおいくケヌス グロヌバル・デヌタ・プラットフォヌムずしお、耇数のHadoopクラスタヌを階局的に運甚するケヌス AI、機械孊習ブヌムにより機械孊習のためのデヌタの蓄積環境ずしお IoTの流れにより、ストリヌミング凊理SASでいうず、SAS Event Streaming Processingずいう補品ですず組み合わせお たさに、Hadoopがデヌタプラットフォヌムずなる時代がやっお来たず思いたす。その蚌拠に、SAS on Hadoop゜リュヌションは、日本においおも、金融、小売、通信、サヌビス、補造、補薬ずいったほが党おの業皮においお掻甚されおいたす。 Hadoopの目的は、埓来型のBI・レポヌティングではなく、アナリティクス このような流れの䞭で、Hadoopの採甚には䞀぀の確固たる特城が浮かび䞊がっおいたす。もちろん匊瀟が単にITシステムの導入をゎヌルずするのではなく、ビゞネス䟡倀創出を提䟛䟡倀のゎヌルにしおいるずいうバむアスはあるのですが。。。 Hadoopの導入目的は、ビゞネス䟡倀を創出するアナリティクスのためであるこずがほずんどである したがっお、Hadoopに栌玍されるデヌタには䞻に゚ンドナヌザヌがアナリティクス芳点の目的志向でアクセスするケヌスがほずんどである ぀たり、ある皋床の芏暡のITシステムではあっおも、Hadoopに栌玍されるデヌタはアナリティクスの目的ドリブンでしかアクセスされたせん。䞻たるナヌザヌは、分析者やデヌタ・サむ゚ンティストです。圌らが、「䜿いたい」ず思った瞬間にアクセスできる必芁があるのです。このようなナヌザヌサむドのリク゚ストは、埓来のBIすなわちレポヌティングのような固定化された芁件定矩をするような䟝頌ではないため、その郜床埓来のようにIT郚門ず芁件をすり合わせお、IT郚門にお願いするずいう方法では成り立ちたせん。その数日、数週間ずいうリヌドタむムが意思決定を遅らせ、䌁業の業瞟に悪圱響をもたらすからです。あるいはIT郚門の担圓者を疲匊させおしたいたす。぀たり、アナリティクスにおいおは、分析者・デヌタサむ゚ンティストが自分自身で、Hadoop䞊のデヌタにアクセスし、必芁な品質で、必芁な圢匏で、必芁なスピヌドで取埗するために自由にデヌタ加工できる必芁があるのです。 このあたりの話に぀いおは、䞋蚘でも玹介しおいたすので、是非ご芧ください。 【ITmedia連茉】IT郚門のためのアナリティクス入門 第2回 ã‚„っず分かった ビッグデヌタアナリティクスでHadoopを䜿う理由 第3回 ãƒ‡ãƒŒã‚¿åˆ†æžã§æˆåŠŸã™ã‚‹ãŸã‚ã®ãƒ‡ãƒŒã‚¿ãƒžãƒã‚žãƒ¡ãƒ³ãƒˆãšIT郚門の新たな圹割  ã€é–¢é€£ãƒ–ログ】 アナリティクスの効果を最倧化するデヌタマネゞメント勘所 これが、Hadoopにおいお、セルフサヌビス・デヌタマネヌゞメントデヌタ準備ツヌルが䞍可欠な理由です。SASはアナリティクスの゜フトりェアベンダヌずしお、このHadoop䞊でITスキルの高くない分析者・デヌタサむ゚ンティストでも自分自身で自由にデヌタを取埗できるツヌルを開発し提䟛しおいたす。それが、SAS Data Loader for Hadoopです。 SAS Data Loader

Artificial Intelligence | Machine Learning
小林 泉 0
ディヌプ・ラヌニングずAI

この写真に写っおいるのは䜕でしょうかきっず皆さん考えるこずもなく瞬時に家だず分かるでしょう。なぜなら、䜕癟、䜕千ずいう皮類の家を芋おきた経隓から、家を構成する特城屋根、ドア、窓、玄関前の階段などを脳が認識できるようになっおいるからです。そのため、たずえ家の䞀郚分しか写っおいない写真でも、自分が䜕を芋おいるかが瞬時に分かりたす。家を認識する方法を孊習枈みなのです。 倚くの皆さんは、この話題ですぐに、「あぁ、ディヌプ・ラヌニングの話だな」ずピンずくるこずでしょう。今回は、昚今メディアを賑わせ、誀解も倚くある、ディヌプ・ラヌニングずAI人工知胜の理解に぀いお、簡単に頭を敎理しおみたしょう。 ディヌプ・ラヌニングずは、家の画像の認識、分類、説明など人間が行うようなタスクを実行できるようにコンピュヌタヌに孊習させるこずに特化した、人工知胜研究の䞀領域です。しかし、ビゞネスにおけるディヌプ・ラヌニングの手法ず応甚はどのような状況にあり、アナリティクスの将来にディヌプ・ラヌニングはどのようなメリットをもたらしおくれるのでしょうか ディヌプ・ラヌニングずその仕組みに぀いお、SASのアナリティック・サヌバヌ研究開発担圓副瀟長であるオリバヌ・シャヌベンバヌガヌOliver Schabenbergerに話を聞きたした。 ディヌプ・ラヌニングをどのように定矩しおいたすか 【オリバヌ・シャヌベンバヌガヌ】ディヌプ・ラヌニング手法は機械孊習の䞀皮であり、いわゆる「匱いAI人工知胜」の䞀圢態ず考えられたす。「匱いAI」ずはAI分野の専門衚珟で、人間の脳ず同じように動䜜する思考マシンの䜜成を前提ずしおいないこずを意味したす。その代わり、「ディヌプ・ラヌニング手法は人間が行うような特定のタスクをむンテリゞェントな方法で実行するこずができる」ずいう前提に立っおいたす。そしお私たちは今、こうしたむンテリゞェンス匷化システムが人間よりも優れた正確性、安定性、反埩性をもっおタスクを実行できるケヌスが倚々あるこずを明らかにし぀぀ありたす。 ディヌプ・ラヌニングは機械孊習ずビッグデヌタが重なり合っおいる領域だずいう人もいたすが、それだけではありたせん。「ディヌプ」および「ラヌニング」ずいう偎面の意味を詳しく考えおみたしょう。 ディヌプ・ラヌニングの1぀の偎面ディヌプは、ニュヌラル・ネットワヌク・モデルを「より深く」適甚するこずによっおアナリティクスの粟床が高たる、ずいうこずを指しおいたす。孊習ラヌニングシステムは、そのモデルあるいは環境を階局構造ずしお衚珟したす。それぞれの局レむダヌは、䟋えば画像における芏則性の圢態圢状、パタヌン、境界線などのように、課題に関する異なるタむプの情報を衚しおいるず考えるこずができたす。こうした階局構造ずニュヌロン間の情報フロヌずいう2぀の特長から、ニュヌラル・ネットワヌクは孊習システムを構築するための暙準ツヌルずなっおいたす。コンピュヌティングずアルゎリズムの高床化により、珟圚では、ほんの数幎前ず比べおも、より倚くの局からなるニュヌラルネットを構築できたす。ディヌプ・ニュヌラル・ネットワヌクは倚くの孊習手法の土台ずなる抂念です。 第2の偎面=ラヌニングは、より倚くのデヌタを利甚する際のパフォヌマンススピヌド、粟床、䞀般化可胜性の改善ずいう意味においおも、システムが「孊習」を行うこずを指しおいたす。この偎面は、パタヌンの認識、テキストの読解、音声の理解、事象や物䜓の分類など、「これたで人間が孊習しおきたタスクを機械が実行する」ずいう応甚甚途も指し瀺しおいたす。システムは課題を解決するのではなく、課題に関しおトレヌニングを受けるのです。 ディヌプ・ラヌニングはどのような点でAI人工知胜なのでしょうか 【シャヌベンバヌガヌ】倚くの人々は「人工知胜」ずいう蚀葉を聞いたずたん、機械が人間に取っお代わるのではないかず䞍安になりたすが、ディヌプ・ラヌニングの堎合、そうはなりたせん。コンピュヌタヌは䟝然ずしお「石頭」 です。あくたで、パタヌン認識、音声認識、質問ぞの回答など、人間が行うようなタスクを機械独自の方法で疑䌌的に実行しおいるにすぎたせん。たた、孊習した胜力を別のタスクに䞀般化するこずもできたせん。䟋えば、最近、数回の察局で䞖界最匷の囲碁棋士に勝利したAlphaGoアルファ碁は、Googleの子䌚瀟であるDeepMindが開発した驚異的なディヌプ・ラヌニング・アルゎリズムですが、画像を分類したり、掗浄機の䞭身を食噚棚に片づけたりずいった甚途には圹立ちたせん。それでも、囲碁に関しおは驚異的なプレむダヌなのです。 しかしながら、人間の倧脳新皮質が担っおいる機胜に関する最新の理解ずディヌプ・ニュヌラル・ネットワヌク手法ずの間には、興味深い類䌌点がありたす。新皮質は倚くの認知胜力を担っおいたすが、そこでは階局構造を通じお入力信号が䌝播されおおり、それらの局がモノの衚珟を生み出す芏則性を発芋しおいるこずが分かっおきたのです。 [Tweet "コンピュヌタヌは䟝然ずしお「石頭」 です。あくたで、パタヌン認識など、人間が行うようなタスクを機械独自の方法で疑䌌的に実行しおいるにすぎたせん。"] 同様に、ニュヌラル・ネットワヌク・アルゎリズムもレむダヌずニュヌロンで線成されたす。しかし、「ニュヌラルネットがコグニティブ・コンピュヌティングの䞖界で有甚性が蚌明されおきたのは、それが人間の脳を暡倣しおいるから」ずいうよりは、「過去のアプロヌチずは異なる方法、すなわち、我々人間の倧脳新皮質ずは異なる方法でデヌタを凊理するからこそ、ニュヌラルネットは成功を収めおきおいる」ず蚀うべきではないかず私は思いたす。 ディヌプ・ラヌニングの理解しやすい䟋を瀺しおいただけたすか 【シャヌベンバヌガヌ】ディヌプ・ラヌニングず暙準的なアナリティクス手法の違いが分かる優れた䟋ずしお、 Atari瀟のBreakoutずいうゲヌム筆者ず同幎代以䞊の方であればご存知のはずの「ブロックくずし」のオリゞナル䜜品らしいですをプレむするタスクを考えおみたしょう。最初に、考えられる遞択肢に぀いお議論し、それから実際の動䜜をYouTubeのビデオでご芧いただきたす。 1぀の遞択肢は、ブレむクアりトの遊び方を知っおいるゲヌムボットを曞くこずです。パドルプレむダヌが氎平に移動させるバヌずその動き方、ボヌル、ボヌルがパドルや壁やブロックにぶ぀かったずきの跳ね返り方のルヌルなどの芁玠をプログラミングしたす。぀たり、ゲヌムのロゞックず戊略を、゜フトりェア自䜓に組み蟌むのです。゜フトりェアをコンパむルしたら、導入しお実行し、ゲヌムボットがどのようにプレむするかを芳察したす。ゲヌムプレむ胜力の改良が必芁な堎合は、コヌド改倉、コンパむル、導入、実行、テストずいうサむクルを繰り返しおいきたす。 もう1぀の遞択肢は、「深局匷化孊習」ず呌ばれるディヌプ・ラヌニング手法を甚いお課題を解決する方法です。ディヌプ・ニュヌラル・ネットワヌクでゲヌム環境を衚珟し、この環境内で動く方法、アクションの取り方、そのアクションを取るこずで埗られる報酬をプログラムに指瀺したす。぀たり、報酬はゲヌム画面の䞊郚に衚瀺されるスコアであり、アクションはパドルを動かすこずであるずコンピュヌタヌに䌝えたす。コンピュヌタヌが知る必芁があるのは、これが党おです。実行が始たるずコンピュヌタヌは、パドルを動かし、スコアがどうなるかを読み取りたす。この遞択肢の堎合、ゲヌムをプレむするずいうタスクは、「ゲヌムの珟圚の状態ず、取るべきアクションパドルの動かし方の2぀を倉数ずしお、将来の報酬を最倧化せよ」ずいう最適化課題ぞず倉わりたす。 それでは、Google DeepMind瀟が実装したAtariブレむクアりトの深局匷化孊習をビデオでご芧ください。 この゜フトりェアは、壁やブロック、さらにはボヌルの存圚さえも知りたせん。知っおいるのは、自分で動かせるパドルがあるこずず、少しでも高いスコアを獲埗するずいう目的だけです。それでも、孊習開始から2時間埌には、熟緎者䞊みにプレむしおいたす。誰もコンパむル、導入、実行を繰り返す必芁はありたせんでした。4時間埌には、ゲヌムをクリアできるようになっおいたす。特定の領域に関する知識は䞀切投入されおいたせん。 ディヌプ・ラヌニングに぀いお詳しく孊ぶにはどうすればよいでしょうか 【シャヌベンバヌガヌ】私は぀い最近、SASのサむトにディヌプ・ラヌニングずは ずいう新しい蚘事を寄皿したした。ディヌプ・ラヌニングが重芁な理由ず動䜜の仕組みに぀いお、幅広い情報を盛り蟌んでありたす。たた、ディヌプ・ラヌニングに関するWebセミナヌや、ディヌプ・ラヌニングの珟状に぀いおデヌタ・サむ゚ンティストが察談しおいるビデオぞのリンクも甚意したした。ディヌプ・ラヌニングに぀いお同僚に説明する際もお圹に立぀ず思いたす。 いかがでしたでしょうか。ディヌプ・ラヌニングずAIの䜍眮づけが少しクリアになったのではないでしょうか。 ゲヌムず蚀えば、任倩堂の「スヌパヌマリオ」ずいうゲヌムを人工知胜でクリアしおしたおうずいう取り組みもありたす。むンタヌネット䞊で怜玢するず色々情報が芋぀かるので調べおみおください。孊習過皋の動画を芋おいお、筆者が始めおこのゲヌムをやったずきの、最初の頃ただうたく操䜜できおないずきの動かし方右に無謀に突き進んでは行き過ぎおやられるにそっくりだなず感じたした。 デヌタマむニング、機械孊習、ディヌプ・ラヌニングに぀いお、匊瀟日本語サむトを曎新したので是非ご掻甚ください。これらのテクノロゞヌの実甚に぀いおのより詳现な情報をご提䟛しおいたす。

Learn SAS | Programming Tips
小林 泉 0
Jupyter and SAS

Jupyter Notebookずは Jupyter Notebookずは、ノヌトブック圢匏のむンタヌフェヌスでコヌドの開発蚘述や実行ができるWebアプリケヌションです。玄50ほどの䞖の䞭のプログラミング蚀語に察応しおいたす。 http://jupyter.org/ Jupyter and SASずは Jupyterの環境に、オヌプン゜ヌスのSAS kernel for Jupyterを远加するこずで、Jupyter Notebook䞊でSAS蚀語を䜿甚シンタックスのハむラむト、実行、ログの確認、アりトプットの衚瀺するこずが可胜になりたす。 Jupyter Notebookでは、䜜業の内容は、ノヌトブック*.ipynb圢匏で保存されたす。Jupyter Notebookでは、SASコヌドや実行結果だけでなく、リッチテキスト圢匏で文章を蚘茉するこずが可胜です。ノヌトブックはHTML圢匏や、PDF、あるいはSASコヌドずしお出力するこずも可胜です。 SAS 9.4ずLinux環境があれば、ほずんどの方が導入・ご利甚いただくこずが可胜です。 Jupyter Notebookを開くず、Notebookダッシュボヌドが衚瀺されたす。ここに、ノヌトブックや他のファむルの䞀芧が衚瀺されたす。     SAS University Editionでも䜿えたすか 2016の7月から、Jupyter NotebookずSAS Kernel for JupyterがSAS University EditionのvAppに含たれるこずになりたした。埓来、SAS University Editionのむンタヌフェヌスは、SAS Studioのみでしたが、今埌はJupyter Notebookもご利甚いただくこずが可胜ずなりたす。 https://support.sas.com/software/products/university-edition/faq/jn_whatis.htm  

SAS Events
小林 泉 0
SGF2016 Hadoop関連セッション・論文ナヌザヌ・パヌトナヌ線

SAS Global Forum 2016のナヌザヌプログラムでの発衚論文を、”Hadoop”ずいうキヌワヌドで怜玢し、SAS on Hadoop゜リュヌション関連の論文を集めおみたした。䌁業の競争戊略ず密接に結び぀いおいるHadoop関連の事䟋はなかなか公開されないのですが、いく぀かありたした。これ以倖にも、Hadoop事䟋を話すセッションがいく぀かありたした。 SAS Global Forum 2016 Proceedings – ナヌザヌおよびパヌトナヌによるHadoop 関連の講挔 Analytics and Data Management in a Box: Dramatically Increase Performance Teradata様が提䟛するHadoopの話です Nine Frequently Asked Questions about Getting Started with SAS® Visual Analytics むンプリメンテヌション・パヌトナヌがVA & Hadoopの䜿甚法、導入方法、管理方法に぀いお゚ンドナヌザヌから良く受ける質問に぀いお觊れられおいたす。 Making It Happen: A novel way to save taxpayer dollars by

SAS Events
小林 泉 0
SGF2016 Hadoop関連セッション・論文SAS瀟員線

SAS Global Forum 2016のナヌザヌプログラムでの発衚論文を、”Hadoop”ずいうキヌワヌドで怜玢し、SAS on Hadoop関連の発衚・論文を集めおみたした。ざっず芋たずころ、SAS on Hadoop゜リュヌションにた぀わる党おの話題が網矅されおいるず感じたす。 SAS Global Forum 2016 Proceedings – Hadoop é–¢é€£ã®SAS瀟員による講挔・論文 SAS® and Hadoop: The 5th Annual State of the Union 9.4M3で実珟しおいるSASずHadoopの連携に぀いお抂説。2014幎には、SAS Forum Japanでも登壇した、Paul Kentが語りたす。   Introducing - SAS® Grid Manager for Hadoop Grid ManagerのHadoop版の話です。 Deep Dive with SAS® Studio into SAS® Grid Manager 9.4 SAS

Machine Learning | SAS Events
小林 泉 0
SGF2016 Machine Learning関連セッション・論文ナヌザヌ・パヌトナヌ線

SAS Global Forum 2016のナヌザヌプログラムでの発衚論文を、”Machine Learning”ずいうキヌワヌドで怜玢し、機械孊習関連の論文を集めおみたした。 SAS Global Forum 2016 Proceedings - Machine Learning 関連のナヌザヌやパヌトナヌによる講挔・論文 Turning Machine Learning Into Actionable Insights 機械孊習=意思決定プロセスの自動化     PROC IMSTAT Boosts Knowledge Discovery in Big Databases (KDBD) in a Pharmaceutical Company 日本の塩野矩補薬様の機械孊習ぞの取り組み Diagnosing Obstructive Sleep Apnea: Using Predictive Analytics Based on Wavelet Analysis in SAS/IML®

Machine Learning | SAS Events
小林 泉 0
SGF2016 Machine Learning関連セッション・論文SAS瀟員線

SAS Global Forum 2016のナヌザヌプログラムでの発衚論文を、"Machine Learning"ずいうキヌワヌドで怜玢し、機械孊習関連の論文を集めおみたした。 SAS Global Forum 2016 Proceedings - Machine Learning 関連のSAS瀟員による講挔・論文 Best Practices for Machine Learning Applications 機械孊習の実践においお䞀般的に遭遇する課題ず解決のためのガむドラむンを提䟛したす。機械孊習に぀いお初心者の方は、こちらもご掻甚ください⇒SASゞャパン機械孊習ペヌゞぞ An Efficient Pattern Recognition Approach with Applications BASE SASおよびSAS Enterprise Minerを䜿甚した、教垫あり/なしタむプのパタヌン認識画像認識テクニックの玹介。パタヌン認識に関しおは、この発衚者の䞀人、Patrick Hallがりェビナヌで他の䟋で解説しおおりたすので、そちらもあわせおご芧ください⇒「機械孊習ずディヌプ・ラヌニング」りェビナヌ Mass-Scale, Automated Machine Learning and Model Deployment Using SAS® Factory Miner and SAS® Decision Manager よりマむクロセグメント化するビゞネス課題の解決のための自動化された機械孊習補品の玹介 Streaming

SAS Events
小林 泉 0
SAS Global Forum 2016 開催報告②: Tech Connection SessionでSAS新補品をより詳しく知る

オヌプニングセッションの翌日4/19の朝からは、Ben Casnochaシリコンバレヌで掻躍する䌁業家で著䜜家のKeynote Sessionに続き、䟋幎通り、Tech Connectionずいうセッションが実斜され、SAS本瀟のR&D郚門や補品管理郚門による新補品玹介ずデモンストレヌションが行われたした。 このセッションでは、実際の䌁業・組織でよくみかけるシナリオずゞレンマを䟋にずり、SAS Viyaがどのように圹に立぀のかを玹介したした。デヌタ・サむ゚ンティストでも、統蚈家でも、あるいはITアナリストでも、ビゞネスアナリストでも、そしお䜜業担圓者であっおも、管理者であっおも、それぞれの立堎・圹割の方に、SAS Viyaが䟡倀をもたらしおくれるこずをご理解いただけるず思いたす。 SAS® Cloud Analytics Webブラりザからアナリティクス・アプリケヌションにアクセスしお、予枬モデルをすぐに䜜成するこずが可胜 「組み蟌みアナリティクス」ずしお、どのような蚀語からでもSASのAPIにアクセスしお既存のビゞネス・アプリケヌションやビゞネス・プロセスに組み蟌むこずができる セットアップ䞍芁なため、S/Wのむンストヌルやクラスタヌの準備をする必芁はない。ナヌザヌは、セキュアなクラりドベヌスの環境で、分析をし結果を保存するこずができる 圓日のデモンストレヌション   SAS® Visual Analytics SAS Viyaに察応したSAS Visual Analytics最新バヌゞョン デヌタ探玢機胜Visual Analytics Explorer、レポヌト䜜成機胜Visual Analytics Designer、予枬モデリング機胜Visual Statisticsが、完党に統合され単䞀むンタヌフェヌスになるこずにより、すべおをシヌムレスに利甚するこずが可胜 ナヌザヌむンタヌフェヌスは、HTML5で䜜り盎された 圓日のデモンストレヌション SAS® Customer Intelligence 360 "圹割に応じた"アナリティクス Software as a Serviceクラりド型 オムニチャネル包括的なカスタマヌむンテリゞェンスHub 圓日のデモンストレヌション SAS® Visual Investigator 脅嚁の怜出は今や自動化するこずが可胜。りェブサむトや゜ヌシャルメディア、様々なデヌタベヌスから情報を収集し、それぞれ異なるデヌタ゜ヌス間の関連性を芋぀け出す アナリストが、効率的で効果的な調査掻動を行うこずが可胜 䞍正怜知、公共のセキュリティなど様々な課題に応じた利甚が可胜 圓日のデモンストレヌション   SAS®

Customer Intelligence | Internet of Things | SAS Events
小林 泉 0
SAS Global Forum 2016 開催報告①: Opening Sessionで革新的な新アヌキテクチャを発衚

たた、SAS Global Forumの季節が巡っおきたした。このBlogの最初の゚ントリヌは、昚幎2015幎のSAS Global Forumのご玹介でしたので、Blog開始から早䞀幎がたったずいうこずです。い぀もご愛読ありがずうございたす。このBlogを楜しんでいただいおいる方々もいらっしゃるようで、嬉しく思いたす。今幎も䜕回かに分けお、このSAS Global Forum 2016の暡様をご玹介をしたいず思いたす。 今幎は、米囜ラスベガスで珟地時間の4/18-4/21に実斜されたした。玄5,000人のナヌザヌ様やパヌトナヌ様が集たる䞀倧むベントです。4/18倜のオヌプニングセッションに先駆けお、メディア向けの説明䌚も行われたした。 メディア向け説明䌚が行われたのは、SAS本瀟 䞖界の働きたい䌚瀟ベスト10に入るSAS、プラむベヌトカンパニヌだからこそできる環境づくり(EnterpriseZine) サッカヌ堎やプヌル、保育所も完備のSAS本瀟に朜入--プラむベヌトゞェットもZDNet Japan) SAS® Viya™ - 今幎のむベントにおける最倧のニュヌス 去る2016/4/18に行われたSAS Global Forum 2016のオヌプニングセッションでは、いく぀かの革新的なテクノロゞヌの発衚が行われたした。䟋幎ず少し進行が異なり、オヌプニングセッションの埌半でSASのCEOである、Jim GoodnightからSASの新しいアヌキテクチャに぀いおの発衚があり、䌚堎がどよめきたした。 プレスリリヌスSAS、「SAS® Viya™」を発衚オヌプンでクラりド察応したハむパフォヌマンス・アナリティクスずビゞュアラむれヌションのための次䞖代アヌキテクチャ   Jim Goodnightから、アナリティクスをさらに䜿いやすくし、すべおの人が利甚しやすいように倧きく進化した、SAS Viyaずいう新しいアヌキテクチャの発衚を行いたした。たた、すでに顧客の倚くが䜿甚しおいるSAS9環境ず組み合わせおこのSAS Viyaを利甚するこずも可胜であるずも話したした。 続けお、SAS Viyaの開発をリヌドしおきた、Analytic Server Research and DevelopmentのVice Presidentである、Oliver Schabenbergerからこの新しいクラりドベヌスのアナリティクス&デヌタマネヌゞメントアヌキテクチャの抂芁に぀いお説明がありたした。 Schabenberger 曰く、 『SASのお客様のアナリティクスぞの取り組みや掻甚方法は様々で、スモヌルデヌタからビッグデヌタ、簡単なアナリティクスから難しい機械孊習課題の解決たで非垞に倚岐に枡りたす。ストリヌミングデヌタや蓄積したビッグデヌタ、構造化デヌタや非構造化デヌタの利甚、さらには、個人での利甚から数癟ナヌザヌの同時接続利甚、クラりドであったりオンプレミスであったり、利甚者は、デヌタサむ゚ンティストであったり、ビゞネスナヌザヌであったりなど、様々です。』 『そこで、SASは、デヌタサむ゚ンティストかビゞネスアナリストかに関わらず、党おの人が利甚するこずのできる、最新の統合アナリティクス環境を開発したした。SAS Viyaの優れおいるずころは、統合され、オヌプンな、簡単だが非垞にパワフルであり、クラりド環境に適しおおり、マルチ・クラりドアヌキテクチャである点です。』 メディア各瀟の蚘事もご参照ください。 アナリティクス䞀筋40幎、SASから生たれた新たなプラットフォヌムの「Viya」ずは(EnterpriseZine) ビゞネスアナリティクス、機械孊習の進化ずSASの新アヌキテクチャ(@IT)   SAS Viyaに぀いおは、今埌もこのblog䞊でも継続的に情報をご提䟛しおいきたす。 SAS Customer

Analytics
小林 泉 0
機械孊習の掻甚におけるベストプラクティス「アナリティクス・ラむフサむクル」

反省改善プラン䞭 SAS JapanのWebサむトにある「機械孊習」特集ペヌゞは、サヌチ・゚ンゞンやバナヌ広告などから日々、倚くの方々にご芧いただいおいたす。昚幎埌半からは爆発的に蚪問者数が増えおおり、機械孊習ぞの関心の高たりを感じおいる䞀方で、匊瀟ずしおは実はこのペヌゞは改善が必芁ず考えおいたす。なぜなら、機械孊習の特城だけが曞かれおいお、それをどのように利甚すれば皆様のビゞネス課題を解決できるか、ずいう次のステップをご案内しおいないからです。これたで、アナリティクスの䞖界に携わっおきた方にずっおは、最近バズワヌド的に䜿甚され始めた感のある「機械孊習」ずいうキヌワヌドの特城が曞かれおいるこのペヌゞを芋るこずで、「なんだざっくりえば、い぀も䜿甚しおいる予枬モデルのこずか」ずすっきりしたすが、昚今のビッグデヌタや機械孊習ブヌムで機械孊習に぀いお突然孊ぶ必芁が生じた方々にずっおは、あたり圹立たなかったのではないかず反省䞭です。 昚今の機械孊習ブヌムは、これからデヌタを掻甚しおビゞネスに圹立おようずしおいる方には実は情報が䞍足しおいるず感じおいたす。新しいテクノロゞヌをどのようなプロセスで掻甚すれば良いのかずいう指南が䞍足しおいたす。これは、それを以前から知っおいたのに呚知できおいなかった匊瀟の努力䞍足でもありたす。 今回は、少し長くなりたすが、SASずしおは、䌁業の経営課題をアナリティクスで解決するずいう芖点から機械孊習を掻甚するためのビゞネスプロセスに぀いおの話をしたす。簡単に機械孊習、予枬、アナリティクスを定矩した䞊で、䞀番倧事な掻甚するためのビゞネスプロセスに぀いお、党貌を䞀気にご玹介したす。 機械孊習ずは 機械孊習に぀いおの䞀般的な芋解に぀いおは、たた別途詳しくお䌝えしたいず思いたす。ここでは簡単に統蚈解析、デヌタマむニング、機械孊習の違いから、機械孊習を理解しおいただきたす。䜕事も察象を理解するためには、察象そのものを詳现に蚘述するよりは、他ず比范するほうが理解しやすいためです。   統蚈解析 暙本デヌタ䞀郚のサンプリングデヌタから母集団を掚定するこずを䞻目的ずしお䜿甚される。限られたデヌタから䞖の䞭を理解したりモデル化するずも蚀える。 デヌタマむニング 「鉱山から金塊を芋぀ける」ずいう盎接的の意味のように、倧量デヌタから意味のあるパタヌンを発芋するこずを目的ずする。デヌタからパタヌンを芋出すため、埌述の機械孊習の孊習フェヌズそのものず重なるずころが倚い。 機械孊習 既知のデヌタ、すなわち過去のデヌタからパタヌンを芋出し、それを将来を予枬するこずを目的に䜿甚する。その目的から、埓来は「予枬モデル」ずいう蚀葉で衚されるこずが倚かった。 実は、これらは䜿甚しおいる数孊的な手法やアルゎリズムはほずんど同じです。もちろん各目的に察しお適䞍適はありたすが、たずは、総じお目的が異なるだけだず理解しおください。䟋えば、䌝統的な統蚈解析の手法を工倫しながらビッグデヌタに適甚し予枬モデルずしお掻甚するケヌスもありたすし、SASではデヌタマむニングの結果、䜿甚したアルゎリズムず孊習の結果をそのたた、予枬モデルずしお䜿甚するこずが可胜ずなりたす。たた、コンピュヌタヌの性胜向䞊に䌎っお脚光をあびるようになった手法もありたす。 䞖の䞭を理解するためにデヌタを䜿甚するずころから、䞀歩進んで、その理解に基づいお、次に䜕が起こりそうなのかを予枬し、ビゞネスにおいお次に䜕をすべきかを決定しおいくずいった䜿い方に倉わっおきたのです。昚今、機械孊習アルゎリズムは倚数ありたすが、垂民デヌタサむ゚ンティストGartner 2015の方は、その现かいアルゎリズムを理解するずころからスタヌトするのではなく、䜕のために䜿甚するのかをずいうビゞネス䞊の目的からスタヌトするこずを掚奚したす。现かいずころは歎史的な流れず共に理解しないず本質がわからないこずもあり、いきなり機械孊習アルゎリズムの理解からスタヌトする方法は、孊習方法ずしおは非効率です。 アナリティクスにおける予枬ずは デヌタを掻甚しお統蚈解析やデヌタマむニング、機械孊習ずいった手段を甚いながら、ビゞネスにおいおよりよい意思決定をする、蚀い換えれば、よりよいアクションを実斜するこずをアナリティクスず蚀いたす。アナリティクスはその語源をたどるず、䞍確実性を䌎う将来に察しお勇気を持っお螏み出すず意味がありたす。デヌタに基づいお意思決定をするずいうこずは䞍確実性、すなわち、確率にもずづいお行動するこずです。予枬結果はどこたでいっおも確率的にしか衚されたせんが、「より起こりやすい」こずを芋出すこずが可胜です。これがよりよい意思決定に぀ながりたす。 「より起こりやすい」ずいうこずを、すでにアナリティクスを実践しおいる人々は、「予枬粟床が高い」ず衚珟したりしたす。予枬粟床をあげるこずで、売り䞊げ向䞊やコスト削枛の期埅効果が倧きくなりたす。それをわかりやすく衚珟するず、「予枬粟床を䞊げるこずで売り䞊げが向䞊する」ずなるわけです。将来は、預蚀者でないかぎり確率的にしか予枬できないので、あえお衚珟しおいたせんが、「予枬」の裏には確率的な芁玠が垞に含たれおいたす。 チャヌン分析やキャンペヌンの反応率の分析などでは、ある顧客が解玄しそうな・反応しそうな確率を算出するので、確率ずいう考え方が理解しやすいず思いたす。このタむプを英語ではPredictionず蚀いたす。将来のある時点の状態を予枬するタむプです。䞀方で、Forecastingずいうタむプがあり将来の䞀定期間の数や量を予枬するタむプのものです。そのひず぀、需芁予枬の倀も実は確率的な予枬です。需芁予枬の堎合には、予枬倀そのものの絶察倀が泚目されがちですが、その予枬倀がどの皋床の確率の幅におさたるかを算出し、その確率の幅すなわち、リスクに察しおどのように察凊するかどうかが、本圓はポむントになりたす。補品やサヌビスの特性に応じお、リヌドタむムを小さくしたり、あるいは確率の幅に応じた安党圚庫を持ち、欠品率ずいう顧客サヌビスレベルのコントロヌルに圹立おたす。需芁予枬のポむントは、予枬倀の絶察倀をピタッず圓おるこずではなく、この確率の幅を定量的に管理するこずだず蚀っおも過蚀ではありたせん。圚庫や茞送コストず顧客満足床ずのトレヌドオフを扱う最適化問題でもありたす。 䌁業が利甚できるリ゜ヌスには限りがありたす。したがっお、この確率の幅が無限倧では意味がありたせん。぀たり、100%的䞭する「0以䞊」ずいう予枬結果には意味がありたせん。制玄のあるリ゜ヌスで、効果を最倧化する必芁がありたす。したがっお、この確率の幅を出来るだけ狭めるこずが重芁になりたす。さらには、その䜜業にかける時間はすなわち意思決定の時間になりたすので、予枬結果を出すたでの時間が長ければ意思決定が遅れるこずになりたす。 「予枬」ずいうず、日本ではただただ十分に理解・掻甚されおいないず感じたす。垂堎動向の予枬や売り䞊げ予枬ずいった「参考資料」のようなものずしか䜍眮づけおいない定矩も倚く、それでは正しく理解しおいないだけでなく、䟡倀をほずんど享受できおいたせん。アナリティクスにおいおは、予枬結果は単なる「参考資料」ではなく、その予枬結果に基づいお盎接的に意思決定を行うためのものであるずいうこずがポむントです。「次にこういうアクションをするずこういう結果が埗られるだろう」ずいう将来の芋蟌みを確率的に定量的に算出するこずがアナリティクスにおける「予枬」です。アナリティクスで競争優䜍に立っおいる䌁業では、予枬モデルに基づいたアクションの方が、埓来の経隓ず勘に基づいおいたずきよりも、スピヌド・粟床ずもに勝っおいるこずを蚌明しおいたす。蚀い換えるず、人の意思決定を自動化しおいたす。自動化ずいうず機械やシステムのみに適甚されがちですが、䟋えば自動発泚システムも、本来は人が発泚数を決めるずいう人の意思決定を自動化しおいるように、日々の人のビゞネス䞊の意思決定を自動化するずいう感芚がアナリティクスでは重芁です。 実際には、コヌルセンタヌで人間が画面を芋お予枬結果に基づいお察応しおいる䟋もあれば、オンラむンストアのレコメンデヌションや広告配信システムの様にシステムに予枬モデルが組み蟌たれ、すなわち業務プロセスに組み蟌たれお意思決定が自動化されおいるケヌスもありたす。 アナリティクス・ラむフサむクル簡朔版 SASでは、40幎間アナリティクスで䞖界䞭の䌁業を支揎しおきたした。その䞭で出来䞊がったベストプラクティスの䞀぀に、「アナリティクス・ラむフサむクル」ずいうものがありたす。これは、䌁業組織が機械孊習すなわち予枬分析を甚いおアナリティクスを実践する、すなわち、デヌタを掻甚しおよりよい意思決定をするこずで競争優䜍性を身に぀けるために実践すべきプロセスです。SAS䞻催むベント「ビッグデヌタ掻甚の新しいカタチ」2015幎12月8日開催のデモンストレヌションで玹介したサむクルは以䞋のようなものです。   このずきには、簡朔性を重芖したため、぀のプロセスだけで構成されおいたす。 デヌタマネヌゞメント 必芁なデヌタを収集・統合しお必芁な品質・圢に倉換する。昚今では、このプロセスをデヌタ・キュレヌションず称するこずもあるようです。ご存知のずおり、党䜓のプロセスのうち玄80%がこのプロセスに費やされおいるず蚀われおいたす。䞋蚘のブログもご参照ください。 ブログアナリティクスの効果を最倧化するデヌタマネヌゞメント勘所 デヌタの探玢ずビゞュアラむれヌション デヌタの基本性質を確認したり、パタヌンや関連性などを芋出し掞察を埗る。近幎、セルフサヌビスBIツヌルによるデヌタ探玢が流行しおいたす。操䜜性ばかりが泚目されがちですが、実は、䞻芳や仮説に基づく探玢䜜業は網矅的ではないため、真の傟向や真の問題点の発芋には方法ずしおは十分ではありたせん。そういった䞻芳に䟝存した芖点の偏りを防ぎ網矅的な探玢をするためには、統蚈的・数孊的手法やデヌタマむニング手法が掻躍したす。以䞋のブログでは玹介しおいたせんが、SASの探玢・ビゞュアラむれヌションツヌルに統蚈解析やデヌタマむニング手法が含たれおいるのは、たさにそのためです。 ブロググラフ理論入門゜ヌシャル・ネットワヌクの分析䟋 ブログSAS Visual Analyticsによるパス分析 分析ず予枬モデル開発 デヌタマむニングや機械孊習アルゎリズムを䜿甚しお、将来を確率的に予枬する「モデル」を䜜成する。過去のデヌタを䜿甚しおパタヌン化孊習するずころは様々な数孊的アルゎリズムが䜿甚できたすが、゜フトりェアがやっおくれたす。昚今は進化した゜フトりェアでより簡単に粟床の高いモデル開発が可胜ずなっおいたす。 ブログアナリティクスの産業革呜機械孊習による自動化 業務ぞの組み蟌み 䜜成した予枬モデルを䜿甚しお意思決定、すなわちアクションを実践する。䟋えば、顧客スコアを算出しキャンペヌンを実斜したり、コヌルセンタヌでの応察を倉えたり、レコメンデヌションに圹立おたり、䞍正な金融取匕を怜出したり、蚭備の異垞を怜知するなどの、意思決定プロセスに掻甚したす。 このプロセスを玠早くたわすこず、それは意思決定のスピヌドに盎結するこずを意味したす。たた、デヌタを適切に準備し、党件デヌタを䜿っお粟緻な予枬モデリングをするこずで、粟床の高い予枬モデルを䜜るこずができ、それはすなわちよりよい意思決定を意味したす。スピヌドが増せばその分PDCAサむクルがたくさん回るこずになるので、それは結果の質の向䞊に぀ながりたす。したがっお、アナリティクスのためのIT環境をアセスメントする際には、ビゞネス䞊の䟡倀の芖点から、たず、このサむクルが効率的に・高速にたわせるかどうかずいうこずが評䟡の基準になりたす。 アナリティクス・ラむフサむクル詳现版 実はアナリティクス初心者には前述の簡易版は適切ではありたせん。重芁なプロセスが暗黙的になっおいるからです。匊瀟のアナリティクス・ラむフサむクル、完党バヌゞョンは以䞋のようになりたす。   今回取り䞊げたい重芁なポむントは、 課題定矩 たず最初にすべきこずはデヌタ分析・予枬モデルの掻甚で解決したいビゞネス䞊の課題定矩 粟床評䟡・モニタリング

Artificial Intelligence | Programming Tips
小林 泉 0
機械はあなたの嚯楜たでをも奪うのか

さお、今回ご玹介する䟋は、最近議論が掻発な、「機械コンピュヌタヌが人間の䜜業を奪う」お話です。 機械は人間から仕事今回の䟋では、仕事ではなく嚯楜ず蚀ったほうが近いかもしれたせんを奪ったこずになるのでしょうかそれずも、真の楜しみを味わえるように、単に単玔劎働から開攟しおくれただけなのでしょうか 昚今、人工知胜がもたらす倉化ずいう文脈で行われおいる議論ですが、今回は、昔からある最適化アルゎリズムで、人間の仕事を奪いたす。皆さんでその意味を考えおみおください。 むギリスの諜報機関GCHQがクリスマスメッセヌゞずしお送った難解なパズルが公開されおおり、優秀な人たちを楜したせおいたす。その第䞀問が、以䞋の「お絵かきロゞック」です。日本でも䞀時期流行したした。むラストロゞックなどずも蚀われ、私自身もトラむした蚘憶がありたす。   このパズルそのものに぀いおは、他の情報源に頌っお欲しいのですが、簡単に説明するず、それぞれのセルを黒か癜で塗り぀ぶすパズルで、行ず列に曞かれおいる数字は、黒マスが連続しおいる数を順番どおりに瀺しおいる「手がかり」です。いく぀かのセルはすでに黒く塗り぀ぶされおいたすが、それらはこのパズルの答えを䞀぀に確定するために必芁です。 䞀郚の箇所は、それぞれの行や列の情報だけを芋お解くこずが可胜です。䟋えば、番目の行を芋おみたしょう。手がかりは、(7 1 1 1 1 1 7)です。すなわち、党郚で 7 + 1 + 1 + 1 + 1 + 1 + 7 = 19 個の黒いセルが必芁ずなり、最䜎ひずマスは間隔が空いおいないずいけないので、7個の固たりの間の個数を考慮するず、7-1=6 個の癜マスが必芁ずなりたす。この二぀の数字を足すず、19 + 6 = 25 ずなり䞀行の列数ずおなじ数にちょうどなりたす。したがっお、この結果から盎ちにこの行の党おがあきらかになりたす。 黒7, 癜1, 黒1, 癜1, ・・・ ぀いおきおいたすよね。 しかし、そうは簡単にいかない箇所のほうが倚いでしょう。その堎合には、手がかりから郚分的にしか黒く塗り぀ぶせないこずになりたす。䟋えば、䞀行目を芋おください。ヒントから(7 + 3 + 1 + 1 + 7) + (5

Analytics | Data Management
小林 泉 0
アナリティクスの効果を最倧化するデヌタマネヌゞメント勘所

倉わ(る・るべき・れる)デヌタマネヌゞメント デヌタ、さらにはビッグデヌタを䜿甚しお競争優䜍性を獲埗しようずするに぀れお、䌁業・組織はよりスピヌド感をもっお、詊行錯誀を繰り返す必芁にせたられおり、デヌタマネヌゞメント戊略やアプロヌチに぀いおも埓来ずは異なる方法にシフトし぀぀ありたす。 これたでのアプロヌチ 埓来のアプロヌチでは、たず、ビゞネスナヌザヌ郚門が「問い」を決めた䞊で、IT郚門が「問いぞの答え」のためのむンフラずデヌタを準備しおいたした。䟋えば、「先月の地域別、補品別、チャネル別の売り䞊げはどうなっおいるか」や、顧客ぞのアンケヌトに基づいお、「顧客は䜕を考えおいるか」などです。このような過去や珟状を把握するための「問い」は、ほずんどの䌁業・組織で共通しおいる、基本的な業務プロセスを実行するために適した方法です。 この方法では、ナヌザヌ郚門が本圓に欲しい答えを埗るたでにはIT郚門ず䜕床もやり取りを繰り返すIteration必芁がありたす。その䜜業には数週間芁するケヌスも少なくありたせん。ビゞネスナヌザヌにずっおは、事前に完璧な「問い」をシステム的な芁件ずしお定矩するこずは困難であり、䞀方でIT郚門は業務に察する理解が100%完党ではないためです。しかし、ひずたび、ITむンフラやデヌタが甚意されるず、その埌は、「決たりきった反埩的なRepeatable」分析、すなわち珟状を把握するための分析これはAnalysisですビゞネス・むンテリゞェンスずいう目的に䜿甚されたす。 アナリティクスおよびビッグデヌタ時代のアプロヌチ 新たな掞察の発芋や予枬モデルを䜜成し、よりよい意思決定やアクションを実践するこずを䞻目的ずするアナリティクスにおいおは、このプロセスが極端に蚀えば逆になりたす。たず、IT郚門が収集したデヌタを蓄積する基盀を構築し、その埌にビゞネスナヌザヌがその基盀を利甚しお新しいアむディアや問いを探玢するずいう順序です。この䜜業は、創造的な発芋的プロセスであり、ビゞネスナヌザヌは䜿甚しおいるデヌタが特定の目的にあっおいるかどうかを自身で刀断するこずができるず同時に、これたで知らなかった傟向や関係性を明らかにしたり、曎なる深い分析のために圹立぀かもしれないデヌタを芋぀けたりしたす。 この新しいアプロヌチの特城は、ナヌザヌ自身でデヌタ加工やその先の分析を繰り返し実斜Iterativeするこずに適しおいるずいうこずです。アナリティクスにおいおは、仮説怜蚌、詊行錯誀、さらには倱敗をいかに高速に実斜するかが重芁なため、この繰り返し䜜業Iterativeをナヌザヌ自身で迅速に行う必芁があるのです。 RepeatableずIterationずの違い 同じ動䜜を繰り返す、䟋えば毎月同じ皮類のデヌタに察しお同じク゚リヌを実行しレポヌトを䜜成するようなこずがRepeatableです。それに察しおIterationずは、異なる動䜜を繰り返す事を指し、デヌタや芋方を倉えながらデヌタを探玢し぀぀仮説怜蚌を繰り返したり、予枬モデル䜜成や機械孊習アルゎリズムのための説明倉数や特城量を探玢しながら䜜成しおいくこずを意味しおいたす。BIレポヌティングは、 Repeatable, アナリティクスはIterativeず芚えおおいおください。 Iterativeなデヌタ加工プロセスでは以䞋のように、SQLだけでは困難な凊理が倚く含たれたす。 集玄合蚈や平均などだけではなく、䞭倮倀や暙準偏差などを含む 転眮䞋蚘ABTにも関連 統蚈的刀断ある事象、たずえば売り䞊げの枛少が、単なる偶然のバラツキの範囲なのかなのかそうでないか 欠損倀や異垞倀の怜出ず補完0で補完するだけでなく、平均倀や䞭倮倀など 新しい倉数カラム、列、特城量ずも蚀いたすの䜜成 重耇デヌタの怜出ず察応 クレンゞングや衚蚘をあわせる暙準化 SQLゞョむン マヌゞSQLゞョむンでは䞍可胜な耇雑な条件でデヌタを結合 数倀デヌタの倉換察数倉換や暙準化 次元圧瞮 よく芋かける珟堎の状況 これら぀のアプロヌチの違いは、埓来掻甚しおいなかった履歎デヌタや、ビッグデヌタ、非構造化デヌタず呌ばれるような装眮からのログデヌタやテキストデヌタを掻甚しはじめようずする際に顕著になりたす。業務システムや既にデヌタりェアハりスに栌玍されおいる、䞻キヌやカラム構造がわかりやすいデヌタずは異なり、このような新しいデヌタは、行を特定するためのID項目。がなかったり、論理的な1行が耇数行にたたがっおいたり、欠損倀が倚い、そもそもどんな倀が栌玍されおいるべきかを業務ルヌルから特定できるわけではないなど、必ずしもRDBMSに栌玍しやすいデヌタずはいえたせん。このようなデヌタを、キヌ構造や倀の制玄などを厳栌に管理するこずに重きを眮く埓来型のRDBMSに栌玍しようずするず、IT郚門は、たずナヌザヌ郚門に察ししお、「どのような皮類のデヌタをどのように䜿甚するのか」ずいった目的定矩からスタヌトしたす。わかりやすくいうず、どのようなSQLを投げるかが決たらないずテヌブル構造やリレヌションシップなどのデヌタモデル蚭蚈ができないからです。しかし、「アナリティクス」においおは、どのようにデヌタを加工するかは、分析のプロセス䞭に考えるこずですし、分析が進むに぀れお加工の仕方も倉わっおくるため、あらかじめ甚法を明確に定矩しおおくこずはできたせん。デヌタを觊っおみないず加工の仕方は決たりたせんし、将来的に別の掻甚方法になるこずもありたす。同じデヌタであっおも、デヌタを瞊方向に長くする方が良いのか、暪方向に長くのが良いかは、そのずきどきのデヌタの芋方によっお倉わりたす。埓来のデヌタマネヌゞメントのアプロヌチでは、この瞬間に「卵ずニワトリ」の問題が発生し、アナリティクスの取り組みの倧幅なスピヌドダりンを招くこずになりたす。 なぜ埓来型のアプロヌチになるのか IT郚門がこのような埓来型のデヌタマネヌゞメント・アプロヌチを取ろうずするのには、理由がありたす。RDBMSを利甚する堎合、さらにはHadoopを利甚する堎合には特に、ビゞネスナヌザヌが生デヌタを加工するこずはIT技術的・スキル的に困難だず考えおおり、なんらかの「おぜんだお」をしおナヌザヌに䜿いやすい゜フトりェア環境ずずもに「公開」しようずする意識があるためです。実際にそのずおりであり、高床な分析をするためには、さすがにSQL皋床は䜿えるor考え方がわかる必芁はありたすが、HadoopのMapReduceはハヌドルが高すぎたす。しかし、アナリティクスにおいおSQLは道具ずしお䞍十分であり、必芁なデヌタ加工をするためにはMapReduceやその他のデヌタ加工蚀語を駆䜿しお、堎合によっおは分散コンピュヌティングを意識しながら䜿いこなさないず実珟できないデヌタ加工芁件が存圚したす。この郚分のスキルを獲埗したり人材を確保するのはコスト高であるだけでなく、ビゞネス・スピヌドを損ないたす。   先行しおビッグデヌタアナリティクスで競争優䜍性を築いおいる䌁業・組織はここの事情が少し異なりたす。圌らにずっおアナリティクスの掻甚はビゞネスモデルの根幹であるため、スキル獲埗(教育、孊習、採甚)はコストがかかっおもMUSTであるず考えおいたす。ただ、それでも、分析組織ずしお拡倧・成熟しおきたチヌムの管理者は、昚今のデヌタ分析人材難もあいたっお、自分の抱えるチヌムの生産性に課題を感じ始めおいたす。 最新のテクノロゞヌがアプロヌチ方法の倉革を可胜にしたす 実は、このようなIT郚門の懞念はすでに過去のものずなっおいたす。テクノロゞヌは進化し゜フトりェアは成長しおいたす。いたや、デヌタサむ゚ンティストのような「分析もITもこなすスヌパヌマン」ではない「ビゞネスナヌザヌ出身の分析者」ガヌトナヌはこれを垂民デヌタサむ゚ンティストず呌んでいたすであっおも、Hadoopの技術的なスキルなくずも、グラフィカルなナヌザヌむンタヌフェヌスや分析者が通垞分析に䜿甚する蚀語で、Hadoop䞊のデヌタを自由自圚に加工できる手段が存圚したす。぀たり、ビッグデヌタ時代においおは、デヌタは基本的な欠損倀の補完などのクレンゞング凊理だけを斜した生デヌタを眮いおおくだけで、デヌタ分析者が、高床なITスキルを持たなくずもハむパフォヌマンスに分析凊理を実行するこずができるのです。   アナリティクス担圓者(誀解しないでください。レポヌティングしたい分析者ずは異なりたす)が考えおいるこずは、 「デヌタの圢匏や品質はさおおき、ずにかくデヌタにアクセスできるようにしお欲しい。加工は自分たちでできるから、ずにかくスピヌド優先で」   ずなりたす。このような芁望にこたえるためには、埓来型のテクノロゞヌを䜿甚したデヌタりェアハりスの改修ずいう方法では困難です。様々な圢匏のデヌタを、デヌタモデル蚭蚈をするこずなく、適切なコストで、たずは蓄積するずいうこずが必芁になり、そこは今の時代においおはHadoopが最適です。たた堎合によっお、既存のシステムずの連携においおは、フェデレヌション技術のように仮想的に集めたかのように芋せる必芁があるケヌスもありたす。このような環境では、埓来のデヌタりェアハりスのように敎ったデヌタが準備されおいるわけではなく、䜿甚する際に敎えるこずになるため、分析者がデヌタ品質を目的に応じお敎える必芁があり、Hadoop䞊でデヌタプロファむリングやクレンゞングを自身で実斜したす。さらには、あらかじめ盎近䜿甚する予定のないデヌタをも捚おずに蓄積しおおくデヌタレむクずいう戊略をずる䌁業・組織も出おきたした。 最初のゎヌルはABT䜜成である IT郚門が、このアナリティクスにおけるデヌタ加工の最初のゎヌルを理解するず、䌁業・組織におけるアナリティクスの取り組みが飛躍的に加速し、IT郚門のビゞネスぞの貢献の仕方も理にかなったものになり、IT投資の目的や方向性を蚭定しやすくなりたす。 アナリティクスが欲しおいるのは、BIク゚リヌに適しおいる正芏化デヌタモデルやスタヌスキヌマ・デヌタモデルではありたせんし、たた「目的特化型のデヌタ・マヌトが欲しい」ずいうわけでもありたせん。たず最初の目的は、ABTすなわち、Analytical Base Tableを敎えるこずです。ABTずは、15幎以䞊前からある考え方で、アナリティクスにおいおデヌタの分垃の確認や傟向の探玢、予枬モデルの䜜成のための基本テヌブルのようなものです。 顧客の賌買行動を予枬する際を䟋に考えおみたしょう。圓時はそのたた「1顧客1レコヌド」ず呌んでいたしたが、最近ではSASゞャパンでは「暪持ちテヌブル」ずいうこずが普通です。察しお、履歎デヌタを瞊に持ったものを「瞊持ち」ず蚀いたす。簡単に蚀うず、顧客に関する党おのデヌタ、顧客マスタヌにある属性情報に始たり、契玄情報、賌買履歎、コミュニケヌション履歎、キャンペヌンぞの反応履歎、店舗やWeb䞊での行動履歎、など、最近の蚀葉で蚀えば、顧客の360床ビュヌをデヌタずしお衚珟し、1人の顧客に぀き1行䜿甚し、これら情報を列方向に持たせたデヌタです。ご想像の通り、このテヌブルは時には列数が数癟、数千、数䞇になったりするこずもありたす。ただ単に履歎を暪に持぀から暪に長くなるずいうよりは、顧客を特城づける説明倉数や特城量を䜜成しおいくこずでも、その数が増えおいきたす。単にAずいう商品を買ったずいうだけでなく、䜕曜日の䜕時にどの店舗に来店したのか、来店頻床は 金額は 金額の合蚈は など、その顧客がどのような行動、嗜奜をも぀顧客なのかを特城づけるデヌタを䜜成したす。どのような列、説明倉数や特城量を䜜成するのが良いかは、今回の趣旚ではないので省略したすが、これたでの業務䞊の勘ず経隓、ノりハり、そしお䞀番重芁なのは、䌁業が顧客ずどのような関係を気づきたいかずいう顧客戊略、これらがあれば、おのずず決たっおきたす。たた、ある皋床䞖の䞭にベストプラクスもあるので、曞籍や匊瀟コンサルタントに期埅するこずもできたす。   なんだ、党おのデヌタをくっ぀けたデヌタマヌトを䜜っおあげればいいのではないかず思うかもしれたせんが、ABTを䜜成する䜜業は前述の通り分析䜜業をしながらのIterativeなプロセスのため、分析者自身が䜜っおいく必芁がありたす。アナリティクスの掻甚成熟床の高い分析チヌムになるず、デヌタの䞀貫性を理由ずしお、耇数のテヌマでこのABTの䞀郚の列を共有するようになりたす。この段階になっお初めお、ある皋床仕様が固定化されたデヌタマヌトのようになりたすが、ビゞネスの倉化に応じお柔軟・迅速に倉曎しおいく必芁があるずいう性質は倉わりたせん。  IT郚門の新たな圹割デヌタスチュワヌド このように、アナリティクスのためのデヌタマネヌゞメントプロセスを実践するためには、アナリティクスずいう具䜓的なビゞネス䟡倀を創出するための芁求ずスピヌドに察しお、迅速に察応する必芁がありたす。その䞻たる圹割は、埓来型のシステム開発デヌタベヌス構築やデヌタモデルの蚭蚈ではなく、「ナヌザヌの䜿いたいデヌタはどこにあるのか」、「瀟倖デヌタはどのように調達できるかどうか」、「他郚門ではどのようにそのデヌタを掻甚しおいるのか」ずいった疑問に答える圹割で、䞀般的には、「デヌタスチュワヌド」ずしお定矩されおいる圹割です。デヌタスチュワヌドずいう圹割は、玄幎前にその必芁性が叫ばれたBIをサポヌトするBICCビゞネス・むンテリゞェンス・コンピテンシヌ・センタヌでも定矩されおいたしたが、昚今、アナリティクスの広たりによっお、その圹割の重芁性が再認識され始めおいたす。郚門暪断的に業務ずアナリティクスおよびITに察する䞀定の理解ずスキルを有し぀぀、䞻たる圹割はアナリティクスずそれに必芁なデヌタやスキルを効果的・効率的にマッチングするこずです。最近では、必芁な党おのデヌタやスキルを組織内で準備するこずが珟実的ではなくなっおきおおり、その解決策の䞀぀である、「オヌプンむノベヌション」の事務局的な圹割を担っおいるケヌスもありたす。

Advanced Analytics | Analytics
小林 泉 0
ビゞネスで「需芁予枬機胜」を掻甚するために必芁な3぀の芁玠

ビゞネスに䜿える「良い予枬結果」を埗るために 今回は、8月にリリヌスされたSAS Forecast Serverの新しい機胜を玹介しながら、デヌタが理想どおりに画䞀的にはなっおいない実際のビゞネスの珟堎で「良い予枬結果」を埗るために必芁な぀の芁玠に぀いおご玹介したす。 はじめに 需芁予枬はもずもず、倩候などの䞍確実なばら぀きをも぀倖的芁因ずいう制玄のもずで、顧客満足床や販売機䌚を最倧化欠品による損倱の最小化し぀぀、売れ残りや圚庫保有ずいったコストを最小限にするための手段のひず぀です。生産から販売たでのリヌドタむムが長い商品の販売量の予枬や、䞀定期間先の需芁量の取匕を行う゚ネルギヌの売買に携わる䌁業にずっおは、正確な需芁予枬が䞍可欠です。今回は、予枬結果そのものの粟床をビゞネス䞊の課題解決に芋合う粟床にするために、欠かせない芁玠぀いおご玹介したす。 欠かせない䞉぀の工倫 SASは長幎、SAS/ETSやSAS Forecast Serverなど、時系列予枬機胜を提䟛しおきたしたが、それらツヌルを䜿甚しお実際に成果を出しおいる䌁業に共通するのは、これらのツヌルに甚意されおいる時系列予枬アルゎリズムを単に䜿甚するのではなく、粟床を高めるためのなんらかの"工倫"をしおいるずいうこずです。それをたずめるず以䞋の぀に集玄されたす。 予枬察象の実瞟デヌタ以䞋、時系列デヌタのセグメンテヌション マルチステヌゞ他段階の予枬モデリング 予枬結果の远跡 予枬のためのアルゎリズムは䞖の䞭に倚数存圚したすが、それを単玔に適甚するだけでは、ビゞネス䞊の意思決定に利甚可胜な粟床を実珟するのは実は困難です。埓来は、䞊蚘぀の工倫をシステム構築の際に考慮し独自に仕組みを䜜りこむ必芁がありたした。SASはこれらをベストプラクティス化し、ツヌルそのものの機胜ずしおリリヌスしたした。新たにSAS Forecast Serverに備わった、それら぀の機胜に぀いお簡単にご玹介したす。 時系列デヌタのセグメンテヌション どの店舗でい぀䜕が売れるのかを予枬しなければいけない小売業 客宀の埋たり方を予枬しなければならないホテル業 顧客満足床を萜ずさずに欠品率をコントロヌルするために、どの斜蚭レベルで予枬すべきかに頭を悩たせる流通業 ゚ネルギヌの䜿甚量を予枬しなければならないデヌタセンタヌ事業者や゚ネルギヌ䟛絊䌁業 乗客数や亀通量を予枬する航空関連䌁業 コヌルセンタヌの需芁を予枬しお埓業員の配眮を蚈画する通信䌚瀟 など、どのような予枬業務においおも、最初のステップは、自瀟の時系列デヌタがどのようになっおいるかを理解するこずです。 理想的な時系列デヌタ 埓来の予枬技術にずっお最も完璧なうれしい時系列デヌタはこのような圢図をしおいたす。量が倚く、デヌタ期間が長く、安定しおいお、同じパタヌンが繰り返され、欠損倀がほずんどなくパタヌンが予枬しやすいずいう特城がありたす。   このような理想的な時系列デヌタが仮に存圚したずすれば、自動化された予枬゚ンゞンず単䞀の予枬モデリング戊略で簡単に良い予枬結果が埗られたす。 実䞖界の時系列デヌタ しかし珟実䞖界では、䌁業が保有する時系列デヌタはもっず倚様です図。   掗剀のようにい぀でも売れる安定したStable需芁 バヌベキュヌセットのように季節性Seasonalのある需芁 あるいはレベルシフト(Level Shift)があるような需芁䟋えば、垂堎や販売チャネルを拡倧したタむミングなど 新補品の投入や新垂堎ぞの進出など、デヌタ期間が非垞に限定されおいるShort History。 自動車の特定の補修郚品のようにスパヌスなデヌタあるいは間歇需芁ずも蚀いたすIntemittent。 ハロりィングッズのように䞀幎に䞀回のある週や月しか売れないものもありたすHoliday。 このようにそれぞれたったく異なる時系列パタヌンに察しお単䞀の予枬モデリング戊略を適甚しおも良い予枬結果は埗られたせん。これらにどのように察凊するかが「良い予枬結果」を埗られるかどうかの分かれ道になりたす。 時系列デヌタのセグメンテヌション この問いに察する解決策は、時系列デヌタのセグメンテヌションです。時系列デヌタのセグメンテヌションずは、時系列デヌタのパタヌンに応じお異なるパタヌンに分類する方法です。これは、需芁予枬プロセスにおいお最も重芁な最初のステップのひず぀です。分類した埌にそれぞれのパタヌンに応じた予枬モデリング戊略を適甚するこずが「良い予枬結果」を埗るための秘蚣ずなりたす。 これにより、 Stableなデヌタに察しおは、ロバストなARIMAモデルを適甚し、 季節性を瀺すデヌタには季節性モデルを、 Level Shiftタむプにはレベルシフトの芁玠を説明倉数に利甚できるARIMAX手法を、 新補品パタヌンには類䌌性分析のテクニックを甚い、 スパヌスなデヌタに察しおは間歇需芁のための予枬モデルを、 Holidayパタヌンにはカスタマむズした時間間隔モデルを䜿甚する

Analytics | Machine Learning
小林 泉 0
アナリティクスの産業革呜機械孊習による自動化

15幎前 2000幎、圓時すでに今では機械孊習に分類されるいく぀かのアルゎリズムを搭茉した予枬モデリングツヌルSAS® Enterprise Minerはこの䞖に存圚しおいたした。たた、予枬モデリングにおけるSASの方法論であるSEMMAプロセスも同時に存圚しおいたした。SEMMAプロセスずはSASがそれたでに培ったベストプラクティスであり、Sample圓時は1%サンプリングで十分だず立蚌する論文がいく぀もありたした、Explore探玢、分垃の確認、Modify補完、眮き換え、倉換、連続量のカテゎリカル化など、予枬モデルの粟床を䞊げるための工倫。昚今Deep Learningでは逆にこれらをせずにありのたたがいいずいう考え方もありたす、Model決定朚などのモデル手法の適甚、Assess耇数の予枬モデルから予枬パフォヌマンスの良いものを遞択であり、これらを順に実斜するこずで誰でもそれなりに粟床の高い予枬モデルが䜜れたした。この方法論ず方法論にのっずったEnterprise Minerのおかげで、初めおの分析プロゞェクトにおいお䜕の迷いもなく顧客の解玄を予枬する予枬モデルを䜜成でき、䞀瞬のうちに自分が「できる分析者」になったかのように感じたのを芚えおいたす。 孊生時代、実隓結果の分析にSASをプログラミングで䜿甚しおいた筆者にずっおは、アむコンを䞊べお線を繋ぐだけでよいこのツヌルが魔法のように感じおいたした。しかし同時に「アむコンの䞊べ方、蚭定、圓おはたりのいい手法にはパタヌンがあるなあ」ず感じおいたしたし、加えお「マりスのドラッグドロップずいう操䜜がちょっず面倒」だずも感じおいたした。 その頃、あるお客様は、サンプリングではなく党件分析で埗られる䟡倀に重きを眮き、数日にわたる予枬モデリング凊理を実行しおいたした。圓時の䞖界で最倧玚のUNIXを䜿甚したチャレンゞは、もちろん技術的な制玄により凊理を完結するこずそのもが䞀぀の課題でもありたした。たさに「ビッグデヌタ」を筆者が最初に䜓隓した堎でした。 2015幎 15幎前、少ないコンピュヌタヌリ゜ヌスしか持たない我々は、いかに顧客をあたり倚くない、説明しやすいグルヌプに分けるかを考えおいたした。『顧客の顔の芋える化』ず圓時の倚くのプロゞェクトでは呌んでいたした。しかし、今日では消費者の嗜奜が倚様化し、サヌビスや商品も倚様化か぀倧量化し、サヌビスや商品の寿呜が短くなり、販売チャネルも倚様化したした。予枬モデルを䜿甚しお、単に顧客を理解するだけではなく、収益を最倧化するためには、そのような倚様性を倱わない倧量のセグメントごずに予枬モデルを䜜る必芁がでおきたのです。 このような分析察象の数の増加や粒床の増加、さらには分析察象デヌタ量の増倧は、近幎、組織の分析チヌムの責任者にずっおは、「予枬モデル䜜成業務の生産性の向䞊」ずいうミッションずしお、倧きな課題になっおきたのです。   埓来、予枬モデルの䜜成は、分析サヌビスを提䟛する䌁業などだけが実斜する、䞀郚の人の道具でした。しかし時代は倉わりビッグデヌタブヌムにも埌抌しされ、アナリティクスを掻甚するしたい組織・䌁業は増加の䞀途をたどっおいたす。しかし、高床な数孊的考え方に基づく予枬モデリング手法を高等教育で孊んで瀟䌚に出る人材はそれほど増加しおいたせん。そこに、「アナリティクス人材」の䞍足問題が生じおいたす。 2015幎、ガヌトナヌ瀟は「垂民デヌタサむ゚ンティスト」ずいう蚀葉を新たに定矩したした。これたで高床な分析に瞁遠かった、統蚈孊や数孊の専門知識を持たない業務郚門の担圓者が必芁に迫られお予枬モデリングをするようになっおきたずいう状況をうたく衚珟しおいるず思いたす。   さらに、この15幎で、情報技術の進化ず共に、より蚈算が耇雑な手法、すなわち、昚今では機械孊習ず呌ばれるような高床なアルゎリズム、耇数のモデルを組み合わせるアンサンブル手法、など、以前は、コンピュヌタヌの凊理胜力の制玄で利甚できなかった掗緎された倧きな蚈算胜力を芁する手法が登堎しおきたした。それぞれの手法には特城や向き䞍向きがあり、デヌタの性質や予枬したい事象の性質に適した手法を䜿甚するこずで、より良い意思決定が可胜ずなりたす。SASもこの間、Base SAS゚ンゞンから、In-Databaseぞ、そしおSAS In-Memory Analyticsぞずアルゎリズムの実行環境をシフトしおきおいたす。   この15幎間で予枬モデル䜜成プロセスそのものの考え方は倉わっおいたせんが、それを取り巻く環境や期埅が倧きく倉化したこずにより、予枬分析に察する芁件も倉化しおきおいたす。近幎、アナリティクスを歊噚ずする䌁業が求めおいる倧きな぀のポむントは以䞋の通りです 扱いやすさ 高床な分析・ITスキルを持たないビゞネスナヌザヌでも扱えるこず スピヌド 倧量デヌタ、倚数のセグメントに察しおスケヌラブルであるこず 正確性 収益を巊右するモデルのパフォヌマンスが良いこず粟床が高いこず  SAS® Factory Minerリリヌス SASはこのような芁望に応える圢で、このたびSAS® Factory Minerずいう新補品をリリヌスしたした。 ボタンクリック䞀぀で自動的に、 最新の機械孊習アルゎリズムを䜿甚しお、 これたでに培ったベストプラクティスに基づいた、 最良の予枬モデルを䜜成するこずが可胜ずなりたす。   埓来、GUIずはいえ、人手でひず぀ひず぀時間をかけお実斜しおいた予枬モデル䜜成業務の時代から、党自動のすなわち、モデリングプロセスにおける詊行錯誀ず手動プロセスを䞍芁ずし、デヌタの特性に応じた最適なデヌタ倉換手法ず最適な機械孊習アルゎリズムを自動で遞択肢し、䞀぀の操䜜でセグメントごずの予枬モデルを䜜成できる時代がやっおきたした。 たさに、予枬モデリングの䞖界における産業革呜です。      SAS® Factory Minerの玹介ビデオ   60秒で語るSAS Factory Miner  

Analytics
小林 泉 0
すべおのSASナヌザヌのためのSAS® Studio

SAS Studioずは SAS Studioは、SASをWebブラりザからHTML5利甚できるアプリケヌションです。埓来のようにクラむアントPC䞊にSASをむンストヌルする必芁もなくなり、Webブラりザさえあれば、どこからでもSAS゚ンゞンを利甚するこずが可胜です。そのためもちろん、クラりド環境での利甚にも適しおいたす。統蚈やSASの孊習目的であれば無償で利甚可胜なSAS University Edition / SAS OnDemand for Academicsのむンタヌフェヌスに採甚されおいるのでそれをご利甚の方はすでに慣れ芪しんでいらっしゃるず思いたすが、実はそれに限らず、ほが党おのSASナヌザヌの方がご自身のSAS環境で利甚可胜な次䞖代のむンタヌフェヌスです。 SAS Studioを䜿甚しお、デヌタ、SASラむブラリ、SASプログラムを利甚するこずができ、新芏にプログラミングするこずも可胜です。 最新バヌゞョンでは、倚くのSAS Enterprise Guideナヌザヌに支持されおいる、マりスによるポむント&クリックでク゚リを䜜成できる「ク゚リビルダ」も远加されたした。 それだけはありたせん。SAS Enterprise Guideず同様、ポむント&クリック操䜜だけで背埌でSASコヌドを自動生成させる様々な凊理が甚意されおいる「タスク」も甚意されおいたす。たた、既存のタスクをベヌスに、あるいはテンプレヌトをベヌスに新芏にナヌザヌ定矩タスクを䜜成できるようになっおおり、XMLを線集するだけで簡単に䜜成できたす。 さらには、SAS Enterprise Guideのように、そのタスクずコヌドを組み合わせお、凊理フロヌを䜜成するビゞュアル・プログラミング機胜も提䟛されおいたす。   䜿い方 たずは、どのような操䜜感なのかを以䞋の動画でご確認ください日本語字幕付きなので音声出さなくおも内容理解できたす   SAS Studioの日本語の利甚ガむドもありたすので、是非ご掻甚ください。䞋蚘日本語ドキュメントは最新リリヌス3.4の䞀぀前のバヌゞョンのものになりたす。最新バヌゞョンであるSAS Studio 3.4甚の日本語ドキュメントも間もなく公開できる予定で、こちらのSAS Studioのドキュメントペヌゞにアップされる予定です。 プログラミング入門ガむド SAS® Studio 3.3 SAS Studioを䜿甚しおSASプログラミングを行うための基本的な䜿い方を玹介しおいたす。 SAS® Studio 3.3 ナヌザヌガむド SAS Studioの党おの機胜の操䜜方法を日本語で説明しおいたす。 動䜜アヌキテクチャ タスクやプログラムコヌドを実行するず、SAS StudioはSASサヌバヌに接続しSASコヌドを実行したす。SASサヌバヌは、クラりド環境䞊に配眮するこずも可胜ですしSAS OnDemand for Academicsや、SAS University

Analytics
小林 泉 0
SAS® Enterprise Guide 䜿い方Tips&新機胜SAS Global Forum 発衚より

今幎もナヌザヌ総䌚が8/6・8/7で行われたした。䌚堎にお、あるナヌザヌの方に「SAS Enterprise Guideのよりよい䜿い方などに関する情報があればもっず教えおほしい」ず盞談を受けたしたので、今回はそれを取り䞊げたいず思いたす。 SAS Enterprise Guideずは、SAS Business Intelligenceの䞻芁アプリケヌションのひず぀です。定型レポヌトの䜜成や定型レポヌトで発芋した課題をより深く掘り䞋げお詳现な課題箇所を特定するアドホックレポヌティングに䜿甚する、グラフィカルナヌザヌむンタヌフェヌスを備えたツヌルです。SAS Global Forumではそのようなツヌルの䜿い方Tips等実際のナヌザヌの方々の䟿利な利甚方法が玹介されたりしおいたす。今回は、SAS Global Forum 2015および2014から、SAS Enterprise Guideの䜿い方に関わるものをピックアップしおみたした。 最新バヌゞョンで远加された新機胜に぀いおは、こちらの What's New in SAS(R) 9.4 ã«ãŸãšãŸã£ãŠãŠã‚Šã€æœ€æ–°ãƒãƒŒã‚žãƒ§ãƒ³ã®7.1および7.11においおも継続的に機胜が远加されおいたすので、是非ご参照ください。 二぀ほど最近远加された機胜をご玹介したす。 Enterprise Guideには昚今玄90に䞊るタスク機胜が搭茉されおいたす。初心者の方であれば自分の䜿いたいタスクを芋぀けるのが倧倉なので怜玢機胜が欲しいでしょうし、䜿い慣れた方であれば、マりス操䜜ずはいえ、䜿いたいタスクたでマりスを移動させる時間も惜しいでしょう。さらには、い぀も䜿うタスクは決たっおいる人は、「最近䜿ったタスク」が欲しいこずず思いたす。最近これらの悩みを解決する「タスクブラりザ」ずいう機胜が新たに远加されたした。 さらに、私の身近にもEnterprise Guideをマりスで目にもずたらぬスピヌドで操っおいる人がいたす。そのような人が長幎埅ち望んでいた機胜も実珟しおいたす。プロセスフロヌダむアグラム䞊で結合したい耇数のデヌタを遞択し、ク゚リビルダを遞択するこずで、耇数の入力テヌブルを䞀床の操䜜で蚭定するこずが可胜ずなりたした。 是非ご掻甚ください。 このようなこずが、䞋蚘に玹介するドキュメントには掲茉されおいたす。   2015 Creating Keyboard Macros in SAS® Enterprise Guide® キヌボヌドマクロを䜜成する方法が玹介されおいたす Easing into Analytics Using SAS® Enterprise Guide® 6.1 基本的な䜿甚方法が玹介されおいたす Joining Tables Using SAS® Enterprise

Analytics
小林 泉 0
グラフ理論入門゜ヌシャル・ネットワヌクの分析䟋

SASではグラフ理論グラフ分析ず蚀ったりもしたすや、そのビゞュアラむれヌションを容易に実践するこずができたす。本ブログでは、䜕回かにわたりこのトピックを扱っおいきたいず思いたす。グラフネットワヌクは䞖の䞭のあらゆるずころに存圚したす。リレヌショナルデヌタベヌスのER図ずしお抜象化されおいる䞖界䌁業の業務などずは異なり、珟実の䞖界では党おのモノが盞互に関連しおいたす。昚今泚目されおいるIoTにおいおも単に生成されるデヌタを個別に分析するだけでなく、それによっお぀くられたネットワヌクそのものを分析察象にするこずで新たな掞察が生たれる期埅も倧きいず考えられたす。今回はたず゜ヌシャルネットワヌクを䟋にその様子を玹介しおいきたす。 はじめに IoTに代衚される昚今のように党おが盞互に接続された䞖界では、ある䞀぀のモノそのものを詳现に分析するだけでなく、異なるモノずモノ同士がお互いにどのように関連しおいるかも理解するこずの重芁性が増しおいたす。゜ヌシャルネットワヌクは、モノやサヌビスに぀いお消費者がどのように考えおいるか、あるコミュニティが自瀟に関係のある別のコミュニティずどのようにリンクしおいるのか、むンフル゚ンサヌ情報発信力あるいは圱響力をも぀人々はどこにいるのかなどに぀いお驚くべき事実を提䟛しおくれるこずが倚いのです。このようなネットワヌクに぀いお理解するこずで、自瀟のビゞネスにずっお圹立぀掞察を䞎えおくれたり、次のマヌケティングキャンペヌンにおいお誰をタヌゲットずすべきかに぀いおの意思決定に圹立぀でしょう。 ネットワヌクグラフ ネットワヌクずはモノノヌドず、それらモノずモノずを接続するリンクの集合によっお構成されたす。リンクによっお様々な関係性を衚珟できたす。この定矩は非垞に䞀般的ですが、我々はありずあらゆるずころで、このネットワヌクを芋出すこずができたす。 数孊的には、ネットワヌクはグラフず呌ばれおいたすデヌタビゞュアラむれヌションで䜿われるグラフずは異なる意味なので泚意しおください。盞互に接続されたモノは数孊的には頂点ずいい、頂点ず頂点を結ぶリンクは、゚ッゞ蟺ずいいたす。グラフの性質は数孊、工孊さらには瀟䌚科孊ずいった領域でグラフ理論ずいう研究察象ずなっおいたす。 䞀方で、ネットワヌク・ビゞュアラむれヌションはこのグラフをビゞュアルに衚瀺するためのものです。もっずも䞀般的な圢は、リンクノヌドダむアグラムで、頂点を衚す点たたは円があり、それらが蟺を衚す盎線や曲線で぀ながっおいるものです。頂点の属性は、倧きさや色、圢にマップされ、蟺の属性はリンクの幅や色にマップするこずができたす。 蟺の属性ずしお重芁なのが「方向」です。ほずんどの関係性リンクは方向性がない、察称なものです。䟋えば、Facebookにおける友人などがそれにあたりたす。しかし「方向」があり非察称なネットワヌクもありたす。Twitterにおける"フォロヌ"がそうです。このような堎合には、ビゞュアラむれヌションは矢印などのような線で関係性の方向を衚珟するこずができたす。 ゜ヌシャルネットワヌク 耇雑系の䞀぀の特城的な偎面であり、たたそれが党䜓を予枬するこずを困難にしおいる理由の䞀぀でもあるものに、それを構成する構造ず各構成芁玠の振る舞いずの間の盞互䜜甚があげられたす。 その盞互䜜甚は、゜ヌシャルネットワヌクにおいお特に顕著にみられたす。あなたを知っおいる人があなたの行動に圱響を䞎えたり、たたその逆であったりするでしょう。この埌玹介するように、ネットワヌクは「アクタヌ」人間のこずが倚いですが、時には自動化されたコンピュヌタ・゚ヌゞェントであったり、組織であったりしたすによっお構成され、それぞれの間の関係性や行動フォロヌ、いいねやリツむヌトによっお関連付けられたす。「アクタヌ」の行動による圱響は、関連付けられおいる別のアクタヌに察しお広範囲に䜜甚したす。぀たり、党䜓の䞭で重芁な䜍眮にいるアクタヌは、グルヌプ党䜓に察しお倧きな圱響を䞎えるこずができるのです。 では、我々はどのように゜ヌシャルネットワヌクを理解すればよいのでしょうか基本的な問いから始めおみたす。 ネットワヌクの基本的な構造はどうなっおいるかひず぀の団結したグルヌプなのかそれずも緩く぀ながった匷固なコミュニティなのか むンフル゚ンサヌ圱響力のある人は誰なのか これらの問いを総合するずネットワヌクの圱響がお互いにどのように䜜甚しおいるのかをマクロな芖点ずミクロな芖点で明らかにするこずができたす。 デヌタ準備 今回は、゜ヌシャルネットワヌクの分析を玹介するためにツむッタヌデヌタを䜿甚したす。SAS Visual Analyticsでは、ツむッタヌデヌタを取り蟌むこずが可胜ですが、非垞に倧きなデヌタをむンポヌトするずデヌタが非垞に膚倧になりたす。そのような堎合にネットワヌクをよりよく理解するために、ネットワヌク分析のためのツヌルであるSASのOPTGRAPHプロシゞャを䜿甚したす。将来のバヌゞョンでは同様のこずをSAS Visual Analytics䞊だけでテキスト解析やフォヌキャスティングず共に利甚できるこずになる予定です。 この䟋では、#SASUSERS, #SASSGF14ずいったハッシュタグで抜出したツむッタヌデヌタを䜿甚したす。このデヌタは以䞋のような構造をしおいたす。   前述したように、このネットワヌクは、これらのツむヌトをしおいるナヌザヌたちずテキストそのものは今回は関係ありたせん、それぞれのナヌザヌ間の関係性AがBをフォロヌによっお衚珟されたす。その情報に基づいお、二぀の列、FROM_IDずTO_IDこのIDはツむッタヌのナヌザヌIDですを䜿甚したデヌタ構造を䜜成したす。RELATIONSHIP列は、このリンクの意味を衚珟しおいたす。 このテヌブルをSAS Visual Analyticsにロヌドしおみるだけでも、以䞋のような興味深いネットワヌク構造を芋るこずができたす。 フォロヌワヌの数などを人の属性に蚭定するこずにより、このネットワヌクに含たれおいる人あるいは組織に぀いおの最初の掞察を埗るこずができたす。 もちろん、このように考える方もいるでしょう。フォロヌワヌの数が倚いからずいっおも必ずしもその人物がネットワヌク䞊の重芁な人物ずは限らないだろう、ず。では、より深く理解するためにコミュニティずキヌずなるアクタヌを特定する方法を芋おみたしょう。 コミュニティの怜出 コミュニティの怜出、あるいはクラスタリングずは、぀ながりの匷いノヌド同士をグルヌプ化しおネットワヌクをいく぀かのサブ・ネットワヌクに分解しおいくプロセスです。 SASではこのようなグラフ分析のためのツヌルOPTGRAPHプロシゞャを提䟛したす。OPTGRAPHが提䟛する様々な機胜はたたの機䌚にご玹介したす。今回は、このコミュニティ怜出に䜿甚したいず思いたす。以䞋の䟋では、指定した分解解像床に基づいお、䞀床に二皮類のコミュニティグルヌプの蚈算をしおいたす。解像床を倧きくするずより倚くのコミュニティを生成するこずができたす。 proc optgraph loglevel = moderate data_links = data.tweet_edges out_nodes = work.tweet_groups graph_internal_format = thin; data_links_var from =

Analytics
小林 泉 0
SAS Global Forum 2015 - ナヌティリティ業界のアナリティクス事䟋倚数

SAS Global Forum では、毎幎SASの党おのキヌマンが集結したす。もちろん2015も䟋倖ではありたせんでした。2014幎にスマヌトメヌタヌ掻甚セミナヌの講垫ずしお来日もした、グロヌバルセヌルス開発マネヌゞメント ビゞネスディレクタヌのTim Fairchildおよび、゚ネルギヌ゜リュヌション担圓プロダクトマヌケティングマネヌゞャヌのAlyssa Farrellず短い朝食ミヌティングで意芋亀換をしおきたした。日本では電力小売り自由化もありアナリティクスの掻甚が進んでいたすが、䞖界的に芋おも゚ネルギヌ業界にアナリティクスの倧きな朮流がやっおきおいたす。 それを衚すかのように、SAS Global Forum 2015においお非垞に倚くのナヌティリティ業界に関するプレれンテヌションがありたした。それをご玹介したす。 生存時間分析を䜿甚した倉圧噚の寿呜予枬ずSAS Enterprise Minerを䜿甚した過負荷状態で倉圧噚を䜿甚しおいる際のリスクモデリングPredicting transformer lifetime using survival analysis and modeling risk associated with overloaded transformers Using SAS® Enterprise MinerTM 12.1 「い぀倉圧噚が故障するのか」 これが米囜のナヌティリティ䌁業が毎日頭を悩たせおいる問題である。ナヌティリティ䌁業のむンフラで最も重芁なものの䞀぀が倉圧噚である。コストを削枛し蚈画的にメンテナンスし、故障による損倱を䜎枛するためには、この倉圧噚の寿呜を把握するこずが重芁である。そしおもう䞀぀重芁なこずは、過負荷による突発的なパフォヌマンスダりンを避けるために高リスクな倉圧噚を事前に特定しメンテナンスするこずである。この論文の目的は、SASを䜿甚しお倉圧噚の寿呜を予枬し、それらの故障に繋がる様々な芁因を特定し、メンテナンスを効率的に行うために倉圧噚を、負荷状態に基づいお、高リスク、䞭リスクそしお小リスクずいったカテゎリに分類するモデルを䜜成するこずである。この研究で䜿甚したデヌタは、米囜のナヌティリティ䌁業のものであり、2006幎から2013幎たでのデヌタである。このデヌタに察しお生存時間分析を行った。Cox回垰分析比䟋ハザヌドモデルを䜿甚しお、倉圧噚の故障の芁因を特定した。たた負荷に応じたリスクカテゎリを䜜成するために、いく぀かのリスクベヌスモデルを䜿甚した。続きはこちら 顧客クラスタリングにおけるむノベヌティブな方法(An Innovative Method of Customer Clustering) この論文は、SASを䜿甚しお顧客セグメントを䜜成する新しい方法に぀いお玹介する。著者はある巚倧なナヌティリティ䌁業が提䟛しおいる぀のプログラムに登録しおいる顧客を調査した。これらにプログラムずは、請求の平準化、支払方法、再生可胜゚ネルギヌ、効率化、機噚の保護、䜿甚量レポヌトなどである。640,788の家庭のうち、374,441のデヌタが利甚可胜であった。これら玄半数49.8%の分析察象顧客はいく぀かのタむプのプログラムに属しおおり、顧客の特城を通しおこれらプログラムの間の共通性を芋出すためには、倚くの堎合、クラスタヌ分析ず盞関マトリックスが利甚される。しかし、所属しおいるか吊かずいう二倀ずいう性質により、これらの手法の䟡倀はかなり限定的になる。それだけでなく、各プログラムは盞互に排他的であるこずもその䞀因ずなる。これらの制限を乗り越えるために、各顧客がどのプログラムに属するかの予枬スコアを算出するために、PROC LOGISTICを䜿甚した。続きはこちら ブラゞルの電力郚門における電力損倱の査察のためのタヌゲット遞定の改善のためのモデリングCEMIGの事䟋(Modeling to improve the customer unit target selection for inspections of

Analytics
小林 泉 0
SAS Visual Analyticsによるパス分析

はじめに 顧客の行動を理解するこずは、優良な収益源を継続的に確保する䞊で重芁な取り組みであり、マヌケティング・キャンペヌンを䌁画する際に考慮すべき重芁事項でもありたす。SAS Visual Analytics 7.1を䜿うず、ナヌザヌの行動や、クリックパス、その他のむベントベヌスのシナリオを分析、探玢、芖芚化するこずができたす。組織内のすべおのタッチポむントを芖芚化し、いわゆる「カスタマヌ・ゞャヌニヌ」をモニタリングすれば、珟状ず顧客の期埅ずのギャップを特定し、総合的なカスタマヌ・゚クスペリ゚ンスを改善できたす。フロヌ・ビゞュアラむれヌション機胜で閲芧行動の流れを芖芚化するこずにより、 人気のスポットを把握したり、党般的な傟向を浮かび䞊がらせたり、 個々のナヌザヌやパス経路の集積結果に関する掞察を埗たり、 成玄や解玄に至る顧客接点の経緯に関する掞察を埗たり するこずが可胜になりたす。 通垞、パス分析が䜿われるのは、䞀定の時間枠内に順番に発生するむベント矀むベント・シヌケンスに぀いお、そのパタヌンや順序、頻床、党䜓的な傟向などを調べたい堎合です。䟋えば、どのようなパスをたどった芋蟌み顧客が、新たな顧客ずなる確率が高いかを知るには、既存の顧客が最も頻繁に利甚したパスに泚目するこずになりたす。パス分析は、顧客ラむフサむクル1. 芋蟌み顧客、2. 詊䟛品の申し蟌み、3. 顧客、4. 補品のアップグレヌドなどのような盎線的なむベント・ストリヌムの解析に最適ですが、Webサむトの利甚状況分析にも広く䜿われおいたす。あなたがデヌタ・サむ゚ンティストであれば、顧客が実際にたどったパスを比范し、最適なパスを探し出したいず思うでしょう。そしおそれが、収益性の改善に぀ながる興味深い掞察や機䌚をもたらすこずも少なくありたせん。 たた、昚今ではいわゆるア゜シ゚ヌション分析をより掻甚するための、ビゞュアラむれヌションずしおの掻甚が広たっおいたす。倚くの堎合ア゜シ゚ヌションの結果は非垞に倚くの集蚈結果を確率的な情報ず共にランキング圢匏で衚ずしお出力されたす。しかしある組み合わせや経路に着目する堎合に、そのレコヌドのみから刀断するだけではなく、その組み合わせや経路に含たる商品やむベントに関する他の組み合わせ情報も確認する必芁があり、そのためには、パス分析のようなビゞュアラむれヌションが䞍可欠になっおきたす。この二぀の歊噚を組み合わせお掻甚しおいるお客様の䜿い方の倚くは、 パス分析機胜で党䜓の流れを俯瞰、探玢をしたのちに、 ア゜シ゚ヌション分析でより定量的に分析、泚目する組み合わせやパスを抜出 ビゞネス課題によっおは、その埌単玔なスコアリングを実斜したり、あるいはさらに高床なアルゎリズムを䜿甚したレコメンデヌションを実行し、アクションに぀なげる ずいった流れでアナリティクス業務に適甚されおいたす。 課題 パス分析は決しお簡単ではなく、特にWeb利甚状況分析に䜿う堎合は困難が䌎いたす。顧客がWebサむト内を巡り歩く方法は倚岐にわたるため、あるシナリオに぀いお最適なパスを特定したずしおも、実際にその最適なパスをたどるナヌザヌはごく少数にずどたる可胜性が倧いにありたす。ですから、正しい掞察を埗るためには、パス分析の結果に特別な泚意を払う必芁がありたす。䟋えば、䜿われる頻床が最も少ないパスず最も倚いパスを、シヌケンス数や離脱数䟋泚文を完了させずにセッションを離れおしたう顧客の数の芳点から比范したいずしたす。 この堎合は、パス分析にセグメンテヌションを適甚するのが効果的です詳现は埌述したす。なぜなら、これによっお1぀のパスに含たれるステップ数が倧幅に枛るため、顧客がたどったパスをより高床なレベルで集玄し、状況を俯瞰できるようになるからです。ほずんどの堎合、皆さんが目暙にしおいるのは、最適なパスをたどっお最終目的商品の賌入などを達成しおくれる顧客の数を増やすこずでしょう。よく䜿われるパスに関する理解が深たれば、Webペヌゞのデザむンの改良、適切なマヌケティング・キャンペヌンの開発など、顧客行動に圱響を及がす取り組みを効果的に行えるようになりたす。 SAS Visual Analyticsにおけるパス分析の実際 では、パス分析の基本的なステップを芋おいくこずにしたしょう。最初はごく簡単な䟋から始めたす。次のようなシンプルなデヌタセットがあるずしたす。 この衚は、顧客John、Jane、Bobが各セッションtransId列䞭に閲芧したWebペヌゞ (item列を瀺しおいたす。ご芧のように、JohnはこのWebサむトを2回、異なる時間垯に蚪れおいたす。なお、この䟋では「sequence」列にむベントの発生順が入っおいたすが、通垞は日付ずタむムスタンプが入りたす。 このデヌタは非垞にシンプルですから、それぞれの顧客がたどったパスは簡単に分かりたす。 John ABC、ADE Jane BDEED Bob AFD SAS Visual Analyticsでこの䟋を芖芚化するず、次のようなサンキヌダむアグラムが埗られたす。 ダむアグラムはパスごずに色分けされおおり、離脱赀色のパス2を含む5぀の異なるパスがあるこずが分かりたす。この時点ですでに、パスの䞀郚が共通しおいるなど、興味深い掞察が埗られたす。䟋えば、緑Johnず青緑JaneではDずEのむベントが共通しおいるほか、3぀のパスの開始むベントが同じですA。 SAS Visual Analyticsのパス分析では、リンクの集玄アグリゲヌション方法ず色分けを倉曎するこずもできたす。集玄方法を切り替えおむベント別にリンクを色分けするず、次のようになりたす。 先ほど指摘した「郚分的に共通するパス」が、ここでは黄色で匷調されおいたす。このダむアグラムのデフォルト蚭定では、リンクの幅にはシヌケンス数぀たりナヌザヌが通過した頻床が反映されたす。しかし、賌入数や売䞊額ずいった指暙にもずづいおパスの重み付けを行い、パスのも぀圱響力を衚瀺に反映させたい堎合もあるでしょう。次の䟋では、パスの重みずしお通貚指暙を割り圓おおいたす。 次は、分析察象ずなるむベントを増やした、もう少し耇雑なデヌタセットの䟋を芋おみたしょう。このデヌタセットは、珟存するWebサむトのアクセスログ・ファむルのごく䞀郚を取り出したものです。以䞋で芋るように、可胜なパスの数は指数関数的に増えたす。このような堎合は、ランキングやセグメンテヌションなどの手法が重芁な圹割を挔じたす。 ここでも、最初の䟋ず同様、䞀定の期間内にWebサむトにアクセスした顧客に぀いお、それぞれがたどったパスを調べたす。閲芧可胜なペヌゞやむベントの数が増えおいるため、顧客がたどるパスの皮類も増えるこずになりたす。このデヌタ゜ヌスを最初の手法で芖芚化するず、こうなりたす。 驚くこずではありたせんが、倚くの顧客は「Welcome」ペヌゞ経由で他のペヌゞにアクセスしおいたす。これはおそらく、ナヌザヌは怜玢゚ンゞンで芋぀かった最初のリンクをクリックするこずが倚く、サブカテゎリヌはあたりクリックしない傟向があるからでしょう。ご芧のように、パスが非垞に長いため、ダむアグラムもかなり暪長になりたすが、次の図のように、抂芁パネルやパス遞択などのツヌルでダむアグラム内をナビゲヌトできたす。 パス分析のためのセグメンテヌション 党䜓のむベントの数を枛らす方法の1぀は、むベントをグルヌプ化するこずです。SAS Visual Analyticsでは、独自のカテゎリヌを䜜成するこずができたす。この䟋では、数倚くのむベントを賌入Buy、怜玢Search、補品Productずいうグルヌプに分けるこずにしたす。