SAS Japan

活用事例からデータ分析のテクニックまで、SAS Japanが解き明かすアナリティクスの全て
SAS Events
小林 泉 0
SAS Global Forum 2016 開催報告②: Tech Connection SessionでSAS新製品をより詳しく知る

オープニングセッションの翌日4/19の朝からは、Ben Casnocha(シリコンバレーで活躍する企業家で著作家)のKeynote Sessionに続き、例年通り、Tech Connectionというセッションが実施され、SAS本社のR&D部門や製品管理部門による新製品紹介とデモンストレーションが行われました。 このセッションでは、実際の企業・組織でよくみかけるシナリオとジレンマを例にとり、SAS Viyaがどのように役に立つのかを紹介しました。データ・サイエンティストでも、統計家でも、あるいはITアナリストでも、ビジネスアナリストでも、そして作業担当者であっても、管理者であっても、それぞれの立場・役割の方に、SAS Viyaが価値をもたらしてくれることをご理解いただけると思います。 SAS® Cloud Analytics Webブラウザからアナリティクス・アプリケーションにアクセスして、予測モデルをすぐに作成することが可能 「組み込みアナリティクス」として、どのような言語からでもSASのAPIにアクセスして既存のビジネス・アプリケーションやビジネス・プロセスに組み込むことができる セットアップ不要なため、S/Wのインストールやクラスターの準備をする必要はない。ユーザーは、セキュアなクラウドベースの環境で、分析をし結果を保存することができる 当日のデモンストレーション:   SAS® Visual Analytics SAS Viyaに対応したSAS Visual Analytics最新バージョン データ探索機能(Visual Analytics Explorer)、レポート作成機能(Visual Analytics Designer)、予測モデリング機能(Visual Statistics)が、完全に統合され単一インターフェースになることにより、すべてをシームレスに利用することが可能 ユーザーインターフェースは、HTML5で作り直された 当日のデモンストレーション: SAS® Customer Intelligence 360 "役割に応じた"アナリティクス Software as a Serviceクラウド型 オムニチャネル:包括的なカスタマーインテリジェンスHub 当日のデモンストレーション: SAS® Visual Investigator 脅威の検出は今や自動化することが可能。ウェブサイトやソーシャルメディア、様々なデータベースから情報を収集し、それぞれ異なるデータソース間の関連性を見つけ出す アナリストが、効率的で効果的な調査活動を行うことが可能 不正検知、公共のセキュリティなど様々な課題に応じた利用が可能 当日のデモンストレーション:   SAS®

Customer Intelligence | Internet of Things | SAS Events
小林 泉 0
SAS Global Forum 2016 開催報告①: Opening Sessionで革新的な新アーキテクチャを発表

また、SAS Global Forumの季節が巡ってきました。このBlogの最初のエントリーは、昨年2015年のSAS Global Forumのご紹介でしたので、Blog開始から早一年がたったということです。いつもご愛読ありがとうございます。このBlogを楽しんでいただいている方々もいらっしゃるようで、嬉しく思います。今年も何回かに分けて、このSAS Global Forum 2016の模様をご紹介をしたいと思います。 今年は、米国ラスベガスで現地時間の4/18-4/21に実施されました。約5,000人のユーザー様やパートナー様が集まる一大イベントです。4/18夜のオープニングセッションに先駆けて、メディア向けの説明会も行われました。 メディア向け説明会が行われたのは、SAS本社 世界の働きたい会社ベスト10に入るSAS、プライベートカンパニーだからこそできる環境づくり(EnterpriseZine) サッカー場やプール、保育所も完備のSAS本社に潜入--プライベートジェットも(ZDNet Japan) SAS® Viya™ - 今年のイベントにおける最大のニュース 去る2016/4/18に行われたSAS Global Forum 2016のオープニングセッションでは、いくつかの革新的なテクノロジーの発表が行われました。例年と少し進行が異なり、オープニングセッションの後半でSASのCEOである、Jim GoodnightからSASの新しいアーキテクチャについての発表があり、会場がどよめきました。 プレスリリース:SAS、「SAS® Viya™」を発表:オープンでクラウド対応したハイパフォーマンス・アナリティクスとビジュアライゼーションのための次世代アーキテクチャ   Jim Goodnightから、アナリティクスをさらに使いやすくし、すべての人が利用しやすいように大きく進化した、SAS Viyaという新しいアーキテクチャの発表を行いました。また、すでに顧客の多くが使用しているSAS9環境と組み合わせてこのSAS Viyaを利用することも可能であるとも話しました。 続けて、SAS Viyaの開発をリードしてきた、Analytic Server Research and DevelopmentのVice Presidentである、Oliver Schabenbergerからこの新しいクラウドベースのアナリティクス&データマネージメントアーキテクチャの概要について説明がありました。 Schabenberger 曰く、 『SASのお客様のアナリティクスへの取り組みや活用方法は様々で、スモールデータからビッグデータ、簡単なアナリティクスから難しい機械学習課題の解決まで非常に多岐に渡ります。ストリーミングデータや蓄積したビッグデータ、構造化データや非構造化データの利用、さらには、個人での利用から数百ユーザーの同時接続利用、クラウドであったりオンプレミスであったり、利用者は、データサイエンティストであったり、ビジネスユーザーであったりなど、様々です。』 『そこで、SASは、データサイエンティストかビジネスアナリストかに関わらず、全ての人が利用することのできる、最新の統合アナリティクス環境を開発しました。SAS Viyaの優れているところは、統合され、オープンな、簡単だが非常にパワフルであり、クラウド環境に適しており、マルチ・クラウドアーキテクチャである点です。』 メディア各社の記事もご参照ください。 アナリティクス一筋40年、SASから生まれた新たなプラットフォームの「Viya」とは(EnterpriseZine) ビジネスアナリティクス、機械学習の進化とSASの新アーキテクチャ(@IT)   SAS Viyaについては、今後もこのblog上でも継続的に情報をご提供していきます。 SAS Customer

Analytics
小林 泉 0
機械学習の活用におけるベストプラクティス「アナリティクス・ライフサイクル」

反省&改善プラン中 SAS JapanのWebサイトにある「機械学習」特集ページは、サーチ・エンジンやバナー広告などから日々、多くの方々にご覧いただいています。昨年後半からは爆発的に訪問者数が増えており、機械学習への関心の高まりを感じている一方で、弊社としては実はこのページは改善が必要と考えています。なぜなら、機械学習の特徴だけが書かれていて、それをどのように利用すれば皆様のビジネス課題を解決できるか、という次のステップをご案内していないからです。これまで、アナリティクスの世界に携わってきた方にとっては、最近バズワード的に使用され始めた感のある「機械学習」というキーワードの特徴が書かれているこのページを見ることで、「なんだざっくりえば、いつも使用している予測モデルのことか」とすっきりしますが、昨今のビッグデータや機械学習ブームで機械学習について突然学ぶ必要が生じた方々にとっては、あまり役立たなかったのではないかと反省中です。 昨今の機械学習ブームは、これからデータを活用してビジネスに役立てようとしている方には実は情報が不足していると感じています。新しいテクノロジーをどのようなプロセスで活用すれば良いのかという指南が不足しています。これは、それを以前から知っていたのに周知できていなかった弊社の努力不足でもあります。 今回は、少し長くなりますが、SASとしては、企業の経営課題をアナリティクスで解決するという視点から機械学習を活用するためのビジネスプロセスについての話をします。簡単に機械学習、予測、アナリティクスを定義した上で、一番大事な活用するためのビジネスプロセスについて、全貌を一気にご紹介します。 機械学習とは 機械学習についての一般的な見解については、また別途詳しくお伝えしたいと思います。ここでは簡単に統計解析、データマイニング、機械学習の違いから、機械学習を理解していただきます。何事も対象を理解するためには、対象そのものを詳細に記述するよりは、他と比較するほうが理解しやすいためです。   統計解析 標本データ(一部のサンプリングデータ)から母集団を推定することを主目的として使用される。限られたデータから世の中を理解したりモデル化するとも言える。 データマイニング 「鉱山から金塊を見つける」という直接的の意味のように、大量データから意味のあるパターンを発見することを目的とする。データからパターンを見出すため、後述の機械学習の学習フェーズそのものと重なるところが多い。 機械学習 既知のデータ、すなわち過去のデータからパターンを見出し、それを将来を予測することを目的に使用する。その目的から、従来は「予測モデル」という言葉で表されることが多かった。 実は、これらは使用している数学的な手法やアルゴリズムはほとんど同じです。もちろん各目的に対して適不適はありますが、まずは、総じて目的が異なるだけだと理解してください。例えば、伝統的な統計解析の手法を工夫しながらビッグデータに適用し予測モデルとして活用するケースもありますし、SASではデータマイニングの結果、使用したアルゴリズムと学習の結果をそのまま、予測モデルとして使用することが可能となります。また、コンピューターの性能向上に伴って脚光をあびるようになった手法もあります。 世の中を理解するためにデータを使用するところから、一歩進んで、その理解に基づいて、次に何が起こりそうなのかを予測し、ビジネスにおいて次に何をすべきかを決定していくといった使い方に変わってきたのです。昨今、機械学習アルゴリズムは多数ありますが、市民データサイエンティスト(Gartner 2015)の方は、その細かいアルゴリズムを理解するところからスタートするのではなく、何のために使用するのかをというビジネス上の目的からスタートすることを推奨します。細かいところは歴史的な流れと共に理解しないと本質がわからないこともあり、いきなり機械学習アルゴリズムの理解からスタートする方法は、学習方法としては非効率です。 アナリティクスにおける予測とは データを活用して統計解析やデータマイニング、機械学習といった手段を用いながら、ビジネスにおいてよりよい意思決定をする、言い換えれば、よりよいアクションを実施することをアナリティクスと言います。アナリティクスはその語源をたどると、不確実性を伴う将来に対して勇気を持って踏み出すと意味があります。データに基づいて意思決定をするということは不確実性、すなわち、確率にもとづいて行動することです。予測結果はどこまでいっても確率的にしか表されませんが、「より起こりやすい」ことを見出すことが可能です。これがよりよい意思決定につながります。 「より起こりやすい」ということを、すでにアナリティクスを実践している人々は、「予測精度が高い」と表現したりします。予測精度をあげることで、売り上げ向上やコスト削減の期待効果が大きくなります。それをわかりやすく表現すると、「予測精度を上げることで売り上げが向上する」となるわけです。将来は、(預言者でないかぎり)確率的にしか予測できないので、あえて表現していませんが、「予測」の裏には確率的な要素が常に含まれています。 チャーン分析やキャンペーンの反応率の分析などでは、ある顧客が解約しそうな・反応しそうな確率を算出するので、確率という考え方が理解しやすいと思います。このタイプを英語ではPredictionと言います。将来のある時点の状態を予測するタイプです。一方で、Forecastingというタイプがあり将来の一定期間の数や量を予測するタイプのものです。そのひとつ、需要予測の値も実は確率的な予測です。需要予測の場合には、予測値そのものの絶対値が注目されがちですが、その予測値がどの程度の確率の幅におさまるかを算出し、その確率の幅すなわち、リスクに対してどのように対処するかどうかが、本当はポイントになります。製品やサービスの特性に応じて、リードタイムを小さくしたり、あるいは確率の幅に応じた安全在庫を持ち、欠品率という顧客サービスレベルのコントロールに役立てます。需要予測のポイントは、予測値の絶対値をピタッと当てることではなく、この確率の幅を定量的に管理することだと言っても過言ではありません。在庫や輸送コストと顧客満足度とのトレードオフを扱う最適化問題でもあります。 企業が利用できるリソースには限りがあります。したがって、この確率の幅が無限大では意味がありません。つまり、100%的中する「0以上」という予測結果には意味がありません。制約のあるリソースで、効果を最大化する必要があります。したがって、この確率の幅を出来るだけ狭めることが重要になります。さらには、その作業にかける時間はすなわち意思決定の時間になりますので、予測結果を出すまでの時間が長ければ意思決定が遅れることになります。 「予測」というと、日本ではまだまだ十分に理解・活用されていないと感じます。市場動向の予測や売り上げ予測といった「参考資料」のようなものとしか位置づけていない定義も多く、それでは正しく理解していないだけでなく、価値をほとんど享受できていません。アナリティクスにおいては、予測結果は単なる「参考資料」ではなく、その予測結果に基づいて直接的に意思決定を行うためのものであるということがポイントです。「次にこういうアクションをするとこういう結果が得られるだろう」という将来の見込みを確率的に定量的に算出することがアナリティクスにおける「予測」です。アナリティクスで競争優位に立っている企業では、予測モデルに基づいたアクションの方が、従来の経験と勘に基づいていたときよりも、スピード・精度ともに勝っていることを証明しています。言い換えると、人の意思決定を自動化しています。自動化というと機械やシステムのみに適用されがちですが、例えば自動発注システムも、本来は人が発注数を決めるという人の意思決定を自動化しているように、日々の人のビジネス上の意思決定を自動化するという感覚がアナリティクスでは重要です。 実際には、コールセンターで人間が画面を見て予測結果に基づいて対応している例もあれば、オンラインストアのレコメンデーションや広告配信システムの様にシステムに予測モデルが組み込まれ、すなわち業務プロセスに組み込まれて意思決定が自動化されているケースもあります。 アナリティクス・ライフサイクル(簡潔版) SASでは、40年間アナリティクスで世界中の企業を支援してきました。その中で出来上がったベストプラクティスの一つに、「アナリティクス・ライフサイクル」というものがあります。これは、企業組織が機械学習すなわち予測分析を用いてアナリティクスを実践する、すなわち、データを活用してよりよい意思決定をすることで競争優位性を身につけるために実践すべきプロセスです。SAS主催イベント「ビッグデータ活用の新しいカタチ」(2015年12月8日開催)のデモンストレーションで紹介したサイクルは以下のようなものです。   このときには、簡潔性を重視したため、4つのプロセスだけで構成されています。 データマネージメント 必要なデータを収集・統合して必要な品質・形に変換する。昨今では、このプロセスをデータ・キュレーションと称することもあるようです。ご存知のとおり、全体のプロセスのうち約80%がこのプロセスに費やされていると言われています。下記のブログもご参照ください。 ブログ:アナリティクスの効果を最大化するデータマネージメント勘所 データの探索とビジュアライゼーション データの基本性質を確認したり、パターンや関連性などを見出し洞察を得る。近年、セルフサービスBIツールによるデータ探索が流行しています。操作性ばかりが注目されがちですが、実は、主観や仮説に基づく探索作業は網羅的ではないため、真の傾向や真の問題点の発見には方法としては十分ではありません。そういった主観に依存した視点の偏りを防ぎ網羅的な探索をするためには、統計的・数学的手法やデータマイニング手法が活躍します。以下のブログでは紹介していませんが、SASの探索・ビジュアライゼーションツールに統計解析やデータマイニング手法が含まれているのは、まさにそのためです。 ブログ:グラフ理論入門:ソーシャル・ネットワークの分析例 ブログ:SAS Visual Analyticsによるパス分析 分析と予測モデル開発 データマイニングや機械学習アルゴリズムを使用して、将来を確率的に予測する「モデル」を作成する。過去のデータを使用してパターン化(学習)するところは様々な数学的アルゴリズムが使用できますが、ソフトウェアがやってくれます。昨今は進化したソフトウェアでより簡単に精度の高いモデル開発が可能となっています。 ブログ:アナリティクスの産業革命-機械学習による自動化 業務への組み込み 作成した予測モデルを使用して意思決定、すなわちアクションを実践する。例えば、顧客スコアを算出しキャンペーンを実施したり、コールセンターでの応対を変えたり、レコメンデーションに役立てたり、不正な金融取引を検出したり、設備の異常を検知するなどの、意思決定プロセスに活用します。 このプロセスを素早くまわすこと、それは意思決定のスピードに直結することを意味します。また、データを適切に準備し、全件データを使って精緻な予測モデリングをすることで、精度の高い予測モデルを作ることができ、それはすなわちよりよい意思決定を意味します。スピードが増せばその分PDCAサイクルがたくさん回ることになるので、それは結果の質の向上につながります。したがって、アナリティクスのためのIT環境をアセスメントする際には、ビジネス上の価値の視点から、まず、このサイクルが効率的に・高速にまわせるかどうかということが評価の基準になります。 アナリティクス・ライフサイクル(詳細版) 実はアナリティクス初心者には前述の簡易版は適切ではありません。重要なプロセスが暗黙的になっているからです。弊社のアナリティクス・ライフサイクル、完全バージョンは以下のようになります。   今回取り上げたい重要なポイントは、 課題定義 まず最初にすべきことはデータ分析・予測モデルの活用で解決したいビジネス上の課題定義 精度評価・モニタリング

Artificial Intelligence | Programming Tips
小林 泉 0
機械はあなたの娯楽までをも奪うのか?

さて、今回ご紹介する例は、最近議論が活発な、「機械(コンピューター)が人間の作業を奪う(?)」お話です。 機械は人間から仕事(今回の例では、仕事ではなく娯楽と言ったほうが近いかもしれません)を奪ったことになるのでしょうか?それとも、真の楽しみを味わえるように、単に単純労働から開放してくれただけなのでしょうか? 昨今、人工知能がもたらす変化という文脈で行われている議論ですが、今回は、昔からある最適化アルゴリズムで、人間の仕事を奪います。皆さんでその意味を考えてみてください。 イギリスの諜報機関GCHQがクリスマスメッセージとして送った難解なパズルが公開されており、優秀な人たちを楽しませています。その第一問が、以下の「お絵かきロジック」です。日本でも一時期流行しました。イラストロジックなどとも言われ、私自身もトライした記憶があります。   このパズルそのものについては、他の情報源に頼って欲しいのですが、簡単に説明すると、それぞれのセルを黒か白で塗りつぶすパズルで、行と列に書かれている数字は、黒マスが連続している数を順番どおりに示している「手がかり」です。いくつかのセルはすでに黒く塗りつぶされていますが、それらはこのパズルの答えを一つに確定するために必要です。 一部の箇所は、それぞれの行や列の情報だけを見て解くことが可能です。例えば、7番目の行を見てみましょう。手がかりは、(7 1 1 1 1 1 7)です。すなわち、全部で 7 + 1 + 1 + 1 + 1 + 1 + 7 = 19 個の黒いセルが必要となり、最低ひとマスは間隔が空いていないといけないので、7個の固まりの間の個数を考慮すると、7-1=6 個の白マスが必要となります。この二つの数字を足すと、19 + 6 = 25 となり一行の列数とおなじ数にちょうどなります。したがって、この結果から直ちにこの行の全てがあきらかになります。 黒7, 白1, 黒1, 白1, ・・・ ついてきていますよね。 しかし、そうは簡単にいかない箇所のほうが多いでしょう。その場合には、手がかりから部分的にしか黒く塗りつぶせないことになります。例えば、一行目を見てください。ヒントから(7 + 3 + 1 + 1 + 7) + (5

1 50 51 52 53 54