Japanese

Learn SAS | Students & Educators
【冬休みに勉強しよう】アナリティクスの学習(1) Skill Builder for Students

学生の皆さんは今日から冬休みでしょうか。「卒論でそれどころじゃないよ!」という方もいるかもしれませんが、この期間に「何か新しい勉強を始めてみようかな」と思われる方も多いのではないでしょうか。 データサイエンティストが「21世紀で最もセクシーな仕事」と言われてから10年近くが経とうとしています。しかし、社会におけるデータの活用はまだまだ発展途上であり、そのための人材は依然として高い需要があります。「データサイエンティスト」はそのなかでも、多くの高度な知識と技能を持った人材ですが、デジタル・トランスフォーメーション(DX)と呼ばれる業務改革が進む中、高度人材だけでなく、より広範囲の人たちがデータを活用した仕事に従事することが求められています。数理科学とテクノロジーを駆使するデータサイエンティストでなくても、アナリティクスに関わり、自分なりの知識とスキルを発揮することができます。 SAS Skill Builder for Students は、SASソフトウェアと統計解析・機械学習を中心に、「データリテラシー」や「ビジュアライゼーション」といったより基礎的なの知識やスキルを無料で学習できます。また、認定資格取得の案内や、アナリティクスを活用したキャリアについての情報も提供しており、アナリティクスの初学者からデータサイエンティストのキャリアを構築しようとする学生まで、多くの方に活用いただけます。この機会にぜひ登録してください。 登録方法は次の4ステップ SAS Skill Builder for Students にアクセス SASプロファイルをお持ちでない学生は「SAS プロファイルを新規に登録」から登録 ※ 登録するメールアドレスは大学ドメイン(.ac.jpなど)のものを入力してください。 登録したSASプロファイルのメールアドレスを SAS Skill Builder for Students のログイン画面で入力 My Trainingの画面でLicense Agreementを読み、同意のチェックボックスにチェックを入れて「Submit」 登録・ログインに成功するとこちらのようなホーム画面が表示されます。 「Learn SAS」「Get SAS Certified」「Career Resources」のタブがあり、それぞれe-Learningによる学習、認定資格の案内、キャリア構築のためのリソースが提供されています。 ここでは「ビジュアライゼーション」のe-Learningをご紹介します。SAS Visual AnalyticsというGUI操作による可視化ツールを利用して、データから示唆を得る方法を学習するトレーニングです。数学やプログラミングが苦手な方でも学習できます。 「Learn SAS」タブ→「Start Learning」→「Visual Analytics and Visual Statistics」→「SAS Visual Analytics 1 for SAS

Analytics | Data for Good
0
パブリックデータを使った子宮頸がんを取り巻く日本の状況の可視化

2021年11月、国が一時停止している子宮頸がんを防ぐHPV(ヒトパピローマウイルス)ワクチンの積極的な接種の勧奨の再開が厚生労働省の専門家による検討部会によって正式に承認されました。このHPVワクチンは世界保健機関(WHO)がその接種を推進しており、日本をはじめとして多くの先進国では公的接種とされています。この記事はData for Good活動の一環として、パブリックデータを用いて問題を可視化することで、子宮頸がんに対する認知や関心をより持っていただき、今後のHPVワクチンの普及につなげることを目的としています。   子宮頸がん 子宮頸がんのほとんどはヒトパピローマウイルス(HPV)というウイルスの感染が原因となり子宮の頸部に発生するがんの一種です。感染の経路は主に性的接触によるものであり、成人女性の大部分はHPVに感染するとされています。HPVに感染してもその多くは自然に消失しますが、一部は頸部の細胞が異常な変化を起こした子宮頸部異形成というがんの前段階(前がん病変)になります。そしてさらにその一部が数年から10年ほどで悪性腫瘍へと進展し、子宮頸がんを発症します。この子宮頸部異形成(前がん病変)の早期段階では自覚症状はほぼなく、病変を発見するためには子宮頸がん検診を受けることが必要ですが、自覚症状があまりないために検診を受けた段階で既に進行がかなり進んでしまっているケースもあります。 国立がん研究センターがん情報サービスは国立がん研究センターが運営している公式サイトであり、日本国内のがんに関する統計情報ががん種別に公開されています。今回はその統計情報の中から、子宮頸がんに該当するデータ(がん種:子宮頸部)を抜き出し、無料で利用可能なSAS OnDemand for Academicsを利用して可視化を行いました。日本での死亡者数は2019年度時点で年間約3,000名、罹患者数は2018年時点で約11,000名ほどとなっており、下図のように増加の一途をたどっています。 出典:国立がん研究センターがん情報サービス「がん統計」(人口動態統計) より作成 ま子宮頸がんの罹患者数は2009年~2018年(最新)まで10年連続で1万人を超えており、罹患者数は30歳頃から増え始め現在は45-49歳が最も罹患が多い年代層となっています。また罹患する年齢層が若年化していることも危険視されています。子宮頸がんに対して我々ができることは以下の二つです。 子宮頸がん検診を受けること(発見) HPVワクチンを接種すること(予防) 私たちにとって重要なことは、2年に1度の受診が推奨されている子宮頸がん検診によって異形成(前がん病変)を早期に発見すること。そして検診と同様に重要ことが、HPVワクチンを接種し対応するHPVの感染を防ぎ、子宮頸がんとなるリスクを下げることです。   HPVワクチン 子宮頸がんの原因となるHPV(ヒトパピローマウイルス)は現在100種類以上の存在が知られており、そのうちのいくつかは子宮頸がんを引き起こしやすいハイリスク型に分類されます。HPVワクチンにも様々なタイプがありますが、日本では定期接種の対象となっているのは2価(サーバリックス)と4価(ガーダシル)のワクチンで、接種することでおおよそ50~70%程の感染を防ぎ子宮頸がんになるリスクを減らすことが可能です。また2021年2月24日からは9価ワクチンも日本での取り扱いが開始されましたが定期接種の対象ではないため自費での接種となっています。     「接種の積極的な勧奨」について HPVワクチンは下図のようにいくつかの事業、法案の後押しもあり、その対象となる年齢の女性へ接種の積極的な勧奨が行われていました。しかし公費での定期接種開始後に副反応の報告が相次ぎ、副反応と接種との因果関係や、その頻度、海外での詳しい実態調査が必要とされ、厚生労働省は約半年間をめどに「接種の積極的な勧奨」の一時中止という決定を2013年6月に下しました。当初は半年間がめどとされていたものの、一時停止はその後も続き、ワクチンの有効性が様々な研究により示され2021年11月に接種の積極的な勧奨の再開が正式に決定されるまで約8年の月日がかかりました。 専門家らの研究結果によると、接種の積極的な勧奨が一時停止されるまではおおよそ70%であった定期接種の対象年齢での接種率もこの一時停止により現在は1%未満にまで落ち込んでしまっています。論文のデータをもとに出生年ごとのワクチン接種率を可視化したものが下図です。 Nakagawa S, Ueda Y, Yagi A, Ikeda S, Hiramatsu K, Kimura T. Corrected human papillomavirus vaccination rates for each birth fiscal year in Japan. Cancer Sci. 2020;111(6):2156-2162. doi:10.1111/cas.14406 より作成

Analytics | SAS Events | Students & Educators
0
SAS Global Forum2021で世界を覗こう

SAS Global Forumオンデマンド配信の紹介  SAS Global Forumは、年に一度開催される世界最大級のアナリティクス・カンファレンスです。南北アメリカ、アジア太平洋地域、EMEAの3つの地域ごとにイベントは分かれており、アジア太平洋地域は5/19(水)~5/20(木)に開催されました。イベントの内容は2021年6月25日(金)までこちらより、オンデマンドで視聴可能です。  Forumでは、様々な分野のトップ企業、スピーカーの刺激的な講演を聞くだけでなく、トレーニングや技術セッションといった学習機会も提供されます。また優れたデータアナリティクスの成績・教育が認められた学生や教育者に対しては表彰が行われました。ここでは一人の受賞者のセッションを紹介します。 Do Americans trust scientific experts?  このセッションはタイトルにもあるように、医者・環境学者・栄養士など“科学に関連する専門家”に対するアメリカ人の不信について取り扱っています。この話題は幅広く活用が期待でき、多くの人々に関連する事柄であるという背景があり、今回の講演のテーマとして設定されています。  使用されたデータは、科学者に対する人々の全体的な意見や個人の科学にまつわる知識などを調査して収集されています。収集したデータを用いて、記述統計による考察やディシジョンツリーをはじめとしたモデルによる分類の結果から、次のようなフィードバックを共有しています。 各専門家に対する肯定的/否定的な意見の割合は、医者が最も肯定的な割合が高く、その中でも人々と対面する機会が多い開業医に対する肯定的な意見が多い。 人々の政治的傾向に基づいて専門家への信頼度に差が出ている 科学知識が前提にある人の方が専門家への信頼を示している  スピーカーはこの結果をもとに、ワクチン接種の促進が可能になるのではないかという活用例を話しています。それは市民に専門への信頼に関する質問に答えてもらい、信頼の低い地域の人々に対してワクチン情報について教育・説得することでワクチン接種を増やすという仕組みです。  またスピーカーは私たちと同じ大学の学生で、コロナ禍に抱える問題も絡ませたセッションになっており、私たちにとても身近な内容になっています。  繰り返しになりますが、SAS Global Forum2021はより優れたキャリアにつなげる大きなチャンスであり、各セッションの様子はオンデマンドで視聴可能です。ぜひ自らの成長のために登録、ご覧ください。

Analytics | Data for Good | Work & Life at SAS
0
米国ノースカロライナ州から学ぶ行政におけるデジタルフォーメーション

◆ はじめに 行政のデジタルトランスフォーメーション(以下DX)は、デジタル化が進み、非対面でのコミュニケーションが日常化するなど、従来の生活形態が変化するにつれて、政府や行政も市民サービスの変革をする必要性が高まっています。その動きとして日本でもデジタル庁を新たに設置し、データ管理やITシステムなどを総括することになります。しかし行政のDXは、システムのデジタル化による行政手続きの効率化だけに焦点が当たり、大規模なシステムを構築しがちですが、本来行政のDXとは、データとそのデータを分析した結果得られた洞察によって、より良い市民サービスにつなげることから考えることが必要だと考えます。本稿では、SAS社の本社がある米国ノースカロライナ州(以下NC州)で行われている行政のDX事例について紹介します。NC州では、データ分析を活用して、様々な政策やサービスを新たに開発し、市民サービスに新たな価値を提供しています。この事例を通して、行政のDX成功のためのポイントについて見ていきたいと思います。   ◆ 行政におけるDXのポイント ポイント1.小さいことから始めよう 行政のDXで一足飛びに100%満足できる成果まで至る事例はあまりありません。また、すべてが理想的に準備されるまで待つ必要もありません。NC州は2007年からGDAC(Government Data Analytics Center)と呼ばれるデータの管理や分析を行う部署の運営を始めました。最初から大きなプロジェクトを行ったわけではなく、まずは各機関米国ノースカロライナ州から学ぶ行政におけるデジタルフォーメーションのデータを収集し、データ管理とモニタリングから始めました。初めの3年間は、データ基盤を構築し、大きなプロジェクトに最初に取り組んだのは2010年の犯罪分野です。GDACはSAS社と共同で「CJLEADS」というプロジェクトを開始しました。CJLEADS(Criminal Justice Law Enforcement Automated Data Services)は、犯罪データの統合管理のシステムです。CJLEADS導入前は、様々な機関のシステムやプロセスを経由して犯罪記録を閲覧したり、更新したりしましたが、現在では各機関がCJLEADSを介して犯罪歴を統合的に管理しています。これにより、NC州は、年間1,200万ドルを節約することができ、犯罪データの紛失や欠落を防ぎ、より安全な社会を作ることができました。その後、犯罪分野だけでなく、様々なプロジェクトに取り組み、行政のDXを進めています。これらのシステムやプロジェクトを最初から完全に構築することは簡単ではありません。NC州のCJLEADSも、最初はデータの収集、統合したデータを活用したレポーティングやモニタリング、そして複雑な課題解決、とステップを踏んでいます。このように、ビジョンは大きく掲げつつ、小さな成果を重ねて発展させることがポイントではないでしょうか。   ポイント2.現場にいるビジネス専門家の協力を得る 行政のDXの目的は、市民サービスの向上です。どうすればデジタル技術を活用したより良いサービスが生まれるのでしょうか。ここでは、例えば、一般的な自然災害である「洪水」を例として挙げてみましょう。世界的に洪水は年間数千万人の命を奪い、経済的な損失も大きくなります。それに対し、NC州は高度なデータ分析力とIT技術力を持つ企業との業務提携を通じて洪水問題を解決しています。 図1.SASとMicrosoftは様々な分野で顧客の課題を解決するために2020年6月に戦略パートナーシップを締結 NC州では、SAS社のデータ分析技術とMicrosoft社のIT技術を用いて洪水による災害を予測し、地域社会に知らせるシステムを構築しました。気象データ、橋の水位、降雨量など、様々な指標をはかり、IoTと機械学習を活用し、洪水による災害を予測・警告する仕組みを構築しました。この取り組みは、2020年11月には米国で毎年行われる政府革新賞(Government Innovation Award)で、公共部門の革新事業賞を受賞しました。NC州の洪水予防システムは企業との協力で公共データを活用し、市民の安全を確立することができたと評価されています。 図2.米国ノースカロライナ州とSASが共同で行ったDX事例 図2にはNC州とSAS社が協力して行った行政での様々な分野のDX事例の一部を記載しています。状況別、時期別、プロジェクト別など多様な課題が存在する行政のDXでは、当該課題を解決できる能力を備えた民間機関や民間企業などの経験と技術が貢献できるのではないでしょうか。   ポイント3.本来の目的に集中する 上記のポイントを成功させるためには、最終的にすべての参加者が「より良い市民サービスの提供」というDXの本来の目的を常に意識する必要があります。行政のデジタル化では、「オンライン行政サービス」、「電子政府の設置」などのシステム化対応に追われ、DXが本来生み出せるはずの「市民サービスの革新的な向上」という目的を見失いがちです。今回例に挙げたNC州ではDXの取り組みそのものを継続的に推進し、市民中心のサービスを提供するためにデジタルガバナンスを構築しました。そのガバナンスの透明性を高めるために毎年「We Are NC Gov」というカンファレンスを開催し、現在のDXの状況や今後の計画について議論しています。また、一般向けに州のDXの取り組みについて理解してもらえるよう、YouTubeへ説明動画をアップロードしています。外部からフィードバックをもらうことで、さらにより良い市民サービスの提供を目指しています。デジタル技術は、それ自体で意味のあるものではなく、その技術を活用して、市民サービスの革新を創出することではないでしょうか。 図3.NC州の情報技術部が2020年6月、YouTubeに公開した動画の一部を日本語に翻訳。GADCのデータ解析センター長が部門の事業について発表した。 ◆ おわりに 米国NC州とSAS社が共同で取り組んでいる行政のDX事例を通じて、行政におけるDXの成功のポイントについて考察してきました。ご紹介した3つのポイントが、革新的な市民サービスの向上へと向かうための一つの道標となるのではないでしょうか。日本におきましても、SASは戦略パートナーシップに基づいてMicrosoft社とスマートシティを推進して参りますので、詳細情報をご希望の方は是非ご相談ください。*お問い合わせ先: JPNSASInfo@sas.com  

Analytics
SAS Japan 0
OSSによる時系列予測をSASで強化・拡張する(3/3)

この記事はSAS Institute Japanが翻訳および編集したもので、もともとはMike Gillilandによって執筆されました。オリジナルはこちらです(英語)。 またこれは、ゲストブロガーのジェシカ・カーティス(Jessica Curtis)とアンドレア・ムーア(Andrea Moore)による3部構成記事の第3部です(未読の方はこちら:第1部、第2部)。 SASがそれを実現する方法 オープンソースの時系列予測モデルをSAS Visual Forecastingに統合する方法には2つのメインステップがあり、どちらのステップもオープンソース・モデルのメリットと利用価値を増大させます。 基礎:オープンソース予測モデルをプログラム的実行で拡張する 資産の共有:オープンソース予測モデルをカスタム・モデリング・ノードとして利用する ステップ1 - 基礎:オープンソース予測モデルをプログラム的実行で拡張する オープンソースの時系列予測モデルをSASに統合するための基礎は、コードベースのアプローチを通じてプロセスを(手作業ではなく)プログラム的に実行することです。あなたは既にTSMODELプロシジャとEXTLANGパッケージのパワーについてお読みです。 TSMODELプロシジャ内部には、オープンソース・モデルを実行するためのオプションがいくつもあります。まず、自社/自組織のオープンソース戦略を加速および業務運用化するためのインフラとしてSASを活用し、オープンソース・モデルだけを実行することができます。また、これをもう一歩進め、オープンソース・モデルをSASのモデルと一緒に実行することができます。この場合、SASは時系列レベルでSASとオープンソースにまたがって最適なモデルを自動的に選択します。さらに、SASおよびオープンソースのモデルを組み合わせることも可能であり、この場合は、SASとオープンソースの組み合わせが個々の時系列に最適かどうかをSASが判断することになります。このアプローチにより、オープンソース・モデルの構築に投じてきた全ての努力を活かしながら、SASのアルゴリズム群も追加で取り込むことで、両方の世界の “いいとこ取り” を実現できるようになります。どのモデリング手法が最適かをあなたが事前に知る必要はなく、SASがあなたのためにその力仕事を代行します。SASは個々の時系列に関して、オープンソースとSASのどちらのモデルを選ぶべきか、あるいは両方を組み合わせるべきかを判断します。選択の機会が無限にある取り組みにおいて、これでその選択機会が一つ減ったことになります(お分かりですよね? あなたの時間は既に節約されつつあります!)。 図2は、TSMODELプロシジャとEXTLANGパッケージの実際の様子を示しています。これは、R言語のauto.arima関数をSASで実行している例です。EXTLANGパッケージを使うと、オープンソース・コードを読み込む方法の柔軟性が高まります。SASの内部で(図2のように)明示的にオープンソース・コードを記述することも、あるいは、指定したファイルからオープンソース・コードを読み込むこともできます。 この基礎のステップにより、オープンソースおよびSASの時系列予測モデルがともにプログラム的に実行されるようになります。予測結果は、幅広いビジネスユーザー層による利用のために、川下側の計画システムや実行システムへと簡単な方法で供給することができます。また、この基礎となるプログラム的アプローチを土台として、追加のメリットを得ることも可能です。具体的には「SAS Visual Forecastingのユーザー・インターフェイスの内部で、TSMODELのコードを取り出し、それをカスタム・モデリング・ノードの中へラッピングする」という方法を使います。 ステップ2 - 資産の共有:オープンソース予測モデルをカスタム・モデリング・ノードとして利用する SAS Visual Forecasting のグラフィカルなユーザ・インターフェースは「様々なカスタムノードを作成し、それらをモデル・パイプライン内での利用のためにExchangeにロードできる機能」により、コラボレーションを強化します。カスタムノードはEXTLANGの機能を活用して、あらゆるR/Python予測モデルを実行することができます。様々な技法を使いたい場合には、多数のカスタムノードを作成することができます。その手間をかける見返りは多重的です。これらのノードは、どのような時系列予測プロジェクトにも適用可能であり、また、コラボレーションを強化するためにチーム内で共有することも可能です。いったん作成すれば、様々なパイプラインの中で、あるいは様々なデータ入力に対しても再利用することができます。図3をご覧ください。 作成したカスタム・モデリング・ノードは、あらゆるパイプラインに追加することができ、パイプライン内でSASの予測技法と独自のオープンソース・ノード(群)を組み合わせたり競わせたりすることができます。あなたのパイプラインが「複数のオープンソース/SASアルゴリズムによるトーナメント」を実行すると、SASはあなたの仕様指定にベストフィットするモデルを特定するための評価を実行します。モデル比較ノードを使うと、「複数のオープンソース/SAS技法を管理しながら、最良のモデリング戦略を評価するためにそれらを比較する作業」のための、迅速で透明性の高い方法が実現します。図4をご覧ください。 SAS Visual Forecasting のグラフィカルなユーザ・インターフェースを使うことで、「ワークロードの分散処理」や「オープンソースとSASにまたがるモデル選択」など、プログラム的アプローチの全ての利用価値が手に入ります。しかし、それだけではありません。このアプローチには「生産性と透明性の向上」、「オーバーライド(手動調整)機能や例外管理機能も備えた、ガバナンスの効いたワークフロー」、「ビジュアライゼーション機能との統合」という追加のメリットもあります。これらのビジュアライゼーション機能はUIに組み込まれており、ユーザーは追加の労力なしで、時系列予測モデルをより的確に理解および評価できるようになります。その使い勝手は対話操作性と協働作業性に優れており、プログラマー以外の幅広いユーザー層が利用できます。 プログラム的アプローチを利用するか、Visual Forecasting のグラフィカルなユーザ・インターフェースの中でカスタム・モデリング・ノードを作成するかを問わず、SASは小規模なプロジェクトから全社規模のソリューションへの転換を図る取り組みに適した、拡張性と弾力性の高い時系列予測環境を実現します。 まとめ 要約すると、SAS Visual Forecastingはオープンソースによる時系列予測戦略の可能性を広げます。TSMODELはSAS Visual Forecastingの基底をなしているプロシジャであり、EXTLANGパッケージはオープンソース言語との統合を可能にします。TSMODELとEXTLANGの組み合わせによって “マジック” が生まれます。SASはオープンソース・スクリプトを分散処理します。SASは複数の入力データを同時並行で読み込みます。SASはオープンソース・コードの実行を分散処理します。SASは複数の出力データセットを同時並行で書き出します。分散処理、拡張性、弾力性 ──  要チェックです!

Analytics
SAS Japan 0
OSSによる時系列予測をSASで強化・拡張する(2/3)

この記事はSAS Institute Japanが翻訳および編集したもので、もともとはMike Gillilandによって執筆されました。オリジナルはこちらです(英語)。 またこれは、ゲストブロガーのジェシカ・カーティス(Jessica Curtis)とアンドレア・ムーア(Andrea Moore)による3部構成記事の第2部です(第1部はこちら)。 SASがオープンソースにもたらす価値 何よりもまず、SASは時系列予測用の入力データを分散処理します。SASは時系列予測のためにデータをインテリジェントに分割する方法を理解しており、例えば、時系列グループが様々なワーカーノードにまたがって分割されることはありません。その上で、SASはオープンソースのスクリプト群そのものを複数のワーカーノードにまたがって分散させ、オープンソース・コードの実行を分散処理します。より具体的に言うと、EXTLANGパッケージはPythonまたはRのコードを呼び出す際、個々のPython/Rインタプリタを複数のワーカーノードのそれぞれに振り向けます。その結果、複数の時系列は同時並行で処理されます。このことがスケーラビリティと効率性の観点から何を意味するかを考えてみてください。これにより、あなたは自社/自組織の時系列予測能力を「一つの時系列予測課題の解決」から「組織全体の多種多様な時系列予測課題の解決」へと広げることができるようになります。しかも、より迅速かつ大規模に解決することができます。 例えば、あなたの勤務先がグローバル小売企業だと想像してみてください。あなたのビジョンは、単一の一貫した時系列予測プラットフォームで会社全体の多種多様な時系列予測課題を解決することです。膨大な数のSKUの品揃えの需要予測から、サプライチェーン全体に展開すべき適切な在庫量の判断、各店舗における労働の最適化に至るまで、あらゆる取り組みにおけるあなたの目標は、アナリティクスに基づく正確な意思決定を推進することです。今日、あなたはちょうど、「財務計画の意思決定のための集計レベルの時系列予測」をR言語で開発するプロジェクトで、最初の作業パスを終えたところだとしましょう。R言語による時系列予測アプローチは多くの点で成功しているように見えますが、あなたは店舗の労働に関する意思決定をサポートするために、これらの時系列予測機能を拡張し、より高粒度なレベルでの時系列予測を開発することを目指しています。時系列予測担当アナリストのチームは小規模であるため、あなたには、多種多様な時系列予測ユースケースに対応するために効率的に処理規模を拡大・拡張できる自動化されたプロセスが必要不可欠です。 集計レベルでの財務計画のために、あなたは1,000個の時系列処理を実行しています。店舗別および部門別の店舗労働計画の場合、この数はあっという間に10万個へと膨れ上がります。SKU/店舗レベルのサプライチェーン計画では、時系列は数百万個に及びます。これは間違いなく、大規模な時系列予測課題だと思われます。「分散処理に対応したスケーラブルな時系列予測ソリューションのパワーによってのみ克服可能な課題」ということです。ようこそ、SAS Visual Forecasting の領域へ。 どのような大規模な時系列予測課題でも、成功のカギを握るのは自動化です。そしてそれこそ、SASが行うことです。SASは統計的予測プロセスおよびオープンソース・モデルの実行を自動化することにより、お客様のビジネスにおける時系列予測プロセスの効率化を推進します。TSMODELプロシジャとEXTLANGパッケージのパワーにより、SASはオープンソース・モデルの実行時間を加速することで、時系列予測プロセスの効率化を更に推進します。これにより、あなたのチームは「時系列予測モデルを一度に一つずつ作成する負担」が軽減し、真の例外ベースのプロセスへと移行することができます。解放された時間で、事業計画の取り組みや、予測対象を新しい領域に広げる取り組みに注力できるようになります。端的に言うと、少ないリソースで多くのことが行えるようになる、ということです。 いったんモデルを作成した後は、SASが自動的に複数の出力用データセットを生成します。これは単なる時系列予測を超えた機能です。これには「モデルの仕様」、「当てはめ統計量」、「パラメータ推定値」を格納している多種多様なデータセットも含まれています。次に、これらの出力用データセットは ── あなたのご想像通り ── 分散処理にかけられます。このリッチな出力用データはデータサイエンス・チームとビジネス・チームの両方に対し、「重要な需要推進要因」や「モデルの詳細」に関する多くの洞察をもたらします。統計的予測を信用していないビジネス部門の人々と交わしたことのある様々な議論を思い出してください。その点、SASが自動的に作成する出力用データセットは「モデルがなぜ、何を行うのか」を “見える化” するために役立ち、その結果としてビジネス部門側との議論の質が高まり、モデルの採用率が改善されます。 また、SAS Visual Forecasting は、内蔵されているベストプラクティスにより、オープンソース・モデル群の強化も行います。特許取得済みのデータ診断機能やモデル構築プロセスから、リコンサイル(調整)機能付きの自動階層型予測機能、さらには、統合型の時系列セグメンテーション機能に至るまで、SAS Visual Forecastingは単なるアルゴリズムを超えたレベルで、様々なベストプラクティスに基づくエンドツーエンドの時系列予測プロセスを提供します。 自動化機能、加速機能、強化機能は全て、お客様の組織のニーズに合わせた規模調整に対応可能です。組織全体の多種多様な時系列予測ユースケースに応じて処理規模を拡大(または縮小)することができます。製品階層やロケーション階層の最下位レベルの粒度まで掘り下げる大量かつ複雑な処理にも対応できる高度なスケーラビリティにより、任意のレベルで時系列予測を実行し、結果を生成することができます。「最初に上位レベルの時系列予測を作成/調整し、それを手作業で下位レベルに落とし込む(按分する)手法」に頼る必要はもうありません。SASは、ビジネス上の意思決定が行われるのと同じレベルで、高品質な時系列予測を自動的に生成します。 (第3部に続く)      

Analytics
SAS Japan 0
OSSによる時系列予測をSASで強化・拡張する(1/3)

この記事はSAS Institute Japanが翻訳および編集したもので、もともとはMike Gillilandによって執筆されました。オリジナルはこちらです(英語)。 ゲストブロガーのジェシカ・カーティス(Jessica Curtis)とアンドレア・ムーア(Andrea Moore)による3部構成記事の第1部にようこそ。 時系列予測はユビキタスな存在 時系列予測は、事実上あらゆる業種にわたり、ビジネスにおける多種多様な意思決定の中核を支えています。それはあなたの勤務先が、「膨大なSKUの品揃えの計画」や「配送センターや店舗の労働計画の改善」に取り組む小売企業であるか、需要計画プロセスの刷新に取り組んでいる消費財企業であるかを問いません。あるいは、デジタル広告/在庫計画/価格設定のために時系列予測を活用しているメディア企業や、最適なリソース配分のためにネットワーク利用率を予測している通信企業など、挙げればきりがありません。より優れた予測を得ることのインパクトは、あらゆる企業・組織における “ビジネス上の意思決定” に広範囲かつ抜本的な向上効果をもたらします。 44年以上にわたり、SASは世界各地の数千社の企業のために大規模な時系列予測プロセスを改善し続けています。SASはその間、統計的予測の精度向上と時系列予測作成プロセスの効率化を通じて最終利益の押し上げに貢献する強固な時系列予測ソフトウェアを開発および強化し続けてきました。これは決して大げさな表現ではありません。実際、当社は何冊も書籍を出しています。 SASの最新の時系列予測テクノロジーを搭載したSAS Visual Forecasting は、全社規模の様々な時系列予測課題を迅速かつ自動的に解決するための唯一無二の機能を提供します。SAS Visual Forecastingは、最新鋭の各種アルゴリズム ── 機械学習、時系列、アンサンブル ── だけでなく、過去データの診断、複雑な階層にまたがる自動予測、予測の例外管理に関する内蔵型ベストプラクティスも搭載しています。SAS Visual Forecastingの中核にある信条の一つは、「オープンソースのモデルを実行し、それらを大規模にデプロイ(業務実装)するための、オープン・エコシステムを提供する」ということです。 現在、オープンソース・ソフトウェア(OSS)は時系列予測モデルを開発するために広く使われています。多くの企業・組織がオープンソース戦略に取り組み始めており、PythonやRを活用して時系列予測を作成していますが、組織全体の多種多様な時系列予測ユースケースに対応するべく規模を拡張しようとしたときに様々な難題に直面しています。オープンソースの時系列予測モデルを「SASのソリューション」(以下、単に「SAS」)で実行することには複数のメリットがあり、既存のオープンソース戦略に立脚しながら俊敏かつ効率的な方法を確立することができます。もはや、SASとオープンソースのいずれかを選択する必要はなく、両者は真の相補的な関係にあります。 オープンソースで開始する 多くの企業・組織は、頑健な時系列予測を作成することに苦戦しているほか、様々な時系列予測ユースケースのために規模を拡張しようとしたときに難題に直面しています。個々の時系列予測課題には、データが徐々に増加し、複雑性も増大していくという問題が伴います。 例えば、あなたの勤務先が通信企業で、あなたは追加のインフラ(例:携帯電話網のセル)投資を行うべき場所に関する意思決定をガイドするために、データ帯域幅の需要を予測する必要があるとします。新規インフラ投資を計画するためには、帯域幅需要が時の経過とともにどのように変化するかを理解する必要があります。そこであなたは、市場における総需要が徐々に増加する様子を推計するために、オープンソースの時系列予測ソリューションを構築します。そこから得られる予測は、ネットワークをどれほど拡大するべきかに関する年間計画の基礎となります。そしてあなたは、計画プロセスへのアナリティクス活用について高く評価されたとしましょう。次のサイクルでは、計画のための単独の総合的な予測ではなく、「追加データの取り込みを伴う分析」と「通信インフラの個々の構成要素に関する予測の作成」を依頼されることになりました。 図1は今回の要請が「市場だけでなく、個々の都市/中継局/ノード/構内も対象とした予測」であることを示しています。この分析には、大量のデータと多数の時系列を用いて数千あるいは数百万もの時系列予測を生成する作業に対応できる処理規模の拡張性が必要不可欠です。上位レベルの値を下位レベルの値へと配分するのではなく、高粒度レベルの個々のネットワーク・コンポーネントに関する統計的予測を集計していくことが、予測精度の向上へとつながるからです。こうした予測精度の向上が実現すれば、資本計画プロセスは更に洗練されたものとなり、リソースは最も必要性の高い場所にピンポイントで、適切なタイミングで配分されるようになります。 これはネットワーク計画に固有の話ではなく、同じテーマの議論が全ての業種で繰り返されています。ここで必要とされているのはパラダイム・シフトです。あなたはもはや、個々の時系列予測を手作業でチューニングすることはできません。数量が大きすぎるからです。 必要なのは、「あらゆるタイプのユーザー(例:プログラマーと非プログラマー)が “モデルの構築” や “高品質な時系列予測の生成” において生産的になること」および「分散環境でデータを高速に処理すること」を可能にするソリューションです。そうしたソリューションでは様々なプロセスの自動化が、高精度な時系列予測の生成を促進します。 ここまで来ると、予測モデルを構築するだけの話ではなくなります。それよりも遥かに大規模な取り組みになります。また、時系列予測の結果を事業計画プロセスに統合することも必要になります。そのためには、多くのユーザーが結果を確認・操作したり、必要に応じて処理を追加したりできるようなソリューションが必要です。また、結果を共有できる機能や、ビジネスユーザーが業務プロセスの中で結果を利用できる機能も重要です。 多くの企業が難題に直面している理由は、これまでの努力を無駄にしたくないと考えたり、継続性を懸念したりしている一方で、自社の現在のオープンソース・アプローチが既に限界に達していると気付いているからです。 SASのソリューションはオープンソースを強化・拡張する 全社的/全組織的な時系列予測の取り組みにおいてオープンソース・アプローチが限界に達したとしたら、それこそSASが本領を発揮する状況です。オープンソースの時系列予測モデルを構築するために投じてきた膨大な作業の全てを失いたくないと思うのは当然のことです。実際問題、それらを失う必要はありません。SASのアプローチでは、オープンソースのモデル群をSAS Visual Forecastingに取り込んだ上で、それらの利用価値を拡張します。 SAS Visual Forecastingによるオープンソース統合の基礎となっているのは、TSMODELプロシジャとEXTLANGパッケージです。TSMODELは、SAS Visual Forecastingの基底をなしているプロシジャです。EXTLANGパッケージは、外部言語(例:PythonやRなど)のシームレスな統合を可能にします。 TSMODELとEXTLANGは「オープンソースによる時系列予測戦略」を改善します。SASはこれらの技法を通じて、オープンソースのモデルを実行するための「分散処理に対応した拡張性・弾力性の高い方法」を提供します。データの準備から、モデルの開発、モデルのデプロイに至るまで、アナリティクス・ライフサイクルの全てのステップにおいて、SASはオープンソースの時系列予測モデルを強化します。SASはPythonやRで作成されたモデルに対してオープンなだけでなく、分析ワークロードを自動的に分散処理することでオープンソースを拡張します。ちょっと立ち止まって掘り下げましょう。言い換えると、SASが「オープンソースのモデルを改善する」というのは、ひとつには、「その実行を高速化する」ということです。また、それ以外にも、SASが備える数々の “実証済みの利用価値の高い機能性” も手に入ります。もし興味をそそられたのなら、どうぞ読み進めてください。 (第2部に続く)

Advanced Analytics | Analytics | Data Management | Learn SAS | Programming Tips | Students & Educators
0
SASのIn-Database機能のご紹介

1. はじめに 前回投稿しました「SAS/ACCESSのご紹介とSnowflakeとの連携デモ」はご覧になったでしょうか。SASと外部のデータストレージサービスを連携する「SAS/ACCESS」のご紹介と、実際に「Snowflake」というサービスに連携してみました。今回は、その続きとして、10年以上前からビッグデータ・アナリティクスの基本アーキテクチャである、In-Database機能の代表的な機能である、SQLパススルーという機能をご説明し、デモを準備しました。 2. SQLパススルーについて SAS/ACCESS がインストールされている場合、SQLパススルーを使用してデータストレージサービスにクエリできます。接続方法に応じてSQLパススルーは、「暗黙的パススルー」と「明示的パススルー」に分けることができます。 暗黙的パススルーの価値は、作成したSASコードが自動的にデータストレージサービスが処理できるSQLに変換され、そのSQLをデータストレージサービス側に与えることにあります。ですので、SASで実行されたSQLやSASプロシジャに指定されたWHERE句など、可能な限りデータストレージサービス側で処理を行い、結果だけをSAS側に転送することが可能です。一方、明示的パススルーの場合には、DB依存のSQLを明示的に記述することできます。暗黙的パススルーと明示的パススルーについてまとめた表を下に記載していますので、ご覧ください。今回は、暗黙的パススルーについて詳しくご紹介したいと思います。   ▲SAS CommunityでSQL Pass throughについて質問するユーザー 暗黙的パススルーを使用する方が良いか、明示的パススルーを使用するのが良いのか気になるかと思います。実はこのトピックは、SAS Communityでもよく見られ、SAS/ ACCESSを使用している全世界のユーザーにとっても気になる質問です。どちらを使用するかは、どこに基準を置くか、また、SASとデータストレージサービスの環境のスペックによって異なると思います。ですので、皆さんもこのような疑問が生じた場合は、SASに相談してみてはいかがでしょうか。   3. 暗黙的パススルーのデモ 3-1. データの紹介とデモの概要 今回のデモのために、「pets」と「owners」という名前で2つのテーブルをデータストレージサービス(今回は、Snowflake)側に事前に保存しておきました。 「pets」テーブルには、3つのカラムがあります。 Id: ペット固有のid Name: ペットの名前 Type: ペットの種類(犬、猫、その他) Id Name Type 1 オオビ 犬 2 ローザ 猫 3 ワンチャン その他 … … …   もう1つのテーブル「owners」にも3つのカラムがあります。 Id: オーナー固有のid Name: オーナーの名前

Advanced Analytics | Analytics | Artificial Intelligence | Data for Good | Machine Learning | SAS Events | Students & Educators | Work & Life at SAS
CTOからのあなたへの招待状~#HackinSASを開催

CTOからのあなたへの招待状 ~リアルワールドのためのグローバルデータサイエンス・ハッカソンイベントを開催~ 世界中のどこかにいる有志のあなたへ 従来からSASをご愛顧頂いている皆様、そして、これから新たに出会う皆様、こちらはSAS Instituteでございます。今回は、非常にInspired+Greatなニュースをお届けさせていただきます。 それは、SASがグローバルでHackinSASというデータサイエンス・ハッカソンイベントを開催するということです! 今回のイベントでは、グローバルで参加者を募集しています。もちろん、従来のSASユーザのみならず、開発者やオープンソースユーザ、学生の方々、Startup企業の方々、またはテクニカルパートナーの方々、誰でも参加可能なイベントです。また、今回イベントの主旨としては、皆様の周りにあるデータを用いて、そのデータから有用な情報を得て、リアルワールドのビジネス課題・社会問題を解決するためのソリューションや、よりクリエイティブなデータの使い道を発見することを目指しています。詳細は後述するイベント詳細情報をご参照ください。 SASは長年、データから有用な情報を得て、その情報をリアルワールドの社会問題・環境問題、そしてビジネス課題解決に貢献できる製品やソリューション、そしてサービスを開発し、そのナレッジを貯蓄してきました。また、たくさんのユーザの方々との関わり合いの中で得られた情報などもとても有益なものでした。ハッカソンイベントはまさに、そのような様々なナレッジや発想を持っている皆様に切磋琢磨できる舞台を提供しています。 まずSASのエグゼクティブ・バイス・プレジデント兼最高執行責任者兼最高技術責任者のOliver Schabenbergerからのメッセージをご覧ください。 クリック! では、イベント詳細情報は下記となります。  1.開催スケジュール ハッカソン全期間スケジュール 2020年12月17日-2021年2月15日 チームとテーマの登録期間。 この期間中に、あなたのチームを結成しましょう。そして、課題を定義し、サマリをご提出ください。 2021年1月―2月 リソース確保期間。 この期間中に、ハッカソンをするための無料イネーブルメントリソースを活用して、優位に立ちましょう。 2021年3月 ハッカソン正式開始期間。 この期間中に、あなたとチームメンバーの創造性を輝かせる時がきます。データとSASを使って課題を解決しましょう。 2021年4月 最終ラウンド期間。 最終ラウンドに参加できるチームが選定され、SAS Vector Labsチーム(SAS Innovation Hub)に紹介され、更なる課題解決のためのアプリケーション開発を行うことが可能です。 Virtual SAS® Global Forum 2021(2021年春に開催予定) 2021年のSAS Global Forumで優勝者の結果が公開されます!   事前ライブキックオフミーティング 2021年1月13日13:00 – 14:00オンラインで開催 開催概要: SASのエグゼクティブ・バイス・プレジデント兼最高執行責任者兼最高技術責任者のOliver Schabenbergerが、この他に類を見ないグローバルハッカソンとは何か、そしてビジネスの課題解決や社会貢献のためにアナリティクス、AI、オープンソースをどのように創造的な方法で活用できるのかについてお話します。 ハッカソンズ・インターナショナルのCEOであるAngela Bee ChanとSASのプロダクト・マーケティング・マネージャーであるMarinela Profiの魅力的な対談が行われます。彼らはこのハッカソンの中でできるコラボレーションと、HackinSASが単なる競争以上の価値あるものであるかをお話します。

Analytics
0
痒い所に手が届く、SAS Studioカスタムタスクは分析作業の救世主! ~SAS Studio上で独自のデータ加工&分析タスクを活用~

SAS Studio Taskの紹介  仕事の中で、このような状況に遭遇したことはないでしょうか?普段Enterprise Guide或いはSAS Studioを利用している分析チームの中には、コーディングユーザとSAS言語ができないGUIユーザがいます。ある分析プロジェクトにおいて、特定のモデルを活用する場合に、そのモデルはSASコードを書くことで利用することはできますが、EGのGUI操作やSAS Studio のTaskだけでは活用することができません。この場合に、GUIユーザがコーディングユーザと同じような分析を行うためには、コーディングユーザが作ったSASコードを利用し、入出力情報やパラメータなどを修正した上で使用することになります。しかし、このようなやり方では、たとえば、修正を間違えることによって、エラーを起こし、コードを書いた人に助けてもらわないといけないことも時々発生していました。  この状況に置いて、SAS言語ができないユーザでも、コードを書かずにGUI上の簡単なマウス操作で実施できるような便利な機能をご紹介します。  SAS Studioには、SAS Studioカスタムタスクという機能が組み込まれています。必要な機能が既存のタスクとして用意されていなくても、プロシジャーがあれば自らタスクを簡単に作成できるインターフェースです。XML形式で必要な入出力箇所やオプションを定義することによって、GUI画面を持つタスクが簡単に作れます。そのタスクをSAS Studio上では勿論、SAS Enterprise Guide上でも使うことができます。非常に便利な機能です。この便利なSAS Studioカスタムタスクには以下のような特徴があります。 ・タスクを作る際にはSAS以外のプログラミング知識は必要ありません。 ・SAS Studioで作る場合は、XMLを書きながら、作成途中のGUIの画面を常に確認できます。 ・タスクを使う人は簡単なマウス操作で利用可能です ・そして、SAS StudioとEnterprise Guide両方での利用が可能です。 ・XMLベースなのでタスクの修正は簡単です。 ・テキストボックス、チェックボックスなど多様なコントロールを定義可能です。 SAS Studio Taskの作り方  今回は混合正規モデルを例にSAS Studio Taskの作成方法を紹介します。SAS Studio Taskを作るには二つの方法があります。  一つ目は新規で一からタスクを作成する方法です。  二つ目は既存のタスクをテンプレートとして使い、内容を修正しながらタスクを作る方法です。  今回の記事は一つ目の方法をメインとして紹介しますが、記事の最後に二つ目の方法に関しても簡単に紹介します。作成ツール(XMLエディタ)としては、SAS Studioや任意のエディターのいずれかを使用しても構いませんが、この記事では最新のSAS Studio 5.2を使用しています。操作方法などは使っているSAS Studioのバージョンによって変わる場合はありますが、定義の書き方に相違はありません。  SAS Studioを開いて、メニューから新規作成をクリックし、タスクと選択します。そして下の図のようなタスクテンプレートの画面が表示され、この画面内でSAS Studio Taskの定義を行います。まずSAS Studio Taskの定義の構造を紹介します。  最初の2行はシステムにより生成されたタスクのエンコーディングとスキーマバージョンの定義です。この部分を修正する必要はありません。 <?xml version="1.0" encoding="UTF-16"?> <Task schemaVersion="7.2">

Advanced Analytics | Learn SAS | Programming Tips | SAS Administrators
0
SAS/ACCESSのご紹介とSnowflakeとの連携デモ

01. はじめに 最近多くの人々がクラウド環境をベースにしたデータストレージサービスを利用しています。 ここで皆さん、突然ですが、データを管理するためにローカル(またはオンプレミス)環境を構築していた過去を振り返ってみてください。 以前は、データを保存するために、関連ソフトウェアやハードウェアを購入・設置・インストールし、様々な環境設定を行います。3か月後、データの量が増えてきてデータベースの容量が足りなくなります。そしてまた多くの費用と時間を使って、必要なソフトウェア・ハードウェアを再び購入、同じく様々な環境設定をします。 上記に記載したような様子は現在のビジネス世界ではほとんど見当たりません。今日必要なのは、ただメールアドレスとクレジットカードのみです。最近では様々なデータストレージサービスが生まれてきたからです。このようなサービスはクラウド環境で動いていて、一定期間料金を支払えば利用できる「subscription」(サブスクリプション)ベースであり、前払い方式ではなく、使用した分だけ課金される「pay as you go」(ペイアズユーゴー)方式が特徴です。SASでも様々なデータストレージサービスに対応していますが、今日はその情報について詳しくお伝えします。   02. SAS/ACCESSのご紹介 「SAS/ ACCESS」とは、SASと他のベンダーのデータストレージサービスを連携するインターフェースです。下記のような特徴があり、様々なデータストレージサービスとの連携を支援しています。 シームレスで透過的なデータアクセス (Seamless, transparent data access) 柔軟なクエリ言語のサポート (Flexible query language support) パフォーマンスチューニングオプション (Performance tuning options) 性能最適化機能 (Optimization features for better performance) より詳しい情報はこちらをご参照ください。 様々なデータストレージベンダーの中で、今回は「SAS/ACCESS INTERFACE TO SNOWFLAKE」を使って「Snowflake」というサービスに連携してみたいと思います。* Snowflakeの設定はこちらを見て事前に行いました。   3. SAS/ACCESSデモ 3-1. LIBNAME statementで連携 SASのLIBNAME statementで簡単にSnowflakeとの連携を行うことができます。連携することでSnowflakeのデータをDATA StepやSASプロシージャで参照することが可能になります。LIBNAME Statementのサンプルコードは下記のボックスをご参考ください。 LIBNAME

Advanced Analytics | Analytics | Data Visualization | Learn SAS
0
SAS Viyaのワードクラウド分析を用いた消費者の声分析例

01. はじめに 今回のポスティングでは、SAS Viyaの「テキストトピック」という機能を用いたSNSの消費者の声の分析例を紹介したいと思います。分析の手法として「ワードクラウド分析」という方法を使いましたが、こちらについても後ほどお話します。SNS上の書き込みデータを分析することで、ビジネスに役立てられる洞察を得ることができますので、最後まで読んでいただければと思います。   02. 消費者の声分析の一般的な流れ SNS上の消費者の声分析は、一般的に大きく3つの段階に分けることができると思います。そのステップ①は様々なSNSプラットフォームから消費者の声を集める「データ収集」です。ステップ②は、収集したデータを分析する段階です。データ分析の手段はいくつかがありますが、本記事では、「ワードクラウド分析」という手法を用いることにします。最後のステップは、ビジネスメリットに繋げるように分析結果を活用する段階です。分析結果を元により意思決定し、施策を実施する段階です。本記事では、3つの段階の中で2段階目の「データ分析」、具体的には、「ワードクラウドを用いた分析」について説明します。   03. ワードクラウド分析とは? ワードクラウドというのはテキストデータの意味をより直感的に把握するための分析の一つ手法です。 テキストデータを単語に分割し、単語ごとの出現頻度をカウントし、その頻度に応じた大きさでその単語を視覚的に表示してくれます。 つまり、テキストや文章が何に関して語られているのか、そのキーワードを簡単に見つけ出すことができる手法になります。 例えば、SNS上の書き込みをテキストデータ化して分析し、顧客や消費者が今どんな事に興味を持っているのか、どんな不満があるのか、などを把握することができます。 (出典:https://awario.com/) 私はニュースなどのメディアでアメリカのトランプ大統領がどんな単語を何回使ったか、トランプ大統領のツイッターを分析したワードクラウドを見たことがあります。例えば、上のイメージは、2018年から2019年までのトランプ大統領のツイッターでつぶやかれた単語のワードクラウドですが、「border」と「wall」が一番使われた単語ということが一目で分かります。   04. SAS Viyaのワードクラウドの特徴 SAS Viyaのワードクラウドの特徴についてご紹介します。 まず、自動的に分析対象のテキストデータを単語に分割した上で解析します。所謂テキストマイニングと言いますが、その結果として、それぞれの文章がどんな話題(トピック)に関して語っているのかを分析し、トピックごとにキーワードを頻度に応じた大きさで確認することができます。また必要に応じて、気になるトピックやキーワードの元の文章を確認することもできるようになっています。 また、分析の際、冠詞や、助詞、副詞など、意味がない単語は自動で外して分析を行います。 これも、SAS Viyaのワードクラウドの一つの特徴なのですが、例えば、Open Source系のプログラミング言語で分析をすると、英語の 「the」や「a」などは、 分析者自身でなんとかして、取らなければいけないこともありますが、SASでは自動でその作業を行います。 さらに、書き込み内容がネガティブな内容なのか、ポジティブなのか、中立であるか、確認できる機能もあります。この機能は、「センチメント分析」、 日本語では「感情分析」と呼ばれますが、SASではワンクリックで簡単に実行できます。   05. 消費者の声分析例 それでは、SAS Viya の「テキストトピック」という機能を用いた消費者の声分析デモをご紹介いたします。 ▲ 準備したデータについて 日本では最近「天高く馬肥ゆる秋」になったので、季節感が感じられるように「天気」に関したデータを準備しました。また、オーストラリアのシドニーとカナダのバンクーバーのツイッターデータを収集しました。この二つの地域を設定した理由は、現在のシドニーは昼間の平均気温が約20度で、少し暖かいか、涼しい天候ですが、バンクーバーは約5度と少し寒く、対立的な地域を選ぶことで、明確な結果を得たかったからです。(個人的な理由もあり、キャリア管理の上司がSASオーストラリアのシドニーで働いていて、同期の1人はSASカナダのバンクーバーにいるので、毎回オンライン会議で会う2人の季節環境が気になったのです。同期と出会った新入社員研修についての記事はこちら) データの対象期間は、10月15日から10月23日まで、9日間、データの取得の際に使ったキーワードは、「weather」、「today’s weather」、「weekend weather」、「winter」、「summer」という5つのキーワードを使いました。こういった条件で実際にツイッターから集められたデータは、シドニーが351件、バンクーバーが277件でした。 ▲ 「天気」に関するシドニーの消費者の声分析 まず、シドニーの消費者の声のワードクラウド分析結果を見てみましょう。 「雨」に関するトピックが44件で、トピック全体で1位になっております。こちらのトピックをクリックすると、このトピックに関連する用語・キーワードを右側の画面で確認できます。「rainy」の比重が最も大きいことが分かります。 (出典:https://www.holiday-weather.com) 雨に関するデータが多い理由は、データを収集していた10月15日から23日前後にシドニーは天気が曇ったり、雨が降ったりしたからだと考えられます。

Learn SAS | SAS Events
海外のライバルとしのぎを削ろう! SAS Global Forum 2021 Student Symposium Competition

アナリティクス人材としてのキャリアを歩む際、自身のスキルの証明は大事な要素になります。海外のライバルと競い合い、勝ち抜いた経験と称号は、その後の人生に大きな影響を与えるはずです。 Student Symposium は、SAS最大のイベントである SAS Global Forum の中で開催される学生コンペティションです。2-4名の学生と指導教官がチームとなり、アナリティクスを活用したオリジナル課題にチャレンジし、その優劣を競います。予選を勝ち抜いた8チームは SAS Global Forum 本番にて最終決戦に挑みます。 新型コロナウイルスの影響により、今年の SAS Global Forum 2020 はオンライン開催となり、来年春の SAS Global Forum 2021 も同様にオンラインでの開催予定です。今年の Student Symposium では、University of St. Thomas, Oklahoma State University, Kennesaw State University のチームがそれぞれ優勝、準優勝、3位を獲得しました。テーマは、学術論文のアブストラクトのテキスト解析やエコロジカル・フットプリントに影響を与える要因の解析、殺虫剤のミツバチへの影響の分析などでした。 日本の学生には難しい? そんなことはありません。近年、日本の学生がSAS Global Forumで発表したり、優れた研究発表を投稿した学生に送られる Student Ambassador にも日本の学生が選ばれています。次は Student Symposium にチャレンジしてみませんか? アナリティクスのツールとしては、SAS OnDemand for Academics

Learn SAS | SAS Events | Students & Educators | Work & Life at SAS
SAS新入社員研修の海外現地体験談ーーSASのマインドをフルゲットできるチャンス

前回のSASブログ「SAS新入社員研修の体験談」では、筆者の同僚がSAS新入社員研修のGlobal Customer Advisory Academyについて概要とオンラインでの実施について紹介しました。COVID-19の影響で、今年度の該当プログラムはオンラインで実施されましたが、昨年度までこのプログラムは、アメリカのノースカロライナ州にあるSAS本社を訪問し、参加するグローバルプログラムでした。本ブログでは、現地での実体験に関して、主にいくつかインパクトなポイントを紹介します。 筆者が当時SASに入社する際に、該当プログラムに参加するチャンスがあり、アメリカ本社の現地に行き、経験したことがありましたので、ここでその経験と感想を共有したいと思っています。まず簡潔に、現地で行われたスケジュールを紹介していきますと、 プログラム名:Global Customer Advisory Academy(以下CAアカデミーと呼びます) プログラム期間:18週間 8週間・アメリカ本社に行き、研修を開始(前半) 4週間・日本オフィスに戻り、実務ローテーションを実践 6週間・アメリカ本社で研修を継続し、完了後に日本オフィスに戻る(後半) 使う言語:英語(ローテーション期間は日本語) では、このプログラムで、現地で行われた時に最も印象的なポイントはいったい何でしょう。下記三つの面から紹介します。 企業文化(価値観と帰属感) グローバル視野と広い人脈 社会責任への意識とチームでのValue創出 それぞれについて、CAアカデミーで、どう遂行されていたのを詳細に紹介します。 1.企業文化 SASのコア価値観:Curious、Authentic、Passionate、Accountableという四つの柱があります。それらはSAS企業文化の最大要素となり、SAS社員も日々それらの素質を持ち、行動していくことが、強く推奨されています。 それらの価値観は具体的にどのようにCAアカデミー研修で表現されているのかといいますと、下記の通りです。 C-Suiteの方々からダイレクトなSASの歴史と戦略の紹介 SASの業界コンサルタントからSASと各業界の関わり方とビジネスモデルの専門指導 各部門の指導者・業界先輩からの激励 現地でのCAアカデミー研修では、直接SASのトップ経営層からSASの過去から、現在と未来を対面で語られるチャンスが複数回与えられています。新入社員として、短時間で、明白にSASという会社はどのようなビジネスをしてきて、これからどの方向に向かっているのかということを把握することができ、会社理念を認識することができるようになっています。アカデミーで、Authenticな会話ができるため、新入社員も各自自分の将来に繋がる会話をすることが多くなっています。そのような環境が備えられていることで、数週間のうちに、自然にSASの企業文化と理念を身に着けていきます。知識を吸収するというよりも、馴染んでいくということに近いです。 また、現地でCAアカデミーに参加した時に、各業界のコンサルタントが定期的に本社オフィスにきて、業界研究知識などを教えてくれました。普段それらのコンサルタントたちは、各地域にいて、とても忙しい方がほとんどです。その中には、会社顧問などをされていた方もいました。筆者が参加した時に、ヨーロッパで仕事されていたある業界リードランクのコンサルタントがSAS本社オフィスに渡航してきて、業界に関する彼の知見を教えてくれました。この教える仕事は、彼たちの本職ではなく、CAアカデミーからの依頼に応じて、自主参加するものなので、そのような単なる仕事に対する熱意だけではなく、後輩を育てる情熱(Passionate)や責任を持つ意識(Accountable)のところは当時の私たちにとっても痛感できました。 SASのCEOであるDr. Goodnightはこう言ったことがありました。 「If you treat employees like they make a difference, they will make a difference」 実際、筆者がSAS本社にいた期間では、まさにこの言葉を実体験することができました。当時入社したばかりで、プログラムに参加した当初は、まだまだ浅い考えや振る舞いをしたこともありましたが、そこでシニアな先輩、指導者の方、マネージャーまで色んな方から励まされて、自分のやったことが有意義であることとして扱ってくれていました。そして、仕事に対する意欲・動力・興味は高められていきました。それはいまになっても、前進するモチベーションになったりすることがよくあります。 また、恥ずかしながら、筆者は物事の根源に当たるものを追求する好奇心を持ち、色んなアイデアを試して、正直に意見を言う人間です。そのような素質は、SASのコア価値観のCurious・Authenticと一致し、CAアカデミーの時から重視されてきました。 そのようなプロセスの過程で、SASのコア価値観と共に、だんだんSASへの帰属感も育てることができました。   2.グローバル視野と広い人脈 SASはグローバル企業ですので、CAアカデミーでは色んな国から、色んな背景を持つ方が一緒に参加しています。さらに、現地では、それらのグローバルの同僚と同じホテルで14週間も一緒に過ごすことで、お互いへの理解を深め、グローバル範囲での深い絆を構築することができました。 そのような環境で、実際日々の研修では、同じ課題に対する広い視野からの違う観点が毎日の研修の中で飛び交っていました。そして、そこからディスカッションの時間が充分に用意され、違う観点のグローバル同僚との会話により、自らの視野も広げていくことができました。そのような違う観点から物事を考える思考力はとても大切なもので、いまでも重視しているものだと思っています。

Learn SAS | Work & Life at SAS
0
SAS新入社員研修の体験談

はじめに 2020年5月7日から7月30日まで、約10週間 SAS本社で主催する「Global Customer Advisory Academy」という新入社員研修に参加しました。本来であれば、SAS Global本社があるアメリカのノースカロライナ州に行って受ける予定だったのですが、パンデミックという状況で全ての研修がオンラインで実施となりました。本記事では、Global Customer Advisory Academyをご紹介し、実際に参加して感じたことをお伝えします。   Global Customer Advisory Academyとは? 省略してCAアカデミーと呼ばれますが、Customer Advisoryというのは所謂プリセールスや営業支援部隊のことです。CAアカデミーは分析のコアテクノロジーや、コンサルティングスキルと方法論、SAS製品のポジショニングなどを学ぶ研修プログラムです。SASの全世界の拠点から社員が集められ、約10週間実施します。プログラム終了後は、実際の案件やプロジェクトなどに参加し、お客様の課題を解決するために活動します。具体的な情報と求人はこちらをご参考ください: https://www.sas.com/en_ph/careers/students-and-graduates/sas-academy.html#customer-advisory-academy   CAアカデミーに参加するまでの事前準備 SASに入社する前は、プログラマーとしてウェブサイトの開発業務を行っていました。SASの製品を使ったこともなく、業界も異なり、また、顧客との接点やコンサルティング、営業活動などの経験もなかったので不安でした。 しかし、CAアカデミーに参加するまでに「Pre-work」というプログラムがあり、それを受講することで事前準備ができました。 1ヶ月間行ったPre-workでは、 - SASの会社概要と製品について - ビジネスマナー、リモートで効率的に研修を受ける方法 - 今回のCAアカデミーに一緒に参加する社員とのチームビルディング - CAアカデミーを終了した社員とのミーティング などがありました。特に、19カ国から31名の社員が参加するということで、それぞれの社会経験が異なり、「一緒に頑張って研修を受けるぞ!」という気分になったので心配はなくなりました。   10週間のCAアカデミー研修について CAアカデミーの詳細なカリキュラムは、グローバルトレンドと業界の動向に合わせてタイムリーに毎年変更されますが、いつも最高の研修プログラムを社員に提供するという事に変わりはありません。今回の研修で印象的だった部分は、次回にリリースされるSAS Viyaの新しいバージョンについて学べたことです。本社のR&DチームでSAS Viyaを設計した社員から直接技術的な内容について学ぶことができました。これにより、SASのお客様にも、もっと正確で専門的な技術支援を行うことができます。 また、金融、製造、官公庁、物流、小売、エネルギー、ITなど様々な分野のケーススタディを学ぶことができました。SASのお客様は全世界の多様な業界に存在しています。したがって、どのお客様にもベストソリューションを提供するために業界ごとのシナリオも勉強しました。 研修はすべて英語で行いました。英語で専門的なトピックについて長時間話したことがなくて、少し心配していましたが、研修のセッションに参加する前に準備資料を十分に読んで参加しました。また、一方的に講師が知識や情報を話すだけではなくて、理解ができていない所や気になった点はその場ですぐに質問できる雰囲気だったので積極的に聞いてみました。グループに分かれて1つのトピックについて議論し、意見を共有できた点も良かったです。CAアカデミーで十分なコミュニケーションを通じ、様々な視点から課題や解決策を考えることができました。     実は、上記のすべての研修は、自宅からオンラインで参加しました。驚きませんか?「オンラインで研修を受けることが可能なのか?」と最初は疑っていましたが、本当に問題なく約10週間の研修が無事に終わりました。SASでは全世界の約15,000人のすべての従業員がリモートワークができるような環境を提供しています。今回のCAアカデミー研修でも「6畳の部屋からグローバルネットワーキング」ということで全て自宅で参加しました。研修が終わって約2ヶ月が過ぎた現在では、一緒に研修に参加した31カ国の社員と毎月オンラインで集まってコミュニケーションを取っています。研修で築いた全世界の同期とのネットワークは私の財産です。   難しかったこと 研修のスケジュールに適応するまで少し時間がかかりました。何故かと言いますと、19カ国の31人のSAS社員がリモートで参加したため、すべての時間が異なり、全員の時間を考慮して研修のスケジュールが設定されたからです。ですので、研修スケジュールのほとんどが日本時間の午後9時から翌日午前1時、2時までと自分にとっては夜中のスケジュールとなりました。特に、私は朝早く起きて一日をスタートする、所謂「朝型人間」ですので、研修の時間に適応するまで数週間がかかりました。 日本時間で午後9時は、アメリカ時間では午前8時、スウェーデン時間では午後2時になるなど、19カ国の時間がすべて異なっていたので、31人皆が苦労した所だと思います。オンラインで会うたびに挨拶の言葉で皆が「good morning」、「good afternoon」、「good evening」この3つを全部一気に言ってしまいました。おそらく私一人だけ時差ぼけがあるのではなく、19カ国で参加した31人全員が大変だったので、協力しながら最後まで研修を受講することができたと思います。  

Data Management | Programming Tips
SASからMicrosoft AzureのBlobストレージ内データにアクセスする方法(第2回)

前回のブログでは、Microsoft AzureストレージサービスのブロックBlobストレージについて軽く紹介し、SASからBlobストレージ中の特定の一つのファイルにアクセスする方法を紹介しました。 第1回リンク:https://blogs.sas.com/content/sasjapan/2020/10/01/sas-azure-blob-1/ しかし、実際のビジネスシーンでは、特定の一つのファイルにだけアクセスする運用はやはり割合的には少ないと考えています。 そこで、今回のブログでは、より効率的に、複数データに同時にアクセスできる方法を紹介します。そしてこれは、Microsoft AzureのBlobストレージをファイルシステムとしてSASサーバにマウントし、SASサーバから便利にアクセスする方法です。 前回と同じように、下記の方法を使うためには、前提条件として、SAS ViyaサーバとBlobストレージがあるAzure間でネットワーク通信ができる必要がありますので、ネットワークセキュリティ条件を確認してから、下記の方法をお試しください。 方法②: BlobストレージをファイルシステムとしてSASサーバにマウントし、SASサーバからアクセスする方法。 Microsoft Azure側: 1.まず、Azureポータルに入り、「ストレージアカウント」をクリックします。(図2-1) 図2-1 2.その配下で、使用されている対象Blob用のストレージアカウントをクリックします。(図2-2) 図2-2 3.そして、表示された左ペインの中で、「アクセスキー」というメニューをクリックします。(図2-3) 図2-3 4.該当ページでは、このストレージアカウントにアクセスするためのキーの情報が含まれているので、その中の、「ストレージアカウント名」と「キー」をメモしてください。あとで接続設定情報を作る時に使用します。(図2-4) 図2-4 5.一層上に戻り、同じくストレージアカウントの左ペインで、Blobサービスの中の「コンテナー」をクリックします。(図2-5)アクセス先のコンテナー名前(例:folderfirst)をメモしてください。あとで接続設定情報を作る時に使用します。 図2-5 以上で、Azure側の準備作業が終わります。次は、SASサーバ側の準備作業を進めていきます。   SAS Viyaサーバ側: 今回、Blobストレージをファイルシステムとしてマウントするには、Blobfuseという仮想ファイルシステムドライバー機能を使います。そのため、事前にSAS ViyaがインストールされているLinuxサーバ側に、そのツールをインストールする必要があります。 このブログで使用しているSAS ViyaサーバはRHEL/CentOS 7.x系のLinuxサーバであるため、Blobfuseのインストールを含めた手順は下記となります。 6.使用するSASユーザで、SASサーバ側にMicrosoftパッケージリポジトリをインストールします。 sudo rpm -Uvh https://packages.microsoft.com/config/rhel/7/packages-microsoft-prod.rpm 7.BlobfuseをSASサーバ側にインストールします。 sudo yum install blobfuse 8.Azureでは、低いレイテンシーとパフォーマンスのため、SSDが提供され、今回はそれを使って、ディレクトリーを作成します。(SSD使わないことも可能ですので、その場合、別ディレクトリーで作成して頂いてかまいません。) sudo mkdir /mnt/resource/blobfusetmp -p sudo chown #YourUserName#:sas /mnt/resource/blobfusetmp

Data Management | Programming Tips
SASからMicrosoft AzureのBlobストレージ内データにアクセスする方法(第1回)

近年、クラウドベンダーが提供するサービスが充実し、より多くのクラウドサービスが誕生してきました。しかし、一つのニーズに対して、複数のサービスを選択できるようになってきているものの、どのサービスが最適なのかを判断することは逆に難しくなってきていると考えられます。最近、SASを活用しているお客様から、「Microsoft社のAzureを使っていますが、これからクラウドにデータを移行して、安くて使い勝手なストレージサービスは何かありませんか」と聞かれたこともありました。 このブログシリーズでは、クラウド上のストレージサービスの一種であるMicrosoft Azure CloudのBlobストレージサービスの概要を紹介した上で、SAS ViyaからそのBlock Blobストレージに格納されているデータへアクセスする方法をご紹介させていただきます。 このブログシリーズは合計2回です。今回のブログでは、まず特定の一つファイルへのアクセス方法をご紹介します。次回のブログでは、より汎用的なアクセス方法、つまり、Blobストレージを一つのファイルシステムとして、SASサーバと連携し、一度に複数のデータにアクセスする方法をご紹介します。ぜひ最後まで、お付き合いいただければと思います。 第1回:https://blogs.sas.com/content/sasjapan/2020/10/01/sas-azure-blob-1/  第2回:https://blogs.sas.com/content/sasjapan/2020/10/05/sas-azure-blob-2/ Blobストレージとは何か? まず、Blobストレージとは何かを紹介する前に、Blobって何でしょうか、から始めます。聞きなれない方もいらっしゃるかと思いますので。実際、BlobはBinary Large OBjectの略称です。本来はデータベースで用いられているデータタイプの種類で、メディアファイルや、圧縮ファイル、実行ファイルなどのデータを格納する時に使用されているものです。 では、Blobストレージとは何か?Microsoft社の紹介では、こう書かれています。 「Blob Storage は、テキスト・データやバイナリ・データなどの大量の非構造化データを格納するために最適化されています。非構造化データとは、特定のデータ・モデルや定義に従っていないデータであり、テキスト・データやバイナリ・データなどがあります。」 少し言い換えますと、Blobストレージは、ログファイルから、画像ファイルやビデオ・オーディオファイルまで格納できます。もちろん、通常目的でのデータ利用にも対応しているため、データの格納場所として使っても問題ありません。(Microsoft Azureの資料によりますと、4.75 TiBまで可能です。) なぜBlobストレージなのか 前文で少し申し上げたSASのお客様から頂いた質問の中で、「安くて使い勝手の良いストレージサービスは」と聞かれた事に関して、安いというポイントに関しては、下記の図をご覧ください。 ソース:https://azure.microsoft.com/ja-jp/pricing/details/storage/(2020/09/09アクセス時点) ご覧のように、ブロックBlobのストレージサービスは、安価で、かつ非構造化データに対応し、一般目的でのデータストレージとして、非常に向いています。 もちろん、ビジネスケースによっては、様々考慮すべき点(既存環境にHadoop環境があるかどうか、スループット、ビッグデータ等々)もありますが、今回は、主にこのブロックBlobストレージを例として紹介します。 SAS ViyaからBlobストレージにアクセスする方法 ここからは、SAS ViyaからBlobストレージにアクセスする方法をご紹介します。下記の方法を使うために、前提条件として、SAS ViyaサーバとBlobストレージがあるAzure間でネットワーク通信ができる必要がありますので、ネットワークセキュリティ条件を確認してから、下記の方法をお試しください。 方法①: SASのPROC HTTPプロシージャを使って、Blobストレージ内の特定の一つのデータにアクセスする方法。 Microsoft Azure側: 1.まず、Azureポータルに入り、「すべてのリソース」をクリックします。(図1-1) 図1-1 2.その配下で、利用されているストレージアカウントをクリックします。(図1-2) 図1-2 3.次に、表示された左側のメニューの中で、「Blob Service」配下のコンテナーをクリックします。(図1-3) 図1-3 *豆知識: ここで、いきなりコンテナーが出てくることに関して、混乱している方もいらっしゃるかもしれないので、少し解説します。こちらのコンテナーとは、Dockerコンテナーの意味ではありません。Blobストレージサービス配下のデータ格納用のサブ階層のことであり、フォルダーのようなものとイメージしてください。(図1-4) 図1-4 4.上記図1-3のように、その中に一つ「folderfirst」というコンテナーが存在しており、それをクリックすると、中に保管されているデータが見えるようになります。(図1-5) 図1-5 5.ここからが重要なポイントです。特定のデータ、例えば、「sas7bdat」データにSAS Viyaからアクセスしたい場合は、該当ファイルの名前をクリックして、下記のようなプロパティ情報を表示させます。(図1-6) 図1-6

Data for Good | SAS Events | Students & Educators
0
第五回Data for Good勉強会 活動レポート

SAS Japanでは”Data for Good”を目指す学生コミュニティ「SAS Japan Student Data for Good community」を運営しています。このコミュニティは、Data For Goodを題材にデータサイエンスの一連の流れを体験する場として設立されました。今回紹介する勉強会も、その活動の一環です。詳しくは「Data for Goodを通じて"本物の"データサイエンティストになろう!」の記事をご覧ください。活動の様子についてはFacebookにて共有していますので、そちらもご参考にしてください。 五回目の勉強会では海洋汚染をテーマに、Data for Goodの活用事例から課題設定の部分を学びました。また、今回は初めてオンラインでの開催をしましたので、その様子もお伝えしたいと思います。   海洋保護に向けたD4Gの取り組み/マイクロプラスチック問題 SDGsの一つに“海の豊かさを守ろう(LIFE BELOW WATER)”という項目があります。日本でも2020年7月からスーパーやコンビニエンスストアにてレジ袋の有料化が始まりました。その背景の一つにはマイクロプラスチック問題があります。コミュニティのメンバーがこのテーマでData for Goodに取り組んでいるので、今回はその活動について共有しました。 マイクロプラスチック問題とは、特に海洋環境において微小なプラスチック粒子が海洋生物に対し悪影響を及ぼしてしまうことです。また生物濃縮により海洋生物だけでなく、人間にも間接的に影響があります。レジ袋の有料化や製品へのスクラブ等使用の規制の動きが世界的に進んでいます。環境保全にいち早く取り組んでいる海外の先進諸国のデータをもとに、今後日本にも導入するべき取り組み、推進していくべき取り組みを明確にしようというのが今回の活動目的になります。 今回の勉強会の活動紹介では、この問題の現状と最新の研究、既に行われている取り組みの効果検証について取り上げました。意思決定の場に置いて、ある施策が目的とするものに対して効果があるのかどうかは非常に重要です。特にマイクロプラスチック問題のように規模が大きい問題に対してはその効果の大きさだけでなく、費用対効果にも注目しなければなりません。しかし、効果の推定には比較実験が必要になりますが多くの場合それは存在しないため、自然実験という考え方を用いてアプローチしていきます。 詳細については今後このブログの中でご紹介していきます。   海洋プラスチック汚染問題をデータで解決する 今回は、コミュニティーメンバーがテーマとして活動している「海洋汚染」に関連して、オランダに拠点を置く非営利のエンジニアリング環境団体 The Ocean Cleanupの事例を紹介しました。 The Ocean Cleanupは、太平洋で無人のゴミ回収装置であるクリーンアップシステムを開発しています。その運用においてある課題が浮かび上がりました。太平洋には多くのプラスチックが集まっているとされる「太平洋ゴミベルト」と呼ばれるエリアがありますが、その範囲は非常に広大かつ陸地から遙か遠くにあります。システムを運用する費用を考慮して、効率的にゴミを回収するにはどうすればよいでしょうか。この課題に対して、The Ocean Cleanupではビッグデータを用いて太平洋ゴミベルトの可視化を行いました。 調査団はこれまでの海洋研究の知見とともに、独自に大規模な調査を行いました。太平洋ゴミベルトのサイズ・位置・プラスチックの量・プラスチックの分布と4つの可視化の観点などから進められてきました。 プラスチック汚染は複雑で大規模な問題であるため、包括的で大掛かりな解決策が必要となります。そのため、データサイエンスの活用によって、問題を理解し効率よく解決するための知見が得られます。クリーンアップシステムでは、監視カメラや衛星との交信による位置情報から実際のシステムの動きや回収度を確かめることができます。ビックデータによる分析結果だけでなく、実際のパフォーマンスデータから得られた知見からより良いシステムの構築が現在も行われ続けています。 以上の話を踏まえて、最後に参加者同士でディスカッションを行いました。自分たちの生活と繋げて考えたり、事例の中で興味深かった点についてお互いに話すことが出来ました。また、海洋保護をテーマに今後活動していく上で考えるべき点についても触れながら議論を進められ、有意義な時間になりました。 今回は初めてのオンライン開催でしたが、オンラインであることの良さを活かして定期的に勉強会を企画するとともに、次回から更に質の高い勉強会をつくっていきたいと思います!   コミュニティメンバー募集中! SAS Japan Student Data for Good

Advanced Analytics | Analytics | Artificial Intelligence | Data for Good | Data Visualization | Internet of Things | Machine Learning | Work & Life at SAS
小林 泉 0
SAS社員としての誇りーミツバチ・森林・絶滅危惧種の保護や医療への貢献にAI/アナリティクスを活用

SASの一つの顔は、アナリティクスで営利目的の意思決定を支援 筆者は、SAS社員として、20年以上に渡りアナリティクスおよびAIで企業・組織を支援してきました。 金融機関における、リスク管理や債権回収の最適化 通信業における、顧客LTV最大化、ネットワーク最適化やマーケティング活動の最適化 製造業における、需要予測、在庫最適化、製造品質の向上や調達最適化 流通・小売業における、需要予測やサプライチェーン最適化 運輸業における、輸送最適化や料金最適化 ライフサイエンス・製薬企業における、業務の最適化 官公庁における、市民サービス向上のための不正検知 など、様々な業種・業務においてアナリティクスの適用によるお客様のビジネス課題の解決に携わってきました。営利目的(ここでは市民サービスの向上も含めることにします)の企業・組織におけるアナリティクスの活用目的は主に以下の3つに集約されます。 収益(売り上げ)の増大 コストの低減 リスク管理 アナリティクスは、いわゆる「データ分析」を手段とし、過去起きたことを把握して問題を定義し、次に将来を予測し、様々な選択肢の中から最適な予測に基づいて意思決定をしていくことになりますが、その過程の中で、起きてほしい事象を予測して促進したり、起きてほしくない事象を予測して防いだり、その予測のばらつきを管理したりということを行っていきます。 このような営利目的でのアナリティクスの活用はSASという会社が誕生した40年以上前から行われており、基本的な活用フレームワークは変わっていません。IT技術の進化によって、利用可能なデータの種類や大きさが、増えてきただけにすぎないと言えます。例えば、昨今のAIブームの代表格であるディープラーニングですが、ディープラーニングという処理方式の進化と、GPUという処理機械の進化によって、非構造化データをより良く構造化しているものであり、もちろんモデリング時のパラメータ推定値は何十億倍にはなっていますが、モデリングのための1データソースにすぎません。もう少しするとディープラーニングも使いやすくなり、他の手法同様、それを使いこなすあるいは手法を発展させることに時間を費やすフェーズから、(中身を気にせず)使いこなせてあたりまえの時代になるのではないでしょうか。 SASのもう一つの顔、そして、SAS社員としての誇り、Data for Goodへのアナリティクスの適用 前置きが長くなりましたが、SAS社員としてアナリティクスに携わってきた中で幸運だったのは、データの管理、統計解析、機械学習、AI技術と、それを生かすためのアプリケーション化、そのためのツール、学習方法や、ビジネス価値を創出するための方法論や無数の事例に日常的に囲まれていたことだと思います。それにより、それら手段や適用可能性そのものを学習したり模索することではなく、その先の「どんな価値創出を成すか?」「様々な問題がある中で優先順位の高い解くべき問題はなにか?」という観点に時間というリソースを費やすことができていることだと思います。そのような日常の仕事環境においては、アナリティクスの活用を営利目的だけではなく、非営利目的の社会課題の解決に役立てるというのは企業の社会的責任を果たす観点においても必然であり、Data for Goodの取り組みとしてSAS社がユニークに貢献できることであり、SAS社員として誇れるところだと考えています。 最終的に成果を左右するのは「データ」 そして、もう一つの真実に我々は常に直面します。クラウド・テクノロジー、機械学習、ディープラーニングなどの処理テクノロジーがどんなに進歩しようともアナリティクス/AIによって得られる成果を左右するのは「データ」です。どのようなデータから学習するかによって結果は決まってきます。 IoT技術で収集したセンサーデータは知りたい「モノ」の真実を表しているだろうか? 学習データに付与されたラベル情報は正確だろうか? 学習データは目的を達成するために必要な集合だろうか? そのデータは顧客の心理や従業員の心理をどこまで忠実に表しているだろうか? 特に、Data for Goodのチャレンジはまさにそのデータ収集からスタートします。ほとんどの場合、データは目的に対して収集する必要があります。そして、下記の取り組みのうち2つはまさに、我々一人一人が参加できる、市民によるデータサイエンス活動として、AI/アナリティクスの心臓部分であるデータをクラウドソーシングによって作り上げるプロジェクトです。 Data for Good: 人間社会に大きな影響を及ぼすミツバチの社会をより良くする 概要はこちらのプレスリリース「SAS、高度なアナリティクスと機械学習を通じて健康なミツバチの個体数を増大(日本語)」をご参照ください。 ミツバチは、人間の食糧に直接用いられる植物種全体の75%近くに関して受粉を行っていますが、ミツバチのコロニーの数は減少しており、人類の食糧供給の壊滅的な損失につながる可能性があります。この取り組みでは、IoT, 機械学習, AI技術, ビジュアライゼーションなどSAS のテクノロジーを活用し、ミツバチの個体数の保全/保護する様々なプロジェクトを推進しています。この取り組みは以下の3つのプロジェクトから成り立っています。 ミツバチの群れの健康を非侵襲的に監視 SASのIoT部門の研究者は、SAS Event Stream ProcessingおよびSAS Viyaソフトウェアで提供されているデジタル信号処理ツールと機械学習アルゴリズムを用いて、ミツバチの巣箱の状態をリアルタイムで非侵襲的に追跡するために、生物音響監視システムを開発しています。このシステムによって養蜂家は、コロニーの失敗につながりかねない巣箱の問題を効果的に理解し、予測できるようになります。 関連ページ:5 ways to measure

Analytics | Data for Good | Data Visualization
SAS Japan 0
アナリティクスでハチを数えて保護しよう!

この記事はSAS Institute Japanが翻訳および編集したもので、もともとはLee Ellen Harmerによって執筆されました。元記事はこちらです(英語)。 ハチを減少から救うために本当に必要なこととはなんでしょうか。 ハチの減少は目新しいニュースではありません。これまでにも、メディアによって農作業の工程や農薬がハチに影響を与えていることが取り上げられています。また、スタートアップ企業がハチの個体数を再び立て直そうと取り組んできた例があります。しかし依然として、ハチは世界的に重大な減少の一途を辿っているのです。 ハチを守るためには、養蜂家らが彼ら自身で出来る以上のことが必要とされています。養蜂家は自身の所有するハチやの巣箱の状態について熟知していますが、より大きな環境におけるハチについての知識は持ち合わせていません。そこは、市民科学者や一般市民らが力を発揮できるところです。 今日のハチの個体数の状態について理解し、減少を食い止めるためには、まず初めに私達のまわりにいるハチの実態を明らかにせねばなりません。ハチの保護を可能にするためには、ハチを“数える”ことが必要なのです。ハチの世界的な個体数を計数することは、地球上のハチの未来を守る第一歩です。ハチの計数作業によって集められたデータによって、ハチの種属ごとの生息地、そしてその生息地にハチがどのように分布しているのかといった重要な情報が明らかになります。SASはアパラチアン州立大学と共同でその取り組みを進めています。 ハチの保護に不可欠なテクノロジー 花粉媒介者であるハチとその環境を守るためには、私達はもはや伝統的な手法だけに頼ることはできません。その代わりとして使用されるのが、テクノロジーなのです。データの収集は始めの一歩でありますが、そのデータを可視化することで、養蜂家と研究者に迫り来る脅威を最も早く警告することができます。この指示器は、ハチに関するコミュニティの意思決定者に、これまで不可能と思われていた洞察を与えることができます。 その技術を実現するためのデータを集めるには、皆さんの助けが必要です。World Bee Countアプリケーションを通じて、人々はハチの計数に貢献し、周囲の環境にいるハチの写真を送信することができます。 “World Bee Countによって、私達はクラウドソーシングでハチのデータを集めることができます。それを使って、地球上のミツバチの個体数を可視化し、今日のミツバチに関する最大級の有益なデータセットを作り上げることができるのです。” アパラチアン大学 分析研究・教育センター理事 Joseph Cazier教授 SASは世界の最も逼迫した問題を解決することに意欲的であり、ハチを守ることも無視することはできない問題であると考えています。これまで、私たちは分析によってハチの健康を促進させようと試み、そしてData for Goodへ情熱を注いできました。つまりこのパートナーシップは、好奇心と探究心を持って世界的な問題を解決しようとするSASの本質的な精神を反映しているのです。 アナリティクスをすべての人に SASは世界花粉媒介者マップを作成しました。これは、World Bee Countアプリを用いて”ハチを数える“ことで、市民科学者や養蜂家からクラウドソーシングで集められたデータを視覚化したものです。このプロジェクトの後の段階では、研究者は作物の収穫高や降水量、その他ハチの健康に関係する重要なデータポイントを重ね合わせます。そうして、私達の世界でもっとも重要な花粉媒介者について、より包括的な理解を集約させます。 多くの人がデータを追加し、相関関係が導き出されるような豊富なデータセットを作成することで、可視化によるアナリティクスが実現できます。ハチのデータの単純な可視化から始まる取り組みは、ハチの個体数やその減少に繋がる要因の研究、そしてどのようにして私達がハチ全体の健康を促進させることが可能かといったような研究に対して、無限の機会を提供できるでしょう。   アプリをダウンロードして始めよう アプリケーションで写真を送信することは小さなことですが、ハチを保護するための活動として重要な役割を果たします。ハチは蜂蜜という素晴らしい自然の恵みを与え、私達に彩り豊かな朝の食卓を提供すると共に、私達の健康を促進させてくれます。5月20日は世界蜂の日として制定されています。beescount.orgからアプリをダウンロードして蜂の日を祝うと共に、見つけたハチの数をカウントしてみませんか? 今月だけでなく6月や7月、そしてその先のハチ月を超えてこの活動を続けていけたらいいですね!  

Analytics | Students & Educators
0
【学生・教員向け】学習ポータルAcademic Hubの紹介

学生の皆さん、おうち時間をどのようにお過ごしでしょうか。「自宅にいる時間が多くなったけど何を勉強したらいいかわからない」「この機会にSASの認定資格を取ってみたいから勉強の進め方を知りたい」と考えている方に、本記事ではSAS Academic Hubを紹介したいと思います。 SAS Academic Hubには、前回のブログで紹介したSAS Learning Subscriptionに含まれているe-learningやSAS認定資格の申し込みページが集められていて、自分の勉強目的からコースを選択してステップを進めることで知識を習得できたりSASの認定資格の学習ができたりする、学生と教員向けのポータルです。 それでは、SAS Academic Hubについて、学生向けに「どんな学習コースが提供されているのか」「使用するときのポイント」「学生にとってのメリット」を紹介します。   1.学習コースを選択しましょう SAS Academic Hubには合計8個の学習コースがあり、そのうち6個のコースでSASの認定資格のために活用することができるようになっています。ここから自分の興味にあうコースを選択してください。 コースを選択すると、次のページは4つのStepに分かれています。 Step1: ソフトウェアへのアクセスについて Step2: 学習 Step3: 試験対策の紹介と模擬問題 Step4: 実際の認定試験への案内 各ステップにはソフトウェアにアクセスできるウェブページや教材、e-learning、ビデオなどが割り振られています。またそれらにはMore informationが付いていて、そのページに何があるかを簡潔に紹介しています。   2.学習コースを進めましょう 今回は、SAS言語を初めて使う人向けで、プログラミングをする際に意識しておきたいプロセスなどを学習することができるGetting Started with SAS/ SAS Certified Specialist: Base Programming Using SASを例に、実際の学習コースを紹介します。 Step1:ソフトウェアへのアクセス この学習コースで必要なソフトウェアが提供されているページを紹介しています。このステップでそのページからソフトウェアにアクセスすることで、次のステップで学習する内容を自分でも演習することができます。 Step2: 学習 実際にLessonを受講します。ここでは、前回のブログで紹介したSAS Programing1:EssentialがLessonに割り振られています。Lessonの詳しい内容は前回のブログで紹介していますので、是非参考にしてください。 Step3: 試験対策の紹介と模擬問題 受講した学習内容が試験内容に含まれているSASの認定資格の試験対策を紹介しています。模擬問題も提供されています。 Step4:

Analytics
SAS Japan 0
カオス状況下での予測/フォーキャスティング: IBFバーチャル・タウンホールからのメモ

この記事はSAS Institute Japanが翻訳および編集したもので、もともとはMichael Gillilandによって執筆されました。元記事はこちらです(英語)。 カオス状況下での予測/フォーキャスティング Institute of Business Forecasting(IBF)は、「世界的パンデミックというカオス状況下での予測と計画」に関して80分間のバーチャル・タウンホールを開催しました。現在、それを録画したオンデマンド・ビデオが公開されており、一見の価値が大いにあります。そこには、以下のような経験豊富な識者陣による堅実かつ実践的なガイダンスが満載です。 エリック・ウィルソン(Eric Wilson)氏: IBFのソートリーダーシップ担当ディレクター(司会者) ダスティン・ディール(Dustin Deal)氏: 北米ビジネス・オペレーショズ担当ディレクター、Lenovo社 パトリック・バウアー(Patrick Bower)氏: グローバル・サプライチェーン・プランニング&カスタマー・サービス担当シニア・ディレクター、Combe社 アンドリュー・シュナイダー(Andrew Schneider)氏: サプライチェーン担当グローバル需要マネージャー、Medtronic社 ジョン・ヘルリーゲル(John Hellriegel)氏: IBFのシニアアドバイザーおよびファシリテーター 以下に、私が各パネリストから得た重要な知見をまとめます。 ジョン・ヘルリーゲル氏: 今現在、マクロ予測は相当困難であり、ミクロ予測(製品レベルに至るまで)は更に困難である。 平時状況を超えるレベルで多数の介入要因(例:政府による刺激策、原油価格の下落など)が存在しており、それら全てが不確実性と複雑性を増大させている。 高い予測精度が期待できないことから、需要計画担当者は企業における「不確実性の理解」と「適切な意思決定の実現」を支援することにフォーカスするべきである。 最も役立つのは、明確な前提条件に基づくシンプルなモデルである可能性が高い(例えば、個々の品目を調整しようと多大な労力を費やすのではなく、「3ヶ月間、各カテゴリーで25%の削減を実施する」など)。 ジャスティン・ディール氏: 中国では生産が回復しつつあるが、物流の遅延は依然として存在する。 マクロ/ミクロの両レベルでデータを収集するべき。これには、チャネルの在庫とセルスルー(実販売数)も含まれる。 チャネル在庫が低水準な場所や、即座の補充が必要な場所を把握するべき。 プランニング(例:S&OP)をもっと頻繁に実行するべき。 アンドリュー・シュナイダー氏: 今現在は、典型的な需要計画を行うのではなく、代わりに、「需要衛生サービス」(データ・クレンジング、仕入数/実売数の比較・把握など)にフォーカスするべき。 物事が平時状況に回復するまでの間は、需要の統御(コントロール)および形成(シェイピング)にフォーカスするべき。 変動係数を活用して、どの製品がCOVID-19(新型コロナウイルス感染症)の大規模な感染拡大のインパクトを最も受けるのかを特定するべき。そして、そのインパクトに従って製品をセグメント化し、リスクベースのABC分析を考慮する。 「データの観察・収集という “受動的” な取り組み」と「欠品状況から “入手可能な代替製品” への需要推進という “能動的” な取り組み」とを区別するべき。 需要シグナルの品質を評価するべき。POS(販売時点情報管理)システムを導入済みであれば申し分ないが、未導入の場合でも、顧客の真のニーズの解明に努めるべき(注文数/注文減少数/注文残数などの状況を踏まえた上で)。 組織内のデータだけでなく、外部の追加的なデータソースの活用も試みるべき。そこから何が分かるか? 需要の確率分布を考慮するべき。ただし、過剰な取り組みは禁物。「平時状況に回復した後、組織がトラブルに直面するような事態」を招いてはならない。 今現在は、精度についてはそれほど心配する必要はない。代わりに、様々なアプローチの予測付加価値(FVA)を検討するべき。

Analytics | Learn SAS | Students & Educators
0
Stay Home and Learn SAS:おうち時間にSASを学習しよう

新型コロナウイルスの感染拡大により私たちの日常生活は大きく変化しており、自宅で過ごす時間も増えています。この機に「新しく統計学やプログラミングを勉強し始めたい!」、「SASの認定資格を取りたい」と考えている方も少なくはないのでしょうか。コロナウイルスの影響により在宅を余儀なくされた皆さんに、SASはさまざまなオンライン・コースを含むSAS®トレーニング・リソースを30日間無料で提供しています。(プレスリリース) 本記事では、提供されているオプションの中からSAS Learning Subscriptionの紹介をします。これはVirtual Learning Environment のなかで提供されているSASのe-learningが集まったポータルです。   1.SAS Learning Subscriptionに登録しましょう 最初にSAS Learning Subscriptionの登録手順です。こちらのページにアクセスして、以下の手順で登録してください。 SAS Learning Subscription 登録手順 from SAS Institute Japan 2.Learning Pathを選択しましょう SAS Learning Subscriptionにはオンラインで受講可能なLearning Pathが複数あり、またテーマごとにショートビデオや学習コースが設置されています。本コースの言語は英語で、コース内動画は英語字幕に対応しています。今回は、Learning Pathの中からSAS Programingを実際に学びながらSAS Learning Subscriptionの紹介をしていきます。 先ほどのSAS Learning Subscriptionへの登録を行うと、Virtual Learning Environmentへ移動します。画面左上をクリックして展開し、SAS Learning Subscriptionを選択してください。 ページ中央に上図のようなLearning Pathの一覧が載っています。ここで、自分の興味にあうLearning Pathを選択してください。学習コースにはそれぞれショートムービーやcourse notes、リンクなどが掲載されています。基礎からその利用まで順を追って説明がされるため、プログラミングなどに自信がない方でも取り組みやすい点が特徴です。   3.コースを受講して学習を進めましょう それではSAS Learning Subscriptionの学習コースの中からSAS Programing1: Essentialsを実際に進めてみましょう。以下のスライドで、最初のLessonであるCourse

Analytics | Data Visualization
SAS Japan 0
指数関数的成長の倍加時間を推計する

この記事はSAS Institute Japanが翻訳および編集したもので、もともとはRick Wicklinによって執筆されました。元記事はこちらです(英語)。 2020年における新型コロナウイルスの世界的流行のようなエピデミック状況下では、各国の感染確認者の累計数を示すグラフがメディアによって頻繁に示されます。多くの場合、これらのグラフは縦軸に対数スケール(対数目盛)を使います。このタイプのグラフにおける直線は、新たなケースが指数関数的ペースで急増していることを示します。直線の勾配はケースがどれほど急速に倍加するかの程度を示し、急勾配の直線ほど倍加時間が短いことを示します。ここでの「倍加時間」とは、「関連状況が何も変わらないと仮定した場合に、累計の感染確認者数が倍増するまでに要する時間の長さ」のことです。 本稿では、直近のデータを用いて倍加時間を推計する一つの方法を紹介します。この手法は、線形回帰を用いて曲線の勾配(m)を推計し、その後、倍加時間を log(2) / m として推計します。 本稿で使用しているデータは、2020年3月3日~3月27日の間の、4つの国(イタリア、米国、カナダ、韓国)における新型コロナウイルス感染症(以下、COVID-19)の感染確認者の累計数です。読者の皆さんは、本稿で使用しているデータとSASプログラムをダウンロードすることができます。 累計感染者数の対数スケール・ビジュアライゼーション このデータセットには4つの変数が含まれています。 変数Region: 国を示します。 変数Day: 2020年3月3日からの経過日数を示します。 変数Cumul: COVID-19の感染確認者の累計数を示します。 変数Log10Cumul: 感染確認累計数の「10を底とする対数」(=常用対数)を示します。SASでは、LOG10関数を用いて常用対数を計算することができます。 これらのデータをビジュアル化する目的には、PROC SGPLOTを使用できます。下図のグラフは感染確認者の総数をプロットしていますが、総数の縦軸に常用対数を指定するために「type=LOG」と「logbase=10」というオプションを使用しています。 title "Cumulative Counts (log scale)"; proc sgplot data=Virus; where Cumul > 0; series x=Day y=Cumul / group=Region curvelabel; xaxis grid; yaxis type=LOG logbase=10 grid values=(100 500 1000

Artificial Intelligence | Data for Good
SAS Japan 0
森林破壊とAIの出会い ―休校中のこどもたちでもできること―

この記事はSAS Institute Japanが翻訳および編集したもので、もともとはLucy Kosturkoによって執筆されました。元記事はこちらです(英語)。 あなたは今まで、実際に現地に行かなくても熱帯雨林を助けることは出来ないかと考えたことはありますか?考えたことがないでしょうか。 でも今がチャンスです。地球をまもるための活動もバーチャルで実施することがでる時代です。私たちの熱帯雨林プロジェクトでは、人工知能(AI)について少しずつ学びながら熱帯雨林を保護する機会を、家で過ごしている児童・生徒の皆さんに提供します(もちろん、大人の方にもご協力いただけます!)。こちらがご自宅でもできる学習ステップガイドです。 このガイドは4つのステップに分かれています: Step1: AIが人類のためにどのような役割を担うのか理解しよう Step2: 熱帯雨林のためにどのようにAIを活用するか見てみよう Step3: 画像の分類に力を貸してください Step4: さらにAIを用いて解決できる他の問題を見つけよう   Step 1: AIが人類のためにどのような役割を担うのか理解しよう 私たちは、電気によって生み出された力やインターネットを通じて形成された世界全体の繋がりから、人類の歴史や人々の生活・労働上での技術の転換を知ることができます。AIはそれらの技術の最先端に過ぎません。いわゆるスマート家電から電気自動車まで、AIは私たちが考えていた働き方・運転の仕方・学習など多くのことを変化させてきました。 AIは人間と機械の長所をつなぎ合わせます。コンピュータの処理速度と高い継続性に人間の知性を組み合わせることで、それぞれだけでは実現できないものを作り上げることができます。AIを用いると、私たちは人間にとっては危険なこと(危険な環境の探索など)をコンピュータに実行させるようにトレーニングすることや、監視カメラの管理など人間が継続し続けることが難しい作業をコンピュータに任せることができます。これらは、ルールを設定することが容易な直感的な問題ではなく、未知で予測不可能な状況が溢れている問題です。プログラマーはコンピュータが必要とするルールを開発するのが困難なので、AIを使用して命令を開発します。 例として、複数選択と記述で答える質問がある学生の課題を採点するために開発されたコンピュータプログラムについて考えてみましょう。 複数選択式の質問には4つの選択肢がありますが、その中で正解は1つです。プログラマーは、その学生の回答が正解かどうかを評価する従来のコードを作成します。そのルールは簡単で、「Q:生徒の回答は正解と一致しますか」「A:はい、または、いいえ」です。 では、記述式の質問はどうでしょう?記述の正解は1つではありません。その記述が正しいかどうかを判断するルールも存在しないかもしれません。「記述は何文字以上必要か」「段落の数はいくつか」「必要な単語・用いてはならない単語はあるか」など、記述を適切に採点するためのルールを作成する方法はなく、そのルールは様々な判断と細かい評価が影響してきます。 この場合、プログラマーは従来のコードの代わりにAIを使用します。この問題を解決するために、プログラマーはまず評価の高い記述と低い記述のサンプルを集めます。そのサンプルは多い方が望ましいです。そのサンプルに機械学習アルゴリズムを用いて、コンピュータが優れた記述の基準を識別できるようにします。コンピュータにあらかじめ指示すべきルールはわかりませんが、そのルールが有効かどうかを判断することが出来ます。別のサンプルを用意して、先ほど作成したルールを適応したときに評価の高い記述と低い記述に分類されているかどうかを確認することで、ルールの基準をテストできます。 森林破壊など、世界規模の問題に取り組む際も同様の手法を適用することが出来るのです。   Step 2: 熱帯雨林のためにどのようにAIを活用するか見てみよう SASはIIASAと提携し、AIの専門知識と科学システム分析を統合して、地球を見るための新しい「目」を作りました。この提携によって、惑星映像から森林破壊の領域を自動的に検出できるようになります。コンピュータは何百万もの衛星画像を調べることにより、森林破壊の影響を受けた熱帯雨林の範囲を科学者に警告します。これにより、400万㎢を超える熱帯雨林を短期間で調査し、衛星画像が更新されるたびに調査を繰り返すことが出来ます。

Analytics
0
SAS Visual Forecastingで、セグメンテーション予測を実践し、複雑な需要傾向を持つ時系列予測を簡潔に実現

商品やサービスを販売している企業においては、過剰在庫を防止したり、欠品による機会損失を防止し、収益を最大化するために需要予測が行われています。しかし、実際のビジネスの現場では、需要や売れ行きの傾向が異なる品目が混在するようなケースでは、その予測に多くの手間と時間がかかってしまうなどのいくつかの課題があります。 例えば、通年売れる品目や動きが遅い品目、新規品目、季節に影響を受ける品目などがあり、これらは同じ時系列モデルで処理できるわけではありません。このような課題に対する一つの解決策としては、パターンの近い商品をサブセグメントに小分けし、そのセグメントに応じて予測戦略を適用しわけることで、精度を向上します。つまり、時系列データの特徴を自動に分析して需要のパターンごとにデータを分類し、需要パターンごとに予測作業をすることです。この需要パターンの自動分類と予測については、すでにブログでご紹介しているので、こちら「SAS Viya: ビジュアルパイプラインで需要分類&予測」を参照してください。 一方で、単に時系列データとしての特徴だけではなく、品目の種類や販売地域など、業務的な観点での品目属性によって予測を管理したり、または、属性情報を加えて特徴エンジニアリングし、その特徴量と属性を加味することで精度向上を期待することもあります。そうすると、さらに自由に複雑な属性を持つ大量な時系列データを小分けして精度の高い予測結果が期待できます。つまり、ビジネス的な品目属性に基づいてデータを分割し、業務システムから属性ごとの品目データを抽出、加工処理し、それぞれ別々にモデリングを行うケースです。予測結果の全体像を把握するためには、個別に予測を実施した後、それらの結果を収集し、統合する必要もあります。 しかし、このような、データの分割や再集約には多くの手間がかかりますし、データを管理するための命名ルールなども慎重に行う必要があります。こうした課題を解決し、需要傾向の異なる商品が混在する大量のデータに対して、一つのモデリングプロジェクで最適な需要予測を一括で行うことができたら、便利だと思いませんか? 今回は、このような実際の背景にもとづき、こうした複雑な分析処理を一元的に、手軽に実現できるSAS Visual Forecastingのセグメンテーション予測機能を紹介させていただきます。 SAS Visual Forecastingの機能を活用することで、時系列データを、データの性質(動きが遅い品目、新規品目、季節品目など)に基づき、複数の類似する時系列セグメントに分割することができます。その上で、予測プロジェクト内で各セグメントを個別にモデル化できます。これにより、ユーザーは各セグメントにおける時系列のパターン/特性をより的確にモデル化するためのモデリング戦略の調整を行えるようになりますし、予測結果を全体的に把握することも可能になります。 それでは、一つの具体例を見ながら、Visual Forecastingのセグメンテーションの有用性を実感していきましょう。 今回は、米国でスキンケア商品の販売を手掛ける企業における、需要予測の課題を解決することを想定しています。この企業は、スキンケア商品の時系列売上データに基づき商品セグメントごとに二週間先の売上高を予め把握(予測)しておきたいと考えていました。 まずはスキンケア商品の時系列データを見てみましょう: 上図のように、毎日各倉庫から在庫の各商品を発送して売上高を計上、また店から各商品に行われたプロモーションやキャンペーンなどの情報を収集し、商品時系列データにまとめます。今回は、各倉庫の管理している商品売上高に基づき予測を行います。 上記の情報を表にすると下記の時系列データになります。 商品は「ProductKey」、販売倉庫は「DistributionCenter」、販売時間の時系列データは「DATE」、販売に影響する変数として割引率の「Discount」。最後に、予測目標の売上高は「Revenue」になります。 この販売トランザクション情報に、商品マスターの属性情報を加味します。 商品マスターの属性情報というのは、上図のような販売チャンネルや商品カテゴリーなどの商品が販売プロセスにおける各種補足情報のことです。例えば、販売量の高い商品はどの販売チャンネルから売れたか、どの商品カテゴリーのものか、これらの情報は商品の販売曲線の可視化にも使えるし、精確な予測にも不可欠であり、将来の販売推進方針にも繋げます。 一つの具体属性データサンプルを見ます。 商品のカテゴリーが「ProductCategory」、商品名は「ProductName」、商品の販売チャンネルが「ProductType」です。そして、商品セグメントが「_seg_」になります。セグメントという項目を少し紹介します。例えば、小売業界にとって通年売れる商品や季節限定の商品などが必ず存在すると思います。しかし、小売業者にとって、具体的に自社商品の中でどのようなものが通年売れる商品なのか、どのようなものが特別な時間にしか売れないのか、その商品を担当する担当者しか把握きません。長年にわたり、商品ごとに「通年売れる商品」や「夏限定商品」、「クリスマス商品」、「新規開発の商品」などの特徴を明白なビジネスノウハウにし、需要予測にも使いたいと考えています。このような情報を商品セグメントと称し、セグメントごと明らかに時系列特徴もはっきり分かれています。 最後に、下図のように、時系列データと属性データを結合させ、予測モデルに利用するマスターデータの準備が完成です。 今回はSAS Visual Forecastingを活用することで、時系列データを、データのセグメント属性(通年販売品目、新規品目、季節品目など)に基づき、複数の類似する時系列セグメントに分割し、精確な予測を実現することを目的としています。それを実現するため、本来であれば、各商品セグメントのマスターデータをそれぞれ抽出してモデル開発と予測を実施する必要があります。例えば、通年売れる商品に関しては従来通りにARIMAモデルで予測し、一方で、新たに開発し、販売後間もない新規開発の商品に関してはニューラルネットワークでのモデリングを適用したい場合があります。しかし、現在商品セグメントが多数もあり、データの前準備にも手間がかかります。 SAS Visual Forecastingのセグメンテーション予測機能を利用すれば、データの分割をせずすべての商品カテゴリーのデータを含むマスターデータで簡潔かつ精確にモデリングを行えます。     ここまでは今回のセグメンテーション予測イメージの説明になります。これからは実際にSAS Visual Forecastingで操作する様子を体験していきます。 まずは、Visual Forecastingのプロジェクトを一つ立ち上げます。プロジェクト名をセグメンテーション予測にして、テンプレートに外部セグメンテーションを選びます。データは先ほど説明したスキンケア商品の時系列データ「SKINPRODUCT」を選択します。 次はプロジェクトデータ設定画面で、予測用の時系列データの各列に役割を指定します。 例えば、以下のように役割を割り当てます 「時間」:「DATE」列(日付) 「独立変数」:「Discount」(値引額) 「従属変数」(ターゲット変数):「Revenue」(売上高) By変数というのは、時系列データをグループにまとめる単位を指しています。 そしてデータソースとして時系列データの属性情報を持っているマスター表「SKINPRODUCT_ATT_SEG」も追加します。この表を追加したことによって、さらに細かいグループベースで予測することができます。 この表には予めセグメンテーシ予測用に作成しておいた「_seg_」列が含まれます。中身は商品セグメント名で、計7セグメントが入っています。例えば、「Long term - All year goods」(通年販売商品)、「Long

Analytics | Data for Good | Data Visualization
SAS Japan 0
新型コロナウイルスの感染拡大を追跡するためにデータ・ビジュアライゼーション(視覚化)を利用する

この記事はSAS Institute Japanが翻訳および編集したもので、もともとはMark Lambrechtによって執筆されました。元記事はこちらです(英語)。 世界的な公衆衛生問題が拡散する際、初期段階では多くの不明事項が存在するものですが、新型コロナウイルスのように急速な感染拡大の場合は特にその度合が高まります。データ・ビジュアライゼーションは、傾向を理解したり、複数のデータポイントから意味のあるストーリーを組み立てたりするための優れたスタート地点となりえます。ウイルスの拡散状況を視覚化できる機能は、問題意識の喚起、そのインパクトの理解、そして究極的には予防努力の支援に役立つ可能性があります。 2019年12月31日、世界保健機関(WHO)の中国オフィスは、中国湖北省の武漢市で検知された原因不明の肺炎の感染ケースについて報告を受けました。最初の報告以降、この新型コロナウイルス(SARS-CoV-2)は世界的な感染拡大を見せており、感染者は30ヶ国以上の数万人に及び、「新型コロナウイルス感染症(COVID-19)」と呼ばれる急性呼吸器疾病を引き起こしています。 この状況を受け、SASは新型コロナウイルスの現況、場所、拡散状況、トレンド分析を描き出すインタラクティブなレポートを作成しました。 元になるデータは日次で更新されており、感染拡大の進行状況を定期的にチェックすることや、世界的な拡散状況を時間軸に沿ったアニメーションで確認することができます。この対話操作型レポートでは以下のことが行えます。 過去10日以内に新たに確認された感染者の数を調べ、このウイルスの感染率、回復率、死亡率がどのように推移しているかを確認する。 このウイルスがどの地域に侵入したかを調べ、発生地の中国と世界の残りの地域とで状況を比較する。 感染確認済みのケースを分析することで、回復率が時の経過に沿ってどのように変化しているかを理解する。 このレポートはSAS Visual Analyticsと、WHO、CDC、ECDC、NHC、およびDXYからのデータ(JHU CSSEによってコンパイルされたもの)を用いて作成されています[訳注:JHU CSSE=米国ジョンズ・ホプキンズ大学システム科学工学センター]。 SAS Visual Analyticsで作成した新型コロナウイルス・レポートの概要 「新型コロナウイルス感染症(以下、COVID-19)」の感染拡大に関するサマリー情報を手早く確認したい場合は、こちらをご覧ください。 このサマリー情報は、世界各地の統計情報を用いて日次で更新されています。このWebページのこれ以降では、各種レポートからの重要な洞察をスクリーンショットでご紹介します。実際のレポートでは、最新のデータに基づき、ご自身で対話操作しながら統計情報や分析結果を閲覧することができます。 地域別の詳細情報を確認したい場合や、対話操作型レポート全体を探索したい場合は、サマリー情報ページの右上隅にある「Full Report」ボタンをクリックすると、完全なダッシュボードを起動できます。 最初に表示されるダッシュボード・ビュー([Status]タブ)では、日次で更新されるデータに基づき、COVID-19の感染拡大の概況を簡単に確認できます。具体的には、新たに確認された感染者数、回復者数、死亡者数などを地域別にフィルタリングして閲覧することができます。 図1: COVID-19の感染拡大の概況。新たに確認された感染者数、回復者数、死亡者数などを地域別にフィルタリングして閲覧することができます。 レポートの[Locations]タブ(下の図2)では、 全世界および特定国の新型コロナウイルス関連データを確認できます。 図2:[Locations]タブでは、全世界および特定国の新型コロナウイルス関連データを確認できます。 特定国のデータを見るには、左上のフィールドに国名を入力します(下の図3)。 図3: 国名を入力すると、その国の詳細情報だけに集中することができます。 新型コロナウイルスの最初の感染者が中国で報告されてから既に何週間も経過しており、感染拡大は世界各地へと広がっています。私たちは、Esri社のGISマッピング・ソフトウェアから取得した地理空間データのレイヤーを追加することで、対話操作型の画面を用いて、中国とその他の国々にまたがる形で新型コロナウイルスの拡散状況を探索できるようにしました。 [Spread]タブでは、SAS Visual Analyticsの時系列アニメーション機能(下の図4)を用いて、ウイルスが世界全体に拡散していく様子を見ることができます。アニメーションを再生すると、中国国内での拡散状況や、世界全体の拡散状況および深刻度を確認できます。 図4: 時系列アニメーションで、ウイルスが世界全体に拡散していく様子を見ることができます。 [Trend Analysis]タブでは、様々なビジュアライゼーションを切り替えながら、COVID-19の感染拡大に関連したその他のデータの傾向を見ることができます(下の図5)。 図5: 日次の感染者数/死亡者数のトレンド分析 [Epidemiological Analysis]タブでは、罹患率および有病率を見ることができます。 図6: 10万人あたりのCOVID-19感染者数を国ごとに見る 図7: 期間有病率を国または地域ごとに見る [Collective Insights]タブは、全世界のまたは国ごとの感染拡大状況を1つの表にまとめています(下の図8)。

Analytics
SAS Enterprise GuideのカスタムタスクでPythonコード実行

SAS Enterprise Guide(EG)で簡単にPythonなどオープンソース・コードを実行できる方法を紹介します。 1.オープンソースコード実行用タスク(OST)の概要 2.事前設定 3.EGでの使用方法 4.AMOでの使用方法   1.オープンソースコード実行用タスク(OST)の概要 SAS Enterprise Guide(EG)は直感的なユーザインタフェース上で、マウスの簡単操作で、透過的にデータにアクセスし、様々な分析用タスクを活用し、データの準備から加工・変換、集計・分析、レポート作成に至る一連の作業をグラフィカルなフロー図として描き、実行することができるツールです。 一方、多くの組織ではPython, Rなど様々なオープンソースのスキルを持つデータサイエンティストが混在することが多く、こうしたオープンソース(OS)とのコラボレーションも必要になってきています。従来、EGとPythonなどOSと連携する際には、データでのやりとりが必要でした。例えば、EGで作成したデータをエクスポートし、OSユーザに渡して処理してもらうか、その逆か、になります。 都度このようにデータをやりとりするには手間と時間がかかりますし、データやPythonコードなどの管理も課題となります。こうした課題を解決する手段の一つとして、カスタムタスクを活用することができます。 カスタムタスク:EGには、数多くのタスク(データ準備用タスク、分析用タスク、など)が実装されています。このタスクは顧客ニーズに応じてカスタムで作成し、活用することができるようになっています。SASのサポートサイトからカスタムタスクを作成するためのテンプレートをダウンロードし、使用することができるようになっています。カスタムタスクの作成方法の詳細に関しては、次回のブログでご紹介します。 オープンソースコード実行用タスク(OST):OSTはOpenSourceTaskの略で、EGカスタムタスクのテンプレートに基づいて開発されています。OSTを使用することで、EG上で簡単にPythonコードを実行することができ、GUIベースの簡単マウス操作でPythonコードを再利用し、EG上で、標準実装のタスクとOSTを活用し、連携してアナリティクス作業を完結することができます。これによって、様々異なる分析スキル(GUIユーザー、SAS言語ユーザー、OS言語ユーザー)を連携し、有効活用することが可能となります。また、この分析処理は自動化することも可能です。  次にPythonコード実行用のOSTの使用方法を紹介します。EGのバージョンは8.2を使用したものです。   2.事前設定 ・Python環境の確認 まずSAS9サーバ側にPython環境がインストールされていることを確認してください。Pythonの環境がない場合は、PythonまたAnacondaなどPythonのruntimeをインストールする必要があります。 ・SAS9サーバーの設定 SAS9のSMC(SAS Management Console)を起動し、以下の画面を開きます。 「Environment Management」>「Server Manager」> 「SASApp」>「SASApp Logical Workspace Server」>「SASApp - Workspace」を右クリックし、「Properties」をクリックし 以下の設定でXCMDの実行を許可します。 「Options」タブ >「Advanced Options」>「Launch Properties」で「Allow XCMD」をチェックし、「OK」をクリックします。 設定を有効するにはシステムのObject Spawnerのサービスを再起動する必要があります。 ・OSTパッケージの取り込み OSTパッケージをダウンロードし、展開したCustomフォルダをEG(またAMO)のインストール先(以下画面ショットのロケーション)にコピーします。そのほか、臨時ファイル保存と作業用フォルダC:/Customを作成し、準備作業が完了です。 これで、OSTが使用できる状態になります。   3.EG上の使用方法 まず EGを起動し、処理対象データを選択します。今回はSASHELPライブラリ内にある「CLASS」を選びます。データを選択した状態で、タスクリストのSAS

Analytics
小林 泉 0
2020 ビジネスにおけるAI/アナリティクストレンド

アナリティクス・プラットフォームは、OSSとの機能的な連携にとどまらず、OSS利用環境そのものの価値を高めるプラットフォームへと進化 昨今、40年以上にわたりSASが提供続けてきたこのAI/アナリティクスが、時代背景とテクノロジーの進化によって、特定のAI/アナリティクス先進企業だけの道具から、ほとんどすべての企業にとって活用可能な-多くの場合競争に勝つためには活用しなければならない-道具になってきました。 従来より、SASはオペレーティング・システム、データソースや、システム・アーキテクチャなど特定のS/Wやテクノロジーに依存せず、どのような企業のIT環境にたいしても柔軟に適用可能なアーキテクチャでしたが、世の中のテクノロジーの変化に合わせ、その柔軟性をより高めるために、SAS Viyaを提供することになりました。 そして、SASはSAS Viyaのオープンなアーキテクチャにより、OSSで構成されたアナリティクス環境、OSSを利用するアナリティクス組織に、全く新しい俊敏性と信頼性の両方を兼ね備えたアナリティクス基盤を提供し、より多くの試行錯誤とリアルなビジネス価値の創出を可能とする環境を提供しています。 現在必要なのは、俊敏性と信頼性の両立 多くの企業が従来にも増してグローバルの競争にさらされています。不正・セキュリティ対策においてはより巧妙なスピードの速い攻撃に対応する必要があり、金融リスク業務はさらなる規制対応と同時によりプロアクティブな利益創出への転換をはじめており、顧客の購買行動はより多様化・リアルタイムな顧客経験が重要となり、モノのサービス化に代表されるようなビジネス・モデルの変革への急速な移行が求められ、製造品質はより速く、より品質の高いプロセスへの変革が要求されています。また、特に日本においては労働人口の不足により、たとえば製造プロセスやサプライチェーンの高度なレベルでの標準化と自動化、その他のビジネスプロセスにおいても様々なレベルでの意思決定を高精度に自動化する必要に迫られています。さらに、より付加価値の高いサービス提供のためのビジネス・モデル創出など、あらゆる場面でAI/アナリティクスの活用による、イノベーションが求められています。 変化の早い時代に必要な俊敏性 このような時代においてアナリティクス活用に求められる一つの側面は「俊敏性」です。本当に役に立つ洞察を得るためには、無数の試行錯誤・実験を繰り返す必要があります。アナリティクスにおいては、利用データの試行錯誤、利用アルゴリズムの試行錯誤、仮説検証の繰り返し、そのような試行錯誤・実験-それは場合によってはPOCと呼ばれることもありますが-によって結果的に得られた有用な洞察がイノベーションとなります。したがって、この試行錯誤・実験をより手軽に、迅速に行う手段が有用であり、それはソフトウェアの入手のしやすさや、最新の論文から技術的な手法に関する世の中の知の活用のしやすさなどの特徴のある、OSSの活用の一つの有用な活用形態となっています。 ここで一つ注意しなければならないのは、OSSの利用や関連論文の利用によって得られるものはビジネス上の洞察ではなく、あくまで手段としての技術テクニックの知識であるということです。ディープラーニングのようにあ「非構造化データを構造化する技術」であったり、「非常にスパースなデータからよりより推定を行うための技術」であったり。アナリティクスを活用してビジネス上の成果を得るためには、あくまで、そのような手段とは別に、まず初めにビジネス上の問題定義-デザインといってもいいでしょう-が重要です。これは従来からの世界では既知の視点です。これを忘れると、いわゆるPOC疲れなど、手段が目的化したプロジェクトに貴重なリソースを費やす結果となっていることは、ここ数年、市場でよく見られた光景です。 また、ビジネス上の洞察は常に「問い」に基づくものでありますが、ビジネスの営みの結果である「データ」に潜む「傾向」、すなわち「データに潜む洞察」、を瞬時に導き出す技術も出てきています。昨今「拡張アナリティクス」(AI Augmented Analytics)と呼ばれているものです。AIブームの中、AIを使いこなすこと-すなわちディープラーニングを使いこなすことであったり、予測モデルをいかに簡単に開発するか-そのものが目的化してきました。そのブームが落ち着きを見せ始め、ツールの中にAI技術が組み込まれ、ビジネスユーザーには本来不要であった「自動的に簡単にモデルを開発する」という仕事から、「自動的に洞察を得る」という本来すべきことに注力できるようになってきています。 洞察の獲得と得られた洞察をビジネスに適用するための信頼性 試行錯誤や実験において洞察を得るためには、闇雲に作業を繰り返すのではなく、過去の試行結果に基づいた試行錯誤を繰り返すというプロセスが必要となります。過去の実験はどのようなデータを利用したのか、そのデータはどのような文脈で取得されたのか、それをどのように加工・分析したのかというプロセスと、最終的な結果、このような情報を統制・管理したもとでの試行錯誤でなければ、試行錯誤の積み重ねによる洞察は得られません。つまり、昨今例えば、デジタルトランスフォーメーションのための専任部門によって無数に繰り返されるPOCについても、ガバナンスが必要となるということです。このように適切に統制されたPOC活動は仮にそのPOCからその時、有用な洞察が得られなかったとしても、貴重な資産として次のPOCに生かされるのです。 さらに、試行錯誤やデータの探索によって得られた得られた洞察を実際のビジネス上の価値-それは収益の向上、コストの削減、リスクの管理に大別されます-に変えるには、業務そのものの意思決定プロセス・アクションに落とし組むことが必要です。AI/アナリティクスをビジネス・プロセスとして運用するということは、アナリティクス・モデルによって意思決定を自動化することに他なりません。 また、企業・組織がビジネス・プロセスとしてそのような意思決定を回すためには、アナリティクス・モデルによる結果すなわち、ビジネス上のアクションの結果をモニターし評価する必要があり、市場の動向変化によるモデルの陳腐化に対応するためにモデルのパフォーマンスを管理をする必要があり、現在システムに組み込まれているモデル-これをチャンピオンモデルと言います-はなにかを管理する必要があり、さらには、望まない結果が生じた場合に-あるいはその逆の場合にも-結果に対する説明責任を果たすために、そのモデルの成り立ち-使用したデータ、データ加工のプロセス、モデリングのプロセスなど-を管理する必要があります。 俊敏性と信頼性を両立するSAS Viyaのガバナンス機能とは SAS Viyaでは使用するプログラミング言語を問わず以下のガバナンス機能を提供します。これにより、統制のとれたコード・アグノスティックなアナリティクス環境を実現します。 完全にオープンなI/Fによる民主化されたツールにより、どのようなスキルの方でも利用可能 SAS Viyaでは完全なコード・アグノスティック(データサイエンティストは自身が好きなプログラミング言語を利用可能)な世界を実現しており、データ加工、統計解析、機械学習、ディープラーニングなど各種のアナリティクス処理だけでなく、ユーザー管理、セキュリティ管理、システム管理、データ管理からモデル管理まで、全ての機能をOSSプログラミング言語であるPython, R, REST APIから利用可能です。 また、従来からあるSAS9においても、ほとんどのSASプロシジャをpythonから利用可能になっています。 もちろん、コーディングスキルを持たないビジネス・ユーザーはデータの準備、探索、モデリングまでシームレスに連携したグラフィカル・インターフェースによって市民データサイエンティストとしてアナリティクス・プロジェクトに貢献することが可能です。 OSSかどうかにかかわらず、データに基づいた洞察を価値に変えるためにのビジネス上でのオペレーショナライズを支援 AI/アナリティクスから実際のビジネス価値を創出するためには、問い(問題設定)、データの準備、データの探索、モデリング、意思決定プロセスの構築、業務オペレーションへの組み込み、意思決定(アクション)の結果のモニタリグ(レビュー)という一連のアナリティクス・ライフサイクルを、様々な組織の役割が強調して実現する必要があります。業務オペレーションへの組み込みには大きく分けて二つの形態があります。 バッチスケジューリングによるスコアリング処理 アプリケーションから呼び出されるリアルタイム・スコアリング処理 スコアリング処理 ここでいうスコアリングとは、昨今のAI・機械学習ブームの中、その研究領域で使用されている「推論」と同じものです。ビジネスの世界では、二十数年前からこの「スコアリング」という呼び方で実施されていました。顧客の購買確率や解約確率のスコアを出す、信用リスクのためのスコアを算出、などというようにです。 1.バッチスケジューリングによるスコアリング処理 スコアリングの仕組みにおいては、ほとんどのケースでシステムの安定性の観点も鑑み、こちらの方式が採用されます。後述のリアルタイム・スコアリングのケースにおいても、あらかじめスコアリングした結果を検索するだけで済むトランザクション処理がほとんどなためです。全顧客あるいは全セグメントに対してあらかじめスコアを算出したものを、業務システムに連携します。 このケースにおいてはのチャレンジは、開発したモデルをもとにプロダクション・レベルのバッチ処理を開発・テスト・スケジュール化・運用することです(デプロイメント・プロセスと呼びましょう)。モデルの入力データを作成する処理を作る必要があるからです。チャレンジのポイントは、そのデプロイメント・プロセスをユーザーサイドが行うのか、IT部門サイドが行うのか、はたまた、どのようにシームレスに強調するのかです。これは、モデルを組み込む業務プロセス、たとえば商品の数、サービスの数が多いケースにおいてすでに課題となっています。 約二十年前のデプロイメント・プロセスについての余談ですが、ある通信会社において顧客ごとの解約予兆スコアを算出していました。プロジェクトメンバーの一人であったお客様のIT部門の担当の方は、このスコアをもとに接客すべきと、すぐに、そのスコアテーブルのデータを販売店に持参し参考にしてもらうことで、大きな効果を生み出していました。今の時代とは、使用するデータと技術が異なるだけで、ビジネスプロセスにデプロイするという意味は全く何も変わってないことがお分かりいただけると思います。 2.アプリケーションから呼び出されるリアルタイム・スコアリング処理 リアルタイム・スコアリングにはさらに2種類の技術的視点があります。オンライン・トランザクション処理のタイプと、ストリーミング処理のタイプです。これら二つは日本語で言うと同じように「リアルタイム処理」と表現されることが多いですが、技術的な実現イメージはことなります。前者は、リクエスト/レスポンス型であり、その多くはフロントエンドのアプリケーションから、例えば顧客情報などの必要データがスコアリング・エンジンに渡され(リクエスト)、与信結果のスコアを返す(レスポンス)といういわゆるトランザクション処理になります。昨今のREST APIインターフェースなどはこの目的のものです。一方で後者は、データが絶え間なく流れてくるセンサーデータを処理するような場合で、ストリーミング型と言われます。この時のデータのことをイベントと言ったりもします。データ(イベント)がやってきた際に処理が実行されます。多くは、IoTという言葉が登場するシーンで求められる処理方式です。 どちらのタイプにせよ、このリアルタイム・スコアリングを組み込むシステムにモデルを組み込むときには、アプリケーションの開発プロセスを意識する必要があります。なぜなら、アプリケーション・ロジックの変更を伴なうモデル変更も多々あるからです。たとえば、与信システムにおいて新たな説明変数の入力を必要とするモデルの変更は、フロントアプリケーションのUIの変更を伴います。昨今、アプリケーションの開発・テスト・運用プロセス(DevOps)と、モデルの開発・テスト・運用プロセス(ModelOps)の融合が求められているのは、このためです。 2020のAI/アナリティクス・トレンド AIブームも少し落ち着きを取り戻し、モデルの開発という本来手段であることそのものが目的化してしまっている状況から、開発したモデルをビジネスプロセスにデプロイするという本来目指すべきことの重要性が、このAI市場にも浸透しつつあるようです。筆者は、様々なお客様のご支援を通して、またメディアの方々、リサーチファームの方々との情報交換を通して、2020年、以下の3つが引き続きトレンドとなるのではないかと考えています。 アナリティクスの民主化 AI技術のコモディティ化(隠ぺい化)し、「拡張アナリティクス」として進化 OSSプログラミングからGUIユーザーまでが共存可能なオープンなアナリティクスプラットフォーム 人材の活用と技術伝承のための「共有とコラボレーション」

Analytics
0
R言語でSAS ViyaのAI機能活用 第二回「アクションセットと最初のデータ読み込み」

概要 第一回の「CASサーバーとSWATパッケージ」に続き、第二回としてCASのアクションセットの活用やCASサーバーへのデータ読み込みなどの基本操作の方法について紹介します。 アクションセットについて CASサーバー上での分析作業を開始する前に、“アクションセット”という重要な概念に関して紹介します。 アクションセットは、関連する機能を実行するアクションの論理的なグループです。 SAS Viyaでは、関数のことを「アクション」、関連する関数のグループを「アクションセット」と呼んでいます。アクションでは、サーバーのセットアップに関する情報を返したり、データをロードしたり、高度な分析を実行するなど、さまざまな処理を実行できます。 アクションセットを使ってみましょう それでは、サンプルコードを使いながら、SAS Viyaのアクションセットでデータの読み込みからプロットまでの一連の操作を説明します。 ・データの読み込み CASサーバーにデータを読み込むには二つの方法があります。一つはread.csv()でcsvファイルをRデータフレームの形で読み込んだ上で、as.casTable()を使用する方法です。この関数はデータをRのデータフレームからCASテーブルにアップロードすることができます。今回の例では金融関連のサンプルデータhmeqを使って紹介します。 library("swat") conn <- CAS(server, port, username, password, protocol = "http")   hmeq_data <- read.csv(“hmeq.csv”) hmeq_cas <- as.casTable(conn, hmeq) もう一つはcas.read.csv()を使って、ローカルからファイルを読み込んで、そのままCASサーバーにアップロードする方法です。仕組みとしては、一つ目の方法と大きくは変わりません。 hmeq_cas <- cas.read.csv(conn, hmeq) as.casTable()或いはcas.read.csv()からの出力はCASTableオブジェクトです。その中に、接続情報、作成されたテーブルの名前、テーブルが作成されたcaslib(CASライブラリ)、およびその他の情報が含まれます。 Rのattributes()関数を使えば中身を確認できます。 attributes(hmeq_cas) $conn CAS(hostname=server, port=8777, username=user, session=ca2ed63c-0945-204b-b4f3-8f6e82b133c0, protocol=http) $tname [1] "IRIS" $caslib [1] "CASUSER(user)"

1 2 3 4 5 8