Uncategorized

Analytics | Data for Good
0
パブリックデータを使った子宮頸がんを取り巻く日本の状況の可視化

2021年11月、国が一時停止している子宮頸がんを防ぐHPV(ヒトパピローマウイルス)ワクチンの積極的な接種の勧奨の再開が厚生労働省の専門家による検討部会によって正式に承認されました。このHPVワクチンは世界保健機関(WHO)がその接種を推進しており、日本をはじめとして多くの先進国では公的接種とされています。この記事はData for Good活動の一環として、パブリックデータを用いて問題を可視化することで、子宮頸がんに対する認知や関心をより持っていただき、今後のHPVワクチンの普及につなげることを目的としています。   子宮頸がん 子宮頸がんのほとんどはヒトパピローマウイルス(HPV)というウイルスの感染が原因となり子宮の頸部に発生するがんの一種です。感染の経路は主に性的接触によるものであり、成人女性の大部分はHPVに感染するとされています。HPVに感染してもその多くは自然に消失しますが、一部は頸部の細胞が異常な変化を起こした子宮頸部異形成というがんの前段階(前がん病変)になります。そしてさらにその一部が数年から10年ほどで悪性腫瘍へと進展し、子宮頸がんを発症します。この子宮頸部異形成(前がん病変)の早期段階では自覚症状はほぼなく、病変を発見するためには子宮頸がん検診を受けることが必要ですが、自覚症状があまりないために検診を受けた段階で既に進行がかなり進んでしまっているケースもあります。 国立がん研究センターがん情報サービスは国立がん研究センターが運営している公式サイトであり、日本国内のがんに関する統計情報ががん種別に公開されています。今回はその統計情報の中から、子宮頸がんに該当するデータ(がん種:子宮頸部)を抜き出し、無料で利用可能なSAS OnDemand for Academicsを利用して可視化を行いました。日本での死亡者数は2019年度時点で年間約3,000名、罹患者数は2018年時点で約11,000名ほどとなっており、下図のように増加の一途をたどっています。 出典:国立がん研究センターがん情報サービス「がん統計」(人口動態統計) より作成 ま子宮頸がんの罹患者数は2009年~2018年(最新)まで10年連続で1万人を超えており、罹患者数は30歳頃から増え始め現在は45-49歳が最も罹患が多い年代層となっています。また罹患する年齢層が若年化していることも危険視されています。子宮頸がんに対して我々ができることは以下の二つです。 子宮頸がん検診を受けること(発見) HPVワクチンを接種すること(予防) 私たちにとって重要なことは、2年に1度の受診が推奨されている子宮頸がん検診によって異形成(前がん病変)を早期に発見すること。そして検診と同様に重要ことが、HPVワクチンを接種し対応するHPVの感染を防ぎ、子宮頸がんとなるリスクを下げることです。   HPVワクチン 子宮頸がんの原因となるHPV(ヒトパピローマウイルス)は現在100種類以上の存在が知られており、そのうちのいくつかは子宮頸がんを引き起こしやすいハイリスク型に分類されます。HPVワクチンにも様々なタイプがありますが、日本では定期接種の対象となっているのは2価(サーバリックス)と4価(ガーダシル)のワクチンで、接種することでおおよそ50~70%程の感染を防ぎ子宮頸がんになるリスクを減らすことが可能です。また2021年2月24日からは9価ワクチンも日本での取り扱いが開始されましたが定期接種の対象ではないため自費での接種となっています。     「接種の積極的な勧奨」について HPVワクチンは下図のようにいくつかの事業、法案の後押しもあり、その対象となる年齢の女性へ接種の積極的な勧奨が行われていました。しかし公費での定期接種開始後に副反応の報告が相次ぎ、副反応と接種との因果関係や、その頻度、海外での詳しい実態調査が必要とされ、厚生労働省は約半年間をめどに「接種の積極的な勧奨」の一時中止という決定を2013年6月に下しました。当初は半年間がめどとされていたものの、一時停止はその後も続き、ワクチンの有効性が様々な研究により示され2021年11月に接種の積極的な勧奨の再開が正式に決定されるまで約8年の月日がかかりました。 専門家らの研究結果によると、接種の積極的な勧奨が一時停止されるまではおおよそ70%であった定期接種の対象年齢での接種率もこの一時停止により現在は1%未満にまで落ち込んでしまっています。論文のデータをもとに出生年ごとのワクチン接種率を可視化したものが下図です。 Nakagawa S, Ueda Y, Yagi A, Ikeda S, Hiramatsu K, Kimura T. Corrected human papillomavirus vaccination rates for each birth fiscal year in Japan. Cancer Sci. 2020;111(6):2156-2162. doi:10.1111/cas.14406 より作成

Analytics | SAS Events | Students & Educators
0
SAS Global Forum2021で世界を覗こう

SAS Global Forumオンデマンド配信の紹介 SAS Global Forumは、年に一度開催される世界最大級のアナリティクス・カンファレンスです。南北アメリカ、アジア太平洋地域、EMEAの3つの地域ごとにイベントは分かれており、アジア太平洋地域は5/19(水)~5/20(木)に開催されました。イベントの内容は2021年6月25日(金)までこちらより、オンデマンドで視聴可能です。 Forumでは、様々な分野のトップ企業、スピーカーの刺激的な講演を聞くだけでなく、トレーニングや技術セッションといった学習機会も提供されます。また優れたデータアナリティクスの成績・教育が認められた学生や教育者に対しては表彰が行われました。ここでは一人の受賞者のセッションを紹介します。 Do Americans trust scientific experts? このセッションはタイトルにもあるように、医者・環境学者・栄養士など“科学に関連する専門家”に対するアメリカ人の不信について取り扱っています。この話題は幅広く活用が期待でき、多くの人々に関連する事柄であるという背景があり、今回の講演のテーマとして設定されています。 使用されたデータは、科学者に対する人々の全体的な意見や個人の科学にまつわる知識などを調査して収集されています。収集したデータを用いて、記述統計による考察やディシジョンツリーをはじめとしたモデルによる分類の結果から、次のようなフィードバックを共有しています。 各専門家に対する肯定的/否定的な意見の割合は、医者が最も肯定的な割合が高く、その中でも人々と対面する機会が多い開業医に対する肯定的な意見が多い。 人々の政治的傾向に基づいて専門家への信頼度に差が出ている 科学知識が前提にある人の方が専門家への信頼を示している スピーカーはこの結果をもとに、ワクチン接種の促進が可能になるのではないかという活用例を話しています。それは市民に専門への信頼に関する質問に答えてもらい、信頼の低い地域の人々に対してワクチン情報について教育・説得することでワクチン接種を増やすという仕組みです。 またスピーカーは私たちと同じ大学の学生で、コロナ禍に抱える問題も絡ませたセッションになっており、私たちにとても身近な内容になっています。 繰り返しになりますが、SAS Global Forum2021はより優れたキャリアにつなげる大きなチャンスであり、各セッションの様子はオンデマンドで視聴可能です。ぜひ自らの成長のために登録、ご覧ください。

Analytics
SAS Japan 0
OSSによる時系列予測をSASで強化・拡張する(3/3)

この記事はSAS Institute Japanが翻訳および編集したもので、もともとはMike Gillilandによって執筆されました。オリジナルはこちらです(英語)。 またこれは、ゲストブロガーのジェシカ・カーティス(Jessica Curtis)とアンドレア・ムーア(Andrea Moore)による3部構成記事の第3部です(未読の方はこちら:第1部、第2部)。 SASがそれを実現する方法 オープンソースの時系列予測モデルをSAS Visual Forecastingに統合する方法には2つのメインステップがあり、どちらのステップもオープンソース・モデルのメリットと利用価値を増大させます。 基礎:オープンソース予測モデルをプログラム的実行で拡張する 資産の共有:オープンソース予測モデルをカスタム・モデリング・ノードとして利用する ステップ1 - 基礎:オープンソース予測モデルをプログラム的実行で拡張する オープンソースの時系列予測モデルをSASに統合するための基礎は、コードベースのアプローチを通じてプロセスを(手作業ではなく)プログラム的に実行することです。あなたは既にTSMODELプロシジャとEXTLANGパッケージのパワーについてお読みです。 TSMODELプロシジャ内部には、オープンソース・モデルを実行するためのオプションがいくつもあります。まず、自社/自組織のオープンソース戦略を加速および業務運用化するためのインフラとしてSASを活用し、オープンソース・モデルだけを実行することができます。また、これをもう一歩進め、オープンソース・モデルをSASのモデルと一緒に実行することができます。この場合、SASは時系列レベルでSASとオープンソースにまたがって最適なモデルを自動的に選択します。さらに、SASおよびオープンソースのモデルを組み合わせることも可能であり、この場合は、SASとオープンソースの組み合わせが個々の時系列に最適かどうかをSASが判断することになります。このアプローチにより、オープンソース・モデルの構築に投じてきた全ての努力を活かしながら、SASのアルゴリズム群も追加で取り込むことで、両方の世界の “いいとこ取り” を実現できるようになります。どのモデリング手法が最適かをあなたが事前に知る必要はなく、SASがあなたのためにその力仕事を代行します。SASは個々の時系列に関して、オープンソースとSASのどちらのモデルを選ぶべきか、あるいは両方を組み合わせるべきかを判断します。選択の機会が無限にある取り組みにおいて、これでその選択機会が一つ減ったことになります(お分かりですよね? あなたの時間は既に節約されつつあります!)。 図2は、TSMODELプロシジャとEXTLANGパッケージの実際の様子を示しています。これは、R言語のauto.arima関数をSASで実行している例です。EXTLANGパッケージを使うと、オープンソース・コードを読み込む方法の柔軟性が高まります。SASの内部で(図2のように)明示的にオープンソース・コードを記述することも、あるいは、指定したファイルからオープンソース・コードを読み込むこともできます。 この基礎のステップにより、オープンソースおよびSASの時系列予測モデルがともにプログラム的に実行されるようになります。予測結果は、幅広いビジネスユーザー層による利用のために、川下側の計画システムや実行システムへと簡単な方法で供給することができます。また、この基礎となるプログラム的アプローチを土台として、追加のメリットを得ることも可能です。具体的には「SAS Visual Forecastingのユーザー・インターフェイスの内部で、TSMODELのコードを取り出し、それをカスタム・モデリング・ノードの中へラッピングする」という方法を使います。 ステップ2 - 資産の共有:オープンソース予測モデルをカスタム・モデリング・ノードとして利用する SAS Visual Forecasting のグラフィカルなユーザ・インターフェースは「様々なカスタムノードを作成し、それらをモデル・パイプライン内での利用のためにExchangeにロードできる機能」により、コラボレーションを強化します。カスタムノードはEXTLANGの機能を活用して、あらゆるR/Python予測モデルを実行することができます。様々な技法を使いたい場合には、多数のカスタムノードを作成することができます。その手間をかける見返りは多重的です。これらのノードは、どのような時系列予測プロジェクトにも適用可能であり、また、コラボレーションを強化するためにチーム内で共有することも可能です。いったん作成すれば、様々なパイプラインの中で、あるいは様々なデータ入力に対しても再利用することができます。図3をご覧ください。 作成したカスタム・モデリング・ノードは、あらゆるパイプラインに追加することができ、パイプライン内でSASの予測技法と独自のオープンソース・ノード(群)を組み合わせたり競わせたりすることができます。あなたのパイプラインが「複数のオープンソース/SASアルゴリズムによるトーナメント」を実行すると、SASはあなたの仕様指定にベストフィットするモデルを特定するための評価を実行します。モデル比較ノードを使うと、「複数のオープンソース/SAS技法を管理しながら、最良のモデリング戦略を評価するためにそれらを比較する作業」のための、迅速で透明性の高い方法が実現します。図4をご覧ください。 SAS Visual Forecasting のグラフィカルなユーザ・インターフェースを使うことで、「ワークロードの分散処理」や「オープンソースとSASにまたがるモデル選択」など、プログラム的アプローチの全ての利用価値が手に入ります。しかし、それだけではありません。このアプローチには「生産性と透明性の向上」、「オーバーライド(手動調整)機能や例外管理機能も備えた、ガバナンスの効いたワークフロー」、「ビジュアライゼーション機能との統合」という追加のメリットもあります。これらのビジュアライゼーション機能はUIに組み込まれており、ユーザーは追加の労力なしで、時系列予測モデルをより的確に理解および評価できるようになります。その使い勝手は対話操作性と協働作業性に優れており、プログラマー以外の幅広いユーザー層が利用できます。 プログラム的アプローチを利用するか、Visual Forecasting のグラフィカルなユーザ・インターフェースの中でカスタム・モデリング・ノードを作成するかを問わず、SASは小規模なプロジェクトから全社規模のソリューションへの転換を図る取り組みに適した、拡張性と弾力性の高い時系列予測環境を実現します。 まとめ 要約すると、SAS Visual Forecastingはオープンソースによる時系列予測戦略の可能性を広げます。TSMODELはSAS Visual Forecastingの基底をなしているプロシジャであり、EXTLANGパッケージはオープンソース言語との統合を可能にします。TSMODELとEXTLANGの組み合わせによって “マジック” が生まれます。SASはオープンソース・スクリプトを分散処理します。SASは複数の入力データを同時並行で読み込みます。SASはオープンソース・コードの実行を分散処理します。SASは複数の出力データセットを同時並行で書き出します。分散処理、拡張性、弾力性 ──  要チェックです!

Analytics
SAS Japan 0
OSSによる時系列予測をSASで強化・拡張する(2/3)

この記事はSAS Institute Japanが翻訳および編集したもので、もともとはMike Gillilandによって執筆されました。オリジナルはこちらです(英語)。 またこれは、ゲストブロガーのジェシカ・カーティス(Jessica Curtis)とアンドレア・ムーア(Andrea Moore)による3部構成記事の第2部です(第1部はこちら)。 SASがオープンソースにもたらす価値 何よりもまず、SASは時系列予測用の入力データを分散処理します。SASは時系列予測のためにデータをインテリジェントに分割する方法を理解しており、例えば、時系列グループが様々なワーカーノードにまたがって分割されることはありません。その上で、SASはオープンソースのスクリプト群そのものを複数のワーカーノードにまたがって分散させ、オープンソース・コードの実行を分散処理します。より具体的に言うと、EXTLANGパッケージはPythonまたはRのコードを呼び出す際、個々のPython/Rインタプリタを複数のワーカーノードのそれぞれに振り向けます。その結果、複数の時系列は同時並行で処理されます。このことがスケーラビリティと効率性の観点から何を意味するかを考えてみてください。これにより、あなたは自社/自組織の時系列予測能力を「一つの時系列予測課題の解決」から「組織全体の多種多様な時系列予測課題の解決」へと広げることができるようになります。しかも、より迅速かつ大規模に解決することができます。 例えば、あなたの勤務先がグローバル小売企業だと想像してみてください。あなたのビジョンは、単一の一貫した時系列予測プラットフォームで会社全体の多種多様な時系列予測課題を解決することです。膨大な数のSKUの品揃えの需要予測から、サプライチェーン全体に展開すべき適切な在庫量の判断、各店舗における労働の最適化に至るまで、あらゆる取り組みにおけるあなたの目標は、アナリティクスに基づく正確な意思決定を推進することです。今日、あなたはちょうど、「財務計画の意思決定のための集計レベルの時系列予測」をR言語で開発するプロジェクトで、最初の作業パスを終えたところだとしましょう。R言語による時系列予測アプローチは多くの点で成功しているように見えますが、あなたは店舗の労働に関する意思決定をサポートするために、これらの時系列予測機能を拡張し、より高粒度なレベルでの時系列予測を開発することを目指しています。時系列予測担当アナリストのチームは小規模であるため、あなたには、多種多様な時系列予測ユースケースに対応するために効率的に処理規模を拡大・拡張できる自動化されたプロセスが必要不可欠です。 集計レベルでの財務計画のために、あなたは1,000個の時系列処理を実行しています。店舗別および部門別の店舗労働計画の場合、この数はあっという間に10万個へと膨れ上がります。SKU/店舗レベルのサプライチェーン計画では、時系列は数百万個に及びます。これは間違いなく、大規模な時系列予測課題だと思われます。「分散処理に対応したスケーラブルな時系列予測ソリューションのパワーによってのみ克服可能な課題」ということです。ようこそ、SAS Visual Forecasting の領域へ。 どのような大規模な時系列予測課題でも、成功のカギを握るのは自動化です。そしてそれこそ、SASが行うことです。SASは統計的予測プロセスおよびオープンソース・モデルの実行を自動化することにより、お客様のビジネスにおける時系列予測プロセスの効率化を推進します。TSMODELプロシジャとEXTLANGパッケージのパワーにより、SASはオープンソース・モデルの実行時間を加速することで、時系列予測プロセスの効率化を更に推進します。これにより、あなたのチームは「時系列予測モデルを一度に一つずつ作成する負担」が軽減し、真の例外ベースのプロセスへと移行することができます。解放された時間で、事業計画の取り組みや、予測対象を新しい領域に広げる取り組みに注力できるようになります。端的に言うと、少ないリソースで多くのことが行えるようになる、ということです。 いったんモデルを作成した後は、SASが自動的に複数の出力用データセットを生成します。これは単なる時系列予測を超えた機能です。これには「モデルの仕様」、「当てはめ統計量」、「パラメータ推定値」を格納している多種多様なデータセットも含まれています。次に、これらの出力用データセットは ── あなたのご想像通り ── 分散処理にかけられます。このリッチな出力用データはデータサイエンス・チームとビジネス・チームの両方に対し、「重要な需要推進要因」や「モデルの詳細」に関する多くの洞察をもたらします。統計的予測を信用していないビジネス部門の人々と交わしたことのある様々な議論を思い出してください。その点、SASが自動的に作成する出力用データセットは「モデルがなぜ、何を行うのか」を “見える化” するために役立ち、その結果としてビジネス部門側との議論の質が高まり、モデルの採用率が改善されます。 また、SAS Visual Forecasting は、内蔵されているベストプラクティスにより、オープンソース・モデル群の強化も行います。特許取得済みのデータ診断機能やモデル構築プロセスから、リコンサイル(調整)機能付きの自動階層型予測機能、さらには、統合型の時系列セグメンテーション機能に至るまで、SAS Visual Forecastingは単なるアルゴリズムを超えたレベルで、様々なベストプラクティスに基づくエンドツーエンドの時系列予測プロセスを提供します。 自動化機能、加速機能、強化機能は全て、お客様の組織のニーズに合わせた規模調整に対応可能です。組織全体の多種多様な時系列予測ユースケースに応じて処理規模を拡大(または縮小)することができます。製品階層やロケーション階層の最下位レベルの粒度まで掘り下げる大量かつ複雑な処理にも対応できる高度なスケーラビリティにより、任意のレベルで時系列予測を実行し、結果を生成することができます。「最初に上位レベルの時系列予測を作成/調整し、それを手作業で下位レベルに落とし込む(按分する)手法」に頼る必要はもうありません。SASは、ビジネス上の意思決定が行われるのと同じレベルで、高品質な時系列予測を自動的に生成します。 (第3部に続く)      

Analytics
SAS Japan 0
OSSによる時系列予測をSASで強化・拡張する(1/3)

この記事はSAS Institute Japanが翻訳および編集したもので、もともとはMike Gillilandによって執筆されました。オリジナルはこちらです(英語)。 ゲストブロガーのジェシカ・カーティス(Jessica Curtis)とアンドレア・ムーア(Andrea Moore)による3部構成記事の第1部にようこそ。 時系列予測はユビキタスな存在 時系列予測は、事実上あらゆる業種にわたり、ビジネスにおける多種多様な意思決定の中核を支えています。それはあなたの勤務先が、「膨大なSKUの品揃えの計画」や「配送センターや店舗の労働計画の改善」に取り組む小売企業であるか、需要計画プロセスの刷新に取り組んでいる消費財企業であるかを問いません。あるいは、デジタル広告/在庫計画/価格設定のために時系列予測を活用しているメディア企業や、最適なリソース配分のためにネットワーク利用率を予測している通信企業など、挙げればきりがありません。より優れた予測を得ることのインパクトは、あらゆる企業・組織における “ビジネス上の意思決定” に広範囲かつ抜本的な向上効果をもたらします。 44年以上にわたり、SASは世界各地の数千社の企業のために大規模な時系列予測プロセスを改善し続けています。SASはその間、統計的予測の精度向上と時系列予測作成プロセスの効率化を通じて最終利益の押し上げに貢献する強固な時系列予測ソフトウェアを開発および強化し続けてきました。これは決して大げさな表現ではありません。実際、当社は何冊も書籍を出しています。 SASの最新の時系列予測テクノロジーを搭載したSAS Visual Forecasting は、全社規模の様々な時系列予測課題を迅速かつ自動的に解決するための唯一無二の機能を提供します。SAS Visual Forecastingは、最新鋭の各種アルゴリズム ── 機械学習、時系列、アンサンブル ── だけでなく、過去データの診断、複雑な階層にまたがる自動予測、予測の例外管理に関する内蔵型ベストプラクティスも搭載しています。SAS Visual Forecastingの中核にある信条の一つは、「オープンソースのモデルを実行し、それらを大規模にデプロイ(業務実装)するための、オープン・エコシステムを提供する」ということです。 現在、オープンソース・ソフトウェア(OSS)は時系列予測モデルを開発するために広く使われています。多くの企業・組織がオープンソース戦略に取り組み始めており、PythonやRを活用して時系列予測を作成していますが、組織全体の多種多様な時系列予測ユースケースに対応するべく規模を拡張しようとしたときに様々な難題に直面しています。オープンソースの時系列予測モデルを「SASのソリューション」(以下、単に「SAS」)で実行することには複数のメリットがあり、既存のオープンソース戦略に立脚しながら俊敏かつ効率的な方法を確立することができます。もはや、SASとオープンソースのいずれかを選択する必要はなく、両者は真の相補的な関係にあります。 オープンソースで開始する 多くの企業・組織は、頑健な時系列予測を作成することに苦戦しているほか、様々な時系列予測ユースケースのために規模を拡張しようとしたときに難題に直面しています。個々の時系列予測課題には、データが徐々に増加し、複雑性も増大していくという問題が伴います。 例えば、あなたの勤務先が通信企業で、あなたは追加のインフラ(例:携帯電話網のセル)投資を行うべき場所に関する意思決定をガイドするために、データ帯域幅の需要を予測する必要があるとします。新規インフラ投資を計画するためには、帯域幅需要が時の経過とともにどのように変化するかを理解する必要があります。そこであなたは、市場における総需要が徐々に増加する様子を推計するために、オープンソースの時系列予測ソリューションを構築します。そこから得られる予測は、ネットワークをどれほど拡大するべきかに関する年間計画の基礎となります。そしてあなたは、計画プロセスへのアナリティクス活用について高く評価されたとしましょう。次のサイクルでは、計画のための単独の総合的な予測ではなく、「追加データの取り込みを伴う分析」と「通信インフラの個々の構成要素に関する予測の作成」を依頼されることになりました。 図1は今回の要請が「市場だけでなく、個々の都市/中継局/ノード/構内も対象とした予測」であることを示しています。この分析には、大量のデータと多数の時系列を用いて数千あるいは数百万もの時系列予測を生成する作業に対応できる処理規模の拡張性が必要不可欠です。上位レベルの値を下位レベルの値へと配分するのではなく、高粒度レベルの個々のネットワーク・コンポーネントに関する統計的予測を集計していくことが、予測精度の向上へとつながるからです。こうした予測精度の向上が実現すれば、資本計画プロセスは更に洗練されたものとなり、リソースは最も必要性の高い場所にピンポイントで、適切なタイミングで配分されるようになります。 これはネットワーク計画に固有の話ではなく、同じテーマの議論が全ての業種で繰り返されています。ここで必要とされているのはパラダイム・シフトです。あなたはもはや、個々の時系列予測を手作業でチューニングすることはできません。数量が大きすぎるからです。 必要なのは、「あらゆるタイプのユーザー(例:プログラマーと非プログラマー)が “モデルの構築” や “高品質な時系列予測の生成” において生産的になること」および「分散環境でデータを高速に処理すること」を可能にするソリューションです。そうしたソリューションでは様々なプロセスの自動化が、高精度な時系列予測の生成を促進します。 ここまで来ると、予測モデルを構築するだけの話ではなくなります。それよりも遥かに大規模な取り組みになります。また、時系列予測の結果を事業計画プロセスに統合することも必要になります。そのためには、多くのユーザーが結果を確認・操作したり、必要に応じて処理を追加したりできるようなソリューションが必要です。また、結果を共有できる機能や、ビジネスユーザーが業務プロセスの中で結果を利用できる機能も重要です。 多くの企業が難題に直面している理由は、これまでの努力を無駄にしたくないと考えたり、継続性を懸念したりしている一方で、自社の現在のオープンソース・アプローチが既に限界に達していると気付いているからです。 SASのソリューションはオープンソースを強化・拡張する 全社的/全組織的な時系列予測の取り組みにおいてオープンソース・アプローチが限界に達したとしたら、それこそSASが本領を発揮する状況です。オープンソースの時系列予測モデルを構築するために投じてきた膨大な作業の全てを失いたくないと思うのは当然のことです。実際問題、それらを失う必要はありません。SASのアプローチでは、オープンソースのモデル群をSAS Visual Forecastingに取り込んだ上で、それらの利用価値を拡張します。 SAS Visual Forecastingによるオープンソース統合の基礎となっているのは、TSMODELプロシジャとEXTLANGパッケージです。TSMODELは、SAS Visual Forecastingの基底をなしているプロシジャです。EXTLANGパッケージは、外部言語(例:PythonやRなど)のシームレスな統合を可能にします。 TSMODELとEXTLANGは「オープンソースによる時系列予測戦略」を改善します。SASはこれらの技法を通じて、オープンソースのモデルを実行するための「分散処理に対応した拡張性・弾力性の高い方法」を提供します。データの準備から、モデルの開発、モデルのデプロイに至るまで、アナリティクス・ライフサイクルの全てのステップにおいて、SASはオープンソースの時系列予測モデルを強化します。SASはPythonやRで作成されたモデルに対してオープンなだけでなく、分析ワークロードを自動的に分散処理することでオープンソースを拡張します。ちょっと立ち止まって掘り下げましょう。言い換えると、SASが「オープンソースのモデルを改善する」というのは、ひとつには、「その実行を高速化する」ということです。また、それ以外にも、SASが備える数々の “実証済みの利用価値の高い機能性” も手に入ります。もし興味をそそられたのなら、どうぞ読み進めてください。 (第2部に続く)

Advanced Analytics | Analytics | Data Visualization | Learn SAS
0
SAS Viyaのワードクラウド分析を用いた消費者の声分析例

01. はじめに 今回のポスティングでは、SAS Viyaの「テキストトピック」という機能を用いたSNSの消費者の声の分析例を紹介したいと思います。分析の手法として「ワードクラウド分析」という方法を使いましたが、こちらについても後ほどお話します。SNS上の書き込みデータを分析することで、ビジネスに役立てられる洞察を得ることができますので、最後まで読んでいただければと思います。   02. 消費者の声分析の一般的な流れ SNS上の消費者の声分析は、一般的に大きく3つの段階に分けることができると思います。そのステップ①は様々なSNSプラットフォームから消費者の声を集める「データ収集」です。ステップ②は、収集したデータを分析する段階です。データ分析の手段はいくつかがありますが、本記事では、「ワードクラウド分析」という手法を用いることにします。最後のステップは、ビジネスメリットに繋げるように分析結果を活用する段階です。分析結果を元により意思決定し、施策を実施する段階です。本記事では、3つの段階の中で2段階目の「データ分析」、具体的には、「ワードクラウドを用いた分析」について説明します。   03. ワードクラウド分析とは? ワードクラウドというのはテキストデータの意味をより直感的に把握するための分析の一つ手法です。 テキストデータを単語に分割し、単語ごとの出現頻度をカウントし、その頻度に応じた大きさでその単語を視覚的に表示してくれます。 つまり、テキストや文章が何に関して語られているのか、そのキーワードを簡単に見つけ出すことができる手法になります。 例えば、SNS上の書き込みをテキストデータ化して分析し、顧客や消費者が今どんな事に興味を持っているのか、どんな不満があるのか、などを把握することができます。 (出典:https://awario.com/) 私はニュースなどのメディアでアメリカのトランプ大統領がどんな単語を何回使ったか、トランプ大統領のツイッターを分析したワードクラウドを見たことがあります。例えば、上のイメージは、2018年から2019年までのトランプ大統領のツイッターでつぶやかれた単語のワードクラウドですが、「border」と「wall」が一番使われた単語ということが一目で分かります。   04. SAS Viyaのワードクラウドの特徴 SAS Viyaのワードクラウドの特徴についてご紹介します。 まず、自動的に分析対象のテキストデータを単語に分割した上で解析します。所謂テキストマイニングと言いますが、その結果として、それぞれの文章がどんな話題(トピック)に関して語っているのかを分析し、トピックごとにキーワードを頻度に応じた大きさで確認することができます。また必要に応じて、気になるトピックやキーワードの元の文章を確認することもできるようになっています。 また、分析の際、冠詞や、助詞、副詞など、意味がない単語は自動で外して分析を行います。 これも、SAS Viyaのワードクラウドの一つの特徴なのですが、例えば、Open Source系のプログラミング言語で分析をすると、英語の 「the」や「a」などは、 分析者自身でなんとかして、取らなければいけないこともありますが、SASでは自動でその作業を行います。 さらに、書き込み内容がネガティブな内容なのか、ポジティブなのか、中立であるか、確認できる機能もあります。この機能は、「センチメント分析」、 日本語では「感情分析」と呼ばれますが、SASではワンクリックで簡単に実行できます。   05. 消費者の声分析例 それでは、SAS Viya の「テキストトピック」という機能を用いた消費者の声分析デモをご紹介いたします。 ▲ 準備したデータについて 日本では最近「天高く馬肥ゆる秋」になったので、季節感が感じられるように「天気」に関したデータを準備しました。また、オーストラリアのシドニーとカナダのバンクーバーのツイッターデータを収集しました。この二つの地域を設定した理由は、現在のシドニーは昼間の平均気温が約20度で、少し暖かいか、涼しい天候ですが、バンクーバーは約5度と少し寒く、対立的な地域を選ぶことで、明確な結果を得たかったからです。(個人的な理由もあり、キャリア管理の上司がSASオーストラリアのシドニーで働いていて、同期の1人はSASカナダのバンクーバーにいるので、毎回オンライン会議で会う2人の季節環境が気になったのです。同期と出会った新入社員研修についての記事はこちら) データの対象期間は、10月15日から10月23日まで、9日間、データの取得の際に使ったキーワードは、「weather」、「today’s weather」、「weekend weather」、「winter」、「summer」という5つのキーワードを使いました。こういった条件で実際にツイッターから集められたデータは、シドニーが351件、バンクーバーが277件でした。 ▲ 「天気」に関するシドニーの消費者の声分析 まず、シドニーの消費者の声のワードクラウド分析結果を見てみましょう。 「雨」に関するトピックが44件で、トピック全体で1位になっております。こちらのトピックをクリックすると、このトピックに関連する用語・キーワードを右側の画面で確認できます。「rainy」の比重が最も大きいことが分かります。 (出典:https://www.holiday-weather.com) 雨に関するデータが多い理由は、データを収集していた10月15日から23日前後にシドニーは天気が曇ったり、雨が降ったりしたからだと考えられます。

Learn SAS | SAS Events
海外のライバルとしのぎを削ろう! SAS Global Forum 2021 Student Symposium Competition

アナリティクス人材としてのキャリアを歩む際、自身のスキルの証明は大事な要素になります。海外のライバルと競い合い、勝ち抜いた経験と称号は、その後の人生に大きな影響を与えるはずです。 Student Symposium は、SAS最大のイベントである SAS Global Forum の中で開催される学生コンペティションです。2-4名の学生と指導教官がチームとなり、アナリティクスを活用したオリジナル課題にチャレンジし、その優劣を競います。予選を勝ち抜いた8チームは SAS Global Forum 本番にて最終決戦に挑みます。 新型コロナウイルスの影響により、今年の SAS Global Forum 2020 はオンライン開催となり、来年春の SAS Global Forum 2021 も同様にオンラインでの開催予定です。今年の Student Symposium では、University of St. Thomas, Oklahoma State University, Kennesaw State University のチームがそれぞれ優勝、準優勝、3位を獲得しました。テーマは、学術論文のアブストラクトのテキスト解析やエコロジカル・フットプリントに影響を与える要因の解析、殺虫剤のミツバチへの影響の分析などでした。 日本の学生には難しい? そんなことはありません。近年、日本の学生がSAS Global Forumで発表したり、優れた研究発表を投稿した学生に送られる Student Ambassador にも日本の学生が選ばれています。次は Student Symposium にチャレンジしてみませんか? アナリティクスのツールとしては、SAS OnDemand for Academics

Data for Good | SAS Events | Students & Educators
0
第五回Data for Good勉強会 活動レポート

SAS Japanでは”Data for Good”を目指す学生コミュニティ「SAS Japan Student Data for Good community」を運営しています。このコミュニティは、Data For Goodを題材にデータサイエンスの一連の流れを体験する場として設立されました。今回紹介する勉強会も、その活動の一環です。詳しくは「Data for Goodを通じて"本物の"データサイエンティストになろう!」の記事をご覧ください。活動の様子についてはFacebookにて共有していますので、そちらもご参考にしてください。 五回目の勉強会では海洋汚染をテーマに、Data for Goodの活用事例から課題設定の部分を学びました。また、今回は初めてオンラインでの開催をしましたので、その様子もお伝えしたいと思います。   海洋保護に向けたD4Gの取り組み/マイクロプラスチック問題 SDGsの一つに“海の豊かさを守ろう(LIFE BELOW WATER)”という項目があります。日本でも2020年7月からスーパーやコンビニエンスストアにてレジ袋の有料化が始まりました。その背景の一つにはマイクロプラスチック問題があります。コミュニティのメンバーがこのテーマでData for Goodに取り組んでいるので、今回はその活動について共有しました。 マイクロプラスチック問題とは、特に海洋環境において微小なプラスチック粒子が海洋生物に対し悪影響を及ぼしてしまうことです。また生物濃縮により海洋生物だけでなく、人間にも間接的に影響があります。レジ袋の有料化や製品へのスクラブ等使用の規制の動きが世界的に進んでいます。環境保全にいち早く取り組んでいる海外の先進諸国のデータをもとに、今後日本にも導入するべき取り組み、推進していくべき取り組みを明確にしようというのが今回の活動目的になります。 今回の勉強会の活動紹介では、この問題の現状と最新の研究、既に行われている取り組みの効果検証について取り上げました。意思決定の場に置いて、ある施策が目的とするものに対して効果があるのかどうかは非常に重要です。特にマイクロプラスチック問題のように規模が大きい問題に対してはその効果の大きさだけでなく、費用対効果にも注目しなければなりません。しかし、効果の推定には比較実験が必要になりますが多くの場合それは存在しないため、自然実験という考え方を用いてアプローチしていきます。 詳細については今後このブログの中でご紹介していきます。   海洋プラスチック汚染問題をデータで解決する 今回は、コミュニティーメンバーがテーマとして活動している「海洋汚染」に関連して、オランダに拠点を置く非営利のエンジニアリング環境団体 The Ocean Cleanupの事例を紹介しました。 The Ocean Cleanupは、太平洋で無人のゴミ回収装置であるクリーンアップシステムを開発しています。その運用においてある課題が浮かび上がりました。太平洋には多くのプラスチックが集まっているとされる「太平洋ゴミベルト」と呼ばれるエリアがありますが、その範囲は非常に広大かつ陸地から遙か遠くにあります。システムを運用する費用を考慮して、効率的にゴミを回収するにはどうすればよいでしょうか。この課題に対して、The Ocean Cleanupではビッグデータを用いて太平洋ゴミベルトの可視化を行いました。 調査団はこれまでの海洋研究の知見とともに、独自に大規模な調査を行いました。太平洋ゴミベルトのサイズ・位置・プラスチックの量・プラスチックの分布と4つの可視化の観点などから進められてきました。 プラスチック汚染は複雑で大規模な問題であるため、包括的で大掛かりな解決策が必要となります。そのため、データサイエンスの活用によって、問題を理解し効率よく解決するための知見が得られます。クリーンアップシステムでは、監視カメラや衛星との交信による位置情報から実際のシステムの動きや回収度を確かめることができます。ビックデータによる分析結果だけでなく、実際のパフォーマンスデータから得られた知見からより良いシステムの構築が現在も行われ続けています。 以上の話を踏まえて、最後に参加者同士でディスカッションを行いました。自分たちの生活と繋げて考えたり、事例の中で興味深かった点についてお互いに話すことが出来ました。また、海洋保護をテーマに今後活動していく上で考えるべき点についても触れながら議論を進められ、有意義な時間になりました。 今回は初めてのオンライン開催でしたが、オンラインであることの良さを活かして定期的に勉強会を企画するとともに、次回から更に質の高い勉強会をつくっていきたいと思います!   コミュニティメンバー募集中! SAS Japan Student Data for Good

Advanced Analytics | Analytics | Artificial Intelligence | Data for Good | Data Visualization | Internet of Things | Machine Learning | SAS Culture
小林 泉 0
SAS社員としての誇りーミツバチ・森林・絶滅危惧種の保護や医療への貢献にAI/アナリティクスを活用

SASの一つの顔は、アナリティクスで営利目的の意思決定を支援 筆者は、SAS社員として、20年以上に渡りアナリティクスおよびAIで企業・組織を支援してきました。 金融機関における、リスク管理や債権回収の最適化 通信業における、顧客LTV最大化、ネットワーク最適化やマーケティング活動の最適化 製造業における、需要予測、在庫最適化、製造品質の向上や調達最適化 流通・小売業における、需要予測やサプライチェーン最適化 運輸業における、輸送最適化や料金最適化 ライフサイエンス・製薬企業における、業務の最適化 官公庁における、市民サービス向上のための不正検知 など、様々な業種・業務においてアナリティクスの適用によるお客様のビジネス課題の解決に携わってきました。営利目的(ここでは市民サービスの向上も含めることにします)の企業・組織におけるアナリティクスの活用目的は主に以下の3つに集約されます。 収益(売り上げ)の増大 コストの低減 リスク管理 アナリティクスは、いわゆる「データ分析」を手段とし、過去起きたことを把握して問題を定義し、次に将来を予測し、様々な選択肢の中から最適な予測に基づいて意思決定をしていくことになりますが、その過程の中で、起きてほしい事象を予測して促進したり、起きてほしくない事象を予測して防いだり、その予測のばらつきを管理したりということを行っていきます。 このような営利目的でのアナリティクスの活用はSASという会社が誕生した40年以上前から行われており、基本的な活用フレームワークは変わっていません。IT技術の進化によって、利用可能なデータの種類や大きさが、増えてきただけにすぎないと言えます。例えば、昨今のAIブームの代表格であるディープラーニングですが、ディープラーニングという処理方式の進化と、GPUという処理機械の進化によって、非構造化データをより良く構造化しているものであり、もちろんモデリング時のパラメータ推定値は何十億倍にはなっていますが、モデリングのための1データソースにすぎません。もう少しするとディープラーニングも使いやすくなり、他の手法同様、それを使いこなすあるいは手法を発展させることに時間を費やすフェーズから、(中身を気にせず)使いこなせてあたりまえの時代になるのではないでしょうか。 SASのもう一つの顔、そして、SAS社員としての誇り、Data for Goodへのアナリティクスの適用 前置きが長くなりましたが、SAS社員としてアナリティクスに携わってきた中で幸運だったのは、データの管理、統計解析、機械学習、AI技術と、それを生かすためのアプリケーション化、そのためのツール、学習方法や、ビジネス価値を創出するための方法論や無数の事例に日常的に囲まれていたことだと思います。それにより、それら手段や適用可能性そのものを学習したり模索することではなく、その先の「どんな価値創出を成すか?」「様々な問題がある中で優先順位の高い解くべき問題はなにか?」という観点に時間というリソースを費やすことができていることだと思います。そのような日常の仕事環境においては、アナリティクスの活用を営利目的だけではなく、非営利目的の社会課題の解決に役立てるというのは企業の社会的責任を果たす観点においても必然であり、Data for Goodの取り組みとしてSAS社がユニークに貢献できることであり、SAS社員として誇れるところだと考えています。 最終的に成果を左右するのは「データ」 そして、もう一つの真実に我々は常に直面します。クラウド・テクノロジー、機械学習、ディープラーニングなどの処理テクノロジーがどんなに進歩しようともアナリティクス/AIによって得られる成果を左右するのは「データ」です。どのようなデータから学習するかによって結果は決まってきます。 IoT技術で収集したセンサーデータは知りたい「モノ」の真実を表しているだろうか? 学習データに付与されたラベル情報は正確だろうか? 学習データは目的を達成するために必要な集合だろうか? そのデータは顧客の心理や従業員の心理をどこまで忠実に表しているだろうか? 特に、Data for Goodのチャレンジはまさにそのデータ収集からスタートします。ほとんどの場合、データは目的に対して収集する必要があります。そして、下記の取り組みのうち2つはまさに、我々一人一人が参加できる、市民によるデータサイエンス活動として、AI/アナリティクスの心臓部分であるデータをクラウドソーシングによって作り上げるプロジェクトです。 Data for Good: 人間社会に大きな影響を及ぼすミツバチの社会をより良くする 概要はこちらのプレスリリース「SAS、高度なアナリティクスと機械学習を通じて健康なミツバチの個体数を増大(日本語)」をご参照ください。 ミツバチは、人間の食糧に直接用いられる植物種全体の75%近くに関して受粉を行っていますが、ミツバチのコロニーの数は減少しており、人類の食糧供給の壊滅的な損失につながる可能性があります。この取り組みでは、IoT, 機械学習, AI技術, ビジュアライゼーションなどSAS のテクノロジーを活用し、ミツバチの個体数の保全/保護する様々なプロジェクトを推進しています。この取り組みは以下の3つのプロジェクトから成り立っています。 ミツバチの群れの健康を非侵襲的に監視 SASのIoT部門の研究者は、SAS Event Stream ProcessingおよびSAS Viyaソフトウェアで提供されているデジタル信号処理ツールと機械学習アルゴリズムを用いて、ミツバチの巣箱の状態をリアルタイムで非侵襲的に追跡するために、生物音響監視システムを開発しています。このシステムによって養蜂家は、コロニーの失敗につながりかねない巣箱の問題を効果的に理解し、予測できるようになります。 関連ページ:5 ways to measure

Analytics | Data for Good | Data Visualization
SAS Japan 0
アナリティクスでハチを数えて保護しよう!

この記事はSAS Institute Japanが翻訳および編集したもので、もともとはLee Ellen Harmerによって執筆されました。元記事はこちらです(英語)。 ハチを減少から救うために本当に必要なこととはなんでしょうか。 ハチの減少は目新しいニュースではありません。これまでにも、メディアによって農作業の工程や農薬がハチに影響を与えていることが取り上げられています。また、スタートアップ企業がハチの個体数を再び立て直そうと取り組んできた例があります。しかし依然として、ハチは世界的に重大な減少の一途を辿っているのです。 ハチを守るためには、養蜂家らが彼ら自身で出来る以上のことが必要とされています。養蜂家は自身の所有するハチやの巣箱の状態について熟知していますが、より大きな環境におけるハチについての知識は持ち合わせていません。そこは、市民科学者や一般市民らが力を発揮できるところです。 今日のハチの個体数の状態について理解し、減少を食い止めるためには、まず初めに私達のまわりにいるハチの実態を明らかにせねばなりません。ハチの保護を可能にするためには、ハチを“数える”ことが必要なのです。ハチの世界的な個体数を計数することは、地球上のハチの未来を守る第一歩です。ハチの計数作業によって集められたデータによって、ハチの種属ごとの生息地、そしてその生息地にハチがどのように分布しているのかといった重要な情報が明らかになります。SASはアパラチアン州立大学と共同でその取り組みを進めています。 ハチの保護に不可欠なテクノロジー 花粉媒介者であるハチとその環境を守るためには、私達はもはや伝統的な手法だけに頼ることはできません。その代わりとして使用されるのが、テクノロジーなのです。データの収集は始めの一歩でありますが、そのデータを可視化することで、養蜂家と研究者に迫り来る脅威を最も早く警告することができます。この指示器は、ハチに関するコミュニティの意思決定者に、これまで不可能と思われていた洞察を与えることができます。 その技術を実現するためのデータを集めるには、皆さんの助けが必要です。World Bee Countアプリケーションを通じて、人々はハチの計数に貢献し、周囲の環境にいるハチの写真を送信することができます。 “World Bee Countによって、私達はクラウドソーシングでハチのデータを集めることができます。それを使って、地球上のミツバチの個体数を可視化し、今日のミツバチに関する最大級の有益なデータセットを作り上げることができるのです。” アパラチアン大学 分析研究・教育センター理事 Joseph Cazier教授 SASは世界の最も逼迫した問題を解決することに意欲的であり、ハチを守ることも無視することはできない問題であると考えています。これまで、私たちは分析によってハチの健康を促進させようと試み、そしてData for Goodへ情熱を注いできました。つまりこのパートナーシップは、好奇心と探究心を持って世界的な問題を解決しようとするSASの本質的な精神を反映しているのです。 アナリティクスをすべての人に SASは世界花粉媒介者マップを作成しました。これは、World Bee Countアプリを用いて”ハチを数える“ことで、市民科学者や養蜂家からクラウドソーシングで集められたデータを視覚化したものです。このプロジェクトの後の段階では、研究者は作物の収穫高や降水量、その他ハチの健康に関係する重要なデータポイントを重ね合わせます。そうして、私達の世界でもっとも重要な花粉媒介者について、より包括的な理解を集約させます。 多くの人がデータを追加し、相関関係が導き出されるような豊富なデータセットを作成することで、可視化によるアナリティクスが実現できます。ハチのデータの単純な可視化から始まる取り組みは、ハチの個体数やその減少に繋がる要因の研究、そしてどのようにして私達がハチ全体の健康を促進させることが可能かといったような研究に対して、無限の機会を提供できるでしょう。   アプリをダウンロードして始めよう アプリケーションで写真を送信することは小さなことですが、ハチを保護するための活動として重要な役割を果たします。ハチは蜂蜜という素晴らしい自然の恵みを与え、私達に彩り豊かな朝の食卓を提供すると共に、私達の健康を促進させてくれます。5月20日は世界蜂の日として制定されています。beescount.orgからアプリをダウンロードして蜂の日を祝うと共に、見つけたハチの数をカウントしてみませんか? 今月だけでなく6月や7月、そしてその先のハチ月を超えてこの活動を続けていけたらいいですね!  

1 4 5 6 7 8 14