現代において統計学は様々な分野で利用されており、データアナリティクスとは切っても切れない関係にあります。しかし、実際にデータアナリティクを行う人すべてが、その内容を適切に理解しているのでしょうか。「有意差がつくかどうかとりあえず検定を行ってみる」、「集めたデータ全てをモデルに組み込んでみる」このような経験を持つ方も実は多いのではないでしょうか。分析に用いる手法の仮定や限界、その他解釈や留意事項への理解がないまま行われるデータアナリティクスは、誤った解釈を生む可能性があります。しかし、実社会においては、統計学はその活用事例が注目されがちであり、適切ではない事例が身の回りにあるというのもまた事実です。データアナリティクスを行う側としても、その結果を受け取る側としても、統計学を一般教養として学んでみてはどうでしょうか。 今回紹介するのは、e-learningコース「Statistics 1: Introduction to ANOVA, Regression, and Logistic Regression」です。統計学を学ぶ時に、学習がうまく進まない一つの理由として、各種内容が実際にどう活用されるか、そのイメージがつかないという声を多く耳にします。本コースは純粋な統計学の知識だけでなく、そのような具体的なデータアナリティクスに至るまでの「何を目的とするのか」、「目的によってどのような手法が適切であるのか」といった「データリテラシー」に関する内容も潤沢に用意されているため、一環した流れの中で学習を行う事ができます。このような何のために統計学を学ぶ必要があるのかという点は、どうしても”学問としての”統計学の学習の際には意識がされないため、統計学を初めて学ぶ方だけではなく、簡単にその内容を触れたことがある中級者の方にも最適な学習教材です。 統計学は「記述統計学」と「推測統計学」に分類されます。前者はデータの持つ特徴(最大値、平均など)を記述し、整理することによって、そのデータ自体への理解を行おうというものです。それに対し後者は、データをとある大きな集団からのサンプルであると仮定し、データからその大きな集団(母集団)の持つ特徴について、推測を行うものです。ここでは、実際に推測統計学でよく用いられている「統計的仮説検定」と「統計モデル」という、2つの手法について紹介します。これらについてもコース中ではより詳細に、活用されている事例とともに紹介されているので、ご興味のある方はぜひ一度コースに登録・受講してみてください。登録手順はこちらの以前の記事を参照ください。 統計的仮説検定 ある大きな集団(母集団)に対しその特徴を知りたい場合、すべてのデータを得ることができるのは非常に稀です。例えば、日本国民全員があるテレビ番組Aを見ているかどうかの情報を得ることは、労力的にも、費用的にもほぼ不可能です。統計的仮説検定はそういった場合に、標本である一部のデータを用いて、母集団に対する特定の仮説が成立するか否かを、背理法的に判断する方法です。先のテレビ番組の視聴率調査は、実際にこの考えに基づくものであり、よく見かける視聴率はおおよそ1万世帯のデータをもとに、統計的に推定されています。検定の手順は以下の通りです。 母集団に対し、帰無仮説とそれに対応する対立仮説の計2種類の仮説を設定する 帰無仮説の下で、得られたデータ(とそれ以上に極端な結果)が得られる確率(P値)を計算する 事前に設定した基準(有意水準)とその確率を比較する 基準よりも確率が低いのであれば、そもそも帰無仮説が妥当ではないと判断する(帰無仮説を棄却) 統計学でよく誤解を生みやすい「P値」というものが利用される内容になります。仮説検定は非常によく用いられる方法ですので、自分でどういった手順で検定は行われているのか、その解釈はどう行えばいいのか、を説明できない方は受講してみることをお勧めします。 統計モデル データから母集団の特徴について推定を行う場合には「統計モデル」というものが用いられます。このモデルはなぜ必要なのでしょうか?ここで、日本人の男性と女性の身長について、それぞれ推測をするという例を考えます。また、現実に得られるデータは、男性のみデータだけだとします。すると一つ問題が生じます。それは「女性については推定を行うことができない」ということです。男性については、得られたデータが男性50名の身長データですので、妥当な推定が可能です(ここにも男性の身長分布は正規分布であるという仮定は置きます)。しかし、女性の身長について推定を行おうとしても手元には男性のみのデータしかないため、推定ができません。もし何の仮定もなければ、男性の身長データを女性の身長の推定のために用いることは妥当ではありません。ではここに、『女性の身長の分布は男性の分布より10cm低く、分布の形状は同じである』という仮定があるとどうでしょうか?(いくつかの調査によると期待値としては12~13cmほど低いそうですが) 上記の仮定があるのであれば、男性の身長分布から女性の身長分布が想定可能なので、男性のみのデータからデータには含まれていない女性についても推定を行うことが可能になります。つまり、「統計モデル」とは観測されたデータにはない未知の部分について推測を行うために、仮定する一種の数学的・統計学的な制約条件になります。ただ一概にモデルといっても様々なものがあるため、データの置かれている状況によって想定される適切なモデルは異なり、どれを選択すべきかはケースバイケースです。このモデルの選択をどうすべきかは先行研究やこれまでの知見による部分が大きいため、様々な場面でのデータアナリティクスを学ぶ必要があります。 学生の方であれば今後、卒業研究やコンペティション参加など、多くの場面で統計学の知識が必要になるかと思います。数日学習を行えば統計学への理解が深まるだけでなく、SASから学習認定デジタルバッジを無料でもらうこともできます。ぜひこの機会に一度統計学について、学習を行ってみてはいかがでしょうか?
Japanese
以前の記事では、学生であれば無料で利用可能なオンライン学習コース「Skill Builder for Students」についての紹介を行いました。このSkill Builder for Studentsには5つのコースが準備されており、今回の記事ではStatistical Analysis, Predictive Modeling, and Machine Learningコースについての概要を紹介します。このコースでは統計的仮説検定から回帰分析、予測モデル、教師あり機械学習まで「統計・機械学習モデル」の基礎的な部分と、SASソフトウェアでの実践を学習することができます。 データ析を行う際には、しばしば統計モデルや数理モデルと呼ばれる「モデル」を利用します。このモデルの学術的理論や実装方法を学習する機会は多数ありますが、モデルを利用する目的をはっきり意識できているでしょうか。モデルは現象を数式等で模式的に表現したものですが、このようなモデルによる表現の目的が、その現象に対する説明を行いたいのか、未知のイベントの予測を行いたいのかを区別する必要があります。前者は記述的アナリティクス(および診断的アナリティクス)、後者は予測的アナリティクスと呼ばれます。 記述的・診断的アナリティクスでは、現象を観察して得られたデータから、その現象に関する情報の関連や因果関係を推測し、現象を説明することが目的です。例えば、住宅価格を考えるとき、価格を決定する要素(面積、駅からの距離、築年数、階数、近隣施設など)は何か、どの要素が最も価格と強い関係を持っているかといったことを理解するために統計モデルを活用します。 一方、予測的アナリティクスでは、面積や駅からの距離といった既知の情報から住宅の価格を推定・予測するためにモデルを活用します。記述的・診断的アナリティクスのような「現象の理解」よりも、「予測の精度」に注目することになります。 今回のコースは、このような「何のためにデータアナリティクスを行うのか」という点が特に意識されており、SASでの実装を紹介するだけではなく、統計学の概要、モデルを使って何を考えるのかについてのイメージや理論の説明が豊富に用意されています。近年、アナリティクスに関係する職種を目指す方が増加しており、統計検定に代表されるような資格を取得しようとしている方も多いと思います。それに伴い、関連した書籍・講座が世に出るようになってきていますが、手法のみに着目しているものも多く、「なぜ」、「どんな場面で」その手法を利用するのかをイメージできないものも見られます。今回この記事で紹介しているコースは、そのような今後データに関連する分野に関わっていきたいという初学者の方に特におすすめです。単に統計的手法の実施方法や結果の見方を紹介しているだけではなく、どういったモチベーションでその手法の利用を考えるのか、現実に起こり得るシナリオに沿って理解できる教材だと思います。 Statistical Analysis, Predictive Modeling, and Machine Learningコースへのアクセスは以下の手順です。 Skill Builder for Studentsへログイン 「Learn SAS」というタブをクリック 画面中央の「Start Learning」をクリック 「Statistical Analysis, Predictive Modeling, and Machine Learning」をクリック 展開される各種e-learningコースをクリック 画面下部にある「enroll」をクリック このコースは後述のように、6つの項目に分かれており、各項目にはさらに複数のLessonが準備されています。各項目に含まれるLessonをすべて終了すると学習完了を証明する「SAS digital Learn Badge」(下図)が発行されます。 コースで学習できる内容 Statistics 1:
医者の診断に例えて学ぶ AIを用いたセンサデータ分析システムに関するよくある誤解について 製造業で盛んに導入されているセンサ。 そのセンサデータを分析してビジネスインパクトのある結果を出すには、どのようにしたら良いのでしょうか? データ分析を成功させるためには、様々な要素が考えられますが、ここではセンサデータの質に注目したいと思います。 いくら高度なデータ分析手法を用いても、分析対象のセンサデータが正しく取得できていない場合は、結果が出ないことは容易に想像できますが、あまり議論されることはありません。 これは、センサ計測とデータ分析の両方を視野に入れた幅広いノウハウが必要となり、Information Technology (IT) とOperational Technology (OT)との融合という課題に行き着くためです。 本ブログでは、このマニアックな話題を、医者の診断に例えながら、わかりやすく解説していきます。 ------ はい、本日は 「なぜ医者の診断に例えて学ぶと良いのか?」 をテーマにお話しします。 近年、製造業DX、またはインダストリアルIoTと呼ばれるトレンドにより、AIを用いたセンサデータの分析が流行しています。 例えば、 ・ 製造装置の故障予測 (設備状態監視) ・ 生産品の不具合検出 (生産ラインの品質管理) が人気の用途です。 背景としては、熟練者のリタイヤを見越して、彼らが持つ暗黙知の形式知化が必要とされていることや、熟練者ですら見つけられない不具合を検出することで更なる品質向上を実現したいという考えが背景にあります。 そのため、データ分析のリーディングカンパニーである弊社には、世界各国において、センサデータの分析に関する御相談が数多くやってまいります。 それと同時に様々な誤解が生じていることがわかってまいりました。 ところが、数多くのお客様とお話をしていくと、多くの誤解や勘違いが存在することがわかってきました。 例えば、 分析アルゴリズムに関して、熱心に調査されているお客様、がおられます。 ごく普通のニーズだと思いますが、お話を伺うとこんな感じになることがあります。 監視対象物や起こっている異常状態が不明 データは持っておらず、機械学習等の分析手法を調査されているご様子であったり、監視対象となる設備機械や生産品が決まっていないというお客様です。 要は情報収集段階だということです。この場合、優秀なデータサイエンティストでも明確な回答はできず、お客様もなかなか納得されない状況が生まれます。 この状況は、医療で例えるなら、病気にもなっていないのに病院に行き、治療方法を熱心にお医者様に相談している状況と同じではないでしょうか? この例え話をさせて頂くと、すぐに状況を御納得頂けます。 データ分析をしても結果が出ない 2017年頃にIoTが流行った際に、まずはセンサで計測してみましょうということで「スタートアップキット」なるものが流行ったことがあります。 この名残で、分析しても結果がでなかったという苦い経験をされたお客様が数多くおられたようです。 投資もしましたし、会社組織としても困りますよね。そこで弊社に相談が来るわけです。 もちろん分析手法が原因である場合もありますが、実は問題の大半は、センサの選定ミスや、取付けミス、生データの取得方法などに関係しています。 この状況は、医療で例えるなら、心臓の病気を見つけるのに、聴診器を足に当てて心音を聞いているような状況が起こっているということです。また、ウィルス性の病気を聴診器で見つけようとしているようなケースも見うけられます。 これでは絶対に病気は見つけられませんよね? 医療に例えれば、あり得ない状況ではありますが、センサデータ分析の世界では、頻発している問題です。 正直、驚きではありますが事実です。 私はこのような状況を、非常にもったいないと感じています。 そのため、本ブログを通して、AIを用いたセンサデータ分析システムに関して生じている様々な誤解について、医者の診断に例えながら、わかりやすく御紹介していけたらと思っております。 その理由ですが、医療診断と、製造業系データの分析の流れは似ているからです(図1)。また、医療診断は、多くの皆様が実体験をお持ちですので、例え話を通して、言われてみればそうだなという感覚を持って頂きやすいのではないかと考えております。 図1. 医療診断の流れと、生産ラインでのデータ分析の流れはよく似ている 今回は、医者の診断に例えると、色々と見えてきますというお話をさせて頂きましたが、次回からは、よくある誤解に関して、次々に御紹介していきます。 テーマとしては、こんな感じの物を予定しています。 ・ 生産ラインにおけるAIを用いたデータ分析の種類について ・ 無症状であり、異常検出が甘くなる原因となる「センサの選択ミス(取得データの選定ミス)」 ・ 無症状であり、異常検出が甘くなる原因となる「センサの設置方法のミス」 ・ 無症状であり、異常検出が甘くなる原因となる「取得データの質が悪いケース」 ・ 患者に寄り添う現場スタッフとのコラボの必要性 ・ 病名は同じでも、症状が微妙に異なるケースへの対処 など 次回に続く
背景の紹介 これまでのSAS製品は、SAS 9でもSAS Viya 3.5でも、ほとんどがWindowsやLinuxのプラットフォームで動作していました。 そのため、Windowsクライアントを持つユーザーは、SMBサービスやWindowsのファイル共有機能を介して、これらのプラットフォームに保存されたファイルに簡単にアクセスすることができていたのです。 SASが開発した最新のクラウドネイティブ・データアナリティクス・プラットフォーム「SAS Viya」は、WindowsやLinuxなどのOS上で直接動作するのではなく、コンテナ/ポッドの形でKubernetes(以下、K8s)上で動作し、従来の製品とはアーキテクチャが大きく変わっています。K8s上で動作するサービスのコンテナ内のデータは一時的なものなので消えてしまう特徴があります。この点に対して、お客様は最新の製品を使用する際に、K8sに保存したデータをローカルのWindowsシステムからどのようにアクセスするのか、SASで作成したレポートなどのデータをどこに保存するのかという疑問を持つことが多いようです。 今回は、下記の図の構造のような、K8sに保存されているファイルを、比較的簡単な方法でWindowsクライアントと共有する方法をご紹介したいと思います。 本記事の内容は、Microsoft Azure上にデプロイされたSAS Viya Stable 2021.2.3に基づいています。centos 7.9上で、kubectl、kustomization、azure cliなどのコマンドラインツールを利用する作業が含まれているので、Linux、Kubernetes、SAS ViyaのデプロイメントとAzureに関する一定の知識が必要です。また、お使いのクラウドベンダーや製品のバージョンによって、設定方法が異なる場合もありますので、詳細は各ドキュメントをご確認ください。 SAS Viya on Kubernetesが利用するストレージの紹介 まず、K8s上にデプロイされたSAS Viyaサービスを使用した場合のデータの保存方法について簡単に説明します。 例えば、SAS Studioを利用する場合、ユーザーがセッションを作成するたびに、SAS ViyaはK8s上に一つのコンテナを作成します。これは、ユーザーがセッションで実行したすべてのコードや操作がこのコンテナに入っているミニLinux内で実行されます。 ご存知のように、コンテナの最大の利点は、インストール作業や設定などが一切いらず、配置したらすぐに使えることです。コンテナが提供するサービスや機能を使用するために設定を行う必要はありませんが、同時に、コンテナ内のデータに加えた変更も保存されず、新しいセッションを作成するたびに、まったく同じ設定を持つまったく新しいコンテナが作成されます。 そのため、SAS Studioで作成した新しいデータを保存したい場合は、コンテナの外部にあるストレージに保存する必要があります。K8sではこの外部ストレージは永続ボリュームと呼びます。 永続ボリュームを利用することにより、SAS Studioのセッションが終了しても、作業中にユーザーが作成した新しいデータはちゃんと保存されています。次にユーザーが新しいセッションを作成する時、以前使用していた永続ボリュームが新しいセッションに自動的にマウントされ、ユーザーが永続ボリュームに保存されていたデータを使って引き続き作業できます。この記事で紹介するデータ共有方法も、こちらの永続ボリュームを利用しています。 データ共有するための設定方法 次に、K8sで作成したファイルをWindowsと共有する方法を紹介します。前述したように、作業中に発生したデータを永続ボリュームに保存することができるので、永続ボリュームをWindowsにマウントするだけで、作業用PCとK8sの間でデータを共有することができますが、実現方法は使用する永続ボリュームの外部ストレージの種類によって異なります。 AzureのK8sサービス上でSAS Viyaを利用する場合、使用する外部ストレージは、大体以下の3種類です。Azure Fileを共有ストレージとして使用する場合、追加のサーバは必要なく、使い方も比較的簡単なので、本記事ではAzure Fileを外部ストレージとして使用する場合の共有方法を紹介します。 - ネットワークファイルシステム(以下NFS) - Azure Disk - Azure File(本記事で紹介する方法) データを共有するためには、次のような手順が必要です。 これらの手順には、AzureとK8sの管理者権限と関連する知識が必要なため、一般的にはサーバ管理者やSAS Viya導入の担当者が行うことになることに注意してください。 1.ストレージクラスの作成 2.永続ボリューム要求の作成
「お客様とFace to Faceで向き合うことができるという信用金庫の強みが、コロナ禍により十分発揮できなくなっています。そんな今だからこそ、業界のセントラルバンクである信金中金で、業界のデジタル化を推し進める役割を皆さんも一緒に担いませんか?」 信金中央金庫 しんきんイノベーションハブの狩野 詩生(かのう しゅう)氏は、アカデミア向けにアナリティクス・データサイエンスのキャリアを紹介するイベント「SAS アナリティクス・キャリアシンポジウム」でこう学生に問いかけました。 本イベントは、2021年12月22日(水)、SAS Japan六本木オフィスで開催され、同時にオンライン配信されました。「データサイエンティストが21世紀の最もセクシーな仕事」と言われて10年近くが経とうとしており、企業や組織でデータ活用の役割は徐々に広がりを見せていますが、どのようなスキルをどんな業務に活用しているかについては、まだ一般的ではありません。「データサイエンティストになりたい」と考える学生も、業務内容やキャリアを明確にイメージできないのではないでしょうか。このイベントでは、社会におけるアナリティクス・データサイエンスの活用をアカデミアに紹介するとともに、教育の側からのアプローチも論じます。 信金中央金庫は、全国の信用金庫の「セントラルバンク」として、信用金庫からの預金を投資・融資して運用しています。金融機関では、以前より金融リスクの管理や不正取引の検知の業務において、アナリティクスが活用されてきました。国の経済インフラを担う金融機関が健全な取引を行い、金融犯罪を防止するための対策は、監督省庁が目を光らせる規制業務であり、金融機関が必ず整備しなければいけない領域です。例えば、金融機関が保有している資産が将来どのような価値を持つのか、そのばらつきを予測するために統計学と金融工学をフル活用したり、また、国際犯罪組織による資金洗浄(マネー・ロンダリング)目的の海外送金を検知し、ストップをかけるために、統計モデルや機械学習モデルを構築したり、実は、データサイエンティストが世界の金融を支えているのです。 狩野氏は大学でマーケティングや経営学を専攻し、信金中央金庫で融資業務やコンサルティング業務を経験後、信用スコアリングモデルを作成・研究する業務に従事しました。信用スコアリングとは、端的に言えば、融資先が返済不能になる可能性がどれぐらいあるかを数値化することです。このために、場合分けのルールや統計モデルを活用します。また、最近では、EBM(Event Based Marketing)でのデータ活用に取り組んでいます。入出金データなどから、顧客の資金ニーズを予測し、適切なタイミングで商品を提案できるようにすることが狙いです。従来であれば、大まかな顧客カテゴリに応じた提案しかできなかったのが、予測モデルの活用により、よりパーソナライズされた提案ができるようになります。 このような目的のために、次のような業務があります。 どのようなデータをどのように受け取り、蓄積するかを設計する データのありかを整理し、内容を理解した上で、基礎分析により特徴を把握する 予測モデリングのためにデータの整形・加工を行う 統計学や機械学習を駆使してモデルを構築する データサイエンティストといえば、4番のモデル構築のスキルが重要に思われがちですが、それまでの準備も大切です。狩野氏は、データサイエンティストの業務において求められるスキルとして、「データ理解」「プログラミング」「モデル構築」に加え、「企画・立案」「サービス提供」を挙げています。特に、しんきんイノベーションハブのような組織では、顧客である信用金庫がどのように活用するかも考えてサービスを設計することが必要です。さらに、統計やデータ分析の専門家ではない顧客に説明し、使ってもらえるようにすることも求められています。特に金融機関のアナリティクス活用では「説明力」に重きが置かれており、モデリングにおいても、ブラックボックスのAI・機械学習より、説明力の高い統計モデルが利用されることが多いようです。 また、普段はSASやPythonプログラミングで業務にあたりますが、「どのような分析環境が利用できるかは組織によって異なるので、プログラミング言語については、広く勉強したほうが有利かもしれない」と狩野氏は述べました。「データ理解」についても、入社しないと業務についての知識を得ることは難しいので、組織のなかで学ぶ意欲とコミュニケーション力が重要になります。 信金中央金庫では、全国の信用金庫のデジタル体制の整備を担うため、幅広い業務があり、今後人材需要が高まります。データサイエンスに興味のある学生のみなさん、金融業界での活躍を目指してみませんか? 学生のみなさんは、統計学や機械学習を用いた予測モデルについて、SAS Skill Builder for Students で学習することができます。特に、「Predictive Modeling Using Logistic Regression」や「Machine Learning Using SAS Viya」は、SASソフトウェアの学習と同時に、予測モデルを利用する目的や、モデル構築や評価での注意点を学習できます。SAS Skill Builder for Student については、こちらのブログ記事シリーズもご参照ください。
前回の記事では、学生であれば無料で利用可能なオンライン学習コース「Skill Builder for Students」のProgrammingコースについての概要を紹介しました。今回は引き続きまして、Visual Analytics and Visual Statisticsコースについて紹介していきます。 データアナリティクスへの興味・関心は近年急激に増加しています。ただ特に学習を始めた学生では、データアナリティクスと聞くと、どうしても複雑なモデルを組むことや機械学習を実施することだけに意識が向いている印象を受けます。しかしデータアナリティクスの本質はそこではありません。根幹にあるのは意思決定や業績の改善にどれほど貢献できるかです。データの可視化、見える化は学生ですとしばしば軽視されがちな部分ではありますが、意思決定や現状の把握においては非常に有用な有用な方法の一つです。 今回紹介するコースではSAS Viyaプラットフォーム上でSAS Visual AnalyticsとSAS Visual Statisticsを使用し、様々な可視化方法、予測モデルについて学習を行います。これらを学習することによってデータに潜む傾向やパターンを把握し、そしていかにその後のリスク管理や傾向の予測などへとつなげていくかといった実践的なデータアナリティクスを学ぶことが可能です。またSAS ViyaはSASによるプログラミング以外にもRやPythonといった他のプログラミング言語をサポートしているため、SASのコーディングができない方であっても不自由なく利用することが可能となっています。 Visual Analytics and Visual Statisticsコースへのアクセスは以下の手順です。 Skill Builder for Studentsへログイン 「Learn SAS」というタブをクリック 画面中央の「Start Learning」をクリック 「Visual Analytics and Visual Statistics」をクリック 展開される各種e-learningコースをクリック 画面下部にある「enroll」をクリック Visual Analytics and Visual Statisticsコースの概要 本コースは SAS Visual Analytics 1 for SAS
前回の記事では、学生であれば無料で利用可能なオンライン学習コース「Skill Builder for Students」についての紹介を行いました。このSkill Builder for Studentsには5つのコースが準備されており、今回の記事ではProgrammingコースについての概要を紹介します。このコースではSASプログラミング言語、そのコーディング方法について学習を行います。 近年、データ解析をプログラミングをせずに行うGUIデータ分析ツールが普及し始め、SASからもEnterprise Guideといった製品が提供されており、データ分析の民主化が進んでいます。もちろんこういったツールによって多くの人がデータ解析に関わる各種機能にアクセスできるようになったことは大変大きなメリットです。 しかし、もし将来データ解析を行う職に就きたいという思いがあるのであれば自分でコードを書き、前処理や解析を行うことができるようになるべきだと個人的には考えています。あくまで個人的な意見になりますがツールに依存してしまうと解析や前処理で実行できることには限界がありますし、またデータに関連する分野の学生であればシミュレーションなどを自由に行うことも難しいです。誤解がないように言うとGUIツールを使うことが悪というわけではなく、GUIのほうが生産性や共有性が高い場面もありますが、いざという時に自らの力で実装できるというのがプロフェッショナルなのではないでしょうか? この記事を見ている方の大部分は、今後データ解析に本格的に携わっていきたい、自らのスキルを増やしたいという方だと考えています。このコースを修了したからと言ってデータ解析のプロフェッショナルになれるかというとそうではありません。しかし、その第一歩としては非常に良い内容だと思います。私自身もこのコースを受講しています。ぜひ一緒に学びましょう!! Programmingコースへのアクセスは以下の手順です。 Skill Builder for Studentsへログイン 「Learn SAS」というタブをクリック 画面中央の「Start Learning」をクリック 「Programing」をクリック 展開される各種e-learningコースをクリック 画面下部にある「enroll」をクリック コース内にある各レッスンではそれぞれのテーマに沿った内容が動画で紹介がされており、また適宜「Activity」や「Practice」という形で問題も出題されています。学生という立場からの個人的な感想ですが、単に動画を視聴するだけではなく、手を動かしつつ学習を行うことができるという点は非常に良いと感じています。デモとして紹介されている内容についてもプログラミングコードやデータセットも提供がされているので、動画を見つつ別画面で同じ手順を踏むとより理解も深まるかなと思います。 なおこのオンライン学習コースはすべて英語での提供です。もし英語が苦手でちょっと....という方は、動画の下部に動画の内容がすべてテキスト化されているので、適宜翻訳をかけつつ学習を行っていただければいいかなと思います。 Programinngコースの概要 programmingコースでは統計解析を行うためのプログラミングだけではなく、そもそものSASプログラミングの構成や、グラフ・レポートの作成、マクロなどを幅広く学ぶことができます。この記事の最後にあるように8つの項目に分かれており、各項目にはさらに複数のLessonが準備されています。各項目に含まれるLessonをすべて終了すると学習完了を証明する「SAS digital Learn Badge」(下図)が発行されます。 コース内容を実行する環境としては大きく3つあります。 SAS Virtual LabのSAS Studio SAS OnDemand for Academics のSAS Stuido 自らが契約しているSASソフトウェア ただ、今回の学習にあたり推奨するのは一番上の「SAS Virtual Lab」です。各コースでは様々なデータセット、プログラミングファイルを使いますが、SAS virtual Labではそれらがすべて既に保管されています。SAS
私は現在大学で生物統計学を専攻していますが、「SASを使えるようになりたいけど具体的に何をすればいいかわからない...」といった声をしばしば耳にします。医療系に限らず、このような思いを抱えている学生の方も多いのではないでしょうか。以前にSAS Blogに投稿された 【冬休みに勉強しよう】アナリティクスの学習(1) Skill Builder for Students では、学生を対象として、SASソフトウェアや統計解析・機械学習を中心とした基礎的な知識、スキルをe-Learningを通じ習得可能な無料のオンライン学習プラットフォーム「SAS Skill Builder for Students」を紹介しました。 このSkill Builder for Studentsで提供されているe-learningの各項目の内容について、学生目線での簡単な感想とともに連載していきます。ぜひこの機会に一緒にSASを勉強してみましょう! Skill Builder for Studentsの内容 Skill Builder for Studentsへログインすると「Learn SAS」「Get SAS Certified」「Career Resources」の3つのタブが存在しています。それぞれのリンク先では以下のような情報、学習コースが提供されています。 Learn SAS SASが提供している無料利用なソフトウェアやSAS認定資格についての概要 E-lerningコースと各種資格に対する対策 Get SAS Certificated SAS認定資格受験料割引の機会 試験日程のスケジュールやスコアレポート・デジタルバッジの請求 Career Resources データアナリティクスの専門性を学ぶ意義とキャリアの見つけ方 SASが提供しているインターンシップやフェローシップの紹介 SASコミュニティの紹介 SASソフトウェアに対する知識だけでなく、その後の長期的なキャリアプランも見据えた内容となっています。特に学生の方については、SASを学ぶことによってどのようなキャリアプランがあるのかのイメージがなかなかつきにくいかなと思いますので、その点でもオススメです! E-Learning コースとSAS認定資格の内容 E-Learning コースと各種SAS認定資格については、「Learn SAS」のタブから、「Start
Log4jの脆弱性に関する最近のニュースは、SASのお客様の多くにとって依然として最大の懸念事項です。ここでは、SASによる最新の活動と発見事項を皆様と共有したいと思います。 SASのお客様へ: SASソフトウェア環境およびSAS Cloudホスティング環境のセキュリティと完全性は常に当社の最優先事項です。SASのチームは、Log4j脆弱性に関する報道が出た後の早い時期(2021年12月中旬)に迅速に対応しました。オンプレミス環境のお客様のためには、影響を受けるSAS製品に関する情報はもとより、推奨されるアクションもご案内しました。SAS Viya 2021.2.2には、アップデートされたバージョンのLog4jが含まれています。加えて、当社は「loguccino」という無償ツールをリリースしました。お客様はこれを使うことで、ご利用中のSAS 9.4およびSAS Viya 3.x環境内にある脆弱なlog4jファイル群を検出し、パッチを適用することができます。 SAS Cloudホスティング環境のお客様のためには、「こうした脆弱性が悪用される可能性のある、この環境の複数の側面」を即座に強固にしました。具体的には、ネットワークベースのポリシーの厳格化や監視の増強などです。当社では「これらの公表された脆弱性に特化した形での、SASソフトウェアに関連した攻撃」のエビデンスは一切検知しておりません。 さらなる調査の結果、当社では「Log4j脆弱性自体は深刻であるものの、SASがホスティングされているシステム内におけるLog4jのコンフィグレーションおよび利用法では、エクスポージャーは極めて限定的」と判断しました。いかなる未認証ユーザー(=既存のアクセス権限を持たないユーザー)も、リモートコード実行脆弱性(RCE脆弱性)をトリガーすることはできません。これらの発見事項と既に実施済みの予防措置とを踏まえ、当社では「SAS Cloud内のお客様のSASアプリケーションとデータは安全性が維持されている」という確信を感じています。 さらなる詳細については、本件に関するSAS Security Bulletin(セキュリティ速報)をご覧ください。 ご利用中のSAS環境の生産性・安全性の維持に関する皆様の継続的なパートナーシップに感謝いたします。また、SASのお客様でいてくださり、ありがとうございます! セキュリティ速報のハイライト 上記の速報のアップデートに関する通知を受け取るには、SAS Support Communitiesのトピック「Updates on log4j Remote Code Execution Vulnerability (CVE-2021-44228)」をサブスクライブするか、このRSSフィードをフォローしてください。 SASでは、お客様のために “監査済みの自動化されたアプローチ” を提供する取り組みの一貫として、「loguccino」という脆弱性パッチスクリプトを開発済みです。このloguccinoは「logpresso」に似たツールですが、SASソフトウェア向けにカスタマイズされています。このツールはSAS 9.4およびSAS Viya 3環境を修復するために特別に設計されており、脆弱なLog4j JARファイルを再帰的に検索し、JndiLookupクラスを取り除いた上で、この脆弱性を含まない状態でJARを再パッケージ化します。 上記の速報には、SASがアップデート済みバージョンのLog4jを自社ソフトウェア内にデリバリーするにあたっての計画とタイムラインも記載されています。 SAS Viya 2020.1、SAS Viya 3.5、SAS Viya 3.4プラットフォームおよびSAS 9のSAS Logonプロセス内でのLog4jの利用に関してSASが実施した継続的および継続中の調査では、「CVE-2021-44228に関するコミュニティの理解を踏まえると、未認証のRCEエクスプロイトは現時点では不可能である」という結論に達しています。 大手の脆弱性スキャニング・ベンダー(Qualys、Rapid7、Tenable)はすべて、「この脆弱性に関連した最も一般的な攻撃ベクトル群をチェックするための、アップデートされたシグニチャ群」をリリース済みです。 最後に念のため繰り返しますが、お客様はいつでも当社のSupportサイトで最新のセキュリティ速報(英語)をご覧いただけます。 この記事は、英語版のオリジナルをもとにSAS Institute Japanが翻訳および編集したものです。
データを使って新たな知見を見つけたいと思ったことはありませんか?実社会の問題を解決したいと思ったことはありませんか?そんなあなたにぴったりのイベントがあります! 昨年引き続きSASでは、SAS Hackathonというハッカソンイベントを開催します。過去のSASハッカソンについてはこちらをご参照ください。このイベントは開発者、学生、スタートアップ企業、SASの顧客・テクノロジーパートナーの皆様を対象としており、世界中から参加者を募集しています。 参加者は以下の分野の中から興味のある分野を選択し、テーマの設定、そのビジネス課題・社会問題の解決をチームで目指していただきます。チームは最低2人から最大10人までで、経験豊富なデータサイエンティストから初級者、パートナーやSASの専門家などなど幅広い方が、Microsoft AzureでSASとオープンソースを使用し世界規模でつながることができます。 また本イベントでは各チームにSAS Viyaを実行するクラウド環境や、メンタープログラムも用意されており、それぞれのチームにガイダンスやサポートが提供されます。SASコミュニティのHacker's Hubもご参考にどうぞ。 イベントスケジュール SASハッカソンのイベントスケジュールは以下のようになっています。 2021年12月1日〜2022年2月15日 登録期間 2022年1月26日 キックオフイベント 2022年1月5日~3月31日 デジタルラーニングポータルへのアクセスの有効化 2022年3月1日~3月31日 ハッカソン環境へのアクセス 2022年4月1日~4月7日 ビデオの録画とアップロード 2021年5月 ファイナリスト発表 2021年9月 受賞者イベント ガイドライン SAS Hackathonは、開発者、学生、スタートアップ企業、SASの顧客、およびテクノロジーパートナーを対象としています。チームは、組織内の人々、組織とテクノロジパートナー、またはグループへの参加を検討している個人で構成できます。 チームが取り組む実際の課題(ビジネスまたは人道上の問題)の説明が必要です。 テクノロジーパートナーは、顧客や学生とチームを組むことができます。 スタートアップ企業は、顧客や学生とチームを組むことができます。 参加者である皆様の抱える問題をハッカソンで取り組うことが可能です。テクノロジーパートナーと協力する顧客は、一緒に新しい市場につながるパートナーシップに向けて取り組むこともできます。 学生と開発者はチームを形成できません。ただし、顧客、パートナー、またはスタートアップチームに参加すれば、参加できます。 ※参加をしたいがチームが見つかっていない学生や開発者は、次の登録手順の4において「Looking for a Team」を選択してください 登録手順 SAS Profileを作成します(既に持っている場合は2へ) SASハッカソンのイベントページにアクセス 画面上部中央にある「Register Now」をクリック 以下の3つのタイプから合うものを選んでクリック Team Leader 参加するチームが決定しておりチームリーダーである人 Team
前回の投稿 【冬休みに勉強しよう】アナリティクスの学習(1) Skill Builder for Students では、学生向けのリソース・ハブである Skill Builder for Students に登録し、e-Learningでの学習についてご紹介しました。取り上げた学習コースでは、SAS Visual Analytics をツールとして用いていましたが、このソフトウェアは SAS Viya と呼ばれるアナリティクス・プラットフォームで提供されます。 SAS Viya は次のような特徴を持っています。 アナリティクスによる課題解決に必要な「データの管理と準備」「分析による発見とモデル構築」「分析結果の実装」を一つのプラットフォームで提供 機械学習、ディープラーニング、テキスト解析、画像解析、予測、最適化などAI機能を網羅 グラフィカルな操作、SAS言語、Python、Rなどによるプログラミング、REST APIによる機能提供を実装し、アナリティクスへのアクセスをオープンにする これらの特徴は、企業や組織でアナリティクスを用いて価値を発揮するために必要なものでありますが、学生がデータ分析を学ぶ場面では必ずしも重要なものではないかもしれません。しかし、GUIやSAS言語、オープンソース言語など、それぞれの学生が得意とするスキル、今後のキャリアに役立つ技術を磨くプラットフォームとしては有用です。SAS Viya は商用またはアカデミア向けのライセンス提供がありますが、教育目的には無償の SAS Viya for Learners がSaaS形式で提供されています。 SAS Viya for Learners は、SAS Skill Builder for Students と同様に、大学ドメインのメールアドレスを登録したSASプロファイルをお持ちであれば、無料で登録・利用することができます。クラウドでの提供ですので、ソフトウェアをインストールする必要はなく、Webブラウザからアクセスするだけで利用できます。GUI操作での可視化(SAS Visual Analytics)や、機械学習モデル作成ツール(SAS Model Studio)、SASプログラミングについては、SAS Skill Builder for
学生の皆さんは今日から冬休みでしょうか。「卒論でそれどころじゃないよ!」という方もいるかもしれませんが、この期間に「何か新しい勉強を始めてみようかな」と思われる方も多いのではないでしょうか。 データサイエンティストが「21世紀で最もセクシーな仕事」と言われてから10年近くが経とうとしています。しかし、社会におけるデータの活用はまだまだ発展途上であり、そのための人材は依然として高い需要があります。「データサイエンティスト」はそのなかでも、多くの高度な知識と技能を持った人材ですが、デジタル・トランスフォーメーション(DX)と呼ばれる業務改革が進む中、高度人材だけでなく、より広範囲の人たちがデータを活用した仕事に従事することが求められています。数理科学とテクノロジーを駆使するデータサイエンティストでなくても、アナリティクスに関わり、自分なりの知識とスキルを発揮することができます。 SAS Skill Builder for Students は、SASソフトウェアと統計解析・機械学習を中心に、「データリテラシー」や「ビジュアライゼーション」といったより基礎的なの知識やスキルを無料で学習できます。また、認定資格取得の案内や、アナリティクスを活用したキャリアについての情報も提供しており、アナリティクスの初学者からデータサイエンティストのキャリアを構築しようとする学生まで、多くの方に活用いただけます。この機会にぜひ登録してください。 登録方法は次の4ステップ SAS Skill Builder for Students にアクセス SASプロファイルをお持ちでない学生は「SAS プロファイルを新規に登録」から登録 ※ 登録するメールアドレスは大学ドメイン(.ac.jpなど)のものを入力してください。 登録したSASプロファイルのメールアドレスを SAS Skill Builder for Students のログイン画面で入力 My Trainingの画面でLicense Agreementを読み、同意のチェックボックスにチェックを入れて「Submit」 登録・ログインに成功するとこちらのようなホーム画面が表示されます。 「Learn SAS」「Get SAS Certified」「Career Resources」のタブがあり、それぞれe-Learningによる学習、認定資格の案内、キャリア構築のためのリソースが提供されています。 ここでは「ビジュアライゼーション」のe-Learningをご紹介します。SAS Visual AnalyticsというGUI操作による可視化ツールを利用して、データから示唆を得る方法を学習するトレーニングです。数学やプログラミングが苦手な方でも学習できます。 「Learn SAS」タブ→「Start Learning」→「Visual Analytics and Visual Statistics」→「SAS Visual Analytics 1 for SAS
2021年11月、国が一時停止している子宮頸がんを防ぐHPV(ヒトパピローマウイルス)ワクチンの積極的な接種の勧奨の再開が厚生労働省の専門家による検討部会によって正式に承認されました。このHPVワクチンは世界保健機関(WHO)がその接種を推進しており、日本をはじめとして多くの先進国では公的接種とされています。この記事はData for Good活動の一環として、パブリックデータを用いて問題を可視化することで、子宮頸がんに対する認知や関心をより持っていただき、今後のHPVワクチンの普及につなげることを目的としています。 子宮頸がん 子宮頸がんのほとんどはヒトパピローマウイルス(HPV)というウイルスの感染が原因となり子宮の頸部に発生するがんの一種です。感染の経路は主に性的接触によるものであり、成人女性の大部分はHPVに感染するとされています。HPVに感染してもその多くは自然に消失しますが、一部は頸部の細胞が異常な変化を起こした子宮頸部異形成というがんの前段階(前がん病変)になります。そしてさらにその一部が数年から10年ほどで悪性腫瘍へと進展し、子宮頸がんを発症します。この子宮頸部異形成(前がん病変)の早期段階では自覚症状はほぼなく、病変を発見するためには子宮頸がん検診を受けることが必要ですが、自覚症状があまりないために検診を受けた段階で既に進行がかなり進んでしまっているケースもあります。 国立がん研究センターがん情報サービスは国立がん研究センターが運営している公式サイトであり、日本国内のがんに関する統計情報ががん種別に公開されています。今回はその統計情報の中から、子宮頸がんに該当するデータ(がん種:子宮頸部)を抜き出し、無料で利用可能なSAS OnDemand for Academicsを利用して可視化を行いました。日本での死亡者数は2019年度時点で年間約3,000名、罹患者数は2018年時点で約11,000名ほどとなっており、下図のように増加の一途をたどっています。 出典:国立がん研究センターがん情報サービス「がん統計」(人口動態統計) より作成 ま子宮頸がんの罹患者数は2009年~2018年(最新)まで10年連続で1万人を超えており、罹患者数は30歳頃から増え始め現在は45-49歳が最も罹患が多い年代層となっています。また罹患する年齢層が若年化していることも危険視されています。子宮頸がんに対して我々ができることは以下の二つです。 子宮頸がん検診を受けること(発見) HPVワクチンを接種すること(予防) 私たちにとって重要なことは、2年に1度の受診が推奨されている子宮頸がん検診によって異形成(前がん病変)を早期に発見すること。そして検診と同様に重要ことが、HPVワクチンを接種し対応するHPVの感染を防ぎ、子宮頸がんとなるリスクを下げることです。 HPVワクチン 子宮頸がんの原因となるHPV(ヒトパピローマウイルス)は現在100種類以上の存在が知られており、そのうちのいくつかは子宮頸がんを引き起こしやすいハイリスク型に分類されます。HPVワクチンにも様々なタイプがありますが、日本では定期接種の対象となっているのは2価(サーバリックス)と4価(ガーダシル)のワクチンで、接種することでおおよそ50~70%程の感染を防ぎ子宮頸がんになるリスクを減らすことが可能です。また2021年2月24日からは9価ワクチンも日本での取り扱いが開始されましたが定期接種の対象ではないため自費での接種となっています。 「接種の積極的な勧奨」について HPVワクチンは下図のようにいくつかの事業、法案の後押しもあり、その対象となる年齢の女性へ接種の積極的な勧奨が行われていました。しかし公費での定期接種開始後に副反応の報告が相次ぎ、副反応と接種との因果関係や、その頻度、海外での詳しい実態調査が必要とされ、厚生労働省は約半年間をめどに「接種の積極的な勧奨」の一時中止という決定を2013年6月に下しました。当初は半年間がめどとされていたものの、一時停止はその後も続き、ワクチンの有効性が様々な研究により示され2021年11月に接種の積極的な勧奨の再開が正式に決定されるまで約8年の月日がかかりました。 専門家らの研究結果によると、接種の積極的な勧奨が一時停止されるまではおおよそ70%であった定期接種の対象年齢での接種率もこの一時停止により現在は1%未満にまで落ち込んでしまっています。論文のデータをもとに出生年ごとのワクチン接種率を可視化したものが下図です。 Nakagawa S, Ueda Y, Yagi A, Ikeda S, Hiramatsu K, Kimura T. Corrected human papillomavirus vaccination rates for each birth fiscal year in Japan. Cancer Sci. 2020;111(6):2156-2162. doi:10.1111/cas.14406 より作成
SAS Global Forumオンデマンド配信の紹介 SAS Global Forumは、年に一度開催される世界最大級のアナリティクス・カンファレンスです。南北アメリカ、アジア太平洋地域、EMEAの3つの地域ごとにイベントは分かれており、アジア太平洋地域は5/19(水)~5/20(木)に開催されました。イベントの内容は2021年6月25日(金)までこちらより、オンデマンドで視聴可能です。 Forumでは、様々な分野のトップ企業、スピーカーの刺激的な講演を聞くだけでなく、トレーニングや技術セッションといった学習機会も提供されます。また優れたデータアナリティクスの成績・教育が認められた学生や教育者に対しては表彰が行われました。ここでは一人の受賞者のセッションを紹介します。 Do Americans trust scientific experts? このセッションはタイトルにもあるように、医者・環境学者・栄養士など“科学に関連する専門家”に対するアメリカ人の不信について取り扱っています。この話題は幅広く活用が期待でき、多くの人々に関連する事柄であるという背景があり、今回の講演のテーマとして設定されています。 使用されたデータは、科学者に対する人々の全体的な意見や個人の科学にまつわる知識などを調査して収集されています。収集したデータを用いて、記述統計による考察やディシジョンツリーをはじめとしたモデルによる分類の結果から、次のようなフィードバックを共有しています。 各専門家に対する肯定的/否定的な意見の割合は、医者が最も肯定的な割合が高く、その中でも人々と対面する機会が多い開業医に対する肯定的な意見が多い。 人々の政治的傾向に基づいて専門家への信頼度に差が出ている 科学知識が前提にある人の方が専門家への信頼を示している スピーカーはこの結果をもとに、ワクチン接種の促進が可能になるのではないかという活用例を話しています。それは市民に専門への信頼に関する質問に答えてもらい、信頼の低い地域の人々に対してワクチン情報について教育・説得することでワクチン接種を増やすという仕組みです。 またスピーカーは私たちと同じ大学の学生で、コロナ禍に抱える問題も絡ませたセッションになっており、私たちにとても身近な内容になっています。 繰り返しになりますが、SAS Global Forum2021はより優れたキャリアにつなげる大きなチャンスであり、各セッションの様子はオンデマンドで視聴可能です。ぜひ自らの成長のために登録、ご覧ください。
◆ はじめに 行政のデジタルトランスフォーメーション(以下DX)は、デジタル化が進み、非対面でのコミュニケーションが日常化するなど、従来の生活形態が変化するにつれて、政府や行政も市民サービスの変革をする必要性が高まっています。その動きとして日本でもデジタル庁を新たに設置し、データ管理やITシステムなどを総括することになります。しかし行政のDXは、システムのデジタル化による行政手続きの効率化だけに焦点が当たり、大規模なシステムを構築しがちですが、本来行政のDXとは、データとそのデータを分析した結果得られた洞察によって、より良い市民サービスにつなげることから考えることが必要だと考えます。本稿では、SAS社の本社がある米国ノースカロライナ州(以下NC州)で行われている行政のDX事例について紹介します。NC州では、データ分析を活用して、様々な政策やサービスを新たに開発し、市民サービスに新たな価値を提供しています。この事例を通して、行政のDX成功のためのポイントについて見ていきたいと思います。 ◆ 行政におけるDXのポイント ポイント1.小さいことから始めよう 行政のDXで一足飛びに100%満足できる成果まで至る事例はあまりありません。また、すべてが理想的に準備されるまで待つ必要もありません。NC州は2007年からGDAC(Government Data Analytics Center)と呼ばれるデータの管理や分析を行う部署の運営を始めました。最初から大きなプロジェクトを行ったわけではなく、まずは各機関米国ノースカロライナ州から学ぶ行政におけるデジタルフォーメーションのデータを収集し、データ管理とモニタリングから始めました。初めの3年間は、データ基盤を構築し、大きなプロジェクトに最初に取り組んだのは2010年の犯罪分野です。GDACはSAS社と共同で「CJLEADS」というプロジェクトを開始しました。CJLEADS(Criminal Justice Law Enforcement Automated Data Services)は、犯罪データの統合管理のシステムです。CJLEADS導入前は、様々な機関のシステムやプロセスを経由して犯罪記録を閲覧したり、更新したりしましたが、現在では各機関がCJLEADSを介して犯罪歴を統合的に管理しています。これにより、NC州は、年間1,200万ドルを節約することができ、犯罪データの紛失や欠落を防ぎ、より安全な社会を作ることができました。その後、犯罪分野だけでなく、様々なプロジェクトに取り組み、行政のDXを進めています。これらのシステムやプロジェクトを最初から完全に構築することは簡単ではありません。NC州のCJLEADSも、最初はデータの収集、統合したデータを活用したレポーティングやモニタリング、そして複雑な課題解決、とステップを踏んでいます。このように、ビジョンは大きく掲げつつ、小さな成果を重ねて発展させることがポイントではないでしょうか。 ポイント2.現場にいるビジネス専門家の協力を得る 行政のDXの目的は、市民サービスの向上です。どうすればデジタル技術を活用したより良いサービスが生まれるのでしょうか。ここでは、例えば、一般的な自然災害である「洪水」を例として挙げてみましょう。世界的に洪水は年間数千万人の命を奪い、経済的な損失も大きくなります。それに対し、NC州は高度なデータ分析力とIT技術力を持つ企業との業務提携を通じて洪水問題を解決しています。 図1.SASとMicrosoftは様々な分野で顧客の課題を解決するために2020年6月に戦略パートナーシップを締結 NC州では、SAS社のデータ分析技術とMicrosoft社のIT技術を用いて洪水による災害を予測し、地域社会に知らせるシステムを構築しました。気象データ、橋の水位、降雨量など、様々な指標をはかり、IoTと機械学習を活用し、洪水による災害を予測・警告する仕組みを構築しました。この取り組みは、2020年11月には米国で毎年行われる政府革新賞(Government Innovation Award)で、公共部門の革新事業賞を受賞しました。NC州の洪水予防システムは企業との協力で公共データを活用し、市民の安全を確立することができたと評価されています。 図2.米国ノースカロライナ州とSASが共同で行ったDX事例 図2にはNC州とSAS社が協力して行った行政での様々な分野のDX事例の一部を記載しています。状況別、時期別、プロジェクト別など多様な課題が存在する行政のDXでは、当該課題を解決できる能力を備えた民間機関や民間企業などの経験と技術が貢献できるのではないでしょうか。 ポイント3.本来の目的に集中する 上記のポイントを成功させるためには、最終的にすべての参加者が「より良い市民サービスの提供」というDXの本来の目的を常に意識する必要があります。行政のデジタル化では、「オンライン行政サービス」、「電子政府の設置」などのシステム化対応に追われ、DXが本来生み出せるはずの「市民サービスの革新的な向上」という目的を見失いがちです。今回例に挙げたNC州ではDXの取り組みそのものを継続的に推進し、市民中心のサービスを提供するためにデジタルガバナンスを構築しました。そのガバナンスの透明性を高めるために毎年「We Are NC Gov」というカンファレンスを開催し、現在のDXの状況や今後の計画について議論しています。また、一般向けに州のDXの取り組みについて理解してもらえるよう、YouTubeへ説明動画をアップロードしています。外部からフィードバックをもらうことで、さらにより良い市民サービスの提供を目指しています。デジタル技術は、それ自体で意味のあるものではなく、その技術を活用して、市民サービスの革新を創出することではないでしょうか。 図3.NC州の情報技術部が2020年6月、YouTubeに公開した動画の一部を日本語に翻訳。GADCのデータ解析センター長が部門の事業について発表した。 ◆ おわりに 米国NC州とSAS社が共同で取り組んでいる行政のDX事例を通じて、行政におけるDXの成功のポイントについて考察してきました。ご紹介した3つのポイントが、革新的な市民サービスの向上へと向かうための一つの道標となるのではないでしょうか。日本におきましても、SASは戦略パートナーシップに基づいてMicrosoft社とスマートシティを推進して参りますので、詳細情報をご希望の方は是非ご相談ください。*お問い合わせ先: JPNSASInfo@sas.com
この記事はSAS Institute Japanが翻訳および編集したもので、もともとはMike Gillilandによって執筆されました。オリジナルはこちらです(英語)。 またこれは、ゲストブロガーのジェシカ・カーティス(Jessica Curtis)とアンドレア・ムーア(Andrea Moore)による3部構成記事の第3部です(未読の方はこちら:第1部、第2部)。 SASがそれを実現する方法 オープンソースの時系列予測モデルをSAS Visual Forecastingに統合する方法には2つのメインステップがあり、どちらのステップもオープンソース・モデルのメリットと利用価値を増大させます。 基礎:オープンソース予測モデルをプログラム的実行で拡張する 資産の共有:オープンソース予測モデルをカスタム・モデリング・ノードとして利用する ステップ1 - 基礎:オープンソース予測モデルをプログラム的実行で拡張する オープンソースの時系列予測モデルをSASに統合するための基礎は、コードベースのアプローチを通じてプロセスを(手作業ではなく)プログラム的に実行することです。あなたは既にTSMODELプロシジャとEXTLANGパッケージのパワーについてお読みです。 TSMODELプロシジャ内部には、オープンソース・モデルを実行するためのオプションがいくつもあります。まず、自社/自組織のオープンソース戦略を加速および業務運用化するためのインフラとしてSASを活用し、オープンソース・モデルだけを実行することができます。また、これをもう一歩進め、オープンソース・モデルをSASのモデルと一緒に実行することができます。この場合、SASは時系列レベルでSASとオープンソースにまたがって最適なモデルを自動的に選択します。さらに、SASおよびオープンソースのモデルを組み合わせることも可能であり、この場合は、SASとオープンソースの組み合わせが個々の時系列に最適かどうかをSASが判断することになります。このアプローチにより、オープンソース・モデルの構築に投じてきた全ての努力を活かしながら、SASのアルゴリズム群も追加で取り込むことで、両方の世界の “いいとこ取り” を実現できるようになります。どのモデリング手法が最適かをあなたが事前に知る必要はなく、SASがあなたのためにその力仕事を代行します。SASは個々の時系列に関して、オープンソースとSASのどちらのモデルを選ぶべきか、あるいは両方を組み合わせるべきかを判断します。選択の機会が無限にある取り組みにおいて、これでその選択機会が一つ減ったことになります(お分かりですよね? あなたの時間は既に節約されつつあります!)。 図2は、TSMODELプロシジャとEXTLANGパッケージの実際の様子を示しています。これは、R言語のauto.arima関数をSASで実行している例です。EXTLANGパッケージを使うと、オープンソース・コードを読み込む方法の柔軟性が高まります。SASの内部で(図2のように)明示的にオープンソース・コードを記述することも、あるいは、指定したファイルからオープンソース・コードを読み込むこともできます。 この基礎のステップにより、オープンソースおよびSASの時系列予測モデルがともにプログラム的に実行されるようになります。予測結果は、幅広いビジネスユーザー層による利用のために、川下側の計画システムや実行システムへと簡単な方法で供給することができます。また、この基礎となるプログラム的アプローチを土台として、追加のメリットを得ることも可能です。具体的には「SAS Visual Forecastingのユーザー・インターフェイスの内部で、TSMODELのコードを取り出し、それをカスタム・モデリング・ノードの中へラッピングする」という方法を使います。 ステップ2 - 資産の共有:オープンソース予測モデルをカスタム・モデリング・ノードとして利用する SAS Visual Forecasting のグラフィカルなユーザ・インターフェースは「様々なカスタムノードを作成し、それらをモデル・パイプライン内での利用のためにExchangeにロードできる機能」により、コラボレーションを強化します。カスタムノードはEXTLANGの機能を活用して、あらゆるR/Python予測モデルを実行することができます。様々な技法を使いたい場合には、多数のカスタムノードを作成することができます。その手間をかける見返りは多重的です。これらのノードは、どのような時系列予測プロジェクトにも適用可能であり、また、コラボレーションを強化するためにチーム内で共有することも可能です。いったん作成すれば、様々なパイプラインの中で、あるいは様々なデータ入力に対しても再利用することができます。図3をご覧ください。 作成したカスタム・モデリング・ノードは、あらゆるパイプラインに追加することができ、パイプライン内でSASの予測技法と独自のオープンソース・ノード(群)を組み合わせたり競わせたりすることができます。あなたのパイプラインが「複数のオープンソース/SASアルゴリズムによるトーナメント」を実行すると、SASはあなたの仕様指定にベストフィットするモデルを特定するための評価を実行します。モデル比較ノードを使うと、「複数のオープンソース/SAS技法を管理しながら、最良のモデリング戦略を評価するためにそれらを比較する作業」のための、迅速で透明性の高い方法が実現します。図4をご覧ください。 SAS Visual Forecasting のグラフィカルなユーザ・インターフェースを使うことで、「ワークロードの分散処理」や「オープンソースとSASにまたがるモデル選択」など、プログラム的アプローチの全ての利用価値が手に入ります。しかし、それだけではありません。このアプローチには「生産性と透明性の向上」、「オーバーライド(手動調整)機能や例外管理機能も備えた、ガバナンスの効いたワークフロー」、「ビジュアライゼーション機能との統合」という追加のメリットもあります。これらのビジュアライゼーション機能はUIに組み込まれており、ユーザーは追加の労力なしで、時系列予測モデルをより的確に理解および評価できるようになります。その使い勝手は対話操作性と協働作業性に優れており、プログラマー以外の幅広いユーザー層が利用できます。 プログラム的アプローチを利用するか、Visual Forecasting のグラフィカルなユーザ・インターフェースの中でカスタム・モデリング・ノードを作成するかを問わず、SASは小規模なプロジェクトから全社規模のソリューションへの転換を図る取り組みに適した、拡張性と弾力性の高い時系列予測環境を実現します。 まとめ 要約すると、SAS Visual Forecastingはオープンソースによる時系列予測戦略の可能性を広げます。TSMODELはSAS Visual Forecastingの基底をなしているプロシジャであり、EXTLANGパッケージはオープンソース言語との統合を可能にします。TSMODELとEXTLANGの組み合わせによって “マジック” が生まれます。SASはオープンソース・スクリプトを分散処理します。SASは複数の入力データを同時並行で読み込みます。SASはオープンソース・コードの実行を分散処理します。SASは複数の出力データセットを同時並行で書き出します。分散処理、拡張性、弾力性 ── 要チェックです!
この記事はSAS Institute Japanが翻訳および編集したもので、もともとはMike Gillilandによって執筆されました。オリジナルはこちらです(英語)。 またこれは、ゲストブロガーのジェシカ・カーティス(Jessica Curtis)とアンドレア・ムーア(Andrea Moore)による3部構成記事の第2部です(第1部はこちら)。 SASがオープンソースにもたらす価値 何よりもまず、SASは時系列予測用の入力データを分散処理します。SASは時系列予測のためにデータをインテリジェントに分割する方法を理解しており、例えば、時系列グループが様々なワーカーノードにまたがって分割されることはありません。その上で、SASはオープンソースのスクリプト群そのものを複数のワーカーノードにまたがって分散させ、オープンソース・コードの実行を分散処理します。より具体的に言うと、EXTLANGパッケージはPythonまたはRのコードを呼び出す際、個々のPython/Rインタプリタを複数のワーカーノードのそれぞれに振り向けます。その結果、複数の時系列は同時並行で処理されます。このことがスケーラビリティと効率性の観点から何を意味するかを考えてみてください。これにより、あなたは自社/自組織の時系列予測能力を「一つの時系列予測課題の解決」から「組織全体の多種多様な時系列予測課題の解決」へと広げることができるようになります。しかも、より迅速かつ大規模に解決することができます。 例えば、あなたの勤務先がグローバル小売企業だと想像してみてください。あなたのビジョンは、単一の一貫した時系列予測プラットフォームで会社全体の多種多様な時系列予測課題を解決することです。膨大な数のSKUの品揃えの需要予測から、サプライチェーン全体に展開すべき適切な在庫量の判断、各店舗における労働の最適化に至るまで、あらゆる取り組みにおけるあなたの目標は、アナリティクスに基づく正確な意思決定を推進することです。今日、あなたはちょうど、「財務計画の意思決定のための集計レベルの時系列予測」をR言語で開発するプロジェクトで、最初の作業パスを終えたところだとしましょう。R言語による時系列予測アプローチは多くの点で成功しているように見えますが、あなたは店舗の労働に関する意思決定をサポートするために、これらの時系列予測機能を拡張し、より高粒度なレベルでの時系列予測を開発することを目指しています。時系列予測担当アナリストのチームは小規模であるため、あなたには、多種多様な時系列予測ユースケースに対応するために効率的に処理規模を拡大・拡張できる自動化されたプロセスが必要不可欠です。 集計レベルでの財務計画のために、あなたは1,000個の時系列処理を実行しています。店舗別および部門別の店舗労働計画の場合、この数はあっという間に10万個へと膨れ上がります。SKU/店舗レベルのサプライチェーン計画では、時系列は数百万個に及びます。これは間違いなく、大規模な時系列予測課題だと思われます。「分散処理に対応したスケーラブルな時系列予測ソリューションのパワーによってのみ克服可能な課題」ということです。ようこそ、SAS Visual Forecasting の領域へ。 どのような大規模な時系列予測課題でも、成功のカギを握るのは自動化です。そしてそれこそ、SASが行うことです。SASは統計的予測プロセスおよびオープンソース・モデルの実行を自動化することにより、お客様のビジネスにおける時系列予測プロセスの効率化を推進します。TSMODELプロシジャとEXTLANGパッケージのパワーにより、SASはオープンソース・モデルの実行時間を加速することで、時系列予測プロセスの効率化を更に推進します。これにより、あなたのチームは「時系列予測モデルを一度に一つずつ作成する負担」が軽減し、真の例外ベースのプロセスへと移行することができます。解放された時間で、事業計画の取り組みや、予測対象を新しい領域に広げる取り組みに注力できるようになります。端的に言うと、少ないリソースで多くのことが行えるようになる、ということです。 いったんモデルを作成した後は、SASが自動的に複数の出力用データセットを生成します。これは単なる時系列予測を超えた機能です。これには「モデルの仕様」、「当てはめ統計量」、「パラメータ推定値」を格納している多種多様なデータセットも含まれています。次に、これらの出力用データセットは ── あなたのご想像通り ── 分散処理にかけられます。このリッチな出力用データはデータサイエンス・チームとビジネス・チームの両方に対し、「重要な需要推進要因」や「モデルの詳細」に関する多くの洞察をもたらします。統計的予測を信用していないビジネス部門の人々と交わしたことのある様々な議論を思い出してください。その点、SASが自動的に作成する出力用データセットは「モデルがなぜ、何を行うのか」を “見える化” するために役立ち、その結果としてビジネス部門側との議論の質が高まり、モデルの採用率が改善されます。 また、SAS Visual Forecasting は、内蔵されているベストプラクティスにより、オープンソース・モデル群の強化も行います。特許取得済みのデータ診断機能やモデル構築プロセスから、リコンサイル(調整)機能付きの自動階層型予測機能、さらには、統合型の時系列セグメンテーション機能に至るまで、SAS Visual Forecastingは単なるアルゴリズムを超えたレベルで、様々なベストプラクティスに基づくエンドツーエンドの時系列予測プロセスを提供します。 自動化機能、加速機能、強化機能は全て、お客様の組織のニーズに合わせた規模調整に対応可能です。組織全体の多種多様な時系列予測ユースケースに応じて処理規模を拡大(または縮小)することができます。製品階層やロケーション階層の最下位レベルの粒度まで掘り下げる大量かつ複雑な処理にも対応できる高度なスケーラビリティにより、任意のレベルで時系列予測を実行し、結果を生成することができます。「最初に上位レベルの時系列予測を作成/調整し、それを手作業で下位レベルに落とし込む(按分する)手法」に頼る必要はもうありません。SASは、ビジネス上の意思決定が行われるのと同じレベルで、高品質な時系列予測を自動的に生成します。 (第3部に続く)
この記事はSAS Institute Japanが翻訳および編集したもので、もともとはMike Gillilandによって執筆されました。オリジナルはこちらです(英語)。 ゲストブロガーのジェシカ・カーティス(Jessica Curtis)とアンドレア・ムーア(Andrea Moore)による3部構成記事の第1部にようこそ。 時系列予測はユビキタスな存在 時系列予測は、事実上あらゆる業種にわたり、ビジネスにおける多種多様な意思決定の中核を支えています。それはあなたの勤務先が、「膨大なSKUの品揃えの計画」や「配送センターや店舗の労働計画の改善」に取り組む小売企業であるか、需要計画プロセスの刷新に取り組んでいる消費財企業であるかを問いません。あるいは、デジタル広告/在庫計画/価格設定のために時系列予測を活用しているメディア企業や、最適なリソース配分のためにネットワーク利用率を予測している通信企業など、挙げればきりがありません。より優れた予測を得ることのインパクトは、あらゆる企業・組織における “ビジネス上の意思決定” に広範囲かつ抜本的な向上効果をもたらします。 44年以上にわたり、SASは世界各地の数千社の企業のために大規模な時系列予測プロセスを改善し続けています。SASはその間、統計的予測の精度向上と時系列予測作成プロセスの効率化を通じて最終利益の押し上げに貢献する強固な時系列予測ソフトウェアを開発および強化し続けてきました。これは決して大げさな表現ではありません。実際、当社は何冊も書籍を出しています。 SASの最新の時系列予測テクノロジーを搭載したSAS Visual Forecasting は、全社規模の様々な時系列予測課題を迅速かつ自動的に解決するための唯一無二の機能を提供します。SAS Visual Forecastingは、最新鋭の各種アルゴリズム ── 機械学習、時系列、アンサンブル ── だけでなく、過去データの診断、複雑な階層にまたがる自動予測、予測の例外管理に関する内蔵型ベストプラクティスも搭載しています。SAS Visual Forecastingの中核にある信条の一つは、「オープンソースのモデルを実行し、それらを大規模にデプロイ(業務実装)するための、オープン・エコシステムを提供する」ということです。 現在、オープンソース・ソフトウェア(OSS)は時系列予測モデルを開発するために広く使われています。多くの企業・組織がオープンソース戦略に取り組み始めており、PythonやRを活用して時系列予測を作成していますが、組織全体の多種多様な時系列予測ユースケースに対応するべく規模を拡張しようとしたときに様々な難題に直面しています。オープンソースの時系列予測モデルを「SASのソリューション」(以下、単に「SAS」)で実行することには複数のメリットがあり、既存のオープンソース戦略に立脚しながら俊敏かつ効率的な方法を確立することができます。もはや、SASとオープンソースのいずれかを選択する必要はなく、両者は真の相補的な関係にあります。 オープンソースで開始する 多くの企業・組織は、頑健な時系列予測を作成することに苦戦しているほか、様々な時系列予測ユースケースのために規模を拡張しようとしたときに難題に直面しています。個々の時系列予測課題には、データが徐々に増加し、複雑性も増大していくという問題が伴います。 例えば、あなたの勤務先が通信企業で、あなたは追加のインフラ(例:携帯電話網のセル)投資を行うべき場所に関する意思決定をガイドするために、データ帯域幅の需要を予測する必要があるとします。新規インフラ投資を計画するためには、帯域幅需要が時の経過とともにどのように変化するかを理解する必要があります。そこであなたは、市場における総需要が徐々に増加する様子を推計するために、オープンソースの時系列予測ソリューションを構築します。そこから得られる予測は、ネットワークをどれほど拡大するべきかに関する年間計画の基礎となります。そしてあなたは、計画プロセスへのアナリティクス活用について高く評価されたとしましょう。次のサイクルでは、計画のための単独の総合的な予測ではなく、「追加データの取り込みを伴う分析」と「通信インフラの個々の構成要素に関する予測の作成」を依頼されることになりました。 図1は今回の要請が「市場だけでなく、個々の都市/中継局/ノード/構内も対象とした予測」であることを示しています。この分析には、大量のデータと多数の時系列を用いて数千あるいは数百万もの時系列予測を生成する作業に対応できる処理規模の拡張性が必要不可欠です。上位レベルの値を下位レベルの値へと配分するのではなく、高粒度レベルの個々のネットワーク・コンポーネントに関する統計的予測を集計していくことが、予測精度の向上へとつながるからです。こうした予測精度の向上が実現すれば、資本計画プロセスは更に洗練されたものとなり、リソースは最も必要性の高い場所にピンポイントで、適切なタイミングで配分されるようになります。 これはネットワーク計画に固有の話ではなく、同じテーマの議論が全ての業種で繰り返されています。ここで必要とされているのはパラダイム・シフトです。あなたはもはや、個々の時系列予測を手作業でチューニングすることはできません。数量が大きすぎるからです。 必要なのは、「あらゆるタイプのユーザー(例:プログラマーと非プログラマー)が “モデルの構築” や “高品質な時系列予測の生成” において生産的になること」および「分散環境でデータを高速に処理すること」を可能にするソリューションです。そうしたソリューションでは様々なプロセスの自動化が、高精度な時系列予測の生成を促進します。 ここまで来ると、予測モデルを構築するだけの話ではなくなります。それよりも遥かに大規模な取り組みになります。また、時系列予測の結果を事業計画プロセスに統合することも必要になります。そのためには、多くのユーザーが結果を確認・操作したり、必要に応じて処理を追加したりできるようなソリューションが必要です。また、結果を共有できる機能や、ビジネスユーザーが業務プロセスの中で結果を利用できる機能も重要です。 多くの企業が難題に直面している理由は、これまでの努力を無駄にしたくないと考えたり、継続性を懸念したりしている一方で、自社の現在のオープンソース・アプローチが既に限界に達していると気付いているからです。 SASのソリューションはオープンソースを強化・拡張する 全社的/全組織的な時系列予測の取り組みにおいてオープンソース・アプローチが限界に達したとしたら、それこそSASが本領を発揮する状況です。オープンソースの時系列予測モデルを構築するために投じてきた膨大な作業の全てを失いたくないと思うのは当然のことです。実際問題、それらを失う必要はありません。SASのアプローチでは、オープンソースのモデル群をSAS Visual Forecastingに取り込んだ上で、それらの利用価値を拡張します。 SAS Visual Forecastingによるオープンソース統合の基礎となっているのは、TSMODELプロシジャとEXTLANGパッケージです。TSMODELは、SAS Visual Forecastingの基底をなしているプロシジャです。EXTLANGパッケージは、外部言語(例:PythonやRなど)のシームレスな統合を可能にします。 TSMODELとEXTLANGは「オープンソースによる時系列予測戦略」を改善します。SASはこれらの技法を通じて、オープンソースのモデルを実行するための「分散処理に対応した拡張性・弾力性の高い方法」を提供します。データの準備から、モデルの開発、モデルのデプロイに至るまで、アナリティクス・ライフサイクルの全てのステップにおいて、SASはオープンソースの時系列予測モデルを強化します。SASはPythonやRで作成されたモデルに対してオープンなだけでなく、分析ワークロードを自動的に分散処理することでオープンソースを拡張します。ちょっと立ち止まって掘り下げましょう。言い換えると、SASが「オープンソースのモデルを改善する」というのは、ひとつには、「その実行を高速化する」ということです。また、それ以外にも、SASが備える数々の “実証済みの利用価値の高い機能性” も手に入ります。もし興味をそそられたのなら、どうぞ読み進めてください。 (第2部に続く)
1. はじめに 前回投稿しました「SAS/ACCESSのご紹介とSnowflakeとの連携デモ」はご覧になったでしょうか。SASと外部のデータストレージサービスを連携する「SAS/ACCESS」のご紹介と、実際に「Snowflake」というサービスに連携してみました。今回は、その続きとして、10年以上前からビッグデータ・アナリティクスの基本アーキテクチャである、In-Database機能の代表的な機能である、SQLパススルーという機能をご説明し、デモを準備しました。 2. SQLパススルーについて SAS/ACCESS がインストールされている場合、SQLパススルーを使用してデータストレージサービスにクエリできます。接続方法に応じてSQLパススルーは、「暗黙的パススルー」と「明示的パススルー」に分けることができます。 暗黙的パススルーの価値は、作成したSASコードが自動的にデータストレージサービスが処理できるSQLに変換され、そのSQLをデータストレージサービス側に与えることにあります。ですので、SASで実行されたSQLやSASプロシジャに指定されたWHERE句など、可能な限りデータストレージサービス側で処理を行い、結果だけをSAS側に転送することが可能です。一方、明示的パススルーの場合には、DB依存のSQLを明示的に記述することできます。暗黙的パススルーと明示的パススルーについてまとめた表を下に記載していますので、ご覧ください。今回は、暗黙的パススルーについて詳しくご紹介したいと思います。 ▲SAS CommunityでSQL Pass throughについて質問するユーザー 暗黙的パススルーを使用する方が良いか、明示的パススルーを使用するのが良いのか気になるかと思います。実はこのトピックは、SAS Communityでもよく見られ、SAS/ ACCESSを使用している全世界のユーザーにとっても気になる質問です。どちらを使用するかは、どこに基準を置くか、また、SASとデータストレージサービスの環境のスペックによって異なると思います。ですので、皆さんもこのような疑問が生じた場合は、SASに相談してみてはいかがでしょうか。 3. 暗黙的パススルーのデモ 3-1. データの紹介とデモの概要 今回のデモのために、「pets」と「owners」という名前で2つのテーブルをデータストレージサービス(今回は、Snowflake)側に事前に保存しておきました。 「pets」テーブルには、3つのカラムがあります。 Id: ペット固有のid Name: ペットの名前 Type: ペットの種類(犬、猫、その他) Id Name Type 1 オオビ 犬 2 ローザ 猫 3 ワンチャン その他 … … … もう1つのテーブル「owners」にも3つのカラムがあります。 Id: オーナー固有のid Name: オーナーの名前
CTOからのあなたへの招待状 ~リアルワールドのためのグローバルデータサイエンス・ハッカソンイベントを開催~ 世界中のどこかにいる有志のあなたへ 従来からSASをご愛顧頂いている皆様、そして、これから新たに出会う皆様、こちらはSAS Instituteでございます。今回は、非常にInspired+Greatなニュースをお届けさせていただきます。 それは、SASがグローバルでHackinSASというデータサイエンス・ハッカソンイベントを開催するということです! 今回のイベントでは、グローバルで参加者を募集しています。もちろん、従来のSASユーザのみならず、開発者やオープンソースユーザ、学生の方々、Startup企業の方々、またはテクニカルパートナーの方々、誰でも参加可能なイベントです。また、今回イベントの主旨としては、皆様の周りにあるデータを用いて、そのデータから有用な情報を得て、リアルワールドのビジネス課題・社会問題を解決するためのソリューションや、よりクリエイティブなデータの使い道を発見することを目指しています。詳細は後述するイベント詳細情報をご参照ください。 SASは長年、データから有用な情報を得て、その情報をリアルワールドの社会問題・環境問題、そしてビジネス課題解決に貢献できる製品やソリューション、そしてサービスを開発し、そのナレッジを貯蓄してきました。また、たくさんのユーザの方々との関わり合いの中で得られた情報などもとても有益なものでした。ハッカソンイベントはまさに、そのような様々なナレッジや発想を持っている皆様に切磋琢磨できる舞台を提供しています。 まずSASのエグゼクティブ・バイス・プレジデント兼最高執行責任者兼最高技術責任者のOliver Schabenbergerからのメッセージをご覧ください。 クリック! では、イベント詳細情報は下記となります。 1.開催スケジュール ハッカソン全期間スケジュール 2020年12月17日-2021年2月15日 チームとテーマの登録期間。 この期間中に、あなたのチームを結成しましょう。そして、課題を定義し、サマリをご提出ください。 2021年1月―2月 リソース確保期間。 この期間中に、ハッカソンをするための無料イネーブルメントリソースを活用して、優位に立ちましょう。 2021年3月 ハッカソン正式開始期間。 この期間中に、あなたとチームメンバーの創造性を輝かせる時がきます。データとSASを使って課題を解決しましょう。 2021年4月 最終ラウンド期間。 最終ラウンドに参加できるチームが選定され、SAS Vector Labsチーム(SAS Innovation Hub)に紹介され、更なる課題解決のためのアプリケーション開発を行うことが可能です。 Virtual SAS® Global Forum 2021(2021年春に開催予定) 2021年のSAS Global Forumで優勝者の結果が公開されます! 事前ライブキックオフミーティング 2021年1月13日13:00 – 14:00オンラインで開催 開催概要: SASのエグゼクティブ・バイス・プレジデント兼最高執行責任者兼最高技術責任者のOliver Schabenbergerが、この他に類を見ないグローバルハッカソンとは何か、そしてビジネスの課題解決や社会貢献のためにアナリティクス、AI、オープンソースをどのように創造的な方法で活用できるのかについてお話します。 ハッカソンズ・インターナショナルのCEOであるAngela Bee ChanとSASのプロダクト・マーケティング・マネージャーであるMarinela Profiの魅力的な対談が行われます。彼らはこのハッカソンの中でできるコラボレーションと、HackinSASが単なる競争以上の価値あるものであるかをお話します。
SAS Studio Taskの紹介 仕事の中で、このような状況に遭遇したことはないでしょうか?普段Enterprise Guide或いはSAS Studioを利用している分析チームの中には、コーディングユーザとSAS言語ができないGUIユーザがいます。ある分析プロジェクトにおいて、特定のモデルを活用する場合に、そのモデルはSASコードを書くことで利用することはできますが、EGのGUI操作やSAS Studio のTaskだけでは活用することができません。この場合に、GUIユーザがコーディングユーザと同じような分析を行うためには、コーディングユーザが作ったSASコードを利用し、入出力情報やパラメータなどを修正した上で使用することになります。しかし、このようなやり方では、たとえば、修正を間違えることによって、エラーを起こし、コードを書いた人に助けてもらわないといけないことも時々発生していました。 この状況に置いて、SAS言語ができないユーザでも、コードを書かずにGUI上の簡単なマウス操作で実施できるような便利な機能をご紹介します。 SAS Studioには、SAS Studioカスタムタスクという機能が組み込まれています。必要な機能が既存のタスクとして用意されていなくても、プロシジャーがあれば自らタスクを簡単に作成できるインターフェースです。XML形式で必要な入出力箇所やオプションを定義することによって、GUI画面を持つタスクが簡単に作れます。そのタスクをSAS Studio上では勿論、SAS Enterprise Guide上でも使うことができます。非常に便利な機能です。この便利なSAS Studioカスタムタスクには以下のような特徴があります。 ・タスクを作る際にはSAS以外のプログラミング知識は必要ありません。 ・SAS Studioで作る場合は、XMLを書きながら、作成途中のGUIの画面を常に確認できます。 ・タスクを使う人は簡単なマウス操作で利用可能です ・そして、SAS StudioとEnterprise Guide両方での利用が可能です。 ・XMLベースなのでタスクの修正は簡単です。 ・テキストボックス、チェックボックスなど多様なコントロールを定義可能です。 SAS Studio Taskの作り方 今回は混合正規モデルを例にSAS Studio Taskの作成方法を紹介します。SAS Studio Taskを作るには二つの方法があります。 一つ目は新規で一からタスクを作成する方法です。 二つ目は既存のタスクをテンプレートとして使い、内容を修正しながらタスクを作る方法です。 今回の記事は一つ目の方法をメインとして紹介しますが、記事の最後に二つ目の方法に関しても簡単に紹介します。作成ツール(XMLエディタ)としては、SAS Studioや任意のエディターのいずれかを使用しても構いませんが、この記事では最新のSAS Studio 5.2を使用しています。操作方法などは使っているSAS Studioのバージョンによって変わる場合はありますが、定義の書き方に相違はありません。 SAS Studioを開いて、メニューから新規作成をクリックし、タスクと選択します。そして下の図のようなタスクテンプレートの画面が表示され、この画面内でSAS Studio Taskの定義を行います。まずSAS Studio Taskの定義の構造を紹介します。 最初の2行はシステムにより生成されたタスクのエンコーディングとスキーマバージョンの定義です。この部分を修正する必要はありません。 <?xml version="1.0" encoding="UTF-16"?> <Task schemaVersion="7.2">
01. はじめに 最近多くの人々がクラウド環境をベースにしたデータストレージサービスを利用しています。 ここで皆さん、突然ですが、データを管理するためにローカル(またはオンプレミス)環境を構築していた過去を振り返ってみてください。 以前は、データを保存するために、関連ソフトウェアやハードウェアを購入・設置・インストールし、様々な環境設定を行います。3か月後、データの量が増えてきてデータベースの容量が足りなくなります。そしてまた多くの費用と時間を使って、必要なソフトウェア・ハードウェアを再び購入、同じく様々な環境設定をします。 上記に記載したような様子は現在のビジネス世界ではほとんど見当たりません。今日必要なのは、ただメールアドレスとクレジットカードのみです。最近では様々なデータストレージサービスが生まれてきたからです。このようなサービスはクラウド環境で動いていて、一定期間料金を支払えば利用できる「subscription」(サブスクリプション)ベースであり、前払い方式ではなく、使用した分だけ課金される「pay as you go」(ペイアズユーゴー)方式が特徴です。SASでも様々なデータストレージサービスに対応していますが、今日はその情報について詳しくお伝えします。 02. SAS/ACCESSのご紹介 「SAS/ ACCESS」とは、SASと他のベンダーのデータストレージサービスを連携するインターフェースです。下記のような特徴があり、様々なデータストレージサービスとの連携を支援しています。 シームレスで透過的なデータアクセス (Seamless, transparent data access) 柔軟なクエリ言語のサポート (Flexible query language support) パフォーマンスチューニングオプション (Performance tuning options) 性能最適化機能 (Optimization features for better performance) より詳しい情報はこちらをご参照ください。 様々なデータストレージベンダーの中で、今回は「SAS/ACCESS INTERFACE TO SNOWFLAKE」を使って「Snowflake」というサービスに連携してみたいと思います。* Snowflakeの設定はこちらを見て事前に行いました。 3. SAS/ACCESSデモ 3-1. LIBNAME statementで連携 SASのLIBNAME statementで簡単にSnowflakeとの連携を行うことができます。連携することでSnowflakeのデータをDATA StepやSASプロシージャで参照することが可能になります。LIBNAME Statementのサンプルコードは下記のボックスをご参考ください。 LIBNAME
01. はじめに 今回のポスティングでは、SAS Viyaの「テキストトピック」という機能を用いたSNSの消費者の声の分析例を紹介したいと思います。分析の手法として「ワードクラウド分析」という方法を使いましたが、こちらについても後ほどお話します。SNS上の書き込みデータを分析することで、ビジネスに役立てられる洞察を得ることができますので、最後まで読んでいただければと思います。 02. 消費者の声分析の一般的な流れ SNS上の消費者の声分析は、一般的に大きく3つの段階に分けることができると思います。そのステップ①は様々なSNSプラットフォームから消費者の声を集める「データ収集」です。ステップ②は、収集したデータを分析する段階です。データ分析の手段はいくつかがありますが、本記事では、「ワードクラウド分析」という手法を用いることにします。最後のステップは、ビジネスメリットに繋げるように分析結果を活用する段階です。分析結果を元により意思決定し、施策を実施する段階です。本記事では、3つの段階の中で2段階目の「データ分析」、具体的には、「ワードクラウドを用いた分析」について説明します。 03. ワードクラウド分析とは? ワードクラウドというのはテキストデータの意味をより直感的に把握するための分析の一つ手法です。 テキストデータを単語に分割し、単語ごとの出現頻度をカウントし、その頻度に応じた大きさでその単語を視覚的に表示してくれます。 つまり、テキストや文章が何に関して語られているのか、そのキーワードを簡単に見つけ出すことができる手法になります。 例えば、SNS上の書き込みをテキストデータ化して分析し、顧客や消費者が今どんな事に興味を持っているのか、どんな不満があるのか、などを把握することができます。 (出典:https://awario.com/) 私はニュースなどのメディアでアメリカのトランプ大統領がどんな単語を何回使ったか、トランプ大統領のツイッターを分析したワードクラウドを見たことがあります。例えば、上のイメージは、2018年から2019年までのトランプ大統領のツイッターでつぶやかれた単語のワードクラウドですが、「border」と「wall」が一番使われた単語ということが一目で分かります。 04. SAS Viyaのワードクラウドの特徴 SAS Viyaのワードクラウドの特徴についてご紹介します。 まず、自動的に分析対象のテキストデータを単語に分割した上で解析します。所謂テキストマイニングと言いますが、その結果として、それぞれの文章がどんな話題(トピック)に関して語っているのかを分析し、トピックごとにキーワードを頻度に応じた大きさで確認することができます。また必要に応じて、気になるトピックやキーワードの元の文章を確認することもできるようになっています。 また、分析の際、冠詞や、助詞、副詞など、意味がない単語は自動で外して分析を行います。 これも、SAS Viyaのワードクラウドの一つの特徴なのですが、例えば、Open Source系のプログラミング言語で分析をすると、英語の 「the」や「a」などは、 分析者自身でなんとかして、取らなければいけないこともありますが、SASでは自動でその作業を行います。 さらに、書き込み内容がネガティブな内容なのか、ポジティブなのか、中立であるか、確認できる機能もあります。この機能は、「センチメント分析」、 日本語では「感情分析」と呼ばれますが、SASではワンクリックで簡単に実行できます。 05. 消費者の声分析例 それでは、SAS Viya の「テキストトピック」という機能を用いた消費者の声分析デモをご紹介いたします。 ▲ 準備したデータについて 日本では最近「天高く馬肥ゆる秋」になったので、季節感が感じられるように「天気」に関したデータを準備しました。また、オーストラリアのシドニーとカナダのバンクーバーのツイッターデータを収集しました。この二つの地域を設定した理由は、現在のシドニーは昼間の平均気温が約20度で、少し暖かいか、涼しい天候ですが、バンクーバーは約5度と少し寒く、対立的な地域を選ぶことで、明確な結果を得たかったからです。(個人的な理由もあり、キャリア管理の上司がSASオーストラリアのシドニーで働いていて、同期の1人はSASカナダのバンクーバーにいるので、毎回オンライン会議で会う2人の季節環境が気になったのです。同期と出会った新入社員研修についての記事はこちら) データの対象期間は、10月15日から10月23日まで、9日間、データの取得の際に使ったキーワードは、「weather」、「today’s weather」、「weekend weather」、「winter」、「summer」という5つのキーワードを使いました。こういった条件で実際にツイッターから集められたデータは、シドニーが351件、バンクーバーが277件でした。 ▲ 「天気」に関するシドニーの消費者の声分析 まず、シドニーの消費者の声のワードクラウド分析結果を見てみましょう。 「雨」に関するトピックが44件で、トピック全体で1位になっております。こちらのトピックをクリックすると、このトピックに関連する用語・キーワードを右側の画面で確認できます。「rainy」の比重が最も大きいことが分かります。 (出典:https://www.holiday-weather.com) 雨に関するデータが多い理由は、データを収集していた10月15日から23日前後にシドニーは天気が曇ったり、雨が降ったりしたからだと考えられます。
アナリティクス人材としてのキャリアを歩む際、自身のスキルの証明は大事な要素になります。海外のライバルと競い合い、勝ち抜いた経験と称号は、その後の人生に大きな影響を与えるはずです。 Student Symposium は、SAS最大のイベントである SAS Global Forum の中で開催される学生コンペティションです。2-4名の学生と指導教官がチームとなり、アナリティクスを活用したオリジナル課題にチャレンジし、その優劣を競います。予選を勝ち抜いた8チームは SAS Global Forum 本番にて最終決戦に挑みます。 新型コロナウイルスの影響により、今年の SAS Global Forum 2020 はオンライン開催となり、来年春の SAS Global Forum 2021 も同様にオンラインでの開催予定です。今年の Student Symposium では、University of St. Thomas, Oklahoma State University, Kennesaw State University のチームがそれぞれ優勝、準優勝、3位を獲得しました。テーマは、学術論文のアブストラクトのテキスト解析やエコロジカル・フットプリントに影響を与える要因の解析、殺虫剤のミツバチへの影響の分析などでした。 日本の学生には難しい? そんなことはありません。近年、日本の学生がSAS Global Forumで発表したり、優れた研究発表を投稿した学生に送られる Student Ambassador にも日本の学生が選ばれています。次は Student Symposium にチャレンジしてみませんか? アナリティクスのツールとしては、SAS OnDemand for Academics
前回のSASブログ「SAS新入社員研修の体験談」では、筆者の同僚がSAS新入社員研修のGlobal Customer Advisory Academyについて概要とオンラインでの実施について紹介しました。COVID-19の影響で、今年度の該当プログラムはオンラインで実施されましたが、昨年度までこのプログラムは、アメリカのノースカロライナ州にあるSAS本社を訪問し、参加するグローバルプログラムでした。本ブログでは、現地での実体験に関して、主にいくつかインパクトなポイントを紹介します。 筆者が当時SASに入社する際に、該当プログラムに参加するチャンスがあり、アメリカ本社の現地に行き、経験したことがありましたので、ここでその経験と感想を共有したいと思っています。まず簡潔に、現地で行われたスケジュールを紹介していきますと、 プログラム名:Global Customer Advisory Academy(以下CAアカデミーと呼びます) プログラム期間:18週間 8週間・アメリカ本社に行き、研修を開始(前半) 4週間・日本オフィスに戻り、実務ローテーションを実践 6週間・アメリカ本社で研修を継続し、完了後に日本オフィスに戻る(後半) 使う言語:英語(ローテーション期間は日本語) では、このプログラムで、現地で行われた時に最も印象的なポイントはいったい何でしょう。下記三つの面から紹介します。 企業文化(価値観と帰属感) グローバル視野と広い人脈 社会責任への意識とチームでのValue創出 それぞれについて、CAアカデミーで、どう遂行されていたのを詳細に紹介します。 1.企業文化 SASのコア価値観:Curious、Authentic、Passionate、Accountableという四つの柱があります。それらはSAS企業文化の最大要素となり、SAS社員も日々それらの素質を持ち、行動していくことが、強く推奨されています。 それらの価値観は具体的にどのようにCAアカデミー研修で表現されているのかといいますと、下記の通りです。 C-Suiteの方々からダイレクトなSASの歴史と戦略の紹介 SASの業界コンサルタントからSASと各業界の関わり方とビジネスモデルの専門指導 各部門の指導者・業界先輩からの激励 現地でのCAアカデミー研修では、直接SASのトップ経営層からSASの過去から、現在と未来を対面で語られるチャンスが複数回与えられています。新入社員として、短時間で、明白にSASという会社はどのようなビジネスをしてきて、これからどの方向に向かっているのかということを把握することができ、会社理念を認識することができるようになっています。アカデミーで、Authenticな会話ができるため、新入社員も各自自分の将来に繋がる会話をすることが多くなっています。そのような環境が備えられていることで、数週間のうちに、自然にSASの企業文化と理念を身に着けていきます。知識を吸収するというよりも、馴染んでいくということに近いです。 また、現地でCAアカデミーに参加した時に、各業界のコンサルタントが定期的に本社オフィスにきて、業界研究知識などを教えてくれました。普段それらのコンサルタントたちは、各地域にいて、とても忙しい方がほとんどです。その中には、会社顧問などをされていた方もいました。筆者が参加した時に、ヨーロッパで仕事されていたある業界リードランクのコンサルタントがSAS本社オフィスに渡航してきて、業界に関する彼の知見を教えてくれました。この教える仕事は、彼たちの本職ではなく、CAアカデミーからの依頼に応じて、自主参加するものなので、そのような単なる仕事に対する熱意だけではなく、後輩を育てる情熱(Passionate)や責任を持つ意識(Accountable)のところは当時の私たちにとっても痛感できました。 SASのCEOであるDr. Goodnightはこう言ったことがありました。 「If you treat employees like they make a difference, they will make a difference」 実際、筆者がSAS本社にいた期間では、まさにこの言葉を実体験することができました。当時入社したばかりで、プログラムに参加した当初は、まだまだ浅い考えや振る舞いをしたこともありましたが、そこでシニアな先輩、指導者の方、マネージャーまで色んな方から励まされて、自分のやったことが有意義であることとして扱ってくれていました。そして、仕事に対する意欲・動力・興味は高められていきました。それはいまになっても、前進するモチベーションになったりすることがよくあります。 また、恥ずかしながら、筆者は物事の根源に当たるものを追求する好奇心を持ち、色んなアイデアを試して、正直に意見を言う人間です。そのような素質は、SASのコア価値観のCurious・Authenticと一致し、CAアカデミーの時から重視されてきました。 そのようなプロセスの過程で、SASのコア価値観と共に、だんだんSASへの帰属感も育てることができました。 2.グローバル視野と広い人脈 SASはグローバル企業ですので、CAアカデミーでは色んな国から、色んな背景を持つ方が一緒に参加しています。さらに、現地では、それらのグローバルの同僚と同じホテルで14週間も一緒に過ごすことで、お互いへの理解を深め、グローバル範囲での深い絆を構築することができました。 そのような環境で、実際日々の研修では、同じ課題に対する広い視野からの違う観点が毎日の研修の中で飛び交っていました。そして、そこからディスカッションの時間が充分に用意され、違う観点のグローバル同僚との会話により、自らの視野も広げていくことができました。そのような違う観点から物事を考える思考力はとても大切なもので、いまでも重視しているものだと思っています。
はじめに 2020年5月7日から7月30日まで、約10週間 SAS本社で主催する「Global Customer Advisory Academy」という新入社員研修に参加しました。本来であれば、SAS Global本社があるアメリカのノースカロライナ州に行って受ける予定だったのですが、パンデミックという状況で全ての研修がオンラインで実施となりました。本記事では、Global Customer Advisory Academyをご紹介し、実際に参加して感じたことをお伝えします。 Global Customer Advisory Academyとは? 省略してCAアカデミーと呼ばれますが、Customer Advisoryというのは所謂プリセールスや営業支援部隊のことです。CAアカデミーは分析のコアテクノロジーや、コンサルティングスキルと方法論、SAS製品のポジショニングなどを学ぶ研修プログラムです。SASの全世界の拠点から社員が集められ、約10週間実施します。プログラム終了後は、実際の案件やプロジェクトなどに参加し、お客様の課題を解決するために活動します。具体的な情報と求人はこちらをご参考ください: https://www.sas.com/en_ph/careers/students-and-graduates/sas-academy.html#customer-advisory-academy CAアカデミーに参加するまでの事前準備 SASに入社する前は、プログラマーとしてウェブサイトの開発業務を行っていました。SASの製品を使ったこともなく、業界も異なり、また、顧客との接点やコンサルティング、営業活動などの経験もなかったので不安でした。 しかし、CAアカデミーに参加するまでに「Pre-work」というプログラムがあり、それを受講することで事前準備ができました。 1ヶ月間行ったPre-workでは、 - SASの会社概要と製品について - ビジネスマナー、リモートで効率的に研修を受ける方法 - 今回のCAアカデミーに一緒に参加する社員とのチームビルディング - CAアカデミーを終了した社員とのミーティング などがありました。特に、19カ国から31名の社員が参加するということで、それぞれの社会経験が異なり、「一緒に頑張って研修を受けるぞ!」という気分になったので心配はなくなりました。 10週間のCAアカデミー研修について CAアカデミーの詳細なカリキュラムは、グローバルトレンドと業界の動向に合わせてタイムリーに毎年変更されますが、いつも最高の研修プログラムを社員に提供するという事に変わりはありません。今回の研修で印象的だった部分は、次回にリリースされるSAS Viyaの新しいバージョンについて学べたことです。本社のR&DチームでSAS Viyaを設計した社員から直接技術的な内容について学ぶことができました。これにより、SASのお客様にも、もっと正確で専門的な技術支援を行うことができます。 また、金融、製造、官公庁、物流、小売、エネルギー、ITなど様々な分野のケーススタディを学ぶことができました。SASのお客様は全世界の多様な業界に存在しています。したがって、どのお客様にもベストソリューションを提供するために業界ごとのシナリオも勉強しました。 研修はすべて英語で行いました。英語で専門的なトピックについて長時間話したことがなくて、少し心配していましたが、研修のセッションに参加する前に準備資料を十分に読んで参加しました。また、一方的に講師が知識や情報を話すだけではなくて、理解ができていない所や気になった点はその場ですぐに質問できる雰囲気だったので積極的に聞いてみました。グループに分かれて1つのトピックについて議論し、意見を共有できた点も良かったです。CAアカデミーで十分なコミュニケーションを通じ、様々な視点から課題や解決策を考えることができました。 実は、上記のすべての研修は、自宅からオンラインで参加しました。驚きませんか?「オンラインで研修を受けることが可能なのか?」と最初は疑っていましたが、本当に問題なく約10週間の研修が無事に終わりました。SASでは全世界の約15,000人のすべての従業員がリモートワークができるような環境を提供しています。今回のCAアカデミー研修でも「6畳の部屋からグローバルネットワーキング」ということで全て自宅で参加しました。研修が終わって約2ヶ月が過ぎた現在では、一緒に研修に参加した31カ国の社員と毎月オンラインで集まってコミュニケーションを取っています。研修で築いた全世界の同期とのネットワークは私の財産です。 難しかったこと 研修のスケジュールに適応するまで少し時間がかかりました。何故かと言いますと、19カ国の31人のSAS社員がリモートで参加したため、すべての時間が異なり、全員の時間を考慮して研修のスケジュールが設定されたからです。ですので、研修スケジュールのほとんどが日本時間の午後9時から翌日午前1時、2時までと自分にとっては夜中のスケジュールとなりました。特に、私は朝早く起きて一日をスタートする、所謂「朝型人間」ですので、研修の時間に適応するまで数週間がかかりました。 日本時間で午後9時は、アメリカ時間では午前8時、スウェーデン時間では午後2時になるなど、19カ国の時間がすべて異なっていたので、31人皆が苦労した所だと思います。オンラインで会うたびに挨拶の言葉で皆が「good morning」、「good afternoon」、「good evening」この3つを全部一気に言ってしまいました。おそらく私一人だけ時差ぼけがあるのではなく、19カ国で参加した31人全員が大変だったので、協力しながら最後まで研修を受講することができたと思います。
前回のブログでは、Microsoft AzureストレージサービスのブロックBlobストレージについて軽く紹介し、SASからBlobストレージ中の特定の一つのファイルにアクセスする方法を紹介しました。 第1回リンク:https://blogs.sas.com/content/sasjapan/2020/10/01/sas-azure-blob-1/ しかし、実際のビジネスシーンでは、特定の一つのファイルにだけアクセスする運用はやはり割合的には少ないと考えています。 そこで、今回のブログでは、より効率的に、複数データに同時にアクセスできる方法を紹介します。そしてこれは、Microsoft AzureのBlobストレージをファイルシステムとしてSASサーバにマウントし、SASサーバから便利にアクセスする方法です。 前回と同じように、下記の方法を使うためには、前提条件として、SAS ViyaサーバとBlobストレージがあるAzure間でネットワーク通信ができる必要がありますので、ネットワークセキュリティ条件を確認してから、下記の方法をお試しください。 方法②: BlobストレージをファイルシステムとしてSASサーバにマウントし、SASサーバからアクセスする方法。 Microsoft Azure側: 1.まず、Azureポータルに入り、「ストレージアカウント」をクリックします。(図2-1) 図2-1 2.その配下で、使用されている対象Blob用のストレージアカウントをクリックします。(図2-2) 図2-2 3.そして、表示された左ペインの中で、「アクセスキー」というメニューをクリックします。(図2-3) 図2-3 4.該当ページでは、このストレージアカウントにアクセスするためのキーの情報が含まれているので、その中の、「ストレージアカウント名」と「キー」をメモしてください。あとで接続設定情報を作る時に使用します。(図2-4) 図2-4 5.一層上に戻り、同じくストレージアカウントの左ペインで、Blobサービスの中の「コンテナー」をクリックします。(図2-5)アクセス先のコンテナー名前(例:folderfirst)をメモしてください。あとで接続設定情報を作る時に使用します。 図2-5 以上で、Azure側の準備作業が終わります。次は、SASサーバ側の準備作業を進めていきます。 SAS Viyaサーバ側: 今回、Blobストレージをファイルシステムとしてマウントするには、Blobfuseという仮想ファイルシステムドライバー機能を使います。そのため、事前にSAS ViyaがインストールされているLinuxサーバ側に、そのツールをインストールする必要があります。 このブログで使用しているSAS ViyaサーバはRHEL/CentOS 7.x系のLinuxサーバであるため、Blobfuseのインストールを含めた手順は下記となります。 6.使用するSASユーザで、SASサーバ側にMicrosoftパッケージリポジトリをインストールします。 sudo rpm -Uvh https://packages.microsoft.com/config/rhel/7/packages-microsoft-prod.rpm 7.BlobfuseをSASサーバ側にインストールします。 sudo yum install blobfuse 8.Azureでは、低いレイテンシーとパフォーマンスのため、SSDが提供され、今回はそれを使って、ディレクトリーを作成します。(SSD使わないことも可能ですので、その場合、別ディレクトリーで作成して頂いてかまいません。) sudo mkdir /mnt/resource/blobfusetmp -p sudo chown #YourUserName#:sas /mnt/resource/blobfusetmp
近年、クラウドベンダーが提供するサービスが充実し、より多くのクラウドサービスが誕生してきました。しかし、一つのニーズに対して、複数のサービスを選択できるようになってきているものの、どのサービスが最適なのかを判断することは逆に難しくなってきていると考えられます。最近、SASを活用しているお客様から、「Microsoft社のAzureを使っていますが、これからクラウドにデータを移行して、安くて使い勝手なストレージサービスは何かありませんか」と聞かれたこともありました。 このブログシリーズでは、クラウド上のストレージサービスの一種であるMicrosoft Azure CloudのBlobストレージサービスの概要を紹介した上で、SAS ViyaからそのBlock Blobストレージに格納されているデータへアクセスする方法をご紹介させていただきます。 このブログシリーズは合計2回です。今回のブログでは、まず特定の一つファイルへのアクセス方法をご紹介します。次回のブログでは、より汎用的なアクセス方法、つまり、Blobストレージを一つのファイルシステムとして、SASサーバと連携し、一度に複数のデータにアクセスする方法をご紹介します。ぜひ最後まで、お付き合いいただければと思います。 第1回:https://blogs.sas.com/content/sasjapan/2020/10/01/sas-azure-blob-1/ 第2回:https://blogs.sas.com/content/sasjapan/2020/10/05/sas-azure-blob-2/ Blobストレージとは何か? まず、Blobストレージとは何かを紹介する前に、Blobって何でしょうか、から始めます。聞きなれない方もいらっしゃるかと思いますので。実際、BlobはBinary Large OBjectの略称です。本来はデータベースで用いられているデータタイプの種類で、メディアファイルや、圧縮ファイル、実行ファイルなどのデータを格納する時に使用されているものです。 では、Blobストレージとは何か?Microsoft社の紹介では、こう書かれています。 「Blob Storage は、テキスト・データやバイナリ・データなどの大量の非構造化データを格納するために最適化されています。非構造化データとは、特定のデータ・モデルや定義に従っていないデータであり、テキスト・データやバイナリ・データなどがあります。」 少し言い換えますと、Blobストレージは、ログファイルから、画像ファイルやビデオ・オーディオファイルまで格納できます。もちろん、通常目的でのデータ利用にも対応しているため、データの格納場所として使っても問題ありません。(Microsoft Azureの資料によりますと、4.75 TiBまで可能です。) なぜBlobストレージなのか 前文で少し申し上げたSASのお客様から頂いた質問の中で、「安くて使い勝手の良いストレージサービスは」と聞かれた事に関して、安いというポイントに関しては、下記の図をご覧ください。 ソース:https://azure.microsoft.com/ja-jp/pricing/details/storage/(2020/09/09アクセス時点) ご覧のように、ブロックBlobのストレージサービスは、安価で、かつ非構造化データに対応し、一般目的でのデータストレージとして、非常に向いています。 もちろん、ビジネスケースによっては、様々考慮すべき点(既存環境にHadoop環境があるかどうか、スループット、ビッグデータ等々)もありますが、今回は、主にこのブロックBlobストレージを例として紹介します。 SAS ViyaからBlobストレージにアクセスする方法 ここからは、SAS ViyaからBlobストレージにアクセスする方法をご紹介します。下記の方法を使うために、前提条件として、SAS ViyaサーバとBlobストレージがあるAzure間でネットワーク通信ができる必要がありますので、ネットワークセキュリティ条件を確認してから、下記の方法をお試しください。 方法①: SASのPROC HTTPプロシージャを使って、Blobストレージ内の特定の一つのデータにアクセスする方法。 Microsoft Azure側: 1.まず、Azureポータルに入り、「すべてのリソース」をクリックします。(図1-1) 図1-1 2.その配下で、利用されているストレージアカウントをクリックします。(図1-2) 図1-2 3.次に、表示された左側のメニューの中で、「Blob Service」配下のコンテナーをクリックします。(図1-3) 図1-3 *豆知識: ここで、いきなりコンテナーが出てくることに関して、混乱している方もいらっしゃるかもしれないので、少し解説します。こちらのコンテナーとは、Dockerコンテナーの意味ではありません。Blobストレージサービス配下のデータ格納用のサブ階層のことであり、フォルダーのようなものとイメージしてください。(図1-4) 図1-4 4.上記図1-3のように、その中に一つ「folderfirst」というコンテナーが存在しており、それをクリックすると、中に保管されているデータが見えるようになります。(図1-5) 図1-5 5.ここからが重要なポイントです。特定のデータ、例えば、「sas7bdat」データにSAS Viyaからアクセスしたい場合は、該当ファイルの名前をクリックして、下記のようなプロパティ情報を表示させます。(図1-6) 図1-6
SAS Japanでは”Data for Good”を目指す学生コミュニティ「SAS Japan Student Data for Good community」を運営しています。このコミュニティは、Data For Goodを題材にデータサイエンスの一連の流れを体験する場として設立されました。今回紹介する勉強会も、その活動の一環です。詳しくは「Data for Goodを通じて"本物の"データサイエンティストになろう!」の記事をご覧ください。活動の様子についてはFacebookにて共有していますので、そちらもご参考にしてください。 五回目の勉強会では海洋汚染をテーマに、Data for Goodの活用事例から課題設定の部分を学びました。また、今回は初めてオンラインでの開催をしましたので、その様子もお伝えしたいと思います。 海洋保護に向けたD4Gの取り組み/マイクロプラスチック問題 SDGsの一つに“海の豊かさを守ろう(LIFE BELOW WATER)”という項目があります。日本でも2020年7月からスーパーやコンビニエンスストアにてレジ袋の有料化が始まりました。その背景の一つにはマイクロプラスチック問題があります。コミュニティのメンバーがこのテーマでData for Goodに取り組んでいるので、今回はその活動について共有しました。 マイクロプラスチック問題とは、特に海洋環境において微小なプラスチック粒子が海洋生物に対し悪影響を及ぼしてしまうことです。また生物濃縮により海洋生物だけでなく、人間にも間接的に影響があります。レジ袋の有料化や製品へのスクラブ等使用の規制の動きが世界的に進んでいます。環境保全にいち早く取り組んでいる海外の先進諸国のデータをもとに、今後日本にも導入するべき取り組み、推進していくべき取り組みを明確にしようというのが今回の活動目的になります。 今回の勉強会の活動紹介では、この問題の現状と最新の研究、既に行われている取り組みの効果検証について取り上げました。意思決定の場に置いて、ある施策が目的とするものに対して効果があるのかどうかは非常に重要です。特にマイクロプラスチック問題のように規模が大きい問題に対してはその効果の大きさだけでなく、費用対効果にも注目しなければなりません。しかし、効果の推定には比較実験が必要になりますが多くの場合それは存在しないため、自然実験という考え方を用いてアプローチしていきます。 詳細については今後このブログの中でご紹介していきます。 海洋プラスチック汚染問題をデータで解決する 今回は、コミュニティーメンバーがテーマとして活動している「海洋汚染」に関連して、オランダに拠点を置く非営利のエンジニアリング環境団体 The Ocean Cleanupの事例を紹介しました。 The Ocean Cleanupは、太平洋で無人のゴミ回収装置であるクリーンアップシステムを開発しています。その運用においてある課題が浮かび上がりました。太平洋には多くのプラスチックが集まっているとされる「太平洋ゴミベルト」と呼ばれるエリアがありますが、その範囲は非常に広大かつ陸地から遙か遠くにあります。システムを運用する費用を考慮して、効率的にゴミを回収するにはどうすればよいでしょうか。この課題に対して、The Ocean Cleanupではビッグデータを用いて太平洋ゴミベルトの可視化を行いました。 調査団はこれまでの海洋研究の知見とともに、独自に大規模な調査を行いました。太平洋ゴミベルトのサイズ・位置・プラスチックの量・プラスチックの分布と4つの可視化の観点などから進められてきました。 プラスチック汚染は複雑で大規模な問題であるため、包括的で大掛かりな解決策が必要となります。そのため、データサイエンスの活用によって、問題を理解し効率よく解決するための知見が得られます。クリーンアップシステムでは、監視カメラや衛星との交信による位置情報から実際のシステムの動きや回収度を確かめることができます。ビックデータによる分析結果だけでなく、実際のパフォーマンスデータから得られた知見からより良いシステムの構築が現在も行われ続けています。 以上の話を踏まえて、最後に参加者同士でディスカッションを行いました。自分たちの生活と繋げて考えたり、事例の中で興味深かった点についてお互いに話すことが出来ました。また、海洋保護をテーマに今後活動していく上で考えるべき点についても触れながら議論を進められ、有意義な時間になりました。 今回は初めてのオンライン開催でしたが、オンラインであることの良さを活かして定期的に勉強会を企画するとともに、次回から更に質の高い勉強会をつくっていきたいと思います! コミュニティメンバー募集中! SAS Japan Student Data for Good
SASの一つの顔は、アナリティクスで営利目的の意思決定を支援 筆者は、SAS社員として、20年以上に渡りアナリティクスおよびAIで企業・組織を支援してきました。 金融機関における、リスク管理や債権回収の最適化 通信業における、顧客LTV最大化、ネットワーク最適化やマーケティング活動の最適化 製造業における、需要予測、在庫最適化、製造品質の向上や調達最適化 流通・小売業における、需要予測やサプライチェーン最適化 運輸業における、輸送最適化や料金最適化 ライフサイエンス・製薬企業における、業務の最適化 官公庁における、市民サービス向上のための不正検知 など、様々な業種・業務においてアナリティクスの適用によるお客様のビジネス課題の解決に携わってきました。営利目的(ここでは市民サービスの向上も含めることにします)の企業・組織におけるアナリティクスの活用目的は主に以下の3つに集約されます。 収益(売り上げ)の増大 コストの低減 リスク管理 アナリティクスは、いわゆる「データ分析」を手段とし、過去起きたことを把握して問題を定義し、次に将来を予測し、様々な選択肢の中から最適な予測に基づいて意思決定をしていくことになりますが、その過程の中で、起きてほしい事象を予測して促進したり、起きてほしくない事象を予測して防いだり、その予測のばらつきを管理したりということを行っていきます。 このような営利目的でのアナリティクスの活用はSASという会社が誕生した40年以上前から行われており、基本的な活用フレームワークは変わっていません。IT技術の進化によって、利用可能なデータの種類や大きさが、増えてきただけにすぎないと言えます。例えば、昨今のAIブームの代表格であるディープラーニングですが、ディープラーニングという処理方式の進化と、GPUという処理機械の進化によって、非構造化データをより良く構造化しているものであり、もちろんモデリング時のパラメータ推定値は何十億倍にはなっていますが、モデリングのための1データソースにすぎません。もう少しするとディープラーニングも使いやすくなり、他の手法同様、それを使いこなすあるいは手法を発展させることに時間を費やすフェーズから、(中身を気にせず)使いこなせてあたりまえの時代になるのではないでしょうか。 SASのもう一つの顔、そして、SAS社員としての誇り、Data for Goodへのアナリティクスの適用 前置きが長くなりましたが、SAS社員としてアナリティクスに携わってきた中で幸運だったのは、データの管理、統計解析、機械学習、AI技術と、それを生かすためのアプリケーション化、そのためのツール、学習方法や、ビジネス価値を創出するための方法論や無数の事例に日常的に囲まれていたことだと思います。それにより、それら手段や適用可能性そのものを学習したり模索することではなく、その先の「どんな価値創出を成すか?」「様々な問題がある中で優先順位の高い解くべき問題はなにか?」という観点に時間というリソースを費やすことができていることだと思います。そのような日常の仕事環境においては、アナリティクスの活用を営利目的だけではなく、非営利目的の社会課題の解決に役立てるというのは企業の社会的責任を果たす観点においても必然であり、Data for Goodの取り組みとしてSAS社がユニークに貢献できることであり、SAS社員として誇れるところだと考えています。 最終的に成果を左右するのは「データ」 そして、もう一つの真実に我々は常に直面します。クラウド・テクノロジー、機械学習、ディープラーニングなどの処理テクノロジーがどんなに進歩しようともアナリティクス/AIによって得られる成果を左右するのは「データ」です。どのようなデータから学習するかによって結果は決まってきます。 IoT技術で収集したセンサーデータは知りたい「モノ」の真実を表しているだろうか? 学習データに付与されたラベル情報は正確だろうか? 学習データは目的を達成するために必要な集合だろうか? そのデータは顧客の心理や従業員の心理をどこまで忠実に表しているだろうか? 特に、Data for Goodのチャレンジはまさにそのデータ収集からスタートします。ほとんどの場合、データは目的に対して収集する必要があります。そして、下記の取り組みのうち2つはまさに、我々一人一人が参加できる、市民によるデータサイエンス活動として、AI/アナリティクスの心臓部分であるデータをクラウドソーシングによって作り上げるプロジェクトです。 Data for Good: 人間社会に大きな影響を及ぼすミツバチの社会をより良くする 概要はこちらのプレスリリース「SAS、高度なアナリティクスと機械学習を通じて健康なミツバチの個体数を増大(日本語)」をご参照ください。 ミツバチは、人間の食糧に直接用いられる植物種全体の75%近くに関して受粉を行っていますが、ミツバチのコロニーの数は減少しており、人類の食糧供給の壊滅的な損失につながる可能性があります。この取り組みでは、IoT, 機械学習, AI技術, ビジュアライゼーションなどSAS のテクノロジーを活用し、ミツバチの個体数の保全/保護する様々なプロジェクトを推進しています。この取り組みは以下の3つのプロジェクトから成り立っています。 ミツバチの群れの健康を非侵襲的に監視 SASのIoT部門の研究者は、SAS Event Stream ProcessingおよびSAS Viyaソフトウェアで提供されているデジタル信号処理ツールと機械学習アルゴリズムを用いて、ミツバチの巣箱の状態をリアルタイムで非侵襲的に追跡するために、生物音響監視システムを開発しています。このシステムによって養蜂家は、コロニーの失敗につながりかねない巣箱の問題を効果的に理解し、予測できるようになります。 関連ページ:5 ways to measure