SAS Japan
活用事例からデータ分析のテクニックまで、SAS Japanが解き明かすアナリティクスの全て
“Data for Good”という言葉をご存知でしょうか。これはデータを活用して社会的な課題を解決しようとする活動です。SAS Japanでは”Data for Good”を目指した取り組みを展開しております。その一つとして、SASはData for Good活動をする学生コミュニティ、「SAS Japan Student Data for Good community」を発足します。これは、社会問題へのアプローチを通して、Data Scienceの流れの経験・スキルの向上・学生間の交流拡大・社会への貢献などの達成を目的とするコミュニティです。 このコミュニティのData for Good活動の一環として、本記事では世界の絶滅危惧種についての分析をご紹介します。 現在、世界中で何万種もの生物が絶滅の危機に瀕しています。個体数を減らすこととなった原因はもちろんそれぞれの生物によって異なるでしょうが、主たる原因は人間による環境破壊や開発であると言われています。確かに人間の活動が生物に悪影響を及ぼしうることは直感的に正しいと感じられますし、また、仮にそうだとすれば、人間の開発活動を示す値と絶滅危惧種の数には何らかの具体的な関係があるはずだと考えられます。そこで、今回は、国ごとの絶滅危惧種数や開発指数を用いて、それらの関係を調査します。 今回の調査ではSAS Visual Analytics 8.3を用いてデータ分析を行いました。 今回使用したデータのリストはこちらです。 総人口 (World Bank Data) https://data.worldbank.org/indicator/SP.POP.TOTL 面積 (World Bank Data) https://data.worldbank.org/indicator/AG.SRF.TOTL.K2 人口増加率 (World Bank Data) https://data.worldbank.org/indicator/SP.POP.GROW CO2排出量 (World Bank Data) https://data.worldbank.org/indicator/EN.ATM.CO2E.PC?locations=1W 一人当たりCO2排出量 (World Bank Data) https://data.worldbank.org/indicator/EN.ATM.CO2E.PC?locations=1W GDP (World
先日、-データサイエンティストに求められる「本当の役割」とは-のブログ記事内で紹介されたデータサイエンティストを目指す学生向けのセミナー「データサイエンティストのキャリアと活躍のかたち」の第1回が11/30(金)に開催されました。この記事では、当日の様子をお伝えします。 セミナーの内容は、データサイエンティストのキャリアと活躍の場や、ビジネスではアナリティクスがどのように活用されているかについて、スピーカーがこれまでの経験をもとに紹介するものです。今回は初回のセミナーということで、講演前にSASが学生向けに実施している取り組みの紹介と、データサイエンティストの役割であるデータを利用しビジネス課題の解決を図るという一連の流れを確認しました。 データサイエンティストに必要な資質 はじめに、データサイエンティストのキャリアについて株式会社GEOJACKASS大友さんの講演です。大友さんは、複数の企業・大学でのデータサイエンス業務の経験がある方です。 まず、JAXAに勤務していたときの業務内容の一例ということで、月周回衛星「かぐや」と小惑星探査機「はやぶさ」のデータを扱って周回軌道の可視化などに携わっていたことを実際の画像とともに説明していました。そして、データサイエンティストの業務の大部分は可視化とデータクレンジングを含む集計作業なので、まずは可視化から始めることを意識してほしいとのことでした。 つぎに、趣味の釣りを題材としたデータ分析の話です。釣りは常に一定の成果が得られるわけではなく、全く釣れない日もあれば、突然100尾釣れる日が続くこともあります。この急上昇する時期をピンポイントで当てようとデータをもとに予測システムを構築することを考えていました。そこで釣果予測をするために観測衛星から海水温、海上風速のデータ、海上保安庁から海流のデータを収集し、自治体の管理公園やTwitter、釣具屋にアップされている情報から過去の釣果実績のデータを収集してこれらを一括で管理する仕組みをつくりました。 こうして収集、整形したデータを利用した分析結果をもとに、宮城にヒラメ釣りに行くと、8枚釣ることができたそうです。また、そのほかの魚も大漁でした。ちなみにヒラメは一度の釣りで1枚釣れたら良いと言われているそうです。このシステムは開発途中とのことですが、仕事ではなくても趣味でデータサイエンスの実践は可能だということです。さいごに、この釣果予測で使った気象データが、仕事であるデータサイエンス業務のなかで役立ったケースを挙げ、自分の趣味、好きなことややりたいことを追求するのが最も大事なことで、技術はあとからついてくる。つまり、まずは目的を持つことが重要だというメッセージを学生に強く伝えていました。 データ活用とアナリティクス・ライフサイクル つぎに、ビジネスにおけるアナリティクスについてSAS Japanの畝見による講演です。 導入では、アナリティクスに関するキーワードである「機械学習」「ディープラーニング」「人工知能(AI)」などを一枚の図に整理し、それぞれの単語について説明をしていました。 前半は、ビジネス課題の解決にアナリティクスが活用されている事例の紹介です。「顧客理解・マーケティング分析」分野では、ダイレクトメールの配信を効果的にするためにどういった顧客をターゲットにすればよいかを探索する事例、商品の購入履歴や商品への評価をもとに顧客へおすすめ商品を提案するため用いられている決定手法の説明がありました。「不正検知」分野では、マネーロンダリングなどの不正行為を検知するために用いられている複数の手法の説明があり、「品質管理・異常検知」分野では、教師なし学習による異常検知の説明と、実際に航空会社においてエンジン部品故障を予測するために部品のセンサーデータを利用し、修理が必要な状態になる20日以前に故障の予兆を検知し可視化することを実現した事例の紹介がありました。また、品質管理ではブリヂストンにおけるタイヤ生産システムを自動化し品質のばらつきを低減した事例や、ある半導体メーカーは、従来の品質管理の取り組みに加え、ディープラーニングを取り入れた画像認識技術を追加して品質管理を強化しているなどアナリティクスの進化が応用されている事例の紹介がありました。 他にも、スポーツ関連企業では、スタジアムにあるカメラでサッカー選手の背番号を撮影し、各選手のパフォーマンスを分析するため、ディープラーニングによる画像認識が用いられているなどさまざまな業務・業種でアナリティクスが利用されているとのことです。 後半は、AIとアナリティクス活用の課題と対策についての話です。まず、とある企業でAI・機械学習を導入するプロジェクトがうまくいかなかったストーリーを提示して、データ活用とアナリティクスで成果を出せない理由を以下の3つに分類しています。 データハンドリングの課題(取得・加工・品質・準備) モデリングの課題(スキル課題や結果の一貫性など) モデル実装の課題(価値創出とガバナンス、実行と評価) ここで、「データ活用とアナリティクスで成果を出す=ビジネス課題の解決」には、 Data:アクセス、クレンジング、準備 Discovery:探索、分析、モデル生成 Deployment:モデル管理、組み込み、モニタリング の一連のプロセスからなる循環的な取り組み(アナリティクス・ライフサイクル)が必要だとし、ひとつひとつのステップについての説明がありました。そして、ビジネス価値の創出には、「"問い"→データ準備→探索→モデリング→"問い"→実装→実行→評価→"問い"」という8の字のアナリティクス・ライフサイクルも効果的であるという説明がありました。 さいごに、データサイエンティストの役割として求められることはビジネス価値の創出に貢献することで、そのためにはアナリティクス・ライフサイクルを迅速かつ丁寧に進めることが重要だと伝えていました。 SAS student Data for Good communityの紹介 セミナー内では、学生によるデータサイエンスの学びの例ということで、データを活用して社会的な課題を解決する「Data for Good」への取り組みを発表しました。そして、学生が集まってData for Good活動をするサークル「SAS student Data for Good community」を発足することと、その活動内容や意義についての説明をしました。第2回セミナーで追加的な情報をお伝えする予定です。 講演のあとには、軽食をとりながら講演者と参加者で歓談をしました。さまざまな専攻・学年の方が参加しており、講演者への質問や参加者どうしの会話が絶えず貴重な交流の場となりました。 次回の学生向けセミナー「データサイエンティストのキャリアと活躍のかたち」は1月31日(木)に開催予定です。みなさんの参加をお待ちしております。
PythonからSAS Viyaの機能を利用するための基本パッケージであるSWATと、よりハイレベルなPython向けAPIパッケージであるDLPyを使用して、Jupyter NotebookからPythonでSAS Viyaのディープラーニング機能を使用した時系列予測を試してみました。 大まかな処理の流れは以下の通りです。 1.必要なパッケージ(ライブラリ)のインポート 2.Sin波データの生成 3.セッションの作成 4.RNN向け時系列データセットの作成 5.モデル構造の定義 6.モデル生成(学習) 7.予測 1.必要なパッケージ(ライブラリ)のインポート swatやdlpyなど、必要なパッケージをインポートします。 import numpy as np import pandas as pd import matplotlib.pyplot as plt import swat.cas.datamsghandlers as dmh from swat import * import dlpy from dlpy import Sequential from dlpy.layers import * from dlpy.model import Optimizer, AdamSolver, Sequence
PythonからSAS Viyaの機能を利用するための基本パッケージであるSWATと、よりハイレベルなPython向けAPIパッケージであるDLPyを使用して、Jupyter NotebookからPythonでSAS Viyaの機能を使用して一般物体検出(Object Detection)を試してみました。 今回は、弊社で用意した数枚の画像データを使用して、処理の流れを確認するだけなので、精度に関しては度外視です。 大まかな処理の流れは以下の通りです。 1.必要なパッケージ(ライブラリ)のインポートとセッションの作成 2.一般物体検出向け学習用データの作成 3.モデル構造の定義 4.モデル生成(学習) 5.物体検出(スコアリング) 1.必要なパッケージ(ライブラリ)のインポートとセッションの作成 swatやdlpyなど、必要なパッケージをインポートします。 from swat import * import sys sys.path.append(dlpy_path) from dlpy.model import * from dlpy.layers import * from dlpy.applications import * from dlpy.utils import * from dlpy.images import ImageTable from dlpy.splitting import two_way_split from dlpy.blocks import *