SAS Japan

活用事例からデータ分析のテクニックまで、SAS Japanが解き明かすアナリティクスの全て
Advanced Analytics | Machine Learning | SAS Events
SAS Global Forum 2019 論文紹介シリーズ 第2回「PythonからSAS9を活用するコーディング事例紹介」

前回に引き続き、SAS Global Forum 2019で公開された論文をご紹介します。今回は、SASユーザを含め、SAS言語とオープンソース言語の機能を共に活用することで、様々なビジネス課題に対応できるようなコーディング事例をいくつかピックアップします。 1.Deep Learning with SAS® and Python: A Comparative Study ご存知の通り、SASはディープランニングに関する専門性の高いかつ豊富な機能と製品を提供しています。この論文では、SASとPythonに対し、それぞれ違うデータタイプ(例えば:構造化と非構造化、イメージ、テキスト、シーケンシャルデータ等々)を使ったディープラーニングのモデリングを比較する論文となります。主にSAS環境でのディープランニングフレームワーク、そして、SASとPython言語のディープランニングプログラミングの違いによって、それぞれのメリットとデメリットの紹介となります。 2.Utilization of Python in clinical study by SASPy Pythonは近年最も使われているプログラミング言語になってきました。そして現在、機械学習とAI領域でもよく使われています。Pythonの一番のアドバンテージはその豊かなライブラリを通じ、多種多様な分析をインプリメントできることです。SASは臨床研究領域で最も強力な分析製品でありながら、さらにPythonを使うことによって、そのレポーティング機能、例えば、データ管理、データ可視化を拡張できます。これもSASプログラマーユーザのキャリアに対し、潜在的なメリットです。その様な背景において、SASPyはその可能性を実現します。SASPyはPythonコードの中でSASのセッションをスタートできるPythonパッケージライブラリとなります。この論文では、基本的なSASPyの使用方法とSASのデータセットを処理するヒントについて紹介しています。そして、Pythonを使って、臨床研究で使えそうなレポーティング機能について検討します。 3.Everything is better with friends: Executing SAS® code in Python scripts with SASPy SASPyはSASがPythonプログラミング用に開発したモジュールで、SASシステムに代わるインタフェースを提供しています。SASPyを通じて、SASプロシージャはPythonスクリプトと構文で実行することができ、かつ、SASデータセットとそれに相当するPythonデータフレームの間にデータを転送することも可能です。それにより、SASプログラマーはPythonの柔軟性を利用してフロー制御を行うことができ、PythonプログラマーはSAS分析をスクリプトに組み込むこともできます。この論文では、Pythonスクリプト内で通常のSASコードとSASPyの両方を使用した一般的なデータ分析タスクの例を幾つか紹介し、それぞれの重要なトレードオフを強調し、多種プログラミング言語ユーザになれることの価値を強調しています。SAS University Edition用のJupyterLabインタフェースを使用し、それらの例を再現するための説明も含まれています。それらのSASとPythonのインテグレーション例はJupyter Notebookとしてダウンロードできます。 ダウンロード:https://github.com/saspy-bffs/sgf-2019-how 4.Modeling with Deep Recurrent Architectures: A Case Study of

Analytics
SAS Global Forum 2019 論文紹介シリーズ 第1回「OSS言語から活用できるオープンなSASプラットフォーム」

例年と同様に、SAS Instituteはグローバル各国でフォーラムを開催しました。日本ではSAS Forum Japanと題して6月11日に東京の六本木で開催され、また、アメリカSAS本社はダラスでSAS Global Forum 2019を開催(4/28~5/1)し、その中では多数の論文が発表されています。本シリーズでは、これらの論文の中から、OSSとSASプラットフォーム製品のユースケース、OSSコーディング開発・運用事例、クラウドアーキテクチャの設計と運用等々の注目された内容を選別した上で、4回に分けて紹介していきます。 第1回「OSS言語から活用できるオープンなSASプラットフォーム」 近年、OSS(オープンソースソフトウェア)プログラミング言語が数多くのデータサイエンティストや企業によって利用され、分析モデルが開発されています。PythonやR、Luaなどデータサイエンティストや開発者たちに好かれたプログラミング言語はアナリティクス業界に革新をもたらしました。SASはそれらのOSSユーザと企業の要望に応じ、従来のSASユーザとOSSプログラミングユーザーたちが共同作業、かつ連携できるようなプラットフォームを提供しています。 今回は、OSSユーザがどのような方法を利用し、SASプラットフォーム上で自由自在なデータ分析を行えるのかをテーマとし、SAS Global Forumで公開した論文をご紹介します。 1.Open Visualization with SAS® Viya® and Python この論文では、オープンソース言語の一つであるPythonに関し、SAS ViyaのSWAT(Scripting Wrapper for Analytics Transfer)を通じて、メインにオープンソースのグラフィックテクノロジー、特にPythonのMatplotライブラリ、そして現在主流となっているD3の可視化フレームワークとのインテグレーション技術について紹介しています。本文で用いた例は、統計プログラミングのサンプルを使って、Jupyter NotebookからSAS Viyaの機能を呼び出し、最終的に、mpld3で作られた静的なグラフを動的グラフに変更した例となります。 2.SWAT’s it all about? SAS Viya® for Python Users SASは2016の7月にPythonライブラリSWATをリリースしました。それにより、PythonユーザはSASのCASに接続して、SAS Viyaの各種機能を使えるようになりました。SWATを利用することで、SAS言語バックグラウンドを持っていないユーザには、SAS言語ユーザと同じくCASとSAS Viyaの各種機能を使用できるようになります。この論文では、Python SWATを通じて、CASセッションへ接続し、PythonからCASへデータをロードし、さらにCASアクションで実行して分析する一連作業をデモンストレーションの形で紹介します。使用するデータは、SASほかのアプリケーション、例えばVisual Analyticsなどでも利用できる様子を紹介します。 3.Deploying Models Using SAS® and Open Source 近来、機械学習と人工知能の議論はほとんどの時間がモデル開発の議論に費やされています。しかし、モデルによって得られる洞察をどのように効率的にビジネス価値創出に適用するかに関してはほとんど議論されていません。この論文では、モデルの構築に応じ、Docker、Flask、Jenkins、Jupyter、Pythonなどのオープンソースプロジェクトとの組み合わせで、SASを使用してモデルを展開するためのDevOpsプリンシパルの使用例を紹介します。例に使われている関連アプリケーションはグローバルなユーザベースを持つ資産上のレコメンド・エンジンとなります。この使用例は、セキュリティ、待ち時間、スケーラビリティ、再現性に直面する必要があることをめぐってディスカッションします。最後に、その解決策となるソリューションとその課題となる部分を含めて説明します。 4.SAS®

Artificial Intelligence
SAS Viya:セマンティック・セグメンテーション(Semantic Segmentation)を試してみた

PythonからSAS Viyaの機能を利用するための基本パッケージであるSWATと、よりハイレベルなPython向けAPIパッケージであるDLPyを使用して、Jupyter NotebookからPythonでSAS Viyaの機能を使用してセマンティック・セグメンテーション(Semantic Segmentation)を試してみました。 大まかな処理の流れは以下の通りです。 1. 必要なパッケージ(ライブラリ)のインポートとセッションの作成 2. 画像データ内容の確認とセグメンテーション用データセットの作成 3. モデル構造の定義 4. モデル生成(学習) 5. セグメンテーション(スコアリング) 1. 必要なパッケージ(ライブラリ)のインポートとセッションの作成 swatやdlpyなど、必要なパッケージをインポートします。 %matplotlib inline # SWAT パッケージのインポート import swat as sw import sys   # DLPy パッケージのインポート import dlpy from dlpy.network import * from dlpy.utils import * from dlpy.applications import * from dlpy.model

SAS Events | Students & Educators
0
第4回「データサイエンティストのキャリアと活躍のかたち」レポート

データサイエンティストを目指す学生向けのセミナー「データサイエンティストのキャリアと活躍のかたち」の第四回が7/25(木)に開催されました。第一回・第二回・第三回に引き続き、今回も大変多くの学生の皆様に参加していただき、有意義なセミナーとなりました。本記事では、当日の様子についてご紹介します。 本セミナーでは、データサイエンティストのキャリアと活躍の場や、ビジネス上でアナリティクスがどのように活用されるかについて、スピーカーがこれまでの経験をもとに紹介しました。 SHIONOGIにおける開発領域のData Scientistとは? はじめに、データサイエンティストのキャリアについて、塩野義製薬株式会社の木口さんのご講演です。木口さんはSHIONOGIのData Science Groupに所属されている方です。Data Science Groupは主にデータサイエンティストやプログラマーで構成され、生物統計家やデータマネージャーと協業して医薬品開発を行っています。 最初に、医薬品開発におけるデータ活用の様子について紹介していただきました。医薬品開発領域では1つの医薬品が世の中で販売されるまでに、臨床試験を何度も繰り返して仮説を検証します。Data Science Groupは、この過程にデータ活用とデータ駆動型医薬品開発を取り入れています。 医薬品開発で活用されるデータには、生物統計家が仮説の推定・検定を行うための臨床試験データやデータサイエンティストが新たな仮説を設定するためのリアルワールドデータ、仮想臨床試験などをするためのシミュレーションデータがあります。これらのデータを組み合わせて活用して医薬品開発の効率化を行っています。 次にデータサイエンティストに求められる役割とスキルについてです。SHIONOGI医薬品開発領域が考えるデータサイエンティストの役割は、科学的にデータを活用するスペシャリストとして、データ駆動型の業務改善を行い、製品価値最大化のためのデータ駆動型医薬品開発をすることであると伝えていただきました。 また、製品価値最大化のためのデータ駆動型医薬品開発はデータサイエンティストが社内外のデータに基づく仮説の導出をし、その仮説をもとに生物統計家が計画立案をして臨床研究で検証するというサイクルがうまく動くことが理想形であると伝えていただいきました。 この役割を果たすために必要なスキルには、統計理論の知識やプログラミングの技術、ITスキルなどもありますが、木口さんは特にチームの中で自分の思っていることを伝える・相手の意思を受け入れるといった「ビジネススキル」が大切であるとおっしゃっていました。 実際にSHIONOGIの様々な分野の技術を組み合わせた活動事例の紹介をしていただいた最後に、「仕事は、多くの失敗から得たヒントをパズルのように組みあわせ、成功に導くこと」であるというメッセージを学生の皆さんに伝えていただきました。ピースは個人が持つ得意な部分・とがった知識でもあり、それらを組み合わせることで新しい仮説を導くことが役割であるという言葉が印象的でした。 不正・犯罪対策におけるアナリティクスの活用 続いて、不正・犯罪対策の分野おいて活用されるアナリティクスについて、SAS Japanの新村による講演です。 今回の講演では、「不正・犯罪対策」の一例としてマネーミュール(知らずのうちに不正な送金に加担してしまう人)を金融機関とのやり取りから検知する活用例を紹介しました。 怪しいお金のやり取りを不正犯罪の被害者口座から見つけるためには、フィルタリングや異常値検知、機械学習、ネットワーク分析など様々な手段が使われています。それぞれの手段には特徴と難点があるため、SASでは複数の適切な手法を組み合わせて効率的に活用し、高精度な不正検知と新たな不正への対応を実現する(ハイブリットアプローチ)を取り入れています。 後半には、不正検知におけるアナリティクスの特徴をいくつか紹介しました。まず、サービス設計によるモデル・チューニング方針について、 ・本当に不正が起きていて、その不正を予測できる検出率を高める ・本当は不正が起きていないのに、それを不正と予測してしまう誤検知を減らす の両方について考えなければならなりません。また、不正検知はビジネスにおいて対外的な説明を求められるため、誰が見ても検知結果を理解できるような可視化をすることが重要です。さらに、不正対策コストと不正被害額の差を考慮するために経済合理性と理想のバランスが求められることも特徴です。 今回の講演内容はどちらも“データサイエンス”の分野としてイメージが浮かびにくいものだったように思われます。「いい医薬品を開発する」ことや「不正・犯罪を検知する」ためのアナリティクスについて知るきっかけになる、とても貴重な講演でした。 SAS student Data for Good communityの紹介 最後に、学生のデータサイエンスの学びの場としてSAS Student Data for Good communityと Data for Good 勉強会について紹介しました。 Data for Goodとは様々な社会問題に対し、データを用いて解決する取り組みです。今回はData for Goodの具体例としてシアトルの交通事故改善を紹介しました。学生が主体となってこの活動をより推進するため、SASではと「Data for Good勉強会」と「SAS Student

1 25 26 27 28 29 54