SAS Japan

Machine Learning

Get the latest machine learning algorithms and techniques

Advanced Analytics | Artificial Intelligence | Machine Learning

SAS Japan2019-03-12 0

この記事はSAS Institute Japanが翻訳および編集したもので、もともとはXindian Longによって執筆されました。元記事はこちらです（英語）。物体検出とは？物体検出とはコンピューター・ビジョンの一分野であり、画像内に含まれる関心対象の物体を自動的に背景から区別して位置特定する手法です。例えば、図1に示す2つの画像では、いずれも前景に物体があります。左の画像では鳥が、右の画像では犬と人間が前景にあります。「物体検出問題の解決」とは、「これらの物体をぴったりと囲むバウンディング・ボックスを配置し、それぞれのバウンディング・ボックスに対して正しい物体カテゴリーを関連付けること」を意味します。画像処理の領域における他のタスクと同様、物体検出を実行するときにもディープ・ラーニングは最先端の手法として力を発揮します。物体検出の仕組み物体検出に関する重要な問題の1つは、前景にある物体の数が画像によって様々に異なる、ということです。しかし、ここでは物体検出の仕組みを理解するために、まずは1つの画像に1個の物体しか存在しないと仮定し、この制約条件の下で物体検出問題を考えてみましょう。1つの画像に1個の物体しか存在しない場合、バウンディング・ボックスの発見と物体のカテゴリー判断という問題は、単純明快な方法で解決することができます。バウンディング・ボックスは4組の数値で表現されますから、バウンディング・ボックスの位置を学習するタスクは、回帰問題として無理なくモデル化することが可能です。そのタスクが済めば、物体のカテゴリー判断は分類問題として解くことができます。ここでの「制約条件付きの物体検出」という課題に関する回帰および分類問題に対する解法を提供するのは、図2に示す畳み込みニューラル・ネットワーク（CNN）です。コンピューター・ビジョンの領域における他の従来型タスク（例：画像認識、キーポイント検出、セマンティック・セグメンテーションなど）の場合と同様、ここでの「制約条件付きの物体検出」という課題では、固定数のターゲットを扱います。これらのターゲットの当てはめは、固定数の分類または回帰問題としてターゲットをモデル化することによって実行可能です。前述のとおり、真の物体検出はN個の物体を処理できなければなりません（Nの値は画像によって異なります）。残念ながら、図2に示したCNNは、このような、より一般的な問題を解決することができません。しかし、多くの矩形ボックスの位置とサイズについて仮説を立てることによってCNNの変種を使用し、CNNを物体の分類にのみ利用する、というやり方は可能かもしれません。私たちはそのような場合の矩形ボックスを、しばしば「ウィンドウ」と呼びます。ウィンドウ仮説を汎用的なものにするためには、画像内で考えられる全ての位置とサイズをカバーしなければなりません。それができれば、それぞれのサイズと位置のウィンドウについて、「その中に物体が存在するかどうか？」と、「存在する場合、物体のカテゴリーは何か？」を判断することが可能になります。図3は、このアプローチで物体検出を実現する場合に候補となりうるウィンドウをいくつか示しています。画像は有限個のピクセルで構成されていますから、ウィンドウの総数は膨大です。検討すべきウィンドウの数の膨大さを考えると、このアプローチはコンピューティングの観点からは非実用的です。ウィンドウを用いて物体を探すための効率的な手法では、「一部のウィンドウだけを調べる」というスマートな方法で物体検出を実行することは可能でしょうか？答えは「イエス」です。このような「ウィンドウの部分集合」を発見する方法には2つのアプローチがあり、それらは2つの異なる物体検出アルゴリズムへとつながります。第1のカテゴリーのアルゴリズムは、最初にリージョン・プロポーザル（領域候補の抽出）を実行します。これは具体的には、コンピューター・ビジョンの従来の手法（選択的検索など）を用いて、あるいは、ディープ・ラーニングに基づくリージョン・プロポーザル・ネットワーク（region proposal network: RPN）を用いて、物体を含んでいる可能性の高い領域を選択する、ということです。候補ウィンドウの少数のセットを収集したら、セットの数だけ回帰モデルおよび分類モデルを定式化することによって、物体検出問題を解決することができます。このカテゴリーに属するアルゴリズムとしては、Faster R-CNN[1]、R_FCN[2]、FPN-FRCN[3] などがあります。このカテゴリーのアルゴリズムは、通常、「2段階法」と呼ばれます。これらは一般に、この後に紹介する「1段階法」に比べ、正確性は優れていますが、処理は低速です。第2のカテゴリーのアルゴリズムは、固定位置にある固定サイズの物体だけを探します。これらの位置とサイズは、ほとんどのシナリオがカバーされるように戦略的に選択されます。通常、これらのアルゴリズムは、元の画像を固定サイズのグリッド（格子）領域に分割した上で、それぞれのグリッド領域に関して、あらかじめ決めておいた所定の形状およびサイズの、固定数の物体を予測することを試みます。このカテゴリーに属するアルゴリズムは「1段階法」と呼ばれます。この手法の例としては、YOLO[4]、SSD[5]、RetinaNet[6]などが挙げられます。このカテゴリーのアルゴリズムは、通常、より高速に実行できますが、正確性は劣ります。このタイプのアルゴリズムは、リアルタイム検出を必要とするアプリケーションで活用されることが多くなっています。以下では、これらのうち2つの一般的な物体検出手法を取り上げ、もう少し詳しく検討します。 YOLOによる物体検出 YOLO (You Only Look Once) は、1段階の物体検出手法を用いる代表的なアルゴリズムです。このアルゴリズムが物体を検出するためにたどるステップを、図4とその下の箇条書きに示します。元の画像を等サイズのグリッドに分割します。それぞれのグリッドに関して、事前に定義した形状の、グリッドの中心を中心位置とするバウンディング・ボックスを、事前に設定した数だけ予測します。それぞれの予測には、クラス確率と物体信頼度（その領域が物体を含んでいるか、あるいは背景のみか）が関連付けられます。最後に、高い物体信頼度およびクラス確率が関連付けられたバウンディング・ボックスを選択します。最も高いクラス確率を持つ物体クラスが、その物体のカテゴリーとなります。事前に定義した形状の事前に設定した数のバウンディング・ボックスは「アンカーボックス」と呼ばれ、k平均法アルゴリズムによってデータから取得されます。アンカーボックスは、物体のサイズと形状についてデータセットから予備知識を捕捉します。異なるサイズおよび形状の物体を検出するためには、異なるアンカーが設計されます。例えば図5では、1つの場所に3種類のアンカーが表示されていますが、最終的には赤のアンカーボックスが中央の人物を検出します。言い換えると、アルゴリズムは、物体とこのアンカーボックスの適切なサイズを一緒に検出します。通常、最終的な予測は、アンカーの位置またはサイズ自体とは異なります。なぜなら、画像の特徴量マップから取得される最適化されたオフセット値が、アンカーの位置またはサイズに加算されるからです。 YOLOアルゴリズムのアーキテクチャを図6に示します。検出層は、多数の回帰および分類オプティマイザーを含んでおり、その数はアンカーの数によって決まります。 Faster RCNNによる物体検出 Faster RCNN[1] は、2段階の物体検出アルゴリズムです。図7は、Faster RCNNの2つの段階を示しています。アルゴリズム名に “Faster” と付いていますが、「1段階法よりも高速」という意味ではありません。この名称は歴史的な経緯を反映しており、以前のバージョン（オリジナルのRCNNアルゴリズム[7] やその後継のFast RCNN[8]）よりも高速であることを示しています。Faster RCNNにおける高速化は、個々の関心領域（Region of Interest: RoI）に関する特徴抽出計算を共有する手法と、ディープ・ラーニングに基づくリージョン・プロポーザル・ネットワーク（RPN）の導入によって実現されています。多数のCNN層を用いて特徴量マップを抽出した後、リージョン・プロポーザル・ネットワーク（RPN）が、物体を含んでいる可能性の高い多数のウィンドウを出力します。その後、アルゴリズムは、各ウィンドウ内部の特徴量マップを取得し、それらを固定サイズにリサイズ（またはポール）することで（＝RoIプーリング）、物体のクラス確率とより正確なバウンディング・ボックスを予測します。

Japanese

Advanced Analytics | Analytics | Artificial Intelligence | Machine Learning

Makoto Unemi (畝見真)2019-02-25 0

PythonやRで開発されたモデルの精度をビジュアルパイプラインで簡単比較

データサイエンティスト（以降、DSと表記）は、お好みのプログラミング言語を使用して、日々モデリングを行っています。昨今は、その中でもオープンソースのプログラミング言語であるPythonやRを使用されている方の割合が多くなってきているようです。その結果として、企業の分析組織やチーム内には複数の異なる言語を活用するDSが混在するケースも見受けられます。（一人で両方の言語を操る方もいます。）「Pythonを操るAさんが作成されたモデルと、Rを操るBさんが作成されたモデル、どちらの精度が高いのかを容易かつビジュアルに比較することができたら…」ということで、今回は、SAS ViyaのModel Studioを使用し、ビジュアルなパイプライン上での異なる言語間モデル精度比較をご紹介します。手順は以下の通りです。 ① プロジェクトの新規作成と学習用のデータソース選択 ② パイプラインの作成と実行 ③ 実行結果（モデル精度）の確認 ① プロジェクトの新規作成と学習用のデータソース選択「SAS Viya: ビジュアルパイプラインで予測モデル生成（基本編）」の「１．プロジェクトの新規作成と学習用のデータソース選択」を参照ください。 ② パイプラインの作成と実行画面上部にある「パイプライン」をクリックします。パイプラインには「データ」ノードのみが表示されています。左端の機能ノードアイコンをクリックすると、パイプラインに追加可能な機能ノードのリストが表示されます。まずは学習データに対する前処理として、欠損値補完を行います。「データマイニングの前処理」内にある「補完」を「データ」ノード上にドラッグすると、「データ」ノードの下に「補完」ノードが追加されます。同様の手順で、「その他」内にある「オープンソースコード」を「補完」ノード上へドラッグすると、「補完」ノードの下に「オープンソースコード」ノードが追加されます。機能ノードごとのオプション設定は、右側画面内で行います。「言語」が「Python」であることを確認し、「開く」をクリックします。開かれた画面内に、比較対象のPythonのコード（ランダムフォレストのモデル）をコピーします。右上の「保存」（フロッピーディスクアイコン）をクリックし、「閉じる」をクリックします。 ※ターゲット変数名や入力変数リスト名など、画面左側の変数名を使用することによって、オープンソースコードノードとその他のノード間でのデータ連携が可能となり、異なる言語のモデル間での精度比較も可能になります。各種規定変数名の詳細に関しては、オンラインマニュアルを参照してください。「オープンソースコード」ノードの右側にある３つのドットが縦に並んでいる（スノーマン）アイコンをクリックし、「名前の変更」を選択し、「Pythonフォレストモデル」に変更します。このようにドラッグ操作でノードを追加する以外に、パイプライン上のメニューからノードを追加することもできます。「補完」ノードのスノーマンアイコンをクリックし、「下に追加」＞「その他」＞「オープンソースコード」の順に選択すると、「補完」ノードの下に「オープンソースコード」ノードが追加されます。以降、同様の手順で比較対象のRのコード（ランダムフォレストのモデル）をコピーし、ノードの名前を変更します。「オープンソースコード」ノードは、データに対する前処理として使用することもできます。デフォルトでは、「オープンソースコード」ノードは、データに対する前処理として認識されているので、これを「教師あり学習」に切り替えます。 PythonとRのモデルノードそれぞれのスノーマンアイコンをクリックし、「移動」＞「教師あり学習」を選択します。すると、「モデルの比較」ノードが追加され、PythonとRのモデルノードと接続されます。パイプラインが完成したので、右上の「パイプラインの実行」アイコンをクリックし、実行します。 ③ 実行結果（モデル精度）の確認処理が正常に完了したら、「モデル比較」ノードのスノーマンアイコンをクリックし、「結果」を選択します。 Rのフォレストモデルの方が精度が高い、チャンピオンモデルであると表示されました。リフトやROC、様々な統計量で、精度を詳細に比較することもできます。以上が、ビジュアルパイプラインでPythonとRのモデル精度を比較する手順です。もちろん、必要に応じて、PythonやRのモデルとSASのモデルの精度を比較することもできます。 ※ビジュアルパイプラインでPythonとRのモデル精度を比較は、SAS Viya特設サイトにある動画でもご覧いただけます。 ※実際にPythonとRのモデル精度比較を試してみたい方は、Githubに公開されているアセットを活用ください。

Japanese

Analytics | Artificial Intelligence | Machine Learning

Makoto Unemi (畝見真)2018-11-21 0

SAS Viya：一般物体検出（Object Detection）を試してみた

PythonからSAS Viyaの機能を利用するための基本パッケージであるSWATと、よりハイレベルなPython向けAPIパッケージであるDLPyを使用して、Jupyter NotebookからPythonでSAS Viyaの機能を使用して一般物体検出（Object Detection）を試してみました。今回は、弊社で用意した数枚の画像データを使用して、処理の流れを確認するだけなので、精度に関しては度外視です。大まかな処理の流れは以下の通りです。１．必要なパッケージ（ライブラリ）のインポートとセッションの作成２．一般物体検出向け学習用データの作成３．モデル構造の定義４．モデル生成（学習）５．物体検出（スコアリング）１．必要なパッケージ（ライブラリ）のインポートとセッションの作成 swatやdlpyなど、必要なパッケージをインポートします。 from swat import * import sys sys.path.append(dlpy_path) from dlpy.model import * from dlpy.layers import * from dlpy.applications import * from dlpy.utils import * from dlpy.images import ImageTable from dlpy.splitting import two_way_split from dlpy.blocks import *

Japanese

Advanced Analytics | Analytics | Artificial Intelligence | Machine Learning

Makoto Unemi (畝見真)2018-11-01 0

SAS Viya：Python API向けパッケージ：DLPyの最新版1.0拡張機能概要紹介

SASでは、従来からオープン・AIプラットフォームであるSAS Viyaの機能をPythonから効率的に活用いただくためのハイレベルなPython向けAPIパッケージであるDLPyを提供してきました。従来のDLPyは、Viya3.3以降のディープラーニング（CNN）と画像処理（image action set）のために作成された、Python API向けハイレベルパッケージです。 DLPyではKerasに似たAPIを提供し、より簡潔なコーディングで高度な画像処理やCNNモデリングが可能でした。そして、この度、このDLPyが大幅に機能拡張されました。最新版DLPy1.0では、以下の機能が拡張されています。 ■ 従来からの画像データに加え、テキスト、オーディオ、そして時系列データを解析可能 ■ 新たなAPIの提供: ・ RNN に基づくタスク: テキスト分類、テキスト生成、そして系列ラベリング（sequence labeling）・一般物体検出（Object Detection）・時系列処理とモデリング・オーディオファイルの処理と音声認識モデル生成 ■ 事前定義ネットワーク（DenseNet, DarkNet, Inception, and Yolo）の追加 ■ データビジュアライゼーションとメタデータハンドリングの拡張今回はこれらの拡張機能の中から「一般物体検出（Object Detection）」機能を覗いてみましょう。 SAS Viyaでは従来から画像分類（資料画像1.の左から２番目：Classification）は可能でした。例えば、画像に映っている物体が「猫」なのか「犬」なのかを認識・分類するものです。これに加えて、DLPy1.0では、一般物体検出（資料画像1.の左から３番目：Object Detection）が可能になりました。資料画像１. (引用：Fei-Fei Li & Justin Johnson & Serena Yeung’s Lecture

Japanese

Advanced Analytics | Analytics | Artificial Intelligence | Data Visualization | Machine Learning

Makoto Unemi (畝見真)2018-09-28 0

AI民主化を加速する「自動分析機能」が登場

AIプラットフォームSAS Viyaでは、「AI実用化」や「AI民主化」を促進するために、従来から自動予測モデル生成や、機械学習やディープラーニングの判断根拠情報の提供などを可能としていましたが、SAS Visual Analytics on SAS Viyaの最新版8.3では、新たに「自動分析」機能が実装されました。「自動分析」機能を使用すると、予測（ターゲット）に影響を与えている変数の特定や、変数ごとにどのような条件の組み合わせがターゲットに依存しているのかを「文章（条件文）」で表現して教えてくれます。この例で使用するデータ「HMEQJ」は、ローンの審査を題材にしたもので、顧客ごとに１行の横持ちのデータです。このデータ内にある「延滞フラグ」が予測対象の項目（ターゲット変数）で、０（延滞なし）、１（延滞あり）の値が含まれています。データリスト内の「延滞フラグ」を右クリックし、「分析」＞「現在のページで分析」を選ぶだけで、「延滞フラグ」をターゲット変数に、その他の変数を説明変数とした分析が自動的に行われ、以下のような結果が表示されます。分析結果画面内説明： ①　ドロップダウンリストで、予測対象値（０：延滞なし、１：延滞あり）の切り替えが可能です。この例では、「１：延滞あり」を選択し、「延滞する」顧客に関して分析しています。 ②　全体サマリーとして、すべての顧客の内、延滞実績のある顧客は19.95%であり、「延滞する」ことに関して影響度の高い変数が順に表記されています。 ③　「延滞する」ことに関して影響を与えている変数の度合い（スコア）を視覚的に確認することができます。 ④　「延滞する」可能性が最も高くなるグループ（条件の組み合わせ）が文章で示されています。この例では、③で「資産に対する負債の割合」が選択され、これに応じて文章内の該当箇所がハイライトしています。 ⑤　この例では、③で「資産に対する負債の割合」が選択され、これに応じて「０：延滞なし、１：延滞あり」別の顧客の分布状況がヒストグラムで表示されています。選択された変数が数値属性の場合は、ヒストグラムで、カテゴリ属性の場合は積み上げ棒グラフで表示されます。分析に使用する説明変数（要因）に関しては、右側の「データ役割」画面内で選択することができます。以上のように、分析スキルレベルの高くないビジネスユーザーでも、簡単かつ容易に、そして分かり易くデータから有効な知見を得ることができます。 ※AIプラットフォーム「SAS Viya」を分かり易く学べる「特設サイト」へGO！

Japanese

Advanced Analytics | Analytics | Machine Learning

Makoto Unemi (畝見真)2018-08-24 0

SAS Viya：ビジュアルパイプラインで予測モデル生成（自動特徴量エンジニアリングテンプレート編）

ビジュアルパイプラインで予測モデル生成（テンプレート使用編）では、SAS ViyaのModel Studioを使用し、標準で実装されているパイプラインのテンプレートを使用して、予測モデルを自動生成する手順を紹介しました。今回は、標準実装のテンプレートに含まれている、「自動特徴量エンジニアリングテンプレート」を紹介します。「特徴」＝入力＝変数（独立変数、説明変数）であり、特徴量エンジニアリングとは、予測モデルの精度を高めるために、学習用の生データに基づき、特徴を変換したり、抽出したり、選択したり、新たな特徴を作り出す行為です。以下は、特徴量エンジニアリングの例です。・郵便番号などの高カーディナリティ名義変数のエンコーディング（数値化）・間隔尺度の変数の正規化、ビニング、ログ変換・欠損パターンに基づく変換・オートエンコーダー、主成分分析（PCA）、t-SNE、特異値分解（SVD）などの次元削減・季節的な傾向を把握するために、日付変数を別々の変数に分解して曜日と月と年の新しい変数を作成より良い「特徴」を作り出し、選択することで、予測モデルの精度が向上するだけでなく、モデルを単純化し、モデル解釈可能性を高めるのにも役立ちます。しかし、従来、予測モデリングのプロセスにおいて、データサイエンティストは、その多くの時間を特徴量エンジニアリングに費やしてきました。しかも、特徴量エンジニアリングの良し悪しは、データサイエンティストのスキルに大きく依存してしまいます。こうした課題に対処するために、SAS Viyaでは、自動特徴量エンジニアリングテンプレートを提供しています。このテンプレートを使用することで、特別なスキルを必要とせず、特徴量エンジニアリングにかける時間を短縮し、より精度の高い予測モデル生成が可能になります。以下が、SAS ViyaのModel Studioに実装されている「自動特徴量エンジニアリングテンプレート」です。このテンプレートは、大きく３つのステップで構成されています。高カーディナリティ変数に対するエンコーディング（数値化）最良変換、PCA / SVD、オートエンコーダーを使用して新たな特徴を作成特徴エンジニアリング未/済みデータに基づく予測モデルの精度比較ステップ１．高カーディナリティ変数に対するエンコーディング（数値化）このステップの最初のノードは、「SASコード高カーディナリティ」という名のSASコードノードです。 SASコードノードを使用することで、SASプログラムをパイプラインに組み込むことができます。このノードを選択し、右側画面内でコードエディタ：「開く」をクリックすると、その内容を確認できます。このSASコードノードでは、最初に、20〜1,000レベルのカーディナリティの高い変数（固有値が多すぎる名義変数）を識別します。minlevelsとmaxlevelsの値を更新することで、この範囲を簡単に変更することもできます。次に、数値変換（TRANSFORM = LEVELENCODE）を指定し、これらの変数に対してのみレベル（水準）エンコーディングを行います。実際に変換を行うためには、「データマイニングの前処理」にある「変換」ノードを実行する必要があるため、「変換」ノードが接続されています。レベルエンコーディングでは、名義を数値に変換します。これは、カーディナリティの高い変数を扱う場合に特に便利です。これらの変数は、ほとんどの機械学習アルゴリズムにおいてコンピューティングリソースの負荷をあげてしまうことが多いからです。最初に名義変数のレベルをアルファベット順に並べ替え、各レベルに昇順に数字（1から始まる）を割り当てます。ステップ２．最良変換、PCA / SVD、オートエンコーダーを使用して新たな特徴を作成ステップ2では、以下の3つの異なる自動特徴量エンジニアリング手法が適用されます。変換-最良（Best）：このノードは、「データマイニングの前処理」にある「変換」ノードを使用して、すべての間隔変数に対して「最良（Best）」の変換を行います。この方法では、各間隔変数に対して、ランク付け基準（ターゲットとの相関など）に基づいて、単一変数の変換（逆変換、標準化、センタリング、ログ変換など）を比較し、最も高いランク付けを持つ変換を選択します。特徴抽出- PCA：このノードは、「データマイニングの前処理」にある「特徴抽出」ノードを使用して、間隔入力変数に対する自動特徴抽出手法として「自動」を指定しています。「自動」では、間隔入力変数の総数が500以下の場合は、主成分分析（PCA）が適用され、それ以外の場合は、特異値分解（SVD）が適用されます。特徴抽出-自動エンコーダ：このノードでは、オートエンコーダを用いて特徴抽出を行います。この手法では、特徴抽出にすべての入力変数（間隔と名義）を使用します。オートエンコーダーは、入力データを再構成するために使用できる特徴のセットを学習することを目的とした教師なし学習技術です。手短に言えば、ニューラルネットワークは、ターゲット（出力）ニューロンを入力ニューロンと等しく設定することによって訓練されるものです。このノードでは、中間隠れ層が10に設定されているので、10個の新しい特徴が作成されます。ステップ３．特徴エンジニアリング未/済みデータに基づく予測モデルの精度比較最後のステップでは、勾配ブースティングを用いた5つの異なる予測モデルが生成されます。・高カーディナリティー変数のレベルエンコーディング＋特徴抽出（PCA）を施したデータに基づくモデル・高カーディナリティー変数のレベルエンコーディング＋特徴抽出（オートエンコーダー）を施したデータに基づくモデル・高カーディナリティー変数のレベルエンコーディング＋変換-最良を施したデータに基づくモデル・高カーディナリティー変数のレベルエンコーディングを施したデータに基づくモデル・元のデータ（特徴量エンジアリングを施していない）に基づくモデル５つのモデルを生成後、パフォーマンスを比較します。勾配ブースティングは、非常に効果的な教師あり学習アルゴリズムであり、予測精度の面で他のアルゴリズムより優れていることが多いため、使用しています。

Japanese

Advanced Analytics | Analytics | Machine Learning

Makoto Unemi (畝見真)2018-08-23 0

SAS Viya: ビジュアルパイプラインで予測モデル生成（テンプレート使用編）

ビジュアルパイプラインで予測モデル生成（基本編）では、SAS ViyaのModel Studioを使用し、パイプラインを一から作成し、予測モデルを生成する手順を紹介しました。今回は、前回からの続きとして、予め用意されているパイプラインのテンプレートを使用した、モデル生成手順を紹介します。パイプライン・テンプレートの選択と実行実行結果（モデル精度）の確認１．パイプライン・テンプレートの選択と実行パイプラインの追加アイコンをクリックすると、「パイプラインの新規作成」ダイアログが表示されます。パイプラインの名前を入力し、「テンプレート」から「テンプレートの参照…」を選択すると、標準で実装されているテンプレートのリストが表示されます。この中から使用したいテンプレートを選択し、「OK」をクリックします。今回は、「分類尺度のターゲット変数の高度なテンプレート」を使用します。さらに、「保存」をクリックすると、選択したパイプラインの内容が表示されます。このテンプレートでは、以下の７つのモデルを生成し、結果を比較することができます。・データに対する前処理（欠損値補完と変数選択）後に、ロジスティック回帰（ステップワイズ法）とニューラルネットワークでモデル生成・データに対する前処理（欠損値補完）後に、ロジスティック回帰（増加法）でモデル生成・データに対する前処理無しで、勾配ブースティング、フォレスト、ディシジョンツリーでモデル生成・上記６つのモデルのアンサンブルモデルの生成 ※テンプレートに使用されている機能ノードごとの詳細なオプション内容は右側画面内で確認でき、必要に応じて変更可能です。また、パイプライン内への機能ノードの追加・削除・変更などカスタマイズも可能です。 ※一から作成したパイプラインや、既存テンプレートをカスタマイズしたパイプラインを、その企業独自のテンプレートとして共有し、活用することができます。 ※一つのプロジェクト内に、複数のパイプラインを作成し、結果を比較することができます。パイプラインの実行アイコンをクリックし、実行します。実行中の機能ノードは時計アイコンがクルクル回転し、正常に完了すると緑のチェックマークが表示されます。２．実行結果（モデル精度）の確認パイプラインの実行が完了したら、ビジュアルパイプラインで予測モデル生成（基本編）と同様に、「モデルの比較」ノードのスノーマンアイコンをクリックし、メニューから「結果」を選択し、このパイプラインの実行結果を確認することができます。また、一つのプロジェクト内で、複数のパイプラインを作成している場合には、パイプライン間でモデル精度を比較し、プロジェクト内でのチャンピオンモデルを確認することができます。画面上部の「パイプラインの比較」をクリックします。パイプライン２の勾配ブースティングのモデルの精度が最も高い、チャンピオンモデルであることが示されています。以上が、パイプラインのテンプレートを使用して、予測モデルを生成する際の手順です。コーディングスキルを持たないビジネスユーザーでも、まず、学習用のデータを選択し、予測対象の項目を選択し、テンプレートを選んで実行するだけで、精度の高いの予測モデルを自動生成することができるということです。 ※ビジュアルパイプラインのテンプレートを使用したモデル生成は、SAS Viya特設サイトにある動画でもご覧いただけます。

Japanese

Advanced Analytics | Analytics | Machine Learning

Makoto Unemi (畝見真)2018-08-22 0

SAS Viya: ビジュアルパイプラインで予測モデル生成（基本編）

AIプラットフォームであるSAS Viyaでは、SAS言語のみならず、PythonやR、Java、Luaなどの汎用プログラミング言語からViyaのAI＆アナリティクスの機能を使用し、予測モデルを生成することができるようになっています。しかし、昨今、「AI民主化」の流れに沿って、予測モデル生成を必要としているのはデータサイエンティスト（以降：DS）だけではなく、業務部門のビジネスアナリストや一般のビジネスユーザーも必要としています。こうしたコーディングスキルを持たないビジネスユーザー向けに、SAS Viyaでは、GUI上でマウスの簡単操作だけで予測モデル生成を可能としています。もちろん、DSの中にも、コーディングせずに、もっと簡単に精度の高い予測モデルを生成できる手段があれば活用したいと感じている人達もいます。 SAS Viyaでは、Model Studioを使用し、機械学習のモデル、時系列予測のモデル、テキストマイニングのモデルをGUIベースの簡単マウス操作で作成することができます。モデル生成プロセスをグラフィカルなフロー図として描き、実行するだけです。このフロー図のことを「パイプライン」と呼んでいます。 Model Studioで予測モデルを生成するには、大きく２通りの方法があります。１つは、マウスの簡単ドラッグ操作でパイプラインを一から作成する方法と、もう一つは、予め用意されているパイプラインのテンプレートを使用する方法です。まずは、パイプラインを一から作成する際の基本的な手順を紹介します。プロジェクトの新規作成と学習用のデータソース選択パイプラインの作成と実行実行結果（モデル精度）の確認１．プロジェクトの新規作成と学習用のデータソース選択 SAS Viyaの統合GUIのホームページのメニューから「モデルの作成」を選択すると、 Model Studioの画面が表示されます。「プロジェクトの新規作成」をクリックします。「プロジェクトの新規作成」画面内で、プロジェクトの名前を入力し、モデルの種類（データマイニングと機械学習 / テキスト分析 / 予測）を選択し、学習用のデータソースを選択します。今回は、「データマイニングと機械学習」を選び、ローンの審査モデルを作成します。HMEQJというデータソースは、顧客ごとに１行の横持ち形式のデータです。「保存」をクリックすると、ローン審査モデルプロジェクトが作成され、選択したデータソースの変数リストが表示されます。予測対象の項目（ターゲット変数）を指定します。変数名：BAD（ラベル名：延滞フラグ）を選択し、右画面内で、役割に「ターゲット」を選択します。延滞フラグには、過去に延滞の実績があればフラグに“１”が、無ければ“０”が設定されています。２．パイプラインの作成と実行予測対象の項目を指定後、画面上部にある「パイプライン」をクリックします。パイプラインには「データ」ノードのみが表示されています。左端の機能ノードアイコンをクリックすると、パイプラインに追加可能な機能ノードのリストが表示されます。今回は、欠損値補完を行った上で、勾配ブースティングとランダムフォレストでモデルを生成してみましょう。まず、データに対する前処理として欠損値補完を行います。「データマイニングの前処理」内にある「補完」を「データ」ノード上にドラッグすると、「データ」ノードの下に「補完」ノードが追加されます。同様の手順で、「教師あり学習」内にある「勾配ブースティング」を「補完」ノード上へドラッグすると、「補完」ノードの下に「勾配ブースティング」ノードが追加されます。（同時に「モデルの比較」ノードが自動的に追加されます）このようにドラッグ操作でノードを追加する以外に、パイプライン上のメニューからノードを追加することもできます。「補完」ノードの右端にある、３つのドットが縦に並んでいる（スノーマン）アイコンをクリックし、「下に追加」＞「教師あり学習」＞「フォレスト」の順に選択すると、「補完」ノードの下に、「フォレスト」ノードが追加されます。機能ノードごとの詳細なオプションの設定は、右側画面内で行います。パイプラインが完成したら、パイプラインの実行アイコンをクリックし、実行します。実行中の機能ノードは時計アイコンがクルクル回転し、正常に完了すると緑のチェックマークが表示されます。３．実行結果（モデル精度）の確認パイプラインの実行が完了したら、「モデルの比較」ノードのスノーマンアイコンをクリックし、メニューから「結果」を選択します。モデルの比較結果が表示されます。今回は勾配ブースティングのモデルの精度の方が高い＝チャンピオンであると判定されています。「アセスメント」タブ内では、リフトやROCの情報などを確認することができます。以上が、ビジュアルパイプラインで予測モデルを一から生成する際の基本的な手順です。 ※ビジュアルパイプラインによるモデル生成（基本）は、SAS Viya特設サイトの「機械学習」トピック内にある動画でもご覧いただけます。

Japanese

Advanced Analytics | Analytics | Artificial Intelligence | Machine Learning

Makoto Unemi (畝見真)2018-07-04 0

「Pipefitter」の応用～CNN(特徴抽出器)＋機械学習(分類器)でCNNの欠点を補完

前回は、SASの「Pipefitter」の基本的な使用方法を紹介しました。続く今回は、基本内容を踏まえ、ひとつの応用例を紹介します。 SAS Viyaのディープラーニング手法の一つであるCNNを「特徴抽出器」として、決定木、勾配ブースティングなどを「分類器」として使用することで、データ数が多くないと精度が出ないCNNの欠点を、データ数が少なくても精度が出る「従来の機械学習手法」で補強するという方法が、画像解析の分野でも応用されています。以下は、SAS Viyaに搭載のディープラーニング（CNN）で、ImageNetのデータを学習させ、そのモデルに以下の複数のイルカとキリンの画像をテストデータとして当てはめたモデルのpooling層で出力した特徴空間に決定木をかけている例です。 In [17]: te_img.show(8,4) 以下はCNNの構造の定義です。 Build a simple CNN model In [18]: from dlpy import Model, Sequential from dlpy.layers import * from dlpy.applications import * In [19]: model1 = Sequential(sess, model_table='Simple_CNN') Input Layer In [20]: model1.add(InputLayer(3, 224, 224, offsets=tr_img.channel_means)) NOTE: Input

Japanese

Advanced Analytics | Analytics | Artificial Intelligence | Machine Learning

Makoto Unemi (畝見真)2018-07-02 0

機械学習のパイプラインを簡素化するPython向けパッケージ「Pipefitter」

SASでは、Python向けパッケージ/ライブラリとして、機械学習のパイプラインの実装を簡素化する「Pipefitter」を提供しています。 SASの「Pipefitter」パッケージは、SAS Viyaまたは、SAS v9の反復可能なワークフローの一つの段階として、データ変換とモデルフィッティング向けパイプラインを開発するためのPython APIを提供します。このパッケージを使用すると、SASでデータを操作して、次のような処理を実装できます：・欠損値補完・デシジョンツリー、ニューラルネットワーク、およびその他の機械学習テクニックを使用したパラメータ推定値の適合・ハイパーパラメータチューニングを使用したモデル選択の高速化・スコアリングとモデル評価「Pipefitter」のもう一つの重要な特徴は、SASが提供する他の2つのPythonパッケージの能力に基づいていることです。 SWAT: SAS Viyaプラットフォームのインメモリー分析エンジンであるSAS Cloud Analytic Services（CAS）を活用し様々なデータ操作や分析を可能にするPython向けパッケージ SASPy： SAS9.4の機能を活用し、分析、データ操作、および視覚化を行うためのPython向けパッケージロジスティック回帰でのパラメータ推定などのパイプライン処理は、SASPyを介してSAS 9で、SWATを介してCASで同じように実行されるように設計されています。以下は、タイタニック号の乗船者データに基づくパイプラインの例です。まず、KaggleのサイトからPandas DataFrameにデータをダウンロードします。 In [1]: import pandas as pd In [2]: train = pd.read_csv('http://s3.amazonaws.com/assets.datacamp.com/course/Kaggle/train.csv') In [3]: train.head() Out[3]: PassengerId Survived Pclass \ 0 1 0 3 1 2

Japanese

Previous 1 2 3 4 Next

Blogs

Blogs

Machine Learning