予測モデル Posts

Tag: 予測モデル

Analytics

Lijun Liu (リュウリクン)August 19, 2019 0

SAS Global Forum 2019 論文紹介シリーズ第1回「OSS言語から活用できるオープンなSASプラットフォーム」

例年と同様に、SAS Instituteはグローバル各国でフォーラムを開催しました。日本ではSAS Forum Japanと題して6月11日に東京の六本木で開催され、また、アメリカSAS本社はダラスでSAS Global Forum 2019を開催（4/28~5/1）し、その中では多数の論文が発表されています。本シリーズでは、これらの論文の中から、OSSとSASプラットフォーム製品のユースケース、OSSコーディング開発・運用事例、クラウドアーキテクチャの設計と運用等々の注目された内容を選別した上で、４回に分けて紹介していきます。第1回「OSS言語から活用できるオープンなSASプラットフォーム」近年、OSS（オープンソースソフトウェア）プログラミング言語が数多くのデータサイエンティストや企業によって利用され、分析モデルが開発されています。PythonやR、Luaなどデータサイエンティストや開発者たちに好かれたプログラミング言語はアナリティクス業界に革新をもたらしました。SASはそれらのOSSユーザと企業の要望に応じ、従来のSASユーザとOSSプログラミングユーザーたちが共同作業、かつ連携できるようなプラットフォームを提供しています。今回は、OSSユーザがどのような方法を利用し、SASプラットフォーム上で自由自在なデータ分析を行えるのかをテーマとし、SAS Global Forumで公開した論文をご紹介します。 1．Open Visualization with SAS® Viya® and Python この論文では、オープンソース言語の一つであるPythonに関し、SAS ViyaのSWAT（Scripting Wrapper for Analytics Transfer）を通じて、メインにオープンソースのグラフィックテクノロジー、特にPythonのMatplotライブラリ、そして現在主流となっているD3の可視化フレームワークとのインテグレーション技術について紹介しています。本文で用いた例は、統計プログラミングのサンプルを使って、Jupyter NotebookからSAS Viyaの機能を呼び出し、最終的に、mpld3で作られた静的なグラフを動的グラフに変更した例となります。 2．SWAT’s it all about? SAS Viya® for Python Users SASは2016の7月にPythonライブラリSWATをリリースしました。それにより、PythonユーザはSASのCASに接続して、SAS Viyaの各種機能を使えるようになりました。SWATを利用することで、SAS言語バックグラウンドを持っていないユーザには、SAS言語ユーザと同じくCASとSAS Viyaの各種機能を使用できるようになります。この論文では、Python SWATを通じて、CASセッションへ接続し、PythonからCASへデータをロードし、さらにCASアクションで実行して分析する一連作業をデモンストレーションの形で紹介します。使用するデータは、SASほかのアプリケーション、例えばVisual Analyticsなどでも利用できる様子を紹介します。 3．Deploying Models Using SAS® and Open Source 近来、機械学習と人工知能の議論はほとんどの時間がモデル開発の議論に費やされています。しかし、モデルによって得られる洞察をどのように効率的にビジネス価値創出に適用するかに関してはほとんど議論されていません。この論文では、モデルの構築に応じ、Docker、Flask、Jenkins、Jupyter、Pythonなどのオープンソースプロジェクトとの組み合わせで、SASを使用してモデルを展開するためのDevOpsプリンシパルの使用例を紹介します。例に使われている関連アプリケーションはグローバルなユーザベースを持つ資産上のレコメンド・エンジンとなります。この使用例は、セキュリティ、待ち時間、スケーラビリティ、再現性に直面する必要があることをめぐってディスカッションします。最後に、その解決策となるソリューションとその課題となる部分を含めて説明します。 4．SAS®

Japanese

Advanced Analytics | Analytics | Machine Learning

Makoto Unemi (畝見真)August 24, 2018 0

SAS Viya：ビジュアルパイプラインで予測モデル生成（自動特徴量エンジニアリングテンプレート編）

ビジュアルパイプラインで予測モデル生成（テンプレート使用編）では、SAS ViyaのModel Studioを使用し、標準で実装されているパイプラインのテンプレートを使用して、予測モデルを自動生成する手順を紹介しました。今回は、標準実装のテンプレートに含まれている、「自動特徴量エンジニアリングテンプレート」を紹介します。「特徴」＝入力＝変数（独立変数、説明変数）であり、特徴量エンジニアリングとは、予測モデルの精度を高めるために、学習用の生データに基づき、特徴を変換したり、抽出したり、選択したり、新たな特徴を作り出す行為です。以下は、特徴量エンジニアリングの例です。・郵便番号などの高カーディナリティ名義変数のエンコーディング（数値化）・間隔尺度の変数の正規化、ビニング、ログ変換・欠損パターンに基づく変換・オートエンコーダー、主成分分析（PCA）、t-SNE、特異値分解（SVD）などの次元削減・季節的な傾向を把握するために、日付変数を別々の変数に分解して曜日と月と年の新しい変数を作成より良い「特徴」を作り出し、選択することで、予測モデルの精度が向上するだけでなく、モデルを単純化し、モデル解釈可能性を高めるのにも役立ちます。しかし、従来、予測モデリングのプロセスにおいて、データサイエンティストは、その多くの時間を特徴量エンジニアリングに費やしてきました。しかも、特徴量エンジニアリングの良し悪しは、データサイエンティストのスキルに大きく依存してしまいます。こうした課題に対処するために、SAS Viyaでは、自動特徴量エンジニアリングテンプレートを提供しています。このテンプレートを使用することで、特別なスキルを必要とせず、特徴量エンジニアリングにかける時間を短縮し、より精度の高い予測モデル生成が可能になります。以下が、SAS ViyaのModel Studioに実装されている「自動特徴量エンジニアリングテンプレート」です。このテンプレートは、大きく３つのステップで構成されています。高カーディナリティ変数に対するエンコーディング（数値化）最良変換、PCA / SVD、オートエンコーダーを使用して新たな特徴を作成特徴エンジニアリング未/済みデータに基づく予測モデルの精度比較ステップ１．高カーディナリティ変数に対するエンコーディング（数値化）このステップの最初のノードは、「SASコード高カーディナリティ」という名のSASコードノードです。 SASコードノードを使用することで、SASプログラムをパイプラインに組み込むことができます。このノードを選択し、右側画面内でコードエディタ：「開く」をクリックすると、その内容を確認できます。このSASコードノードでは、最初に、20〜1,000レベルのカーディナリティの高い変数（固有値が多すぎる名義変数）を識別します。minlevelsとmaxlevelsの値を更新することで、この範囲を簡単に変更することもできます。次に、数値変換（TRANSFORM = LEVELENCODE）を指定し、これらの変数に対してのみレベル（水準）エンコーディングを行います。実際に変換を行うためには、「データマイニングの前処理」にある「変換」ノードを実行する必要があるため、「変換」ノードが接続されています。レベルエンコーディングでは、名義を数値に変換します。これは、カーディナリティの高い変数を扱う場合に特に便利です。これらの変数は、ほとんどの機械学習アルゴリズムにおいてコンピューティングリソースの負荷をあげてしまうことが多いからです。最初に名義変数のレベルをアルファベット順に並べ替え、各レベルに昇順に数字（1から始まる）を割り当てます。ステップ２．最良変換、PCA / SVD、オートエンコーダーを使用して新たな特徴を作成ステップ2では、以下の3つの異なる自動特徴量エンジニアリング手法が適用されます。変換-最良（Best）：このノードは、「データマイニングの前処理」にある「変換」ノードを使用して、すべての間隔変数に対して「最良（Best）」の変換を行います。この方法では、各間隔変数に対して、ランク付け基準（ターゲットとの相関など）に基づいて、単一変数の変換（逆変換、標準化、センタリング、ログ変換など）を比較し、最も高いランク付けを持つ変換を選択します。特徴抽出- PCA：このノードは、「データマイニングの前処理」にある「特徴抽出」ノードを使用して、間隔入力変数に対する自動特徴抽出手法として「自動」を指定しています。「自動」では、間隔入力変数の総数が500以下の場合は、主成分分析（PCA）が適用され、それ以外の場合は、特異値分解（SVD）が適用されます。特徴抽出-自動エンコーダ：このノードでは、オートエンコーダを用いて特徴抽出を行います。この手法では、特徴抽出にすべての入力変数（間隔と名義）を使用します。オートエンコーダーは、入力データを再構成するために使用できる特徴のセットを学習することを目的とした教師なし学習技術です。手短に言えば、ニューラルネットワークは、ターゲット（出力）ニューロンを入力ニューロンと等しく設定することによって訓練されるものです。このノードでは、中間隠れ層が10に設定されているので、10個の新しい特徴が作成されます。ステップ３．特徴エンジニアリング未/済みデータに基づく予測モデルの精度比較最後のステップでは、勾配ブースティングを用いた5つの異なる予測モデルが生成されます。・高カーディナリティー変数のレベルエンコーディング＋特徴抽出（PCA）を施したデータに基づくモデル・高カーディナリティー変数のレベルエンコーディング＋特徴抽出（オートエンコーダー）を施したデータに基づくモデル・高カーディナリティー変数のレベルエンコーディング＋変換-最良を施したデータに基づくモデル・高カーディナリティー変数のレベルエンコーディングを施したデータに基づくモデル・元のデータ（特徴量エンジアリングを施していない）に基づくモデル５つのモデルを生成後、パフォーマンスを比較します。勾配ブースティングは、非常に効果的な教師あり学習アルゴリズムであり、予測精度の面で他のアルゴリズムより優れていることが多いため、使用しています。

Japanese

Advanced Analytics | Analytics | Machine Learning

Makoto Unemi (畝見真)August 23, 2018 0

SAS Viya: ビジュアルパイプラインで予測モデル生成（テンプレート使用編）

ビジュアルパイプラインで予測モデル生成（基本編）では、SAS ViyaのModel Studioを使用し、パイプラインを一から作成し、予測モデルを生成する手順を紹介しました。今回は、前回からの続きとして、予め用意されているパイプラインのテンプレートを使用した、モデル生成手順を紹介します。パイプライン・テンプレートの選択と実行実行結果（モデル精度）の確認１．パイプライン・テンプレートの選択と実行パイプラインの追加アイコンをクリックすると、「パイプラインの新規作成」ダイアログが表示されます。パイプラインの名前を入力し、「テンプレート」から「テンプレートの参照…」を選択すると、標準で実装されているテンプレートのリストが表示されます。この中から使用したいテンプレートを選択し、「OK」をクリックします。今回は、「分類尺度のターゲット変数の高度なテンプレート」を使用します。さらに、「保存」をクリックすると、選択したパイプラインの内容が表示されます。このテンプレートでは、以下の７つのモデルを生成し、結果を比較することができます。・データに対する前処理（欠損値補完と変数選択）後に、ロジスティック回帰（ステップワイズ法）とニューラルネットワークでモデル生成・データに対する前処理（欠損値補完）後に、ロジスティック回帰（増加法）でモデル生成・データに対する前処理無しで、勾配ブースティング、フォレスト、ディシジョンツリーでモデル生成・上記６つのモデルのアンサンブルモデルの生成 ※テンプレートに使用されている機能ノードごとの詳細なオプション内容は右側画面内で確認でき、必要に応じて変更可能です。また、パイプライン内への機能ノードの追加・削除・変更などカスタマイズも可能です。 ※一から作成したパイプラインや、既存テンプレートをカスタマイズしたパイプラインを、その企業独自のテンプレートとして共有し、活用することができます。 ※一つのプロジェクト内に、複数のパイプラインを作成し、結果を比較することができます。パイプラインの実行アイコンをクリックし、実行します。実行中の機能ノードは時計アイコンがクルクル回転し、正常に完了すると緑のチェックマークが表示されます。２．実行結果（モデル精度）の確認パイプラインの実行が完了したら、ビジュアルパイプラインで予測モデル生成（基本編）と同様に、「モデルの比較」ノードのスノーマンアイコンをクリックし、メニューから「結果」を選択し、このパイプラインの実行結果を確認することができます。また、一つのプロジェクト内で、複数のパイプラインを作成している場合には、パイプライン間でモデル精度を比較し、プロジェクト内でのチャンピオンモデルを確認することができます。画面上部の「パイプラインの比較」をクリックします。パイプライン２の勾配ブースティングのモデルの精度が最も高い、チャンピオンモデルであることが示されています。以上が、パイプラインのテンプレートを使用して、予測モデルを生成する際の手順です。コーディングスキルを持たないビジネスユーザーでも、まず、学習用のデータを選択し、予測対象の項目を選択し、テンプレートを選んで実行するだけで、精度の高いの予測モデルを自動生成することができるということです。 ※ビジュアルパイプラインのテンプレートを使用したモデル生成は、SAS Viya特設サイトにある動画でもご覧いただけます。

Japanese

1 2 Next

Blogs

Blogs

Tag: 予測モデル