SAS Japan

Tag: AI

Machine Learning

Makoto Unemi (畝見真)2018-05-21 3

SAS Viya：ディープラーニング＆画像処理用Python API向けパッケージ：DLPy

SASでは、従来からSAS Viyaの機能をPythonなど各種汎用プログラミング言語から利用するためのパッケージであるSWATを提供していました。これに加え、よりハイレベルなPython向けAPIパッケージであるDLPyの提供も開始され、PythonからViyaの機能をより効率的に活用することが可能となっています。 ※DLPyの詳細に関しては以下サイトをご覧ください。 https://github.com/sassoftware/python-dlpy DLPyとは DLPyの機能（一部抜粋）１．DLPyとは DLPyは、Viya3.3以降のディープラーニングと画像処理（image action set）のために作成された、Python API向けハイレベルパッケージです。DLPyではKerasに似たAPIを提供し、ディープラーニングと画像処理のコーディングの効率化が図られています。既存のKerasのコードをほんの少し書き換えるだけで、SAS Viya上でその処理を実行させることも可能になります。例えば、以下はCNNの層の定義例です。Kerasに酷似していることがわかります。 DLPyでサポートしているレイヤは、InputLayer, Conv2d, Pooling, Dense, Recurrent, BN, Res, Proj, OutputLayer、です。以下は学習時の記述例です。２．DLPyの機能（一部抜粋）複数のイルカとキリンの画像をCNNによって学習し、そのモデルにテスト画像を当てはめて予測する内容を例に、DLPyの機能（一部抜粋）を紹介します。２－１．メジャーなディープラーニング・ネットワークの実装 DLPyでは、事前に構築された以下のディープラーニングモデルを提供しています。 VGG11/13/16/19、 ResNet34/50/101/152、 wide_resnet、 dense_net また、以下のモデルでは、ImageNetのデータを使用した事前学習済みのweightsも提供（このweightsは転移学習によって独自のタスクに利用可能）しています。 VGG16、VGG19、ResNet50、ResNet101、ResNet152 以下は、ResNet50の事前学習済みのweightsを転移している例です。２－２．CNNの判断根拠情報 heat_map_analysis()メソッドを使用し、画像の何処に着目したのかをカラフルなヒートマップとして出力し、確認することができます。また、get_feature_maps()メソッドを使用し、CNNの各層の特徴マップ（feature map）を取得し、feature_maps.display()メソッドを使用し、取得されたfeature mapの層を指定して表示し、確認することもできます。以下は、レイヤー１のfeature mapの出力結果です。以下は、レイヤー１８のfeature mapの出力結果です。２－３．ディープラーニング＆画像処理関連タスク支援機能２－３－１．resize()メソッド：画像データのリサイズ２－３－２．as_patches()メソッド：画像データ拡張（元画像からパッチを生成）２－３－３．two_way_split()メソッド：データ分割（学習、テスト）２－３－４．plot_network()メソッド：定義したディープラーニングの層（ネットワーク）の構造をグラフィカルな図として描画２－３－５．plot_training_history()メソッド：反復学習の履歴表示

Japanese

Machine Learning

Makoto Unemi (畝見真)2018-05-21 0

SAS Viya: ディープラーニングと機械学習の判断根拠情報

前回の「ディープラーニングの判断根拠」ブログでは、PythonからSAS Viyaの機能を活用するためのパッケージであるSWATを使用した例を説明しましたが、今回は、以下２点に関してご紹介します。 SAS ViyaのよりハイレベルなPython APIであるDLPyを使用した画像認識モデルの判断根拠情報機械学習の判断根拠情報１．SAS ViyaのよりハイレベルなPython APIであるDLPyを使用した画像認識モデルの判断根拠情報この例では、複数のイルカとキリンの画像をSAS Viyaのディープラーニング（CNN）で学習させ、そのモデルに以下の画像を当てはめて、これがイルカなのか否かを判別するものです。実際、この画像はイルカであると判定されたんですが。 SAS Viyaでは、その判断根拠となり得る情報の一つとして、入力画像のどこに着目したのかを以下の通り出力し、確認できるようになっています。 DLPyでは、get_feature_maps()メソッドでfeature mapを取得し、feature_map.display()で指定したレイヤーの内容を表示することができます。以下は、レイヤー1のfeature mapです。以下は、レイヤー18のfeature mapです。白色の濃淡で、判別に影響を与えている箇所を確認することができます。さらに、SAS Viyaでは、画像認識モデルの判断根拠情報を可視化する手法の一つである、Grad-CAMと同様に、画像の何処に着目したのかを、カラフルなヒートマップとして出力し、確認することもできるようになっています。しかも、heat_map_analysis()メソッドを使用して、以下の通り、たった１行書くだけでです。青、緑、赤の濃淡で、判別に影響を与えている箇所を確認することができます。 DLPyの詳細に関しては、以下をご覧ください。 https://github.com/sassoftware/python-dlpy ２．機械学習の判断根拠情報もちろんディープラーニングだけではなく、従来からの機械学習のモデルによって導き出された予測や判断に関しても、それがなぜ正しいと言えるのか、具体的に言えば、なぜAさんはこの商品を買ってくれそうだと判断されたのか、なぜこの取引データは疑わしいと判断されたのか、を説明する必要性があるわけです。特に説明責任が求められるような業務要件においては、ということでSAS Viyaの次期版には機械学習の判断根拠情報、モデル内容を説明するための機能が実装される予定です。まず、影響度が最も高い変数は、という問いに対しては、従来からの変数の重要度で確認することができます。これをさらに一段掘り下げたものが、Partial Dependence (PD)です。日本語では「部分従属」と言いますが。重要度の高い変数は、予測に対して、具体的にはどのように作用しているのかを知ることができます。そしてこのPDを元にさらに一段掘り下げたものが、Individual Conditional Expectation (ICE)になります。また、これらとは別に、なぜその予測結果に至ったのかを説明するテクニックとしてLocal Interpretable Model-agnostic Explanations (LIME)を活用することができます。 SAS Viyaベースの製品であるSAS Visual Data Mining and

Japanese

Data Visualization

Makoto Unemi (畝見真)2018-04-20 0

SAS Visual Analyticsで地図上にカスタム境界線（領域）を描いて分析―（続編）

前回、この機能を紹介した際には、海外に実在する施設や地図上での活用例をご覧いただきました。その続編となる今回は、以下の２点に関してご紹介します。（尚、以下のデモ画面に表示されている数値（座席数、利用率、収益率、等）はすべてダミーデータです）１．日本地図上に実在する施設に対するカスタム境界線分析２．カスタム境界線機能で、こんなことまでできるなんて… １．日本地図上に実在する施設に対するカスタム境界線分析私は埼玉県さいたま市に在住しているのですが、だからというわけではありませんが、今回は、埼玉スタジアムの座席レイアウトを地図上の埼玉スタジアム上に描画してみました。（図１.参照）図１．埼玉スタジアム地図上に描画された、観客席レイアウト図１．では、「客席別利用率」ページが表示されています。左側には客席ゾーン別の座席数が棒グラフで表示され、右側には、スタジアムの客席レイアウトが表示され、利用率によって色分けされています。また、棒グラフ上でゾーンCが選択され、スタジアム内の対応する客席の部分がハイライトされている状態です。もちろん、SAS Visual Analytics（以降、VA）の標準機能を使用して、特定の客席エリアをクリックし、そのエリアのチケット料金や、収益の推移、などの詳細情報をポップアップで表示させることも可能です。右側の地図が本当に埼玉スタジアムのある地点なのかを分かりやすく見ていただくために、図２．ではズームアウトしたものも載せました。埼玉スタジアムは国道122号線沿いにあるんですね。図２．図１．から地図を少しズームアウトした状態以下の図３．は同じレポート内の「ゾーン別客席マップ」ページです。棒グラフのゾーン別の色に合わせて、客席エリアの色を合わせたものです。図３．「ゾーン別客席マップ」ページ２．カスタム境界線機能で、こんなことまでできるなんて… 実は、VAの地図描画用オブジェクトである、「ジオマップ」では、地図を非表示にすることができます。あれ？、地図描画用の機能なのに、地図を非表示にする意味あるの？と思われるかと思いますが、これがあるんですね。その一例をご紹介します。以下の図４．は、とある列車の車両内の座席別収益率を分析するレポートです。座席ごとの収益率が色分けで表示されています。（座席別に収益率を把握する必要があるかどうかは別のお話ですが）図４．列車内座席別収益率レポートこの座席レイアウトも「ジオマップ」オブジェクトを使用し、地図上に描画されているものなのですが、地図は境界線（領域）を描くためには必要ですが、この例のような場合は、描いた後は地図が必要ないので非表示にしているわけです。地図を非表示にしていること以外は、その他の例と同様に、チャートやアナリティクスとのインタラクション等はもちろん可能です。上記の図４．でも、座席別収益率の棒グラフ上で、最も収益率の低い座席（右端の棒）を選択し、該当の座席位置をハイライト表示しています。 SAS Visual Analytics on SAS Viyaでは、こんなこともできるんですね。例えば、人体図の中の内臓別の疾患状況をビジュアルに分析する、工場内プラントの設備（工程）ごとの稼働状況を図解でビジュアルに可視化し分析する、店舗内の商品陳列棚別の在庫状況や売上状況を図解でビジュアルに可視化し分析する…なんていうこともできそうですね。

Japanese

Machine Learning

Makoto Unemi (畝見真)2018-02-19 0

ディープラーニングの判断根拠

予測モデル生成において、従来は、人が考えてデータの中から特徴を抽出する必要がありましたが、ディープラーニングでは、この特徴を自動的に抽出して学習することが可能になっています。半面、どのように特徴が抽出されているのかに関しては、基本的にはブラックボックスであり、説明責任が求められるような業務要件では、その分析結果を業務に活用することが難しい場合もあります。しかし、近年ディープラーニングから出てきた結果の根拠＝判断根拠を可視化する手法がいくつか考案されてきています。関連情報サイト： https://qiita.com/icoxfog417/items/8689f943fd1225e24358 https://pair-code.github.io/saliency/ http://blog.brainpad.co.jp/entry/2017/07/10/163000 SAS Viyaでは、各種のディープラーニング（DNN, CNN, RNN）を用いた学習が可能ですが、今回はCNNを用いた画像認識において、判断根拠となり得る情報の出力に関してご紹介します。この例は、複数のイルカの画像をCNNで学習し、対象の画像（写真）がイルカなのかどうかを判別するものです。モデルを作成後、以下の画像をモデルに当てはめてスコアリングを実施。この画像は「イルカ」だと判定されたのですが、その判断根拠の一つとして、以下のように、この画像のどの部分がより重要であると判断されているのかを可視化することが可能になっています。【レイヤー1のfeature map】【レイヤー18のfeature map】 SAS Viyaでは、モデルのスコアリング時のオプションとして、指定したレイヤ（層）の特徴マップ（feature map）を画像として指定ライブラリに出力することが可能です。＞＞スコアリング用のアクション：”dlScore” の layerOut={出力先ライブラリとテーブル名} オプションと layers={出力対象レイヤ名} オプション＞＞上図はライブラリに出力された画像（feature map）を表示したものです。

Japanese

Artificial Intelligence | Machine Learning

Makoto Unemi (畝見真)2017-12-22 0

SAS Viyaを「無償」で「実データ」で「体感」してみよう！

2017年12月にSAS Viyaの最新版3.3がリリースされました。これに伴い、皆様には、大幅に拡張されたSAS Viyaの機能を存分に体感いただくために今版から、皆様がお持ちの「実データ」でSAS Viyaベースのすべての製品を自由に触っていただけるようになりました。ぜひ、ご利用ください！利用手順に関しては、以下のブログをご覧ください。 SAS Viyaを体感してみよう！～SAS Viya無償試用版利用ガイド～

Japanese

Machine Learning | Programming Tips

Makoto Unemi (畝見真)2017-12-13 0

SAS Viyaにディープラーニングが登場！　さっそく画像分類してみた。

SAS Viyaがリニューアルされまして、ついにディープラーニングが登場しました！ SAS ViyaのディープラーニングではオーソドックスなDeep Neural Network（DNN）から、画像認識で使われるConvolutional Neural Network（CNN、畳込みニューラルネットワーク）、連続値や自然言語処理で使われるRecurrent Neural Network（RNN、再帰的ニューラルネットワーク）まで利用可能になります。ディープラーニングを使うことのメリットは、従来の機械学習やニューラルネットワークが苦手としている画像や文章を認識し、高い精度で分類や推論することが可能になります。高い精度というのは、ディープラーニングのモデルによっては人間の目よりも正確に画像を分類することができるということです。例えばコモンドールという犬種がありますが、この犬はモップのような毛並みをしていて、人間ではモップと見間違えることがあります。これは犬？　それともモップ？こういう人間だと見分けにくい画像に対しても、ディープラーニングであれば、人間よりも正確に犬かモップかを見分けることができるようになります。というわけで、今回はSAS Viyaのディープラーニングを使って画像分類をしてみたいと思います。ディープラーニングの仕組み画像分類のディープラーニングではCNNを使います。 CNNは画像の特徴を探し出す特徴抽出層と特徴から画像を分類する判定層で構成されています。特徴抽出層は主に畳込み層とプーリング層で構成されています。畳込み層で入力画像に対し、ピクセルの特徴（横線の有無とか斜め線とか）を探し出し、プーリング層で重要なピクセルを残す、という役割分担です。判定層は、特徴抽出層が見つけた特徴をもとに、画像の種類を分類します。例えば犬と猫の分類であれば、特徴抽出層が入力画像から、面長で大きな鼻の特徴を見つけだし、犬と分類します。または、丸っこい顔立ちと立った耳の特徴を見つけだし、猫と分類します。 SAS Viyaで画像を扱う SAS ViyaディープラーニングでCifar10をネタに画像分類をしてみたいと思います。 Cifar10は無償で公開されている画像分類のデータセットで、10種類の色付き画像60,000枚で構成されています。各画像サイズは32×32で、色はRGBです。 10種類というのは飛行機（airplane）、自動車（automobile）、鳥（bird）、猫（cat）、鹿（deer）、犬（dog）、蛙（frog）、馬（horse）、船（ship）、トラック（truck）で、それぞれ6,000枚ずつ用意されています。画像は総数60,000枚のうち、50,000枚がトレーニング用、10,000枚がテスト用です。画像データは以下から入手することができます。 https://www.cs.toronto.edu/~kriz/cifar.html さて、Cifar10を使って画像分類をしてみます。言語はPython3を使います。 SAS Viyaで画像分類をする場合、まずは入手したデータをCASにアップロードする必要があります。 CASはCloud Analytics Servicesの略称で、インメモリの分散分析基盤であり、SAS Viyaの脳みそにあたる部分です。 SAS Viyaの分析は、ディープラーニング含めてすべてCASで処理されます。 CASではImage型のデータを扱うことができます。 Image型とは読んで字のごとくで、画像を画像フォーマットそのままのバイナリで扱えるということです。

Japanese

Artificial Intelligence | Machine Learning

小林泉2017-10-27 0

人工知能：ブームと現実を切り分けて認識するために

現在大きなブームとなっているAIですが、行き過ぎた期待と警戒がその現実を見誤らせ、企業における経営課題の解決において、タイムリーな価値創出を停滞させている場面も見受けられます。現実を正しく捉えるための記事を、SASの上級副社長およびCTOであるオリバー・シャーベンバーガー（Oliver Schabenberger）が書いていますので、今回はそれを日本語訳してお届けします。 === 私たちはエキサイティングな時代に生きています。私たち人間と機械、オブジェクト（物体）、モノとの関係は急速に変化しつつあります。洞窟で暮らしていた頃から、人間は受動的な（自動的に動くわけではない）道具と自分の声に自らの意思を託してきました。今日では、マウスとキーボードは操作したとおりに動きますし、Amazon Echoなどのスマートデバイスは、照明の点灯のような単純なタスクや、より複雑なタスク（例：人間の質問にアナリティクスを用いて応答する）の実行を手助けしてくれます。しかし、人工知能（AI）の発展により、潮目が変わる可能性があります。機械は受動的なオブジェクトから、人間の生活に自らを織り込む能動的な存在へと変貌を遂げることができるのでしょうか？機械が人間を動かすようになるのでしょうか、それとも人間が機械を動かし続けるのでしょうか？オブジェクトが「あなたの代わりに〇〇を済ませました」と人間に報告するようになるのでしょうか、それとも、人間が今後も何をすべきかをオブジェクトに指示し続けるのでしょうか？あらゆるモノがよりスマート、よりインテリジェントになっていく中、私たち人間は、自律型のインテリジェンスが取り仕切る生活空間の「囚われ人」となってしまう恐れはないのでしょうか？そのような状況に私たちはどこまで近づいているのでしょうか？ AIの現状あなたがもし、機械が世界を征服するのではないかと夜な夜な心配しているとしたら、どうぞぐっすり眠ってください。今現在使われているテクノロジーでは、決してそうした事態は起こりません。昨今では、少しでも賢い動作や想定外の動作をすれば何でもAIと呼ぶのがトレンドのようですが、多くは実際にはAIではありません。私の電卓は、私よりも計算能力が優れていますが、AIではありません。決定木もAIではありませんし、SQLクエリの条件句もAIではありません。しかし、AIへと向かうトレンド、すなわち「機械、デバイス、アプライアンス、自動車、ソフトウェアに更なるスマート性を組み込む」というトレンドが存在するのは事実です。人間よりも圧倒的な正確さでタスクを実行できるアルゴリズムの開発には、驚異的な進展が見られます。少し前までコンピューターには囲碁は無理と思われていたにもかかわらず、今や機械が人間を打ち負かし、人間には敵わないレベルへと突き進んでいます。また医療分野では、医用画像から特定タイプのガンを発見するアルゴリズムの正確性が、放射線科医と同等レベルに達しており、まさに患者の人生を一変させるような成果です。これらのアルゴリズムが超人的な能力を示すのは、与えられた仕事を高い信頼性および正確性で、不眠不休で反復実行するからです。とはいえ、人間のように思考または行動できる機械を生み出す段階からは程遠いのが現状です。現在のAIシステムは、人間が行うタスクを「コンピューター化された賢い方法」で実行するようにトレーニングされますが、トレーニングの対象は1つのタスクのみです。囲碁をプレイできるシステムは、ソリティアやポーカーをプレイすることができず、そのスキルを習得することもありません。自律走行車を運転するソフトウェアは、家の照明を操作することができません。これは、この種のAIが力不足ということではありません。むしろ、あらゆる用途に高い専門性を提供できるため、多くの業種、恐らく全ての業種に変革をもたらすポテンシャルを秘めていると言えます。しかし、AIで何を成し遂げることができるかに関しては、先走りは禁物です。トレーニング用データにもとづき、教師あり手法を用いてトップダウン方式で学習するシステムは、データの内容を超えて成長することができません。つまり、こうしたシステムには創造、革新、推論（論理的に思考）は不可能です。「信頼の飛躍的拡大」を選ぶかどうかは人間次第たとえアルゴリズムがインテリジェンスを持つ日が来るとしても、必ずしも私たちの人生をアルゴリズムに委ねる必要はありません。アルゴリズムの利用を意思決定支援システムに留める、という選択も可能です。その対極にあるのは、あらゆる意思決定を人間の代わりにアルゴリズムに行わせるという選択であり、これは「（人間の機械に対する）信頼の飛躍的拡大」の究極と言えます。そこには、意思決定において人間の介入は一切ありません。機械の自律性を手放しで受け入れて初めて、「真のAI」を受け入れる準備が整ったことを意味すると筆者は考えます。しかし、アルゴリズムが信頼できる偏りのない意思決定を行えるようになり、それがひいては人間に最大の利益をもたらすことが実証されうるとして、自分の人生の手綱を渡し、自分は何も入力せずにアルゴリズムに意思決定を行わせることを、あなたは心地よく感じるでしょうか？自由に判断させた場合、機械はどれほど的確に振る舞うと期待しますか？機械がどれほど短時間で仕事を学習すれば満足でしょうか？そして、学習を重ねる中、機械はいつモラルを獲得するのでしょうか？こうした質問を不快に感じるとしても、ご安心ください。あなただけではありません。筆者は、ソフトウェア・エンジニアがプログラミングしたモラルや発展途上のアルゴリズムが学習したモラルの不完全さのせいで命を失うよりは、自分自身の愚かさのせいで命を失う方を選びます。インテリジェンスという幻想は今現在、完全に人間の掌中にあり、当面は人間のコントロールなしでは存在しえません。当面私たちがAIに望めるのは、つい感心してしまうほどの賢さです。その他はブームに便乗した大騒ぎに過ぎないでしょう。将来への準備現在のような形のAIにはインテリジェンスがあるのでしょうか？そうではないと筆者は考えます。インテリジェンスと呼ぶためには、何らかの形の創造性、革新性、直感力、自主的な課題解決力、感受性が必要です。私たちが今現在、ディープ・ラーニングにもとづいて構築しているシステムは、こうした特性を備えることができません。AIがいつインテリジェンスを獲得するのか、その時期をここで予測するつもりはありません。数十年前には「その段階に近づいており、数十年後には機械が人間のように行動したり思考したりするようになる」と考えられていましたが、そうはなっていません。今日のテクノロジーでは、依然としてこの問題を解決できないのです。人類が「真のAI」の時代に到達するためには、破壊的なテクノロジー・シフトを経なければなりません。人類はその解決策をまだ発見していないと考えます。ただし、その探究を続けていることは確かです。

Japanese

Advanced Analytics | Programming Tips

Makoto Unemi (畝見真)2017-09-04 0

SAS Viyaで線形回帰

SAS Viyaで線形回帰を行う方法を紹介します。言語はPythonを使います。 SAS Viyaで線形回帰を行う方法には大きく以下の手法が用意されています。多項回帰：　simpleアクションセットで提供。一般化線形回帰または一般線形回帰：　regressionアクションセットで提供。機械学習で回帰：　各種機械学習用のアクションセットで提供。今回は単純なサインカーブを利用して、上記3種類の回帰モデルを作ってみます。【サインカーブ】 -4≦x<4の範囲でサインカーブを作ります。普通に \(y = sin(x) \)を算出しても面白みがないので、乱数を加減して以下のようなデータを作りました。これをトレーニングデータとします。青い点線が \(y=sin(x)\) の曲線、グレーの円は \(y=sin(x)\) に乱数を加減したプロットです。グレーのプロットの中心を青い点線が通っていることがわかります。今回はグレーのプロットをトレーニングデータとして線形回帰を行います。グレーのプロットはだいぶ散らばって見えますが、回帰モデルとしては青い点線のように中心を通った曲線が描けるはずです。トレーニングデータのデータセット名は "sinx" とします。説明変数は "x"、ターゲット変数は "y" になります。各手法で生成したモデルで回帰を行うため、-4≦x<4 の範囲で0.01刻みで"x" の値をとった "rangex" というデータセットも用意します。まずはCASセッションを生成し、それぞれのデータをCASにアップロードします。 import swat host = "localhost" port = 5570 user = "cas" password = "p@ssw0rd"

Japanese

Machine Learning

小林泉2017-09-04 0

機械学習のパラメータをオートチューニングしよう（回帰編）！

先日投稿した「機械学習のパラメータをオートチューニングしよう（分類編）！」の続きです。今回は回帰分析をオートチューニングします。あらまし機械学習の課題はパラメータチューニングで、手動で最高のパラメータを探そうとすると、とても時間がかかり効率的ではありません。 SAS Viyaではパラメータチューニングを自動化するオートチューニング機能を提供しています。オートチューニング機能を使うことで、限られた時間内、条件下で最高のパラメータを探索し、予測モデルを生成することができます。今回やること今回はオートチューニングを使って数値予測モデルを生成します。使うデータは架空の銀行の金融商品販売データです。顧客の取引履歴と営業履歴から構成されており、新たな金融商品の販売数を予測するデータとなっています。内容は以下のようになっており、約5万行、22列の構成です。 1行1お客様データとなっていて、顧客の口座情報や取引履歴、営業履歴が1行に収納されています。ターゲット変数はcount_tgtで、これは各顧客が購入した金融商品数を表しています。ほとんどが0（＝未購入）ですが、購入されている顧客の購入数を予測するモデルを生成します。今回はランダムフォレストを使って予測したいと思います。ランダムフォレストは別々の決定木を複数作り、各決定木の予測値をアンサンブルして最終的な予測値とする機械学習の一種です。まずは手動で予測 SAS Viyaでランダムフォレストを使って予測モデルを生成するにあたり、まずはCASセッションを作ってトレーニングデータとテストデータをインメモリにロードします。 # PythonからCASを操作するためのSWATライブラリをインポート import swat # 接続先ホスト名、ポート番号、ユーザー名、パスワードを指定 host = "localhost" port = 5570 user = "cas" password = "p@ssw0rd" # mysessionという名称のCASセッションを作成 mysession = swat.CAS(host, port, user, password)

Japanese

Machine Learning

小林泉2017-09-01 0

機械学習のパラメータをオートチューニングしよう（分類編）！

機械学習で予測モデルを作るとき、課題のひとつにパラメータのチューニングがあります。パラメータとはどういう設定値や制限値で機械学習の予測モデルを作るのかを示すものです。料理に例えると、チャーハンを作る過程が機械学習のアルゴリズムだとすると、どういう具材をどのくらいの量入れるのかがパラメータです。お米の品種や卵の有無、豚肉か鶏肉か、調味料の種類や量がパラメータになります。チャーハンの良し悪しはこれらパラメータの良し悪しに左右されます。おいしいチャーハンを食べるためには、具材をベストな組み合わせと量で投入する必要があります。昼食においしいチャーハンを食べたので、チャーハンでたとえました。話を戻すと、機械学習の決定木の深さであったり、ニューラルネットワークのニューロン数であったり、パラメータは自分で設定する必要があります。機械学習では複数のパラメータを組み合わせて、ベストなレシピを作らねば良い予測モデルは作れません。 SAS Viyaでは各種機械学習アルゴリズムを提供していますが、各機械学習にそれぞれのパラメータが用意されています。料理に例えると、メニューにチャーハンのみならず餃子、ラーメン、寿司、ステーキ、チーズケーキがあるようなものです。シェフ（≒データサイエンティスト）は全てのベストなレシピ（≒パラメータ）を探索せねばならず、労力がいります。しかし！　SAS Viyaには更に便利な機能として、オートチューニングというものが用意されています。オートチューニングは最も良いパラメータを短い時間で探索してくれる機能です。料理に例えると、究極のチャーハンレシピをViyaが自動的に作ってくれる機能です。夢のようですね。オートチューニングでは機械学習のパラメータを変えながら複数の予測モデルを作り、最も良い予測モデルのパラメータを探してくれるというものです。決定木だけでもパラメータは10種類以上あるのですが、それらの最良な値をみつけてくれます。パラメータチューニングを行う際、最も安易な探索方法は各パラメータの全パターンを試すことです。全パターンを試せば、その中から最も良いものはたしかにみつかります。しかし欠点はパラメータチューニングに長い時間がかかってしまい、現実的な手法ではありません。 SAS Viyaのオートチューニングはより賢いパラメータ探索のアルゴリズムを4種類用意しています。遺伝的アルゴリズム（Genetic Algorithm, GA）：パラメータを遺伝子と見立てて、淘汰、交叉、突然変異を組み換えすことでパラメータを探索する。ラテン超方格サンプリング（Latin HyperCube Sampling, LHS）：層別サンプリングの一種で、各パラメータをn個の区間に分割し、区間からランダムに値を取り出してパラメータを探索する。ベイズ最適化（Bayesian Optimization）：説明変数と予測の間にブラックボックス関数があると仮定し、ブラックボックス関数のパラメータの分布を探索する。ランダムサンプリング（Random Sampling）：ランダムにパラメータの値を選択して探索する。探索アルゴリズムを詳しく説明していると終わらないので説明を短くまとめました。SAS Viyaではいずれかのアルゴリズムを利用してオートチューニングを実行することができます。今回はPythonからSAS Viyaを操作して、オートチューニングを試してみたいと思います。まずはPython SWATをimportし、CAS Sessionを生成してデータをロードします。 # PythonからCASを操作するためのSWATライブラリをインポート import swat # mysessionという名称のCASセッションを作成 mysession = swat.CAS(host, port, user, password) #

Japanese

Previous 1 2 3 Next

Blogs

Blogs

Tag: AI