SAS Japan

活用事例からデータ分析のテクニックまで、SAS Japanが解き明かすアナリティクスの全て

Advanced Analytics | Analytics | Artificial Intelligence | Machine Learning

Makoto Unemi (畝見真)2019-02-25 0

データサイエンティスト（以降、DSと表記）は、お好みのプログラミング言語を使用して、日々モデリングを行っています。昨今は、その中でもオープンソースのプログラミング言語であるPythonやRを使用されている方の割合が多くなってきているようです。その結果として、企業の分析組織やチーム内には複数の異なる言語を活用するDSが混在するケースも見受けられます。（一人で両方の言語を操る方もいます。）「Pythonを操るAさんが作成されたモデルと、Rを操るBさんが作成されたモデル、どちらの精度が高いのかを容易かつビジュアルに比較することができたら…」ということで、今回は、SAS ViyaのModel Studioを使用し、ビジュアルなパイプライン上での異なる言語間モデル精度比較をご紹介します。手順は以下の通りです。 ① プロジェクトの新規作成と学習用のデータソース選択 ② パイプラインの作成と実行 ③ 実行結果（モデル精度）の確認 ① プロジェクトの新規作成と学習用のデータソース選択「SAS Viya: ビジュアルパイプラインで予測モデル生成（基本編）」の「１．プロジェクトの新規作成と学習用のデータソース選択」を参照ください。 ② パイプラインの作成と実行画面上部にある「パイプライン」をクリックします。パイプラインには「データ」ノードのみが表示されています。左端の機能ノードアイコンをクリックすると、パイプラインに追加可能な機能ノードのリストが表示されます。まずは学習データに対する前処理として、欠損値補完を行います。「データマイニングの前処理」内にある「補完」を「データ」ノード上にドラッグすると、「データ」ノードの下に「補完」ノードが追加されます。同様の手順で、「その他」内にある「オープンソースコード」を「補完」ノード上へドラッグすると、「補完」ノードの下に「オープンソースコード」ノードが追加されます。機能ノードごとのオプション設定は、右側画面内で行います。「言語」が「Python」であることを確認し、「開く」をクリックします。開かれた画面内に、比較対象のPythonのコード（ランダムフォレストのモデル）をコピーします。右上の「保存」（フロッピーディスクアイコン）をクリックし、「閉じる」をクリックします。 ※ターゲット変数名や入力変数リスト名など、画面左側の変数名を使用することによって、オープンソースコードノードとその他のノード間でのデータ連携が可能となり、異なる言語のモデル間での精度比較も可能になります。各種規定変数名の詳細に関しては、オンラインマニュアルを参照してください。「オープンソースコード」ノードの右側にある３つのドットが縦に並んでいる（スノーマン）アイコンをクリックし、「名前の変更」を選択し、「Pythonフォレストモデル」に変更します。このようにドラッグ操作でノードを追加する以外に、パイプライン上のメニューからノードを追加することもできます。「補完」ノードのスノーマンアイコンをクリックし、「下に追加」＞「その他」＞「オープンソースコード」の順に選択すると、「補完」ノードの下に「オープンソースコード」ノードが追加されます。以降、同様の手順で比較対象のRのコード（ランダムフォレストのモデル）をコピーし、ノードの名前を変更します。「オープンソースコード」ノードは、データに対する前処理として使用することもできます。デフォルトでは、「オープンソースコード」ノードは、データに対する前処理として認識されているので、これを「教師あり学習」に切り替えます。 PythonとRのモデルノードそれぞれのスノーマンアイコンをクリックし、「移動」＞「教師あり学習」を選択します。すると、「モデルの比較」ノードが追加され、PythonとRのモデルノードと接続されます。パイプラインが完成したので、右上の「パイプラインの実行」アイコンをクリックし、実行します。 ③ 実行結果（モデル精度）の確認処理が正常に完了したら、「モデル比較」ノードのスノーマンアイコンをクリックし、「結果」を選択します。 Rのフォレストモデルの方が精度が高い、チャンピオンモデルであると表示されました。リフトやROC、様々な統計量で、精度を詳細に比較することもできます。以上が、ビジュアルパイプラインでPythonとRのモデル精度を比較する手順です。もちろん、必要に応じて、PythonやRのモデルとSASのモデルの精度を比較することもできます。 ※ビジュアルパイプラインでPythonとRのモデル精度を比較は、SAS Viya特設サイトにある動画でもご覧いただけます。 ※実際にPythonとRのモデル精度比較を試してみたい方は、Githubに公開されているアセットを活用ください。

Japanese

Data for Good | SAS Events | Students & Educators

羽田野佑奈2019-02-07 0

第2回「データサイエンティストのキャリアと活躍のかたち」レポート

第1回に引き続き、データサイエンティストを目指す学生向けのセミナー「データサイエンティストのキャリアと活躍のかたち」の第2回が1/31（木）に開催されました。当日の様子について紹介します。このセミナーはデータサイエンティストのキャリアと活躍の場や、ビジネスではアナリティクスがどのように活用されているかについて、スピーカーがこれまでの経験をもとに紹介するものです。経営幹部候補としてのデータサイエンティストはじめに、データサイエンティストのキャリアについて、コニカミノルタジャパン株式会社・松木さんの講演です。コニカミノルタジャパンでは、2016年にデータサイエンス推進室を設置し、コピー機の買替・故障・受注の予測などにデータ分析を活用しているそうです。まず、成果を出せるデータサイエンティストのキャリア形成についての話です。この話題の中では「データサイエンティストとは経営幹部候補、すなわち分析・数理モデルで経営課題を解決できる人材である」という一文がとても印象的でした。松木さんは、ただ分析作業ができる・数理モデルを作成できるだけではなく、それらの優れた技術をツールとして経営課題の解決ができる人材というのがデータサイエンティストのあるべき姿と考えると言っていました。次に、データサイエンティストに求められるスキルについてです。そのスキルとは主に、分析スキル・ITスキル・ビジネススキルに分けられますが、その中でもビジネススキルは他の2つに比べて教育が困難であり、知識と経験が必要です。そこで実際にコニカミノルタジャパンでは、分析・ITスキルをもつデータサイエンティストと、ビジネススキルを持つ他部署メンバーとが共同して分析を行う仕組み（＝タスクフォースユニット）でデータサイエンティストのビジネススキルを補うことを行っているそうです。こうして、組織単位で分析を進めるにあたって欠かせないのがコミュニケーション能力です。ここで言うコミュニケーション能力とは、単純に人と仲良くなれるという意味よりも、「相手を理解するための、幅広い知識を習得する」「相手が理解できるようにデータサイエンスの見える化をする」ことを指します。現場や他部署メンバーの考えを理解するためのビジネスにおける幅広い知識、データサイエンスの知見がない人でも一目でわかる環境の構築が必要であるとのことでした。講演の最後には、「データサイエンティストは多種多様な専門性が必要である」というメッセージをいただきました。これまでの話にもあったように、数理モデルの開発といった場面は仕事の一部で、ビジネススキルやコミュニケーション能力を活用することでいかに他の社員に、現場に「みせる」かが重要であるということを学生に伝えていただきました。ビジネスで活用されるアナリティクス “顧客理解” 次に、ビジネスで活用されるアナリティクスについて、SAS Japanの庄子による講演です。「通信販売サイトから自分だけのクーポンが送られてきた」、「動画配信サービスに自分好みの動画がおすすめされる」、「携帯電話の学割があれほどまで安い」などといった例を挙げ、私たちが日常生活においてデータ分析の恩恵をどれだけ受けていると思うか？という質問を導入として講義は始まりました。また、消費者のうち64％は支払う金額よりもそのもの自体の質を重視するにもかかわらず、それを完璧に捉えることが出来ている企業はわずか6％であるという話もあり、顧客理解の重要性を直観的に感じることが出来ました。顧客理解について、前半ではそのコンセプトの紹介です。顧客理解とは何を理解するのか？代表的な3つの項目があります。「顧客の優良度・リスク」：どの顧客が特に大事か、損をもたらす可能性が高いか「顧客の嗜好」：個々に異なる顧客の好みに対して何を薦めるべきか「顧客の行動」：顧客の生活パターンや生活圏等を考慮するこの３項目について、携帯キャリアの顧客理解に関する施策を顧客の加入から解約の流れに沿って例示していました。後半は具体的に3つの項目についてどのような分析を行っているかについて、前半にもあった携帯キャリアの顧客理解に関連する具体的な施策に3項目をそれぞれ当てはめて紹介していました。ここではその一部を簡潔に紹介します。「顧客の優良度」：生涯価値（Life Time Value）の算出（どれくらい先まで契約の継続をしそうか、機種変更はいつ頃しそうか）「顧客の嗜好」：テキストを用いた趣味嗜好判定「顧客の行動」：位置情報による生活圏の特定最後には、「企業のデータ活用はまだまだ発展途上でみなさんの活躍が企業や世の中を大きく変える」という前向きなメッセージと、情報倫理のプライバシー懸念について「倫理観が大事”Don’t Be Evil”(by Google)」という助言の両方を学生に向けたメッセージとして伝えていました。 SAS student Data for Good communityの紹介セミナーの最後には、学生のデータサイエンティストに向けた学びとしてSAS student Data for Good communityについて紹介しました。「Data for Good」とは多岐にわたる社会的なテーマから課題を提示し、データを活用して解決しようとするものです。これまでにブログで紹介した世界の絶滅危惧種や通勤ラッシュ時の鉄道混雑緩和をData

Japanese

Analytics | Students & Educators

Students deeply investigated how the ball moved

Naohiro Takemura (竹村尚大)2019-01-18 1

SAS Japanによる小学生向けプログラミング教育: 玉川学園で体験授業を実施

私が小学生のころ、21世紀になると自動車は空を飛び、真空チューブの中のリニアモーターカーは時速2000kmに達するものだと思っていましたが、現在のような情報化社会は想像できていませんでした。初めてパソコンに触ったとき、何をするためのものなのかさっぱりわからなかったことを覚えています。いまの小学生が大人になるころは、どのような社会になっているのでしょうか。10年先、20年先を想像することは難しいですが、子どもたちは、その社会で生きるための力を身につける必要があります。

Japanese

Previous 1 … 50 51 52 53 54 … 81 Next

Blogs

Blogs

SAS Japan