SAS Japan

活用事例からデータ分析のテクニックまで、SAS Japanが解き明かすアナリティクスの全て
SAS Events | Students & Educators
0
SAS Global Forum 2019 レポート (4日目)

SAS Global Forum 2019もいよいよ最終日を迎えました。一日目、二日目、三日目に引き続き、最終日の参加レポートを掲載します。   データサイエンティストに必要な倫理 本日は”The Good, The Bad, and The Creepy: Why Data Scientists Need to Understand Ethics”というセッションに参加してきました。数十年前、データの活用はあくまで統計学の中のみのものであり、扱えるデータの数もごく少数でした。しかし、計算機の発展、理論の進歩、機械学習との交わりにより、近年では膨大かつ複雑なデータも処理することができるようになりました。それに伴い、データ分析の際のごく少数のミスもしくは悪意のある行為によって多くの人々に甚大な被害をもたらしてしまう可能性があると指摘しました。データサイエンスは非常に強力ですが、それを適切に活用するためにデータサイエンティストには倫理観が必要不可欠です。特に「引き起こしうる害」を認識し、「同意」に基づいてデータを使用し、「自分が何を分析しているか」を正確に把握することが必要と指摘し、特に三点目の重要性を強調しました。 分析に用いるアルゴリズムは適切かについて、常に気を配らなくてはありません。アルゴリズムが害を引き起こす例として、あるバイアスの持ち主が書いたプログラムにはそのバイアスが含まれている事例を紹介しました。例えば、Webでの検索結果にジェンダーギャップや人種間格差が見受けられるのは、関連するバイアスも持つ人物が書いたアルゴリズム内にそのバイアスが反映されているからかもしれません。他の例として、アルゴリズムに対する根本的な理解不足が問題を引き起こしうる事例を紹介しました。例えば、二つの要素が明らかに無関係と思われる場合でも、あるアルゴリズムが相関関係を見出したという理由でその二要素に関係があると結論付けてしまうのは、そのアルゴリズムについての理解が足りていないということです。数理統計をブラックボックスとみなしてはならず、背景理論について正確に把握し、何を分析しているかを意識し続けることが必要不可欠だと語りました。 また、これらに基づき、将来データサイエンティスト間にヒエラルキーが生じる可能性を指摘しました。基礎的な数学・統計学の知識があるだけでは不十分。倫理や関連法律を理解しそれをアルゴリズムに照らし合わせ、顧客や無関係な人々に害を与えてしまう可能性がないかを吟味し、必要に応じて手法を変えられるデータサイエンティストがヒエラルキーの頂上に来るはずだと主張し、倫理の重要性を強調しました。   SAS Global Forum 2019 に参加して 今回のSAS Global Forum 2019で最も印象に残ったことは「アナリティクスの可能性」です。本日の基調講演で、理論物理学者のミチオ・カク氏は「将来、すべての業界にAIが導入される。人類にとってロケットは大きな革命だったが、今後、データを燃料、アナリティクスをエンジンとして、さらに大きな革命が起ころうとしている。」と語りました。実際、様々なセッションへの参加を通して、アナリティクスが活躍する分野が非常に多岐にわたっていること、そしてそのインパクトが非常に大きいことを改めて実感し、将来私たちの生活がどのように変わっていくのかと想像して心を躍らせました。また、学生向けセッションへの参加を通じて、「アナリティクスを用いて世界を変えたい」という志を抱く同年代の学生が世界各地で切磋琢磨していることを知りました。近い将来、彼らと力を合わせて社会に大きなインパクトをもたらす”何か”をするため、今後も日々精進します。

SAS Events | Students & Educators
0
SAS Global Forum 2019 レポート (3日目)

SAS Global Forum2019 三日目の参加レポートです。一日目、二日目に引き続き本日も数多くの魅力的なセッションが行われました。参加したセッションの中から特に興味深いと感じたものをいくつかピックアップしてご紹介します。 難民支援のためのデータサイエンス 最初にご紹介するセッションは”Data4Good: Helping IOM Forecast Logistics for Refugees in Africa”です。IOM(国際移住機関)と協力しデータを用いた難民支援の事例について説明しました。 今回の分析は主にエチオピアの難民キャンプについて行われました。まず難民キャンプの規模や種類、さらにどのような物資が不足しているかについての情報を、バブルの大きさや色を用いて地図上に可視化します。この結果から安全な水や入浴・洗濯の機会など主に公衆衛生に関する課題をどのキャンプも共通して抱えていることが分かりました。そこで公衆衛生に関する水・石鹸・洗濯などの具体的な要素について、それが不足しているキャンプの数をグラフ化した結果をもとに援助の優先順位を策定し、より効果的な援助を実現しました。次に、キャンプで生活する難民についての分析です。キャンプごとに、老人が多い・女性が多いなどの特徴があり、それに応じて必要とされる支援は変わってきます。しかし流動的なキャンプにおいてその傾向は日々変化することから、支援の過不足が発生していました。適切なタイミングで適切な支援を行うため、年齢や性別などに基づき難民をいくつかのセグメントに分け、それぞれについて一つのキャンプ内にいる人数を予測するモデルを作成しました。このモデルの予測を用いることで支援物資を適切なタイミングで必要量を配分し、無駄を削減しながら必要な支援を届けることが出来ました。さらに、IOMから集めたフィードバックを用いて日々モデルを改善し、よりよい支援を追求しました。 優秀なデータサイエンティストになるには 次に”How to Be an Effective Statistician”というセッションについてご紹介します。データサイエンティストとして20年以上の経験を持ち、第一線で活躍し続けているプレゼンターが、自身の経験を踏まえながら優れた統計家になるためのヒントを伝えました。彼は”Effective Statistician” とは、「適切な分析を、適切な方法で、適切なタイミングに行える統計家」と定義しています。そして、そのためには2つのスキルが重要だと語ります。 一つ目は「リーダーシップ」です。データサイエンティストは主としてチームで分析に取り組みます。データサイエンスには統計のスキルだけでなく、分析分野についての専門知識や根本的なビジネススキルなど様々な能力が必要であり、それらを全て備えている人は多くありません。そこでリーダーの出番です。各メンバーの得意不得意を考慮しながらタスクを割り振り、各々の欠点を補いながら総合力でプロジェクトを進めていきます。しかしここで「独裁的なリーダー」になってはならないと強調しています。ある課題を解決するためのデータを用いたアプローチの仕方は一通りではありません。チーム内でディスカッションを続け、一人一人の意見を尊重することで、課題の本質を理解し、チームとして大きなヴィジョンを描けるのだと語りました。 二つ目は「データを適切に解釈する力」です。データは何らかの解釈が付与されて初めて意味を持ちます。また、それを適切に処理する上でもデータの深い理解は不可欠です。データの表面上の傾向に踊らされず、本質を見抜き適切なアプローチを取るためには、やはりビジネスの知識が役に立つと語っていました。また、データの不足が判明した場合にはそれを収集する仕組みを新たに構築するなど、臨機応変に対応する力も要求されるとのことでした。 セッションの後、データサイエンティストには幅広いスキルが要求されることに呆然としたという学生の発言がありました。それに対し彼は「自分の可能性を制限しているのは多くの場合ネガティブな自己認識。どんなに優秀なデータサイエンティストでも10年後を正確に予測することはほぼ不可能で、10年後の自分を決めるのは自分自身。理想の自分になるため、日々できることを継続することこそ一番の近道。」というメッセージを伝え、学生を勇気づけていました。とても印象に残った言葉でした。 Kick Back Party さて、三日目の夜にはKick Back Partyが開催されました。バンドの演奏やカウボーイ衣装での記念撮影など様々な余興が催され、各々が素敵な時間を過ごしていました。個人的には、本場テキサスでロデオマシーンを楽しめたことが印象に残りました。日本でのパーティーとは一味違うアメリカらしい陽気な雰囲気を味わうことができ、貴重な経験となりました。        

SAS Events | Students & Educators
0
SAS Global Forum 2019 レポート (2日目)

一日目に引き続き、SAS Global Forum 2019 の様子をお伝えします。二日目となる今日は主にStudent Symposium の様子についてレポートします。Student Symposiumはデータ分析スキルを競う学生用のコンペティションで、予選を勝ち抜いた八チームが各々の分析についてのプレゼンテーションを行いました(各チームの発表概要はこちら)。ここでは、特に印象に残った2チームの発表についてご紹介します。 起業を実現させる要因とは 1チーム目はオクラホマ州立大学のチームで、題名は”Exploring the Intensions of Entering Entrepreneurship for SAS® Global Forum 2019”です。起業が米国の資源の一つと言っても過言がないほど起業精神が浸透しているアメリカにおいて、起業を考える人は大勢いますが、全員が実際にビジネスを開始するわけではありません。起業の実現にどのような要素が影響するのかについて、データ分析により解き明かすことを目標とします。まず起業に関係する要素を「経済状況」「社会的要素(人脈など)」「人間性」「人類学的要素(ジェンダーなど)」の4つにカテゴライズし、起業に至った理由の中で最も大きな影響を与えたカテゴリを時系列に基づき分析しました。2008年ごろまでは経済状況が良かったこともあり、経済的必要性で起業する人は少数で、人脈などの社会的要素や人間性、中でも失敗を恐れない性格が起業を実現させる主な要因でした。しかし、2009年以降経済の悪化に伴い、自ら事業を立ち上げる必要性が出てきたことで経済状況に基づく起業が多数派となりました。その後経済が回復傾向になるにつれて再び経済状況の影響力は小さくなり、人類学的要素(ジェンダー)と人間性、特に功名心に基づく起業が増加しました。このように人々がビジネスを始めた理由を分析することで、今後の起業のトレンド予測や起業支援につなげるとのことでした。 バイアスのない公平な記事を書くために 2チーム目も同じくオクラホマ州立大学のチームで、題名は”Identifying Partisanship in Media Article”です。米国には強力な二大政党がありますが、それぞれの主張を対等に報道しているメディアは少なく、多かれ少なかれ偏りが生じています。偏りのある報道に晒され続けることで、盲目的にある党の主張が正しいものと信じ込んでしまい、深く考えずに投票してしまう事例も増えています。そこで、報道のバイアスを測るモデルを作成し、バイアスチェッカーとしての応用を考えることが本発表の目標です。初めに、二つの党の公式声明から、各々の政党の主張の特徴を学習させます。得られたモデルに各メディアの記事から抽出したキーワードのトピックを当てはめ、その記事を出したメディアがどちらの党派かを判別します。その結果、このモデルは90%以上の精度で記事からメディアの党派の判別が可能でした。このモデルを用いると、党派を感知されないような公平な記事を書くことができ、結果として偏りのない情報発信の助けになるとのことでした。 この二チーム以外の発表も面白いアイデアと確かなデータ分析手法に基づく非常に興味深いものであり、自分と同年代の学生がこれほどの研究・発表をしているのかと大いに刺激を受けました。彼らに負けないよう今後も精一杯頑張ろうと思います。       eポスター発表 本日は私もe-Poster Presenterとして分析結果の発表を行う機会を頂きました。”Forecasting CO2 Emissions of Electrical Generation By Using SAS® Software”と題し、発電において必要とされる各種条件を満たしながら、CO2排出量を最小にする電源構成の最適化モデルを構築し、2030年におけるCO2排出量をモデルごとに推定しました。様々な国からの参加者の皆様に発表をお聞きいただき、ディスカッションをしたりフィードバックを頂いたりと、非常に有意義な経験となりました。 詳しくは、6月11日に六本木のグランハイアット東京で開催されるSAS Japan 最大の年次イベントSAS Forum Japan 2019 内、"アナリティクスは営利目的だけじゃない!大学生が挑む Data

SAS Events | Students & Educators
0
SAS Global Forum 2019レポート (1日目)

世界で二番目に大きいと言われる空港を有し、美しい新緑が広がるここテキサス州ダラスにて、SASの一大年次イベント、「SAS Global Forum 2019」が4/28~5/1に開催されています。数々の魅力的なセッションが催されており、各地からの参加者で今年も大盛況です。私は、同年代の学生たちがどのような活動をしているのか、また、後述するData for Good活動を推進するにはどうすればよいかを学ぶため、アカデミックセッションを中心に参加しました。本記事では一日目(4/28)のAcademic Sessionについてレポートします。 学生向けセッション Student Sessionでは、世界各地から集まった学生の視野を広げること、将来の一つの指針を授けることを目的として様々なプレゼンテーションが行われました。 データサイエンティストによるパネルディスカッション 最初に、経験豊かなデータサイエンティストたちをプレゼンターに迎え、「データサイエンティストになるには何を学べばよいか」「どのような人材が必要とされているか」などについてパネルデスカッションが行われました。データサイエンティストという概念は近年になって急激に広まったものであり、教育制度が追い付いていないという現状があります。データ分析の知識に加え、金融やビジネスなど、多岐にわたる応用的な知識にも精通していることが要求されており、それらを包括的に学ぶ方法や・何を専攻するかについての疑問を抱く学生は多いでしょう。それに対してプレセンターの一人は、「まずは統計学やプログラミング手法等の核となるデータ分析スキルを身に着けるべき」とアドバイスしていました。応用的な知識は本や授業で学ぶだけでは不十分で、社会での実践を通して学ぶ必要があります。そこで、まずはどこへでも応用可能な基礎力を身に着けてから、実践として各々の分野の専門知識を身に着けるべきとのことです。「自分が心から面白いと思う分野」に出会い、高い意欲と向上心を持って取り組める人材が求まれており、その分野が定まっていないうちは、最初にデータ分析の勉強をすべきと語っていました。 参加していた学生の多くは大学や大学院にてアナリティクスを専攻しているようでしたが、中には経営学を学ぶ中で副専攻として統計学を勉強している学生もおり、Global Forumならではの多様性を感じました。 Data for GoodとGather IQ 続いて、SAS USAのI-Sah Hsieh氏からData for Goodについてのプレゼンテーションです。I-Sah氏はハリケーンや地震などの災害時に、支援活動に関する意思決定をより効果的に進めるためのデータ分析プロジェクトを行った経験があり、それぞれの事例に関して紹介しました。それを通して、彼は「学校で学んだ知識を高々一セメスターだけにとどめているのはもったいない、積極的にアウトプットすべき」と強調し、その方法の一つとして、社会問題を解決するためにデータ分析であるData for Goodを紹介しました。彼は現在、国連の掲げる持続可能な開発目標(SDGs)に対してデータを用いたアプローチに取り組んでいます。貧困をなくすため・教育機会を増やすため、データを使ってできることは何でしょうか?その学びの一環として、一新されたSASのData for Goodアプリ、Gather IQが紹介されました。SDGsの17つの目標それぞれに対応して、問題の把握やデータの活用に役立つ様々な解説記事や分析結果が公開されています。各問題に対応するゲームや募金の仕掛けなどもあり、より多くの人にData for Goodのすそ野を広げるような仕様になっています。ぜひ一度お試しください。 講演後、個人的にI-Sah氏と直接ディスカッションをしました。Data for Goodの意義を再確認し、活動の進め方やデータ分析についてアドバイスをいただき、大変有意義な時間となりました。本ブログでもたびたびご紹介しておりますが、JapanでもData for Good 活動を推進する学生コミュニティがあり(第1回勉強会レポート)、様々な社会課題に対して主体的に分析を進めています。また、データ分析手法を学ぶ勉強会も開催予定です。ご興味のある方はこちらまでご連絡ください。JPNAcademicTeam@sas.com Student Sessionの締めくくりとして、金融やヘルスケアに関するデータサイエンスの具体例が紹介されました。また、夜に行われたOpening Sessionにおいても機械学習やアナリティクスの実用例が紹介され、データサイエンスの無限の可能性を感じました。   大学教員向けセッション 続いて、SAS Global Forum大学教員向けアカデミックセッションについてのレポートです。本セッションでは、データのプライバシーと倫理について、講演とテーブルごとにディスカッションを行いました。 テーマ(1) データサイエンスの隆盛と倫理 データサイエンスの拡大とともに、扱うデータの量と種類が増加してきました。それにより、少数の人間が大きな害悪を発生させることができるようになり、また、データ発生元の同意や認知を得ることが難しくなっています。さらに、データの発生時、取得時、操作時にバイアスが含まれてしまう可能性も大きく、このような状況のもとで、大学教育について以下の点でディスカッションを行いました。 学部としての、または大学としての責任は何か? 倫理についての講義は必要か? 民間企業や官公庁とどのように協力すればよいか。

1 30 31 32 33 34 56