Author

RSS
Advanced Analytics COE ソリューションズ・アーキテクト

医療機関および製薬企業勤務を経て、SAS Japanに入社。主に医療データ分析と自然言語処理を担当。

Analytics
SAS Hackathon 2023 / チームSunny Compass参加報告

本記事では、Sunny Compass - analysis and suggestion of life satisfactionについて、チームメンバーに直接お話を聞き、背後にある思いやチャレンジなどについて解き明かします。 ユニークなチーム結成 チームSunny Compassは経済産業省主催のDX人材育成プログラム「マナビDX Quest 2022」(以下、マナビDX Quest)で出会ったメンバーで構成されるシビックテック・チームだ。 勤務先や居住地もまったく異なる中、オンライン上で交流し、それぞれの強みや専門性を活かしてデータとテクノロジーを使った課題解決に取り組んでいる。   SAS Hackathon 2023 参加の背景 SAS Hackathonが開催されるという話を聞き、どのようなテーマで取り組むかメンバー全員で話し合った。彼らにとって今回が初めての「ハッカソン」参加となったが、「人生の明るい方向を示す羅針盤になる」という想いをチーム名に込めたチームSunny Compassにとって、人々のウェルビーイングの向上を助ける取り組みをすることはメンバー全員が一致するところだった。データは自前で用意する必要があったため、内閣府の生活満足度調査データを使うことにした。 生活満足度調査の分析結果を可視化するモバイルアプリの開発をゴールに設定しました。ユーザーがアプリ上で性別、年齢、そして生活満足度を入力すると、自分が生活満足度の観点でどのくらいの位置にあるのかが分かり、どのような項目・活動に気を配ると更に生活満足度を向上させ得るのか、という改善に向けたヒントを得られる、というものです。   生活満足度調査データを使用するためには、内閣府に書面申請をする必要があった。書類審査に1週間程度要したが、市民に有益なアプリ開発のために利用するという点が評価され、無事データの提供を受けることができた。   ハッカソンに取り組む上で直面した様々な課題   初めての経験 最大の課題は、メンバー全員がハッカソンと呼ばれるイベントに参加するのは初めてであり、ハッカソンではどのようなことをすれば良いのか全く想像がついていなかったという点だった。また、メンバー全員がSAS製品を使ったことがなかったこと、モバイルアプリの開発も初めてだったこと、などがその他の課題として挙げられた。 完全リモートでのコミュニケーション メンバー全員が対面での面識が全くないところからのスタートだった。そのためグループチャットツールで頻繁に集まり、会話ベースで進捗やタスクを確認し合った。プロジェクトマネジメントの観点でタスクの洗い出しをして割り振るなどということよりも、口頭・テキスト問わずコミュニケーションを密に行って、動ける人が動く、全員が各自今抱えている問題について理解し助け合う、励ます、ということを重視した。 マナビDX Questの経験から、メンバー同士助け合うことが何よりも重要ということを全員が理解していたのと、メンバーごとに関連技術の知見・経験が少しずつあって、それを随所随所でうまく活かしたり、メンターの人が付いてくれて質問などに対応してくれたので何とかなりました。 具体的な取り組み内容 オープンデータを活用 内閣府による生活満足度調査のデータには、個人からの回答に基づき、様々な変数とともに、生活満足度が数値で表現されている。満足度が高いほど値が大きくなる。全体的に欠損値が多数含まれていたため前処理が必要だった。 これとは別にe-Statから取得した「都道府県・市区町村のすがた(社会・人口統計体系)」というデータも使用した。こちらには都道府県ごとの人口、世帯数、ヘルスケア関連情報、などが入っている。   モバイルアプリ メインのモバイルアプリの開発では、「どのような項目・活動が生活満足度の向上に役立つのか」という問いに答えられるよう、生活満足度を目的変数とした機械学習モデルを作成した。この機械学習モデルには変数ごとに変数重要度を出力できるタイプのものを採用し、最終的に変数重要度が高い順に上位5つまでの変数(重要変数)を取り出した。これらの重要変数をREST API経由でモバイルアプリから読みに行くという仕組みを作った。 SAS ViyaはREST APIに標準対応しているのでこういった仕組みづくりも無理なく進められました。 モバイルアプリ自体はオープンソースライブラリを利用して開発した。アプリの想定利用ユーザーは個人ということにした。ユーザーがアプリ上で性別、年齢、そして生活満足度を入力すると、類似の属性を持つ人の中で自分が生活満足度の観点でどのくらいの位置にあるのか、ということが可視化され、加えてどのような項目・活動に気を配ると更に生活満足度を向上させ得るのか、という改善に向けたヒントを取得できるようにした。 可視化ダッシュボード 次に可視化ダッシュボードの作成では、想定利用ユーザーを国や自治体の政策立案担当者とし、個人単位ではなくマクロ的な視点でデータを深堀りするための分析ツールというコンセプトに基づいて開発を進めた。モバイルアプリと同じ生活満足度調査データを使っているが、こちらは都道府県ごとに集計し直し、更に都道府県別の統計情報を加味するため、e-Statのデータと結合させたうえで利用した。

Analytics
SAS Hackathon 2023 / チームZEAL参加報告

本記事では、ZEAL - Analysis and Projections of the Japanese Economyについて、チームメンバーに直接お話を聞き、背後にある思いやチャレンジなどについて解き明かします。 SAS Hackathon 2023 参加の背景 SIerであるZEALには、データアナリスト・データサイエンティストといったロールで働く社員は現状まだ多くはない。しかし今後はそういった人材を増やし、データ活用の世界に進出していくという目標を掲げている。 SAS Hackathon開催の知らせを受け取ったとき進むべき道が定まった。部内でプレゼンを行い、SASの取り扱い経験を問わず、興味を持った社員でチームZEALを結成した。 それがハッカソン開催の約1年前でした。そして半年前頃からテーマを何にするかチーム内で議論してきました。 SDGsをキーワードに、カーボンフットプリントを可視化することでCO2排出量を減らす事に貢献する、であったり、今後人類が必ず直面する喫緊の課題で身近な問題でもあり必ず解決する必要がある問題でもある食料問題に取り組む、など様々な案が出た。 最終的に定まったテーマは、「不確実性を消し去ることで、新型コロナのようなアウトブレイクに対して飲食業界が効果的な対策を立案できるよう支援すること」になった。当初は有価証券報告書による企業業績の変動をコロナ前とコロナ後で比べていく方針だったが、データ数が少なかったため断念せざるを得なかった。そこで、ある程度データ数が確保できる家計の支出データを使うことにした。 やはり当初から食料問題に取り組むという案が出ていたことと、コロナのようなパンデミックの影響が強く出た分野であったため、飲食業界を選択しました。家計の外食支出の変動から、間接的に飲食業界の隆盛を予測する、というものです。 コロナによる影響の強弱について念のため全産業分野を網羅的に確認した。ここでSAS Viyaの機能が役に立った。コロナの影響が特に大きかった産業分野は、飲食、交通(航空)、教育・娯楽だった。中でも交通(航空)は飲食業以上に影響が大きかった。しかし交通(航空)はテーマには選ばなかった。食糧問題に取り組むという基本方針があったからだ。 SAS Viyaは統計的知識がそこまで無くても十分に扱え、確実に結果を出すことができました。これはZEALが得意とする、「可視化によるインサイトの引き出し」というアプローチにもとてもフィットしていました。操作性も他のBIツールと比べて特段難しいというわけではなかったので問題はありませんでした。 ハッカソンに取り組む上で直面したチャレンジ 当初使用を想定していた有価証券報告書データのデータ数が時系列予測をするうえで足りないということが途中で判明したため、そこから別のデータを探し出す作業に急遽取り組む必要があった。3,4日で新しいデータが見つかった。 この部分はテーマ選定の際にも問題になりましたが、テーマはいろいろ考えられたとしても、それに必要なデータソースを集められなければ実際には分析を進めることができません。使えるデータの種類によって、取り組めるテーマが決まる、という側面がありました。 幸いZEALのサービスに、CO-ODEという日本の政府・自治体が出しているオープンデータを集積したデータベースがあり、そこに分野別家計支出データがあったので使うことにした。   具体的な取り組み内容 2つの時系列予測モデル 時系列予測モデルを2つ用意し、2つのモデルの予測値の差分をパンデミックの影響度合いとして可視化した。 つまりは、2019年12月末までをパンデミック前期間、2020年1月以降をパンデミック後期間とし、パンデミック前期間のデータで訓練したモデルをパンデミック前モデル、パンデミック後期間のデータで訓練したモデルをパンデミック後モデルとし、両者同じ将来期間のデータに対して予測をさせたうえで、その予測値の差分を取りました。 パンデミック前モデルとパンデミック後モデルの作成はいずれもSAS Viya Visual Forecastで複数のモデルを作成し、その中から精度が最も良いもの(=チャンピオンモデル)を選ぶという方法を採用した。いずれもチャンピオンモデルは、季節性モデルが選ばれた。 この辺り大変な作業のように聞こえますが、全てSAS Viya Visual Forecastによって自動処理されるのでとても簡単でした。 データの加工・整形で一工夫 必要なデータは全てCO-ODEから得ることができたが、データの加工・整形に多少の工数が必要だった。 CO-ODEの最大の売りは網羅性で、様々なソースからデータを手当たり次第かき集めてきています。使い方は使う人によって千差万別、逆に言うと使い方によってはひと手間かける必要があります。今回特に問題になったのは、時間粒度の違いでした。 データソースによって四半期粒度のもの、日次粒度のもの、と様々だったが、最終的に、月次粒度で統一した。四半期粒度のものは内挿によって月次粒度に変換した。 そこは少し試行錯誤が必要でした。一方データのETLに関しては、CO-ODEからはCSVがそのまま取り出せるので、それをそのままViyaにアップロードするだけで済みました。 成果 パンデミックによる影響を、予測値の差として可視化することに成功した。これは将来また別のパンデミックが起きたときにも参考値として利用できるものだ。 また、直接的な成果というわけではないのですが、ハッカソンを通して普段関わりのない社員同士が初めて関わりを持つようになり、社内のコミュニケーションが活性化しました。これは思わぬ収穫でした。 展望

Analytics
SAS Hackathon 2023 / チームCTC参加報告

本記事では、Critical Thinking Crew - Health Monitoring to Prevent Solitary Deathについて、チームメンバーに直接お話を聞き、背後にある思いやチャレンジなどについて解き明かします。 SAS Hackathon 2023 参加の背景 チームCTCのリーダー福永氏にとって今回のSAS Hackathon参加には特別な思いがあった。福永氏の個人的な活動として取り組んでいるプロボノを通して、孤独死にまつわる社会的課題があることを認識していたからだ。 日本では孤独死する人が年間25000人を超えていて、遺体が発見されるまでに平均2週間以上かかり、発見時に腐敗が進んでいることも多いそうです。これは高齢者の課題と捉えられがちですが、現役世代の孤独死も4割近くあるという報告があります。この社会的課題に取り組むという構想を2022年末頃から抱き始め、ソリューションの中身を漠然と考えていました。 それとは別にスマホカメラで脈拍を計測する手法があることを知った時、彼の頭の中で課題とソリューションが繋がり、構想が具体化し始めた。そこにタイミングよくSAS Hackathon開催の知らせが届いたためエントリーすることにした。 所属する部署においても企業のESG分析などに携わることもあり、ソーシャル・グッドのための活動としてハッカソン参加は会社も後押ししてくれました。 エントリー部門はヘルスケア&ライフサイエンス部門になった。福永氏にとって今回が3回目のSAS Hackathonの参加となった。1回目では数値データを、2回目ではテキストデータを扱ってきたが、3回目の今回では画像データを扱うことになった。 ハッカソンに取り組む上で直面した様々なチャレンジ 繁忙期と重なってしまった メンバー全員が非常に繁忙なタイミングと重なってしまったため、登録したあとにしばらく活動ができず、着手できたのは締め切りまで1か月を切ってからになってしまった。 結果的に最後の2週間でなんとか作り切ったという感じです。メンターさんが何度か相談会を設けてくれたこともあり、色々と困りごとを相談できましたし、良いペースメーカーになりました。 画像認識技術の習得と専用環境の準備 画像認識専門のエンジニアがメンバーにいなかったものの、画像認識に関するSASのブログとオープンソースの専用のライブラリを駆使して何とか乗り切った。まずは画像認識に関する知識を習得することろから始めた。 物体検知モデルのチュートリアルで骨格推定のやり方を学びました。遠回りのようで実はそれが一番手っ取り速かったと思います。 顔色から脈拍を推計する手法に関しては公開コードを探して利用することにした。姿勢推定のためのモデル訓練が短時間で収束するような工夫もした。また通常は必要になる環境構築のための工数を、Google Colaboratory(WEBブラウザ上で機械学習を実行できるサービス)を利用することで大幅に削減した。 また当初物体検知モデルをファインチューニングするうえで、与えられた環境とは別の環境を構築する必要がありました。そこはGoogle Colaboratoryを導入することで難なくクリア出来たのですが、GPUで事後訓練した後の物体検知モデルをCPU版に変更する部分でエラーが多発して大変でした。 その他、今回使用することにした物体検知モデルをSASとインテグレーションする部分の経験が無かったため新たな経験を得ることとなった。 具体的な取り組み内容 スマホで撮影した動画を利用 スマホで自身を撮影することで姿勢やバイタルを推定し、危険な状況になったら友人・家族に通知する自衛ツールを開発した。 一般的な見守りサービスですと、器材の設置や、知らない人に監視されている感じに抵抗感がある人が多く、特に比較的若い層にこの傾向があるとプロボノの活動を通して聞いたことがあります。そこでスマホを利用することにしたんです。 次に姿勢推定のための物体検知モデルをSAS Viya上に搭載した。スマホで撮影した動画から姿勢の状態を推定できるものだ。加えて、顔色の微妙な変化を波形から捉え、心拍数を推定した。最後に、姿勢と心拍数から、「倒れている」かつ「心拍数が極端に低い」等の閾値に該当する場合にアラートを発出する仕組みを構築した。 物体検知モデルの訓練とバイタル判定ルールの作成 使ったデータは2種類ある。まず物体検知モデルの事後訓練に必要な画像データについては、CTC社内にあった画像データを利用した。最終的に厳選した1500枚でモデルの事後訓練をした。 事後訓練には画像のアノテーションが必要だった。アノテーション作業の内容は、映っている人物を四角い枠線で囲い、囲われた人物がどのような姿勢でいるのか注釈を付ける、というものだ。姿勢の種類は全部で4種類、立っている、寄りかかっている、座っている、倒れている、の中からアノテーション作業者が手動で選択することになる。 そこは子会社のCTCひなり株式会社の障がい者スタッフさんの助けを借りることができ、大幅な工数削減を実現できました。1500枚のアノテーション作業を1週間で完了してもらえました。 脈拍の低下の推定に必要な心拍データについては、オープンデータを利用した。このデータは寝ている状態から運動して休息するという一連の流れを時系列で保持する波形データだ。 「こういう状況でこういう数値であれば生存を疑うレベルに該当すると言って良い」というルールを作るためにこのデータを用いました。心拍データのクレンジング作業には、Viyaのデータ準備機能を使いました。こちらはGUI上で簡単に実行できました。 成果 孤独死抑止ユースケースとして開発したが、事務作業員や建築現場の作業員のヘルスチェック、大規模災害時のトリアージ支援等、多くの応用例が考えられる。結果として技術部門賞を受賞することができた。 非常に名誉なことで会社のみんなや家族・友人もとても喜んでくれました。また、安定したViya環境を好きなだけ触れたことも大きな収穫でした。普段の業務では中々使うことのない機能を使うことができ、勉強になりました。 展望

1 2 3