本記事では、ZEAL - Analysis and Projections of the Japanese Economyについて、チームメンバーに直接お話を聞き、背後にある思いやチャレンジなどについて解き明かします。
SAS Hackathon 2023 参加の背景
SIerであるZEALには、データアナリスト・データサイエンティストといったロールで働く社員は現状まだ多くはない。しかし今後はそういった人材を増やし、データ活用の世界に進出していくという目標を掲げている。
SAS Hackathon開催の知らせを受け取ったとき進むべき道が定まった。部内でプレゼンを行い、SASの取り扱い経験を問わず、興味を持った社員でチームZEALを結成した。
それがハッカソン開催の約1年前でした。そして半年前頃からテーマを何にするかチーム内で議論してきました。
SDGsをキーワードに、カーボンフットプリントを可視化することでCO2排出量を減らす事に貢献する、であったり、今後人類が必ず直面する喫緊の課題で身近な問題でもあり必ず解決する必要がある問題でもある食料問題に取り組む、など様々な案が出た。
最終的に定まったテーマは、「不確実性を消し去ることで、新型コロナのようなアウトブレイクに対して飲食業界が効果的な対策を立案できるよう支援すること」になった。当初は有価証券報告書による企業業績の変動をコロナ前とコロナ後で比べていく方針だったが、データ数が少なかったため断念せざるを得なかった。そこで、ある程度データ数が確保できる家計の支出データを使うことにした。
やはり当初から食料問題に取り組むという案が出ていたことと、コロナのようなパンデミックの影響が強く出た分野であったため、飲食業界を選択しました。家計の外食支出の変動から、間接的に飲食業界の隆盛を予測する、というものです。
コロナによる影響の強弱について念のため全産業分野を網羅的に確認した。ここでSAS Viyaの機能が役に立った。コロナの影響が特に大きかった産業分野は、飲食、交通(航空)、教育・娯楽だった。中でも交通(航空)は飲食業以上に影響が大きかった。しかし交通(航空)はテーマには選ばなかった。食糧問題に取り組むという基本方針があったからだ。
SAS Viyaは統計的知識がそこまで無くても十分に扱え、確実に結果を出すことができました。これはZEALが得意とする、「可視化によるインサイトの引き出し」というアプローチにもとてもフィットしていました。操作性も他のBIツールと比べて特段難しいというわけではなかったので問題はありませんでした。
ハッカソンに取り組む上で直面したチャレンジ
当初使用を想定していた有価証券報告書データのデータ数が時系列予測をするうえで足りないということが途中で判明したため、そこから別のデータを探し出す作業に急遽取り組む必要があった。3,4日で新しいデータが見つかった。
この部分はテーマ選定の際にも問題になりましたが、テーマはいろいろ考えられたとしても、それに必要なデータソースを集められなければ実際には分析を進めることができません。使えるデータの種類によって、取り組めるテーマが決まる、という側面がありました。
幸いZEALのサービスに、CO-ODEという日本の政府・自治体が出しているオープンデータを集積したデータベースがあり、そこに分野別家計支出データがあったので使うことにした。
具体的な取り組み内容
2つの時系列予測モデル
時系列予測モデルを2つ用意し、2つのモデルの予測値の差分をパンデミックの影響度合いとして可視化した。
つまりは、2019年12月末までをパンデミック前期間、2020年1月以降をパンデミック後期間とし、パンデミック前期間のデータで訓練したモデルをパンデミック前モデル、パンデミック後期間のデータで訓練したモデルをパンデミック後モデルとし、両者同じ将来期間のデータに対して予測をさせたうえで、その予測値の差分を取りました。
パンデミック前モデルとパンデミック後モデルの作成はいずれもSAS Viya Visual Forecastで複数のモデルを作成し、その中から精度が最も良いもの(=チャンピオンモデル)を選ぶという方法を採用した。いずれもチャンピオンモデルは、季節性モデルが選ばれた。
この辺り大変な作業のように聞こえますが、全てSAS Viya Visual Forecastによって自動処理されるのでとても簡単でした。
データの加工・整形で一工夫
必要なデータは全てCO-ODEから得ることができたが、データの加工・整形に多少の工数が必要だった。
CO-ODEの最大の売りは網羅性で、様々なソースからデータを手当たり次第かき集めてきています。使い方は使う人によって千差万別、逆に言うと使い方によってはひと手間かける必要があります。今回特に問題になったのは、時間粒度の違いでした。
データソースによって四半期粒度のもの、日次粒度のもの、と様々だったが、最終的に、月次粒度で統一した。四半期粒度のものは内挿によって月次粒度に変換した。
そこは少し試行錯誤が必要でした。一方データのETLに関しては、CO-ODEからはCSVがそのまま取り出せるので、それをそのままViyaにアップロードするだけで済みました。
成果
パンデミックによる影響を、予測値の差として可視化することに成功した。これは将来また別のパンデミックが起きたときにも参考値として利用できるものだ。
また、直接的な成果というわけではないのですが、ハッカソンを通して普段関わりのない社員同士が初めて関わりを持つようになり、社内のコミュニケーションが活性化しました。これは思わぬ収穫でした。
展望
最後に、今回ハッカソンを通して得られた経験をどのように発展させていくかについて展望を語ってもらった。
データ分析の知識をもっと知っていたらもっと面白かったはずでしたし、もっとやりたいことを具体化できたと思います。現状ZEALにはデータアナリスト・データサイエンティストといったロールで働く社員はまだ多くはいませんが、今後データ活用の世界に進出していくという目標に一歩近づけたと思います。
チームZEAL
メンバー
- 賀門秀人: マルチクラウドデータプラットフォームユニット・ユニット長。チームZEALではアドバイザーと責任者を担当。
- 窪田達寛: マルチクラウドデータプラットフォームユニット第二部所属シニアアソシエイト。チームZEALではデータ分析を担当。
- 山本一貫: マルチクラウドデータプラットフォームユニット第二部所属シニアアソシエイト。チームZEALではデータ分析およびデータ整形を担当。
- 津田早希: マルチクラウドデータプラットフォームユニット第二部所属シニアアソシエイト。チームZEALではストーリー構成および動画の脚本を担当。
- 長谷川修: マルチクラウドデータプラットフォームユニット第二部所属シニアアソシエイト。チームZEALでは市場調査や情報収集、チーム管理を担当。
- Y. N.: マルチクラウドデータプラットフォームユニット第二部所属コンサルタント。チームZEALのリーダーを担当。
- K. K.: 大阪DXコンサルティング部所属シニアアソシエイト。チームZEALではデータ分析および動画編集を担当。
所属部署 (マルチクラウドデータプラットフォームユニット)
「複数のクラウド基盤」及び「複数のデータ活用基盤」について、様々な組み合わせでの導入と定着化を提供している。
ZEAL
社内外のデータを整理・統合するデータプラットフォームやデータを分析・予測・可視化するAI・BIソリューション等を、コンサルティング・システム開発を通じて提供し、企業のデジタルトランスフォーメーションやデータドリブン経営の推進を支援している。