秋の花といえば、「秋桜」という漢字名を持つコスモスが思い浮かぶ。コスモスはピンク、赤、白、黄、オレンジ、さらには複合色といったさまざまな色があり、実にカラフルである。発色やその遺伝的要因について統計的に研究することは面白いかもしれない。品種改良や育種に役立つ情報が得られるはずだ。 コスモスは非常に丈夫で、日当たりと風通しの良い場所であれば、土質をあまり選ばずに育つ。したがって、庭や花壇で栽培され、切り花や生け花などにも利用されてきた。コスモスの花壇のデザインに関する研究も興味深い。色の組み合わせや配置が視覚的、心理的にどう影響するかを統計的に分析すれば、より素敵なレイアウトやデザインが見つかるだろう。 さて、コスモスという名前は、ギリシャ語で「秩序」や「調和」を意味するそう。色の組み合わせがどれだけ秩序を保ち、調和しているかという視点で花壇のレイアウトやデザインを観察するのも、秋を楽しむ一つの方法かもしれない。 秩序や調和という意味に加え、花が星型に開いて輝く様子から、宇宙を意味する「コスモス」という名前が付けられたのかもしれない。 統計学の世界に長年身を置いてきた私にとって、機械学習やAIはまさに新大陸、いや宇宙と言っても過言ではない。ビッグデータとマシンパワーの力によって、統計学に手足が付いた、羽が生えたように進化したと言えると思う。SASでは、機械学習やAIのトレーニングコースが、中級から上級まで、年に数回開催されているので(トレーニングコース詳細とスケジュール | SAS)、ぜひ受講してみてはどうだろうか。 2024年10月初旬 相吉
Tag: データサイエンス
夏といえばひまわり。鮮やかな黄色は一輪でも強い存在感を放ち、我が家の食卓を飾る花でもある。ひまわりの花は常に太陽に向かって咲き、時間とともに太陽を追いかけるとされている。しかし、実際にはこのように動くのは芽生えから開花前のつぼみの時期までの話だ。 自然界にあるひまわりの成長には、太陽、気温、降水量、土壌など多くの要因が影響するが、これらの要因がどう関係するのだろうか。人工的な実験でも可能だが、たとえばひまわりの成長データを収集し、統計分析を用いることで最適な成長条件や栽培環境が特定できるはずだ。また、ビッグデータならではの機械学習アルゴリズムを使えば成長のルールやパターンを見つけることもできる。アナリティクスを駆使すれば(SASで開講中のアナリティクスコースはこちら⇒トレーニングコース | SAS)、収穫量の予測や最適な施肥方法、栽培条件も見つけられるだろう。実際、ひまわりの市場は世界で5.6兆円に登る巨大なマーケットなのだ。 ところで、ひまわりといえば気象衛星を連想するのは私だけだろうか。初代号が1977年に打ち上げられ、今度が10号になるが、最初は愛称で呼ばれていたものが後に正式名称となった。気象庁のサイト(気象庁 Japan Meteorological Agency)では、ほぼリアルタイムでひまわりの衛星写真がさまざまな切り口から見られるが、天気や防災に関する情報のほか、上記のような分析に欠かせない環境や気象のデータも豊富に提供されている。 2024年9月初旬 相吉
幼い頃、家の庭にたくさんのバラがあり、手入れが大変だった思いがある。トゲに刺されて痛い思いをしたり、傷になったりしたことを覚えている。興味深いことに、統計学の歴史にはナイチンゲールの「バラ」というグラフが登場する。 「白衣の天使」として知られるイギリスの看護師フロレンス・ナイチンゲールは、優れた統計学者でもあった。彼女は19世紀のクリミア戦争で看護師として派遣され、膨大な戦死者・傷病者データを分析し、多くの兵士が戦傷ではなく劣悪な衛生状態のために命を落としていることを明らかにした。その後、政治や行政に向けに「ローズダイアグラム」という革新的なグラフで報告した。 ローズダイアグラムは、円グラフの一種で、死因を視覚的に示すチャートである。月ごとの死亡者数を戦傷を赤、衛生状態や栄養不足を青、その他の要因を黒で色分けし、それぞれの面積で表現したものである(Florence Nightingale's Rose Diagram)。このグラフにより、衛生改善の必要性が明確になり、医療環境の改善が進んで傷病兵の死亡率が大幅に減少したのは言うまでもない。 統計学は記述統計と推測統計に分かれ、記述統計はデータの特徴を分かりやすく表現することを目的とする。ナイチンゲールの事例は、記述統計とデータ可視化が如何に重要かを物語っている。SASには「SAS Visual Analytics」という優れた可視化ツールがあり、基礎から上級までの関連コースも提供されている(SASトレーニングコース)。 2024年8月初旬 相吉
この時期の私の楽しみは、散歩の途中でかわいらしい色とりどりのアジサイの花を眺めることだ。アジサイは、「集まる」や「寄せ集める」という意味があり、花弁がいくつも集まっている咲き姿に由来しているそうだ。別名「七変化」とも呼ばれており、土の性質によって花色が変わるのが特徴。土が酸性だとブルー系、中性からアルカリ性だとピンク系になるそうだ。面白いことに、ブルーのアジサイをアルカリ性の土に植え替えると薄紫色のアジサイに変化するそうだ。 「統計学と機械学習の違いは何か」という質問を受けることがある。土の性質で色が変わるアジサイのように、機械学習と統計学も同じような関係ではないかと思う。両者の目的は似ているが、ビッグデータと高度な計算能力という土俵の違いが機械学習の発展に大きく寄与したのは間違いない。ただ、機械学習の歴史は比較的新しいが、統計学がなければその発展は考えにくい。例えば、決定木分析は機械学習が流行る前から統計学の手法の一つだったが、機械学習の進展とともに進化してきた。ちなみに決定木分析は樹形図の形式で結果を出力し、そのため初心者でも理解しやすい分析手法の一つ。SASでは、機械学習をはじめとして、ニューラルネットワーク、AI関連のトレーニングコースが年に数回開催されている(SASトレーニングコース)。 ※Google Trendによると日本での検索数は、2016年当りから交差する形で機械学習が統計学を上回るようになった。機械学習が統計学より広まったのは、ビジネスパーソンであろうが消費者であろうが、意思決定の場面で使われる頻度や処理速度に関連があると思う。 2024年7月初旬 相吉
タンポポは、生き生きとしたかつとても響きの良い、好きな日本語の一つである。 語源は、江戸時代頃までは「鼓草(ツヅミグサ)」と呼ばれていたものの、花のかたちが太鼓に似ている、または太鼓を叩くポンポンという音を連想させるとかで、たんぽぽになったという説が有力らしい。英語では「dandelion」と、たんぽぽの花の形がライオンのタテガミに似ているからかと思いきや、ギザギザの葉をライオンの歯に見立てたことから由来しているそう。 タンポポは、春に花を咲かせて夏には枯れてしまう短命のイメージがあるが、実はとても長生きする草本だそうだ。花が散った後、綿毛のタネを飛ばして(あのひらひらとした傘の形の綿毛で運が良ければ100キロ先まで飛ぶそうなので驚く。もちろん大概は数メートルのはずだが)、葉を枯らしてしまうが、しっかり根は残っていて(だからうちの庭の草むしりが大変だった)、そして翌年の春になるとまた茎を立ち上げて葉を伸ばし、花をつける。毎年それを繰り返し、根株が死なない限り何年でも生き続け、寿命は、10年から15年程度だそうなのでこれまた驚きである。 話が変わるが、統計学には生存分析、あるいは生存時間解析というのがあり、生物の死亡や機械の故障など寿命が分析対象で、医学や社会科学の多くの分野に利用されている。医学研究の例を挙げると、ある時間を過ぎて生存する人々の割合はどの程度か、生き残った人々はどの程度の割合で死亡するのか、特定の状況または特性が生存確率にどのような影響を与えるのか、などが挙げられる。SASでは6〜8月に生存時間解析、予測分析、といった講座が開設されているので(SASトレーニングコース )、「寿命」に興味関心がある方はぜひ受講してみて頂きたい。 2024年6月初旬 相吉
桜が散ったと思うと、いつの間にかツツジの季節がやってきた。ツツジは、4月中旬から5月中旬にかけて咲く、日本で最も親しまれている植物の一つであり、桜の散る頃から北海道から沖縄まで全国各地の様々な場所で楽しめる花でもある。歴史的には、徳川家のツツジ好きもあって江戸幕府が植栽に力を入れ、大名たちの間で庭園づくりブームが起きたとか。 さて、統計学のコースだが、多くの良質な書籍やコンテンツがあり、感心するものも多いが、しかし、入門としては物足りなさを否めない。特に、「社会人のための・・・」をうたったコースにおいては、統計学を長年体系的に勉強した者として、大学(統計学部)の授業のようなものが多く一般人にはレベルが高い印象を受ける。また、日本独自の事情やニーズに合った教材が必要ではないかと思う。 前述したツツジのように統計学が日本中に広まってほしい、データリテラシーの底上げに貢献したいという気持ちから、「統計学入門」コースを新設した。このコースは、統計の勉強をしたことがない社会人向けに分かりやすく統計の基礎を解説し、かつ実務へのつながりを意識した質問、例を盛り込むことで、統計学の概念の定着につながるように構成している。実務に統計学がどのように活用されているのかなどをより意識したコース内容となっている。また、本コースはSAS製品を使用していない方でも受講可能である。この機会にぜひ受講を検討いただきたい。 2024年5月初旬 相吉
春になった。桜の開花時期が気になるが、今年の開花(※)は平年より少し遅かったそう。気温が上がると通常よりも早く咲くことがあるそうだが今年はそうはいかなかった。 桜の開花は主に気温が関わっており、簡単に予想できる方法がある。400度の法則といい、2月1日以降の日々の平均気温を合計して400度を超えると開花する、という代物。600度の法則というものもある。こちらは、平均気温ではなく、最高気温を合計したものだ。 いずれの法則も桜の花芽は秋から冬にかけて「休眠」状態に入り、真冬の寒さで目覚める「休眠打破」を2月1日とし、1日以降の気温の積み上げたものである。この法則が今年は当たらず、公式な開花日は予想より1週間くらい遅れての3月29日だったがとくに700度を超えた時であった。暖冬の影響で休眠スイッチがうまく作動しなかったからという説がある。異常気温の影響もあるだろうし、まさに異常値だった。 実は、上記のシンプルな指標以外に、桜の開花予測には回帰分析というデータ分析の手法が利用されている。気温、降水量、日照量などの気象データで統計モデルを構築して開花日を予測する。この手法は、例えば、一般的にはマーケティングの販売促進やロイヤルティ向上、金融業界では信用取引のスコアリングや不正検出に、医薬業界では疾病リスクや治療効果予測などに広く利用されている。具体的な紹介は、ぜひとも別の機会にしたい。 機械学習やAIばかり注目を浴びている中、その基盤となるものは回帰分析のようなデータ分析の手法であることに忘れてはいけない。5~6月には回帰分析をテーマにしたトレーニングコースが多く開催されるが(SAS Training | スケジュール)、春になったし新たなチャレンジの始まりと、ぜひ受講して新しいスキルを身につけて頂きたいところ。 ところで桜は、実に種類が多く、日本だけでも600種以上が分布しており、色もよく見かける白やピンク色だけでなく緑色もあるそう。とりわけ、日本でよく見かける桜を時間軸でいうと、河津桜、染井吉野、枝垂れ桜、八重桜、冬桜といったところ。うちの近所でピンク色で輝いていたカワズザクラはとくに散ってしまい、染井吉野と八重桜が満開の日を迎えている。 ※桜の開花日とは、標本木で5~6輪以上の花が開いた最初の日をいい、観測対象は主に染井吉野を対象としている(気象庁 | 生物季節観測の情報)。 2024年4月初 相吉