Data for Good: 人間の経済活動は生物を絶滅に導くのか?

0

Data for Good”という言葉をご存知でしょうか。これはデータを活用して社会的な課題を解決しようとする活動です。SAS Japanでは”Data for Good”を目指した取り組みを展開しております。その一つとして、SASはData for Good活動をする学生コミュニティ、「SAS Japan Student Data for Good community」を発足します。これは、社会問題へのアプローチを通して、Data Scienceの流れの経験・スキルの向上・学生間の交流拡大・社会への貢献などの達成を目的とするコミュニティです。

このコミュニティのData for Good活動の一環として、本記事では世界の絶滅危惧種についての分析をご紹介します。

現在、世界中で何万種もの生物が絶滅の危機に瀕しています。個体数を減らすこととなった原因はもちろんそれぞれの生物によって異なるでしょうが、主たる原因は人間による環境破壊や開発であると言われています。確かに人間の活動が生物に悪影響を及ぼしうることは直感的に正しいと感じられますし、また、仮にそうだとすれば、人間の開発活動を示す値と絶滅危惧種の数には何らかの具体的な関係があるはずだと考えられます。そこで、今回は、国ごとの絶滅危惧種数や開発指数を用いて、それらの関係を調査します。

今回の調査ではSAS Visual Analytics 8.3を用いてデータ分析を行いました。

今回使用したデータのリストはこちらです。

 

まず初めに、世界の絶滅危惧種の分布を示すジオマップを作成しました。アメリカや中国など、経済大国に多く分布しているように見えます。世界で最も絶滅危惧種が多い国はエクアドルで、2368種も存在します。日本には422種もの絶滅危惧種が存在しており、これは世界で27番目という芳しくない状況です.


次に地域ごとの絶滅危惧種数を円グラフにまとめました。複数の国に存在している種も存在するため、4.9万という値は“のべ”の絶滅危惧種数ですが、アジアとアフリカだけで半数以上分布していることが見受けられます。


以後、2017年の面積当たりの絶滅危惧種数を考えます。単純な比例関係ではないとしても、面積が大きい国にはより多くの絶滅危惧種が存在すると考えることが自然であり、各国を同様の基準で比べるために面積当たりの値を採用します。

今回、説明変数の候補として採用したのは以下のデータです。いずれも人間の経済活動に関係がある指標だとみなせます。

「GDP」「GDP成長率」「CO2排出量」「一人当たりCO2排出量」「森林率」「人口」「人口増加率」「人口密度」

 

まずは、面積当たり絶滅危惧種数と各種説明変数を用いて線形回帰を行います。多重共線性を避けるために各説明変数間の相関関係を示す相関行列を作成します。


この相関行列によると人口とCo2排出量には強い相関(相関係数=0.8)があることが分かります。よって人口とCO2排出量の交互作用効果を作成し、線形回帰の説明変数に追加します。

次に線形回帰を行います。シュワルツのベイジアン情報量規準(SBC)を選択基準としたステップワイズ法を用い、変数選択をします。しかし、基準を満たす説明変数が存在せず、モデルは作成されませんでした。


実際、すべての説明変数を用いてモデルを作成したとしても以下のような結果となり、R^2が0.06と、著しく当てはまりが悪いモデルが作成されました。


以上のことより、面積当たり絶滅危惧種数は各種説明変数と線形の関係にないことが読み取れます。そこですべての変数に対してlog_{10}の処理を施します。実際、今回のテーマにおいては、変数の弾性率が一定という仮定がより妥当だと考えられます。

さて、log_{10}の処理を行い、先ほどと同様にSBCを基準としたステップワイズ法による変数選択と回帰分析を行った結果がこちらです。


修正済みR^2の値が0.87と、非常に当てはまりのよいモデルが出来ました。これら三つの相関行列は下図のようになり、多重共線性はないと判断できます。また、残差も概ね正規分布に従っているとみなせます。


このモデルの式は下の式のようになります。


対数関数の性質を用いて両辺の対数を外す処理を行うと、面積あたりの絶滅危惧種数の表式である以下の式が得られます。


これらの式から求めた予測値と実測値とを散布図にプロットしました。logがある一つ目の式に関しては明らかに直線関係が見受けられ、相関係数は0.9378でした。


logを外した後の二つ目の式の散布図はスケールの違いにより直線関係が一見分かりにくくなっていますが、相関係数は0.9532であり、あてはまりの良さが実証できました。


次に、このモデルが2017年のデータにオーバーフィッティングをしているかを検証するために、このモデルを2009年のデータに適用して当てはまりを検証します。

2009年のlog_{10}(面積あたり絶滅危惧種数)と、本モデルを用いた予測値との散布図は下の通りです。


この散布図から明らかに直線関係が読み取れ、実際、予測値と実測値との相関係数は0.857でした。このように、2017年のデータを元に作られた本モデルは、2009年のデータに対しても良い当てはまりを示すことから、オーバーフィッティングはしていないと判断できます。

以上の検証から今回得られた面積当たり絶滅危惧種のモデルの妥当性が確認できました。次にこのモデルの示す意味について考察します。


この式は人口密度と人口がそれぞれ分母と分子にあるため、人口増加の影響が正か負かが一見読み取りにくくなっています。しかし人口密度の累乗の係数が大きく、また、人口密度の算出に用いられる面積は一定とみなせることを考慮すると、分母の人口による効果は分子の人口密度により相殺され、人口増加は面積当たり絶滅危惧種数に正の影響を与えることが分かります。

また、この式によると、森林率は目的変数に正の影響を与えています。直感的には、生物の住処である森林が増えると絶滅危惧種数は減少すると考えられるため、これは予想外の結果です。しかし森林が多い場所にはより多くの生物種が生息していることが推定されることから、森林面積が増えると生物種の母数が多くなり、結果として絶滅危惧種も増加するのでは、という予想ができます。しかし世界各国の総生物種数を知ることは困難であり、この点の検証は今後の研究に期待します。

モデルに実際の数値を当てはめた結果を考察します。人口が1%増加すると、面積あたり絶滅危惧種数は0.274%増加します。これは日本のデータにおいて、人口が100万人増えるごとに新たに一種絶滅危惧種が増えることを意味しています。

さて、本調査の当初の目的は、人類の経済活動と絶滅危惧種数との関連を探ることでした。しかし分析によると、GDPやCO2排出量等の経済活動を示す指標は意外にも絶滅危惧種の増加に有意な影響を与えてはいませんでした。このこと、人間の経済活動が生物に与える影響はあくまで局所的なものであり、必ずしも生物を絶滅に追い込むほどの影響はないと考えられます。

大きな影響をもたらしていたのは人口や人口密度など、人口に関する指標でした。人間の「活動」ではなく「存在それ自身」が生物を絶滅に追いやるほどの悪影響を与えると分かります。いまや世界の人口は75億人を突破し、また、その増加の勢いはとどまるところを知りません。今後の人口増加に伴い、ますます多くの生物が絶滅の危機に晒されることが予想されます。

人類と他の生物は共存できない段階に達してしまったのでしょうか。仮にそうだとすれば、人口が増加する過程で生物が絶滅していくことは、人類の発展のためには「仕方ないこと」とみなしてよいのでしょうか。生物の保護に向け何かできることはないのでしょうか。今後人類と生物の共存について議論が活発化することを期待します。

 

以上SAS Visual Analytics 8.3 を用いて生物の絶滅と人類との関係について分析しました。SAS  VAの各種使用法については、こちら のブログのシリーズでご説明しております。併せてご参照ください。

冒頭でもご紹介した通り、SASはData for Good活動をする学生コミュニティ、「SAS Japan Student Data for Good community」を発足します。私たちはデータサイエンティストの役割は、課題の「設定」と「データを用いた解決法の提示」だと考えています。本コミュニティでは、実際のData for Good 活動を通してこの一連の流れを経験でき、また、これまで学んだ知識やスキルのアウトプットをすることも可能です。主な活動は社会課題の解決に向けたデータ分析で、オンラインでの議論や定期的な集まり、分析結果レポートの公開、実際に解決に至るアクションの提案など幅広いアプローチを行います。また、イベントや勉強会の開催、コンペへの参加も予定しております。興味をお持ちでしたら以下のアドレスまでご連絡ください。
JPNAcademicTeam@sas.com

今後も”Data for Good”に向けた考察を公開していきますので、ぜひご覧ください。

Share

About Author


Academic Support Staff

東京大学前期教養学部理科一類 一年

Leave A Reply

Back to Top