地球環境情報学研究室
データサイエンス

データサイエンス

誤差を正しく理解し、見えていなかった繋がりを可視化する

信頼度の高いサイエンスをするためには、データがしっかりしたものであるか、吟味を細かくする必要があります。私たちのいうデータサイエンスはそのための解析手法と取り組みを指していますが、残念ながら、世界的な研究成果を見てもすべての研究成果がそれらを正しく検討されているとはいえません。試料から情報を取り出す一つ一つのステップの全てに誤差がつくはずですが、それらが次のステップにどのように影響を与えるか(誤差の伝播)正しく検討される必要があります。やや専門的になりますが、例を挙げますと、堆積物がたまるスピード(堆積速度)についての誤差はこれまでほとんど正しく検討されてきていません。堆積物が水の中を静々と溜まっていく過程の誤差(時間の誤差)のみならず、コアを採取する際の堆積物の変形による影響も、本来検討されるべきものなのです。このように複数の誤差が存在しそれらが結果にどう影響されるかについて精度高く理解するために、様々なアプローチで研究を進めています。ベイズ統計やモンテカルロ法を用いた解析手法はそれらの一つです。私たちはコンピュータサイエンスや情報科学の知見を融合し、機械学習なども取り入れながらこれらのテーマに取り組んでいます。

データサイエンスのテーマ

統計分析・解析

地球環境情報学研究室のメンバーは、基礎的な統計学を使って、分析装置、年代測定、採取過程などによる誤差などを検討し、結果を議論するようにしています。これによって、研究室の学部生・大学院生は、データの不確実性も考慮した解釈の仕方を学ぶようにしています。

誤差を推定し信頼性を高める

誤差の定量的な評価は、特に年代学で重要です。過去の出来事がいつ起こったのか知る重要な情報だからです。例えば、放射性炭素年代の分析誤差は、最新の方法を使っても± 30年程度になることが多いのですが、この年代を補正する過程で誤差が大きくなる。過去の環境について、信頼性や不確実性の正確な理解をして解釈しないと、地球史を誤解する危険性があります。

コンピュータビジョン

地球環境情報学研究室では、コンピュータビジョンを用いて、画像解析を行なっています。コンピュータビジョンとはコンピュータがデジタル画像や動画を数値的なデータとして解釈するものです。これによって画像の分断(セグメンテーション)、特徴点の検出と抽出そして、複数の画像の類似性などを効率的かつ高精度で行うことが可能になります。私たち地球環境情報学研究室は技術を独自に開発して、画像処理を新しい切り口で理解し環境復元に役立てています。

深層学習

我々はAIを使った深層学習によるコア試料の全自動分類・記載技術を開発しています。AIに学習させたデータを用いて、生物擾乱や採取擾乱などのコア擾乱箇所の抽出ができるようになりました。これを利用して、古環境の情報をとして用いることのできる、色彩値の記録が得られるようになったのです。時間がかかるコア作業を自動化することで、作業がより効率に進むようになりつつあります。