統計科学
多次元データ解析の理論開発から社会が進歩する道筋をつくる
小数個から大規模までのあらゆるデータの要約と予測する理論を開発していく
私が専門で研究をしている統計科学は、自然科学や社会科学を問わず多くの分野で取り扱われる「データ」という情報に確率的要素を加え分析することによって、複雑な現象を解き明かしていく分野です。
その中でも特に行っているのは、データサイエンスの統計理論である多次元データを取り扱う統計解析法の理論研究。例えば、30人分の5教科試験の点数データがあったとすると、データ数が30で、5次元データとみなします。近年の多次元のデータでは、データ数ばかりでなく次元数も数千、数万、数十万など、もっと大きなデータを扱うことが増えてきました。
しかし、現実のデータは必ずしもすべて揃っているとは限りません。近年では、データに欠測が生じた場合の統計解析法に関する理論の開発をしています。上記の例で言うと、試験では5教科すべてを受けられない人がいる場合もあります。1教科か、あるいは複数の教科の試験を受けていない生徒のデータを含んだ欠測データを利用して、統計的に母集団の特性や統計的仮説検定をするための理論を開発しています。
未知なる欠測データの理論研究は社会のあらゆる物事を解き明かすカギに
実は欠測データの理論はまだ少なく、データがすべて揃った場合の完全データでの統計理論が大きく発展してきました。
私が行っている数理的な理論研究は、社会のあらゆるデータに共通して適用できる理論の基盤づくりでもあります。上記では試験の点数を例にあげましたが、統計科学は、マーケティングや医学などあらゆる分野で役立てることができます。理論を開発することによって、統一的な大きな道筋となる統計的方法を与えることができるのです。
世の中のデータは欠測データであふれています。だからこそ欠測データの理論研究は、社会を進歩させる重要な研究テーマのひとつであると考えています。
答えを見つけ出す感動を日々追い求めて
多次元のデータを取り扱う統計解析では、推定や検定において、問題ごとに統計量の分布を与えることが必要になります。その際に、導出困難であったものに対して答えが出て、シミュレーションにより、良い結果になったときにやりがいを感じますね。
また、計算や証明などを大学院生と一緒にやっていますが、苦労して結果が出たときの感動は、数学の難しい問題が解けたときや証明ができたときと似ています。