石井 晶講師 ISHII Aki
高次元データと新しい統計学
ゲノムデータなどの高次元データ、特に高次元小標本データに対する新しい統計学の理論・方法論を構築しています。1990年代後半から、計測機器の発達によって高次元データを取得できるようになりました。ある病気に罹患している患者数十人から、各患者に対して数万個の遺伝子のデータを取得したとき、次元数(遺伝子数)は標本数(患者数)よりも遥かに大きくなります。このようなデータを、「高次元小標本」とよびます。従来の統計学である多変量解析では、このような高次元データに太刀打ちできません。そこで新たな統計学の理論である「高次元統計解析」という分野が生まれました。高次元小標本データがもつ幾何学的表現をはじめ、数学的なアプローチで高次元データを解析し、高い精度保証を与える方法論を研究しています。
遺伝子発現データによる高次元判別分析
高次元データは各個体から詳細な情報を取得できる一方で、解析のために注目したい情報(潜在情報)が、巨大なノイズ(不要な情報)に埋もれています。巨大なノイズを除去するためにデータ数を増やそうとしても、コストの問題や、そもそも数十程度しかデータを取ることができない状況が往々にして起こります。例えば、難病に罹患している患者数は少なく、その病気である人の遺伝子発現データをたくさん集めることは難しいです。そこで、少ないデータ数で、巨大なノイズに埋もれた潜在情報を取り出すために有用なひとつの技術として、「高次元データ変換」があります。
高次元データ変換を応用した高次元2次判別分析であるNew Geometrical Quadratic Discriminant Analysis (New GQDA)では、ある病気に罹患した患者と正常な患者、がんのサブタイプが異なる2つのグループなど、それぞれのグループから遺伝子発現データを取得し、それらに高次元データ変換を施します。変換後のデータを使って判別関数という数式を計算することで、新しい患者がどのグループに属するのかを分類することができます。さらに、New GQDAでは高次元データが織りなす幾何学的表現も使用することで、理論的に高い精度を保証することができます。
参照:Ishii, Yata Aoshima.Special Issue: 50th Anniversary Jubilee Edition, Journal of Multivariate Analysis, 188 (2022), 104850. [Editors invited paper]
統計学を通して様々な学問領域の研究に挑戦しよう!
統計学は境界領域の学問です。医学、経済学、社会学、心理学、化学、物理学・・・など、データがあるところには統計学があります。そして、研究のテーマは山ほどあります。ある特定の分野に特化した統計の方法論を研究することもできますし、データのもつ本質的な特徴を数学的なアプローチで解析し、研究することもできます。さらに、新しいデータが取得されれば、新しい統計学が生まれます。様々な学問領域や業界に興味がある方、データを扱うスペシャリストとして、データサイエンティストなどの統計家・学術研究をする統計学者を目指したい方は、是非、統計学を専門とする研究室へ進学してください。