#19
新たな複雑系データから現象を読み解く統計モデルの開発
荒木 由布子 教授
東北大学大学院情報科学研究科 システム情報科学専攻
データ科学の躍進により, 世界は大きな変革の時代を迎えています. この革新は様々な科学技術の統合によって進化し, AI技術などにみられるように, 私たちの生活に広く浸透し始めています. 統計科学はその基盤の1つで, データに潜む真理を解き明かすために, 必要な理論を数学という科学の共通言語を用いて展開します. そしてその理論を応用し, ときには新しい機械学習アルゴリズムやコンピュータ科学などの技術と組み合わせてデータを分析し新たな知見を得て, 現象の解明や意思決定に役立てます. 天気予報や株価の変動, 視聴履歴からのコンテンツの推薦など, 私たちは日常的に様々な統計学の応用に触れ,基本的な統計手法も高校や大学で学んでいます.一方で,情報科学の急速な発展に伴い,新たなタイプのデータが日々生成され,その分析のための統計モデル開発は喫緊の課題となっています.私の研究では特に, 時間や空間の変化に伴い変動する現象で, しかも複数の時間軸や空間軸があるような「新たな複雑系データ」を,より深く理解するための統計モデルの開発に取り組んでいます.信頼性と柔軟性を持ち合わせた統計モデルの開発とデータへの適用を重ねることで, 学問的な発展に加えて,間接的にでも人々が毎日を爽やかに過ごせる一助になればと想っています.
統計学との出会い
私の故郷は,能の『羽衣』で「その美しさに天女も舞い降りた」といわれている富士の眺めと松原のある静岡県です. 物心ついた時からピアノと読書が好きで,小学校時代は本好きな友人と図書クラブを作ったり,中学・高校時代はピアノの連弾やバイオリンの合奏をしたりして楽しんでいました.楽器から奏でられる音を『楽典』という音楽の理論に従って組み合わせると曲になり,曲を演奏したり聴いたりすると私たちの感情は揺さぶられます.また,言葉を文法に従って組み合わせることで文章が生まれ, 文章を重ねることで小説や随筆, 詩集となり人の心や意思を動かします. 当時,一番興味のある科目は国語と数学(算数)でしたが, 数学という抽象的な理論の世界でも,記号が組み合わさって数式となり, 数式はよく見るとまるで意思を持っているかのように力があり,動きがあるように感じます.私の専門である統計科学の要となる統計モデルも数式で記述されますが,統計モデルでさまざまな実世界の現象を捉え,分析し,新たな情報を得て次の行動につなげることで,大げさに言えば社会や人々のくらしを動かすほどの力になります.
子どもの頃から, 父が仕事で海外に行くと, 美しいガラス工芸や陶磁器のお土産と一緒にそこでの出来事や人々の様子を話してくれました. そのため自然に, いつか自分も海外で勉強や研究をしてみたいと願うようになりました. また, 当時はそのような風潮もあったのか,高校時代や大学時代に留学して, 現在は海外の大学で研究をしている同級生達もいます.私は大学進学後,留学生の受け入れに熱心だったカナダについて大使館で良く調べ, カナダの大学へ進学しました. まず, 地域社会に根差した小規模な大学で一般教養や専門課程の基礎を学んだあと, より幅広く専門的な学問ができる総合大学の理学部数学・統計学科へ移り, 数学, コンピューターサイエンス, そして統計学を学びました.
ある統計学の授業では, 学んだ理論をカナダ統計局の実際のデータへ適用するという演習を行いました. 算術平均とはいえ, 目の前である地域の平均所得を初めて算出できた時,「抽象的なものが具体的なものに変わった!」と感じて大きな感動を味わいました.さらに, 当時の日本の大学ではまだ提供されていなかった様々な統計学の授業を学部と大学院で受けるにつれ, 自分の統計モデルを作ってデータから新しい情報を見出すことができるようになれたら, という想いが強くなっていきました.この興味は後述のように,最終的に研究者としての道を選ぶきっかけとなりました.
高次元データと関数データ解析,情報学との協働
高次元データとは,データが測定された時点や地点の数が膨大で複雑な構造を持つデータのことで, 密に測定された時間の変動に伴い変化するデータや, CTやMRIによる医用画像データ, GPSによる時空間トラフィックデータなどはよく知られている例です(図参照).2000年代にはすでに高次元データが世界中で注目されていましたが, 従来の手法では分析できないため, 現在でも新しい統計モデルや機械学習手法の開発が活発に行われています. 私はカルガリー大学の修士課程で, 当時カナダの大学の研究者によって開発されたばかりの関数データ解析法を, 動的な人間歩行データに適用する研究を行いました.修士号を日本の大学年度にあわせて半年早く修得した後,世界的にも著名な統計学研究者の集まる九州大学へ進学しました. 博士課程では関数データ解析理論を発展させる研究を進め, この分野で未開発だったモデル選択の新たな評価規準を提案しました.さらに関数データ集合を対象にした変数間の関係を捉えるモデルを発展させ,成果のいくつかに高い独自性を認められて学会賞を受賞しました.
統計科学者は2本以上の専門領域を持つことが望ましいといわれることがあります.統計科学の理論的研究を基盤に, 2つ以上の専門分野での実践的研究を行う研究者です.博士課程修了後,私は医学研究科に近い部局に所属し,関数データ解析法の理論的開発とともに,ゲノムデータ,胃CT画像データ, 脳3次元MRIデータなど医用データのための最適モデルの開発・分析をするバイオ統計学に取り組みました. その後, 文系と工学系の融合を掲げる情報学の部局に属し, 同僚や学生との共同研究や指導を通じて, 計算機科学の技術と融合した統計モデルの開発を追究するようになりました.これらの経験が私の研究に新しい発展をもたらしてくれました.
私が現在取り組んでいる研究は,これまでに開発してきた高次元時空間データのための関数データのモデル群を実際のデータへ応用することと,新たな複雑系データに対して統計モデルを展開することです. そしてモデルの設定, 推定,評価を一体化した「関数多変量解析法の体系化」を目指しています.実践的な研究として, 大学病院小児科や放射線影響研究所,複数の大学工学系・医学系研究室,行政機関のグループ等と共同研究をしています.これらの研究成果はバイオ統計学の発展のみならず,ウェルビーイング(well-being:良好で満たされた状態のこと)向上のための介入策や治療指針の策定に貢献することが期待されています.
情報科学・工学を目指す人へのメッセージ
本学情報科学研究科には,数理系,工学系,医療・生命系,環境系,人文社会系など様々な分野の研究者と学生が集っています.データや情報をキーワードにして世の中の出来事に興味を持っている人には, 情報科学は楽しく興味深い学問分野です.この多様な知識と専門性が交差する環境に触発され, 私自身「AI of AI (AoA)」の開発をしたいと思うようになりました.これは,研究者が直面する研究課題に対して,異なる分野の研究者と協働しながら必要とされる最適なデータを提案し, 古典的な従来手法から最先端の分析手法に至るまでを自動で選別・分析し,その研究課題に対するデータの評価と解釈を自動的に提供することを目指しています.皆さんも,それぞれ得意な分野を活かしてこのプロジェクトに参加していただけると嬉しいです.