学位論文要旨



No 217380
著者(漢字) 小谷野,仁
著者(英字)
著者(カナ) コヤノ,ヒトシ
標題(和) 生態学および疫学データのための統計的方法
標題(洋) Statistical Methods for Ecological and Epidemiological Data
報告番号 217380
報告番号 乙17380
学位授与日 2010.07.02
学位種別 論文博士
学位種類 博士(農学)
学位記番号 第17380号
研究科
専攻
論文審査委員 主査: 東京大学 教授 岸野,洋久
 東京大学 教授 久保川,達也
 東京大学 准教授 宮下,直
 東京大学 特任准教授 西田,洋巳
 東京大学 准教授 岩田,洋佳
内容要旨 要旨を表示する

本論文は、(i) 生物多様性の推定、(ii) 小地域推定、および (iii) 個体群密度の推定という、生態学と疫学における3つの問題を、数理統計学と確率論を用いて扱うための方法論に関する著者の研究の結果をまとめたものである。論文の第1章では、本論文が扱う問題とその背景および先行研究について述べ、論文全体の構成を示す。

第2章と第3章では、近年急速に蓄積されている配列データを用いて生物多様性 (α多様性)を定量するための方法論を提案し、微生物生態学への応用によってその有効性を示し、更に方法論の背後にある数理的な基礎を組織的に述べる。1つの環境下の全てのリボソームRNA遺伝子配列を収集することは到底不可能であるから、我々は標本から母集団の多様性を推定するしかないが、この時、(i) 母集団の多様性をどのように定義するかと (ii) それを標本からどのように推定するかという2つの問題がある。伝統的には、豊富さと均等度が、多様性の指標が反映すべき最も重要な性質であった。しかし、配列の全ての組の間のダイバージェンスを考慮して多様性を測定しようとする時には、カテゴリー間の均等度は重要でなくなる。また、配列の群集は一般にいくつかの部分群集からなるため、その多様性を、各部分群集の中の多様性と部分群集の間の多様性の両方を反映する階層的な量として定義することが望まれる。例えば、母集団からランダムに選んだ配列の間の距離の平均を計算する通常の方法では、配列群集が階層を形成するという側面が考慮されていない。そこで、我々は、配列群集の母集団の多様性を豊富さと階層形成性を反映する量として定義し、それを推定する方法論を提案する。

我々が生物多様性の定量問題に接近する際の基本的な着想は、大雑把には次のようである。Aを4つの文字a,g,c,およびtと空文字eからなる集合とし、A*をA上の文字列の全体とする。A*上にLevenshtein距離dLを定義し、距離空間を構成する。文字列sとrの間のLevenshtein距離とは、sをrに変形するのに必要な削除、挿入、および置換の3つの操作の最小回数のことである。A*は連接によって非可換な半群をなすが、ベクトル空間ではないから、s1,…, sn∈A*に対して、これらの平均は定義されない。そこで、位置の尺度としてコンセンサス配列 (m(,s1…, sn)によって表す)をとると、散らばりの素朴な尺度を、例えば

によって定義できる。我々は、A*上に確率論を展開することによって、リボソームRNA遺伝子配列を用いた生物多様性の定量問題に接近する。我々は、1つの環境下の微生物全体の多様性の定量に我々の方法論を応用し、多様性と様々な環境パラメータの間の関係を調べる。

第2章は、我々の方法論の提案とそれの微生物生態学への応用である。我々は、まず第2.1節において、様々な環境下で収集された微生物のリボソームRNA遺伝子配列の環境標本をグラフによって視覚化し、配列の群集の構造を捉える。この結果に基づいて、第2.2節で生物多様性の定量の方法論を提案する。その数理的な側面は第3章で組織的に述べられる。第2.3節では、生物多様性の定量に必要になる配列の分類アルゴリズムを提案し、その性能を調べ、第2.4節では、提案する多様性の推定量の頑健性を数値的に検討する。そうして第2.5節で、我々の方法論をいくつかの極限環境と消化器官の微生物群集に適用して、環境パラメータと微生物多様性の間の関係を考察する。更に第2.6節では、環境間の配列の共有量の推定を行って、環境と微生物群集の組成の関係を調べる。補足の図が第2.7節で示され、分析に用いられた配列データの出典の一覧が第2.8節で与えられる。

第3章では、生物多様性の測定のために開発した統計理論を体系的に述べる。文字列データの統計に関しては、著者の知る限り、理論的枠組みさえまだ確立されていない。そこで、まず第3.1節と第3.2節において、確率文字列の統計の枠組みを提案し、次に第3.3節において、いくつかの基礎的な補題を証明する。その後第3.4節において、確率文字列の列に対する大数の強法則と、我々が提案する生物多様性の推定量に対する漸近的結果を証明する。これらの結果は、生物配列だけでなく、一般の文字列データの統計的分析においても基礎的な役割を果たすと期待される。

第4章では、母集団がいくつかの部分母集団に分かれている場合に、部分母集団の、例えば個体数、平均的な体長、平均年齢などを合わせた多次元の特性量を同時に推定する問題を考える。このような推定は小地域推定と呼ばれ、部分母集団は小地域と言われる。小地域統計学における最も基本的な問題は、小地域の標本の大きさが一般にそれほど大きくないために、各小地域に通常の推定量を適用すると、それが決して小さくない標準誤差をもたらすことにある。小地域推定においては、この問題に対処して推定量の精度を高めるために、データを合併したり平滑化したりする方法として、混合線型モデルが使われてきた。1変量の混合線型モデルは非常に古くから研究されており、また多変量の混合線型モデルに関しても、釣り合い型の場合には、多くの結果が知られている。

しかし、生態学や疫学の研究においては、標本の大きさが小地域によって異なる非釣り合い型の場合が多くある。そこで第4章では、我々は、異なる繰り返し数を持つ多変量混合線型モデルにおける予測問題を、統計的決定理論の枠組みで考察し、ミニマックス性に関するいくつかの結果を与える。我々は、まず第4.1節において、考察する問題を定式化し、非釣り合い型の場合の取り扱いが釣り合い型の場合とどのような点で技術的に異なるのかを述べ、その後、続く節で取り扱う推定量を定式化する。次に第4.2節で、通常の推定量である小地域毎の標本平均と定式化した推定量のリスクの差の評価を導出し、第4.3節で、その評価を使って、標本平均を改良するEfron-Morris型の2つの経験Bayes推定量を構成する。第4.4節では、我々は、構成した2つの経験Bayes推定量が標本平均をどの程度改良しているのかを数値実験によって調べる。最後に第4.5節で、我々は、提案する推定量を応用して、アフリカにおけるマラリア感染リスクの解析を行う。

1つの領域におけるある生物の個体群の大きさや密度を評価することは、生態学における基礎的な主題のうちの1つであって、様々な生物に対して、その個体群の大きさや密度が算定、あるいは推定されている。この問題に対する方法論上の研究においても、直接的な計数、遠隔探査、統計的推定などの様々な方法が開発されている。ところで、実際の調査においては、領域の広大さや調査の費用のために、観測を行うべき領域全体に渡って調査を行うことが不可能である場合がある。そこで、我々は、第5章において、個体群密度の推定問題と観測領域の決定問題を合わせて考察して、それらの両方を同時に最適化する方法を提案し、その方法の理論的な基礎を与える。我々は、問題をPoisson過程の平均インテンシティーの逐次推定問題の変形として定式化するが、個体群密度の推定においては、観測領域の範囲は、ある場合には熱帯雨林や海洋の1つの領域であり、また別の場合には少量の土壌や海水であるなど、地理的な距離や長さの意味を持ち、その測定の単位は場合によって様々である。そこで、我々は、観測領域の決定規則と個体群密度の推定量に対して、スケール変換群の下での共変性を要請する。不変性原理を用いる結果、我々は、提案する方式の最適性を、漸近的方法を用いる逐次推定の従来の枠組みでではなく、統計的決定理論の枠組みで議論する。

我々は、まず第5.1節において、考察する問題を定式化し、その後、時間パラメータ空間上のスケール変換群の下での逐次方式の共変性を定義する。次に第5.2節で、Poisson過程の平均インテンシティーに対する、スケール変換群の下で共変な逐次方式を構成する。この逐次方式の構成の際に使われるいくつかの基礎的な関係式は、第5.4節で与えられる。第5.3節では、我々は、まず提案する逐次方式の許容性に関する結果を、情報量不等式を用いる方法によって証明し、その後、その逐次方式は、スケール変換群の下で不変な事前分布に対するBayes逐次方式であることを示して、ミニマックス性に関する結果を与える。

審査要旨 要旨を表示する

生物群集は複雑な構造を持っており、サンプリング調査に基づく母集団特性の偏りのない推定が不可欠となる。この課題が必ずしも容易でないことは、たとえば腸内細菌や土壌微生物の群集の多様性を測定することを想定すれば、理解される。異なる環境、異なる時点での調査は規模も異なることは避けられない。予め母集団の構造に対して強い仮定を置くことなく、データの持つ情報をゆるやかにまとめ上げることにより、頑健な推定をすることが可能となる。しかし残念ながら、現在のところ、数理統計学と確率論の理論に裏打ちされた方法論はほとんど未整備の状態である。そこで本論文は、生態学・疫学の調査データを最大限に生かす統計的方法を提案する。第1章において問題の背景と先行研究を概観し、全体の構成を示したのち、生物多様性の推定(第2章、第3章)、小地域問題(第4章)、個体群密度の推定(第5章)という、生態学と疫学における3つの問題について、数理統計学と確率論による理論的整備を行う。

1.生物群集の遺伝的多様性の推定

生物群集の持つメタゲノムからサンプリングされた相同な遺伝子配列に基づき、群集を構成する種の遺伝的多様性を偏りなく推定する尺度を提案する。集団遺伝学における遺伝的多様度は無作為交配を理論基盤に置いているため、種間の分散の尺度としてそのまま適用するための理論的根拠を提供しない。そこで第2章において、群集の遺伝的多様度をコンセンサス配列からの配列の平均距離として得られる配列間の分散で定義する。配列間の距離としてLevenshtein距離(2つの文字列の違いを説明する置換と挿入・欠失の回数の最小値)を採用する。ただし、群集は一般に多くの部分群集からなり、階層構造を持つ。部分群集の複雑な構造を頑健にとらえるために、近接配列をまとめ上げることにより部分群集を定義する。群集の遺伝的多様度を、部分群集の配列とその部分群集のコンセンサス配列からの距離の期待値とコンセンサス配列とそのコンセンサス配列の間の距離の期待値の和で遺伝的多様度を表現する。

Yellowstone国立公園にある8つの温泉からサンプリングされた1068の16SrRNA配列からなる標本について、大きさ200, 400, 600, 800の部分標本をとり、上で定義した遺伝的多様度を比較したところ、標本サイズによらず全標本に基づく推定値の周りに偏りなく分布していることが示された。分子系統樹の総枝長は標本サイズとともに増加し、平均枝長は標本サイズとともに減少したのと対照的である。野外の極限環境として温泉、アルカリ湖、塩湖、南極、深海溝、深海穴フィールド、温度をコントロールされた環境としてヒトの口腔、胃、腸、ウシの第一胃における微生物群集の16SrRNA標本を調査した結果、とりわけ極低温が遺伝的多様度を下げることが観測された。さらに異なる群集間で類似配列の割合により遺伝的共通性を求めたところ、類似の環境では遺伝的共通性が高く、異なる環境下では共通性は低いことが確かめられた。唯一例外は、アルカリ湖が南極および深海溝と共通性が高かったことである。

第3章では、第2章で提案された遺伝的多様性の尺度の理論基盤を与える。まず、塩基配列をはじめとする文字列のなす集合に、距離と確率構造が与えられ、独立性が定義される。その上で、標本配列のコンセンサス配列および標本分散が標本サイズとともに母集団のコンセンサス配列、母分散に確率1で概収束すること、すなわち文字列の確率空間上の大数の法則が証明される。

2.小地域の推定

第4章では、形質に地域差があることが予想される中で、広範な地域の状況を推定する問題を扱う。比較的多数の小地域をサンプリングするが、それぞれの地域からの標本は充分な数を採れない。しかも標本サイズは小地域ごとに不ぞろいである。地域ごとに個別に標本平均を求める方式では精度のよい推定は達成できない。そこで、地域間の違いを気候や人口などの測定可能な要因に還元できる固定効果とそれでは説明できないランダムな効果に分解する。ランダムな効果は、小地域の標本平均から固定効果を差し引いた残差として推定する。従って、標本平均をランダムな効果の予測値で補正することにより、推定精度を高めることができる。補正の強さは、小地域の標本サイズ、および地域間分散と地域内分散の相対比に依存する。本章では、この比の推定量としてEfron-Morris(EM)型推定量を採用することにより、ミニマックス性(実際の比の如何に関らず精度がこの推定量よりも上回るような推定量を他に得ることはできないこと)が保証されることを証明し、シミュレーションにより特にEM2型推定量が推奨されることを示した。

この結果を踏まえて、アフリカにおけるマラリア感染とそれによる死亡のリスク評価を行った。マラリアの生態には温度と降雨量に大きく左右されるため、赤道地域と乾燥地域に分け、殺虫剤処理を行った蚊帳の普及度、屋内残留噴霧の普及度、効マラリア薬アルテミシニンによる治療などの処置をリスクに影響を与える固定効果として解析に取り入れた。アフリカには53の国が存在するが、このうち13カ国のデータが入手可能である。解析の結果、国別の集計値に比べ、感染のリスク、それによる死亡のリスク、ともに1割ないし2割、低い推定結果が得られた。

3.個体群密度の推定

第5章では、コストを抑えつつ個体群密度を精度良く推定するための、妥当な調査規模について考察する。ここでは調査領域を次第に拡大し、観測数がある値に達したときに調査を終了させる方式を考える。観測数はポアソン過程に従う。調査のコストは調査の規模とともに増大する一方、密度の推定量の精度は向上する。この問題は、調査コストと推定誤差を加えた損失関数の期待値を最小化させる最適停止則と密度推定法を求める逐次決定の問題として定式化される。簡単のため、均質な空間分布を仮定する。半径を拡大させていく円状あるいは球状の調査領域の場合について、期待損失を最小化する許容的な決定則を得る。

以上のとおり、本論文は、生物多様性の尺度と推定、広範な地域の調査における小地域問題、個体群密度の推定という、生態学と疫学における3つの問題について、数理統計学と確率論による理論的整備を行った。今後モデルを改良することにより、様々な場面での適用が可能となるであろう。これらの研究は学術上および応用上価値が高く、よって、審査委員一同は本論文が博士(農学)の学位論文として価値あるものと認めた。

UTokyo Repositoryリンク