学位論文要旨



No 118104
著者(漢字) 中道,礼一郎
著者(英字)
著者(カナ) ナカミチ,レイイチロウ
標題(和) 不完全マーカーにもとづく自殖性・他殖性生物のQTL解析手法の開発
標題(洋)
報告番号 118104
報告番号 甲18104
学位授与日 2003.03.28
学位種別 課程博士
学位種類 博士(農学)
学位記番号 博農第2493号
研究科 農学生命科学研究科
専攻 生産・環境生物学専攻
論文審査委員 主査: 東京大学 教授 岸野,洋久
 東京大学 教授 堤,伸浩
 東京大学 助教授 平野,博之
 東京大学 助教授 嶋田,透
 東京大学 助教授 根本,圭介
内容要旨 要旨を表示する

 生物の形質は、質的形質と量的形質に大別される。一般に、質的形質とは表現型が不連続で定性的に記述できる形質のことであり、量的形質とは表現型が連続的に変化し計数値や計量値によって記述される形質のことである。量的形質には、作物の収量(重量)や草丈(長さ)、開花期(時間)など、農学研究において重要な形質が多く、量的形質に関与する遺伝子座(quantitative trait locus, QTL)の解析は重要な課題となっている。量的形質は小さな遺伝子が多数関与していることが多いため、各遺伝子型間の差異は微小である。さらに、環境による連続的な変動が加わるため、表現型値から遺伝子型を推測することは通常の方法では不可能である。そのため、解析には統計遺伝学的手法を用いる必要がある。

 一般的なQTL解析では、形質値の異なる2つの親系統P1、P2を交配して得られた後代を、ある遺伝子座について、P1由来のホモ接合、P2由来のホモ接合、ヘテロ接合の3つにグループ分けする。そして、グループ間差で遺伝子座と目的形質の連鎖および遺伝効果をはかる。そのために最も簡単な方法は純系の親系統を用いることである。この場合マーカーの遺伝子型がそのまま親系統の由来を表す。いま、M個のQTLの存在を仮定すると2つの純系親P1、P2間の交配から得られた個体の表現型値Yは以下の遺伝モデルで表される。ここで、μは遺伝子型によらない定数であり、eは環境効果である。環境効果は中心極限定理によって正規分布で近似される。gxはx番目(x=1,2,…,M)のQTLの遺伝効果であり、その値はQTLの遺伝子型に応じて相加効果axと優性効果dxで定義される。このようなサンプル個体をN個体得たとき、式1のM個のQTLの仮定は以下の尤度で評価される。ここでkx(x=1,2,…M)はx番目のQTLの遺伝子型で、P1由来の対立遺伝子をQx、P2由来の対立遺伝子をqxとするとQTLの遺伝子型QxQx、Qxqx、qxqxに対しkx=1,2,3となる。Pi,kxは、i番目(i=1,2,…N)の個体のマーカー遺伝子型に対するx番目のQTL遺伝子型kxの条件付き確率である。これはQTLと隣接マーカーの組換価から算出される。φi,k1…kMは、i番目の個体の表現型値yiのQTL遺伝子型に対する条件付き分布である。環境効果に正規分布を仮定していることから以下のように表される。ここで、σ2は環境分散である。gx,kxはx番目のQTLの遺伝効果であり、遺伝子型kx=1,2,3に対して。ax、dx、-axである。QTLの遺伝子型は直接観察できないので、マーカーの遺伝子型からQTL遺伝子型の条件付き確率Pi,kxを求め、表現型値の条件付き分布φi,k1…kMをPi,kxで重み付けして相加平均をとることで、式2の尤度としている。

 このようにQTLの数と位置を仮定すれば、その仮定の下での遺伝効果を最尤法によって推定し、その仮定の善し悪しを尤度によって検定することができる。しかし、QTLの数と位置は事前に知ることはできないため、全てのQTLの可能性について検定するのは現実的でない。そこで、このような組み合わせ最適化問題に優れた手法として、遺伝的アルゴリズム(genetic algorithm, GA)による解析法を提案する。GAは、最適解を求めるのが困難だが、最適解の候補の良し悪しを評価することは可能である問題を、生物の進化のアナロジーによって解く手法である。GAにおいて、求めたい最適解の候補は仮想的な生物個体(GA個体)の「遺伝子型」としてコード化され、その最適解候補の評価はGA個体の「適応度」として表される。まず、はじめにランダムな「遺伝子型」をもつGA個体の集団を生成する。次に「適応度」に応じてGA個体を「淘汰」し、選ばれた「適応度」の高いGA個体の「遺伝子型」から次の世代のGA集団の「遺伝子型」を生成する。これをくり返すことでGA個体を「進化」させると、世代が進むに連れGA集団全体に良い「適応度」を持つGA個体が増えていく。最後に生き残った最も「適応度」の高いGA個体の「遺伝子型」、すなわち最も評価の高い解候補を最適解として採用する。QTL解析におけるGA遺伝子型はQTLの数と位置であり、GA適応度はQTLの数と位置の仮定に対する尤度である。

 GAの最大の利点は実装の単純さである。そのため、複雑な問題を複雑なまま自由にモデル化して解析できる。より複雑なケースでのQTL解析として欠測値の問題を考察する。QTL解析はマーカー遺伝子型情報に依存しているが、実験の不手際でデータが欠落することもあれば、優性マーカーによって遺伝子型の一部が観察できないこともある。また、純系親の作成に際し、ホモ接合性が完全でなく、不完全分離・非分離マーカーを生じることもある。不完全なマーカー情報が得られた場合でも、それ以外のマーカーを同時に使用することで失われた情報を補うことができる。不完全マーカーの遺伝子型の条件付き確率は周辺のマーカーとの組換価から求められる。失われた遺伝子型情報はこの条件付き確率に従うランダムサンプリングによって決定される。不完全マーカーの遺伝子型は、他のマーカーから得た条件付き確率に従っているとはいえ、遺伝子型を決め打ちすることで、推定に多少のずれが生じているはずである。そこで、不完全マーカーの遺伝子型のランダムサンプリングは、GA個体ごと、GA世代ごとに全てやり直し推定値を更新する。通常、GA集団の個体数は数百で、数十世代の世代交代を繰り返すことから、不完全マーカーの遺伝子型は数千から数万のランダムサンプリングがなされることになる。これによって、GAによる推定全体では不完全マーカーの遺伝子型の偏りは解消され適切な推定がなされる。

 これまでのQTL解析手法は遺伝モデルを単純化するため純系親由来の交配に依存してきた。一方、多くの他殖性生物では純系親の作成は困難である。そこで、GAによる柔軟なモデル構築を生かして純系親を用いない手法を提案する。いま、任意の自然集団から無作為にNp個体の生物個体をとりだし、それら無作為交配して一交配あたりのNo個体の子個体が得られたとき、M個のQTLを仮定した遺伝モデルとその尤度は以下のようなる。ここで、yiはi番目(i=1,2,…Np)の親個体の表現型値で、yi1,i2,jはi1番目とi2番目(i1,i2=1,2,…Np;i1≠i2)の親個体の交配のj番目(j=1,2,…No)の子個体の表現型値である。μは遺伝子型によらない定数であり、eは正規分布に従う環境効果である。ax,i,hはi番目の親個体のx番目(x=1,2,…,M)のQTLのh番目(h=1,2)の対立遺伝子の遺伝効果である。h1とh2はそれぞれ、i1番目とi2番目の親個体から受け継いだQTL対立遺伝子の由来である。φPiは、i番目の親個体の表現型値yiの、QTL対立遺伝子の遺伝効果に対する分布である。φoi1,i2,j,k1…kMは、i1番目とi2番目の親個体の交配のj番目の子個体の表現型値yi1,i2,jのQTL対立遺伝子の由来型kxに対する条件付き分布である。これらは、環境効果の正規性の仮定から式3同様、平均が定数μと遺伝効果の和で分散が環境分散に等しい正規分布となる。Pi1,i2,j,kxは、i1番目とi2番目の親個体の交配のj番目の子個体のマーカー遺伝子型に対するx番目のQTLの対立遺伝子由来型kxの条件付き確率である。これはQTLと隣接マーカーの組換価から算出されるが、純系親を用いない交配ではマーカー遺伝子型情報は不完全である。他殖性自然集団ではマーカーがきれいに分離している保証はない。たとえきれいに分離しても、linkage phase、つまり対立遺伝子の組み合わせは観察できない。すなわち、親個体のマーカー遺伝子型がAaBbであっても、その半数体型がABとabであるのかAbとaBであるのかは観察できない。つまり非純系親交配ではマーカーは全て不完全分離状態で、その由来情報は観察できない。しかしマーカー由来情報の条件付き確率は算出可能である。親個体のlinkage phaseの事後確率は子集団内の遺伝子型の分布から求められ、親のlinkage phaseが決定されれば子のマーカー由来情報の条件付き確率は周辺マーカーとの組換価から求められる。前述の純系交配での欠測値の問題と同様に、これらの事後確率と条件付き確率に従うランダムサンプリングでマーカー由来情報が決定される。ランダムサンプリングはGA個体ごと、GA世代ごとに全てやり直し、推定値を更新する。

 シミュレーション実験でこれらの手法の有効性を確認したところ、従来の手法が対処できない状況においても効果的にQTL検出がなされることが示された。QTL解析では、純系親作成のコスト、サンプル飼育のコスト、マーカー開発のコスト、マーカーの共優性・優性による解析の容易さなどで実験の負荷が決まる。これらの要因は生物種によって異なるが、GAではこれを考慮してその生物に最適な実験を設計できる。つまり、従来のように解析手法の制約にあわせて実験を設計するのではなく、実験者の都合にあわせて柔軟に解析手法を構築することが可能となった。

審査要旨 要旨を表示する

 著者は世界に先駆けて、遺伝アルゴリズムによるQTL解析を提案した。本論文は、同氏が2001年に発表した論文を踏まえ、遺伝アルゴリズムによるアプローチの適用範囲を大幅に広げた成果を報告している。

 QTL解析はゲノム上に数多く配置された多型マーカーとの連鎖から量的形質の遺伝子座をマッピングする。本質的な遺伝子座の数とその位置、遺伝効果が推定すべきパラメータである。マーカーの遺伝子型の実現値と遺伝効果の統計モデルから、量的形質の尤度を書き下すことができる。パラメータは対数尤度を最大化することにより求めることができる。AIC(赤池情報量規準)を導入することにより、意味のない遺伝子を拾ってしまう第1種の過誤と重要な遺伝子を落としてしまう第2種の過誤を合理的にバランスさせることが可能となった。

 しかし、遺伝子座がマーカー上に存在することは稀であることから、尤度関数はいくつもの極大値を持つ。このことが、最大値を数値的に求めることを極めて困難にしていた。遺伝アルゴリズムはパラメータの値のなす集団に確率的な交配、挿入・欠失、突然変異を導入し、計算機の上で集団を「進化」させるものである。生物集団と同様に、AICで表現されたパラメータ集団の適応度が大域的に最適化され、頑健に最大値が得られるという強みがある。第1章ではシミュレーションを通じて、単純区間マッピング、複合区間マッピング、ベイズ法との対比において、このアプローチの優越性が示される。

 パラメータの微小更新に基礎を置く標準的な数値的最適化法に比し、確率的な集団の進化を実現させる本アプローチは、確率的な誤差に強い。第2章ではこのことを最大限に生かし、利用する多型マーカーがAFLPのような優性マーカーであったり、部分的に欠測を含む場合にも、自在にQTL解析を行うことを可能とした。条件付確率に基づき乱数により確率的にこれを復元し、SEMによりパラメータ推定を行う。欠測データの復元と完全データによるQTL解析と、問題を2段階に分解するもので、欠測部分について尤度を積分して周辺尤度を最大化する直接的アプローチに比べ、格段にプログラムが簡略化される。このことは、種々の特性を持ったデータから情報を余すところなく抽出し、複雑な遺伝構造をタイムリーに推定するためには欠かせない要素である。毎世代、各個体ごとに数多くの乱数を生成させるため、遺伝アルゴリズムに組み込まれると、集団の確率進化を通じて頑健なパラメータ推定が可能となる。シミュレーションからは、50%程度の欠測を含んでいても、完全データの8割から9割のQTL検出率を保つことが示された。

 第3章では他殖性生物のQTL解析手法が提案される。QTL解析の基本形は、ゲノムレベルでホモの親系統の交配実験を想定する。純系を作出できる生物はイネ、マウス・ラット、ショウジョウバエなど限られた範囲に限られ、多くの他殖性生物は、交配を重ねると近交弱勢により系統が絶えてしまう。また自殖生物においても、検出できるQTLは、親系統における形質の変異に関係するものに限られる。こうした限界を克服し、本章では、マーカーとQTLがヘテロ接合であることを想定した親系統を複数個体用意し、これらを交配する実験を対象とする。マイクロサテライトなどの高度に多型なマーカーを利用することにより、後代のマーカー遺伝子型の由来を追跡することが可能となる。これにより、マーカー間組換え価、および遺伝形質とマーカーとの連鎖を統計的に推定することができるようになった。親個体は母集団からの無作為標本である必要はなく、形質において変異の大きい個体を選抜して交配親に用いることにより高い検出力を達成することができる。シミュレーションからは、可能な限り親の数を絞り込んで、交配してマーカーを調査する子個体の数を多くすることが検出力を高めることが示された。

 第4章ではさらに実用性を高め、linkage phaseの復元を組み込む。第3章においてはマーカーの多型性を利用して後代のマーカー遺伝子型の由来親を特定した。実際には、由来親を特定できるだけの多型性が得られない場合も数多くある。こうしたときは、親のlinkage phaseを確定することができない。組換え価の推定はこのlinkage phaseに大きく依存するため、親のlinkage phaseに関する不確実性を考慮に入れて、周辺尤度を最大化することが求められる。こうした問題の困難さから、他殖性生物のQTL解析を行う実用的なプログラムは現在のところ存在しない。本章では乱数により不完全マーカーを復元しながらQTL解析を行う方法(第2章)を発展させ、linkage phaseの不確実性を加味して、他殖性生物のQTL解析を行う遺伝アルゴリズムを提案した。交配を重ねてゲノムをホモ化する必要がないことから、連鎖解析の適用範囲が大幅に広がる。

 審査委員会はこれを評価し、今後実データの解析を通じて有効性を示すことを期待した。さらに、統計モデルとアルゴリズムの柔軟性から、近い将来このアプローチをさらに発展させ、分離比の歪みを踏まえながら、エピスタシス(遺伝子間相互作用)、環境との相互作用をも高感度で検出し、遺伝的アーキテクチャを推定するアルゴリズムを開発することを期待した。そして、本論文が博士論文として満足する内容を持っていることを認めた。

UTokyo Repositoryリンク