学位論文要旨



No 123790
著者(漢字) 口羽,文
著者(英字)
著者(カナ) クチバ,アヤ
標題(和) ベイズ流アプローチを用いたゲノムワイド関連研究におけるマーカー選択
標題(洋)
報告番号 123790
報告番号 甲23790
学位授与日 2008.03.24
学位種別 課程博士
学位種類 博士(保健学)
学位記番号 博医第3129号
研究科 医学系研究科
専攻 健康科学・看護学専攻
論文審査委員 主査: 東京大学 教授 徳永,勝士
 東京大学 教授 小山,博史
 東京大学 准教授 梅崎,昌裕
 東京大学 准教授 山崎,喜比古
 東京大学 講師 宮下,光令
内容要旨 要旨を表示する

緒言

ヒトゲノム配列の解読が終了したことにより,集団中にありふれていて,より複雑な疾患に関する遺伝要因の研究が盛んに行われるようになった.多くの「ありふれた」疾患は,複数の遺伝子,環境要因,また,それらの交互作用により引き起こされることが知られている.そのため,遺伝要因の解明にはゲノム全体を対象とするアプローチが強力な手段になり得ることが指摘されていた.近年では,HapMapプロジェクトにより,ヒトゲノム上の遺伝的変異パターンは急速に解明されつつある.また,遺伝子型測定技術の進歩も著しく,近年では,数十万個のSNPを同時に扱うことができるようになった.これらのことから,「ありふれた」疾患に関する疾患感受性遺伝子の特定に大きな期待が持たれている.しかし,疾患と真に関連があり生物学的にも重要な遺伝子でもその効果は比較的小さいことが予想されており,疾患とは無関係な大部分のSNPとの分離は困難なものとなっている.そのため,このような超大量データを扱う研究デザインや解析方法のさらなる発展が必要とされている.

ゲノムワイド関連研究では,コスト効率の観点より,すでに多段階デザインを用いることが一般的であるが,どのようなSNPのサブグループを追跡することが最適であるか,という問題に対して,多くは統計学的有意性を用いて検討されてきた.この方法は,研究対象に対して特に事前情報がなく,すべてのSNPを等価として考えることが妥当である場合には有用な方法である.一方で,すでにヒトゲノムに関する多くの研究がおこなわれており,これらより得られる事前情報を考慮してSNP選択を行う方法が提案されつつある.事前情報を積極的に用いることのできる方法の1つに各SNPに対してベイズ流の推論を行うことが考えられる.ベイズ流の推論とは,既存の知識を反映する事前分布とデータより得られる尤度の両方を用いて得られる事後分布に基づいて推論を行う方法である.広範囲の事前情報を考慮できることや推定量の性質のよさより,遺伝子研究の分野においても注目されつつある.そこで,本論文では,ゲノムワイド関連研究1次スクリーニングにおけるSNP選択方法として,さらに検討すべきSNPの優先順位を付けるという観点より,連鎖不平衡パターン,事前情報を柔軟に考慮できる選択方法を提案する.また,本論文の動機付けとなったケース・コントロール研究デザインによる肺腺がんゲノムワイド関連研究データに基づくシミュレーションを行うことによって,その性能を評価する.さらに,標準的な方法と提案する方法の両方を実データに適応した結果の比較検討を行う.

方法

j(j=1,・・・,m)番目のSNPに対する統計量Tjは,平均θj,分散1の正規分布に従うとする.

標準的な方法では,このTjの大きさに基づいてSNPが選択される.これはp値による選択と等価である.

ゲノムワイド関連研究では,疾患と関連のあるSNPが少数存在し,そのほかの大部分のSNPは疾患とは関連がないという事前情報が存在する.この事前情報を個々のSNPに考慮するため,θjに対して,以下の事前分布を考える.

ここで, は,0のpoint massを持つ関数である.第1項が関連ありの場合,第2項が関連なしの場合にθjが従うと考えられる分布を表している.Pは,SNPjが真に疾患と関連がある確率であり,このとき は平均μ,分散τj2の正規分布に従う.また,SNPjは確率1-Pで疾患と関連がなく,その場合にはθj=0の質点を持つとする.これらより,事後期待値E[θj|Tj]は,

と求めることができる.ただし,

である.

事後期待値は,疾患と関連があった場合の事後期待値にさらに"データを与えた下で効果がある確率"と解釈できるwjが考慮された指標であると考えられる.この事後期待値に基づきSNP選択を行う.P,μは外部情報より事前に設定できるものとする.また,τj2は経験ベイズ法により観測データを用いて最尤推定することを考える.このことにより,各SNPに対する推論に観測データの連鎖不平衡パターンを反映させることができる.

シミュレーションによる評価と結果

標準的な方法によるSNP選択と事後期待値による方法の性能を比較検討するため,シミュレーションを行った.本論文の動機付けとなった肺腺がんゲノムワイド関連研究データの連鎖不平衡パターンを反映させるため,実データのコントロール群を用いて擬似データを発生させた.1,000SNP中,真に疾患と関連のあるSNP(以下,感受性SNP)が1つ存在するとし,この感受性SNPの位置を変えることによって,その周辺の連鎖不平衡パターンをいくつか設定した.感受性SNPの位置を8通り,オッズ比=1.2,1.5の2通りの合計16通りの擬似ケース・コントロール集団における検討を行った.事前情報を反映した事前分布として,P=0.001,μ=1,2,3を設定し,感度・特異度,感受性SNPの平均的な順位,選択されるSNPの感受性SNPからの距離の3つの観点より評価を行った.

図1にROC曲線を示す.ROC曲線は,選択基準とした上位S%をS=0,1,2,・・・,10,15,・・・,100(%)と変化させ,選択基準ごとに感度,特異度を求めることによって作成した.μの設定に依存するものの,標準的な方法に比べて,感度,特異度の観点より性能が改善されることが示された.また,同様の状況設定において,標準的な方法を用いた場合の感受性SNPの順位は233.6であった.一方,μ=1,2,3における事後期待値による順位は,それぞれ160.6,161.8,175.6となり,感受性SNPの優先順位が上昇することが示された.さらに,図2に,上位50番目までのSNPと感受性SNPとの距離の関係を表す.特に連鎖不平衡の強い領域内に感受性SNPが存在している場合には,事後期待値を用いる方がより感受性SNPに近いSNPが上位に選択される傾向にあることが示唆された.

また,肺腺がんのゲノムワイド関連に適応した結果,標準的な方法を用いた場合と比べ,優先順位が異なるSNPが存在することが確認された.μ=2において,どちらかの方法により5,000番以内に含まれたSNPの順位をプロットした結果を図3に示す.

考察と結論

ゲノムワイド関連研究において,さらに検討すべきSNPの最適な選択方法を探索することを目的とし,本論文では,既存の知識と観測データの連鎖不平衡パターンを考慮できる事後期待値による選択方法を提案した.ベイズ流のアプローチを用いることで,各SNPに対する事前情報をより柔軟に利用することが可能となる.また,ハイパーパラメータの設定により,戦略的なSNP選択を可能にすると考えられる.シミュレーションによる評価の結果,標準的に用いられている方法と比べ,同等かそれ以上の性能をもつことが示された.また,ゲノムワイド関連研究では,膨大な数のSNPに対する検討が必要であるが,提案する方法は計算負荷が少ないため,容易に適応可能であることも利点であると考えられる.しかし,性能の改善の程度は,事前分布の設定や感受性SNPが存在する領域の連鎖不平衡パターンに依存する.近年では,各SNPに対するより詳細な特徴が比較的容易に得られるようになりつつある.よって,1次スクリーニングのように大規模で,より探索的なSNP選択において,これらの情報の最適な利用法にはさらなる検討が必要であると考えている.

図1. ROC曲線.

縦軸は感度,横軸は1-特異度を表す.Standardは標準的な方法,PosteriorE(Myu=a)はμ=aとしたときの事後期待値を示す.

図2. 選択されたSNPと感受性SNPとの距離.

縦軸は感受性SNPとある一定の距離(kb)以内に含まれるSNPの割合,横軸は感受性SNPとの距離を表す.Standardは標準的な方法,PosteriorE(Myu=a)はμ=aとしたときの事後期待値を示す.

図3. 標準的な方法あるいは事後期待値による方法のどちらかの方法にて上位5000番目に入るSNPの順位の比較.

縦軸が事後期待値(μ=2)による順位,横軸が標準的な方法による順位を表す.優先順位が高い順に1番から順位をつけた.赤線は5000番目を示す.

審査要旨 要旨を表示する

本研究は,近年盛んに行われるようになった「ありふれた」疾患に対するゲノムワイド関連研究において,膨大な数のSNPと疾患との関連を探索することが必要となる1次スクリーニングのSNP選択方法についての検討を行った.観測されたデータの連鎖不平衡パターンや先行研究より得られる既存の知識を利用するために,ベイズ流アプローチを応用した統計量を用いることを提案した.また,シミュレーションによって提案する方法の性能評価を行い,下記の結果を得ている.

1.上位S%を1次スクリーニングにおけるSNPの選択基準とし,各選択基準における感度,特異度の観点より評価を行った.結果,多くの状況において,現在広く用いられている標準的な方法と比べ,提案する方法の方が性能が優れていることが示された.特に,疾患感受性SNPの疾患に対する効果が小さく,標準的な方法ではpowerが十分に確保できない状況において,性能がより向上する傾向にあることが示された.

2.疾患感受性SNPの平均的な優先順位についての評価を行った.結果,多くの状況において,提案する方法を用いた方が,優先順位が上昇することが示された.特に,疾患感受性SNPの疾患に対する効果が小さく,標準的な方法ではpowerが十分に確保できない状況や,疾患感受性SNPが連鎖不平衡の強い領域に存在している状況で優先順位の上昇の程度が大きいことが示された.

3.優先順位の高いSNPと疾患感受性SNPとの物理距離についての検討を行った.結果,多くの状況において,標準的な方法と提案する方法との間に違いは見られなかったが,疾患感受性SNPが連鎖不平衡の強い領域に存在する状況においては,提案する方法を用いることで,疾患感受性SNPにより近いSNPの優先順位が高くなる傾向にあることが示された.

4.本論文の動機付けとなった肺腺がんゲノムワイド関連研究の1次スクリーニングデータへ適応した結果,標準的な方法と提案する方法とでは,優先順位が異なることが確認された.このことは,新たな疾患感受性SNPの候補の提示につながるものと考えられる.

以上,本論文はゲノムワイド関連研究の1次スクリーニングにおいて,提案するベイズ流アプローチによるSNP選択方法の有用性をシミュレーションにより検討した.提案する方法は,観測データの連鎖不平衡パターンや事前情報に"適応的"な方法である.このことは,今後ヒトゲノムに関する知識がますます増加すると予想されることからも,有用な性質であると考えられる.また,大規模な探索的研究において,より戦略的なSNP選択を可能にするものであり,今後の疾患感受性遺伝子の探索に重要な貢献をなすと考えられ、学位の授与に値するものと考えられる。

UTokyo Repositoryリンク