学位論文要旨



No 216959
著者(漢字) 伊藤,陽一
著者(英字)
著者(カナ) イトウ,ヨウイチ
標題(和) Feature SelectionにおけるMicroarrayの測定誤差を考慮した遺伝子発現量変化のCategorization
標題(洋)
報告番号 216959
報告番号 乙16959
学位授与日 2008.05.21
学位種別 論文博士
学位種類 博士(保健学)
学位記番号 第16959号
研究科
専攻
論文審査委員 主査: 東京大学 教授 橋本,英樹
 東京大学 教授 菅田,勝也
 東京大学 准教授 福田,敬
 東京大学 講師 後藤,順
 東京大学 講師 宮下,光令
内容要旨 要旨を表示する

マイクロアレイによって測定される腫瘍細胞中のmRNAの発現量によって、予後予測や薬剤感受性の識別を行うこと期待されているが、マイクロアレイで測定される数万種類の遺伝子からどのように候補遺伝子を選択するかというFeature selectionという問題がある。マイクロアレイという測定系には測定誤差が伴うことが知られているが、これまで解析上は無視されていた。本研究では、この測定誤差を考慮し、測定された遺伝子発現量を、誤分類確率をある値以下に抑えてカテゴリー化することを試みる。そのために、Resolutionという単位変化量内に確実に分類可能なカテゴリーをいくつ想定できるかという指標を定義する。また、遺伝子発現量を変化パターンに要約することによって、解析対象となる変数を何%にすることができるかというDimension Reduction Proportionおよび、観測可能な変化パターン数と測定された遺伝子数の相対的な指標として、Discrimination Coefficientを定義する。

通常用いられるFeature selection手法には、Univariate test selectionとDimension reduction approachがある。前者は遺伝子ごとに解析を繰り返しp値が小さい遺伝子を選択するという方法であり、後者は主成分回帰やPartial Least Square Regressionなどの多変量解析の手法によって多くの遺伝子発現データを少数の因子に縮約する方法である。本研究では、カテゴリー化の方法を通常のFeature selection手法と組み合わせるアプローチを提案する。応用事例として、本アプローチを乳癌の術後化学療法における組織学的奏効率を予測するために測定された遺伝子発現データに対して適用する。

連続量として観測されるデータをカテゴリー化すると、一般に検出力の低下することが知られている。カテゴリー化を行う際には、検出したい効果を十分に検出できる検出力が確保されているかどうか確認しておくことが重要である。そこで、Univariate test selectionを想定し、提案した方法の統計的な性能をシミュレーションによって評価する。

シミュレーションの結果、カテゴリー数3の場合、検討すべき遺伝子数を劇的に減らすことができるものの、検出力がほとんどなくなってしまうことが明らかとなった。また、遺伝子発現量変化が平均0.3以上ある遺伝子であれば、サンプル数50のカテゴリー数5で十分に検出可能であることが明らかとなった。

本研究が提案するカテゴリー化によるアプローチの特徴は、測定誤差を考慮しつつ個々の遺伝子の発現量変化をパターンに分類することができる点である。このため多くの遺伝子を少ないパターンに要約することができ、本研究で提案したアプローチのように、検討する変数の数を減らすことが可能になる。また他の特徴としては、ある閾値以上の変化をひとつのカテゴリーにするため、極端な外れ値に対して頑健であること、小さな遺伝子発現量変化をひとつのカテゴリーにするため、変化量の小さな遺伝子を除外できることが挙げられる。適用事例において明らかになったように、ある遺伝子の全ての対象者の変化量が小さな値であったとしても、結果変数との相関が強ければ統計的には有意となり選択されてしまう。このような遺伝子を選択したとしても、結果の再現性に疑問が残り、後続する臨床検査法開発の候補遺伝子としてはあまり役に立たないように思われる

本研究で提案したResolutionは、カテゴリーの閾値を等間隔に取ったために、大変に簡便な式で表現することができた。本研究のような遺伝子発現量変化の場合、先行研究において頻用されるカテゴリー区分は存在しないため、カテゴリーを等間隔に設定しても構わないと思われる。Resolutionは、連続量として測定される変数をカテゴリー化したときの指標であり、式が複雑になることを厭わなれば、等間隔でないカテゴリー区分にも対応可能であり、疫学研究における血圧測定など他分野へ応用することも可能であると考えられる。

審査要旨 要旨を表示する

本研究は、測定誤差を伴うマイクロアレイデータにおけるFeature selectionを、誤分類確率を考慮しつつデータをカテゴリー化した上で行う方法論を提案したものであり、その方法に関して以下の結果を得ている。

1.誤分類確率をある値以下に抑えてカテゴリー化した際に、単位変化量あたり何カテゴリー設定できるかというResolutionという指標を定義した。この指標により、誤分類確率を明示的に制御したカテゴリー化が可能となった。

2.データをカテゴリー化したことにより、全対象者の遺伝子発現量変化を変化パターンとして捉えることができた。このことにより、変化パターンが同一となる遺伝子をグループ化することができ、検討すべき変数の数を減らすことが可能となった。減少の程度に関して、異なる変化パターンの数を総遺伝子数で割ったDimension Reduction Proportionという指標を定義した。この指標により、カテゴリー化による変数減少の効果を表わすことができた。

3.小さな標準誤差が観測された遺伝子は偶然に選択されてしまう傾向があるが、カテゴリー化によってそのような遺伝子を除外することができた。SAMでは、fudge factorを導入することによって、そのような遺伝子が選択されにくくしているが、本研究によるアプローチは、除外される基準をより明示的に指定できるという利点がある。

4.一般にカテゴリー化に伴い検出力が減少することが知られているが、平均遺伝子発現量変化0.3、標準偏差0.3の正規乱数を発生させてシミュレーションを行った結果、カテゴリー数3の場合、検討すべき遺伝子数を劇的に減らすことができるものの、検出力がほとんどなくなってしまうことが明らかとなった。また、平均遺伝子発現量変化が0.3以上ある遺伝子であれば、サンプル数50のカテゴリー数5で十分に検出可能であることが明らかとなった。

以上、本論文はマイクロアレイの測定誤差に着目し、誤分類確率を制御する方法論を提案した。本研究は、マイクロアレイの測定誤差に着目した点において独自性があり、マイクロアレイデータ解析の発展に重要な貢献をなすと考えられ、学位の授与に値するものと考えられる。

UTokyo Repositoryリンク