学位論文要旨



No 125442
著者(漢字) 佐藤,朋広
著者(英字)
著者(カナ) サトウ,トモヒロ
標題(和) 標的タンパク質の情報を統計的に活用した新規高効率インシリコスクリーニング手法の開発と応用
標題(洋) Development and application of new methodologies for efficient in silico screening by statistical analysis of 3D-structural information
報告番号 125442
報告番号 甲25442
学位授与日 2010.02.26
学位種別 課程博士
学位種類 博士(理学)
学位記番号 博理第5446号
研究科 理学系研究科
専攻 生物化学専攻
論文審査委員 主査: 東京大学 教授 濡木,理
 東京大学 教授 田之倉,優
 東京大学 教授 山梨,祐司
 東京大学 教授 横山,茂之
 東京大学 客員教授 古谷,利夫
 理化学研究所 チームリーダー 本間,光貴
内容要旨 要旨を表示する

序論

近年、標的タンパク質に結合しその機能を阻害する低分子阻害剤の探索において、分子ドッキングなどに基づくインシリコスクリーニングが広く用いられている。現状のインシリコスクリーニングの課題として、ドッキング結果から活性を予測するスコア関数の精度の改善が挙げられる。一般的なスコア関数としては、分子力場に基づく関数や、水素結合などの単純な項を線形結合して既知複合体の親和性データに基づいて重回帰分析したものなどが知られている。これらのスコア関数には、分散力.水和/脱水和効果、エントロピーなどを考慮できていないことが指摘されている。

近年、多数のタンパク質の立体構造が解明されたことにより、それらの立体構造情報を効果的に統計解析することで高精度の予測モデルを構築する手法が研究されている。インシリコスクリーニングにおいて統計手法を応用する場合、タンパク質構造情報・阻害剤情報が豊富な標的と乏しい標的の両方に対する方法論を開発する必要がある(図1)。本研究では、それぞれの課題に対して、原子単位の相互作用記述子と機械学習を組み合わせた新規スクリーニング手法の開発、および、類縁タンパク質の情報を加えたデータセットを用いてドッキング条件を最適化するアプローチを開発した、さらに、上皮細胞成長因子受容体G7198/T790M薬剤低感受性型変異体(G719S/T790M EGFR)の阻害剤探索研究において、インシリコスクリーニングに開発した方法を適用し、新規阻害剤の発見に成功した。

相互作用記述子と機械学習を用いた新規スクリーニング手法の開発と検証

相互作用記述子は、タンパク質‐低分子複合体構造中の相互作用を統計可能な形にパラメータ化する手法である。既存の相互作用記述子の多くは、低分子結合部位のアミノ酸残基単位で各種分子間相互作用の有無を判定し、Tanimoto係数などを用いて類似性を計算することで標的タンパク質と既知活性化合物に類似した相互作用を形成する化合物を探索する。

本研究では、標的タンパク質の構造情報を用いてより高精度のスコア関数を構築する手法として、低分子の薬理作用団の空間配置に基づく新規相互作用記述子(Pharm-IF)、および、これと統計理論に基づく機械学習を組み合わせたスクリーニング手法を開発した{図2}。従来のアミノ酸残基単位で計算される相互作用記述子と比較してPharm-IFは個々のタンパク質-リガンド問相互作用の配置に基づいて計算することで、よりきめ細かい相互作用の記述が可能となる。さらに、従来の相互作用記述子は類似性検索と組み合わせて用いられていたが、本研究では予測モデルの構築に、近年多くの分野で高い予測性能を示しているrandom forest{RF),support vector machine(SVM)など最新の機械学習手法を初めて応用し、予測精度の向上を図った。

PKA、SRC、炭酸脱水酵素II、カテプシンK、HIV-1プロテアーゼを対象としたテストによってPharm-IFを用いた手法のスクリーニング性能を検証した結果、ASVMは非常に高い性能を示し、スコア上位10%でランダム選択比5.70倍の効率で活性化合物を検出し、GlideScoreの4.15倍、既存の相互作用記述子PLIFに基づく学習モデルの4.43倍を大きく上回った。学習に用いる複合体立体構造数がモデルの性能に与える影響を解析した結果、5個以上の複合体構造を学習した場合に本手法は安定してGlideScoreを上回る性能を記録した。

複合体構造情報が少ない標的タンパク質に対して高精度の学習モデルを構築するためには、学習に用いる情報量を補完する必要がある。実験的に決定された構造に加えて、複合体構造未知の阻害剤のドッキング結果を用いてSRCとカテプシンKの学習モデルを構築したところ、RFは非常に高い効率を記録し、検出効率をそれぞれ5、1と4.1(共にSVM)から6.5と6.3(共にRF)へと向上させることに成功した。理論的に予測された構造には誤りも含まれており、予測精度を悪化させる可能性もある。RFは、ブートストラップ法による標本サンプリングとランダムな変数選択を用いた誤りを含む学習データに対して堅牢なアルゴリズムであり、これが本結果に結びついたと考えられる。

以上の結果から、本研究で開発したインシリコスクリーニング手法は、従来のドッキングスコアを上回る予測精度を達成したと言うことが出来る。特に、機械学習を用いた手法は使用可能なトレーニングセットのサイズに性能が左右されことが課題となるが、本手法は比較的構造情報が少ない場合でも良好に動作し、ドッキングによって予測された構造を学習に利用することでさらに性能を改善させることにも成功した。

類縁タンパク質情報を用いたドッキング条件最適化法の開発

ドッキングを用いたインシリコスクリーニングの効率は、使用する標的タンパク質立体構造に大きな影響を受ける。理化学研究所の本間らのPALLASシステムは、既知阻害剤との網羅的なテストドッキングに基づいて最適な標的タンパク質構造とパラメータを決定するものであり、筆者もその開発と検証に参加した、本研究では、立体構造・阻害剤情報の乏しい標的タンパク質に対して、類縁タンパク質の情報をPALLASに対して入力することで、より効率の高いドッキング条件を得るアプローチを考案し、G719S/T790M EGFR阻害剤探索研究においてその有用性を検証した。

インシリコスクリーニングによる薬剤低感受性G719S/T790M EGFR新規阻害剤の発見

EGFRは非小細胞性肺癌の創薬標的として知られており、ゲフィチニブなど既存の薬剤に耐性を持つT790M変異を含む変異体を標的とする阻害剤探索は重要である。しかし、変異体に関する構造・阻害剤情報は乏しく、標的の情報のみでは精度の改善に限界がある。そこで、本研究ではPALLASを用いたドッキング条件最適化に標的の情報のみを利用する場合と,類縁タンパク質の情報を用いて拡張したデータセットを用いる場合の両面からインシリコスクリーニングを行い、新規G719S/T790M EGM阻害剤を探索した。G719SIT790M EGFRの情報のみを用いた最適化では、立体構造情報の不足を補うため分子動力学法(MD)によってG719S/T790M EGFRと既知阻害剤の複合体構造のアンサンブルを発生させ、G719S/T790M EGFRへの親和性既知の17化合物のテストドッキングに基づいて評価することで最適な構造とドッキング条件を選択した、これとは別に、標的そのものではないが野生型を含む全EGFRの立体構造情報と阻害剤情報を用いてドッキング条件を最適化した。G719S/T790M EGFRのMDによる改変構造を用いることで,X線結晶構造をそのまま用いた場合に比べて上位5%での検出効率が約2倍に向上した。EGFRの全情報を用いてドッキング条件を最適化した結果からは、同様に初期構造を利用した場合に対して2.5倍の効率を示す条件を得ることができた。

それぞれのデータを用いて最適化された設定を用いて,東京大学生物機能制御化合物ライブラリー機構の71,558化合物から本番のインシリコスクリーニングを行った(図3)。それぞれの最適条件を用いて1000化合物を選択し、二重変異体の阻害活性を測定したところ、EGFRの全情報を用いた条件では12化合物、G719S/T790M EGFRの情報のみを用いた条件では8化合物が10μMで50%以上の阻害活性を示した。さらに、前者の条件から,既存のBGFR阻害剤と異なる結合様式が予測される3種の新規骨格阻害剤を発見することに成功した(表1)。

本研究では、MDを利用してG719S/T790M EGFRの立体構造を改変する手法、EGFRの全立体構造を利用する手法の両方において、テストデータに対してより高いスクリーニング効率を示すドッキング条件を得ることに成功した。G719S/T790M EGFRの情報のみで最適化された条件は既知変異体阻害剤を高い効率で検出できていたが,実際のスクリーニングにおいては、野生型の情報も用いて決定した条件がヒット化合物数と新規骨格化合物の検出の両面でより良好な結果を記録した、本結果から、ドッキング条件の最適化を行う上で、構造および量的に多様な阻害剤による検証用テストセットの構築が、汎化性能に優れ、新規阻害剤の探索に適した条件を得るために重要であることが示唆された。

以上2つの研究により、標的タンパク質の構造情報が豊富な場合、乏しい場合それぞれに対応できる方法論を開発し、G719S/T790M EGFR阻害剤探索研究においてその有用性を実証した。

図1: インシリコスクリーニングへの立体構造情報の利用における課題

図2:相互作用記述子と機械学習を用いた標的特異的スコア関数の構築

図3:拡張したデータによる最適条件を用いた二重変異体阻害剤スクリーニング

表1.ドッキング条件最適化に使用した情報とスクリーニング結果

審査要旨 要旨を表示する

本論文は4章からなる。第1章では、序論として生物化学における低分子阻害剤を用いた研究、および、計算機を用いた低分子阻害剤探索(インシリコスクリーニング)の一般的手法である分子ドッキングと近年研究が進んでいる手法である相互作用フィンガープリントに関して、既存の研究とその課題が網羅的に説明されている。

第2章では、論文提出者が独自に開発したインシリコスクリーニング手法について述べられている。第2章前半部では、新規相互作用フィンガープリント(Pharm-IF)と機械学習を組み合わせたインシリコスクリーニング手法について述べられている。本手法の独自性は、タンパク質-低分子間相互作用を行列形式で記述する際に立体配置に基づく新規手法を用いている点と、予測モデルの構築に機械学習を用いている点にある。本手法の既存の手法に対する優位性は、PKA、SRC、炭酸脱水酵素II、カテプシンK、HIV-1プロテアーゼを標的とした性能評価試験において明瞭に示されている。また、各機械学習手法について、様々な条件下でのスクリーニング性能を評価し、手法の数理統計学的な特徴との関連性を検証している。これにより、今後、複合体構造情報の解析において機械学習を用いる際の手法選択の指針を示す研究となっている。

第2章後半部では、論文提出者が理化学研究所制御分子設計研究チームにおいて開発に参加した分子ドッキングの条件最適化システムについて述べられている。分子ドッキングの予測精度は使用する標的タンパク質の立体構造や計算条件によって大きく左右される。本システムは、標的タンパク質の立体構造と計算に用いるパラメータについて、テストドッキングの結果に基づいてインシリコスクリーニングに最適な条件を探索する。本節では、第3章で述べられている薬剤低感受性型EGFRのような立体構造情報の乏しい標的タンパク質に対して本システムを適用することを想定して、ドッキング条件の検討に類縁タンパク質の立体構造を含めることで情報不足を補完するアプローチについて説明している。

第3章では、細胞増殖などのシグナル伝達に関わる重要な標的タンパク質であるEGFRに関して、イレッサなど既存の分子標的薬に対する低感受性を獲得したG719S/T790M変異体を標的として行われた新規阻害剤探索研究について述べられている。第2章後半部に述べられた手法によって類縁タンパク質の立体構造を考慮に入れてドッキング条件を最適化してインシリコスクリーニングを実行することで、3種の新規骨格をもつG719S/T790M EGFR阻害剤の発見に成功している。これら新規骨格阻害剤のG719S/T790M EGFRに対するIC50は2.3~12μMであり、既知EGFR阻害剤のいずれに対しても構造類似性を持たず、薬剤低感受性の原因となるメチオニン790番近傍の領域を回避した新たな結合様式が予測されている。第4章では総合討論がされている。

論文全体を通して、第2章においては、構造生物学の知識および数理統計理論に基づきインシリコスクリーニングの新規手法を考案、コンピュータープログラムとして実装し検証を行っている。第3章では、実際の阻害剤探索研究において開発した手法を適切に運用することで、新規骨格を持つG719S/T790M EGFR阻害剤の発見に成功している。第1章及び第4章の内容から、当該分野における全般的知識を十分に有していると判断できる。全章にわたり明瞭に記述されている。

本論文第2章は本間光貴、横山茂之との、第3章は本間光貴、田仲昭子、横山茂之との共同研究であるが、各章の内容に関しては論文提出者が主体となって実験計画の策定、遂行、分析、検証及び論文執筆を行っていることから論文提出者の寄与が十分であり、論文提出者は独自に研究を遂行できる能力を有していると判断する。

したがって、博士(理学)の学位を授与できると認める。

UTokyo Repositoryリンク