学位論文要旨



No 216949
著者(漢字) 稲葉,亨
著者(英字)
著者(カナ) イナバ,トオル
標題(和) 密度汎関数法を用いた並列カノニカル分子軌道法によるタンパク質電子状態解析に関する研究
標題(洋)
報告番号 216949
報告番号 乙16949
学位授与日 2008.04.17
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第16949号
研究科
専攻
論文審査委員 主査: 東京大学 准教授 佐藤,文俊
 東京大学 教授 渡邊,勝彦
 東京大学 教授 加藤,千幸
 東京大学 教授 吉川,暢宏
 東京大学 准教授 梅野,宜崇
内容要旨 要旨を表示する

タンパク質は生体内のあらゆる場所に存在し,生命活動を支える最も重要な物質である。タンパク質の機能は,酵素,生体構造,エネルギー源の貯蔵・輸送,情報伝達,免疫などであり,実に多種多様である。工学的にもこれらの機能を直接応用したデバイスなどが考案されつつあり,多くの注目を集めている。このように複雑な機能,性質を持つタンパク質を電子レベルで解明することは非常に重要である。タンパク質は,化学的に見ると,炭素,酸素,窒素,水素,硫黄といった原子からなるアミノ酸が連結した数百~数十万の原子を持つ巨大分子である。

カノニカル電子状態計算は分子規模に対して原理的には4乗の依存性がある。大規模分子の場合,非常に多くの計算時間が必要となり,効果的なアルゴリズムの開発や並列計算機を利用した並列処理が必須の技術となる。また,各分子軌道の係数を表すLinear Combination of Atomic Orbital (LCAO)行列など各種行列要素を保存するために多くのメモリ容量も必要となり,メモリ管理も重要となる。一方,大規模分子の電子状態計算のSelf-Consistent Field (SCF)イタレーションを無事に収束させるためには,初期値が非常に重要となる。初期値の精度が悪いとSCFイタレーションが収束せず、振動もしくは発散してしまう。大規模分子の電子状態計算では,初期値に対して特に注意を払う必要がある。

このように,タンパク質の電子状態解析は非常に困難となることから,タンパク質レベルの分子規模の電子状態解析を行うことができるグループは世界的にも数グループに限られている。そこで,本研究では,タンパク質などの大規模分子の電子状態を実用的な時間と計算機で解析可能とすることを目的に,高効率の並列計算を行うことができる密度汎関数法をベースとした電子状態解析手法を開発した。さらに,カノニカル全電子計算では世界最大となる300残基レベル(5000原子レベル)のタンパク質の電子状態を解析した。

本解析手法では,タンパク質などの大規模分子の電子状態解析で有利となるResolution of Identity法に基づく密度汎関数法を採用している。分子積分に関しては,イタレーションのたびに再計算を行うダイレクトSCF法,大規模分子において分子積分の数を大幅に減らすことができるカットオフ法,さらに,収束に近づくにつれて分子積分の数をさらに減らすことができるアップデート法を使用している。これらの手法を適用することにより,本解析手法では,Hartree-Fock法とほぼ同じ計算量で相関相互作用の効果を取り入れたタンパク質の電子状態解析を行うことができる。

大規模分子の電子状態計算において行列サイズが大きくなる課題に対して,本研究ではすべての行列を並列計算機の各メモリに分散させて保持させた。これにより,本解析の実行限界は,並列計算機の各メモリ容量に制限されず,総メモリ容量に制限されることになる。

演算量の増大に伴い,並列解析が必須になるが,本解析において計算負荷の高い,分子積分,交換相関項の数値積分,行列演算はすべて並列化を行った。行列演算に関しては汎用の行列演算ライブラリであるScaLAPACKを用いて並列化を行った。分子積分,交換相関項の数値積分に対しては独自のアルゴリズムにて並列化を行った。分子積分については大規模行列を扱いながら,並列化を行う必要があるが,一時的な部分行列を用いた分子積分法を新たに開発した。分子積分,交換相関項の数値積分はネットワークスピードの遅い並列計算機(例えば,ネットワークスピードがGbit/s)でも十分な並列化効率が得られる。一方,行列演算に関しては,ネットワークスピードの遅い並列計算機では並列化効率が下がり,全体の並列化効率を大きく低下させる。

計算時間に大きく依存するSCFイタレーションの回数を低減することを目的に,従来のSimple mixing法に加えて,新たな収束加速方法として,DIIS法,Anderson法を追加した。これらの手法を用いて,インスリン単量体,2量体,インターロイキンの全電子計算を実施した結果,DIIS法,Anderson法の収束回数は,Simple mixing法のイタレーション回数と比較すると,平均で57%,44%程度のイタレーション回数で収束することがわかり,大幅に電子状態解析の計算時間を短縮することができる。

一方,タンパク質の電子状態計算の収束性を向上させるためには,精度の高い初期値を作成することが重要である。本研究では,タンパク質の電子状態解析を一度で解析せずに,小さな分子に分割し,徐々に分子サイズを大きくしながら,最終的にはタンパク質全体の解析を行う手順としている。各分子の全電子計算の初期値として,1つ前のステップのQuasi-Canonical Localized Orbital (QCLO)という局在化軌道を結合した波動関数は精度の高い初期値となる。QCLOはある領域に局在化しているが,その領域内ではカノニカル軌道のような性質をもつ局在化軌道である。QCLOを結合した波動関数を初期値として,複雑なトポロジー構造を持っているインスリン単量体(51残基,基底関数の数4439,補助基底関数の数8060)に対して全電子計算を行ったところ,ほぼ試行錯誤なしで達成することができた。この時の初期値と収束値の差は全エネルギーが0.006 a.u.,マリケン電荷が0.08 a.u.となり,QCLOによる初期値作成方法が大変有効であることを示した。

これらの解析手法を用いて,306残基のタンパク質であるインスリン6量体の電子状態の計算(残基数,原子数,電子数,基底関数の数,補助基底関数の数は,それぞれ,306,4728,18552,26790,48684)を行った。初期値は,各インスリン単量体の波動関数(LCAO行列)を組み合わせたものとした。収束加速法にはAnderson法を用いて,17回のイタレーションで収束させることができた。初期値作成には24台の3.2GHz Xeonクラスター(理論ピーク性能:153.6Gflops,ネットワークスピード:1Gbit/s)を使用し,計算時間は,26時間42分であった。インスリン6量体の計算は64台の1.3GHz Itanium 2クラスター(理論ピーク性能:332.8Gflops,ネットワークスピード:3.2GB/s)を使用し,計算時間は64時間58分であった。並列計算機の理論ピーク性能を考慮入れると,初期値作成時間は全体の計算時間のわずか16%であり,大きな割合ではないことがわかる。インスリン6量体の電子状態計算にて並列化効率は82.5%,並列化率は99.6%と,高い並列化性能を得ることができた。本研究による解析手法により,300残基レベルのタンパク質の全電子計算が現実的な並列計算機を用いて、かつ実用的な時間で計算することができることを実証できた。

インスリン6量体の電子状態計算から得られた分子表面の静電ポテンシャルと分子力場の固定電荷から得られた分子表面の静電ポテンシャルを比較した結果,分子表面では大きな違いがないが,分子内部,特に単量体どうしの界面で大きな違いが生じることがわかった。タンパク質-タンパク質間の相互作用などを計算するときは電子移動を考慮した電子状態計算が必要であることを示唆している。

本解析によりインスリン6量体の解離による電荷変動が大きいアミノ酸を特定した。6量体から2量体の解離では6量体の中心付近のアミノ酸,2量体から単量体の解離では2量体界面のアミノ酸が,解離により電荷の変化が大きいことが示された。

PCクラスタなどの安価で高性能な計算機システムが増えている現状を考えれば,上記解析結果が示すように,タンパク質の電子状態計算はますます短時間でできるようになると予想される。

本研究で開発した解析手法は様々なタンパク質の電子状態を計算するのに有効なツールであり,バイオ分野におけるタンパク質-タンパク質間相互作用,タンパク質-基質間相互作用を評価することができる理論的医薬品開発ツールの一つとなる。また,密度汎関数法をベースとした分子軌道法プログラムであるため,ナノ材料分野における様々な材料開発のツールともなり,応用範囲,適用範囲は非常に多岐にわたると考えられる。

審査要旨 要旨を表示する

タンパク質は生命活動を支える最も重要な物質である。タンパク質の機能は、酵素、生体構造、エネルギー源の貯蔵・輸送、情報伝達、免疫など多種多様である。工学的にもこれらの機能を直接応用したデバイスなどが考案されつつあり、多くの注目を集めている。このように複雑な機能、性質を持つタンパク質を電子レベルで解明することは非常に重要である。

しかし、タンパク質は数百~数十万の原子を持つ巨大分子であるため、電子状態計算には効果的なアルゴリズムの開発や多くのCPUが効果的に利用できる並列処理が必須の技術である。また、大規模分子の電子状態計算における自己無撞着(SCF)計算を達成するためは、非常に良い初期値を作成することが肝要である。この方法が確立していないと、計算機がいかに速くとも信頼のおけるシミュレーションの達成は望み薄である。

そのため、タンパク質レベルの分子規模の電子状態計算には多くの経験・知識と技術が要求され、これを行うことができるグループは世界的にも数グループに限られている。本論文では、タンパク質などの大規模分子の電子状態を実用的な時間で、しかも安全に達成できる統合的なシミュレーション法を開発することを目的に、密度汎関数法に基づく高効率な並列化方法と半自動的計算法を提案した。また、これらの方法を実際に適用して、カノニカル全電子計算では世界最大となる300残基レベル(5000原子レベル)のタンパク質の電子状態の計算に成功し、詳しい結果の解析も行っている。

本論文は、全8章で構成される。以下に各章の概要を示す。

第1章は序論であり、本研究の位置づけならびに目的と論文の構成を示している。

第2章「タンパク質全電子計算のためのRI法に基づく密度汎関数法」では、本研究で用いた支配方程式の理論を示している。タンパク質の全電子計算に対して有利となるResolution of identity法を導入した密度汎関数法について説明を行っている。

第3章「RI法に基づく密度汎関数法の計算テクニック」では、既存の先駆的密度汎関数法ソフトウェアの内容を解説している。分子積分に関する様々な計算テクニックと、RI法に基づく分子軌道法プログラムの計算の流れについて説明を行っている。

以降の章で、タンパク質全電子計算実用化を達成するために本研究が開発した各種方法について解説し、結果・考察を示している。

第4章「タンパク質電子状態解析の初期値作成方法」は、HOMO-LUMOギャップが狭いタンパク質の自己無撞着(SCF)計算達成に必須の高精度初期値作成法を提案し、その効果をタンパク質の実計算で解析している。

第5章「電子状態計算の高速化」は、大規模系で有効なSCF計算収束加速法とグリッドの重み計算の高速化法を提案し、その効果をタンパク質の実計算で示している。

第6章「大規模電子状態計算の並列化方法」では、PCクラスタからハイエンド計算機まで使用できるメモリとタスクを高度に分散化させる独自の並列化法を計算律速となる全ての計算ルーチンで提案し、その効果をタンパク質の実計算で解析している。

第7章「インスリン6量体の全電子計算」で、本論文で提案した全ての技術を用いて、これまでの世界記録を大幅に更新するインスリン6量体の全電子カノニカル計算を実際に実行している。得られた結果から、インスリン6量体が単量体に解離しづらい原因を解析し、考察を行っている。この計算結果は新しい超々即効性のインスリン製剤設計に極めて有用である。

第8章は結論であり、本論文の総括と開発した方法の発展可能性を論じている。

本研究で開発・実用化された密度汎関数法によるタンパク質全電子カノニカル波動関数計算法は、タンパク質の反応シミュレーションの基盤となるものと大いに期待されるばかりでなく、バイオ分野における薬剤設計やナノ材料分野における様々な材料開発のツールともなり、応用範囲、適用範囲は非常に多岐にわたると考えられ、本論文の工学的価値が認められた。

よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク