学位論文要旨



No 122411
著者(漢字) 曹,巍
著者(英字) Cao,Wei
著者(カナ) シャオ,ウェイ
標題(和) サポートベクタマシンを用いた翻訳後脂質修飾予測に関する研究
標題(洋) Post-translational lipid modification prediction by using Support Vector Machince
報告番号 122411
報告番号 甲22411
学位授与日 2007.03.22
学位種別 課程博士
学位種類 博士(農学)
学位記番号 博農第3135号
研究科 農学生命科学研究科
専攻 応用生命工学専攻
論文審査委員 主査: 東京大学 教授 清水,謙多郎
 東京大学 教授 山根,久和
 東京大学 教授 北本,勝ひこ
 東京大学 特任助教授 寺田,透
 東京大学 助教授 中村,周吾
内容要旨 要旨を表示する

1. Introduction

 Post-translational modifications are vital to protein structure and function for many immature proteins in which the processing of the initial translation products includes elimination of sequences of the protein and attachment of other biochemical functional groups to extend the range of functions of the proteins. In this thesis, two kinds of lipid modification were studied, namely Glycosylphosphatidylinositol (GPI) anchored and Myristoylated lipid modifications. The former one has been spotlighted as an important means for protein post-translational modifications; it has been widely studied since the existence of GPI anchor was accepted in the mid 1980s. In GPI lipid modification, the COOH-terminal signal sequence of precursor proteins is cleaved and GPI moiety added (the new COOH-terminus known as ω-site). The latter one is an irreversible protein post-translational modification found in animals, plants, fungi and viruses. A myristoyl group is covalently attached via an amide bond to the amino group of an N-terminal glycine residue of a nascent polypeptide catalyzed by the N-myristoyltransferase (NMT). However, as currently practiced, identification of these two modifications for proteins faces all sorts of limitations of experimental techniques. With the number of protein sequences uninterruptedly increasing in the existing protein sequence database, methods of identification and prediction of these two modifications of protein sequences have been receiving more attention in the field of computational biology. It is also this growth of the number of identified protein sequences that makes theoretical analysis and prediction possible.

 As far as the status quo of GPI-(like)-anchored proteins prediction is concerned, many research groups have made great efforts. These methods employed could be roughly classified into two categories: (1) ones based on statistical analysis of amino acid composition around ω-site, Big-PI and DGPI, (2) ones based on techniques of machine learning, such as K-nearest-neighbor method employed in PSORT-II and the Kohonen self-organizing map used in GPI-SOM. GPI-SOM, an unsupervised learning method, performs better than DGPI or Big-PI. Although experimental results show importance of hydrophobicity of the COOH-terminus of GPI-(like)-anchored proteins, prediction accuracy of the GPI-(like)-anchored proteins by solely using hydrophobicity scale (〜83%) is not as good as being expected. It is also desirable to identify precisely and reliably myristoylated proteins for protein functional annotations in the proteome-wide, especially when experimental measurements are unavailable. There are four prediction schemes based on protein sequences alone (these are available online). However, they still have certain limitations. The first one, PS00008 of PROSITE, has not been updated since 1989, and it is reported that produces a great number of not only false positive but false negative predictions since a small dataset was used to construct it. A taxon-specific scheme advocated by Maurer-Stroh et al. and denoted as NMT predictor gives an ambiguous prediction "twilight zone". Despite Boisson, Giglione and Meinnel (BGM) attempted to modify threshold parameter and improve identification for plant protein sequences, ambiguous prediction results (i.e. twilight zone) are still unsolved. Bologna et al. suggested a rule-based model using average output scores generated from 25 neural networks and Podell et al. put forward a plant-specific hidden markov model. However, the former one needs much more samples to optimize the rule set and the latter one is also taxon-specific. In this thesis, Support Vector Machine (SVM), as a new method, was used to identify GPI-(like)-anchored and myristoylated lipid modifications of proteins. The predictors trained by using SVM show higher performance under 5-fold cross validation test for performance assessment.

 2. Methods

 As a supervised learning algorithm, SVM, developed by Vapnik and his coworkers has outstanding performance, and it has been successfully applied to many aspects of computational biology. In present work, 1-norm soft margin SVM was employed. With respect to a dichotomic classification problem, the basic idea behind SVM is to map feature vectors by which each sample in a training dataset is represented into a high dimensional feature space and then construct an optimal separating plane so called hyperplane in this space. Subsequently, a boundary of the margin between positive and negative samples is maximized for giving good generalization properties. The decision boundary is used for classification of unknown samples. To overcome the dimension disaster in computation caused by mapping, kernel functions are proposed for implicit mapping of input data. Here, radial basic function (RBF) was chosen as the kernel function for implicitly mapping input vectors into the high dimensional feature space. To optimize parameters, a regularization parameter C and a parameter y of RBF function, a population based stochastic optimization technique, a, modified version of Particle Swarm Optimization(PSO), was implemented.

 Hydrophobicity is an important physico-chemical characteristic of amino acids. For example, hydrophobic residues prefer to be in a non-aqueous environment. A list of values for hydrophobicity measurement of amino acids is called hydrophobicity scale, such as Kyte-Doolittle scale. The hydrophobicity plot is such that a window of a given size slides along the protein sequence from N-terminus to COOH-terminus (one residue at a time in present work), and the mean value within the window is placed in the numerical sequence at each time. For example, given 60 residues taken from COOH-terminus of a protein sequence and window size of 9 residues, the protein sequence descriptor for representing this protein sequence generated by the hydrophobicity plot consists of 52 elements, i.e. a 52-Dimensional vector.

 3. GPI-(like)-anchored proteins prediction

 The sliding window algorithm, i.e., hydrophobicity plot, was used to obtain a numerical representation of amino acid sequences, and the Kyte-Doolittle scale was employed for delineating the hydrophobic character of 20 standard amino acids (others are set to zero). To eliminate noises in the numerical dataset, feature selection was conducted by using an elongation simulation and a deletion simulation.

 Under 5-fold cross validation test, the SVM classifier shows not only accuracy (96%) ; the area under receiver operating characteristic curve (AUC) value of 0.97 is also close to the ideal value 1.00, given that 60 residues were counted starting from COOH-terminus as input sequence length, the window size for hydrophobicity plot was 9 residues and the SVM parameters were optimized by PSO.

 4. Myristoylated proteins prediction

 The results from myristoylated protein sequence analysis show a motif that has three regions, positions 1-6 for fitting the binding pocket, positions 7-10 for interacting with the surface of N-myristoyltransferase at the mouth of the catalytic cavity and positions 11-17 for containing a hydrophilic linker. The SVM classifiers were trained by using 17 residues which were counted starting from N-terminus as the input length. We used the following properties of 17 residues for training: hydrophobicity (hydrophobicity plot with Kyte-Doolittle scale and the window size of 3 residues) with one of physical property patterns (preference of protein secondary structure, relative stability and geometry property). All prediction accuracies of trained SVM classifiers under 5-fold cross validation test are over 98% and the corresponding AUC values are also over 0.96.

 5. Summary

 In this work, a new and simple method is presented for the identification of two kinds of protein post-translational modification, GPI-(like)-anchored (occurring on COOH-terminus) and myristoylated (occurring on N-terminus) lipid modifications. By only using hydrophobicity scale, it was reported that prediction accuracy of GPI-anchored proteins is 〜83%. The new method improves the prediction accuracy by 13% (i.e. 96%) With respect to myristoylated protein prediction, compared with the previous predictor trained by using neural network method, prediction accuracy increased by 4% and reached 98%. Furthermore, while three of the four previously proposed schemes are taxon-specific, the new method proposed is not limited to be taxon-specific. The computational efficiency and remarkable generalization ability of our method will be helpful for proteomic-wide proteins post-translational modification annotation.

[1] W. Cao, K. Shimizu, Identification of GPI-(like)-Anchored Proteins by Using SVM. Proc. 1st IMSCCS06, 2:711-715, 2006.[2] W. Cao, K. Sumikoshi, T. Terada, S. Nakamura, K. Shimizu, Insight of the Signal Motif of GPI-(like)-anchored Proteins by Using SVM Proc. BIOCOMP'06, 541-546, Las Vegas, USA 2006.[3]W. Cao, S. Nakamura, K. Shimizu, Developing SVM classifier for GPI-(like)-anchored proteins prediction. The 17th International Conference on Genome Informatics (GIW), 2006
審査要旨 要旨を表示する

 タンパク質の翻訳後脂質修飾は、タンパク質の構造や物理化学特性を変え、細胞機能にとって重要な役割をもっている。しかしながら、実験による翻訳後脂質修飾の解析は相応の時間とコストを要し、また、現在、タンパク質の配列データベースの登録数が増大している中で、翻訳後糖質修飾のアノテーションは十分になされていないのが現状である。本論文では、タンパク質翻訳後脂質修飾として、グリコシルホスファチジルイノシトール(GPI)アンカー型修飾とミリストイル修飾の2つを取り上げ、これらを、タンパク質のアミノ酸配列から予測する手法について述べている。本論文は、5章より構成されている。

 第一章では、GPIアンカー型タンパク質とミリストイル化タンパク質の修飾に関する概要とこれまでの研究で得られている知見をまとめ、本研究の背景について記している。

 第二章では、本論文で使用した手法について述べている。本論文では、翻訳後脂質修飾を特徴づける配列パターンを「学習」によって予測するアプローチをとることとし、機械学習の手法として近年よく用いられているサポートベクターマシン(SVM)を採用している。SVMは、2クラスの分類を行う機械学習手法であり、サポートベクトルと呼ばれるクラス境界近くに位置する学習点とのマージンを最大化するよう分離平面を構築するというものである。このマージン最大化という基準を用いることにより、高い汎化性能(未学習データに対する分類能)をもつところが、他の機械学習手法と比べてとくに優れている。本論文では、SVMの重要なパラメータである汎化パラメータCおよびRadial Basis Function(RBF)カーネル関数のパラメータγについて最適化を行うとともに、学習の対象となるアミノ酸配列を簡易に表現することにより、予測精度の向上を目指している。パラメータ最適化の手段としては、Particle Swarm Optimization(PSO)法を利用している。また、性能の評価は、5-fold cross-validation(CV)テストを用いている。これは、データセットをランダムに5個のサンプル群に分け、4個のサンプル群で学習(訓練)を行ったSVMを残りの1個のサンプル群に適用して予測を行うという手法である。

 第三章では、GPIアンカー型タンパク質の予測について述べている。予測・学習に用いたデータセットは、positiveデータセットとしては、Swiss-Protデータベースを「GPI・ANCHOR」をキーワードとして検索して得られた531個のタンパク質、negativeデータセットとしては、Pascal Maserらが、彼らの予測研究で使用したデータセットをそのまま使用している。予測に先立ち、C末端側の配列に対して、残基の疎水性を調べたところ、とくにC末端の20残基において他の部分と疎水性に大きな差があることが明らかとなり、疎水性が予測の鍵になることを発見した。また、SVMの入力(学習対象)として、最も効果的な学習が行える配列部分を調べた結果、C末端の60残基であるとの結論を得た。これらの結果をふまえ、本論文では、C末端の60残基のアミノ酸配列をKyte-Doolittleの疎水性指標の配列(実際には、周辺残基を含む9残基をウィンドウとしてその平均値を適用)に変換し、SVMの入力とすることで、96%の高い予測精度を達成している。

 第四章では、ミリストイル化タンパク質の予測について述べている。予測・学習に用いたデータセットは、positiveデータセットとしては、Swiss-Protデータベースを「myristate」をキーワードとして検索して得られた449個のタンパク質、negativeデータセットとしては、GPIアンカー型タンパク質の予測で用いたPascal Maserらが使用したデータセットをそのまま使用した。SVMに入力する配列部分は、モチーフパターンが得られているN末端の6残基のほか、それに続くNMT表面との相互作用部位、親水性リンカー領域を加えた合計17残基としている。これらのアミノ酸配列をKyte-Doolittleの疎水性指標の配列(実際には、周辺残基を含む3残基をウィンドウとしてその平均値を適用)に変換し、さらに、各残基位置におけるアミノ酸組成またはアミノ酸特性を数値化したAA-indexを加えて予測を行った。AA-indexについては、冗長性を除いた530種類の指標を網羅的に試した。その結果、アミノ酸組成を加えた手法では、97.2%の予測精度が得られ、AA-indexを加えた手法では、とくに予測精度の高い10個のAA-indexについて、98%〜99%の予測精度が得られた。これら10個のAA-indexはすべて構造と安定性に関係するものであった。

 第五章では、これらの結果をまとめ、今後の展望について述べている。

 以上本論文は、機械学習SVMを用いてタンパク質の翻訳後修飾(GPIアンカー型タンパク質とミリストイル化タンパク質)を予測する、簡易で高速な手法を開発したものであり、その手法は、全ゲノムレベルで適用できるものと期待され、また、同様の手法を他の翻訳後修飾に適用できる拡張性を備えており、学術上、応用上貢献するところが少なくない。よって、審査委員一同は、本論文が博士(農学)の学位論文として価値あるものと認めた。

UTokyo Repositoryリンク