学位論文要旨



No 129197
著者(漢字) 葛,臻翼
著者(英字)
著者(カナ) カツ,シンイ
標題(和) タンパク質-糖鎖結合予測手法の開発
標題(洋)
報告番号 129197
報告番号 甲29197
学位授与日 2013.03.25
学位種別 課程博士
学位種類 博士(農学)
学位記番号 博農第3902号
研究科 農学生命科学研究科
専攻 応用生命工学専攻
論文審査委員 主査: 東京大学 教授 清水,謙多郎
 東京大学 特任教授 西,達也
 東京大学 准教授 中村,周吾
 東京大学 特任准教授 寺田,透
 東京大学 特任准教授 中井,雄治
内容要旨 要旨を表示する

1.背景

糖鎖結合タンパク質(carbohydrate-binding protein,CBPまたレクチン)は、糖鎖に結合活性を示すタンパク質の総称で、細胞間の情報伝達や細胞種類の識別や細胞の免疫など多種多様な生体活動に関与している。タンパク質の糖鎖結合性の測定には、成分抽出/cDNAからのタンパク質発現によって得られたタンパク質に対し、アフィニティー/イオン交換クロマトグラフィーによる精製分画、凝集活性測定、コロニー形成阻害、阻害糖の実験などが行われている。これらは糖鎖結合タンパク質の同定や活性の定量・定性のためには必須の作業であるが、多くの時間と労力を必要とする。

また、糖鎖結合タンパク質には、多数の種類が存在する。分類のしかたにはさまざまな方法があり、糖鎖リガンドの情報を利用した分類がよく用いられているが、分子クローニングなどで明らかになったアミノ酸配列のホモロジーやモチーフの存在によって分類することができる。この方法により、糖を結合する際にカルシウムを必要とするC-型レクチン、糖鎖の中でガラクトース(galctose)を含む糖鎖構造(β-ガラクトシド)によく結合するガレクチンなどのタイプに分類されている。

本研究では、アミノ酸配列情報のみを用いて、糖鎖結合タンパク質を予測するとともに、糖鎖結合タンパク質のいくつかの主要なタイプを予測するシステムを開発し、その評価を行なった。本システムは、与えられたタンパク質が糖鎖と結合するかどうか、またそれらタンパク質の分類を、アミノ酸配列情報のみからSupport Vector Machine(SVM)を用いて学習・予測するというものであり、ゲノムワイドな解析にも適用できる。

2.材料と手法

本研究では、まず、糖鎖結合タンパク質を予測する手法を開発した(図1)。研究対象としての糖鎖結合タンパク質としては、抗体以外の「糖鎖と構造特異的に相互作用し、抗体でなく、糖鎖を直接修飾しないタンパク質」を一括して扱うことにした。そこで、これらのタンパク質をデータベースUniProt Knowledgebaseから抽出する際の検索条件の定式化を行った。さらに、糖鎖結合タンパク質の配列特徴を効果的に学習させるため、これらのアミノ酸配列に対し、BLASTによるクラスタリングを行い、配列冗長性を排除したデータセット(正例データセット)を作成した。一方、非糖鎖結合タンパク質のデータセット(負例データセット)としては、実際に発現が確認されているタンパク質の中から、糖鎖結合タンパク質の検索条件に合致しないものをランダムに収集し、上と同様にして冗長性を排除したものを用いた。さらに、多類分類のため、種類が明記されている糖鎖結合タンパク質のアミノ酸配列を収集した。糖鎖結合タンパク質の配列特徴を効果的に学習させるため、これらのアミノ酸配列に対し、クラスタリングを行い、配列冗長性を排除したデータセットを用いた。このデータセットの一部は、テストデータセットとして保留し、残り大部分をトレーニングデータセットとしてSVMに投入した。

学習については、アミノ酸配列から特徴ベクトルを作成し、SVMへの入力とした。配列情報を特徴空間上に写像させるカーネル関数としては、アミノ酸の3つ組の出現パターンに基づく3-spectrum kernelを用いた。5分割交差確認(5-fold cross validation)によりSVM最適なパラメータを求めて、モデルを構築して、テストデータセットの予測結果を評価した。

SVMは汎化性能が高く、未学習のデータの識別に優れる機械学習の方法である。二値分類器であるSVMは、多値分類問題を解決するため、複数のSVM を組み合わせることで多値分類を実現する。本研究では、ある一つのクラスとそれを除く残りのすべてのクラスを分類するOne-versus-Rest法と、ある一つのクラスと別な一つのクラスの分類をすべてのクラスに対して適用するOne-versus-One法の2種類を用いた。

3.結果と考察

糖鎖結合タンパク質の予測では、AUC(Area Under the Curve)の値は0.797で、実用レベルの高い予測精度が達成できた。分類については、One-versus-Rest法におけるトレーニング5分割交差確認精度は93.93%(平均)で、テストデータセットを予測すると精度は94.72%(平均)であった。一方、One-versus-One法ではトレーニング5分割交差確認精度は83.81%で、テストデータセットを予測すると精度は85.98% であった。この結果、One-versus-Rest法の方が高い精度で分類を行うことができたことがわかる。これは、One-versus-Rest法では、SVM予測精度に重要なパラメータC(cost)とγ(gamma)を細かく調整できるが、One-versus-One方法は多数のモデルを構築し、個別に最適なパラメータを求めていないためと考えられる。

なお、糖鎖結合タンパク質の各タイプの予測精度にも差があることをわかった。ドメインが配列全長に占める比が高いタイプは精度が高い傾向にあり、さらに、タイプ内の配列の類似性の傾向も予測精度と関与していることが示唆されている。

図1 タンパク質-糖鎖結合予測手法の概要

表1 糖鎖結合タンパク質の分類性能(One-versus-Rest法)

審査要旨 要旨を表示する

糖鎖結合タンパク質(レクチン)は、糖鎖に結合活性を示すタンパク質の総称で、細胞間の情報伝達や細胞種類の識別や細胞の免疫など多種多様な生体活動に関与している。タンパク質の糖鎖結合性の測定には、成分抽出/cDNAからのタンパク質発現によって得られたタンパク質に対し、アフィニティー/イオン交換クロマトグラフィーによる精製分画、凝集活性測定、コロニー形成阻害、阻害糖の実験などが行われている。これらは糖鎖結合タンパク質の同定や活性の定量・定性のためには必須の作業であるが、多くの時間と労力を必要とする。

また、糖鎖結合タンパク質には、多数の種類が存在する。分類のしかたにはさまざまな方法があり、糖鎖リガンドの情報を利用した分類がよく用いられているが、分子クローニングなどで明らかになったアミノ酸配列のホモロジーやモチーフの存在によって分類することができる。この方法により、糖を結合する際にカルシウムを必要とするC-型レクチン、糖鎖の中でガラクトース(galctose)を含む糖鎖構造(β-ガラクトシド)によく結合するガレクチンなどのタイプに分類されている。

本論文では、アミノ酸配列情報のみを用いて、糖鎖結合タンパク質を予測するとともに、糖鎖結合タンパク質のいくつかの主要なタイプを予測するシステムを開発し、その評価を行なった研究について述べたものである。本システムは、与えられたタンパク質が糖鎖と結合するかどうか、またそれらタンパク質の分類を、アミノ酸配列情報のみからSupport Vector Machine(SVM)を用いて学習・予測するというものであり、ゲノムワイドな解析にも適用できる。本論文は、4章より構成される。

本論文の第1章で、研究の背景および目的を述べた後、第2章では、本研究で用いた手法について述べている。まず、研究対象としての糖鎖結合タンパク質としては、抗体以外の「糖鎖と構造特異的に相互作用し、抗体でなく、糖鎖を直接修飾しないタンパク質」を一括して扱うこととし、これらのタンパク質をデータベースUniProtKBから抽出する際の検索条件の定式化を行った。さらに、糖鎖結合タンパク質の配列特徴を効果的に学習させるため、これらのアミノ酸配列に対し、BLASTによるクラスタリングを行い、配列冗長性を排除したデータセット(正例データセット)を作成した。一方、非糖鎖結合タンパク質のデータセット(負例データセット)としては、実際に発現が確認されているタンパク質の中から、糖鎖結合タンパク質の検索条件に合致しないものをランダムに収集し、上と同様にして冗長性を排除したものを用いた。さらに、多類分類のため種類を明記している糖鎖結合タンパク質のアミノ酸配列を収集した。糖鎖結合タンパク質の配列特徴を効果的に学習させるため、これらのアミノ酸配列に対し、クラスタリングを行い、配列冗長性を排除したデータセットを用いた。このデータセットの一部は、テストデータセットとして保留し、残り大部分をトレーニングデータセットとしてSVMに投入した。

学習については、アミノ酸配列から特徴ベクトルを作成し、SVMへの入力とした。配列情報を特徴空間上に写像させるカーネル関数としては、アミノ酸の3つ組の出現パターンに基づく3-spectrum kernelを用いた。5分割交差確認(5-fold cross validation)によりSVM最適なパラメータを求めて、モデルを構築して、テストデータセットの予測結果を評価した。SVMは汎化性能が高く、未学習のデータの識別に優れる機械学習の方法である。二値分類器であるSVMは、多値分類問題を解決するため、複数のSVM を組み合わせることで多値分類を実現する。本研究では、あるひとつのクラスとそれを除く残りのすべてのクラスに対する分類を適用可能なクラスに対して行う方法を実行した。

第3章では、本研究の結果と考察について述べている。まず、糖鎖結合タンパク質の予測は0.8以上のAUC値を達成し、実用レベルで利用できることを示した。予測精度をさらに改善するため、負例データセットとの出現頻度の対数比がしきい値より低いもの(両者の差が小さいもの)を除き、正例データセットに特徴的に見られる3つ組だけをもとに学習・予測する手法の開発を試みた結果も述べており、精度の改善にはさらに検討が必要であることを述べている。

糖鎖結合タンパク質の種類(レクチンタイプ)の予測では、現在よく用いられている2つの多クラス予測手法(One-versus-One法とOne-versus-Rest法)を試した。両方の手法でSVMの予測精度に重要なパラメータC(cost)とγ(gamma)を細かく調整したが、One-versus-Rest法が、AUC値が94.7%(平均)、One-versus-One方法が、AUC値が86.0%(平均)という結果が得られた。One-versus-Rest法の方が高い精度を得ることができた理由は、One-versus-One法は多数のモデルを構築し、個別に最適なパラメータを求めていないためと考えられた。各タイプの予測精度に差があったが、これは使っているデータの配列相同性や保存度などの特徴に関係していると考えられることを述べている。

第4章では、本論文の内容をまとめており、開発したシステムの実用性、精度改善の余地、今後の課題について考察を行っている。以上、本論文の成果は、学術上応用上貢献するところが少なくない。よって、審査委員一同は、本論文が博士(農学)の学位論文として価値あるものと認めた。

UTokyo Repositoryリンク