配列データベースの重要性

プロテオーム解析は、サンプル調製・質量分析測定・データ解析の3ステップに大きく分けられますが、今回はデータ解析の際に用いられる配列データベースの重要性について取り上げてみたいと思います。

一般的なプロテオーム解析において質量分析データからタンパク質を同定する際に、タンパク質配列データベースとの照合により各スペクトルデータが帰属するペプチド配列を探索しますが、以前はアミノ酸配列情報が明らかになっている分子群が限定されていたため、配列未知のタンパク質に関しては基本的に同定対象外の状況でした。

21世紀に入って、ヒトをはじめとするゲノム・トランスクリプトーム配列の解読がプロジェクトベースで精力的に進められた結果、タンパク質をコードするアミノ酸配列情報も急速に蓄積し、今ではゲノム・トランスクリプトーム情報に基づいて整備されたタンパク質配列データベースを活用して多くの生物種に関するプロテオーム解析が行えるようになっています。とはいえ、これはあくまでゲノム・トランプクリプトーム配列中でタンパク質コード領域として規定されている配列領域に限ったものですので、ncRNAとして考えられている配列や、mRNA配列中の5’-UTRや3’-UTRなどに存在する、既存の概念で捉えられていない新規のタンパク質コード領域の同定には、公共のタンパク質配列データベースに依存しない独自のデータベース検索が必要になります。

私が博士課程に在籍していた頃は、ヒトmRNA配列データベースの3つのリーディングフレームを全てアミノ酸配列に変換して、既知のタンパク質コード領域以外の新規ペプチド配列にマッチするスペクトルデータを地道に精査し、ORF構造を検証した上で論文発表を行っていましたが、最近ではリボソームプロファイリングによる大量のタンパク質コード領域予備軍(?)に関する配列データセットも利用可能になってきておりますので、これらのRNAベースの配列情報を駆使して今まで見過ごされていた「非ドメイン型」タンパク質を大規模に同定可能なステージに入りつつある、と実感しています。最先端の質量分析技術では、従来のような測定後の解析のみならず、測定と並行してリアルタイムにデータベース検索を行うことも可能になってきており、解析に供する配列データベースの重要性が今後益々高まることは想像に難くないのではないでしょうか?

測定と並行してデータベース検索(Real-Time Search)が実施可能なOrbitrap Eclipse Tribrid質量分析計

投稿者プロフィール

尾山 大明
尾山 大明東京大学医科学研究所 准教授