JP2005519289A - 質量分析データを使用したタンパク質同定のための方法 - Google Patents
質量分析データを使用したタンパク質同定のための方法 Download PDFInfo
- Publication number
- JP2005519289A JP2005519289A JP2003573667A JP2003573667A JP2005519289A JP 2005519289 A JP2005519289 A JP 2005519289A JP 2003573667 A JP2003573667 A JP 2003573667A JP 2003573667 A JP2003573667 A JP 2003573667A JP 2005519289 A JP2005519289 A JP 2005519289A
- Authority
- JP
- Japan
- Prior art keywords
- mass
- peptide
- query
- modification
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/0027—Methods for using particle spectrometers
- H01J49/0036—Step by step routines describing the handling of the data generated during a measurement
Landscapes
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本教示は、質量分析アプローチに基づいて、既知のペプチドのデータベースに対して問い合わせペプチドを一致させるための方法を記載する。本明細書中に記載される方法は、未知の問い合わせペプチドの迅速で高感度かつ選択的な同定を容易にし、そして実質的に自動化された高スループットのタンパク質同定を実施するアプリケーションを開発する能力を提供する。本明細書中に記載される方法はまた、問い合わせペプチドについての質量分析データが、その品質に従って分類および重み付けされることを可能にする。さらに、本明細書中に記載される方法は、改変を実施するかまたは改変ペプチド質量について調節するかのいずれかによって、改変問い合わせタンパク質の強力な同定を提供する。
Description
(背景技術)
(分野)
本教示は、一般に、プロテオミック(proteomic)分析に関し、より詳細には、自動化質量分析によるタンパク質分析のための技術に関する。
(分野)
本教示は、一般に、プロテオミック(proteomic)分析に関し、より詳細には、自動化質量分析によるタンパク質分析のための技術に関する。
(関連技術の説明)
タンデム質量分析(「MS/MS」)技術は、ペプチドを分析することが立証されている。タンデム質量分析において、分析されるべきペプチドは、第一の質量分析計に導入される。この第一の質量分析計は、ペプチドの混合物から、特定の質量または分子量の標的ペプチドを選択するように働く。次いで、この標的ペプチドは、インタクトなペプチドおよび類似の質量の種々の成分フラグメントペプチドを含有する混合物を生成するためにフラグメント化される。次いで、この混合物は、第二の質量分析計を用いて分析される。この第二の質量分析計は、フラグメントスペクトルを発生し、このスペクトルから検出されたフラグメントの質量/電荷比を使用して、その標的ペプチドを同定し得る。
タンデム質量分析(「MS/MS」)技術は、ペプチドを分析することが立証されている。タンデム質量分析において、分析されるべきペプチドは、第一の質量分析計に導入される。この第一の質量分析計は、ペプチドの混合物から、特定の質量または分子量の標的ペプチドを選択するように働く。次いで、この標的ペプチドは、インタクトなペプチドおよび類似の質量の種々の成分フラグメントペプチドを含有する混合物を生成するためにフラグメント化される。次いで、この混合物は、第二の質量分析計を用いて分析される。この第二の質量分析計は、フラグメントスペクトルを発生し、このスペクトルから検出されたフラグメントの質量/電荷比を使用して、その標的ペプチドを同定し得る。
ペプチド分析に対する従来のアプローチにおいて、標的ペプチドの組成を分析するために、多量の情報として生じ得る差異を慎重に評価しなければならない。これらの方法は、しばしば、熟練した研究者または操作者による労働集約的かつ必然的評価である。数千ではないにしても数百の標的ペプチドを含む高スループット分析の場合、ペプチド分析の非自動化方法は、適用するのに急激に非実用的となる。従って、受容可能な程度の感度および選択性を有する、高スループット環境下でペプチド同定機能を実行する能力を提供するペプチド分析方法の必要性が存在している。この方法はさらに、既存のペプチド情報(例えば、公的なデータベースおよび私的なデータベースにおいて見出される情報)を組み込む能力およびそれらを分析する能力を提供しなければならない。さらに、この方法は、未知のペプチド組成の同定において使用するのに適応可能でなければならない。
(発明の簡単な要旨)
この方法のこれらの構成要素および操作の各々の詳細な説明は、以下に提供される。本明細書中で引用される全ての参考文献は、それら全体が参考として援用される。
この方法のこれらの構成要素および操作の各々の詳細な説明は、以下に提供される。本明細書中で引用される全ての参考文献は、それら全体が参考として援用される。
1つの局面において、本教示は、問合せペプチドからの質量分析データおよび予め算出したペプチドインデックスを使用して、この問合せペプチドを複数のデータベースペプチドと比較するための方法に関する。
別の局面において、本教示は、ヒットの種々のカテゴリーを同定し、これらのカテゴリーに割り当てられた1セットの重量を最適化することによって、ペプチドの質量分析フラグメント化スペクトルからそれらペプチドを同定する際の感度および選択性を増加させるための方法に関する。
別の局面において、本教示は、改変された問合せペプチドを複数のデータベースペプチドと比較する場合に、この問合せペプチドの改変の悪影響を最小にするための方法に関する。
別の局面において、本教示は、同定の質を高めるために、問合せペプチドの既知の改変の質量情報を利用するための方法に関する。
別の局面において、本教示は、改変された問合せペプチドを、複数の改変されたデータベースによって増強された複数のデータベースペプチドと比較することによって、この改変された問合せペプチドの同定速度を増加させるための方法に関する。
なお別の局面において、本教示は、複数のデータベースペプチドを使用して、問合せペプチドの正体を決定するための方法に関する。この方法は、以下の(a)〜(d)の工程をさらに包含する:(a)複数のデータベースペプチドおよびそれらの骨格イオンフラグメントから得られた質量を使用して、複数のペプチド質量値を含むインデックステーブルを構築する工程;(b)問合せペプチドおよび1以上の問合せペプチド骨格フラグメントまたはイオンに関連する複数の問合せ質量値を同定する工程;(c)このインデックステーブルに含まれる質量に対応する問合せ質量値を同定して、これらの問合せ質量値とインデックステーブルに含まれる質量との間の対応を反映する複数の比較スコアを生成する工程;ならびに(d)この比較スコアを評価して、最高の比較スコアに基づいて、問合せペプチドに関連する少なくとも1つのデータベースペプチドを同定する工程。
なお別の局面において、本教示は、問合せペプチドを複数のデータベースペプチドと比較するための方法に関する。この方法は、以下の(a)〜(d)の工程をさらに包含する:(a)データベースペプチドおよびそれらのイオンフラグメントについての複数の質量値を含むインデックステーブルを構築する工程;(b)問合せペプチドおよびそのペプチドフラグメントに関連する複数の質量値を同定する工程;(c)問合せペプチドおよびそのペプチドフラグメントに関連する複数の質量値を、データベースペプチドおよびそれらのイオンフラグメントについての複数の質量値と比較して、それらの比較された質量値の間の類似性に基づいて、問合せペプチドに関連する質量値の各々に、質量スコアを割り当てる工程;ならびに(d)これらの質量スコアを評価して、最高の質量スコアを有する少なくとも1つの比較を同定し、この最高の質量スコアを有する少なくとも1つの比較から得られるデータベースペプチドと、問合せペプチドとを関連付ける工程。
なお別の局面において、本教示は、改変された問合せペプチドを複数のデータベースペプチドと比較するための方法を包含し、この方法は、以下の(a)〜(e)の工程をさらに包含する:(a)問合せペプチドについての複数の問合せ質量値を生成する工程;(b)複数のデータベースペプチドに関連する複数のデータベース質量値を生成する工程;(c)複数の問合せ質量値から、改変されたセットの問合せ質量値を同定する工程であって、ここで、これらの改変されたセットの問合せ質量値は、問合せペプチドに対する改変を反映する質量値に対応する、工程;(d)複数の問合せ質量値から、改変されたセットの問合せ質量値を排除する工程;ならびに(e)複数の問合せ質量値を複数のデータベース質量値と比較する比較検索を行い、それによって、少なくとも1つのデータベースペプチドと、問合せペプチドとを関連付ける工程。
別の実施形態において、本教示は、改変された問合せペプチドを複数のデータベースペプチドと比較するための方法を包含し、この方法は、以下の(a)〜(e)の工程を包含する:(a)問合せペプチドについての複数の問合せ質量値を生成する工程;(b)複数のデータベースペプチドに関連する複数のデータベース質量値を生成する工程;(c)複数の問合せ質量値から改変されたセットの問合せ質量値を同定する工程であって、ここで、これらの改変されたセットの問合せ質量値は、問合せペプチドに対する改変を反映する質量値に対応する、工程;(d)問合せペプチドに対する改変から生じる質量差異を説明するために、これらの改変されたセットの問合せ質量値に関連する複数の問合せ質量値を調節する工程;ならびに(e)これらの複数の調節された問合せ質量値を複数のデータベース質量値と比較する比較検索を行い、それによって、少なくとも1つのデータベースペプチドと問合せペプチドとを関連付ける工程。
なお別の実施形態において、本教示は、問合せペプチドを複数のデータベースペプチドと比較するための方法を包含し、この方法は、以下の(a)〜(f)の工程を包含する;(a)データベースペプチドについてのフラグメント化スペクトルに関連する複数のデータベース質量値を含むインデックステーブルを構築する工程;(b)問合せペプチドについてのフラグメント化スペクトルに関連する複数の問合せ質量値を同定する工程;(c)複数の問合せ質量値のうちの少なくとも1つに関連する少なくとも1つの改変を同定する工程;(d)複数の問合せ質量値のうちの少なくとも1つに関連する少なくとも1つの改変を補償して、それによって、複数の補償された問合せ質量値を生成する工程;(e)これらの補償された問合せ質量値を使用して、インデックステーブルの検索を行う工程;ならびに(f)これらの補償された問合せ質量値とデータベース質量値との間の類似性に基づいて、問合せペプチドの組成を同定する工程。
(特定の実施形態の詳細な説明)
(定義)
本教示の目的のために、「ペプチド」とは、アミノ酸の配列をいう。「ペプチドデータベース」とは、ペプチド情報の一覧または収集をいう。ペプチドデータベースは、多数の異なる様式(例えば、表計算、リレーショナルデータベース、または情報を保存し、関連付けるために使用され得る他の適切なデータ構造が挙げられる)で実行され得ることが、理解される。「ペプチドインデックス」とは、ペプチドデータベースにおいて選択されたペプチドを位置決めするために使用される情報をいう。種々の実施形態において、このペプチドインデックスは、選択されたペプチドがデータベース内の選択された位置(例えば、データベースの開始/終了)に対して位置決めされ得るオフセット値を含む。
(定義)
本教示の目的のために、「ペプチド」とは、アミノ酸の配列をいう。「ペプチドデータベース」とは、ペプチド情報の一覧または収集をいう。ペプチドデータベースは、多数の異なる様式(例えば、表計算、リレーショナルデータベース、または情報を保存し、関連付けるために使用され得る他の適切なデータ構造が挙げられる)で実行され得ることが、理解される。「ペプチドインデックス」とは、ペプチドデータベースにおいて選択されたペプチドを位置決めするために使用される情報をいう。種々の実施形態において、このペプチドインデックスは、選択されたペプチドがデータベース内の選択された位置(例えば、データベースの開始/終了)に対して位置決めされ得るオフセット値を含む。
本教示の目的のために、ペプチドの「開始文字列(initial string」)とは、ペプチドの第一の末端(例えば、ペプチドの第一のアミノ酸)にて開始する1以上のペプチドを含む部分配列をいう。同様に、ペプチドの「終了文字列(terminal string))」とは、ペプチドの第二の末端(例えば、ペプチドの最後のアミノ酸)にて開始する1以上のペプチドを含む部分配列をいう。この開始文字列と終了文字列との両方が、ペプチド全体またはその一部を構成し得る。質量分光分析によるペプチドのフラグメント化は、保持された電荷を有するN末端ペプチド切断フラグメントを生じ得る。これらの切断フラグメントは、「b−イオン」と称される。同様に、保持された電荷を有するC末端切断フラグメントを含むペプチドフラグメントは、「y−イオン」として標識される。種々の実施形態において、b−イオンについての質量は、切断フラグメントに含まれるアミノ酸質量を合計し、プロトンの質量を加えることによって算出され得る。y−イオンについての質量は、切断フラグメントに含まれるアミノ酸の質量を合計し、水およびプロトンの質量を加えることによって算出され得る。
本教示の目的のために、ペプチドの質量は、その構成要素のアミノ酸の質量の合計として定義され得る。ペプチドの「開始質量」のセットは、このペプチドの開始文字列に関連する可能な部分配列のいくらかまたは全ての質量の収集を含む。同様に、ペプチドの「終了質量」のセットは、このペプチドの終了文字列に関連する可能な部分配列のいくらかまたは全ての質量を含む。ペプチドの「関連質量」のセットは、開始質量のセットおよび終了質量のセットの部分的なユニオンまたは完全なユニオンを含む。
他に注記がなければ、用語「質量」、「質量比」および「質量/電荷比」は、本教示の目的のために、相互交換可能に使用される。ペプチドの「推定質量比」のセットは、サンプルペプチドに対して質量分光測定を行うことによって得られる、予測または推定された質量/電荷値のセットである。
本教示の目的のために、「インデックステーブル(index table)」は、1以上のペプチドに関連する別々の質量値を含むデータ構造を含む。インデックステーブルの「許容値」とは、テーブルのインデックスに対する許容値または所望値の範囲をいう。このインデックステーブルに関連するデータ構造は、多数の異なる様式(例えば、表計算、データベース、または情報を保存し、関連付けるために使用され得る他の適切なデータ構造が挙げられる)で実行され得ることが、理解される。種々の実施形態において、このインデックステーブルは、質量分析フラグメント化スペクトルをさらに含み得る複数の異なるペプチドを記載する情報を含むペプチドデータベースに関連する、種々のフィールドおよび情報を含み得る。
本教示の目的のために、「問合せペプチド」とは、ペプチドデータベースに問合せを行うために使用されるペプチドをいう。「問合せスペクトル」は、複数の質量/電荷値を含む問合せペプチドについての、代表的な質量分析フラグメント化スペクトルである。種々の実施形態において、この問合せスペクトルは、質量分析データからの強度値を全く含む必要はない。「問合せ質量」および「問合せ質量比」のセットとは、問合せスペクトルから得られる質量のセットをいう。「一次問合わせ質量」および「一次問合わせ質量比」のサブセットは、フラグメント化スペクトルに含まれる情報から得られるサブセットを含む。種々の実施形態において、「相補的問合せ質量」および「相補的問合せ質量比」のサブセットは、完全問合せペプチドの質量から一次問合せ質量を減算することによって算出されるサブセットを含む。
本教示の目的のために、「ヒット」は、インデックステーブルに含まれる選択された質量値にて位置決めされるペプチドインデックスの代表であり得る。ここで、選択された質量値と問合せ質量との間の差異は、規定された許容値を超えるか、この許容値より低いか、またはこの許容値の範囲内である。
本教示の目的のために、「ピーク質量比」は、推定同位体パターンおよび/または電荷を説明するために、測定された質量/電荷比によって調節される問合せ質量比である。ペプチドの「スペクトル範囲」は、ゼロから二重電荷の親ペプチドまたはペプチドイオンの分子量までの範囲であり得る。
本教示の目的のために、「改変」は、変化されているかもしくは特定の組成を有する1以上のアミノ酸、または変更されているかもしくは特定の組成を有するN末端基もしくはC末端基のいずれかの分の、ペプチドの質量比の変化を反映し得る。アミノ酸は、多数の方法(リン酸化、グリコシル化、選択された官能基の付加もしくは除去、または異なるアミノ酸での置換が挙げられるがこれらに限定されない)で改変され得ることが、当業者によって理解される。改変の「位置」は、改変されたアミノ酸の位置を表す。
本教示の目的のために、改変された問合せペプチドの「差質量」とは、改変された問合せペプチドの分子量と未改変の問合せペプチドの分子量との間の差異をいう。例えば、この改変がリン酸化である場合、この差質量は、ホスホリル基の質量である。「改変質量比」とは、改変されたペプチドの改変された亜種(例えば、第1のb−イオン)の質量/電荷比をいう。
(概要)
種々の実施形態において、本発明の教示は、質量分析データおよび情報を使用する、タンパク質またはペプチド同定のためのシステムおよび方法を記載する。本明細書中、以下により詳細に記載されるように、各サンプルについてのタンデム質量分析(MS/MS)データ、フラグメント化スペクトルおよび他の情報は、以前に同定された情報または参照情報と比較され、サンプルの組成を分解する手段を提供し得る。本発明の教示に従う配列分解は、公知および未知の両方のタンパク質組成物およびペプチド組成物の同定および特徴付けに、さらに使用され得る。さらに。開示される方法は、タンパク質組成物を分解するのに有用であり、ここで、サンプル中に含まれるタンパク質またはペプチド中に1つ以上の改変が存在し得る。この特性は、広範な潜在的な改変を説明し、かつ適用する能力を提供し、従って、分析中のタンパク質サンプルまたはペプチドサンプルの基礎を成す配列を識別するのを補助する。
種々の実施形態において、本発明の教示は、質量分析データおよび情報を使用する、タンパク質またはペプチド同定のためのシステムおよび方法を記載する。本明細書中、以下により詳細に記載されるように、各サンプルについてのタンデム質量分析(MS/MS)データ、フラグメント化スペクトルおよび他の情報は、以前に同定された情報または参照情報と比較され、サンプルの組成を分解する手段を提供し得る。本発明の教示に従う配列分解は、公知および未知の両方のタンパク質組成物およびペプチド組成物の同定および特徴付けに、さらに使用され得る。さらに。開示される方法は、タンパク質組成物を分解するのに有用であり、ここで、サンプル中に含まれるタンパク質またはペプチド中に1つ以上の改変が存在し得る。この特性は、広範な潜在的な改変を説明し、かつ適用する能力を提供し、従って、分析中のタンパク質サンプルまたはペプチドサンプルの基礎を成す配列を識別するのを補助する。
従来の方法で代表的に直面する1つの制限は、MS/MSスペクトルに含まれる比較的大量または大容量の情報に起因して、タンパク質サンプル由来の限定された数(しばしば、1程度)のペプチドのみが所定の分析の間に分析され得ることである。ペプチド分析はまた、改変のいくつかの先行する知識が公知であるかまたは推定されない限り、ペプチド改変体の存在によって、従来のアプローチにおいて有意に妨げられ得る。種々の実施形態において、本発明の技術は、誤差許容および改変許容のアプローチの使用を通してペプチドおよびタンパク質同定における改善を提供する。この方法論は、部分的に、「改変」質量の仕様に基づく。改変質量が計算されたペプチド分子量に足され得るか、または計算されたペプチド分子量から減算され得、ペプチドの全分子量に影響し得る改変の存在を反映する。分子量への影響を考慮して、種々のペプチド改変は、同一の改変を有するペプチドを含み得ない参照ペプチド情報のデータベースに対して評価する場合に、問い合わせペプチドを同定する能力を改善し得る。
問い合わせペプチド改変は、予測した質量もしくは前もって同定された質量とは異なる、目的のペプチドもしくはタンパク質の実験質量を生じる、特定の化学改変、アミノ酸置換(例えば、相同なペプチド)、切断(truncation)、非特異的もしくは誤った切断(cleavage)、または、実質的に任意のほかの改変に起因し得る。1つの局面において、この方法は、計算した改変質量およびこの改変が局在化され得るペプチドの近くの領域または「ゾーン」の同定に戻り得る。これらの機能は、好ましくは、改変の以前の知識が必ずしも必要とされないような様式で実施され、それによってタンパク質分析の可撓性および潜在的な有用性を改善する。
(データの準備)
図1は、本発明の教示に従うペプチドデータ準備方法100の概要を示す。この方法100は、タンパク質データベース115の発生またはアクセスを伴う段階110で開始する。種々の実施形態において、タンパク質データベース115は、目的のタンパク質またはペプチドサンプル(例えば、問い合わせペプチド)に対して比較される複数のタンパク質またはペプチドに関する保存された情報のコレクションを含む。一般に、タンパク質データベース115は、好ましくは、アミノ酸配列情報、マススペクトル情報および/またはフラグメント化スペクトルを含み、これらは、本明細書中以下でより詳細に記載されるような後に続く分析のための参照として役立つ。
図1は、本発明の教示に従うペプチドデータ準備方法100の概要を示す。この方法100は、タンパク質データベース115の発生またはアクセスを伴う段階110で開始する。種々の実施形態において、タンパク質データベース115は、目的のタンパク質またはペプチドサンプル(例えば、問い合わせペプチド)に対して比較される複数のタンパク質またはペプチドに関する保存された情報のコレクションを含む。一般に、タンパク質データベース115は、好ましくは、アミノ酸配列情報、マススペクトル情報および/またはフラグメント化スペクトルを含み、これらは、本明細書中以下でより詳細に記載されるような後に続く分析のための参照として役立つ。
1つの局面において、タンパク質データベース115に含まれる情報は、タンパク質および/またはヌクレオチド配列情報を用いて作成され、そして、原核生物、真核生物、ウイルスおよび他の生物を記載する遺伝情報およびスペクトル情報をさらに含み得、そして、目的の特定の生物体、細胞および/または組織に対してカスタマイズされ得る。さらに、タンパク質データベース115が形成される情報は、全長タンパク質またはヌクレオチド配列情報、発現配列タグ(EST)、部分タンパク質またはヌクレオチド配列情報、および他の遺伝情報源由来であり得る。
1つの局面において、タンパク質データベース115は、他の遺伝情報源に加えて、公に利用可能な情報源ならびに私的または施設の情報源を使用して形成(populate)され得る。公に利用可能な情報は、公にアクセス可能なデータベース(例えば、NIST98(NIST/EPA/NIH Mass Spectral Library)、GenBank、SwissProt、Ribosomal Database Project(RDP)、Entrez、the DNA DataBank of Japan(DDBJ)、the European Molecular Biology Laboratory(EMBL)および他の遺伝情報の保管場所を含む)から得られるマススペクトルまたはフラグメント化情報および配列情報を含み得る。施設の情報源は、私的/商用データ−ベース、実験室由来/実験的遺伝情報、配列決定/マッピングデータおよび他の遺伝情報源を含み得る。
1つの局面において、タンパク質データベース115は、配列およびスペクトル情報が公的な情報源およ施設の情報源から得られ得る1つ以上の生物体についての、完全な遺伝子配列またはタンパク質配列(かまたは部分的に得られえるかもしくは入手可能であるものと匹敵するもの)から得られるタンパク質、ペプチドまたはアミノ酸配列情報を含む。タンパク質サンプルまたはペプチドサンプルに対するタンパク質配列の評価が所望なように実施される、選択された生物または標的生物についての遺伝子配列または遺伝子情報から得られる誘導体タンパク質配列またはペプチド配列およびスペクトル情報が、タンパク質データベース115に含まれ得る。
一旦、タンパク質データベース115に含まれるべき情報が同定され、段階110に回収されると、方法100は、段階120に進み、ここで1つ以上のペプチドデータベースサブセット125が形成され得る。種々の実施形態において、データベースサブセット125は、約0ダルトン〜タンパク質サンプルまたはペプチドサンプルの総質量までの間にあり得るペプチド質量範囲によって特徴付けられ得る。1つの局面において、データベースサブセット125の数は、親のタンパク質データベース115のおよそのサイズに基づいて選択される。タンパク質データベース115が多くの参照ペプチドを記載する情報を含む例において、引き続く調査および分析を促進するために、増大した数のデータベースサブセット125を作製することが望ましくあり得る。データベースサブセット125のサイズおよび数は変化し得ることが理解されるが、各データベースサブセット125の例示的な質量範囲は、約5〜500ダルトンの間であり得る。さらに、問い合わせペプチド質量範囲は、データベースサブセット質量範囲と組み合せて同定され得、これにより、有限のデータベースサブセット数が生じる。従って、20ダルトンの問い合わせペプチド質量範囲が選択され、データベースサブセット質量範囲が400ダルトンと3000ダルトンの間で選択される場合、データベースサブセットの数は、およそ130である。
種々の実施形態において、ペプチドデータベース115および関連するデータベースセット125の構成は、タンパク質データベース115内のペプチド質量のコレクションまたはアレイ、データベース115に存在する対応するタンパク質を指定する、位置のコレクションまたはアレイ、ならびに選択されたタンパク質と関連するペプチド位置のコレクションまたはアレイを含み得る。従って、選択されたデータベース115またはデータベースサブセって125について、選択されたペプチドインデックスは、タンパク質データベース115内の親タンパク質とともに特定のペプチドを同定するために十分な情報を提供し得る。
種々のデータ構造およびデータの論理的な機構を用いて、データべース115、125に含まれる情報を関係付け得ることが理解される。例えば、データべース115、125は、関連するデータベース開発および実行のために設計されたアプリケーション(例えば、Oracle CorporationまたはSybase Corporationから販売されるもの)を使用して実行され得ることが想像される。上記のデータベース開発ソフトウェアパッケージを用いて、データベース115、125は、専用のデータベース言語(例えば、構造化照会言語(structured query language (SQL))を用いて実行され得る。構造化照会言語は、リレーショナルデータベースの定義、更新および問い合わせのためにInternational Standards Organization(ISO)によって標準化された言語である。1つの局面において、SQLコード化データベース設計は、望ましくは、データベース115、125の開発者に、メンテナンスの必要性が減少し、かつ拡張性が増した、高度に精選された指示セットを提供する。
別の局面において、データベース115、125は、多数の他のプログラミング言語(例えば、JAVA(登録商標)、C/C++、Basic、Fortranなど)を使用して実行されるデータベース設計を含み得、ここで、データベース構造、表および関連性は、プログラミング言語のコードによって定義される。しかし、これらの言語はまた、上記のSQLコード化データベース設計にアクセスするかまたはSQLコード化データベース設計を操作するために使用されるアプリケーションおよびプログラムを開発するために使用され得ることが認識される。例えば、1つの実施形態において、SQLコード化データベースは、他のプログラミング言語で開発された、種々のアクセサリプログラムまたはサーバ(servlet)とインタラクトし得、データベース115、125の情報を記憶、検索およびプロセスするためのグラフィカルユーザーインターフェースを提供する。
他のリレーショナルデータベースが使用され得るか、および/または、他の型のデータベース(例えば、オブジェクト指向性データベース、フラットファイルデータベースなど)が使用され得ることがさらに認識される。さらに、データベース115、125は、別々のテーブルを有する単一のデータベースとしてか、または、当該分野で周知の他のデータ構造(例えば、リンクされたリスト、2分木など)として実行され得る。さらに、データベース115、125は、集合的に管理される複数のデータベースとして実行され得る。
上記のデータベース設計において、データベース115、125に含まれる情報を構成および分類するのに使用される関係または関連性を実行するために、データベース115、125の構造およびスキーマは必要に応じて変更され得ることが当業者に理解される。さらに、このデータベーススキーマは、例えば、新しいデータ型を適応させるため、存在するデータ型を表す存在するデータ構造を変更するため、存在するデータ構造の間の関係を改変するため、およびデータベース115、125に新しいデータベースを加えるため、のような多くの理由のために変更され得る。
(必要である場合、または所望される場合、)段階120におけるデータベースサブセット125の準備の後、方法100は段階130に進み、ここで、データベース115、125に含まれる情報を用いて、1つ以上のスペクトル検索データ(SSD)135が準備される。各SSD135は、選択されたヘッダ情報(各ペプチドデータベースサブセット125について1つの、ブロックのリストを含む)を含み得る。各ブロックは、対応するペプチドデータベースサブセット125のペプチドを参照するインデックス情報と共に、データベース115からのペプチドデータを含む。
種々の実施形態において、各ブロックはさらに、フラグメント−イオン質量に部分的に基づく、改善された検索パフォーマンスを提供するように設計された1対のデータ構造を含む。本明細書中以下により詳細に記載されるように、これらのデータ構造は、インデックス値を用いて、対応するペプチドデータベースにマッピングされる選択されたペプチドを参照し、ここにペプチドの特徴を記載する情報が記憶される。
1つの局面において、ペプチドは、関連する質量の2つのセットを有するものとして概念化され得る。これらの質量は、2つのタンパク質またはペプチド末端(例えば、カルボキシ末端およびアミノ末端)から開始する1つ以上の部分配列の質量に反映する。これらの質量を用いて、質量スペクトル分析の間のフラグメント化により生じるイオンの論理的な質量のサブセット(b系列およびy系列)を生成し得る。種々の実施形態において、目的のフラグメント−イオン質量範囲は、2つのペプチド末端の各々について特定化され得、このペプチドのフラグメント化から生じるイオンのサブセットを生じる。これらのイオンのサブセットは、さらに、別々のビンまたはサブ−サブセットに分けられ得、さらに、同定されたイオンの総数を情報の別々の量に分配する。例えば、仮想的な問い合わせペプチドについてのフラグメント−イオン質量範囲は、0および3000ダルトンの間に存在するように選択され得る。さらに、0.01ダルトンのビンサイズが特定化され得、これによって、ペプチドの部分配列をおよそ300000ビンに分画する。
ペプチドインデックスを含むアレイまたはデータ構造が、各ビンに関連される。選択されたビンに関する、アレイまたは他のデータ構造のインデックスは、このビンにあてはまる関連する質量を有するペプチドのインデックスである。ある程度の許容範囲がまた、ビンの割り当てにおいて柔軟性を提供し、そして、近接するビン間でオーバーラップする、選択されたビンについての質量範囲と関連し得る。1つの局面において、ペプチドインデックスを含む上記のアレイまたはデータ構造は、特定の質量範囲内に、選択されるかまたは所望される型のフラグメントイオンを生じ得る、選択されたペプチドデータベース115におけるペプチドの各々に、簡便な接近性を提供する。
段階130におけるスペクトル検索データ(SSD)135の準備の後、方法100は、段階140に進み、ここで、問い合わせ質量リスト145が準備される。種々の実施形態において、問い合わせ質量リスト145は、質量Mpを有する問い合わせペプチドに関する、単電価のフラグメントイオン単同位体質量のコレクションまたはリストを表す。フラグメントイオン質量は、問い合わせペプチドについての問い合わせペプチドの質量が一般的に公知であるように同定され得、そして、例えば、実験的フラグメント化スペクトルまたはデータを分析することによって得られ得る。1つの局面において、フラグメントイオン質量の同定は、電荷割当てがなされ得るフラグメント化スペクトル内の同位体ピークパターンを検索することによって実行される。
図2Aに示されるように、フラグメント化スペクトル分析への例示的なアプローチは、問い合わせペプチドスペクトル200を第1の範囲210および第2の範囲220に分ける工程を包含する。第1の範囲210は、関連する問い合わせペプチド質量(0−Mp/2)のおよそ最初の半分に含まれる質量として特定され得、そして、第2の範囲220は、関連する問い合わせペプチド質量(Mp/2−Mp)のおよそ2番目の半分に含まれる質量として特定され得る。各スペクトル範囲210、220について、個々のペプチドイオンを表す1つ以上のピーク225が、相対強度または相対量230に基づいて選択され得る。単価のイオンについて図2Bに示されるように、ペプチドイオン250に関する主要な単同位体質量が、問い合わせ質量リスト145に加えられ得るが、他の電荷の状態について、ペプチドイオンの対応する質量が計算され得、そして、問い合わせ質量リスト145に加えられ得る。続いて、各ペプチドイオン質量Mfについて、相補的な質量260が以下の式:
式1:Mp+2MH−Mf
に従って計算され得る。
式1:Mp+2MH−Mf
に従って計算され得る。
この式において、Mpは問い合わせペプチド質量270を表し、MHは水素の質量を表し、そして、Mfは主要なペプチドイオン質量250を表す。次いで、問い合わせペプチドの相補的な質量260が、問い合わせ質量リスト145に加えられ得る。このアプローチの適用において、問い合わせペプチド270から生じた相補的な単電価ペプチドイオン250、260(例えば、b−イオンおよび対応するy−イオン)の質量が決定され得る。このアプローチは、実質的に任意のN残基ペプチドに適用され得、ここで、イオンb(i)は、イオンy(N−1)に相補的である。
フラグメント化スペクトル***に基づく問い合わせ質量リスト作成および電荷割当てに対する上記のアプローチは、必要な場合または所望される場合、容易に改変され得ることが理解される。例えば、上記の質量範囲は、必ずしも記載されるような正確な様式で選択される必要はなく、そして、各質量内から選択されたピークの数は、自然に可変であり得ることが想像される。従って、1つ以上のペプチド質量210、220を有するスペクトル200および問い合わせ質量リスト145に関連するスペクトル分析140へのアプローチの改変は、本発明の技術の他の実施形態以外が考慮されるべきである。
(検索方法論)
種々の実施形態において、本教示の検索方法は、ペプチド質量索引表を利用する。この索引表は、許容される値の範囲内の不連続な増分で、質量によって索引が付けられている。例えば、索引表は、0.01〜30,000ダルトンの値を、0.01ダルトンの増分で含み、3,000,000行の表を生じ得る。
種々の実施形態において、本教示の検索方法は、ペプチド質量索引表を利用する。この索引表は、許容される値の範囲内の不連続な増分で、質量によって索引が付けられている。例えば、索引表は、0.01〜30,000ダルトンの値を、0.01ダルトンの増分で含み、3,000,000行の表を生じ得る。
図3は、上記索引表を作製するための例示的な方法300を示す。1つの局面において、方法300は、問い合わせペプチドを、タンパク質データベース115またはデータベースサブセット125から選択することにより、段階310で開始する。引き続いて、段階320において、問い合わせペプチドについての種々のイオン組成物およびフラグメントに対応する関連する質量のセットが、上記図1および2において記載された原理に従って、決定される。段階330において、段階320において同定された各関連する質量について、ペプチド索引が同定され得、そしてその質量に対応する索引表に格納され得る。従って、1つ以上の行を含むスタックに配列された、例示的な索引表に対して、各関連する質量についてのペプチド索引が、そのペプチド索引の値に対応するスタックの行に格納され得る。次いで、必要であるように、または所望により、段階340において、引き続くペプチドをペプチドデータベース115から選択し、そして段階320に戻って類似のセットの計算および演算を実施することによって、このプロセス300が繰り返され得る。方法300の完了時に、望ましくは検索に組み込まれるペプチドデータベース115におけるペプチドの各々は、質量索引表に組み込まれる。
図4を参照すると、ペプチド質量検索400は、ペプチドデータベース115における1つ以上のペプチドについて、関連する質量のセットに対して問い合わせ質量のセットを比較する工程を包含する。1つの例示的なアプローチにおいて、検索400は、段階410において開始し、ここで、問い合わせペプチド415についての質量分析データまたはフラグメント化スペクトル200が収集される。この情報を使用して、方法400は、段階420に進み、ここで、スペクトル200からの1つ以上のピーク225が同定され、そして各ピークの質量の決定がなされる。同定された質量に基づいて、索引表ルックアップ機能が、段階430において実施され、索引表内において、同定された質量に対応するエントリーを検索する。段階440において、スコア付け演算が実施され、ここで、データベース115における1つ以上のペプチドについて維持された、複数の質量スコアが、実質的に同じ関連する質量を有する索引表内の検索されたエントリーの同定に基づいて、増加される。引き続いて、必要であるように、または所望により、段階450において、上記演算が繰り返され得る。
方法400は、段階450に進み、ここで、スペクトルにおける所望の全てのピークが処理されたか否かについての決定がなされる。さらなるピークが存在する場合、方法400は、段階420に戻り、ここで、このスペクトルから次のピークが選択され、そして質量評価が実施される。その後、類似の質量ルックアップおよびペプチドスコア付けプロセスが、上記のように進行する。これらの工程420〜450は、望ましくは、スペクトルにおける1つ以上のピークについて繰り返され、そして選択された閾値より上にある全てのピークの同定に基づき得るか、あるいは選択された数のピークが、各フラグメント化スペクトルについて処理され得る。
最後に、段階460において、最も大きいスコア(例えば、最も大きいヒット数)を有するペプチドが同定される。この段階460において同定されるペプチドの数は、選択されたスコア閾値より上にあるスコアを有するペプチドを選択することに基づき得るか、あるいは、ペプチドデータベース115に含まれるペプチドのコレクションから最も大きいスコアを有する選択された数のペプチドを同定することにより得る。
メモリと速度との両方の観点で両方効率的な、索引表を作成することが可能である。1つの実施形態において、この索引表は、2つのパスで計算され得る。第一のパスにおいて、各行についてのエントリーの数が計算される。各行におけるエントリーの数に基づいて、その行のための十分な量のメモリが割り当てられ得る。第二のパスにおいて、これらの行は、各行に対応する関連する質量の原因となるペプチドを参照して、ペプチド索引に存在する。
種々の実施形態において、ペプチド質量検索は、以下のように実施され得る:ペプチドデータベースにおける各ペプチドに対して、スコア値が割り当てられ、そして初期化される。各問い合わせ質量について、索引表における対応する行が参照され、その行における全てのペプチド索引がルックアップされ、そしてこれらの索引に関連する全てのスコア値が増加される。
さらなる実施形態は、問い合わせ質量を、ペプチドデータベース中のペプチドに関連する質量と適合させるための、許容値を使用する。問い合わせ質量と、関連する最初の鎖の推定N末端質量との間の差異が、最初の質量の選択された許容量内である場合、問い合わせ質量は、最初の質量(例えば、最初の質量ヒット)に関連し得る。同様に、問い合わせ質量と、関連する最後の鎖の推定C末端質量との間の差異が、最後の質量の選択された許容量内である場合、問い合わせ質量は、最後の質量(例えば、最後の質量ヒット)に関連し得る。
上記実施形態において、検索は、以下のように実施され得る:先の実施形態においてと同様に、スコア値が、ペプチドデータベースにおける各ペプチドに対して割り当てられ得、そして初期化され得る。しかし、問い合わせ質量に対応する行を参照することに加えて、特定された許容内の全ての隣接する行もまた、参照され得る。先の実施例と類似の様式で、参照される1つ以上の行におけるペプチド索引のうちの1つ以上がルックアップされ得、そしてこれらのペプチド索引に関連するスコア値が増加され得る。
図5は、図1に記載されるペプチドデータ調製方法100と組み合わせて使用される、ペプチド質量検索方法500の別の実施形態を示す。検索方法500は、段階510において開始し、ここで、質量分析情報またはフラグメント化スペクトルが、先に記載されたように分析される。段階520において、各スペクトルに対して、ペプチドの例示的に決定された質量または既知の質量を使用して、どのペプチドブロックが検索のために必要であるかを決定する。検索のためのブロックの決定は、望ましくは、検索することが必要であり得る全てのペプチドスペクトルを予め同定し、そしてこの検索を各ブロックに対して1回行うことによって、検索性能を改善する手段を提供する。
段階530において、ペプチドスコア付け値が初期化される。このペプチドスコア付け値は、方法500の引き続く工程において、これらのスコアの各々の互いに対する引き続く評価を容易にするデータ構造またはアレイに維持され得る。スコア付け値の初期化に続いて、方法500は、段階540に進み、ここで、上記SSD 135における各ペプチドブロックについて、現在のブロックが検索されるべきである場合、ペプチド質量および問い合わせ質量のリストが評価される。段階550において、質量分析およびスコア付け関数が実施され、ここで、各問い合わせ質量に対して、質量ビン(bin)の範囲が、特定された質量許容を使用して同定され、そして各ペプチドに対するスコア付け値が同定される。ペプチドの質量が、特定された質量許容内である場合、これらの質量ビンに関連するスコア付け値は、増加される。段階560において、所定のスペクトルについての各検索の結果が組み合わせられ得、ここで、1つより多いブロックが、各スペクトルについて検索され得る。個々のブロックの結果は、各スペクトルについての検索結果の完成したコレクションにさらに合わせられ、ここで、選択された検索結果が、独特のペプチドを表す。その後、段階570において、最も大きいスコア付け値を有するペプチドが、問い合わせペプチドに関連付けられ得る。
(重み付け検索方法:ヒットのカテゴリー)
種々の実施形態において、上記検索方法論は、問い合わせスペクトルにおける種々のカテゴリーまたはクラスのピークに関する、1つ以上の重み付け因子のコレクションを使用し得る。このアプローチについての1つの原理は、実験データが、いくつかのカテゴリーまたはクラスのピークが他のものより多くの推定ヒットまたは有用な同定を与え得ることを示し得ることである。問い合わせスペクトルにおけるピークは、いくつかの基準によって、さらにカテゴリー分類され得る。1つのこのような基準は、そのピークを生じたイオンの型(例えば、yイオン、bイオン、aイオン、またはイモニウム(immonium)イオン)である。別の基準は、そのピークが主要なピークであるか補償的ピークであるかであり得る。
種々の実施形態において、上記検索方法論は、問い合わせスペクトルにおける種々のカテゴリーまたはクラスのピークに関する、1つ以上の重み付け因子のコレクションを使用し得る。このアプローチについての1つの原理は、実験データが、いくつかのカテゴリーまたはクラスのピークが他のものより多くの推定ヒットまたは有用な同定を与え得ることを示し得ることである。問い合わせスペクトルにおけるピークは、いくつかの基準によって、さらにカテゴリー分類され得る。1つのこのような基準は、そのピークを生じたイオンの型(例えば、yイオン、bイオン、aイオン、またはイモニウム(immonium)イオン)である。別の基準は、そのピークが主要なピークであるか補償的ピークであるかであり得る。
質量分光分析法において、ペプチドのサンプルが、複数のサブフラグメントイオンにフラグメント化され得、そしてこれらのイオンの1つ以上の質量/電荷比が決定される。サブフラグメントイオンのカテゴリーは、当該分野において周知であり、yイオン、bイオン、aイオン、およびイモニウムイオンが挙げられる。例えば、yイオンは、通常の質量分光分析機において、いくつかの共通の設定で、bイオンの約2倍多い。従って、推定yイオンを含むヒットの数は、推定bイオンを含むヒットの数より、より推定的であり得る。その結果、これらのより推定的なカテゴリーからのヒットがより重く重み付けられる場合、問い合わせペプチド同定を確実にすることは、より高い質または信頼性のものであり得る。
種々の実施形態において、イオン型のセットまたはコレクションが選択され得る(例えば、1荷電のyイオンおよびbイオン)。引き続いて、1つ以上の可能なサブフラグメントイオンのセットが、ペプチドデータベースにおける各ペプチドについて計算され得、推定質量/電荷比が、各サブフラグメントイオンについて計算され、そしてペプチド索引が、上記節に記載されるように、推定質量/電荷比のセットに従って配置される。
この実施形態において、問い合わせスペクトルは、選択されたセットのイオン型のイオンに対応するピークについて試験され得る。問い合わせ質量比のセットは、選択されたセットのイオン型に対応すると考えられるピークを選択することによって、決定される。
時々、ピーク自体の質量比が、問い合わせ質量比を表す(例えば、このピークが属する同位体パターンが、このピークが単一の電荷を有することを示唆する場合)。同位体パターンが、そのピークを生じているイオンが2の電荷を有することを示唆する場合、その質量比を2倍し、水素の質量を減算したものが、問い合わせ質量比として使用され得る。同様に、同位体パターンが他の電荷を示唆する場合、そのピークの質量比は、これが問い合わせ質量比として使用される前に、等価な1電荷のモノ同位体質量比に調節される。
(重み付けスコア付け分析)
種々の実施形態において、フラグメント化スペクトルにおけるデータの質は、ピークごとに異なり得、そしてペプチドデータベースを、フラグメント化スペクトルから誘導されたデータを用いて検索することは、十分な特異性および感度での一致またはヒットを生じないかもしれない。1つの実施形態において、本教示は、推定の質に従って、フラグメント化スペクトルからのピークをカテゴリー分類し、そしてより高い重み付けを、より高い質のピークに割り当てる。例えば、ピークの質は、そのピークがyイオンを表すのかbイオンを表すのかに従って、変化し得る;具体的には、yイオンは、通常の設定の通常の機械において、bイオンの2倍である傾向があるので、その結果、yイオンを含むヒットの数は、bイオンを含むと推定されるヒットのおよそ2倍であるはずである。別の例において、ピークの質はまた、その強度に比例して変化し得る。
種々の実施形態において、フラグメント化スペクトルにおけるデータの質は、ピークごとに異なり得、そしてペプチドデータベースを、フラグメント化スペクトルから誘導されたデータを用いて検索することは、十分な特異性および感度での一致またはヒットを生じないかもしれない。1つの実施形態において、本教示は、推定の質に従って、フラグメント化スペクトルからのピークをカテゴリー分類し、そしてより高い重み付けを、より高い質のピークに割り当てる。例えば、ピークの質は、そのピークがyイオンを表すのかbイオンを表すのかに従って、変化し得る;具体的には、yイオンは、通常の設定の通常の機械において、bイオンの2倍である傾向があるので、その結果、yイオンを含むヒットの数は、bイオンを含むと推定されるヒットのおよそ2倍であるはずである。別の例において、ピークの質はまた、その強度に比例して変化し得る。
1つの実施形態において、各カテゴリーのピークに割り当てられる重み付けは、学習例または訓練データの使用によって、計算される。学習例は、正しいペプチドが既知である問い合わせスペクトルを含む。カテゴリーへの重み付けの割当ては、データベースペプチドの間での既知の回答が、カテゴリーの可能な組み合わせから顕著に特徴付けられるように、学習例において調整および調節される。
例示的な例として、ペプチドデータベース中にn個のペプチドが存在し、m個のカテゴリーのヒットが存在し、Hijが、ペプチドiについてのカテゴリーjにおけるヒットの数であり、そしてWjが、カテゴリーjについての重み付け値であるとする。この例において、Xiは、ペプチドiについてのスコアであり、そしてこれは、以下のように計算される:
最適な重み付けを決定するための1つの方法において、共分散値Cabが使用される。値Cabは、カテゴリーaとbとの間の共分散を表し、そして以下のように計算される:
本教示はまた、複数のセットの学習例を使用して、引き続く未知のペプチドのために使用するための、複数のセットの重み付けを決定し得る。各学習例について、最適な重み付けのセットが、これらの二乗の合計がほぼ1になるように計算され、そして標準化され得る。次いで、これらの標準化された重み付けの各々の学習例のセットに対する平均が、新たな未知のペプチドを用いる検索において使用され得る。所望のセットの重み付けは、標準偏差を最大にするものである。
一旦、重み付けのセットが決定されると、これらの重み付けが、未知の問い合わせペプチドの同定を改善することを合理的に望んで、未知の問い合わせスペクトルをアッセイする際に使用される。種々の実施形態において、別個の索引表が、異なるイオン型の推定質量比について作成される。代替の実施形態において、別個の索引表が、主要な質量比および補償的な質量比について作製される。これらの実施形態において、各索引表は、それに関連する重み付けを有し得る。検索の間、スコア値が増加される。次いで、各索引表についてのスコア値が、その重み付けによって乗算される。最後に、ペプチドデータベースにおける各ペプチドについてのスコア値が、索引表にわたって合計される。
なお他の実施形態において、別個の索引表が、別個の直交基準に対して作成される。例えば、別個の索引表が、問い合わせ質量比がbイオンを表すかyイオンを表すかに従って、および質量比がピークの質量比を表すか補償的な質量比を表すかに従って、作成され得る。この例において、4つの別個の索引表が作成される:bイオンについて1つ、yイオンについて1つ、ピーク質量比について1つ、および補償的質量比について1つ。問い合わせ配列をこれらの表と比較することによって、4つの別個の計数が得られる。次いで、各計数が、その表の対応する重み付けで乗算され、そして全ての重み付けされた計数が合計されて、問い合わせタンパク質についての重み付けされたスコアが得られる。
(ペプチド改変の効果)
多くのペプチドは、翻訳後修飾(リン酸化およびグリコシル化を含む)のような改変を含む。他の改変としては、アミノ酸の置換およびペプチドのN末端基またはC末端基の変化が挙げられる。このような改変は、ペプチドの質量を変化させ得、これによって、改変されたペプチドを従来の質量分析技術によって同定することに、困難を生じる。より具体的には、このような改変の結果、問い合わせペプチドのイオンのいくつかが、改変していないペプチドの対応するイオンとは化学的に異なり得る。従って、問い合わせ質量比のいくつかは、それらの推定質量比と一致しないかもしれない。改変の位置が未知である場合、どのイオンおよびその測定される質量/電荷比がその改変によって影響を受けたかについてもまた未知である。実験結果は、未知の問い合わせペプチドの改変が存在する特定の状況において、この問い合わせペプチドの質量比のおよそ半分が、正しいペプチドについての推定質量比に対応しないことが観察され得ることを示す。すなわち、改変された問い合わせペプチドの問い合わせ質量のおよそ半分が、他のペプチドから正しいペプチドを区別しないかもしれない。これらの改変された問い合わせ質量は、これらが正しいデータベースペプチドのスコアに寄与しない点で、浪費されるのみでなく、これらが正しくないデータベースペプチドのスコアを増加させる点で、実際に有害であり得る。1つの実施形態において、本教示は、改変された問い合わせ質量を同定する機構を提供する。このアプローチがペプチドを分析する、1つの望ましい利点は、このアプローチが、結果の信頼性または質を改善し得ることである。
多くのペプチドは、翻訳後修飾(リン酸化およびグリコシル化を含む)のような改変を含む。他の改変としては、アミノ酸の置換およびペプチドのN末端基またはC末端基の変化が挙げられる。このような改変は、ペプチドの質量を変化させ得、これによって、改変されたペプチドを従来の質量分析技術によって同定することに、困難を生じる。より具体的には、このような改変の結果、問い合わせペプチドのイオンのいくつかが、改変していないペプチドの対応するイオンとは化学的に異なり得る。従って、問い合わせ質量比のいくつかは、それらの推定質量比と一致しないかもしれない。改変の位置が未知である場合、どのイオンおよびその測定される質量/電荷比がその改変によって影響を受けたかについてもまた未知である。実験結果は、未知の問い合わせペプチドの改変が存在する特定の状況において、この問い合わせペプチドの質量比のおよそ半分が、正しいペプチドについての推定質量比に対応しないことが観察され得ることを示す。すなわち、改変された問い合わせペプチドの問い合わせ質量のおよそ半分が、他のペプチドから正しいペプチドを区別しないかもしれない。これらの改変された問い合わせ質量は、これらが正しいデータベースペプチドのスコアに寄与しない点で、浪費されるのみでなく、これらが正しくないデータベースペプチドのスコアを増加させる点で、実際に有害であり得る。1つの実施形態において、本教示は、改変された問い合わせ質量を同定する機構を提供する。このアプローチがペプチドを分析する、1つの望ましい利点は、このアプローチが、結果の信頼性または質を改善し得ることである。
種々の実施形態において、改変された問い合わせペプチドの分子量と、改変されていない問い合わせペプチドの分子量との間の差異は、「質量差」と称される。質量差が未知である場合、問い合わせスペクトルにおける改変された質量比は、比較から除外され得る。質量差が既知である場合、その情報は、問い合わせ質量比を調整し、これによって、検索の選択性および感度を増加させるために使用されるべきである。1つの実施形態において、問い合わせ質量比は、これらから質量差を減算することによって、調整される。
種々の実施形態において、検索方法は、問い合わせペプチドのスペクトル範囲を区間に分割することによって、改変された問い合わせタンパク質の改変された問い合わせ質量を同定する。0から二重に荷電した親イオンの問い合わせペプチドの質量までの範囲は、スペクトル範囲と称され、これはまた、改変されていない問い合わせタンパク質の質量として規定され得る。問い合わせペプチドの質量を考慮すると、推定質量より大きい問い合わせ質量比は、改変に起因し得る。種々の実施形態において、スペクトル範囲は区間に分割され得、そして別個の検索が、各区間にわたって実施される。他の実施形態において、これらの改変された問い合わせ質量は、ペプチド索引との比較から除外される。なお他の実施形態において、これらの改変された問い合わせ質量は、ペプチド索引との比較のために使用される前に、調整され得る。可能なペプチド改変を考慮する分析の様式のさらなる詳細は、本明細書中以下にさらに詳細に記載される。
図6は、本教示とともに使用され得るゾーン改変手順600の1つの実施形態を示す。ゾーン改変手順600は、1つ以上の可能なペプチド改変が同定される段階610で開始する。これらの改変は、以下を含み得る:化学的改変、アミノ酸置換、質量によって選択される改変、および存在する場合、ペプチドの質量に影響し得る他の改変型。これらの改変は、ペプチド内に存在するかまたは予期される改変の型の知識の基づいて自動的に選択され得、そしてまた、ペプチド内に含まれることが予想される未知の改変を含み得る。本明細書中において以下にさらに詳細に記載されるように、ペプチド分析ソフトウェアアプリケーションは、目的のペプチドに関連し得る、使用者が選択可能な改変の型および組成物を可能にするような機能を提供するように実行され得る。
段階620において、ペプチドについてのフラグメント化スペクトルは、1つ以上のゾーンに分割され得る。各ゾーンは、改変がそのゾーンの選択されたピーク内に存在すると考えられ得る、別個の質量範囲を規定する。段階630において、各ゾーンについて、問い合わせペプチドフラグメント化データおよび情報を参照または理論ペプチドフラグメント化データおよび情報と比較する場合、改変の質量が考慮される別々の質量検索が、実施され得る。この分析の間、1つ以上のピークまたはペプチド質量が、この改変と関連し得る。引き続いて、段階650において、改変ピークから伝わる(propageting)ペプチドイオン質量が、同定され得るかまたはフラグが付けられ(flagged)得る。1つの局面において、改変ピークから生じるペプチドイオン質量は、親改変ペプチド由来のb−イオンフラグメントおよびy−イオンフラグメントを含む。存在する潜在的改変を有するとして同定されるこれらのペプチドは、引き続く分析から排除され得、それによって誤ったまたは不正確なペプチド質量同定を減少させ得る。さらに、改変から生じる質量の寄与を決定するために、計算が実施され得、そしてこの質量が、フラグメント化スペクトルのピークを評価する場合に、考慮され得る。段階660において、ペプチド同定は、上記様式で扱われ得る改変ピークの知識を用いて実施される。
種々の実施形態において、ゾーン方向性様式でのペプチド改変を考慮することによって、分析の質および信頼性を改善することが可能である。このアプローチについての1つの合理性は、捨てられ得るかまたはそれ以外で分析において考慮され得ないピークの数を減少させることによって、可能な場合、フラグメント化データが保存され、引き続いてペプチド同定において使用される。このゾーン改変分析の様式は、既存のソフトウェアアプリケーション(Pro IDおよびPro ICAT(Applied Biosystems,CA)のようなペプチド分析プログラムを含む)に、容易に組み込まれ得る。
さらに、ペプチド分析および検索方法においてゾーン改変特徴を使用することは、予期しない改変ペプチドの同定を補助し得る。このペプチド分析方法は、ペプチドの改変質量ならびに改変が存在するアミノ酸をさらに同定し得る。次いで、局在的な領域におけるアミノ酸のさらなる知識は、改変およびその位置を曖昧さなしに同定するために使用され得る。
図7は、実験的に誘導されたペプチド710および理論的に対応したスペクトル720についての例示的なMS/MSまたはフラグメント化スペクトルを示す。各スペクトル710、720は、複数の質量ゾーン730に分割され得る。例示的な実施形態において、改変は、ゾーン735のピーク750と関連するように仮定されるかまたは予測される。上記分析方法600に基づいて、仮定された改変750から伝わるb−イオンおよびy−イオン760のうちのいくつかまたは全ては、捨てられ得るかまたはそれらの質量がその改変を考えて考慮され得る。ゾーン735の他のイオン740に対応するピークは、分析のための維持され得、そして他のゾーン730に存在する他のピーク740もまた維持され得る。ゾーン改変方法論の種々の実施形態のさらなる詳細は、引き続く考察に従う。
種々の実施形態において、問い合わせペプチドのスペクトル範囲は、実質的に等価な間隔に分割され得る。質量jから質量kの1つのこのような間隔を考慮し、そして改変質量比は、[j,k]間隔に存在すると仮定する。改変が[j,k]間隔に存在すると仮定することによって、1セットの改変問い合わせ質量比が同定され得る。次いで、これらの同定された質量比は、差質量が未知である場合、比較から落とされ(dropped)得るか、差質量が既知である場合、調節され得る。質量比の差セットは、例えば、1つの質量比セットが、予測されたb−イオン質量比を比較することによって同定され得、そして別のセットが、予測されたy−イオン質量比と比較することによって同定され得る。1つの局面において、kより大きい問い合わせ質量比の実質的に全ては、予測されるb−イオン質量比に対するヒットを探す場合に、落とされ得るかまたは調節され得る。別の局面において、分子量+2H−jより大きな問い合わせ質量比の全てが、予測されるy−イオン質量比に対するヒットを探す場合に、落とされ得るかまたは調節され得る。問い合わせペプチドのスペクトル範囲がm間隔に分割され得た後、各検索が問い合わせペプチドの改変がその検索間隔内に存在すると仮定して、別の検索が、各間隔において実施される。別の検索を実施した後に、各検索からのスコアが組み合わされ得、そして検索の全てにわたって最も大きなスコアを有するペプチドが、問い合わせペプチドに対する最適な一致として割り当てられる。
1つの局面において、この様式でのペプチド分析は、検索プロセスにおけるヒットに分布を変更することによって、改変問い合わせタンパク質検索の感度および特異性を増加させる。検索プロセスにおける改変問い合わせ質量比を同定する利点をより良く理解するために、1つの間隔が完全改変問い合わせペプチドを実質的に網羅し得る通常の検索(normal search)においてヒットの予期される分布を調べることが役立つ。
問い合わせペプチドが、kペプチドを含むペプチドデータベースと比較されることを考える。ヒストグラムFが構築され得、ここで、Fbは、bヒットを受け取るデータベースペプチドの数を表す。bヒットを受け取るデータベースにおけるペプチドの割合(Db)は、以下のように計算され得る:
Db=Fb/k。
Db=Fb/k。
検索が試行の数として規定される(ここで、各問い合わせ質量が試行を表す)場合、および成功がペプチドインデックスにおけるペプチドにヒットする問い合わせ質量として規定される場合、D(およびF)は、二項分布に従うように見え得る。1つの局面において、二項分布の分散は、試行の数に比例する;特に、二項分布(n,p)の分散(ここで、nは、試行の数であり、そしてpは、試行当たりの成功の確率である)は、np(1−p)である。言い換えると、D(およびF)の分散は、検索に使用される問い合わせ質量比の数に比例する。D(およびF)の所望の確率密度は、高い数のヒットを受け取る少数の配列を示し、真のヒットとノイズとの間に明確な対照を提供する。二項分布は、より小さい値のnについて、特に小さな値のpについて、この理想に近づく。検索を短い間隔に制限することは、問い合わせ質量比の数を減少するか、またはD(およびF)についての潜在的により有用な確率密度関数に導き得る。
例示的な例において、2つの検索を実行し、そしてこの結果をヒストグラムベクトルH1およびH2を計算するために使用する。この例において、H1およびH2が無相関であると仮定すると、H1およびH2が、上記のFおよびDと同じ密度関数を有するランダムな変数になる。第1の検索がnの問い合わせ質量を含み、そして第2の検索が2nの問い合わせ質量を含むと仮定すると、H2の分散は、H1の分散の2倍となる。従って、より小さな間隔にわたる検索が問い合わせ質量の数を減少させるので、間隔の検索は、ペプチド全体にわたる検索よりも小さな分散を有する。
より大きなペプチドデータベース(すなわち、kの値を増加する)について、差は、なおさらに明白になる。元にある密度Dが一定のままであるが、ヒストグラムFの生の値は、kに対して比例的に増加し、所望の二項分布により近い近似になる。ペプチドをm間隔に分割し、そしてm検索を行うことによって、ペプチドデータベースのサイズは、m倍だけ効率的に増加する。従って、種々の実施形態において、本明細書中に記載される方法は、この結果について所望の確率密度関数を設計すること、およびこの結果を所望の関数により密接に関連させることの二重の目的を実行し得る。
実験的証拠は、間隔の数が約4〜8の範囲内に選択される場合、一般的に、受容可能な結果が得られることを示している。しかし、間隔の実際の数は、必ずしも、この範囲に制限される必要はなく、従って、より多くのまたはより少ない間隔が使用され得る。実験的証拠は、さらに、mが約4〜8の範囲の間に選択される場合、改変問い合わせ質量を除去する利点が、有意に増加する(なぜなら、改変問い合わせ質量を調節する利点があるからである)ことを示している。1つの実施形態において、ある間隔における問い合わせ質量の数は、改変問い合わせ質量を同定および除去することによってさらに減少され得る。例えば、上に説明されるように、問い合わせ質量の約半分が除去される場合、得られる分布の分散は、約半分である。
他の実施形態において、改変問い合わせ質量が同定され得、そして引き続いて、調節され得る。なお他の実施形態において、改変問い合わせ質量は、既知の質量の差を減算することによって調節され得る。調節された改変問い合わせ質量が必ずしも、比較から除去されないかもしれないが、ペプチドデータベース内のそれらの対応するヒットは、非調節のままである場合よりも、より正しいようである。このアプローチは、改変問い合わせタンパク質についての正しいヒットの数を約二倍にするための方法として考えられ得る。
本明細書中に開示される例が単一の改変タンパク質の分析を記述するものの、当業者は、上記方法が、2つ以上の改変を含むタンパク質を分析するために、どのように拡張され得るかを容易に理解する。従って、上記方法を使用する、1つより多くの改変を含むペプチドの分析が本教示の他の実施形態であると考えられる。
(改変ペプチドをペプチドデータベースに追加すること)
種々の実施形態において、本教示は、未知の改変問い合わせペプチドが、インデックステーブルの構築を進める前に、適切な改変ペプチドをペプチドデータベースに加えることによって、正確に同定される可能性を増加するための方法を提供する。
種々の実施形態において、本教示は、未知の改変問い合わせペプチドが、インデックステーブルの構築を進める前に、適切な改変ペプチドをペプチドデータベースに加えることによって、正確に同定される可能性を増加するための方法を提供する。
ペプチドに対する多くの一般的な改変を、特定のアミノ酸に適用することが当該分野において十分に確立されている。例えば、一般的に、セリン、スレオニン、およびチロシンは、リン酸化に受容性である。同様に、システインおよびメチオニンは一般的に酸化される。アミノ酸のいくつかの点変異は、他のものもよりも一般的であり得ることも十分確立されている。例えば、グルタメートは、しばしば、グルタミンを置換し、アスパルテート(asparate)は、アスパラギンを置換することが見られる。結果として、小さなセットの一般的な改変が考慮される場合、ペプチドデータベース内の所定のペプチドの可能な改変の数は、比較的小さくなり得る。例えば、600ドルトンと2,000ドルトンとの間の分子量を有する平均のペプチドは、約2つのリン酸化部位を有し得る。この計算によって、単一のリン酸化ペプチド改変体をペプチドデータベースに加えることは、そのサイズを3倍増化する。
実験的証拠は、3つの特定の改変が、タンデム質量分析計において測定される改変ペプチドの有意な数の原因となることを示す。これらの改変としては、メチオニンの酸化、グルタミンのグルタメートへの変異、およびアスパラギンのアスパルテートへの変異が挙げられる。選択されたペプチドデータベースについて、これら3つのクラスの改変を組み込む改変体ペプチドを加えることが、データベースのサイズを40%〜150%増加させ得ることを計算した。しかし、インデックステーブルのサイズが、それを生成するために使用されるペプチドデータベースのサイズに対して大部分不変であることに注目することが重要である(例えば、より大きなペプチドデータベースは、有意により大きなインデックステーブルを生じない)。さらに、検索の速度は、より重い集団のインデックステーブルによって有意に影響されないかもしれない。従って、インデックステーブルの計算時間の中程度の増加が、検索速度に対して有意な影響を有することなしに、ペプチド検索の実質的に改善された感度および選択性を生じ得る。
(改変体ペプチドを設計するためのソフトウェア機能)
図8は、ソフトウェアプログラムまたはアプリケーション800に埋め込まれた、ペプチドサンプルまたはタンパク質サンプルの分析におけるペプチド改変指定のための例示的な機能を示す。図によって示されるように、改変指定は、選択された質量または質量範囲810に従って、質量値を選択する工程を包含し得る。さらに、改変指定は、選択された化学基または官能基の改変815に従って実行され得る。1つの局面において、改変815は、改変データベースまたは改変ディクショナリー825に保存される複数の利用可能な改変から選択され得る。この改変ディクショナリー825は、改変名830、改変が影響する位置またはアミノ酸残基835、改変のおよその質量840を説明する情報、および改変の特徴(characteristic)または特徴(feature)を説明する情報を含み得る。
図8は、ソフトウェアプログラムまたはアプリケーション800に埋め込まれた、ペプチドサンプルまたはタンパク質サンプルの分析におけるペプチド改変指定のための例示的な機能を示す。図によって示されるように、改変指定は、選択された質量または質量範囲810に従って、質量値を選択する工程を包含し得る。さらに、改変指定は、選択された化学基または官能基の改変815に従って実行され得る。1つの局面において、改変815は、改変データベースまたは改変ディクショナリー825に保存される複数の利用可能な改変から選択され得る。この改変ディクショナリー825は、改変名830、改変が影響する位置またはアミノ酸残基835、改変のおよその質量840を説明する情報、および改変の特徴(characteristic)または特徴(feature)を説明する情報を含み得る。
図8に示されるように、1つ以上の改変は、上記のペプチド同定方法によって並行処理するために、データディクショナリー825から選択され得る。示される化学的改変が、評価され得る改変の例示的な型および組合せのほんの小さなサンプリングを表すことが理解される。従って、改変の他の型、組成および組合せは、本教示の他の実施形態と見なされるべきである。
改変選択に対する別のアプローチは、ペプチドまたはタンパク質のサンプル配列の文脈で評価され得る、1つ以上のアミノ酸置換820を選択する工程を包含し得る。アミノ酸置換820から生じる改変は、特定の置換(例えば、特定のアミノ酸置換または特定の位置)として、あるいはペプチドまたはタンパク質のサンプル配列内のアミノ酸の範囲および/または位置に基づく置換として選択され得る。1つの局面において、選択された置換の範囲は、進化的な確率および/または変異推定のような事象に基づき得る。さらに、当業者に理解されるように、推定アミノ酸置換は、例えば、「BLOcks SUbstitution Matrix」または「Blosum」アプローチ、ならびにGonnetマトリクスアプローチのような配列アライメントのための置換マトリクスを使用して同定され得る。種々の実施形態において、これらの置換アプローチは、アミノ酸残基組成が、進化的時間において互いに変異する可能性を評価する。例示的なアミノ酸置換マトリクス850が問い合わせペプチド内に許容されるかまたは所望されるアミノ酸置換を特定する能力を含み得る。これらの置換は、さらに、特定のアミノ酸から標的距離に配置される置換を選択する能力を含み得るか、または置換評価への閾値アプローチを利用し得る。
種々の実施形態において、本明細書中に記載される方法を組み込むペプチド分析ハードウェアおよびソフトウェアアプリケーションは、低い誤差率を観察しながら、正確なペプチド同定を生じる。例えば、これらの方法は、ICATTM、Pro ICATTM、Interrogator、BioAnalyst、およびPro IDペプチド分析アプリケーション(Applied Biosystems,CA)を含むソフトウェアアプリケーションに組み込まれて、MS/MSスペクトルを使用する自動化様式でペプチドの改善された同定を提供し得る。さらに、この方法は、API−QSTAR(登録商標)Pulsarハイブリッド四重極飛行時間LC/MS/MS System(Applied Biosystems/MDS Sciex)およびQ TRAPTM LC/MS/MS System(Applied Biosystems/MDS Sciex)を含むハードウェアシステム、ならびにペプチド同定に使用される他の質量分析システムとともに使用するために適合され得る。
本教示の上に開示される実施形態が、上に開示される実施形態に適用されるような本発明の基礎的な新規な特徴を示し、記載し、そして指摘するものの、示されるデバイス、システム、および/または方法の細部の形態における種々の省略、置換および変更が、本教示の範囲から逸脱することなしに、当業者によってなされ得ることが理解されるべきである。結果として、本発明の範囲は、上記記載に制限されるべきではなく、添付の特許請求の範囲によって規定されるべきである。
本明細書中で言及される全ての刊行物および特許出願が、本発明が属する分野の当業者のレベルを示す。全ての刊行物および特許出願は、各々の個々の刊行物または特許出願が、参考として具体的にかつ個々に援用して示されるのと同じ程度に、本明細書中において参考として援用される。
Claims (41)
- 複数のデータベースペプチドを使用して、問い合わせペプチドの正体を決定するための方法であって、該方法は、以下:
該複数のデータベースペプチドおよびその骨格イオンフラグメントから得られた質量を使用して、複数のペプチド質量値を含むインデックステーブルを構築する工程;
該問い合わせペプチドおよび1つ以上の問い合わせペプチド骨格フラグメントまたはイオンに関連する、複数の問い合わせ質量値を同定する工程;
該インデックステーブルに含まれる質量に対応する問い合わせ質量値を同定し、そして複数の比較スコアを生成する工程であって、該複数の比較スコアは、該問い合わせ質量値と、該インデックステーブルに含まれる質量との間の対応を反映する、工程;ならびに
該比較スコアを評価して、最大の比較スコアに基づいて、該問い合わせペプチドに関連する少なくとも1つのデータベースペプチドを同定する工程、
を包含する、方法。 - 前記データベースペプチドについてのペプチド質量値が、フラグメント化スペクトルまたは質量分析データを評価することによって得られる、請求項1に記載の方法。
- 前記フラグメント化スペクトルまたは質量分析データが、タンデム質量分析を使用して生成される、請求項2に記載の方法。
- 前記タンデム質量分析が、以下:フーリエ変換イオンサイクロトロン共鳴(「FTICR」)、四極子質量分析、イオントラップ質量分析および飛行時間型質量分析からなる群より選択される方法によって実施される、請求項3に記載の方法。
- 前記問い合わせペプチドについての問い合わせ質量値が、フラグメント化スペクトルまたは質量分析データを評価することによって得られる、請求項1に記載の方法。
- 前記フラグメント化スペクトルまたは質量分析データが、タンデム質量分析を使用して生成される、請求項5に記載の方法。
- 前記タンデム質量分析が、以下:フーリエ変換イオンサイクロトロン共鳴(「FTICR」)、四極子質量分析、イオントラップ質量分析および飛行時間型質量分析からなる群より選択される方法によって実施される、請求項6に記載の方法。
- 前記問い合わせ質量値が、第一のイオン組成物に関連する一次質量値および第二のイオン組成物に関連する相補的質量値を含む、請求項1に記載の方法。
- 前記第一のイオン組成物がbイオンを含み、そして前記第二のイオン組成物がyイオンを含む、請求項8に記載の方法。
- 質量重み付け操作を実施する工程をさらに包含し、ここで、前記割り当てファイルに含まれる質量は、該割り当てファイルに含まれる各質量が、前記比較スコアに対する所望の寄与を反映するように差示的に重み付けされる、請求項1に記載の方法。
- 前記差示的な重み付けが、他のペプチド質量値よりも前記問い合わせペプチドの組成物についてより予測的である、選択されたペプチド質量値を優先するために使用される、請求項10に記載の方法。
- 前記差示的な重み付けが、ペプチドイオン型に従って前記ペプチド質量値を分類するために使用される、請求項11に記載の方法。
- 前記ペプチドイオン型が、yイオン、bイオン、aイオンおよびイモニウムイオンからなる群より選択されるイオンを含む、請求項12に記載の方法。
- 前記差示的な重み付けが、前記質量値が、一次ペプチドイオンを反映するか相補的ペプチドイオンを反映するかに基づく、請求項12に記載の方法。
- 少なくとも1つの改変を前記問い合わせペプチドと関連付ける工程、および該改変からの結果である問い合わせ質量値を同定する工程、をさらに包含する、請求項1に記載の方法。
- 前記少なくとも1つの改変からの結果である問い合わせ質量値が、前記比較スコアの生成前に、前記質量値分析から除去される、請求項15に記載の方法。
- さらに、以下:
前記少なくとも1つの改変に関連する改変質量を決定する工程;および
前記比較スコアの生成前に、該改変からの結果である問い合わせ質量値から、前記改変質量を差し引く工程、
を包含する、請求項15に記載の方法。 - さらに、以下:
少なくとも1つの改変を、前記複数のデータベースペプチドの1つ以上と関連付ける工程;
該複数のデータベースペプチドの1つ以上内の少なくとも1つの改変を考慮する、改変ペプチド質量値を計算する工程;および
該改変ペプチド質量値を、前記問い合わせペプチド質量値に対する引き続く評価のために、前記複数のデータベースペプチドおよびインデックステーブルへと導入する工程、
を包含する、請求項1に記載の方法。 - さらに、以下:
前記複数の問い合わせ質量値を、複数の質量値ゾーンに分割する工程;
少なくとも1つの改変を、選択されたゾーン中の少なくとも1つの問い合わせ質量値と関連付ける工程;および
該少なくとも1つの改変に関連する問い合わせ質量値を排除しつつ、各質量値ゾーン中の該問い合わせ質量値を評価する工程、
を包含する、請求項1に記載の方法。 - 複数のデータベースペプチドに対して問い合わせペプチドを比較するための方法であって、該方法は、以下:
該データベースペプチドおよびそのイオンフラグメントについての複数の質量値を含むインデックステーブルを構築する工程;
該問い合わせペプチドおよびそのペプチドフラグメントに関連する、複数の問い合わせ質量値を同定する工程;
該問い合わせペプチドおよびそのペプチドフラグメントに関連する複数の質量値を、該データベースペプチドおよびそのイオンフラグメントについての複数の質量値と比較し、そして該比較された質量値間の類似性に基づいて、該問い合わせペプチドに関連する質量値の各々に対して質量スコアを割り当てる工程;ならびに
該質量スコアを評価して、最大の質量スコアを有する少なくとも1つの比較を同定し、そして該最大の質量スコアを有する少なくとも1つの比較から生じるデータベースペプチドに、該問い合わせペプチドを関連付ける工程、
を包含する、方法。 - 重みを、前記質量スコアの予測値を反映する各質量スコアと関連付ける工程をさらに包含する、請求項20に記載の方法。
- 前記各質量スコアに関連する重みが、該質量値が導出されたペプチドイオンの型に基づく、請求項21に記載の方法。
- 前記ペプチドイオン型が、yイオン、bイオン、aイオンおよびイモニウムイオンからなる群より選択されるイオンを含む、請求項22に記載の方法。
- 前記重みが、前記質量値が、一次ペプチドイオンを反映するか相補的ペプチドイオンを反映するかに基づく、請求項21に記載の方法。
- 少なくとも1つの改変を前記問い合わせペプチドと関連付ける工程、および該改変からの結果である問い合わせ質量値を同定する工程、をさらに包含する、請求項20に記載の方法。
- 前記少なくとも1つの改変からの結果である問い合わせ質量値が、前記質量スコアの生成前に、前記質量値分析から除去される、請求項25に記載の方法。
- さらに、以下:
前記少なくとも1つの改変に関連する改変質量を決定する工程;および
前記質量スコアの生成前に、該改変からの結果である問い合わせ質量値から、前記改変質量を差し引く工程、
を包含する、請求項25に記載の方法。 - さらに、以下:
少なくとも1つの改変を、前記複数のデータベースペプチドの1つ以上と関連付ける工程;
該複数のデータベースペプチドの1つ以上内の少なくとも1つの改変を考慮する、改変ペプチド質量値を計算する工程;および
該改変ペプチド質量値を、前記問い合わせペプチド質量値に対する引き続く評価のために、インデックステーブルへと導入する工程、
を包含する、請求項20に記載の方法。 - 複数のデータベースペプチドに対して、改変問い合わせペプチドを比較するための方法であって、該方法は、以下:
該問い合わせペプチドについての複数の問い合わせ質量値を生成する工程;
該複数のデータベースペプチドに関連する複数のデータベース質量値を生成する工程;
該複数の問い合わせ質量値から、改変セットの問い合わせ質量値を同定する工程であって、ここで、該改変セットの問い合わせ質量値は、該問い合わせペプチドへの改変を反映する質量値に対応する、工程;
該複数の問い合わせ質量値から、該改変セットの問い合わせ質量値を排除する工程;ならびに
該複数の問い合わせ質量値を、該複数のデータベース質量値に対して比較する比較検索を実施し、それによって、該問い合わせペプチドを、少なくとも1つのデータベースペプチドと関連付ける工程、
を包含する、方法。 - 複数のデータベースペプチドに対して、改変問い合わせペプチドを比較するための方法であって、該方法は、以下:
該問い合わせペプチドについての複数の問い合わせ質量値を生成する工程;
該複数のデータベースペプチドに関連する複数のデータベース質量値を生成する工程;
該複数の問い合わせ質量値から、改変セットの問い合わせ質量値を同定する工程であって、ここで、該改変セットの問い合わせ質量値は、該問い合わせペプチドへの改変を反映する質量値に対応する、工程;
該改変セットの問い合わせ質量値に関連する該複数の問い合わせ質量値を、該問い合わせペプチドへの改変から生じる質量差を説明するように調節する工程;ならびに
該複数の調節された問い合わせ質量値を、該複数のデータベース質量値に対して比較する比較検索を実施し、それによって、該問い合わせペプチドを、少なくとも1つのデータベースペプチドと関連付ける工程、
を包含する、方法。 - 問い合わせペプチドを複数のデータベースペプチドに対して比較するための方法であって、該方法は、以下:
該データベースペプチドについてのフラグメント化スペクトルと関連する複数のデータベース質量値を含むインデックステーブルを構築する工程;
該問い合わせペプチドについてのフラグメント化スペクトルに関連する複数の問い合わせ質量値を同定する工程;
該複数の問い合わせ質量値の少なくとも1つに関連する少なくとも1つの改変を同定する工程;
該複数の問い合わせ質量値の少なくとも1つに関連する少なくとも1つの改変を補償し、それによって、複数の補償された問い合わせ質量値を生成する工程;ならびに
該補償された問い合わせ質量値を使用して、該インデックステーブルの検索を実施する工程、
該補償された問い合わせ質量値と該データベース質量値間の類似性に基づいて、該問い合わせペプチドの組成を同定する工程、
を包含する、方法。 - 前記少なくとも1つの改変を補償する工程が、前記複数の補償された問い合わせ質量値から、前記改変に関連する問い合わせ質量値を排除する工程を包含する、請求項31に記載の方法。
- 前記少なくとも1つの改変を補償する工程が、前記改変の質量を同定する工程、および該改変に関連する問い合わせ質量値から、該改変の質量を差し引く工程、を包含する、請求項31に記載の方法。
- 前記同定された改変が、リン酸化部位改変、酸化部位改変および置換部位改変からなる群より選択される改変を含む、請求項31に記載の方法。
- 前記リン酸化部位改変が、セリン、スレオニンおよびチロシンからなる群より選択されるアミノ酸のリン酸化を含む、請求項34に記載の方法。
- 前記酸化部位改変が、システインおよびメチオニンからなる群より選択されるアミノ酸の酸化を含む、請求項34に記載の方法。
- 前記置換部位改変が、グルタミン、グルタミン酸、アスパラギンおよびアスパラギン酸からなる群より選択されるアミノ酸の置換を含む、請求項34に記載の方法。
- ペプチド分析方法であって、以下:
未知の組成の少なくとも1つの問い合わせペプチドおよび複数の既知の組成のデータベースペプチドについてのフラグメント化スペクトルを獲得する工程であって、ここで、各フラグメント化スペクトルは、選択された質量範囲にわたって同定される、複数のペプチドフラグメントに関連する複数の質量値を含む、工程;
該少なくとも1つの問い合わせペプチドに関連する少なくとも1つの改変を同定する工程;
該フラグメント化スペクトルを評価することによって、該改変によって影響を受ける質量値を同定し、そして該複数の質量値にわたる該改変の拡大を決定する工程;
該改変によって影響を受ける質量値を補償しつつ、該複数のデータベースペプチドについての質量値に対して、該問い合わせペプチドについての質量値を比較することによって、質量検索を実施する工程;ならびに
該問い合わせペプチドの質量値と該データベースペプチドの質量値との間の最良の一致を提供する該質量検索に基づいて、該データベースペプチドのうち1つとの関連によって、該問い合わせペプチドの組成を同定する工程、
を包含する、方法。 - 前記改変によって影響を受ける質量値の補償が、前記質量検索から、該改変によって影響を受ける質量値を排除する工程を包含する、請求項38に記載の方法。
- 前記改変によって影響を受ける質量値の補償が、以下:
該改変の質量を決定する工程;および
該改変によって影響を受ける質量値から、該改変の質量を差し引く工程、
を包含する、請求項38に記載の方法。 - さらに、以下:
別個の質量範囲を規定する複数のゾーンへと、前記フラグメント化スペクトルを分割する工程;
該複数のゾーンの各々について、別個の質量検索を実施する工程、
を包含する、請求項38に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/087,541 US20030031350A1 (en) | 2001-03-09 | 2002-03-01 | Methods for large scale protein matching |
PCT/US2002/006685 WO2002072863A2 (en) | 2001-03-09 | 2002-03-05 | Methods for large scale protein matching |
PCT/US2002/028902 WO2003075306A1 (en) | 2002-03-01 | 2002-09-09 | Method for protein identification using mass spectrometry data |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005519289A true JP2005519289A (ja) | 2005-06-30 |
Family
ID=27791100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003573667A Pending JP2005519289A (ja) | 2002-03-01 | 2002-09-09 | 質量分析データを使用したタンパク質同定のための方法 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1481414A1 (ja) |
JP (1) | JP2005519289A (ja) |
AU (1) | AU2002323683A1 (ja) |
CA (1) | CA2477151A1 (ja) |
WO (1) | WO2003075306A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007132919A (ja) * | 2005-05-03 | 2007-05-31 | Palo Alto Research Center Inc | イオン化分子フラグメントを分類するための方法、装置、及びプログラム製品 |
JP2013047624A (ja) * | 2011-08-29 | 2013-03-07 | Shimadzu Corp | 質量分析を用いた修飾タンパク質同定方法及び同定装置 |
JP2016501367A (ja) * | 2012-11-15 | 2016-01-18 | ディーエイチ テクノロジーズ デベロップメント プライベート リミテッド | 前駆体イオン情報を使用することなくms/msデータから化合物を同定するシステムおよび方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0322356D0 (en) * | 2003-09-24 | 2003-10-22 | Micromass Ltd | Mass spectrometer |
DE102004051016A1 (de) * | 2004-10-20 | 2006-05-04 | Protagen Ag | Verfahren und System zur Aufklärung der Primärstruktur von Biopolymeren |
JP2007010509A (ja) * | 2005-06-30 | 2007-01-18 | Nec Corp | 解析支援システムおよび解析支援方法 |
US7736905B2 (en) | 2006-03-31 | 2010-06-15 | Biodesix, Inc. | Method and system for determining whether a drug will be effective on a patient with a disease |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5538897A (en) * | 1994-03-14 | 1996-07-23 | University Of Washington | Use of mass spectrometry fragmentation patterns of peptides to identify amino acid sequences in databases |
WO1999062930A2 (en) * | 1998-06-03 | 1999-12-09 | Millennium Pharmaceuticals, Inc. | Protein sequencing using tandem mass spectroscopy |
-
2002
- 2002-09-09 AU AU2002323683A patent/AU2002323683A1/en not_active Abandoned
- 2002-09-09 JP JP2003573667A patent/JP2005519289A/ja active Pending
- 2002-09-09 WO PCT/US2002/028902 patent/WO2003075306A1/en active Application Filing
- 2002-09-09 CA CA002477151A patent/CA2477151A1/en not_active Abandoned
- 2002-09-09 EP EP02757683A patent/EP1481414A1/en not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007132919A (ja) * | 2005-05-03 | 2007-05-31 | Palo Alto Research Center Inc | イオン化分子フラグメントを分類するための方法、装置、及びプログラム製品 |
JP4549314B2 (ja) * | 2005-05-03 | 2010-09-22 | パロ アルト リサーチ センター インコーポレイテッド | イオン化分子フラグメントを分類するための方法、装置、及びプログラム製品 |
JP2013047624A (ja) * | 2011-08-29 | 2013-03-07 | Shimadzu Corp | 質量分析を用いた修飾タンパク質同定方法及び同定装置 |
JP2016501367A (ja) * | 2012-11-15 | 2016-01-18 | ディーエイチ テクノロジーズ デベロップメント プライベート リミテッド | 前駆体イオン情報を使用することなくms/msデータから化合物を同定するシステムおよび方法 |
Also Published As
Publication number | Publication date |
---|---|
CA2477151A1 (en) | 2003-09-12 |
EP1481414A1 (en) | 2004-12-01 |
WO2003075306A1 (en) | 2003-09-12 |
AU2002323683A1 (en) | 2003-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Henzel et al. | Protein identification: the origins of peptide mass fingerprinting | |
EP0750747B1 (en) | Identification of amino acids by mass spectrometry | |
US9354236B2 (en) | Method for identifying peptides and proteins from mass spectrometry data | |
Ning et al. | Computational analysis of unassigned high‐quality MS/MS spectra in proteomic data sets | |
US8639447B2 (en) | Method for identifying peptides using tandem mass spectra by dynamically determining the number of peptide reconstructions required | |
US10878944B2 (en) | Methods for combining predicted and observed mass spectral fragmentation data | |
JP2006511821A (ja) | ペプチドのマッチをスコア付けするためのシステム及び方法 | |
Ahrné et al. | An improved method for the construction of decoy peptide MS/MS spectra suitable for the accurate estimation of false discovery rates | |
US20090254285A1 (en) | Data analysis to provide a revised data set for use in peptide sequencing determination | |
CA2632829A1 (en) | Evaluating the probability that ms/ms spectral data matches candidate sequence data | |
Zhou et al. | A machine learning approach to explore the spectra intensity pattern of peptides using tandem mass spectrometry data | |
US20020046002A1 (en) | Method to evaluate the quality of database search results and the performance of database search algorithms | |
JP2005519289A (ja) | 質量分析データを使用したタンパク質同定のための方法 | |
US20030031350A1 (en) | Methods for large scale protein matching | |
US20040044481A1 (en) | Method for protein identification using mass spectrometry data | |
US20040175838A1 (en) | Peptide identification | |
Hogan et al. | Charge state estimation for tandem mass spectrometry proteomics | |
WO2001096861A1 (en) | System for molecule identification | |
Liu et al. | PRIMA: peptide robust identification from MS/MS spectra | |
Hubbard | Computational approaches to peptide identification via tandem MS | |
Tschager | Algorithms for Peptide Identification via Tandem Mass Spectrometry | |
AU2002252196A1 (en) | Methods for large scale protein matching | |
Tiengo et al. | PhosphoHunter: an efficient software tool for phosphopeptide identification | |
Patankar | Critical Analysis of the Computational Methods used to Discover Biomarkers to assist in the Early Detection of Disease | |
Song | Bioinformatics methods for protein identification using peptide mass fingerprinting data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080821 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090204 |