JP2006518448A

JP2006518448A - 糖ペプチドの同定および解析

Info

Publication number: JP2006518448A
Application number: JP2006500424A
Authority: JP
Inventors: サジャーニスワミー; ナブディープジェイトリー; アレクサンドラファートス−マテイ; ポウルエドワードカーニー; ピエールシボー
Original assignee: カプリオンファーマシューティカルズインコーポレーティッド
Priority date: 2003-01-03
Filing date: 2004-01-05
Publication date: 2006-08-10
Also published as: CA2508829A1; WO2004061407A9; AU2004203724A1; WO2004061407A3; WO2004061407A2; EP1588144A3; US20040248317A1; EP1588144A2

Abstract

本明細書記載の本発明は、プロテオミクス質量分析(MS)データを解析して糖タンパク質を同定および特徴づけるために開発されたツールに関する。本ツールは、4つの主要な課題を独立してまたは必要に応じて行うように設計されている：MS/MSのための糖ペプチドの選択を至適化する、MS/MSデータから糖ペプチドスペクトルを同定する、同定された糖ペプチドスペクトルの糖成分を特徴づける、およびグリコシル化前駆体をその親タンパク質に一致させる。これらの成分のそれぞれに関する設計および実行について、本特許出願においてさらに詳細に説明する。

Description

発明の分野
本発明は、質量分析法、バイオインフォマティクス、および生化学の分野に関する。詳細には、本発明は糖ペプチドを検出する方法に関する。より詳細には、本発明は、質量分析法およびMS-MSスペクトルから糖ペプチドを検出する方法に関する。

関連出願の相互参照
本出願は、2003年1月3日に出願された米国仮特許出願第60/437,832号の利益を主張し；その開示は参照として本明細書により組み入れられる。

発明の背景
近年のゲノムおよびプロテオミクス研究の取り組みから、生命の分子基盤の理解は驚異的な進歩を遂げた。特に、生物生体分子の発現の厳密な時間的および空間的パターンが生命過程--健康な場合にも病気の場合にも起こる過程に関与していることが次第に明らかになってきている。科学は、いかにして遺伝的欠陥により遺伝性疾患が生じるのかという理解から、癌のような複雑な医学的疾患の病因における複数の遺伝的欠陥と環境要因との相互作用の重要性の理解に進展した。癌の場合、科学的な証拠から、いくつかの極めて重要な遺伝子およびそれらのタンパク質産物の発現の変化、ならびにそれら遺伝子およびタンパク質産物における複数の欠陥の重要な原因的役割が実証されている。他の複雑な疾患も、同様の分子基盤を有する。そのような相関関係を決定する最良の機会を提供するためには、生物試料から生体分子の発現を効率よくかつ迅速に同定および定量化することを可能にする方法が必要である。例えば、プロテオミクスデータは、遺伝子発現プロファイル等の他のデータ形式からは正確な予測が不可能である、機能分子の実際の発現レベルおよびそれらの翻訳後修飾を反映し得る。

質量分析法(MS)それ自体は、細胞の内容物または細胞成分のような分子の複雑な混合物を解析して、プロテオミクスデータを作成するために選択する1つの方法である。クロマトグラフィーの適切な方法と組み合わせてタンパク質の分離および精製を可能にした場合、質量分析法によって、タンパク質の同定および定量化のため、ならびに異なる試料を類似のものとするまたは識別するパターンのためのデータの作成および解析の出発点が提供される。最も基本的には、質量分析法により、特定のスキャンに関してタンパク質の質量およびそれらの強度（イオンカウント）についてのデータが作成される。MS/MS（タンデム質量分析法）によって特定分子の断片化パターンもまた作成され得り、これを用いて、最初のスキャンにおける分子をさらに同定することができる。DNAまたはタンパク質のような高分子の場合には、断片化パターンから配列情報を得て、その配列情報から元のタンパク質を決定する、および配列/同一性情報を定量化データに結びつける、第二の取り組みが一般に必要である。

その研究が質量分析解析により取り組まれている、特に関心対象である生体分子の1つの問題の多いクラスは糖ペプチドである。タンパク質のグリコシル化は一般的な翻訳後修飾であり、全タンパク質の半分を超えると見られるタンパク質がグリコシル化され、多くの細胞過程に不可欠である。グリコシル化プロファイルの異常は、乳癌および関節リウマチ等の疾患の重要なマーカーである（Varki et al. (1999） Essentials of Glycobiology. Cold Springs Harbor Laboratory Press, La Jolla, California）。質量分析法は、他の分光学的方法よりも感度が優れていることから、困難でありかつ少量の糖タンパク質には不適当である従来の糖質解析の方法よりも次第に好まれてきている。一般に、グリカン解析の古典的な方法は、典型的に2-D PAGEにより分離するレベルで感度が低いが、質量分析法はピコモル量のタンパク質でオリゴ糖の特性を明らかにし、感度はフェトモル濃度の範囲に達する。しかし、多くの糖ペプチドで見られる存在量の低さおよびイオン化の障害により（より容易にプロトン化されるペプチドと比較して）、MS/MSへの自動的な選択は妨げられ得り、また質量電荷比によるペプチド同定に基づく選択方法によっても自動的な選択は妨げられ得る。MS/MSによって得られる断片スペクトルデータがなければ、元の（非グリコシル化）ペプチドの同定を含む糖ペプチドのより詳細な特徴づけは大いに妨げられる。

衝突誘起解離(CID)を用いた質量分析に供すると、糖ペプチドは目視検査によって検出され得る特徴的な断片化パターンを示す。今日のプロテオーム研究から得られる大量のデータ出力を考えると、糖ペプチドを手動で検索することは実現不可能な課題である。さらに、同定されたとしても、糖質構造は非常に複雑である場合が多いため、グリカン構造の解明は困難である。タンパク質のグリコシル化は、タンパク質の機能および構造を大幅に変更し得る。元のペプチド--糖ペプチドのペプチド部分--を同定するには、断片スペクトルのペプチド成分と糖質成分を分離する等の、さらなる困難な解析および操作を必要とし得る。糖質構造を自動解析する手段、StrOligo（Ethier et al., (2002) Rapid Communication in Mass Spectrometry 16: 1743-1754）が利用できるが、これは、タンデム質量スペクトルから誘導体化複合N-結合型オリゴ糖を解明するものである。糖質の断片パターンが得られると、StrOligoは可能性のある糖構造を示す。しかし、StrOligoは糖質のスペクトルのみに機能して糖ペプチドのスペクトルには機能せず、したがって、糖成分を構造的に特徴づけ得るためには、解析する糖ペプチドを解析前に化学的に処理する必要がある。

糖タンパク質を化学的に処理することにより、構造解析および同定に関する問題が生じる。糖タンパク質の解析を可能にするための、化学物質による試料の前処理および/または脱グリコシル化には、大量の試料を必要とし得る。しかし、生物学的に興味深い多くの糖タンパク質は少量で発現するため、糖タンパク質の化学的前処理は、解析のためには一般に実現不可能である。場合によっては、糖ペプチドは試料ペプチドの大部分と分けて単離され解析されもするが、試料の損失およびペプチドのカバー度の損失を招く。グリコシル化自体の重要性および糖ペプチドの元のペプチドを同定する重要性にもかかわらず（プロテオミクスでは、生物試料からのぺプチドの包括的な同定は、ペプチドのカバー度を増すなどして、正確なタンパク質の同定に不可欠である可能性があり、またタンパク質の定量化および試料の比較性にも重要である）、大規模なグライコプロテオミクス研究のための技術はほとんど存在せず、この分野においては限定的な研究が行われている。

したがって、糖ペプチドの化学的修飾または非グリコシル化ペプチドと分けての単離および解析を必要としない、解析する生物試料中の糖ペプチドを質量分析法を用いて同定する方法の必要性が存在する。また、今日のプロテオーム研究から得られる大量のデータ出力を考えると、検索スキャンからであろうとMS/MS断片スペクトルからであろうと、糖ペプチドの質量分析データを手動で検索することは実現不可能である。同定されたスペクトルを構造解析と結びつけることにより、さらに時間が短縮されさらなる同定が提供され得る。検索スキャンにおける同定に基づいてMS/MSのための糖ペプチドを選択する能力もまた望ましく、非修飾(naked)ペプチドおよびその由来の元となった対応するタンパク質またはタンパク質群の同定/定量化も望ましい。本発明はこれらの必要性に取り組むものであり、本発明により他の関連した利点もさらに提供される。

発明の概要
これらの必要性に取り組み、本明細書に記載するようにハイスループットプロテオミクスに適した糖ペプチドの同定および解析を提供するため、本発明者らは、質量分析(MS)データを解析して糖タンパク質を同定し特徴づけるためのN-GIAツールを開発した。N-結合型糖ペプチドはより強固な構造をしており、また明確なタンパク質結合シークオン(sequon)、NXS/Tに結合することから、O-結合型糖ペプチドよりも解析が容易であるため、本ツールは特にN-結合型糖タンパク質の解析に用いられる。しかし、当業者は、本明細書の方法を、O-結合型糖ペプチドまたは糖ペプチド一般の解析に容易に適合化することができる。

本ツールは、4つの実際的な課題を独立してまたは組み合わせて行うように設計されている：MS/MSのための糖ペプチドの選択を至適化する、MS/MSデータから糖ペプチドスペクトルを同定する、同定された糖ペプチドスペクトルの糖成分を特徴づける、およびグリコシル化前駆体をその親タンパク質に一致させる。課題を実行するコンピュータ手順を、本明細書では「モジュール」と表す。ツール自体、N-GIAは、1つまたは複数のモジュール、2つまたはそれ以上のモジュール間の相互作用のためのさらなる手順、ならびにユーザーインターフェースおよび関連手順を含む。図2は、例示的なN-GIAツールのモジュールを説明するフローチャートを示す。フローチャートは説明の目的で示すものであって、本発明の方法を限定する目的で示すものではない。

本ツールはまた、例えば生物試料中の生体分子の存在量を決定するために、MIPS（米国特許出願第10/293,076号および2003年7月10日に公開された米国特許公報第2003/0129760号）または配列(Constellation)マッピング（米国特許出願第60/428,731号）等の他のモジュールまたはプログラムと組み合わせることも可能であり、これらの出願の内容は参照として組み入れられる。

本発明は、質量分析検索スキャンデータでグリコフォームを決定するためのコンピュータ実行方法を扱う。一般的に、質量分析検索スキャンデータでグリコフォームを決定する方法は、通常、複数の生体分子を含む生物試料を提供する段階；生体分子の複数のイオンを生成する段階；複数のイオンに対して質量分析測定を行い、それにより生体分子のイオンカウントピークを得る段階；および単糖の差によるグリコフォームのイオンカウントピークの分布を同定し、それにより生物試料中のグリコフォームの存在を決定する段階を含む。決定したグリコフォームは、MS-MS取得のための選択を介すなどして、さらなる解析のために特異的に選択され得る。

本発明はさらに、MS/MSデータから糖ペプチドスペクトルを同定するためのコンピュータに実装される方法について扱う。コンピュータに実装される方法は一般に、複数の生体分子のイオンカウントを含む質量分析データを入力する段階；オキソニウムイオンの存在、低ピーク密度域、および単糖の喪失について1つまたは複数のMS/MSスペクトルを評価する段階；スペクトルをスコアリングする段階；スペクトルスコアをグリコシル化閾値と比較する段階、およびグリコシル化閾値に対してスペクトルスコアを比較した結果に基づき、糖ペプチドスペクトルであるか否かとしてスペクトルを分類する段階を含む。

本発明はさらに、候補非修飾ペプチドの群から糖ペプチドスペクトルの最も可能性の高い非修飾ペプチドを決定するためのコンピュータに実装される方法について扱い、これは一般に以下の段階を含む：糖ペプチドスペクトルの候補非修飾ペプチドの群を入力する段階；理論的な糖断片を候補非修飾ペプチドに適用する段階；得られた候補糖ペプチドの相関スコアを決定する段階；候補糖ペプチドの群から、糖質部分が至適な糖構造を示し、かつペプチド部分が最も可能性の高い非修飾ペプチドを示す、最もスコアの高い適合物を決定する段階。

別の局面において、本発明は、適切な入力質量スペクトルデータを受け取り本発明の段階を実行するコンピュータコードを含む、上記のコンピュータに実装される方法を行うためのプログラムを含むコンピュータ可読メモリについて扱う。

さらに別の局面において、本発明は、プロセッサおよびプロセッサに連結されたメモリを含み、メモリは1つまたは複数のプログラムをコード化し、1つまたは複数のプログラムによってプロセッサが上記の方法を実行できる、上記のコンピュータに実装される方法を行うためのコンピュータシステムについて扱う。

別の局面において、本発明は、これに独占的に限定されないが、本発明による方法によって利用されるまたは作成される情報をユーザーに提示する方法について扱う。1つの態様において、本方法は、これに独占的に限定されないが、本発明の方法によって利用されるまたは作成される情報をメモリに保存する段階をさらに含む。

好ましい態様では、質量スペクトル測定値を得て、糖ペプチドの非修飾ペプチドに関する構造または配列情報を収集する。この方法およびシステムは、イオンをデータベースから同定されるタンパク質に割り当てるコンピュータ手順を含む。本発明の方法およびシステムはさらに、データベースからイオンの配列を含むタンパク質を同定するためのコンピュータ手順の使用について扱う。例示的な手順には、Mascot、Protein Lynx Global Server、SEQUEST/TurboSEQUEST、PEPSEQ、SpectrumMill、またはSonar MS/MSが含まれる。そのような手順を用いて検索が行われる例示的なデータベースには、Genbank、EMBL、NCBI、MSDB、SWISS-PROT、TrEMBL、dbEST、またはヒトゲノム配列(Human Genome Sequence)データベースが含まれる。

本発明の他の特色および利点は、以下の図面および詳細な説明、ならびに特許請求の範囲から明らかになると考えられる。

発明の詳細な説明
「生体分子」とは、ペプチド、ポリペプチド、タンパク質、翻訳後修飾されたタンパク質およびペプチド（例えば、グリコシル化、リン酸化、またはアシル化ペプチド）、オリゴ糖、多糖、脂質、核酸、ならびに代謝産物を含む、生物試料中に存在する任意の有機分子を意味する。本発明の方法において有用である例示的な生体分子には、例えばペプチド、ポリペプチド、タンパク質、翻訳後修飾されたペプチド（例えば、グリコシル化、リン酸化、またはアシル化ペプチド）、オリゴ糖および多糖、脂質、核酸、ならびに代謝産物といった、生物試料中に存在する任意の有機分子が含まれる。

「生物試料」（または「試料」）とは、単細胞微生物（細菌および酵母等）および多細胞生物（植物および動物等、例えば脊椎動物または哺乳動物、特に健康なもしくは明らかに健康なヒト対象、または診断もしくは検査すべき病態もしくは疾患に罹患したヒト患者）を含む任意の生物から得られる、排出される、または分泌される任意の固体または液体試料を意味する。生物試料は、任意の位置から得られる生体液（血液、血漿、血清、尿、胆汁、脳脊髄液、房水もしくは硝子体液、または任意の分泌液等）、浸出液（膿瘍、または感染もしくは炎症の任意の他の部位から得られる体液等）、または関節（正常な関節または関節リウマチ等の疾患に罹患した関節等）から得られる体液であってよい。または、生物試料は任意の器官または組織（生検標本または剖検標本を含む）から得られ得るか、あるいは細胞（初代細胞であろうと培養細胞であろうと）または任意の細胞、組織、もしくは器官によって馴化された培地を含み得る。必要に応じて、生物試料は、予備的分離技法を含む予備処理に供する。例えば、異なる細胞成分画分中の生体分子、例えば細胞の異なる部分に見出されるタンパク質または薬剤を別々に解析するために、細胞または組織を抽出し、細胞成分分画に供することができる。試料は、例えばゲルからのバンドといった試料のサブセットとして解析してもよい。

「画分」とは、分離された一部を意味する。画分は、例えばLC（液体クロマトグラフィー）などにおいて見られるような、規定の時間間隔中に得られる液体の量に相当し得る。画分はまた、ゲル電気泳動によって容易に行われる生体分子の分離におけるバンドのような、分離における空間的位置にも相当し得る。

本明細書で使用する「タンパク質」、「ペプチド」、または「ポリペプチド」とは、ペプチド結合によって結合した4個またはそれ以上のアミノ酸残基の鎖からなる、天然で、または合成もしくは組換えにより産生された多くの、場合によっては非常に複雑な（酵素、抗体、または多サブユニットタンパク質複合体等）、ありとあらゆる物質を指す。鎖は、直鎖、分枝、環状、またはそれらの組み合わせであってよい。タンパク質内結合はまた、ジスルフィド結合を含む。タンパク質分子は、炭素、水素、窒素、酸素、硫黄元素を通常含み、場合によっては他の元素（リンまたは鉄等）を含む。本明細書において「タンパク質」（およびその所与の同等の用語）はまた、アミノ酸類似体、および補因子またはガイド鋳型（例えば、適切なテロメラーゼ機能と関連した鋳型RNA）等の酵素機能に固有である非タンパク質性化合物の使用を含む、その断片、変種、および修飾物（グリコシル化（すなわち、糖ペプチド、糖タンパク質）、アシル化、ミリスチル化、および/またはリン酸化残基を含むが、これらに限定されない）を包含すると見なされる。

「前駆体」とは、生体分子、例えば潜在的ペプチドもしくはタンパク質または未知の配列もしくは主体性の1つを意味する。一般に前駆体は、MS/MSによる配列決定等の二次同定の取り組みを行う前の、質量分析検索スキャンデータにおける潜在的ペプチドを指す。「前駆体」は、多くの場合その質量または保持時間を比較することによって同定される。そのような保持時間は、実験的であっても理論的であってもよい。理論的な保持時間は補正される場合が多く、1つまたは複数の内部標準を用いて試料間を比較できる保持時間が作成される。予測保持時間を用いて、スキャン内の前駆体を探すことができる。「前駆体」は「ペプチド」と互換的に用いられる場合が多く、全長タンパク質から個々の成分ペプチドを識別するために用いられ得る

「スキャン」とは、単一試料による質量スペクトルを意味する。分離された各画分を測定することにより、スキャンが得られる。ある生体分子が解析する2つ以上の画分に位置する場合、その生体分子の質量スペクトルは2つ以上のスキャンに存在する。

「非荷電質量」とは、イオンが生成された元の生体分子またはその断片の中性荷電状態の質量を意味する。

N-GIA
本発明者らは、質量分析法(MS)によって解析される生物試料中の糖ペプチドの同定および特徴づけに関連する機能的モジュールまたはモジュール群、それらの相互作用、インターフェース、および出力を含むと本明細書において説明する方法の一態様であるグリコシル化ツール、N-GIAを作製した。このツールでは、糖ペプチド自体またはそのペプチド成分もしくは糖質成分を標識または誘導体化する必要がない。

生物試料
本発明の方法を用いると、単細胞微生物（細菌および酵母等）および多細胞生物（植物および動物等、例えば脊椎動物および哺乳動物、特に健康なもしくは明らかに健康なヒト対象、または診断もしくは検査すべき病態もしくは疾患に罹患したヒト患者）を含む任意の生物から得られる、排出される、または分泌される任意の固体または液体試料を含むがこれらに限定されない、実質的に任意の生物試料が本発明の方法において有用である。生物試料は、任意の位置から得られる生体液（血液、血漿、血清、尿、胆汁、脳脊髄液、房水もしくは硝子体液、または任意の分泌液等）、浸出液（膿瘍、または感染もしくは炎症の任意の他の部位から得られる体液等）、または関節（正常な関節または関節リウマチ等の疾患に罹患した関節等）から得られる体液であってよい。または、生物試料は任意の器官または組織（生検標本または剖検標本を含む）から得られ得るか、あるいは細胞（初代細胞であろうと培養細胞であろうと）または任意の細胞、組織、もしくは器官によって馴化された培地を含み得る。必要に応じて、生物試料は、予備的分離技法を含む予備処理に供する。例えば、異なる細胞成分画分中の生体分子、例えば細胞の異なる部分に見出されるタンパク質または薬剤を別々に解析するために、細胞または組織を抽出し、細胞成分分画に供することができる。そのような例示的な分画法は、De Duve（(1965) J. Theor. Biol. 6:33-59）に記載されている。

タンパク質を分析する場合、必要に応じて生物試料を精製して、存在する非ペプチド性物質を減少させる。さらに必要に応じて、解析のために、タンパク質含有試料を切断してより小さなペプチドを生成する。ペプチドの切断は一般に、例えばトリプシン、エラスターゼ、もしくはキモトリプシンを用いた消化によるなどして酵素的に、または例えば臭化シアンによって化学的に達成される。タンパク質の特定の位置での切断により、これらのペプチドの配列が既知である場合、生成されるより小さなペプチドの質量の予測が可能になる。

生体分子の分離
上記のあらゆる生体分子を分離するための多種多様な技法が当技術分野において周知であり（例えば、Laemmli (1970) Nature 227:680-685；Washburn et al., (2001) Nat. Biotechnol. 19:242-7；Schagger et al., (1991) Anal. Biochem. 199:223-31を参照のこと）、本発明に従って利用することができる。

1つの適用においては、タンパク質の複雑な混合物を研究するために本発明の方法が用いられる。例証として、タンパク質の混合物は、等電点（例えば、クロマトフォーカシング、等電点電気泳動による）、電気泳動移動度（例えば、非変性電気泳動による、または場合によっては2-メルカプトエタノールもしくはジチオトレイトール等の還元剤に事前に曝露してからの、尿素もしくはドデシル硫酸ナトリウム(SDS)等の変性剤の存在下での電気泳動による）に基づき、LC、FPLC、およびHPLCを含む、任意の適切な充填剤でのクロマトグラフィー（例えば、ゲルろ過クロマトグラフィー、イオン交換クロマトグラフィー、逆相クロマトグラフィー、あるいは例えば固定化抗体もしくはレクチンまたは磁気ビーズ上に固定化した免疫グロブリンを用いたアフィニティークロマトグラフィー）により、または遠心分離（例えば、等密度遠心法または速度遠心法）により、タンパク質の混合物を分離し得る。

場合によっては、2つの異なるペプチドが質量分析計の分解能の範囲内で同じ質量を有する可能性があり、これら2つのペプチドのスペクトルの決定が困難になる。質量分析による解析以前にペプチドを分離することにより、同じ質量を有する2つのペプチドの存在量の分割が可能になる。そのため、分離された画分の多くのスペクトルが得られ得るが、これらのスペクトルは典型的にペプチドのイオンピーク数が減少しており、所与のスペクトルの解析が単純化される。

1つの態様では、タンパク質の混合物は、当技術分野において周知の方法に従って1Dゲル電気泳動によって分離される。分離されたタンパク質を含むレーンをゲルから切り出し、画分に分割する。次いで、タンパク質を酵素で消化する。次に、各画分内で生成されたペプチドを質量分析法により解析する。別の態様では、タンパク質の混合物は、当技術分野において周知の方法に従って2Dゲル電気泳動によって分離される。次いでタンパク質を酵素で消化し、次に各画分内で生成された消化ペプチドを切り出し、質量分析法により解析する。さらに別の態様では、ペプチドは、当技術分野において周知の方法によって、多次元液体クロマトグラフィー(LC)を含むがこれに限定されないLCにより分離される。LC画分を収集して解析してもよいし、またはリアルタイム解析のために流出液を質量分析計に直接連結してもよい。LCはまた、ゲル電気泳動により得られた画分をさらに分離するためにも使用され得る。LCにおけるペプチドの保持時間(RT)を記録することにより、複数の画分においてそのペプチドを同定することが可能になる。この同定は典型的に、正確な存在量を得るために有用である。上記の態様のいずれにおいても、どのような方法で画分が得られたかに依存して、所与のペプチドが2つ以上の画分中に存在する可能性がある。

質量分析法
質量分析技法を用いて生体分子を解析する例示的な方法は、当技術分野において周知である（例えば、Godovac-Zimmermann et al. (2001) Mass Spectrom. Rev. 20:1-57；Gygi et al. (2000） Proc. Natl. Acad. Sci. U.S.A. 97:9390-9395を参照のこと）。

ペプチドが関連する適用においては、質量分析計に取り込む前に、例えばエレクトロスプレーイオン化によりペプチドをイオン化し、次いで必要に応じて、異なる種類の質量スペクトルを得る。質量分析計の正確な種類は、本明細書に開示する方法には重要ではない。例えば、検索スキャンにおいて、試料内の荷電ペプチドの質量スペクトルが記録される。さらに、マトリックス支援レーザー脱離/イオン化飛行時間型質量解析法(MALDI-TOF MS)、エレクトロスプレー質量分析法(ESI MS)、またはタンデム質量分析法(MS/MS)等の適切な質量分析技法により、1つまたは複数のペプチドのアミノ酸配列が決定され得る。MS/MSスキャンでは、検索スキャンで検出された特定のイオンが選択されて、衝突チャンバーに取り込まれる。MS/MSのためのイオンを規定する能力により、他の前駆体を潜在的に排除しつつ特定の前駆体に関するデータの取得が可能になる。イオンは、所定のリストによりまたはクエリーにより規定され得る。リストは、包含リスト（すなわち、リスト上のイオンがMS/MSに供される）であっても排除リスト（すなわち、リスト上のイオンはMS/MSに供されない）であってもよい。次いで、衝突チャンバー内で生成された一連の断片が質量分析によって再度解析され、得られたスペクトルは記録され、これを用いて特定のペプチドのアミノ酸配列が同定され得る。次いで、ペプチド質量等の他の情報と共にこの配列を用いて、例えばタンパク質を同定することができる。MS/MSサイクルに供されるイオンは、ユーザー定義であってもまたは分析計による自動決定であってもよい。

本明細書に記載する方法は、実質的に任意のコンピュータシステムを使用して、以下の例示的なプログラムに従って実行される。図1は、例示的なコンピュータシステムを示す。コンピュータシステム2は、内部部品および外部部品を含む。内部部品は、メモリ6に連結されたプロセッサ4を含む。外部部品は、大容量記憶装置8、例えばハードディスクドライブ、ユーザー入力装置10、例えばキーボードおよびマウス、ディスプレイ12、例えばモニター、および通常コンピュータシステムを他のコンピュータに接続してデータの共有および処理作業を可能にし得るネットワークリンク14を含む。プログラムは、操作過程でこのシステム2のメモリ6に読み込まれる。これらのプログラムは、コンピュータシステムを管理するオペレーティングシステム16、例えばMicrosoft Windows、共通語をコード化し本発明の方法を実行するプログラムを支援するように機能するソフトウェア18、および本発明の方法を手続き型言語または記号パッケージでコード化するソフトウェア20を含む。本方法をプログラムするために使用し得る言語には、MicrosoftのVisual C/C⁺⁺が含まれるが、これに限定されない。好ましい適用では、本発明の方法は、式の記号入力および高水準規格の処理を可能にし、プログラムの実行において用いられる手順を含む数学ソフトウェアパッケージでプログラムされ、それによってユーザーが個々の式または手順を手続きしてプログラムする必要性から解放される。この目的に有用である例示的な数学ソフトウェアパッケージは、Mathworks（マサチューセッツ州、ネイティック）のMatlabである。Matlabソフトウェアを用いれば、複数のプロセッサでの処理を支援するパラレルバーチャルマシン(Parallel Virtual Machine)(PMV)モジュールおよびメッセージパッシングインターフェース(Message Passing Interface)(MPI)を適用することもできる。本明細書の方法によるPVMおよびMPIのこの実行は、当技術分野において周知の方法を用いて達成される。または、ソフトウェアまたはその一部は、当技術分野において周知の方法により専用回路にコード化される。

1つの適用において、本発明は糖ペプチドを研究するためのコンピュータ実行モジュールを扱う。そのようなモジュールは、本発明の方法の例証として本明細書に記載する。同様のモジュールを用いて、他の生体分子を研究してもよい。以下に説明するように、検索スキャン解析モジュール(Survey Scan Analysis Module)(SSAM)により質量分析検索スキャンデータ内の候補グリコフォームが同定され、糖ペプチド同定モジュール(Glycopeptide Identification Module)(GIM)によりMS/MSスペクトルから候補糖ペプチドが同定され、グリカン解析モジュール(Glycan Analysis Module)は、MS-MSスペクトルの理論的糖構造を既知糖構造のスペクトルに一致させ得る糖構造同定モジュール(Sugar Structure Identification Module)、および糖ペプチドの非修飾ペプチドをその親タンパク質に一致させ得るタンパク質IDモジュール(Protein ID module)を含む。N-GIAのモジュールは必要に応じて、解析に必要な時間を短縮するために、多重処理環境において同時に実行される。例えば、多重処理環境は一群のシステム（例えばLinuxに基づくPC）を含み、複数のプロセッサ（例えば、Sun Microsystems製）と共に働き、本明細書の方法は、当技術分野において周知の方法によりそのような分散型ネットワークに実装される（Tayler et al. (1997) Journal of Parallel and Distributed Computing 45:166-175を参照のこと）。

本ツールおよびそのモジュールにより、質量分析データが処理され解析される。質量分析生データファイルは典型的に、分離された各画分のMSスキャンまたは一連の検索スキャンおよびMS/MSサイクルからなる。それぞれの質量スペクトルは、例えば、LCの溶出時間もしくはゲル電気泳動の画分、またはその両方に相当する。それぞれの検索スキャンは、質量分析計によって検出される各m/z値のイオン数を記録する。質量分析生データファイルは、Micromass（マサチューセッツ州、ベバリー）のMassLynxを含むがこれに限定されない、入手可能な様々なソフトウェアパッケージによって作成され得る。N-GIAを例えばMassLynxと統合させるには、MassLynxのソフトウェアによって質量分析計からのデータを例えばASCIIまたはNetCDF型式に変換する。質量分析データを取得するための他のソフトウェアパッケージも、同様の変換ソフトウェアを有する。または、データ変換のソフトウェアは当技術分野において周知の方法により作成され、ツール内に含められる。任意には、データ変換はまた複数ファイルの統合を含み得る。ファイル統合はまた、特定の前駆体の存在量等のファイルの要素の統合を含み得る。

検索スキャン解析モジュール
典型的なプロテオミクス研究では、試料から単離されたタンパク質すべてをトリプシン消化に供し、得られたペプチド混合物を多くの場合液体クロマトグラフィー法(LC)により分離し、次にMSにより解析する。MSの最初のラウンドでは、各ペプチド断片の質量が検索スキャンに記録される。検索スキャンでは、単糖に相当する差によって分離されるピークの特徴的分布によって、潜在的糖ペプチドが認識され得る。MSの後、特定の断片が2ラウンド目のMSに選択され得り、このMSでは、衝突誘起解離を介して前駆体のより確実な同定を可能にする断片スペクトルが作成され得る。しかし一般に、イオン化能力が低いために、糖ペプチドのごく一部のみが2ラウンド目のMSに選択される。

検索スキャン解析モジュール(SSAM)は、特徴的なグリコフォーム分布を検索することにより、質量分析検索スキャンデータを発掘して糖ペプチドである可能性のあるグリコフォーム候補を同定し、上記候補に基づいたMS/MS等によるさらなる解析のための選択を可能にする。本モジュールは、質量強度プロファイリングシステム(Mass Intensity Profiling System)特許出願（米国特許出願第10/293,076号）に含まれるペプチドハンターモジュール(Peptide Hunter Module)(PHM)ソフトウェアの変形を含み、単糖の差による糖ペプチドのイオンカウントピークの分布を同定し、それにより生物試料中のグリコフォームの存在を決定するさらなる段階を含む。

より具体的には、検索スキャン解析モジュールは、質量分析検索スキャンデータでグリコフォームを決定する方法を提供し、この方法は以下の段階を含む：a) 複数の生体分子を含む生物試料を提供する段階；b) 生体分子の複数のイオンを生成する段階；c) 複数のイオンに対して質量分析測定を行い、それにより生体分子のイオンカウントピークを得る段階；d) および単糖の差によるグリコフォームのイオンカウントピークの分布を同定し、それにより生物試料中のグリコフォームの存在を決定する段階。本方法を用いて同定されたグリコフォームの1つまたは複数は、MS/MS取得のために選択され得る。

閾値の決定
SSAMはグリコフォームの徴候を求めて質量分析生データにおける検索スキャンを発掘するため、潜在的グリコフォームイオンによるシグナルをノイズのシグナルと識別するためにイオン強度の閾値が規定される。この閾値は、最大エントロピー法を含むがこれに限定されない方法等の、当技術分野において周知の方法により、全スキャンに対して評価される。

検索スキャンにおける前駆体の荷電状態の検出
質量分析生データの検索スキャンは、前駆体の荷電状態の徴候について検索される。各荷電状態は、同位体ピークのパターンからなる。荷電状態の同位体は、スペクトルにおいて1.0034/z（zは前駆体の電荷である）によって分離される。ある荷電状態の「第1同位体」は特定のm/z値に位置し得り、同位体を有する場合にはスペクトルにおいて((m/z値) + 1.0034/z)に位置し、同位体がない場合には((m/z値) + 1.0034/z)に位置する。第2同位体はスペクトルにおいて((m/z値) + 1.0034/z)に位置し得り、以下同様である。

前駆体の荷電状態を同定するためには、スペクトルのデータから例えば強度に基づいてm/zに相当するデータポイントが選択され得る。次いで、例えば+4、+3、+2、および+1といった明確な電荷数に関する1.0034/zによって分離される隣接したピークについて、体系的にデータが検索され得る。プログラムは、実験データにおける不確定度を補償するため、1/zの周囲のしかるべき領域を検索する。電荷は、高い方から低い方へという順序でピークが見出されるまで検査され得る。例えば、+4に荷電した前駆体と+1に荷電した前駆体はいずれも(第1同位体のm/z値 + 1)に同位体を有することから、+4に荷電した前駆体が誤って+1に荷電した前駆体として解釈される場合があるため、この順序は典型的に必要である。隣接したピークが見出されない場合には、この方法によって荷電状態は指定され得ない。隣接ピークが例えばm/z + 0.33に存在する場合、荷電状態はその分離によって同定され得り、この場合は+3状態に相当する。ある荷電状態における同位体は、1つのピークおよび分離(1.0034/z)に基づいて同定される。ある荷電状態の同位体は、同じ質量またはm/z、例えば第1同位体の質量またはm/zに割り当てて、同じ前駆体から生じたピークへの統合を促すことができる。検索は、ある1つのピークが第1同位体であること、および第2同位体が第1同位体の少なくとも特定の割合（おそらく1を超える）であることを必要とし得る。荷電状態が同定されたならば、前駆体の質量が算出され、これを用いて同じ前駆体に由来する他の荷電状態が検索され得る。この手順により、1つのピークの最初の同定から多くのピークが同定され得る。

1つの態様では、スキャンにおける各ピーク、mに対して、最も強いピークから開始し、閾値、tを超える強度を有する最も低いピークまで進めて以下の段階を行う。または、選択した数のみを以下の通りに解析する。領域、w内のデータポイントmの周囲のイオンカウントを統合して、存在量、A1を取得する。次いで、領域、w内のm + 0.25の周囲のイオンカウントを統合して、存在量、A2を取得する。次に、領域、w内のm - 0.25の周囲のイオンカウントを統合して、存在量、A0を取得する。A2がp x A1よりも大きく、かつA1がq x A0よりも大きい場合、mは前駆体が+4に荷電した状態の第1同位体である。そうでない場合には、0.25を0.33、0.5、および1に置き換えて上記の段階を繰り返し、+3、+2、および+1に荷電した状態について調べる。パラメータw、t、p、およびqはユーザー定義である。閾値によって、十分な強度のピークのみが試験されることが保証される。パラメータpおよびqは、第2同位体が第1同位体の少なくとも特定の割合であること、および別の同位体が((m/z値) - 1/z)に存在しないことを必要とすることによって、ピークが第1同位体であることを保証し得る。多数重なって同定されるペプチドの形態における重複は除去され得る。

非荷電前駆体質量の決定
前駆体は質量分析生データのスキャンにおいて多くの荷電状態で存在し得り、これらの荷電状態のすべてまたは一部はその前駆体に回収され得る。スキャンにおける荷電前駆体は、式P = (m/z × z) - (1.0078 × z)（式中、Pは非荷電質量であり、m/zは分析計によって測定され、zはエレクトロスプレーイオン化に関する電荷である）を用いて、非荷電前駆体に割り当てられ得る。他のイオン化図式も当技術分野において周知であり、それに従って式が修正される。SSAMで用いられるソフトウェアはまた、非荷電前駆体質量に指定される前駆体が類似の保持時間を有することを必要とし得る。例えば、SSAMは、+3に荷電した前駆体を、非荷電質量、P = (658.96 × 3) = (1.0078 × 3) = 1973.86を有すると同定することになる。この過程は場合によってデコンボリューションと称されるが、この用語は質量分析法において他の用途も有する。

グリコフォーム分布の同定
デコンボリューションした検索スキャンデータを用いて、グリコフォーム分布が決定されることが好ましい。グリコフォームのイオンカウントピークの分布を定めるものを判断する基準の厳密性は、ユーザーの選択に基づき変動し得るが、最低限、分布は、糖質成分の有無に相当する組成の相違を示す質量電荷比によって妥当な誤差範囲内で分離される少なくとも2つのピークを有して、MS/MSのための選択によるなどしてさらなる解析のために選択されるピーク数を、試料中に存在するあらゆるピークよりも少なく制限するための有用な基盤を生じるべきである。単糖に相当する質量の例を図3に示す。単糖のm/z（例えば、図3から決定される）に等しいm/zの相違によって相互に異なる可能性があると同定される前駆体は、候補グリコフォームであると決定される。

個々のグリコフォームの解析
候補グリコフォームの質量および保持時間のリストは、MS/MS、ならびに次の非修飾ペプチド、糖質成分構造の同定、および候補親タンパク質の同定等の様々な解析に使用され得る。グリコフォームの出力はリスト自体を構成する必要はないが、例えば、候補ピークを図示する検索スキャンデータのグラフ表示を含み得る。

糖ペプチド同定モジュール
このモジュールを用いて、MS/MSデータを糖ペプチドについて発掘することができる。タンデムMS (MS/MS)によって作成される糖ペプチドスペクトルは、他の生体分子を表すスペクトル群の中から認識され得るいくつかの特徴を有する：オキソニウムイオンの存在、差次的なピーク密度、および単糖の喪失。本発明者らは、これらの特性に基づいて糖ペプチドスペクトルのモデルを規定した。また、それぞれの特性機能の結果に基づいた明確なスコアを用いて、スペクトルにおいてそれぞれの特性を評価するための関数を導き出し、スコアから2つのクラス:糖ペプチドまたは非糖ペプチドのうちの1つへのマッピングを規定した。これらの糖ペプチドの特徴の状況は変動し得るが、本発明で実証するように、加重値を与えた関連性のスコアリングによって、本発明の以下の段階に従ってスペクトルの正確な分類を合理的に行うことが可能になる。各スペクトルはスコアリングされ、糖ペプチドに相当するまたはしないと分類され得る。本発明者らはさらに、これらの知見をコンピュータ手順およびソフトウェアに組み入れ、糖ペプチドスペクトルに関する質量分析データの自動処理を可能にした。グリカン解析モジュールまたは他の方法をそのようなスペクトルに対して使用し、この分類をさらに同定および確認してもよい。

これらの手順により、特に、例えば組織のプロテオミクス解析の過程で作成される多数のスペクトルにおいて、顕著な時間短縮が提供される。複雑なスペクトルに関しては、N-GIAは手動検査よりもけた違いに速い可能性がある。

糖ペプチドの断片化
糖ペプチドは一般に、衝突誘起解離(CID)に供した場合に、予測可能なかつ独特な方法で断片化する。糖質成分のより不安定なグリコシド結合は切断されるが、ペプチド骨格は断片化されずに残る（図4）。N-アセチルグルコサミン(GlcNAc)のアスパラギン(Asn)に対するβ-グリコシルアミン結合は、糖質成分の他のグリコシド結合よりも強い傾向があるため、通常断片化しないグリカンの唯一の単糖は、ペプチド成分に結合している1つ目のGlcNAc残基であるが（図4）、同じ糖ペプチドのいくつかのコピーがMS/MSチャンバーに同時に取り込まれるため、CID後には、用いたイオン化エネルギーに依存して、質量分析系によって検出され得る、様々な程度に断片化された糖質成分を有するいくつかの種が存在するはずである。図4は、グリコシド結合の切断の過程、ならびに完全なおよび部分的な糖ペプチドの断片化を図示したものである。したがって、グリコシル結合の切断により、MS/MSスペクトルに現れ得る2つの予測可能な種類の断片化産物が生じ得る：解離した単糖残基が正電荷を得た場合に生成され、質量分析計により記録される低質量のオキソニウムイオン、および断片化の後にも共有結合が残存する、部分的な糖質成分と結合したペプチド成分に相当するイオン。断片化産物は質量分析系によって記録され、対応する特定のm/z値においてそれぞれの種の相対的な量を示すスペクトルが作成される。

スペクトルの低いm/z範囲におけるオキソニウムイオンの出現は（図5）、糖ペプチドの同定における重要な要素である。糖ペプチドスペクトルにおいて一般に見られるオキソニウムイオンを、図3に記載する。Carr et al.（Protein Science (1993) 2:183-96）によって報告されているように、いくつかのオキソニウムイオンは他のオキソニウムイオンよりも多く認められる。ほとんどすべての糖ペプチドスペクトルがN-アセチルヘキソサミン(HexNAc+)イオン(m/z 204)を含み、また多くがHexNAcHex+イオン(m/z 366)を含む。スペクトルの低いm/z範囲においてオキソニウムイオンのラダーが認められることもまた一般的であり、例えば、m/z 204 (HexNAc)およびm/z 366 (HexNAcHex)、ならびにm/z 204および366イオンにさらに断片化され得る部分的断片化構造に相当するイオンを表すm/z 528におけるオキソニウムイオンである。

オキソニウムイオンの存在を単独で用いて、一連のスペクトルを同定することも可能であるが、生物試料中に存在する場合が多いような様々な種類の生体分子の混合試料においては、オキソニウムイオン単独では、例えば糖質成分を含むがペプチド成分を欠くスペクトルを同定してしまい、糖ペプチドの正確な診断は無理であると考えられる。図6では、スペクトルが糖ペプチドを表すというさらなる指標がなく、オキソニウムイオンの存在が糖ペプチドスペクトルを決定する唯一の基準である場合、スペクトルは偽陽性をもたらし得り、GKジペプチドに由来するピークがオキソニウムイオンの可能性があると解釈されかねない。

オキソニウムイオンに加えて、グリコシル結合の切断に起因する部分的に断片化された糖ペプチドが、スペクトルの高いm/z範囲に記録され得る。それぞれの代表的なピークは一般に、糖類質量のいくつかの組み合わせによって分離され（図5を参照のこと）、糖質成分から単糖が喪失したラダーを表し得る（したがって、一般的な特徴は「単糖の喪失」と称され得る）。オキソニウムイオンの存在と同様に、単糖の喪失もおそらくは、スペクトルが糖ペプチドから生じたのか否かを決定する単独の基準として、または第二の特徴と共に使用され得るが、その結果は本明細書に示すような本発明の主要な態様を用いた場合よりも正確さに欠けると考えられる。

ペプチドスペクトルと異なり、糖ペプチドスペクトルにおけるピークの分布は不均一であり、この特徴を本明細書では「差次的なピーク密度」または低ピーク密度域を有するスペクトルと称する。ペプチド骨格は断片化しないため、オキソニウムイオンと部分的糖ペプチド断片は、非断片化骨格に相当する質量によって分離される。高いm/z範囲では、独自の質量を有するペプチド成分に結合したそれぞれの部分的糖質成分を表すピークが通常存在するため、一般に高ピーク密度を生じる。非断片化骨格よりも低くオキソニウムイオンの通常の範囲よりも高いm/z範囲、一般にスペクトルの中域では、ピークがほとんどない傾向にある（この領域のピークは通常、より高いm/z範囲の+1ピークに相当する+2、+3に荷電したピークからなる）。低いm/z範囲においても、オキソニウムイオンのピークを除いて、ピークは一般にやはり低密度である。この差次的なピーク密度のパターンもまた糖ペプチドスペクトルの際立った特徴であり、これを単独で用いてスペクトルが糖ペプチドに相当するか否かを解析することも可能であるが、本明細書に記載する主要な態様におけるように、差次的なピーク密度を1つまたは複数のさらなる適切な特徴と組み合わせて解析する場合と比較して、結果の精度は不確かなものとなる。

糖ペプチドの断片化パターンのこれらの特徴--低いm/zのオキソニウムイオンピーク、様々な糖類の組み合わせによって間隔のあいた高いm/zピーク、および差次的なピーク密度--によって、目視検査によって同定される場合の多いスペクトルが作成される。典型的な糖ペプチドスペクトルを図5に示す。さらに図7Aにおいて、糖ペプチドスペクトルの全体的な様相を、非糖ペプチドスペクトル（図7B）およびペプチドスペクトル（図7C）の様相と対比させる。しかし、すべての糖ペプチドスペクトルが視覚的に単純で、時間を要しかつ労力を要する解析を必要としないわけではない。上記のように、個々の特徴の精度に影響を及ぼす可能性のある混乱要因が存在する。いくつかのさらなる要因には、グリカン構造が存在するピークの数および強度に影響を及ぼし得ることによるスペクトルの質、およびシアル酸等のいくつかの単糖が糖ペプチドの断片化に影響を及ぼし得ることによる断片化パターンの変化が含まれる。さらに、グリカンの構造およびその構造のエネルギー論もまた、断片化を偏らせ得る。これらの影響および他の影響のすべてが単純な目視検査を妨げ得り、本発明の体系的アプローチ、特にそのコンピュータ手順形態と比較した場合に、その精度を下げ得る。特にスペクトルを評価するために複数の特徴を利用する本発明の態様は、これらの混乱要因のすべてではないがその多くを克服するのに十分順応性があるはずである。

特にハイスループット法で実行する場合に、質量分析による試料解析で作成される可能性のある膨大な数のデータはまた、単純な目視検査によって正確に、適時に、かつ費用効率が高い方法で解析される可能性は低い。本発明者らは、断片化の特徴に基づいて糖ペプチドスペクトルの正確な自動決定を可能にするコンピュータ手順を開発した。これらの手順は、生物試料のハイスループット質量分析解析で作成されるスペクトルを含む、個々のスペクトルまたはスペクトル群と共に使用することができる。

糖ペプチドスペクトルを決定する手順は、MS/MSスペクトルを手動または自動解析するための一般的方法として使用され得る。したがって、本発明の1つの態様において本発明は、質量分析MS/MSデータにおいて糖ペプチドを決定する方法を提供し、この方法は以下の段階を含む：a) 複数の生体分子を含む生物試料を提供する段階；b) 生体分子の複数のイオンを生成する段階；c) 複数のイオンに対して質量分析測定を行い、それにより1つまたは複数の生体分子のMS/MSスペクトルを得る段階；d) オキソニウムイオンの存在、低ピーク密度域、および単糖の喪失について1つまたは複数のMS/MSスペクトルを評価する段階；e) スペクトルをスコアリングする段階；f) スペクトルスコアをグリコシル化閾値と比較する段階、g) グリコシル化閾値に対してスペクトルスコアを比較した結果に基づき、糖ペプチドスペクトルであるか否かとしてスペクトルを分類する段階。

a)〜c)の段階の手順および材料は、前述の通りである。d)〜g)の段階では、1つまたは複数のMS/MSスペクトルのデータを以下に考察するように評価する。スコアリング型式およびグリコシル化閾値もまた、本発明者らの実験に基づいた例証として考察する。当業者は、このスコアリングおよび閾値を導入すること、ならびにこのスコアリングおよび閾値を新たなデータセットに適合化させ、本明細書に提示した重要な基準（オキソニウムイオンの存在、低ピーク密度域、および単糖の喪失）の1つまたは複数を利用してさらに改良を加えることが容易であることを認識すべきである。

オキソニウムイオンの存在の評価
オキソニウムイオンの存在は、オキソニウムイオンのスペクトル徴候に直線的である必要はないが相対的な重みづけを与えるスコアを用いて、オキソニウムイオンの1つまたは複数の特徴をスコアリングすることによって評価され得る。そのような特徴には、これらに限定されないが、予測されるオキソニウムイオンm/z値における有意なピーク、オキソニウムイオンラダー、およびピーク密度が含まれる。最適には、MS/MSスペクトルにおいてオキソニウムイオンの存在を評価するスコアリング法は、オキソニウムイオンのm/z値におけるピークの出現、およびオキソニウムイオンラダーの存在によって提供され得るような、それらがランダムなピークではないという信頼レベルの両方に基づいて値を返答することになる。

オキソニウムイオンのピーク
スペクトルは、有意な潜在的オキソニウムイオンピークおよび表示されるそれらの強度について検索され得る。MS/MSスペクトルにおいてピークの妥当性を確認する最も重要な基準の1つは、ピークが有意であることの評価である。ピークを有意であると分類するために用いられる主要な基準は、強度の程度である。ピーク強度は糖ペプチドの物理的および化学的特性に強く依存し、そのためより強いピークほど弱いピークよりも有効であると仮定することは、多くの場合誤りである。糖質スペクトルでは、低い強度を有するピークが有効な断片構造を表す場合が多いが、これらはグリカンの化学的特性に起因して断片化しにくい。

ESI-MS/MSスペクトルは多くのランダムノイズを示すため、質量分析系はデータ処理の過程で、バックグラウンドノイズレベルを決定し、この値に従ってスペクトルの全ピークを標準化する。バックグラウンドノイズから有効なピークを識別するために用いられる通常の測定基準は、ピークがバックグラウンドノイズレベルの少なくとも3倍のレベルであることである。この必要条件によって、スペクトル全体に対するピークの強度が調べられ、あるスペクトルではほとんどすべてのm/z単位において出現し得る、電気的ノイズによって生じ得るピークが排除される。

一般的に見られるオキソニウムイオンを図8に記載する。オキソニウムイオンの検索は徹底的である必要はないが、評価する試料の糖ペプチドスペクトルにおいて示される可能性のあるオキソニウムイオンを反映することが好ましい。

オキソニウムイオンラダー
スペクトル中に見出される複数のオキソニウムイオンの存在も考慮され得るが、オキソニウムイオンピーク群自体の中の論理的パターンによって提供されるさらなる確かさもまた、個々のピークがランダム事象である可能性を下げると考えられ得るため、スコアリングに適している。例えば、HexNAc₂-Hexを表すm/z 528のピークに加えて204 (HexNAc)および366 (HexNAc-Hex)の有意なオキソニウムイオンがいずれも認められる場合のように、糖ペプチドがその糖質成分中にHexNAc₂-Hexを含む場合、オキソニウムイオンは「ピークのラダー」を形成し得る（図9）。3つのピークがすべて同時に存在することにより、ピークが個々に有効なオキソニウムイオンを表す確率が増す。オキソニウムイオンのラダーは、より大きな糖質成分を有する糖ペプチドにおいて見出される傾向があるが、多くの糖ペプチドは通常m/z 204および366に位置する1つまたは2つのオキソニウムイオンを有するのみであり、よってラダーはさらなる確かさを提供するものの、試料が大きな糖質成分を有する糖ペプチドを主に含むか、またはオキソニウムイオンラダーを有する糖ペプチドのみが関心対象である稀な状況を除いて、個々のオキソニウムイオンの存在を除外してラダーに依存すべきではない。

ピーク密度
理想的な糖ペプチドスペクトルでは、ペプチド骨格は一般に断片化しないため、低いm/z範囲で見られる断片はオキソニウムイオンピークのみからなるはずである（図5）。したがって、このm/z範囲における診断ピークの非診断ピークに対する比率はかなり高いはずである。オキソニウムイオンを表さないピークの密度は、スペクトル中に認められるオキソニウムイオンの全セットの有効性を評価し得るさらなる測定基準である。図6に示す例では、ピーク密度が、HexNAcオキソニウムイオンのm/zと同じm/zであるm/z 204.13のピークを取り囲んでいることから、スペクトルが糖ペプチドを表さないことが示唆される。さらに、低いm/z範囲において全オキソニウムイオンピークのセットが最も強い場合、これらのピークが有効であるというさらなる確かさが存在する。

オキソニウムイオンを評価するための関数
1つの態様において、本発明は、スペクトル中に見出されるオキソニウムイオンの存在、オキソニウムイオンラダーの存在、およびピーク密度を表す加算スコア、ならびにスペクトル中に見出される全オキソニウムイオンピークのセットを評価するスコアによって判定されるオキソニウムイオンの存在を規定する。これにより、オキソニウムイオンの存在の相対的尺度として使用するための複合スコアが提供される。

本発明者らは、これらの成分（オキソニウムイオンの存在、オキソニウムイオンラダーの存在、およびピーク密度）に加重値を与えることが最良であることを見出した。糖ペプチドスペクトルにおけるオキソニウムイオンの普及を評価することにより、定数αが適用される。この因子は、特定のオキソニウムイオンを観察する確率に基づいて加重値を与える。そのような確率は、例えば結腸癌腫瘍組織といった適切な試料の種類に対して、当業者によって容易に決定され得る。αは、スペクトルで評価されるオキソニウムイオンのそれぞれの種類について指定される。

定数βは、オキソニウムイオンラダーの存在に加重値を与えるために用いられる。その成分単糖を表すオキソニウムイオンと共に認められる二糖または三糖を表すオキソニウムイオンについて、定数βがスコアに付加される。この場合もやはり、そのような加重値は確率論的に形成され、当業者によって容易に断定され得る。

見出されるオキソニウムイオンの全セットに関する情報を組み入れるため、低いm/z範囲における非オキソニウムイオンピークのオキソニウムイオンピークに対する比率を評価するための測定基準δが導かれ得る。このスコアは、オキソニウムイオンのm/z値におけるピークをランダムに含む非常に密度の高いスペクトルにペナルティーを科すために、スコアの他の成分から差し引かれる。相当する電荷のオキソニウムイオンピークより18質量単位低いm/z値における強度の高いピークの出現をもたらし得る、オキソニウムイオンの水損失等の因子を含むがこれに限定されないさらなる特徴もまた評価され得る。そのような因子を用いて、例えば、非オキソニウムイオンピークのカウントを補正し、オキソニウムイオンのより高い一致を報告することができる。

全体として、オキソニウムイオンを評価するための関数は、以下のように定義することができる：

式中、mは、先に決定した通りに入力スペクトルにおいて検出される有意なオキソニウムイオンの総数である。得られたスコアは、オキソニウムイオンの存在の基準として見なされ得る。

低ピーク密度域の評価
スペクトル中の差次的なピーク密度のパターンの観察もまた、スペクトルが糖ペプチドに相当するか否かを決定するための基準である。MS-MSによって得られる糖ペプチドスペクトルは質が悪い場合が多く、多くのピークを含まない場合が多いと本発明者らが見出したことから、高いm/z範囲のピーク密度は一般に考慮しない。

m/z中域（好ましくはm/z 366〜m/z 666）の低密度の尺度を導くため、既知オキソニウムイオンを表さない有意なピークを数える。次いで、その数を、ピーク密度の3つの質的分類：低密度、非低密度、および高密度を表す40のうちのスコアに分類する。

単糖の喪失の評価
多くの糖ペプチドスペクトルは、オキソニウムイオンの存在および差次的なピーク密度のみによって正確に同定することができるが、精度を上げるために、さらなる特徴--本明細書において「単糖の喪失」と称する、単糖（図3を参照のこと）またはそれらの組み合わせに相当するm/zによって分離されるピーク--の存在を判定に含めることもできる。実際に、この態様で提供する式は、単糖の喪失に他の2つの特徴よりもかなり低い比重を与えているものの、これを判定に含めている。高いm/z範囲においてバックグラウンドよりも高いピークのm/zは、誤差の範囲内で、単糖の喪失で見られるm/z値に相当するm/z値によって分離される。高いm/z範囲のピークに関して、204（N-アセチルヘキソサミン(HexNAc)）または162（ヘキソース(Hex)）のm/zで分離されるピークの数をカウントして、スコアを与える。非糖ペプチドスペクトルにおいて、単糖の質量によってランダムに分離されるピークが認められることはよくあるため、この測定基準はそれ自体で糖ペプチドの検出に十分なほどの識別能はない。

スペクトルのスコアリング
スペクトルまたはスペクトル群において、オキソニウムイオンの存在、単糖の喪失、および低ピーク密度域に関してスコアを決定し、全体のスコアを決定して、スペクトルが糖ペプチドまたは非糖ペプチドに相当すると評価することができる。非糖ペプチドスペクトルにおいて、本発明によって評価する糖ペプチドの各特徴が個々に認められることは一般的であるため、これらの各特徴を組み合わせることおよびそれらの重みづけが、効率的なスペクトルの分類に望ましい。個々の特徴またはそれらの対を用いることもできるが--他のものに加重値ゼロを効率的に与えて--、3つの特徴を用いることが好ましい。当業者は加重図式を容易に調整し得るが、例示的な態様として以下の加重値を各特徴に割り当てた：

50% - オキソニウムイオンの存在。既知のオキソニウムイオンのm/z値に位置するピークの存在は、糖ペプチドの検出において最も有益な特徴である傾向がある。しかしながら、オキソニウムイオンの質量は完全に固有ではない（十分に高い精度が得られた場合、オキソニウムイオンは固有の質量を有する。例えば（図6を参照のこと）、HexNAcオキソニウムイオンは204.09という正確な質量を有する一方、ペプチドy2-GK断片は質量204.13を有する。しかし、質量分析計の精度には限度があり、使用する精度レベルでは、オキソニウムイオンを検索するために厳密な値を用いることは正確でない場合がある）。したがって、オキソニウムイオンの存在単独で糖ペプチドの同定に十分であるとは限らず、重みづけによってこれを考慮すべきである。

40% - 低ピーク密度域の評価。ペプチドスペクトルは主に均一に分布したピークを含むが、ピーク密度がスペクトルにおいて変動し得る可能性があり、したがってオキソニウムイオンの存在と同様に、この基準も単独で十分であるとは限らない。

10% - 単糖の喪失。MS/MSスペクトル中に現れるピークは、様々な組み合わせの糖類に相当する質量差によって分離されるように誤って見える可能性が高い。主としてこの偽陽性の可能性が高いことから、加重値が低い。

したがって、糖ペプチド分類の総スコアSは、下記のように記載することができる：

標準的な質量分析系は、実数の対（m/z、強度）のベクトルとして出力を作成する。したがって、各関数fは、実験スペクトルの全（m/z、強度）対を表すベクトルEを入力として取り込む。特性Xiに関する各fiを、全項に記載したように各特徴に割り当てた加重値、wiに基づいて、理想的な糖ペプチドスペクトルの各wifiの和がスコア1となるように導いた。考察する糖ペプチドスペクトルの変動性を考えると、作成した各fiは、偽陽性を排除するのに十分な識別能を有しつつ、ノイズの高い糖ペプチドスペクトルに対して正確なスコア：Ｓを指定するのに十分感度が高くあるべきである。

糖ペプチドスコア閾値の確立
前項に記載した糖ペプチドスコアは、理想的な糖ペプチドスペクトルに対するスペクトルの類似性を反映する。糖ペプチドスペクトルに認められる変動性を考えると、多くの糖ペプチドスペクトルは異なるように見えると考えられ、作成されるスコアには幅が存在することになる。スペクトルを糖ペプチドに属するとして分類するためには、以下となるような判定スコアD（糖ペプチド閾値）の確立が必要である：
S<Dである場合、スペクトルは糖ペプチドではなく、
S>Dである場合、スペクトルは糖ペプチドである。

判定スコアは、偽陰性と偽陽性の最適比を返答するスコアを検討することにより、本発明の態様に関して確立される（図10および図11を参照のこと）。正確な判定境界を決定するためのいくつかの方法論が当技術分野において存在すること、および方法の選択も正確な境界も本発明にとって重要ではないことを認識すべきである。

糖ペプチドスペクトルに関して、特徴の同定、スコアリング、およびマッピングについて本明細書で使用するパラメータが有用であることを示したが、加重図式に変化をもたせても変更を加えてもよいことに留意すべきである。そのような変更は、任意にまたは実験的に決定することができる。特に、精度を調整するために、そのような修正を行い得る。例えば、試料組成の顕著な変化は、本明細書に例証した割合と比較して増加した偽陽性の割合を排除するために、スコアリングパラメータの調整が必要となる可能性があり、または偽陰性を防ぐためにパラメータの緩和が望ましい場合もある。同様に、パラメータを調整して、過程の速度を至適化してもよい。

グリカン解析モジュール
オキソニウムイオンに加えて、グリコシド結合の切断によって生じた部分的に断片化した糖ペプチドもまた、スペクトルの高いm/z範囲に記録される。代表的なそれぞれのピークは、糖類質量のいくつかの組み合わせによって分離される（図5を参照のこと）。高いm/z範囲においてこれらのピーク間の差を観察することにより、および非修飾ペプチドに相当するピークを見出すことにより、グリカンの構造を復元することができる。非修飾ペプチドの同定により、糖ペプチドの親ペプチドを同定する方法もまた提供され、さらにそのペプチドのグリコシル化型と非グリコシル化型との比較が可能になる。

糖構造同定モジュール
MS/MSスペクトルからのグリカン構造の手動による復元は、スペクトルの強度の高いピーク間の質量差を検出する段階を含む。種々のピーク間に認められる質量差の順序から、単糖解離の順序、ひいてはグリカンの組成が示唆される。同じピークから生じる複数の単糖の差および観察されるピークの相対的強度から、グリカンの分岐部分もまた示唆される。グリカン構造および生合成についての既知の法則を取り込むことにより、分岐部分および単糖組成、グリカン構造を解明することができる。しかし、ピークの喪失または付加、ESI-MS/MSにおける多価のピークのような不明瞭にする因子が、グリカン構造の課題を著しく複雑化し得る。

ESI-MS/MSデータからのグリカン構造解明の過程を自動化するため、本発明は、グリカン解析のためのMS/MSイオン検索の従来技法の適合化に基づいたアプローチを提供する。これまでのほとんどのMS/MSイオン検索技法は、ペプチド断片化を考慮したものであり、糖ペプチドの解析には適用できない。グリカン解析に適用させるため、既存のペプチドMS/MSイオン検索技法を2つの主要な点で変更した：糖質の分岐構造は理論的な断片化の独特なモデルを必要とし、糖ペプチドスペクトルの独特な特徴は、スペクトルを相関させる方法をも修正することを必要とする。

ペプチドMS/MSイオン検索と同様に、本モジュールのグリカンイオンMS/MSイオン検索局面も、以下の3つの主要な段階を含む：
1. 実験スペクトルと対応し得る構造の適切なデータベースを取得する段階。
2. データベース項目の予測される断片化産物を表す理論的スペクトルを作成する段階。
3. 理論的スペクトルを実験スペクトルと相関させ、最も可能性の高い適合物を決定する段階。

これらの段階をそれぞれ、以下の項でさらに考察する。

グリカンデータベース
グリカンスペクトルのデータベースは、個々のグリカンをMS/MS解析に供し、そのスペクトルおよび対応するグリカンを保存することによって、既知グリカンから作成することができる。GlycoSuite DB（Proteome Systems Limited）等のグリカン構造の市販のデータベースを利用することもできる。以下に考察する態様はN-結合型グリカンに焦点を当てているが、当業者は本モジュールをO-結合型グリカンに容易に適合化し得るはずである。

データベースは、自然界に見出されるすべてのN-グリカンの完全なセットを提供するわけではなく、すべての実験グリカンスペクトルがデータベースグリカンと厳密に一致するとは限らないと考えられる。使用するデータベースの完全性に対するMS/MSイオン検索技法の依存度は、本技法の固有の限界である。しかし、MS/MSイオン検索技法の二次目標は、実験スペクトルがデータベースに報告されていない場合に、最も類似しているまたは相同的な構造を返答することである。N-結合型グリカンは明確に定義された構造を有し、類似の生合成機構によって生成されるため、データベースは、データベース中に正確な構造が含まれていない場合に、非常に類似した糖質を含むことになると考えられる。

グリカン糖質の理論的断片スペクトルの作成
既知のペプチド断片化モデルと異なり、糖質の断片化は分枝の存在に起因して非常に複雑である（図12）。理論的なペプチド断片は、ペプチド結合のそれぞれを切断し、生じた断片のアミノ酸の質量を厳密に直線状の組み合わせで合計することによって作成される。作成される部分的断片の数は、理論上、存在するペプチド結合の数と等しくなる（bイオンまたはyイオンを考慮して）。グリカンは分岐構造であり、各分枝に沿って断片化事象が同時に起こり得るため、生じるピークのセットは、部分的に断片化した分枝間の質量の組み合わせを表すいくつかのピークを含むことになる（図13を参照のこと）。

しかし、糖質スペクトル中に認められる断片数は、予測される断片すべてのセットよりもはるかに少ない。1つには、すべての断片種が同じ確率で生じるとは限らない可能性がある。各糖質の構造および組成は、分子の全体的な化学的エネルギーを生じ、次にはこれが、ある種の断片産物が他の断片産物よりも多く観察されるという偏りを導く。個々の単糖の化学的特性もまた、断片化の偏りを生じ得る。例えば、シアル酸残基に存在する正電荷により、シアル酸残基は他の単糖よりもより容易に解離する。観察されるグリカン断片数に影響を及ぼす別の要因は、断片化に用いる解離エネルギーである。高エネルギー衝突は構造中のグリコシド結合をより多く切断し、したがってより多くの断片種が認められる、およびスペクトル中に多くのピークが認められる一因となる。

観察されるピークの数が概してすべての可能なピークよりもかなり少ないことの別の主要な理由は、多くの断片化産物が同じ組成を有することにある。高等動物およびヒトの糖質は一般に、そのうち2つが稀である最高6つの単糖から構成されるため、スペクトル中の可能なピークすべてのセットはやはり減少する（図3b）。したがって、任意のグリカンに関して、構造の異なる部分から生じる種々の断片種が同じ単糖組成を含み、よって同じ質量を有する断片を生じる可能性がある。

自然界に見出されるN-結合型糖質構造はすべて、五糖コアHexNAc₂Man₃を含み、そこから2つのアンテナまたは分枝が生じる。三分岐型構造もいくつか存在するが、二分岐型構造ほど一般的ではない（2つのアンテナに加えて、コアに結合した、バイセクティングGlcNAcと称される単一のGlcNAc残基を有するN-結合型グリカンもまた存在する。これらの構造も、二分岐型N-結合型グリカンほど一般的ではない）。この構造に基づいて、糖質は、単糖残基を表す節点、グリコシド結合を表す辺、およびN-結合型コアの最初のHexNAc₂Man部分を表す根を有する有根二分木構造を前提とする（例えば図13に示す構造を参照のこと）。

可能な理論的断片化産物をすべて考慮した糖質断片化の「完全(full)」モデルによって作成されるピークのセットは、グリカンの構造に依存して非常に大きくなり得る。その結果、多くの場合、非特異的ヒットを得る可能性が増す。これは糖構造同定モジュールの可能な態様であるが、好ましい態様は、（完全モデルによって作成される）FのサブセットであるピークのセットSを生じるが、本明細書に例証するように、データベースグリカン構造を実験グリカンスペクトルに相関させるのになお完全である別の断片化モデル、「経路モデル(path model)」に従う。

Mizunoら（(1999) Analytical Chemistry 71: 4764）によって進められた研究において、単結合切断によって生じるイオンは、多重結合切断から生じる断片イオンよりも豊富であること、および分枝内で開始された断片化は同じ分枝の末端まで進行することが見出された。この結果に基づき、グリカン断片化の経路モデルを開発した。すべての可能な断片産物FのサブセットSを作成するため、経路モデルでは糖質構造の通りがけ順での木の踏査(in-order tree traversal)を行う。根の節点に候補非修飾ペプチドピーク（以下を参照のこと）の質量を割り当て、他のすべての節点にその位置での断片化によって生じる糖ペプチド産物の質量を割り当てる。根からそれぞれの葉の方向に向かって、すべての経路の通りがけ順での木の踏査を行い、経路において踏査したすべての節点における質量を保持することにより、グリカンの理論的スペクトルが得られる。重複産物の質量は1度のみカウントして、グリカンの種々の断片化産物を示す固有のピークのセットを作成する。根からそれぞれの葉の方向へ向かう経路から生じる産物のみを考慮する、すなわち、簡単にするために部分木の組み合わせについては検討しない。次いで、このモデルによって作成されたピークを実験スペクトルと相関させる。この過程を図14に示す。

スペクトル相関のアルゴリズム
糖質の断片化をモデリングした理論的なスペクトルを作成した後、この理論的スペクトルを実験スペクトルと相関させる。この相関は、ペプチドに関する既存の方法と2つの主な方法において異なる：
グリカンのペプチド骨格への未知結合点：糖ペプチドのペプチド成分は断片化後も原型を保っているため、グリカンの開始点を表すピークはすぐにはわからない。解析する場合、このピーク、非修飾ペプチドは、単糖の喪失を順次追跡し、結合の最も起こりそうな点を見出すことによって同定される。
スペクトル中の分枝パターンの検出：分枝間で形成される質量の組み合わせの可能性のため、前項で考察したように、グリカン構造の実験スペクトルへの指定にはさらなるあいまいさが存在する。理論的スペクトルと実験スペクトルとの一致の程度を評価する適切なスコアリング図式を導く場合には、この要因を考慮に入れるべきである。

経路モデルによって作成された理論的スペクトルと糖ペプチドの実験スペクトルとの相関で使用する例示的なアプローチを以下で考察する。

非修飾ペプチドの決定
実験スペクトルの理論的なグリカンピークを適合させるため、ペプチド成分、すなわち実験スペクトル中の「非修飾ペプチド」を表すピークのオフセットを決定すべきである。糖ペプチドの非修飾ペプチドピークは必ずしも容易に同定できるとは限らないため、スペクトルの相関を開始し得る前にこの点を決定しておく必要がある。またこのピークの決定により、タンパク質IDモジュールに進めるための解析が可能になり、その決定のための手順も同様に、タンパク質IDモジュール内に、または2つのサブモジュール（糖構造同定モジュールおよびタンパク質IDモジュール）のいずれかまたは両方に送り込まれるグリカン解析モジュール全体の一部として具体化され得る。一般に、グリカン解析モジュールは、候補非修飾ペプチドの群から糖ペプチドスペクトルの最も可能性の高い非修飾ペプチドを決定する方法を提供し、この方法は以下の段階を含む：糖ペプチドスペクトルの候補非修飾ペプチドの群を提供する段階；理論的な糖断片を候補非修飾ペプチドに適用する段階；得られた候補糖ペプチドの相関スコアを決定する段階；および候補糖ペプチドの群から、糖質部分が至適な糖構造を示し、かつペプチド部分が最も可能性の高い非修飾ペプチドを示す、最もスコアの高い適合物を決定する段階。

N-結合型糖ペプチドにおいて、非修飾ペプチドのピークは伝統的に、スペクトルの最も強いピークの1つである（常にそうであるとは限らないが）。非修飾ペプチドを決定する単純なアプローチは、スペクトルの高いm/z範囲にある最も強いピークのリストを作成して、候補非修飾ペプチドの群を提供し、理論的な糖断片を適用することにより可能な開始点として1つずつ試してみることである（非修飾ペプチドは+2または+3に荷電したピークである可能性もあるため、非修飾ペプチドの荷電状態すべてを同様に可能な開始点として試す）。理論的には、正しいデータベースグリカンが正しい点においてスペクトルに適用された場合、最大数の一致ピークが得られ、ひいては最も高い相関スコアが返答されるはずである。したがって、一番上の候補一致物（以下を参照のこと）が、ピークに一致する至適な糖構造および最も可能性のある非修飾ペプチドを提供するはずである。

理論的スペクトルと実験スペクトルの相関
非修飾ペプチド候補それぞれから、理論的スペクトルのピークを実験スペクトルのピークに一致させる。一致の程度を評価するため、適切な相関スコアリング図式を作成しなければならない。ペプチドMS/MSイオン検索で使用されるスコアリング図式と同様に、一致したピークの強度および数をスコアリング図式に組み込む。これらの共通した特徴に加えて、グリカンの構造に関するいくつかの情報を組み込むことも有用である。

本明細書で例証する態様では、この目的のためにグリカン下部構造を調べる。グリカンの各分枝の構造を検証する。実験スペクトルにおいて、候補グリカンの各分枝に沿って作成された理論的断片を調べ、この分枝に沿った隣接ピークの存在にスコアを割り当てる。下部構造に沿った隣接ピークがより多く観察されるほど、その下部構造が正しいという可能性が高くなる。観察された隣接ピークそれぞれに対して、スペクトルの質（すなわち、断片イオンの完全なラダーの存在）を反映するために選択され得る定数βを加える。

分枝スコア
グリカン下部構造を検証するため、グリカン構造の分枝をそれぞれ別々にスコアリングする。各分枝のスコアは、一致したピークの強度すべてと分枝構造に基づいたスコアの和からなる。

ESI/MS-MSスペクトルのピークは+1、+2、および+3電荷で存在するため、実験スペクトルにおいて理論的なピークを検索する場合には、種々の荷電状態でピーク質量を検索する。理論的ピークの周囲1ダルトンの領域にあり、かつ有意であると認められる、スペクトル中の全ピークの強度を合計し、これを最終スコアに加える。

前項に記載したように、観察される任意の1つの分枝に沿った隣接ピークの数に関するスコアは、qβ（式中、qは観察される隣接ピークの数であり、βは定数である）によって決まる。

分枝スコアはまた、一致したピークの数と分枝の断片化によって予測されるピークの数との比を含む。このように、一般的な開始点を含むが非常に長い分枝は、有望なヒットから除去される。

式において、分枝スコアは以下のように記載することができる：

式中、mは一致したピークの数であり、qは見出された隣接ピークの数である。

理論的グリカン全体の実験スペクトルへの一致に関する全体的なスコアは、全分枝スコアの和として得られ、この和を相関スコアとして用いることができる。典型的に、最も高いスコアの分枝が候補一致物として返答される。

タンパク質IDモジュール
一般に、糖タンパク質が生じた元の親タンパク質を同定することが望ましい。例えば、候補糖ペプチドのスペクトルの糖構造同定モジュール解析から脱グリコシル化ペプチドの質量が決定され得る場合、その質量を用いて既知ペプチドのデータベースを検索し、ペプチドマスフィンガープリンティング(PMF)法により適合させることができる。この過程を図15に示す。

公的に利用可能なデータベース（例えばGenBank）からヒトタンパク質等のタンパク質のリストを取得することにより、またはユーザーの推奨する（NCBIアクセッション番号による等）リストから、既知ペプチドのデータベースを作成し、例えばトリプシン処理した試料に由来するペプチドに適合させるためにタンパク質をコンピュータシミュレーションによりトリプシン消化するなど、手元にある質量スペクトルと比較するために適切に処理することが好ましい。偽陽性と思われる数を減少させるため、N-結合型糖ペプチドを扱っている場合には、N-結合号型コアNXS/T（「N」はアスパラギンを表し、「X」は任意のアミノ酸を表し、「S」はセリンを表し、「T」はスレオニンを表す）を含むペプチドのサブセットを、データベースから比較のために独占的に選択してもよい。非修飾ペプチドが同定された各糖ペプチドでは、候補一致ペプチドおよびこれらの元のタンパク質に関してデータベースを検索することができる。

要約すると、本モジュールは糖ペプチドの親タンパク質を同定する方法を提供し、この方法は以下の段階を含む：a) 解析するための糖ペプチドスペクトルを選択する段階；b) 非修飾ペプチドを決定する段階；c) 非修飾ペプチドの質量を決定する段階；d) ペプチドの適切なデータベースを取得する段階；e) およびペプチドマスフィンガープリンティング法により、ペプチドをデータベースに由来する既知起源のペプチドに一致させ、それにより親タンパク質を同定する段階。

実施例
以下の実施例は、説明の目的のためのみに提供するものであり、いかなる方法においても本発明を限定するものとして解釈すべきではない。当業者は、本発明の精神または範囲を逸脱することなく、以下の実施例の変更を行い得ることを理解すると考えられる。

実施例1
試料の調製、検索スキャン、およびスペクトルの作成
免疫親和性選択により形質膜を濃縮した抽出物を取得し（米国特許出願第10/251,379号、2003年4月3日に公表された米国特許公報第2003/0664359号を参照のこと、これらはすべて参照として本明細書に組み入れられる）、ゲル電気泳動によりタンパク質抽出物を分離した。バンドを切り出し、トリプシンで消化し、Micromass Q-TOF Ultima（マサチューセッツ州、ミルフォード）においてナノLC-MSにより流速400 nL/minで解析した--「検索スキャン」。溶出されたペプチドをエレクトロスプレーによりイオン化し、データ依存的取得モードでペプチドイオンを自動的に選択し、断片化した。次に、得られたMS/MSスペクトルを、Mascot（Matrix Science、英国、ロンドン）によるタンパク質同定のためのデータベース検索に供した。

実施例2
検索スキャン解析
実施例1等で得られた検索スキャンデータは、ペプチドのm/z値および存在するペプチド断片を含めて、その中に表される生体分子のイオンカウントピークを提供する。検索スキャン解析モジュールを用いることにより、単糖の質量に等しい、妥当な誤差限界の範囲の質量差によって分離されるピークの特徴的な分布から、それらのピークに関連した前駆体がグリコフォームまたは潜在的グリコフォームに指定され得る。次いで、指定されたグリコフォームまたは候補グリコフォームは、現在の試料または次の試料において包含リストを介すなどして、MS/MSのさらなるラウンドに選択され得る。

実施例3
糖ペプチド同定
3種類のデータセット：ペプチド、有効な糖ペプチド、およびランダムペプチドにおいてN-GIA糖ペプチド同定モジュールの動作を試験するため、MS/MSデータセットを作成した。ペプチドデータセットは、高品質を示す35のペプチドスペクトルを最小Mascot（Matrix Science）に供したMS/MSスペクトルのデータを含めることにより作成した。糖ペプチドデータセットは、以前に検証された糖ペプチドからMS/MS情報をプールすることにより作成し、ランダムペプチドセットは、Mascotにより指定されなかったおよび非ペプチドらしきMS/MSスペクトルから構成した。

グリコシル化検出モジュール(Glycosylation Detection Module)で実行した場合、糖ペプチドスコアの分布は、データセット間で異なることが示された（図11a）。糖ペプチドは、平均グリコシル化スコア1.57を有して、0.9〜2.4に分布するスコアを有することが示された。これらのスコアは、平均グリコシル化スコア0.26を示す有効ペプチドのスコアよりもかなり高いことが示された（図11a）。これら2つの分布間に重複は認められなかった。ランダムペプチド試料のスコアはペプチド分布と糖ペプチド分布との間にあり、ペプチドセットよりもわずかに高いグリコシル化スコアを示した（図11a）。グリコシル化スコアがわずかに高いのは、有意なピークおよび/または低密度領域のような糖ペプチドのいくつかの特徴をランダムに含み得るいくつかのスペクトルが原因である可能性がある。このように、糖ペプチド検出モジュール(Glycopeptide Detection Module)は、高いスコアを真の糖ペプチドに、低いスコアを糖ペプチドモデルの特徴のいくつかを任意に含み得るスペクトルを含む非糖ペプチドに正しく指定するのに十分選択的であることが認められた。

糖ペプチドスコア分布の結果を検証するため、同じデータをそれらのペプチド被覆度について評価した。ペプチド被覆度スコア(Peptide Coverage Score)は、スペクトルの「ペプチド」の質の尺度である。スコアの目的は、手動での検査によって新たに配列決定され得るスペクトルの比率を示すことにある。このスコアを導くには、アミノ酸の質量によって分離され得る2つの有意なピークの存在を観察することによって、スペクトル中のアミノ酸の数を計算する。アミノ酸によって広がるスペクトルの比率に基づいて、被覆度スコアを導く。３種のデータセットのペプチド被覆度スコアは、図１１bに示されているように分布されていることが示された。

ペプチド被覆度スコアは、グリコシル化スコアと反対の傾向を有することが示された。最も高いスコアはペプチドデータセットに割り当てられ（平均94.5）、最も低いスコアは糖ペプチドデータセットに割り当てられた（平均19.2）。グリコシル化スコアの分布でも見られたように、グリコシル化の分布とペプチド分布との間に重複は存在しなかった。同様に、ランダムペプチドセットのスコア（平均被覆度スコア56.8）は、糖ペプチドスコアとペプチドスコアとの間にある。糖ペプチドの誤分類によって、糖ペプチドとペプチドの被覆度スコアの分布間により顕著な重複が生じることになる。ペプチド被覆度スコア分布により、糖ペプチド分類指標としての糖ペプチド同定モジュールの有効性の検証がさらに提供される。

N-GIAの糖ペプチド同定モジュールを実施例1で処理した試料においても試験したが、実施例1ではそのうち38が既知糖ペプチドスペクトル（真の陽性）である17295のMS/MS断片スペクトルが得られた。糖ペプチド同定モジュールを用いてスペクトルを試験した。糖ペプチド同定モジュールは、MS/MSデータから迅速かつ正確にグリコシル化スペクトルを検出した：38の糖ペプチドスペクトルすべて（偽陰性率0）および6つの偽陽性（誤り率0.03%）が同定された。

94648のスペクトルにおいて解析をさらに行った。この実験で、糖ペプチド同定モジュールは、試料中の全スペクトルの約0.2%に等しい、試料中の真の陽性の97%を同定し得た（閾値0.9において）。4 CPU、8ギガヘルツプロセッサで実行した場合、糖ペプチド同定モジュールは1分間に10000スペクトルを処理することができた。

実施例4
グリカン解析
グリカン断片化の完全モデルおよび経路モデルの両方をC++により実行し、糖ペプチドの試験セットに実施した。スペクトルは手動でプールし、グリカンが複合物に分類されるかまたはオリゴマンノースに分類されるかにより、2つのセットに分離した。オリゴマンノースのデータセットは15のスペクトルからなり、複合物のデータセットは12のスペクトルからなった。糖ペプチドスペクトル中のグリカンの開始点、非修飾ペプチドを表すピークを正しく同定するプログラムの精度を、1つの単糖質量の差の範囲内に同定される正しい非修飾ペプチド質量の割合を観察することによって評価した。さらに、非修飾ペプチドの正しい電荷を正しく同定する必要があった。

一般に、完全モデルおよび経路モデルのいずれもが、正しい非修飾ペプチドの同定において同等にうまく機能し、結果は解析したグリカンの種類に左右されなかった。具体的には、オリゴマンノーススペクトルセットでは正しい非修飾ペプチドが12/15得られ、複合物データセットでは非修飾ペプチドの11/12が正しく同定された。さらに、異なる機器で解析した同一の糖ペプチドに関して、またはグリコフォーム（例えば、1つ余分にヘキソース残基を含む、より質量の大きい糖ペプチドを有する同じグリカン）に関して、同じ非修飾ペプチドが返答された。誤って割り当てられた非修飾ペプチドのうち、オリゴマンノースデータセットでは75%、および複合物データセットでは100%が、非修飾ペプチドの偽電荷の割り当ての結果であった。同位体分布が十分に分離されない場合に、ピーク電荷の点であいまいさがいくらか存在した。非修飾ペプチドに誤った電荷が割り当てられた結果、続くピークもすべて同様に誤って割り当てられた。今後の実施では、この点を考慮し得る。

グリカン解析モジュールの性能を、正しい単糖組成およびグリカン構造を返答する能力においても評価した。グリカン構造の解明においてそれぞれの断片化モデルの有効性を評価するため、2つの主要な基準を用いた。第一の基準では、スペクトル中に観察されるグリカン断片の数に対するスペクトル中に見られる一致ピークの数を調べた。複合物およびオリゴマンノースデータセット中のそれぞれの糖ペプチドについて、グリカンの構造を調べ、種々の部分的断片を表すピークおよびそれらの電荷を同定した。これらの観察されたピークを、グリカン解析モジュールにより正しく同定された（m/zおよび電荷に関して）ピークに対して一致させた。一致ピークと観察ピークとのこの比率により、スペクトル中の部分的断片を正しく同定し、ひいてはグリカンの糖類組成を報告するこのモジュールの能力の評価が提供される。一致を評価するために使用するもう1つの主要な基準は、スペクトル中に示されるグリカンの構造に対する上位ヒットの構造の類似性の質的評価であった。

複合物データセットの各スペクトルの結果を図16に示す。一般に、完全モデルにおける観察ピークと予測ピークとの比率は約0.32であることが見出され、複合Nグリカンの大部分に関して、わずかな予測ピークのみしか認められないことが示唆される。理論的断片におけるこの過剰が、完全モデルによって得られるランダムなピークの一致の一部原因となっている。経路モデルにおけるこの比率は1.19であることが見出され、予測ピークがすべて認められることが示唆される。さらにこの比率から、いくつかの場合において、予測よりも多くのピークが認められることが示される。この結果は、経路モデルが、少数の観察ピークに寄与する分枝の組み合わせを考慮していないという事実に起因し得る。

図16では、完全モデルおよび経路モデルの両方を用いた、複合グリカンについての一致ピークと観察ピークの比率についても示す。完全モデルにおけるn_一致/n_観察の平均値は1.18と算出され、経路モデルのこの平均値は0.76であることが判明し、完全モデルはスペクトル中の部分的グリカン断片をより多く同定し得ることが示唆された。しかし、完全モデルにおける比率は1を超えるため、この結果から、完全モデルは観察されないピークに一致させることも示唆される。上記のように、完全モデルは、スペクトル中に観察されるピークよりもはるかに多いピークを生じる。ピークがこのように過剰であることから、理論的断片にランダムに一致する可能性が増加する。ランダムなピークの一致は完全モデルの一致の11.5%で、また経路モデルの一致の7%で示された。これらの誤ったピークの割り当てをさらに調べたところ、一致するノイズピークまたは水損失を表すピーク等の要因に起因し得る場合が多いことが明らかになった。しかしほとんどの場合、誤った割り当ての理由は誤った電荷の割り当てであった。一般に、経路モデルはより少ないピークしか一致させ得ないが、完全モデルおよび経路モデルによって返答される構造は同等であった。

複合グリカンの解析と比較して、オリゴマンノースデータセットを用いた、グリカン断片の両モデルにおける観察ピークと理論的ピークとの比率の相違は、非常に小さかった；経路モデルおよび完全モデルについて、それぞれ比率0.72および0.89が認められた（図17を参照のこと）。相違がこのように小さくなったことは、単糖組成の変動性が少なく、完全モデルによって生じるピークセットの大きさが複合グリカンに関して作成される場合よりも一般に小さいためと考えられる。したがって、オリゴマンノースグリカンについては、いずれの断片化モデルも同様に機能した。オリゴマンノースグリカンにおける一致ピークと観察ピークの平均比率は、完全モデルおよび経路モデルにおいてそれぞれ1.14および1.02であることが判明した。オリゴマンノースデータのすべてのスペクトルにおいて、観察されたピークはスペクトル中の部分的グリカン断片に関連づけられた。複合グリカンと比較して、2つのモデル間の一致ピークと観察ピークの比率の相違は低かった。

オリゴマンノースグリカンの解析において断片化の経路モデルを用いた場合、すべての場合において正しい構造が決定された。オリゴマンノース糖では、断片化の完全モデルは経路モデルよりもうまく機能しないことが判明した。オリゴマンノーススペクトルすべてのうち、46%のスペクトルが、グリカン解析モジュールによって返答された上位5ヒット内でオリゴマンノース構造に割り当てられた。オリゴマンノースグリカンの大部分において適切な構造が返答されたが、20%においてオリゴマンノース構造の代わりに複合グリカンが返答された。しかし、誤った構造が返答された場合でさえ、多くのピークの割り当ては正しいことに留意することが重要である。性能の相違は、完全モデルによって生じる多数のピークがノイズに一致するという事実に一部起因し得る。一般に、経路モデルにより、1分間に平均2スペクトルが解析された。

実施例5
N-GIA
結腸癌の患者の正常組織および腫瘍組織における差次的な糖ペプチド発現の研究に役立てるため、ハイスループット・プロテオミクス・パイプラインにN-GIAを組み込んだ。試料のMS/MSスペクトルを取得し、これらを糖ペプチド同定モジュールおよびグリカン解析モジュールに供した。糖ペプチド同定モジュールによりm/z 1021.16の位置に同定された糖ペプチドに関して、このm/z領域におけるMS検索スキャンを特定の患者の正常組織および腫瘍組織の両方において解析した。検索スキャンの解析から、正常試料（図18c）ではm/z1021.16に小さなピークが示されるのに対して、腫瘍試料（図18b）では同じm/zにより大きなピークが示されるように、腫瘍組織において糖ペプチドが上方制御されたことが明らかになった。

差次的に発現された糖ペプチドをその親タンパク質に一致させるため、グリカン解析モジュールを使用した。さらに、グリカン解析モジュールを強化して、他の翻訳後修飾(PTM)およびPTMの組み合わせを検出した、グリカン解析モジュールにより、この糖ペプチドについて、オリゴマンノースグリカン構造(HexNAc₂Hex₉)非修飾ペプチド質量915.57が示唆された。使用したタンパク質IDモジュールは非修飾ペプチドの質量を入力として取り入れ、この質量を、すべてのN-結合型糖タンパク質に共通したNXS/Tシークオンを含む、NCBiデータベースのすべてのトリプシンペプチドに一致させるよう試みる。差次的に発現されたペプチドの非修飾ペプチドは、タンパク質IDモジュールにより、癌の既知糖タンパク質マーカーである、タンパク質癌胎児性抗原(CEA5 HUMAN)に一致された。

本実施例は、N-GIAが、グライコミクスおよびプロテオミクスにおいて差次的発現および創薬を促進する能力を示すものである。

他の態様
本発明の現在好ましい特定の態様を本明細書に記載したが、本発明の精神および範囲から逸脱することなく記載した態様の変更および修正がなされ得ることは、本発明に関連する当業者には明らかであると考えられる。当業者は、所定の実験法のみを用いて、本明細書に記載した本発明の特定の態様に対する多くの等価物を認めると考えられる、または確認することができる。そのような等価物は、特許請求の範囲によって包含されることが意図される。それに応じて、本発明は、特許請求の範囲および適用可能な法規則が定める範囲のみに限定されることが意図される。

本明細書で言及した特許、特許出願、および出版物はすべて、参照として本明細書に組み入れられる。

本発明のコンピュータシステムの例示的な態様を示す。コンピュータシステム2は、内部部品および外部部品を含む。内部部品は、メモリ6に連結されたプロセッサ4を含む。外部部品は、大容量記憶装置8、例えばハードディスクドライブ、ユーザー入力装置10、例えばキーボードおよびマウス、ディスプレイ12、例えばモニター、および通常コンピュータシステムを他のコンピュータに接続してデータの共有および処理作業を可能にし得るネットワークリンク14を含む。プログラムは、操作過程でこのシステム2のメモリ6に読み込まれる。これらのプログラムは、コンピュータシステムを管理するオペレーティングシステム16、例えばMicrosoft Windows、共通語をコード化し本発明の方法を実行するプログラムを支援するように機能するソフトウェア18、および本発明の方法を手続き型言語または記号パッケージでコード化するソフトウェア20を含む。本方法をプログラムするために使用し得る言語には、MicrosoftのVisual C/C⁺⁺が含まれるが、これに限定されない。グリコペプチド同定ツール(Glycopeptide Identification Tool)のフローチャートを示す。矢印は、解析がいくつかの可能な順序で、かつデータ作成過程のいくつかの可能な点で行われ得ること、および解析が利用可能なモジュールすべてに必ずしも依存し得ないことを強調するためのものである。具体的には、糖構造同定モジュールおよびタンパク質IDモジュールは同じMS/MSスペクトルから同時に駆動され得り、共通の計算に依存して異なる結果をもたらし得り、したがってこれらは単一の「グリカン解析モジュール」にさらに分類される。 A) いくつかの一般的な単糖およびそれらの質量を示し、B) そのうち6つが一般的であり2つが稀である、高等動物およびヒトの例示的なセットを提供する。B) の質量は中性単糖のものであり、A) の質量はプロトン化型のものである。 N-結合型糖ペプチド断片化の概略図。A) 衝突誘起解離(CID)では、典型的に糖ペプチドのより不安定な糖質付属物が解離し、骨格ペプチド（「非修飾ペプチド」）は、1つ目のN-アセチルグルコサミン残基(GlcNAc)がグリコシル化部位であるペプチド配列（波線）内のアスパラギン(Asn)になお結合したまま、さもなくば糖質成分が完全に断片化されて残る。種々の単糖を、幾何学的図形（正方形、長方形、星形等）で示す。断片化によって生じる糖質オキソニウムイオンは一般に安定なカルボカチオンであり、最適には他のそのような診断マーカーと組み合わせて、糖ペプチドの特異的マーカーとして使用され得る特徴的なm/z比を有する。ペプチド成分自体は典型的に断片化せず、その配列の直接的な同定は妨げられる。アスパラギンはアミノ酸の一文字コードにおいて「N」で表され、よってアスパラギンの位置でのグリコシル化は「N結合型グリコシル化」と称される。B) 比較のため、部分的な糖ペプチド断片化事象を示す。部分的断片化産物によって、糖質構造の決定が可能になる。非修飾ペプチドを含む部分的断片産物は一般に、スペクトルの高いm/z範囲に、失った糖類の組み合わせに相当する差の間隔のあいたピークを生じ（より簡潔に、「単糖喪失」と称する）、一方、遊離糖質としてのオキソニウムイオンは低いm/z範囲に入る傾向があり、当然ながら、これらの2つの領域間には低ピーク密度が生じる。典型的な糖ペプチドスペクトル。このスペクトルには、糖ペプチドESI-MS/MSスペクトルの3つの主要な特徴が示されている。低いm/z範囲では、m/z 204(HexNAc)およびm/z 366(HexNAcHex)にオキソニウムイオンピークが認められる。さらに、スペクトルの中域には低ピーク密度域が存在し、高いm/z範囲は種々の単糖の組み合わせによって分離されるピークを含む（五糖コア断片化フィンガープリント--ヘキソース（HexNAc2--3ピーク（0、1、2）概略で2=基礎分子プラス2ヘキソース単位、1=基礎分子プラス1ヘキソース単位、0=基礎分子）およびマンノース（Man3--4ピーク（0、1、2、3）概略で3=基礎分子プラス3マンノース単位、2=基礎分子プラス2マンノース単位、1=基礎分子プラス1マンノース単位、0=基礎分子）を示すm/zの差で異なるピークを示す）。X軸はm/zを示し、Y軸は相対強度を示す。選別後診断ピークスコアの例。X軸はm/zを示し、Y軸（描写せず）は相対強度を示す。この糖ペプチドスペクトルは、HexNAcオキソニウムイオン断片と同じm/zであるm/z 204.13に高強度ピークを含む。しかし、このスペクトルはペプチドを表す。この場合の204.13ピークは、GKジペプチドのy2-トリプシン断片を表す。スペクトルのこの低〜中m/z範囲に存在する高密度非診断ピークにより、診断ピークスコアの信頼レベルは減少する。この場合、このスペクトルはピークスコアの選別後に偽陽性として正しく分類された。様々な種類の生体分子のスペクトルに特有な様々な特徴が存在する。A) 糖ペプチドスペクトル。B) 糖ペプチドでもペプチドでもないスペクトル。C) ペプチドスペクトル。糖ペプチドスペクトルに共通して見られるいくつかのオキソニウムイオン。典型的な糖ペプチドスペクトル。このスペクトルには、糖ペプチドESI-ME/MSスペクトルの3つの主要な特徴が示されている。低いm/z範囲では、m/z 204(HexNAc)およびm/z 366(HexNAcHex)等の赤色で示したいくつかのオキソニウムイオンピークが認められる。さらに、スペクトル全体を通して、差次的なピーク密度が認められ；スペクトルの中域に低ピーク密度域が認められる。例えばm/z 916.0、1017.5、および1099.1等のピークといった、種々の単糖の組み合わせによって分離される黄色のピークもまた、スペクトル中に示される。グリコシル化スコア閾値を確立するため、0.1間隔の閾値での分類精度を試験した。各グリコシル化スコア閾値について、閾値またはそれ以上で返答されたヒットを、真の陽性または偽陽性として手動で確認した。これらの値をこの閾値でヒットし損ねた糖ペプチド（偽陰性）の数と組み合わせて、閾値スコアの偽陽性、真の陽性、および偽陰性に関する糖ペプチド分布を表すプロファイルを作成した。0.6〜1.4の範囲の閾値スコアのプロファイルを示す。0.8未満および1.2を超える閾値スコアのプロファイルは、有意に変化しないことが示された。閾値スコアに関する各種ヒットの絶対数もまた、それぞれのペプチドクラスに関して記す。グリコシル化スコア閾値が増すに従い、偽陰性の数が増加する。偽陽性については、逆の傾向が認められる。これらの傾向から、一般に、1.2を超えるスコアを得たスペクトルは糖ペプチドを表し、0.8未満のスコアを得たスペクトルは非グリコシル化ペプチドであることが示される。0.9〜1.1の範囲にあるヒットは、これらのスコアに関して偽陰性および偽陽性の混合物が存在する信頼度が低く、糖ペプチドとして分類され得る。結果から、0.9が偽陽性結果と偽陰性結果の最も優れた比率を含むため（偽陰性よりも偽陽性の方が好ましいと仮定すれば）、0.9が最適なグリコシル化スコア閾値であることが示唆される。糖ペプチド同定モジュールの解析。糖ペプチド同定モジュールを、3つの異なるデータセットにおいて試験した：有効糖ペプチド（紫色バー）、ペプチド（白色バー）、およびランダム（水色バー）のスペクトル。a) 3つのデータセットにおけるグリコシル化スコアの分布およびb) 3つのデータセットにおけるペプチド被覆度スコアを示すプロットを作成した。ペプチド被覆度スコアはスペクトルの「ペプチドの質」の尺度であり、アミノ酸によって広がるスペクトルの割合、ひいてはペプチドスペクトルを表す可能性を示す。一般に、100を超えるペプチド被覆度スコアはペプチドスペクトルを表す。高い糖ペプチドスコアを得たスペクトルは低いペプチド被覆度スペクトルを得る、および逆の場合も同様であると考えられる。ペプチド断片化と糖質断片化との基本的な相違を示す。可能な断片化地点を両矢印で示す。A) 直線状ペプチド分子はペプチド結合の位置で断片化し、b型またはy型イオンを生じる。ペプチドは存在する残基と同じ数の可能な切断点を有し、いずれの種類の断片産物（すなわち、bイオン対yイオン）に関しても、生じるピークの数は多くても結合の数と同じである。しかし、B)に示すような糖質の分子構造は、構造のあらゆるところに可能な断片化地点を有する。Bの構造では2分枝が存在するため、各分子に沿った2つの断片化事象が同時に起こり得り、可能なピークのセットは非常に大きくなる。糖質CIDに由来する断片の数は、分枝の全域で断片化産物を考慮する必要があるため、非常に大きくなる可能性がある。この略図に2つのCID種を示す。種IおよびIIは、2つの分枝にわたった部分的断片化によって生じる固有の質量を示す。したがって、各経路に沿った断片化産物を考慮しなければならない上に、部分木の組み合わせもまた検討しなければならない。グリカン断片化の経路モデルを用いたグリカンMS/MSイオン検索を示す。実験スペクトル中に欠けているピークを、理論的スペクトル中に破線で示す。ピークはまた、全スペクトルにわたってそれらの荷電状態で出現し得る。実験スペクトルでは、グリカンピークの+2 m/zピークを緑色で示してある。生じる断片数は、グリカンのトポロジーにかかわらず構造中の単糖の数に比例し、実験スペクトルと一致すると考えられそうなピークをなお含みつつ、ランダムピークの一致の可能性を減少させる。非修飾ペプチドピークを決定することにより、糖ペプチドをその親タンパク質に一致させることが可能になる。この図に示した例では、グリカン断片化の経路モデルを用いて表示のグリカンを断片化する。次に、これらのピークを実験糖ペプチドスペクトルに重ね、それぞれ非修飾ペプチド候補である、高いm/z範囲にある種々の高強度ピークから始めてスコアリングする。最も高いスコアリングの一致物から、非修飾ペプチドおよびグリカンが決定される。次いで、非修飾ペプチド質量を用いて、ペプチドマスフィンガープリンティング(PMF)法により糖ペプチドをその親タンパク質に適合させることができる。複合データに関する結果。nm=一致したグリカンピークの数、no=観察されたグリカンピークの数、ne=断片化モデルから予測されるピークの数。オリゴマンノースデータに関する結果。nm=一致したグリカンピークの数、no=観察されたグリカンピークの数、ne=断片化モデルから予測されるピークの数。ソフトウェアが差次的糖ペプチド解析を補助する能力について示す。A部は、m/z 1021.16で差次的に発現される糖ペプチドのMS/MSスペクトルを示す。腫瘍組織および正常組織のこのm/z範囲における検索スキャンの検討、それぞれBおよびCにおいて、1021のピークの強度が正常試料と比較して腫瘍試料の検索スキャンにおいてより強く、したがって差次的に発現されることが認められた。タンパク質IDモジュールにより、糖ペプチドは、癌の既知糖タンパク質マーカーである癌胎児性抗原(CEA5 HUMAN)にマッピングされた。

Claims

以下の段階を含む、質量分析検索スキャンデータでグリコフォームを決定する方法：
a) 複数の生体分子を含む生物試料を提供する段階；
b) 生体分子の複数のイオンを生成する段階；
c) 複数のイオンに対して質量分析測定を行い、それにより生体分子のイオンカウントピークを得る段階；および
d) 単糖の差によるグリコフォームのイオンカウントピークの分布を同定し、それにより生物試料中のグリコフォームの存在を決定する段階。
同定されたグリコフォームの1つまたは複数が、MS/MS取得のために選択される、請求項1記載の方法。
以下の段階を含む、質量分析検索スキャンデータでグリコフォームを決定するコンピュータに実装される方法：
a) 複数の生体分子のイオンカウントを含む質量分析データをコンピュータに入力する段階；および
b) 単糖の差によるグリコフォームのイオンカウントピークの分布を同定し、それにより生物試料中のグリコフォームの存在を決定する段階。
同定されたグリコフォームの1つまたは複数が、MS/MS取得のために選択される、請求項3記載のコンピュータに実装される方法。
以下を含む、質量分析検索スキャンデータでグリコフォームを決定するためのプログラムが保存されたコンピュータ可読メモリ：
a) 複数の生体分子のイオンカウントを含む質量分析データを入力として受け取るコンピュータコード；および
b) 単糖の差によるグリコフォームのイオンカウントピークの分布を同定し、それにより生物試料中のグリコフォームの存在を決定するコンピュータコード。
同定されたグリコフォームの1つまたは複数が、MS/MS取得のために選択される、請求項5記載のコンピュータ可読メモリ。
プロセッサおよびプロセッサに連結されたメモリを含む質量分析検索スキャンデータでグリコフォームを決定するためのコンピュータシステムであって、メモリが、以下の段階を含む方法をプロセッサに実行させる1つまたは複数のプログラムをコード化するコンピュータシステム：
a) 複数の生体分子のイオンカウントを含む質量分析データを入力する段階；および
b) 単糖の差によるグリコフォームのイオンカウントピークの分布を同定し、それにより生物試料中のグリコフォームの存在を決定する段階。
同定されたグリコフォームの1つまたは複数が、MS/MS取得のために選択される、請求項7記載のコンピュータシステム。
以下の段階を含む、生物試料中のグリコフォームの情報をユーザーに提示する方法：
a) 複数の生体分子のイオンカウントを含む質量分析データをコンピュータに入力する段階；
b) 単糖の差によるグリコフォームのイオンカウントピークの分布を同定し、それにより生物試料中のグリコフォームの存在を決定する段階；および
c) 生物試料中のグリコフォームの情報をユーザーに提示する段階。
(d) グリコフォームのイオンカウントピークの分布をメモリに保存する段階をさらに含む、請求項9記載の方法。
同定されたグリコフォームの1つまたは複数が、MS/MS取得のために選択される、請求項9記載の方法。
以下の段階を含む、質量分析MS/MSデータで糖ペプチドを決定する方法：
a) 複数の生体分子を含む生物試料を提供する段階；
b) 生体分子の複数のイオンを生成する段階；
c) 複数のイオンに対して質量分析測定を行い、それにより1つまたは複数の生体分子のMS/MSスペクトルを得る段階；
d) オキソニウムイオンの存在、低ピーク密度域、および単糖の喪失について1つまたは複数のMS/MSスペクトルを評価する段階；
e) スペクトルをスコアリングする段階；
f) スペクトルスコアをグリコシル化閾値と比較する段階、ならびに
g) グリコシル化閾値に対してスペクトルスコアを比較した結果に基づき、糖ペプチドスペクトルであるか否かとしてスペクトルを分類する段階。
生体分子が、単離された組織型に由来する、請求項12記載の方法。
生体分子が、単離された細胞型に由来する、請求項12記載の方法。
生体分子が、単離された細胞小器官に由来する、請求項12記載の方法。
細胞小器官が、ミトコンドリア、葉緑体、ER、ゴルジ、エンドソーム、リソソーム、ファゴソーム、ペルオキシソーム、核、形質膜、および分泌小胞からなる群より選択される、請求項15記載の方法。
生体分子が、非標識生体分子である、請求項12記載の方法。
生体分子が、非誘導体化生体分子である、請求項12記載の方法。
生体分子が、非標識かつ非誘導体化である、請求項12記載の方法。
生体分子が、切断された生体分子である、請求項12記載の方法。
生体分子が、酵素によって切断される、請求項20記載の方法。
酵素が、トリプシンである、請求項21記載の方法。
段階(b)の前に複数の生体分子を分離する段階をさらに含む、請求項12記載の方法。
分離が、クロマトグラフィー、電気泳動、免疫単離、または遠心分離によって行われる、請求項23記載の方法。
糖質含有生体分子が、複数の生体分子から選択的に単離されない、請求項23記載の方法。
糖タンパク質が、複数の生体分子から選択的に単離されない、請求項23記載の方法。
糖ペプチドが、複数の生体分子から選択的に単離されない、請求項23記載の方法。
生物試料が、1つまたは複数の内部標準物質を含む、請求項12記載の方法。
内部標準を用いて保持時間が補正される、請求項28記載の方法。
以下の段階を含む、質量分析MS/MSデータで糖ペプチドを決定するコンピュータに実装される方法：
a) 複数の生体分子のイオンカウントを含む質量分析データをコンピュータに入力する段階；
b) オキソニウムイオンの存在、低ピーク密度域、および五糖コアについて1つまたは複数のMS/MSスペクトルを評価する段階；
c) スペクトルをスコアリングする段階；
d) スペクトルスコアをグリコシル化閾値と比較する段階；ならびに
e) グリコシル化閾値に対してスペクトルスコアを比較した結果に基づき、糖ペプチドスペクトルであるか否かとしてスペクトルを分類する段階。
以下を含む、質量分析MS/MSデータで糖ペプチドを決定するためのプログラムが保存されたコンピュータ可読メモリ：
a) 複数の生体分子のイオンカウントを含む質量分析データを入力として受け取るコンピュータコード；
b) オキソニウムイオンの存在、低ピーク密度域、および五糖コアについて1つまたは複数のMS/MSスペクトルを評価するコンピュータコード；
c) スペクトルをスコアリングするコンピュータコード；
d) スペクトルスコアをグリコシル化閾値と比較するコンピュータコード；ならびに
e) グリコシル化閾値に対してスペクトルスコアを比較した結果に基づき、糖ペプチドスペクトルであるか否かとしてスペクトルを分類するコンピュータコード。
プロセッサおよびプロセッサに連結されたメモリを含む質量分析MS/MSデータでグリコフォームを決定するためのコンピュータシステムであって、メモリが、以下の段階を含む方法をプロセッサに実行させる1つまたは複数のプログラムをコード化するコンピュータシステム：
a) 複数の生体分子のイオンカウントを含む質量分析データを入力する段階；
b) オキソニウムイオンの存在、低ピーク密度域、および五糖コアについて1つまたは複数のMS/MSスペクトルを評価する段階；
c) スペクトルをスコアリングする段階；
d) スペクトルスコアをグリコシル化閾値と比較する段階；および
e) グリコシル化閾値に対してスペクトルスコアを比較した結果に基づき、糖ペプチドスペクトルであるか否かとしてスペクトルを分類する段階。
以下の段階を含む、生物試料中の糖ペプチドの情報をユーザーに提示する方法：
a) 複数の生体分子のイオンカウントを含む質量分析データをコンピュータに入力する段階；
b) オキソニウムイオンの存在、低ピーク密度域、および五糖コアについて1つまたは複数のMS/MSスペクトルを評価する段階；
c) スペクトルをスコアリングする段階；
d) スペクトルスコアをグリコシル化閾値と比較する段階；
e) グリコシル化閾値に対してスペクトルスコアを比較した結果に基づき、糖ペプチドスペクトルであるか否かとしてスペクトルを分類する段階；および
f) 生物試料中の糖ペプチドの情報をユーザーに提示する段階。
段階(g)が、以下の1つまたは複数をメモリに保存する段階をさらに含む、請求項33記載の方法：
MS/MSスペクトル中に存在するオキソニウムイオン；
MS/MSスペクトル中の低ピーク密度域；
MS/MSスペクトル中に存在する五糖コア；
スペクトルスコア；および
スペクトルの分類。
以下の段階を含む、候補非修飾ペプチドの群から糖ペプチドスペクトルの最も可能性の高い非修飾ペプチドを決定する方法：
a) 糖ペプチドスペクトルの候補非修飾ペプチドの群を提供する段階；
b) 理論的な糖断片を候補非修飾ペプチドに適用する段階；
c) 得られた候補糖ペプチドの相関スコアを決定する段階；および
d) 候補糖ペプチドの群から、糖質部分が至適な糖構造を示し、かつペプチド部分が最も可能性の高い非修飾ペプチドを示す、最もスコアの高い適合物を決定する段階。
以下の段階を含む、候補非修飾ペプチドの群から糖ペプチドスペクトルの最も可能性の高い非修飾ペプチドを決定するコンピュータに実装される方法：
a) 糖ペプチドスペクトルの候補非修飾ペプチドの群を提供する段階；
b) 理論的な糖断片を候補非修飾ペプチドに適用する段階；
c) 得られた候補糖ペプチドの相関スコアを決定する段階；および
d) 候補糖ペプチドの群から、糖質部分が至適な糖構造を示し、かつペプチド部分が最も可能性の高い非修飾ペプチドを示す、最もスコアの高い適合物を決定する段階。
以下を含む、候補非修飾ペプチドの群から糖ペプチドスペクトルの最も可能性の高い非修飾ペプチドを決定するためのプログラムが保存されたコンピュータ可読メモリ：
a) 糖ペプチドスペクトルの候補非修飾ペプチドの群を入力として受け取るコンピュータコード；
b) 理論的な糖断片を候補非修飾ペプチドに適用するコンピュータコード；
c) 得られた候補糖ペプチドの相関スコアを決定するコンピュータコード；および
d) 候補糖ペプチドの群から、糖質部分が至適な糖構造を示し、かつペプチド部分が最も可能性の高い非修飾ペプチドを示す、最もスコアの高い適合物を決定するコンピュータコード。
プロセッサおよびプロセッサに連結されたメモリを含む候補非修飾ペプチドの群から糖ペプチドスペクトルの最も可能性の高い非修飾ペプチドを決定するためのコンピュータシステムであって、メモリが、以下の段階を含む方法をプロセッサに実行させる1つまたは複数のプログラムをコード化するコンピュータシステム：
a) 糖ペプチドスペクトルの候補非修飾ペプチドの群を入力する段階；
b) 理論的な糖断片を候補非修飾ペプチドに適用する段階；
c) 得られた候補糖ペプチドの相関スコアを決定する段階；および
d) 候補糖ペプチドの群から、糖質部分が至適な糖構造を示し、かつペプチド部分が最も可能性の高い非修飾ペプチドを示す、最もスコアの高い適合物を決定する段階。
以下の段階を含む、候補非修飾ペプチドの群から、糖ペプチドスペクトルの最も可能性の高い非修飾ペプチドの情報をユーザーに提示する方法：
a) 糖ペプチドスペクトルの候補非修飾ペプチドの群を入力する段階；
b) 理論的な糖断片を候補非修飾ペプチドに適用する段階；
c) 得られた候補糖ペプチドの相関スコアを決定する段階；
d) 候補糖ペプチドの群から、糖質部分が至適な糖構造を示し、かつペプチド部分が最も可能性の高い非修飾ペプチドを示す、最もスコアの高い適合物を決定する段階；および
e) 候補非修飾ペプチドの群から、糖ペプチドの最も可能性の高い非修飾ペプチドの情報をユーザーに提示する段階。
以下の1つまたは複数をメモリに保存する段階(f) をさらに含む、請求項39記載の方法：
糖ペプチドスペクトル；
候補ピークおよびそれらの強度；
相関スコア；
糖ペプチドの最も可能性の高い非修飾ペプチド；ならびに
至適な糖構造。