CN104182658A

CN104182658A - 一种串联质谱谱图鉴定方法

Info

Publication number: CN104182658A
Application number: CN201410382707.3A
Authority: CN
Inventors: 何昆; 曾文锋; 付岩; 迟浩; 贺思敏
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2014-08-06
Filing date: 2014-08-06
Publication date: 2014-12-03
Anticipated expiration: 2034-08-06
Also published as: CN104182658B

Abstract

本发明提供一种串联质谱谱图鉴定方法，其特征在于，包括下列步骤：1)对于待鉴定谱图数据集中的每张谱图，分别在全局序列库中进行限制性搜索，获得各谱图的匹配肽段；2)根据步骤1)所得各谱图的匹配肽段，构建局部序列库，对于待鉴定谱图数据集的每张谱图，分别在所述局部序列库中进行开放式搜索，获得与一部分谱图相匹配的带修饰的肽段，并获得所带修饰的质量和误差区间；3)对于待鉴定谱图数据集中的每张谱图，根据步骤2)所匹配的修饰的质量和误差区间以及当前待鉴定谱图的质量，设定限制性搜索区间，并在全局序列库中进行搜索，获得最终的匹配结果。本发明能够提高串联质谱谱图鉴定的鉴定率和准确度，并且具有较高的搜索速度。

Description

一种串联质谱谱图鉴定方法

技术领域

本发明涉及生物信息学技术领域，具体地说，本发明涉及一种串联质谱谱图鉴定方法。

背景技术

串联质谱鉴定技术是蛋白质组学研究中的关键技术，也是大规模蛋白质序列和修饰鉴定的主要方法。序列库搜索是一种常规的串联质谱谱图鉴定方法。在进行通常的序列库搜索时，对每张谱图均划定一个以该谱图质量m为中心的质量区间，然后把该谱图与序列库中处于相应质量区间内的所有肽段(肽段也可称为肽段序列)进行匹配，得到肽-谱匹配打分，打分最好的肽段即作为这张谱图的鉴定结果。由于序列库包含待测序物种的所有已知肽段，如人类库的肽段数目的数量级大致为10⁹，因此在常规的序列库搜索中，所划定的质量区间很狭窄，一般不超过1Da，例如[m-0.00002m,m+0.00002m]，这样落在这个质量区间范围内的肽段数目相对较小，可以较为快速的完成串联质谱谱图的鉴定。然而，众所周知，蛋白质翻译后修饰会造成由蛋白质得到的肽段额外多加一个基团或者丢失一个基团。肽段加上修饰之后，会引起其质量的改变。因此，由带修饰的肽段生成的谱图的质量同肽段的原始质量之间存在一个质量差。这个质量差一般很大，甚至可以达到上百Da。因此，用带修饰的谱图(即由带修饰的肽段生成的谱图)去查询数据库中的肽段(数据库中的肽段都是不带修饰的原始形式)，如果只开小窗口，如1Da，就无法把谱图鉴定出来。所以，上述串联质谱鉴定方法无法鉴定带有未知修饰的肽段，对于同批次蛋白质酶切样品所得的谱图数据集，其鉴定率(又称为解析率)较低，通常不到30％。

另一方面，现有技术中还存在一种开放式序列库搜索，为了提高鉴定率，它考虑到了串联质谱谱图可能带有未知修饰的情况，对于每个谱图使用较大的质量区间(即开放的窗口)在序列库中进行搜索。例如：预估修饰的质量范围为[-200Da,200Da]，则质量为m的谱图需要同质量区间[m-200Da,m+200Da]之内的所有肽段进行肽-谱匹配。这种开放式序列库搜索理论上可以有效鉴定出串联质谱数据中的修饰谱图。然而，由于采用的质量区间相对较大，需要匹配的肽段数量十分巨大，假设落在区间[m-0.00002m,m+0.00002m]之内的肽段数为n，则落入区间[m-200Da,m+200Da]之内的肽段可能超过400n，这导致现有技术中的开放式序列库搜索计算量十分巨大，搜索速度大幅降低。另外，由于开放式序列库搜索的搜索空间过大，同每张谱图进行匹配打分的肽段数量急剧增加。在众多错误肽段的竞争下，正确的肽段很有可能无法获得最高的肽-谱匹配打分。因此，开放式序列库搜索对谱图鉴定准确度的提升很有限。

发明内容

因此，本发明的任务是提供一种既能提高鉴定率又能保持较高搜索速度的串联质谱谱图鉴定方法。

本发明提供了一种串联质谱谱图快速鉴定方法，其特征在于，包括下列步骤：

1)对于待鉴定谱图数据集中的每张谱图，分别在全局序列库中进行限制性搜索，获得各谱图的匹配肽段；

2)根据步骤1)所得各谱图的匹配肽段，构建局部序列库，对于待鉴定谱图数据集的每张谱图，分别在所述局部序列库中进行开放式搜索，获得与一部分谱图相匹配的带修饰的肽段，并获得所带修饰的质量和误差区间；

3)对于待鉴定谱图数据集中的每张谱图，根据步骤2)得到的修饰的质量和误差区间以及当前待鉴定谱图的质量，设定限制性搜索区间，并在全局序列库中进行搜索，获得最终的匹配结果。

其中，所述步骤1)中，所述全局序列库为包含待测序物种的全部蛋白质序列的序列库。

其中，所述步骤1)中，所述限制性搜索中，以待鉴定谱图的质量为中心，结合肽段的质量误差，确定肽段质量区间。

其中，所述步骤2)中，所述开放式搜索中，以待鉴定谱图的质量为中心，结合修饰所引起的肽段质量变化，确定肽段质量区间。

其中，所述步骤2)包括下列子步骤：

21)根据步骤1)所得各谱图的匹配肽段，构建局部序列库，对于待鉴定谱图数据集的每张谱图，分别在所述局部序列库中进行开放式搜索，鉴定出待鉴定谱图数据集中部分带有修饰的肽段；

22)对于步骤21)所获得的带有修饰的肽段，在已知的修饰数据库搜索与其匹配的修饰，抛弃无法获得匹配修饰的肽段；

23)对经过步骤22)处理的带有修饰的肽段，计算其所带修饰的质量和误差区间。

其中，所述步骤23)包括下列子步骤：

231)对经过步骤22)处理的带有修饰的肽段，根据修饰的数目选取其中的高丰度修饰，抛弃其它修饰；

232)计算高丰度修饰的质量和误差区间。

其中，所述步骤3)包括下列子步骤：

31)根据步骤2)得到的的高丰度修饰的质量和误差区间以及当前待鉴定谱图的质量，设定限制性搜索区间，并在全局序列库中进行搜索，获得匹配肽段；

32)利用基于SVM的算法对步骤31)所得的匹配肽段进行过滤，得到最终的匹配结果。

其中，所述步骤31)中，将当前待鉴定谱图的质量和高丰度修饰的质量之差设置为中心，再根据高丰度修饰的误差区间设置边界，从而获得所述限制性搜索区间。

其中，所述步骤1)、2)和3)中，在进行搜索时，根据肽-谱匹配打分获得匹配结果。

其中，所述肽-谱匹配打分采用KSDP打分、XCorr打分或者E-value打分。

与现有技术相比，本发明具有下列技术效果：

1、能够提高串联质谱谱图鉴定的鉴定率。

2、具有较高的搜索速度。

3、能够提高鉴定结果的准确度。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1示出了本发明一个实施例的串联质谱谱图鉴定方法的流程图。

具体实施方式

图1示出了本发明一个实施例的串联质谱谱图鉴定方法的流程图，该串联质谱谱图鉴定方法包括下列步骤：

步骤1：对待鉴定串联质谱谱图数据集，对其中每张串联质谱谱图(串联质谱谱图是质谱仪输出的信号，为便于描述，下文中简称为谱图)，分别基于全局序列库在小质量窗口内进行搜索，鉴定出部分肽段。本步骤的搜索就是在全局序列库上的常规搜索(即非开放式搜索，又称为限制性搜索)，其中小窗口是指以待鉴定谱图质量为中心的质量区间，且该质量区间较为狭窄。例如，待鉴定谱图质量为m，则相应的小窗口为[m-0.00002m,m+0.00002m]，0.00002m通常小于1Da。本实施例中，全局序列库包含待鉴定谱图数据集所对应的待测序物种的所有已知肽段，通常地，全局序列库中的肽段数目巨大，如人类库中肽段数目的量级大致为10⁹。本步骤中，谱图数据集是同一批次蛋白质样品酶切后经串联质谱测试所得的谱图数据集。

步骤2：用步骤1搜索出的肽段构造局部序列库，然后对待鉴定谱图数据集中的每张谱图，分别基于所构造的局部序列库进行开放式搜索，鉴定出部分带有修饰的肽段。如前文所述，开放式搜索是在一个大质量区间内的搜索。假如将修饰的质量范围设定为[-200Da,200Da]，则开放式搜索的质量区间为[m-200Da,m+200Da]，其中m为待鉴定谱图的质量。

在一个实施例中，所述步骤2包括下列子步骤：

步骤21：基于步骤1的搜索结果，解析出待鉴定谱图数据集中每个谱图所匹配到的肽段和肽-谱匹配打分，如KSDP打分(参考文献Fu,Y.,et al.,Exploiting the kernel trick to correlate fragment ions for peptide identification via tandem mass spectrometry.Bioinformatics,2004.20(12):p.1948.)、XCorr打分(参考文献Eng,J.K.,A.L.McCormack,andJ.R.Yates Iii,An approach to correlate tandem mass spectral data of peptides with amino acid sequences ina protein database.Journal of the American Society for Mass Spectrometry,1994.5(11):p.976-989.)或者E-value打分(参考文献Fenyo,D.and R.C.Beavis,A method for assessing the statisticalsignificance of mass spectrometry-based protein identifications using general scoring schemes.AnalyticalChemistry,2003.75(4):p.768-774.)，把所有的匹配肽段按打分由高到低排序。如果匹配肽段数多于20000，则进一步取前20000名匹配对应的肽段。

步骤22：利用步骤21得到的肽段构造一个局部序列库。

步骤23：酶切步骤22得到的局部数据库，开±200Da的大窗口进行开放式搜索，鉴定出待鉴定谱图数据集中部分带有修饰的肽段。

在一个谱图数据集中，往往同时存在着某条肽段的非修饰形式和修饰形式。步骤1中通过通常的序列库搜索，可以鉴定到部分非修饰肽段。而步骤2中，利用这部分非修饰的肽段，可以进一步找到这些肽段对应的修饰形式，从而发现谱图数据集中的高丰度修饰。高丰度修饰是指在谱图数据集中，带有该类修饰的谱图数目较多(如多于30张)的修饰。

步骤3：对第2步的搜索结果进行重排序，把谱图对应的更可信的鉴定结果排在前面。

在一个实施例中，所述步骤3包括下列子步骤：

步骤31：在Unimod数据库中查询每个修饰谱图所带的修饰。Unimod数据库是一种修饰数据库，它汇总了在之前的研究中已经被发现过的修饰。如果某个谱图所匹配的肽段所带的修饰不存在于Unimod数据库中，则意味着这个修饰以前没有被人发现过，此时判定该匹配肽段不太可信，并去掉该匹配肽段。

步骤32：把一张谱图对应的多个匹配肽段按肽-谱匹配打分由高到低排序。如果该谱图存在若干相同的匹配打分，则把这些匹配肽段随机排序。

步骤4：基于第3步的重排序的结果，解析待鉴定谱图数据集中的高丰度修饰。解析高丰度修饰后，能够获得该高丰度修饰的质量均值和质量误差窗口，以作为后续步骤的依据。如前文所述，高丰度修饰是指在谱图数据集中，带有该类修饰的谱图数目较多(如多于30张)的修饰。

在一个实施例中，所述步骤4包括下列子步骤：

步骤41：依据每个匹配的谱图质量和肽段质量之差(以后简写为deltaMass)和肽-谱匹配打分等信息，去掉那些不可信的匹配结果。

步骤42：把所有匹配按照deltaMass进行聚类。

步骤43：将每一类中全部匹配的打分相加，作为这一类的总匹配打分。把所有的类按照各自总匹配打分由高到低进行排序，取总匹配打分最大的前20个类。

步骤44：为步骤43中确定的每一个类，计算deltaMass的均值和误差窗口大小。每一个类的deltaMass的均值作为一个高丰度修饰的质量均值，相应的误差窗口作为该高丰度修饰的质量误差窗口。

步骤5：依据所发现的高丰度修饰的质量和质量误差窗口，对于每个待鉴定谱图，在全局序列库中，根据谱图质量和高丰度修饰的质量以及质量误差窗口进行搜索。本步骤中，搜索质量窗口的大小与高丰度修饰的质量误差窗口一致，远小于现有的开放式搜索，所以搜索速度较高。

在一个实施例中，所述步骤5包括下列子步骤：

步骤51：利用第4步搜索得到的deltaMass的均值和误差窗口，计算谱图对应的误差窗口。若第4步中得到了三个类，其deltaMass的均值和误差窗口大小分别为(0.1Da，±0.015Da)、(15.99Da，±0.010Da)和(43.00Da，±0.010Da)，对于一张质量为m的谱图，其需要和质量区间[m-0.085Da,m-0.115Da]、[m-15.98Da,m-16Da]和区间[m-42.99Da,m-43.01Da]之内的所有肽段进行匹配。

步骤52：将目标数据库中的蛋白反转，构造目标诱饵库。本步骤的目标诱饵库将用于后续步骤7中SVM的训练。在步骤7中，会利用来自于目标库蛋白的匹配构造正样本，用来自于诱饵库蛋白的匹配构造负样本，以进行SVM的训练。

步骤53：为每一张谱图开多个小窗口，在全局序列库内进行开放式搜索。

步骤6：对步骤5的搜索结果进行重排序，把谱图对应的更可信的鉴定结果排在前面。本步骤通过查询Unimod数据库，利用关于修饰的先验知识，对步骤5的搜索结果进行修正，从而提高鉴定准确度。

在一个实施例中，所述步骤6包括下列子步骤：

步骤61：在Unimod数据库中查询每个修饰谱图所带的修饰。如果某个谱图所匹配的肽段所带的修饰不存在于Unimod数据库中，则意味着这个修饰以前没有被人发现过，此时判定该匹配肽段不太可信，并去掉该匹配肽段。

步骤62：把一张谱图对应的多个匹配肽段按肽-谱匹配打分由高到低排序。如果该谱图存在若干相同的匹配打分，则把这些匹配肽段随机排序。

步骤7：利用基于SVM的机器学习方法，对步骤6的搜索结果进行过滤，得到最终的谱图鉴定结果。SVM全称为Support Vector Machine，译名为支持向量机。通过利用SVM进行分类，本步骤能够区分开正确的匹配和错误的匹配，从而去除不太可信的鉴定结果，仅保留高可信的鉴定结果。需要说明的是，基于SVM对匹配肽段进行过滤得到最终的匹配结果是本领域的常用技术之一，下文中结合本发明的一个实施例，示例性地介绍了一种基于SVM的匹配肽段过滤流程。

在一个实施例中，所述步骤7包括下列子步骤：

步骤71：把所有的匹配肽段按匹配打分由高到低排序，按照FDR小于等于1％的条件进行过滤，将得到的来自目标库的肽谱匹配作为正样本。将来自诱饵库的随机匹配结果作为负样本。

步骤72：从正负样本的肽谱匹配提取肽谱匹配特征，包括肽段长度、匹配谱峰占谱图谱峰总数的比例、匹配谱峰占理论谱峰的比例，谱图电荷数等特征。

步骤73：从所有的正样本中提取各个意外修饰的统计信息，包括修饰的质量和带该类修饰的正样本占全部正样本的比例，将此比例作为一个特征。

步骤74：将提取特征的方法应用到所有的样本中(所有样本包括已通过过滤的来自于目标库的匹配、未通过过滤的来自于目标库的匹配和来自于诱饵库的匹配)。

步骤75：将以上提取的特征值设置好，使用线性SVM算法对正负样本进行分类训练。

步骤76：将SVM训练得到的参数应用到全部样本中，得到每个样本的新打分svm_score。

步骤77：利用svm_score重新排序，按照FDR小于等于1％过滤，重新得到正样本、负样本，并重复执行步骤72到步骤76，得到新的svm_score。

步骤78：重复步骤77，直到得到的正样本数不再增加，把此时的svm_score作为最终的打分，即svm_final_score。

步骤79：把所有的匹配按svm_final_score排序，并按照指定的FDR阈值过滤。通过过滤的来自于目标库的匹配即为指定FDR阈值下可信的鉴定结果。

综上所述，本发明能够有效地鉴定串联谱图中的修饰谱图，从而提升串联质谱谱图的鉴定率。并且，相对于现有的基于全局序列库的开放式搜索，本发明能够在高精度的小质量区间内进行搜索，大大减少了需要搜索的肽段数目，计算量较小，搜索速度显著提高，在许多数据集上，本发明的速度提升高达10倍以上。另一方面，由于本发明大大减少了需要搜索的肽段数目，有利于降低错误肽段被匹配(即错误肽段对同谱图的匹配效果比正确肽段的匹配效果还要好)的概率，这样正确的肽段更容易脱颖而出，从而提升搜索准确度(即搜索精度)，在许多数据集上，本发明的精度提升超过20％。

最后应说明的是，以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其它的修改、变化、应用和实施例，并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims

1.一种串联质谱谱图鉴定方法，其特征在于，包括下列步骤：

3)对于待鉴定谱图数据集中的每张谱图，根据步骤2)所匹配的修饰的质量和误差区间以及当前待鉴定谱图的质量，设定限制性搜索区间，并在全局序列库中进行搜索，获得最终的匹配结果。

2.根据权利要求1所述的串联质谱谱图鉴定方法，其特征在于，所述步骤1)中，所述全局序列库为包含待测序物种的全部蛋白质序列的序列库。

3.根据权利要求1所述的串联质谱谱图鉴定方法，其特征在于，所述步骤1)中，所述限制性搜索中，以待鉴定谱图的质量为中心，结合肽段的质量误差，确定肽段质量区间。

4.根据权利要求3所述的串联质谱谱图鉴定方法，其特征在于，所述步骤2)中，所述开放式搜索中，以待鉴定谱图的质量为中心，结合修饰所引起的肽段质量变化，确定肽段质量区间。

5.根据权利要求4所述的串联质谱谱图鉴定方法，其特征在于，所述步骤2)包括下列子步骤：

6.根据权利要求5所述的串联质谱谱图鉴定方法，其特征在于，所述步骤23)包括下列子步骤：

232)计算高丰度修饰的质量和误差区间。

7.根据权利要求6所述的串联质谱谱图鉴定方法，其特征在于，所述步骤3)包括下列子步骤：

32)基于SVM算法对步骤31)所得的匹配肽段进行过滤，得到最终的匹配结果。

8.根据权利要求7所述的串联质谱谱图鉴定方法，其特征在于，所述步骤31)中，将当前待鉴定谱图的质量和高丰度修饰的质量之差为中心，再根据高丰度修饰的误差区间设置边界，从而获得所述限制性搜索区间。

9.根据权利要求1所述的串联质谱谱图鉴定方法，其特征在于，所述步骤1)、2)和3)中，在进行搜索时，根据肽-谱匹配打分获得匹配结果。

10.根据权利要求9所述的串联质谱谱图鉴定方法，其特征在于，所述肽-谱匹配打分采用KSDP打分、XCorr打分或者E-value打分。