CN101871945B

CN101871945B - 一种利用质谱图库鉴定蛋白质及其修饰的方法

Info

Publication number: CN101871945B
Application number: CN201010208640.3A
Authority: CN
Inventors: 叶叮; 付岩; 孙瑞祥; 贺思敏
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2010-06-13
Filing date: 2010-06-13
Publication date: 2013-05-08
Anticipated expiration: 2030-06-13
Also published as: CN101871945A

Abstract

本发明提供一种谱图数据库的生成方法，包括：选取已解析的实验串联质谱谱图，所述已解析的串联质谱谱图中包括母离子肽序列、电荷、修饰类型和位点在内的信息；从所述已解析的实验串联质谱谱图中去除冗余谱图，得到代表谱；将所述代表谱所对应的母离子肽序列按理论碎裂模式进行划分，得到与所述代表谱相对应的理论谱；合并所述代表谱与所对应的理论谱，得到优化谱；对所述优化谱做谱峰标注，由谱峰标注后的优化谱生成谱图数据库。本发明还提供了一种串联质谱谱图鉴定方法。本发明在将候选谱与待解析串联质谱谱图匹配的过程中，考虑了可能由潜在修饰引入的谱峰质荷比偏移，使得含修饰的碎片离子谱峰得到匹配，达到更好的修饰谱图鉴定效果。

Description

一种利用质谱图库鉴定蛋白质及其修饰的方法

技术领域

本发明涉及蛋白质组鉴定方法，特别涉及一种利用质谱图库鉴定蛋白质及其修饰的方法。

背景技术

众所周知，绝大多数生物的遗传信息保存在DNA中。DNA通过转录过程生成信使RNA，而信使RNA又通过翻译过程生成蛋白质，从而实现了遗传信息由DNA到RNA再到蛋白质的传递，这一过程也被称为生命的中心法则。在从RNA翻译生成蛋白质的过程中，20种氨基酸以肽键顺序相连所形成的链状分子被称为肽，而其中分子量达到一定级别的肽则被称为蛋白质。大多数蛋白质在翻译形成后，会在蛋白质中的某些氨基酸上增加某种功能团(如在蛋白质的N末端加入乙酰)，或增加了其他的蛋白质或肽，或改变了氨基酸的化学性质或结构，这一过程被称为发生了化学修饰，由于该过程发生在前述的翻译过程后，因此在蛋白质氨基酸上所发生的变化也被称为蛋白质翻译后修饰。蛋白质翻译后修饰能够改变氨基酸的化学性质，引起蛋白质结构的改变，扩充蛋白质的功能。很多蛋白质的重要生物活性都是在发生翻译后修饰之后才具有的。此外，在体外的蛋白质样品处理中，也经常会有意或无意的人为引入一些化学修饰。修饰质量的绝对值通常都比较大，如大于10Da。

目前已知的蛋白质修饰类型已有几百种，检测蛋白质样品中发生了哪些翻译后修饰对于蛋白质鉴定是个重要而困难的问题。液相色谱与质谱仪联用，并结合数据库搜索计算是目前蛋白质组学中鉴定蛋白质及其翻译后修饰的常用方法。在这种方法中，通过液相色谱与质谱仪联用可以得到蛋白质样品的实验串联质谱。实验串联质谱的获取过程包括：蛋白质样品首先被选定的蛋白酶水解，形成肽混合物；肽混合物通过液相色谱进行分离，不同物理化学性质的肽先后从色谱柱中流出；从色谱柱中流出的肽不断进入质谱仪；肽在质谱仪中被离子化，肽段离子也被称为母离子，具有特定质量电荷比的肽离子在能量作用下碎裂形成碎片离子，碎片离子被分离和检测形成肽碎片离子谱；通过以上过程便得到蛋白质的实验串联质谱。在得到实验串联质谱后就可以从实验串联质谱中鉴定肽的氨基酸序列，进而鉴定蛋白质。从实验串联质谱中鉴定肽的氨基酸序列时通常采用数据库搜索计算的方法。

数据库搜索计算的方法有多种，谱库搜索方法是其中的典型代表。所述谱库的全称为谱图数据库，它是由实验谱图数据组织而成的集合。谱库搜索方法的基本实现步骤包括：在计算过程中，将待检测蛋白质的实验串联质谱与谱库中所保存的实验串联质谱进行比较，从所述谱库中选择母离子质量(或质荷比)相同或相近的实验串联质谱作为候选结果，最后再通过诸如打分机制等方式从所述候选结果中找出与待检测蛋白质的实验串联质谱相匹配的实验串联质谱图。通常，谱库中的实验串联质谱图所对应的各种信息是已知的，因此，也就可以由此鉴定出肽的氨基酸序列，进而鉴定蛋白质。

从上述说明可以看出，所述谱库中的实验串联质谱的母离子质量(或质荷比)只有与待检测蛋白质的实验串联质谱的质荷比相同或相近才有可能成为所述的候选结果，这种对候选结果的质荷比范围有严格规定的谱库搜索方法又被称为限制性搜索方法。在现有的谱库搜索方法及实际运用中，限制性搜索方法占了绝大多数。但正如前文所提到的那样，蛋白质翻译后修饰是本领域中的一种常见现象，如果待检测蛋白质中的某个肽段发生了某种翻译后修饰，而之前生成的谱库中由于谱图覆盖率的限制，只引入了该肽段的无修饰形式或含有其它种类修饰形式的谱图，那么在利用前述的谱库搜索方法时，正确的候选肽的实验串联质谱可能根本就不会进入候选结果中，这必然会影响蛋白质鉴定的准确性。在目前的蛋白质组实验中，质谱仪产生的大部分谱图不能有效解析，谱图解析率只有10％到30％，一个重要原因就是蛋白质中具有未知或未预料到的修饰，从而无法找到正确的候选肽，影响了后续的鉴定过程。

发明内容

本发明的目的是克服现有的基于谱库的鉴定方法由于蛋白质中所具有的未知或未预料到的修饰而无法找到正确的候选谱图，影响鉴定准确性的缺陷，从而提供一种高准确性的谱图鉴定方法。

本发明提供了一种谱图数据库的生成方法，包括：

步骤1)、选取已解析的实验串联质谱谱图，所述已解析的串联质谱谱图中包括母离子肽序列、电荷、修饰类型和位点在内的信息；

步骤2)、从所述已解析的实验串联质谱谱图中去除冗余谱图，得到代表谱；

步骤3)、将所述代表谱所代表的母离子肽序列按理论碎裂模式进行划分，得到与所述代表谱相对应的理论谱；

步骤4)、合并所述代表谱与所对应的理论谱，得到优化谱；

步骤5)、对所述优化谱做谱峰标注，由谱峰标注后的优化谱生成谱图数据库。

上述技术方案中，还包括：

步骤6)、对保存在谱图数据库中的优化谱做谱峰处理，去除谱峰中的干扰信息，保留并调整有用的信息。

上述技术方案中，还包括：

步骤7)、重排所述优化谱的母离子肽序列，根据重排后的母离子肽序列生成诱饵谱，将所述诱饵谱保存在谱图数据库中。

上述技术方案中，所述的步骤2)包括：

步骤2-1)、从所述已解析的实验串联质谱谱图中选出冗余谱图；所述冗余谱图为具有相同母离子肽序列、电荷、修饰类型和位点的谱图；

步骤2-2)、对所述冗余谱图做谱峰归一化，将谱图中每根谱峰的强度值改为该谱峰原始强度值与该谱图内强度最高谱峰的原始强度值之间的比值；

步骤2-3)、为各张所述冗余谱图赋予权重；

步骤2-4)、合并所述的冗余谱图。

本发明还提供了一种串联质谱谱图鉴定方法，包括：

步骤1)、输入待解析的串联质谱谱图，所述待解析的串联质谱谱图中已包含有该谱图的母离子质量和电荷，以及各谱峰的质荷比和强度；

步骤2)、从谱图数据库中为所述待解析的串联质谱谱图找出候选谱，所述候选谱与待解析的串联质谱谱图的母离子电荷相同且质量误差在第一阈值范围内；所述第一阈值的范围大于常见蛋白质翻译后修饰的质量范围；

步骤3)、将待解析的串联质谱谱图与所述候选谱中的各个谱图做匹配打分，根据匹配打分结果找出匹配度最高的候选谱作为鉴定结果。

上述技术方案中，所述谱图数据库还包括诱饵谱图，所述诱饵谱图为预期作为错误鉴定结果的谱图；所述方法还包括：

步骤4)、根据待解析的串联质谱谱图鉴定结果来自所述优化谱和所述诱饵谱的数量，对鉴定结果进行整体上的假阳率评估。

上述技术方案中，所述步骤3)包括：

步骤3-1)、依次分析待解析的串联质谱谱图中的每一根谱峰，从所述候选谱中查找与其匹配的谱峰；在查找匹配谱峰的过程中要考虑由潜在修饰引入的部分谱峰质荷比的改变；

步骤3-2)、在确定待解析的串联质谱谱图与所述候选谱所匹配的谱峰后，根据谱峰的匹配情况分别计算用于衡量某一候选谱与某一待解析串联质谱谱图间相似性的相似性分数，以及用于衡量某一候选谱与某一待解析串联质谱谱图的匹配情况相对于其它候选谱是否显著的显著性分数；

步骤3-3)、根据所述的相似性分数与显著性分数计算匹配得分，选择匹配得分最高的候选谱作为鉴定结果。

上述技术方案中，所述相似性分数的计算公式如下：

其中，I_Q和I_L分别表示所涉及到的待解析谱和候选谱的谱峰强度。

上述技术方案中，对所述显著性分数的计算如下：

步骤a)、定义待解析谱图中强度排名前n的谱峰为主力谱峰，定义发生在一根主力谱峰和一根被标注谱峰之间的谱峰匹配叫做有力的匹配，设m_i为第i张候选谱图中被标注的谱峰个数，设k_i为待解析谱图和第i张候选谱图匹配时发生的有力的匹配次数；

步骤b)、当该待解析谱图与这W张候选谱图匹配时，某一根主力谱峰与某一根被标注谱峰匹配上的概率p为：

p = \frac{Σ_{i = 1}^{W} k_{i}}{n} / Σ_{i = 1}^{W} m_{i}

步骤c)、对于该待解析谱中的某一根主力谱峰与第i张谱图中的谱峰进行匹配时，发生有力的匹配的概率P为：

P = 1 - {(1 - p)}^{m_{i}} = 1 - [1 - C_{m_{i}}^{1} \cdot p + . . . + C_{m_{i}}^{m_{i}} \cdot {(- p)}^{m_{i}}] \approx p \cdot m_{i}

步骤d)、该待解析谱与第i张候选谱图进行谱峰匹配时，发生不少于k_i次有力匹配的概率p_value为：

p_value = Σ_{j = k_{i}}^{n} C_{n}^{j} \cdot P^{j} \cdot {(1 - P)}^{n - j}

步骤e)、所述显著性分数为：

本发明的优点在于：

1、本发明所创建的谱图数据库在现有技术中常见的只包括实验谱图的谱库的基础上加入了理论序列信息，从而结合了实验谱图和理论谱图两种不同数据类型的优点。

2、本发明在将候选谱与待解析串联质谱谱图匹配的过程中，考虑了可能由潜在修饰引入的谱峰质荷比偏移，使得含修饰的碎片离子谱峰得到匹配，达到更好的修饰谱图鉴定效果。

3、本发明提供了背景无关和背景相关的两种打分机制，使得最终分数既利用了匹配结果的统计显著性这一信息来提高鉴定精度，又不完全依赖于该信息从而避免了小库问题(候选谱图过少时引发的统计显著性失效问题)。

4、本发明提供了用于开放式搜索的鉴定结果假阳率评价的诱饵谱图，达到了有效控制假阳性率的目的。

附图说明

图1为创建谱图数据库的流程图；

图2为冗余谱合并的示意图；

图3为由代表谱与其对应的理论谱生成优化谱的示意图；

图4为利用谱图数据库鉴定串联质谱谱图的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。

在背景技术的说明中已经提到，谱库搜索的前提是存在一个谱图数据库，谱图数据库中谱图数据的完整与否对于蛋白质鉴定最终结果的正确率有着十分重要的影响。因此，参考图1，在本发明中首先对建立谱图数据库的过程加以说明。

建立谱图数据库需要有一批已解析的实验串联质谱谱图，这些已解析的实验串联质谱谱图的相关信息都是已知的，如母离子肽序列、电荷、修饰类型和位点等。本领域技术人员很容易理解，已解析的实验串联质谱谱图的数据量越多，则所建立的谱图数据库所包含的数据就越完整，也就越有利于后续的鉴定工作。

在由已解析的实验串联质谱谱图建立谱图数据库的过程中，首先要去除已解析的实验串联质谱谱图中的冗余谱图，从而减少谱图中的谱图数量。所述的冗余谱图是指具有相同母离子肽序列、电荷、修饰类型和位点的谱图。在本实施例中，去除冗余谱图的方法包括对冗余谱图分别进行谱峰归一化并赋予权重，然后将来自相同肽段序列、相同修饰和位点、并具有相同母离子电荷的串联质谱谱图合并为一张谱图。

正如本领域技术人员所公知的那样，谱图中的谱峰(除少量的母离子峰和噪音峰)代表了碎片离子，谱峰在谱图横坐标上的取值代表质荷比，纵坐标上的取值代表了强度值。谱图的谱峰归一化操作是指把谱图中每根谱峰的强度值改为该谱峰原始强度值与该谱图内强度最高谱峰的原始强度值之间的比值，这样该谱图中强度最高的谱峰强度值为1，其余谱峰的强度值为0到1之间的数值。谱峰归一化操作可以克服不同谱图中谱峰原始强度值相差较大而给后续的谱图合并所带来的问题。从谱峰归一化操作可以看出，谱峰归一化只是对各个冗余谱图内部的处理，冗余谱图的数量并不会发生改变。在完成谱峰的归一化以后，还要为各个冗余谱图赋予权重。为冗余谱图赋予权重的方法有多种，一种简单的方法是为每张冗余谱图赋予均一权重。另外也可以根据已解析谱图的可信度来赋予权重，已解析谱图一般都是由某个鉴定算法鉴定出来的，那么每张谱图都会有一个鉴定得分，根据鉴定得分的高低可以确定谱图的可信度，可信度高的可以赋予相对较高的权重。

在对各个谱图做谱峰归一化并赋予权重后，就可以对冗余谱图做谱图合并。所述的谱图合并是要将多个冗余谱图合并成一个谱图以减少冗余谱图数量，每个待合并谱图都有一个权重，合并后谱图的母离子质量为所有待合并谱图的母离子质量加权平均值；合并后谱图中的谱峰是所有待合并谱图谱峰的并集，之后再将各组来自不同待合并谱图的公共谱峰分别合并为一根谱峰，其谱峰<质荷比，强度>值为相应的所有待合并谱峰<质荷比，强度>的加权平均值。在图2中给出了冗余谱图合并前后的示意图，在该图中有三张冗余谱，分别为冗余谱A、冗余谱B、冗余谱C，上述冗余谱经过前述方法合并后得到一张合并后的谱图。在上述合并过程中所提到的公共谱峰是指相对于仪器精度来说，来自不同待合并谱图中质荷比邻近的谱峰。也就是说，假如一个谱图中的谱峰a与另一个谱图中的谱峰b的质荷比之差大于一个指定的阈值，那么这两个谱峰就不属于公共谱峰，也就不能够加以合并。公共谱峰的定义与仪器精度有关，例如对于LTQ仪器，通常质荷比之差在±0.5Th以内的谱峰被称为公共谱峰，而对于Orbitrap仪器，通常质荷比之差在±0.02Th以内的谱峰被称为公共谱峰。

在前述说明中给出了本实施例去除冗余谱图的方法，但去除冗余谱图的方法并不局限于这一种。在其它实施例中，也可以采用其它方法来去除冗余谱图，例如，从多个冗余谱图中选择一张质量最好的谱图，而将其它谱图删除。

所述的已解析的实验串联质谱谱图在经过去除冗余数据的操作后所得到的谱图被称为代表谱，所述代表谱反映了来自仪器的真实实验谱图的数据特点。正如背景技术中所提到的，由于某些翻译后修饰的引入会改变肽段的化学性质，从而导致修饰肽段和非修饰肽段的碎裂模式产生差异，例如某非修饰肽段正常情况下发生碰撞-诱导碎裂(Collision-InducedDissociated，CID)后y2和y3离子居多，没有y4和y5离子；但这个肽段发生某个翻译后修饰以后，在相同的实验条件下碎裂后y2和y3离子没有了，而y4和y5离子居多，因此仅仅包含代表谱的谱图数据库未必能够反映蛋白质翻译后修饰现象。为了克服这一缺陷，在本发明中需要为谱图数据库添加理论肽序列的信息，以实现对谱图数据库的优化。在本实施例中，对谱图数据库的优化包括：首先根据代表谱生成与之对应的理论谱，然后对所有代表谱和理论谱进行结合，将各理论谱与其对应的代表谱分别合并成优化谱。例如，对于每张代表谱，根据其母离子肽序列信息产生一张理论谱图，理论谱图的母离子质量和电荷与代表谱相同，其谱峰为在某质荷比范围内的部分或全部理论离子谱峰(如CID碎裂中的b、y离子及其中性丢失离子等，+1电荷及以上且不超过母离子电荷数的离子均可考虑)，谱峰强度可以是均一的，也可以设定为其它值。对每张理论谱和代表谱分别进行谱峰强度归一化处理，并将代表谱与理论谱分别赋予权重后，合并生成优化谱。在图3中反映了代表谱、理论谱以及由代表谱和理论谱所生成的优化谱之间的关系。代表谱中包含了某个肽序列碎裂后所能生成的部分碎片离子的质荷比与强度信息，理论谱中包含了某个肽序列碎裂后理论上所能生成的所有碎片离子的质荷比，但缺少相应的强度信息，因此将代表谱与理论谱做归一化合并后所生成的优化谱能够综合代表谱与理论谱的优点。

优化谱图生成后需要对其进行谱峰标注，所述的谱峰标注是指根据谱图对应的肽序列信息来解释谱峰。本实施例中根据谱图对应的肽序列计算出理论碎片离子的质荷比值，分析谱图中的每一根谱峰，如果该谱峰与某个理论碎片离子的质荷比之差在某个给定误差阈值内，那么就在该谱峰的标注信息中记录此理论碎片离子的信息，包括离子类型，碎裂位点，电荷数等。所述的误差阈值通常由仪器精度而定，例如对于LTQ仪器，阈值为±0.5Th。对优化谱图做谱峰标注有利于后续的鉴定过程。

经过谱峰标注的优化谱图被保存在谱图数据库中。需要说明的是，现有技术中的谱图数据库只包含有实验串联质谱谱图，而本发明中的谱图数据库所保存的优化谱图除了包括实验串联质谱谱图的数据外，还包括有理论谱的信息。虽然在下文中依然用谱图数据库这一名称，但本领域技术人员应当了解，本发明中所涉及的谱图数据库与现有技术中所提到的谱图数据库有着明显的不同。

通过对一批已解析的串联质谱谱图所做的上述操作生成相应的谱图数据库以后，就可以利用这一谱图数据库进行鉴定。但为了提高后续鉴定的准确率，还可以对所述谱图数据库做进一步优化。

对谱图数据库的进一步优化包括对所述的优化谱进行谱峰处理，即去掉谱峰中的干扰信息，保留有用的信息，并对信息进行适当的调整。例如，去掉除离子单同位素峰之外的同位素峰，去掉母离子及其相关谱峰；去掉噪音峰；对谱峰强度进行重度量处理。上述操作都可通过现有技术中已披露的相关方法实现。

对谱图数据库的进一步优化还包括创建并保存诱饵谱图。所述的诱饵谱图是在谱库搜索空间中的预期作为错误鉴定结果的谱图，服务于鉴定结果的假阳率评估。它可以是来自与待搜数据实验样品不同源蛋白的真实实验谱图，也可以是由算法生成的谱图。在本实施例中，所生成的诱饵谱图的数量与优化谱相同，对于每张优化谱，根据其母离子肽序列信息产生诱饵肽序列作为诱饵谱所对应的母离子肽序列。诱饵肽序列可以是优化谱母离子肽序列的一个重排，重排规则可以是：假设优化过的代表谱母离子肽序列为A₁A₂A₃...A_n-1A_n，其中n为肽段包含的氨基酸残基个数，A_i为从肽段N端开始的第i个氨基酸残基，则诱饵谱的母离子肽序列为A_n-1A_n-2A_n-3...A₁A_n。诱饵谱的谱峰为优化过的代表谱谱峰，其中对于根据优化过的代表谱的母离子肽序列无法解释的谱峰，其质荷比和强度值均不变；对于根据优化过的代表谱的母离子肽序列得到解释的谱峰，其质荷比值更新为对应到诱饵谱母离子肽序列计算得到的理论质荷比值，强度值不变。诱饵谱的其它信息(如母离子质量，电荷等)与优化谱相同。在得到诱饵谱后，将其保存在谱图数据库中，此时的谱图数据库是一个同时包含代表谱与诱饵谱的数据库。诱饵谱图的作用在于为鉴定结果预测假阳率，因此，只有在鉴定过程中需要预测假阳率时才有必要创建并保存诱饵谱图，否则就无需创建。

以上是对谱图数据库创建过程的说明，如果在鉴定时已经有可用的谱图数据库，则谱图数据库的创建过程可以省略，参考图4，直接进入下面的搜索鉴定过程。

搜索鉴定过程的对象是一批待解析的串联质谱谱图(以下简称待解析谱图)，如何由蛋白质组得到待解析谱图为本领域技术人员的公知常识，在背景技术中也有相应的说明，因此不在此处重复。对于待解析谱图，已经知道谱图的母离子质量和电荷，以及谱图中各谱峰的质荷比和强度，并不知道母离子对应的肽序列，是否发生了翻译后修饰，发生的修饰类型和位点信息(如果该肽段为修饰肽段)。对这些待解析谱图进行搜索鉴定就是要为每张待解析谱图从本发明所述的谱图数据库中找出一些合适的候选谱，并将这些候选谱与待解析谱图进行匹配打分，选择匹配分数最高的候选谱作为鉴定结果。

从上述说明可以看出，搜索鉴定时首先要找出合适的候选谱。在选定一张待解析谱图后，为该待解析谱图找出候选谱的方法可以是从谱图数据库中找出与待解析谱母离子电荷相同且质量误差在一定阈值范围内的谱图；也可以是从谱库中找出与待解析谱图母离子质荷比之差在一定阈值范围内的谱图。在本实施例中采用的是前一种方法。定义ΔM为待解析谱图的母离子质量减去候选谱图的母离子质量所得到的值，母离子质量差阈值的下、上界分别为α₁和α₂，则候选谱图是谱图数据库中与待解析谱图的母离子具有相同电荷且ΔM在一定母离子质量差阈值内的谱图，即满足α ₁＜ΔM＜α₂。用W表示待解析谱对应的候选谱数目。在现有技术中常见的限制性搜索中，α₁/α₂的取值通常为-3/+3Da，这样绝大多数类型的修饰质量都在此范围之外；而在以本发明为代表的开放式搜索中，α₁/α₂的取值可以扩大到-300/+300Da，这样大多数的常见修饰质量都不会逃出候选窗口。需要说明的是，如果谱图数据库中包含有诱饵谱图，则在为待解析谱图查找候选谱时，诱饵谱图也可能会被包括到候选谱中。

在得到待解析谱图的候选谱以后，就要将该待解析谱图与每张候选谱图进行匹配打分。需要注意的是，在匹配打分之前需要对待解析谱图进行谱峰处理，处理方法可以采用类似优化谱的谱峰处理方法。

所述匹配打分首先要完成的是谱峰匹配，所述谱峰匹配的实施过程包括依次分析待解析谱图中的每一根谱峰，寻找候选谱图中与其匹配上的谱峰。需要说明的是，在判断两根谱峰是否匹配时需要考虑由潜在修饰引入的部分谱峰质荷比的改变，其具体规则可以是：

设该待解析谱图谱峰和候选谱图谱峰的质荷比分别为m_Q和m_L，设碎片离子质荷比误差为T_P(这个误差T_P是人为设定的参数，需要根据实验仪器精度的不同而设置合适的值，例如LTQ仪器可以设为0.5Th，Orbitrap仪器可以设为0.02Th)，满足以下条件时两谱峰匹配：

[1]、若该候选谱图的谱峰未被标注：|m_Q-m_L|＜T_P；

[2]、若该候选谱图的谱峰已被标注，其电荷为ch：|m_Q-m_L|＜T_P或|m_Q-m_L-ΔM/ch|＜T_P。

值得一提的是，由于谱图数据库中的优化谱包含了所有可能的碎片离子，因此当某种修饰对肽段碎裂模式产生较大影响时，待解析的修饰肽段谱图中的碎片离子谱峰将有机会匹配上谱库中对应的非修饰肽段的谱峰。

在确定待解析谱和候选谱所匹配的谱峰后，就可以进行打分。所述打分包含两个部分：一个是相似性分数，另一个是显著性分数。最终匹配得分为相似性分数和显著性分数的组合。其中，相似性分数是指对该候选谱与某一张待解析谱之间做相似性度量所得出的分数，与其它候选谱无关，为背景无关的分数；显著性分数是衡量该候选谱图与某一张待解析谱图的匹配情况相对于其它候选谱图来说是否显著，为背景相关的分数。

相似性分数的计算方法有多种，如欧氏距离法，马氏距离法，基于概率匹配的相似性度量等方法，在本实施例中采用计算谱峰向量夹角余弦值的方法，该计算方法如下：

其中I_Q和I_L分别表示所涉及到的待解析谱和候选谱的谱峰强度。

显著性分数的计算方法也有多种，如e-值法(e-value)，p-值法(p-value)，Z-分数法(Z-score)等。在本实施例中采用了基于p-值法的显著性计算方法，具体计算待解析谱图与第i张候选谱图(1≤i≤W)谱峰匹配情况的显著性的方法如下：定义待解析谱图中强度排名前n的谱峰为主力谱峰；定义发生在一根主力谱峰和一根被标注谱峰之间的谱峰匹配叫做有力的匹配；设m_i为第i张候选谱图中被标注的谱峰个数；设k_i为待解析谱图和第i张候选谱图匹配时发生的有力的匹配次数。那么当该待解析谱图与这W张候选谱图匹配时，某一根主力谱峰与某一根被标注谱峰匹配上的概率p为：

p = \frac{Σ_{i = 1}^{W} k_{i}}{n} / Σ_{i = 1}^{W} m_{i}

对于该待解析谱中的某一根主力谱峰与第i张谱图中的谱峰进行匹配时，发生有力的匹配的概率P为：

P = 1 - {(1 - p)}^{m_{i}} = 1 - [1 - C_{m_{i}}^{1} \cdot p + . . . + C_{m_{i}}^{m_{i}} \cdot {(- p)}^{m_{i}}] \approx p \cdot m_{i}

那么该待解析谱与第i张候选谱图进行谱峰匹配时，发生不少于k_i次有力匹配的概率p_value为：

p_value = Σ_{j = k_{i}}^{n} C_{n}^{j} \cdot P^{j} \cdot {(1 - P)}^{n - j}

p_value越小说明显著性越强，由此计算出来的显著性分数为：

最终该待解析谱图与第i张候选谱图的匹配得分为相似性分数和显著性分数的结合，可以是简单的相乘，也可以是求加权和等。本实施例中采用了简单相乘的方法，利用该方法计算匹配得分的计算公式如下：

匹配得分＝相似性分数×显著性分数

分别计算该待解析谱图与前述W张候选谱图的匹配得分后，选择匹配分数最高的候选谱作为鉴定结果。鉴定结果的内容包括：母离子肽序列，电荷，修饰类型和位点，ΔM和匹配得分。如果鉴定结果的ΔM绝对值比较大(例如大于10Da)，那么这个ΔM很可能解释成为修饰质量，这时鉴定结果还要包括修饰发生的位点。修饰位点的定位方法可以是：设鉴定结果的肽序列长度为L，把ΔM质量分别添加到L个氨基酸位点上生成L条肽段，并根据这些肽段分别生成L张理论谱图，然后分别计算出待解析谱图与这L张理论谱图之间的相似性分数，选择相似性分数最高的结果所对应的ΔM所在位点作为鉴定结果的修饰位点。

待所有待解析谱图鉴定完毕后，如果有需要，还可以针对搜索结果进行整体上的假阳率评估。在进行假阳率评估时，可以是将所有鉴定到的谱图按照一定规则排序(如按照得分从高到低排序)，则可以对前n张谱图进行分析，过滤掉鉴定结果为诱饵谱的待解析谱图，并估计保留下来的鉴定结果中的假阳率；同时也可以用相同的方法根据某个确定的假阳率阈值来过滤鉴定结果。

例如，当搜索完毕一批待解析谱图后，得到的结果是：

待解析谱1，结果1；

待解析谱2，结果2；

待解析谱3，结果3；

……

待解析谱n，结果n。

对于上述n条结果，设这n个结果中有x个是来自诱饵谱库。那么，这x个结果肯定是错误的鉴定，需要被过滤掉，剩下的n-x个来自优化谱库的才可能是正确的。我们想知道这n-x个结果的可信度是多少，换句话说，想知道其中有多少结果可能被错误地鉴定，这就是鉴定结果的假阳率。

一种假阳率估算方法是，认为剩下的n-x个结果中，错误率是x/(n-x)；也有人认为是2x/n。这两个是最普遍使用的估计假阳率的公式，它们都是需要诱饵库才能够使用的，谱库中没有诱饵库就意味着没有x，那就无法计算假阳率。

以上是对本发明如何创建谱图数据库以及利用该谱图数据库鉴定串联质谱谱图过程的说明。从中可以看出，本发明具有以下优势：

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种谱图数据库的生成方法，包括：

步骤1）、选取已解析的实验串联质谱谱图，所述已解析的串联质谱谱图中包括母离子肽序列、电荷、修饰类型和位点在内的信息；

步骤2）、从所述已解析的实验串联质谱谱图中去除冗余谱图，得到代表谱；

步骤3）、将所述代表谱所对应的母离子肽序列按理论碎裂模式进行划分，得到与所述代表谱相对应的理论谱；

步骤4）、合并所述代表谱与所对应的理论谱，得到优化谱；

步骤5）、对所述优化谱做谱峰标注，由谱峰标注后的优化谱生成谱图数据库。

2.根据权利要求1所述的谱图数据库的生成方法，其特征在于，还包括：

步骤6）、对保存在谱图数据库中的优化谱做谱峰处理，去除谱峰中的干扰信息，保留并调整有用的信息。

3.根据权利要求1或2所述的谱图数据库的生成方法，其特征在于，还包括：

步骤7）、重排所述优化谱的母离子肽序列，根据重排后的母离子肽序列生成诱饵谱，将所述诱饵谱保存在谱图数据库中。

4.根据权利要求1或2所述的谱图数据库的生成方法，其特征在于，所述的步骤2）包括：

步骤2-1）、从所述已解析的实验串联质谱谱图中选出冗余谱图；所述冗余谱图为具有相同母离子肽序列、电荷、修饰类型和位点的谱图；

步骤2-2）、对所述冗余谱图做谱峰归一化，将谱图中每根谱峰的强度值改为该谱峰原始强度值与该谱图内强度最高谱峰的原始强度值之间的比值；

步骤2-3）、为各张所述冗余谱图赋予权重；

步骤2-4）、合并所述的冗余谱图。

5.一种串联质谱谱图鉴定方法，包括：

步骤1）、输入待解析的串联质谱谱图，所述待解析的串联质谱谱图中已包含有该谱图的母离子质量和电荷，以及各谱峰的质荷比和强度；

步骤2）、从由权利要求1-4之一所得到的谱图数据库中为所述待解析的串联质谱谱图找出候选谱，所述候选谱与待解析的串联质谱谱图的母离子电荷相同且质量误差在第一阈值范围内；所述第一阈值的范围大于常见蛋白质翻译后修饰的修饰质量范围；

步骤3）、将待解析的串联质谱谱图与所述候选谱中的各个谱图做匹配打分，根据匹配打分结果找出匹配度最高的候选谱作为鉴定结果。

6.根据权利要求5所述的串联质谱谱图鉴定方法，其特征在于，所述谱图数据库还包括诱饵谱图，所述诱饵谱图为预期作为错误鉴定结果的谱图；所述方法还包括：

步骤4）、根据待解析的串联质谱谱图鉴定结果来自所述优化谱和所述诱饵谱的数量，对鉴定结果进行整体上的假阳率评估。

7.根据权利要求5或6所述的串联质谱谱图鉴定方法，其特征在于，所述步骤3）包括：

步骤3-1）、依次分析待解析的串联质谱谱图中的每一根谱峰，从所述候选谱中查找与其匹配的谱峰；在查找匹配谱峰的过程中要考虑由潜在修饰引入的部分谱峰质荷比的改变；

步骤3-2）、在确定待解析的串联质谱谱图与所述候选谱所匹配的谱峰后，根据谱峰的匹配情况分别计算用于衡量某一候选谱与某一待解析串联质谱谱图间相似性的相似性分数，以及用于衡量某一候选谱与某一待解析串联质谱谱图的匹配情况相对于其它候选谱是否显著的显著性分数；

步骤3-3）、根据所述的相似性分数与显著性分数计算匹配得分，选择匹配得分最高的候选谱作为鉴定结果。

8.根据权利要求7所述的串联质谱谱图鉴定方法，其特征在于，所述相似性分数的计算公式如下：

9.根据权利要求7所述的串联质谱谱图鉴定方法，其特征在于，对所述显著性分数的计算如下：

步骤a）、定义待解析谱图中强度排名前n的谱峰为主力谱峰，定义发生在一根主力谱峰和一根被标注谱峰之间的谱峰匹配叫做有力的匹配，设m_i为第i张候选谱图中被标注的谱峰个数，设k_i为待解析谱图和第i张候选谱图匹配时发生的有力的匹配次数；

步骤b）、当该待解析谱图与这W张候选谱图匹配时，某一根主力谱峰与某一根被标注谱峰匹配上的概率p为：

p = \frac{Σ_{i = 1}^{W} k_{i}}{n} / Σ_{i = 1}^{W} m_{i}

步骤c）、对于该待解析谱中的某一根主力谱峰与第i张谱图中的谱峰进行匹配时，发生有力的匹配的概率P为：

P = 1 - {(1 - p)}^{m_{i}} = 1 - [1 - C_{m_{i}}^{1} \cdot p + . . . + C_{m_{i}}^{m_{i}} \cdot {(- p)}^{m_{i}}] \approx p \cdot m_{i}

步骤d）、该待解析谱与第i张候选谱图进行谱峰匹配时，发生不少于k_i次有力匹配的概率p_value为：

p_value = Σ_{j = k_{i}}^{n} C_{n}^{j} \cdot P^{j} \cdot {(1 - P)}^{n - j}

步骤e）、所述显著性分数为：