CN106872554B

CN106872554B - 基于模糊判别和逻辑推理的蛋白酶解液的分析方法

Info

Publication number: CN106872554B
Application number: CN201510919595.5A
Authority: CN
Inventors: 张丽华; 张树荣; 单亦初; 张玉奎
Original assignee: Dalian Institute of Chemical Physics of CAS
Current assignee: Dalian Institute of Chemical Physics of CAS
Priority date: 2015-12-13
Filing date: 2015-12-13
Publication date: 2019-06-11
Anticipated expiration: 2035-12-13
Also published as: CN106872554A

Abstract

本发明公开了一种基于模糊判别和逻辑推理的蛋白酶解液的分析方法。本发明涉及一种基于模糊判别和逻辑推理的肽段‑二级质谱(MS/MS)图匹配分析方法。该算法以Logistics函数来模拟人对谱图质量的模糊判断，以矩阵内积计算方案实现人对肽段序列的逻辑推导。经过Null‑test测试，该算法与现有算法/软件(Mascot、Morpheus、Pfind、MaxQuant)比较，发现本发明的算法能通过Null‑test，智能性比对照方法要高。该算法并不使用常规的离子空间来描述质谱数据匹配情况，使用的是肽段信息空间进行与质谱谱图的匹配运算。

Description

基于模糊判别和逻辑推理的蛋白酶解液的分析方法

技术领域

本发明为蛋白质组学中判断候选肽段与二级质谱(MS/MS)图匹配程度的打分分析方法，用以对具体蛋白质序列库中所有候选肽段与实验从蛋白酶解液中采集的MS/MS谱图进行匹配打分，最终判别酶解液中存在哪些肽段。

背景技术

目前，Shotgun方案是蛋白质组学研究从复杂体系中大量鉴定存在的蛋白质的重要方法。Shotgun策略通过将研究体系中的蛋白经蛋白酶水解之后，获得肽段，再从目标蛋白库进行匹配打分。打分算法的性能，决定了鉴定结果可靠程度。已有的打分算法或者基于概率模型，或者基于肽段的离子空间，或者有更为复杂的评价策略，经过人工甄别，会发现已有算法的鉴定结果假阳性依然偏高，会在根源上影响蛋白质组学的研究结果。本发明从模拟人工解析谱图的角度出发，开发出模拟人类模糊判断与逻辑推理的新打分算法，以达到人工解谱的稳健性与可靠性。

发明内容

为避免使用人工方法对几万个打分结果进行一一甄别优劣，测试比较方案使用Null-test方案。Null-test通过随机策略构造含有上万个随机序列蛋白的目标蛋白库，通过基于反库的Target-Decoy方案进行搜库匹配。在设定FDR(False Discovery Rate)为20％的情况下，如果算法鉴定到的肽段为0或者1个，则算法能通过Null-test测试，性能稳健，具有一定的智能性；如果算法鉴定到的肽段大于1个，则说明算法在区分两个同为随机库的同性质序列库(随机库的反库依然为随机库)，算法过拟合，假阳性结果比较高。

技术方案：

基于模糊判别和逻辑推理的蛋白酶解液的分析方法，

依据Shotgun Proteomics的要求，将蛋白酶解液进行二级质谱(MS/MS)分析，获大于或者等于一张的MS/MS二级质谱图；对已有的目标蛋白数据库(Target数据库)中所有的蛋白序列进行反序得到Decoy数据库，将两个数据库中的蛋白序列按照上述蛋白酶解液的获得过程进行模拟酶切，获得候选的肽段序列库；对于具体的一张MS/MS质谱图，按照设定的质量误差0-50ppm，根据母离子的质量数从肽段序列库中筛选出候选的若干个肽段，如果筛选得到的肽段数目为0，则该MS/MS质谱图无效；如果筛选得到的肽段数目大于等于1为有效质谱图，则按照下述的打分方法计算肽段于二级质谱图的得分，得分最高的肽段为这张质谱图的最佳匹配肽段；对其它MS/MS质谱图进行上述打分操作，把所有的最佳“肽段-质谱图”匹配结果按照得分从大到小排列，预设FDR(False Discover Rate)值为0-5％，则能够计算出得分的截断值，则大于该得值的Target数据库的肽段就存在于蛋白酶解液中；

在肽段鉴定过程中通过一级质谱母离子确定其于蛋白序列数据库中对应质量下的候选肽段序列S，对S与二级质谱的匹配程度进行打分；

打分过程如下：

1)计算MS/MS二级谱图的肽段离子碎片有效比率指标u，处理无同位素标记谱图时：u＝(与候选肽段匹配的肽段离子碎片峰强度信号总和)/(当前谱图峰强度信号总和)；或，处理有同位素标记谱图时：u＝(与候选肽段匹配的有效标记肽段离子碎片峰强度信号总和)/(当前谱图有效标记峰强度信号总和)，通过Logistics公式1转换为模拟人对谱图质量的模糊评价指标w；

2)将序列S中的离子碎片所包含的序列信息进行编码，默认方式为:记肽段长度为n，n为大于等于2的正整数，肽段序列按照从氨基端(N端)到羧基端(C端)由上到下排列，并且与下文列向量对应；

肽段b离子编码方式为：如果存在b₁离子，b₁离子对应规格n*1的列向量,第一位为1,其余位置为0；如果存在b₂离子，b2离子则第一到第二位为1,其余位置为0；如此类推，如果存在b_n-1离子，b_n-1离子则对应长度为n的列向量中的第一位到n-1位中全为1，剩下位置为0；

对y离子编码的方式为：如果存在y_-1离子，y₁离子对应长度为n的列向量中的最后一位为1，其余位置为0；如果存在y₂离子，y₂离子对应长度为n的列向量中最后一位到倒数第二为1，其余位置为0；如此类推，如果存在y_n-1离子，y_n-1离子对应长度为n的列向量的最后一位到第2位为1，其余位置为0；

其余类型的N端离子按b离子编码方式编码，其余C端离子按y离子编码的方式进行编码；最终沿着行向将上述得到的列向量合并成信息表达矩阵C；

3)按公式2对信息表达矩阵C进行矩阵内积计算，获得信息表达矩阵X；内积计算实现了同一离子自证存在、同端(例如C端)长离子证明短离子存在、a-y、b-y等不同端(C端、N端)离子握手证明等逻辑推理功能；

4)对X矩阵中所有元素进行求和再除以肽段长度n，则能得到肽段表达的校验信息总和；并且以p表示质谱图中互补离子的对数，代表互补信息的量，p为大于等于0的正整数；最终，将校验信息总和与互补信息的量的加和后再与模糊判别指标w相乘，则得到本算法的对候选肽段S与MS/MS谱图匹配的得分score(公式3)；

所述的内积计算功能包括三个逻辑推理功能：同一离子自我证明、同端长离子证明同端短离子存在、不同端离子握手证明。

该算法以Logistics函数来模拟人对谱图质量的模糊判断，以矩阵内积计算方案实现人对肽段序列的逻辑推导。经过Null-test测试，该算法与现有算法/软件(Mascot、Morpheus、Pfind、MaxQuant)比较，发现本发明的算法能通过Null-test，智能性比对照方法要高。该算法并不使用常规的离子空间来描述质谱数据匹配情况，使用的是肽段信息空间进行与质谱谱图的匹配运算。

本发明具有如下优点：

1.本发明能通过Null-test，结果较优，算法本身具有一定的智能。

2.本发明使用的是肽段信息编码方案，并不使用传统的离子空间方案。

本发明能判别出大量的错误匹配结果(得分为0)，具有较强的分辨能力。

附公式说明：

公式1为将谱图质量指标转换成模糊评价的Logistics公式。

公式2为矩阵内积运算。

公式3为本发明的打分函数完整形式。

公式1

X＝C^TC

公式2

公式3

附图说明

图1为肽段信息的编码方案。

图2为通过矩阵内积实现的三种逻辑推理方案。

具体实施方式

下面通过实施例对本发明提供的方法进行详述，但不以任何形式限制本发明。

实施例1：

使用Thermo Scientific Q Exactive质谱采集到的人类肝癌细胞酶解液数据对打分算法进行验证。该数据中包含77979张二级质谱图。在一级谱容差为10ppm、二级谱容差为20ppm、FDR设定为1％的条件下，本发明的打分分析方法能鉴定到14909个PSM(Peptide-Spectrum Match)，8813条唯一肽段，1752个蛋白。同类型软件，Morpheus鉴定到14903个PSM，9038条唯一肽段，1880个蛋白；Mascot鉴定到16648个PSM，10247个唯一肽段，1975个蛋白。本发明中的方法性能与现阶段软件相当。

图1演示了其中一个长度为6，并且a、b、y离子都被质谱采集到的肽段编码方式。图2，则演示了长度为6的肽段中，通过矩阵内积实现的同一离子自证存在、同端(例如C端)长离子证明短离子存在、a-y、b-y等不同端(C端、N端)离子握手证明等逻辑推理功能。

实施例2：

使用Null-test方案，随机生成序列长度在100～1000的随机蛋白，一共12000个蛋白，构成Null库与它对应的反库，设置FDR为20％。本发明的算法在上述Null库中与条件下匹配到1条肽段，通过Null-test测试。Mascot匹配到2条肽段，不能通过Null-test测试；Morpheus和Pfind分别匹配到6条肽段，不能通过Null-test测试；MaxQuant匹配到33条肽段，同样不能通过Null-test测试。由此证明，本专利发明算法确实具有智能，并且结果更加可靠、稳健。

Claims

1.基于模糊评价和逻辑推理的蛋白酶解液的分析方法，是基于模糊评价和逻辑推理的分析蛋白酶解液中肽段-二级质谱（MS/MS）图匹配关系的方法，其特征在于：

依据Shotgun Proteomics的要求，将蛋白酶解液进行二级质谱（MS/MS）分析，获大于或者等于一张的MS/MS二级质谱图；对已有的目标蛋白数据库（Target数据库）中所有的蛋白序列进行反序得到Decoy数据库，将两个数据库中的蛋白序列按照上述蛋白酶解液的获得过程进行模拟酶切，获得候选的肽段序列库；对于具体的一张MS/MS质谱图，按照设定的质量误差0-50ppm，根据母离子的质量数从肽段序列库中筛选出候选的若干个肽段，如果筛选得到的肽段数目为0，则该MS/MS质谱图无效；如果筛选得到的肽段数目大于等于1为有效质谱图，则按照下述的打分方法计算肽段于二级质谱图的得分，得分最高的肽段为这张质谱图的最佳匹配肽段；对其它MS/MS质谱图进行打分操作，把所有的最佳“肽段-质谱图”匹配结果按照得分从大到小排列，预设FDR（False Discover Rate）值为0-5%，则能够计算出得分的截断值，则大于该截断值的Target数据库的肽段就存在于蛋白酶解液中；

所述的打分方法是针对通过一级质谱母离子确定其于蛋白序列数据库中对应质量下的候选肽段序列S，对S与二级质谱的匹配程度进行打分；包括计算模糊评价指标w，生成信息表达矩阵C，对信息表达矩阵C进行矩阵内积计算获得信息表达矩阵X，将校验信息总和与互补信息的量p加和后再与模糊评价指标w相乘得到最终得分score；

所述的计算模糊评价指标w的方案为：计算MS/MS二级谱图的肽段离子碎片有效信号比率指标u，处理无同位素标记谱图时：u=(与候选肽段匹配的肽段离子碎片峰强度信号总和)/(当前谱图峰强度信号总和)；或，处理有同位素标记谱图时：u=(与候选肽段匹配的有效标记肽段离子碎片峰强度信号总和)/(当前谱图有效标记峰强度信号总和)，通过Logistics公式1转换为模拟人对谱图质量的模糊评价指标w;

公式1；

所述的生成信息表达矩阵C过程为：将序列S中的离子碎片所包含的序列信息进行编码，默认方式为:记肽段长度为n，n为大于等于2的正整数，肽段序列按照从氨基端（N端）到羧基端（C端）由上到下排列，并且与下文列向量对应；

肽段b离子编码方式为：如果存在b₁离子，b₁离子对应规格n*1的列向量,第一位为1,其余位置为0；如果存在b₂离子，b2离子则第一到第二位为1,其余位置为0；如此类推，如果存在b_n-1离子， b_n-1离子则对应长度为n的列向量中的第一位到n-1位中全为1，剩下位置为0；

对y离子编码的方式为：如果存在y₁离子，y₁离子对应长度为n的列向量中的最后一位为1，其余位置为0；如果存在y₂离子，y₂离子对应长度为n的列向量中最后一位到倒数第二位为1，其余位置为0；如此类推，如果存在y_n-1离子，y_n-1离子对应长度为n的列向量的最后一位到第2位为1，其余位置为0；

所述的信息表达矩阵X的计算方法为：按公式2对信息表达矩阵C进行矩阵内积计算，获得信息表达矩阵X；

公式2；

所述的最终得分score的计算方法为：对X矩阵中所有元素进行求和再除以肽段长度n，则能得到肽段表达的校验信息总和；并且以p表示质谱图中互补离子的对数，代表互补信息的量，p为大于等于0的正整数；最终，将校验信息总和与互补信息的量的加和后再与模糊评价指标w相乘，则得到本算法的对候选肽段S与MS/MS谱图匹配的得分score；

公式3。

2.按照权利要求1所述的分析方法，其特征在于：所述的内积计算功能包括三个逻辑推理功能：同一离子自我证明、同端长离子证明同端短离子存在、不同端离子握手证明。