CN108491690A

CN108491690A - 一种蛋白质组学中肽段的肽段定量效率预测方法

Info

Publication number: CN108491690A
Application number: CN201810216313.9A
Authority: CN
Inventors: 付岩; 常乘; 高志强; 朱云平
Original assignee: BEIJING PROTEOME RESEARCH CENTER; Institute of Pharmacology and Toxicology of AMMS; Academy of Mathematics and Systems Science of CAS
Current assignee: BEIJING PROTEOME RESEARCH CENTER; Institute of Pharmacology and Toxicology of AMMS; Academy of Mathematics and Systems Science of CAS
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2018-09-04
Anticipated expiration: 2038-03-16
Also published as: CN108491690B

Abstract

本发明公开了一种蛋白质组学中肽段的肽段定量效率预测方法，其步骤包括：1)筛选出高可信蛋白，将高可信蛋白的鉴定肽段作为高可信肽段；2)计算所述高可信肽段的物理化学性质和肽段定量效率；其中，所述肽段定量效率为肽段的质谱信号强度对肽段的真实量的反应程度；3)基于高可信肽段的物理化学性质和肽段定量效率，构建预测肽段定量效率模型的训练集；然后利用该训练集训练得到肽段定量效率预测模型；4)利用所述肽段定量效率预测模型预测鉴定蛋白的各鉴定肽段的肽段定量效率。本发明的方法使用高可信肽段构建训练集，在线训练肽段定量效率，排除了实验操作，实验仪器等引起的误差。

Description

一种蛋白质组学中肽段的肽段定量效率预测方法

技术领域

本发明涉及基于质谱的蛋白质组学中的肽段及蛋白质定量方法研究，尤其涉及一种肽段定量效率预测方法。

背景技术

继鉴定蛋白质组学之后，定量蛋白质组学已经成为了生命科学领域的下一个研究热点。其研究内容主要包括基于质谱数据对蛋白质进行有标记的定量和无标记的定量。虽然无标记的定量在准确率上不如有标记的定量，但是鉴于无标记定量的操作简单，成本低廉等优点，无标记定量在大规模蛋白质定量中仍是首选方法。

蛋白质定量的理想实验方法是为每个蛋白质都加入内标，然而，这种做法对于分析复杂样品来说，意味着高昂的费用。目前，最常用的方法是基于部分内标做线性拟合计算的方法。在这些方法中，首先根据添加的标准蛋白的已知实际浓度与其质谱信号强度的关系得到线性关系式，然后再用得到的线性关系式来预测样本中的其他蛋白质的浓度。这类方法的核心是根据肽段的质谱强度或者谱图数目来计算蛋白质的质谱强度。但是，目前开发的算法的效果远远不能让人们满意，因为这些算法直接使用的是肽段的原始谱图信号强度，而这些强度并不能准确的描述肽段的实际丰度。

影响一个肽段在质谱中的观测信号的因素有很多。观测到的肽段信号强度不仅依赖于它们在样本中的实际浓度，而且与它们的物理化学性质和质谱检测效率有很大的关系。相同浓度的肽段也许会有完全不同的质谱信号强度。例如，即使来自于同一个蛋白的肽段的质谱信号强度也有可能会相差几个数量级。如果一个蛋白质有足够多的肽段被鉴定到了，那么这些肽段的质谱信号强度就有可能被校正过来，从而得到准确的蛋白质绝对定量结果。否则，肽段层面的质谱信号强度偏差就会被传递到蛋白质层面。因为通常低丰度蛋白或者小蛋白被鉴定到的肽段数目很少，所以这个问题对于那些蛋白尤为严重。

不幸的是，这个问题还未受到已开发的肽段定量算法的重视。肽段定量的一般流程为：1)谱峰检测，从复杂的谱峰中确定哪些谱峰可能对应着肽段或肽段碎片，提取固定质荷比对应的全部同位素峰信息。2)离子流色谱峰重构，针对某一固定质荷比，根据上一步得到的同位素峰信息，在保留时间维度上构建该质荷比对应的离子流色谱峰。3)肽段定量值提取，根据上一步得到的离子流色谱峰确定肽段的定量值。前人已经开发出了很多肽段定量工具。例如，SpecArray(Li,X.,Yi,E.C.,Kemp,C.J.,Zhang,H.&Aebersold,R.A SoftwareSuite for the Generation and Comparison of Peptide Arrays from Sets of DataCollected by Liquid Chromatography-Mass Spectrometry.Mol.Cell.Proteomics 4,1328–1340(2005))先根据肽段的同位素分布找到同位素峰簇，然后以峰簇中前3个同位素峰的谱峰信号和构建色谱曲线，最后肽段定量值为Savitzky-Golay平滑后的色谱曲线面积。MaxQuant软件(参考文献：Cox,J.&Mann,M.MaxQuant enables high peptideidentification rates,individualized p.p.b.-range mass accuracies andproteome-wide protein quantification.Nat Biotechnol 26,1367-1372(2008))采用高斯拟合3D谱峰进行谱峰检测，然后以各同位素峰的质量为权重加权平均同位素峰质谱信号强度，从而确定复杂样品中的肽段定量值。OpenMS(参考文献：Sturm,M.et al.OpenMS–Anopen-source software framework for mass spectrometry.BMC Bioinformatics 9,1–11(2008))使用小波变换确定谱峰位置，接着用高斯分布拟合得到色谱曲线，以曲线面积作为肽段定量值。目前开发的肽段定量工具重点皆放在肽段关联的谱峰检测和色谱曲线定量值提取上。然而，影响肽段定量的因素多且复杂，对每个肽段单独进行定量并不能很好的消除误差。因此，如何对肽段的原始信号强度进行有效的校正，从而准确的估计肽段的定量值是一个亟待解决的问题。

发明内容

本发明的目的是提供一种蛋白质组学中肽段的肽段定量效率预测方法，本发明对肽段的原始信号强度进行校正，以用于后续蛋白质定量的分析中。

为了实现上述目的，本发明肽段定量效率预测方法的步骤包括：

步骤1)、筛选高可信蛋白，确定高可信肽段；

步骤2)、计算高可信肽段的物理化学性质；

步骤3)、估计高可信肽段的肽段定量效率；

步骤4)、构建预测肽段定量效率模型的训练集；

步骤5)、利用该训练集训练贝叶斯累加回归树(BART)模型(Chipman HA,GeorgeEI,McCulloch RE.BART:Bayesian additive regression trees.266-298(2010))；

步骤6)、利用贝叶斯累加回归树(BART)模型预测所有鉴定蛋白的鉴定肽段的肽段定量效率。

在上述技术方案中，在所述的步骤1)中，不同于经常使用的固定训练集的方式，此处使用的是在线学习策略。对每一批数据，从中筛选出高可信的肽段定量效率样本来构建训练集，从而消除实验环境、操作、仪器等带来的误差。

在鉴定蛋白中筛选至少包含鉴定到N(本发明中N取值为5)个唯一肽段的蛋白。所述的唯一肽段是指在所有鉴定到的蛋白中唯一在一个蛋白组出现的肽段。此处所述的蛋白组是指经过蛋白装配之后得到的同组蛋白集合。经过上述处理之后，可以筛选出高可信的蛋白。可以认为，这些高可信蛋白的鉴定肽段为高可信肽段。

在上述技术方案中，在所述的步骤2)中，计算步骤1)所得的高可信肽段的物理化学性质包括：

根据肽段的氨基酸序列及其在蛋白质序列中的相邻的氨基酸序列，可以计算出与该肽段相关的587种物理化学性质。每个肽段的理化性质可以用x＝(x₁,x₂,x₃,…,x₅₈₇)来表示。

在这587种物理化学性质中，前23种是肽段序列信息相关的特征，例如，肽段长度、肽段中漏切位点的个数、肽段质量、肽段中各氨基酸的出现频率等。中间544种是来自AAindex(参考文献：Kawashima,S.,Pokarowski,P.,Pokarowska,M.,Kolinski,A.,Katayama,T.,and Kanehisa,M.；AAindex:amino acid index database,progress report2008.Nucleic Acids Res.36,D202-D205(2008))的氨基酸的理化性质在肽段维度上求均值之后的结果。最后20种物理化学性质引用自前人的研究结果(参考文献：Braisted,J.C.et al.BMC Bioinformatics 9,529(2008)，Webb-Robertson,B.J.etal.Bioinformatics 26,1677-1683(2010)，Eyers,C.E.et al.Mol Cell Proteomics 10,M110 003384(2011)，Tang,H.et al.Bioinformatics 22,e481-488(2006))。

在上述技术方案中，在所述的步骤3)中，估计高可信肽段的肽段定量效率包括：

步骤3-1)为了对肽段的原始信号强度进行校正，本发明提出了肽段定量效率的概念。本发明将肽段定量效率定义为肽段的质谱信号强度对肽段的真实量的反应程度。由于在实验中，肽段的真实量是未知的，所以本发明提出了一种启发式计算肽段定量效率的方法。首先，本发明假定来自于同一个蛋白的不同肽段应该有相同的真实量。而且每个肽段的定量效率应该和它的质谱信号强度成正比。根据这个假设，本发明就可以只需在一个蛋白中确定一个肽段的肽段定量效率就可以了。对于所述的步骤1)中的高可信蛋白，本发明选择计算每个高可信蛋白的信号强度最高的肽段的定量效率，令Q_i,j表示蛋白i的肽段j的肽段定量效率。令Q_i,max＝max_jQ_i,j表示蛋白i的信号强度最高的肽段的定量效率。

步骤3-2)为了估计Q_i,max，本发明提出了一个独立于肽段属性的先验模型。在该模型中，认为Q_i,max为服从指数分布的随机变量(可以通过实验数据进行验证)。假定X₁,X₂,…,X_n是n个服从该分布的随机变量。令X₍₁₎,X₍₂₎,…,X_(n)是他们按照降序排列的序列统计量，即X_(n)＝max_{j∈(1,2,…,n)}X_j。那么X_(n)的期望就可以作为Q_i,max的估计值。接下来，需要推导X_(n)的期望值。本发明令

W₁＝nX₍₁₎，

W_j＝(n-j+1)(X_(j)-X_(j-1)),j＝2,3,…,n

可以证明，W₁,W₂,…,W_n是与X_j服从同一分布的独立随机变量。而且，X_(n)可以表示成如下形式：

因此，可以通过如下公式计算X_(n)的期望值：

即

其中n_i表示蛋白i的期望肽段数目。θ是指数分布的参数。

最后，本发明将所有高可信蛋白的E(Q_i,max)归一化到[0,1],

比较有趣的是，经过归一化之后，指数分布的参数θ便消失了。也就是说免去了估计θ的麻烦。于是就可以用Q_i,max的估计值作为蛋白i的最大信号强度肽段的肽段定量效率Q_i,max了。

步骤3-3)为了计算步骤1)所述的高可信蛋白的其他鉴定肽段的肽段定量效率。本发明假定来自于同一个蛋白的不同肽段应该有相同的真实量，而且每个肽段的定量效率应该和它的质谱信号强度成正比。对于步骤1)所述的高可信蛋白的其他鉴定肽段，可以通过以下公式来计算它们的肽段定量效率：

其中I_i,j指的是属于蛋白i的肽段j的质谱信号强度。I_i,max指的属于蛋白i的所有肽段的质谱信号强度中的最大值。

在上述技术方案中，在所述的步骤4)中构建预测肽段定量效率模型的训练集包括：

将所述的步骤2)中得到的高可信肽段的物理化学性质作为训练集的自变量。将所述的步骤3)中得到的高可信肽段的肽段定量效率作为训练集的因变量。至此，预测所有鉴定肽段的肽段定量效率的模型的训练集构建完毕。

在上述技术方案中，在所述的步骤5)中，基于所述的步骤4)中得到的训练集训练贝叶斯累加回归树(BART)模型包括：

步骤5-1)确定树的生成先验概率ρ(T_j)，其中T_j表示第j棵树。

上述技术方案中，可以从树的生长的角度来考虑所述的树生成先验概率。它可以由以下几个方面来确定：

1)一个节点还会生长的概率，也就是不是叶节点的概率假设为：

α(1+d)^-β,α∈(0,1),β∈[0,∞)

其中，d表示该节点的深度，α，β是用户可以指定的参数。该假设能保证越深的节点继续生长的可能性越小，从而抑制大树的生成。

2)使用随机分布来决定中间节点指派***变量的分布。

3)使用随机分布来挑选***变量的***准则。

步骤5-2)确定条件先验ρ(μ_ij|T_j)，其中μ_ij表示第j棵树上第i个叶节点上的权值。

本发明假定ρ(μ_ij|T_j)服从正态分布因为这样可以方便计算μ_ij的边际分布。对于一个x，期望E(Y|x)是m棵树中的与x相关联的叶节点上的权值μ_ij的和。又μ_ij是独立同分布的，那么可以推得E(Y|x)服从正态分布还有一点，期望E(Y|x)应该在Y的实际值y的最小值和最大值之间。所以可以选择μ_μ和σ_μ使得(y_min,y_max)正好对应的k倍标准差区间内，即

为方便起见，可以将y变换到区间[-0.5,0.5]上，并且对μ_ij做中心化，那么就可以得到从而，其中在该假设条件下，随着树的数目m和标准差区间宽度k的增大，δ_μ越小，μ_ij的分布越窄。参数m和k可以由用户指定。

步骤5-3)确定误差标准差σ的先验分布ρ(σ)

假定(表示σ服从逆卡方分布)。采用了一种基于数据的方法来帮助用户确定逆卡方分布的超参数参数ν，λ。首先，根据计算训练集中肽段定量效率Y的样本标准差作为σ的上限估计。然后，选择v和λ使得σ的q分位数落在处，即本发明使用q为0.90。建议v可以在3到10之间选择。

步骤5-4)贝叶斯累加回归树是可以看作是一种贝叶斯“树和”模型，表示如下：

其中Y表示因变量，也就是计算得到的肽段定量效率，N(0,δ²)表示均值为0的标准正态分布。x表示样本特征，也就是上述计算得到的587种物理化学性质。T_j表示第j棵二叉树。学习后的二叉树的每个内部节点上都有决策规则，每个叶节点上都会被赋一个权值。每个样本经过决策规则判定之后都会被分配到一个叶节点上。M_j＝(μ_1j,μ_2j,μ_3j,…,μ_bj)表示树T_j上的b个叶子节点的权值集合。给定树T_j和权值集合M_j之后，就可以使用g(x；T_j,M_j)来确定赋值给T_j的每个叶节点上的权值。g(x；T_j,M_j)会使得与x相关联的所有叶子节点的权值之和等于期望E(Y|x)，即使用数据x构建的树(T_j,M_j)计算得到的肽段可检测性。

为了方便模型实现，需要对模型做一下简化。假设每两棵二叉树之间是独立的，则下式成立：

再假设每一个单棵二叉树上的所有叶节点之间是独立的，那么就有

经过上述两步假设之后先验选择问题就简化为了确定ρ(T_j)，ρ(μ_ij|T_j)和ρ(σ)的问题。将所述的步骤5-1)得到的ρ(T_j)，步骤5-2)得到的ρ(μ_ij|T_j)和步骤5-3)得到的ρ(σ)代入上式，即可确定m棵树的先验概率ρ((T₁,M₁),…,(T_m,M_m),δ)。

步骤5-5)得到参数的先验分布后，便可以使用贝叶斯后向拟合MCMC算法(参考文献：Hastie,T.&Tibshirani,R.(2000),‘Bayesian backfitting’,Statistical Science15(3),196-223)进行求解，从而数值模拟出贝叶斯累加回归树模型。

在上述技术方案中，在所述的步骤6)中，预测所有鉴定蛋白的鉴定肽段的肽段定量效率包括：

步骤6-1)计算所有蛋白的鉴定肽段的物理化学性质作为这些肽段的量化特征。此处的物理化学性质与所述的步骤2)中的物理化学性质相同。

步骤6-2)将所述的步骤6-1)中得到的所有肽段的量化特征代入到训练好的贝叶斯累加回归树模型中，计算得到这些肽段的肽段定量效率。

本发明还提供了一种可将本发明提出的肽段质谱信号强度校正系数用于大规模蛋白质无标定量的肽段质谱信号强度校正装置。包括：蛋白质鉴定和肽段信号强度计算模块、肽段定量效率预测模块，肽段信号强度校正模块。

所述的蛋白质鉴定和肽段信号强度计算模块利用蛋白质鉴定软件来完成谱图的基础解析工作，利用肽段质谱信号提取工具来计算肽段的质谱信号强度。

所述的肽段定量效率预测模块包括以下部分：

1)构建肽段定量效率预测模型训练集；

2)训练肽段定量效率预测模型；

3)预测测试集肽段的肽段定量效率。

所述的肽段信号强度校正模块利用上述计算的肽段定量效率对肽段的原始质谱信号强度进行校正。

本发明具有以下优点：

1.首次提出了肽段定量效率的概念。肽段定量效率是对肽段谱图信号在定量方面的表征。今后肯定会被越来越多的用于蛋白质绝对定量。

2.提出了一个启发式估计高可信蛋白的最大信号强度肽段的肽段定量效率的方法。

3.模型的在线训练。本发明的方法使用高可信肽段构建训练集，在线训练肽段定量效率，排除了实验操作，实验仪器等引起的误差。

附图说明

图1为本发明的算法流程图；

图2为鉴定到的P01008ups蛋白的15个肽段的质谱信号强度示意图；

图3为在BART模型中，当参数αβ参数选择对节点生长概率的影响示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的说明。

假设有一个蛋白质样品。首先通过现有的生物化学技术将该蛋白质混合样品酶解形成肽段混合物溶液，然后经液相色谱-质谱联用技术产生实验串联质谱数据。该串联质谱数据包含色谱保留时间、粒子质量电荷比，质谱响应信号强度三维信息。接着，需要先通过肽段信号强度提取工具从谱图数据中提取肽段的质谱信号强度，例如MaxQuant(参考文献：Cox,J.and Mann,M.MaxQuant enables high peptide identification rates,individualized p.p.b.-range mass accuracies and proteome-wide proteinquantification.Nat Biotechnol,2008,26,pp 1367-72)就有相应的功能。还需要利用鉴定软件确定谱图中有哪些肽段和蛋白及肽段和蛋白的关系。例如，MaxQuant、pFind(参考文献：Wang L.H.et al..pFind 2.0:a software package for peptide and proteinidentification via tandem mass spectrometry.Rapid Commun Mass Spectrom,2007,21,2985–2991)等软件皆有此功能。由于肽段的物理化学性质的不同，其在质谱中的质谱响应强度与其实际浓度并没有直接的线性关系。例如，即使来自于同一个蛋白的肽段，如图2所示，其质谱响应强度也有很大的差别。因此，为了准确的进行蛋白质绝对定量，很有必要对肽段的原始质谱响应强度做一下校正。

下面基于上述背景数据，并参考图1，对本发明方法的具体实现过程加以说明。

首先考察每个蛋白鉴定到的肽段情况。构建训练集的时候仅考虑唯一肽段数目至少为5个的蛋白的肽段。所述的唯一肽段是指在所有鉴定到的蛋白中唯一在一个蛋白组出现的肽段。此处所述的蛋白组是指经过蛋白装配之后得到的同组蛋白集合。与唯一肽段相反的就是共享肽段。例如，

鉴定到了蛋白A、B、C，其中与蛋白A关联的鉴定肽段有a、b；与蛋白B关联的鉴定肽段有b、c；与蛋白C关联的鉴定肽段有c、d。那么因为肽段b既在蛋白A中出现过，又在蛋白B中出现过，所以肽段b是共享肽段。同理，肽段c也是共享肽段。肽段a，d是唯一肽段。

下面，将训练集中的肽段进行特征量化。肽段本质上是由氨基酸组成的一段有序序列。氨基酸的一种表示方式是：一个大写字母表示一个氨基酸，例如丙氨酸可以由字母A表示，半胱氨酸可以由字母C表示。这样肽段就可以表示成一串字母序列。下面以肽段ARNDCEQK为例来说明肽段的特征表示。在质谱仪中，过短或者过长的肽段都不能被检测到，因此肽段长度是影响其能否被检测到的重要因素。以该肽段为例，该肽段的长度为8。胰蛋白酶通常会从赖氨酸或者精氨酸的N端将蛋白质序列酶切成肽段，因此普遍认为肽段内部(非C端)中出现的赖氨酸(K)或者精氨酸(R)是漏切造成的。肽段的酶切情况会对肽段的质谱信号产生很大的影响，因此，肽段中的漏切位点的数目也是一个比较重要的特征。例如，肽段ARNDCEQK中就有一个漏切位点R。肽段中每个氨基酸的质量相加，得到肽段质量为963.43Da。在生物学中，常用的氨基酸有20种，本发明以20维的氨基酸频率向量来表示肽段中氨基酸的组成结构。例如，固定一种氨基酸排序方式，统计肽段ARNDCEQK中每个氨基酸出现的次数，恰巧都为1，然后除以该肽段的长度8，那么每个氨基酸对应位置的特征值都为1/8，其余氨基酸位置处的特征值为0。按照AAindex数据库中的知识，每个氨基酸有544种量化的物理理化性质，将肽段中的氨基酸的量化特征求均值作为肽段的特征。例如：假设肽段ARNDCEQK中每个氨基酸的544种理化性质为：

氨基酸A->

氨基酸R->

氨基酸N->

氨基酸D->

氨基酸C->

氨基酸E->

氨基酸Q->

氨基酸K->

则该肽段的特征为

其中均表示1x544的向量。

最后，参照参考文献(Braisted,J.C.et al.BMC Bioinformatics 9,529(2008)，Webb-Robertson,B.J.et al.Bioinformatics 26,1677-1683(2010)，Eyers,C.E.etal.Mol Cell Proteomics 10,M110 003384(2011)，Tang,H.et al.Bioinformatics 22,e481-488(2006))，计算最后20种肽段的物理化学性质。值得注意的是，计算这些特征的时候，不仅使用了肽段本身的氨基酸序列信息，还使用了肽段附近相邻的氨基酸序列的信息。

本发明方法提出了一个新的概念-肽段定量效率。肽段定量效率描述了肽段质谱响应信号强度与其实际浓度之间的关系。由于肽段的实际浓度是未知的，因此准确的计算肽段定量效率是不可能的。但是可以近似的来计算肽段定量效率。在本发明所构建的训练集中，筛选的都是高可信的蛋白。对于这些蛋白，可以根据本发明提出的启发式方法估计每个蛋白中的信号强度最大肽段的肽段定量效率。即

然后，再根据每个蛋白的信号强度最大肽段的肽段定量效率去推断其他肽段的肽段定量效率。计算公式如下：

将估算的这些肽段的肽段定量效率作为训练集的响应变量。在得到训练集之后，就可以开始训练贝叶斯累加回归树模型(BART)了。首先，需要确定BART的必要参数。如上所述，本发明假定每棵树上节点还会生长的概率为

α(1+d)^-β,α∈(0,1),β∈[0,∞)

其中，d表示该节点的深度，α，β是用户可以指定的参数。

一般来说，本发明假定α＝0.95,β＝1.0,如图3所示在这种假定下，节点生长的概率就被控制在(0,0.5)之间，树的深度越深，树的生长越困难，可以很好的控制树的大小。

在考虑确定条件先验概率ρ(μ_ij|T_j)时，一般对k取值为2。因为在理论上，如果一个变量符合正态分布，那么它落在距均值2倍标准差区间的可能性已经达到了95.44％。

在考虑确定误差先验分布ρ(σ)时，本发明方法采用基于数据的估计方式来确定方差的估计值使用Y的样本标准差作为方差的估计值然后选择合适的ν，λ使得恰巧作为σ分布的q分位点，即本发明推荐的参数设置，也是在本发明中使用的默认参数，为(υ，q)＝(3,0.9)。

在本发明的方法中，用户可以指定树的数目m，默认设置为m＝200。

确定了模型的先验分布之后，就可以使用贝叶斯后向拟合MCMC算法进行模型求解了。

同上述计算肽段的量化特征方法类似，计算所有鉴定蛋白的所有肽段的量化特征，然后带入BART模型，即可得到所有肽段的定量效率。

至此，本发明的上述操作已经完成了预测所有鉴定肽段的肽段定量效率的工作。

所述的肽段定量效率预测模块包括以下部分：

1)构建肽段定量效率预测模型训练集；

2)训练肽段定量效率预测模型；

3)预测测试集肽段的肽段定量效率。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种蛋白质组学中肽段的肽段定量效率预测方法，其步骤包括：

1)筛选出高可信蛋白，将高可信蛋白的鉴定肽段作为高可信肽段；

2)计算所述高可信肽段的物理化学性质和肽段定量效率；其中，所述肽段定量效率为肽段的质谱信号强度对肽段的真实量的反应程度；

3)基于高可信肽段的物理化学性质和肽段定量效率，构建预测肽段定量效率模型的训练集；然后利用该训练集训练得到肽段定量效率预测模型；

4)利用所述肽段定量效率预测模型预测鉴定蛋白的各鉴定肽段的肽段定量效率。

2.如权利要求1所述的方法，其特征在于，所述高可信蛋白为至少包含N个唯一肽段的蛋白；所述唯一肽段是指在已鉴定到的蛋白中唯一在一个蛋白组出现的肽段；所述蛋白组是指经过蛋白装配之后得到的同组蛋白集合。

3.如权利要求1所述的方法，其特征在于，计算所述肽段定量效率的方法为：对于每一所述高可信蛋白i，首先计算该高可信蛋白i的信号强度最高的肽段的定量效率；Q_i,j表示高可信蛋白i的肽段j的肽段定量效率，Q_i,max＝max_j Q_i,j表示高可信蛋白i的信号强度最高的肽段的定量效率；其中，通过公式计算Q_i,max的估计值作为Q_i,max；n_i表示高可信蛋白i的期望肽段数目；然后利用公式计算所述高可信蛋白i的其他鉴定肽段的肽段定量效率；其中，I_i,j为高可信蛋白i的肽段j的质谱信号强度，I_i,max为高可信蛋白i的所有肽段的质谱信号强度中的最大值。

4.如权利要求1所述的方法，其特征在于，构建所述训练集的方法为：将高可信肽段的物理化学性质作为训练集的自变量，将高可信肽段的肽段定量效率作为训练集的因变量，构建所述训练集。

5.如权利要求1所述的方法，其特征在于，所述肽段定量效率预测模型为贝叶斯累加回归树模型；训练得到所述贝叶斯累加回归树模型的方法为：

5-1)确定贝叶斯累加回归树的生成先验概率ρ(T_j)，其中T_j表示第j棵树；确定条件先验ρ(μ_ij|T_j)，其中μ_ij表示第j棵树上第i个叶节点上的权值，μ_ij是独立同分布的；确定误差标准差σ的先验ρ(σ)；

5-2)将ρ(T_j)、ρ(μ_ij|T_j)和ρ(σ)代入ρ((T₁,M₁),…,(T_m,M_m),δ)＝[∏_jρ(M_j|T_j)ρ(T_j)]ρ(σ)，确定贝叶斯累加回归树中m棵树的先验概率ρ((T₁,M₁),…,(T_m,M_m),δ)；

5-3)根据步骤5-2)得到的先验概率ρ((T₁,M₁),…,(T_m,M_m),δ)，使用贝叶斯后向拟合MCMC算法进行求解，得到所述贝叶斯累加回归树模型。

6.如权利要求5所述的方法，其特征在于，确定第j棵树T_j的生成先验概率ρ(T_j)的方法为：设置T_j中每一节点的生长概率为：α(1+d)^-β,α∈(0,1),β∈[0,∞)；其中，d表示节点的深度，α、β是指定的参数；使用随机分布来决定中间节点指派***变量的分布；使用随机分布来挑选***变量的***准则。

7.如权利要5所述的方法，其特征在于，所述条件先验ρ(μ_ij|T_j)服从正态分布；先验ρ(σ)为逆卡方分布。