CN108388774B

CN108388774B - 一种多肽谱匹配数据的在线分析方法

Info

Publication number: CN108388774B
Application number: CN201810042887.9A
Authority: CN
Inventors: 梁锡军; 王永响; 渐令; 宋允全
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2021-07-23
Anticipated expiration: 2038-01-17
Also published as: CN108388774A

Abstract

本发明公开了一种多肽谱匹配数据的在线分析方法，适于从高通量串联质谱平台及数据库匹配引擎输出的多肽谱匹配中鉴定正确的匹配。主要步骤包括数据预处理、使用在线学习算法求解优化模型、根据训练得出的分类函数鉴定正确的多肽谱匹配。该技术通过积极集存贮并动态更新对分类函数起作用的样本，实现了大规模多肽谱匹配数据的高效鉴定，克服了现有方法在大规模数据集上存储量大、计算缓慢的缺陷。

Description

一种多肽谱匹配数据的在线分析方法

技术领域

本发明涉及一种数据分析方法，尤其涉及一种多肽谱匹配数据的在线分析方法。

背景技术

生物质谱技术为蛋白质鉴定提供了高通量、高灵敏度的分析平台，是蛋白质组鉴定的核心技术。鸟枪法结合数据库搜索策略是大规模蛋白质组鉴定的主流方法，其主要鉴定步骤为：(1)酶切：加入特定的酶，将含有蛋白质混合物的生物样品酶切为多肽混合物；(2)生成质谱：通过碰撞解离将分离出来的多肽裂解为碎片离子，送入质谱仪分析其质谱图；(3)用数据库匹配软件比对实验质谱与数据库中的理论质谱，确定最优的多肽质谱匹配(Peptide Spectrum Match,PSM)，进而确定多肽的氨基酸序列；(4)依据鉴定出的多肽的氨基酸序列分析并推导出样品中蛋白质的氨基酸序列。

由于生物样品和生物实验的复杂性，串联质谱平台输出的质谱图中含有大量噪声，导致数据库搜索引擎给出的多肽谱匹配结果中有大量错误的匹配。当前主流搜索软件给出的PSM匹配中，正确匹配的数目通常占PSM总数的不足50％。

从数据库搜索引擎给出的大量多肽谱匹配中鉴定出正确匹配的数据分析任务称为多肽谱匹配鉴定。目前多肽谱匹配鉴定的主流技术有两类。第一类是以PeptideProphet为代表的基于统计的方法。该类方法假定PSM样本从一个混合分布中抽样得到，并采用期望最大化方法计算每个PSM正确的概率。第二类是以Percolator为代表的基于核的机器学习技术。该类方法采用基于核的支持向量机迭代地校正模型以拟合目标PSM，并最终给出PSM的评分。

多肽谱匹配鉴定是一类特殊的半监督学习任务。公告号为CN106156805A的发明所公开的专利技术可用于该问题的数据分析。该发明将匹配到诱骗谱上的PSM视为有确定性标号的样本，将其余的PSM视为未标号的样本，采用半监督学习技术从未标号样本中鉴别正确的多肽谱匹配。在多个实验数据集上，该方法的PSM鉴定数目等性能指标超过了两种主流方法PeptideProphet和Percolator。

公告号为CN106156805A的发明提出的模型可等价地化为DC规划模型，并采用经典的CCCP算法求解，进而训练出分类函数以鉴定正确的多肽谱匹配。该技术可简述如下：

设预处理后的训练样本为

其中，N为所有PSM训练样本的个数,x_i∈R^d为数据库搜索引擎输出的多肽谱匹配,y_i∈{-1,+1}，负类样本(诱骗PSM)标签为“-1”，其余样本(目标PSM)标签为“+1”。记

Ω_-＝{i|y_i＝-1},Ω₊＝{i|y_i＝+1}。

若嵌入经典的C-SVM(支持向量分类机)，则公告号为CN106156805A的发明提出的模型可化为：

其中，w∈R^N,θ＝[θ₁,...,θ_N]^T∈R^N是模型待求解的决策变量，θ_i∈[0,1]表征第i个样本标签的置信度，C₁＞0,C₂＞0,λ＞0为模型参数，C₁表示负类样本(诱骗PSM)经验损失的权重，C₂表示正类样本(目标PSM)经验损失的权重，h(t)＝max(0,1-t)为损失函数,决策函数f(x)＝<w,φ(x)>，φ(·)为特征映射。模型(1)与下面的模型等价(具有相同的最优解w)：

其中，w∈R^N,

为常数，R_γ(t)＝min(1-γ,max(0,1-t))为正类样本的损失函数。模型(2)可化为标准的DC规划：

其中h_γ(t)＝max(0,γ-t)。进一步，采用DC规划的经典批处理算法——CCCP算法求解。

算法1.标准批处理CCCP算法求解模型(2)

步1.初始化：置w⁰←0,k＝0；

步2.步2-1.重复迭代：

w^k+1＝argmin_w J_vex(w)+J′_cav(w^k)w (4)

置k←k+1，直到收敛.

上述数据分析技术与公告号为CN106156805A的发明所公开的数据分析方法虽然可以直接调用通用的非线性规划软件包求解相应的模型并鉴定正确的多肽谱匹配，但存在以下重要缺陷：(1)在求解子问题(4)时，需要存贮规模为N×N的稠密的核矩阵，算法所需存贮量为O(N²)，因此仅适用于较小规模的数据集，不能满足高通量质谱平台产生的大规模多肽谱匹配数据的分析需求；(2)仅适用于批处理环境(即预先已知全部样本的情形)下的数据分析，不适于高通量质谱平台实时产生的多肽谱匹配数据的在线即时分析。

针对该问题,本发明公开了一种多肽谱匹配数据的在线分析方法。该方法实现了高通量质谱平台产生的大规模多肽谱匹配数据的高效鉴定，并且鉴定性能在多个指标下超过了目前主流方法。该方法同时适用于多肽谱匹配数据流的分析，可实时地对多肽谱匹配样本进行鉴定。

发明内容

本发明解决大规模多肽谱匹配鉴定问题所采用的技术方案是使用积极集存贮并动态更新起作用的样本，使用在线学习算法训练分类函数并对多肽谱匹配样本进行鉴定。该方法主要包括以下步骤：

步骤1、数据预处理：将样本数据的每个特征转换为数值型数据，去除冗余特征，将每个特征的数据进行归一化处理。

步骤2、选取核函数k(x_i,x_j)并确定模型参数C₁,C₂和γ的值。

步骤3、采用在线学习算法训练分类函数

鉴定正确的多肽谱匹配。

记预处理后的多肽谱匹配样本为

其中，N为所有训练样本的个数,x_i∈R^d为数据库搜索引擎输出的多肽谱匹配,y_i∈{-1,+1}，负类样本(诱骗PSM)标签为“-1”，其余样本(目标PSM)标签为“+1”，使用在线学习算法求解模型(2),训练分类器

步骤4、依据训练得出的分类函数

鉴定正确的多肽谱匹配。

各步骤的详细说明

步骤1、数据归一化：将样本的各个特征的数据做平移和放缩，将其转化为均值为0、方差为1的向量。

步骤2、选取高斯核函数

其中σ＞0为常数；采用交叉验证的方法选取模型参数C₁和C₂，其中C₂≥C₁＞0，参数γ可取值为0。

步骤3、采用在线学习算法求解模型(2)。该步骤是本发明的关键技术。

在线学习算法的技术特点是使用积极集S存贮对模型训练起作用的样本。接收新的PSM样本后，算法立即将接收的PSM样本加入积极集S，并以积极集S中的样本为训练样本，按算法1的迭代框架求出最优解，直至接收并处理完全部样本。

在线学习算法的核心是求解子问题(4)。由于子问题(4)中含有未知的特征映射

本发明将子问题(4)转化为如下的对偶规划问题求解：

其中，

在线学习算法的基本模块

在线学习算法的第一个基本模块是子程序Update()。该子程序将解的指定分量置为0(步1)并更新梯度向量(步2)。

子程序1.Update(i)

输入：指标i

步1.α_j←0，其中,j∈S且下界A_j或上界B_j发生改变；

α_i←0；

步2.对于所有j∈S,置g_j←y_j-∑_s∈Sα_sK_js，其中K_js＝k(x_j,x_s)。

在线学习算法的第二个基本模块是子程序Process()。该子程序在上下界约束条件下，从积极集中选取一个指标(步1─步3)。选取的准则是：沿相应坐标方向，目标函数值下降最快。子程序接下来计算相应的步长(步4)，并更新解的相应分量和梯度向量(步5)。

子程序2.flag＝Process()

输入：无

输出：flag＝1：未找到下降方向；

flag＝0：找到下降方向；

参数:τ：大于0的较小的数，子程序终止时关于梯度的容许度。

步1.i←argmin{g_s|α_s＞A_s,s∈S}

j←argmax{g_s|α_s＜B_s,s∈S}

步2.若max(g_j-g_i)≤τ，则

flag＝1，子程序终止；

否则，flag＝0；

步3.若(-g_i＞τ,g_j＜τ)或(-g_i＞τ,g_j＞τ且-g_i＞g_j)，则

u←g_i,t←i；

否则，u←g_j,t←j；

步4.若u＜0，则

否则，

其中K_tt＝k(x_t,x_t).

步5.置α_t←α_t+λ；置g_s←g_s-λK_is，

在线学习算法的第三个基本模块是子程序Clean()。它负责从积极集清除部分指标以节省存贮空间并提高计算效率。该子程序依据特定规则从积极集中选取候选PSM样本的指标(步1──步2)，并从候选指标中清除指定数目的具有最大梯度分量的指标(步3)。

子程序3Clean()

参数:ρ∈(0,1)：移除指标的最大比例；

μ_safe,μ_safe-target：选择候选PSM样本的阈值；

步1、置

步2、选取候选PSM样本的指标，构成S的子集V：

步3、若|V|≤ρ|S|，则从S中移除V中所有的指标；

否则，从V中选取梯度分量g_i最大的m个指标并从S中移除，m＝ρ|S|。

基于上述三个基本模块，本发明公开如算法2所示的在线学习算法求解模型(2)。在线学习算法接收一个新的样本点后，立即更新对偶子问题(5)的解α、积极集S以及梯度向量g。算法的迭代格式如下：首先初始化解向量α及积极集S(步1)，接受一个新的样本点后，算法更新下界A_j和上界B_j,j∈Ω₊(步2-1)，求解以S中的样本为训练集的对偶子问题(5)(步2-2，步2-3)，周期性地执行Clean()子程序，从积极集S中清除部分冗余样本(步2-4)。

算法2.多肽谱匹配鉴定的在线学习算法

参数：M：启动CCCP迭代时，积极集S最少的元素个数；

τ＞0：求解对偶问题(5)的精确度；

步1.初始化：置η←0,α←0，

步2.在线迭代：

当一个新的PSM样本{x_i,y_i}进入时，i＝1,2,…

步2-1.更新下界A_j和上界B_j：

置S←S∪{i}；，

置

计算A_j＝min(0,C₂y_j)-C₂η_jy_j,B_j＝max(0,C₂y_j)-C₂η_jy_j，

步2-2.执行Update(i)

步2-3.置flag←0

While(flag＝＝0)

flag←Process()

End while

步2-4.周期性地执行Clean()。

算法2描述了在线学习环境下，多肽谱匹配数据的分析方法。在批处理环境下，已知PSM数据集的全部样本，则将样本随机地逐一输入算法进行分析。

步骤4.依据训练得出的分类函数

鉴定正确的多肽谱匹配。

记α^*∈R^N为算法2输出的最优解，则算法2训练的分类函数有如下形式：

其中，x∈R^d为PSM样本各个特征构成的向量。

对于PSM样本(x_i,y_i)，按下面的公式计算其得分

将所有PSM样本的得分从高到低排序，并在给定的FDR水平下输出得分较高的PSM。这些得分高的PSM即为算法鉴定出的正确的多肽谱匹配。

本发明的有益效果

(1)实现了大规模PSM数据的高灵敏度分析和鉴定，所公开的在线分析方法大幅度减少了对存储量的要求，提高了计算速度，克服了现有技术分析大规模PSM数据集的困难。

(2)所公开的在线学习算法实现了PSM数据的实时在线分析。

附图说明

图1为本发明所公开的多肽谱匹配数据的在线分析方法的流程图，其主体部分是通过在线学习算法训练分类函数

在线学习算法在接收新的PSM样本点后立即将其加入积极集S，接下来更新上下界A_j,B_j,j∈Ω₊∩S，求解对偶子问题，并周期性地移除积极集中的冗余样本。在线学习算法通过训练出的分类函数

计算PSM样本的得分并鉴定正确的多肽谱匹配。图2、图3和图4分别画出了本发明所公开的在线分析方法和批处理算法在Ups1、Yeast和Tal08数据集上30次运行的PSM鉴定数目。每次运行均随机选取2/3的样本作为训练集。

具体实施方式

下面结合附图和实例对本发明做进一步说明。选取4个多肽谱匹配鉴定数据集对所公开方法的有效性进行测试。表1列出了这4个数据集的样本总数、诱骗PSM的数目及目标PSM的数目。每个数据集均按照2:1的比例随机分成两个子集合——训练集和测试集。本发明公开的在线分析方法在训练集上训练，得到分类函数，在独立的测试集上测试分类函数的性能。优化模型(2)的参数C₁,C₂通过交叉验证选取，参数γ在各个数据集上均取值为0。在各个数据集上，算法2中的参数取值为M＝1000,τ＝0.05,ρ＝0.25,μ_safe＝0.3。参数μ_safe-target在3个小规模数据集上取值为0.3，在大规模的tal08-large数据集上取值为+∞。

表1数据集

表2列出了本发明采用的方法与当前主流方法PeptideProphet和Percolator鉴定出的PSM数目的比较，其中，FDR＝2×FP/(TP+FP)，FDR取公认的0.05的水平，TP为鉴定出的正类样本中正确匹配(目标PSM)的个数，FP为鉴定出的正类样本中错误匹配(诱骗PSM)的个数。由表2可见，本发明采用的方法鉴定的正确匹配的个数比PeptideProphet和Percolator多2.6％～16.6％。可见，在该指标下，本发明公开的方法在所测试的数据集上优于另外两种方法。

表2本发明方法与PeptideProphet和Percolator鉴定结果比较(FDR＝0.05)

为测试本发明公开的在线学***均计算时间为

可实现实时鉴定。在其他3个数据集上，在线学***均计算时间与Ups1数据集大致相同。在各个数据集上，测试集鉴定比率(测试集上鉴定出的PSM数目与PSM鉴定总数之比)接近理想比率1/3，说明本发明所公开方法训练得到的分类函数有良好的推广性能。

表3本发明方法与批处理算法的运算时间和PSM鉴定结果的比较

为比较批处理算法与本发明所公开的在线学习算法的稳定性，将训练集和测试集按2:1的比例多次随机抽样，分别执行两种算法，各重复30次。图2、图3和图4分别画出了两种算法在Ups1、Yeast和Tal08数据集上30次运行的PSM鉴定数目。Ups1数据集(图2)上，批处理算法第8次运行鉴定数目明显少；Yeast数据集(图3)上，两种算法都有稳定的鉴定性能；Tal08数据集(图4)上，批处理算法第21次运行鉴定的PSM数量明显较少，而在线学习算法鉴定结果较稳定。可见，本发明所公开的在线分析方法可以有效避免算法陷入较差的局部最优解从而导致鉴定结果较差的情况。

上述说明结合图表对本发明的具体实施方式进行了描述，但并不是对本发明保护范围的限制。在本发明的技术方案的基础上，相关技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种多肽谱匹配数据的在线分析方法，其特征在于所述方法包括以下步骤：

步骤1、数据预处理；

步骤2、选取核函数k(x_i，x_j)并确定模型参数C₁，C₂和γ的值；

步骤3、采用在线学习算法求解优化模型

其中，

为训练样本，x_i∈R^d为数据库搜索引擎输出的多肽谱匹配，y_i∈{-1，+1}，诱骗PSM标签为“-1”，目标PSM标签为“+1”，Ω_-＝{i|y_i＝-1}，Ω₊＝{i|y_i＝+1}，w∈R^N是模型待求解的决策变量，C₁＞0，C₂＞0，λ＞0为模型参数，C₁表示负类样本经验损失的权重，C₂表示正类样本经验损失的权重，h(t)＝max(0，1-t)为负类样本损失函数，R_γ(t)＝min(1-γ，max(0，1-t))为正类样本的损失函数，γ＜1为常数，f(x)＝<w，φ(x)>，φ(·)为特征映射；

步骤4、依据训练得出的分类函数

鉴定正确的多肽谱匹配；

步骤3中的优化模型采用如下在线学习算法求解：

步1、初始化：置η←0，α←0，

步2、在线迭代：

当一个新的PSM样本{x_i，y_i}进入时，i＝1，2，…

步2-1更新下界A_j和上界B_j：

置S←S∪{i}；

置

；

计算A_j＝min(0，C₂y_j)-C₂η_jy_j，B_j＝max(0，C₂y_j)-C₂η_jy_j，

步2-2执行Update(i)；

步2-3置flag←0

While(flag＝＝0)

flag←Process()

End while

步2-4定期执行Clean()；

上述在线学习算法含有如下三个子程序作为基本模块：

子程序1 Update(i)

输入：指标i；

步1、α_j←0，其中，j∈S且下界A_j或上界B_j发生改变；

α_i←0；

步2、对于所有j∈S，置g_j←y_j-∑_s∈Sα_sK_js，其中K_js＝k(x_j，x_s)；

子程序2 flag＝Process()

输入：无；

输出：flag＝1：未找到下降方向；

flag＝0：找到下降方向；

参数τ：大于0的较小的数，子程序终止时梯度的容许度；

步1、i←arg min{g_s|α_s＞A_s，s∈S}

j←arg max{g_s|α_s＜B_s，s∈S}；

步2、若max(g_j-g_i)≤τ，则

flag＝1，子程序终止；

否则，flag＝0；

步3、若(-g_i＞τ，g_j＜τ)或(-g_i＞τ，g_j＞τ且-g_i＞g_j)，则

u←g_i，t←i；

否则，u←g_j，t←j；

步4、若u＜0，则

否则

其中K_tt＝k(x_t，x_t)；

步5、置α_t←α_t+λ；置g_s←g_s-λK_is，

子程序3 Clean()

参数：ρ∈(0，1)：移除指标的最大比例；

μ_safe，μ_safe-target：选择候选PSM样本的阈值；

步1、置

步2、选取候选PSM样本的指标，构成S的子集V：

V←{i∈S|α_i＝0且((y_i＝-1，g_i≥μ_safe)或(y_i＝+1，g_i≥1-γ+μ_safe)或(y_i＝+1，g_i≤-μ_safe-target))}；

步3、若|V|≤ρ|S|，则从S中移除V中所有的指标；