CN108388774B - 一种多肽谱匹配数据的在线分析方法 - Google Patents

一种多肽谱匹配数据的在线分析方法 Download PDF

Info

Publication number
CN108388774B
CN108388774B CN201810042887.9A CN201810042887A CN108388774B CN 108388774 B CN108388774 B CN 108388774B CN 201810042887 A CN201810042887 A CN 201810042887A CN 108388774 B CN108388774 B CN 108388774B
Authority
CN
China
Prior art keywords
psm
flag
polypeptide
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810042887.9A
Other languages
English (en)
Other versions
CN108388774A (zh
Inventor
梁锡军
王永响
渐令
宋允全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201810042887.9A priority Critical patent/CN108388774B/zh
Publication of CN108388774A publication Critical patent/CN108388774A/zh
Application granted granted Critical
Publication of CN108388774B publication Critical patent/CN108388774B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种多肽谱匹配数据的在线分析方法,适于从高通量串联质谱平台及数据库匹配引擎输出的多肽谱匹配中鉴定正确的匹配。主要步骤包括数据预处理、使用在线学习算法求解优化模型、根据训练得出的分类函数鉴定正确的多肽谱匹配。该技术通过积极集存贮并动态更新对分类函数起作用的样本,实现了大规模多肽谱匹配数据的高效鉴定,克服了现有方法在大规模数据集上存储量大、计算缓慢的缺陷。

Description

一种多肽谱匹配数据的在线分析方法
技术领域
本发明涉及一种数据分析方法,尤其涉及一种多肽谱匹配数据的在线分析方法。
背景技术
生物质谱技术为蛋白质鉴定提供了高通量、高灵敏度的分析平台,是蛋白质组鉴定的核心技术。鸟枪法结合数据库搜索策略是大规模蛋白质组鉴定的主流方法,其主要鉴定步骤为:(1)酶切:加入特定的酶,将含有蛋白质混合物的生物样品酶切为多肽混合物;(2)生成质谱:通过碰撞解离将分离出来的多肽裂解为碎片离子,送入质谱仪分析其质谱图;(3)用数据库匹配软件比对实验质谱与数据库中的理论质谱,确定最优的多肽质谱匹配(Peptide Spectrum Match,PSM),进而确定多肽的氨基酸序列;(4)依据鉴定出的多肽的氨基酸序列分析并推导出样品中蛋白质的氨基酸序列。
由于生物样品和生物实验的复杂性,串联质谱平台输出的质谱图中含有大量噪声,导致数据库搜索引擎给出的多肽谱匹配结果中有大量错误的匹配。当前主流搜索软件给出的PSM匹配中,正确匹配的数目通常占PSM总数的不足50%。
从数据库搜索引擎给出的大量多肽谱匹配中鉴定出正确匹配的数据分析任务称为多肽谱匹配鉴定。目前多肽谱匹配鉴定的主流技术有两类。第一类是以PeptideProphet为代表的基于统计的方法。该类方法假定PSM样本从一个混合分布中抽样得到,并采用期望最大化方法计算每个PSM正确的概率。第二类是以Percolator为代表的基于核的机器学习技术。该类方法采用基于核的支持向量机迭代地校正模型以拟合目标PSM,并最终给出PSM的评分。
多肽谱匹配鉴定是一类特殊的半监督学习任务。公告号为CN106156805A的发明所公开的专利技术可用于该问题的数据分析。该发明将匹配到诱骗谱上的PSM视为有确定性标号的样本,将其余的PSM视为未标号的样本,采用半监督学习技术从未标号样本中鉴别正确的多肽谱匹配。在多个实验数据集上,该方法的PSM鉴定数目等性能指标超过了两种主流方法PeptideProphet和Percolator。
公告号为CN106156805A的发明提出的模型可等价地化为DC规划模型,并采用经典的CCCP算法求解,进而训练出分类函数以鉴定正确的多肽谱匹配。该技术可简述如下:
设预处理后的训练样本为
Figure GDA0001613651410000011
其中,N为所有PSM训练样本的个数,xi∈Rd为数据库搜索引擎输出的多肽谱匹配,yi∈{-1,+1},负类样本(诱骗PSM)标签为“-1”,其余样本(目标PSM)标签为“+1”。记
Ω-={i|yi=-1},Ω+={i|yi=+1}。
若嵌入经典的C-SVM(支持向量分类机),则公告号为CN106156805A的发明提出的模型可化为:
Figure GDA0001613651410000021
其中,w∈RN,θ=[θ1,...,θN]T∈RN是模型待求解的决策变量,θi∈[0,1]表征第i个样本标签的置信度,C1>0,C2>0,λ>0为模型参数,C1表示负类样本(诱骗PSM)经验损失的权重,C2表示正类样本(目标PSM)经验损失的权重,h(t)=max(0,1-t)为损失函数,决策函数f(x)=<w,φ(x)>,φ(·)为特征映射。模型(1)与下面的模型等价(具有相同的最优解w):
Figure GDA0001613651410000022
其中,w∈RN,
Figure GDA0001613651410000023
为常数,Rγ(t)=min(1-γ,max(0,1-t))为正类样本的损失函数。模型(2)可化为标准的DC规划:
Figure GDA0001613651410000024
其中hγ(t)=max(0,γ-t)。进一步,采用DC规划的经典批处理算法——CCCP算法求解。
算法1.标准批处理CCCP算法求解模型(2)
步1.初始化:置w0←0,k=0;
步2.步2-1.重复迭代:
wk+1=argminw Jvex(w)+J′cav(wk)w (4)
置k←k+1,直到收敛.
上述数据分析技术与公告号为CN106156805A的发明所公开的数据分析方法虽然可以直接调用通用的非线性规划软件包求解相应的模型并鉴定正确的多肽谱匹配,但存在以下重要缺陷:(1)在求解子问题(4)时,需要存贮规模为N×N的稠密的核矩阵,算法所需存贮量为O(N2),因此仅适用于较小规模的数据集,不能满足高通量质谱平台产生的大规模多肽谱匹配数据的分析需求;(2)仅适用于批处理环境(即预先已知全部样本的情形)下的数据分析,不适于高通量质谱平台实时产生的多肽谱匹配数据的在线即时分析。
针对该问题,本发明公开了一种多肽谱匹配数据的在线分析方法。该方法实现了高通量质谱平台产生的大规模多肽谱匹配数据的高效鉴定,并且鉴定性能在多个指标下超过了目前主流方法。该方法同时适用于多肽谱匹配数据流的分析,可实时地对多肽谱匹配样本进行鉴定。
发明内容
本发明解决大规模多肽谱匹配鉴定问题所采用的技术方案是使用积极集存贮并动态更新起作用的样本,使用在线学习算法训练分类函数并对多肽谱匹配样本进行鉴定。该方法主要包括以下步骤:
步骤1、数据预处理:将样本数据的每个特征转换为数值型数据,去除冗余特征,将每个特征的数据进行归一化处理。
步骤2、选取核函数k(xi,xj)并确定模型参数C1,C2和γ的值。
步骤3、采用在线学习算法训练分类函数
Figure GDA0001613651410000031
鉴定正确的多肽谱匹配。
记预处理后的多肽谱匹配样本为
Figure GDA0001613651410000032
其中,N为所有训练样本的个数,xi∈Rd为数据库搜索引擎输出的多肽谱匹配,yi∈{-1,+1},负类样本(诱骗PSM)标签为“-1”,其余样本(目标PSM)标签为“+1”,使用在线学习算法求解模型(2),训练分类器
Figure GDA0001613651410000033
步骤4、依据训练得出的分类函数
Figure GDA0001613651410000034
鉴定正确的多肽谱匹配。
各步骤的详细说明
步骤1、数据归一化:将样本的各个特征的数据做平移和放缩,将其转化为均值为0、方差为1的向量。
步骤2、选取高斯核函数
Figure GDA0001613651410000035
其中σ>0为常数;采用交叉验证的方法选取模型参数C1和C2,其中C2≥C1>0,参数γ可取值为0。
步骤3、采用在线学习算法求解模型(2)。该步骤是本发明的关键技术。
在线学习算法的技术特点是使用积极集S存贮对模型训练起作用的样本。接收新的PSM样本后,算法立即将接收的PSM样本加入积极集S,并以积极集S中的样本为训练样本,按算法1的迭代框架求出最优解,直至接收并处理完全部样本。
在线学习算法的核心是求解子问题(4)。由于子问题(4)中含有未知的特征映射
Figure GDA0001613651410000041
本发明将子问题(4)转化为如下的对偶规划问题求解:
Figure GDA0001613651410000042
其中,
Figure GDA0001613651410000043
在线学习算法的基本模块
在线学习算法的第一个基本模块是子程序Update()。该子程序将解的指定分量置为0(步1)并更新梯度向量(步2)。
子程序1.Update(i)
输入:指标i
步1.αj←0,其中,j∈S且下界Aj或上界Bj发生改变;
αi←0;
步2.对于所有j∈S,置gj←yj-∑s∈SαsKjs,其中Kjs=k(xj,xs)。
在线学习算法的第二个基本模块是子程序Process()。该子程序在上下界约束条件下,从积极集中选取一个指标(步1─步3)。选取的准则是:沿相应坐标方向,目标函数值下降最快。子程序接下来计算相应的步长(步4),并更新解的相应分量和梯度向量(步5)。
子程序2.flag=Process()
输入:无
输出:flag=1:未找到下降方向;
flag=0:找到下降方向;
参数:τ:大于0的较小的数,子程序终止时关于梯度的容许度。
步1.i←argmin{gss>As,s∈S}
j←argmax{gss<Bs,s∈S}
步2.若max(gj-gi)≤τ,则
flag=1,子程序终止;
否则,flag=0;
步3.若(-gi>τ,gj<τ)或(-gi>τ,gj>τ且-gi>gj),则
u←gi,t←i;
否则,u←gj,t←j;
步4.若u<0,则
Figure GDA0001613651410000051
否则,
Figure GDA0001613651410000052
其中Ktt=k(xt,xt).
步5.置αt←αt+λ;置gs←gs-λKis
Figure GDA0001613651410000053
在线学习算法的第三个基本模块是子程序Clean()。它负责从积极集清除部分指标以节省存贮空间并提高计算效率。该子程序依据特定规则从积极集中选取候选PSM样本的指标(步1──步2),并从候选指标中清除指定数目的具有最大梯度分量的指标(步3)。
子程序3Clean()
参数:ρ∈(0,1):移除指标的最大比例;
μsafesafe-target:选择候选PSM样本的阈值;
步1、置
Figure GDA0001613651410000054
步2、选取候选PSM样本的指标,构成S的子集V:
Figure GDA0001613651410000055
步3、若|V|≤ρ|S|,则从S中移除V中所有的指标;
否则,从V中选取梯度分量gi最大的m个指标并从S中移除,m=ρ|S|。
基于上述三个基本模块,本发明公开如算法2所示的在线学习算法求解模型(2)。在线学习算法接收一个新的样本点后,立即更新对偶子问题(5)的解α、积极集S以及梯度向量g。算法的迭代格式如下:首先初始化解向量α及积极集S(步1),接受一个新的样本点后,算法更新下界Aj和上界Bj,j∈Ω+(步2-1),求解以S中的样本为训练集的对偶子问题(5)(步2-2,步2-3),周期性地执行Clean()子程序,从积极集S中清除部分冗余样本(步2-4)。
算法2.多肽谱匹配鉴定的在线学习算法
参数:M:启动CCCP迭代时,积极集S最少的元素个数;
τ>0:求解对偶问题(5)的精确度;
步1.初始化:置η←0,α←0,
Figure GDA0001613651410000061
步2.在线迭代:
当一个新的PSM样本{xi,yi}进入时,i=1,2,…
步2-1.更新下界Aj和上界Bj
置S←S∪{i};,
Figure GDA0001613651410000062
计算Aj=min(0,C2yj)-C2ηjyj,Bj=max(0,C2yj)-C2ηjyj
Figure GDA0001613651410000063
步2-2.执行Update(i)
步2-3.置flag←0
While(flag==0)
flag←Process()
End while
步2-4.周期性地执行Clean()。
算法2描述了在线学习环境下,多肽谱匹配数据的分析方法。在批处理环境下,已知PSM数据集的全部样本,则将样本随机地逐一输入算法进行分析。
步骤4.依据训练得出的分类函数
Figure GDA0001613651410000071
鉴定正确的多肽谱匹配。
记α*∈RN为算法2输出的最优解,则算法2训练的分类函数有如下形式:
Figure GDA0001613651410000072
其中,x∈Rd为PSM样本各个特征构成的向量。
对于PSM样本(xi,yi),按下面的公式计算其得分
Figure GDA0001613651410000073
将所有PSM样本的得分从高到低排序,并在给定的FDR水平下输出得分较高的PSM。这些得分高的PSM即为算法鉴定出的正确的多肽谱匹配。
本发明的有益效果
(1)实现了大规模PSM数据的高灵敏度分析和鉴定,所公开的在线分析方法大幅度减少了对存储量的要求,提高了计算速度,克服了现有技术分析大规模PSM数据集的困难。
(2)所公开的在线学习算法实现了PSM数据的实时在线分析。
附图说明
图1为本发明所公开的多肽谱匹配数据的在线分析方法的流程图,其主体部分是通过在线学习算法训练分类函数
Figure GDA0001613651410000074
在线学习算法在接收新的PSM样本点后立即将其加入积极集S,接下来更新上下界Aj,Bj,j∈Ω+∩S,求解对偶子问题,并周期性地移除积极集中的冗余样本。在线学习算法通过训练出的分类函数
Figure GDA0001613651410000075
计算PSM样本的得分并鉴定正确的多肽谱匹配。图2、图3和图4分别画出了本发明所公开的在线分析方法和批处理算法在Ups1、Yeast和Tal08数据集上30次运行的PSM鉴定数目。每次运行均随机选取2/3的样本作为训练集。
具体实施方式
下面结合附图和实例对本发明做进一步说明。选取4个多肽谱匹配鉴定数据集对所公开方法的有效性进行测试。表1列出了这4个数据集的样本总数、诱骗PSM的数目及目标PSM的数目。每个数据集均按照2:1的比例随机分成两个子集合——训练集和测试集。本发明公开的在线分析方法在训练集上训练,得到分类函数,在独立的测试集上测试分类函数的性能。优化模型(2)的参数C1,C2通过交叉验证选取,参数γ在各个数据集上均取值为0。在各个数据集上,算法2中的参数取值为M=1000,τ=0.05,ρ=0.25,μsafe=0.3。参数μsafe-target在3个小规模数据集上取值为0.3,在大规模的tal08-large数据集上取值为+∞。
表1数据集
Figure GDA0001613651410000081
表2列出了本发明采用的方法与当前主流方法PeptideProphet和Percolator鉴定出的PSM数目的比较,其中,FDR=2×FP/(TP+FP),FDR取公认的0.05的水平,TP为鉴定出的正类样本中正确匹配(目标PSM)的个数,FP为鉴定出的正类样本中错误匹配(诱骗PSM)的个数。由表2可见,本发明采用的方法鉴定的正确匹配的个数比PeptideProphet和Percolator多2.6%~16.6%。可见,在该指标下,本发明公开的方法在所测试的数据集上优于另外两种方法。
表2本发明方法与PeptideProphet和Percolator鉴定结果比较(FDR=0.05)
Figure GDA0001613651410000082
为测试本发明公开的在线学***均计算时间为
Figure GDA0001613651410000092
Figure GDA0001613651410000093
可实现实时鉴定。在其他3个数据集上,在线学***均计算时间与Ups1数据集大致相同。在各个数据集上,测试集鉴定比率(测试集上鉴定出的PSM数目与PSM鉴定总数之比)接近理想比率1/3,说明本发明所公开方法训练得到的分类函数有良好的推广性能。
表3本发明方法与批处理算法的运算时间和PSM鉴定结果的比较
Figure GDA0001613651410000094
为比较批处理算法与本发明所公开的在线学习算法的稳定性,将训练集和测试集按2:1的比例多次随机抽样,分别执行两种算法,各重复30次。图2、图3和图4分别画出了两种算法在Ups1、Yeast和Tal08数据集上30次运行的PSM鉴定数目。Ups1数据集(图2)上,批处理算法第8次运行鉴定数目明显少;Yeast数据集(图3)上,两种算法都有稳定的鉴定性能;Tal08数据集(图4)上,批处理算法第21次运行鉴定的PSM数量明显较少,而在线学习算法鉴定结果较稳定。可见,本发明所公开的在线分析方法可以有效避免算法陷入较差的局部最优解从而导致鉴定结果较差的情况。
上述说明结合图表对本发明的具体实施方式进行了描述,但并不是对本发明保护范围的限制。在本发明的技术方案的基础上,相关技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (1)

1.一种多肽谱匹配数据的在线分析方法,其特征在于所述方法包括以下步骤:
步骤1、数据预处理;
步骤2、选取核函数k(xi,xj)并确定模型参数C1,C2和γ的值;
步骤3、采用在线学习算法求解优化模型
Figure FDA0003082484100000011
其中,
Figure FDA0003082484100000012
为训练样本,xi∈Rd为数据库搜索引擎输出的多肽谱匹配,yi∈{-1,+1},诱骗PSM标签为“-1”,目标PSM标签为“+1”,Ω-={i|yi=-1},Ω+={i|yi=+1},w∈RN是模型待求解的决策变量,C1>0,C2>0,λ>0为模型参数,C1表示负类样本经验损失的权重,C2表示正类样本经验损失的权重,h(t)=max(0,1-t)为负类样本损失函数,Rγ(t)=min(1-γ,max(0,1-t))为正类样本的损失函数,γ<1为常数,f(x)=<w,φ(x)>,φ(·)为特征映射;
步骤4、依据训练得出的分类函数
Figure FDA0003082484100000013
鉴定正确的多肽谱匹配;
步骤3中的优化模型采用如下在线学习算法求解:
步1、初始化:置η←0,α←0,
Figure FDA0003082484100000014
步2、在线迭代:
当一个新的PSM样本{xi,yi}进入时,i=1,2,…
步2-1更新下界Aj和上界Bj
置S←S∪{i};
Figure FDA0003082484100000015
计算Aj=min(0,C2yj)-C2ηjyj,Bj=max(0,C2yj)-C2ηjyj
Figure FDA0003082484100000016
步2-2执行Update(i);
步2-3置flag←0
While(flag==0)
flag←Process()
End while
步2-4定期执行Clean();
上述在线学习算法含有如下三个子程序作为基本模块:
子程序1 Update(i)
输入:指标i;
步1、αj←0,其中,j∈S且下界Aj或上界Bj发生改变;
αi←0;
步2、对于所有j∈S,置gj←yj-∑s∈SαsKjs,其中Kjs=k(xj,xs);
子程序2 flag=Process()
输入:无;
输出:flag=1:未找到下降方向;
flag=0:找到下降方向;
参数τ:大于0的较小的数,子程序终止时梯度的容许度;
步1、i←arg min{gss>As,s∈S}
j←arg max{gss<Bs,s∈S};
步2、若max(gj-gi)≤τ,则
flag=1,子程序终止;
否则,flag=0;
步3、若(-gi>τ,gj<τ)或(-gi>τ,gj>τ且-gi>gj),则
u←gi,t←i;
否则,u←gj,t←j;
步4、若u<0,则
Figure FDA0003082484100000021
否则
Figure FDA0003082484100000022
其中Ktt=k(xt,xt);
步5、置αt←αt+λ;置gs←gs-λKis
Figure FDA0003082484100000023
子程序3 Clean()
参数:ρ∈(0,1):移除指标的最大比例;
μsafe,μsafe-target:选择候选PSM样本的阈值;
步1、置
Figure FDA0003082484100000031
步2、选取候选PSM样本的指标,构成S的子集V:
V←{i∈S|αi=0且((yi=-1,gi≥μsafe)或(yi=+1,gi≥1-γ+μsafe)或(yi=+1,gi≤-μsafe-target))};
步3、若|V|≤ρ|S|,则从S中移除V中所有的指标;
否则,从V中选取梯度分量gi最大的m个指标并从S中移除,m=ρ|S|。
CN201810042887.9A 2018-01-17 2018-01-17 一种多肽谱匹配数据的在线分析方法 Expired - Fee Related CN108388774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810042887.9A CN108388774B (zh) 2018-01-17 2018-01-17 一种多肽谱匹配数据的在线分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810042887.9A CN108388774B (zh) 2018-01-17 2018-01-17 一种多肽谱匹配数据的在线分析方法

Publications (2)

Publication Number Publication Date
CN108388774A CN108388774A (zh) 2018-08-10
CN108388774B true CN108388774B (zh) 2021-07-23

Family

ID=63077121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810042887.9A Expired - Fee Related CN108388774B (zh) 2018-01-17 2018-01-17 一种多肽谱匹配数据的在线分析方法

Country Status (1)

Country Link
CN (1) CN108388774B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739583A (zh) * 2020-08-04 2020-10-02 西湖大学 基于优化数据库(Sub-Lib)的数据非依赖性质谱检测方法
CN113933373B (zh) * 2021-12-16 2022-02-22 成都健数科技有限公司 一种利用质谱数据确定有机物结构的方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787507A (zh) * 2016-02-16 2016-07-20 中国石油大学(华东) 基于预算支持向量集的LS-SVMs在线学习方法
CN106156805A (zh) * 2016-09-12 2016-11-23 中国石油大学(华东) 一种样本标签缺失数据的分类器训练方法
CN106529204A (zh) * 2016-10-18 2017-03-22 中国科学院计算技术研究所 一种基于半监督学习的交联质谱多谱排序方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011000991A1 (es) * 2009-07-01 2011-01-06 Consejo Superior De Investigaciones Científicas Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787507A (zh) * 2016-02-16 2016-07-20 中国石油大学(华东) 基于预算支持向量集的LS-SVMs在线学习方法
CN106156805A (zh) * 2016-09-12 2016-11-23 中国石油大学(华东) 一种样本标签缺失数据的分类器训练方法
CN106529204A (zh) * 2016-10-18 2017-03-22 中国科学院计算技术研究所 一种基于半监督学习的交联质谱多谱排序方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
An adaptive classification model for peptide identification;Xijun Liang等;《BMC》;20140604;第16卷(第S1期);1-9 *
Cost-Sensitive Online Classification;Jialei Wang等;《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》;20141030;第26卷(第10期);2425-2438 *
Improved classification model for peptide identification based on self-paced learning;Yongxiang Wang等;《BIBM》;20171218;摘要,正文第II节,第III节A *
Yongxiang Wang等.Improved classification model for peptide identification based on self-paced learning.《BIBM》.2017,摘要,正文第II节,第III节A. *
基于半监督学习的弹道目标头体分辨方法;郭法滨等;《优先出版:https://kns.cnki.net/kcms/detail/10.1108.TP.20160721.0943.144.html》;20160721;正文第2节 *
支持向量机原始问题研究综述;赵春婕等;《陕西理工学院学报》;20100630;第26卷(第2期);58-64 *

Also Published As

Publication number Publication date
CN108388774A (zh) 2018-08-10

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
Zhao et al. Exploratory predicting protein folding model with random forest and hybrid features
US9354236B2 (en) Method for identifying peptides and proteins from mass spectrometry data
CN112214335B (zh) 基于知识图谱和相似度网络的Web服务发现方法
CN108388774B (zh) 一种多肽谱匹配数据的在线分析方法
Emery et al. Multiple competition-based FDR control and its application to peptide detection
CN114420212A (zh) 一种大肠杆菌菌株鉴定方法和***
Yilmaz et al. Sequence-to-sequence translation from mass spectra to peptides with a transformer model
Feng et al. Probability-based pattern recognition and statistical framework for randomization: modeling tandem mass spectrum/peptide sequence false match frequencies
US9008974B2 (en) Taxonomic classification system
Dotan et al. Effect of tokenization on transformers for biological sequences
CN106709273B (zh) 微藻蛋白质特征序列标签匹配的快速检测方法及***
US7047137B1 (en) Computer method and apparatus for uniform representation of genome sequences
CN113495963B (zh) 网络安全知识图谱的嵌入表示方法及装置
CN110462056A (zh) 基于dna测序数据的样本来源检测方法、装置和存储介质
CN110059228B (zh) 一种dna数据集植入模体搜索方法及其装置与存储介质
Aleb et al. An improved K-means algorithm for DNA sequence clustering
Albugami Prediction of Saudi Arabia SARS-COV 2 diversifications in protein strain against China strain
KR20200104672A (ko) 클러스터링 기법을 이용한 생물종 서식지 추적 방법 및 장치
Filip et al. DeePSLiM: A Deep Learning Approach to Identify Predictive Short-linear Motifs for Protein Sequence Classification
CN107657282A (zh) 多肽鉴定的自步长学习方法
Li et al. Fast and accurate classification of meta-genomics long reads with deSAMBA
Bouhamed et al. New Filter method for categorical variables' selection
CN112614542B (zh) 一种微生物鉴定方法、装置、设备及存储介质
Hamady et al. Does protein structure influence trypsin miscleavage?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210723

CF01 Termination of patent right due to non-payment of annual fee