CN108388774B - 一种多肽谱匹配数据的在线分析方法 - Google Patents
一种多肽谱匹配数据的在线分析方法 Download PDFInfo
- Publication number
- CN108388774B CN108388774B CN201810042887.9A CN201810042887A CN108388774B CN 108388774 B CN108388774 B CN 108388774B CN 201810042887 A CN201810042887 A CN 201810042887A CN 108388774 B CN108388774 B CN 108388774B
- Authority
- CN
- China
- Prior art keywords
- psm
- flag
- polypeptide
- sample
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 229920001184 polypeptide Polymers 0.000 title claims abstract description 40
- 102000004196 processed proteins & peptides Human genes 0.000 title claims abstract description 40
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 40
- 238000004458 analytical method Methods 0.000 title claims abstract description 15
- 238000001228 spectrum Methods 0.000 title abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000006870 function Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 238000005457 optimization Methods 0.000 claims abstract 3
- 230000008569 process Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000001819 mass spectrum Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000007547 defect Effects 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 27
- 229920003259 poly(silylenemethylene) Polymers 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 238000007405 data analysis Methods 0.000 description 6
- 230000009977 dual effect Effects 0.000 description 6
- UGTJLJZQQFGTJD-UHFFFAOYSA-N Carbonylcyanide-3-chlorophenylhydrazone Chemical compound ClC1=CC=CC(NN=C(C#N)C#N)=C1 UGTJLJZQQFGTJD-UHFFFAOYSA-N 0.000 description 4
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 3
- 125000003275 alpha amino acid group Chemical group 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 108010026552 Proteome Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 239000012472 biological sample Substances 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000001976 enzyme digestion Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 238000010206 sensitivity analysis Methods 0.000 description 2
- SLXKOJJOQWFEFD-UHFFFAOYSA-N 6-aminohexanoic acid Chemical compound NCCCCCC(O)=O SLXKOJJOQWFEFD-UHFFFAOYSA-N 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000004885 tandem mass spectrometry Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种多肽谱匹配数据的在线分析方法,适于从高通量串联质谱平台及数据库匹配引擎输出的多肽谱匹配中鉴定正确的匹配。主要步骤包括数据预处理、使用在线学习算法求解优化模型、根据训练得出的分类函数鉴定正确的多肽谱匹配。该技术通过积极集存贮并动态更新对分类函数起作用的样本,实现了大规模多肽谱匹配数据的高效鉴定,克服了现有方法在大规模数据集上存储量大、计算缓慢的缺陷。
Description
技术领域
本发明涉及一种数据分析方法,尤其涉及一种多肽谱匹配数据的在线分析方法。
背景技术
生物质谱技术为蛋白质鉴定提供了高通量、高灵敏度的分析平台,是蛋白质组鉴定的核心技术。鸟枪法结合数据库搜索策略是大规模蛋白质组鉴定的主流方法,其主要鉴定步骤为:(1)酶切:加入特定的酶,将含有蛋白质混合物的生物样品酶切为多肽混合物;(2)生成质谱:通过碰撞解离将分离出来的多肽裂解为碎片离子,送入质谱仪分析其质谱图;(3)用数据库匹配软件比对实验质谱与数据库中的理论质谱,确定最优的多肽质谱匹配(Peptide Spectrum Match,PSM),进而确定多肽的氨基酸序列;(4)依据鉴定出的多肽的氨基酸序列分析并推导出样品中蛋白质的氨基酸序列。
由于生物样品和生物实验的复杂性,串联质谱平台输出的质谱图中含有大量噪声,导致数据库搜索引擎给出的多肽谱匹配结果中有大量错误的匹配。当前主流搜索软件给出的PSM匹配中,正确匹配的数目通常占PSM总数的不足50%。
从数据库搜索引擎给出的大量多肽谱匹配中鉴定出正确匹配的数据分析任务称为多肽谱匹配鉴定。目前多肽谱匹配鉴定的主流技术有两类。第一类是以PeptideProphet为代表的基于统计的方法。该类方法假定PSM样本从一个混合分布中抽样得到,并采用期望最大化方法计算每个PSM正确的概率。第二类是以Percolator为代表的基于核的机器学习技术。该类方法采用基于核的支持向量机迭代地校正模型以拟合目标PSM,并最终给出PSM的评分。
多肽谱匹配鉴定是一类特殊的半监督学习任务。公告号为CN106156805A的发明所公开的专利技术可用于该问题的数据分析。该发明将匹配到诱骗谱上的PSM视为有确定性标号的样本,将其余的PSM视为未标号的样本,采用半监督学习技术从未标号样本中鉴别正确的多肽谱匹配。在多个实验数据集上,该方法的PSM鉴定数目等性能指标超过了两种主流方法PeptideProphet和Percolator。
公告号为CN106156805A的发明提出的模型可等价地化为DC规划模型,并采用经典的CCCP算法求解,进而训练出分类函数以鉴定正确的多肽谱匹配。该技术可简述如下:
设预处理后的训练样本为其中,N为所有PSM训练样本的个数,xi∈Rd为数据库搜索引擎输出的多肽谱匹配,yi∈{-1,+1},负类样本(诱骗PSM)标签为“-1”,其余样本(目标PSM)标签为“+1”。记
Ω-={i|yi=-1},Ω+={i|yi=+1}。
若嵌入经典的C-SVM(支持向量分类机),则公告号为CN106156805A的发明提出的模型可化为:
其中,w∈RN,θ=[θ1,...,θN]T∈RN是模型待求解的决策变量,θi∈[0,1]表征第i个样本标签的置信度,C1>0,C2>0,λ>0为模型参数,C1表示负类样本(诱骗PSM)经验损失的权重,C2表示正类样本(目标PSM)经验损失的权重,h(t)=max(0,1-t)为损失函数,决策函数f(x)=<w,φ(x)>,φ(·)为特征映射。模型(1)与下面的模型等价(具有相同的最优解w):
其中hγ(t)=max(0,γ-t)。进一步,采用DC规划的经典批处理算法——CCCP算法求解。
算法1.标准批处理CCCP算法求解模型(2)
步1.初始化:置w0←0,k=0;
步2.步2-1.重复迭代:
wk+1=argminw Jvex(w)+J′cav(wk)w (4)
置k←k+1,直到收敛.
上述数据分析技术与公告号为CN106156805A的发明所公开的数据分析方法虽然可以直接调用通用的非线性规划软件包求解相应的模型并鉴定正确的多肽谱匹配,但存在以下重要缺陷:(1)在求解子问题(4)时,需要存贮规模为N×N的稠密的核矩阵,算法所需存贮量为O(N2),因此仅适用于较小规模的数据集,不能满足高通量质谱平台产生的大规模多肽谱匹配数据的分析需求;(2)仅适用于批处理环境(即预先已知全部样本的情形)下的数据分析,不适于高通量质谱平台实时产生的多肽谱匹配数据的在线即时分析。
针对该问题,本发明公开了一种多肽谱匹配数据的在线分析方法。该方法实现了高通量质谱平台产生的大规模多肽谱匹配数据的高效鉴定,并且鉴定性能在多个指标下超过了目前主流方法。该方法同时适用于多肽谱匹配数据流的分析,可实时地对多肽谱匹配样本进行鉴定。
发明内容
本发明解决大规模多肽谱匹配鉴定问题所采用的技术方案是使用积极集存贮并动态更新起作用的样本,使用在线学习算法训练分类函数并对多肽谱匹配样本进行鉴定。该方法主要包括以下步骤:
步骤1、数据预处理:将样本数据的每个特征转换为数值型数据,去除冗余特征,将每个特征的数据进行归一化处理。
步骤2、选取核函数k(xi,xj)并确定模型参数C1,C2和γ的值。
记预处理后的多肽谱匹配样本为其中,N为所有训练样本的个数,xi∈Rd为数据库搜索引擎输出的多肽谱匹配,yi∈{-1,+1},负类样本(诱骗PSM)标签为“-1”,其余样本(目标PSM)标签为“+1”,使用在线学习算法求解模型(2),训练分类器
各步骤的详细说明
步骤1、数据归一化:将样本的各个特征的数据做平移和放缩,将其转化为均值为0、方差为1的向量。
步骤3、采用在线学习算法求解模型(2)。该步骤是本发明的关键技术。
在线学习算法的技术特点是使用积极集S存贮对模型训练起作用的样本。接收新的PSM样本后,算法立即将接收的PSM样本加入积极集S,并以积极集S中的样本为训练样本,按算法1的迭代框架求出最优解,直至接收并处理完全部样本。
在线学习算法的基本模块
在线学习算法的第一个基本模块是子程序Update()。该子程序将解的指定分量置为0(步1)并更新梯度向量(步2)。
子程序1.Update(i)
输入:指标i
步1.αj←0,其中,j∈S且下界Aj或上界Bj发生改变;
αi←0;
步2.对于所有j∈S,置gj←yj-∑s∈SαsKjs,其中Kjs=k(xj,xs)。
在线学习算法的第二个基本模块是子程序Process()。该子程序在上下界约束条件下,从积极集中选取一个指标(步1─步3)。选取的准则是:沿相应坐标方向,目标函数值下降最快。子程序接下来计算相应的步长(步4),并更新解的相应分量和梯度向量(步5)。
子程序2.flag=Process()
输入:无
输出:flag=1:未找到下降方向;
flag=0:找到下降方向;
参数:τ:大于0的较小的数,子程序终止时关于梯度的容许度。
步1.i←argmin{gs|αs>As,s∈S}
j←argmax{gs|αs<Bs,s∈S}
步2.若max(gj-gi)≤τ,则
flag=1,子程序终止;
否则,flag=0;
步3.若(-gi>τ,gj<τ)或(-gi>τ,gj>τ且-gi>gj),则
u←gi,t←i;
否则,u←gj,t←j;
在线学习算法的第三个基本模块是子程序Clean()。它负责从积极集清除部分指标以节省存贮空间并提高计算效率。该子程序依据特定规则从积极集中选取候选PSM样本的指标(步1──步2),并从候选指标中清除指定数目的具有最大梯度分量的指标(步3)。
子程序3Clean()
参数:ρ∈(0,1):移除指标的最大比例;
μsafe,μsafe-target:选择候选PSM样本的阈值;
步2、选取候选PSM样本的指标,构成S的子集V:
步3、若|V|≤ρ|S|,则从S中移除V中所有的指标;
否则,从V中选取梯度分量gi最大的m个指标并从S中移除,m=ρ|S|。
基于上述三个基本模块,本发明公开如算法2所示的在线学习算法求解模型(2)。在线学习算法接收一个新的样本点后,立即更新对偶子问题(5)的解α、积极集S以及梯度向量g。算法的迭代格式如下:首先初始化解向量α及积极集S(步1),接受一个新的样本点后,算法更新下界Aj和上界Bj,j∈Ω+(步2-1),求解以S中的样本为训练集的对偶子问题(5)(步2-2,步2-3),周期性地执行Clean()子程序,从积极集S中清除部分冗余样本(步2-4)。
算法2.多肽谱匹配鉴定的在线学习算法
参数:M:启动CCCP迭代时,积极集S最少的元素个数;
τ>0:求解对偶问题(5)的精确度;
步2.在线迭代:
当一个新的PSM样本{xi,yi}进入时,i=1,2,…
步2-1.更新下界Aj和上界Bj:
置S←S∪{i};,
步2-2.执行Update(i)
步2-3.置flag←0
While(flag==0)
flag←Process()
End while
步2-4.周期性地执行Clean()。
算法2描述了在线学习环境下,多肽谱匹配数据的分析方法。在批处理环境下,已知PSM数据集的全部样本,则将样本随机地逐一输入算法进行分析。
记α*∈RN为算法2输出的最优解,则算法2训练的分类函数有如下形式:
其中,x∈Rd为PSM样本各个特征构成的向量。
对于PSM样本(xi,yi),按下面的公式计算其得分
将所有PSM样本的得分从高到低排序,并在给定的FDR水平下输出得分较高的PSM。这些得分高的PSM即为算法鉴定出的正确的多肽谱匹配。
本发明的有益效果
(1)实现了大规模PSM数据的高灵敏度分析和鉴定,所公开的在线分析方法大幅度减少了对存储量的要求,提高了计算速度,克服了现有技术分析大规模PSM数据集的困难。
(2)所公开的在线学习算法实现了PSM数据的实时在线分析。
附图说明
具体实施方式
下面结合附图和实例对本发明做进一步说明。选取4个多肽谱匹配鉴定数据集对所公开方法的有效性进行测试。表1列出了这4个数据集的样本总数、诱骗PSM的数目及目标PSM的数目。每个数据集均按照2:1的比例随机分成两个子集合——训练集和测试集。本发明公开的在线分析方法在训练集上训练,得到分类函数,在独立的测试集上测试分类函数的性能。优化模型(2)的参数C1,C2通过交叉验证选取,参数γ在各个数据集上均取值为0。在各个数据集上,算法2中的参数取值为M=1000,τ=0.05,ρ=0.25,μsafe=0.3。参数μsafe-target在3个小规模数据集上取值为0.3,在大规模的tal08-large数据集上取值为+∞。
表1数据集
表2列出了本发明采用的方法与当前主流方法PeptideProphet和Percolator鉴定出的PSM数目的比较,其中,FDR=2×FP/(TP+FP),FDR取公认的0.05的水平,TP为鉴定出的正类样本中正确匹配(目标PSM)的个数,FP为鉴定出的正类样本中错误匹配(诱骗PSM)的个数。由表2可见,本发明采用的方法鉴定的正确匹配的个数比PeptideProphet和Percolator多2.6%~16.6%。可见,在该指标下,本发明公开的方法在所测试的数据集上优于另外两种方法。
表2本发明方法与PeptideProphet和Percolator鉴定结果比较(FDR=0.05)
为测试本发明公开的在线学***均计算时间为 可实现实时鉴定。在其他3个数据集上,在线学***均计算时间与Ups1数据集大致相同。在各个数据集上,测试集鉴定比率(测试集上鉴定出的PSM数目与PSM鉴定总数之比)接近理想比率1/3,说明本发明所公开方法训练得到的分类函数有良好的推广性能。
表3本发明方法与批处理算法的运算时间和PSM鉴定结果的比较
为比较批处理算法与本发明所公开的在线学习算法的稳定性,将训练集和测试集按2:1的比例多次随机抽样,分别执行两种算法,各重复30次。图2、图3和图4分别画出了两种算法在Ups1、Yeast和Tal08数据集上30次运行的PSM鉴定数目。Ups1数据集(图2)上,批处理算法第8次运行鉴定数目明显少;Yeast数据集(图3)上,两种算法都有稳定的鉴定性能;Tal08数据集(图4)上,批处理算法第21次运行鉴定的PSM数量明显较少,而在线学习算法鉴定结果较稳定。可见,本发明所公开的在线分析方法可以有效避免算法陷入较差的局部最优解从而导致鉴定结果较差的情况。
上述说明结合图表对本发明的具体实施方式进行了描述,但并不是对本发明保护范围的限制。在本发明的技术方案的基础上,相关技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (1)
1.一种多肽谱匹配数据的在线分析方法,其特征在于所述方法包括以下步骤:
步骤1、数据预处理;
步骤2、选取核函数k(xi,xj)并确定模型参数C1,C2和γ的值;
步骤3、采用在线学习算法求解优化模型
其中,为训练样本,xi∈Rd为数据库搜索引擎输出的多肽谱匹配,yi∈{-1,+1},诱骗PSM标签为“-1”,目标PSM标签为“+1”,Ω-={i|yi=-1},Ω+={i|yi=+1},w∈RN是模型待求解的决策变量,C1>0,C2>0,λ>0为模型参数,C1表示负类样本经验损失的权重,C2表示正类样本经验损失的权重,h(t)=max(0,1-t)为负类样本损失函数,Rγ(t)=min(1-γ,max(0,1-t))为正类样本的损失函数,γ<1为常数,f(x)=<w,φ(x)>,φ(·)为特征映射;
步骤3中的优化模型采用如下在线学习算法求解:
步2、在线迭代:
当一个新的PSM样本{xi,yi}进入时,i=1,2,…
步2-1更新下界Aj和上界Bj:
置S←S∪{i};
步2-2执行Update(i);
步2-3置flag←0
While(flag==0)
flag←Process()
End while
步2-4定期执行Clean();
上述在线学习算法含有如下三个子程序作为基本模块:
子程序1 Update(i)
输入:指标i;
步1、αj←0,其中,j∈S且下界Aj或上界Bj发生改变;
αi←0;
步2、对于所有j∈S,置gj←yj-∑s∈SαsKjs,其中Kjs=k(xj,xs);
子程序2 flag=Process()
输入:无;
输出:flag=1:未找到下降方向;
flag=0:找到下降方向;
参数τ:大于0的较小的数,子程序终止时梯度的容许度;
步1、i←arg min{gs|αs>As,s∈S}
j←arg max{gs|αs<Bs,s∈S};
步2、若max(gj-gi)≤τ,则
flag=1,子程序终止;
否则,flag=0;
步3、若(-gi>τ,gj<τ)或(-gi>τ,gj>τ且-gi>gj),则
u←gi,t←i;
否则,u←gj,t←j;
子程序3 Clean()
参数:ρ∈(0,1):移除指标的最大比例;
μsafe,μsafe-target:选择候选PSM样本的阈值;
步2、选取候选PSM样本的指标,构成S的子集V:
V←{i∈S|αi=0且((yi=-1,gi≥μsafe)或(yi=+1,gi≥1-γ+μsafe)或(yi=+1,gi≤-μsafe-target))};
步3、若|V|≤ρ|S|,则从S中移除V中所有的指标;
否则,从V中选取梯度分量gi最大的m个指标并从S中移除,m=ρ|S|。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810042887.9A CN108388774B (zh) | 2018-01-17 | 2018-01-17 | 一种多肽谱匹配数据的在线分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810042887.9A CN108388774B (zh) | 2018-01-17 | 2018-01-17 | 一种多肽谱匹配数据的在线分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108388774A CN108388774A (zh) | 2018-08-10 |
CN108388774B true CN108388774B (zh) | 2021-07-23 |
Family
ID=63077121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810042887.9A Expired - Fee Related CN108388774B (zh) | 2018-01-17 | 2018-01-17 | 一种多肽谱匹配数据的在线分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108388774B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111739583A (zh) * | 2020-08-04 | 2020-10-02 | 西湖大学 | 基于优化数据库(Sub-Lib)的数据非依赖性质谱检测方法 |
CN113933373B (zh) * | 2021-12-16 | 2022-02-22 | 成都健数科技有限公司 | 一种利用质谱数据确定有机物结构的方法和*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787507A (zh) * | 2016-02-16 | 2016-07-20 | 中国石油大学(华东) | 基于预算支持向量集的LS-SVMs在线学习方法 |
CN106156805A (zh) * | 2016-09-12 | 2016-11-23 | 中国石油大学(华东) | 一种样本标签缺失数据的分类器训练方法 |
CN106529204A (zh) * | 2016-10-18 | 2017-03-22 | 中国科学院计算技术研究所 | 一种基于半监督学习的交联质谱多谱排序方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011000991A1 (es) * | 2009-07-01 | 2011-01-06 | Consejo Superior De Investigaciones Científicas | Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas |
-
2018
- 2018-01-17 CN CN201810042887.9A patent/CN108388774B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787507A (zh) * | 2016-02-16 | 2016-07-20 | 中国石油大学(华东) | 基于预算支持向量集的LS-SVMs在线学习方法 |
CN106156805A (zh) * | 2016-09-12 | 2016-11-23 | 中国石油大学(华东) | 一种样本标签缺失数据的分类器训练方法 |
CN106529204A (zh) * | 2016-10-18 | 2017-03-22 | 中国科学院计算技术研究所 | 一种基于半监督学习的交联质谱多谱排序方法 |
Non-Patent Citations (6)
Title |
---|
An adaptive classification model for peptide identification;Xijun Liang等;《BMC》;20140604;第16卷(第S1期);1-9 * |
Cost-Sensitive Online Classification;Jialei Wang等;《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》;20141030;第26卷(第10期);2425-2438 * |
Improved classification model for peptide identification based on self-paced learning;Yongxiang Wang等;《BIBM》;20171218;摘要,正文第II节,第III节A * |
Yongxiang Wang等.Improved classification model for peptide identification based on self-paced learning.《BIBM》.2017,摘要,正文第II节,第III节A. * |
基于半监督学习的弹道目标头体分辨方法;郭法滨等;《优先出版:https://kns.cnki.net/kcms/detail/10.1108.TP.20160721.0943.144.html》;20160721;正文第2节 * |
支持向量机原始问题研究综述;赵春婕等;《陕西理工学院学报》;20100630;第26卷(第2期);58-64 * |
Also Published As
Publication number | Publication date |
---|---|
CN108388774A (zh) | 2018-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
Zhao et al. | Exploratory predicting protein folding model with random forest and hybrid features | |
US9354236B2 (en) | Method for identifying peptides and proteins from mass spectrometry data | |
CN112214335B (zh) | 基于知识图谱和相似度网络的Web服务发现方法 | |
CN108388774B (zh) | 一种多肽谱匹配数据的在线分析方法 | |
Emery et al. | Multiple competition-based FDR control and its application to peptide detection | |
CN114420212A (zh) | 一种大肠杆菌菌株鉴定方法和*** | |
Yilmaz et al. | Sequence-to-sequence translation from mass spectra to peptides with a transformer model | |
Feng et al. | Probability-based pattern recognition and statistical framework for randomization: modeling tandem mass spectrum/peptide sequence false match frequencies | |
US9008974B2 (en) | Taxonomic classification system | |
Dotan et al. | Effect of tokenization on transformers for biological sequences | |
CN106709273B (zh) | 微藻蛋白质特征序列标签匹配的快速检测方法及*** | |
US7047137B1 (en) | Computer method and apparatus for uniform representation of genome sequences | |
CN113495963B (zh) | 网络安全知识图谱的嵌入表示方法及装置 | |
CN110462056A (zh) | 基于dna测序数据的样本来源检测方法、装置和存储介质 | |
CN110059228B (zh) | 一种dna数据集植入模体搜索方法及其装置与存储介质 | |
Aleb et al. | An improved K-means algorithm for DNA sequence clustering | |
Albugami | Prediction of Saudi Arabia SARS-COV 2 diversifications in protein strain against China strain | |
KR20200104672A (ko) | 클러스터링 기법을 이용한 생물종 서식지 추적 방법 및 장치 | |
Filip et al. | DeePSLiM: A Deep Learning Approach to Identify Predictive Short-linear Motifs for Protein Sequence Classification | |
CN107657282A (zh) | 多肽鉴定的自步长学习方法 | |
Li et al. | Fast and accurate classification of meta-genomics long reads with deSAMBA | |
Bouhamed et al. | New Filter method for categorical variables' selection | |
CN112614542B (zh) | 一种微生物鉴定方法、装置、设备及存储介质 | |
Hamady et al. | Does protein structure influence trypsin miscleavage? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210723 |
|
CF01 | Termination of patent right due to non-payment of annual fee |