CN104215729A - 串联质谱数据母离子检测模型训练方法及母离子检测方法 - Google Patents

串联质谱数据母离子检测模型训练方法及母离子检测方法 Download PDF

Info

Publication number
CN104215729A
CN104215729A CN201410406562.6A CN201410406562A CN104215729A CN 104215729 A CN104215729 A CN 104215729A CN 201410406562 A CN201410406562 A CN 201410406562A CN 104215729 A CN104215729 A CN 104215729A
Authority
CN
China
Prior art keywords
parent ion
spectrogram
candidate
peak
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410406562.6A
Other languages
English (en)
Other versions
CN104215729B (zh
Inventor
邬龙
曾文锋
袁作飞
刘超
孟佳明
贺思敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201410406562.6A priority Critical patent/CN104215729B/zh
Publication of CN104215729A publication Critical patent/CN104215729A/zh
Application granted granted Critical
Publication of CN104215729B publication Critical patent/CN104215729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明提供一种串联质谱母离子检测模型训练方法,包括下列步骤:1)获取母离子已知的谱图数据集,对于其中每张二级谱图,确定该二级谱图的候选母离子;2)提取每个二级谱图-候选母离子组合的特征向量,并根据二级谱图和候选母离子配对正确与否进行相应的赋值;其中,特征向量的元素包括:同位素峰簇相似度、碎裂窗口内的谱峰强度比、色谱相似度和虚拟色谱相似度;3)将所有二级谱图-候选母离子组合的特征向量作为输入,将二级谱图和候选母离子配对正确与否的赋值作为输出,训练MARS模型,得到串联质谱母离子检测模型。本发明还提供了相应的母离子检测方法。本发明能够提高母离子召回率并提高母离子的检测速度。

Description

串联质谱数据母离子检测模型训练方法及母离子检测方法
技术领域
本发明涉及生物信息学技术领域,具体地说,本发明涉及一种蛋白质组学中串联质谱数据母离子检测模型训练方法及母离子检测方法。
背景技术
鸟枪法是生物信息学中鉴定蛋白质的重要方法之一,它将生物样品中的蛋白质先酶切为肽段,然后送入串联质谱仪中,得到相应的质谱数据集,再通过串联质谱数据库搜索算法,如SEQUEST、Mascot、pFind等,可以从串联质谱数据中鉴定得到肽段,进一步进行肽段到蛋白质的推断,就可以获得样品中的蛋白质信息。
由肽段生物样品到质谱数据的产生分为两个阶段:第一阶段,肽段分批进入质谱仪,质谱仪对当前时刻进入质谱仪的所有肽段进行扫描,测量每条肽段的质荷比,由此产生的质谱图为一级谱图(MS1),第二阶段,选中一级谱图中谱峰强度较高的肽段进行碎裂,获得碎片离子,质谱仪对所有碎片离子进行第二次扫描得到二级谱图(MS2),也就是串联谱图。本文中,将由一级谱图和二级谱图组成的数据集称为串联质谱数据集。
在当前的基于串联质谱数据集鉴定肽段的方法中,通常需要先检测二级谱图所对应的母离子,然后再根据给定母离子质量来确定候选肽段,如果母离子信息判断错误,就会导致谱图鉴定错误,因此母离子的检测至关重要。现有技术中,基于串联质谱数据的母离子检测方法包括:Hardklor、pParse、MaxQuant等算法,它们都是从串联质谱数据中提取出一系列特征(包括色谱保留曲线和同位素峰簇相似度),然后再由这一系列特征来推断该二级谱图所对应的母离子。然而,目前的Hardklor、pParse、MaxQuant等算法均需要人工挑选各个特征的相关参数,并在多个数据集合上反复对比,逐渐调节各项参数数值,才能达到一定的召回率,因此使用起来十分繁琐。在检测速度方面,即便是最快的Hardklor算法,导出9000张谱图的母离子也需要15min以上,难以满足实时数据分析的要求。并且,现有的母离子检测算法的召回率也有待于进一步地提高。
综上所述,当前迫切需要一种召回率高、检测速度快的在串联质谱数据中检测母离子的方法。
发明内容
因此,根据本发明的一个方面,提供一种串联质谱数据母离子检测模型训练方法,包括下列步骤:
1)获取母离子已知的谱图数据集,对于其中每张二级谱图,确定该二级谱图的候选母离子;
2)提取每个二级谱图-候选母离子组合的特征向量,并根据二级谱图和候选母离子配对正确与否进行相应的赋值;其中,特征向量的元素包括:同位素峰簇相似度、碎裂窗口内的谱峰强度比、色谱相似度和虚拟色谱相似度;
3)将所有二级谱图-候选母离子组合的特征向量作为输入,将二级谱图和候选母离子配对正确与否的赋值作为输出,训练MARS模型,得到串联质谱母离子检测模型。
其中,所述步骤1)中,对于每张二级谱图,确定候选母离子的过程包括下列子步骤:
11)找到与当前二级谱图匹配的一级谱图;
12)从匹配的一级谱图中提取出当前二级谱图对应的碎裂窗口内的谱峰集合并将其作为候选单同位素峰集合;
13)根据与当前二级谱图匹配的一级谱图以及母离子的可能电荷范围,确定当前二级谱图的候选母离子。
其中,所述步骤11)中,与二级谱图匹配的一级谱图包括:与该二级谱图直接匹配的一级谱图,在该直接匹配的一级谱图前最近的一张一级谱图,以及在该直接匹配的一级谱图后最近的一张一级谱图。
其中,所述步骤2)中,对于每个二级谱图-候选母离子组合,根据该二级谱图和与其关联的一级谱图,以及组合中的候选母离子得出该二级谱图-候选母离子组合的特征向量。
其中,所述特征向量的元素还包括:单同位素峰质量、单同位素峰电荷、碎裂窗口内的谱峰个数、同位素峰簇长度、色谱保留曲线长度、同位素峰簇强度和、单同位素峰精度中的一项或多项。
根据本发明的另一方面,还提供一种基于上述串联质谱母离子检测模型的母离子检测方法,包括下列步骤:
4)对于待检测串联质谱数据集中的每张二级谱图,确定该二级谱图的候选母离子;
5)提取每个二级谱图-候选母离子组合的特征向量;
6)将每种二级谱图-候选母离子组合的特征向量依次输入上述串联质谱母离子检测模型训练方法所得的串联质谱母离子检测模型,根据匹配打分得出与当前二级谱图正确配对的母离子。
其中,所述步骤4)中还包括:对待检测串联质谱数据集进行预处理,删去噪音谱峰。
其中,所述步骤4)中,对于每张二级谱图,确定候选母离子的过程包括下列子步骤:
41)找到与当前二级谱图匹配的一级谱图;
42)从匹配的一级谱图中提取出当前二级谱图碎裂窗口内的谱峰集合并将其作为候选单同位素峰集合;
43)根据与当前二级谱图匹配的一级谱图以及母离子的可能电荷范围,确定当前二级谱图的候选母离子。
其中,所述步骤4)中,与二级谱图匹配的一级谱图包括:与该二级谱图直接匹配的一级谱图,在该直接匹配的一级谱图前最近的一张一级谱图,以及在该直接匹配的一级谱图后最近的一张一级谱图。
其中,所述步骤5)和步骤6)之间执行步骤:
51)对于当前二级谱图,当候选母离子数目超过预设的阈值时,对候选母离子进行初步过滤,取排序靠前的母离子作为当前二级谱图的候选母离子,然后执行步骤6)。
与现有技术相比,本发明具有下列技术效果:
1、本发明的母离子召回率高。
2、本发明的检测速度快。
附图说明
以下,结合附图来详细说明本发明的实施例,其中:
图1示出了本发明一个实施例的训练母离子检测模型的流程图;
图2示出了示出了一组互相匹配的一级谱图和二级谱图的示例;
图3示出了一个同位素峰簇的示例;
图4示出了本发明一个实施例中,基于串联质谱母离子检测模型对已标记的测试谱图数据集进行匹配打分的分布图;
图5示出了本发明一个实施例在串联质谱数据中检测母离子的流程图。
具体实施方式
根据本发明的一个实施例,提供了一种串联质谱数据的母离子检测模型训练方法。本实施例中,采用多元自适应回归样条(MARSpline:Multivariate Adaptive Regression Spline,本文中简称MARS)分类模型作为基础模型,基于二级谱图-母离子组合的11维特征向量进行训练,得到串联质谱母离子检测模型,进而实现快速灵敏的母离子检测。
图1示出了本实施例的串联质谱母离子检测模型训练方法。包括下列步骤:
步骤1:获取母离子标注谱图数据集。谱图数据集中含有大量的二级谱图和一级谱图,并且每张二级谱图的母离子已标注,即母离子已知。
步骤2:对于每张二级谱图,找到与其匹配的一级谱图。
在串联质谱实验过程中,肽段离子从色谱仪中分批进入质谱仪,同一时刻内进入的肽段离子被质谱仪扫描后形成了一张一级谱图。扫描到一张一级谱图后,质谱仪会从一级谱图中选择强度较高的若干个谱峰信号分别进行碎裂(fragmentation)。每一次碎裂都是在当前待碎裂的信号峰的质荷比附近开设一个窗口,碎裂窗口(isolation window,直译为隔离窗),对隔离窗口内的所有谱峰进行碎裂。每一次碎裂后得到的碎片信息分别记录,形成二级谱图。图2示出了一组互相匹配的一级谱图和二级谱图的示例。从图2中可以看出,该二级谱图是从一级谱图中选择533Th附近一个碎裂窗口碎裂而获得的。图2中一级谱图和二级谱图之间的虚线表示了这一匹配关系。所有的质谱数据,包括一级谱图和二级谱图,都是由一系列的谱峰信号构成的。每一个谱峰就是坐标图中的一个竖线,竖线的横坐标是谱峰质荷比(mass-to-charge ratio,m/z),纵坐标是谱峰强度(Intensity,又名Abundance,直译为丰度,本文统一用强度,图2是Xcalibur软件截图,该软件采用Relative Abundance命名强度)。
质谱仪不断扫描进入其中的离子,或者某些离子形成的碎片,每扫描一次,就赋予一个扫描号。所以在质谱数据中,每一张谱图可以被一个扫描号唯一确定,而生成谱图的过程有时也称为是一次扫描。所有的一级谱图和二级谱图谱图按照被扫描的时间从先到后顺序排列,依次编号为1,2,…n,就得到了扫描号(Scan Number)。扫描号可以用来确定二级谱图的前一张谱图(Preceding Scan)。因此,在具体实现上,可以用给定的串联质谱图的扫描号,找到对应的前一个最近的一级谱图作为匹配的一级谱图。在一个实施例中,为了避免发生谱峰遗漏,在找到直接匹配的一级谱图后,再在一级谱图前后各寻找最近的一张一级谱图,将这三张一级谱图均作为与当前二级谱图相匹配的一级谱图。三张谱峰可以形成互补,避免某一个重要的信号(例如谱峰)遗漏。
步骤3:从匹配的一级谱图中提取出当前二级谱图碎裂窗口内的谱峰集合并将其作为候选单同位素峰集合。碎裂窗口是质谱仪的一个参数,表示选择做碎裂的谱峰区间。每一张二级谱图(串联质谱)都对应于一个或者多个母离子(本文中专指肽段母离子)。每一个母离子都表现为位于一个碎裂窗口内的一个(实验)同位素峰簇。任何一个母离子,只要被质谱仪扫描,就会在相应的一级谱图上出现一个对应的同位素峰簇,也就是说,母离子与一级谱图上的同位素峰簇存在严格的对应关系。由于质谱仪是在时间上连续采集信号的,同一个母离子可能被多次采集到,所以把所有的一级谱图关联起来,在邻近的一级谱图上查找当前母离子的同位素峰簇信号可以对母离子信号识别提供更加有力的证据,下文中提及的同位素峰簇相似度和色谱曲线相似度都考虑了母离子信号在多张一级谱图上连续出现。一个同位素峰簇是指一个强度按照一定规律变化、质荷比呈现等量递增的谱峰系列,图3示出了一个同位素峰簇的示例。同位素峰簇具有两个关键特征:单同位素峰(monoisotopic peak)和谱峰间隔。单同位素峰是指同位素峰簇中最左侧的谱峰,图3中单同位素峰是指601.05Th处的谱峰;谱峰间隔是指相邻谱峰之间的质荷比之差的绝对值,图3中谱峰间隔大约是0.25Th。谱峰间隔与母离子所带的电荷有关,如果母离子电荷为c,那么谱峰间隔大约为1.003/c,所以0.25Th意味着+4电荷。
在一个实施例中,提取候选单同位素峰集合的过程包括下列子步骤:
步骤31:合并所匹配的三张一级谱图的谱峰,得到一个候选一级谱图谱峰集合。
步骤32:根据串联质谱图(即当前二级谱图)的扫描号,获得当前串联质谱图的母离子碎裂中心质荷比(下文中简称为碎裂中心)。
步骤33:设定碎裂中心±3Th区间,从步骤31的一级谱图谱峰集合内提取出在这个区间的谱峰,得到候选单同位素峰集合。
步骤4:根据与当前二级谱图关联的一级谱图以及母离子的可能电荷范围,确定当前二级谱图的候选母离子。母离子是指肽段落入到质谱仪后形成的带电离子,因此可由单同位素峰和电荷唯一地确定。而母离子的可能电荷是有限制的,所以可以预先设定母离子的电荷范围,在该范围内枚举所有电荷并分别与候选单同位素峰集合中的每个单同位素峰配对,即可得到当前二级谱图的多个候选母离子。在一个实施例中,母离子的电荷范围为+2~+7电荷。
步骤5:对于每个候选母离子,从当前二级谱图和与其相关联的一级谱图中提取特征向量,这个特征向量实际上就是每个候选母离子和当前二级谱图配对的特征向量。如前文所述,由于质谱仪是在时间上连续采集的,同一个母离子可能被多次采集到,所以把所有的一级谱图关联起来,在邻近的一级谱图上查找当前母离子的同位素峰簇信号可以对母离子信号识别提供更加有力的证据。因此,本实施例中将当前二级谱图扫描号前后最邻近的五张一级谱图,共十张谱图,定义为和当前二级谱图关联的一级谱图。本实施例中,特征向量包括11个特征,分别是:同位素峰簇相似度(SimIso)、碎裂窗口内的谱峰强度比、色谱相似度、虚拟色谱相似度、单同位素峰质量、单同位素峰电荷、碎裂窗口内的谱峰个数、同位素峰簇长度、色谱保留曲线长度、同位素峰簇强度和、单同位素峰精度。
其中,同位素峰簇相似度(SimIso)按下述方式提取:对于给定的单同位素峰,分别根据当前谱图的十张关一级联谱图重构出对应的同位素峰簇。对其中一张一级谱图,寻找到落在当前母离子单同位素峰一定误差范围内的谱峰,本实施例中,这个误差范围通常非常小,在0.02Th以内。如果找到了在该误差范围内的谱峰,就标记为单同位素峰,并记录下来。然后寻找单同位素峰右侧1/c间隔处的谱峰,同样允许一个小的误差,比如0.02Th。依此类推,从左到右找到多个谱峰,从而构成类似于图3那样的同位素峰簇。对于每张一级谱图,按上述方法重构一次就得到一个同位素峰簇。这样十张一级谱图就可以得到十个同位素峰簇,这些来自于真实的一级谱图,所以也称为实验同位素峰簇。进一步地,利用Emass算法和平均氨基酸模型可以根据实验单同位素峰质量快速估计出理论同位素峰簇,然后计算实验同位素峰簇与理论同位素峰簇的强度变化相似度。把实验和理论同位素峰簇的强度变化分别记为两个向量(I0,I1,I2,I3,…,In)和(I‘0,I’1,I‘2,I’3,…,I‘n),接着,计算它们的皮尔逊相关系数,作为相似度。由于存在着十个理论同位素峰簇,所以得到十个同位素峰簇相似度simi,i=1,…,10,本实施例中,选择最大的那一个作为最终的同位素峰簇相似度特征。即SimIso=max{sim1,sim2,sim3,…,sim10}。
本实施例中,色谱相似度(SimLC0)含义如下:同位素峰簇中某一根谱峰在多个一级谱图上在一定的允许误差范围内(比如0.02Th)连续出现,就构成了一个色谱曲线。把单同位素峰,第一同位素峰,第二同位素峰等等,各自在多张一级谱图上持续出现的谱峰信号写到一起,就形成了各自的色谱曲线,分别是:单同位素峰的色谱曲线,第一同位素峰的色谱曲线,第二同位素峰的色谱曲线等等。每一个色谱曲线都是一个向量。色谱相似度是单同位素峰色谱曲线和第一同位素峰色谱曲线的相似度。计算两个色谱曲线相似度时采用向量夹角余弦值计算方法。
虚拟色谱相似度(SimLC1)含义如下:虚拟色谱相似度是单同位素峰的色谱曲线和虚拟同位素峰的色谱曲线相似度。这里计算两个色谱曲线相似度时也采用是向量夹角余弦值计算方法。虚拟同位素峰是和第一同位素峰关于单同位素峰轴对称的谱峰。第一同位素峰位于单同位素峰的右侧,而虚拟同位素峰位于单同位素峰左侧。参考图3,假设单同位素峰为601.30,电荷为4+,那么同位素峰簇的起点就是601.30,相邻谱峰的间隔大约是0.25Th,那么同位素峰簇包含601.30,601.56,601.81,602.06等四个谱峰,它们分别是单同位素峰,第一同位素峰,第二同位素峰,第三同位素峰。单同位素峰左侧间隔0.25Th的谱峰601.05就是虚拟同位素峰。
碎裂窗口内的谱峰强度比(PIF)是指当前候选母离子的碎裂窗口内的实验同位素峰簇与碎裂窗口内所有谱峰的强度比。实验同位素峰簇的强度是指落在碎裂窗口内的实验同位素峰簇谱峰的强度之和,碎裂窗口内所有谱峰的强度是指碎裂窗口内所有谱峰的强度之和。
单同位素峰质量(Mass)是指当前候选母离子的单同位素谱峰的质量。它对应于同位素峰簇中最左侧的谱峰。
单同位素峰电荷(Charge)是指当前候选母离子的同位素峰簇电荷。电荷信息与同位素峰簇中相邻谱峰的间隔有关,如果电荷为C,那么间隔大约是1.003/C。
碎裂窗口内的谱峰个数(PeakNum)是指当前候选母离子的实验同位素峰落在碎裂窗口内的谱峰个数。
同位素峰簇长度(LenIso)是指实验同位素峰簇中包含的谱峰个数。如果谱峰偏少,则说明信号较差。
色谱保留曲线长度(LenLC)是指当前候选母离子的实验同位素峰簇中每一根谱峰在一级谱图中持续出现的时间。通常噪音峰不会稳定出现,所以谱峰持续存在时间越长,说明母离子越可靠。
同位素峰簇强度和(SumInt)是指实验同位素峰簇中所有谱峰的强度和。这个特征和PIF有差异,差别在于前者把碎裂窗口之外的谱峰也加入计数了。
单同位素峰精度(StdMono)是指实验同位素峰簇中单同位素峰的测量值的标准差。由于单同位素峰通常持续出现在多张关联的一级谱图上,那么每一张关联一级谱图相当于对单同位素峰的一次测量值,计算出对应于多张关联一级谱图的多次测量值的标准差,该标准差就是单同位素峰精度。
步骤6:根据当前二级谱图和候选母离子配对正确与否进行相应的赋值。由于当前二级谱图的母离子实际上是已知的,因此前文生成的每个候选母离子是正确还是错误也是已知的,对每个二级谱图-候选母离子组合进行赋值来表示配对正确还是错误。例如,二级谱图-候选母离子正确配对时可赋值1,错误配对时可赋值-1。
步骤7:将所有二级谱图-候选母离子组合的特征向量作为输入,将二级谱图和候选母离子配对正确与否的赋值作为输出,训练MARS模型,得到串联质谱母离子检测模型。
本实施例中,将MARS模型作为母离子检测的基础模型。MARS是一种类似决策树的加法模型,由斯坦福大学教授Friedman提出。
MARS分类的本质类似于分段线性拟合,差异是分段线性拟合相当于用线性函数的片段去逼近函数的局部变化趋势,而MARS的基函数是笛卡尔坐标系xOy内的折线,转折点t被称为基函数的扭结(Knot),在扭结的一侧,函数取值为0,在另一侧取值为x-t或者t-x,其数学形式如下:
( x - t ) + = x - t ifx > t 0 otherwise ( t - x ) + = t - x ifx < t 0 otherwise
对于给定的母离子正负样本矩阵X,在第i个母离子的第j个特征xij处,可以给出关于未知变元Xj的单变量基函数对(Xj-xij)+,(xij-Xj)+。所以,全体基函数的集合是:
S = { ( X j - t ) + , ( t - X j ) + } t &Element; { x 1 j , x 2 j , . . . , x Nj } , j = 1,2 , . . . , p
其中N是母离子样本总个数,p是每一个母离子的特征个数。本实施例采用了11个特征,所以p=11。MARS的训练目标就是把分类函数表示为S中的函数以及它们的乘积形式构成的函数的叠加形式。所以采用MARS方法构建的模型具有如下形式:
f ( X ) = &beta; 0 + &Sigma; m = 1 M &beta; m h m ( X )
其中,每一个hm属于基函数集合S,或是S中两个或多个函数的乘积形式。在训练阶段,MARS方法会考虑每一个的基函数对以及它们中任意两个的乘法组合形式,尝试把这个基函数加入到分类模型中,通过最小化分类函数输出值和真实分类答案之间的差异,求出不同的权重βm。现实中训练MARS模型包括一个前向过程和一个后向过程,其中前向过程中,每一轮从S中挑选最好的一个基函数加入到f(X)中,训练得到基函数的参数,然后再进一步挑选,直到模型的分类能力达到要求的精度,而后向过程是从所有已经被选中的基函数中,删去一些基函数,使得分类效果不发生明显下降。这两个过程综合起来就是MARS方法学习的基本流程。在一个实施例中,还通过广义交叉验证(GCV:Generalized Cross Validation)来控制模型训练过程的过拟合倾向。
上文中介绍了训练串联质谱母离子检测模型的方法,进一步地,图5示出了基于该串联质谱母离子检测模型进行母离子检测的方法,包括下列步骤:
步骤a1:获取待检测的串联质谱数据集。
步骤a2:对于待检测串联质谱数据集中的每张二级谱图,根据与该二级谱图关联的一级谱图以及母离子的可能电荷范围,确定该二级谱图的候选母离子。本步骤与前文步骤2至步骤4一致,此处不再赘述。
步骤a3:提取每个二级谱图-候选母离子组合的特征向量。本步骤提取特征向量的方法与前文步骤5一致,此处不再赘述。
步骤a4:将每种二级谱图-候选母离子组合的特征向量依次输入串联质谱母离子检测模型,根据匹配打分得出与当前二级谱图正确配对的母离子。
在实验中,发明人采用Mann实验室公开的数据集合,采用pFind搜索引擎搜索得到标注的正、负母离子样本。然后采用MARS开源工具包ARESLab训练得到串联质谱母离子检测模型,再用已标记的测试谱图数据集进行匹配打分。图4示出了基于串联质谱母离子检测模型对已标记的测试谱图数据集进行匹配打分的分布图。图4的横坐标代表MARS模型的返回值,即匹配打分,用MARS Score表示。纵坐标表示每一个打分出现的频数。整个图给出了正、负母离子样本的MARS打分频率分布直方图,其中实心直方条表示正样本(Positive Samples)的频数(Frequency),空心直方条表示负样本(Negative Samples)的频数。从图4可以看出,正负样本基本上被正确地分开,如果选择一个比较保守的阈值,例如-0.5,可以保证所有的正样本都被保留下来,同时绝大部分的负样本打分低于-0.5,因此都被删除。这就证明了所训练的串联质谱母离子检测模型具有优异的分类效果,能够有效地将候选母离子集合中的错误母离子剔除,同时保留正确的母离子。
进一步地,在一个实施例中,获取待检测的串联质谱数据集后还进行预处理,删去噪音谱峰,然后再进行母离子检测。删去噪音谱峰的过程包括:
步骤a11,对于给定的一级谱图计算噪音基线,删去强度低于噪音基线的谱峰。
步骤a12,对于给定的一级谱图,在步骤a11的基础上,删去强度低于最高谱峰2%的谱峰。
在一个实施例中,所述步骤a3中,还包括对于单张二级谱图,采用排序打分法对候选母离子进行过滤,只取一定数目以内的候选母离子执行下一步操作。本实施例特别适合于候选母离子较多的情形,例如可以将候选母离子数目阈值定为50,对于每张二级谱图,当候选母离子超过50个时,只取排序在前50的候选母离子。排序方法可以依据特征向量中的重要维度取值分别进行简单排序,再综合简单排序的结果重新进行综合排序。例如首先分别基于PIF,SimIso,SimLC0的取值对各候选母离子进行排序,然后对于每个候选母离子将PIF,SimIso,SimLC0下的序号直接相乘得到综合序号,最后基于综合序号对各候选母离子重新排序。
另外,需要说明的是上述步骤5和步骤a3中的特征向量的组成并不是唯一的,在别的实施例中,特征向量也可以是同位素峰簇相似度、碎裂窗口内的谱峰强度比、色谱相似度、虚拟色谱相似度组成的特征向量,或者是包含了同位素峰簇相似度、碎裂窗口内的谱峰强度比、色谱相似度、虚拟色谱相似度四个元素的5至11维向量。
本发明能够显著地提升母离子检测的检测速度,同时提高召回率。在不同的数据集上进行测试,本发明相对于Hardklor算法,检测速度能够提高到十倍,召回率提高到99%。
最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其它的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims (10)

1.一种串联质谱母离子检测模型训练方法,包括下列步骤:
1)获取母离子已知的谱图数据集,对于其中每张二级谱图,确定该二级谱图的候选母离子;
2)提取每个二级谱图-候选母离子组合的特征向量,并根据二级谱图和候选母离子配对正确与否进行相应的赋值;其中,特征向量的元素包括:同位素峰簇相似度、碎裂窗口内的谱峰强度比、色谱相似度和虚拟色谱相似度;
3)将所有二级谱图-候选母离子组合的特征向量作为输入,将二级谱图和候选母离子配对正确与否的赋值作为输出,训练MARS模型,得到串联质谱母离子检测模型。
2.根据权利要求1所述的串联质谱母离子检测模型训练方法,其特征在于,所述步骤1)中,对于每张二级谱图,确定候选母离子的过程包括下列子步骤:
11)找到与当前二级谱图匹配的一级谱图;
12)从匹配的一级谱图中提取出当前二级谱图碎裂窗口内的谱峰集合并将其作为候选单同位素峰集合;
13)根据与当前二级谱图匹配的一级谱图以及母离子的可能电荷范围,确定当前二级谱图的候选母离子。
3.根据权利要求2所述的串联质谱母离子检测模型训练方法,其特征在于,所述步骤11)中,与二级谱图匹配的一级谱图包括:与该二级谱图直接匹配的一级谱图,在该直接匹配的一级谱图前最近的一张一级谱图,以及在该直接匹配的一级谱图后最近的一张一级谱图。
4.根据权利要求3所述的串联质谱母离子检测模型训练方法,其特征在于,所述步骤2)中,对于每个二级谱图-候选母离子组合,根据该二级谱图和与其关联的一级谱图,以及组合中的候选母离子得出该二级谱图-候选母离子组合的特征向量。
5.根据权利要求4所述的串联质谱母离子检测模型训练方法,其特征在于,所述特征向量的元素还包括:单同位素峰质量、单同位素峰电荷、碎裂窗口内的谱峰个数、同位素峰簇长度、色谱保留曲线长度、同位素峰簇强度和、单同位素峰精度中的一项或多项。
6.一种基于串联质谱母离子检测模型的母离子检测方法,包括下列步骤:
4)对于待检测串联质谱数据集中的每张二级谱图,确定该二级谱图的候选母离子;
5)提取每个二级谱图-候选母离子组合的特征向量;
6)将每种二级谱图-候选母离子组合的特征向量依次输入权利要求1~5中任意一项的串联质谱母离子检测模型训练方法所得的串联质谱母离子检测模型,根据匹配打分得出与当前二级谱图正确配对的母离子。
7.根据权利要求6所述的基于串联质谱母离子检测模型的母离子检测方法,其特征在于,所述步骤4)中还包括:对待检测串联质谱数据集进行预处理,删去噪音谱峰。
8.根据权利要求6所述的基于串联质谱母离子检测模型的母离子检测方法,其特征在于,所述步骤4)中,对于每张二级谱图,确定候选母离子的过程包括下列子步骤:
41)找到与当前二级谱图匹配的一级谱图;
42)从匹配的一级谱图中提取出当前二级谱图碎裂窗口内的谱峰集合并将其作为候选单同位素峰集合;
43)根据与当前二级谱图匹配的一级谱图以及母离子的可能电荷范围,确定当前二级谱图的候选母离子。
9.根据权利要求8所述的基于串联质谱母离子检测模型的母离子检测方法,其特征在于,所述步骤4)中,与二级谱图匹配的一级谱图包括:与该二级谱图直接匹配的一级谱图,在该直接匹配的一级谱图前最近的一张一级谱图,以及在该直接匹配的一级谱图后最近的一张一级谱图。
10.根据权利要求7所述的基于串联质谱母离子检测模型的母离子检测方法,其特征在于,所述步骤5)和步骤6)之间还包括步骤:
51)对于当前二级谱图,当候选母离子数目超过预设的阈值时,对候选母离子进行初步过滤,取排序靠前的母离子作为当前二级谱图的候选母离子,然后执行步骤6)。
CN201410406562.6A 2014-08-18 2014-08-18 串联质谱数据母离子检测模型训练方法及母离子检测方法 Active CN104215729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410406562.6A CN104215729B (zh) 2014-08-18 2014-08-18 串联质谱数据母离子检测模型训练方法及母离子检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410406562.6A CN104215729B (zh) 2014-08-18 2014-08-18 串联质谱数据母离子检测模型训练方法及母离子检测方法

Publications (2)

Publication Number Publication Date
CN104215729A true CN104215729A (zh) 2014-12-17
CN104215729B CN104215729B (zh) 2016-09-28

Family

ID=52097443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410406562.6A Active CN104215729B (zh) 2014-08-18 2014-08-18 串联质谱数据母离子检测模型训练方法及母离子检测方法

Country Status (1)

Country Link
CN (1) CN104215729B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107533031A (zh) * 2015-05-13 2018-01-02 Dh科技发展私人贸易有限公司 自上而下蛋白质鉴定方法
CN107563148A (zh) * 2017-08-16 2018-01-09 中国科学院计算技术研究所 一种基于离子索引的整体蛋白质鉴定方法与***
CN107622184A (zh) * 2017-09-29 2018-01-23 中国科学院计算技术研究所 氨基酸可信度和修饰位点定位的评估方法
CN111524549A (zh) * 2020-03-31 2020-08-11 中国科学院计算技术研究所 一种基于离子索引的整体蛋白质鉴定方法
CN113362899A (zh) * 2021-04-20 2021-09-07 厦门大学 一种基于深度学习的蛋白质质谱数据的分析方法及***
CN113758989A (zh) * 2021-08-26 2021-12-07 清华大学深圳国际研究生院 基于碎片树的现场质谱目标物识别以及衍生物预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1769891A (zh) * 2004-11-03 2006-05-10 中国科学院计算技术研究所 一种使用串联质谱数据鉴定肽的方法
JP2008530576A (ja) * 2005-02-18 2008-08-07 シマズ リサーチ ラボラトリー (ヨーロッパ) リミテッド 質量分析プリカーサーイオンの選択
CN102445544A (zh) * 2010-10-15 2012-05-09 中国科学院计算技术研究所 一种提高单同位素峰判断准确率的方法和***
US20120191630A1 (en) * 2011-01-26 2012-07-26 Google Inc. Updateable Predictive Analytical Modeling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1769891A (zh) * 2004-11-03 2006-05-10 中国科学院计算技术研究所 一种使用串联质谱数据鉴定肽的方法
JP2008530576A (ja) * 2005-02-18 2008-08-07 シマズ リサーチ ラボラトリー (ヨーロッパ) リミテッド 質量分析プリカーサーイオンの選択
CN102445544A (zh) * 2010-10-15 2012-05-09 中国科学院计算技术研究所 一种提高单同位素峰判断准确率的方法和***
US20120191630A1 (en) * 2011-01-26 2012-07-26 Google Inc. Updateable Predictive Analytical Modeling

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DEQUAN LI ET AL.: "pFind: a novel database-searching software system for automated peptide and protein identification via tandem mass spectrometry", 《BIOINFORMATICS》, vol. 21, no. 13, 7 April 2005 (2005-04-07), pages 3049 - 3050 *
JINGFEN ZHANG ET AL.: "Predicting Molecular Formulas of Fragment Ions with Isotope Patterns in Tandem Mass Spectra", 《TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》, vol. 2, no. 3, 31 December 2005 (2005-12-31), pages 217 - 230, XP058194980, DOI: doi:10.1109/TCBB.2005.43 *
孙瑞祥 等: "基于质谱技术的计算蛋白质组学研究", 《中国科学 E辑 信息科学》, vol. 36, no. 2, 31 December 2006 (2006-12-31), pages 222 - 234 *
王星 等: "《大数据分析:方法与应用"》", 30 September 2013, article "多元自适应回归样条", pages: 91-93 *
袁作飞 等: "精准确定串联质谱母离子的单同位素峰质量", 《质谱学报》, vol. 31, 31 July 2010 (2010-07-31), pages 364 - 365 *
袁作飞 等: "规模化蛋白质鉴定中母离子的准确检测技术研究", 《生物化学与生物物理进展》, vol. 40, no. 1, 31 December 2013 (2013-12-31), pages 89 - 3 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107533031A (zh) * 2015-05-13 2018-01-02 Dh科技发展私人贸易有限公司 自上而下蛋白质鉴定方法
CN107533031B (zh) * 2015-05-13 2020-09-29 Dh科技发展私人贸易有限公司 自上而下蛋白质鉴定方法
CN107563148A (zh) * 2017-08-16 2018-01-09 中国科学院计算技术研究所 一种基于离子索引的整体蛋白质鉴定方法与***
CN107563148B (zh) * 2017-08-16 2020-06-05 中国科学院计算技术研究所 一种基于离子索引的整体蛋白质鉴定方法与***
CN107622184A (zh) * 2017-09-29 2018-01-23 中国科学院计算技术研究所 氨基酸可信度和修饰位点定位的评估方法
CN107622184B (zh) * 2017-09-29 2020-01-21 中国科学院计算技术研究所 氨基酸可信度和修饰位点定位的评估方法
CN111524549A (zh) * 2020-03-31 2020-08-11 中国科学院计算技术研究所 一种基于离子索引的整体蛋白质鉴定方法
CN111524549B (zh) * 2020-03-31 2023-04-25 中国科学院计算技术研究所 一种基于离子索引的整体蛋白质鉴定方法
CN113362899A (zh) * 2021-04-20 2021-09-07 厦门大学 一种基于深度学习的蛋白质质谱数据的分析方法及***
CN113362899B (zh) * 2021-04-20 2023-12-19 厦门大学 一种基于深度学习的蛋白质质谱数据的分析方法及***
CN113758989A (zh) * 2021-08-26 2021-12-07 清华大学深圳国际研究生院 基于碎片树的现场质谱目标物识别以及衍生物预测方法
CN113758989B (zh) * 2021-08-26 2023-11-28 清华大学深圳国际研究生院 基于碎片树的现场质谱目标物识别以及衍生物预测方法

Also Published As

Publication number Publication date
CN104215729B (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
CN104215729A (zh) 串联质谱数据母离子检测模型训练方法及母离子检测方法
CN110838340B (zh) 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法
CN104076115B (zh) 基于峰强度识别能力的蛋白质二级质谱鉴定方法
CN105334279B (zh) 一种高分辨质谱数据的处理方法
CN104040561A (zh) 通过质谱术和分数规整识别微生物的方法
US20220229040A1 (en) Method for authentication of animal species origin of leather products
CN103852513B (zh) 一种基于hcd与etd质谱图的肽段从头测序方法及***
CN113362899B (zh) 一种基于深度学习的蛋白质质谱数据的分析方法及***
CN101918826B (zh) 质量分析***
CN103810200B (zh) 开放式蛋白质鉴定的数据库搜索方法及其***
Yu et al. Maximizing the sensitivity and reliability of peptide identification in large‐scale proteomic experiments by harnessing multiple search engines
US20150076341A1 (en) Method Of Mass Spectrometry And A Mass Spectrometer
CN108844941B (zh) 一种基于拉曼光谱和pca-hca的不同品位磷矿的鉴别和分类方法
CN104034792A (zh) 基于质荷比误差识别能力的蛋白质二级质谱鉴定方法
CN104182658B (zh) 一种串联质谱谱图鉴定方法
CN104374739A (zh) 一种基于近红外定性分析的种子品种真实性鉴别方法
WO2017176423A1 (en) Classifier generation methods and predictive test for ovarian cancer patient prognosis under platinum chemotherapy
US9563744B1 (en) Method of predicting development and severity of graft-versus-host disease
CN106033501B (zh) 一种交联二肽快速鉴定方法
CN106650779B (zh) 谱图相似度的计算方法
Zou et al. Charge state determination of peptide tandem mass spectra using support vector machine (SVM)
CN106404878A (zh) 基于多组学丰度信息的蛋白质二级质谱鉴定方法
CN114062305B (zh) 基于近红外光谱和1D-In-Resnet网络的单籽粒品种鉴定方法及***
US20220146527A1 (en) Method of creating characteristic profiles of mass spectra and identification model for analyzing and identifying features of microorganisms
EP3304374B1 (en) Sample mass spectrum analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant