CN107818329B - 一种质谱数据分析方法 - Google Patents

一种质谱数据分析方法 Download PDF

Info

Publication number
CN107818329B
CN107818329B CN201710674793.9A CN201710674793A CN107818329B CN 107818329 B CN107818329 B CN 107818329B CN 201710674793 A CN201710674793 A CN 201710674793A CN 107818329 B CN107818329 B CN 107818329B
Authority
CN
China
Prior art keywords
mass
mass spectrum
data
sample
spectrum data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710674793.9A
Other languages
English (en)
Other versions
CN107818329A (zh
Inventor
王乾
胡畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yinapu Zhejiang Biotechnology Co ltd
Original Assignee
Yinapu Zhejiang Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yinapu Zhejiang Biotechnology Co ltd filed Critical Yinapu Zhejiang Biotechnology Co ltd
Priority to CN201710674793.9A priority Critical patent/CN107818329B/zh
Publication of CN107818329A publication Critical patent/CN107818329A/zh
Application granted granted Critical
Publication of CN107818329B publication Critical patent/CN107818329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明提供一种质谱数据分析方法,包括样本数据采集步骤、样本数据预处理步骤、数据模型构建及交叉验证步骤、数据模型优化步骤以及样本组别判断步骤。

Description

一种质谱数据分析方法
技术领域
本发明涉及机器学习应用领域,特别涉及一种质谱数据分析方法。
背景技术
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人组的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,可应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测***欺诈、证券市场分析、DNA序列测序等诸多领域。机器学习算法是一组从已知数据中自动分析及获得规律并利用规律对未知数据进行预测的算法。
质谱数据,是使用专门的仪器使样品发生电离,生成不同荷质比的带电荷离子,再利用外加电场使得不同荷质比的离子在空间上或时间上分离,进而得到质谱数据。不同质荷比的离子经质量分析器分开后,被检测并记录下来,经计算机处理后生成质谱图。
在生物、化学及医学领域,经常会涉及到根据成分对体液样本进行的分类问题,一般来说,技术人员大多使用单独分析、分别对比的方法,这种方法的优势在于,样品成分清楚,分类准确;其不足之处在于,当需要分类的体液样本种类较多时,需要消耗大量时间和大量资源,人力成本较高。如何根据已知类别的体液样本,推断出新的体液样本的类别,一直是科研人员的重要研究课题。
以医学领域为例,目前已知的某些疾病患者的体液内往往会存在一些相同的特殊成分,这些成分可能是导致患者患有同类疾病的病因,也可能是因某类疾病的表现特征。在临床上,如果查到某患者体液内存在某一类成分,就可以将该患者与某一种或某一类疾病建立关联,为临床诊断提供数据支持。由于人体是非常复杂的有机体,疾病的诊断和治疗方案的选择都需要专业医务人员针对每一个体海量数据做出判断,诊断效率较低,人力成本较高。当需要做检查的患者人数较多时,患者需要长时间排队,医生连续工作也会比较辛苦,每个病人的诊疗时间较短,很容易出现误诊的情况。因此,在临床医学中,需要有一种能同时可以对大量体液样本作出成分分析的医学设备,可以根据已知的健康人群和患者的大量体液样本,在短时间内检测和分析大量未知样本中是否含有某些特定成分,从而辅助医务人员可以更加方便准确地作出诊断。
发明内容
本发明的目的在于:提供一种质谱数据分析方法,以解决现有技术中存在的当需要分类的体液样本数量较多时,需要消耗大量时间和大量资源,人力成本较高的技术问题。
为解决上述技术问题,本发明提供一种质谱数据分析方法,包括如下步骤:样本数据采集步骤,用以采集两个以上体液样本的质谱数据并根据所述质谱数据生成质谱图;所述体液样本包括两个以上训练样本及至少一个测试样本;所述训练样本被分成两个以上组别,同一组别的训练样本标识有相同的组别标签;样本数据预处理步骤,用以对至少一组质谱数据进行预处理,对所述质谱图进行坐标变换处理,获得所述训练样本及所述测试样本的标准化质谱数据;数据模型构建及交叉验证步骤,用以利用所述训练样本的标准化质谱数据及所述训练样本的组别标签构建初级数据模型,根据所述训练样本的标准化质谱数据对所述初级数据模型进行至少一次的交叉验证处理;数据模型优化步骤,用以根据交叉验证的结果构建优化数据模型;以及样本组别判断步骤,用以利用所述测试样本的标准化质谱数据及所述优化数据模型获取所述测试样本的组别标签。
进一步地,所述样本数据采集步骤,具体包括如下步骤:获取两个以上体液样本;将全部所述体液样本在一平板上排列成矩阵;以及利用质谱法采集所述体液样本的质谱数据并生成质谱图;每一体液样本采集至少一组质谱数据。
进一步地,所述测试样本位于所述平板的中部,所述训练样本围绕所述测试样本;所述平板包括但不限于基质金属板;任意两个相邻的训练样本的组别标签皆不同;任意两个相邻体液样本的距离大于或等于2mm,且小于或等于5mm。
进一步地,每一组质谱数据包括体液样本中一离子的质荷比值及对应该离子的信号实测强度值;每一组质谱数据对应所述质谱图中一个采样点;每一个采样点的横坐标表示一离子的质荷比值,其纵坐标表示对应该离子的信号实测强度值。
进一步地,所述样本数据预处理步骤具体包括如下步骤:基线校正步骤,用以对所述质谱图中的质谱数据做基线校正处理;重采样步骤,用以利用重采样算法对基线校正后的质谱数据中的离子质荷比值进行重采样处理,对所述质谱图进行横坐标变换,统一所有质谱数据的质荷比,获得重采样质谱数据;标准化步骤,用以对所述重采样质谱数据中离子信号强度值进行标准化处理,对所述质谱图进行纵坐标变换,获得标准化质谱数据。
进一步地,所述基线校正步骤具体包括如下步骤:信号计算步骤,用以利用窗函数计算一组质谱数据中至少一质荷比值对应的基线信号强度;信号校正步骤,用以根据所述基线信号强度校正对应所述质荷比的实测信号强度;重复所述信号计算步骤及所述信号校正步骤,依次完成每一体液样本的每一组质谱数据的校正。
进一步地,所述重采样步骤具体包括如下步骤:有效质荷比选择步骤,用以选择有效质荷比区间及有效质荷比数量;有效质荷比计算步骤,用以利用重采样算法计算重采样质谱数据的质荷比;插值处理步骤,用以利用重采样后的质荷比及质荷比编号对基线校正后的质谱图进行插值处理,将基线校正后质谱图的横坐标由荷质比数值变换为质荷比编号。
进一步地,所述重采样算法是指:设重采样后有效质谱数据的质荷比区间为[y1,y2],重采样后的质荷比坐标数量为N;利用以下公式计算重采样后的质荷比坐标
Figure BDA0001373796130000031
Figure BDA0001373796130000032
其中,N大于104且小于105
进一步地,所述标准化步骤具体包括如下步骤:信号强度绝对值总和计算步骤,用以计算所有重采样质谱数据中离子信号强度值的绝对值总和S;标准化信号强度值总和设定步骤,用以设定标准化处理后所有重采样质谱数据中离子信号强度值的绝对值总和为常量T;信号强度值变化倍数计算步骤,用以计算每一信号强度值的变化倍数T/S;信号强度值变化步骤,用以对所述重采样质谱数据中每个离子信号强度值进行同步放大或同步缩小处理。
进一步地,所述数据模型构建及交叉验证步骤,具体包括如下步骤:任选一训练样本作为标准训练样本,其组别标签已知;以所述标准训练样本的位置为圆心,以特定长度r为半径,在所述平板上设定一个圆形区域;根据所述圆形区域内除所述标准训练样本外的其他训练样本的标准化质谱数据构建矩阵D,所述矩阵D中每一列数据分别对应一训练样本的一组标准化质谱数据;根据所述圆形区域内除所述标准训练样本外的其他训练样本的组别标签获取向量
Figure BDA0001373796130000041
每一训练样本的组别标签记录在向量
Figure BDA0001373796130000042
中;利用稀疏学***板上设定一个圆形区域;根据所述圆形区域内所有训练样本的标准化质谱数据构建矩阵DW,所述矩阵DW中每一列数据分别对应一训练样本的一组标准化质谱数据;根据所述圆形区域内所有训练样本的组别标签获取向量
Figure BDA0001373796130000045
每一训练样本的组别标签以自然数形式记录在对应该训练样本的向量
Figure BDA0001373796130000046
中;利用稀疏学***板上设定一个圆形区域;根据所述圆形区域内所有训练样本的标准化质谱数据构建矩阵DW,所述矩阵DW中每一列数据分别对应一训练样本的一组标准化质谱数据;根据所述圆形区域内所有训练样本的组别标签获取向量
Figure BDA0001373796130000049
每一训练样本的组别标签以自然数形式记录在对应该训练样本的向量
Figure BDA00013737961300000410
中;利用稀疏学习优化算法建立优化数据模型
Figure BDA00013737961300000411
进一步地,所述样本组别判断步骤具体包括如下步骤:将一测试样本的一组质谱数据与所述数据模型相乘,对其乘积进行取整处理,获取该测试样本的组别标签;或者将一测试样本的两组以上质谱数据与所述数据模型相乘,将其乘积按照数值大小排成数列,对其中位值进行取整处理,获取该测试样本的组别标签。
本发明的优点在于:提供一种质谱数据分析方法,可以根据已知体液样本的组别构建分组器模型,经多个训练样本的多次交叉验证,获取正确率最高的数据模型,可以同时处理大量体液样本的质谱数据,并根据体液样本成分对其进行分组。
附图说明
图1为本发明实施例所述质谱数据分析方法的流程图;
图2为本发明实施例所述样本数据采集步骤的方法流程图;
图3为本发明实施例所述质谱数据在预处理前生成的质谱图;
图4为本发明实施例所述样本数据预处理步骤的方法流程图;
图5为本发明实施例所述样本数据基线校正步骤的方法流程图;
图6为本发明实施例所述质谱数据在基线校正后生成的质谱图;
图7为本发明实施例所述质谱数据重采样处理步骤的方法流程图;
图8为本发明实施例重采样质谱数据中有效质荷比示意图;
图9为本发明实施例重采样质谱数据生成的质谱图;
图10为本发明实施例所述质谱数据标准化处理步骤的方法流程图;
图11所示为本实施例标准化质谱数据生成的质谱图;
图12为本发明实施例所述数据模型构建及交叉验证步骤的方法流程图;
图13为本发明实施例所述数据模型优化步骤的方法流程图。
具体实施方式
下文提供一种本发明的实施例,参照说明书附图,以示范本发明可实施。
如图1所示,本实施例提供一种质谱数据分析方法,包括如下步骤S1)~步骤S5)。
步骤S1)样本数据采集步骤,用以采集两个以上体液样本的至少一组质谱数据并根据所述质谱数据生成质谱图。所述体液样本包括两个以上训练样本及至少一个测试样本;所述训练样本被分成两个以上组别(也可以称之为类别),同一组别的训练样本标识有相同的组别标签。所述体液样本可以为某一种来自人体或其他生物的体液,本实施例优选人类的血液样本,组别标签分别为0和1,组别0的样本来自某种疾病患者(如糖尿病患者、血友病患者等),组别1的样本来自无该种疾病的健康人士,所述训练样本为已知组别标签的血液样本,每一血液样本上标识有0或1。在其他实施例中,组别标签还可以标识为其他自然数。
如图2所示,步骤S1)具体包括如下步骤:步骤S101)获取两个以上体液样本;一般可以选取数十个或数百个样本。步骤S102)将全部所述体液样本以液滴形式在一平板(优选基质金属板)上排列成矩阵,所述测试样本位于所述平板的中部,所述训练样本围绕所述测试样本;任意两个相邻的训练样本的组别标签皆不同;任意两个相邻体液样本的距离大于或等于2mm,且小于5mm;所述平板包括但不限于基质金属板。步骤S103)利用质谱法采集所述体液样本的质谱数据并生成质谱图,如图3所示;每一体液样本采集至少一组质谱数据,优选三组以上,减少质谱数据误差带来的负面影响,提高正确率,在同一样本多组数据基础之上实现模式分类,可以有效降低单组数据误差所导致的干扰。每组质谱数据包括体液样本中一离子的质荷比值及对应该离子的信号实测强度值;所述质谱图中每一采样点,其横坐标表示一离子的质荷比值,其纵坐标表示对应该离子的信号实测强度值,详见图3。
步骤S2)样本数据预处理步骤,用以对至少一组质谱数据进行预处理,对所述质谱图进行坐标变换处理,获得所述训练样本的标准化质谱数据。由于样本的处理、仪器的性能、外部污染等因素,由质谱仪直接得到的质谱数据需要进行适当的预处理以提高分组精度。
如图4所示,步骤S2)具体包括步骤S201)~步骤S203),对所述质谱图上的质谱数据,经由基线校正、重采样及标准化三个处理步骤,可以避免外部因素过多影响到质谱数据的分组精度。
步骤S201)基线校正步骤,用以对所述质谱图上的质谱数据做基线校正处理,基线是质谱数据中的基本强度值,基线校正步骤的作用在于识别并去除质谱图中偏离较大的基线,去除质谱数据中偏差较大的数据。如图5所示,步骤S201)基线校正步骤具体包括如下步骤:步骤S2011)信号计算步骤,用以利用窗函数计算一组质谱数据中至少一质荷比的基线信号强度;步骤S2012)信号校正步骤,用以根据所述基线信号强度校正对应所述质荷比的实测信号强度,筛选并去除偏差较大的无效数据;重复步骤S2011)~步骤S2012),依次完成每一体液样本的每一组质谱数据的校正。当运用计算机实现工程测试信号处理时,不能对无限长的信号进行测量和运算,而是取其有限的时间片段进行分析,从信号中截取一个时间片段,然后用截取的信号时间片段进行周期延拓处理,得到虚拟的无限长的信号,就可以对信号进行傅里叶变换、相关分析等数学处理。在具体应用中,可采用不同的截取函数对信号进行截断,该截取函数称为窗函数。本实施例中,所述窗函数STEP设为50,WINDOW设为50。基线校正完成后,获得基线校正后的质谱图,详见图6,其横坐标表示一离子的质荷比值,其纵坐标表示对应该离子的信号实测强度值。
步骤S202)重采样步骤,用以利用重采样算法对基线校正后的质谱数据中的离子质荷比值进行重采样处理,对所述质谱图进行横坐标变换,统一所有质谱数据的质荷比,去除偏差较大的质谱数据,获得重采样质谱数据。
如图7所示,重采样步骤S202)具体包括如下步骤S2021)~S2023)。S2021)有效质荷比选择步骤,用以选择有效质荷比区间及有效质荷比数量;构建重采样数据中有效质荷比示意图,其横坐标表示重采样后保留的有效质荷比编号,其纵坐标表示该质荷比编号对应的质荷比数值。S2022)有效质荷比计算步骤,用以利用重采样算法计算重采样质谱数据的质荷比;重采样算法是指:设重采样后有效质谱数据的质荷比区间为[y1,y2],重采样后的质荷比坐标数量为N;利用以下公式计算重采样后的质荷比坐标
Figure BDA0001373796130000071
Figure BDA0001373796130000072
其中,N大于104且小于105,已取得算法准确性和计算速度的平衡。S2023)插值处理步骤,用以利用重采样后的质荷比及质荷比编号对基线校正后的质谱图进行插值处理,将基线校正后质谱图的横坐标由荷质比数值变换为质荷比编号。在本实施例中,重采样后的质谱数据的质荷比均分布在98.9~1003.1的质荷比区间内,保留10000组有效质谱数据,利用以下公式计算重采样后的质荷比坐标
Figure BDA0001373796130000076
Figure BDA0001373796130000075
与有效质谱数据相对应的,共有10000个质荷比,如图8所示为本实施例重采样数据中有效质荷比示意图,其横坐标表示重采样后保留的有效质荷比编号,其纵坐标表示该质荷比编号对应的质荷比数值。
在对所述质谱图进行插值处理的过程中,将基线校正后质谱图中(如图6)多余的质谱数据去除,只保留重采样的有效质谱数据;将基线校正后质谱图的横坐标由荷质比数值变换为质荷比编号,其纵坐标不变,即可完成每组原始质谱数据的重采样,如图9所示为本实施例重采样质谱数据的质谱图,其横坐标表示重采样后的有效质荷比编号,其纵坐标表示该质荷比编号对应的离子信号实测强度值。重采样步骤后,在所述质谱图上,质荷比相对较小的区间包含的采样值较多,质荷比较大的区间包含的采样值较少,与质荷比较小区间包含信息量多于质荷比较大区间的假设相对应。
步骤S203)标准化步骤,用以对所述重采样质谱数据中离子信号强度值进行标准化处理,对所述质谱图进行纵坐标变换,获得标准化质谱数据。如图10所示,步骤S203)标准化步骤具体包括如下步骤步骤S2031)~步骤S2034)。步骤S2031)信号强度绝对值总和计算步骤,用以计算所有重采样质谱数据中离子信号强度值的绝对值的总和S;步骤S2032)标准化信号强度值总和设定步骤,用以设定标准化处理后所有重采样质谱数据中离子信号强度值的绝对值总和为常量T,本实施例中,该常量设为10000;步骤S2033)信号强度值变化倍数计算步骤,用以计算每一信号强度值的变化倍数T/S;步骤S2034)信号强度值变化步骤,用以对所述重采样质谱数据中每个离子信号强度值进行同步放大或同步缩小处理,对所述质谱图进行纵坐标变换,信号强度值的变化倍数为步骤S2033)中的T/S。如图11所示为本实施例标准化质谱数据的质谱图,其横坐标表示重采样后的有效质荷比编号,其纵坐标表示该质荷比编号对应的离子信号标准化强度值。所述标准化步骤的技术效果在于,将质谱数据的强度映射到统一的范围,可以确保每组质谱数据强度的分布范围基本一致,从而增强不同样品质谱数据的可比性。
步骤S3)数据模型构建及交叉验证步骤,用以利用所述训练样本的质谱数据及所述训练样本的组别标签构建初级数据模型,根据所述训练样本的质谱数据对所述初级数据模型进行n次(n为训练样本数)的交叉验证处理,利用已知训练样本的质谱数据和组别标签进行机器学***板上设定一个圆形区域;步骤S303)根据所述圆形区域内除所述标准训练样本外的其他训练样本的标准化质谱数据构建矩阵D,所述矩阵D中每一列数据分别对应一训练样本的一组标准化质谱数据;步骤S304)根据所述圆形区域内除所述标准训练样本外的其他训练样本的组别标签获取向量
Figure BDA0001373796130000091
每一训练样本的组别标签记录在向量
Figure BDA0001373796130000092
中;步骤S305)利用稀疏学习优化算法建立初级数据模型
Figure BDA0001373796130000093
步骤S306)将所述标准训练样本的两组以上质谱数据与所述数据模型相乘,将其乘积按照数值大小排成数列,对其中位值进行取整处理,获取所述标准训练样本的推测组别标签;由于本发明中组别标签皆为整数(0或者1),因此需要将小数点后的数字四舍五入后获得一个整数,此即为取整处理;步骤S307)对比所述标准训练样本的推测组别标签与已知的所述标准训练样本的组别标签,若二者相同,则判定所述标准训练样本的组别标签推测正确,正确度计数器加一;步骤S308)依次将每一个训练样本作为标准训练样本,重复步骤S301)~步骤S307),对所有的训练样本进行交叉验证处理,计算出在半径为r的情况下所述训练样本的组别标签判断准确率,所述组别标签判断准确率为正确度计数器的数值与所述训练样本总数的比值;步骤S309)调整半径r的大小,重复步骤S301)~步骤S308),计算出在半径r为不同数值的情况下多个组别标签判断准确率;步骤S310)从所述多个组别标签判断准确率中选取一个准确率最大值,获取对应该准确率最大值的半径r的数值,也即为半径最优值R。
机器学***方和最小化,从而产生一些严格等于0的回归系数,得到可以解释的模型。
本实施例中,利用Lasso算法进行n次交叉验证(n为训练样本数),每次交叉验证得到的模型配合11个强度阈值0、0.1、…、1,对应得到11个组别标签判断准确率;重复n次,共得到n*11个数据模型(分组器),每个数据模型对应一个组别标签判断准确率。调整特定半径r=2.0mm、2.2mm、2.4mm…、4.8mm、5mm,获取n*11*16个组别标签判断准确率,将所有组别标签判断准确率的数值按照大小排列,找出最大的准确率数值,再找出与准确率最大值相对应的半径,此即为半径最优值R。
步骤S4)数据模型优化步骤,用以根据交叉验证的结果构建优化数据模型。如图13所示,步骤S4)具体包括如下步骤:步骤S401)以一测试样本的位置为圆心,以步骤S310)中的半径最优值R的长度为半径,在所述平板上设定一个圆形区域;步骤S402)根据所述圆形区域内所有训练样本的标准化质谱数据构建矩阵DW,所述矩阵DW中每一列数据分别对应一训练样本的一组标准化质谱数据;步骤S403)根据所述圆形区域内所有训练样本的组别标签获取向量
Figure BDA0001373796130000101
每一训练样本的组别标签以整数形式记录在对应该训练样本的向量
Figure BDA0001373796130000102
中;步骤S404)建立优化数据模型
Figure BDA0001373796130000106
建立优化数据模型
Figure BDA0001373796130000105
过程中利用稀疏学习优化算法。
步骤S5)样本组别判断步骤,用以利用所述测试样本的质谱数据及所述优化数据模型获取所述测试样本的组别标签。在所述步骤S5)中,将一测试样本的一组质谱数据与所述数据模型相乘,对其乘积进行取整处理,获取该测试样本的组别标签;或者将一测试样本的两组以上质谱数据与所述数据模型相乘,将其乘积按照数值大小排成数列,对其中位值进行取整处理,获取该测试样本的组别标签。在本实施例中,如果取整的结果是0,可以认为与该测试样本对应的人具有与某种疾病关联的质谱数据模式,从而辅助医师作出诊断;如果取整的结果是1,可以认为与该测试样本对应的人并不具有与该种疾病关联的质谱数据模式,从而辅助医师作出诊断。
本发明提供一种质谱数据分析方法,可以根据已知体液样本的组别构建分组器模型,经多个训练样本的多次交叉验证,获取正确率最高的数据模型,可以同时处理大量体液样本的质谱数据,并根据体液样本成分对其进行分组。在医学临床上,本发明的技术方案可以应用于辅助疾病智能诊断,利用计算机技术同时检测多位待检测者的多组血液样本,可以在短时间内判断多位待检测者是否具有与某种疾病关联的质谱数据模式,辅助医师实现快速诊断。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种质谱数据分析方法,其特征在于,包括如下步骤:
样本数据采集步骤,用以采集两个以上体液样本的质谱数据并根据所述质谱数据生成质谱图;所述体液样本包括两个以上训练样本及至少一个测试样本;所述训练样本被分成两个以上组别,同一组别的训练样本标识有相同的组别标签;
样本数据预处理步骤,用以对至少一组质谱数据进行预处理,对所述质谱图进行坐标变换处理,获得所述训练样本及所述测试样本的标准化质谱数据;
数据模型构建及交叉验证步骤,用以利用所述训练样本的标准化质谱数据及所述训练样本的组别标签构建初级数据模型,根据所述训练样本的标准化质谱数据对所述初级数据模型进行至少一次的交叉验证处理;
数据模型优化步骤,用以根据交叉验证的结果构建优化数据模型;以及
样本组别判断步骤,用以利用所述测试样本的标准化质谱数据及所述优化数据模型获取所述测试样本的组别标签;
所述样本数据采集步骤,具体包括如下步骤:
获取两个以上体液样本;
将全部所述体液样本在一平板上排列成矩阵;以及
利用质谱法采集所述体液样本的质谱数据并生成质谱图;每一体液样本采集至少一组质谱数据;
所述数据模型构建及交叉验证步骤,具体包括如下步骤:
任选一训练样本作为标准训练样本,其组别标签已知;
以所述标准训练样本的位置为圆心,以特定长度r为半径,在所述平板上设定一个圆形区域;
根据所述圆形区域内除所述标准训练样本外的其他训练样本的标准化质谱数据构建矩阵D,所述矩阵D中每一列数据分别对应一训练样本的一组标准化质谱数据;
根据所述圆形区域内除所述标准训练样本外的其他训练样本的组别标签获取向量每一训练样本的组别标签记录在向量中;
利用稀疏学习优化算法建立初级数据模型
将所述标准训练样本的两组以上标准化质谱数据与所述数据模型相乘,将其乘积按照数值大小排成数列,对其中位值进行取整处理,获取所述标准训练样本的推测组别标签;
对比所述标准训练样本的推测组别标签与其组别标签,若二者相同,则判定所述标准训练样本的组别标签推测正确,正确度计数器加一;
依次将每一个训练样本作为标准训练样本,重复上述各个步骤,对所有的训练样本进行交叉验证处理,计算出在半径为r的情况下所述训练样本的组别标签判断准确率,所述组别标签判断准确率为正确度计数器的数值与所述训练样本总数的比值;
调整半径r的大小,重复上述各个步骤,计算出在半径r为不同数值的情况下的组别标签判断准确率;以及
从两个以上组别标签判断准确率中选取一个准确率最大值,获取对应该准确率最大值的半径r的最优值R。
2.如权利要求1所述的质谱数据分析方法,其特征在于,
所述测试样本位于所述平板的中部,所述训练样本围绕所述测试样本;
所述平板包括但不限于基质金属板;
任意两个相邻的训练样本的组别标签皆不同;
任意两个相邻体液样本的距离大于或等于2mm,且小于或等于5mm。
3.如权利要求1所述的质谱数据分析方法,其特征在于,
每一组质谱数据包括样本中一离子的质荷比值及对应该离子的信号实测强度值;
每一组质谱数据对应所述质谱图中一个采样点;
每一个采样点的横坐标表示一离子的质荷比值,其纵坐标表示对应该离子的信号实测强度值。
4.如权利要求1所述的质谱数据分析方法,其特征在于,
所述样本数据预处理步骤具体包括如下步骤:
基线校正步骤,用以对所述质谱图中的质谱数据做基线校正处理;
重采样步骤,用以利用重采样算法对基线校正后的质谱数据中的离子质荷比值进行重采样处理,对所述质谱图进行横坐标变换,统一所有质谱数据的质荷比,获得重采样质谱数据;以及
标准化步骤,用以对所述重采样质谱数据中离子信号强度值进行标准化处理,对所述质谱图进行纵坐标变换,获得标准化质谱数据。
5.如权利要求4所述的质谱数据分析方法,其特征在于,
所述基线校正步骤具体包括如下步骤:
信号计算步骤,用以利用窗函数计算一组质谱数据中至少一质荷比值对应的基线信号强度;
信号校正步骤,用以根据所述基线信号强度校正对应所述质荷比的实测信号强度;以及
重复所述信号计算步骤及所述信号校正步骤,依次完成每一体液样本的每一组质谱数据的校正。
6.如权利要求4所述的质谱数据分析方法,其特征在于,
所述重采样步骤具体包括如下步骤:
有效质荷比选择步骤,用以选择有效质荷比区间及有效质荷比数量;
有效质荷比计算步骤,用以利用重采样算法计算重采样质谱数据的质荷比;
插值处理步骤,用以利用重采样后的质荷比及质荷比编号对基线校正后的质谱图进行插值处理,将基线校正后质谱图的横坐标由荷质比数值变换为质荷比编号。
7.如权利要求6所述的质谱数据分析方法,其特征在于,
所述重采样算法是指:
设重采样后有效质谱数据的质荷比区间为[y1,y2],重采样后的质荷比坐标数量为N;
利用以下公式计算重采样后的质荷比坐标
其中,N大于104且小于105
8.如权利要求4所述的质谱数据分析方法,其特征在于,
所述标准化步骤具体包括如下步骤:
信号强度绝对值总和计算步骤,用以计算所有重采样质谱数据中离子信号强度值的绝对值总和S;
标准化信号强度值总和设定步骤,用以设定标准化处理后所有重采样质谱数据中离子信号强度值的绝对值总和为常量T;
信号强度值变化倍数计算步骤,用以计算每一信号强度值的变化倍数T/S;
信号强度值变化步骤,用以对所述重采样质谱数据中每个离子信号强度值进行同步放大或同步缩小处理。
9.如权利要求1所述的质谱数据分析方法,其特征在于,
所述数据模型优化步骤,具体包括如下步骤:
以一测试样本的位置为圆心,以半径最优值R的长度为半径,在所述平板上设定一个圆形区域;
根据所述圆形区域内所有训练样本的标准化质谱数据构建矩阵Dw,所述矩阵Dw中每一列数据分别对应一训练样本的一组标准化质谱数据;
根据所述圆形区域内所有训练样本的组别标签获取向量每一训练样本的组别标签以自然数形式记录在对应该训练样本的向量中;以及
利用稀疏学习优化算法建立优化数据模型
10.如权利要求1所述的质谱数据分析方法,其特征在于,
所述样本组别判断步骤具体包括如下步骤:
将一测试样本的一组质谱数据与所述数据模型相乘,对其乘积进行取整处理,获取该测试样本的组别标签;或者
将一测试样本的两组以上质谱数据与所述数据模型相乘,将其乘积按照数值大小排成数列,对其中位值进行取整处理,获取该测试样本的组别标签。
CN201710674793.9A 2017-08-09 2017-08-09 一种质谱数据分析方法 Active CN107818329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710674793.9A CN107818329B (zh) 2017-08-09 2017-08-09 一种质谱数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710674793.9A CN107818329B (zh) 2017-08-09 2017-08-09 一种质谱数据分析方法

Publications (2)

Publication Number Publication Date
CN107818329A CN107818329A (zh) 2018-03-20
CN107818329B true CN107818329B (zh) 2023-04-18

Family

ID=61601540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710674793.9A Active CN107818329B (zh) 2017-08-09 2017-08-09 一种质谱数据分析方法

Country Status (1)

Country Link
CN (1) CN107818329B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109633094B (zh) * 2018-12-28 2021-08-03 浙江省环境监测中心 一种臭气浓度在线监测方法
CN112380758B (zh) * 2020-11-02 2021-06-08 中煤科工集团重庆研究院有限公司 一种粉尘颗粒群电场荷电数学模型构建方法
CN112418072A (zh) * 2020-11-20 2021-02-26 上海交通大学 数据处理方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512669A (zh) * 2014-04-04 2016-04-20 佰欧迪塞克斯公司 使用基于血液的样本的质谱的肺癌患者的治疗选择
CN106415274A (zh) * 2014-03-26 2017-02-15 梅坦诺米克斯保健有限公司 基于代谢物组的血液样本质量的测定方法和手段

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106415274A (zh) * 2014-03-26 2017-02-15 梅坦诺米克斯保健有限公司 基于代谢物组的血液样本质量的测定方法和手段
CN105512669A (zh) * 2014-04-04 2016-04-20 佰欧迪塞克斯公司 使用基于血液的样本的质谱的肺癌患者的治疗选择

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Conrad TO etl.Sparse Proteomics Analysis - a compressed sensing-based approach for feature selection and classification of high-dimensional proteomics mass spectrometry data.BMC Bioinformatics.2017,第18卷(第1期),全文. *
Truntzer C etl.Comparison of classification methods that combine clinical data and high-dimensional mass spectrometry data..BMC Bioinformatics.2014,第15卷(第1期),全文. *
尹康平.基于贝叶斯的质谱数据分析方法.中国优秀硕士学位论文全文数据库 (中国优秀硕士学位论文全文数据库 (基础科学辑)).2012,全文. *
柯激情.基于稀疏表示的蛋白质质谱数据分析.中国优秀硕士学位论文全文数据库 (基础科学辑).2012,(第undefined期),全文. *
石雪娜.基于压缩感知的蛋白质功能分类预测.中国优秀硕士学位论文全文数据库 (信息科技辑).2014,(第undefined期),全文. *

Also Published As

Publication number Publication date
CN107818329A (zh) 2018-03-20

Similar Documents

Publication Publication Date Title
Meyer et al. Bayesian function-on-function regression for multilevel functional data
US6675104B2 (en) Method for analyzing mass spectra
US20020193950A1 (en) Method for analyzing mass spectra
CN107818329B (zh) 一种质谱数据分析方法
CA2618123C (en) A system, method, and computer program product using a database in a computing system to compile and compare metabolomic data obtained from a plurality of samples
AU2002241535A1 (en) Method for analyzing mass spectra
JP2009530648A (ja) サンプル内の個々の要素を識別及び定量化するために分光測定データを分析するシステム、方法及びコンピュータプログラム製品
Lee et al. Maximum likelihood estimation of two-level latent variable models with mixed continuous and polytomous data
CN112786204A (zh) 一种机器学习糖尿病发病风险预测方法及应用
CN114207726A (zh) 实现肌肤咨询的基因检查方法
Lemanska et al. Chemometric variance analysis of 1 H NMR metabolomics data on the effects of oral rinse on saliva
US11961204B2 (en) State visualization device, state visualization method, and state visualization program
CN113796873A (zh) 穿戴式动态心电信号分类方法及***
CN110377698B (zh) 基于阅读理解的任务处理方法及装置、设备及可读介质
CN110236572B (zh) 基于体温信息的抑郁症预测***
Kramer et al. Recognizing species diversity among large-bodied hominoids: a simulation test using missing data finite mixture analysis
CN110808102A (zh) 一种健康平台的信息推送方法、***及终端
Maddipatla Classaphasia: an ensemble machine learning network to improve aphasia diagnosis and determine severity
CN110889836A (zh) 一种影像数据分析方法、装置、终端设备及存储介质
CN111370131B (zh) 经由疾病轨迹筛选生物标记的方法及***
CN118116602A (zh) 一种临床状态的评估方法、装置、***及存储介质
CN116740431A (zh) 一种基于拉曼光谱的神经网络分类模型的构建方法及***
CN115575523A (zh) 疾病呼吸标志物的筛选方法、装置及终端设备
CN116453707A (zh) 一种结合多模态融合异质网络的临床抗癌药效预测***
Wiggins Individual differences in diagnostic judgments of psychosis and neurosis from the MMPI

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180829

Address after: 310053, 16, 1601, 5, Binan Road, Changhe street, Binjiang District, Hangzhou, Zhejiang, China, 688

Applicant after: YINAPU (ZHEJIANG) BIOTECHNOLOGY CO.,LTD.

Address before: 200030 Dongchuan Road, Minhang District, Shanghai 800

Applicant before: Shanghai Jiao Tong University

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant