CN109870533A - 一种基于分子地图的生物样本快速智能识别方法 - Google Patents

一种基于分子地图的生物样本快速智能识别方法 Download PDF

Info

Publication number
CN109870533A
CN109870533A CN201711248727.1A CN201711248727A CN109870533A CN 109870533 A CN109870533 A CN 109870533A CN 201711248727 A CN201711248727 A CN 201711248727A CN 109870533 A CN109870533 A CN 109870533A
Authority
CN
China
Prior art keywords
sample
molecule
map
molecule map
biological sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711248727.1A
Other languages
English (en)
Other versions
CN109870533B (zh
Inventor
张晓哲
赵凡
赵楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Institute of Chemical Physics of CAS
Original Assignee
Dalian Institute of Chemical Physics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Institute of Chemical Physics of CAS filed Critical Dalian Institute of Chemical Physics of CAS
Priority to CN201711248727.1A priority Critical patent/CN109870533B/zh
Publication of CN109870533A publication Critical patent/CN109870533A/zh
Application granted granted Critical
Publication of CN109870533B publication Critical patent/CN109870533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明涉及一种基于分子地图的生物样本快速智能识别方法,目前的分类方法,局限于有限生物样本集,尚缺乏能够高通量、高准确度分析不同种类、不同来源生物样本的通用技术和手段,难以满足生物大样本的分类与识别要求。在这里,我们提出了一个基于分子地图的智能分类方法。本发明利用生物样本分子地图所蕴含的位置与形状等特征进行识别;通过数据前处理技术,充分显示分子地图的各种特征;通过深度学习技术,提取多维分子地图中不同层次的特征;利用训练样本,训练分类器的分类效果,进行测试样本的快速识别与分类;结果表明,基于多维分子地图中蕴含的各种特征,分类效果明显优于常见方法。

Description

一种基于分子地图的生物样本快速智能识别方法
技术领域
本领域涉及生物样本的智能识别问题,尤其涉及基于X-MS技术的分子地图特征提取与分类问题,该发明所开发的技术能够提取、比较和评价不同分子地图的特异性分布模式,成为区分不同生物样本的有力工具;该发明充分利用深度学习和图像识别等技术,提高了识别与分类的准确性与速度,实现了大批量生物样本的可靠识别与分类。
背景技术
在许多应用领域,对生物样本的识别与分类存在着日益增长的需求。开发快速、准确复杂的分类技术成为一项非常具有挑战性的课题3-5。因为生物样本的组成极其复杂,人们为此目的开发了多种不同的方法。总结起来,主要有基因法、色谱法、光谱法和基于质谱技术的组学四种方法。基因测序是确定生物样本属性的强大手段6,但基因测序具有周期长、时间和经济成本高的缺点,并且不适用于缺乏基因信息的生物样本,如植物的小分子提取物的分析与识别5。色谱法和光谱法是一种克服了上述基因法的缺点7,8,但受制于分辨率低或分子信息不充分等因素,难以满足生物样本组成多样性的要求5。基于多维分离检测工具如色谱-色谱联用,质谱-质谱联用,特别是色谱质谱联用,因为提供了前所未有的分辨率,成为强大的分析工具,用于生物样品的高效分类与识别。然而,目前的分类方法,适应单个的分子(特征)为中心的、高度依赖强度,往往需要劳动密集型的结构鉴定5,9,并受到特征过剩造成的困扰10。因此,它们的使用一般局限于感兴趣物种的有限样本集,而且几乎迄今为止,尚缺乏能够高通量、高准确度分析不同种类、不同来源生物样本的通用技术和手段,难以满足生物大样本的分类与识别要求。
基于X-MS技术的分子地图是一种呈现高复杂性的生物化学成分析工具11-13。生物样品中含有可检测分子成千上万,许多这些化合物的基因产品或相关的衍生物,从而表现出的物理、化学、生物相关性。我们认为,这种物理和化学参数的相似性可以为多维空间中的相关化合物分组提供依据14,15。我们对大量不同种类样品进行分析和验证,发现这些样本,包括大鼠不同器官,人体血浆和各种植物产品,清楚地表明,每类分子地图中含有在空间上聚集的点。我们进一步发现分子地图数据簇在不同的样本中具有独特的形状、密度和位置。我们认为这些空间聚集的点和由之形成的形态特征可以提供新的有价值的特征来识别或分类复杂样品。
在这里,我们提出了一个基于分子地图的智能分类方法。我们对分子地图进行处理,通过深度学习技术提取生物样本分子地图的高级特征,通过分类工具对待测样本进行分类。结果表明,该方法能够有效识别近似样本,分类效果明显优于常见方法。
参考文献
1LeCun Y,Bengio Y,Hinton G.Deep learning[J].Nature,521(7553):436-444,(2015).
2Suykens J A K,Vandewalle J.Least squares support vector machineclassifiers[J].Neural processing letters,1999,9(3):293-300.
3Pennisi,E.How will big pictures emerge from a sea of biologicaldata?Science 309,94,doi:10.1126/science.309.5731.94(2005).
4Sauer,S.&Kliem,M.Mass spectrometry tools for the classification andidentification of bacteria.Nature reviews.Microbiology 8,74-82,doi:10.1038/nrmicro2243 (2010).
5Wolfender,J.L.,Rudaz,S.,Choi,Y.H.&Kim,H.K.Plant metabolomics:fromholistic data to relevant biomarkers.Current medicinal chemistry 20,1056-1090(2013).
6Gilbert,J.A.et al.Microbiome-wide association studies link dynamicmicrobial consortia to disease.Nature 535,94-103,doi:10.1038/nature18850(2016).
7Terskikh,V.&Kermode,A.R.In vivo nuclear magnetic resonancemetabolite profiling in plant seeds.Methods in molecular biology 773,307-318,doi:10.1007/978-1-61779- 231-1_17(2011).
8Dworzanski,J.P.et al.Mass spectrometry-based proteomics combinedwith bioinformatic tools for bacterial classification.Journal of proteomeresearch 5,76-87, doi:10.1021/pr050294t(2006).
9Martucci,M.E.P.,De Vos,R.C.H.,Carollo,C.A.&Gobbo-Neto,L.Metabolomics as a Potential Chemotaxonomical Tool:Application in the GenusVernoniaSchreb.PloS one 9,doi:ARTN e9314910.1371/journal.pone.0093149(2014).
10Smit,S.,Hoefsloot,H.C.&Smilde,A.K.Statistical data processing inclinical proteomics.Journal of chromatography.B,Analytical technologies inthe biomedical and life sciences 866,77-88,doi:10.1016/j.jchromb.2007.10.042(2008).
11Li,X.J.,Yi,E.C.,Kemp,C.J.,Zhang,H.&Aebersold,R.A software suite forthe generation and comparison of peptide arrays from sets of data collectedby liquid chromatography-mass spectrometry.Molecular&cellular proteomics:MCP4,1328-1340, doi:10.1074/mcp.M500141-MCP200(2005).
12Tsagkrasoulis,D.et al.'Brukin2D':a 2D visualization and comparisontool for LC-MS data.BMC bioinformatics 10Suppl 6,S12,doi:10.1186/1471-2105-10-S6-S12(2009).
13Mehlan,H.et al.Data visualization in environmentalproteomics.Proteomics 13, 2805-2821,doi:10.1002/pmic.201300167(2013).
14Patra,B.,Schluttenhofer,C.,Wu,Y.,Pattanaik,S.&Yuan,L.Transcriptional regulation of secondary metabolite biosynthesis inplants.Biochimicaetbiophysicaacta 1829, 1236-1247,doi:10.1016/j.bbagrm.2013.09.006(2013).
15Smith,L.M.,Kelleher,N.L.&Consortium for Top Down,P.Proteoform:asingle term describing protein complexity.Nature methods 10,186-187, doi:10.1038/nmeth.2369(2013).
16Wiwie,C.,Baumbach,J.&Rottger,R.Comparing the performance ofbiomedical clustering methods.Nature methods 12,1033-1038,doi:10.1038/nmeth.3583 (2015).
发明内容
本发明要解决的技术问题是一种基于质谱技术的快速、准确和大规模识别和分类生物样本的方法。本发明通过对化学、生物学和信息学知识与技术的综合应用,对分子地图提出了新的理解,发现不同生物样本中分子地图中由点密度、距离和强度等形成的特异性分布模式,然后基于机器学习,提取和利用地图中的高级特征进行生物样本的识别,与传统基于色谱、光谱和组学的方法相比,增强了效率,提高了实用性,能够使用与不同来源的数据,显著提高识别生物样本的效率和准确性。
为了解决上述技术问题本发明提供一种基于X-MS分子地图特征进行智能识别与分类的方法,其特征在于构建生物样本分子地图中各种特征,特别是高级特征的提取和使用,实现对样本的识别与分类。按以下步骤进行:
A、获得生物样本的原始X-MS分析数据,转化为分子地图(或图像,维度可用时间、质量或质荷比、强度,迁移率等信息表示),或者能够用于转化成地图的矩阵或图表等表示方法,这类格式的高维数据统属于分子地图;
B、对分子地图进行预处理,包括但不局限于噪音过滤等,得到处理后的分子地图;该地图中包含位置、亮度(强度)、密度、距离、边缘等信息;
C、利用训练数据集和测试数据集对分子地图进行深度学习,从地图中空间信息和分布信息等提取高级特征,通过训练和检验,实现识别和分类;
本发明为基于生物分子特征的识别提供一个更加有力的工具,本发明总结:
1.本发明将基于化合物特征的样本识别转化为基于样本分子地图的图像识别,具有提取特征容易,识别能力高的优点。
2.本发明充分利用生物样本中的化合物(离子)在分子地图上由聚集效应所形成的特征,提高识别的可行性与效率。
3.本发明全面利用了样本中各个化合物的质量和色谱信息,而不需要对各个化合物进行鉴定,能够大大提高识别效率。
4.本发明使用了深度学习技术,将分子地图特征的提取与分类有机结合起来,显著提高识别与分类的准确性和速度。
5.与常用于分类的指纹图谱法、质谱指纹图谱法相比,本发明增加了分离这一维度,具有更高的分辨率和识别效率。
6.与色谱-质谱指纹图谱法或基于组学技术的分类法相比,本发明更充分利用了各个化合物之间的质量的相关性,比较的过程简单、直接。
7.与基因分析相比,本发明分析速度快,分析成本低,并且可用于基因物质缺失样本,如中药的小分子提取物,组织的蛋白质提取物等的分析,具有广阔的前景。
附图说明
图1人参提取物的代表性分子地图(散点图)
图2训练过程中分类精度(左图)及loss值(右图)变化趋势
图3测试集中每类样本的分类精度统计结果
图4每类测试样本的受试者工作特征曲线
图5测试集中每类样本的分类精度统计结果(5倍交叉验证)
图6人参提取物的代表性分子地图(高斯函数处理后的模糊图)
图7每类测试样本的受试者工作特征曲线
图8测试集中每类样本的分类精度统计结果(5倍交叉验证)。
具体实施方式
本发明突破了以往生物样本识别中忽视化合物关联信息的缺点,充分利用了不同分子物理-化学属性差异和相似性所导致的分离与聚合,通过在分子地图中提取空间特征,建立了智能识别体系,大大简化了复杂生物样本的识别过程,提高了识别能力,对于药物或食品的甄别,疾病的诊断等多个领域具有广阔的应用前景。
现结合实施例和附图对本发明做进一步详细说明,实施例仅限于说明本发明,而非对本发明的限定。
复杂生物样品是指该样本中是含有多种物质的混合体,其形态可以是固态、液态、气态或混合态。不同样本的差异性是指化合物的组成或含量有区别。任何源自天然的含混合有机物样本均可以用于本发明的实施例。这些样本包含但不局限于植物的根、茎、叶、皮、花、果、种子等以及它们的组织与各种加工品等;人和动物血液、血清、血浆、乳汁、泪、唾液、***、粪便、尿、细胞、组织、器官以及它们的加工品等;各种细菌、病毒;各种环境样品;可以是原始态的样品,经简单处理的样品,也可以是经过复杂处理如富集、衍生化或代谢后的形态。
本发明适用于不同规格的质谱,包括不同的离子化方式,不同的检测器原理和不同的检测分辨率等。各种高分辨质谱仪均可用于质谱信息的获取和分子地图的生成。
在使用质谱所产生的分子地图中,每一个点对应一个离子,其电荷数≥1;每个离子对应一个化合物,但由于质谱的特殊规律,每个化合物可以有多个点 (离子),这些离子可以是化合物的前驱离子、加和物离子和聚合物离子。
在有些实施例中,图像集可包含各个样品的分子地图。分子地图可以有两种模式,一种是只考虑质谱信号I的有无,一种是考虑I值的大小。在某些情况下,信号I的大小可反映样本的独特特征。分类处理可以整体图像或局部图像区分不同的样本,这些信息在分类模型进行区分的时可以考虑权重和相加。
本发明中,分子地图来自特性已知或待测的样本,由具有不同分离原理的色谱-质谱联用仪,色谱-色谱仪,或质谱-质谱仪或其它联用仪器直接生成或采集后经软件处理生成。作为演示,下述很多例子中都使用中药的色谱-质谱数据作为对象进行模式识别和分类。但是,在本发明的某些实施例,用来分析的样本可能是源自任何生物体的对象或由色谱-质谱,色谱-色谱,质谱-质谱任一仪器进行分析的多成分样本。
分离指的是能够区分化合物物理-化学特性的手段,包含色谱、光谱、波谱和质谱等,这些手段的特点是具有在真实或虚拟空间(如多维分子地图所构成的空间)内将具有物理-化学特征差异性的化合物进行分离与区分的能力。
在本发明中,产生的每一个分子地图至少含色谱分离信息,质量信息,或其它能够区分化合物物理-化学特性的信息。色谱分离信息可以由保留时间或保留时间的函数表示。质量信息可以以质荷比,分子量,或由质荷比计算得到的质量数,或任意以由质荷比相关函数所表示的质量信息。用于分离样本的仪器包括但不局限于色谱仪,气象色谱仪,毛细管电泳仪和薄层层析等。测定质荷比的仪器可以包括但不局限于时间飞行质谱仪,轨道阱质谱仪,傅里叶变换离子回旋共振质谱仪等,其它物理-化学特性包含但不局限于由紫外光谱仪、拉曼光谱仪、红外光谱仪、核磁共振仪等检测所得到的信息。
分子地图的分辨率决于色谱和质谱数据的采样分辨率。根据色谱仪器的性能,时间轴分辨率通常设定在0-10000s之间;根据质谱仪器的性能,离子的质量分辨率可设定在0-2Da之间。采集质量数据的质谱仪器高分辨率和高准确度越高,图像分析可设定的质量分辨率也越高。例如,由普通的离子阱质谱仪所获得数据,图像的质量分辨率可设在2Da,但对于由高分辨的轨道阱质谱仪所获取的数据,图像的质量分辨率可设为10ppm。对于一台常规UPLC-Q-TOF,高分辨分子地图的采样分辨率可高达102(色谱)*108(质谱)。
分子地图的分辨率可等于或低于色谱或质谱数据的采样分辨率。过高的采样分辨率可能需要大量的计算资源。根据图像处理的需要,可将实际分辨率适当降低如到正常图像的水准,如1000*2000个像素点或更低如258*258个像素点。
在分子地图中,每个化合物的信号强度数据以不同灰度、色度、高度或以这些特征综合表示;既存在着离散的点(代表化合物的点),也存在者由部分距离相近,密度较高的点所组成的簇;簇是一个相对概念,若一副分子地图内含有n个点,簇内点的多少(k)的范围为1≤k≤n,理想情况下,其范围为 10<k<1000,以获得具有明确形状,在不同实验条件下可稳定出现的簇;簇的形状可以为规则的形状如方形或圆形,也可以为任意形状。
根据需要,可将分子地图设置为258*258,或32*32等常见的格式。一般而言,图像越大,分辨率越高,可提高的精细特征越多,但需要更高数据处理运算时间。
无论是何种分辨率的分子地图,均包含多种特征。可识别的特征包括,但并不仅限于,分子地图的轮廓,分子地图的纹理,一个或一组图像单元的峰高或色差等。可识别的特性包括单一特性或一组特性。这种特性可用于区分不同的样本,如不同种属的植物,患病和正常的受试者,受污染的水和正常的水,不同厂家生产的同一类的食品和药品等。
分子地图的时间分辨率由样本之间色谱保留时间的差异性所决定,差异性越小,可设定的时间分辨率越高。由于色谱仪器自身原因,不同样本的分离保留时间可产生程度不同的偏差。在某些实施例中,样本之间的保留时间偏差可以由软件进行校正,对于样本特性差异过大的样本,不同样本中可以加入混合内标,由软件根据内标的保留时间对整个样本的色谱保留时间进行校正。
在本发明中,分子地图的主要视觉特征是基于分子地图中点聚集所形成的边缘特征、轮廓特征、位置特征和色度特征等。
在本发明中,分子地图的产生可由时间t和m/z的函数变换值产生,t和 m/z的函数变换值指的是t和m/z的原始测定值由简单数学函数(如指数函数,对数函数,幂函数,三角函数和反三角函数等中的一种或两种以上)或高等数学函数函数(如微分函数,积分函数,极限函数,概率与统计函数等中的一种或两种以上)中的一种或两种以上,与常数经过运算与复合所产生得到的数值;
分子地图中蕴含的特征能够被机器学习工具如卷积神经网络所学习;卷积神经网络可以有1到n个隐含层,用于特征提取;利用全连接层和分类工具,进行训练和学习,实现分类;分类效果可通过混淆矩阵,K-Loss等方法进行验证;
用于训练的样本数越大,可获得越高的准确度;在一般情况下,通过迁移学习,即使使用30-50个样本也有可能获得大于90%的准确度;
实例1
下述例子演示如何利用基于分子地图的生物样本智能识别技术对人参-西洋参-红参-合欢皮-合欢花实现高精度、高可靠性的识别与分类。
该例子的目的是演示如何综合使用深度学习作为分子地图特征提取器及分类器实现中药高精度分类。
材料与方法:
原始数据获取:
1)待分析药材:人参(1;n=170),西洋参(2;n=174),红参(3;n=185), 合欢皮(7;n=211),合欢花(8;n=152)。
2)精密称取各药材干燥粉末各100mg,每份药材粉末加入体积浓度50%甲醇1ml,超声提取15min,离心5min,取上清液,重复提取1次,合并两次上清液过0.22um滤膜。
3)超高效液相色谱-质谱联用分析:样品全谱分析采用Agilent 1290超高效液相色谱***(Agilent,Waldbronn,Germany)串联6520Q-TOF-MS (Agilent Corp,USA)。实验采用Agilent公司ZORBAX Eclipse Plus C18 色谱柱(3.0*150mm,1.8um),流动相A相为水(0.5%乙酸),B相为乙腈,梯度洗脱:0-15min,B相5%-100%,15-20min,B相保持100%,20-21min,B 相100%-5%,21-25min,B相保持5%,流速为0.4ml/min。柱温为40℃,进样量为5uL。质谱采用ESI离子源,负离子模式采集数据。数据采集范围m/z 100-1500。温度为350℃,干燥器流速8L/min,雾化气压力40psi,毛细管电压3500V,Fragmentor电压200V,skimmer电压65V,质谱采用加入内标程序。中药提取液或者采用Thermo LTQ-OrbitrapElite超高效液相色谱***质谱***,ZORBAX Eclipse Plus C18色谱柱(3.0*150mm,1.8um),流动相A相为水(0.5%乙酸),B相为乙腈,梯度洗脱:0-15min,B相5%-100%,15-20min, B相保持100%,流速为0.4ml/min,柱温为60℃,进样量为5uL。负离子模式采集数据,数据采集范围m/z 100-1850。温度为350℃,干燥气流速10L/min,雾化气压力35psi,毛细管电压5000V,Fragmentor电压200V,skimmer电压 65V。所有参照样本采用Agilent 1290超高效液相色谱***串联6520ESI-Q- TOF-MS质谱***进行分析。
4)获取原始的X-MS数据;
5)利用Matlab或QI等软件,去除质谱噪音,获取m/z,t和强度(丰度或峰面积)I信息的数据矩阵,其中时间范围为0-1000s,m/z取值范围0- 1850Da,I≥100,矩阵中取最大离子数为2000,以CSV文件格式存储;
6)以m/z为横坐标,t为纵坐标,I色度,通过数据矩阵建立分子地图 (如图1);
8)使用深度学习网络AlexNet,利用约70%带标签的已知类标的训练样本导入网络进行训练,包括前向传播和反向传播过程,其中网络的前向传播过程可表达为:
其中x表示网络输入即训练样本的分子地图,表示经过网络中间层后的输出, W为网络中间层的权重,b表示偏移量。网络反向传播过程可表达为:
训练过程结束后,获得优化好的权重{W,b}。
本实施例使用的Alexnet网络模型为基于深度学习框架caffe搭建,使用在数据库ImageNet训练后的基础上,微调该网络,网络微调训练过程中的各参数设置如下:
test_iter:500/所有测试样本测试一遍需要迭代次数
test_interval:20/测试间隔
base_lr:1e-4/学习率
momentum:0.9/动量
weight_decay:0.0005/权重衰减
lr_policy:"step"/学习策略
Gamma:0.1
Stepsize:100000
max_iter:200000/最大迭代次数
solver_mode:GPU/本例使用GPU训练
训练过程中分类精度及loss值变化趋势见图2
9)网络测试阶段,利用另外30%的样本作为测试集,输入到训练好的 Alexnet中,利用网络Softmax层作为分类器,即直接使用caffe提供的 Softmax层的输出作为我们的模型对待测样本类别的概率值的预测,获得平均分类准确率为99.4%(各类样本的准确率见图3);
实例2
下述例子演示如何利用基于分子地图的生物样本智能识别技术对中药样本的高精度识别与分类。
该例子的目的是演示如何综合使用分子地图生成技术,分子地图卷积技术,深度神经网络学习技术,机器分类技术等,实现样本的高效和准确识别。
材料与方法:
原始数据获取:
1)待分析药材:人参(类标号A;n=170),西洋参(类标号B;n=174),红参(类标号C;n=185),三七(类标号D;n=181),牛膝(类标号E;n=217), 地黄(类标号F;n=176),合欢皮(类标号J;n=211),合欢花(类标号H; n=152);苦参(类标号I;样本数n=192),黄芪(类标号J;样本数n=212)。
2)精密称取各药材干燥粉末各100mg,每份药材粉末加入体积浓度50%甲醇1ml,超声提取15min,离心5min,取上清液,重复提取1次,合并两次上清液过0.22um滤膜。
3)超高效液相色谱-质谱联用分析:样品全谱分析采用Agilent 1290超高效液相色谱***(Agilent,Waldbronn,Germany)串联6520Q-TOF-MS (Agilent Corp,USA)。实验采用Agilent公司ZORBAX Eclipse Plus C18色谱柱(3.0*150mm,1.8um),流动相A相为水(0.5%乙酸),B相为乙腈,梯度洗脱:0-15min,B相5%-100%,15-20min,B相保持100%,20-21min,B相100%-5%,21-25min,B相保持5%,流速为0.4ml/min。柱温为40℃,进样量为5uL。质谱采用ESI离子源,负离子模式采集数据。数据采集范围m/z 100-1500。温度为350℃,干燥器流速8L/min,雾化气压力40psi,毛细管电压3500V,Fragmentor电压200V,skimmer电压65V,质谱采用加入内标程序。中药提取液或者采用Thermo LTQ-OrbitrapElite超高效液相色谱***质谱***,ZORBAX Eclipse Plus C18色谱柱 (3.0*150mm,1.8um),流动相A相为水(0.5%乙酸),B相为乙腈,梯度洗脱:0-15min,B相5%-100%,15-20min,B相保持100%,流速为 0.4ml/min,柱温为60℃,进样量为5uL。负离子模式采集数据,数据采集范围m/z 100-1850。温度为350℃,干燥气流速10L/min,雾化气压力 35psi,毛细管电压5000V,Fragmentor电压200V,skimmer电压65V。所有参照样本采用Agilent 1290超高效液相色谱***串联6520ESI-Q-TOF- MS质谱***进行分析。
4)获取X-MS原始的数据
5)利用Matlab或QI等软件,去除质谱噪音,获取m/z,t和强度(丰度或峰面积)I信息的数据矩阵,其中时间范围为0-1000s,m/z取值范围0- 1850Da,I≥100,以CSV文件格式存储;
6)以m/z为横坐标,t为纵坐标,I为亮度,通过数据矩阵建立点阵地图;
7)使用深度卷积神经网络Alexnet(Matlab2016b中经过训练的工具DeepLearningImageClassification),利用60%已知类标的训练样本导入网络进行训练,主要Matlab命令如下:
categories={'A','B','C','D','E','F','G','H','I','J'}
test_cate={'A','B','C','D','E','F','G','H','I','J'};
save('cnnfile','programdir');
cd(programdir);
tic;
kfoldoosLoss=DeepLearningImageClassification(TH,TT);tcnn=toc;
figurename(find(figurename=='.'))=”;
saveas(1,[cnnresult,'\kfoldCMfigure
percent_',figurename,'TH_',num2str(TT)],'tif');
saveas(2,[cnnresult,'\testCMfigure
percent_',figurename,'TH_',num2str(TT)],'tif');
saveas(3,[cnnresult,'\test_ROC
percent_',figurename,'TH_',num2str(TT)],'tif');
saveas(2,[cnnresult,'\testCMfigure
percent_',figurename,'TH_',num2str(TT)],'tif');
saveas(1,[cnnresult,'\kfoldCMfigure
percent_',figurename,'TH_',num2str(TT)]);
saveas(2,[cnnresult,'\testCMfigure
percent_',figurename,'TH_',num2str(TT)]);
saveas(3,[cnnresult,'\test_ROC
percent_',figurename,'TH_',num2str(TT)]);
xlswrite([cnnresult,'\time_cnn_figure
percent_',figurename,'TH_',num2str(TT),'.xls'],tcnn);
xlswrite([cnnresult,'\kfoldoosLoss
',figurename,'TH_',num2str(TT),'.xls'],kfoldoosLoss);
time(TT,1)=tcnn;
xlswrite([cnnresult,'\time_cnn_figure
percent',figurename,'all_TH.xls'],time);
end
提取网络模型获得的训练样本分子图像的特征(特征向量),用特征向量代替原本的X送入SVM训练,完成分类器的训练。每类测试样本样本的受试者工作特征曲线见图4。
8)在测试阶段,利用另外40%的样本作为测试集,同样将测试样本输入到训练好的深度卷积神经网络提取分子图像特征,之后用SVM预测,获得结果。在测试过程中,利用5倍交叉验证,该验证方式不仅考虑了训练误差, 同时也考虑了泛化误差,可以防止模型过于复杂而引起的过拟合,提高模型的可信度,经过该交叉验证,得到模型的平均预测准确率为98%,人参、西洋参、红参、三七、牛膝、地黄、合欢皮、合欢花、苦参和黄芪的分类准确度分别为91.2%、98.6%、97.3%、94.4%、100%、98.6%、100%、 98.4%、100%和100%(见图5)。
实例3
下述例子演示如何利用基于分子地图的生物样本智能识别技术对中药样本的高精度识别与分类。
该例子的目的是演示如何综合使用分子地图生成技术,分子地图卷积技术,深度神经网络学习技术,机器分类技术等,实现样本的高效和准确识别。
材料与方法:
原始数据获取:
1)待分析药材:人参(类标号A;n=170),西洋参(类标号B;n=174),红参(类标号C;n=185),三七(类标号D;n=181),牛膝(类标号E;n=217), 地黄(类标号F;n=176),合欢皮(类标号J;n=211),合欢花(类标号H; n=152);苦参(类标号I;样本数n=192),黄芪(类标号J;样本数n=212)。
2)精密称取各药材干燥粉末各100mg,每份药材粉末加入体积浓度50%甲醇1ml,超声提取15min,离心5min,取上清液,重复提取1次,合并两次上清液过0.22um滤膜。
3)超高效液相色谱-质谱联用分析:样品全谱分析采用Agilent 1290超高效液相色谱***(Agilent,Waldbronn,Germany)串联6520Q-TOF-MS (Agilent Corp,USA)。实验采用Agilent公司ZORBAX Eclipse Plus C18色谱柱(3.0*150mm,1.8um),流动相A相为水(0.5%乙酸),B相为乙腈,梯度洗脱:0-15min,B相5%-100%,15-20min,B相保持100%,20-21min,B相100%-5%,21-25min,B相保持5%,流速为0.4ml/min。柱温为40℃,进样量为5uL。质谱采用ESI离子源,负离子模式采集数据。数据采集范围m/z 100-1500。温度为350℃,干燥器流速8L/min,雾化气压力40psi,毛细管电压3500V,Fragmentor电压200V,skimmer电压65V,质谱采用加入内标程序。中药提取液或者采用Thermo LTQ-OrbitrapElite超高效液相色谱***质谱***,ZORBAX Eclipse Plus C18色谱柱 (3.0*150mm,1.8um),流动相A相为水(0.5%乙酸),B相为乙腈,梯度洗脱:0-15min,B相5%-100%,15-20min,B相保持100%,流速为 0.4ml/min,柱温为60℃,进样量为5uL。负离子模式采集数据,数据采集范围m/z 100-1850。温度为350℃,干燥气流速10L/min,雾化气压力 35psi,毛细管电压5000V,Fragmentor电压200V,skimmer电压65V。所有参照样本采用Agilent 1290超高效液相色谱***串联6520ESI-Q-TOF- MS质谱***进行分析。
4)获取X-MS原始的数据
5)利用Matlab或QI等软件,去除质谱噪音,获取m/z,t和强度(丰度或峰面积)I信息的数据矩阵,其中时间范围为0-1000s,m/z取值范围0- 1850Da,I≥100,以CSV文件格式存储;
6)以m/z为横坐标,t为纵坐标,I为亮度,利用Matlab2013b中的高斯函数对m/z和t值进行变换,建立模糊的分子地图(见图6);
7)使用深度卷积神经网络Alexnet(Matlab2016b中经过训练的工具DeepLearningImageClassification),利用60%已知类标的训练样本导入网络进行训练,主要Matlab命令如下:
categories={'A','B','C','D','E','F','G','H','I','J'}
test_cate={'A','B','C','D','E','F','G','H','I','J'};
save('cnnfile','programdir');
cd(programdir);
tic;
kfoldoosLoss=DeepLearningImageClassification(TH,TT);tcnn=toc;
figurename(find(figurename=='.'))=”;
saveas(1,[cnnresult,'\kfoldCMfigure
percent_',figurename,'TH_',num2str(TT)],'tif');
saveas(2,[cnnresult,'\testCMfigure
percent_',figurename,'TH_',num2str(TT)],'tif');
saveas(3,[cnnresult,'\test_ROC
percent_',figurename,'TH_',num2str(TT)],'tif');
saveas(2,[cnnresult,'\testCMfigure
percent_',figurename,'TH_',num2str(TT)],'tif');
saveas(1,[cnnresult,'\kfoldCMfigure
percent_',figurename,'TH_',num2str(TT)]);
saveas(2,[cnnresult,'\testCMfigure
percent_',figurename,'TH_',num2str(TT)]);
saveas(3,[cnnresult,'\test_ROC
percent_',figurename,'TH_',num2str(TT)]);
xlswrite([cnnresult,'\time_cnn_figure
percent_',figurename,'TH_',num2str(TT),'.xls'],tcnn);
xlswrite([cnnresult,'\kfoldoosLoss
',figurename,'TH_',num2str(TT),'.xls'],kfoldoosLoss);
time(TT,1)=tcnn;
xlswrite([cnnresult,'\time_cnn_figure
percent',figurename,'all_TH.xls'],time);
end
提取网络模型获得的训练样本分子图像的特征(特征向量),用特征向量代替原本的X送入SVM训练,完成分类器的训练。每类测试样本样本的受试者工作特征曲线见图7。
8)在测试阶段,利用另外40%的样本作为测试集,同样将测试样本输入到训练好的深度卷积神经网络提取分子图像特征,之后用SVM预测,获得结果。在测试过程中,利用5倍交叉验证,该验证方式不仅考虑了训练误差, 同时也考虑了泛化误差,可以防止模型过于复杂而引起的过拟合,提高模型的可信度,经过该交叉验证,得到平均预测准确率为99.1%,人参、西洋参、红参、三七、牛膝、地黄、合欢皮、合欢花、苦参和黄芪的分类准确度分别为100%、100%、98.6%、98.6%、97.7%、98.6%、98.8%、 98.4%、100%和100%(见图8)。

Claims (10)

1.一种基于分子地图的生物样本快速智能识别方法,其特征在于:根据生物样本分子地图所蕴含的特征,而这些特征在不同类生物样本中呈现不同的分布模式,对待测样本进行识别与分类。
2.根据权利要求1所述的基于分子地图的生物样本快速智能识别方法,其特征在于:生物样本提取物利用色谱-质谱仪器进行分析,根据得到的色谱-质谱(X-MS)数据,建立带有时间轴的生物样本分子地图;基于深度学习技术,提取分子地图中的特征;利用已知类标的训练样本集进行训练机器学习能力;将待测样本训练样本的特征进行匹配,根据匹配结果进行快速识别与分类。
3.根据权利要求2所述的基于分子地图的生物样本快速智能识别方法,其特征在于:
包括如下主要步骤:
A、生物样本提取物利用色谱-质谱仪器或离子迁移谱-质谱仪器进行分析,得到色谱-质谱或离子迁移谱-质谱仪器(X-MS;X代表气相色谱,液相色谱,离子色谱,凝胶色谱,毛细管电泳、离子迁移谱或任意一种能够在时间维度上对分子进行分离的方法;MS代表质谱)数据或多维信息文本;该数据(或多维信息文本)中每个离子(化合物)含有保留时间(t)、质荷比(m/z)或质量(m)、强度(I)三个维度的信息;X-MS数据中总离子的数量≥10;
B、以X-MS数据中的t或其函数变换值,m/z(或m)或其函数变换值构建分子地图,图中的每个点对应X-MS数据中的一个离子(或分子),在分子地图中包括离子的位置,以及离子所形成的强度(用高度、颜色、亮度和大小中的一种或两种以上方式表示)、轮廓、边缘或纹理中的一种或两种以上;
分子地图构建方式可以是分别以t或其函数变换值作为第一维度(横坐标)和以m/z或其函数变换值作为第二维度(纵坐标),每个点强度用高度、颜色、亮度和大小中的一种或两种以上方式表示;
分子地图的构建方式或者是将每个离子按照t或其函数变换值的顺序或者m/z(m)或其函数变换值的顺序,于平面图中的线条上依次有序放置,对应离子形成一个像素点;
C、分子地图的存储与分析格式可以为能够代表高维数据的格式(如mzXML,xls,t,mat,bmp或jpg等中的一种或二种以上);
D、采用相同或相近的操作参数和条件,按上述A-C步骤操作,针对两个以上的已知生物样本进行分析,获取X-MS原始数据;利用图像生成软件(如Matlab2016b)将X-MS原始数据或多维信息文本转化为分子地图,得到类别已知训练样本的分子地图集;
E、采用与已知样本相同或相近的操作参数和条件,按上述A-C步骤操作,针对待分析的待测样本进行分析,获取X-MS数据;利用图像生成软件将X-MS数据或多维信息文本转化为分子地图,得到待测样本的分子地图;
F、在步骤D-E中,分子地图分辨率用像素表示,图形的规格为n*m(n≥1,m≥1);分子地图可利用图像处理工具(如高斯,小波过滤)等进行再处理,在分子地图中,根据离子分布的密集程度与空间关系,形成轮廓、边缘、斑块等中的一种或两种以上新的图形特征;
G、上述的每个分子地图被分成一个或两个以上区域,将每一个区域图像的特征,包括像素的位置,以及参考特征(如像素所形成的亮度(或高度)、颜色、轮廓、边缘或纹理中的一种或两种以上)等,作为深度学习(通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示的技术)所用的深度神经网络(神经网络,主要包括输入层,输出层和隐含层)的输入层的输入;
利用类别已知训练样本的分子地图集,训练深度神经网络,提取各类训练样本分子地图的特征(低层特征和高层特征),用以表征不同类别训练样本的分子地图集中离子分布的不同模式;
深度神经网络可自带分类器;
或将深度神经网络获得的各类样本的特征导入到机器学习工具(如支持向量机(SVM))
根据分类效果,进行样本的分类训练,得到训练好的深度神经网络;
H、将步骤E-F中得到的待测样本的分子地图导入到训练好的神经网络中,对待测样本分子地图进行识别,计算待测样本分子地图为训练样本分子地图集中各类样本的所属类别的概率大小(P);
I、分类工具样本进行分类时,待测样本可不借助阈值或借助阈值进行判定;
1)当不借助阈值时,对概率的大小进行排序,若待测样本与某类参照样本的概率排名越靠前,表明待测样本为与该类样本的可能性越大,反之越小;
2)当借助阈值时,设定阈值γ,用于判断不同来源待测样本与同类参照样本匹配的可信空间,利用阈值γ将不相关的样本排除之外;
由深度学习导出各类训练样本的概率分布范围,选定概率的下限作为该类样本的阈值γ;或,阈值可以利用文献报道、实验观察或统计学方法得到某类样本(样本数n≥2)概率分布范围(采用与步骤A-H相同或相近的操作参数和条件所得到的分析结果),选定概率的下限作为该类样本的阈值γ;
对概率的大小进行排序,当Sc>γ时,若待测样本与某类参照样本的概率排名越靠前,表明待测样本为与该类样本的可能性越大,反之越小。
4.根据权利要求3所述的基于分子地图的生物样本快速智能识别方
法,其特征在于,在步骤A中:
1):生物样本可以为各种来源于生命体或其产物的样本;
2)为满足匹配和分类的要求,不同样本之间的提取方法应该尽可能一致;
3):色谱仪(或离子迁移谱仪器)通过选择性作用,将生物样本中混合的分子进行分离,获得不同的保留时间信息t;
4):质谱仪通过电场或磁场作用,根据分子的质荷比不同进行分离和检测,获得不同的质荷比信息m/z。
5.根据权利要求3所述的基于分子地图的生物样本快速智能识别方法,其特征在于,在步骤B中:
1):分子地图的特征在具有离子位置,以及离子所形成的强度(用高度、颜色、亮度和大小中的一种或两种以上方式表示)、轮廓、边缘或纹理等特征;
2):X-MS数据中包含的化合物数量越多,构建出来的分子地图信息越丰富越有利于识别;
3):噪音会引起识别偏差,利用原始X-MS数据中每个离子的信噪比或同位素分布形态进行早期除噪,越有利于提高识别的准确度。
6.根据权利要求3所述的基于分子地图的生物样本快速智能识别方法,其特征在于,在步骤B-C中:
1):分子地图可以根据所获得的色谱-质谱信息(或离子迁移谱-质谱信息)拓展为二维、三维或更高维度;
2):用于生成多维分子地图的矩阵或图表视为地图的前体数据,可是被计算机或软件转化为人类视觉上的图像,此类矩阵或图表格式的高维数据称为广义上的分子地图。
7.根据权利要求3所述的基于分子地图的生物样本快速智能识别方
法,其特征在于,在步骤D-E中:
1):生物样本库应具有足够的样本容量,在种类上包括待检测样本;
2):生物样本库所包含的样本X-MS矩阵中所包含的最大化合物数量应相近或一致;
3):数据库中含训练样本和测试样本等
4):用作参照的已知样本应该和用于搜索的待测样本在同一类型或接近类型仪器类型上分析,使的比较的分子地图具有相同的格式和可比的强度等信息;
5):每个样本应该标注样本来源、种属、部位、仪器分析类型与参数等。
8.根据权利要求3所述的基于分子地图的生物样本快速智能识别方法,其特征在于,在步骤F中:
1):可通过图像处理工具(如Matlab2016b)将分子地图的分辨率可以设定在不同的水准;
2):可以利用图像分割工具(如Matlab2016b)对分子地图进行分割后进行深度学习。
9.根据权利要求3所述的基于分子地图的生物样本快速智能识别方法,其特征在于,在步骤G中:
1):深度神经网络的构建方法可以是使用人工智能的深度学习的任何形式、任何结构和任何方式训练的神经网络;
2)多种深度学习工具可用于分类,但是含有多个隐含层的网络分类效果会更加理想;
3):神经网络可通过训练产生预期分类效果,或者通过迁移学习实现准确分类的目的;
4):当使用神经网络学习时,训练集的样本数量越大,过拟合的可能性越小,分类效果越好;实践中训练集中样本的数量一般大于50;
5):分子地图中像素位置,亮度(强度或高度)、边缘或轮廓等信息中的一种或两种以上是深度学习是特征提取的重点对象。
10.根据权利要求3所述的基于分子地图的生物样本快速智能识别方法,其特征在于,在步骤G中:
1):将不同分辨率的分子地图作为输入层放入深度学习网络进行学习;
2):深度学习网络逐级提取分子地图中的高级特征;
3):神经网络包含n≥1个隐含层;
4):将深度学习提取到的高级特征放入分类器;
5):利用已知类标的样本训练和微调神经网络;
6):在进行分类时,需要及时评判分类效果,可利用混淆矩阵,假阳性、假阴性等方法中的一种或两种以上判断分类的可靠性。
CN201711248727.1A 2017-12-01 2017-12-01 一种基于分子地图的生物样本快速智能识别方法 Active CN109870533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711248727.1A CN109870533B (zh) 2017-12-01 2017-12-01 一种基于分子地图的生物样本快速智能识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711248727.1A CN109870533B (zh) 2017-12-01 2017-12-01 一种基于分子地图的生物样本快速智能识别方法

Publications (2)

Publication Number Publication Date
CN109870533A true CN109870533A (zh) 2019-06-11
CN109870533B CN109870533B (zh) 2020-12-29

Family

ID=66913539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711248727.1A Active CN109870533B (zh) 2017-12-01 2017-12-01 一种基于分子地图的生物样本快速智能识别方法

Country Status (1)

Country Link
CN (1) CN109870533B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110850020A (zh) * 2019-11-11 2020-02-28 中国药科大学 一种基于人工智能的中药识别方法
CN111474287A (zh) * 2020-03-19 2020-07-31 杭州憶盛医疗科技有限公司 一种计算机辅助药物分析组成成份的***及方法
CN112885411A (zh) * 2019-11-29 2021-06-01 中国科学院大连化学物理研究所 一种基于深度学习的多肽检测方法
CN113740463A (zh) * 2021-09-16 2021-12-03 山东省食品药品检验研究院 中药鉴别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103649713A (zh) * 2010-11-29 2014-03-19 丹麦达科有限公司 由可编程性定量检定所处理的样本的图像分析方法和体系
CN105574474A (zh) * 2014-10-14 2016-05-11 中国科学院大连化学物理研究所 一种基于质谱信息的生物特征图像识别方法
CN105572212A (zh) * 2014-10-14 2016-05-11 中国科学院大连化学物理研究所 一种基于可视化质谱信息的生晒参和红参快速识别方法
WO2016196181A1 (en) * 2015-05-29 2016-12-08 Waters Technologies Corporation Mass spectrometry with quadrupole and ion mobility separation capabilities
CN109781917A (zh) * 2017-11-14 2019-05-21 中国科学院大连化学物理研究所 一种基于分子地图的生物样本智能识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103649713A (zh) * 2010-11-29 2014-03-19 丹麦达科有限公司 由可编程性定量检定所处理的样本的图像分析方法和体系
CN105574474A (zh) * 2014-10-14 2016-05-11 中国科学院大连化学物理研究所 一种基于质谱信息的生物特征图像识别方法
CN105572212A (zh) * 2014-10-14 2016-05-11 中国科学院大连化学物理研究所 一种基于可视化质谱信息的生晒参和红参快速识别方法
WO2016196181A1 (en) * 2015-05-29 2016-12-08 Waters Technologies Corporation Mass spectrometry with quadrupole and ion mobility separation capabilities
CN109781917A (zh) * 2017-11-14 2019-05-21 中国科学院大连化学物理研究所 一种基于分子地图的生物样本智能识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHRISTOF ANGERMUELLER ET AL.: "Deep learning for computational biology", 《MOLECULAR SYSTEMS BIOLOGY》 *
WATERS CORPORATION: "METABOLOMICS AND LIPIDOMICS APPLICATIONS", 《METABOLOMICS AND LIPIDOMICS APPLICATIONS,WWW.WATERS.COM》 *
熊行创 等: "基于人工神经网络的生物组织质谱成像分类与识别方法", 《分析化学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110850020A (zh) * 2019-11-11 2020-02-28 中国药科大学 一种基于人工智能的中药识别方法
CN110850020B (zh) * 2019-11-11 2022-03-29 中国药科大学 一种基于人工智能的中药识别方法
CN112885411A (zh) * 2019-11-29 2021-06-01 中国科学院大连化学物理研究所 一种基于深度学习的多肽检测方法
CN111474287A (zh) * 2020-03-19 2020-07-31 杭州憶盛医疗科技有限公司 一种计算机辅助药物分析组成成份的***及方法
CN113740463A (zh) * 2021-09-16 2021-12-03 山东省食品药品检验研究院 中药鉴别方法

Also Published As

Publication number Publication date
CN109870533B (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN105574474B (zh) 一种基于质谱信息的生物特征图像识别方法
CN109781917B (zh) 一种基于分子地图的生物样本智能识别方法
Bauermeister et al. Mass spectrometry-based metabolomics in microbiome investigations
Checa et al. Lipidomic data analysis: tutorial, practical guidelines and applications
CN109870533A (zh) 一种基于分子地图的生物样本快速智能识别方法
CN108363908B (zh) 用于检测生物分子的智谱***
Xu et al. De novo structural pattern mining in cellular electron cryotomograms
Hu et al. Emerging computational methods in mass spectrometry imaging
US20190265319A1 (en) System and method for small molecule accurate recognition technology ("smart")
WO2013030175A2 (en) Systems and methods for tissue classification
Pires de Lima et al. Convolutional neural networks as an aid to biostratigraphy and micropaleontology: a test on late Paleozoic microfossils
CN109920473A (zh) 一种代谢组学标志物权重分析通用方法
US20220252531A1 (en) Information processing apparatus and control method for information processing apparatus
Tinte et al. Metabolomics-guided elucidation of plant abiotic stress responses in the 4IR era: An Overview
CN107203779A (zh) 基于空谱信息保持的高光谱降维方法
Yuan et al. Harnessing computational spatial omics to explore the spatial biology intricacies
Yan et al. Statistical Methods for Tissue Array Images–Algorithmic Scoring and Co-Training
Snell et al. HEp-2 fluorescence pattern classification
WO2012107786A1 (en) System and method for blind extraction of features from measurement data
CN112798678A (zh) 基于血清的新型冠状病毒感染快速检测方法
CN113514530A (zh) 一种基于敞开式离子源的甲状腺恶性肿瘤诊断***
De Iorio et al. Statistical techniques in metabolic profiling
Zou et al. Pattern recognition and pathway analysis with genetic algorithms in mass spectrometry based metabolomics
CN109190713A (zh) 基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术
Wijetunge et al. Unsupervised learning for exploring MALDI imaging mass spectrometry ‘omics’ data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant