CN110838340B

CN110838340B - 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法

Info

Publication number: CN110838340B
Application number: CN201911049689.6A
Authority: CN
Inventors: 朱云平; 常乘; 刘祎; 贺福初
Original assignee: BEIJING PROTEOME RESEARCH CENTER; Institute Of Life Sciences Academy Of Military Medicine Academy Of Military Sciences
Current assignee: BEIJING PROTEOME RESEARCH CENTER; Institute Of Life Sciences Academy Of Military Medicine Academy Of Military Sciences
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-07-10
Anticipated expiration: 2039-10-31
Also published as: CN110838340A

Abstract

本发明公开了一种不依赖数据库搜索的蛋白质生物标志物鉴定方法，其步骤包括：1)提取训练数据集中每一个质谱原始文件中的离子流色谱峰；2)对离子流色谱峰列表进行预处理，将共同检测到的质荷比对应的信号强度值的平均值和标准差，以点(平均值，标准差)的形式顺序排列成特征向量；3)采用深度学习技术，以用预处理后的离子流色谱峰列表为训练集，构建实验组与对照组样本分类模型；4)用训练好的分类模型对待鉴定实验数据进行类别鉴定，区分其属于实验组还是对照组；5)确认鉴定结果准确率符合要求后，输出分类模型所采用的关键特征向量；6)利用靶向蛋白质组学技术确定所述关键特征向量对应的肽段及蛋白质序列，作为生物标志物。

Description

一种不依赖数据库搜索的蛋白质生物标志物鉴定方法

技术领域

本发明涉及蛋白质组学中的蛋白质生物标志物鉴定方法，特别涉及鸟枪法蛋白质组学中的蛋白质生物标志物鉴定方法。

背景技术

生物标志物(Biomarker)是指“一种可客观检测和评价的指标，可作为正常生物学过程、病理过程或治疗干预药理学反应的指示因子”，对于筛查、诊断或监测疾病，指导分子靶向治疗以及评估治疗效果等具有重要意义(参考文献：Ludwig JA,WeinsteinJN.Biomarkers in cancer staging,prognosis and treatment selection.Naturereviews Cancer 5,845-856(2005).)。蛋白质作为中心法则末端承担生命活动的载体，由于存在可变剪切、单核苷酸多态性及翻译后修饰，其状态包含更多维度的信息，与生命活动的各个方面息息相关，更加适合作为生物标志物。然而，和DNA、RNA来源的标志物相比，由于蛋白质的表达量动态范围更大、蛋白质组数据复杂度更高等原因，蛋白生物标志物的发现更具挑战性(参考文献：Rifai N,Gillette MA,Carr SA.Protein biomarker discoveryand validation:the long and uncertain path to clinical utility.Nat Biotechnol24,971-983(2006).)。目前，作为蛋白质组学研究的主流方法，质谱技术凭借其高通量、高灵敏度等优点已经被广泛应用于蛋白生物标志物筛选的研究中(参考文献：常乘,朱云平.基于质谱的定量蛋白质组学策略和方法研究进展.中国科学：生命科学45,425-438(2015).)。目前蛋白生物标志物的筛选大多基于实验组与对照组之间的蛋白表达丰度差异，主要可以分为两种策略。一种是经典的生物标志物筛选策略，可分为蛋白生物标志物发现、确认和验证三个阶段，由于其各阶段所需的样本数目是从少到多，而候选蛋白数目是从多到少，因此也被称为“三角”策略(参考文献：Whiteaker JR,et al.A targetedproteomics-based pipeline for verification of biomarkers in plasma.NatBiotechnol 29,625-634(2011).)。另一种策略是类似于全基因组关联分析的“矩形”策略(参考文献：Geyer PE,Holdt LM,Teupser D,Mann M.Revisiting biomarker discoveryby plasma proteomics.Mol Syst Biol 13,942(2017).)，在最初的发现阶段就进行大队列鸟枪法蛋白质组数据分析，发现蛋白质表达量、修饰状态的变化和疾病状态的相关性，验证阶段同样采用大规模的鸟枪法蛋白质组数据。上述两种策略中研究人员均依赖于蛋白质组数据的定性定量结果的准确性和灵敏性。然而，目前质谱数据的谱图解析率仍然不高，基于定性定量结果寻找肽段/蛋白标志物会漏掉不少信息。且传统筛选策略是以单个标志物的效果为评判标准，而不是从基于表达模式的整体层面筛选标志物。

发明内容

针对现有技术存在的技术问题，本发明的目的是利用深度学习方法，以质谱原始文件作为输入数据，在不依赖数据库搜索的情况下提取训练数据集的关键特征向量，鉴定其他未知待识别质谱文件的类别。

步骤1)提取质谱原始文件的离子流色谱峰；

步骤2)对离子流色谱峰列表进行预处理，将共同检测到的质荷比对应的信号强度值的平均值和标准差，以点(平均值，标准差)的形式顺序排列成特征向量并保存；

步骤3)采用深度学习技术，以预处理后的离子流色谱峰列表为训练集，构建实验组与对照组样本分类模型；

步骤4)用训练好的分类模型对其它待鉴定实验数据进行类别鉴定，区分其属于实验组还是对照组；

步骤5)确认鉴定结果准确率符合要求后，利用深度学习模型的可解释性方法输出步骤4)中分类模型所采用的关键特征向量；

步骤6)利用靶向蛋白质组学技术确定这些关键特征向量对应的肽段及蛋白质序列，作为生物标志物。

在上述技术方案中，在所述的步骤1)中，提取质谱原始文件离子流色谱峰的步骤包括：

步骤1-1)读取所有质谱原始文件，获得每张谱图的编号、保留时间、谱峰数目、谱峰强度、谱峰质荷比等信息；训练数据集中的质谱文件包含来源于实验组样品(比如癌组织)的文件与来源于对照组样品(比如癌旁组织)的文件；

步骤1-2)寻找每张谱图中的同位素峰簇，其特征为几个质荷比差值相等的连续谱峰，并记录每个峰簇中强度最高的峰为单同位素峰；

步骤1-3)将保留时间相差5min以内的等质荷比单同位素峰记录为离子流色谱峰组；

步骤1-4)用高斯峰拟合每个离子流色谱峰组，作为离子流色谱峰，计算每个离子流色谱峰的峰面积及平均保留时间；

步骤1-5)将所有获得的离子流色谱峰信息按列表输出，每一行保存一个离子流色谱峰的信息，这些信息主要包括质荷比、峰面积、强度及平均保留时间。

在上述技术方案中，在所述的步骤2)中，数据的质荷比保留两位小数，遍历所有样本得到样本中存在的所有质荷比，并统计每一类样本中共有的质荷比数(具体分类方法可按照具体目标进行分类，本发明具体实施中按癌和癌旁分类)。取设定比例(比如80％)以上的每一类类间样本共有的质荷比并将其保存为公共质荷比向量，合并各类样本的公共质荷比向量作为总样本的公共质荷比向量。根据得到的总样本公共质荷比向量，提取每个样本中各个质荷比对应的强度值，依次计算出每个样品中所有强度值的平均值和标准差，以点(平均值，标准差)的形式顺序排列成特征向量并保存。

在上述技术方案中，在所述的步骤3)中，构建的深度学习模型以基本的卷积神经网络为基础，由三个卷积层和两个完全连接层组成，第一卷积层包含16个不同的过滤器，而第二和第三卷积层分别包含32和64个过滤器。每个卷积层之后紧随其后的是池化层。最后是两个全连接层，大小依次分别为1024、128。其输入层根据步骤2)所得的特征向量调整大小，输出为0或1。以步骤2)所得的特征向量为训练集，构建步骤3)所需的深度学习模型。

在上述技术方案中，在所述的步骤4)中，来源于未知样品的质谱原始文件按步骤1)处理好，同时根据步骤2)中的总样本公共质荷比向量，按步骤2)的形式提取特征向量，将该特征向量输入步骤3)训练好的模型，根据输出结果判断该未知样品是来源于实验组还是对照组。

在上述技术方案中，在所述的步骤5)中，深度学习模型的可解释性方法特指一类解释深度学习模型分类依据的方法，该类方法的特征是，可以标注出输入数据(步骤2)的特征向量)在进行分类时的权重；利用该类方法，可以获得深度学习模型在分类时所依据的关键特征向量列表。

在上述技术方案中，在所述的步骤6)中，步骤5)所得的特征向量列表中的每个特征向量可根据步骤2)所述的特征向量构建方法反推得其所对应的离子流色谱峰，每个离子流色谱峰可采用靶向蛋白质组学技术确定其对应的肽段和蛋白质序列，最终得到的这些蛋白质即可作为生物标志物。

本发明具有以下优点：

1，不依赖于蛋白质定性定量过程，直接从质谱谱图中挖掘实验组和对照组样本中的差异质荷比，有望检测出不易被质谱检测或者低丰度的潜在生物标志物；

2，传统的生物标志物筛选策略是基于单个标志物在实验组和对照组的差异程度进行筛选，本发明直接从整体层面采用基于表达模式的方式筛选生物标志物，更有利于标志物组合的筛选和发现。

附图说明

图1为本发明基于深度学习的不依赖数据库搜索的蛋白质生物标志物鉴定方法流程图；

图2为实验组-对照组样本分类模型示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的说明。

具体实施所使用的训练数据来源于文献(参考文献：Jiang Y,Sun A,Zhao Y,etal.Proteomics identifies new therapeutic targets of early-stagehepatocellular carcinoma.Nature.2019,567(7747):257-261.)，文献中的质谱原始文件来源于111位病人的癌组织及癌旁组织，每个组织样本由质谱仪采集了6个文件，共1332个质谱原始文件；所使用的测试数据来源于文献(参考文献：S G,X X,C D,et al.Aproteomic landscape of diffuse-type gastric cancer.Naturecommunications.2018,9(1):1012.)，文献中的质谱原始文件来源于84位病人的癌组织及癌旁组织，每个组织样本由质谱仪采集了6个文件，共1008个质谱原始文件。所有质谱原始文件的格式都为raw。

使用Thermo Fisher公司提供的MSFileReader软件接口读取作为训练数据1332个raw文件。每个raw文件由若干张谱图组成，在读取每张谱图后，寻找并记录每张谱图中质荷比差值相等的若干个连续谱峰，其中强度最高的记录为单同位素峰。将质荷比相等的所有单同位素峰按时间排列，并用高斯峰拟合，得到离子流色谱峰。按保留时间顺序输出每个raw文件拟合得到的离子流色谱峰峰面积、保留时间、强度、质荷比。共得到1332个离子流色谱峰列表。

将所有离子流色谱峰的质荷比保留两位小数，遍历所有样本得到样本中存在的所有质荷比，并统计每一类样本中共有的质荷比数。取80％以上的每一类样本共有的质荷比并将其保存为公共质荷比向量，合并每一类样本的公共质荷比向量作为总样本的公共质荷比向量。由质谱实验原理可知，样本中部分质荷比强度值较小的值可能是误差结果，在统计公共质荷比时应去掉部分较小的极端值。若大部分的总样本数据中都存在并且强度值非常大，我们则认为该质荷比并不具有很好的区别度，在统计公共质荷比时应去掉这一部分较大的极端值。根据之前得到的总公共质荷比，提取相对应的强度值，并从中随机提取256个质荷比[1111.25,1141.33,……786.45]。依次计算出每个质荷比下所有强度值的平均值和标准差，以点(平均值，标准差)的形式顺序排列成特征向量并保存。合并每个组织样本的所有特征向量点作为该样本的特征向量，该向量的形式如[[22,23][17,14]……[80,43]]，分别对应256个质荷比。共得到111对该形式的特征向量，其中111例对应癌症组织，111例对应癌旁组织。

深度学习模型用tensorflow构建，其结构如说明书附图2所示。该模型用于判断质谱文件来源于癌症组织还是癌旁组织。

用提取到的111对特征向量训练构建好的深度学习模型。训练好的模型作10折交叉检验，ACC为0.9500，AUC为0.9789，F1-score为0.9498。

测试数据集按照与训练数据集相同的方法提取得到84对特征向量，其中84例对应癌症组织，84例对应癌旁组织。每个样本根据质荷比[1111.25,1141.33,……786.45]提取特征向量，得到的向量与训练数据集形式相同。

用提取到的84对特征向量测试构建好的深度学习模型，ACC为0.8548，AUC为0.9201，F1-score为0.8448。

用深度学习模型的可解释性方法(如梯度权重类激活映射算法Grad-CAM，参考文献：Selvaraju RR,et al.Grad-CAM:Visual Explanations from Deep Networks viaGradient-Based Localization.in 2017IEEE International Conference on ComputerVision(ICCV).2017)处理训练好的模型，该方法可以输出每个特征向量的权重，选择其中权重最高的50个特征向量作为本模型在分类时重点关注的关键特征向量。

根据特征向量的获得方法可以得到特征向量所对应离子流色谱峰的峰面积、保留时间、强度、质荷比等信息。利用这些信息，可使用靶向蛋白质组学技术(如平行反应监测技术)确认每个离子流色谱峰对应的肽段和蛋白质序列，得到这些蛋白质即可作为生物标志物。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种不依赖数据库搜索的蛋白质生物标志物鉴定方法，其步骤包括：

1)提取训练数据集中每一个质谱原始文件中的离子流色谱峰；其中，训练数据集中的质谱文件包含来源于实验组样品的文件与来源于对照组样品的文件；

2)对离子流色谱峰列表进行预处理，将共同检测到的质荷比对应的信号强度值的平均值和标准差，以点(平均值，标准差)的形式顺序排列成特征向量并保存；其中，生成所述特征向量的方法为：遍历训练数据集中所有样本，得到样本中存在的所有质荷比，并统计每一类样本中共有的质荷比数；然后对于任一类别i，将该类别i中设定比例以上的样本共有的质荷比作为该类别i的质荷比并将其保存为该类别i的公共质荷比向量；合并各类样本的公共质荷比向量作为总样本公共质荷比向量，然后根据总样本公共质荷比向量提取每个样本中各个质荷比对应的强度值，依次计算出每个样品中所有强度值的平均值和标准差，以点(平均值，标准差)的形式顺序排列成特征向量；

3)采用深度学习技术，以预处理后的离子流色谱峰列表为训练集，构建实验组与对照组样本分类模型；

4)用训练好的分类模型对待鉴定实验数据进行类别鉴定，区分其属于实验组还是对照组；

5)确认鉴定结果准确率符合要求后，输出步骤3)中分类模型所采用的关键特征向量；

6)利用靶向蛋白质组学技术确定所述关键特征向量对应的肽段及蛋白质序列，作为生物标志物。

2.如权利要求1所述的方法，其特征在于，提取所述离子流色谱峰的步骤包括：

1-1)读取质谱文件，获得该质谱文件中每张谱图的编号、保留时间、谱峰数目、谱峰强度和谱峰质荷比；

1-2)寻找每张谱图中的同位素峰簇，并记录每个峰簇中强度最高的峰为单同位素峰；

1-3)将保留时间相差设定时间长度内的等质荷比单同位素峰记录为离子流色谱峰组；

1-4)拟合每个离子流色谱峰组，作为离子流色谱峰，计算每个离子流色谱峰的峰面积及平均保留时间。

3.如权利要求2所述的方法，其特征在于，步骤1-4)中，用高斯峰拟合每个离子流色谱峰组，作为离子流色谱峰。

4.如权利要求2所述的方法，其特征在于，将步骤1-4)得到的各离子流色谱峰信息按列表输出，每一行保存一个离子流色谱峰的信息，包括离子流色谱峰的质荷比、峰面积、强度及平均保留时间。

5.如权利要求1所述的方法，其特征在于，步骤4)中，首先提取该待鉴定质谱文件的离子流色谱峰，根据所述总样本公共质荷比向量提取该待鉴定质谱文件中各质荷比对应的信号强度值的平均值和标准差，得到该待鉴定质谱文件的特征向量并输入训练好的分类模型，根据输出结果判断该待鉴定质谱文件的类别，即该待鉴定质谱文件是来源于实验组还是对照组。

6.如权利要求1所述的方法，其特征在于，步骤3)中，以卷积神经网络为基础构建所述分类模型；其中所述分类模型包括三个卷积层和两个完全连接层，第一卷积层包含N个不同的过滤器，第二卷积层包含2N个过滤器，第三卷积层包含4N个过滤器，第一完全连接层大小为64N，第二完全连接层大小为8N；第一卷积层经一第一池化层与第二卷积层连接，第二卷积层经一第二池化层与第三卷积层连接，第三卷积层经一第三池化层与第一完全连接层连接，第一完全连接层的输出与第二完全连接层输入连接。

7.如权利要求1所述的方法，其特征在于，根据所述关键特征向量所对应离子流色谱峰的峰面积、保留时间、强度、质荷比，使用靶向蛋白质组学技术确认每个离子流色谱峰对应的肽段和蛋白质序列，作为生物标志物。

8.如权利要求1所述的方法，其特征在于，步骤5)中，利用深度学习模型的可解释性方法输出步骤3)中分类模型所采用的关键特征向量。

9.如权利要求8所述的方法，其特征在于，所述深度学习模型的可解释性方法为Grad-CAM。