CN117809753A

CN117809753A - 一种混合蛋白质高效鉴定方法及***

Info

Publication number: CN117809753A
Application number: CN202410059002.1A
Authority: CN
Inventors: 曾昭沛; 陈德华; 张振华; 杨永生
Original assignee: Diniu Shanghai Health Technology Co ltd
Current assignee: Diniu Shanghai Health Technology Co ltd
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-04-02

Abstract

本发明公开了一种混合蛋白质高效鉴定方法，包括：通过双向循环神经网络算法，构建包含蛋白质肽段和对应质谱信息的谱图数据库；并通过多次迭代搜索优化肽段鉴定结果；通过MaxDIA的蛋白分析算法，进行质谱的分析；通过多维蛋白质过滤算法，经过四种不同标准的过滤，得到具有高置信水平的蛋白质搜库结果。本发明显著提高了蛋白质鉴定的速度和准确性，简化了数据分析过程，增强了蛋白质定量的精度。

Description

一种混合蛋白质高效鉴定方法及***

技术领域

本发明涉及生物信息技术领域，尤其涉及一种混合蛋白质高效鉴定方法及***。

背景技术

近年来，蛋白质鉴定在生物学、药物研发、临床诊断和其他领域具有广泛的应用。通常，蛋白质鉴定是分析生物样品中存在哪些蛋白质、它们的结构和功能等关键信息的过程。传统的蛋白质鉴定方法主要依赖于抗体、酶联免疫吸附试验(ELISA)和蛋白质纯化等技术，但这些方法受到了许多限制，包括特异性、检测范围和复杂性等方面的限制。此外，生物体内的蛋白质种类众多，且在不同条件下表达水平变化，这增加了传统鉴定方法的挑战。

近年来，质谱技术的发展为蛋白质鉴定提供了新的机会。质谱技术能够将蛋白质降解成肽段，并通过分析这些肽段的质谱图谱来确定蛋白质的存在。然而，现有的质谱鉴定方法仍然存在一些问题，如鉴定速度、数据分析的复杂性和准确性等。

鉴定蛋白质的复杂性主要在于蛋白质的多样性和修饰，以及大规模质谱数据的处理。此外，定量蛋白质鉴定在疾病诊断、药物筛选和基础生物学研究中具有重要作用，但仍需要更高效的方法。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明提供了一种混合蛋白质高效鉴定方法及***解决现有蛋白质鉴定方法存在速度较慢和准确性较低的问题。

为解决上述技术问题，本发明提供如下技术方案：

第一方面，本发明提供了一种混合蛋白质高效鉴定方法方法，包括：

通过双向循环神经网络算法，构建包含蛋白质肽段和对应质谱信息的谱图数据库；并通过多次迭代搜索优化肽段鉴定结果；

通过MaxDIA的蛋白分析算法，进行质谱的分析；

通过多维蛋白质过滤算法，经过四种不同标准的过滤，得到具有高置信水平的蛋白质搜库结果。

作为本发明所述的混合蛋白质高效鉴定方法的一种优选方案，其中：

所述通过双向循环神经网络的算法和结构，得到包含蛋白质肽段和对应质谱信息的谱图数据库，包括以下步骤：

进行编码，编码器包括三层双向长短期神经网络，以肽段的氨基酸序列及其质谱数据作为输入，输出则是每个片段离子的强度；

进行解码，解码器是由ReLU激活函数构成的多层感知机，通过全连接层对输入的氨基酸表示及质谱数据进行处理，并在每个氨基酸输入的位置输出不断片段离子类型的强度信息，然后根据每个离子的强度信息对肽段谱图进行构建。

所述通过MaxDIA的蛋白分析算法，包括以下步骤：

蛋白质定性鉴定：对DIA质谱数据进行预处理，从预处理后的质谱数据中提取特征，使用蛋白质数据库和谱库匹配算法，将特征与已知蛋白质的质谱图进行比对和匹配，采用Bootstrap方法对已鉴定的蛋白质进行统计验证和可靠性评估；

估计蛋白质的相对表达水平：将各个样本的强度值相加，而不进行标准化，然后将标准化因子作为自由变量，通过一个全局优化过程来确定标准化因子，使得整个蛋白质组的定量误差最小化。

所述估计蛋白质的相对表达水平，包括使用归一化系数N_j与第j次质谱分析中所有的肽离子信号强度相乘来矫正不同次质谱分析间的强度变化，将样本A的肽段离子P的总强度定义为：

其中，k表示样本A中肽段离子P的所有同位素峰，XIC则表示强度最大时的横截面积。

所述估计蛋白质的相对表达水平，还包括考虑对肽段信息的选择，使用肽离子信号的相对表达量对蛋白质的相对表达量进行计算，具体来说，对于蛋白质Pro，通过肽段匹配鉴定到其中的肽段P＝{p₁，p₂，…p_m}，且其在样本S＝{A，B，C…Z}上的XIC的分布强度为XIC_Am，对肽段进行寻找，用来计算蛋白质Pro在样本A和B上丰度比率的肽段需要在样本A和样本B上同时检测到肽段信号，符合条件的肽段序号的集合需要以下满足条件：

C＝{α₁，α₂，...α_n}

其中，集合C中的α_n表示肽段序号，XIC_Aαi表示肽段p_αi在样本A上的XIC表达量，集合C中的序号对应的肽段满足“在样本A和B上同时存在可鉴别的肽段信号”条件；

取符合条件的肽段XIC表达量的中位数的比率作为蛋白质丰度的比率，蛋白质丰度的比率计算方式表示为：

其中，r_AB表示蛋白质在样本A和样本B上的丰度之比，media(XIC)表示对集合中的元素求取中位数。

所述经过四种不同标准的过滤，包括：

基于污染物的蛋白过滤，角蛋白是一种表皮结构蛋白，存在于皮肤、头发、指甲的外层，最终会同样本一起进入质谱仪中从而影响到蛋白鉴定的结果；

基于诱饵库的蛋白过滤，诱饵蛋白是在目标-诱饵库搜索策略下产生的非目标蛋白；

基于缺失值的蛋白过滤，阈值设置为30％；

基于唯一肽段的蛋白过滤，蛋白质是由肽段通过不同的排列组合得到的，同一条肽段会出现在不同的蛋白质中，而蛋白质搜库时会优先得到肽段，再根据肽段对拥有该肽段的蛋白质进行匹配。

所述多维蛋白质过滤算法，还包括对输入的蛋白质集合进行筛选，包括以下步骤：

初始化Exp_p′为Exp_p；Exp_p′是经过筛选后的蛋白质集合；

遍历Exp_p′中的每一个蛋白质p；

如果p属于污染物集合Con_p，从Exp_p′中删除p；

如果p属于decoy proteins集合De_p，从Exp_p′中删除p；

如果p在Exp_p′中存在并且缺失概率mp大于一个预设的阈值，从Exp_p′中删除p；

如果p在Exp_p中存在并且与集合中其他蛋白质的相似度大于一个预设的阈值，从Exp_p′中删除p；

最后返回Exp_p′，即经过筛选后的蛋白质集合。

第二方面，本发明提供了一种混合蛋白质高效鉴定***，包括：

构建模块，通过双向循环神经网络算法，构建包含蛋白质肽段和对应质谱信息的谱图数据库；并通过多次迭代搜索优化肽段鉴定结果；

分析模块，通过MaxDIA的蛋白分析算法，进行质谱的分析；

过滤模块，通过多维蛋白质过滤算法，经过四种不同标准的过滤，得到具有高置信水平的蛋白质搜库结果。

第三方面，本发明提供了一种计算设备，包括：

存储器，用于存储程序；

处理器，用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现所述混合蛋白质高效鉴定方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，包括：所述程序被处理器执行时，实现所述的混合蛋白质高效鉴定方法的步骤。

本发明的有益效果：本发明提供了一种高效、准确和通用的基于质谱数据的蛋白质鉴定方法，显著提高了蛋白质鉴定的速度和准确性，简化了数据分析过程，增强了蛋白质定量的精度，同时适用于多种不同生物样本，从而在生物学、医学和药物研发等领域促进了科学研究和应用的进展，有望加速标志物发现、疾病诊断和生物学机制研究。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的一种混合蛋白质高效鉴定方法的基本流程示意图；

图2为本发明一个实施例提供的一种混合蛋白质高效鉴定方法的蛋白质鉴定流程图；

图3为本发明一个实施例提供的一种混合蛋白质高效鉴定方法的基于双向循环神经网络的谱库构建方法图；

图4为本发明一个实施例提供的一种混合蛋白质高效鉴定方法的BootstrapDIA蛋白质定性图；

图5为本发明一个实施例提供的一种混合蛋白质高效鉴定方法的蛋白质多维度过滤流程图；

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1-5，为本发明的一个实施例，提供了一种混合蛋白质高效鉴定方法，如图1，2所示，包括以下步骤：

S1：如图3所示，通过双向循环神经网络算法，构建包含蛋白质肽段和对应质谱信息的谱图数据库；并通过多次迭代搜索优化肽段鉴定结果；

更进一步的，运行步骤包括：

(1)编码，编码器包括三层双向长短期神经网络。以肽段的氨基酸序列及其元数据(母离子肽、电荷状态、破碎方式等)作为输入，输出则是每个b或y片段离子的强度；

(2)解码，解码器是由ReLU激活函数构成的多层感知机。通过全连接层对输入的氨基酸表示及元数据进行处理，并在每个氨基酸输入的位置输出不断片段离子类型的强度信息，然后根据每个离子的强度信息对肽段谱图进行构建。

S2：通过MaxDIA的蛋白分析算法，进行质谱的分析；

更进一步的，运行步骤包括：

(1)如图4所示，蛋白质定性鉴定：对DIA质谱数据进行预处理，从预处理后的质谱数据中提取特征，使用蛋白质数据库和谱库匹配算法，将特征与已知蛋白质的质谱图进行比对和匹配，采用Bootstrap方法对已鉴定的蛋白质进行统计验证和可靠性评估；

它包括将库中的光谱与DIA样品相匹配的多个步骤，其目的是在尽可能少的先验知识基础上引导DIA的识别过程。并且，在每一轮中获得的信息越来越多，这些信息会在随后的几轮中使用；

(2)估计蛋白质的相对表达水平：将各个样本的强度值相加，而不进行标准化，然后将标准化因子作为自由变量，通过一个全局优化过程来确定标准化因子，使得整个蛋白质组的定量误差最小化。

具体来说，需要对归一化系数N_j进行确定，将与第j次质谱分析中所有的肽离子信号强度相乘来矫正不同次质谱分析间的强度变化，使得蛋白表达量的鉴定更加可靠，将样本A的肽段离子P的总强度定义为：

其中，k表示样本A中肽段离子P的所有同位素峰，XIC则表示强度最大时的横截面积。同时，对肽段信息的选择也很重要，MaxLFQ使用肽离子信号的相对表达量而非信号总量来对蛋白质的相对表达量进行计算，因为肽段离子信号的比值是相应蛋白质强度比值的一种映射。具体来说，对于蛋白质Pro，通过肽段匹配鉴定到其中的肽段P＝{p₁，p₂，...p_m}，且其在样本S＝{A，B，C...Z}上的XIC的分布强度为XIC_Am。首先对肽段进行寻找，可以用来计算蛋白质Pro在样本A和B上丰度比率的肽段需要在样本A和样本B上同时检测到肽段信号，符合条件的肽段序号的集合需要满足条件：

C＝{α₁，α₂，...α_n}

其中，集合d中的α_n表示肽段序号，表示肽段/>在样本A上的XIC表达量，集合C中的序号对应的肽段满足“在样本A和B上同时存在可鉴别的肽段信号”条件，为了减少异常值的影响，取符合条件的肽段XIC表达量的中位数的比率作为蛋白质丰度的比率，其计算方式如公式：

其中，t_AB表示蛋白质在样本A和样本B上的丰度之比，media(XIC)表示对集合中的元素求取中位数。

S3：通过多维蛋白质过滤算法，经过四种不同标准的过滤，得到具有高置信水平的蛋白质搜库结果。

更进一步的，如图5所示，多维蛋白质过滤算法，运行步骤包括：

(1)基于污染物的蛋白过滤，常见的污染物包含角蛋白、血清白蛋白等，角蛋白是一种表皮结构蛋白，存在于皮肤、头发、指甲的外层，最终会同样本一起进入质谱仪中从而影响到蛋白鉴定的结果；

(2)基于诱饵库的蛋白过滤，诱饵蛋白是在目标-诱饵库搜索策略下产生的非目标蛋白；

(3)基于缺失值的蛋白过滤，阈值设置为30％；

(4)基于唯一肽段的蛋白过滤，蛋白质是由肽段通过不同的排列组合得到的，同一条肽段会出现在不同的蛋白质中，而蛋白质搜库时会优先得到肽段，再根据肽段对拥有该肽段的蛋白质进行匹配，因此蛋白质对肽段的这种非特异性会导致某些蛋白质由于共享肽段的存在而被错误识别，因此需要对这种可信度不高的蛋白质进行剔除。

多维蛋白质过滤算法，还包括对输入的蛋白质集合进行筛选，以得到一个更纯净的蛋白质集合，包括以下步骤：

初始化Exp_p′为Exp_p；Exp_p′是经过筛选后的蛋白质集合；

遍历Exp_p′中的每一个蛋白质p；

如果p属于污染物集合Con_p，从Exp_p′中删除p；

如果p属于decoy proteins集合De_p，从Exp_p′中删除p；

最后返回Exp_p′，即经过筛选后的蛋白质集合。

本实施例还提供一种混合蛋白质高效鉴定***，包括：

分析模块，通过MaxDIA的蛋白分析算法，进行质谱的分析；

更进一步的，还包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行所述的混合蛋白质高效鉴定方法。

本实施例还提供一种计算机可读存储介质，其存储有程序，所述程序被处理器执行时，实现所述的混合蛋白质高效鉴定方法。

本实施例提出的存储介质与上述实施例提出的混合蛋白质高效鉴定方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(ReadOnly，Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

参照表1，为本发明的一个实施例，提供了一种混合蛋白质高效鉴定方法，为了验证其有益效果，提供了两种方案的对比结果。

实验目的：比较现有技术和我方发明在蛋白质鉴定方面的性能。

准备样本：采集人血清样本，并分别标记为现有技术组和我方发明组。

传统方法：采用现有的蛋白质鉴定技术对样本进行处理和鉴定。具体步骤包括蛋白质提取、分离、浓缩、荧光标记、芯片上样、杂交、洗涤、检测等。

记录两种方法在鉴定速度、准确性、定量精度和适用性方面的数据。

对数据进行统计分析，比较两种方法的性能。

对比结果如表1所示：

表1对比表

通过表1可以看出，本发明使用多维蛋白质过滤方法，一共需要经过四种不同标准的过滤，可以在短时间内对大量蛋白质样本进行分析，可以鉴定蛋白质的存在与否，还可以提供蛋白质的定量信息，具有更高的定量精度，适用性更加广泛，通过以上四个步骤能够有效提高混合蛋白质鉴定的准确性，有助于寻找与疾病、药物治疗反应或疾病进展相关的潜在生物标志物。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种混合蛋白质高效鉴定方法，其特征在于，包括：

通过MaxDIA的蛋白分析算法，进行质谱的分析；

2.如权利要求1所述的混合蛋白质高效鉴定方法，其特征在于：

3.如权利要求1或2所述的混合蛋白质高效鉴定方法，其特征在于：所述通过MaxDIA的蛋白分析算法，包括以下步骤：

4.如权利要求3所述的混合蛋白质高效鉴定方法，其特征在于：所述估计蛋白质的相对表达水平，包括使用归一化系数N_j与第j次质谱分析中所有的肽离子信号强度相乘来矫正不同次质谱分析间的强度变化，将样本A的肽段离子P的总强度定义为：

5.如权利要求4所述的混合蛋白质高效鉴定方法，其特征在于：所述估计蛋白质的相对表达水平，还包括考虑对肽段信息的选择，使用肽离子信号的相对表达量对蛋白质的相对表达量进行计算，具体来说，对于蛋白质Pro，通过肽段匹配鉴定到其中的肽段P＝{p₁，p₂，…p_m}，且其在样本S＝{A，B，C…Z}上的XIC的分布强度为XIC_Am，对肽段进行寻找，用来计算蛋白质Pro在样本A和B上丰度比率的肽段需要在样本A和样本B上同时检测到肽段信号，符合条件的肽段序号的集合需要以下满足条件：

C＝{α₁，α₂，...α_n}

6.如权利要求5所述的混合蛋白质高效鉴定方法，其特征在于：所述经过四种不同标准的过滤，包括：

基于缺失值的蛋白过滤，阈值设置为30％；

7.如权利要求6所述的混合蛋白质高效鉴定方法，其特征在于：所述多维蛋白质过滤算法，还包括对输入的蛋白质集合进行筛选，包括以下步骤：

初始化Exp_p′为Exp_p；Exp_p′是经过筛选后的蛋白质集合；

遍历Exp_p′中的每一个蛋白质p；

如果p属于污染物集合Con_p，从Exp_p′中删除p；

如果p属于decoy proteins集合De_p，从Exp_p′中删除p；

最后返回Exp_p′，即经过筛选后的蛋白质集合。

8.一种基于权利要求1～7任一所述的混合蛋白质高效鉴定方法的鉴定***，其特征在于：

分析模块，通过MaxDIA的蛋白分析算法，进行质谱的分析；

9.一种电子设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行如权利要求1-7任一项所述的混合蛋白质高效鉴定方法的步骤。

10.一种计算机可读存储介质，其存储有程序，其特征在于，所述程序被处理器执行时，实现如权利要求1-7任一项所述的混合蛋白质高效鉴定方法的步骤。