CN117747106A - 一种高血压人群脑卒中风险预测模型的构建方法及*** - Google Patents

一种高血压人群脑卒中风险预测模型的构建方法及*** Download PDF

Info

Publication number
CN117747106A
CN117747106A CN202311770322.XA CN202311770322A CN117747106A CN 117747106 A CN117747106 A CN 117747106A CN 202311770322 A CN202311770322 A CN 202311770322A CN 117747106 A CN117747106 A CN 117747106A
Authority
CN
China
Prior art keywords
data
screening
differential
metabolite
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311770322.XA
Other languages
English (en)
Inventor
韩丽媛
曾静静
赵田
王晗
张瑞洁
蒲丽媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoke Ningbo Life And Health Industry Research Institute
Original Assignee
Guoke Ningbo Life And Health Industry Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoke Ningbo Life And Health Industry Research Institute filed Critical Guoke Ningbo Life And Health Industry Research Institute
Priority to CN202311770322.XA priority Critical patent/CN117747106A/zh
Publication of CN117747106A publication Critical patent/CN117747106A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种高血压人群脑卒中风险预测模型的构建方法及***,涉及模型构建技术领域。该方法包括:筛选确定差异表达代谢物数据和差异表达蛋白质数据;对差异表达代谢物数据和差异表达蛋白质数据进行筛选分析,确定样本数据;对样本数据分别进行标准化处理,并对标准化处理后的差异代谢物样本数据和差异蛋白质样本数据进行归一化处理;进行特征筛选,以确定目标特征变量;利用目标特征变量构建多个分类模型,并对多个分类模型进行模型验证,以确定最终的高血压人群脑卒中风险预测模型。本发明结合蛋白组学与代谢组学联合分析数据,基于机器学习,构建精准度高的高血压人群脑卒中风险预测模型,以便后续进行精准高效的风险预测。

Description

一种高血压人群脑卒中风险预测模型的构建方法及***
技术领域
本发明涉及模型构建技术领域,具体而言,涉及一种高血压人群脑卒中风险预测模型的构建方法及***。
背景技术
脑卒中(Stroke)是目前威胁全球人类健康的主要疾病之一,主要表现为急性缺血性脑卒中(Acute ischemic stroke,AIS)和出血性卒中(Intracerebral hemorrhage,ICH)。脑卒中具有难治能防的特点,早期筛查及早针对危险因素进行诊治可有效预防脑卒中的发生。高血压是所有类型脑卒中最重要的危险因素,因此,识别高血压患者中脑卒中高危人群对脑卒中的一级预防至关重要。
然而,目前,用于评估大脑微血管***的技术,如颅脑电子计算机断层扫描、磁共振成像和正电子发射断层扫描,存在可用性有限、灵敏度不足、扫描成本高和成像耗时的局限性,不适合用于全民筛查项目。因此,需要更简单和更容易获得的技术来预测脑卒中。目前国际、国内市场上没有专门用于高血压人群脑卒中预警的生物标志物,无法满足临床需求。因此,识别和监测新的卒中生物标志物可能有助于高血压人群卒中的预测。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明提供一种高血压人群脑卒中风险预测模型的构建方法及***,结合蛋白组学与代谢组学联合分析数据,基于机器学习,构建精准度高的高血压人群脑卒中风险预测模型,以便后续进行精准高效的风险预测。
为解决上述技术问题,本发明采用的技术方案为:
第一方面,本发明提供一种高血压人群脑卒中风险预测模型的构建方法,包括以下步骤:
获取目标高血压人群的非靶向代谢组学检测数据,筛选确定差异表达代谢物数据;
获取目标高血压人群的DIA蛋白组学检测数据,筛选确定差异表达蛋白质数据;
根据预设的生物功能标准对差异表达代谢物数据和差异表达蛋白质数据进行筛选分析,以确定差异代谢物样本数据和差异蛋白质样本数据;
对差异代谢物样本数据和差异蛋白质样本数据分别进行标准化处理,并对标准化处理后的差异代谢物样本数据和差异蛋白质样本数据进行归一化处理;
对进行标准化和归一化处理后的差异代谢物样本数据和差异蛋白质样本数据进行特征筛选,以确定目标特征变量;
利用目标特征变量构建多个分类模型,并对多个分类模型进行模型验证,以确定最终的高血压人群脑卒中风险预测模型。
本发明采用蛋白组学与代谢组学联合分析,代谢组学数据与蛋白组的整合可以同时从蛋白水平和代谢水平挖掘生物调控机理,相比单组学分析能更加***全面地揭示高血压患者发生脑卒中的调控机制,对于后期分子机制模型的建立和临床应用具有很强的指导价值。同时,本发明基于机器学习构建预测模型,可以有效地处理高维数据,通过特征选择、降维等技术有效地挖掘其中的信息,发现与高血压人群发生脑卒中相关的生物标志物,提高预测模型的准确度,有利于高血压人群脑卒中的预防和治疗。
基于第一方面,进一步地,上述获取目标高血压人群的非靶向代谢组学检测数据,筛选确定差异表达代谢物数据的方法包括以下步骤:
获取目标高血压人群的LC-MS检测数据,并对LC-MS检测数据进行分析,输出分析结果;
对分析结果进行预处理,以得到预处理结果,该预处理结果包括化合物分子量、保留时间、峰面积和鉴定结果;
对预处理结果进行处理,以得到二维数据矩阵;
计算各代谢物在各比较组中的变化倍数,对每个代谢物在各比较组中表达量进行显著性检验,以得到显著性检验结果;
利用正交偏最小二乘法判别分析构建监督分类模型得到每个代谢物的变量差异贡献度值;
根据预设的筛选条件和每个代谢物的变量差异贡献度值筛选得到目标差异代谢物数据。
基于第一方面,进一步地,上述获取目标高血压人群的DIA蛋白组学检测数据,筛选确定差异表达蛋白质数据的方法包括以下步骤:
基于串联质谱仪,在DIA模式采集DIA蛋白组学检测数据;
根据预设的蛋白质筛选条件对采集的DIA蛋白组学检测数据进行筛选,以确定目标差异表达蛋白质数据。
基于第一方面,进一步地,上述对进行标准化和归一化处理后的差异代谢物样本数据和差异蛋白质样本数据进行特征筛选的方法包括以下步骤:
利用R软件对进行标准化和归一化处理后的差异代谢物样本数据和差异蛋白质样本数据进行最小绝对收缩和选择算子回归分析,并进行十折交叉验证,筛选得到多个特征变量;
通过多种分析变量重要性排名的算法分别对多个特征变量进行筛选,确定最终的目标特征变量。
基于第一方面,进一步地,上述分类模型包括:logist分类模型、GNB分类模型、RF分类模型、SVM分类模型、GBoost分类模型与AdaBoost分类模型。
第二方面,本发明提供一种高血压人群脑卒中风险预测模型的构建***,包括代谢物筛选模块、蛋白质筛选模块、样本筛选模块、数据归一化模块、特征筛选模块以及模型构建模块,其中:
代谢物筛选模块,用于获取目标高血压人群的非靶向代谢组学检测数据,筛选确定差异表达代谢物数据;
蛋白质筛选模块,用于获取目标高血压人群的DIA蛋白组学检测数据,筛选确定差异表达蛋白质数据;
样本筛选模块,用于根据预设的生物功能标准对差异表达代谢物数据和差异表达蛋白质数据进行筛选分析,以确定差异代谢物样本数据和差异蛋白质样本数据;
数据归一化模块,用于对差异代谢物样本数据和差异蛋白质样本数据分别进行标准化处理,并对标准化处理后的差异代谢物样本数据和差异蛋白质样本数据进行归一化处理;
特征筛选模块,用于对进行标准化和归一化处理后的差异代谢物样本数据和差异蛋白质样本数据进行特征筛选,以确定目标特征变量;
模型构建模块,用于利用目标特征变量构建多个分类模型,并对多个分类模型进行模型验证,以确定最终的高血压人群脑卒中风险预测模型。
本***通过代谢物筛选模块、蛋白质筛选模块、样本筛选模块、数据归一化模块、特征筛选模块以及模型构建模块等多个模块的配合,结合蛋白组学与代谢组学联合分析数据,基于机器学***和代谢水平挖掘生物调控机理,相比单组学分析能更加***全面地揭示高血压患者发生脑卒中的调控机制,对于后期分子机制模型的建立和临床应用具有很强的指导价值。同时,本发明基于机器学习构建预测模型,可以有效地处理高维数据,通过特征选择、降维等技术有效地挖掘其中的信息,发现与高血压人群发生脑卒中相关的生物标志物,提高预测模型的准确度,有利于高血压人群脑卒中的预防和治疗。
第三方面,本申请提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器;当一个或多个程序被处理器执行时,实现如上述第一方面中任一项的方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
本发明至少具有如下优点或有益效果:
1、采用蛋白组学与代谢组学联合分析,代谢组学数据与蛋白组的整合可以同时从蛋白水平和代谢水平挖掘生物调控机理,相比单组学分析能更加***全面地揭示高血压患者发生脑卒中的调控机制,对于后期分子机制模型的建立和临床应用具有很强的指导价值。
2、基于机器学习构建预测模型,可以有效地处理高维数据,通过特征选择、降维等技术有效地挖掘其中的信息,发现与高血压人群发生脑卒中相关的生物标志物,提高预测模型的准确度,有利于高血压人群脑卒中的预防和治疗。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例一种高血压人群脑卒中风险预测模型的构建方法的流程图;
图2为本发明实施例一种高血压人群脑卒中风险预测模型的构建***的原理框图;
图3为本发明实施例提供的一种电子设备的结构框图。
附图标记说明:100、代谢物筛选模块;200、蛋白质筛选模块;300、样本筛选模块;400、数据归一化模块;500、特征筛选模块;600、模型构建模块;101、存储器;102、处理器;103、通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本发明实施例的描述中,“多个”代表至少2个。
实施例:
如图1所示,第一方面,本发明实施例提供一种高血压人群脑卒中风险预测模型的构建方法,包括以下步骤:
S1、获取目标高血压人群的非靶向代谢组学检测数据,筛选确定差异表达代谢物数据;
S2、获取目标高血压人群的DIA蛋白组学检测数据,筛选确定差异表达蛋白质数据;
S3、根据预设的生物功能标准对差异表达代谢物数据和差异表达蛋白质数据进行筛选分析,以确定差异代谢物样本数据和差异蛋白质样本数据;
S4、对差异代谢物样本数据和差异蛋白质样本数据分别进行标准化处理,并对标准化处理后的差异代谢物样本数据和差异蛋白质样本数据进行归一化处理;首先将差异代谢物的数据进行标准化,接着将差异蛋白质数据进行标准化。每个样本都进行了代谢组与蛋白组检测,于是将标准化后的两组学数据合并在一起,进行归一化处理。由于两组学数据数量级不一样,为了减少其对后续两组学生物标志物筛选的影响,进行了数据的标准化与归一化处理。
S5、对进行标准化和归一化处理后的差异代谢物样本数据和差异蛋白质样本数据进行特征筛选,以确定目标特征变量;特征筛选包括2步,第一步是基于上一步标准化与归一化处理后的2组学数据(60个差异蛋白质与3个差异代谢物)进行LASSO筛选,得到9个特征变量;第二步通过六种分析变量重要性排名的算法(logist、GNB、RF、SVM、GBoost与AdaBoost)来筛选变量,得到6个特征变量。
S6、利用目标特征变量构建多个分类模型,并对多个分类模型进行模型验证,以确定最终的高血压人群脑卒中风险预测模型。
本发明采用蛋白组学与代谢组学联合分析,代谢组学数据与蛋白组的整合可以同时从蛋白水平和代谢水平挖掘生物调控机理,相比单组学分析能更加***全面地揭示高血压患者发生脑卒中的调控机制,对于后期分子机制模型的建立和临床应用具有很强的指导价值。同时,本发明基于机器学习构建预测模型,可以有效地处理高维数据,通过特征选择、降维等技术有效地挖掘其中的信息,发现与高血压人群发生脑卒中相关的生物标志物,提高预测模型的准确度,有利于高血压人群脑卒中的预防和治疗。
本发明基于非靶向代谢组学检测实验和DIA蛋白组学检测实验的数据进行分析处理,并结合基于机器学习,构建了一个精准度高的高血压人群脑卒中风险预测模型,以便后续进行精准高效的风险预测。
基于第一方面,进一步地,上述获取目标高血压人群的非靶向代谢组学检测数据,筛选确定差异表达代谢物数据的方法包括以下步骤:
获取目标高血压人群的LC-MS检测数据,并对LC-MS检测数据进行分析,输出分析结果;
对分析结果进行预处理,以得到预处理结果,该预处理结果包括化合物分子量、保留时间、峰面积和鉴定结果;
对预处理结果进行处理,以得到二维数据矩阵;对预处理结果进行处理的内容包括:1.使用概率商归一化方法对数据进行归一化,得到相对峰面积;2.采用局部多项式回归拟合信号校正校正批次效应;3.将所有QC样品中相对峰面积的变异系数大于30%的化合物删除。
计算各代谢物在各比较组中的变化倍数,对每个代谢物在各比较组中表达量进行显著性检验,以得到显著性检验结果;利用正交偏最小二乘法判别分析构建监督分类模型得到每个代谢物的变量差异贡献度值(VIP值);正交偏最小二乘判别分析是一种有监督的统计方法。可以最大程度地反映分类组别之间的差异,该方法运用偏最小二乘回归建立代谢物表达量和样品类别之间的关系模型,来实现对样品类别的建模预测。同时通过计算VIP来衡量各代谢物表达模式对各组样本分类判别的影响强度和解释能力,从而辅助代谢标志物的筛选,一般认为VIP大于等于1才表示该变量对样本类别的区分有显著作用。通过这个分析得到各代谢物的VIP值,用于后续差异代谢物的筛选。上述比较组是指脑卒中组和高血压组,差异倍数比较是指脑卒中组与高血压组相比,代谢物的差异倍数。
根据预设的筛选条件和每个代谢物的变量差异贡献度值筛选得到目标差异代谢物数据。
基于非靶向代谢组学检测包括:
1)样品预处理:吸取100uL血浆样本,加入400μL预冷的甲醇乙腈水溶液(甲醇:乙腈=1:1(V/V),含同位素标记的内标混合物),涡旋混匀1min,使充分混合,室温孵育10分钟,然后在-20℃静置2h,4℃条件下4000rpm离心20min,取上清液(300uL),用冷冻真空浓缩仪抽干后,用150uL复溶液复溶样本,涡旋震荡1min,4℃条件下4000rpm离心30min,取上清液,用于质谱分析。将每个样品的上清液(10uL)混合制备质量控制(QC)样品,并定期***每个分析运行中,以评估LC-MS分析的重复性和稳定性。
2)LC-MS检测:采用Waters UPLC I-Class Plus(Waters,USA)串联Q Exactive高分辨质谱仪(ThermoFisher Scientific,USA)来进行代谢物的分离和检测。所使用的色谱柱为BEH C18色谱柱。正离子模式流动相为含0.1%甲酸的水溶液(A液)和含0.1%甲酸的甲醇(B液),负离子模式流动相为含10mM甲酸铵的水溶液(A液)和含10mM甲酸铵的95%甲醇(B液)。采用以下梯度进行洗脱:0~1min,2% B液;1~9min,2%~98% B液;9~12min,98%B液;12~12.1min,98% B液~2%B液;12.1~15min,2% B液。流速为0.35mL/min,柱温45℃,进样量为5μL。利用Q Exactive质谱仪(Thermo Fisher Scientific,USA)进行一级、二级质谱数据采集。质谱扫描质核比范围为70~1050,一级分辨率为70,000,AGC为3e6,最大注入时间为100ms。
3)将质谱的下机数据导入Compound Discoverer 3.3(Thermo FisherScientific,USA)软件对MS原始数据进行分析,将导出的结果导入metaX,进行峰识别、峰提取、峰对齐、保留时间校正、加合离子合并、代谢物鉴定等一系列数据预处理后,导出化合物分子量、保留时间、峰面积和鉴定结果等信息,然后将导出的数据进行预处理,得到二维数据矩阵。
基于上述非靶向代谢组学检测,进而筛选差异表达代谢物,具体包括以下步骤:
运用正交偏最小二乘法判别分析构建监督分类模型,使组间距离最大化,并计算变量差异贡献度(VIP)。计算各代谢物在各比较组中的变化倍数(Fold Change)并使用Student’s t-test对每个代谢物在各比较组中表达量进行显著性检验,得到p value。以VIP≥1,Fold Change≥1.2或者≤0.83,3)p-value<0.05为筛选条件,得到20个差异代谢物,其中2个代谢物在高血压合并脑卒中组显著上调,18个代谢物在高血压合并脑卒中组显著下调。
基于第一方面,进一步地,上述获取目标高血压人群的DIA蛋白组学检测数据,筛选确定差异表达蛋白质数据的方法包括以下步骤:
基于串联质谱仪,在DIA模式采集DIA蛋白组学检测数据;
根据预设的蛋白质筛选条件对采集的DIA蛋白组学检测数据进行筛选,以确定目标差异表达蛋白质数据。
DIA模式是指数据非依赖性采集模式,其采集蛋白组学可以将扫描区间内所有肽段母离子进行超高速扫描和二级碎裂,采集所有母离子的碎片离子信息进行蛋白定性和定量,具有高覆盖度、高通量、高准确度和高检测重现性的特点,适用于大样本检测。DIA模式下可以依据质荷比将质谱整个扫描范围分为若干个窗口,然后对每个窗口中的所有母离子进行碎裂、检测,采集所有母离子的碎片离子信息进行蛋白定性和定量。
DIA蛋白组学检测包括:
从血浆中提取蛋白后对蛋白浓度和纯度进行定量,然后进行酶解与除盐。将所有样本各取等量肽段进行混合后成预实验调试样品,经High pH RP分离得到10个组分,在经过UltiMate 3000UHPLC分离后通过nanoESI源离子化后进入到串联质谱仪Fusion Lumos(Thermo Fisher Scientific,San Jose,CA)进行DDA(Data Dependent Acquisition)模式检测。采用正离子扫描的检测模式,扫描范围m/z 400-1200。DDA数据采用搜库软件Spectronaut-Pulsar(Biognosys)搜索DDA扫描模式下机数据。搜库参数设置如下:前体离子的质量容差为10ppm,碎片离子的质量容差为0.02Da。固定化修饰为半胱氨酸的烷基化修饰,可变修饰为甲硫氨酸氧化修饰,N端为乙酰化修饰,允许最多2个漏切位点。然后每例样品各取2μg肽段,分别掺入适量iRT标准肽段,采用与DDA采集一致的液相分离梯度,对所有组织样本进行DIA数据采集,将质谱全扫描范围m/z400-1500均分为44个窗口,每个窗口内依次选择、碎裂、采集所有母离子的全部子离子信息用于定量,重复2次。将DIA数据导入Spectronaut软件,根据pulsar构建的DDA数据库提取离子对色谱峰,进行子离子匹配和峰面积计算,实现对肽段同时的定性和定量。对两次DIA定量数据用总离子强度进行归一化处理,取平均值用于后续分析。
基于DIA蛋白组学检测筛选差异表达蛋白质包括:
在DIA模式下对100个血浆样本采集了质谱数据,共定量到11887个肽段和1217个蛋白。利用Fold change≥1.2或者≤0.83,及p value<0.05筛选两组之间差异蛋白质,得到94个差异蛋白,其中76个差异蛋白在高血压合并脑卒中组显著上调,18个差异蛋白在高血压合并脑卒中组显著下调。
基于第一方面,进一步地,上述对进行标准化和归一化处理后的差异代谢物样本数据和差异蛋白质样本数据进行特征筛选的方法包括以下步骤:
利用R软件对进行标准化和归一化处理后的差异代谢物样本数据和差异蛋白质样本数据进行最小绝对收缩和选择算子回归分析,并进行十折交叉验证,筛选得到多个特征变量;
通过多种分析变量重要性排名的算法分别对多个特征变量进行筛选,确定最终的目标特征变量。
利用R软件(glmnet4.1.2)进行最小绝对收缩和选择算子(LASSO)回归分析,并进行10折交叉验证,筛选得到9个特征变量。再通过六种分析变量重要性排名的算法(logist、GNB、RF、SVM、GBoost与AdaBoost)来筛选变量,每种分析方法都保留了前4个变量,最终选取出现频率最高的前5个特征变量,分别是:Caprolactam,HBB_B2M1S7,RBP4_P02753,C4BPA_P04003,COL15A1_P39059。
基于第一方面,进一步地,上述上述分类模型包括:logist分类模型、GNB分类模型、RF分类模型、SVM分类模型、GBoost分类模型与AdaBoost分类模型。
利用筛选后的变量通过python构建多个分类模型,包括:logist、GNB、RF、SVM、GBoost与AdaBoost,以确定最佳分类方法。为了便于比较,采用重采样训练/验证机制来总结每个模型的性能。使用10倍交叉验证重采样方案,20%的训练数据作为验证集来验证每个模型。在对各种模型参数进行训练和测试后,我们评估了各指标的显著性,选择了最优SVM模型。并基于SHAP算法计算每一个特征对预测结果的贡献,来对SVM模型结果进行解释。
如图2所示,第二方面,本发明实施例提供一种高血压人群脑卒中风险预测模型的构建***,包括代谢物筛选模块100、蛋白质筛选模块200、样本筛选模块300、数据归一化模块400、特征筛选模块500以及模型构建模块600,其中:
代谢物筛选模块100,用于获取目标高血压人群的非靶向代谢组学检测数据,筛选确定差异表达代谢物数据;
蛋白质筛选模块200,用于获取目标高血压人群的DIA蛋白组学检测数据,筛选确定差异表达蛋白质数据;
样本筛选模块300,用于根据预设的生物功能标准对差异表达代谢物数据和差异表达蛋白质数据进行筛选分析,以确定差异代谢物样本数据和差异蛋白质样本数据;
数据归一化模块400,用于对差异代谢物样本数据和差异蛋白质样本数据分别进行标准化处理,并对标准化处理后的差异代谢物样本数据和差异蛋白质样本数据进行归一化处理;
特征筛选模块500,用于对进行标准化和归一化处理后的差异代谢物样本数据和差异蛋白质样本数据进行特征筛选,以确定目标特征变量;
模型构建模块600,用于利用目标特征变量构建多个分类模型,并对多个分类模型进行模型验证,以确定最终的高血压人群脑卒中风险预测模型。
本***通过代谢物筛选模块100、蛋白质筛选模块200、样本筛选模块300、数据归一化模块400、特征筛选模块500以及模型构建模块600等多个模块的配合,结合蛋白组学与代谢组学联合分析数据,基于机器学***和代谢水平挖掘生物调控机理,相比单组学分析能更加***全面地揭示高血压患者发生脑卒中的调控机制,对于后期分子机制模型的建立和临床应用具有很强的指导价值。同时,本发明基于机器学习构建预测模型,可以有效地处理高维数据,通过特征选择、降维等技术有效地挖掘其中的信息,发现与高血压人群发生脑卒中相关的生物标志物,提高预测模型的准确度,有利于高血压人群脑卒中的预防和治疗。
如图3所示,第三方面,本申请实施例提供一种电子设备,其包括存储器101,用于存储一个或多个程序;处理器102。当一个或多个程序被处理器102执行时,实现如上述第一方面中任一项的方法。
还包括通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请所提供的实施例中,应该理解到,所揭露的方法及***,也可以通过其它的方式实现。以上所描述的方法及***实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的方法及***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (8)

1.一种高血压人群脑卒中风险预测模型的构建方法,其特征在于,包括以下步骤:
获取目标高血压人群的非靶向代谢组学检测数据,筛选确定差异表达代谢物数据;
获取目标高血压人群的DIA蛋白组学检测数据,筛选确定差异表达蛋白质数据;
根据预设的生物功能标准对差异表达代谢物数据和差异表达蛋白质数据进行筛选分析,以确定差异代谢物样本数据和差异蛋白质样本数据;
对差异代谢物样本数据和差异蛋白质样本数据分别进行标准化处理,并对标准化处理后的差异代谢物样本数据和差异蛋白质样本数据进行归一化处理;
对进行标准化和归一化处理后的差异代谢物样本数据和差异蛋白质样本数据进行特征筛选,以确定目标特征变量;
利用目标特征变量构建多个分类模型,并对多个分类模型进行模型验证,以确定最终的高血压人群脑卒中风险预测模型。
2.根据权利要求1所述的一种高血压人群脑卒中风险预测模型的构建方法,其特征在于,所述获取目标高血压人群的非靶向代谢组学检测数据,筛选确定差异表达代谢物数据的方法包括以下步骤:
获取目标高血压人群的LC-MS检测数据,并对LC-MS检测数据进行分析,输出分析结果;
对分析结果进行预处理,以得到预处理结果,该预处理结果包括化合物分子量、保留时间、峰面积和鉴定结果;
对预处理结果进行处理,以得到二维数据矩阵;
计算各代谢物在各比较组中的变化倍数,对每个代谢物在各比较组中表达量进行显著性检验,以得到显著性检验结果;
利用正交偏最小二乘法判别分析构建监督分类模型得到每个代谢物的变量差异贡献度值;
根据预设的筛选条件和每个代谢物的变量差异贡献度值筛选得到目标差异代谢物数据。
3.根据权利要求1所述的一种高血压人群脑卒中风险预测模型的构建方法,其特征在于,所述获取目标高血压人群的DIA蛋白组学检测数据,筛选确定差异表达蛋白质数据的方法包括以下步骤:
基于串联质谱仪,在DIA模式采集DIA蛋白组学检测数据;
根据预设的蛋白质筛选条件对采集的DIA蛋白组学检测数据进行筛选,以确定目标差异表达蛋白质数据。
4.根据权利要求1所述的一种高血压人群脑卒中风险预测模型的构建方法,其特征在于,所述对进行标准化和归一化处理后的差异代谢物样本数据和差异蛋白质样本数据进行特征筛选的方法包括以下步骤:
利用R软件对进行标准化和归一化处理后的差异代谢物样本数据和差异蛋白质样本数据进行最小绝对收缩和选择算子回归分析,并进行十折交叉验证,筛选得到多个特征变量;
通过多种分析变量重要性排名的算法分别对多个特征变量进行筛选,确定最终的目标特征变量。
5.根据权利要求1所述的一种高血压人群脑卒中风险预测模型的构建方法,其特征在于,所述分类模型包括:logist分类模型、GNB分类模型、RF分类模型、SVM分类模型、GBoost分类模型与AdaBoost分类模型。
6.一种高血压人群脑卒中风险预测模型的构建***,其特征在于,包括代谢物筛选模块、蛋白质筛选模块、样本筛选模块、数据归一化模块、特征筛选模块以及模型构建模块,其中:
代谢物筛选模块,用于获取目标高血压人群的非靶向代谢组学检测数据,筛选确定差异表达代谢物数据;
蛋白质筛选模块,用于获取目标高血压人群的DIA蛋白组学检测数据,筛选确定差异表达蛋白质数据;
样本筛选模块,用于根据预设的生物功能标准对差异表达代谢物数据和差异表达蛋白质数据进行筛选分析,以确定差异代谢物样本数据和差异蛋白质样本数据;
数据归一化模块,用于对差异代谢物样本数据和差异蛋白质样本数据分别进行标准化处理,并对标准化处理后的差异代谢物样本数据和差异蛋白质样本数据进行归一化处理;
特征筛选模块,用于对进行标准化和归一化处理后的差异代谢物样本数据和差异蛋白质样本数据进行特征筛选,以确定目标特征变量;
模型构建模块,用于利用目标特征变量构建多个分类模型,并对多个分类模型进行模型验证,以确定最终的高血压人群脑卒中风险预测模型。
7.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN202311770322.XA 2023-12-20 2023-12-20 一种高血压人群脑卒中风险预测模型的构建方法及*** Pending CN117747106A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311770322.XA CN117747106A (zh) 2023-12-20 2023-12-20 一种高血压人群脑卒中风险预测模型的构建方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311770322.XA CN117747106A (zh) 2023-12-20 2023-12-20 一种高血压人群脑卒中风险预测模型的构建方法及***

Publications (1)

Publication Number Publication Date
CN117747106A true CN117747106A (zh) 2024-03-22

Family

ID=90250577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311770322.XA Pending CN117747106A (zh) 2023-12-20 2023-12-20 一种高血压人群脑卒中风险预测模型的构建方法及***

Country Status (1)

Country Link
CN (1) CN117747106A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117954102A (zh) * 2024-03-27 2024-04-30 北京大学第三医院(北京大学第三临床医学院) 一种预测单纯宫缩乏力性产后出血的***和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117954102A (zh) * 2024-03-27 2024-04-30 北京大学第三医院(北京大学第三临床医学院) 一种预测单纯宫缩乏力性产后出血的***和方法

Similar Documents

Publication Publication Date Title
America et al. Comparative LC‐MS: A landscape of peaks and valleys
Jaffe et al. PEPPeR, a platform for experimental proteomic pattern recognition
Kenar et al. Automated label-free quantification of metabolites from liquid chromatography–mass spectrometry data
US6835927B2 (en) Mass spectrometric quantification of chemical mixture components
Zhang et al. Review of peak detection algorithms in liquid-chromatography-mass spectrometry
CN104170052B (zh) 用于改进的质谱分析法定量作用的方法和装置
US8987662B2 (en) System and method for performing tandem mass spectrometry analysis
Horgan et al. An overview of proteomic and metabolomic technologies and their application to pregnancy research
CN105574474A (zh) 一种基于质谱信息的生物特征图像识别方法
CN117747106A (zh) 一种高血压人群脑卒中风险预测模型的构建方法及***
JP4857000B2 (ja) 質量分析システム
CN103776891A (zh) 一种检测差异表达蛋白质的方法
Vogl et al. Evaluation of dilution and normalization strategies to correct for urinary output in HPLC-HRTOFMS metabolomics
Lind et al. The use of mass spectrometry for analysing metabolite biomarkers in epidemiology: methodological and statistical considerations for application to large numbers of biological samples
Cordero Hernandez et al. Targeted feature extraction in MALDI mass spectrometry imaging to discriminate proteomic profiles of breast and ovarian cancer
Pejchinovski et al. Comparison of higher energy collisional dissociation and collision‐induced dissociation MS/MS sequencing methods for identification of naturally occurring peptides in human urine
CN109557165B (zh) 用于监控质谱成像制备工作流程的质量的方法
Habchi et al. An innovative chemometric method for processing direct introduction high resolution mass spectrometry metabolomic data: Independent component–discriminant analysis (IC–DA)
JP2016061670A (ja) 時系列データ解析装置及び方法
Bjerrum Metabonomics: analytical techniques and associated chemometrics at a glance
Colangelo et al. Development of a highly automated and multiplexed targeted proteome pipeline and assay for 112 rat brain synaptic proteins
Zhang et al. Evaluation of the technical variations and the suitability of a hydrophilic interaction liquid chromatography-high resolution mass spectrometry (ZIC-pHILIC-Exactive orbitrap) for clinical urinary metabolomics study
Sun et al. A systematic model of the LC-MS proteomics pipeline
KR102352444B1 (ko) 펩타이드 특성 학습 기반 액체 크로마토그래프 질량 분석에서 펩타이드 생성이온의 스펙트럼 양상을 예측하는 시스템
Gao et al. Peptidome workflow of serum and urine samples for biomarker discovery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination