CN114974585A

CN114974585A - 一种妊娠期代谢综合征早期风险预测评估模型构建方法

Info

Publication number: CN114974585A
Application number: CN202210593499.6A
Authority: CN
Inventors: 胡文胜; 卢莎; 江泓; 马聿嘉
Original assignee: Hangzhjou Obstetrics & Gynecology Hospital
Current assignee: Hangzhjou Obstetrics & Gynecology Hospital
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-08-30

Abstract

本发明公开了一种妊娠期代谢综合征早期风险预测评估模型的构建方法，包括步骤：(1)获取多源异构数据，并对其进行预处理，得到代谢相关数据；(2)筛选与Gms高度关联的不良妊娠结局；(3)采用极端梯度提升(XGBoost)结合Stacking框架建立预测模型，根据(2)中确定的不良妊娠结局作为预测标签输入预测模型；(4)基于Shapley值计算预测模型中每个建模因子的特征重要性；(5)根据(4)中建模因子的特征重要性，基于聚类算法建立风险分层模型，得到Gms风险等级。通过本发明，可实现临床GMS的早期预测，尽早发现GMS相关预测指标，将风险规避到新生儿时期，进而降低子代远期代谢性疾病的患病风险，对预防和降低GMS的发生具有重要意义。

Description

一种妊娠期代谢综合征早期风险预测评估模型构建方法

技术领域

本发明属于疾病风险评估技术领域，涉及一种妊娠期代谢综合征早期风险预测评估模型的构建方法。

背景技术

代谢综合征(metabolic syndrome，MS)是指人体的蛋白质、脂肪、碳水化合物等物质发生代谢紊乱的病理状态，包括胰岛素抵抗、肥胖、血压升高、糖代谢异常、脂代谢异常等多重代谢异常聚集的一组症候群，是导致糖尿病心脑血管疾病和代谢性疾病的危险因素，而妊娠期代谢综合征(gestational metabolic syndrome，GMS)则是在妊娠期特发的多重代谢异常聚集。随着经济发展和生活水平的提高，孕产妇代谢性疾病在世界各地的发生率高达5％～10％，2020年我国育龄妇女数大约3.34亿，以此推算，我国育龄妇女中现有7515万MS患者；同时，我国目前每年约有1600万育龄妇女妊娠，以此推算，每年约有360万妊娠期间的MS人群。因此，GMS将造成巨大的疾病负担和经济负担，已经成为全球不可忽略的公共卫生问题。

妊娠期代谢综合征不仅直接影响当前妊娠结局，还潜在作用于孕产妇及子代的远期生理健康状况，子代成年后发生代谢综合征和心血管疾病的几率也明显增加。依据DOHAD理论即健康和疾病的发育起源学说，GMS早期干预得当与否直接影响产妇的妊娠结局以及子代的远期生理健康状况，早期的GMS风险评估并施以科学的健康管理可打断代谢异常在母子间的恶性循环，将风险规避到新生儿时期，进而降低子代远期代谢性疾病的患病风险，因此对推进国民素质有着重要意义。

临床上对GMS的评估大致分为二类研究。一是GMS风险因素研究，Niu等人的研究证明超重/肥胖、妊娠期高甘油三酯、低高密度脂蛋白胆固醇、高血糖和高血压等代谢危险因素的聚集越多，早产、小/大胎龄、子痫、妊娠期糖尿病、新生儿窒息和胎儿死亡等不良妊娠结局风险值越大。而现有GMS诊断标准即是在此基础上结合2004年中华医学会糖尿病学分会制定的代谢综合征诊断标准和2009年美国Wiznitzer等的研究结果所制定的，其包括：①孕前BMI≥25kg/m2；②血压≥140/90mmHg；③血糖升高，诊断为妊娠期糖尿病；④甘油三酯(Triglyceride,TG)≥3.23mmol/L。二是对GMS的预测模型研究，如Nitzan等人利用以色列国家数据库构建妊娠期糖尿病预测模型，孕前血糖测量是可有效筛查高危人群；Jong等人利用孕中期实验室化验构建晚发型PE的早预测模型研究认为早期血压、肌酐水平等是其重要建模；Tao等人利用孕妇在孕期内的连续体重变化，更加精准的预测胎儿体重和甄别大/小于胎龄儿。

以往研究重点关注的通常是探究多重代谢危险因素与GMS之间的相关性，或是代谢危险因素与某一妊娠期代谢性疾病的预测模型研究。此外，相关研究大多依据已设定实验方案、选定人群和纳入可能的风险因素进行跟踪发现，并不能全面完整有效把握致病因素，具有一定的局限性。GMS的诊断标准也缺乏严重程度的分级，更缺乏有效的早期风险预测评估模型，所以GMS在产前多不能被及时诊断和发现，导致临床对GMS未引起足够重视，缺乏干预而造成不良妊娠结局。

因此，亟需建立一套有效的风险预测评估模型，针对医学临床真实场景选择并改进合适的机器学习模型；开发整体和有意义的可解释架构，将学习模型和医学可解释性相结合是该领域的关键问题，基于大数据的机器学习算法往往会缺乏可解释性；基于得到的风险评估模型发现高关联性危险因子，并探究适宜的高危分级标准。帮助医生快速全面地评估多重代谢异常聚集的风险程度，为GMS的早预警、早诊断、早干预、早预防提供精准的临床决策支持。

发明内容

本发明的目的在于针对现有技术的不足，提供一种妊娠期代谢综合征早期风险预测评估模型的构建方法。

本发明采用的技术方案如下：

一种妊娠期代谢综合征早期风险预测评估模型的构建方法，包括如下步骤：

(1)获取多源异构数据，并对其进行预处理，得到代谢相关数据；

(2)筛选与Gms高度关联的不良妊娠结局；

(3)采用极端梯度提升(XGBoost)结合Stacking框架建立预测模型，根据(2)中确定的不良妊娠结局作为预测标签输入预测模型；

(4)基于Shapley值计算预测模型中每个建模因子的特征重要性；

(5)根据(4)中建模因子的特征重要性，基于聚类算法建立风险分层模型，得到Gms风险等级。

上述技术方案中，进一步的，所述多源异构数据包括门诊病历、实验室检验、超声影像检查、住院病历病程记录，所述预处理包括离群值剔除、缺失值填补、归一化。

进一步的，所述的代谢相关数据包括：血红蛋白，红细胞压积，血小板，中性粒细胞，淋巴细胞，嗜酸性粒细胞铁蛋白，部分凝血活酶时间，凝血酶原时间，纤维蛋白原，D-二聚体，葡萄糖，甘油三酯，总胆固醇，高密度脂蛋白胆固醇，低密度脂蛋白胆固醇，APOA1，APOB，同型半胱氨酸，尿酸，丙氨酸氨基转移酶，天门冬氨酸氨基转移酶，总蛋白，白蛋白，总胆红素直接胆红素肌酐，乳酸脱氢酶，血淀粉酶，总胆汁酸，甘胆酸，游离三碘甲状腺原氨酸，游离甲状腺素人促甲状腺激素，总三碘甲状腺原氨酸，总甲状腺素，甲状腺球蛋白抗体，抗甲状腺过氧化物酶抗体。

进一步的，步骤(2)筛选的不良妊娠结局为：

妊娠期高血压(HDP)：妊娠20周后新发的高血压，BP≥140/90mmHg；

妊娠期糖尿病(GDM)：妊娠期24至28周期间妇女接受OGTT被诊断为妊娠期糖尿病,基于IADPSG标准；

早产(PB)：妊娠满37周以内的分娩；

小于胎龄儿(SGA)：出生体重小于婴儿性别和胎龄的估计第10百分位数；大于胎龄儿(SGA)：出生体重大于婴儿性别和胎龄的估计第90百分位数。

进一步的，所述预测模型是将Stacking框架融合应用于三个不同极端梯度提升元模型的集成，第一层为三个元模型XGB1、XGB2、XGB3，第二层为逻辑回归LR模型，利用不同的XGB模型生成训练集与测试集的预测值,三组XGB元模型层生成训练集与测试集的3组预测值，每组XGB元模型将训练集划分为5份，按4:1逐一对训练集进行训练，得到预测值，并在测试集测试，3组XGB元模型反复此操作，最终将构建的新的训练集和测试集输入LR模型，分类输出GMS风险。

进一步的，步骤(5)中基于shapley值对特征重要性排序，选取最大的建模因子贡献值的10％作为阈值，筛选大于阈值的特征，作为聚类的输入变量。

本发明的有益效果在于：

通过本发明，可实现临床GMS的早期预测，尽早发现GMS相关预测指标，有助于确定高危人群并施以科学的健康干预可打断代谢异常在母子间的恶性循环，将风险规避到新生儿时期，进而降低子代远期代谢性疾病的患病风险，对预防和降低GMS的发生具有重要意义。本发明可作为一种产科门诊辅助诊断***，填补当前国内对于早期GMS防治的空白，旨在对GMS早发现、早干预、早治疗，以减少其发病率和不良后果，基于后续可制定个性化的人群干预方案，指导分级诊疗和分层管理，对于促进我国人口健康具有重要的科学意义和社会价值。

附图说明

图1为本发明构建的Gms预测模型结构示意图；

具体实施方式

本发明基于得到的风险评估模型发现高关联性危险因子，针对医学临床真实场景选择并改进合适的机器学习模型，并探究适宜的高危分级标准，从而将学习模型和医学可解释性相结合。以下结合具体实例进一步说明本发明。

(1)数据获取：获取门诊病历、实验室检验、超声影像检查、住院病历病程记录等多源异构数据，并对其进行离群值剔除、缺失值填补、归一化等预处理。

(2)风险定义：基于(1)中获取的数据筛选与Gms高度关联的不良妊娠结局，建立回归模型计算其决定系数来定义这些妊娠结局与Gms的关联程度。

(3)风险分析：将(2)中最相关的不良妊娠结局作为预测标签输入(3)的预测模型，采用极端梯度提升树结合Stacking框架建立Gms预测模型。

(4)风险表征：基于Shapley值计算的(3)中每个建模因子的特征重要性。

(5)风险分层：基于(4)中最具有特征重要性的建模因子，基于聚类算法建立风险分层模型。

根据本发明实例设计的风险评估方法，在孕早期实现GMS评估，并进行早期的健康干预。具体的：

(1)中所收集的多模态数据主要包含人口统计学数据、产前检查数据、产科门诊数据、超声影像学数据和实验室检查数据；

人口统计学和产前检查数据，包括年龄、出生日期、孕次、产次、身高、孕前体重、产前收缩压和舒张压、末次月经、初潮、经期、周期、月经量、痛经、自然妊娠、血型、文化程度、所处社区等；

产检门诊为孕妇在孕周20左右时间段的产检相关数据，涉及的检查项主要包括孕期体重、宫高腹围、孕期血压、胎位胎心等，并由门诊医生记录下血压偏高、胎位不正等高危因素。

代谢相关的实验室检查数据主要包括如下：血红蛋白，红细胞压积个，血小板，中性粒细胞，淋巴细胞，嗜酸性粒细胞铁蛋白，部分凝血活酶时间，凝血酶原时间，纤维蛋白原，D-二聚体，葡萄糖，甘油三酯，总胆固醇，高密度脂蛋白胆固醇，低密度脂蛋白胆固醇，APOA1，APOB，同型半胱氨酸，尿酸，丙氨酸氨基转移酶，天门冬氨酸氨基转移酶，总蛋白，白蛋白，总胆红素直接胆红素肌酐，乳酸脱氢酶，血淀粉酶，总胆汁酸，甘胆酸，游离三碘甲状腺原氨酸，游离甲状腺素人促甲状腺激素，总三碘甲状腺原氨酸，总甲状腺素，甲状腺球蛋白抗体，抗甲状腺过氧化物酶抗体。

(2)中风险定义方法，定义与GMS高度相关的不良妊娠结局作为标签

选择与GMS高度相关的不良妊娠结局作为预测标签，考虑其实用性，暂只纳入了发病率高于1％的不良妊娠结局作为备选不良妊娠集合。可以将BMI、血糖、血压、甘油三脂等代谢因子作为自变量，各项妊娠结局作为应变量，计算其相关性，结合已有文献、专家咨询，本发明确定的不良妊娠结局为：

1)妊娠期高血压(HDP)：妊娠20周后新发的高血压，BP≥140/90mmHg。

2)妊娠期糖尿病(GDM)：妊娠期24至28周期间妇女接受OGTT被诊断为妊娠期糖尿病,应用IADPSG标准(一次或多次空腹、1小时或2小时血糖浓度等于或大于阈值5.1、10.0，或8.5mmol/L)。

3)早产(PB)：妊娠满37周以内的分娩。

4)小于胎龄儿(SGA)：根据之前公布的中国数据，出生体重小于婴儿性别和胎龄的估计第10百分位数。

5)大于胎龄儿(SGA)：根据之前公布的中国数据，出生体重大于婴儿性别和胎龄的估计第90百分位数。

(3)中风险分析方法，构建GMS预测模型，采用极端梯度提升(XGBoost)结合Stacking框架建立预测模型，步骤如下所示：

步骤1：XGBoost预测模型构建

XGBoost是一种分布式梯度增强算法，在产科疾病辅助诊断中得到了广泛的应用和重视。首先正则化学习目标，得到目标函数的最优解；能够防止模型过拟合，目标函数如下式所示：

其中i表示第i个样本，k表示第k棵树，t表示时刻，l表示为损失函数，在预测多分类问题时选择multi:softmax，二分类问题(是否发生不良妊娠结局)时选择二项逻辑回归为损失函数。y_i为模型输出标签，y为真实标签。

步骤2：Stacking框架构建

本发明拟将Stacking框架融合应用于多个不同的XGB-模型的集成，以提升预测精度。假设输入为Vi，记第一层3个模型为XGB1、XGB2、XGB3，第二层预测模型为LR(LogisticRegression)，则第一层第3个元模型的输出为XGB1(Vi)、XGB2(Vi)、XGB3(Vi)。

利用不同的XGB模型生成训练集与测试集的预测值,以3组XGB模型为例，本发明利用3组XGB元模型层生成训练集与测试集的3组预测值，每组XGB模型将训练集划分为5份S1-S5，按4:1逐一对训练集进行训练，得到预测值P1-P5，并在测试集得到T1-T5，3组XGB元模型反复此操作，结构图如图1所示；

利用上述训练集的预测值构建新的训练集，上述测试集的预测值构建新的测试集，如下式表示：

步骤3：风险值计算

最终将所述新的训练集和测试集输入LR模型，分类输出GMS风险，其输出yi为最终预测结果为：

y_i＝LR(XGB₁(V_i)，XGB₂(V_i)，XGB₃(V_i)) (4)

步骤4：模型评价

选择机器学习法常用评价指标：精确率(accuracy)、灵敏度(sensitivity)、特异性(specificity)及ROC曲线对各个模型的性能进行评价，以检测模型预测结果与真实结果之间的差异，评价模型的优劣，为模型的选择提供依据。相关度量值的公式如下：

(4)中风险表征方法，基于Shapley值计算的特征重要性分布

本发明采用沙普利值(Shapley value)的方法评价各建模因子对模型预测能力的贡献程度，为解决多个局中人在合作过程中因利益分配而产生矛盾的问题，属于合作博弈领域。Shapley值考虑各个代理做出的贡献，来公平地分配合作收益，

设(1)中所有妊娠期特征x集合为N，v代表对建模成效的贡献函数，建模(N，v)的Shapley值将模型的总体贡献v(N)按照下述公式进行分摊：

其中各个x可以组合成任意的特征联盟S，i则表示为S的第i成员，x(v)表示特征在模型中的贡献值函数，w(s)表示概率综合为1，v(s)表示特征加入模型而带来的预测性能贡献。

shapley值的最大优点在于其原理和结果易于被各个合作方视为公平的结果而被接受，是公平地定量评估用户边际贡献度的指标，并用于广泛的领域。

基于(5)中特征重要性分布，利用聚类方法进行风险分层

V_shapley表示所有x的shapley值，将其进行排序，选取最大的建模因子贡献值的10％作为阈值，筛选大于阈值的特征，作为聚类的输入变量。入选变量V_select的描述方式如下：

V_select＝{V|V_shapley＞0.1×max(V_shapley)} (10)

现有gms诊断标准含四项风险指标，即每个样本只存下如下五种情况之一(0风险，1项风险，2项风险，3项风险和4项风险)，因此聚类算法拟生成五个目标簇。

以(3)中输出通过sklearn框架中的y_score函数转化成量化的风险值，进行以此排序，分别取0％，25％，50％，75％，100％百分位数的样本作为5个初始质心向量，开展K-means聚类操作：输入聚类个数5，以所有孕妇及其V_select为对象，输出满足方差最小标准五个目标簇，通过计算每个簇中的各项不良妊娠结局发病率，对比原有的诊断标准评价风险分层的效果。

基于本发明实例建立风险评估体系，嵌入电子病***实现GMS智能早期预警。

Claims

1.一种妊娠期代谢综合征早期风险预测评估模型的构建方法，其特征在于，包括如下步骤：

(2)筛选与Gms高度关联的不良妊娠结局；

(4)基于Shapley值计算预测模型中每个建模因子的特征重要性；

2.根据权利要求1所述的妊娠期代谢综合征早期风险预测评估模型的构建方法，其特征在于，所述多源异构数据包括门诊病历、实验室检验、超声影像检查、住院病历病程记录，所述预处理包括离群值剔除、缺失值填补、归一化。

3.根据权利要求1所述的妊娠期代谢综合征早期风险预测评估模型的构建方法，其特征在于，所述的代谢相关数据包括：血红蛋白，红细胞压积，血小板，中性粒细胞，淋巴细胞，嗜酸性粒细胞铁蛋白，部分凝血活酶时间，凝血酶原时间，纤维蛋白原，D-二聚体，葡萄糖，甘油三酯，总胆固醇，高密度脂蛋白胆固醇，低密度脂蛋白胆固醇，APOA1，APOB，同型半胱氨酸，尿酸，丙氨酸氨基转移酶，天门冬氨酸氨基转移酶，总蛋白，白蛋白，总胆红素直接胆红素肌酐，乳酸脱氢酶，血淀粉酶，总胆汁酸，甘胆酸，游离三碘甲状腺原氨酸，游离甲状腺素人促甲状腺激素，总三碘甲状腺原氨酸，总甲状腺素，甲状腺球蛋白抗体，抗甲状腺过氧化物酶抗体。

4.根据权利要求1所述的妊娠期代谢综合征早期风险预测评估模型的构建方法，其特征在于，步骤(2)筛选的不良妊娠结局为：

妊娠期高血压(HDP)：妊娠20周后新发的高血压，BP≥140/90mmHg；

早产(PB)：妊娠满37周以内的分娩；

小于胎龄儿(SGA)：出生体重小于婴儿性别和胎龄的估计第10百分位数；

大于胎龄儿(SGA)：出生体重大于婴儿性别和胎龄的估计第90百分位数。

5.根据权利要求1所述的妊娠期代谢综合征早期风险预测评估模型的构建方法，其特征在于，所述预测模型是将Stacking框架融合应用于三个不同极端梯度提升元模型的集成，第一层为三个元模型XGB1、XGB2、XGB3，第二层为逻辑回归LR模型，利用不同的XGB模型生成训练集与测试集的预测值,三组XGB元模型层生成训练集与测试集的3组预测值，每组XGB元模型将训练集划分为5份，按4:1逐一对训练集进行训练，得到预测值，并在测试集测试，3组XGB元模型反复此操作，最终将构建的新的训练集和测试集输入LR模型，分类输出GMS风险。

6.根据权利要求1所述的妊娠期代谢综合征早期风险预测评估模型的构建方法，其特征在于，步骤(5)中基于shapley值对特征重要性排序，选取最大的建模因子贡献值的10％作为阈值，筛选大于阈值的特征，作为聚类的输入变量。