CN111951975A

CN111951975A - 一种基于深度学习模型gpt-2的脓毒症早期预警方法

Info

Publication number: CN111951975A
Application number: CN202010839209.2A
Authority: CN
Inventors: 王甜甜; 维克多; 候琳珊; 王克朝; 王婷婷
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-11-17
Anticipated expiration: 2040-08-19
Also published as: CN111951975B

Abstract

本发明公开了一种基于深度学习模型GPT‑2的脓毒症早期预警方法，在选定的时间跨度内提取ICU内病患的特征变量，组成一个高维度、随时间变化的序列，并将该序列经过数据预处理后输入到基于改进的GPT‑2模型中以结合病患的近期临床表现提取到与ICU病患目前病情最接近的一种有效表示，将得到的该表示输入到一个全连接前馈网络层预测患者在接下来的时间内患有脓毒症的概率。本发明可以最大程度利用ICU内的病患常规指标，并可以根据时间的变化来预测病患面临的风险，类似于重症监护医生每日查房期间反复分析和更新重症监护病房的患者管理，该方法结合病患前几天的临床表现，根据大量可用数据做出预测结果，具有时效性，准确度更高。

Description

一种基于深度学习模型GPT-2的脓毒症早期预警方法

技术领域

本发明属于医疗数据挖掘领域，涉及一种基于GPT-2模型的脓毒症的早期预警方法。

背景技术

脓毒症是一种对生命安全有着严重威胁的疾病，脓毒症是因感染导致的全身炎症反应综合症，是ICU患者常见高危并发症和致死的主要原因之一。全球中每年估计有3000万人患有脓毒症，因脓毒致死人数超过600万人，脓毒症的治疗费用非常高，且面临的风险也非常大。因发病率、致死率高以及昂贵的治疗费用，脓毒症已经成为全球高度关注的公共医疗问题。脓毒症的临床诊断定义从1.0发展到3.0，也在不断变化更新。临床上对脓毒症的发病规律研究已取得一定进展，但脓毒症的发病机制复杂，涉及变量因素较多，诊断准确率还有待提高。有研究表明，脓毒症的早期发现和及时的抗生素治疗对于改善脓毒症患者面临死亡得到风险至关重要，每延迟一小时治疗都会使死亡率增加4％-8％。尽早地发现可能发展成脓毒症的患者并对其给与及时治疗，对于提高病人在ICU内的生存率有着具有重要的研究价值和意义。目前的研究大都从医学角度出发，大部分使用的是基于统计分析以及简单的逻辑回归、决策树等模型，较少有人将深度学习模型应用于医疗领域。现有的这些学习方法需要事先进行人工处理的特征选择，没有充分利用ICU环境中常规收集的全部特征，从而可能导致学习到的模型忽略了复杂的非线性构造的潜在特征，而这些潜在特征可能对脓毒症的发展与预测有着不可分割的密切关系。此外，对于脓毒症的预测应该是随着病患在ICU内的临床数据不断更新连续进行的，而目前的方法不能处理时变输入。基于深度学习的模型正在较好地解决着大部分领域处理涉及大量快速变化的高维度复杂数据的问题，越来越多的医务人员也期望利用基于深度学习的方法开展对医疗数据的挖掘，进而帮助其提高对疾病的深层认知和诊断效率。

发明内容

为了解决现有技术中ICU患者脓毒症临床诊断困难、准确率不高的问题，本发明提供了一种基于深度学***衡等预处理操作，使用改进的GPT2模型构建预测模型，输出ICU内病人不同天数内患脓毒症的概率，以达到早期预警，减小病人因脓毒症而死亡的风险的目的。本发明的方法可以最大程度利用ICU内的病患常规指标，并可以根据时间的变化来预测病患面临的风险，类似于重症监护医生每日查房期间反复分析和更新重症监护病房的患者管理，该方法结合病患前几天的临床表现，根据大量可用数据做出预测结果，具有时效性，准确度更高。

本发明的目的是通过以下技术方案实现的：

一种基于深度学习模型GPT-2的脓毒症早期预警方法，在选定的时间跨度内提取ICU内病患的特征变量，组成一个高维度、随时间变化的序列，并将该序列经过数据预处理后输入到基于改进的GPT-2模型中以结合病患的近期临床表现提取到与ICU病患目前病情最接近的一种有效表示，将得到的该表示输入到一个全连接前馈网络层预测患者在接下来的时间内患有脓毒症的概率，具体包括如下步骤：

步骤1：从电子病历或者医疗数据集中提取患者进入ICU后若干天的多个预测特征变量序列，以时间为顺序区分这些特征变量序列，其中：所述预测特征变量序列是一个高纬度的随时间变化的序列，主要表现为：选定所需要的时间跨度，以天数为单位提取进入ICU病房的病患的时间跨度内的特征变量值，组成若干个随时间变化的特征变量序列，特征变量主要包括生命体征变量、实验室测量指标、药物记录、人口统计学信息等；

步骤2：对提取到的患者数据进行预处理，预处理包括变量筛选、缺失值填充、异常值处理、特征提取、样本归一化处理、不平衡样本的处理；

步骤3：数据预处理之后，输入到GPT-2模型中，所述GPT-2模型包括输入模块、处理模块、输出模块三个模块，其中：

所述输入模块主要由嵌入层组成，用来将经过数据预处理后的临床医疗数据转化为深度学习模型可以处理的时间序列；

所述处理模块主要由自注意力机制层和全连接前馈神经网络层组成，核心作用是对输入模块得到的时间序列进行非线性的复杂变换，挖掘与脓毒症患病相关的潜在特征，将得到的特征全部组合起来表示患者当前的病情表示；

所述预测模块主要由全连接前馈神经网络层组成，将从处理模块输出映射为一个概率值，该概率值表示模型根据患者到目前为止的临床数据所预测出的患者在接下来的时间内患有脓毒症的概率；

具体步骤如下：

(1)给定输入X＝(x₁,x₂,...,x_t)和标签Y＝(y₁,y₂,...,y_t)，其中：t是提取ICU病人数据的最大时间跨度，x_i代表某ICU病人第i天的特征向量序列取值集合，y_i代表输入的ICU病人第i天是否患脓毒症；

(2)将X和Y输入到GPT-2模型的输入模块中，将输入的特征向量看做是不同的词向量，输入到嵌入层(Embedding层)得到特征向量的嵌入表示h₀＝XW_e，其中：W_e是经过训练得到的每个特征的嵌入向量表示；

(3)将h₀传入GPT-2模型的处理模块，得到：

h_m＝gpt_layer(h_m-1),m∈[1,t]，

其中：h_m代表病人在ICU的m天内的特征向量的表示，h_m-1是病人在ICU的m-1天内的特征向量的表示；

(4)将从处理模块得到的h_m输入到GPT-2模型的预测模块，预测标签y_m：

P(y_m|x₁,x₂,...,x_m)＝sigmoid(h_mW_y)，

其中：y_m表示第m天的预测结果，W_y表示预测输出时的参数矩阵；

步骤4：对GPT-2模型进行训练，通过训练找到最理想的参数，不断调优，使得GPT-2模型效果稳定且最佳，具体步骤如下：

(1)将数据集划分为训练集、验证集和测试集，其中：GPT-2模型只在训练集上训练，验证集仅用于超参数调整，测试集仅用于对GPT-2模型的效果进行评估；

(2)采用二元交叉熵损失函数对GPT-2模型进行训练，二元交叉熵损失函数公式为：

其中，p(y_i|x)为在当前输入下病人患脓毒症的概率；

(3)使用精准度P、召回率R、F1-score值F1和ROC_AUC分数对GPT-2模型进行评估：

其中：T_p是正确地预测出患病的样本个数，F_p是错误地预测出患病的样本个数，F_n是错误地预测出不患病的样本个数；ROC曲线是以FPR，即R为横坐标，TPR为纵坐标画出来的曲线，AUC为ROC曲线与横轴围成的面积，

(4)修改在样本上训练的轮次epoch的值，对GPT-2模型经过反复训连调优，如果GPT-2模型的损失值基本稳定或者AUC值不再上升且没有出现过拟合的情况时，终止GPT-2模型的训练；

步骤5：GPT-2模型经过训练之后，将病患最新的临床数据与以往的临床表现结合起来进行脓毒症患病预测。

相比于现有技术，本发明具有如下优点：

1、ICU环境中的信息处于一种过载的模式，已有的技术通常采用经过人工处理后的特征，没有充分利用ICU环境中常规收集到的全部特征，从而可能导致学习到的模型忽略了复杂的非线性潜在特征，这些而潜在特征可能对脓毒症的预测有着不可分割的密切关系。本发明采用患者进入ICU后若干天的临床数据，这些数据包括ICU环境中收集到的基本特征，对这些高维度的临床数据进行包括变量筛选、缺失值填充、异常值处理以及特征提取等预处理之后，输入到GPT-2模型中以学习复杂的非线性方法构造的潜在特征，尽可能地将ICU环境中的过载的信息提炼成与患者在任何给定时刻最相关的因素，进而预测患者是否有患脓毒症的风险。

2、已有技术通常采用基于统计分析以及简单的逻辑回归、决策树等模型，本发明采用GPT-2模型，其优点在于GPT-2模型可以更出色地完成对高维度的复杂数据的处理，提取出与脓毒症产生相关联的非线性变化的的潜在特征。由于已有的GPT-2预训练模型是在非医疗邻域相关(主要针对的是自然语言处理方面)的语料库上训练得到的，所以无法直接使用已有的GPT-2预训练模型对临床数据进行处理，所以本发明对GPT-2进行了相应的改进，将其分为输入模块、处理模块和预测模块。在输入模块上使用大型的医疗数据来训练模型输入的嵌入表示，允许特征向量序列中元素的顺序不同，来使之能够处理临床数据的特征向量序列的输入，处理模块经过不断调优得到一个简化了的GPT-2内部架构来避免模型的过拟合，并将预测模块修改为一个可以进行二分类任务预测的模块。使用医疗相关的语料库对改进了的GPT-2模型重新训练，提取出临床数据中的潜在特征，以一种预测分类精度更高的方式完成对脓毒症的预测任务，帮助患者得到及时救助。

3、本发明可以像重症监护医生每日查房期间反复分析和更新重症监护病房的患者管理一样，结合病患前若干天的临床表现，从大量可用数据来预测病患目前面临的风险，具有时效性，准确度更高。

附图说明

图1是本发明基于深度学习模型GPT-2的脓毒症早期预警方法的流程图；

图2是本发明所改进的GPT-2总体结构框架；

图3是改进后的GPT-2处理输入、输出的细节内容；

图4是模型调优过程的准确率对比图；

图5为脓毒症预测示例。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明提供了一种基于深度学习模型GPT-2的脓毒症早期预警方法，所述方法将脓毒症的预警处理分为变量提取、数据预处理、搭建模型、训练模型和输出预测结果五个阶段，如图1所示，具体包括以下步骤：

步骤1、从MIMIC III中提取进入ICU病房2天或者两天以上的患者的14天临床记录构成初始数据集，总共包括56841个样本(考虑每位患者的多次进入ICU的所有记录)；提取每位患者的检测指标共119个，主要包括生命体征变量(如心率、舒张压等)；实验室测量指标(肌酸酐、血尿素氮等)；药物记录(头孢吡肟、阿司匹林等)；人口统计学信息(体重、年龄等)，具体见表1：

表1脓毒症监测指标表

步骤2、提取到数据以后，因数据存在不同程度的缺失、异常的情况，需要对数据进行预处理。一般来说，原始数据集存在人为操作失误、设备误差、变量测量时间步不一致等问题，导致数据集部分数据失真，所以质量不高，不能直接使用，需要进行一定的预处理操作。数据预处理主要包含：

(1)变量筛选：设置缺失率阈值，筛除了缺失率大于阈值的变量；

(2)缺失值填充：缺失值填充分为两部分，第一部分为部分测量值的缺失，使用该特征变量的平均值替代缺失值；第二部分为患者在ICU病房内的天数小于提取数据的时间跨度，此时，从患者离开ICU病房到提取数据结束的这一段时间内，均使用0来填充患者的特征向量序列；

(3)异常值处理：处理方法使用百分位原则，检测出取值在样本内该特征95％以上的特征向量，并使用该特征的中位数替代其特征值；

(4)特征提取：对特征变量进行扩展，根据医学评分***使用样本特征值的特点，从最大值、最小值和平均值以及标准差四方面进行特征扩展；

(5)样本标准化处理：每个特征变量减去各自的平均值后除以其标准差以进行特征变量的标准化，使得不同特征变量的取值范围都在[0,1]内；

(6)样本不平衡处理：由于患病病人所占比例较小，所以用于模型学***衡问题，学***衡处理，SMOTE(Synthetic Minority Oversampling Technique)，合成少数类过采样技术，它是基于随机过采样算法的一种改进方案。

步骤3、数据预处理之后，输入到构建的GPT-2模型中。本发明中使用的是修改了的GPT-2模型构建了有监督的预测模型，主要包括输入、处理、输出三个模块，具体如下：

(1)输入模块

给定输入X＝(x₁,x₂,...,x_t)和标签Y＝(y₁,y₂,...,y_t)，其中：t是提取ICU病人数据的最大时间跨度，x_i代表某ICU病人第i天的特征向量序列取值集合，y_i代表输入的ICU病人第i天是否患脓毒症。将X和Y输入到GPT-2模型的输入模块中，将输入的特征向量看做是不同的词向量，输入到嵌入层(Embedding层)得到特征向量的嵌入表示h₀＝XW_e，其中：W_e是经过训练得到的每个特征的嵌入向量表示。因为医学上的特征变量不同于自然语言的词特征：即使所处位置不同，组成的医学特征向量序列所表达的含义相同，所以在输入模块部分，本发明舍弃了GPT2的位置编码处理，只对输入的特征向量做嵌入处理操作。

(2)处理模块

处理模块由一个gpt_layer组成，该gpt_layer由两个sub-layer组成，分别是带掩码的自注意力机制层和全连接的前馈网络层，GPT-2模型整体框架如图2所示。其中每个sub-layer都加了残差连接和正则化处理，因此可以将sub-layer的输出表示为：

sub_layer_ioutput＝LayerNorm(sub_layer_iinput+(sub_layer_i(sub_layer_iinput))，

其中：sub_layer_iinput来自于上一层sub_layer_i-1的输出，即sub_layer_i- ₁output，所以有2层sub_layer的gpt_layer的输出可以通过下式计算得到：

gpt_layer＝LayerNorm(sub_layer₁output+sub_layer₂(sub_layer₁output))，

其中，LayerNorm是层的归一化处理。得到h₀之后将h₀传入GPT-2的处理模块后，可以得到：

h_m＝gpt_layer(h_m-1),m∈[1,t]，

其中：h_m代表病人在ICU的m天内的特征向量的表示，具体流程如图3所示。

(3)预测模块

预测模块由一层全连接前馈神经网络层组成，输入h_m并使用h_m表示来预测标签y_m：P(y_m|x₁,x₂,...,x_m)＝sigmoid(h_mW_y)，其中y_m表示第m天的预测结果，W_y表示预测输出时的参数矩阵。

步骤4、对预测模型进行训练，通过训练找到最理想的参数，不断调优，使得模型效果稳定且最佳。将数据集按照7:1:2的方式分别划分为训练集、验证集和测试集，模型只在训练集上训练，验证集仅用于超参数调整，测试集仅用于评价模型。

对GPT-2模型训练采用的是二元交叉熵损失函数，其公式为：

其中，p(y_i|x)为在当前输入下病人患脓毒症的概率。

评估指标使用的有精准度P、召回率R、F1-score值F1和ROC_AUC分数：

其中：ROC曲线是以FPR，即R为横坐标，TPR为纵坐标画出来的曲线，AUC为ROC曲线与横轴围成的面积，

修改在样本上训练的轮次epoch，对模型经过反复训连调优，如果模型的损失值基本稳定或者AUC值不再上升且没有出现过拟合的情况时，终止模型的训练，调优过程见图4。

本发明的基于集成模型的脓毒症死亡率预测***在准确率、ROC、F1值三个指标均优于目前模型的效果，准确率、F1分数对比结果如表2所示：

表2 GPT-2与现有表现最好的模型进行比较

步骤5、模型经过训练之后，对新的病患进行脓毒症预测，根据天数变化依次输出病患每天患有脓毒症的概率以及每个特征的重要程度，帮助医生进行临床决策，具体示例见图5。

Claims

1.一种基于深度学习模型GPT-2的脓毒症早期预警方法，其特征在所述方法包括如下步骤：

步骤1：从电子病历或者医疗数据集中提取患者进入ICU后若干天的多个预测特征变量序列，以时间为顺序区分这些特征变量序列；

步骤2：对提取到的患者数据进行预处理；

步骤4：对GPT-2模型进行训练，通过训练找到最理想的参数，不断调优，使得GPT-2模型效果稳定且最佳；

2.根据权利要求1所述的基于深度学习模型GPT-2的脓毒症早期预警方法，其特征在所述预测特征变量序列是一个高纬度的随时间变化的序列，主要表现为：选定所需要的时间跨度，以天数为单位提取进入ICU病房的病患的时间跨度内的特征变量值，组成若干个随时间变化的特征变量序列。

3.根据权利要求2所述的基于深度学习模型GPT-2的脓毒症早期预警方法，其特征在所述特征变量主要包括生命体征变量、实验室测量指标、药物记录、人口统计学信息。

4.根据权利要求1所述的基于深度学***衡样本的处理。

5.根据权利要求1所述的基于深度学习模型GPT-2的脓毒症早期预警方法，其特征在所述步骤3的具体步骤如下：

(2)将X和Y输入到GPT-2模型的输入模块中，将输入的特征向量看做是不同的词向量，输入到嵌入层得到特征向量的嵌入表示h₀＝XW_e，其中：W_e是经过训练得到的每个特征的嵌入向量表示；

(3)将h₀传入GPT-2模型的处理模块，得到：

h_m＝gpt_layer(h_m-1),m∈[1,t]，

P(y_m|x₁,x₂,...,x_m)＝sigmoid(h_mW_y)，

其中：y_m表示第m天的预测结果，W_y表示预测输出时的参数矩阵。

6.根据权利要求1或5所述的基于深度学习模型GPT-2的脓毒症早期预警方法，其特征在所述处理模块的输出通过下式计算得到：

gpt_layer＝LayerNorm(sub_layer₁output+sub_layer₂(sub_layer₁output))，

其中，LayerNorm是层的归一化处理，sub_layer_iinput来自于上一层sub_layer_i-1的输出，即sub_layer_i-1output。

7.根据权利要求1所述的基于深度学习模型GPT-2的脓毒症早期预警方法，其特征在所述步骤4的具体步骤如下：

其中，p(y_i|x)为在当前输入下病人患脓毒症的概率；

(4)修改在样本上训练的轮次epoch的值，对GPT-2模型经过反复训连调优，如果GPT-2模型的损失值基本稳定或者AUC值不再上升且没有出现过拟合的情况时，终止GPT-2模型的训练。