CN116092668A

CN116092668A - 一种融合多元异构数据的心衰患者再入院预测方法

Info

Publication number: CN116092668A
Application number: CN202310039139.6A
Authority: CN
Inventors: 车超; 张未秀
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2023-01-13
Filing date: 2023-01-13
Publication date: 2023-05-09

Abstract

本发明提供了一种融合多元异构数据的心衰患者再入院预测方法；对电子健康记录中的结构化信息、临床出院记录进行预处理，提取患者的所有入院记录数据；静态信息、时序数据和临床记录分别通过one‑hot编码、Doc2Vec和TransformerEncoder模块生成患者的多模特征，再将其传递到最大池化层后进行拼接；基于余弦相似度计算患者之间的相似性，构建患者网络图，再将经过线性变换后的患者节点特征与边的隐藏特征输入到GIN层中，聚合邻域的时空特征生成患者的最终特征；将提取到的患者特征信息送入分类模型中进行训练，保存模型，并对患者再入院进行预测。本发明有效的提取了患者异构数据的特征信息，在进行30天内再入院预测时准确率更高，有效降低心力衰竭患者的发病率和死亡率。

Description

一种融合多元异构数据的心衰患者再入院预测方法

技术领域

本发明涉及医学人工智能处理技术领域，具体涉及一种融合多元异构数据的心衰患者再入院预测方法。

背景技术

心力衰竭是一种流行性疾病，全球患病人数约为3770万，虽然心力衰竭死亡率在近年有明显降低，但仍然是再入院全因分析中最常见的疾病，相关研究表明，其30天内再入院率为25％。而且高再入院率会造成医院资源紧缺以及患者经济负担。因此，根据患者的实际情况进行精准预测，以判断其是否需要再次入院，可以极大的缓解医疗资源紧缺状况。

近年来，医疗数据挖掘在深度学习迅速发展的背景下，已经取得了极大进展，临床决策辅助和个性化诊疗也成为了研究人员最感兴趣的研究方向，最近研究方法主要分为两类，分别是基于EHR时序数据预测方法和基于图神经网络预测方法。但是这两类方法均存在一定的缺陷。例如基于EHR时序数据预测方法往往仅使用单一的时序数据，忽略了挖掘患者多模异质信息对预测结果的影响。而基于图神经网络预测方法大多都使用简单的图神经网络方法，仅仅考虑不同数据之间的逻辑关系，对图节点的空间结构没有引起足够关注。

发明内容

本发明的目的在于，提出一种融合异构医疗记录以预测心衰患者30天再入院的模型，其提高了预测结果的准确性，能更好的辅助医生进行临床诊断决策。

为实现上述目的，本申请的技术方案为：一种融合多元异构数据的心衰患者再入院预测方法，包括：

步骤1：对电子健康记录中的结构化信息、临床出院记录进行预处理，提取患者历次入院就诊记录；

步骤2：将静态信息、时序数据和临床出院记录分别通过one-hot编码、Doc2Vec模块和TransformerEncoder模块生成患者的多模特征，将其传递到最大池化层后进行拼接；

步骤3：基于余弦相似度获取患者之间的相似性，构建患者网络图，再将经过线性变换后的患者节点特征与边的隐藏特征输入到图同构网络GIN中，聚合邻域的时空特征生成患者特征信息；

步骤4：将提取到的患者特征信息送入分类模型中进行训练，保存模型，并对患者再入院进行预测；

步骤5：加载所述模型，输入待预测的患者住院信息，对患者再入院情况进行预测并输出预测结果。

进一步地，步骤1具体包括：

步骤1.1：对电子健康记录中的生理检测指标、人口基本信息、入院就诊的出院记录进行筛选，删除关键指标不全的患者数据；

步骤1.2：将处理好的数据，根据《国际疾病分类》ICD-9编码398.91，402.01，402.11，402.91，425.x，428.x，428.xx筛选出心力衰竭患者；

步骤1.3：将筛选出的30天内再次入院患者标记为1，反之，标记为0；

步骤1.4：标记后的数据集按照训练集：验证集：测试集为8：1：1的比例划分。

进一步地，步骤2利用三个编码器分别对患者的历次入院就诊记录进行嵌入表示，具体包括：

时序编码器将患者的历史医疗时序记录作为输入，得到特征F_i＝{f₁,f₂,...,f_z}，其中z为特征总数；通过TransformerEncoder模块生成患者的健康特征H_temproal＝{h₁,h₂,...,h_t}；该模块利用自注意力机制捕捉每条就诊序列中的内部依赖关系，以及通过多个不同的注意力头来学习多条就诊序列之间的外部联系；所述TransformerEncoder模块的注意力函数定义如下：

其中

代表查询矩阵，

代表键矩阵、

代表值矩阵，D代表维度；

进一步地，记录编码器将临床文本信息预处理后形成患者医疗文本块C＝{c₁，c₂，...，c_k},k为总块数；然后使用Doc2Vec模块对所述文本块进行初级无监督的学习表示，生成段落隐藏状态向量为H_notes＝{h₁，h₂，...，h_m}，h_i∈R^1×s,其中m为段落总数，m＝k，s为矩阵维度；采用与时序编码器一样的方式，通过TransformerEncoder模块得到不同文本块的嵌入表示。

进一步地，人口编码器将人口统计特征信息预处理后，将其编码为one-hot隐藏状态向量H_static＝{h₁，h₂，...，h_s}。

进一步地，患者的多模特征由健康特征H_temproal，段落隐藏状态向量H_notes和one-hot隐藏状态向量H_static三部分组成，将这三种隐藏特征分别通过一个最大池化层进行降维，得到患者的最终表示信息：将这些最终表示信息结合在一起，表示为：

Z_patient＝Concat(Z_temporal,Z_static,Z_notes). (2)。

进一步地，所述步骤3具体包括：

步骤3.1：先构建患者网络图G＝(V，E)，其中V＝{h¹，h²，...，h^m}作为唯一的入院节点集，E是所有边的集合；使用邻接矩阵A∈R^|m|×|m|来说明图的构造过程：如果第i个病例和第j个病例特征之间的余弦相似度超过阈值0.99，则表示i和j之间存在边，即a_ij＝1，否则a_ij＝0；

步骤3.2：将步骤3.1得到的边集合和顶点集作为图同构网络GIN的输入，使用所述图同构网络GIN提取患者健康状况表征。

进一步地，所述步骤3.2具体包括：

步骤3.2.1：图同构网络GIN不仅学习邻域特征，还能捕捉节点间的空间结构信息，在GIN中，第k层的聚合和更新节点特征的聚合函数如下：

其中f为在节点的多重集合，Φ代表单射函数；GIN聚合方式采取SUM方式，还通过MLP层，去保证函数的单射性；故基于MLP+SUM的GIN框架得到患者的最终向量表示为：

其中ε为可学习参数。

进一步地，所述步骤4具体包括：

将步骤3.2.1中得到的最终向量表示和标签输入全连接神经网络中，对分类模型进行训练；采用二元交叉熵函数对分类模型优化，并保存效果最好的模型model_best：

进一步地，所述步骤5具体包括：

加载模型model_best，将验证数据中患者数据输入模型，判断患者是否会在30天内再入院，并输出相应的评价指标。

本发明由于采用以上技术方案，能够取得如下的技术效果：本发明采用深度学习模型，利用患者的结构化数据和非结构化数据，通过模型自动进行心衰患者再入院情况的预测。其有效的挖掘了患者多元异构数据的特征信息，在进行患者30天内再入院预测时准确率更高，能够辅助医生更好的进行临床诊断决策，以有效的降低心力衰竭患者的发病率和死亡率。

附图说明

图1为一种融合多元异构数据的心衰患者再入院预测方法流程图。

具体实施方式

本发明的实施是在以本发明技术方案为前提下进行实施的，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述实施例。

以下结合实施例对本发明做详细的说明，以使本领域普通技术人员参照本说明书后能够据以实施。

实施例1

本实施例以Windows***为开发环境，以Pycharm为开发平台，Python为开发语言，进行心力衰竭患者30天内再入院预测。

本实施例中一种融合多元异构数据的心衰患者再入院预测方法，包括以下步骤：

给定一名患者信息，筛选出就诊的历次信息，包括生理检查指标29个，静态人口信息6个，以及患者出院记录总结，如果在30天内有再次入院记录，将数据标签设为1，否则将数据标签设为0；将患者的多元异构信息作为输入，加载保存的模型，得到患者预测结果的评价指标，评价指标包括假正率(FPR)-真正率(TPR)曲线下的面积(AUROC)、召回率(Recall)-精确率(Precision)曲线下的面积(AUPRC)和F1。TPR、FPR、Recall、Precision、F1定义如下：

其中TP表示被正确预测为再入院患者的数量，TN表示被正确识别为非再入院患者的数量，FP表示标签为再入院患者但在实验中没有被正确预测出来的数量，FN表示非再入院患者在实验中没有被正确识别的数量。

根据以上步骤，本发明将再入院预测效果与LR模型、Fusion-LSTM、Fusion-CNN模型、ClinicalBERT模型、DeepNote-GNN模型和TransMT模型进行对比。从表1中可以看出，本文发明提出方法在AUROC、AUPRC和F1值都明显优于其他方法。

表1不同模型针对再入院预测结果对比

前述对本发明的具体实施方案的描述是为了说明具体实施步骤的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种融合多元异构数据的心衰患者再入院预测方法，其特征在于，包括：

2.根据权利要求1所述一种融合多元异构数据的心衰患者再入院预测方法，其特征在于，步骤1具体包括：

3.根据权利要求1所述一种融合多元异构数据的心衰患者再入院预测方法，其特征在于，步骤2利用三个编码器分别对患者的历次入院就诊记录进行嵌入表示，具体包括：

其中

代表查询矩阵，

代表键矩阵、

代表值矩阵，D代表维度。

4.根据权利要求3所述一种融合多元异构数据的心衰患者再入院预测方法，其特征在于，记录编码器将临床文本信息预处理后形成患者医疗文本块C＝{c₁，c₂，...，c_k},k为总块数；然后使用Doc2Vec模块对所述文本块进行初级无监督的学习表示，生成段落隐藏状态向量为H_notes＝{h₁，h₂，...，h_m}，h_i∈R^1×s,其中m为段落总数，m＝k，s为矩阵维度；采用与时序编码器一样的方式，通过TransformerEncoder模块得到不同文本块的嵌入表示。

5.根据权利要求3所述一种融合多元异构数据的心衰患者再入院预测方法，其特征在于，人口编码器将人口统计特征信息预处理后，将其编码为one-hot隐藏状态向量H_static＝{h₁，h₂，...，h_s}。

6.根据权利要求3所述一种融合多元异构数据的心衰患者再入院预测方法，其特征在于，患者的多模特征由健康特征H_temproal，段落隐藏状态向量H_notes和one-hot隐藏状态向量H_static三部分组成，将这三种隐藏特征分别通过一个最大池化层进行降维，得到患者的最终表示信息：将这些最终表示信息结合在一起，表示为：

Z_patient＝Concat(Z_temporal,Z_static,Z_notes). (2)。

7.根据权利要求1所述一种融合多元异构数据的心衰患者再入院预测方法，其特征在于，所述步骤3具体包括：

步骤3.1：先构建患者网络图G＝(V，E)，其中V＝{h¹，h²，...，h^m}作为唯一的入院节点集，E是所有边的集合；使用邻接矩阵A∈R^|m|×|m|来说明图的构造过程：如果第i个病例和第j个病例特征之间的余弦相似度超过阈值，则表示i和j之间存在边，即a_ij＝1，否则a_ij＝0；

8.根据权利要求7所述一种融合多元异构数据的心衰患者再入院预测方法，其特征在于，所述步骤3.2具体包括：

步骤3.2.1在GIN中，第k层的聚合和更新节点特征的聚合函数如下：

其中ε为可学习参数。

9.根据权利要求8所述一种融合多元异构数据的心衰患者再入院预测方法，其特征在于，所述步骤4具体包括：

10.根据权利要求9所述一种融合多元异构数据的心衰患者再入院预测方法，其特征在于，所述步骤5具体包括：