CN116092668A - 一种融合多元异构数据的心衰患者再入院预测方法 - Google Patents
一种融合多元异构数据的心衰患者再入院预测方法 Download PDFInfo
- Publication number
- CN116092668A CN116092668A CN202310039139.6A CN202310039139A CN116092668A CN 116092668 A CN116092668 A CN 116092668A CN 202310039139 A CN202310039139 A CN 202310039139A CN 116092668 A CN116092668 A CN 116092668A
- Authority
- CN
- China
- Prior art keywords
- patient
- heart failure
- readmission
- patients
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7271—Specific aspects of physiological measurement analysis
- A61B5/7275—Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7271—Specific aspects of physiological measurement analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Signal Processing (AREA)
- Surgery (AREA)
- Psychiatry (AREA)
- Physiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Veterinary Medicine (AREA)
- Heart & Thoracic Surgery (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提供了一种融合多元异构数据的心衰患者再入院预测方法;对电子健康记录中的结构化信息、临床出院记录进行预处理,提取患者的所有入院记录数据;静态信息、时序数据和临床记录分别通过one‑hot编码、Doc2Vec和TransformerEncoder模块生成患者的多模特征,再将其传递到最大池化层后进行拼接;基于余弦相似度计算患者之间的相似性,构建患者网络图,再将经过线性变换后的患者节点特征与边的隐藏特征输入到GIN层中,聚合邻域的时空特征生成患者的最终特征;将提取到的患者特征信息送入分类模型中进行训练,保存模型,并对患者再入院进行预测。本发明有效的提取了患者异构数据的特征信息,在进行30天内再入院预测时准确率更高,有效降低心力衰竭患者的发病率和死亡率。
Description
技术领域
本发明涉及医学人工智能处理技术领域,具体涉及一种融合多元异构数据的心衰患者再入院预测方法。
背景技术
心力衰竭是一种流行性疾病,全球患病人数约为3770万,虽然心力衰竭死亡率在近年有明显降低,但仍然是再入院全因分析中最常见的疾病,相关研究表明,其30天内再入院率为25%。而且高再入院率会造成医院资源紧缺以及患者经济负担。因此,根据患者的实际情况进行精准预测,以判断其是否需要再次入院,可以极大的缓解医疗资源紧缺状况。
近年来,医疗数据挖掘在深度学习迅速发展的背景下,已经取得了极大进展,临床决策辅助和个性化诊疗也成为了研究人员最感兴趣的研究方向,最近研究方法主要分为两类,分别是基于EHR时序数据预测方法和基于图神经网络预测方法。但是这两类方法均存在一定的缺陷。例如基于EHR时序数据预测方法往往仅使用单一的时序数据,忽略了挖掘患者多模异质信息对预测结果的影响。而基于图神经网络预测方法大多都使用简单的图神经网络方法,仅仅考虑不同数据之间的逻辑关系,对图节点的空间结构没有引起足够关注。
发明内容
本发明的目的在于,提出一种融合异构医疗记录以预测心衰患者30天再入院的模型,其提高了预测结果的准确性,能更好的辅助医生进行临床诊断决策。
为实现上述目的,本申请的技术方案为:一种融合多元异构数据的心衰患者再入院预测方法,包括:
步骤1:对电子健康记录中的结构化信息、临床出院记录进行预处理,提取患者历次入院就诊记录;
步骤2:将静态信息、时序数据和临床出院记录分别通过one-hot编码、Doc2Vec模块和TransformerEncoder模块生成患者的多模特征,将其传递到最大池化层后进行拼接;
步骤3:基于余弦相似度获取患者之间的相似性,构建患者网络图,再将经过线性变换后的患者节点特征与边的隐藏特征输入到图同构网络GIN中,聚合邻域的时空特征生成患者特征信息;
步骤4:将提取到的患者特征信息送入分类模型中进行训练,保存模型,并对患者再入院进行预测;
步骤5:加载所述模型,输入待预测的患者住院信息,对患者再入院情况进行预测并输出预测结果。
进一步地,步骤1具体包括:
步骤1.1:对电子健康记录中的生理检测指标、人口基本信息、入院就诊的出院记录进行筛选,删除关键指标不全的患者数据;
步骤1.2:将处理好的数据,根据《国际疾病分类》ICD-9编码398.91,402.01,402.11,402.91,425.x,428.x,428.xx筛选出心力衰竭患者;
步骤1.3:将筛选出的30天内再次入院患者标记为1,反之,标记为0;
步骤1.4:标记后的数据集按照训练集:验证集:测试集为8:1:1的比例划分。
进一步地,步骤2利用三个编码器分别对患者的历次入院就诊记录进行嵌入表示,具体包括:
时序编码器将患者的历史医疗时序记录作为输入,得到特征Fi={f1,f2,...,fz},其中z为特征总数;通过TransformerEncoder模块生成患者的健康特征Htemproal={h1,h2,...,ht};该模块利用自注意力机制捕捉每条就诊序列中的内部依赖关系,以及通过多个不同的注意力头来学习多条就诊序列之间的外部联系;所述TransformerEncoder模块的注意力函数定义如下:
进一步地,记录编码器将临床文本信息预处理后形成患者医疗文本块C={c1,c2,...,ck},k为总块数;然后使用Doc2Vec模块对所述文本块进行初级无监督的学习表示,生成段落隐藏状态向量为Hnotes={h1,h2,...,hm},hi∈R1×s,其中m为段落总数,m=k,s为矩阵维度;采用与时序编码器一样的方式,通过TransformerEncoder模块得到不同文本块的嵌入表示。
进一步地,人口编码器将人口统计特征信息预处理后,将其编码为one-hot隐藏状态向量Hstatic={h1,h2,...,hs}。
进一步地,患者的多模特征由健康特征Htemproal,段落隐藏状态向量Hnotes和one-hot隐藏状态向量Hstatic三部分组成,将这三种隐藏特征分别通过一个最大池化层进行降维,得到患者的最终表示信息:将这些最终表示信息结合在一起,表示为:
Zpatient=Concat(Ztemporal,Zstatic,Znotes). (2)。
进一步地,所述步骤3具体包括:
步骤3.1:先构建患者网络图G=(V,E),其中V={h1,h2,...,hm}作为唯一的入院节点集,E是所有边的集合;使用邻接矩阵A∈R|m|×|m|来说明图的构造过程:如果第i个病例和第j个病例特征之间的余弦相似度超过阈值0.99,则表示i和j之间存在边,即aij=1,否则aij=0;
步骤3.2:将步骤3.1得到的边集合和顶点集作为图同构网络GIN的输入,使用所述图同构网络GIN提取患者健康状况表征。
进一步地,所述步骤3.2具体包括:
步骤3.2.1:图同构网络GIN不仅学习邻域特征,还能捕捉节点间的空间结构信息,在GIN中,第k层的聚合和更新节点特征的聚合函数如下:
其中f为在节点的多重集合,Φ代表单射函数;GIN聚合方式采取SUM方式,还通过MLP层,去保证函数的单射性;故基于MLP+SUM的GIN框架得到患者的最终向量表示为:
其中ε为可学习参数。
进一步地,所述步骤4具体包括:
将步骤3.2.1中得到的最终向量表示和标签输入全连接神经网络中,对分类模型进行训练;采用二元交叉熵函数对分类模型优化,并保存效果最好的模型model_best:
进一步地,所述步骤5具体包括:
加载模型model_best,将验证数据中患者数据输入模型,判断患者是否会在30天内再入院,并输出相应的评价指标。
本发明由于采用以上技术方案,能够取得如下的技术效果:本发明采用深度学习模型,利用患者的结构化数据和非结构化数据,通过模型自动进行心衰患者再入院情况的预测。其有效的挖掘了患者多元异构数据的特征信息,在进行患者30天内再入院预测时准确率更高,能够辅助医生更好的进行临床诊断决策,以有效的降低心力衰竭患者的发病率和死亡率。
附图说明
图1为一种融合多元异构数据的心衰患者再入院预测方法流程图。
具体实施方式
本发明的实施是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。
以下结合实施例对本发明做详细的说明,以使本领域普通技术人员参照本说明书后能够据以实施。
实施例1
本实施例以Windows***为开发环境,以Pycharm为开发平台,Python为开发语言,进行心力衰竭患者30天内再入院预测。
本实施例中一种融合多元异构数据的心衰患者再入院预测方法,包括以下步骤:
给定一名患者信息,筛选出就诊的历次信息,包括生理检查指标29个,静态人口信息6个,以及患者出院记录总结,如果在30天内有再次入院记录,将数据标签设为1,否则将数据标签设为0;将患者的多元异构信息作为输入,加载保存的模型,得到患者预测结果的评价指标,评价指标包括假正率(FPR)-真正率(TPR)曲线下的面积(AUROC)、召回率(Recall)-精确率(Precision)曲线下的面积(AUPRC)和F1。TPR、FPR、Recall、Precision、F1定义如下:
其中TP表示被正确预测为再入院患者的数量,TN表示被正确识别为非再入院患者的数量,FP表示标签为再入院患者但在实验中没有被正确预测出来的数量,FN表示非再入院患者在实验中没有被正确识别的数量。
根据以上步骤,本发明将再入院预测效果与LR模型、Fusion-LSTM、Fusion-CNN模型、ClinicalBERT模型、DeepNote-GNN模型和TransMT模型进行对比。从表1中可以看出,本文发明提出方法在AUROC、AUPRC和F1值都明显优于其他方法。
表1不同模型针对再入院预测结果对比
前述对本发明的具体实施方案的描述是为了说明具体实施步骤的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
Claims (10)
1.一种融合多元异构数据的心衰患者再入院预测方法,其特征在于,包括:
步骤1:对电子健康记录中的结构化信息、临床出院记录进行预处理,提取患者历次入院就诊记录;
步骤2:将静态信息、时序数据和临床出院记录分别通过one-hot编码、Doc2Vec模块和TransformerEncoder模块生成患者的多模特征,将其传递到最大池化层后进行拼接;
步骤3:基于余弦相似度获取患者之间的相似性,构建患者网络图,再将经过线性变换后的患者节点特征与边的隐藏特征输入到图同构网络GIN中,聚合邻域的时空特征生成患者特征信息;
步骤4:将提取到的患者特征信息送入分类模型中进行训练,保存模型,并对患者再入院进行预测;
步骤5:加载所述模型,输入待预测的患者住院信息,对患者再入院情况进行预测并输出预测结果。
2.根据权利要求1所述一种融合多元异构数据的心衰患者再入院预测方法,其特征在于,步骤1具体包括:
步骤1.1:对电子健康记录中的生理检测指标、人口基本信息、入院就诊的出院记录进行筛选,删除关键指标不全的患者数据;
步骤1.2:将处理好的数据,根据《国际疾病分类》ICD-9编码398.91,402.01,402.11,402.91,425.x,428.x,428.xx筛选出心力衰竭患者;
步骤1.3:将筛选出的30天内再次入院患者标记为1,反之,标记为0;
步骤1.4:标记后的数据集按照训练集:验证集:测试集为8:1:1的比例划分。
3.根据权利要求1所述一种融合多元异构数据的心衰患者再入院预测方法,其特征在于,步骤2利用三个编码器分别对患者的历次入院就诊记录进行嵌入表示,具体包括:
时序编码器将患者的历史医疗时序记录作为输入,得到特征Fi={f1,f2,...,fz},其中z为特征总数;通过TransformerEncoder模块生成患者的健康特征Htemproal={h1,h2,...,ht};该模块利用自注意力机制捕捉每条就诊序列中的内部依赖关系,以及通过多个不同的注意力头来学习多条就诊序列之间的外部联系;所述TransformerEncoder模块的注意力函数定义如下:
4.根据权利要求3所述一种融合多元异构数据的心衰患者再入院预测方法,其特征在于,记录编码器将临床文本信息预处理后形成患者医疗文本块C={c1,c2,...,ck},k为总块数;然后使用Doc2Vec模块对所述文本块进行初级无监督的学习表示,生成段落隐藏状态向量为Hnotes={h1,h2,...,hm},hi∈R1×s,其中m为段落总数,m=k,s为矩阵维度;采用与时序编码器一样的方式,通过TransformerEncoder模块得到不同文本块的嵌入表示。
5.根据权利要求3所述一种融合多元异构数据的心衰患者再入院预测方法,其特征在于,人口编码器将人口统计特征信息预处理后,将其编码为one-hot隐藏状态向量Hstatic={h1,h2,...,hs}。
6.根据权利要求3所述一种融合多元异构数据的心衰患者再入院预测方法,其特征在于,患者的多模特征由健康特征Htemproal,段落隐藏状态向量Hnotes和one-hot隐藏状态向量Hstatic三部分组成,将这三种隐藏特征分别通过一个最大池化层进行降维,得到患者的最终表示信息:将这些最终表示信息结合在一起,表示为:
Zpatient=Concat(Ztemporal,Zstatic,Znotes). (2)。
7.根据权利要求1所述一种融合多元异构数据的心衰患者再入院预测方法,其特征在于,所述步骤3具体包括:
步骤3.1:先构建患者网络图G=(V,E),其中V={h1,h2,...,hm}作为唯一的入院节点集,E是所有边的集合;使用邻接矩阵A∈R|m|×|m|来说明图的构造过程:如果第i个病例和第j个病例特征之间的余弦相似度超过阈值,则表示i和j之间存在边,即aij=1,否则aij=0;
步骤3.2:将步骤3.1得到的边集合和顶点集作为图同构网络GIN的输入,使用所述图同构网络GIN提取患者健康状况表征。
10.根据权利要求9所述一种融合多元异构数据的心衰患者再入院预测方法,其特征在于,所述步骤5具体包括:
加载模型model_best,将验证数据中患者数据输入模型,判断患者是否会在30天内再入院,并输出相应的评价指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310039139.6A CN116092668A (zh) | 2023-01-13 | 2023-01-13 | 一种融合多元异构数据的心衰患者再入院预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310039139.6A CN116092668A (zh) | 2023-01-13 | 2023-01-13 | 一种融合多元异构数据的心衰患者再入院预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116092668A true CN116092668A (zh) | 2023-05-09 |
Family
ID=86213492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310039139.6A Pending CN116092668A (zh) | 2023-01-13 | 2023-01-13 | 一种融合多元异构数据的心衰患者再入院预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116092668A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959715A (zh) * | 2023-09-18 | 2023-10-27 | 之江实验室 | 一种基于时序演进过程解释的疾病预后预测*** |
-
2023
- 2023-01-13 CN CN202310039139.6A patent/CN116092668A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959715A (zh) * | 2023-09-18 | 2023-10-27 | 之江实验室 | 一种基于时序演进过程解释的疾病预后预测*** |
CN116959715B (zh) * | 2023-09-18 | 2024-01-09 | 之江实验室 | 一种基于时序演进过程解释的疾病预后预测*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107977361B (zh) | 基于深度语义信息表示的中文临床医疗实体识别方法 | |
CN113241135B (zh) | 一种基于多模态融合的疾病风险预测方法和*** | |
EP3514734B1 (en) | Method and apparatus for generating a chemical structure using a neural network | |
CN109637669B (zh) | 基于深度学习的治疗方案的生成方法、装置及存储介质 | |
US8996428B2 (en) | Predicting diagnosis of a patient | |
US20210287141A1 (en) | Training Diverse and Robust Ensembles of Artificial Intelligence Computer Models | |
CN104572583B (zh) | 用于数据致密化的方法和*** | |
CN113396457A (zh) | 用于生物物理建模和响应预测的***、方法和装置 | |
Ma et al. | A general framework for diagnosis prediction via incorporating medical code descriptions | |
US20190370387A1 (en) | Automatic Processing of Ambiguously Labeled Data | |
US11670421B2 (en) | Method and system enabling digital biomarker data integration and analysis for clinical treatment impact | |
Gupta et al. | A novel deep similarity learning approach to electronic health records data | |
Li et al. | Predicting clinical outcomes with patient stratification via deep mixture neural networks | |
CN117219268A (zh) | 一种基于多模态电子病历数据的院内死亡风险预测方法 | |
CN116092668A (zh) | 一种融合多元异构数据的心衰患者再入院预测方法 | |
CN114300081B (zh) | 基于电子病历多模态数据的预测设备、***和存储介质 | |
Wu et al. | MEGACare: Knowledge-guided multi-view hypergraph predictive framework for healthcare | |
Henry | Deep learning algorithms for predicting the onset of lung cancer | |
Wang et al. | Hierarchical pretraining on multimodal electronic health records | |
Sengupta et al. | Analyzing historical diagnosis code data from NIH N3C and RECOVER Programs using deep learning to determine risk factors for Long Covid | |
Murad et al. | AI powered asthma prediction towards treatment formulation: An android app approach | |
CN116072298B (zh) | 一种基于层级标记分布学习的疾病预测*** | |
WO2024059097A1 (en) | Apparatus for generating a personalized risk assessment for neurodegenerative disease | |
CN116884612A (zh) | 疾病风险等级的智能分析方法、装置、设备及存储介质 | |
Wu et al. | A feature optimized deep learning model for clinical data mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |