CN116364290B - 基于多视图对齐的血透表征识别与并发症风险预测*** - Google Patents

基于多视图对齐的血透表征识别与并发症风险预测*** Download PDF

Info

Publication number
CN116364290B
CN116364290B CN202310644753.5A CN202310644753A CN116364290B CN 116364290 B CN116364290 B CN 116364290B CN 202310644753 A CN202310644753 A CN 202310644753A CN 116364290 B CN116364290 B CN 116364290B
Authority
CN
China
Prior art keywords
data
patient
view
characterization
risk prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310644753.5A
Other languages
English (en)
Other versions
CN116364290A (zh
Inventor
李劲松
王丰
朱伟伟
池胜强
田雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310644753.5A priority Critical patent/CN116364290B/zh
Publication of CN116364290A publication Critical patent/CN116364290A/zh
Application granted granted Critical
Publication of CN116364290B publication Critical patent/CN116364290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • External Artificial Organs (AREA)

Abstract

本发明公开了一种基于多视图对齐的血透表征识别与并发症风险预测***,包括用于采集和整理血透患者数据的数据准备模块,以及用于血透表征识别与并发症风险预测的血透表征识别模块。本发明采用多视图表征输入方法,获取患者的个体特征数据、用药数据、诊断数据以及检查数据,通过特征提取单元和多视图映射单元构建多种患者视图,提供患者的综合表示。本发明利用不同特征提取单元对不同类型患者数据进行特征提取,保留不同数据的语义信息,并通过构建不同视图的一致性损失项和互补性损失项,挖掘不同视图间潜在的互补性与一致性信息,获取更加完备且不冗余的特征表示,从而提升学习任务的性能。本发明能够为临床预测提供准确、有效的决策支持。

Description

基于多视图对齐的血透表征识别与并发症风险预测***
技术领域
本发明属于医疗健康信息技术领域,尤其涉及一种基于多视图对齐的血透表征识别与并发症风险预测***。
背景技术
血液透析为急慢性肾功能衰竭重要治疗方案,通过弥散、超滤、吸附、对流原理,清除体内代谢废物,维持酸碱平衡,减轻患者肾脏压力。但是长期血透过程中发生并发症的风险较大,严重的并发症会危害患者生命安全,如果能够尽早的预测血透患者并发症的发生,并对患者进行对应的治疗干预,则会减轻或避免并发症的发生。因此,提高血透并发症预测能力,对改善血透患者的生存质量具有重大意义。
随着人工智能的兴起,越来越多的研究者使用深度神经网络或者机器学习方法来预测血透患者并发症的风险。目前在血透并发症的预测过程中,对患者的表征输入分为两种:
第一种是单视图表征输入方法。将患者的诊断视图或者临床检查视图作为预测模型的输入,预测血透患者发生并发症的风险。由于单视图只能从患者的一个角度来表示患者,无法提供患者的综合表示,从而无法实现出色的预测能力。
第二种是多视图表征融合输入方法。将患者的个体特征、临床检查等视图通过特征提取和融合后作为预测模型的输入,预测血透患者发生并发症的风险。虽然这种方法解决了单视图无法提供患者的综合表示问题,但目前的多视图表征融合输入方法都会损失特征间独立的语义信息,并且未充分利用特征间的关系,从而影响学习任务的性能。
发明内容
本发明的目的在于针对现有技术的不足,面向血透并发症预测场景,提供一种基于多视图对齐的血透表征识别与并发症风险预测***,为临床预测提供准确、有效的决策支持。
本发明的目的是通过以下技术方案实现:一种基于多视图对齐的血透表征识别与并发症风险预测***,该***包括数据准备模块和血透表征识别模块;
所述数据准备模块用于获取血透患者数据,对数据进行清洗后,按照静态数据、一维时序数据和二维时序数据进行分类整合;
所述血透表征识别模块包括特征提取单元、多视图映射单元和风险预测单元;
所述特征提取单元用于对整合后的静态数据、一维时序数据和二维时序数据分别设置对应的特征提取单元进行不同的特征提取,得到不同的血透表征;
所述多视图映射单元用于将不同的血透表征映射到不同的患者视图;
所述风险预测单元用于根据患者视图进行并发症风险预测,所述风险预测单元的预测损失函数包括目标任务损失项、一致性损失项和互补性损失项,所述一致性损失项用于衡量不同患者视图输出之间的一致性差异,所述互补性损失项用于衡量不同患者视图血透表征之间的互信息。
进一步地,所述数据准备模块获取的血透患者数据包括个体特征数据、用药数据、诊断数据、检查数据和医疗结果数据。
进一步地,二维时序数据特征提取单元包括两个双向长短期记忆网络、两个注意力层和表征对齐层组成;第一个双向长短期记忆网络用于捕捉患者一次血透过程中血压动态变化关系,第二个双向长短期记忆网络用于捕捉患者每次血透间的血压动态变化关系,每个双向长短期记忆网络后连接一个注意力层,通过表征对齐层保证各特征提取单元的特征表征长度相同。
进一步地,一维时序数据特征提取单元包括依次连接的双向长短期记忆网络、注意力层和表征对齐层组成;所述双向长短期记忆网络用于捕捉患者一维时序数据前后变化关系,通过表征对齐层保证各特征提取单元的特征表征长度相同。
进一步地,静态数据特征提取单元利用自动编码器构建,所述自动编码器包括编码器部分和解码器部分,对静态数据特征提取单元进行预训练,将静态数据进行独热编码后作为自动编码器输入,将均方误差作为自动编码器损失函数,使用随机梯度下降方法进行优化,待预训练完成后,取编码器部分用于静态数据的特征提取。
进一步地,所述多视图映射单元用于利用不同视图映射单元将不同的血透表征映射到不同的患者视图,所述患者视图包括个体特征视图、诊断视图、检查视图和用药视图。
进一步地,所述风险预测单元的目标任务损失项用于衡量目标任务真值和风险预测单元输出之间的差异,使用交叉熵损失。
进一步地,所述风险预测单元的一致性损失项使用KL散度度量不同患者视图输出之间的分布差异。
进一步地,所述风险预测单元的互补性损失项使用不同视图的血透表征之间互信息度量不同视图的血透表征含有的互补信息量。
进一步地,***的训练包括两个阶段,第一阶段是预训练静态数据特征提取单元,并固定其参数;第二阶段是训练除静态数据特征提取单元外的其他单元,通过输入患者数据,计算风险预测单元的损失值,梯度反向传播更新风险预测单元、多视图映射单元、二维时序数据特征提取单元和一维时序数据特征提取单元的参数。
本发明的有益效果是:
1. 针对单视图表征输入方法无法提供患者的综合表示问题,本发明采用多视图表征输入方法,收集患者的个体特征数据、用药数据、诊断数据以及检查数据,通过特征提取单元和多视图映射单元构建多种患者视图,提供患者的综合表示。
2. 针对目前的多视图表征融合输入方法损失了特征间独立的语义信息和未充分利用特征间的关系问题,本发明利用不同特征提取单元对不同类型患者数据进行特征提取,保留不同数据的语义信息,并通过构建不同视图的一致性损失项和互补性损失项,挖掘不同视图间潜在的互补性与一致性信息,获取更加完备且不冗余的特征表示,从而提升学习任务的性能。
3. 本发明通过构建两个双向长短期记忆网络,提取二维时序数据不同时间维度的语义信息,获得的血透表征信息更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一示例性实施例示出的基于多视图对齐的血透表征识别与并发症风险预测***结构框图;
图2为一示例性实施例示出的血透表征识别模块结构图;
图3为一示例性实施例示出的二维时序数据特征提取单元结构图;
图4为一示例性实施例示出的双向长短期记忆网络结构图;
图5为一示例性实施例示出的一维时序数据特征提取单元结构图;
图6为一示例性实施例示出的自动编码器结构图;
图7为一示例性实施例示出的风险预测单元结构图。
具体实施方式
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
本发明实施例提供一种基于多视图对齐的血透表征识别与并发症风险预测***,如图1所示,该***包括数据准备模块和血透表征识别模块。其中数据准备模块用于采集和整理血透患者数据,包括数据获取单元、数据清洗单元和数据整合单元,血透表征识别模块用于对数据准备模块处理好的血透患者数据进行风险预测,包括特征提取单元、多视图映射单元和风险预测单元。
下述说明进一步给出了符合本申请要求的基于多视图对齐的血透表征识别与并发症风险预测***各模块实现的部分实施例。
一、数据准备模块,该模块包括以下三个单元:数据获取单元、数据清洗单元和数据整合单元。
1.1数据获取单元
利用医院的电子病历***获取血透患者的结构化数据,这些数据包括:(1)个体特征数据:身高、性别、年龄、区域、体重;(2)用药数据:日常用药信息,包括造影剂、抗凝药物、抗血小板、正性肌力药物、血管扩张剂;(3)诊断数据:心肌病、脑卒中、瓣膜病、心房颤动、冠心病;(4)检查数据:血压、尿素、血肌酐、钾、血红蛋白;(5)医疗结果:并发症发生。
1.2数据清洗单元
数据清洗单元用于对数据获取单元获取的血透患者的结构化数据进行数据清洗,包括缺失值处理、错误值检测、重复数据的消除和/或不一致性的消除操作。
1.3数据整合单元
数据整合单元用于对数据清洗单元清洗后的数据按照静态数据、一维时序数据和二维时序数据进行分类和处理。
具有时间特性的数据为时序数据,包括一维时序数据和二维时序数据,以(特征名,特征值,时间戳)表示时序数据的原始完整信息,例如造影剂、抗凝药物、抗血小板、正性肌力药物、血管扩张剂、心肌病、脑卒中、瓣膜病、心房颤动、冠心病、尿素、血肌酐、钾、血红蛋白等数据为一维时序数据,血压数据为二维时序数据。
不具有时间特性的数据为静态数据,以(特征名,特征值)表示静态数据的原始完整信息,例如身高、性别、年龄、区域、体重等数据。
一维时序数据整合以血肌酐为例,整合后的血肌酐数据是一个一维向量,向量中的每个值表示患者每次在血透前所做的血肌酐检查结果。
二维时序数据整合以血压为例,整合后的血压数据是一个二维矩阵,n表示患者血透的次数,m表示患者在一次血透过程中被记录血压值次数。
静态数据为离散类型的数据,在处理过程中使用独热编码对其整合。
将整合好的原始数据表示为X,具体特征表示为,如/>
二、血透表征识别模块,如图2所示,该模块包括以下三个单元:特征提取单元F、多视图映射单元S和风险预测单元G。
2.1特征提取单元F
特征提取单元F用于对整合好的原始数据X进行特征提取,获取血透表征,并使用e表示血透表征,不同血透表征表示为,如/>。特征提取单元F包括二维时序数据特征提取单元、一维时序数据特征提取单元和静态数据特征提取单元。
(1)二维时序数据特征提取单元
二维时序数据特征提取单元用于对二维时序数据进行特征提取,如图3所示,它是由两个双向长短期记忆网络、两个注意力层以及一个表征对齐层组成。
由于二维时序数据的独特性,它包括两个时间维度的数据,以血压为例,它既包含患者一次血透过程中的血压动态变化,也包含了患者每次血透间的血压动态变化。为了能够捕捉患者一次血透过程中的血压动态变化和每次血透间的血压动态变化,本发明设计了两个双向长短期记忆网络。如图4所示,为双向长短期记忆网络结构图,相比单向长短期记忆网络,双向长短期记忆网络包括一个正向长短期记忆网络和一个逆向长短期记忆网络,可以将序列正向和逆向均进行遍历,提取到更多的特征。在血压特征提取过程中,第一个双向长短期记忆网络用于捕捉患者一次血透过程中血压动态变化关系,第二个双向长短期记忆网络用于捕捉患者每次血透间的血压动态变化关系。虽然双向长短期记忆网络可以捕捉血压正向和逆向两个方向的信息,但是它无法确定哪些部分更重要,哪些部分可以被忽略,为此在每个双向长短期记忆网络后面增加了一个注意力层,注意力层通过计算序列中每个时间步的重要性,并根据重要性的大小来对不同时间步的信息进行加权平均,得到一个更加综合的血透表征,从而提高网络的鲁棒性和准确性。同时为了保证每个特征提取单元提取的特征表征长度相同,二维时序数据特征提取单元最后一层为表征对齐层,由两层全连接网络实现,两层节点数分别为128,64,使用Tanh激活函数,最后输出层节点数为8。
下面以提取患者血压表征为例,介绍二维时序数据特征提取单元计算过程。
使用表示患者血压数据,其中
表示患者第n次血透血压数据,在血透过程中共记录了m次血压值,其中/>表示第n次血透过程中第m时刻血压值。则第一个双向长短期记忆网络计算过程如下:
其中表示患者第n次血透过程中第t时刻血压值;/>表示第一个双向长短期记忆网络中的正向计算单元函数,/>表示第一个双向长短期记忆网络中的逆向计算单元函数;[,]表示拼接函数;/>表示第t时刻的正向隐藏输出,是长度为4的向量,表示第t时刻的逆向隐藏输出,是长度为4的向量,/>表示第t时刻的隐藏输出,由第t时刻的正向隐藏输出/>和逆向隐藏输出/>拼接而成;则
表示患者第n次血透血压数据第一个双向长短期记忆网络隐藏输出。
第一个注意力层计算过程如下:
其中表示第一个注意力层的注意力计算函数,/>表示激活函数,/>分别为注意力模型中的查询、键、值,由矩阵/>线性变化得到;/>表示矩阵/>的维度;T表示转置;/>都是维度为/>可训练权重矩阵;/>表示矩阵乘;/>表示患者第n次血透血压数据第一个注意力层隐藏输出。
第二个双向长短期记忆网络计算过程如下:
其中表示患者第k次血透血压数据第一个注意力层隐藏输出;/>表示第二个双向长短期记忆网络中正向计算单元函数;/>表示第二个双向长短期记忆网络中逆向计算单元函数;[,]表示拼接函数;/>表示第k次的正向隐藏输出,是长度为4的向量,/>表示第k次的逆向隐藏输出,是长度为4的向量,/>表示第k次的隐藏输出,由第k次的正向隐藏输出/>和逆向隐藏输出/>拼接而成;则表示患者血压数据第二个双向长短期记忆网络隐藏输出。
第二个注意力层计算过程如下:
其中表示第二个注意力层的注意力计算函数,/>表示激活函数,/>分别为注意力模型中的查询、键、值,由矩阵/>线性变化得到;/>表示矩阵/>的维度;T表示转置;/>都是维度为/>可训练权重矩阵;/>表示矩阵乘;/>表示患者血透血压数据第二个注意力层隐藏输出。
同时为了保证每个特征提取单元提取的特征表征长度相同,二维时序数据特征提取单元最后一层为表征对齐层。每种特征的表征对齐层结构相同,参数不同,结构由两层全连接网络实现,两层节点数分别为128,64,使用Tanh激活函数,最后输出层节点数为8。最终患者血压表征,其中/>为血压表征的表征对齐层表示的函数,/>表示患者血透血压数据第二个注意力层隐藏输出,/>为扁平化函数。
(2)一维时序数据特征提取单元
如图5所示,一维时序数据特征单元是由一个双向长短期记忆网络、一个注意力层以及一个表征对齐层组成。使用双向长短期记忆网络捕捉患者一维时序数据前后变化关系,通过引入注意力机制,在双向长短期记忆网络后面增加了一个注意力层,对双向长短期记忆网络结果进行计算,并根据重要性的大小来对不同时间步的信息进行加权平均,得到一个更加综合的血透表征。表征对齐层用于保证一维时序数据特征提取单元提取的特征表征与其他特征提取单元提取的特征表征长度相同,由两层全连接层实现,每层节点数分别为256,128,使用Tanh激活函数,最后输出层节点数为8。
患者每次做血透前,都会做血肌酐检查,使用表示患者血肌酐数据,其中/>表示患者第n次血透前所做的血肌酐检查结果。接下来以血肌酐为例,介绍一维时序数据特征提取单元计算过程:
其中表示患者第t次血透前所做的血肌酐检查结果,/>表示正向长短期记忆计算单元函数,/>表示逆向长短期记忆计算单元函数;[,]表示拼接函数;表示第t次的正向隐藏输出,是长度为4的向量,/>表示第t次的逆向隐藏输出,是长度为4的向量,/>表示第t次的隐藏输出,由第t次的正向隐藏输出/>和逆向隐藏输出/>拼接而成;/>表示双向长短期记忆网络隐藏输出;/>表示注意力计算函数,/>表示激活函数,/>分别为注意力模型中的查询、键、值,由矩阵/>线性变化得到;/>表示矩阵/>
的维度;T表示转置;都是维度为/>可训练权重矩阵;/>表示矩阵乘;/>表示患者血透血肌酐数据注意力层隐藏输出。
同时为了保证每个特征提取单元提取的特征表征长度相同,一维时序数据特征提取单元最后一层为表征对齐层。每种特征的表征对齐层结构相同,参数不同,结构由两层全连接网络实现,两层节点数分别为128,64,使用Tanh激活函数,最后输出层节点数为8。最终患者血肌酐表征,其中/>为血肌酐表征的表征对齐层表示的函数,/>为扁平化函数。
(3)静态数据特征提取单元
由于静态数据都是离散类型的数据,通过独热编码后,不同特征获取的特征长度也存在差异。为了保证独热编码后的静态数据的特征长度与其他血透表征长度相同,静态数据特征提取单元利用自动编码器构建。如图6所示,为自动编码器结构图,自动编码器包含一个编码器和一个解码器,编码器和解码器分别由一个128个节点组成的全连接网络实现,激活函数为ReLU;血透表征为长度为8的向量。
在预训练过程中,将患者的静态数据进行独热编码后作为自动编码器的输入,将均方误差作为自动编码器的损失函数,使用随机梯度下降方法优化自动编码器,待预训练完成后,取自动编码器中的编码器部分用于静态数据的特征提取。
2.2多视图映射单元S
多视图映射单元S用于利用不同视图映射单元将不同的血透表征映射到不同的患者视图,使用表示患者视图,不同的患者视图表示为/>,如/>。多视图映射单元S包括个体特征视图映射单元、诊断视图映射单元、检查视图映射单元和用药视图映射单元。
每个视图映射单元都是由三层全连接网络实现,三层节点数分别为64、16、8,激活函数都是ReLU,网络使用随机梯度下降方法优化,最后输出层节点数为10。但每个视图映射单元输入的血透表征不同,其中个体特征视图映射单元输入的表征;用药视图映射单元输入的表征;诊断视图映射单元输入的表征/>;检查视图映射单元输入的表征/>
以个体特征视图映射单元为例,介绍视图映射单元计算过程:
其中表示个体特征视图映射单元网络函数,/>为个体特征表征,/>为扁平化函数,/>表示个体特征视图映射单元输出,即个体特征视图。
2.3风险预测单元G
风险预测单元G用于对输入的患者视图进行风险预测,判断患者发生并发症的风险。
如图7所示,为风险预测单元结构图,风险预测单元由三层全连接网络实现,三层节点数分别为128、64、10。前两层的激活函数为ReLU,最后输出层激活函数为,整个网络使用随机梯度下降方法优化。
风险预测单元的预测损失函数由目标任务损失项、一致性损失项、互补性损失项三部分组成,其中目标任务损失项衡量目标任务真值和风险预测单元输出之间的差异,该损失越小说明风险预测拟合越成功。一致性损失项衡量不同视图输出之间的一致性差异,该损失越小说明不同视图输出分布越一致。互补性损失项衡量不同视图血透表征之间的互信息,该损失越小说明不同视图的血透表征含有的互补信息越多。各损失项的计算过程如下:
(1)目标任务损失项
本实施例中目标任务损失项使用交叉熵损失,计算公式如下:
其中表示患者的全量视图;/>表示患者真实标签,/>表示患者发生了并发症,/>表示患者未发生并发症;/>表示风险预测单元输出值,为预测患者发生并发症的概率,/>表示患者的全量视图作为输入时风险预测单元输出值。
(2)一致性损失项
本实施例中一致性损失项的计算公式如下:
其中表示视图名称集合,d为视图总个数;/>表示不同视图输出之间分布差异度量函数,本实施例中使用KL散度度量,计算公式如下:
其中分别表示患者的第i视图,第j视图作为输入时风险预测单元输出值,
(3)互补性损失项
本实施例中互补性损失项的计算公式如下:
其中表示视图名称集合,d为视图总个数;/>表示不同视图的血透表征之间互信息度量函数,本实施例中计算公式如下:
其中分别表示患者的第i视图,第j视图作为输入时风险预测单元输出值,/>表示患者的第i视图和第j视图拼接后作为输入时风险预测单元输出值。
(4)风险预测单元的预测损失函数的计算公式如下:
其中为超参数,用于平衡一致性、互补性两种约束的力度,本实施例中,/>
整个基于多视图对齐的血透表征识别与并发症风险预测***的训练分为两个阶段:
第一阶段是预训练静态数据特征提取单元,利用整合后的患者静态数据训练自动编码器,待自动编码器训练完成后,取自动编码器中的编码器部分用于静态数据的特征提取,并在第二阶段训练其他单元时,静态数据特征提取单元的编码器部分参数不再更新。
第二阶段是训练除静态数据特征提取单元外的其他单元,通过输入患者数据,计算风险预测单元的损失值,梯度反向传播更新风险预测单元、多视图映射单元、二维时序数据特征提取单元、一维时序数据特征提取单元的参数。
整个***训练完成后,医生将需要预测的血透患者数据输入到***中,***通过计算后给出该患者患并发症的风险概率。
本发明提出的基于多视图对齐的血透表征识别与并发症风险预测***,利用不同的特征提取单元对不同类型血透特征进行提取,保留不同数据的语义信息,解决了融合特征会损失特征间独立语义信息的问题。本发明通过构建不同视图的一致性损失项和互补性损失项,挖掘不同视图间潜在的互补性与一致性信息,获取更加完备且不冗余的特征表示,从而提升学习任务的性能。本发明能够为临床预测提供准确、有效的决策支持。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (6)

1.一种基于多视图对齐的血透表征识别与并发症风险预测***,其特征在于,包括数据准备模块和血透表征识别模块;
所述数据准备模块用于获取血透患者数据,对数据进行清洗后,按照静态数据、一维时序数据和二维时序数据进行分类整合;
所述血透表征识别模块包括特征提取单元、多视图映射单元和风险预测单元;
所述特征提取单元用于对整合后的静态数据、一维时序数据和二维时序数据分别设置对应的特征提取单元进行不同的特征提取,得到不同的血透表征;
所述多视图映射单元用于利用不同视图映射单元将不同的血透表征映射到不同的患者视图,所述患者视图包括个体特征视图、诊断视图、检查视图和用药视图;
所述风险预测单元用于根据患者视图进行并发症风险预测,所述风险预测单元的预测损失函数包括目标任务损失项、一致性损失项和互补性损失项;
所述一致性损失项用于衡量不同患者视图输出之间的一致性差异,具体为使用KL散度度量不同患者视图输出之间的分布差异;
所述互补性损失项用于衡量不同患者视图血透表征之间的互信息,具体为使用不同视图的血透表征之间互信息度量不同视图的血透表征含有的互补信息量;
***的训练包括两个阶段,第一阶段是预训练静态数据特征提取单元,并固定其参数;第二阶段是训练除静态数据特征提取单元外的其他单元,通过输入患者数据,计算风险预测单元的损失值,梯度反向传播更新风险预测单元、多视图映射单元、二维时序数据特征提取单元和一维时序数据特征提取单元的参数。
2.根据权利要求1所述的基于多视图对齐的血透表征识别与并发症风险预测***,其特征在于,所述数据准备模块获取的血透患者数据包括个体特征数据、用药数据、诊断数据、检查数据和医疗结果数据。
3.根据权利要求1所述的基于多视图对齐的血透表征识别与并发症风险预测***,其特征在于,二维时序数据特征提取单元包括两个双向长短期记忆网络、两个注意力层和表征对齐层组成;第一个双向长短期记忆网络用于捕捉患者一次血透过程中血压动态变化关系,第二个双向长短期记忆网络用于捕捉患者每次血透间的血压动态变化关系,每个双向长短期记忆网络后连接一个注意力层,通过表征对齐层保证各特征提取单元的特征表征长度相同。
4.根据权利要求1所述的基于多视图对齐的血透表征识别与并发症风险预测***,其特征在于,一维时序数据特征提取单元包括依次连接的双向长短期记忆网络、注意力层和表征对齐层组成;所述双向长短期记忆网络用于捕捉患者一维时序数据前后变化关系,通过表征对齐层保证各特征提取单元的特征表征长度相同。
5.根据权利要求1所述的基于多视图对齐的血透表征识别与并发症风险预测***,其特征在于,静态数据特征提取单元利用自动编码器构建,所述自动编码器包括编码器部分和解码器部分,对静态数据特征提取单元进行预训练,将静态数据进行独热编码后作为自动编码器输入,将均方误差作为自动编码器损失函数,使用随机梯度下降方法进行优化,待预训练完成后,取编码器部分用于静态数据的特征提取。
6.根据权利要求1所述的基于多视图对齐的血透表征识别与并发症风险预测***,其特征在于,所述风险预测单元的目标任务损失项用于衡量目标任务真值和风险预测单元输出之间的差异,使用交叉熵损失。
CN202310644753.5A 2023-06-02 2023-06-02 基于多视图对齐的血透表征识别与并发症风险预测*** Active CN116364290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310644753.5A CN116364290B (zh) 2023-06-02 2023-06-02 基于多视图对齐的血透表征识别与并发症风险预测***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310644753.5A CN116364290B (zh) 2023-06-02 2023-06-02 基于多视图对齐的血透表征识别与并发症风险预测***

Publications (2)

Publication Number Publication Date
CN116364290A CN116364290A (zh) 2023-06-30
CN116364290B true CN116364290B (zh) 2023-09-08

Family

ID=86928579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310644753.5A Active CN116364290B (zh) 2023-06-02 2023-06-02 基于多视图对齐的血透表征识别与并发症风险预测***

Country Status (1)

Country Link
CN (1) CN116364290B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034142B (zh) * 2023-10-07 2024-02-09 之江实验室 一种不平衡医疗数据缺失值填充方法及***
CN117574244B (zh) * 2024-01-15 2024-04-02 成都秦川物联网科技股份有限公司 基于物联网的超声波水表故障预测方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110392914A (zh) * 2017-02-03 2019-10-29 费奥普斯有限公司 确定心脏介入治疗后血液动力功能不全的风险的***和方法
CN111340067A (zh) * 2020-02-10 2020-06-26 天津大学 一种用于多视图分类的再分配方法
CN113658721A (zh) * 2021-07-19 2021-11-16 南京邮电大学 阿尔兹海默疾病进程预测方法
CN114883003A (zh) * 2022-06-08 2022-08-09 中南大学 基于卷积神经网络的icu住院时长和死亡风险预测方法
CN114913982A (zh) * 2022-07-18 2022-08-16 之江实验室 基于对比学习的终末期肾病并发症风险预测***
CN115223679A (zh) * 2022-08-05 2022-10-21 华中科技大学同济医学院附属同济医院 基于机器学习的围手术期风险预警方法
CN115547502A (zh) * 2022-11-23 2022-12-30 浙江大学 基于时序数据的血透病人风险预测装置
CN115831377A (zh) * 2022-07-01 2023-03-21 中南大学 基于icu病历数据的院内死亡风险预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11406269B2 (en) * 2008-10-29 2022-08-09 Flashback Technologies, Inc. Rapid detection of bleeding following injury
EP3866176A1 (en) * 2020-02-17 2021-08-18 Siemens Healthcare GmbH Machine-based risk prediction for peri-procedural myocardial infarction or complication from medical data

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110392914A (zh) * 2017-02-03 2019-10-29 费奥普斯有限公司 确定心脏介入治疗后血液动力功能不全的风险的***和方法
CN111340067A (zh) * 2020-02-10 2020-06-26 天津大学 一种用于多视图分类的再分配方法
CN113658721A (zh) * 2021-07-19 2021-11-16 南京邮电大学 阿尔兹海默疾病进程预测方法
CN114883003A (zh) * 2022-06-08 2022-08-09 中南大学 基于卷积神经网络的icu住院时长和死亡风险预测方法
CN115831377A (zh) * 2022-07-01 2023-03-21 中南大学 基于icu病历数据的院内死亡风险预测方法
CN114913982A (zh) * 2022-07-18 2022-08-16 之江实验室 基于对比学习的终末期肾病并发症风险预测***
CN115223679A (zh) * 2022-08-05 2022-10-21 华中科技大学同济医学院附属同济医院 基于机器学习的围手术期风险预警方法
CN115547502A (zh) * 2022-11-23 2022-12-30 浙江大学 基于时序数据的血透病人风险预测装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Cardiac Complication Risk Profiling for Cancer Survivors via Multi-View Multi-Task Learning;Thai-Hoang Pham et al;《2021 IEEE International Conference on Data Mining (ICDM)》;全文 *

Also Published As

Publication number Publication date
CN116364290A (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN116364290B (zh) 基于多视图对齐的血透表征识别与并发症风险预测***
CN109785976A (zh) 一种基于Soft-Voting的痛风病分期预测***
KR100794516B1 (ko) 사례 기반 기계학습 추론을 이용한 질환 진단 및 검사 항목선정 시스템 및 방법
Wu et al. A novel method for classification of ECG arrhythmias using deep belief networks
WO2021143780A1 (zh) 一种基于多标签学习的体检后慢性疾病预后***
CN110503635B (zh) 一种基于异构数据融合网络的手骨x光片骨龄评估方法
CN111798954A (zh) 基于时间注意力机制和图卷积网络的药物组合推荐方法
CN111248883B (zh) 一种血压预测的方法和装置
CN109192305A (zh) 一种基于深度循环神经网络的心功能自动分析方法
WO2024008043A1 (zh) 一种基于因果关系挖掘的临床数据自动化生成方法及***
Chen et al. A machine learning method correlating pulse pressure wave data with pregnancy
CN113096818A (zh) 基于ode和grud的急性病症发生几率的评估方法
CN115579141A (zh) 一种可解释疾病风险预测模型构建方法以及疾病风险预测装置
Sheikhalishahi et al. Benchmarking machine learning models on eICU critical care dataset
CN117034142B (zh) 一种不平衡医疗数据缺失值填充方法及***
CN116386856A (zh) 基于医生决策模式识别的多标签疾病辅助诊断***
Barakat et al. An HPC-driven data science platform to speed-up time series data analysis of patients with the acute respiratory distress syndrome
CN112201348B (zh) 基于知识感知的多中心临床数据集适配设备
CN115547502B (zh) 基于时序数据的血透病人风险预测装置
CN114504298B (zh) 基于多源健康感知数据融合的生理特征判别方法及***
CN115836847A (zh) 一种血压预测装置及设备
CN115376638A (zh) 一种基于多源健康感知数据融合的生理特征数据分析方法
CN109119155A (zh) 基于深度学习的icu死亡危险性评估***
Fernández et al. Artificial neural networks applications in dialysis
CN113571190A (zh) 一种肺功能下降预测装置及其预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant