CN116759042A - 一种基于环形一致性的反事实医疗数据生成***及方法 - Google Patents
一种基于环形一致性的反事实医疗数据生成***及方法 Download PDFInfo
- Publication number
- CN116759042A CN116759042A CN202311057093.7A CN202311057093A CN116759042A CN 116759042 A CN116759042 A CN 116759042A CN 202311057093 A CN202311057093 A CN 202311057093A CN 116759042 A CN116759042 A CN 116759042A
- Authority
- CN
- China
- Prior art keywords
- data
- type
- patient data
- generator
- counterfactual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000005457 optimization Methods 0.000 claims abstract description 18
- 230000008859 change Effects 0.000 claims description 110
- 238000012549 training Methods 0.000 claims description 27
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000004140 cleaning Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000002360 preparation method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 9
- 239000008280 blood Substances 0.000 description 8
- 210000004369 blood Anatomy 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 206010020751 Hypersensitivity Diseases 0.000 description 3
- 208000026935 allergic disease Diseases 0.000 description 3
- 230000007815 allergy Effects 0.000 description 3
- 238000003556 assay Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 208000024172 Cardiovascular disease Diseases 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 150000002632 lipids Chemical class 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001631 haemodialysis Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000000322 hemodialysis Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于环形一致性的反事实医疗数据生成***,包括数据准备模块和反事实医疗数据生成模块,数据准备模块用于获取准备好的患者数据,反事实医疗数据生成模块用于生成反事实患者数据,利用生成器和训练好的解码器生成符合真实取值范围的与患者数据结局相反的反事实患者数据和与重建数据,基于结局相同的患者数据和反事实患者数据优化判别器;基于结局相同的患者数据和重建数据的环形一致性差异优化生成器,优化完成后固定生成器的参数生成反事实患者数据。本发明还公开了一种基于环形一致性的反事实数据生成方法。本发明方法能够生成准确可靠且鲁棒性强的反事实患者数据;解决了数据不均衡的问题;生成了符合真实取值范围的数据。
Description
技术领域
本发明涉及医疗健康信息技术领域,尤其涉及一种基于环形一致性的反事实医疗数据生成***及方法。
背景技术
随着深度学习的普及,尤其是生成对抗网络以及变分自编码器等生成模型的发展,研究者们面向数据隐私保护、领域性的稀缺数据填补以及数据增强工作,提出了多种多样的数据生成方法,为各领域研究、应用提供了更多的数据资源。
在医疗领域,为了开发有效的决策支持算法往往需要大量的医学影像、电子病历数据。然而真实的医疗数据往往包含患者身份、疾病等敏感的隐私信息,导致数据收集困难且难以合法利用。另一方面,收集到的医疗数据可能存在因部分类别样本量少导致数据分布不均衡的情况,从而影响模型的准确性和鲁棒性。
公告号为CN109698017B的中国专利文献公开了一种医疗病例数据生成方法及装置,包括:获得多个样本病例数据,对各样本病历数据进行处理编码后输入至预设生成式对抗网络中进行训练以得到一组医疗病例模型,并采用医疗病历模型生成预设数量的医疗编码数据后进行解码处理得到预设数量的医疗病例数据。
公告号为CN112215339B的中国专利文献公开了一种基于生成对抗网络的医疗数据扩充方法,首先学习表格数据的边缘概率分布,具体方法是利用累积概率分布函数将表格的每一维数据处理为均匀分布数据并训练一个神经网络拟合累积概率分布函数的逆函数将均匀分布数据映射回目标分布的数据;利用改进的生成对抗网络模型WGAN-GP学习预处理后均匀分布数据的联合概率分布;最终利用训练好的表示累积概率分布函数逆函数的神经网络将从GAN的生成器采样出的均匀分布数据变换至目标分布的数据,从而生成和训练样本具有相同概率分布的生成样本。
以上算法虽然解决了传统方法在生成离散形式的医学概念的时候表现不佳的问题,却仍然只是将生成数据与患者数据进行分布上的拟合,生成的数据缺乏真实性且分布与患者数据接近而不能解决数据不均衡的问题。
发明内容
为了解决现有技术的不足,本发明提供了一种基于环形一致性的反事实医疗数据生成***及方法,基于环形一致性的训练方法使生成器能够生成准确可靠且鲁棒性强的反事实患者数据,并使判别器能够准确判断出反事实患者数据的真实性;同时,本发明通过生成结局事件比例均衡的数据,解决了医疗数据不均衡问题。
本发明第一个方面提供了一种基于环形一致性的反事实医疗数据生成***,包括数据准备模块和反事实医疗数据生成模块,
所述数据准备模块用于获取准备好的患者数据,所述数据准备模块包括用于获取结构化数据的数据获取单元,用于对获取的结构化数据进行预处理,得到患者数据的数据预处理单元,用于将患者数据分为结局事件、固定特征、变化特征的特征分类单元以及用于为变化特征备注取值范围,得到备注的变化特征的特征备注单元;
所述反事实医疗数据生成模块用于根据准备好的患者数据生成反事实患者数据,包括用于基于备注的变化特征训练获得符合真实取值范围的解码器的自编码器单元和用于生成反事实患者数据的反事实医疗数据生成单元,所述反事实医疗数据生成单元包括生成器、判别器和自编码器单元训练好的解码器,利用生成器和解码器生成符合真实取值范围的与患者数据结局相反的反事实患者数据和重建数据,基于结局相同的患者数据和反事实患者数据优化判别器,基于结局相同的患者数据和重建数据的环形一致性差异优化生成器,判别器和生成器训练完成后,固定生成器的参数,结合解码器生成反事实患者数据。
进一步地,所述数据预处理单元包括:
数据筛选:筛选结构化数据,提取出结构化数据中与目标任务相关的特征,去除无关的特征,形成筛选后的结构化数据;
数据清洗:清理筛选后的结构化数据中的脏数据获得清洗后的结构化数据,以确保数据的正确性和一致性;
数据整合:对清洗后的结构化数据进行整合,获得以二维矩阵表达的患者数据Data,以便于进行机器学习;
其中,所述数据获取单元、数据预处理单元、特征分类单元和特征备注单元依次串联。
进一步地,特征备注单元给变化特征备注取值范围,变化特征与对应的取值范围共同组成备注的变化特征,结局事件、固定特征、备注的变化特征共同组成准备好的患者数据。
进一步地,自编码器单元的编码器将输入的变化特征进行编码,得到编码后的变化特征,自编码器单元的解码器将编码后的变化特征进行解码,得到符合真实取值范围的解码后的变化特征,变化特征和解码后的变化特征构成了自编码器损失,其中,解码器使用特征备注单元备注的取值范围对编码后的变化特征进行映射,使得解码后的变化特征的取值范围符合真实的取值范围。
进一步地,所述生成器包括第一类生成器和第二类生成器,所述判别器包括第一类判别器和第二类判别器,根据结局事件是否发生,将患者数据分为对应结局事件发生的第一类患者数据和对应结局事件未发生的第二类患者数据;
第一类患者数据包括第一类固定特征和第一类变化特征,第一类患者数据通过第一类生成器和解码器获得第一类反事实变化特征,第一类反事实变化特征和第一类固定特征构成第一类反事实患者数据;
第二类患者数据包括第二类固定特征和第二类变化特征,第二类患者数据通过第二类生成器和解码器获得第二类反事实变化特征,第二类反事实变化特征和第二类固定特征构成第二类反事实患者数据;
第一类反事实患者数据通过第二类生成器和解码器获得第一类重建的变化特征,第一类变化特征和第一类重建的变化特征之间存在环形一致性损失,第一类反事实患者数据与第二类患者数据通过第二类判别器判断数据真伪;
第二类反事实患者数据通过第一类生成器和解码器获得第二类重建的变化特征,第二类变化特征和第二类重建的变化特征之间存在环形一致性损失,第二类反事实患者数据与第一类患者数据通过第一类判别器判断数据真伪。
本发明第二个方面提供了一种基于环形一致性的反事实医疗数据生成方法,所述方法应用上述的基于环形一致性的反事实医疗数据生成***实现,所述方法包括以下步骤:
步骤1,获取结构化数据并对结构化数据进行预处理,得到患者数据,将患者数据分为结局事件、固定特征、变化特征,为变化特征备注取值范围,得到备注的变化特征;
步骤2,训练自编码器模型获得符合真实取值范围的解码器,采用生成器和训练好的解码器联合生成符合真实取值范围的与患者数据结局相反的反事实患者数据和与反事实患者数据结局相反的重建数据,用判别器判断反事实患者数据的真实性,基于结局相同的患者数据和反事实患者数据,判别器输出真实性的差异,来优化判别器;基于结局相同的患者数据和重建数据的环形一致性差异优化生成器,判别器的优化和生成器的优化交替进行,判别器和生成器训练完成后,固定生成器的参数,结合解码器生成反事实患者数据。
进一步地,步骤(1)中,利用医院的电子病历***和关联的医院信息***提取相关患者的结构化数据,结构化数据包括:
(1)基本信息:性别、年龄、身高、体重、病史、过敏史等信息;
(2)诊断信息:各类疾病的诊断信息;
(3)用药信息:药物名称、剂量等信息;
(4)检查信息:X光、CT、MRI、内镜、心电图等信息;
(5)化验信息:血常规、血生化等信息;
(6)转归信息:转归事件、转归时间等信息,其中转归事件信息包括入院、出院、转他院等信息。
进一步地,步骤(1)中,对结构化数据进行预处理的步骤为:
数据筛选:筛选结构化数据,提取出结构化数据中与目标任务相关的特征,去除无关的特征,形成筛选后的结构化数据;
数据清洗:清理筛选后的结构化数据中的脏数据获得清洗后的结构化数据,以确保数据的正确性和一致性;
数据整合:对清洗后的结构化数据进行整合,获得以二维矩阵表达的患者数据Data,以便于进行机器学习。
进一步地,对筛选后的结构化数据进行清洗的具体步骤为:
(1)错误值检测:基于临床知识检查数据中的异常值,包括超出范围、格式不合理等,检测出的错误值按缺失值处理;
(2)重复数据或不一致数据的清除:找出数据中重复项以及不一致的数据,删除重复数据,不一致数据按缺失值处理;
(3)缺失值处理:检测数据中的缺失值,对连续数据使用均值插值,对离散数据使用众数插值。
进一步地,步骤(1)中,对清洗后的结构化数据进行整合,获得以二维矩阵表达的患者数据,以便于进行机器学习,其中的患者数据Data包含N个患者的M个特征,即患者数据Data。
进一步地,步骤(1)中,将二维矩阵表达的患者数据分为结局事件、固定特征、变化特征的步骤为:依据文献、知识图谱或医学领域的大语言模型中的医疗知识对患者数据的M个特征进行标注,将M个特征标注为固定特征、变化特征以及结局事件。
患者数据Data中固定特征表达为,变化特征表达为/>,结局事件表示为Y/>。其中,/>的维度为/>;/>的维度为/>;Y的维度为1,当结局事件发生时,Y取值为1,当结局事件未发生时,Y取值为0;可以理解的,M=/>。
面向特定的医疗场景,将M个特征分为不变的固定特征和能够进行干预改变的变化特征,医疗工作者能够通过干预手段改变变化特征的值,从而改善患者的预后结局。
进一步地,步骤(1)中,为变化特征备注取值范围,得到备注的变化特征的具体步骤为:给变化特征备注其取值范围/>,其中/>表示第i个变化特征/>的取值下限,/>表示/>的取值上限。/>与/>共同组成备注的变化特征/>,结局事件Y、固定特征/>、备注的变化特征/>共同组成准备好的患者数据。
进一步地,步骤(2)中,训练自编码器模型获得符合真实取值范围的解码器的步骤如下:变化特征输入自编码器模型的编码器Enc得到编码后变化特征,编码后的变化特征经过解码器Dec进行解码,得到符合真实取值范围的解码后的变化特征,变化特征/>和解码后的变化特征构成了自编码器损失LAE,其中,解码器使用特征备注单元备注的取值范围/>对编码后的变化特征进行映射,使得解码后的变化特征的取值范围符合真实的取值范围。
进一步地,所述模型包括编码器Enc和解码器Dec。变化特征/>的维度为/>。编码器Enc为两层神经网络,第一层输入节点为/>,第二层输出层节点数为,激活函数为sigmoid/>floor ()函数表示向下取整。例如/>=615的情况下,/>128。
解码器Dec为三层的神经网络,第一层输入层节点数为,第二层输出层节点数为/>,激活函数sigmoid。第二层输出表示为DecX,为/>维度,每一维度取值0/>1。第三层对DecX进行线性变化得到/>。其中,自编码损失/>,使用优化方法RMSProp优化自编码器模型,自编码器收敛后固定网络权重参数,完成解码器Dec的训练,其中/>表示特征备注单元备注的取值范围的下限,/>表示特征备注单元备注的取值范围的上限。
进一步地,步骤(2)中,根据结局时间Y是否发生,将患者数据Data分为对应结局事件Y发生的第一类患者数据和对应结局事件Y未发生的第二类患者数据/>;
第一类患者数据包括第一类固定特征/>和第一类变化特征/>,第一类患者数据/>通过第一类生成器/>和解码器获得第一类反事实变化特征/>,第一类反事实变化特征/>和第一类固定特征/>构成第一类反事实患者数据/>;
第二类患者数据包括第二类固定特征/>和第二类变化特征/>,第二类患者数据/>通过第二类生成器/>和解码器获得第二类反事实变化特征/>,第二类反事实变化特征/>和第二类固定特征/>构成第二类反事实患者数据/>;
第一类反事实患者数据通过第二类生成器/>和解码器获得第一类重建的变化特征/>,第一类变化特征/>和第一类重建的变化特征/>之间存在环形一致性损失/>,其中E()表示期望。同时,第一类反事实患者数据/>与第二类患者数据/>通过第二类判别器/>判断数据真伪;
第二类反事实患者数据通过第一类生成器/>和解码器获得第二类重建的变化特征/>,第二类变化特征/>和第二类重建的变化特征/>之间存在环形一致性损失/>,其中E()表示期望。同时,第二类反事实患者数据/>与第一类患者数据/>通过第一类判别器/>判断数据真伪。
进一步地,第一类生成器和第二类生成器/>结构相同,参数不同。第一类生成器/>和第二类生成器/>均为4层神经网络,第一层输入层节点数为/>,第二层至第四层节点数均为/>,中间层的输出使用BatchNorm归一化后Relu激活再连接下一层网络,第二至第四层使用残差网络结构跨层连接。
进一步地,第一类判别器与第二类判别器/>结构相同,参数不同。第一类判别器/>与第二类判别器/>均为4层神经网络,节点数依次为/>、/>、、1,中间层激活函数为relu。
进一步地,选择RMSProp方法对生成器和判别器进行优化训练,每次更新生成器和判别器的参数之后把生成器和判别器的参数的绝对值截断到不超过一个固定常数c=0.01,迭代训练判别器和生成器直至模型收敛。
判别器损失为:
生成器损失为:
其中,表示输入为第二类反事实患者数据/>时第一类判别器/>的输出,/>表示该输出的期望;/>表示输入为第一类患者数据时第一类判别器/>的输出,/>表示该输出的期望;/>表示输入为第一类反事实患者数据/>时第二类判别器/>的输出,/>为该输出的期望;/>表示输入为第二类患者数据/>时第二类判别器/>的输出,/>表示该输出的期望。
判别器、生成器训练收敛后,固定生成器、生成器/>的参数,结合解码器Dec用于生成反事实患者数据。
本发明第三个方面提供了一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于环形一致性的反事实医疗数据生成方法。
本发明第四个方面提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于环形一致性的反事实医疗数据生成方法。
相比于现有技术,本发明至少具备以下有益效果:
本发明提供的基于环形一致性的反事实医疗数据生成***及方法能够生成准确可靠且鲁棒性强的反事实患者数据。每个患者数据都能够生成结局事件相反的反事实患者数据,患者数据和反事实患者数据综合后使结局事件比例均衡,解决了因样本量少导致的医疗数据不均衡的问题。同时,针对生成的数据不真实的问题,本发明利用取值范围进行修正,生成了符合真实取值范围的数据,且通过改变变化特征而保留固定特征的方式,解决了数据不真实的问题。
附图说明
图1为实施例的反事实数据生成***的结构示意图。
图2为实施例的数据准备模块的结构示意图。
图3为实施例的反事实医疗数据生成模块的结构示意图。
图4为实施例自编码器模型训练获取符合真实取值范围的解码器的流程示意图。
图5为实施例中对生成器和判别器进行优化训练获取反事实患者数据的流程示意图。
图6为实施例的生成器的结构示意图。
图7为实施例的判别器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,实施例提供了一种基于环形一致性的反事实医疗数据生成***,该***包括数据准备模块和反事实医疗数据生成模块,数据准备模块用于得到准备好的患者数据,反事实医疗数据生成模块用于根据准备好的患者数据生成反事实患者数据。
如图2所示,数据准备模块包括依次串联的数据获取单元、数据预处理单元、特征分类单元和特征备注单元。
数据获取单元利用医院的电子病历***和关联的医院信息***提取相关患者的结构化数据,结构化数据包括:
(1)基本信息:性别、年龄、身高、体重、病史、过敏史等信息;
(2)诊断信息:各类疾病的诊断信息;
(3)用药信息:药物名称、剂量等信息;
(4)检查信息:X光、CT、MRI、内镜、心电图等信息;
(5)化验信息:血常规、血生化等信息;
(6)转归信息:转归事件、转归时间等信息,其中转归事件信息包括入院、出院、转他院等信息。
数据预处理单元用于对获取的结构化数据进行预处理,得到患者数据。
数据预处理单元包括:
数据筛选:筛选结构化数据,提取出结构化数据中与目标任务相关的特征,去除无关的特征,形成筛选后的结构化数据。
数据清洗:清理筛选后的结构化数据中的脏数据获得清洗后的结构化数据,以确保数据的正确性和一致性。
数据整合:对清洗后的结构化数据进行整合,获得以二维矩阵表达的患者数据Data,以便于进行机器学习。
特征分类单元用于将患者数据分为结局事件、固定特征、变化特征。
具体的,特征分类单元面向特定的医疗场景,将M个特征分为不变的固定特征、能够进行干预改变的变化特征和结局事件,医疗工作者能够通过干预手段改变变化特征的值,从而改善患者的结局事件。
特征备注单元用于为变化特征备注取值范围,得到备注的变化特征的特征备注单元。
具体的,特征备注单元给变化特征备注其取值范围,变化特征与其取值范围共同组成备注的变化特征,结局事件、固定特征、备注的变化特征共同组成准备好的患者数据。
如图3所示,反事实医疗数据生成模块包括自编码器单元和反事实医疗数据生成单元。
所述自编码器单元用于对变化特征进行编码和解码以获得符合真实取值范围的解码器用于反事实医疗数据生成单元。
具体的,自编码器单元的编码器将输入的变化特征进行编码,得到编码后的变化特征,自编码器单元的解码器将编码后的变化特征进行解码,得到符合真实取值范围的解码后的变化特征,变化特征和解码后的变化特征构成了自编码器损失,其中,解码器使用特征备注单元备注的取值范围对编码后的变化特征进行映射,使得解码后的变化特征的取值范围符合真实的取值范围。
反事实医疗数据生成单元用于生成反事实患者数据,包括用于生成反事实患者数据的生成器、用于解码生成器生成数据的解码器和用于判断反事实患者数据真实性的判别器,其中,用于解码生成器生成数据的解码器为自编码器单元训练好的解码器。
生成器和解码器联合生成符合真实取值范围的与患者数据结局相反的反事实患者数据和与反事实患者数据结局相反的重建数据,判别器用于判断反事实患者数据的真实性;基于结局相同的患者数据和反事实患者数据,判别器输出真实性的差异,来优化判别器;基于结局相同的患者数据和重建数据的环形一致性差异优化生成器,判别器的优化和生成器的优化交替进行,判别器和生成器训练完成后,固定生成器的参数,结合解码器生成反事实患者数据。
具体的,所述生成器包括第一类生成器和第二类生成器,所述判别器包括第一类判别器和第二类判别器,根据结局事件是否发生,将患者数据分为对应结局事件发生的第一类患者数据和对应结局事件未发生的第二类患者数据;
第一类患者数据包括第一类固定特征和第一类变化特征,第一类患者数据通过第一类生成器和解码器获得第一类反事实变化特征,第一类反事实变化特征和第一类固定特征构成第一类反事实患者数据;
第二类患者数据包括第二类固定特征和第二类变化特征,第二类患者数据通过第二类生成器和解码器获得第二类反事实变化特征,第二类反事实变化特征和第二类固定特征构成第二类反事实患者数据;
第一类反事实患者数据通过第二类生成器和解码器获得第一类重建的变化特征,第一类变化特征和第一类重建的变化特征之间存在环形一致性损失,第一类反事实患者数据与第二类患者数据通过第二类判别器判断数据真伪;
第二类反事实患者数据通过第一类生成器和解码器获得第二类重建的变化特征,第二类变化特征和第二类重建的变化特征之间存在环形一致性损失,第二类反事实患者数据与第一类患者数据通过第一类判别器判断数据真伪。
实施例还提供了一种基于环形一致性的反事实数据生成方法,包括以下步骤:
步骤1,获取结构化数据,并对获取的结构化数据进行预处理,得到患者数据,将患者数据分为结局事件、固定特征、变化特征,为变化特征备注取值范围,得到备注的变化特征。
步骤1.1,数据获取。利用医院的电子病历***和关联的医院信息***提取相关患者的结构化数据,结构化数据包括:
(1)基本信息:性别、年龄、身高、体重、病史、过敏史等信息;
(2)诊断信息:各类疾病的诊断信息;
(3)用药信息:药物名称、剂量等信息;
(4)检查信息:X光、CT、MRI、内镜、心电图等信息;
(5)化验信息:血常规、血生化等信息;
(6)转归信息:转归事件、转归时间等信息,其中转归事件信息包括入院、出院、转他院等信息。
步骤1.2,数据预处理。对获取的结构化数据进行预处理,得到患者数据。所述数据预处理过程包括:
步骤1.21,数据筛选。筛选结构化数据,提取出结构化数据中与目标任务相关的特征,去除无关的特征,形成筛选后的结构化数据。
步骤1.22,数据清洗。清理筛选后的结构化数据中的脏数据获得清洗后的结构化数据,以确保数据的正确性和一致性,清洗过程包括:
(1)错误值检测:基于临床知识检查数据中的异常值,包括超出范围、格式不合理等,检测出的错误值按缺失值处理;
(2)重复数据或不一致数据的清除:找出数据中重复项以及不一致的数据,删除重复数据,不一致数据按缺失值处理;
(3)缺失值处理:检测数据中的缺失值,对连续数据使用均值插值,对离散数据使用众数插值。
步骤1.23,数据整合。对清洗后的结构化数据进行整合,获得以二维矩阵表达的患者数据,以便于进行机器学习,其中的患者数据Data包含N个患者的M个特征,即患者数据Data。
步骤1.3,特征分类。面向特定的医疗场景,将M个特征分为不变的固定特征和能够进行干预改变的变化特征,医疗工作者能够通过干预手段改变变化特征的值,从而改善患者的预后结局。具体为:
依据文献、知识图谱或医学领域的大语言模型中的医疗知识对患者数据的M个特征进行标注,将M个特征标注为固定特征、变化特征以及结局事件。患者数据Data中固定特征表达为,变化特征表达为/>,结局事件表示为Y/>。其中,/>的维度为/>;/>的维度为/>;Y的维度为1,当结局事件发生时,Y取值为1,当结局事件未发生时,Y取值为0;可以理解的,M=/>。
以改善血透患者心血管并发症的场景为例,患者数据的M个特征组成特征集合F={性别、年龄、体重、身高、血压、血脂、心血管疾病诊断、...},依据医疗知识将特征集合F标注并划分为固定特征组成的集合={性别、年龄、身高、...}、变化特征组成的集合/>={体重、血压、血脂、...},以及结局事件/>={心血管疾病诊断}。
步骤1.4,特征备注。给变化特征备注其取值范围,其中/>表示第i个变化特征/>的取值下限,/>表示/>的取值上限。/>与/>共同组成备注的变化特征/>,结局事件Y、固定特征/>、备注的变化特征/>共同组成准备好的患者数据/>。
步骤2,根据准备好的患者数据生成反事实患者数据。
具体的,先训练自编码器模型获得符合真实取值范围的解码器,采用生成器和解码器联合生成符合真实取值范围的与患者数据结局相反的反事实患者数据和与反事实患者数据结局相反的重建数据,用判别器判断反事实患者数据的真实性,基于结局相同的患者数据和反事实患者数据,判别器输出真实性的差异,来优化判别器;基于结局相同的患者数据和重建数据的环形一致性差异优化生成器,判别器的优化和生成器的优化交替进行,判别器和生成器训练完成后,固定生成器和生成器的参数,结合解码器生成反事实患者数据。
对自编码器模型训练获取符合真实取值范围的解码器的过程如图4所示:变化特征输入自编码器模型的编码器Enc得到编码后变化特征,编码后的变化特征经过解码器Dec进行解码,得到符合真实取值范围的解码后的变化特征,变化特征/>和解码后的变化特征构成了自编码器损失LAE,其中,解码器使用特征备注单元备注取值范围/>对编码后的变化特征进行映射,使得解码后的变化特征的取值范围符合真实的取值范围。
具体地,模型包括编码器Enc和解码器Dec。变化特征/>的维度为。编码器Enc为两层神经网络,第一层输入节点为/>,第二层输出层节点数为,激活函数为sigmoid/>floor ()函数表示向下取整。
解码器Dec为三层的神经网络,第一层输入层节点数为,第二层输出层节点数为/>,激活函数sigmoid。第二层输出表示为DecX,为/>维度,每一维度取值0/>1。第三层对DecX进行线性变化得到/>。其中,自编码损失/>,使用优化方法RMSProp优化自编码器模型,自编码器收敛后固定网络权重参数,完成解码器Dec的训练,其中/>表示特征备注单元备注的取值范围的下限,/>表示特征备注单元备注的取值范围的上限。
如图5所示,对生成器和判别器进行优化训练获取反事实患者数据的过程如下:
根据结局时间Y是否发生,将患者数据Data分为对应结局事件Y发生的第一类患者数据和对应结局事件Y未发生的第二类患者数据/>。
第一类患者数据包括第一类固定特征/>和第一类变化特征/>,第一类患者数据/>通过第一类生成器/>和解码器获得第一类反事实变化特征/>,第一类反事实变化特征/>和第一类固定特征/>构成第一类反事实患者数据/>。
第二类患者数据包括第二类固定特征/>和第二类变化特征/>,第二类患者数据/>通过第二类生成器/>和解码器获得第二类反事实变化特征/>,第二类反事实变化特征/>和第二类固定特征/>构成第二类反事实患者数据/>。
其中第一类患者数据和第二类反事实患者数据/>为结局相同的患者数据和反事实患者数据,第二类患者数据/>与第一类反事实患者数据/>构成为结局相同的患者数据和反事实患者数据。
第一类反事实患者数据通过第二类生成器/>和解码器获得第一类重建的变化特征/>,第一类变化特征/>和第一类重建的变化特征/>之间存在环形一致性损失/>,其中E()表示期望。同时,第一类反事实患者数据/>与第二类患者数据/>通过第二类判别器/>判断数据真伪。/>
第二类反事实患者数据通过第一类生成器/>和解码器获得第二类重建的变化特征/>,第二类变化特征/>和第二类重建的变化特征/>之间存在环形一致性损失/>,其中E()表示期望。同时,第二类反事实患者数据/>与第一类患者数据/>通过第一类判别器/>判断数据真伪。
具体的,第一类生成器和第二类生成器/>的网络结构如图6所示。第一类生成器/>和第二类生成器/>结构相同,参数不同。第一类生成器/>和第二类生成器/>均为4层神经网络,第一层输入层节点数为/>,第二层至第四层节点数均为/>,中间层的输出使用BatchNorm归一化(图6中的BN)后Relu激活再连接下一层网络,第二至第四层使用残差网络结构跨层连接。
具体的,第一类判别器和第二类判别器/>的网络结构如图7所示。第一类判别器/>与第二类判别器/>结构相同,参数不同。第一类判别器/>与第二类判别器/>均为4层神经网络,节点数依次为/>、/>、/>、1,中间层激活函数为relu。
本发明的一个实施例中,优化方法选择RMSProp,每次更新生成器和判别器的参数之后把生成器和判别器的参数的绝对值截断到不超过一个固定常数c=0.01,更新5次判别器再更新1次生成器,判别器和生成器交替训练直至模型收敛。
判别器损失为:
;
生成器损失为:
。
其中,表示输入为第二类反事实患者数据/>时第一类判别器的输出,/>表示该输出的期望;/>表示输入为第一类患者数据/>时第一类判别器/>的输出,/>表示该输出的期望;表示输入为第一类反事实患者数据/>时第二类判别器/>的输出,为该输出的期望;/>表示输入为第二类患者数据/>时第二类判别器/>的输出,/>表示该输出的期望。
判别器、生成器训练收敛后,固定生成器、生成器/>的参数,结合解码器Dec用于生成反事实患者数据。
通过上述数据处理,能够生成准确可靠且鲁棒性强的反事实患者数据。每个患者数据都能够生成结局事件相反的反事实患者数据,患者数据和反事实患者数据综合后使结局事件比例均衡,解决了因样本量少导致的医疗数据不均衡的问题。同时,针对生成的数据不真实的问题,本发明利用取值范围进行修正,生成了符合真实取值范围的数据,且通过改变变化特征而保留固定特征的方式,解决了数据不真实的问题。
实施例还提供了一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于环形一致性的反事实医疗数据生成方法。
实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于环形一致性的反事实医疗数据生成方法。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于环形一致性的反事实医疗数据生成***,其特征在于,包括数据准备模块和反事实医疗数据生成模块,
所述数据准备模块用于获取准备好的患者数据,包括:用于获取结构化数据的数据获取单元,用于对获取的结构化数据进行预处理,得到患者数据的数据预处理单元,用于将患者数据分为结局事件、固定特征、变化特征的特征分类单元以及用于为变化特征备注取值范围,得到备注的变化特征的特征备注单元;
所述反事实医疗数据生成模块用于根据准备好的患者数据生成反事实患者数据,包括用于基于备注的变化特征训练获得符合真实取值范围的解码器的自编码器单元和用于生成反事实患者数据的反事实医疗数据生成单元,所述反事实医疗数据生成单元包括生成器、判别器和自编码器单元训练好的解码器,利用生成器和解码器生成符合真实取值范围的与患者数据结局相反的反事实患者数据和重建数据,基于结局相同的患者数据和反事实患者数据优化判别器,基于结局相同的患者数据和重建数据的环形一致性差异优化生成器,判别器和生成器训练完成后,固定生成器的参数,结合解码器生成反事实患者数据。
2.根据权利要求1所述的基于环形一致性的反事实医疗数据生成***,其特征在于,所述数据预处理单元包括:
数据筛选:筛选结构化数据,提取出结构化数据中与目标任务相关的特征,去除无关的特征,形成筛选后的结构化数据;
数据清洗:清理筛选后的结构化数据中的脏数据获得清洗后的结构化数据,以确保数据的正确性和一致性;
数据整合:对清洗后的结构化数据进行整合,获得以二维矩阵表达的患者数据。
3.根据权利要求1所述的基于环形一致性的反事实医疗数据生成***,其特征在于,所述特征备注单元给变化特征备注取值范围,变化特征与对应的取值范围共同组成备注的变化特征,结局事件、固定特征、备注的变化特征共同组成准备好的患者数据。
4.根据权利要求1所述的基于环形一致性的反事实医疗数据生成***,其特征在于,自编码器单元的编码器将输入的变化特征进行编码,得到编码后的变化特征,自编码器单元的解码器将编码后的变化特征进行解码,得到符合真实取值范围的解码后的变化特征,变化特征和解码后的变化特征构成了自编码器损失,其中,解码器使用特征备注单元备注的取值范围对编码后的变化特征进行映射,使得解码后的变化特征的取值范围符合真实的取值范围。
5.根据权利要求1所述的基于环形一致性的反事实医疗数据生成***,其特征在于,所述生成器包括第一类生成器和第二类生成器,所述判别器包括第一类判别器和第二类判别器,根据结局事件是否发生,将患者数据分为对应结局事件发生的第一类患者数据和对应结局事件未发生的第二类患者数据;
第一类患者数据包括第一类固定特征和第一类变化特征,第一类患者数据通过第一类生成器和解码器获得第一类反事实变化特征,第一类反事实变化特征和第一类固定特征构成第一类反事实患者数据;
第二类患者数据包括第二类固定特征和第二类变化特征,第二类患者数据通过第二类生成器和解码器获得第二类反事实变化特征,第二类反事实变化特征和第二类固定特征构成第二类反事实患者数据;
第一类反事实患者数据通过第二类生成器和解码器获得第一类重建的变化特征,第一类变化特征和第一类重建的变化特征之间存在环形一致性损失,第一类反事实患者数据与第二类患者数据通过第二类判别器判断数据真伪;
第二类反事实患者数据通过第一类生成器和解码器获得第二类重建的变化特征,第二类变化特征和第二类重建的变化特征之间存在环形一致性损失,第二类反事实患者数据与第一类患者数据通过第一类判别器判断数据真伪。
6.一种基于环形一致性的反事实医疗数据生成方法,其特征在于,包括以下步骤:
步骤1,获取结构化数据并对结构化数据进行预处理,得到患者数据,将患者数据分为结局事件、固定特征、变化特征,为变化特征备注取值范围,得到备注的变化特征;
步骤2,训练自编码器模型获得符合真实取值范围的解码器,采用生成器和训练好的解码器联合生成符合真实取值范围的与患者数据结局相反的反事实患者数据和与反事实患者数据结局相反的重建数据,用判别器判断反事实患者数据的真实性,基于结局相同的患者数据和反事实患者数据,判别器输出真实性的差异,来优化判别器;基于结局相同的患者数据和重建数据的环形一致性差异优化生成器,判别器的优化和生成器的优化交替进行,判别器和生成器训练完成后,固定生成器的参数,结合解码器生成反事实患者数据。
7.根据权利要求6所述的基于环形一致性的反事实医疗数据生成方法,其特征在于,步骤2中,所述自编码器模型包括编码器和解码器,
所述编码器为两层神经网络,第一层输入节点为,第二层输出层节点数为,激活函数为sigmoid/>其中/>为固定特征的维度,floor ()函数表示向下取整;
所述解码器为三层的神经网络,第一层输入层节点数为,第二层输出层节点数为,激活函数sigmoid,第二层输出表示为DecX,为/>维度,每一维度取值0/>1,第三层对DecX进行线性变化得到/>,自编码损失,使用优化方法RMSProp优化自编码器模型,自编码器收敛后固定网络权重参数,完成解码器的训练,其中,N表示患者数量,/>表示特征备注单元备注的取值范围的下限,/>表示为特征备注单元备注的取值范围的上限,/>表示第i个变化特征。
8.根据权利要求6所述的基于环形一致性的反事实医疗数据生成方法,其特征在于,步骤2中,选择RMSProp方法对生成器和判别器进行优化训练,每次更新生成器和判别器的参数之后把生成器和判别器的参数的绝对值截断到不超过一个固定常数c=0.01,迭代训练判别器和生成器直至模型收敛。
9.一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求6-8中任一项所述的基于环形一致性的反事实医疗数据生成方法。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现权利要求6-8中任一项所述的基于环形一致性的反事实医疗数据生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311057093.7A CN116759042B (zh) | 2023-08-22 | 2023-08-22 | 一种基于环形一致性的反事实医疗数据生成***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311057093.7A CN116759042B (zh) | 2023-08-22 | 2023-08-22 | 一种基于环形一致性的反事实医疗数据生成***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116759042A true CN116759042A (zh) | 2023-09-15 |
CN116759042B CN116759042B (zh) | 2023-12-22 |
Family
ID=87950129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311057093.7A Active CN116759042B (zh) | 2023-08-22 | 2023-08-22 | 一种基于环形一致性的反事实医疗数据生成***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116759042B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109116100A (zh) * | 2018-07-09 | 2019-01-01 | 清华大学 | 一种基于编码-解码结构的电力负荷用电分解方法 |
CN109547381A (zh) * | 2019-01-17 | 2019-03-29 | 山东建筑大学 | 一种基于自编码器的dco-ofdm***papr抑制方法及*** |
US20200183046A1 (en) * | 2018-12-11 | 2020-06-11 | Exxonmobil Research And Engineering Company | Subsurface models with uncertainty quantification |
CN112484981A (zh) * | 2020-11-27 | 2021-03-12 | 上海电气电站设备有限公司 | 一种基于卷积自编码器的发电机异常状态监测方法 |
WO2021114635A1 (zh) * | 2020-05-13 | 2021-06-17 | 平安科技(深圳)有限公司 | 患者分群模型构建方法、患者分群方法及相关设备 |
KR20210091671A (ko) * | 2020-01-14 | 2021-07-22 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 의료 사실의 검증 방법 및 장치 |
CN114067273A (zh) * | 2021-11-23 | 2022-02-18 | 江苏科技大学 | 一种夜间机场航站楼热成像显著人体分割检测方法 |
WO2022171845A1 (en) * | 2021-02-15 | 2022-08-18 | Koninklijke Philips N.V. | Contrast boost by machine learning |
CN115798711A (zh) * | 2022-12-22 | 2023-03-14 | 之江实验室 | 基于反事实对比学习的慢性肾病诊疗决策支持*** |
CN116071292A (zh) * | 2022-10-08 | 2023-05-05 | 中国人民解放军国防科技大学 | 基于生成对比学习的眼底镜视网膜图像血管识别方法 |
CN116108755A (zh) * | 2023-03-09 | 2023-05-12 | 合肥工业大学 | 一种基于故障字典的反事实置信数据生成方法 |
-
2023
- 2023-08-22 CN CN202311057093.7A patent/CN116759042B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109116100A (zh) * | 2018-07-09 | 2019-01-01 | 清华大学 | 一种基于编码-解码结构的电力负荷用电分解方法 |
US20200183046A1 (en) * | 2018-12-11 | 2020-06-11 | Exxonmobil Research And Engineering Company | Subsurface models with uncertainty quantification |
CN109547381A (zh) * | 2019-01-17 | 2019-03-29 | 山东建筑大学 | 一种基于自编码器的dco-ofdm***papr抑制方法及*** |
KR20210091671A (ko) * | 2020-01-14 | 2021-07-22 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 의료 사실의 검증 방법 및 장치 |
WO2021114635A1 (zh) * | 2020-05-13 | 2021-06-17 | 平安科技(深圳)有限公司 | 患者分群模型构建方法、患者分群方法及相关设备 |
CN112484981A (zh) * | 2020-11-27 | 2021-03-12 | 上海电气电站设备有限公司 | 一种基于卷积自编码器的发电机异常状态监测方法 |
WO2022171845A1 (en) * | 2021-02-15 | 2022-08-18 | Koninklijke Philips N.V. | Contrast boost by machine learning |
CN114067273A (zh) * | 2021-11-23 | 2022-02-18 | 江苏科技大学 | 一种夜间机场航站楼热成像显著人体分割检测方法 |
CN116071292A (zh) * | 2022-10-08 | 2023-05-05 | 中国人民解放军国防科技大学 | 基于生成对比学习的眼底镜视网膜图像血管识别方法 |
CN115798711A (zh) * | 2022-12-22 | 2023-03-14 | 之江实验室 | 基于反事实对比学习的慢性肾病诊疗决策支持*** |
CN116108755A (zh) * | 2023-03-09 | 2023-05-12 | 合肥工业大学 | 一种基于故障字典的反事实置信数据生成方法 |
Non-Patent Citations (2)
Title |
---|
SHORTEN, C 等: ""Text Data Augmentation for Deep Learning"", 《JOURNAL OF BIG DATA》, vol. 8, no. 1, pages 1 - 34 * |
杨梦月 等: "基于反事实学习及混淆因子建模的文章个性化推荐", 《计算机***应用》, vol. 29, no. 10, pages 53 * |
Also Published As
Publication number | Publication date |
---|---|
CN116759042B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347010B2 (en) | Anomaly detection in volumetric images using sequential convolutional and recurrent neural networks | |
US10943681B2 (en) | Global multi-label generating system | |
CN109935336B (zh) | 一种儿童呼吸科疾病的智能辅助诊断*** | |
US20210158531A1 (en) | Patient Management Based On Anatomic Measurements | |
US10304198B2 (en) | Automatic medical image retrieval | |
CN110517238B (zh) | Ct医学影像ai三维重建与人机交互可视化网络*** | |
US10733727B2 (en) | Application of deep learning for medical imaging evaluation | |
US10984894B2 (en) | Automated image quality control apparatus and methods | |
JP2018175226A (ja) | 医用画像分類装置、方法およびプログラム | |
EP3570288A1 (en) | Method for obtaining at least one feature of interest | |
CN111584021A (zh) | 病案信息校验方法、装置、电子设备及存储介质 | |
Sacha et al. | Bayesian learning for cardiac SPECT image interpretation | |
CN110570425B (zh) | 一种基于深度强化学习算法的肺结节分析方法及装置 | |
CN110555846A (zh) | 基于卷积神经网络的全自动骨龄评定方法 | |
Tursynova et al. | Brain Stroke Lesion Segmentation Using Computed Tomography Images based on Modified U-Net Model with ResNet Blocks. | |
CN116759042B (zh) | 一种基于环形一致性的反事实医疗数据生成***及方法 | |
Vasilescu et al. | A deep learning approach for improved segmentation of lesions related to covid-19 chest ct scans | |
WO2020099941A1 (en) | Application of deep learning for medical imaging evaluation | |
WO2019131225A1 (ja) | 脳画像解析装置、脳画像解析方法、及び脳画像解析プログラム | |
JP2015510408A (ja) | バイオイメージンググリッド | |
CN115578285B (zh) | 一种乳腺钼靶图像细节增强方法及*** | |
Misra et al. | Incremental learning of control knowledge for lung boundary extraction | |
CN116469542B (zh) | 一种个性化医疗影像诊断路径生成***及方法 | |
Reddy et al. | Different algorithms for lung cancer detection and prediction | |
CN110827945B (zh) | 一种基于医学数据生成关键因子的控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |