WO2022222026A1

WO2022222026A1 - 医疗诊断缺失数据补全方法及补全装置、电子设备、介质

Info

Publication number: WO2022222026A1
Application number: PCT/CN2021/088359
Authority: WO
Inventors: 苗晓晔; 尹建伟; 吴洋洋
Original assignee: 浙江大学
Priority date: 2021-04-19
Filing date: 2021-04-20
Publication date: 2022-10-27
Also published as: CN113239022B; CN113239022A; US20220367057A1

Abstract

一种医疗诊断缺失数据的补全方法及补全装置、电子设备、介质，该方法包括：获取存在数据缺失问题的医疗诊断数据集；将所述原始数据随机划分成初始样本点数据和候选样本点数据，并利用所述初始样本点数据，构建并训练生成对抗网络初始补全模型；利用影响函数估计出样本点对生成对抗网络初始补全模型参数和对生成对抗网络初始补全模型预测结果的影响力；利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点，进一步迭代优化所述生成对抗网络初始补全模型，实现医疗诊断缺失数据补全。该方法针对在医疗诊断数据中存在的数据缺失和数据规模大等问题，提出补全方法，拥有补全效果好、效率高、可扩展性强等优点。

Description

医疗诊断缺失数据补全方法及补全装置、电子设备、介质

技术领域

本发明涉及数据库补全技术，特别是指一种医疗诊断缺失数据补全方法及补全装置、电子设备、介质。

背景技术

数据缺失是医疗诊断数据经常面临的问题，出现缺失的主要原因可以包括：

(a)医疗检测仪器工作状态不稳定：现场环境因素或人为原因导致医疗检测仪器在某些时间段内没有正常工作，从而造成数据缺失；

(b)医疗监测数据：医疗监测过程中，由于检测仪器精准度、生产异常波动等原因，常常存在异常监测数据，此类“坏数据”与实际生产状况不符，需要剔除，而剔除的过程相当于引入了数据缺失。

医疗数据的缺失会造成数据信息不完全，直接影响到后期的医疗诊断。因此，需要对医疗诊断数据中的缺失数据进行补全以提高数据的完整性，从而提高后期医疗诊断数据分析的质量。

众所周知，针对存在数据缺失问题的医疗诊断数据进行数据补全是提高数据完整性的有效途径。但由于传统补全方法的模型复杂度较高，无法直接有效的处理医疗诊断数据。目前针对缺失数据补全问题，国内外学者已经做出了一些工作，但这些工作还存在局限性：(1)数据补全方法补全效果有限；(2)数据补全方法复杂度较高，无法处理缺失数据。

发明内容

本发明的目的是提供一种医疗诊断缺失数据补全方法及补全装置、电子设备、介质，以解决传统补全方法难以处理医疗诊断缺失数据的问题，针对存在数据缺失问题的医疗诊断数据进行有效的补全，尽可能地提高医疗数据完整性。

为了达到上述目的，本发明采用如下技术方案：

第一方面，本发明实施例提供一种医疗诊断缺失数据补全方法，包括：

获取存在数据缺失问题的原始数据，其中，所述原始数据为存在数据缺失的医疗诊断数据集；

将所述原始数据随机划分成初始样本点数据和候选样本点数据，并利用所述初始样本点数据，构建并训练生成对抗网络初始补全模型；

利用影响函数，估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化；

在模型参数变化基础上，利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力；

利用所述影响力估计出所述对抗网络初始补全模型的预测结果；

利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点，进一步迭代优化所述生成对抗网络初始补全模型，得到生成对抗网络补全模型；

利用所述生成对抗网络补全模型，对待补全医疗诊断缺失数据进行缺失补全。

第二方面，本发明实施例提供一种医疗诊断缺失数据的补全装置，包括：

获取模块，用于获取存在数据缺失问题的原始数据，其中，所述原始数据为存在数据缺失的医疗诊断数据集；

构建模块，用于将所述原始数据随机划分成初始样本点数据和候选样本点数据，并利用所述初始样本点数据，构建并训练生成对抗网络初始补全模型；

参数估计模块，用于利用影响函数估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化；

影响力评估模块，用于在模型参数变化基础上，利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力；

结果预测模块，用于利用所点影响力估计出所述对抗网络初始补全模型的预测结果；

采样模块，用于利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点，进一步迭代优化所述生成对抗网络初始补全模型，得到生成对抗网络补全模型；

生成模块，用于利用所述训练得到的生成对抗网络补全模型，对待补全医疗诊断缺失数据进行缺失补全。

第三方面，本发明实施例提供一种设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如第一方面所述的方法。

根据以上技术方案，本发明实施例构建并训练生成对抗网络初始补全模型；利用影响函数，本发明估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化；在模型参数变化基础上，本发明利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力；本发明利用所述样本点影响力估计出对抗网络补全模型的预测结果；本发明利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点，进一步迭代优化所述生成对抗网络初始补全模型，得到生成对抗网络补全模型，实现医疗诊断缺失数据补全。在保证模型补全精确度的情况下，所述补全方法能够通过采样最具影响力样本点的方式，极大降低模型所需的训练样本和训练时间，极大增强补全模型的实用性和处理大规模缺失数据的效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种医疗诊断缺失数据的补全方法的流程图；

图2是本发明实施例的样本点数据的影响力函数评估方法框图；

图3是本发明实施例的一种医疗诊断缺失数据的补全装置的框图。

具体实施方式

现结合附图和具体实施对本发明的技术方案作进一步说明。

实施例一

图1是本发明实施例的一种医疗诊断缺失数据补全方法的流程图，该方法包括如下步骤：

步骤S100：获取存在数据缺失问题的原始数据，其中，所述原始数据为存在数据缺失的医疗诊断数据集。

所述存在数据缺失的医疗诊断数据集具体可以为人工呼吸机、心音传感器、血红蛋白仪等医疗仪器中采集的数据，医疗诊断数据出现数据缺失是由于医疗诊断仪器出现故障使得诊断数据存在遗漏的现象。

步骤S200，将所述原始数据随机划分成初始样本点数据和候选样本点数据，并利用所述初始样本点数据，构建并训练生成对抗网络初始补全模型；该步骤可以包括以下子步骤：

步骤S201：根据获取的原始数据X，计算得到对应原始数据X中数据缺失状态的缺失矩阵M，其中若原始数据X的特征存在则其在缺失矩阵M中对应位置的缺失状态为1，若数据矩阵X的特征缺失则其在缺失矩阵M中对应位置的缺失状态为0；

步骤S202：将原始数据X划分成初始样本点数据X ⁰和候选样本点数据X ^c。

步骤S203：根据初始样本点数据X ⁰，构建并训练生成对抗网络初始补全模型。

具体地，所述对抗网络初始补全模型包括生成器模型G和判别器模型D，所述生成器模型G用于将所述初始样本点数据X ⁰进行数据补全，并将补全后数据输入到判别器模型D；所述判别器模型D用于最大程度判别补全后数据与所述初始样本点数据X ⁰。所述生成器模型和判别器模型均为多种激活函数组成的深层神经网络结构。

下面描述生成器模型和判别器模型的训练策略。

生成器模型的训练策略：

固定当前判别器模型D的模型参数，依据生成器模型G中的自编码器损失函数以及判别器模型D对生成器模型G生成数据的判别结果反馈，训练生成器模型G，因此生成器模型G的训练过程描述如下：

首先，基于原始数据矩阵大小生成随机高斯噪声矩阵Z，并利用随机高斯噪声矩阵Z初始化数据矩阵X ⁰，得到噪声补全矩阵X ^(z)：

其中

表示逐元素乘法符号；

其次，将噪声补全矩阵X ^(z)输入到生成器模型G中，生成器模型的损失函数

包括：重构损失函数L _rec和判别器模型的判别结果反馈函数L _pro，如下所示。

其中超参数λ用以权衡生成器模型，

表示生成器模型G补全原始数据后输出的补全矩阵，

表示判别器模型D预测补全矩阵

中所有样本的每个特征属于真实特征的概率。

最终，生成器模型G通过最小化其损失函数

进行模型训练，得到当前最优生成器模型参数。

判别器模型的训练策略：

固定当前生成器模型模型参数，将训练好的生成器模型G补全原始数据后输出的补全矩阵

作为判别器模型D的输入，判别器模型D判断所有样本中每个特征属于真实特征的概率。因此，判别器模型D的损失函数的计算公式如下所示：

判别器模型D通过最小化损失函数

进行模型训练，得到当前最优判别器模型参数。

利用批量训练方法重复生成器模型和判别器模型的训练策略，直到达到模型的最大迭代次数，从而最终得到对抗网络初始补全模型。

步骤S300，利用影响函数，估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化。图2是本发明的样本点数据的影响力函数评估方法框图。

具体地，利用影响函数

计算每个样本x添加到初始训练集时，初始补全模型参数上的变化：

其中

表示模型的海森矩阵，

表述模型损失函数在计算样本点 x时所对应的模型梯度。

步骤S400，在模型参数变化基础上，利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力。

具体地，在模型参数变化基础上，利用链式法则计算出样本点影响力

即初始补全模型在验证集H上预测损失函数的变化：

步骤S500，利用所述影响力估计出所述对抗网络初始补全模型的预测结果。

具体地，利用所有样本点影响力

估计出，当使用所有数据样本点进行训练时补全模型在验证集H上预测损失函数，

步骤S600，利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点，进一步迭代优化所述生成对抗网络初始补全模型，得到生成对抗网络补全模型。

具体地，利用二分搜索算法检索出最具影响力的最小样本点集合

且同时保证由

训练得到的模型在验证集H上预测损失函数，即

并在此基础上进一步迭代优化所述生成对抗网络初始补全模型，得到生成对抗网络补全模型；

步骤S700，利用所述生成对抗网络补全模型，实现医疗诊断缺失数据补全。

由上述实施例可知，本发明实施例构建并训练生成对抗网络初始补全模型；利用影响函数，本发明估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化；在模型参数变化基础上，本发明利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力；本发明利用所述样本点影响力估计出对抗网络补全模型的预测结果；本发明利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点，进一步迭代优化所述生成对抗网络初始补全模型，得到生成对抗网络补全模型，实现医疗诊断缺失数据补全。在保证模型补全精确度的情况下，所述补全方法能够通过采样最具影响力样本点的方式，极大降低模型所需的训练样本和训练时间，极大增强补全模型的实用性和处理大规模缺失数据的效率。

与前述的一种医疗诊断缺失数据的补全方法的实施例相对应，本申请还提供了一种医疗诊断缺失数据的补全装置的实施例。

图3是根据一示例性实施例示出的一种医疗诊断缺失数据的补全装置框图。参照图3，该装置包括：

获取模块91，用于获取存在数据缺失问题的原始数据，其中，所述原始数据为存在数据缺失的医疗诊断数据集；

构建模块92，用于将所述原始数据随机划分成初始样本点数据和候选样本点数据，并利用所述初始样本点数据，构建并训练生成对抗网络初始补全模型；

参数估计模块93，用于利用影响函数估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化；

影响力评估模块94，用于在模型参数变化基础上，利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力；

结果预测模块95，用于利用所点影响力估计出所述对抗网络初始补全模型的预测结果；

采样模块96，用于利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点，进一步迭代优化所述生成对抗网络初始补全模型，得到生成对抗网络补全模型；

生成模块97，用于利用所述训练得到的生成对抗网络补全模型，对待补全医疗诊断缺失数据进行缺失补全。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的一种医疗诊断缺失数据的补全方法。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如上述的一种医疗诊断缺失数据的补全方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

一种医疗诊断缺失数据补全方法，其特征在于，包括：

获取存在数据缺失问题的原始数据，其中，所述原始数据为存在数据缺失的医疗诊断数据集；

将所述原始数据随机划分成初始样本点数据和候选样本点数据，并利用所述初始样本点数据，构建并训练生成对抗网络初始补全模型；

利用影响函数，估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化；

在模型参数变化基础上，利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力；

利用所述影响力估计出所述对抗网络初始补全模型的预测结果；

利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点，进一步迭代优化所述生成对抗网络初始补全模型，得到生成对抗网络补全模型；

利用所述生成对抗网络补全模型，对待补全医疗诊断缺失数据进行缺失补全。
根据权利要求1所述的一种医疗诊断缺失数据补全方法，其特征在于：所述生成对抗网络初始补全模型包括生成器模型和判别器模型，所述生成器模型用于将所述初始样本点数据进行数据补全，并将补全后数据输入到判别器模型；所述判别器模型用于最大程度判别补全后数据与初始样本点数据。
根据权利要求2所述的一种医疗诊断缺失数据补全方法，其特征在于：所述生成器模型和判别器模型均为多种激活函数组成的深层神经网络结构。
根据权利要求3所述的一种医疗诊断缺失数据补全方法，其特征在于：依据所述生成器模型中的重构损失函数以及所述判别器模型对所述生成器模型生成数据的判别结果反馈，训练所述生成器模型。
一种医疗诊断缺失数据的补全装置，其特征在于，包括：

获取模块，用于获取存在数据缺失问题的原始数据，其中，所述原始数据为存在数据缺失的医疗诊断数据集；

构建模块，用于将所述原始数据随机划分成初始样本点数据和候选样本点数据，并利用所述初始样本点数据，构建并训练生成对抗网络初始补全模型；

参数估计模块，用于利用影响函数估计出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型参数上的变化；

影响力评估模块，用于在模型参数变化基础上，利用链式法则计算出所述候选样本点数据中样本点对所述生成对抗网络初始补全模型预测结果的影响力；

结果预测模块，用于利用所点影响力估计出所述对抗网络初始补全模型的预测结果；

采样模块，用于利用二分搜索算法采样所述候选样本点数据中最具影响力的样本点，进一步迭代优化所述生成对抗网络初始补全模型，得到生成对抗网络补全模型；

生成模块，用于利用所述训练得到的生成对抗网络补全模型，对待补全医疗诊断缺失数据进行缺失补全。
根据权利要求5所述的一种医疗诊断缺失数据补全方法，其特征在于：所述生成对抗网络初始补全模型包括生成器模型和判别器模型，所述生成器模型用于将所述初始样本点数据进行数据补全，并将补全后数据输入到判别器模型；所述判别器模型用于最大程度判别补全后数据与初始样本点数据。
根据权利要求6所述的一种医疗诊断缺失数据补全方法，其特征在于：所述生成器模型和判别器模型均为多种激活函数组成的深层神经网络结构。
根据权利要求7所述的一种医疗诊断缺失数据补全方法，其特征在于：依据所述生成器模型中的重构损失函数以及所述判别器模型对所述生成器模型生成数据的判别结果反馈，训练所述生成器模型。
一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的方法。