CN117556267B

CN117556267B - 缺失样本数据填充方法、装置、存储介质和电子设备

Info

Publication number: CN117556267B
Application number: CN202410044914.1A
Authority: CN
Inventors: 张黎; 马彦成; 应超奇
Original assignee: Flash It Co ltd
Current assignee: Flash It Co ltd
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-04-02
Anticipated expiration: 2044-01-12
Also published as: CN117556267A

Abstract

本申请提供了一种缺失样本数据填充方法、装置、存储介质和电子设备，属于数据处理技术领域。该方法包括：获取包含缺失数据的初始样本数据；对所述初始样本数据中的缺失数据进行初始填充，形成第一样本数据；将所述第一样本数据导入预设的VAE生成模型中，所述VAE生成模型识别所述第一样本数据中的每个数据的数据类型，选择与所述数据类型相匹配的特征分布模型来生成第二样本数据；从所述第二样本数据中提取与所述初始样本数据中的缺失数据对应的生成数据；将所提取的生成数据按照对应的位置填充至所述初始样本数据。本申请可提高缺失数据预测的准确性。

Description

缺失样本数据填充方法、装置、存储介质和电子设备

技术领域

本申请涉及数据处理技术领域，更具体地，涉及一种缺失样本数据填充方法、装置、存储介质和电子设备。

背景技术

作为机器学习、深度学习数据预处理中的一个关键步骤，数据缺失值填充并没有得到太多的重视，通常采用一些简单的策略，如均值填充，满足模型开发者的常规用途，或只关注预测的准确性，而不会去关注少量缺失值的存在。

为了实现对数据缺失值的准确填充，现有技术采用了利用其他特征进行有监督学习来预测某些字段的缺失值。但这种预测的手段需要单独训练很多的模型，流程上较为繁琐，使得深度学习模型的数据处理效率降低。

基于此，有必要提供一种新的缺失数据填充的技术，使得在不影响深度学习模型的数据处理效率的基础上，来保证缺失数据预测的准确性。

发明内容

有鉴于此，有必要提供一种缺失样本数据填充方法、装置、存储介质和电子设备，使得在不影响深度学习模型的数据处理效率的基础上，来保证缺失数据预测的准确性。

本申请第一方面，提供了一种缺失样本数据填充方法，所述方法包括：

获取包含缺失数据的初始样本数据；

对所述初始样本数据中的缺失数据进行初始填充，形成第一样本数据；

将所述第一样本数据导入预设的VAE生成模型中，所述VAE生成模型识别所述第一样本数据中的每个数据的数据类型，选择与所述数据类型相匹配的特征分布模型来生成第二样本数据；

从所述第二样本数据中提取与所述初始样本数据中的缺失数据对应的生成数据；

将所提取的生成数据按照对应的位置填充至所述初始样本数据。

在其中一个实施例中，所述VAE生成模型识别所述第一样本数据中的每个数据的数据类型，选择与所述数据类型相匹配的特征分布模型来生成第二样本数据，包括：

所述VAE生成模型中的编码器模块根据所述第一样本数据生成第一采样数据s；

所述VAE生成模型中的解码器模块根据所述第一采样数据s生成第二采样数据z；

所述解码器模块根据所述第一采样数据s和所述第二采样数据z以及所述数据类型相匹配的特征分布模型生成所述第二样本数据。

在其中一个实施例中，所述VAE生成模型中的编码器模块根据所述第一样本数据生成第一采样数据s，包括：所述编码器模块根据所述第一样本数据按照离散Cate分布来生成第一采样数据s；

所述VAE生成模型中的解码器模块根据所述第一采样数据s生成第二采样数据z，包括：所述解码器模块根据所述第一采样数据s按照正态分布来生成第二采样数据z；

所述解码器模块根据所述第一采样数据s和所述第二采样数据z以及所述数据类型生成所述第二样本数据，包括：

当所述数据类型属于离散型数据时，所述解码器模块根据所述第一采样数据s和所述第二采样数据z按照与所述离散型数据相匹配的特征分布模型来生成所述第二样本数据；

当所述数据类型属于连续型数据时，所述解码器模块根据所述第一采样数据s和所述第二采样数据z按照与所述连续型数据相匹配的特征分布模型来生成所述第二样本数据。

在其中一个实施例中，在所述获取包含缺失数据的初始样本数据之前，还包括：

获取具备完整数据的第一训练数据；

基于所述第一训练数据对所述VAE生成模型进行训练，输出预测数据，并使所述预测数据对应的真实数据分布下界ELBO最大化；

计算所述预测数据与所述第一训练数据之间的误差，当所述误差小于预设的误差阈值时，停止对所述VAE生成模型的训练，否则继续基于所述第一训练数据对所述VAE生成模型进行训练，直至所述误差小于预设的误差阈值。

在其中一个实施例中，所述基于所述第一训练数据对所述VAE生成模型进行训练，输出预测数据，并使所述预测数据对应的真实数据分布下界ELBO最大化包括：

对所述第一训练数据进行缺失处理，形成包含缺失数据的第二训练数据，基于所述第二训练数据对所述VAE生成模型进行训练，输出预测数据，并使所述预测数据对应的真实数据分布下界ELBO最大化。

在其中一个实施例中，所述基于所述第二训练数据对所述VAE生成模型进行训练，输出预测数据，并使所述预测数据对应的真实数据分布下界ELBO最大化，包括：

对所述第二训练数据中的缺失数据进行初始填充，形成第三训练数据；

基于所述第二训练数据和所述第三训练数据计算出第一KL损失；

所述VAE生成模型中的编码器模块根据所述第三训练数据生成第三采样数据；

所述VAE生成模型中的解码器模块根据所述第三采样数据生成第四采样数据；

根据所述第四采样数据计算出第二KL损失；

所述解码器模块根据所述第三采样数据和所述第四采样数据以及所述第三训练数据的数据类型生成所述预测数据；

根据所述预测数据计算出似然函数损失；

根据所述第一KL损失、所述第二KL损失、和所述似然函数损失计算出所述真实数据分布下界ELBO，所述真实数据分布下界ELBO为所述第一KL损失、所述第二KL损失、所述似然函数损失之和。

在其中一个实施例中，所述选择与所述数据类型相匹配的特征分布模型来生成第二样本数据，包括：

获取所述每个数据的数据类型与预设的特征分布模型之间的对应关系；

基于所述对应关系选择与所述数据类型相匹配的特征分布模型；

根据所选择的特征分布模型来生成所述第二样本数据；

所述对所述初始样本数据中的缺失数据进行初始填充，包括：

根据所述缺失数据的数据特征相匹配的特征分布模型对所述缺失数据进行初始填充。

本申请第二方面，提供了一种缺失样本数据填充装置，所述装置包括：

数据获取模块，用于获取包含缺失数据的初始样本数据；

初始填充模块，用于对所述初始样本数据中的缺失数据进行初始填充，形成第一样本数据；

样本生成模块，用于将所述第一样本数据导入预设的VAE生成模型中，所述VAE生成模型识别所述第一样本数据中的每个数据的数据类型，选择与所述数据类型相匹配的特征分布模型来生成第二样本数据；

二次填充模块，用于从所述第二样本数据中提取与所述初始样本数据中的缺失数据对应的生成数据；将所提取的生成数据按照对应的位置填充至所述初始样本数据。

本申请第三方面，提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如本申请任意实施例中所述的方法。

本申请第四方面，提供了一种计算机存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如本申请任意实施例中所述的方法。

本申请的缺失样本数据填充方法、装置、存储介质和电子设备，通过利用VAE生成模型来生成与初始样本数据相似的第二样本数据，且所生成的第二样本数据中的每个数据都是按照与初始样本数据中的相应数据的数据类型匹配的特征分布模型所生成的，从而使得所生成的第二样本数据与初始样本数据相匹配，且将第二样本数据中相同位置处的生成数据提取出来填充到初始样本数据中，从而完成了对初始样本数据中的缺失数据的填充。本申请充分考虑到了初始样本数据中的异质数据的存在，利用改进的VAE生成模型，既能处理非同质数据的情形，又能很好的利用VAE生成模型中的深度神经网络的强大性能，达到很好的缺失数据填充的效果，进而提高了用户的使用体验。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对本申请范围的限定。

图1为一个实施例中缺失样本数据填充方法的流程图；

图2为一个实施例中VAE生成模型识别第一样本数据中的每个数据的数据类型，选择与数据类型相匹配的特征分布模型来生成第二样本数据的流程图；

图3为一个实施例中VAE生成模型生成第二样本数据的网络示意图；

图4为一个实施例中VAE生成模型训练的流程图；

图5为一个实施例中基于第二训练数据对VAE生成模型进行训练，输出预测数据，并使预测数据对应的真实数据分布下界ELBO最大化的流程图；

图6为一个实施例中VAE生成模型训练的网络示意图；

图7为一个实施例中缺失样本数据填充装置的结构框图；

图8为另一个实施例中缺失样本数据填充装置的结构框图；

图9为一个实施例中电子设备的内部结构图。

具体实施方式

以下，将参照附图来描述本申请的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本申请的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本申请的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本申请。这里使用的词语“一”、“一个（种）”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了相应特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

另外，本文中尽管多次采用术语“第一”、“第二”等来描述各种元件(或各种阈值或各种应用或各种指令或各种操作)等，不过这些元件(或阈值或应用或指令或操作)不应受这些术语的限制。这些术语只是用于区分一个元件(或阈值或应用或指令或操作)和另一个元件(或阈值或应用或指令或操作)。例如，第一阈值可以称为第二阈值，第二阈值也可以称为第一阈值，而不脱离本发明的范围，第一阈值和第二阈值二者并不是相同的数值而已。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

本申请中所使用到的部分的参数的含义如下表1所示。

表1

在一个实施例中，提供了一种缺失样本数据填充方法，如图1所示，该方法包括：

步骤102，获取包含缺失数据的初始样本数据。

本实施例中，初始样本数据为包含了缺失数据的数据集。该数据集x^o可为M×D维的数据，其中每一行或每一列的数据可为一份数据，即数据集中可包括多份数据。其中的一份或多份数据中可以存在多个数据缺失。以每一行数据作为一份数据来说，其中的每个数据可为该份数据中的其中一个维度的数据。

比如每一行数据可代表一个用户的个人资料信息，以数据x_i=[x_i1,x_i2,x_i3……x_iD]来表示第i个用户的个人资料信息，即该数据集中的第i行数据，或第i份数据。其中x_i1可以表示用户的姓名，x_i2表示用户的年龄，x_i3表示用户的考试成绩，x_i4表示用户的性别，x_i5表示用户的职业，x_i6表示用户的身高，x_i7表示用户的体重等。可以理解的，在M×D维的数据集中，存在其中一份或多份数据中的一个或多个维度的数据是存在缺失的。

步骤104，对初始样本数据中的缺失数据进行初始填充，形成第一样本数据。

本实施例中，电子设备可以对这些缺失的数据进行填充补全，从而形成第一样本数据。具体的，补全的方式可以是将所有缺失的数据均以0进行补全，还可以是根据相应的数据的数据类型来进行补全，使得补全的数据与其数据类型相匹配，从而可以进一步提高后续补全的数据的准确性。

其中，数据类型可包括离散型和连续型，以及其他的相关类型。数据集中的每个元素的数据均属于其中一种数据类型。比如上述的第1列数据用户的姓名、第4列用户的性别、第5列用户的职业等均为离散型数据；而第2列用户的年龄、第3列用户的考试成绩第6列用户的身高、第7列用户的体重等均为连续型数据。

其中，数据类型可以进行进一步的细分，比如离散型数据可以进一步细分为无序离散型数据和有序离散型数据等；连续型数据可进一步细分为区间型数据和比率型数据。

其中，有序离散型数据表示相应数据类别之间有明确的顺序或等级关系，但相邻类别之间的差异并不一定是相等的，比如成绩等级（优秀、良好、及格、不及格）、教育程度（小学、初中、高中、本科、研究生）、产品评价（非常满意、满意、一般、不满意、非常不满意）等均为离散型数据，且具体是有序型数据，因为它们具有明确的顺序，但各个等级之间的分数差异不一定相等。无序离散型数据中不同的类别之间没有固定的顺序或等级关系，与有序型数据形成对比，有序型数据中类别之间存在明确的顺序关系。比如性别（男、女）、颜色（红、蓝、绿）等都是名义型数据。

区间型数据表示可度量的数据，其中相邻数值之间的差异是相等的，但它们没有绝对零点。绝对零点表示不存在该属性的情况，但在区间型数据中，并没有真正的零点。比如温度（摄氏度或华氏度）、IQ 分数、年代（公元1年、公元100年、公元200年）等数据是一个区间型数据，因为在温度上存在等间隔的差异，但并没有真正的零度。例如，0摄氏度并不表示完全没有温度。比率型数据也是可度量的，但相邻数值之间的差异是相等的，并且存在绝对零点，零点表示不存在该属性的情况。在比率型数据中，零点是真实的零，而不仅仅是一个度量的起点。比如长度、重量、收入、温度（开尔文）、时间间隔等都是比率型数据，因为它们具有等间隔的差异，并且可以有真正的零点，例如长度为0表示不存在长度。

在一个实施例中，对初始样本数据中的缺失数据进行初始填充，包括：根据缺失数据的数据特征相匹配的特征分布模型对缺失数据进行初始填充。

***设置了多个特征分布模型，并建立了不同的数据类型和特征分布模型之间的对应关系。该特征分布模型可包括正态分布、categorical分布（离散Cate分布）、多项分布、混合高斯分布、伯努利分布、均匀分布、指数分布、Beta分布、Dirichlet分布、威布尔分布等。

不同的数据类型适合采用不同的特征分布模型来进行初始填充，基于该对应关系，可以确定所采用的特征分布模型来随机生成相应的初始填充数据，并将该初始填充数据对初始样本数据中的缺失数据进行初始填充，形成第一样本数据。

步骤106，将第一样本数据导入预设的VAE生成模型中，VAE生成模型识别第一样本数据中的每个数据的数据类型，选择与数据类型相匹配的特征分布来生成第二样本数据。

本实施例中，***设置了相应的变分自编码器（VAE）生成模型，该VAE生成模型为预先训练完成的模型，基于该模型，可以生成与第一样本数据相似的第二样本数据，该第二样本数据中同样不存在相应的缺失数据。

其中，VAE生成模型中包括编码器模块和解码器模块，其能够识别第一样本数据中的每个数据元素的潜在分布。其中，编码器模块将输入的第一样本数据编码为潜在空间中的分布参数，形成第一采样数据s。这个潜在空间的分布可为预设的一种分布模型，比如为正态分布或离散Cate分布。以正态分布为例来说，编码器模块所输出的分布参数即包括第一采样数据s的均值μ和方差σ²等参数。编码器模块进一步通过重参数化技巧，从编码器输出的分布参数（均值μ和方差σ²）中采样出潜在变量的值，使梯度反向传播更容易，并且有助于在训练过程中对潜在变量的分布进行学习。

编码器将采样得到的潜在变量被传递给解码器模块，解码器负责将潜在变量映射回原始数据的分布空间，形成第二样本数据。这个分布空间的选择取决于数据的数据类型。具体地，在解码器网络中，根据第一样本数据中每个数据的数据类型，选择与其相匹配的特征分布模型。这是模型根据数据类型的不同选择适当的分布，比如当某个维度的数据为连续型数据，则编码器采用正态分布等适合于连续型数据的分布模型来生成第二样本数据；如果某个维度的数据为离散型数据，则编码器采用多项分布、伯努利分布、categorical分布等适合于离散型数据的分布模型来生成第二样本数据。

可选地，第二样本数据中的不同维度的数据的数据类型不一定相同，故而针对不同维度的数据，分别采用不同的模型来生成，比如针对其中的第i维度的数据，采用其中一种分布模型来生成，针对其中的第j维度的数据，采用另一种分布模型来生成。当完成了每个维度的数据的生成后，则形成了第二样本数据，即第二样本数据为各个维度的数据的集合。其中，第i维度的数据可为与M×D维的数据集中对应的第i列的数据；第j维度的数据可为与M×D维的数据集中对应的第j列的数据，所生成的第一样本数据、第二样本数据的数据尺寸与初始样本数据的数据尺寸相同，均为M×D维的数据集。

在一个实施例中，选择与数据类型相匹配的特征分布模型来生成第二样本数据，包括：获取每个数据的数据类型与预设的特征分布模型之间的对应关系；基于对应关系选择与数据类型相匹配的特征分布模型；根据所选择的特征分布模型来生成第二样本数据。

本实施例中，VAE生成模型中也预设了多种特征分布模型，每种特征分布模型可以适用一种或多种数据类型。针对初始样本数据中的每个维度的数据，VAE生成模型可以获取或分析出相应维度的数据所属的数据类型，并采取与该数据类型相适配的特征分布模型来生成第二样本数据。比如针对其中的某个维度的数据属于连续型数据时，则可以根据该对应关系选择正态分布模型来生成对应维度的数据，当某个维度的数据属于离散型数据时，可以根据该对应关系选择categorical分布来生成对应维度的数据，在完成了所有维度的生成之后，将其进行集合，形成第二样本数据。可以理解的，第二样本数据中的每个维度的数据基于其所属的数据类型来选择匹配的特征分布模型，因此，第二样本数据中的每个维度的数据最终所选取的数据类型可以是相同的，也可以是不同的。比如当第二样本数据中的所有维度的数据均为离散型，则可以统一采用categorical分布来生成对应维度的数据，形成第二样本数据；当第二样本数据中的所有维度的数据均为连续型，则可以统一采用正态分布来生成对应维度的数据，形成第二样本数据；若当其中的一部分数据是离散型，另一部分数据是连续型，则针对该一部分的离散型数据采用categorical分布来生成对应的数据，而另一部分的连续型数据采用正态分布来生成对应的数据，从而最终形成第二样本数据。

本实施例中，通过根据初始样本数据中的每个维度的数据来选择合适的分布模型，可以提高所生成的第二样本数据与初始样本数据的匹配性，从而使得填充后的样本数据的可用性更高。

步骤108，从第二样本数据中提取与初始样本数据中的缺失数据对应的生成数据。

步骤110，将所提取的生成数据按照对应的位置填充至初始样本数据。

本实施例中，由于第二样本数据中已经生成了完整的数据，故而可以从第二样本数据中提取出相应的数据元素作为生成数据，该生成数据在第二样本数据中的位置与初始样本数据中的缺失数据所处的位置一致。举例来说，比如初始样本数据中的第m行第n列的数据x_mn存在缺失，则将第二样本数据中处于第m行第n列的数据y_mn作为生成数据，将其补入至初始样本数据中的第m行第n列的数据中，作为数据元素x_mn。

本申请中的缺失样本数据填充方法，通过利用VAE生成模型来生成与初始样本数据相似的第二样本数据，且所生成的第二样本数据中的每个数据都是按照与初始样本数据中的相应数据的数据类型匹配的特征分布模型所生成的，从而使得所生成的第二样本数据与初始样本数据相匹配，且将第二样本数据中相同位置处的生成数据提取出来填充到初始样本数据中，从而完成了对初始样本数据中的缺失数据的填充。而传统的利用固定的某一种分布模型来生成所有的第二样本数据，其无法解决异质数据情形（即同时存在连续和离散特征）下，简单的均值填充或者只有一种固定的分布模型难以拟合出逼近高维度特征下的复杂数据集的初始样本数据的缺失数据。本申请充分考虑到了初始样本数据中的异质数据的存在，利用改进的VAE生成模型，既能处理非同质数据的情形，又能很好的利用VAE生成模型中的深度神经网络的强大性能，达到很好的缺失数据填充的效果。

在一个实施例中，结合图2所示，VAE生成模型识别第一样本数据中的每个数据的数据类型，选择与数据类型相匹配的特征分布模型来生成第二样本数据，包括：

步骤202，VAE生成模型中的编码器模块根据第一样本数据生成第一采样数据s。

步骤204，VAE生成模型中的解码器模块根据第一采样数据s生成第二采样数据z。

步骤206，解码器模块根据第一采样数据s和第二采样数据z以及数据类型相匹配的特征分布模型生成第二样本数据。

本实施例中，编码器模块接收第一样本数据，经过神经网络结构，生成潜在变量的分布参数，比如为均值μ和方差σ²。利用重参数化技巧，从这个分布中采样得到潜在变量s，该潜在变量s 就是第一采样数据。

其中，编码器网络包含多个层，比如包括卷积层、全连接层等其中的一种或多种，以抽取输入数据的特征。

将第一采样数据s 传递给解码器模块。解码器模块的任务是将s 映射回数据空间。解码器网络可能会利用潜在变量s 和其他输入信息，生成第二采样数据z。此过程为解码器的反向操作。

特征分布模型的参数与解码器模块的输出有关，以确保生成的数据符合所选择的分布。在生成了第二采样数据z之后，解码器模块根据第一采样数据s 和第二采样数据z，以及第一采样数据中每列数据所属的数据类型，获取与之相匹配的特征分布模型来生成对应列的数据，从而最终生成第二样本数据。

其中，如果该数据类型为连续型的，则可以使用正态分布，解码器模块生成的第二样本数据中的对应列的数据将符合正态分布的特征。

如果数据是离散型的，可以选择适当的离散型分布，例如多项分布，生成的第二样本数据中的对应列的数据将符合正态分布的特征。

如果数据是二元离散型数据，可以选择伯努利分布，生成对应列的数据为二元的数据。

整个过程的目标是通过学习潜在空间的结构，以及选择合适的特征分布模型，使得模型能够生成具有相似特性的新样本。在这个过程中，通过最小化重构误差和潜在空间的正则化项，VAE生成模型学习如何有效地生成具有类似于输入数据的新样本。

在一个实施例中，步骤202、步骤204以及步骤206中，每个步骤所采用的特征分布模型均根据初始样本数据中的数据类型而确定，也可以是只有部分步骤中使用到的特征分布模型才需要根据初始样本数据来固定。比如在步骤202和步骤204中所生成的第一采样数据s和第二采样数据z均为根据固定的特征分布模型而生成的，仅在步骤206中所生成的第二样本数据所采用的特征分布模型是基于相关数据的数据类型而确定的。

具体地，在步骤202中所使用的特征分布模型固定为离散Cate分布模型，在步骤204中所使用的特征分布模型固定为正态分布模型，而在步骤206中所使用的特征分布模型则根据各个维度的数据所属的数据类型来确定，其中各个维度的数据对应的特征分布模型可以相同，也可以不同，使得最终生成的每个维度的数据与初始样本数据更加逼近。

在一个实施例中，结合图3所示，步骤202包括：编码器模块根据第一样本数据按照离散Cate分布来生成第一采样数据s；步骤204包括：解码器模块根据第一采样数据s按照正态分布来生成第二采样数据z；步骤206包括：当数据类型属于离散型数据时，解码器模块根据第一采样数据s和第二采样数据z按照与离散型数据相匹配的特征分布模型来生成第二样本数据；当数据类型属于连续型数据时，解码器模块根据第一采样数据s和第二采样数据z按照与连续型数据相匹配的特征分布模型来生成第二样本数据。

其中，如图3所示，图中的每个框均为VAE生成模型中的一个深度神经网络。以初始样本数据中的所有数据的数据类型为连续型数据，采用的相匹配的特征分布模型为正态分布模型来说，编码器模块可以根据离散Cate分布来生成第一采样数据s，其中该第一采样数据s可以表示为图3中的Cate(s|π(x^~))，基于该第一采样数据s来进一步计算均值μ_p(s)，在计算出了μ_p(s)之后，解码器模块进一步通过深度神经网络来计算出第二采样数据z，其可以表示为图3中的N(μ_p,I)，进而再利用第二采样数据z来计算出y,其可以表示为g(z)，最后基于第一采样数据s和y计算出h_d(y_d,s)，进而按照样本数据中的每一个维度的数据所属的数据类型，采用与之相匹配的分布模型来计算出第二样本数据，其中μ_d(y_d,s)表示其为基于x和y_d所计算出来的第二样本数据中的第d列数据，x表示初始样本数据，x^~表示第一样本数据，d=1，2，3……D。d表示第d维度的数据，该数据与第二样本数据中的第d列对应。

其中，μ_p(s)为一个神经网络MLP层的输出的信息，该神经网络MLP层输入为s，输出就是μ_p(s)，网络输出层的节点数即为z的维度；N(μ_p,I)表示为采用正态分布概率密度函数计算出来的数据，其均值为μ_p，即上述的μ_p(s)，I为方差矩阵，具体可为单位矩阵。y=g(z)，也是一个MLP层的输出的信息，其输入为z，输出为y，y的维度即特征的数量；h_d(y_d,s)也是一个MLP层的输出的信息，其输入为y_d和s，y_d表示y的第d维数据。

举例来说，初始样本数据x=，其为3×3的数据集，则d=1，2，3；x_nd表示初始样本数据中第n行第d列的数据，比如x₃₂=3.0。NaN表示空值，即该数据元素缺失。对该初始样本数据进行初始填充，比如对该缺失的数据以0填充，形成的第一样本数据x^~=/>，经过上述的过程所生成的第二样本数据为/>，将与初始样本数据中的缺失数据对应的生成元素提取出来，填充到初始样本数据中的对应位置的元素中，形成的填充后的样本数据即为/>。

在一个实施例中，如图4所示，本申请中的缺失样本数据填充方法还包括VAE生成模型训练的过程，该过程可在上述的步骤102之前执行，包括：

步骤402，获取具备完整数据的第一训练数据。

本实施例中，第一训练数据是用来对VAE生成模型进行训练的数据集，其不存在缺失数据。第一训练数据的维度可以跟初始样本数据相同，也可以不相同。本实施例以第一训练数据同样为M×D维的数据集来进行说明。

步骤404，基于第一训练数据对VAE生成模型进行训练，输出预测数据，并使预测数据对应的真实数据分布下界ELBO最大化。

本实施例中，VAE生成模型可以直接将第一训练数据用来进行模型训练，将第一训练数据输入到VAE生成模型中，生成相应的预测数据，该预测数据的维度与第一训练数据相同。

在一个实施例中，在将第一训练数据输入到VAE生成模型中之前，还对第一训练数据进行缺失处理，形成包含缺失数据的第二训练数据，基于第二训练数据对VAE生成模型进行训练，输出预测数据，并使预测数据对应的真实数据分布下界ELBO最大化。

其中，可以将第一训练数据中的数据随机进行缺失处理，比如将其中的一定比例的数据隐藏，以形成类似与第一样本数据的缺失形态的第二训练数据，将第二训练数据来作为VAE生成模型的输入。第二训练数据的维度可以跟第一训练数据相同，也可以不相同。比如均为M×D维的数据集。

可选地，在对第一训练数据进行缺失处理的时候，可以设置相应的随机函数，从每个第一训练数据中的一个或多个维度的数据中筛选出需要进行缺失屏蔽的数据元素。进而将筛选出来的数据元素的值进行删除，形成缺失数据，并生成第二训练数据。其中该随机函数可以选取的比例可根据需要进行任意设置，各个维度的数据中的缺失比例可以相同或者不同，比如可以统一设置各个维度的数据缺失1%、0.5%、2%、3%、5%等任意合适的比例，或者仅对某一个或几个维度设置缺失，其他维度的数据不进行缺失处理。

真实数据分布下界（或称“证据下界”、“模型证据下界”，Evidence Lower Bound）ELBO，该证据指数据或可观测变量的概率密度。ELBO是由观测数据的对数边缘概率和近似后验分布的KL损失（Kullback-Leibler Loss或称“LK loss”）之差构成的。KL损失函数是衡量两个概率分布之间距离的一种方式，比如衡量近似分布（比如第二样本数据或预测数据）与真实后验分布（比如初始样本数据或第一训练数据）之间的差异，因此ELBO可以看作是真实对数边缘概率的下界。通过最大化ELBO，可以使近似分布尽可能接近真实后验分布，从而提高VAE生成模型的拟合程度。

具体地，VAE生成模型中存在多个KL损失以及似然函数损失，似然函数损失与KL损失类似，都是用来衡量模型生成观测数据（比如第二样本数据或预测数据）的概率分布与实际观测数据（比如初始样本数据或第一训练数据）之间的差异的损失函数。ELBO可为各个KL损失以及似然函数损失之和。KL损失可包括下述的第一KL损失和第二KL损失。

在一个实施例中，如图5所示，基于第二训练数据对VAE生成模型进行训练，输出预测数据，并使预测数据对应的真实数据分布下界ELBO最大化，包括：

步骤502，对第二训练数据中的缺失数据进行初始填充，形成第三训练数据。

本实施例中，初始填充的过程与上述步骤104类似。补全的方式可以是将所有缺失的数据均以0进行补全，还可以是根据相应的数据的数据类型来进行补全，使得补全的数据与其数据类型相匹配。如一个第二训练数据为 [NaN,7,7,NaN,8,1,NaN,1,8]的9维x^o向量，NaN代表缺失值，补0填充后的第三训练数据为[0,7,7,0,8,1,0,1,8]的9维向量x^~。

步骤504，基于第二训练数据和第三训练数据计算出第一KL损失。

步骤506，VAE生成模型中的编码器模块根据第三训练数据生成第三采样数据。

本实施例中，与上述步骤202类似，编码器模块根据第三训练数据按照离散Cate分布来生成第三采样数据s，其表示为Cate(s|π(x^~))。

步骤508，VAE生成模型中的解码器模块根据第三采样数据生成第四采样数据。

本实施例中，与上述步骤204类似，解码器模块根据第三采样数据s按照正态分布来生成第四采样数据z，其表示为N(μ_p,I)。

步骤510，根据第四采样数据计算出第二KL损失。

步骤512，解码器模块根据第三采样数据和第四采样数据以及第三训练数据的数据类型生成预测数据。

本实施例中，与上述步骤206类似，当数据类型属于离散型数据时，解码器模块根据第三采样数据s和第四采样数据z按照与离散型数据相匹配的特征分布模型来生成预测数据；当数据类型属于连续型数据时，解码器模块根据第三采样数据s和第四采样数据z按照与连续型数据相匹配的特征分布模型来生成预测数据。

步骤514，根据预测数据计算出似然函数损失。

步骤516，根据第一KL损失、第二KL损失、和似然函数损失计算出真实数据分布下界ELBO。

其中，真实数据分布下界ELBO为第一KL损失、第二KL损失、似然函数损失之和。

结合图6所示，以输入观测向量x^o为起始点，最终输出3个损失函数并相加作为最终的损失函数，然后做反向传播训练模型。其中，采样s步骤使用Gumbel-Maxreparametriztion trick方法。在框计算π(x^~)之后的每个框均为一个深度神经网络，每个模块的网络结构及层数可自行设定，比如可以设置为2层网络或3层网络等。各网络结构根据输出的需要来调整输出层的形式，如需要输出一个实数，则输出层则为一个node；如需要输出一个离散分布，则输出层为softmax层。其中，可将编码器模块中正态分布的方差矩阵设定为对角阵，并且将解码器模块中连续型特征的正态分布也设定成对角阵，以此来加速模型训练。

其中，x^o表示实际观测数据向量(如果右下带角标n，代表第n条观测数量向量)，在本实施例中为第二训练数据。x^~表示缺失值进行了初始填充之后的向量，在本实施例中为第三训练数据。

其中第一KL损失表示第二训练数据和第三训练数据的概率分布之间距离；第二KL损失表示第二训练数据和第三训练数据的概率分布之间距离。该第一KL损失=；第二KL损失=；似然函数损失=。即。

在得到第三训练数据之后，计算出第二训练数据和第三训练数据之间的第一KL损失。编码器模块可以根据离散Cate分布来生成第三采样数据s，其中该第一采样数据s可以表示为图6中的Cate(s|π(x^~))，基于该第一采样数据s来进一步计算均值μ_p、μ_q、∑_q，再根据μ_p、μ_q、∑_q计算出第二KL损失。同时，解码器模块根据μ_q、∑_q进一步通过深度神经网络来计算出第二采样数据z，其可以表示为图6中的N(μ_q，∑_q)，即均值为μ_q，方差矩阵为∑_q的符合正态分布的数据。进而再利用第二采样数据z来计算出y,其可以表示为g(z)，最后基于第一采样数据s和y计算出h_d(y_d,s)，进而按照样本数据中的每一个维度的数据所属的数据类型，采用与之相匹配的分布模型来计算出预测数据logp(x_d|y_d, s)，其中p(x_d|y_d, s)表示基于s和y_d所计算出来的预测数据中的第d列数据，x^o表示第二训练数据，x^~表示第三训练数据，d=1，2，3……D。d表示第d维度的数据，该数据与第二训练数据中的第d列对应。

步骤406，计算预测数据与第一训练数据之间的误差，比较误差和预设的误差阈值的大小。

当误差小于预设的误差阈值时，停止对VAE生成模型的训练，否则继续执行步骤404，直至误差小于预设的误差阈值。

电子设备可以设置相应的误差阈值，比较所计算出来的误差和该误差阈值之间的大小，如果小于误差阈值，则可以停止VAE生成模型训练，并保存训练好的VAE生成模型，若误差不小于误差阈值，则返回到步骤404中继续进行训练，不断地优化VAE生成模型红的目标函数、更新网络参数等，直至最终的误差小于预设的误差阈值，完成VAE生成模型的训练。

在完成了VAE生成模型的训练之后，可以将VAE生成模型封装成一个VAE回归器(VAE regressor)，该回归器具有fit和transform方法，类似于scikit-learn中的机器学习模型。fit方法用于在训练数据上进行模型的训练和参数的调整，而transform方法则用于将输入数据转换为潜在空间中的表示或从潜在空间生成新的数据。

进一步地，将该VAE回归器与其他在训练数据上训练好的数据预处理步骤一起串联成一个管道pipeline，并保存该管道，以便后续与其他预处理步骤一起使用。这些预处理步骤可以包括数据清洗、特征提取、归一化等常见的数据处理操作。

在具体使用该VAE生成模型时，可使用加载的管道对初始样本数据进行数据的处理和转换。具体的处理和转换操作可以通过调用管道中的transform方法来实现，将初始样本数据输入到管道中，经过一系列的数据处理和转换操作后，得到填充了生成数据后的初始样本数据。

在一个实施例中，如图7所示，提供了一种缺失样本数据填充装置，装置包括：

数据获取模块702，用于获取包含缺失数据的初始样本数据。

初始填充模块704，用于对初始样本数据中的缺失数据进行初始填充，形成第一样本数据。

样本生成模块706，用于将第一样本数据导入预设的VAE生成模型中，VAE生成模型识别第一样本数据中的每个数据的数据类型，选择与数据类型相匹配的特征分布模型来生成第二样本数据。

二次填充模块708，用于从第二样本数据中提取与初始样本数据中的缺失数据对应的生成数据；将所提取的生成数据按照对应的位置填充至初始样本数据。

在一个实施例中，样本生成模块706还用于调用VAE生成模型中的编码器模块根据第一样本数据生成第一采样数据s；调用VAE生成模型中的解码器模块根据第一采样数据s生成第二采样数据z；调用解码器模块根据第一采样数据s和第二采样数据z以及数据类型相匹配的特征分布模型生成第二样本数据。

在一个实施例中，样本生成模块706还用于调用编码器模块根据第一样本数据按照离散Cate分布来生成第一采样数据s；调用解码器模块根据第一采样数据s按照正态分布来生成第二采样数据z。

在一个实施例中，样本生成模块706还用于当数据类型属于离散型数据时，解码器模块根据第一采样数据s和第二采样数据z按照与离散型数据相匹配的特征分布模型来生成第二样本数据；当数据类型属于连续型数据时，解码器模块根据第一采样数据s和第二采样数据z按照与连续型数据相匹配的特征分布模型来生成第二样本数据。

在一个实施例中，如图8所示，该装置还包括：

模型训练模块701，用于获取具备完整数据的第一训练数据；基于第一训练数据对VAE生成模型进行训练，输出预测数据，并使预测数据对应的真实数据分布下界ELBO最大化；计算预测数据与第一训练数据之间的误差，当误差小于预设的误差阈值时，停止对VAE生成模型的训练，否则继续基于第一训练数据对VAE生成模型进行训练，直至误差小于预设的误差阈值。

在一个实施例中，模型训练模块701还用于对第一训练数据进行缺失处理，形成包含缺失数据的第二训练数据，基于第二训练数据对VAE生成模型进行训练，输出预测数据，并使预测数据对应的真实数据分布下界ELBO最大化。

在一个实施例中，模型训练模块701还用于对第二训练数据中的缺失数据进行初始填充，形成第三训练数据；基于第二训练数据和第三训练数据计算出第一KL损失；调用VAE生成模型中的编码器模块根据第三训练数据生成第三采样数据；调用VAE生成模型中的解码器模块根据第三采样数据生成第四采样数据；根据第四采样数据计算出第二KL损失；调用解码器模块根据第三采样数据和第四采样数据以及第三训练数据的数据类型生成预测数据；根据预测数据计算出似然函数损失；根据第一KL损失、第二KL损失、和似然函数损失计算出真实数据分布下界ELBO，真实数据分布下界ELBO为第一KL损失、第二KL损失、似然函数损失之和。

在一个实施例中，样本生成模块706还用于获取每个数据的数据类型与预设的特征分布模型之间的对应关系；基于对应关系选择与数据类型相匹配的特征分布模型；根据所选择的特征分布模型来生成第二样本数据。

在一个实施例中，初始填充模块704还用于根据缺失数据的数据特征相匹配的特征分布模型对缺失数据进行初始填充。

在一个实施例中，提出了一种电子设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述任意实施例中的缺失样本数据填充方法的步骤。

在一个实施例中，提出了一种计算机存储介质，其上存储有计算机可执行指令，该指令被处理器执行时，使得处理器执行上述任意实施例中的缺失样本数据填充方法的步骤。

在一个实施例中，提供了一种电子设备，该电子设备具体可以是终端，也可以是服务器。如图9所示，电子设备900包括中央处理单元（CPU）901，其可以根据存储在只读存储器（ROM）902中的程序或者从存储部分908加载到随机访问存储器（RAM）903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有电子设备900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出（I/O）接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，包括承载指令的在计算机存储介质，在这样的实施例中，该指令可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该指令被中央处理单元（CPU）901执行时，执行本发明中描述的各个方法步骤。

尽管已经描述了示例实施例，但是对于本领域技术人员来说显而易见的是，在不脱离本发明构思的精神和范围的情况下，可以进行各种改变和修改。因此，应当理解，上述示例实施例不是限制性的，而是说明性的。

Claims

1.一种缺失样本数据填充方法，其特征在于，所述方法包括：

获取包含缺失数据的初始样本数据；

将所述第一样本数据导入预设的VAE生成模型中，所述VAE生成模型识别所述第一样本数据中的每个数据的数据类型，选择与所述数据类型相匹配的特征分布模型来生成第二样本数据，包括：所述VAE生成模型中的编码器模块根据所述第一样本数据按照离散Cate分布来生成第一采样数据，所述VAE生成模型中的解码器模块根据所述第一采样数据按照正态分布来生成第二采样数据，当所述数据类型属于离散型数据时，所述解码器模块根据所述第一采样数据和所述第二采样数据按照与所述离散型数据相匹配的特征分布模型来生成所述第二样本数据，当所述数据类型属于连续型数据时，所述解码器模块根据所述第一采样数据和所述第二采样数据按照与所述连续型数据相匹配的特征分布模型来生成所述第二样本数据；

2.根据权利要求1所述的一种缺失样本数据填充方法，其特征在于，在所述获取包含缺失数据的初始样本数据之前，还包括：

获取具备完整数据的第一训练数据；

3.根据权利要求2所述的一种缺失样本数据填充方法，其特征在于，所述基于所述第一训练数据对所述VAE生成模型进行训练，输出预测数据，并使所述预测数据对应的真实数据分布下界ELBO最大化包括：

4.根据权利要求3所述的一种缺失样本数据填充方法，其特征在于，所述基于所述第二训练数据对所述VAE生成模型进行训练，输出预测数据，并使所述预测数据对应的真实数据分布下界ELBO最大化，包括：

根据所述第四采样数据计算出第二KL损失；

根据所述预测数据计算出似然函数损失；

5.根据权利要求1所述的一种缺失样本数据填充方法，其特征在于，

6.一种缺失样本数据填充装置，其特征在于，所述装置包括：

数据获取模块，用于获取包含缺失数据的初始样本数据；

二次填充模块，用于从所述第二样本数据中提取与所述初始样本数据中的缺失数据对应的生成数据；将所提取的生成数据按照对应的位置填充至所述初始样本数据；

所述样本生成模块还用于调用所述VAE生成模型中的编码器模块根据所述第一样本数据按照离散Cate分布来生成第一采样数据，所述VAE生成模型中的解码器模块根据所述第一采样数据按照正态分布来生成第二采样数据，当所述数据类型属于离散型数据时，调用所述解码器模块根据所述第一采样数据和所述第二采样数据按照与所述离散型数据相匹配的特征分布模型来生成所述第二样本数据，当所述数据类型属于连续型数据时，调用所述解码器模块根据所述第一采样数据和所述第二采样数据按照与所述连续型数据相匹配的特征分布模型来生成所述第二样本数据。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至5中任一项所述的一种缺失样本数据填充方法。

8.一种计算机存储介质，其特征在于，所述存储介质存储有可执行指令，所述指令被处理器执行时使处理器执行如权利要求1至5中任一项所述的一种缺失样本数据填充方法。