CN109165664A - 一种基于生成对抗网络的属性缺失数据集补全与预测方法 - Google Patents
一种基于生成对抗网络的属性缺失数据集补全与预测方法 Download PDFInfo
- Publication number
- CN109165664A CN109165664A CN201810722774.3A CN201810722774A CN109165664A CN 109165664 A CN109165664 A CN 109165664A CN 201810722774 A CN201810722774 A CN 201810722774A CN 109165664 A CN109165664 A CN 109165664A
- Authority
- CN
- China
- Prior art keywords
- data
- network
- prediction
- attribute
- filling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013480 data collection Methods 0.000 title claims abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000012217 deletion Methods 0.000 claims abstract description 28
- 230000037430 deletion Effects 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 238000004519 manufacturing process Methods 0.000 claims abstract description 13
- 238000009826 distribution Methods 0.000 claims abstract description 12
- 238000010606 normalization Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims abstract description 5
- FNMKZDDKPDBYJM-UHFFFAOYSA-N 3-(1,3-benzodioxol-5-yl)-7-(3-methylbut-2-enoxy)chromen-4-one Chemical compound C1=C2OCOC2=CC(C2=COC=3C(C2=O)=CC=C(C=3)OCC=C(C)C)=C1 FNMKZDDKPDBYJM-UHFFFAOYSA-N 0.000 claims abstract description 3
- 230000004913 activation Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000004069 differentiation Effects 0.000 claims description 4
- 238000003475 lamination Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 241001269238 Data Species 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 238000002203 pretreatment Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 4
- 239000000945 filler Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于生成对抗网络的属性缺失数据集补全与预测方法,包括步骤:1)对数据minmax归一化,同时对离散类型的属性使用one hot编码,缺失值标记为0;2)使用数据集建立关于样本的缺失位置编码向量;3)构建生成式对抗网络与辅助预测网络进行数据填充与标签的预测;4)根据属性中最大最小值还原为minmax归一化前的结果;5)通过测试选取合适的超参数;本发明充分利用数据集中数据分布信息与标签信息,能够对高维度缺失数据集进行有效的数据填充,同时在训练完成之后,该方法中包含的另一辅助预测网络能够直接队输入的属性缺失数据给出标签的预测结果,流程简捷、具有更高的预测准确率。
Description
技术领域
本发明涉及数据预处理的技术领域,尤其是指一种基于生成对抗网络的属性缺失数据集补全与预测方法。
背景技术
数据集属性缺失这一现象在各类数据集中广泛存在,通常是在数据采集或者传输的过程中信息丢失造成的。数据集中的样本丢失一个与多个属性会使后续建立预测、分类的模型预测精度下降。如何对这些缺失数据进行补全,并利用具有属性缺失的样本蕴含的信息来构建高精度的预测模型,是数据预处理面临的一个关键问题。
多数统计工具采取删除缺失样本对应行、列的方式处理属性缺失的问题,或者使用该列中位数、平均数对缺失位置进行填充;这类方式虽然高效、便捷,但未能完全利用样本数据分布信息,造成计算结果的不准确。在多维数据处理的过程中,数据不同属性之间往往存在很多关联性,这些属性之间的关联性可以为数据的填充提供更多的信息,考虑到这类关联性的数据填充方法,在对缺失值进行估计时会有更小的偏差,从而能够深度挖掘缺失样本蕴含的信息。
在此基础上,更进一步的数据填充方法通过建模来填补缺失值。如回归填补法将缺失属性作为因变量建立回归方程实现预测,EM算法先初始化缺失值,通过E步与M步迭代来得到最终的填补结果,k邻近算法(KNN)则根据未缺失的属性计算欧式距离匹配样本集中最相似的k个样本,通过加权平均得到填补结果。这些算法往往在数据量足够的情况下,取得比均值、中位数更准确的填补结果,然后通常也存在一些问题:回归填补法中,需要各属性之间有显著地线性关系,而基于EM算法的填充方法,计算复杂度高,并且容易陷入局部最优;基于k近邻的填充方法实现简单,但在面对大数据量时,计算量大复杂度极高导致计算困难。
此外,数据填充的主要目的是为了提供更多完整的数据以供后续的建模预测。以上方法中未涉及到建模的过程,填充的数据往往和预测的标签往往会存在一些关联,将预测模型与填充方法结合起来能够使得填充得到的数据能起到更好的预测效果。针对传统数据填充方法处理高维度数据时存在计算复杂度高,未能充分挖掘标签信息以修正填充结果这两个问题;本发明将基于生成式对抗网络学习数据分布进行数据填充,同时建立一个辅助预测网络充分挖掘数据与标签之间的关联,使得其互信息达到最大。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于生成对抗网络的属性缺失数据集补全与预测方法,充分利用数据集中数据分布信息与标签信息,能够对高维度缺失数据集进行有效的数据填充,同时在训练完成之后,该方法中包含的另一辅助预测网络能够直接对输入的属性缺失数据给出标签的预测结果,流程简捷、具有更高的预测准确率。
为实现以上目的,本发明所提供的技术方案为:一种基于生成对抗网络的属性缺失数据集补全与预测方法,首先,针对属性缺失的数据集进行数据预处理,主要包括minmax归一化和离散的数值变量的one hot编码转换;然后针对具有属性缺失的样本,构建缺失位置的编码向量,从而表达缺失的位置信息;接着构建缺失数据的填充网络与辅助预测网络同步完成缺失数据的填充与标签预测;在网络训练完成之后,以填充网络中生成网络的输出结果为填充的结果,根据minmax归一化时记录的列最大最小值进行尺度还原;最后,通过不断修改超参数观测其在验证集的预测结果的损失来完成超参数的设置;其包括以下步骤
1)数据预处理;
2)构建缺失位置编码向量;
3)构建缺失数据填充网络与辅助预测网络;
4)填充数据尺度还原;
5)测试与超参数设置。
在步骤1)中,对不同数据类型进行不同的预处理,涉及的主要数据类型分为连续型数值与离散型数值,对于连续型数值,直接使用minmax进行归一化;对于离散型数值,转化为one hot编码之后,使用minmax归一化,对于缺失位置统一补上0;此外,将数据集是否划分为两部分:具有属性缺失的数据与属性未缺失的数据。
在步骤2)中,构建缺失位置编码向量,其情况是:在数据填充时,样本缺失的属性位置也是一种重要的信息,在使用神经网络进行填充时,只需要对这些缺失的位置进行填充,在构建缺失位置编码向量时,对所有样本的每一列进行遍历,如果该属性缺失,记为“1”,否则记为“0”,按此流程执行,每个样本都会有一个缺失位置编码向量对应。
在步骤3)中,构建缺失数据填充网络与辅助预测网络,其情况是:该网络在原始的生成式对抗网络做了如下改进:①在生成网络的输入中移除了随机采样得到的噪声;②使用生成的数据与缺失位置向量编码来组成填充的数据;此外,辅助预测网络的引入更充分的考虑了属性与标签之间的联系,在使用属性缺失数据进行预测同时,使用辅助预测网络预测标签与真实标签之间损失通过BP算法进行反馈计算更新了生成网络,从而使得生成的填充数据在构建预测模型时具有更好的效果;联合生成式对抗网络中的损失函数与辅助预测网络中的损失函数,通过超参数控制其权重比,来决定生成的填充数据分布更贴近完整数据的分布或者是能够使得预测模型预测更准确;其中,数据填充网络与辅助预测网络的结构包含生成网络、判别网络、辅助预测网络;下面对这三个网络的结构进行详细的介绍:
生成网络:输入部分由具有属性缺失的数据与其对应的缺失位置编码向量拼接构成;根据数据的结构不同,隐藏层能够使用全连接层或者反卷积层来构成,尤其在输入的数据是图片类型数据时,使用反卷积操作得到生成的填充数据;这里假定输入的数据记为I,是100维的向量,因而对应的缺失位置编码向量记为E,也是100维的,经拼接得到的输入向量维度为200;隐藏层由全连接层构成,激活函数使用relu;最终的输出层,具有100个输出单元,记为O,输出层的激活函数采用sigmoid;填充的数据最终由由I·(1-E)+O·E构成;
判别网络:输入的数据有两部分,第一部分是基于生成网络的输出得到的填充数据结果,第二部分是属性未缺失的样本数据,输出结果为0~1之间的小数,代表判别网络认为接收的输入数据是否来自属性未缺失的数据的概率;根据输入数据类型的不同,网络结构的设置也不同,在输入数据为图像类型数据时,由卷积神经网络构建;这里假定输入数据是100维向量,那么隐藏层能够选择由全连接层构成,激活函数设置为relu;输出层仅包含一个单元,激活函数选择为sigmoid,表征概率;
辅助预测网络:输入与判别网络完全一致,输出则是对输入样本关于标签的预测值,当预测问题是分类问题时,采用交叉熵作为损失函数,当预测问题是回归问题时,采用L2范数或者L1范数作为损失函数;网络结构与判别网络的设置方法相同;这里假定输入数据是100维向量,那么隐藏层能够选择由全连接层构成,激活函数设置为relu;输出层仅包含一个单元,激活函数按上述方式设置。
在步骤4)中,对生成的填充数据进行尺度还原,由于预处理阶段使用了minmax进行了数据归一化,根据记录的每个属性的最大值与最小值,能够还原得到最终的填充的结果。
在步骤5)中,测试与超参数设置,其情况是:网络在训练的过程中,损失来源于两部分:生成式对抗网络中的损失与辅助预测网络的预测损失;这两部分损失以不同的比例λ组合得到综合的损失;不同的λ会影响模型的训练;在操作过程中,切分数据集为训练集和测试集,在训练集上选取不同尺度的λ,分别为0.1,0.3,0.5,0.7,0.9进行训练,同时,使用测试集进行测试,以测试集上辅助预测网络的损失最小作为超参数的选取标准。
本发明与现有技术相比,具有如下优点与有益效果:
1、传统的填充方法如中位数、均值填充等,方法简单,填充效果不够好,而基于KNN,EM的方法往往时间复杂度大,在处理高维度数据集时,时间复杂度极大,甚至出现无法处理的情况。而生成式对抗网络在高维度数据的分布学习上有着极好的效果,因而可以解决高维度数据集带来的麻烦;另外通常未有属性缺失的样本与具有属性的缺失样本是服从同一分布的,让填充后的数据从分布上逼近没有属性缺失的数据集能够使得填充的结果不会偏离数据分布,给预测模型来带负面影响。
2、传统的填充方法并未考虑到填充后的数据对后续建立预测模型的预测结果的影响,其步骤通常是先对缺失数据进行填充得到完成的数据,再利用填充后的数据建立预测模型,因而在不能使用预测的效果去指导数据的填充。本发明通过引入辅助预测网络计算每次填充的数据预测的值与真实标签之间的损失进行反向传播指导生成网络的数据填充,从而能够观测到填充的数据在预测模型上表现好坏选择出预测效果,结合判别网络的损失限制填充的数据与真实数据分布的差异,达到在有较好填充效果的同时具有好的预测结果。此外在完成训练之后,得到的是一个端到端的网络,在输入数据之后,能够直接得到辅助预测网络的预测结果。
附图说明
图1为缺失数据填充与预测的流程图。
图2为填充数据的生成式对抗网络与预测网络数据流图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实例所提供的基于生成对抗网络的属性缺失数据集补全与预测方法,其具体情况如下:
1)数据预处理:不同属性的数据类型不同,对应的处理方式也不同。涉及的主要数据类型分为连续型数值与离散型数值,对于连续型数值,直接使用minmax进行归一化;对于离散型数值,转化为one hot编码之后,使用minmax归一化,对于缺失位置统一补上0。此外将数据集分为两部分:具有属性缺失的数据与属性未缺失的数据。
2)构建缺失位置编码向量:在数据填充时,样本缺失的属性位置也是一种重要的信息,在使用神经网络进行填充时,只需要对这些缺失的位置进行填充。在构建缺失位置编码向量时,对所有样本的每一列进行遍历,如果该属性缺失,记为“1”,否则记为“0”。按此流程执行,每个样本都会有一个缺失位置编码向量对应。
3)构建缺失数据填充网络与辅助预测网络:本发明提出了一种基于生成式对抗网络并联合辅助预测网络来进行数据填充同时能够进行预测的综合网络。该网络在原始的生成式对抗网络做了如下改进:①在生成网络的输入中移除了采样得到的噪声;②使用生成的数据与缺失位置向量编码来组成填充的数据。此外辅助预测网络的引入更充分的考虑了属性与标签之间的联系,在使用属性缺失数据进行预测同时,使用辅助预测网络预测标签与真实标签之间损失通过BP算法进行反馈计算更新了生成网络,从而使得生成的填充数据在构建预测模型时具有更好的效果。联合生成式对抗网络中的损失函数与辅助预测网络中的损失函数,通过超参数控制其权重比,来决定生成的填充数据分布更贴近完整数据的分布或者是能够使得预测模型预测更准确。图2是本发明中最重要的数据填充网络与辅助预测网络的结构图,包含生成网络、判别网络、辅助预测网络;下面对这三个网络的结构进行详细的介绍:
生成网络:输入部分由具有属性缺失的数据与其对应的缺失位置编码向量拼接构成。根据数据的结构不同,隐藏层层可以使用全连接层或者反卷积层来构成,尤其在输入的数据是图片类型数据时,使用反卷积层得到生成的填充数据。这里假定输入的数据(记为I)是100维的向量,因而对应的缺失位置编码向量(记为E)也是100维的,经拼接得到的输入向量维度为200;隐藏层由全连接层构成,激活函数使用relu;最终的输出层,具有100个输出单元(记为O),输出层的激活函数采用sigmoid。填充的数据最终由由I·(1-E)+O·E构成。
判别网络:输入的数据有两部分,第一部分是基于生成网络的输出得到的填充数据结果,第二部分是属性未缺失的样本数据,输出结果为0~1之间的小数,代表判别网络认为接收的输入数据是否来自属性未缺失的数据的概率。根据输入数据类型的不同,网络结构的设置也不同,在输入数据为图像类型数据时,可由卷积神经网络构建。这里假定输入数据是100维向量,那么隐藏层可选择为全连接层构成,激活函数设置为relu;输出层仅包含一个单元,激活函数选择为sigmoid,表征概率。
辅助预测网络:输入与判别网络完全一致,输出则是对输入样本关于标签的预测值,当预测问题是分类问题时,采用交叉熵作为损失函数,当预测问题是回归问题时,采用L2范数或者L1范数作为损失函数。网络结构与判别网络的设置方法相同。这里假定输入数据是100维向量,那么隐藏层可选择为全连接层构成,激活函数设置为relu;输出层仅包含一个单元,激活函数按上述方式设置。
4)填充数据尺度还原:由于预处理阶段使用了minmax进行了数据归一化,根据记录的每个属性的最大值与最小值,可还原得到最终的填充的结果。
5)测试与超参数设置:网络在训练的过程中,损失来源于两部分由生成式对抗网络中的损失与辅助预测网络的预测损失;这两部分损失以不同的比例λ组合得到综合的损失。不同的λ会影响模型的训练。在操作过程中,切分数据集为训练集和测试集,在训练集上选取不同尺度的λ,分别为0.1,0.3,0.5,0.7,0.9进行训练,同时,使用测试集进行测试,以测试集上辅助预测网络的损失最小作为超参数的选取标准。
以上所述实施例子只为本发明之较佳实施例子,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (6)
1.一种基于生成对抗网络的属性缺失数据集补全与预测方法,其特征在于:首先,针对属性缺失的数据集进行数据预处理,主要包括minmax归一化和离散的数值变量的one hot编码转换;然后针对具有属性缺失的样本,构建缺失位置的编码向量,从而表达缺失的位置信息;接着构建缺失数据的填充网络与辅助预测网络同步完成缺失数据的填充与标签预测;在网络训练完成之后,以填充网络中生成网络的输出结果为填充的结果,根据minmax归一化时记录的列最大最小值进行尺度还原;最后,通过不断修改超参数观测其在验证集的预测结果的损失来完成超参数的设置;其包括以下步骤
1)数据预处理;
2)构建缺失位置编码向量;
3)构建缺失数据填充网络与辅助预测网络;
4)填充数据尺度还原;
5)测试与超参数设置。
2.根据权利要求1所述的一种基于生成对抗网络的属性缺失数据集补全与预测方法,其特征在于:在步骤1)中,对不同数据类型进行不同的预处理,涉及的主要数据类型分为连续型数值与离散型数值,对于连续型数值,直接使用minmax进行归一化;对于离散型数值,转化为one hot编码之后,使用minmax归一化,对于缺失位置统一补上0;此外,将数据集根据是否有属性缺失分为两部分:具有属性缺失的数据与属性未缺失的数据。
3.根据权利要求1所述的一种基于生成对抗网络的属性缺失数据集补全与预测方法,其特征在于:在步骤2)中,构建缺失位置编码向量,其情况是:在数据填充时,样本缺失的属性位置也是一种重要的信息,在使用神经网络进行填充时,只需要对这些缺失的位置进行填充,在构建缺失位置编码向量时,对所有样本的每一列进行遍历,如果该属性缺失,记为“1”,否则记为“0”,按此流程执行,每个样本都会有一个缺失位置编码向量对应。
4.根据权利要求1所述的一种基于生成对抗网络的属性缺失数据集补全与预测方法,其特征在于:在步骤3)中,构建缺失数据填充网络与辅助预测网络,其情况是:该网络在原始的生成式对抗网络做了如下改进:①在生成网络的输入中移除了噪声;②使用生成的数据与缺失位置向量编码来组成填充的数据;此外,辅助预测网络的引入更充分的考虑了属性与标签之间的联系,在使用属性缺失数据进行预测同时,使用辅助预测网络预测标签与真实标签之间损失通过BP算法进行反馈计算更新了生成网络,从而使得生成的填充数据在构建预测模型时具有更好的效果;联合生成式对抗网络中的损失函数与辅助预测网络中的损失函数,通过超参数控制其权重比,来决定生成的填充数据分布更贴近完整数据的分布或者是能够使得预测模型预测更准确;其中,数据填充网络与辅助预测网络的结构包含生成网络、判别网络、辅助预测网络;下面对这三个网络的结构进行详细的介绍:
生成网络:输入部分由具有属性缺失的数据与其对应的缺失位置编码向量拼接构成;根据数据的结构不同,隐藏层能够使用全连接层或者反卷积层来构成,尤其在输入的数据是图片类型数据时,使用反卷积操作得到生成的填充数据;这里假定输入的数据记为I,是100维的向量,因而对应的缺失位置编码向量记为E,也是100维的,经拼接得到的输入向量维度为200;隐藏层由全连接层构成,激活函数使用relu;最终的输出层,具有100个输出单元,记为O,输出层的激活函数采用sigmoid;填充的数据最终由由I·(1-E)+O·E构成;
判别网络:输入的数据有两部分,第一部分是基于生成网络的输出得到的填充数据结果,第二部分是属性未缺失的样本数据,输出结果为0~1之间的小数,代表判别网络认为接收的输入数据是否来自属性未缺失的数据的概率;根据输入数据类型的不同,网络结构的设置也不同,在输入数据为图像类型数据时,由卷积神经网络构建;这里假定输入数据是100维向量,那么隐藏层能够选择由全连接层构成,激活函数设置为relu;输出层仅包含一个单元,激活函数选择为sigmoid,表征概率;
辅助预测网络:输入与判别网络完全一致,输出则是对输入样本关于标签的预测值,当预测问题是分类问题时,采用交叉熵作为损失函数,当预测问题是回归问题时,采用L2范数或者L1范数作为损失函数;网络结构与判别网络的设置方法相同;这里假定输入数据是100维向量,那么隐藏层能够选择由全连接层构成,激活函数设置为relu;输出层仅包含一个单元,激活函数按上述方式设置。
5.根据权利要求1所述的一种基于生成对抗网络的属性缺失数据集补全与预测方法,其特征在于:在步骤4)中,对生成的填充数据进行尺度还原,由于预处理阶段使用了minmax进行了数据归一化,根据记录的每个属性的最大值与最小值,能够还原得到最终的填充的结果。
6.根据权利要求1所述的一种基于生成对抗网络的属性缺失数据集补全与预测方法,其特征在于:在步骤5)中,测试与超参数设置,其情况是:网络在训练的过程中,损失来源于两部分:生成式对抗网络中的损失与辅助预测网络的预测损失;这两部分损失以不同的比例λ组合得到综合的损失;不同的λ会影响模型的训练;在操作过程中,切分数据集为训练集和测试集,在训练集上选取不同尺度的λ,分别为0.1,0.3,0.5,0.7,0.9进行训练,同时,使用测试集进行测试,以测试集上辅助预测网络的损失最小作为超参数的选取标准。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810722774.3A CN109165664B (zh) | 2018-07-04 | 2018-07-04 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810722774.3A CN109165664B (zh) | 2018-07-04 | 2018-07-04 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109165664A true CN109165664A (zh) | 2019-01-08 |
CN109165664B CN109165664B (zh) | 2020-09-22 |
Family
ID=64897277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810722774.3A Expired - Fee Related CN109165664B (zh) | 2018-07-04 | 2018-07-04 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109165664B (zh) |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522973A (zh) * | 2019-01-17 | 2019-03-26 | 云南大学 | 基于生成式对抗网络与半监督学习的医疗大数据分类方法及*** |
CN109978257A (zh) * | 2019-03-25 | 2019-07-05 | 上海赢科信息技术有限公司 | 车险的续保预测方法及*** |
CN110046706A (zh) * | 2019-04-18 | 2019-07-23 | 腾讯科技(深圳)有限公司 | 模型生成方法、装置及服务器 |
CN110175168A (zh) * | 2019-05-28 | 2019-08-27 | 山东大学 | 一种基于生成对抗网络的时间序列数据填补方法及*** |
CN110647519A (zh) * | 2019-08-30 | 2020-01-03 | 中国平安人寿保险股份有限公司 | 对测试样本中的缺失属性值进行预测的方法及装置 |
CN110728297A (zh) * | 2019-09-04 | 2020-01-24 | 电子科技大学 | 一种基于gan的低代价对抗性网络攻击样本生成方法 |
CN111037365A (zh) * | 2019-12-26 | 2020-04-21 | 大连理工大学 | 基于生成式对抗网络的刀具状态监测数据集增强方法 |
CN111046027A (zh) * | 2019-11-25 | 2020-04-21 | 北京百度网讯科技有限公司 | 时间序列数据的缺失值填充方法和装置 |
CN111177135A (zh) * | 2019-12-27 | 2020-05-19 | 清华大学 | 一种基于界标的数据填补方法及装置 |
CN111259953A (zh) * | 2020-01-15 | 2020-06-09 | 云南电网有限责任公司电力科学研究院 | 一种基于电容型设备缺陷数据的设备缺陷时间预测方法 |
CN111259916A (zh) * | 2020-02-12 | 2020-06-09 | 东华大学 | 一种标签缺失情况下的低秩投影特征提取方法 |
CN111429605A (zh) * | 2020-04-10 | 2020-07-17 | 郑州大学 | 一种基于生成式对抗网络的缺失值填充方法 |
CN111737463A (zh) * | 2020-06-04 | 2020-10-02 | 江苏名通信息科技有限公司 | 大数据缺失值填充方法、装置和计算机程序 |
CN111738007A (zh) * | 2020-07-03 | 2020-10-02 | 北京邮电大学 | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 |
CN112036955A (zh) * | 2020-09-07 | 2020-12-04 | 贝壳技术有限公司 | 用户识别方法和装置、计算机可读存储介质、电子设备 |
CN112183723A (zh) * | 2020-09-17 | 2021-01-05 | 西北工业大学 | 一种针对临床检测数据缺失问题的数据处理方法 |
CN112381303A (zh) * | 2020-11-19 | 2021-02-19 | 北京嘀嘀无限科技发展有限公司 | 一种任务指标数据预测方法和*** |
CN112465150A (zh) * | 2020-12-02 | 2021-03-09 | 南开大学 | 基于真实数据增强的多元时序数据填充方法 |
CN112712855A (zh) * | 2020-12-28 | 2021-04-27 | 华南理工大学 | 一种基于联合训练的含缺失值基因微阵列的聚类方法 |
CN113010500A (zh) * | 2019-12-18 | 2021-06-22 | 中国电信股份有限公司 | 用于dpi数据的处理方法和处理*** |
CN113515896A (zh) * | 2021-08-06 | 2021-10-19 | 红云红河烟草(集团)有限责任公司 | 用于卷烟实时数采的数据缺失值填充方法 |
CN114022311A (zh) * | 2021-11-16 | 2022-02-08 | 东北大学 | 基于时序条件生成对抗网络的综合能源***数据补偿方法 |
CN114826988A (zh) * | 2021-01-29 | 2022-07-29 | 中国电信股份有限公司 | 时序数据的异常检测和参数填补的方法及装置 |
CN114936530A (zh) * | 2022-06-22 | 2022-08-23 | 郑州大学 | 基于tam的多元空气质量数据缺失值填充模型及其构建方法 |
CN115145906A (zh) * | 2022-09-02 | 2022-10-04 | 之江实验室 | 一种面向结构化数据的预处理和补全方法 |
WO2022222026A1 (zh) * | 2021-04-19 | 2022-10-27 | 浙江大学 | 医疗诊断缺失数据补全方法及补全装置、电子设备、介质 |
CN115829162A (zh) * | 2023-01-29 | 2023-03-21 | 北京市农林科学院信息技术研究中心 | 作物产量预测方法、装置、电子设备及介质 |
CN115883016A (zh) * | 2022-10-28 | 2023-03-31 | 南京航空航天大学 | 基于联邦生成对抗网络的流量数据增强方法与装置 |
CN117034142A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种不平衡医疗数据缺失值填充方法及*** |
CN117150231A (zh) * | 2023-10-27 | 2023-12-01 | 国网江苏省电力有限公司苏州供电分公司 | 基于相关性和生成对抗网络的量测数据填补方法与*** |
CN117421548A (zh) * | 2023-12-18 | 2024-01-19 | 四川互慧软件有限公司 | 基于卷积神经网络对生理指标数据缺失的治理方法及*** |
CN117524318A (zh) * | 2024-01-05 | 2024-02-06 | 深圳新合睿恩生物医疗科技有限公司 | 新抗原异质数据整合方法及装置、设备、存储介质 |
CN117556267A (zh) * | 2024-01-12 | 2024-02-13 | 闪捷信息科技有限公司 | 缺失样本数据填充方法、装置、存储介质和电子设备 |
CN114022311B (zh) * | 2021-11-16 | 2024-07-02 | 东北大学 | 基于时序条件生成对抗网络的综合能源***数据补偿方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106952239A (zh) * | 2017-03-28 | 2017-07-14 | 厦门幻世网络科技有限公司 | 图像生成方法和装置 |
CN107133934A (zh) * | 2017-05-18 | 2017-09-05 | 北京小米移动软件有限公司 | 图像补全方法及装置 |
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
KR20170137350A (ko) * | 2016-06-03 | 2017-12-13 | (주)싸이언테크 | 신경망 생성 모델을 이용한 객체 움직임 패턴 학습장치 및 그 방법 |
CN107945118A (zh) * | 2017-10-30 | 2018-04-20 | 南京邮电大学 | 一种基于生成式对抗网络的人脸图像修复方法 |
CN107945140A (zh) * | 2017-12-20 | 2018-04-20 | 中国科学院深圳先进技术研究院 | 一种图像修复方法、装置及设备 |
-
2018
- 2018-07-04 CN CN201810722774.3A patent/CN109165664B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170137350A (ko) * | 2016-06-03 | 2017-12-13 | (주)싸이언테크 | 신경망 생성 모델을 이용한 객체 움직임 패턴 학습장치 및 그 방법 |
CN106952239A (zh) * | 2017-03-28 | 2017-07-14 | 厦门幻世网络科技有限公司 | 图像生成方法和装置 |
CN107133934A (zh) * | 2017-05-18 | 2017-09-05 | 北京小米移动软件有限公司 | 图像补全方法及装置 |
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
CN107945118A (zh) * | 2017-10-30 | 2018-04-20 | 南京邮电大学 | 一种基于生成式对抗网络的人脸图像修复方法 |
CN107945140A (zh) * | 2017-12-20 | 2018-04-20 | 中国科学院深圳先进技术研究院 | 一种图像修复方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
JINSUNG YOON ET AL.: "GAIN: Missing Data Imputation using Generative Adversarial Nets", 《PROCEEDINGS OF THE 35 TH INTERNATIONAL CONFERENCE ON MACHINE》 * |
Cited By (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522973A (zh) * | 2019-01-17 | 2019-03-26 | 云南大学 | 基于生成式对抗网络与半监督学习的医疗大数据分类方法及*** |
CN109978257A (zh) * | 2019-03-25 | 2019-07-05 | 上海赢科信息技术有限公司 | 车险的续保预测方法及*** |
CN110046706A (zh) * | 2019-04-18 | 2019-07-23 | 腾讯科技(深圳)有限公司 | 模型生成方法、装置及服务器 |
CN110046706B (zh) * | 2019-04-18 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 模型生成方法、装置及服务器 |
CN110175168B (zh) * | 2019-05-28 | 2021-06-01 | 山东大学 | 一种基于生成对抗网络的时间序列数据填补方法及*** |
CN110175168A (zh) * | 2019-05-28 | 2019-08-27 | 山东大学 | 一种基于生成对抗网络的时间序列数据填补方法及*** |
CN110647519A (zh) * | 2019-08-30 | 2020-01-03 | 中国平安人寿保险股份有限公司 | 对测试样本中的缺失属性值进行预测的方法及装置 |
CN110647519B (zh) * | 2019-08-30 | 2023-10-03 | 中国平安人寿保险股份有限公司 | 对测试样本中的缺失属性值进行预测的方法及装置 |
CN110728297A (zh) * | 2019-09-04 | 2020-01-24 | 电子科技大学 | 一种基于gan的低代价对抗性网络攻击样本生成方法 |
CN110728297B (zh) * | 2019-09-04 | 2021-08-06 | 电子科技大学 | 一种基于gan的低代价对抗性网络攻击样本生成方法 |
CN111046027A (zh) * | 2019-11-25 | 2020-04-21 | 北京百度网讯科技有限公司 | 时间序列数据的缺失值填充方法和装置 |
CN113010500A (zh) * | 2019-12-18 | 2021-06-22 | 中国电信股份有限公司 | 用于dpi数据的处理方法和处理*** |
CN111037365A (zh) * | 2019-12-26 | 2020-04-21 | 大连理工大学 | 基于生成式对抗网络的刀具状态监测数据集增强方法 |
CN111037365B (zh) * | 2019-12-26 | 2021-08-20 | 大连理工大学 | 基于生成式对抗网络的刀具状态监测数据集增强方法 |
CN111177135B (zh) * | 2019-12-27 | 2020-11-10 | 清华大学 | 一种基于界标的数据填补方法及装置 |
CN111177135A (zh) * | 2019-12-27 | 2020-05-19 | 清华大学 | 一种基于界标的数据填补方法及装置 |
CN111259953A (zh) * | 2020-01-15 | 2020-06-09 | 云南电网有限责任公司电力科学研究院 | 一种基于电容型设备缺陷数据的设备缺陷时间预测方法 |
CN111259953B (zh) * | 2020-01-15 | 2023-10-20 | 云南电网有限责任公司电力科学研究院 | 一种基于电容型设备缺陷数据的设备缺陷时间预测方法 |
CN111259916A (zh) * | 2020-02-12 | 2020-06-09 | 东华大学 | 一种标签缺失情况下的低秩投影特征提取方法 |
CN111429605A (zh) * | 2020-04-10 | 2020-07-17 | 郑州大学 | 一种基于生成式对抗网络的缺失值填充方法 |
CN111737463B (zh) * | 2020-06-04 | 2024-02-09 | 江苏名通信息科技有限公司 | 大数据缺失值填充方法、装置和计算机可读存储器 |
CN111737463A (zh) * | 2020-06-04 | 2020-10-02 | 江苏名通信息科技有限公司 | 大数据缺失值填充方法、装置和计算机程序 |
CN111738007A (zh) * | 2020-07-03 | 2020-10-02 | 北京邮电大学 | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 |
CN112036955A (zh) * | 2020-09-07 | 2020-12-04 | 贝壳技术有限公司 | 用户识别方法和装置、计算机可读存储介质、电子设备 |
CN112183723A (zh) * | 2020-09-17 | 2021-01-05 | 西北工业大学 | 一种针对临床检测数据缺失问题的数据处理方法 |
CN112381303A (zh) * | 2020-11-19 | 2021-02-19 | 北京嘀嘀无限科技发展有限公司 | 一种任务指标数据预测方法和*** |
CN112465150A (zh) * | 2020-12-02 | 2021-03-09 | 南开大学 | 基于真实数据增强的多元时序数据填充方法 |
CN112712855A (zh) * | 2020-12-28 | 2021-04-27 | 华南理工大学 | 一种基于联合训练的含缺失值基因微阵列的聚类方法 |
CN112712855B (zh) * | 2020-12-28 | 2022-09-20 | 华南理工大学 | 一种基于联合训练的含缺失值基因微阵列的聚类方法 |
CN114826988A (zh) * | 2021-01-29 | 2022-07-29 | 中国电信股份有限公司 | 时序数据的异常检测和参数填补的方法及装置 |
WO2022222026A1 (zh) * | 2021-04-19 | 2022-10-27 | 浙江大学 | 医疗诊断缺失数据补全方法及补全装置、电子设备、介质 |
CN113515896B (zh) * | 2021-08-06 | 2022-08-09 | 红云红河烟草(集团)有限责任公司 | 用于卷烟实时数采的数据缺失值填充方法 |
CN113515896A (zh) * | 2021-08-06 | 2021-10-19 | 红云红河烟草(集团)有限责任公司 | 用于卷烟实时数采的数据缺失值填充方法 |
CN114022311A (zh) * | 2021-11-16 | 2022-02-08 | 东北大学 | 基于时序条件生成对抗网络的综合能源***数据补偿方法 |
CN114022311B (zh) * | 2021-11-16 | 2024-07-02 | 东北大学 | 基于时序条件生成对抗网络的综合能源***数据补偿方法 |
CN114936530A (zh) * | 2022-06-22 | 2022-08-23 | 郑州大学 | 基于tam的多元空气质量数据缺失值填充模型及其构建方法 |
CN115145906B (zh) * | 2022-09-02 | 2023-01-03 | 之江实验室 | 一种面向结构化数据的预处理和补全方法 |
US11841839B1 (en) | 2022-09-02 | 2023-12-12 | Zhejiang Lab | Preprocessing and imputing method for structural data |
CN115145906A (zh) * | 2022-09-02 | 2022-10-04 | 之江实验室 | 一种面向结构化数据的预处理和补全方法 |
CN115883016A (zh) * | 2022-10-28 | 2023-03-31 | 南京航空航天大学 | 基于联邦生成对抗网络的流量数据增强方法与装置 |
CN115883016B (zh) * | 2022-10-28 | 2024-02-02 | 南京航空航天大学 | 基于联邦生成对抗网络的流量数据增强方法与装置 |
CN115829162A (zh) * | 2023-01-29 | 2023-03-21 | 北京市农林科学院信息技术研究中心 | 作物产量预测方法、装置、电子设备及介质 |
CN117034142B (zh) * | 2023-10-07 | 2024-02-09 | 之江实验室 | 一种不平衡医疗数据缺失值填充方法及*** |
CN117034142A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种不平衡医疗数据缺失值填充方法及*** |
CN117150231B (zh) * | 2023-10-27 | 2024-01-26 | 国网江苏省电力有限公司苏州供电分公司 | 基于相关性和生成对抗网络的量测数据填补方法与*** |
CN117150231A (zh) * | 2023-10-27 | 2023-12-01 | 国网江苏省电力有限公司苏州供电分公司 | 基于相关性和生成对抗网络的量测数据填补方法与*** |
CN117421548A (zh) * | 2023-12-18 | 2024-01-19 | 四川互慧软件有限公司 | 基于卷积神经网络对生理指标数据缺失的治理方法及*** |
CN117421548B (zh) * | 2023-12-18 | 2024-03-12 | 四川互慧软件有限公司 | 基于卷积神经网络对生理指标数据缺失的治理方法及*** |
CN117524318A (zh) * | 2024-01-05 | 2024-02-06 | 深圳新合睿恩生物医疗科技有限公司 | 新抗原异质数据整合方法及装置、设备、存储介质 |
CN117524318B (zh) * | 2024-01-05 | 2024-03-22 | 深圳新合睿恩生物医疗科技有限公司 | 新抗原异质数据整合方法及装置、设备、存储介质 |
CN117556267A (zh) * | 2024-01-12 | 2024-02-13 | 闪捷信息科技有限公司 | 缺失样本数据填充方法、装置、存储介质和电子设备 |
CN117556267B (zh) * | 2024-01-12 | 2024-04-02 | 闪捷信息科技有限公司 | 缺失样本数据填充方法、装置、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109165664B (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165664A (zh) | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 | |
CN109508360B (zh) | 一种基于元胞自动机的地理多元流数据时空自相关分析方法 | |
CN101093559B (zh) | 一种基于知识发现的专家***构造方法 | |
AU2021240155A1 (en) | Control Pulse Generation Method, Apparatus, System, Device And Storage Medium | |
CN103235974B (zh) | 一种提高海量空间数据处理效率的方法 | |
CN111079977A (zh) | 基于svd算法的异构联邦学习矿井电磁辐射趋势跟踪方法 | |
CN110992113A (zh) | 基于神经网络智能算法的基建变电站项目造价预测方法 | |
CN106503035A (zh) | 一种知识图谱的数据处理方法和装置 | |
CN113486190B (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN105260786A (zh) | 一种电力推进***仿真可信度评估模型综合优化方法 | |
WO2022257190A1 (zh) | 一种基于量子游走的行为轨迹序列多特征模拟方法 | |
CN113255895A (zh) | 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法 | |
CN115049124A (zh) | 一种基于贝叶斯网络的深长隧道突涌水预测方法 | |
CN110705178A (zh) | 一种基于机器学习的隧道/地铁施工全过程围岩变形动态预测方法 | |
CN103885867B (zh) | 一种模拟电路性能的在线评价方法 | |
CN109614896A (zh) | 一种基于递归卷积神经网络的视频内容语义理解的方法 | |
CN113420868A (zh) | 一种基于深度强化学习的旅行商问题求解方法及求解*** | |
CN104732067A (zh) | 一种面向流程对象的工业过程建模预测方法 | |
Wang et al. | Roof pressure prediction in coal mine based on grey neural network | |
CN115438897A (zh) | 一种基于blstm神经网络的工业过程产品质量预测方法 | |
CN113887471A (zh) | 基于特征解耦和交叉对比的视频时序定位方法 | |
Ballı et al. | An application of artificial neural networks for prediction and comparison with statistical methods | |
CN117477544A (zh) | 融合时间模式特征的lstm超短期光伏功率预测方法及*** | |
Zhang et al. | RSVRs based on feature extraction: a novel method for prediction of construction projects’ costs | |
CN115359197A (zh) | 一种基于空间自相关神经网络的地质曲面重构方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200922 |