CN111429605A

CN111429605A - 一种基于生成式对抗网络的缺失值填充方法

Info

Publication number: CN111429605A
Application number: CN202010279538.6A
Authority: CN
Inventors: 郭毅博; 牛猛; 徐明亮; 潘俊; 徐三树; 朱虹宇
Original assignee: Zhengzhou University; Jincheng Nanjing Electromechanical Hydraulic Pressure Engineering Research Center Aviation Industry Corp of China
Current assignee: Zhengzhou University; Jincheng Nanjing Electromechanical Hydraulic Pressure Engineering Research Center Aviation Industry Corp of China
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-07-17
Anticipated expiration: 2040-04-10
Also published as: CN111429605B

Abstract

本发明涉及时序数据缺失值填充附属装置的技术领域，特别是涉及一种基于生成式对抗网络的缺失值填充方法，可解决现有技术中填充效果较差且需要完整的数据集训练模型的问题，填充效果好、计算速度快、配置灵活，提高使用可靠性；包括角度传感器、角加速度传感器、油面高度传感器、数据采集模块、数据预处理模块、数据集生成模块和缺失值填充模块，角度传感器、角加速度传感器和油面高度传感器均与数据采集模块电连接，数据预处理模块与数据采集模块电连接，数据集生成模块与数据预处理模块电连接，缺失值填充模块与数据集生成模块电连接。

Description

一种基于生成式对抗网络的缺失值填充方法

技术领域

本发明涉及时序数据缺失值填充附属装置的技术领域，特别是涉及一种基于生成式对抗网络的缺失值填充方法。

背景技术

众所周知，飞机油量测量的前提是获取到完整的飞机传感器时序数据，然而，由于各种因素的影响，传感器采集到的数据会包含很多缺失值。而直接使用这些包含缺失值的数据很难学习到其变化规律，从而导致油量测量方法精度较低。因此，传感器时序数据中的缺失值填充任务是进行后续分析的基础。为了解决该问题，研究人员提出了许多缺失数据填充方法。这些方法主要可以分为两类：基于统计学的缺失值填充方法、基于机器学习的缺失值填充方法。

1)基于统计学的缺失值填充方法

基于统计学的缺失值填充方法是根据统计学相关内容来填充数据中的缺失值。Amiri提出使用上一次观测值来进行缺失值填充，Kantardzic提出使用均值来进行缺失值填充。以上基于统计规律的缺失值填充方法虽然一定程度上能够恢复缺失信息，但是该类填充方法忽略了其他维度数据对缺失值的影响，这会导致填充效果很差。

2)基于机器学习的缺失值填充方法

基于机器学习的缺失值填充方法是使用机器学习相关算法学习数据的隐含规律，然后使用学习到的模型针对每个缺失值进行填充。

Hastie提出了基于矩阵分解的填充方法，该方法将缺失数据作为一个矩阵，先将该矩阵分解为多个子矩阵，再将这些子矩阵相乘，最后将得到的近似矩阵用于填充缺失矩阵。

Rubin提出了基于期望最大化的填充方法，该方法通过迭代进行求解期望和最大化期望两个步骤的计算，得到概率模型，再使用概率模型估计缺失值，并将估计值作为填充值。

Batista提出了基于k近邻的填充方法，该方法先根据欧氏距离寻找到与缺失数据最相似的k个数据，然后使用这k个数据的平均值作为填充值。该算法的精度取决于参数k值的选择，需要选择一个合适的k值，k值过大或者过小时均会造成填充模型精度下降。

上述方法主要用于非时序数据的缺失值填充任务中，没有考虑数据在时间维度上的上下文关系，在时序数据缺失值填充任务中效果不佳，导致其使用可靠性较差。

发明内容

为解决上述技术问题，本发明提供一种可解决现有技术中填充效果较差且需要完整的数据集训练模型的问题，填充效果好、计算速度快、配置灵活，提高使用可靠性的基于生成式对抗网络的缺失值填充方法。

本发明的一种基于生成式对抗网络的缺失值填充方法，包括角度传感器、角加速度传感器、油面高度传感器、数据采集模块、数据预处理模块、数据集生成模块和缺失值填充模块，所述角度传感器、角加速度传感器和油面高度传感器均与数据采集模块电连接，所述数据预处理模块与数据采集模块电连接，所述数据集生成模块与数据预处理模块电连接，所述缺失值填充模块与数据集生成模块电连接。

本发明的一种基于生成式对抗网络的缺失值填充方法，数据集生成模块获取数据预处理模块处理后的油面高度数据，并根据预先测得的其对应的油量数据生成数据集，再将数据集依照比例4:1划分为训练集、测试集。

本发明的一种基于生成式对抗网络的缺失值填充方法，缺失值填充模块的网络结构包括生成器和判别器。

本发明的一种基于生成式对抗网络的缺失值填充方法，缺失值填充模块训练部分使用优化的损失函数计算损失值，并根据损失值对生成式对抗网络中的各权重矩阵进行更新。

与现有技术相比本发明的有益效果为：采用角度传感器、角加速度传感器和油面高度传感器对飞机的飞行角度、飞行角加速度和油箱燃油油面高度数据进行采集，然后数据采集模块对采集角度传感器、角加速度传感器和油面高度传感器采集到的数据进行收集；数据预处理模块用于检测传感器是否失真，并对采集到的数据进行归一化处理；数据集生成模块获取数据预处理模块处理后的油面高度数据，并根据预先测得的其对应的油量数据生成数据集，再将数据集依照比例4:1划分为训练集和测试集，缺失值填充模块用于训练生成式对抗网络模型并填充时序数据缺失值，具有填充效果好、计算速度快、配置灵活等特点。

附图说明

图1是本发明提供的基于生成式对抗网络的缺失值填充方法的结构示意图；

图2是本发明提供的缺失值填充模块生成式对抗的结构示意图；

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例：

如图1和图2所示，本发明的一种基于生成式对抗网络的缺失值填充方法，数据采集模块用于采集角度传感器、角加速度传感器和油面高度传感器，其中角度传感器用于检测飞机的飞行角度(用α表示)；角加速度传感器用于检测飞机飞行角度的加速度(用β表示)；油面高度传感器用于检测飞机燃油箱油面高度信息(用X表示)。

数据预处理模块用于检测传感器是否失真，并对采集到的数据进行归一化处理；对于传感器是否失真的检测(飞机在做大角度机动时，燃油液面会产生较大的浪涌和飞溅，可能出现失真情况)，可以设定一个阈值m，若传感器本时刻数据α_i、β_i与上一时刻数据α_i-1、β_i-1的差值大于该阈值，即||α_i-1-α_i||＞mor||β_i-1-β_i||＞m时，确定传感器失真，此时要将失真数据设置为0，表示该数据缺失。对于数据归一化处理(能够提高缺失值填充模型收敛速度与精度)，可以采用min-max标准化方法，将数据映射到0和1之间，该方法可表示为：

数据集生成模块用于生成训练集、测试集；对于该模块，首先要从数据预处理模块获取处理后的数据{α，β，X}，再将其整理为特定数据格式的数据集，最后将数据集依照比例4:1划分为训练集、测试集。

缺失值填充模块用于训练生成式对抗网络模型并填充时序数据中缺失值；该模块主要分为网络结构设计、模型初始化、前向传播、误差计算、权重更新、模型保存、模型测试这六个部分。

对于网络结构设计部分，该缺失值填充模块的网络结构主要包含两个部分：生成器和判别器。其中，

生成器主要用于拟合真实数据的分布，生成能够以假乱真的数据，其使用了降噪自编码器模型，由一个编码器和一个解码器组成，其中编码器用于将输入的缺失部分数据的时间序列压缩为低维向量z，而解码器用于使用z重构得到完整的时间数据。

该方法使用降噪自编码器，可以通过向输入数据中加入噪声的方式，增强模型的泛化能力。方法中直接生成一个符合高斯分布的随机噪声向量δ，并将其与输入数据进行拼接，作为自编码器的新的输入数据。则该生成器部分的计算方法如下：

z＝Encoder(X，δ)

X′＝Decoder(z)

此外，编码器使用BiLSTM模型，解码器使用LSTM模型，以保证模型能够获取时间序列上下文信息。

生成器的损失函数主要由两个部分组成：生成器生成样本企图欺骗判别器的损失、降噪自编码器中重构原始数据的损失。其中，对抗网络损失用于评估生成器生成样本与真实样本的相似程度；自编码器重建误差用于评估缺失值填充效果的好坏程度。则生成器的损失函数计算公式如下：

G_loss＝-D(G(X))+λ||G(X)-X||₂

其中，λ表示降噪自编码器重构损失的系数；X表示输入的缺失部分数据的时间序列。

判别器主要用于判断数据是真实数据还是生成器生成的数据，其结构主要由卷积层、注意力层、LSTM层和全连接层组成。其中，卷积层用于提取变量间的局部依赖关系；注意力层用于有选择的选择输出信息；LSTM层用于提取时间维度上的长期依赖关系；全连接层用于将LSTM层最后一个时刻的输出转化为一维的输出，最后再使用Softmax函数计算得到输入数据为真实样本的概率。

判别器的损失函数主要由两部分组成：生成样本判断为假的损失和真实样本判断为真的损失，其计算公式如下：

D_loss＝-D(X)+D(G(X))

对于模型初始化部分，主要用于初始化以上所述的网络中的所有权重及偏置项；

对于前向传播部分，主要利用初始化后的网络和训练集，逐层计算，并输出网络计算结果；

对于误差计算部分，生成器误差主要包括降噪自编码器重建误差和生成样本被识别为“真”的误差之和；判别器误差主要包括生成样本被识别为“假”的误差和真实样本被识别为“真”的误差之和；

对于权重更新部分，主要利用计算得到的误差更新每层网络权重；

对于模型保存部分，主要用于重复执行上述前向传播、误差计算、权重更新这三个部分，直至完成训练次数后，保存训练结果；

对于模型测试部分，主要使用训练集对训练完毕的模型进行测试，评估其性能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于生成式对抗网络的缺失值填充方法，其特征在于，包括角度传感器、角加速度传感器、油面高度传感器、数据采集模块、数据预处理模块、数据集生成模块和缺失值填充模块，所述角度传感器、角加速度传感器和油面高度传感器均与数据采集模块电连接，所述数据预处理模块与数据采集模块电连接，所述数据集生成模块与数据预处理模块电连接，所述缺失值填充模块与数据集生成模块电连接。

2.如权利要求1所述的一种基于生成式对抗网络的缺失值填充方法，其特征在于，数据集生成模块获取数据预处理模块处理后的油面高度数据，并根据预先测得的其对应的油量数据生成数据集，再将数据集依照比例4:1划分为训练集、测试集。

3.如权利要求2所述的一种基于生成式对抗网络的缺失值填充方法，其特征在于，缺失值填充模块的网络结构包括生成器和判别器。

4.如权利要求3所述的一种基于生成式对抗网络的缺失值填充方法，其特征在于，缺失值填充模块训练部分使用优化的损失函数计算损失值，并根据损失值对生成式对抗网络中的各权重矩阵进行更新。