CN109726195B

CN109726195B - 一种数据增强方法及装置

Info

Publication number: CN109726195B
Application number: CN201811419516.4A
Authority: CN
Inventors: 张勇; 郭达; 滕颖蕾; 魏翼飞; 宋梅; 李俊杰; 马腾滕; 郭耀华; 鲍捷; 康灿平
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2020-09-11
Anticipated expiration: 2038-11-26
Also published as: CN109726195A

Abstract

本发明实施例提供一种数据增强方法及装置，该方法包括：对不同标签下多维时序数据进行预处理，得到特征数据；对特征数据进行特征分析，获取特征数据中特征维与标签之间的相关系数，其中相关系数用于反映特征维和标签之间的关系；根据相关系数的大小，将预设数量的特征维作为主特征维，其余特征维为非主特征维；对非主特征维数据进行加权融合处理或加噪声处理，结合主特征维数据生成增强数据。本发明实施例提供的数据增强方法及装置，运用于多维特征数据的数据增强中，能够在保持原有数据主要特征不变的前提下，对非主要特征进行加权计算以达到增强数据的效果，能够在处理小样本数据集时，提高准确率和泛化能力。

Description

一种数据增强方法及装置

技术领域

本发明涉及终端运维应用领域，尤其涉及一种数据增强方法及装置。

背景技术

随着计算机存储能力的提升和复杂算法的发展，近年来的数据量成指数型增长，来自网络、智能手机、传感器、相机以及其他途径的数据产生了巨大的商业价值。各大企业利用大数据分析来了解行业的发展趋势、用户的需求及喜好等问题，改变了现有的商业模式。在大数据的背景下，数据的来源问题往往是阻碍研究的主要问题，一旦缺乏足够量的数据集，会对研究结果产生极大的影响，在研究者自发采集数据的情况下，数据量往往难以达到研究者期望的水平。此时，数据增强技术就显得尤为重要。

现有的数据增强方法大多是应用在图像领域，主要是为了较少网络的过拟合现象，通过对数据进行变换可以得到泛化能力更强的网络，更好的适应应用场景。在图像领域中，现有的较为常用的数据增强方法有以下几种：

旋转/反射变换：随机旋转图像一定角度；改变图像内容的朝向。

翻转变换：沿着水平或者垂直方向翻转图像。

缩放变换：按照一定的比例放大或者缩小图像。

平移变换：在图像平面上对图像以一定方式进行平移。

尺度变换：对图像按照指定的尺度因子，进行放大或缩小；或参照SIFT特征提取思想，利用指定的尺度因子对图像滤波构造尺度空间，改变图像内容的大小或模糊程度。

对比度变换：在图像的HSV颜色空间，改变饱和度S和亮度V分量，保持色调H不变。对每个像素的S和V分量进行指数运算，增加光照变化。

噪声扰动：对图像的每个像素RGB进行随机扰动，常用的噪声是高斯噪声。

颜色变化：在图像通道上添加随机扰动。

随机剪切：采用随机图像差值方法，对图像进行裁剪、缩放。

而对于多维特征数据，现有的数据增强方法较为稀少，且存在一定的缺陷，在进行数据增强的过程中，由于对数据进行了一定程度的变换，可能会对数据的特征进行破坏，使得神经网络难以提取到准确的特征，从而降低识别的准确率。

发明内容

本发明实施例为克服上述技术缺陷，提供一种数据增强方法及装置。

第一方面，本发明实施例提供一种数据增强方法，包括：

对不同标签下多维时序数据进行预处理，得到特征数据；

对所述特征数据进行特征分析，获取所述特征数据中特征维与标签之间的相关系数，其中所述相关系数用于反映特征维和所述标签之间的关系；

根据所述相关系数的大小，将预设数量的特征维作为主特征维，其余特征维为非主特征维；

对非主特征维数据进行加权融合处理或加噪声处理，结合主特征维数据生成增强数据。

第二方面，本发明实施例提供一种数据增强装置，包括：

预处理模块，用于对不同标签下多维时序数据进行预处理，得到特征数据；

特征分析模块，用于对所述特征数据进行特征分析，获取所述特征数据中特征维与标签之间的相关系数，其中所述相关系数用于反映特征维和所述标签之间的关系；

处理模块，用于根据所述相关系数的大小，将预设数量的特征维作为主特征维，其余特征维为非主特征维；

数据生成模块，用于对非主特征维数据进行加权融合处理或加噪声处理，结合主特征维数据生成增强数据。

第三方面，本发明实施例提供一种电子设备，包括存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如第一方面所述的一种数据增强方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述一种数据增强方法。

本发明实施例提供的一种数据增强方法及装置，提出了一种非主特征维加权融合算法，运用于多维特征数据的数据增强中，能够在保持原有数据主要特征不变的前提下，对非主要特征进行加权计算以达到增强数据的效果，能够在处理小样本数据集时，提高准确率和泛化能力。

附图说明

图1为本发明实施例提供的一种数据增强方法的流程示意图；

图2为本发明实施例提供的一种数据增强装置的结构示意图；

图3为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种数据增强方法的流程示意图，如图1所示，包括：

步骤11，对不同标签下多维时序数据进行预处理，得到特征数据；

步骤12，对所述特征数据进行特征分析，获取所述特征数据中特征维与标签之间的相关系数，其中所述相关系数用于反映特征维和所述标签之间的关系；

步骤13，根据所述相关系数的大小，将预设数量的特征维作为主特征维，其余特征维为非主特征维；

步骤14，对非主特征维数据进行加权融合处理或加噪声处理，结合主特征维数据生成增强数据。

时序数据是指依赖于时间而变化，可以用数值来反映其变化程度的数据，时序数据具有两个关键的指标：监测时间和监测数值。不同标签下多维时序数据指的是多个不同标签下的时序数据，一个行为对应一组数据，该行为即为这组数据的标签，以某车辆的驾驶行为数据为例，左转这一状态行为为其标签，在左转这一行为下的一组数据，包括加速度和角速度等，都为该标签下的数据。

首先对不同标签下多维时序数据进行预处理，得到特征数据，便于后续处理。

得到特征数据后，根据特征数据中特征维和标签之间的关系，确定特征维中的主特征维和非主特征维，具体的，对特征数据中的各个特征维进行相关性分析，计算各个特征维与标签之间的相关系数，相关系数用于反映特征维和标签之间的关系。以车辆驾驶行为六轴传感器数据为例，在左转这一状态下，加速度y轴和角速度z轴与左转这一行为密切相关，变化较大，故加速度y轴和角速度z轴对应的特征维与标签之间的相关系数较大，而加速度x、加速度z、角速度x、角速度y与左转这一行为的关系相对不密切，相关系数较小。

通过相关系数来确定主特征维和非主特征维，根据相关系数的大小，将预设数量的特征维作为主特征维，其余特征维为非主特征维。

确定了主特征维和非主特征维之后，需要对数据进行增强，数据增强的方法有两种，一种是保持主特征维不变，把若干个非主特征维数据叠加取均值来合并，另一种是保持主特征维数据不变，在非主特征维上加噪声，来实现数据增强和扩展。以第一种增强方法为例，具体操作是，保留主特征维数据不变，对非主特征维数据按比例进行加权，再将加权后的非主特征维数据与主特征维数据进行拼合，生成增强数据，该增强数据可作为新数据对机器学习算法模型进行训练和测试。

例如，现有一个六轴传感器，用于反映某车辆的驾驶行为，以该六轴传感器数据为例，在左转这一状态下，根据相关系数矩阵可以得到该状态的主特征维为加速度y轴和角速度z轴，然后保留主特征维加速度y轴和角速度z轴的数据不变，对非主特征维加速度x、加速度z与角速度x、角速度y进行加权融合，即：

data_acc＝acc_x*w1+acc_z*w2，

data_gyr＝gyr_x*w1+gyr_y*w2，

其中w1+w2＝1，acc_x代表非主特征维加速度x数据，acc_z代表非主特征维加速度z数据，gyr_x代表非主特征维角速度x数据，gyr_y代表非主特征维角速度y数据，w1和w2为加权系数，data_acc为加速度x、加速度z的数据加权融合后的数据，data_gyr为角速度x、角速度y的数据加权融合后的数据。将其与主特征维加速度y轴和角速度z轴数据进行拼合即可生成增强数据。根据上述方法得到增强数据后，可将增强数据用于机器学习算法模型的训练。本发明实施例将增强数据随机分为训练集、验证集和测试集，训练集用于训练卷积神经网络模型，验证集和测试集用于测试训练后的卷积神经网络模型的泛化能力。

以六轴传感器数据为例，以卷积神经网络为基本的网络框架。将增强数据随机分为训练集、验证集和测试集，其中测试集占总数据集的10％，而验证集占2.7％，其余作为训练集。

将原始数据集和经过本发明中数据增强后的数据集分别送入卷积神经网络训练，得到的结果如下表所示：

表1：结果对比

Models	Loss	Acc	Val-Loss	Val-Acc	Precision	Recall	F1-score
								CNN	1.2118	0.9800	101816	0.9286	0.92	0.90	0.91
CNN+DA	0.3112	0.9656	0.3619	0.9400	0.96	0.95	0.95

CNN代表原始数据集，CNN+DA代表数据增强后的数据集，可观察到在使用数据增强方案时验证集和测试集中的损失明显减少。数据增加还减少了验证集和测试集之间的准确度差异。这意味着数据增强方案提高了小数据集中深度神经网络的泛化能力。

本发明实施例提供的一种数据增强方法，提出了一种非主特征维加权融合算法，运用于多维特征数据的数据增强中，能够在保持原有数据主要特征不变的前提下，对非主要特征进行加权计算以达到增强数据的效果，能够在处理小样本数据集时，提高准确率和泛化能力。

在上述实施例的基础上，所述对不同标签下多维时序数据进行预处理，具体包括：

对所述不同标签下多维时序数据进行数据插值处理和/或标准化处理。

在数据挖掘中，原始数据中可能存在着大量不完整、不一致、有异常、偏离点的数据。这些问题数据轻则影响数据挖掘执行效率，重则影响执行结果。因此数据预处理工作必不可少，本发明实施例通过数据插值处理或标准化处理对不同标签下多维时序数据进行预处理，得到特征数据。

可以通过诸如采样、实验等方法获得若干离散的数据，根据这些数据，希望得到一个连续的函数(也就是曲线)或者更加密集的离散方程与已知数据相吻合，这过程就叫做拟合。通过拟合得到的函数获得未知点的数据的方法，叫做插值。插值处理包括多项式插值、线性插值和拉格朗日插值等长处理等，拉格朗日插值法是一种多项式插值方法，如对实践中的某个物理量进行观测，在若干个不同的地方得到相应的观测值，拉格朗日插值法可以找到一个多项式，其恰好在各个观测的点取到观测到的值。这样的多项式称为拉格朗日插值多项式。本发明实施例的数据插值处理使用了拉格朗日插值等长处理技术，如，将采集到的不同标签下多维时序数据统一插值处理到300数据长度，使得各特征维数据等长。

在数据分析之前，通常需要先将数据标准化处理，利用标准化后的数据进行数据分析。本发明实施例的标准化处理具体包括：去均值处理、归一化处理和白化处理。

去均值处理指的的数据中各维度都减对应维度的均值，使得输入数据各个维度都中心化为0，进行去均值处理的原因是避免数据容易拟合，导致数据处理效果不佳。

归一化处理包括最值归一化，例如把最大值归一化为1，最小值归一化为-1，或把最大值归一化为1，最小值归一化为0，最值归一化适用于本来就分布在有限范围内的数据。另一种归一化处理是均值方差归一化，一般是把均值归一化成0，方程归一化为1，均值方差归一化适用于分布没有明显边界的情况。归一化处理的目的是把各个特征的尺度控制在相同的范围内，便于找到最优解，提高数据处理的效率。

白化处理是指通过抛弃携带信息量较少的维度，保留主要的特征信息来对数据进行降维处理，目的是去掉数据之间的相关联度和令方差均一化。

标准化处理采用去均值处理、归一化处理和白化处理等技术，能够去除特征间的冗余信息，提高数据处理效率。处理后，得到特征数据，根据特征数据中特征维和标签之间的关系，确定特征维中的主特征维和非主特征维，对非主特征维数据加权融合，结合主特征维数据生成增强数据。

在上述实施例的基础上，所述获取所述特征数据中特征维与标签之间的相关系数，具体包括：

根据所述特征维数据获取对应的数字特征；

根据所述数字特征和所述标签，获取所述相关系数。

根据特征维数据获取对应的数字特征，数字特征包括但不限于数据能量。以数据能量为例说明，对于某一具体行为，各个特征维的数据能量不一致，首先对特征数据进行特征分析鉴于特征数据经过预处理后存在负值，故对特征数据平方处理后得到各特征数据对应的数据能量，即：

Q＝a²，

a为所述标签下任一特征维数据，Q为对应的数据能量。

对数据能量能量同标签之间进行相关性分析，通过pandas包里的DataFrame函数计算各特征维与标签之间的相关系数，选取其中较为明显的一个或两个特征维作为主特征维。根据分析结果获取特征维的数据能量与标签之间的相关系数，再根据相关系数的大小来确定预设数量个主特征维，剩余的特征维为非主特征维，其中预设数量为一个或多个，可根据实际情况确定。

在上述实施例的基础上，所述对非主特征维数据进行加权融合处理，具体包括：

所述主特征维数据不变，根据加权值对所述非主特征维数据处理，得到加权后数据；

将所述加权后数据加入所述非主特征维数据，得到新的非主特征维数据。

确定了主特征维和非主特征维后，需要进行数据增强，本发明实施例采取的数据增强方法是保持主特征维数据不变，把若干个非主特征维数据叠加取均值来合并。具体的，先根据加权值对非主特征维数据处理，得到加权后数据，各个非主特征维的加权值的和为1，得到加权后数据后，将其与原来的非主特征维数据一起形成新的非主特征维数据，然后结合主特征维数据和新的非主特征维数据生成增强数据。

以车辆驾驶行为的六轴传感器数据为例，在左转这一状态下，根据相关系数矩阵可以得到该状态的主特征维为加速度y轴和角速度z轴，然后保留主特征维加速度y轴和角速度z轴的数据不变，对非主特征维加速度x、加速度z与角速度x、角速度y进行加权融合，即：

data_acc＝acc_x*w1+acc_z*w2，

data_gyr＝gyr_x*w1+gyr_y*w2，

其中w1和w2为加权值，w1与w2的值可任意取定，但是要求w1>0，w2>0且w1+w2＝1，acc_x代表非主特征维加速度x数据，acc_z代表非主特征维加速度z数据，gyr_x代表非主特征维角速度x数据，gyr_y代表非主特征维角速度y数据，data_acc为加速度x、加速度z的数据加权融合后的数据，data_gyr为角速度x、角速度y的数据加权融合后的数据。将data_acc和data_gyr加入原来的非主特征维数据加速度x、加速度z、角速度x和角速度y中，形成新的非主特征维数据data_acc、data_gyr、加速度x、加速度z、角速度x和角速度y。

将新的非主特征维数据与主特征维加速度y轴和角速度z轴数据进行拼合即可生成增强数据。

本发明实施例采取的数据增强方法除了上述方法，还可以白用保持主特征维数据不变，在非主特征维上加噪声的方式，来实现数据增强和扩展，此处不再赘述。

图2为本发明实施例提供的一种数据增强装置的结构示意图，如图2所示，包括预处理模块21、特征分析模块22、处理模块23和数据生成模块24，其中：

预处理模块21用于对不同标签下多维时序数据进行预处理，得到特征数据；

特征分析模块22用于对所述特征数据进行特征分析，获取所述特征数据中特征维与标签之间的相关系数，其中所述相关系数用于反映特征维和所述标签之间的关系；

处理模块23用于根据所述相关系数的大小，将预设数量的特征维作为主特征维，其余特征维为非主特征维；

数据生成模块24用于对非主特征维数据进行加权融合处理或加噪声处理，结合主特征维数据生成增强数据。

首先预处理模块21对不同标签下多维时序数据进行预处理，得到特征数据，便于后续处理。

得到特征数据后，根据特征数据中特征维和标签之间的关系，确定特征维中的主特征维和非主特征维，具体的，特征分析模块22对特征数据中的各个特征维进行相关性分析，计算各个特征维与标签之间的相关系数，相关系数用于反映特征维和标签之间的关系。以车辆驾驶行为六轴传感器数据为例，在左转这一状态下，加速度y轴和角速度z轴与左转这一行为密切相关，变化较大，故加速度y轴和角速度z轴对应的特征维与标签之间的相关系数较大，而加速度x、加速度z、角速度x、角速度y与左转这一行为的关系相对不密切，相关系数较小。

处理模块23通过相关系数来确定主特征维和非主特征维，根据相关系数的大小，将预设数量的特征维作为主特征维，其余特征维为非主特征维。

确定了主特征维和非主特征维之后，数据生成模块24保留主特征维数据不变，对非主特征维数据按比例进行加权，再将加权后的非主特征维数据与主特征维数据进行拼合，生成增强数据，该增强数据可作为新数据对机器学习算法模型进行训练和测试。

本发明实施例提供的装置是用于执行上述各方法实施例的，具体的流程和详细介绍请参见上述各方法实施例，此处不再赘述。

本发明实施例提供的一种数据增强装置，提出了一种非主特征维加权融合算法，运用于多维特征数据的数据增强中，能够在保持原有数据主要特征不变的前提下，对非主要特征进行加权计算以达到增强数据的效果，能够在处理小样本数据集时，提高准确率和泛化能力。

图3为本发明实施例提供的一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和总线340，其中，处理器310，通信接口320，存储器330通过总线340完成相互间的通信。总线340可以用于电子设备与传感器之间的信息传输。处理器310可以调用存储器330中的逻辑指令，以执行如下方法：对不同标签下多维时序数据进行预处理，得到特征数据；对所述特征数据进行特征分析，获取所述特征数据中特征维与标签之间的相关系数，其中所述相关系数用于反映特征维和所述标签之间的关系；根据所述相关系数的大小，将预设数量的特征维作为主特征维，其余特征维为非主特征维；对非主特征维数据进行加权融合处理或加噪声处理，结合主特征维数据生成增强数据

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的一种数据增强方法，例如包括：对不同标签下多维时序数据进行预处理，得到特征数据；对所述特征数据进行特征分析，获取所述特征数据中特征维与标签之间的相关系数，其中所述相关系数用于反映特征维和所述标签之间的关系；根据所述相关系数的大小，将预设数量的特征维作为主特征维，其余特征维为非主特征维；对非主特征维数据进行加权融合处理或加噪声处理，结合主特征维数据生成增强数据。

以上所述仅为本发明的优选实施例，并不用于限制本发明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充，但并不会偏离本发明的精神或者超越所附权利要求书定义的范围。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据增强方法，其特征在于，包括：

对不同标签下多维时序数据进行预处理，得到特征数据；

2.根据权利要求1所述的方法，其特征在于，所述对不同标签下多维时序数据进行预处理，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述数据插值处理具体包括拉格朗日插值等长处理。

4.根据权利要求2所述的方法，其特征在于，所述标准化处理具体包括：去均值处理、归一化处理和白化处理。

5.根据权利要求2所述的方法，其特征在于，所述获取所述特征数据中特征维与标签之间的相关系数，具体包括：

根据所述特征维数据获取对应的数字特征；

根据所述数字特征和所述标签，获取所述相关系数。

6.根据权利要求5所述的方法，其特征在于，所述预设数量为一个或多个。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述对非主特征维数据进行加权融合处理，具体包括：

8.一种数据增强装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的一种数据增强方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述一种数据增强方法。