CN113033614A

CN113033614A - 网络流量数据处理方法及***

Info

Publication number: CN113033614A
Application number: CN202110221395.8A
Authority: CN
Inventors: 卜佑军; 王方玉; 张建辉; 陈博; 张桥; 张鹏; 伊鹏; 马海龙; 胡宇翔; 张稣荣; 孙嘉; 路祥雨; 王继; 张进
Original assignee: Information Engineering University of PLA Strategic Support Force; Network Communication and Security Zijinshan Laboratory
Current assignee: Information Engineering University of PLA Strategic Support Force; Network Communication and Security Zijinshan Laboratory
Priority date: 2021-02-27
Filing date: 2021-02-27
Publication date: 2021-06-25

Abstract

本发明属于网络安全技术领域，特别涉及一种网络流量数据处理方法及***，用于网络流量分类检测，包含：对原始网络流量数据集中不平衡数据进行采样并通过加入噪声来获取待处理数据，其中，不平衡数据为网络流量各类分布占比小于设定条件值类型的流量数据；对待处理数据进行标准化处理，并基于数据生成器生成样本数据；将样本数据添加至原始网络流量数据集中，组成用于网络流量分类检测的增强数据集。本发明采用数据生成器能够对采样数据的隐变量和似然函数精确处理，可以生成较为清晰的样本数据；且该方法可以对大型图像数据处理，在现实生活中具有较高的应用前景，在硬件上处理效率高，优化过程较为简单。

Description

网络流量数据处理方法及***

技术领域

本发明属于网络安全技术领域，特别涉及一种网络流量数据处理方法及***，适用于网络流量检测中不平衡数据增强处理。

背景技术

错分代价的不平衡和类别数量的不平衡是一个不平衡数据集的具备两个特点。随着大数据时代的到来，生活中广泛存在着各种各样的不平衡数据集。以不平衡数据集为训练集，通过构建类别与训练样本之间的关系模型，对样本的类别进行判断的问题被称为不平衡数据分类问题。当采用机器学***衡性，严重影响在不同领域的实际应用。由于不平衡数据在处理时遇到的众多问题，已经受到了越来越多的研究人员关注。当前不平衡数据领域涉及较多领域主要包括医疗诊断、欺诈检测、信息安全以及流量分类等，由于数据集的不平衡问题给工作人员的研究工作带来了巨大的挑战。因此如何有效的解决不平衡数据的分布是当前数据处理领域亟待解决的重要问题。

网络流量不平衡数据分类是分类领域存在的挑战问题之一，在真实场景中采集到的网络流量，大部分都是不均衡流量。传统基于不平衡流量数据处理的方法主要包括：数据集层面的方法、特征层面的处理方法和分类算法相关的算法等。在数据集层面的方法主要包括过采样和欠采样算法，其中过采样主要是smote算法等，欠采样主要是随机欠采样等。传统分类算法在面对数据分布不均衡的情况下无法有效分类，在数据分布高度不平衡的情况下也会无法分类。且对于数据集层面过采样会造成过拟合，欠采样往往会造成数据信息学***衡流量方面存在的问题如下：(1)在数据集层面对不平衡数据处理方法主要是欠采样和过采样技术，欠采样方法简单易操作，能减少模型训练时间，但是舍弃多数类的样本会丢弃数据中隐藏的有用信息，从而导致训练的分类器性能不理想；过采样则是通过增加少数类样本数量使数据趋于平衡，但是多次复制样本会使分类算法产生过拟合，虽然一些改进的算法能够克服过拟合的问题，但是又产生了泛化等难题。(2)近年来，新出现的变分自编码、对抗生辰网络等数据生成方法虽然简单，但是由于合成的流量维数随着计算长度的增加而增加，生成大型图像较为困难。(3)变分自动编码算法，是把概率图模型与深度学习结合的例子，只能推断出流量数据点对应的潜在变量的近似值；而对抗生成网络中没有编码器来推断隐藏信息，流量的数据点也不能由隐变量进行表示。

发明内容

为此，本发明提供一种网络流量数据处理方法及***，适用于解决网络流量不平衡数据的分类，便于网络流量分类检测的实际分析应用。

按照本发明所提供的设计方案，提供一种网络流量数据处理方法，用于网络流量分类检测，包含：

对原始网络流量数据集中不平衡数据进行采样并通过加入噪声来获取待处理数据，其中，不平衡数据为网络流量各类分布占比小于设定条件值类型的流量数据；

对待处理数据进行标准化处理，并基于数据生成器生成样本数据；

将样本数据添加至原始网络流量数据集中，组成用于网络流量分类检测的增强数据集。

作为本发明网络流量数据处理方法，进一步地，对不平衡数据采样过程中，利用采样手段对数据集不平衡数据进行预处理，其中，采样手段包含但不限于：Smote过采样及Undersampling欠采样。

作为本发明网络流量数据处理方法，进一步地，将网络流量数据表示成具有张量结构的数据形状，依次对不平衡数据通过采样和噪声处理获取网络流量序列作为待处理数据。

作为本发明网络流量数据处理方法，进一步地，数据生成器采用基于流的生成模型，该生成模型包含用于对待处理数据进行标准化的数据初始化层、用于反转输入数据的通道顺序进行卷积运算的卷积层及用于简化网络结构的仿射耦合映射层。

作为本发明网络流量数据处理方法，进一步地，待处理数据首先通过数据压缩，然后输入生成模型并配合数据压缩来获取样本数据。

作为本发明网络流量数据处理方法，进一步地，数据初始化层对输入网络流量进行批处理标准化；仿射耦合映射层对流量序列通过1*1可逆矩阵进行简化处理。

作为本发明网络流量数据处理方法，进一步地，仿射耦合映射层采用双射函数并通过叠加双射函数建立双射模型来完成流量序列简化处理。

作为本发明网络流量数据处理方法，进一步地，仿射耦合映射层利用分割函数将网络流量张量分割，并利用连接函数反向操作将分割的张量连接。

作为本发明网络流量数据处理方法，进一步地，将增强数据集作为分类检测模型输入，通过对数据集中每个样本进行遍历，利用被测数据的距离来计算特征之间的类均值，通过类均值获取类条件概率估计；利用反向传播算法通过梯度计算处理使生成的样本数据与原始网络流量数据相似概率达到预期。

进一步地，本发明还提供一种网络流量数据处理***，用于网络流量分类检测，包含：采样模块、生成模块和增强模块，其中，

采样模块，用于对原始网络流量数据集中不平衡数据进行采样并通过加入噪声来获取待处理数据，其中，不平衡数据为网络流量各类分布占比小于设定条件值类型的流量数据；

生成模块，用于对待处理数据进行标准化处理，并基于数据生成器生成样本数据；

增强模块，用于将样本数据添加至原始网络流量数据集中，组成用于网络流量分类检测的增强数据集。

本发明的有益效果：

本发明采用数据生成器能够对采样数据的隐变量和似然函数精确处理，因此采用该方法可以生成较为清晰的样本数据；且该方法可以对大型图像数据处理，在现实生活中具有较高的应用前景。在生成数据样本的同时可以进行训练，即对数据集样本进行并行化处理；相比变对抗生成网络和基于深度过采样等模型不能进行并行计算，基于流的数据生成模型具有高效的数据生成于推理能力，在硬件上处理效率高，优化过程较为简单。

附图说明：

图1为实施例中网络流量数据处理流程示意图；

图2为实施例中基于流的数据生成模型处理流程示意；

图3为实施例中数据压缩流程示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

针对典型性的流量中存在不平衡数据的问题，本发明实施例，提供一种网络流量数据处理方法，用于网络流量分类检测，包含：对原始网络流量数据集中不平衡数据进行采样并通过加入噪声来获取待处理数据，其中，不平衡数据为网络流量各类分布占比小于设定条件值类型的流量数据；对待处理数据进行标准化处理，并基于数据生成器生成样本数据；将样本数据添加至原始网络流量数据集中，组成用于网络流量分类检测的增强数据集。采用数据生成器能够对采样数据的隐变量和似然函数精确处理，因此采用该方法可以生成较为清晰的样本数据；且该方法可以对大型图像数据处理，在现实生活中具有较高的应用前景。

作为本发明实施例中网络流量数据处理方法，进一步地，对不平衡数据采样过程中，利用采样手段对数据集不平衡数据进行预处理，其中，对原数据集中的数据采样常见的采样手段主要通过Smote过采样、Undersampling欠采样等对训练数据集的不平衡的数据预处理。

作为本发明实施例中网络流量数据处理方法，进一步地，数据生成器采用基于流的生成模型，该生成模型包含用于对待处理数据进行标准化的数据初始化层、用于反转输入数据的通道顺序进行卷积运算的卷积层及用于简化网络结构的仿射耦合映射层。进一步地，数据初始化层对输入网络流量进行批处理标准化；仿射耦合映射层对流量序列通过1*1可逆矩阵进行简化处理。

在数据生成器模型中，首先对输入数据标准化预处理，使用标准化层对尺度和偏置层的这些参数进行初始化；初始化后数据，流量数据的尺度和偏差当作独立于数据的可训练的参数。然后在仿射耦合层实现输入数据的可逆变换，最后通过1*1可逆卷积简化整个网络计算量。

作为本发明实施例中网络流量数据处理方法，进一步地，将增强数据集作为分类检测模型输入，通过对数据集中每个样本进行遍历，利用被测数据的距离来计算特征之间的类均值，通过类均值获取类条件概率估计；利用反向传播算法通过梯度计算处理使生成的样本数据与原始网络流量数据相似概率达到预期。

增强数据集s_aug作为分类算法的输入，可微的分类算法通过可微特征提取器会对训练集中的每个样本进行遍历，使用被测数据的距离计算特征之间的类均值，再通过类均值计算类的条件概率估计p。最后通过反向传播算法进行梯度计算使得生成数据与原数据得到理想相似概率，这样既可以不断训练基于流的数据生成器和整个预处理过程不断优化，还可以降低分类算法的错误率。

进一步地，基于上述的方法，本发明实施例还提供一种网络流量数据处理***，用于网络流量分类检测，包含：采样模块、生成模块和增强模块，其中，

本案实施例中，处理不平衡数据主要通过采样，根据采样到的样本数据在基于流的数据生成器中；生成足够多样本x′_i，然后把新生成的样本数据与原数据集组成增强数据集s_aug；随后采用可微的分类算法对通过计算类均值做概率估计p，利用负反馈梯度下降算法不断优化分类算法和特征提取器。数据预处理阶段是对网络中的不平衡流量进行实时检测和分析，根据网络流量各类流量的分布，对少数类样本数据采样，然后与噪声共同放进基于流的数据生成模型中生成新的数据，随后与原流量数据集数据共同组成增强流量数据集。最后采用分类算法分类。

下面结合典型流量类型及模型参数实例对本案方案做进一步解释说明：

参见图1所示，从原数据集中采样，并把网络流量处理成为形状为[c×w×h]的张量作为输入，其中c是指通道维数，[w×h]是输入的流量维度。把从采样的流量序列加入噪声，即假设原数据为x_i，x′_i＝g(x_i,z)。在基于流的数据生成模型中对采样和加入噪声的流量序列进行数据标准化处理，然后在仿射耦合层对网络结构简化处理，最后对流量矩阵通过1*1可逆矩阵简化整体计算量；且该流与多尺度结构(如图2(b)所示)结合，此结构对于流量数据先进行压缩，然后经过图2(a)处理；然后在压缩，压缩后会输出一部分可控制的行列式，随后再多剩余一部分经过l、m函数的计算，在数据压缩后，函数l和m带有更多的隐藏特征；例如当流数据输入是维度T为x时，仿射耦合层的输出公式为：y_1:t＝x_1:t，y_t+1:T＝x_t+1:T⊙exp(l(x_1:d))+m(x_1:d)；之后对数据流分割，经过图2(a)的流程数据处理，最后再压缩。例如把一个4*4*1的张量压缩为2*2*4张量过程如图3所示。

初始化层:与数据相关的尺度和偏置层初始化，为了解决在训练深度模型中遇到的问题，对预处理的网络流量进行批处理标准化。由于批量处理标准化添加的噪声方差与GPU或者其处理单元的小批量大小成反比。而使用标准化层对尺度和偏置层的这些参数进行初始化，使得激活后的通道的符合0均值和单位为1的方差分布。初始化后的尺度和缩放都被看成独立于预处理的网络流量张量。

1×1反卷积，对于1×1反卷积的权重矩阵看作一个随机旋转矩阵，对于预处理为[c×w×h]网络流量h张量和c×c权重矩阵w的1×1可逆卷积的计算如下：

对det(w)求微分是o(c³)的计算代价常与计算conv2D(h；w)的微分是o(h·w·c²)计算代价做比较。初始化一个对数行列式为的权重矩阵W作为随机旋转矩阵，在经过一步梯度下降算法之后这些值不在是0.

使用LU分解，计算det(w)的代价通过矩阵W的LU分解从o(c³)简化o(c)，其中P是转换矩阵，L是对角线是1的下三角矩阵，U是对角线为0的上三角矩阵，S是一个矢量，W＝PL(U+diag(s))。

c值大时，微分计算代价就会很重要。在参数化处理中，首先通过对随机旋转矩阵W的采样来初始化参数，然后计算相应的P值和相应的L、U和s，logdet(W)＝sum(logs)。由上述计算流程可知经过反卷积处理后的简化的计算矩阵也减少了整体计算量。

仿射耦合层，前向函数、反向函数和对数行列式在计算上有效的强大可逆变换是引入了仿射耦合层。仿射耦合层是指在对流数据处理时，采用的时双射函数(即对于任何y，都有唯一确定的x与其对应)，通过叠加一系列简单的双射函数建立双射模型。在每个简单的双射中，使用易于求反的函数更新输入向量的一部分，但是该函数以复杂的方式取决于输入向量的其余部分。可把这些叠加的双射函数称为仿射耦合层。可采用耦合层是一个s＝1和行列式为0的特例。

0初始化，采用零初始化每个神经网络的最后一个卷积，以便双射耦合层的函数可以执行识别函数，而且有助于训练深层的网络。分割与连接，采用分割函数Split()把预处理的网络流量张量[c×w×h]中h沿通道分成2部分，再用连接函数concatenation()函数反向操作即：把分离开的张量在连接成一个张量。在上述流量处理的步骤中应该对变量进行某种排列，来保证流量在每步处理之后，每一类流量之间的维度可以相互影响。置换类型相当于在仿射耦合层执行逆转通道的顺序。

经过上述强大的可逆和学***衡后的数据集可以作为模型训练的输入进行例如网络流量检测等领域研究应用。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的各实例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不认为超出本发明的范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如：只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种网络流量数据处理方法，用于网络流量分类检测，其特征在于，包含：

2.根据权利要求1所述的网络流量数据处理方法，其特征在于，对不平衡数据采样过程中，利用采样手段对数据集不平衡数据进行预处理，其中，采样手段包含但不限于：Smote过采样及Undersampling欠采样。

3.根据权利要求1或2所述的网络流量数据处理方法，其特征在于，将网络流量数据表示成具有张量结构的数据形状，依次对不平衡数据通过采样和噪声处理获取网络流量序列作为待处理数据。

4.根据权利要求1所述的网络流量数据处理方法，其特征在于，数据生成器采用基于流的生成模型，该生成模型包含用于对待处理数据进行标准化的数据初始化层、用于反转输入数据的通道顺序进行卷积运算的卷积层及用于简化网络结构的仿射耦合映射层。

5.根据权利要求4所述的网络流量数据处理方法，其特征在于，待处理数据首先通过数据压缩，然后输入生成模型并配合数据压缩来获取样本数据。

6.根据权利要求4所述的网络流量数据处理方法，其特征在于，数据初始化层对输入网络流量进行批处理标准化；仿射耦合映射层对流量序列通过1*1可逆矩阵进行简化处理。

7.根据权利要求4所述的网络流量数据处理方法，其特征在于，仿射耦合映射层采用双射函数并通过叠加双射函数建立双射模型来完成流量序列简化处理。

8.根据权利要求1或4所述的网络流量数据处理方法，其特征在于，仿射耦合映射层利用分割函数将网络流量张量分割，并利用连接函数反向操作将分割的张量连接。

9.根据权利要求1所述的网络流量数据处理方法，其特征在于，将增强数据集作为分类检测模型输入，通过对数据集中每个样本进行遍历，利用被测数据的距离来计算特征之间的类均值，通过类均值获取类条件概率估计；利用反向传播算法通过梯度计算处理使生成的样本数据与原始网络流量数据相似概率达到预期。

10.一种网络流量数据处理***，用于网络流量分类检测，其特征在于，包含：采样模块、生成模块和增强模块，其中，