CN115021965A

CN115021965A - 一种基于生成式对抗网络的入侵检测的攻击数据的生成方法及

Info

Publication number: CN115021965A
Application number: CN202210485160.4A
Authority: CN
Inventors: 孟博; 杨杰; 王德军; 魏增颂
Original assignee: Shijiazhuang Citic Youlian Software Co ltd; South Central University for Nationalities
Current assignee: Shijiazhuang Citic Youlian Software Co ltd; South Central Minzu University
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-09-06
Anticipated expiration: 2042-05-06
Also published as: CN115021965B

Abstract

本发明提供了一种基于生成式对抗网络的入侵检测***的攻击数据的生成方法及***，首先对获取的数据流量进行特征分析，然后通过随机森林算法进行特征筛选，接着对数据集进行预处理，去除数据集中的零值和空值，并将各类攻击数据均匀采样；构建的生成式对抗网络模型，包含生成器、转换器、判别器三个部分，生成器采用随机噪声作为输入，经过多层神经网络生成新的数据样本，转换器将生成的数据样本的非攻击特征与攻击行为数据样本的攻击特征结合，形成新的攻击样本，交给判别器，对真实数据与转换器产生的数据样本进行统一训练，训练结果参数传递给生成器，进行迭代训练；此外，通过基于深度信念网络的入侵检测***检测，评估攻击样本的攻击性能。

Description

一种基于生成式对抗网络的入侵检测***的攻击数据的生成方法及***

技术领域

本发明涉及信息安全技术领域，尤其涉及一种基于生成式对抗网络的入侵检测***的攻击数据的生成方法及***。

背景技术

入侵检测技术作为一种主动的安全防御手段，其研究工作已经得到了广泛的发展。尤其是伴随机器学习算法与深度学习算法的发展，检测算法也愈发丰富。关于基于深度学习的入侵检测***的攻击，这方面的研究也颇多。基于网络的入侵检测***IDS是入侵检测***中较为重要的一个分支，其通过一个***来监视网络，收集数据包的数据信息、观察并分析实时网络流量来检测网络中的入侵行为。

当深度学习的概念提出后，构建多个隐藏层组建的非线性网络结构来满足数据分类已经是大势所趋。“深度”是指神经网络中隐藏层的层数，传统的神经网络只包含2～3个隐藏层，而深度学习可包含高达150个隐藏层，深度学习采用多个连续层执行操作，各层相互连接，每层接收前一层的输出作为输入。例如：自动编码器由编码器和生成重构的解码器组成，能够表征线性变换和非线性变换,被广泛用于入侵检测领域中的降维任务。深度信念网络是一种由若干层RBM和一层BP组成的有向深层神经网络,通过隐层提取特征使得后面层次的训练数据更具有代表性,还可以解决复杂高维数据的检测问题，已经被应用于入侵检测领域。

入侵检测的算法纷繁多样，其目的在专注提升检测***的检测效率与准确率。在保障其安全性、可靠性这一方向的研究上，却有所欠缺。目前，针对基于网络的入侵检测***的攻击流量的生成方法中，迭代次数多，计算效率低，生成扰动时间长。

发明内容

本发明提供一种基于生成式对抗网络的入侵检测***的攻击数据的生成方法及***，用解决或者至少部分解决现有技术中攻击数据生成效率和效果不佳的技术问题。

为了解决上述技术问题，本发明第一方面提供了一种基于生成式对抗网络的入侵检测***的攻击数据的生成方法，包括：

S1：获取数据流量，其中，数据流量包括正常网络行为数据流量和攻击行为数据流量；

S2：采用流量分析工具对获取的数据流量进行特征分析，得到相关数据集，其中，相关数据集包括正常网络行为数据样本和攻击行为数据样本，正常网络行为数据样本和攻击行为数据样本都包含攻击特征和非攻击特征；

S3：通过随机森林算法进行特征筛选，标记相关数据集中数据样本的攻击特征与非攻击特征，然后对特征标记后的数据集进行预处理；

S4：构建生成式对抗网络模型，该模型包括生成器、转换器和判别器，其中，生成器用于学习正常网络行为数据样本的特征分布规律，并生成攻击数据样本，转换器用于将生成的攻击数据样本包含的非攻击特征与攻击行为数据样本包含的攻击特征进行结合，形成新的攻击数据样本，判别器为一个二分类器，对相关数据集中的正常网络行为数据样本与转换器产生的新的攻击数据样本进行统一训练，判定输入的是真实数据样本还是生成的数据样本，然后将训练结果参数传递给生成器，进行迭代训练，得到训练好的生成式对抗网络模型；

S5：利用训练好的生成式对抗网络模型生成目标攻击数据。

在一种实施方式中，在步骤S5之后，所述方法还包括：

设置深度信念网络的入侵检测***，检测生成的目标攻击数据的攻击性能。

在一种实施方式中，步骤S3中通过随机森林算法进行特征筛选，标记相关数据集中数据样本的攻击特征与非攻击特征，包括：

通过随机森林算法进行特征筛选，将重要性排名符合预定条件的特征标记为攻击特征，其余特征标记为非攻击特征。

在一种实施方式中，步骤S3中对特征标记后的数据集进行预处理，包括：

清除特征标记后的数据集中的异常数据，删除包含无穷数值、空值的数据，将日期数值转换为时间戳。

在一种实施方式中，步骤S4中在进行迭代训练时，采用的损失函数为：

其中，P_r为真实的数据样本的概率分布，P_g为生成的数据样本的概率分布。 W(P_r,P_g)为P_r和P_g的Wasserstein距离，π(P_r,P_g)为P_r和P_g分布组合起来的所有可能的联合分布的集合，对于每一个联合分布，从中采样得到一对样本x和y,||x-y|| 为这对样本的距离，Ε_(x,y)～γ[||x-y||]为联合分布γ下样本对距离的期望值，

表示求解该期望值的下界。

基于同样的发明构思，本发明第二方面提供了一种基于生成式对抗网络的入侵检测***的攻击数据的生成***，包括：

数据流量获取模块，用于获取数据流量，其中，数据流量包括正常网络行为数据流量和攻击行为数据流量；

特征分析模块，用于采用流量分析工具对获取的数据流量进行特征分析，得到相关数据集，其中，相关数据集包括正常网络行为数据样本和攻击行为数据样本，正常网络行为数据样本和攻击行为数据样本都包含攻击特征和非攻击特征；

特征筛选与预处理模块，用于通过随机森林算法进行特征筛选，标记相关数据集中数据样本的攻击特征与非攻击特征，然后对特征标记后的数据集进行预处理；

模型构建与训练模块，用于构建生成式对抗网络模型，该模型包括生成器、转换器和判别器，其中，生成器用于学习正常网络行为数据样本的特征分布规律，并生成攻击数据样本，转换器用于将生成的攻击数据样本包含的非攻击特征与攻击行为数据样本包含的攻击特征进行结合，形成新的攻击数据样本，判别器为一个二分类器，对相关数据集中的正常网络行为数据样本与转换器产生的新的攻击数据样本进行统一训练，判定输入的是真实数据样本还是生成的数据样本，然后将训练结果参数传递给生成器，进行迭代训练，得到训练好的生成式对抗网络模型；

攻击数据生成模块，用于利用训练好的生成式对抗网络模型生成目标攻击数据。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提出了一种基于生成式对抗网络的入侵检测***的攻击数据的生成方法，将数据集划分为正常网络行为数据样本和攻击行为数据样本，正常网络行为数据样本作为模型的输入进行训练，攻击行为数据样本选取部分攻击特征与生成的攻击数据样本的非攻击特征结合，不直接参与模型的训练。本发明通过随机森林算法进行特征筛选，将重要性排名靠前的特征认定为攻击特征，并将生成的攻击数据样本的非攻击特征与攻击行为数据样本的攻击特征进行结合，形成新的攻击数据样本，一方面能够保障攻击样本数据的攻击能力，另一方面能够减少模型算法时间空间的消耗，从而提高攻击数据的生成的效果以及生成的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的生成式对抗网络的基本框架图；

图2是本发明实施例中提供的基于生成式对抗网络的入侵检测***的攻击数据的生成方法的架构图；

图3是本发明实施例中提供的基于生成式对抗网络的入侵检测***的攻击数据的生成方法的流程图。

具体实施方式

本发明提供了一种基于生成式对抗网络的入侵检测***的攻击数据的生成方法及***，通过生成器对抗网络的生成器生成攻击数据样本，并将生成的攻击数据样本的非攻击特征与攻击行为数据样本的攻击特征进行结合，形成新的攻击数据样本，从而达到提高攻击数据的生成的效果以及生成的效率的目的。

为了达到上述目的，本发明的主要构思如下：

首先获取数据流量，然后采用流量分析工具对获取的数据流量进行特征分析，接着通过随机森林算法进行特征筛选，标记相关数据集中数据样本的攻击特征与非攻击特征，将数据集分为正常网络行为数据样本和攻击行为数据样本；再构建生成式对抗网络模型，通过生成器学习正常网络行为数据样本的特征分布规律，并生成攻击数据样本，转换器将生成的攻击数据样本的非攻击特征与攻击行为数据样本的攻击特征结合，形成新的攻击数据样本，判别器对数据集中正常网络行为的数据样本与转换器产生的新的攻击数据样本进行统一训练，训练结果参数传递给生成器，进行迭代训练，最终通过训练好的生成式对抗网络模型生成目标攻击数据。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于生成式对抗网络的入侵检测***的攻击数据的生成方法，包括：

S4：构建生成式对抗网络模型，该模型包括生成器、转换器和判别器，其中，生成器用于学习正常网络行为数据样本的特征分布规律，并生成攻击数据样本，转换器用于将生成的攻击数据样本包含的非攻击特征与攻击行为数据样本包含的攻击特征进行结合，形成新的攻击数据样本，判别器为一个二分类器，对相关数据集中的正常网络行为数据样本与转换器产生的新的攻击数据样本进行统一训练，判定输入的是真实数据样本还是生成的数据样本，然后将训练结果参数传递给生成器，进行迭代训练，最终通过训练好的生成式对抗网络模型生成目标攻击数据。

具体来说，生成式对抗网络GAN的思想基础是二人零和博弈，自提出后就一直是研究的热点。经过近些年来的研究，GAN的研究领域已经涉及各种领域。使用GAN的方式来生成攻击数据，在具体应用过程中，以生成的攻击数据欺骗一个使用深度学习的入侵检测***，是针对基于深度学习的入侵检测***缺陷的一种行之有效的攻击方案。如果需要构造一种绕过基于深度学习的入侵检测***检测的攻击方法。首先要解决如何产生能够绕过入侵检测***检测数据流量。基于深度信念网络的入侵检测***，其技术原理是使用深度神经网络，用于特征提取、感知和学习。产生的数据流量要符合这种深度学习的流量特征和概率分布。

其次，确保产生的数据流量能够在绕过入侵检测***检测的同时，具备攻击能力也是需要解决的技术问题。否则产生的数据样本就是一般的数据流量，不能对目标服务器或者目标用户造成攻击。

为解决上述问题，本实施例提供了一种基于生成式对抗网络的入侵检测***的攻击数据的生成方法，基于生成式对抗网络零和博弈的思想，构造生成器和判别器，相互迭代训练。同时，在生成器与判别器中间设置一个转换器，从而可以保留生成的数据的非攻击特征，并将非攻击特征与已有的攻击行为数据样本的攻击特征进行结合，得到攻击性较强的攻击数据。

请参见图3，是本发明实施例中提供的基于生成式对抗网络的入侵检测***的攻击数据的生成方法的流程图。

具体实施过程中，步骤S1中的数据流量可以由用户进行下载。步骤S3采用随机森林算法进行特征筛选和预处理后，对正常网络行为数据样本和攻击行为数据样本进行分，例如，正常网络行为数据样本的标签为Begin，攻击行为数据样本的标签为该数据的攻击类型。其中，得到的正常网络行为数据样本作为模型的输入参与模型训练，攻击行为数据样本的攻击特征用于与训练过程中生成器生成的攻击数据样本的非攻击特征进行结合，不直接参与模型训练。

请参见图1～2，图1为本发明实施例中提供的生成式对抗网络的基本框架图。图2为本发明实施例中提供的基于生成式对抗网络的入侵检测***的攻击数据的生成方法的架构图。

步骤S4中构建的生成式对抗网络模型由一个生成器、一个转换器和一个判别器构成，生成器的输入是一维随机变量，输出是学习到的流量特征(生成式对抗网络学习生成的是正常网络行为数据样本的特征分布，生成的攻击数据样本虽然包括攻击特征和非攻击特征，但是一般不具备攻击能力，需要将其包含的攻击特征替换为攻击网络行为数据的攻击特征，使其具备攻击能力)。转换器将生成器产生的攻击数据样本的非攻击特征与攻击流量的攻击特征结合，判别器作为一个二分类器，判定输入是真实数据特征还是生成的样本数据特征。对数据集中的流量特征与转换器产生的流量特征进行统一训练，训练结果参数传递给生成器，进行迭代训练。

在一种实施方式中，在步骤S4之后，所述方法还包括：

具体来说，基于深度学习的网络入侵检测方法是当前研究的热点。深度信念网络是由几个RBM和一层BP神经网络组成。其训练步骤主要是：对RBM进行逐层训练。可以通过映射每个下层的可见层矢量来获得隐藏层矢量，然后将隐藏层矢量输入为下一层的可见层矢量。在最后一个RBM之后添加一个BP神经网络，并将最后一个RBM的输出向量作为其输入向量。针对深度信念网络，可以构建一个生成式对抗网络，为其构建卷积神经网络构成的生成器和判别器。相互进行零和博弈，最终生成具备攻击能力的攻击数据，该攻击数据能够绕过该入侵检测***的检测。

具体来说，正常网络行为数据样本和攻击行为数据样本都包含攻击特征与非攻击特征，攻击特征与非攻击特征使用随机森林算法进行划分。

具体实施过程中，符合预定条件的特征是预先设置的特征优先度靠前的特征，以表明该特征决定数据样本具备攻击能力的重要程度，需要说明的是，所有数据样本的特征数量一致，特征名相同，但是特征值不同。

表示求解该期望值的下界。

具体来说，真实的数据样本x的概率分布为P_r，P_g为生成数据样本x的概率分布。生成式对抗网络主要学习随机变量z到真实的数据样本x的映射关系，z 服从正态分布，经过生成器得到微分函数g(z)，其参数为θ_g，表示样本是来自生成数据的概率。使用参数θ_d定义判别器函数f(x)，该参数表示x是真实数据的概率。训练判别器使其最大化。L(f,θ_d)为生成式对抗网络的代价函数：

为数学中，求解P_r和P_g概率分布函数的积分形式。

理论上推导出最佳判别器，使其

其中，D^*(x)为固定生成器时，求解的最佳判别器函数，P_r(x)和P_g(x)分别表示P_r和P_g的概率密度。可通过P_r和P_g的KL差异来衡量概率密度的差异，JS 散度为KL散度的变形，JSD(P_r(x))||P_g(x))为P_r和P_g之间的JS散度，也可以对P_r和P_g的差异进行衡量。进而将生成式对抗网络的价值函数L(f,θ_d)推导为涵盖JS 散度的训练标准：

L(f,θ_d)＝-2log2+2JSD(P_r(x)||P_g(x))

然而，当P_r和P_g的概率分布没有重合的地方，无法通过梯度下降的方法了解相关的两个分布之间的梯度信息。因此，WGAN使用Wasserstein距离代替Jensen-Shannon发散，即最终采用的损失函数为Wasserstein距离的公式。

通过持续的极大极小值相互博弈，不断优化生成器和判别器，最终使得两个模块(生成器和判别器)达到纳什平衡，生成器产生的数据，判别器无法分辨是真实样本数据还是生成的样本数据，

为确保产生的数据流量能够具备攻击能力，在生成器和入侵检测***中创建转换器，转换器将生成的攻击数据样本中包含的非攻击特征与攻击行为数据样本中包含的攻击特征结合，形成新的数据样本。这样做的优势是能够保障攻击样本数据的攻击能力，同时转换器直接结合的方法能够减少模型算法时间空间的消耗。

具体示例中，使用的数据集是CSE-CIC-IDS-2018数据集。该数据集是通信安全机构(CSE)与加拿大网络安全研究所(CIC)之间的协作项目，它以基于创建用户概要文件来生成用于入侵检测的多样且全面的基准数据集，该概要文件包含网络上看到的事件和行为的抽象表示，而配置文件将被组合以生成一组不同的数据集，每个数据集都具有一组独特的功能，这些功能能够覆盖评估域的一部分。该数据集包含7个不同的攻击场景：Brute-force、Heartbleed、Botnet、DoS、 DDoS、Web attacks、infiltration of the network。

使用流量分析工具对数据流量进行分析特征，得到相关的数据集。采用CICFlowMeter工具可以提取相关的流量特征，它是一个使用Java编写的网络流量流生成器。最终得到FlowID，SourceIP，DestinationIP，SourcePort， DestinationPort和具有80多个网络流量特征。

通过随机森林算法进行特征选择，标记相关数据集中数据样本的攻击特征与非攻击特征。然后对数据集进行预处理，清除数据集中的异常数据。对正常网络行为数据样本和攻击行为数据样本进行分类，正常网络行为数据样本作为模型的输入参与模型训练，攻击行为数据样本的攻击特征直接与训练过程中生成器生成的攻击数据样本的非攻击特征结合，不直接参与模型训练。

将CSE-CIC-IDS-2018数据集中攻击特征与生成器产生的非攻击特征，经过转换器结合，送入判别器进行二分类，判别器与生成器迭代训练，生成足够的样本数据。最后生成的目标攻击数据传给深度信念网络的入侵检测***作为检测器，检测生成的数据具备的攻击性能。

具体实施过程中，根据选取攻击流量的不同。可将多种攻击方式的攻击特征与生成的攻击数据样本的非攻击特征结合，模拟多种攻击方法，包括但不仅限于 Dos攻击、Brute-force、Heartbleed、Botnet等攻击方法。

总体来说，本发明是基于生成式对抗网络的入侵检测***的攻击数据的生成方法，其目的是生成具有攻击特性攻击数据，该种数据能够绕过基于深度信念网络的入侵检测***的检测，

首先采用流量分析工具对获取的数据流量进行特征分析，然后通过随机森林算法进行特征筛选，接着对数据集进行预处理，去除数据集中的零值和空值，并将各类攻击数据均匀采样；构建的生成式对抗网络模型，包含生成器、转换器、判别器三个部分，生成器采用随机噪声作为输入，经过多层神经网络生成新的数据样本，转换器将生成的数据样本的非攻击特征与真实数据样本(攻击行为数据样本)的攻击特征结合，形成新的攻击样本，交给判别器，对真实数据与转换器产生的数据样本进行统一训练，训练结果参数传递给生成器，进行迭代训练；此外，通过基于深度信念网络的入侵检测***检测，评估攻击样本的攻击性能。

值得注意的是，本发明将数据集划分为正常网络行为数据样本和攻击行为数据样本，正常网络行为数据样本作为模型的输入进行训练，攻击行为数据样选取部分攻击特征与生成的攻击数据中的非攻击特征结合，不直接参与模型的训练

通过本发明的方法生成的攻击数据，能够对基于深度学习的入侵检测***实施行之有效的网络攻击。该方法根据选取的攻击行为数据样本的不同，将其特有的攻击特征与生成的攻击样本数据的非攻击特征相结合，模拟多种攻击方法，包括但不仅限于Dos攻击、Brute-force、Heartbleed、Botnet等攻击方法。本发明的优点是通过随机森林算法进行特征筛选，将重要性排名靠前的特征认定为攻击特征，将其与生成样本的非攻击特征结合，能够高效地保留生成样本的攻击能力。

实施例二

基于同样的发明构思，本实施例提供了一种基于生成式对抗网络的入侵检测***的攻击数据的生成***，包括：

由于本发明实施例二所介绍的***，为实施本发明实施例一中基于生成式对抗网络的入侵检测***的攻击数据的生成方法所采用的***，故而基于本发明实施例一所介绍的方法，本领域所属技术人员能够了解该***的具体结构，在此不再赘述。凡是本发明实施例一的方法所采用的***都属于本发明所欲保护的范围。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于生成式对抗网络的入侵检测***的攻击数据的生成方法，其特征在于，包括：

S5：利用训练好的生成式对抗网络模型生成目标攻击数据。

2.如权利要求1所述的基于生成式对抗网络的入侵检测***的攻击数据的生成方法，其特征在于，在步骤S5之后，所述方法还包括：

3.如权利要求1所述的基于生成式对抗网络的入侵检测***的攻击数据的生成方法，其特征在于，步骤S3中通过随机森林算法进行特征筛选，标记相关数据集中数据样本的攻击特征与非攻击特征，包括：

4.如权利要求1所述的基于生成式对抗网络的入侵检测***的攻击数据的生成方法，其特征在于，步骤S3中对特征标记后的数据集进行预处理，包括：

5.如权利要求1所述的基于生成式对抗网络的入侵检测***的攻击数据的生成方法，其特征在于，步骤S4中在进行迭代训练时，采用的损失函数为：

其中，P_r为真实的数据样本的概率分布，P_g为生成的数据样本的概率分布，W(P_r,P_g)为P_r和P_g的Wasserstein距离，π(P_r,P_g)为P_r和P_g分布组合起来的所有可能的联合分布的集合，对于每一个联合分布，从中采样得到一对样本x和y,||x-y||为这对样本的距离，Ε_(x,y)～γ[||x-y||]为联合分布γ下样本对距离的期望值，

表示求解该期望值的下界。

6.一种基于生成式对抗网络的入侵检测***的攻击数据的生成***，其特征在于，包括：