CN115694947B

CN115694947B - 基于对抗生成dqn的网络加密流量威胁样本生成机制方法

Info

Publication number: CN115694947B
Application number: CN202211316059.2A
Authority: CN
Inventors: 杨进; 梁炜恒; 梁刚; 朱云飞; 陈晨; 李果
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2024-04-16
Anticipated expiration: 2042-10-26
Also published as: CN115694947A

Abstract

本发明公开了基于对抗生成DQN的网络加密流量威胁样本生成机制方法，通过数据预处理，将原始网络加密流量数据包中的数据转换为对抗生成DQN威胁样本生成模型所需数据格式；将所得的数据输入到类别标注处理程序中进行类别标注；对网络加密流量威胁样本生成方法，将其分解为一系列模块，最后一步为输出生成的网络加密流量威胁样本数据；其中改进样本生成模块根据初始候选环境所相关的信息选择相应的下一步行动，然后再根据行动选择下一个和原始的网络加密流量数据相近的候选环境，将行动经验存入经验空间进行神经网络的训练学习，重复以上步骤直到改进样本生成模块能产生和原始的网络加密流量数据相似的网络加密流量威胁样本数据。

Description

基于对抗生成DQN的网络加密流量威胁样本生成机制方法

技术领域

本发明涉及网络安全技术等领域，具体的说，是基于对抗生成DQN的网络加密流量威胁样本生成机制方法。

背景技术

随着互联网技术的不断发展和应用需求的增长，许多互联网应用在数据传输过程中都选择对网络通信流量进行加密，经过这些加密方法后，网络流量数据包中的许多明文信息变得不再可见，传统的网络流量识别方法准确率不再如从前，加密方法的不断改进和发展，给网络流量识别方法带来了巨大的挑战，深度学习由于其较强的学习能力和广泛的适用性很快应用到了网络流量识别领域。

多层感知机是一种神经网络，由输入层、输出层和若干隐层神经元组成，每一层都有几个密集连接到相邻层的神经元，模型的网络结构如图1所示。神经元获取其输入数据的加权和，并通过非线性激活函数产生输出。由于多层感知机模型需要学习大量参数，该模型通常非常复杂、效率低下，并且难以针对复杂问题进行训练。目前网络流量识别领域已不再单独使用深度多层感知机，只将其中的几层全连接神经元用作其它模型的一小部分。对于识别网络加密流量中具有威胁特征的数据，多层感知器模型由于其复杂性而需要大量的网络加密流量威胁样本数据。

与多层感知机类似，卷积神经网络也由具有可学***移不变性和旋转不变性，在一个或多个卷积层之后使用池化层进行采样，并在最后的隐藏层后连接一个全连接层。

循环神经网络是包含循环结构以存储序列信息的神经网络，循环神经网络专为序列数据设计，其输出数据不仅取决于最后一个输入数据，还取决于先前的输入数据。循环神经网络已成功应用于语音识别、时间序列预测、翻译和语言建模。梯度消失和梯度***使得学习相距很远时间的输入之间的依赖性变弱是传统循环神经网络遇到的挑战，长短期循环神经网络通过添加一组控制何时存储或删除信息的门解决了这一问题。

自动编码器也是一种神经网络模型，与输入层和输出层相比，其隐藏层明显更小，模型的网络结构如图2所示，自动编码器的内部编码表示可用于数据压缩或维数减少。多层感知机、卷积神经网络和循环神经网络都可以用作自动编码器模型的一部分，自动编码器广泛用于初始化深层神经网络的权重。自动编码器有一些变体，例如去噪自动编码器，通过输入不完整的样本数据来训练以输出完整的输入样本，迫使模型具有更强的鲁棒性；以及变分自动编码器，为了从目标数据分布生成虚拟数据。更复杂的自动编码器结构称为堆叠式自动编码器，堆叠了多个自动编码器，其中每个自动编码器的输出都是下一个自动编码器的输入，整个模型以贪心的方法逐层进行训练。

使用深度学***衡，某种类别的网络加密流量数据数量是另一类别数据的几倍，使得识别模型为提高识别率将所有的小类别样本全部识别为大类别样本，使得模型没有较好的泛化性；只有通过不同的方法根据已有的网络加密流量数据生成尽可能相似的网络加密流量威胁样本数据，将网络加密流量威胁样本数据的数量进行增加，进而才能提升识别模型对网络加密流量威胁样本数据真正的识别率。

发明内容

本发明的目的在于提供基于对抗生成DQN的网络加密流量威胁样本生成机制方法，将对抗生成神经网络与DQN结合起来，充分利用对抗生成神经网络在小样本数据集生成方面的优势，结合DQN算法在行动决策优化上的长处。

本发明通过下述技术方案实现：基于对抗生成DQN的网络加密流量威胁样本生成机制方法，包括下述步骤：

1)通过数据预处理，将原始网络加密流量数据包中的数据转换为对抗生成DQN威胁样本生成模型所需数据格式；

2)将步骤1)所得的数据输入到类别标注处理程序中进行类别标注；

3)经步骤2)后，采用样本生成模块作为网络加密流量威胁样本数据生成的工具，基于当前的小样本网络加密流量数据生成网络加密流量威胁样本数据；

4)样本生成模块主要包含数据生成子模块及分辨子模块，数据生成子模块利用不同的噪声参数生成网络加密流量威胁样本数据，将生成的网络加密流量威胁样本数据和原始的网络加密流量数据一同再送入分辨子模块，分辨子模块对输入的数据进行特征提取，判断输入的数据是原始的网络加密流量数据还是生成的网络加密流量威胁样本数据，同时训练样本生成模块中的分辨子模块和数据生成子模块，直到两个子模块的损失函数趋近于稳定；

5)将原始的网络加密流量数据和生成的网络加密流量威胁样本数据一起输入到基于对抗生成DQN的改进样本生成模块进行训练学习，以不断探索和识别的机制与环境进行交互，通过最大化最终期望的奖励值实现尽可能相似的网络加密流量威胁样本数据的生成；

6)判断是否满足对抗生成DQN威胁样本生成模型训练学习结束条件，如果不满足则从步骤3)开始进行下一次训练和学习，重复多次训练继续生成不同的网络加密流量威胁样本数据，满足则检测完成并输出最终生成的网络加密流量威胁样本数据。

进一步的为更好地实现本发明所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，特别采用下述设置方式：所述基于当前的小样本网络加密流量数据生成网络加密流量威胁样本数据，具体为：利用网络协议(如UDP、TCP、FTP或HTTP)、应用程序(如腾讯QQ、微信或浏览器)、流量类型(如浏览视频、下载文件或聊天)、交互网站、用户行为(如提交表单请求或发送消息)、操作***、浏览器在内的已有网络加密流量数据包信息，动态生成网络加密流量威胁样本数据。

进一步的为更好地实现本发明所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，特别采用下述设置方式：所述基于当前的小样本网络加密流量数据生成网络加密流量威胁样本数据，其输入还包括以下输入特征：数据包的报头及时间序列、有效载荷、统计特征，由于时间序列特征几乎不受流量加密的影响，所以该特征被广泛应用到网络加密流量数据生成中；在网络加密流量数据中，包含协议握手信息的前几个数据包通常未加密，也被应用到网络加密流量数据生成；统计特征的数量及输入维度是有限的，根据生成的网络加密流量数据类型选择不同的统计特征。

进一步的为更好地实现本发明所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，特别采用下述设置方式：所述数据生成子模块的起始位置连接有一个随机噪声生成器，其作用是生成一组随机的噪声参数，并和输入数据一起进行网络加密流量威胁样本数据的生成，然后数据生成子模块根据噪声参数和分辨子模块中输出的判断结果更新神经网络中各个神经元的参数，生成网络加密流量威胁样本数据。

进一步的为更好地实现本发明所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，特别采用下述设置方式：所述分辨子模块是通过输入的原始网络加密流量数据训练出的网络结构，对数据生成子模块生成的网络加密流量数据是否具有威胁特征做出判断，并把判断结果返回给数据生成子模块，直到分辨子模块和数据生成子模块的损失值趋于稳定；分辨子模块根据设定好的分辨函数对输入的原始的网络加密流量数据和生成的网络加密流量威胁样本数据进行判断，结果为正值表示分辨子模块能分辨出原始的网络加密流量数据和生成的网络加密流量威胁样本数据，负值则表示分辨子模块不能确定输入的数据是原始的网络加密流量数据还是生成的网络加密流量威胁样本数据。

进一步的为更好地实现本发明所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，特别采用下述设置方式：所述步骤5)包括下述具体步骤：

5.1)改进样本生成模块在训练学习前随机选择一个初始交互环境，然后在这个初始环境中选择下一步的动作A，根据对抗生成DQN威胁样本生成模型不断探索和识别的机制，下一步的动作有的概率通过神经网络选择一个期望奖励值最大的动作，的概率在动作空间中随机选择一个动作；

5.2)在动作选择结束后，改进样本生成模块将会在初始环境中执行该动作，然后初始环境会返回下一个环境S_N和奖励值R，改进样本生成模块此时将当前环境S，选择的动作A，奖励值R，下一个环境S_N作为经验存储进经验空间；

5.3)改进样本生成模块将当前环境更改为下一个环境S_N，并重复步骤5.2)，直到经验空间到达一个阈值；

5.4)当经验空间达到阈值后，改进样本生成模块中的神经网络开始进行更新，从经验空间中随机选取固定大小的样本，将采样得到的奖励值R和下一个环境S_N送入到神经网络中计算期望奖励值y，并将计算结果送到Q网络中计算损失值，根据损失值更新Q网络；

5.5)改进样本生成模块继续与环境进行交互，产生当前环境S，选择的动作A，奖励值R，下一个环境S_N四种数值当作经验，并将经验放入经验空间中，然后重复步骤5.4)，继续随机选择样本更新Q网络，直到Q网络的损失值趋于稳定；

5.6)当改进样本生成模块中Q网络的参数更新到一定次数后，同样对改进样本生成模块中对抗生成神经网络的参数进行更新，最终输出生成的网络加密流量威胁样本数据。

进一步的为更好地实现本发明所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，特别采用下述设置方式：所述为一个介于0到100间的浮点数值，/>随着训练步数的增加而递增，即改进样本生成模块越来越信任Q网络选择的动作。

进一步的为更好地实现本发明所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，特别采用下述设置方式：在所述Q网络的损失值计算时，通过下述公式进行实现：

其中，Loss代表Q网络的损失值，Q(S)表示Q网络中当前环境S根据动作返回的奖励值，y表示神经网络根据输入的奖励值R和下一个环境S_N计算得出的期望奖励值。

本发明与现有技术相比，具有以下优点及有益效果：

本发明基于对抗生成DQN模型实现网络加密流量威胁样本数据的生成，将深度学习与强化学习相结合，解决了传统强化学习中高维数据的输入问题，对网络加密流量威胁样本生成方法，将其分解为一系列模块，最后一步为输出生成的网络加密流量威胁样本数据；其中改进样本生成模块根据初始候选环境所相关的信息选择相应的下一步行动，然后再根据行动选择下一个和原始的网络加密流量数据相近的候选环境，将行动经验存入经验空间进行神经网络的训练学习，重复以上步骤直到改进样本生成模块能产生和原始的网络加密流量数据相似的网络加密流量威胁样本数据。本发明根据已有的网络加密流量数据生成尽可能相似的网络加密流量威胁样本数据，将网络加密流量威胁样本数据的数量进行增加，从而提升网络加密流量识别模型对网络加密流量威胁样本数据真正的识别率。

本发明将对抗生成神经网络与DQN结合起来，充分利用对抗生成神经网络在小样本数据集生成方面的优势，结合DQN算法在行动决策优化上的长处，从而生成与原始的网络加密流量数据相似的网络加密流量威胁样本数据，解决了不平衡网络加密流量数据集中小样本流量数据识别率不高的问题。

附图说明

图1为多层感知机模型结构图。

图2为自动编码器模型结构图。

图3为马尔可夫决策过程图。

图4为算法整体流程图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

名词解释：

DQN：DQN是一种将深度学习和强化学习相结合的算法，由于传统的强化学习算法Q-learning中Q空间存储大小有限，而实际应用中的状态是接近无限多的，因此无法构建可以存储超大状态空间的Q空间；但神经网络可以将状态和动作当成神经网络的输入，然后经过神经网络分析后得到动作的Q值，这样就没必要在Q空间中记录Q值，而是直接使用神经网络预测Q值。

本发明基于下述理论基础而得到：

识别网络加密流量中威胁样本数据即对网络加密流量数据进行类别识别，从中辨别出具有威胁特征的网络加密流量数据，对于网络服务质量控制、网络资源使用规划、恶意软件检测和入侵检测等应用非常重要，由于其重要性，多年来出现了许多不同的网络加密流量识别方法，以适应不同的应用场景和不断变化的需求，但近年来通信技术不断发展，包括加密和端口混淆等技术的出现，对识别网络加密流量提出了新的挑战。随着时间的推移，识别网络加密流量技术有了显著的发展。最简单的方法是使用端口号进行识别，然而这种识别方法的准确性一直在降低，因为新出现的应用软件要么使用众所周知的端口号来隐藏其流量，要么不使用标准端口号。尽管这种识别方法不准确，但在实际应用中，端口号识别法仍然被广泛地单独使用或与其他识别方法一起使用；目前识别网络加密流量依赖于有效载荷或数据包检查，侧重于在网络流量数据包中查找特征或关键字，但这些方法仅适用于未加密的流量数据，并且具有较高的计算开销。因此出现了基于流量统计的新一代识别技术，这些识别方法依赖于统计或时间序列特征，使它们能够处理加密和未加密的网络流量数据，一般采用机器学习算法，例如随机森林和K最邻近等，然而这些识别方法的性能在很大程度上取决于算法的设计，从而限制了它们的通用性。

由于深度学习技术避免了由专家提取网络加密流量威胁特征的需要，通过训练神经网络自动提取特征，这种优点使得深度学习成为识别网络加密流量的一种非常理想的方法，特别是当新类别的网络加密流量不断出现，旧类别的加密流量不断变化时。深度学习的另一个重要优点是，与传统机器学习方法相比，它具有相当强的学习能力，因此可以学习更复杂的模式。结合这两个优点，深度学习作为一种端到端的方法，能够学习原始输入和相应输出之间的非线性关系，而无需将问题分解为特征提取和识别威胁样本的子问题。但深度学习为了实现识别网络加密流量这一目标，需要大量的标记类别数据和足够的计算能力。

对抗生成网络是一种无监督神经网络，它同时训练生成模型和鉴别模型，生成模型旨在生成目标分布的模拟数据，鉴别模型旨在区分真实数据和生成数据，这两种模型通常都是由神经网络组成。首先通过鉴别模型训练生成模型以最大化错误概率，然后输入真实数据和生成数据，修正生成模型参数并训练鉴别模型以最小化错误概率，重复该过程直到模型出现收敛。尽管训练和收敛对抗生成网络很困难，但它已被用于许多应用，如创建模拟图像、由图像生成3D模型、提高图像质量、为数据稀少的应用生成样本数据。生成模型可用于处理网络加密流量识别中的数据集不平衡问题，不平衡问题是指网络加密流量数据集中每个类别的样本数量差异很大的情况，在这种情况下，深度学***衡数据集最常见和最简单的方法是对少量类别数据进行过采样，复制次要类别的样本，或对大多数类别进行欠采样，从主要类别中删除一些样本。辅助分类的对抗生成神经网络用于生成分类任务所需的合成样本，它和对抗生成神经网络之间的主要区别在于，辅助分类的对抗生成神经网络将随机噪声和类别标签两者作为输入，以便生成具有类别标签的样本。

马尔可夫决策过程是一种具有马尔可夫特征的模型，模型中下个环境的变化不仅和当前的环境有关，也和当前选择的动作有关。一般一个马尔可夫决策过程由一个五元组构成：

(S,A,{P_sa},γ,R)

其中S表示环境集合，即一个***中所有可能存在的环境组成的集合；A表示一组动作，即一个***中所有模型可能存在的动作组；P_sa表示环境转移概率，S中一个环境到下一个环境的转换，需要选择不同的A，在当前的环境s∈S的情况下，经过执行选择的动作a∈A后，会转换到其它的不同环境，即其它环境的概率分布；γ表示折现系数，当γ＝0时表示当前模型只考虑即时奖励值而不考虑长期回报值，当γ＝1时表示当前预期奖励值和即时奖励值同样重要；R是奖励函数，根据当前环境和选择的动作计算得到奖励值。初始模型随机选择一个环境s₁，然后从A中挑选一个动作a₁执行，模型按照P_sa的概率分布转换到下一个环境s₂，然后再挑选一个动作a₂执行，转换到下一个环境s₃，重复以上步骤直到满足模型训练学习结束条件，模型的具体过程如图3所示。

实施例1：

本发明设计出基于对抗生成DQN的网络加密流量威胁样本生成机制方法，包括下述步骤：

1)通过数据预处理，将原始网络加密流量数据包中的数据(原始网络加密流量数据)转换为对抗生成DQN威胁样本生成模型所需数据格式；

3)经步骤2)后，采用样本生成模块作为网络加密流量威胁样本数据生成的工具，基于当前的小样本网络加密流量数据生成网络加密流量威胁样本数据，具体为：利用网络协议(如UDP、TCP、FTP或HTTP)、应用程序(如腾讯QQ、微信或浏览器)、流量类型(如浏览视频、下载文件或聊天)、交互网站、用户行为(如提交表单请求或发送消息)、操作***、浏览器在内的已有网络加密流量数据包信息，动态生成网络加密流量威胁样本数据；

4)样本生成模块主要包含数据生成子模块及分辨子模块，数据生成子模块利用不同的噪声参数生成网络加密流量威胁样本数据，将生成的网络加密流量威胁样本数据和原始的网络加密流量数据一同再送入分辨子模块，分辨子模块对输入的数据(生成的网络加密流量威胁样本数据和原始的网络加密流量数据)进行特征提取，判断输入的数据是原始的网络加密流量数据还是生成的网络加密流量威胁样本数据，同时训练样本生成模块中的分辨子模块和数据生成子模块，直到两个子模块的损失函数趋近于稳定；

实施例2：

本实施例是在上述实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步的为更好地实现本发明所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，特别采用下述设置方式：所述基于当前的小样本网络加密流量数据生成网络加密流量威胁样本数据，其输入还包括以下输入特征：数据包的报头及时间序列、有效载荷、统计特征，由于时间序列特征几乎不受流量加密的影响，所以该特征被广泛应用到网络加密流量数据生成中；在网络加密流量数据中，包含协议握手信息的前几个数据包通常未加密，也被应用到网络加密流量数据生成中；统计特征的数量及输入维度是有限的，根据生成的网络加密流量数据类型选择不同的统计特征。

实施例3：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步的为更好地实现本发明所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，特别采用下述设置方式：所述数据生成子模块的起始位置连接有一个随机噪声生成器，其作用是生成一组随机的噪声参数，并和输入数据一起进行网络加密流量威胁样本数据的生成，然后数据生成子模块根据噪声参数和分辨子模块中输出的判断结果更新神经网络中各个神经元的参数，生成网络加密流量威胁样本数据。

实施例4：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步的为更好地实现本发明所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，特别采用下述设置方式：所述分辨子模块是通过输入的原始网络加密流量数据训练出的网络结构，对数据生成子模块生成的网络加密流量数据是否具有威胁特征做出判断，并把判断结果返回给数据生成子模块，直到分辨子模块和数据生成子模块的损失值趋于稳定；分辨子模块根据设定好的分辨函数对输入的原始的网络加密流量数据和生成的网络加密流量威胁样本数据进行判断，结果为正值表示分辨子模块能分辨出原始的网络加密流量数据和生成的网络加密流量威胁样本数据，负值则表示分辨子模块不能确定输入的数据是原始的网络加密流量数据还是生成的网络加密流量威胁样本数据。

实施例5：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步的为更好地实现本发明所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，特别采用下述设置方式：所述步骤5)包括下述具体步骤：

实施例6：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步的为更好地实现本发明所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，特别采用下述设置方式：所述为一个介于0到100间的浮点数值，/>随着训练步数的增加而递增，即改进样本生成模块越来越信任Q网络选择的动作。

实施例7：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步的为更好地实现本发明所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，特别采用下述设置方式：在所述Q网络的损失值计算时，通过下述公式进行实现：

实施例8：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，结合图4所示，基于对抗生成DQN的网络加密流量威胁样本生成机制方法，包括下述步骤：

原始网络加密流量数据准备阶段：提取原始网络加密流量数据包中的原始网络加密流量数据。

数据预处理阶段：将原始网络加密流量数据转换为对抗生成DQN威胁样本生成模型所需数据格式。

数据类别标注阶段：将经过预处理后的数据输入到类别标注处理程序中进行类别标注。

样本生成模块处理阶段：经过数据类别标注后，采用样本生成模块作为网络加密流量威胁样本生成的工具，基于当前的小样本网络加密流量数据生成网络加密流量威胁样本数据，利用已有网络加密流量数据的网络协议(如UDP、TCP、FTP或HTTP)、应用程序(如腾讯QQ、微信或浏览器)、流量类型(如浏览视频、下载文件或聊天)、交互网站、用户行为(如提交表单请求或发送消息)、操作***、浏览器等数据包信息，动态生成可进一步使用的网络加密流量威胁样本数据；而后将可用的网络加密流量威胁样本数据输入到样本生成模块，样本生成模块的数据生成子模块利用不同的噪声参数生成网络加密流量威胁样本数据，将生成的网络加密流量威胁样本数据和原始的网络加密流量数据一同再送入进分辨子模块，分辨子模块对输入的数据(生成的网络加密流量威胁样本数据和原始的网络加密流量数据)进行特征提取，判断输入的网络加密流量数据是原始的网络加密流量数据还是生成的网络加密流量威胁样本数据，同时训练样本生成模块中的分辨子模块和数据生成子模块，直到两个子模块的损失函数趋近于稳定；基于当前的小样本网络加密流量数据生成网络加密流量威胁样本数据时，其输入还包括以下输入特征：数据包的报头及时间序列、有效载荷、统计特征，由于时间序列特征几乎不受流量加密的影响，所以该特征被广泛应用到网络加密流量数据生成中；在网络加密流量数据中，包含协议握手信息的前几个数据包通常未加密，也被应用到网络加密流量数据生成中；统计特征的数量及输入维度是有限的，根据生成的网络加密流量数据类型选择不同的统计特征。

改进样本生成模块处理阶段：将原始的网络加密流量数据和生成的网络加密流量威胁样本数据一起输入到基于对抗生成DQN的改进样本生成模块进行训练学习，以不断探索和识别的机制与环境进行交互，通过最大化最终期望的奖励值实现尽可能相似的网络加密流量威胁样本数据的生成，包括下述具体步骤：

首先，改进样本生成模块在训练学习前随机选择一个初始交互环境，然后在这个初始环境中选择下一步的动作A，根据对抗生成DQN威胁样本生成模型不断探索和识别的机制，下一步的动作有的概率通过神经网络选择一个期望奖励值最大的动作，的概率在动作空间中随机选择一个动作；

其次，在动作选择结束后，改进样本生成模块将会在初始环境中执行该动作，然后初始环境会返回下一个环境S_N和奖励值R，改进样本生成模块此时将当前环境S，选择的动作A，奖励值R，下一个环境S_N作为经验存储进经验空间；

其次，改进样本生成模块将当前环境更改为下一个环境S_N，并重复步骤5.2)，直到经验空间到达一个阈值；

其次，当经验空间到达阈值后，改进样本生成模块中的神经网络开始进行更新，从经验空间中随机选取固定大小的样本，将采样得到的奖励值R和下一个环境S_N送入到神经网络中计算期望奖励值y，并将计算结果送到Q网络中通过计算损失值，其中，Loss代表Q网络的损失值，Q(S)表示Q网络中当前环境S根据动作返回的奖励值，y表示神经网络根据输入的奖励值R和下一个环境S_N计算得出的期望奖励值，根据损失值更新Q网络；

再其次，改进样本生成模块继续与环境进行交互，产生当前环境S，选择的动作A，奖励值R，下一个环境S_N四种数值当作经验，并将经验放入经验空间中，然后重复步骤5.4)，继续随机选择样本更新Q网络，直到Q网络的损失值趋于稳定；

最后，当改进样本生成模块中Q网络的参数更新到一定次数后，同样对改进样本生成模块中对抗生成神经网络的参数进行更新，最终输出生成的网络加密流量威胁样本数据；

其中，为一个介于0到100间的浮点数值，/>随着训练步数的增加而递增，即改进样本生成模块越来越信任Q网络选择的动作。

是否满足模型训练结束条件判断阶段：判断是否满足对抗生成DQN威胁样本生成模型训练学习结束条件，如果不满足则从步骤3)开始进行下一次训练和学习，重复多次训练继续生成不同的网络加密流量威胁样本数据，满足则检测完成并输出最终生成的网络加密流量威胁样本数据。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.基于对抗生成DQN的网络加密流量威胁样本生成机制方法，其特征在于：包括下述步骤：

5)将原始的网络加密流量数据和生成的网络加密流量威胁样本数据一起输入到基于对抗生成DQN的改进样本生成模块进行训练学习，以不断探索和识别的机制与环境进行交互，通过最大化最终期望的奖励值实现尽可能相似的网络加密流量威胁样本数据的生成；包括下述具体步骤：

5.1)改进样本生成模块在训练学习前随机选择一个初始交互环境，然后在这个初始环境中选择下一步的动作A，根据对抗生成DQN威胁样本生成模型不断探索和识别的机制，下一步的动作有的概率通过神经网络选择一个期望奖励值最大的动作，/>的概率在动作空间中随机选择一个动作；所述/>为一个介于0到100间的浮点数值，/>随着训练步数的增加而递增，即改进样本生成模块越来越信任Q网络选择的动作；

5.6)当改进样本生成模块中Q网络的参数更新到一定次数后，同样对改进样本生成模块中对抗生成神经网络的参数进行更新，最终输出生成的网络加密流量威胁样本数据；

2.根据权利要求1所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，其特征在于：所述基于当前的小样本网络加密流量数据生成网络加密流量威胁样本数据，具体为：利用网络协议、应用程序、流量类型、交互网站、用户行为、操作***、浏览器在内的已有网络加密流量数据包信息，动态生成网络加密流量威胁样本数据。

3.根据权利要求1或2所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，其特征在于：所述基于当前的小样本网络加密流量数据生成网络加密流量威胁样本数据，其输入还包括以下输入特征：数据包的报头及时间序列、有效载荷、统计特征。

4.根据权利要求1所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，其特征在于：所述数据生成子模块的起始位置连接有一个随机噪声生成器，其作用是生成一组随机的噪声参数，并和输入数据一起进行网络加密流量威胁样本数据的生成，然后数据生成子模块根据噪声参数和分辨子模块中输出的判断结果更新神经网络中各个神经元的参数，生成网络加密流量威胁样本数据。

5.根据权利要求1或2所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，其特征在于：所述分辨子模块是通过输入的原始网络加密流量数据训练出的网络结构，对数据生成子模块生成的网络加密流量数据是否具有威胁特征做出判断，并把判断结果返回给数据生成子模块，直到分辨子模块和数据生成子模块的损失值趋于稳定；分辨子模块根据设定好的分辨函数对输入的原始的网络加密流量数据和生成的网络加密流量威胁样本数据进行判断，结果为正值表示分辨子模块能分辨出原始的网络加密流量数据和生成的网络加密流量威胁样本数据，负值则表示分辨子模块不能确定输入的数据是原始的网络加密流量数据还是生成的网络加密流量威胁样本数据。

6.根据权利要求1所述的基于对抗生成DQN的网络加密流量威胁样本生成机制方法，其特征在于：在所述Q网络的损失值计算时，通过下述公式进行实现：