WO2022012144A1

WO2022012144A1 - 基于不平衡数据深度信念网络的并行入侵检测方法和***

Info

Publication number: WO2022012144A1
Application number: PCT/CN2021/094023
Authority: WO
Inventors: 李肯立; 唐卓; 廖清; 刘楚波; 周旭; 余思洋; 杜亮
Original assignee: 湖南大学
Priority date: 2020-07-17
Filing date: 2021-05-17
Publication date: 2022-01-20
Also published as: US11977634B2; CN111860638A; US20220382864A1; CN111860638B

Abstract

本发明公开了一种基于不平衡数据深度信念网络的并行入侵检测方法，其读取不平衡数据集数据，对不平衡数据采用改进的NCL算法进行欠采样处理，降低多数类样本的比重，使数据集数据分布均衡；在分布式内存计算平台Spark平台上采用改进的差分进化算法对深度信念网络模型的参数进行优化，得到最优的模型参数；对数据集数据进行特征提取，然后采用加权后的核极限学***衡数据集缺乏针对性、训练时间过长的技术问题，并提高优化深度信念网络模型参数的速度。

Description

基于不平衡数据深度信念网络的并行入侵检测方法和***

技术领域

本发明属于入侵检测技术领域，更具体地，涉及一种基于不平衡数据深度信念网络的并行入侵检测方法和***。

背景技术

随着社会的发展，网络安全问题越来越受到人们的重视。入侵检测方法是一种有效的、针对网络安全问题的主动防御方法，它通过检测网络中流量等信息来判断网络中是否有异常的入侵行为。相比于防火墙，入侵检测方法的安全性更好，它不仅所需的资源较少，基本不影响***的正常运转，而且能动态的进行调整。

目前主流的入侵检测方法主要包括：一、基于不平衡数据的入侵检测方法，其入侵检测方法主要针对不平衡数据集，通过数据优化或者算法优化来解决少数类相比于多数类的检测率较低的技术问题，数据优化是从数据层面出发，通过减少多数类样本的欠采样方法和增加少数类的过采样的方法来实现数据平衡。算法优化是从算法层面出发，分类时赋予少数类较大的权重，使得分类器在将少数类错误分类为多数类时错误代价增加，从而增加少数类的检测精度；二、基于深度信念网络降维的入侵检测方法，其入侵检测方法首先利用深度信念网络模型中的多层受限玻尔兹曼机来完成数据的特征提取，将复杂难处理的高维数据进行降维处理，然后利用深度信念网络模型中的反向传播神经网络模型负责完成数据的攻击分类；三、基于极限学习机分类的入侵检测方法，其入侵检测方法利用极限学习机模型完成分类工作，相比于反向传播神经网络模型，极限学习机模型结构简单，训练时无需反复迭代，具有运行速度较快和泛化性能好的优点。

然而，上述现有入侵检测方法均具有一些不可忽略的缺陷：首先，对于基于不平衡数据的入侵检测方法而言，其主流的针对不平衡数据的入侵检测方法往往只采用数据优化和算法优化方法中的一种，不能很有效的解决数据不平衡的技术问题；第二，对于基于深度信念网络降维的入侵检测方法而言，其深度信念网络模型的分类性能与初始参数紧密相关，一般来说，深度信念网络模型初始参数由人为指定，有一定的随机性。如果参数选择不当，会导致深度信念网络模型分类准确度下降，容易陷入局部最优，因此可以通过智能优化算法来优化初始参数，但是现有的优化算法往往采用串行化的标准算法，涉及到大量的迭代运算，需要消耗大量计算资源和时间来处理，并且在处理大量数据时存在如耗时过长、迭代效率低等问题；第三，对于基于极限学习机分类的入侵检测方法而言，其只采用单一的分类器来进行分类，单分类器在分类时总有一定的偏向性，存在分类精度低等问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于不平衡数据深度信念网络的并行入侵检测方法和***，其目的在于，解决现有入侵检测方法对不平衡数据集缺乏针对性的技术问题，同时提高优化深度信念网络模型参数的速度，最后该发明方法能有效的提高入侵检测的检测精度和检测速度。

为实现上述目的，按照本发明的一个方面，提供了一种基于不平衡数据深度信念网络的并行入侵检测方法，包括以下步骤：

(1)获取不平衡数据集，利用领域清理规则算法对该不平衡数据集进行欠采样处理，并使用基于引力的聚类方法对欠采样处理后的不平衡数据集进行聚类处理，以得到聚类处理后的不平衡数据集；

(2)将步骤(1)获得的聚类处理后的不平衡数据输入训练好的深度信念网络DBN模型中，以提取特征，再将提取的特征输入训练好的 DBN-WKELM多分类器模型中的多个DBN-WKELM基分类器中，以得到多个初步分类结果，通过自适应加权投票法计算各个DBN-WKELM基分类器的权重，并根据多个权重和多个初步分类结果获取最终的分类结果、以及该分类结果对应的入侵行为类别。

优选地，步骤(1)具体包括以下子步骤：

(1-1)获取不平衡数据集DS；

(1-2)从步骤(1-1)得到的不平衡数据集DS中获取一个样本点x以及该样本点x的k近邻数据D _k，其中k表示最近邻参数；

(1-3)获取步骤(1-2)得到的k近邻数据D _k中与样本点x的类别不同的所有样本所构成的集合N _k、以及该集合N _k中的样本数目num；

(1-4)判断步骤(1-3)获取的样本数目num是否大于或等于k-1，如果是，则转入步骤(1-5)，否则转入步骤(1-6)；

(1-5)判断样本点x的类别是否为多数类样本，如果是，则更新不平衡数据集DS为DS＝DS-x，然后进入步骤(1-6)，否则更新不平衡数据集DS为DS＝DS-N _k，然后进入步骤(1-6)；

(1-6)针对不平衡数据集DS中的剩余样本点，重复上述步骤(1-2)至(1-5)，直到不平衡数据集DS中的所有样本点都被处理完毕为止，从而得到更新后的不平衡数据集DS；

(1-7)设置计数器i＝1；

(1-8)判断i是否等于不平衡数据集DS中的样本点总数，如果是则进入步骤(1-14)，否则进入步骤(1-9)；

(1-9)从步骤(1-6)更新后的不平衡数据集DS中读入第i个新的样本点

其中

表示第i个样本中的第e2个特征属性值，并判断优选设置的聚类集合S是否为空，如果是则转入步骤(1-10)，否则转入步骤(1-11)，其中e2∈[1，n]；

(1-10)将样本点d _i初始化为一个新的类簇C _new＝{d _i}，同时将类簇C _new的质心μ设置为d _i，并将类簇C _new加入到聚类集合S中，转入到步骤(1-13)；

(1-11)计算聚类集合S中的每个类簇对d _i的引力，并得到引力集合G＝{g ₁，g ₂，…，g _ng}，并从引力集合G中得到最大引力g _max及其对应的类簇C _max，其中ng表示聚类集合S中类簇的总数；

(1-12)判断最大引力g _max是否小于设定的阈值r，如果是，则返回步骤(1-10)，否则将样本点d _i合并到类簇C _max中，并更新合并了样本点d _i后的类簇C _max的质心μ _max，然后转入步骤(1-13)；

(1-13)设置计数器i＝i+1，并返回步骤(1-8)；

(1-14)遍历聚类集合S中的所有类簇，并判断是否每个类簇中所有样本点的类型都是多数类样本，如果是，则根据采样率sr随机保存该类簇中的多数类样本，然后针对剩余类簇重复遍历过程，否则针对剩余类簇重复遍历过程。

优选地，样本点d _i和类簇C之间的引力g是按照如下公式计算：

其中C _num为类簇C中样本点的个数，μ _e2表示中类簇C的质心μ中的第e2个特征属性值；

更新类簇C _max的质心μ _max的公式如下：

其中C _maxn为合并了样本点d _i后类簇C _max中样本点的个数，d _p为合并了样本点d _i后类簇C _max中的第p个样本点，且有p∈[1，C _maxn]。

优选地，DBN模型是通过步骤训练得到：

(2-1)获取DBN模型，并在分布式内存计算平台上使用改进的差分进化算法对该DBN模型进行优化，以得到优化后的DBN模型；

(2-2)对步骤(2-1)优化后的DBN模型进行训练，以得到训练好的DBN模型。

优选地，步骤(2-1)具体包括以下子步骤：

(2-1-1)获取DBN模型W _dbn＝{W ₁，W ₂，…，W _dep}，其中dep表示DBN模型中隐含层的总数，W _di表示DBN模型中第di个隐含层中神经元的数量，且有di∈[1，3]；

(2-1-2)随机生成种群规模为n _ps个结构向量的初始种群，从该初始种群中随机选取其中一个结构向量作为该初始种群的全局最优解x _best，将初始种群以文件的形式写入到Hadoop分布式文件***(Hadoop Distributed File System，简称HDFS)中，并设置计数器cnt＝1；

(2-1-3)判断cnt是否等于最大迭代次数T或者全局最优解x _best已收敛，如果是，则输出全局最优解，过程结束，否则转入步骤(2-4)；

(2-1-4)判断cnt是否为1，如果是，则从HDFS中读取步骤(2-1-2)中写入其中的文件，将该文件划分为n _pa个输入分片，每个输入分片包含一个子种群，然后转入步骤(2-1-5)，否则从HDFS中读取更新后的文件，将该文件划分为n _pa个输入分片，每个输入分片包含一个子种群，然后转入步骤(2-1-5)；

(2-1-5)针对步骤(2-1-4)得到的每个子种群而言，获取该子种群中第cnt代中第j个个体

作为DBN模型中各隐含层的神经元数，根据相应DBN模型获取n _t个分类点的分类结果，根据该分类结果计算DBN模型的分类误差CE，并将该分类误差CE作为该子种群中第cnt代中第j个个体的适应度值

其中j∈[1，子种群中第cnt代中个体的总数]，

表示子种群中第cnt代中第j个个体中的第dep个元素；

(2-1-6)针对步骤(2-1-4)得到的每个子种群而言，获取该子种群第cnt代中所有个体的适应度值所构成的适应度值集合

其中sn为适应度值集合F中适应度值的总数，按照从小到大的顺序对该适应度值集合中的所有适应度值进行排序，以获取新的适应度值集合

将该新的适应度集合

中最小适应度值对应的个体作为该子种群的最优解，并将该最小适应度值作为该子种群的最佳适应度值，

(2-1-7)从所有子种群的最佳适应度值中选择最小值作为整体最佳适应度值，并将全局最优解x _best更新为该整体最佳适应度值对应的个体；

(2-1-8)针对步骤(2-1-6)得到的适应度值集合F，取适应度值最小的两个个体

和

组成集合

该适应度值集合F中剩余的个体组成集合

(2-1-9)根据步骤(2-1-8)中得到的集合I _cnt中的第

个目标个体

生成自适应变异个体

其中

(2-1-10)对步骤(2-1-9)得到的自适应变异个体

和步骤(2-1-8)中得到的集合I _cnt中的第

个目标个体

进行交叉操作，以生成实验个体

(2-1-11)获取步骤(2-1-10)得到的实验个体

对应的适应度值

以及步骤(2-1-9)得到的目标个体

对应的适应度值

使用二者中较小的适应度值代替集合I _cnt中的对应个体，并将步骤(2-8)中得到的集合E _cnt中的个体加入到I _cnt中，从而得到更新后的集合I _cnt；

(2-1-12)设置计数器cnt＝cnt+1，将步骤(2-1-11)更新后的集合I _cnt保存到HDFS中，并返回步骤(2-1-3)；

优选地，分类误差是采用以下公式获得：

其中，

是真实结果，

是分类结果，n _t是分类点个数；

生成x适应变异个体的计算公式如下：

其中，

和

均∈[3，sn]，三者彼此不相同，且三者均不等于

F _c为x适应变异因子；

自适应变异因子F _c的计算公式如下：

其中，f是初始变异因子；

生成实验个体的计算公式如下：

其中，randn是随机产生于{1，2，…，D}的随机整数，rand是属于[0，1]间的均匀分布的随机实数，CR是交叉因子，D为个体基因维度，其中h∈[1，D]。

优选地，步骤(2-2)具体包括以下子步骤：

(2-2-1)将步骤(1)聚类处理后的不平衡数据集按照6∶4的比例分为训练集和测试集；

(2-2-2)设置计数器cnt2＝1；

(2-2-3)根据步骤(2-2-1)获得的训练集，将步骤(2)优化后的DBN模型的输入层的初始状态设置为训练集中的训练样本，并将DBN模型的输入层和第一个隐含层构建为受限玻尔兹曼机RBM网络，并初始化该RBM网络中输入层与第一隐含层之间的权重W、输入层的偏置量a、以及第一隐含层的偏置量b；

(2-2-4)判断cnt2是否等于3，如果是则过程结束，否则转入步骤(2-2-5)；

(2-2-5)利用对比散度(Contrastive Divergence，简称CD)算法对RBM网络的输入值、RBM网络中输入层与第cnt2隐含层之间的权重W、输入层的偏置量a、以及第cnt2隐含层的偏置量b进行更新，以获得更新后的RBM网络；

(2-2-6)对步骤(2-2-5)更新后的RBM网络进行迭代训练，直到该RBM网络的重构误差达到最小为止，从而得到整体迭代训练后的RBM模型，将步骤(2)优化后的DBN模型的第cnt2+1隐含层加入到整体迭代训练后的RBM网络中，以构成新的RBM网络，同时将新的RBM网络中输入层与第cnt2+1隐含层之间的权重W更新为整体迭代训练后的RBM网络所输出的权重，将输入层的偏置量a、以及第cnt2+1隐含层的偏置量b分别更新为整体迭代训练后的RBM网络所输出的偏置值，并将整体迭代训练后的RBM网络的输出值作为新的的RBM网络的输入值；

(2-2-7)设置计数器cnt2＝cnt2+1，并返回步骤(2-2-4)。

优选地，DBN-WKELM多分类器模型是通过以下过程训练得到的：获取训练好的DBN模型，开启4个子线程，在每个子线程中将训练好的DBN模型的输出值设置为WKELM隐含层的输入值X _in，对该输入值X _in进行加权得到成本敏感矩阵W _cs，根据该成本敏感矩阵W _cs获得WKELM隐含层的输出权重β，并基于该输出权重β得到基于DBN特征提取的DBN-WKELM基分类器，4个基于DBN特征提取的DBN-WKELM基分类器共同构成训练好的DBN-WKELM多分类器模型；

优选地，WKELM隐含层的输出权重β的公式为：

其中，C _r是正则化系数，Ω是对应于WKELM基分类器的核函数F _k的核矩阵，T _l是对应于输入值X _in的数据标签；

自适应加权投票法的权重计算公式如下：

其中，Wq是第q个DBN-WKELM基分类器在DBN-WKELM多分类器模型中的投票权重，

是第q个DBN-WKELM基分类器的分类准确率，

是第q个DBN-WKELM基分类器的分类误报率，且有q∈[1，m]；

第q个DBN-WKELM基分类器的分类准确率和分类误报率的计算公式如下：

其中，

是第q个DBN-WKELM基分类器中正确分类的样本数目，

是第q个DBN-WKELM基分类器中总样本数目，

是第q个DBN-WKELM基分类器中被错误当作入侵行为的正常样本数目，

是第q个DBN-WKELM基分类器中的正常样本总数。

按照本发明的另一方面，提供了一种基于不平衡数据深度信念网络的并行入侵检测***，包括：

第一模块，用于获取不平衡数据集，利用领域清理规则算法对该不平衡数据集进行欠采样处理，并使用基于引力的聚类方法对欠采样处理后的不平衡数据集进行聚类处理，以得到聚类处理后的不平衡数据集；

第二模块，用于将第一模块获得的聚类处理后的不平衡数据输入训练好的深度信念网络DBN模型中，以提取特征，再将提取的特征输入训练好的DBN-WKELM多分类器模型中的多个DBN-WKELM基分类器中，以得到多个初步分类结果，通过自适应加权投票法计算各个DBN-WKELM基分类器的权重，并根据多个权重和多个初步分类结果获取最终的分类结果、以及该分类结果对应的入侵行为类别。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)由于本发明采用了步骤(1-1)到步骤(1-14)，其对不平衡数据集采用了改进欠采样算法来降低多数类的比例，同时本发明采用加权后的核极限学***衡数据的入侵检测方法存在的不能很有效的解决数据不平衡的技术问题；

(2)由于本发明采用了步骤(2-1-1)到步骤(2-1-12)，其采用并行的改进差分进化算法来优化深度信念网络模型参数，优化算法迭代过程，提高迭代效率，降低算法消耗的时间，因此，能够解决现有基于深度信念网络降维的入侵检测方法中模型参数需要消耗大量计算资源和时间来处理，并且在处理大量数据时存在如耗时过长、迭代效率低的技术问题；

(3)由于本发明采用多个结构不同的DBN-WKELM基分类器组成DBN-WKELM多分类器，各个基分类器之间并行执行，提高了入侵检测的速度，同时其多分类器采用于自适应加权投票算法，通过增加分类准确率高和误报率低的基分类器投票权重，来增加入侵检测的分类准确率，因此，能够解决现有基于极限学习机分类的入侵检测方法中只采用单一的分类器来进行分类，单分类器分类时存在偏向性和分类精度低的技术问题。

附图说明

图1是本发明基于不平衡数据深度信念网络的并行入侵检测方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提供了一种基于不平衡数据深度信念网络的并行入侵检测方法，包括以下步骤：

(1)获取不平衡数据集，利用领域清理规则(Neighborhood Cleaning Rule，简称NCL)算法对该不平衡数据集进行欠采样处理，并使用基于引力的聚类方法(Gravity-based Clustering Approach，简称GCA)算法对欠采样处理后的不平衡数据集进行聚类处理，以得到聚类处理后的不平衡数据集；

在本实施方式中，不平衡数据集是KDDCUP99入侵检测数据集。

本步骤具体包括以下子步骤：

(1-1)获取不平衡数据集DS；

(1-2)从步骤(1-1)得到的不平衡数据集DS中获取一个样本点x以及该样本点x的k近邻数据Dk。

具体而言，最近邻参数k的取值为5到10之间，优选为7。

一般来说，通过欧氏距离来判断两个样本是否为k近邻关系。假设样本点

属于n维空间R ⁿ，其中n为任意自然数，k1和k2均∈[1，不平衡数据集D中样本点的总数]，

表示第k1个样本点中第e1个特征属性值，其中e1∈[1，第k1个样本点中特征属性值的总数]。那么两个样本点x _k1和x _k2之间的欧式距离定义为：

具体而言，样本点的类别包括多数类样本和少数类样本，针对 KDDCUP99入侵检测数据集来说，其中多数类样本指的是正常(Normal)行为、探测和扫描(Probe)行为和拒绝服务(Denial of service，简称DOS)行为，少数类样本指的是用户到根***(User to root，简称U2R)行为和远程到本地(Remote to local，简称R2L)行为，其中除了Normal行为以外的行为都被认为是入侵行为类型。

(1-7)设置计数器i＝1；

其中

(1-11)计算聚类集合S中的每个类簇对d _i的引力，并得到引力集合G＝{g ₁，g ₂，…，g _ng}，并从引力集合G中得到最大引力g _max及其对应的类簇 C _max，其中ng表示聚类集合S中类簇的总数；

所述样本点d _i和类簇C之间的引力g是按照如下公式计算：

所述更新类簇C _max的质心μ _max的公式如下：

其中C _maxn为合并了样本点d _i后类簇C _max中样本点的个数，d _p为合并了样本点d _i后类簇C _max中的第p个样本点，且有p∈[1，C _maxn]；

具体而言，针对KDDCUP99入侵检测数据集来说，阈值r的取值范围是95到143，优选为100。

(1-13)设置计数器i＝i+1，并返回步骤(1-8)；

具体而言，采样率sr的取值范围是0.6到0.9，优选为0.7。

(2)将步骤(1)获得的聚类处理后的不平衡数据输入训练好的深度信念网络(Deep Belief Network，简称DBN)模型中，以提取特征，再将提取的特征输入训练好的DBN-加权后的核极限学习机(Weighted Kernel Extreme Learning Machine，简称WKELM)多分类器模型中的多个 DBN-WKELM基分类器中，以得到多个初步分类结果，通过自适应加权投票法计算各个DBN-WKELM基分类器的权重，并根据多个权重和多个初步分类结果获取最终的分类结果、以及该分类结果对应的入侵行为类别；

具体而言，本步骤中的DBN模型是通过步骤训练得到：

(2-1)获取深度信念网络(Deep Belief Network，简称DBN)模型，并在分布式内存计算平台上使用改进的差分进化算法对该DBN模型进行优化，以得到优化后的DBN模型；

在本实施方式中，分布式内存计算平台是Apache Spark平台。

本步骤具体包括以下子步骤：

具体而言，DBN模型中隐含层的总数等于3；每个隐含层中神经元数的最大值x _max的取值范围是500到1500，优选为1000，隐含层神经元数的最小值x _min的取值范围是1到5，优选为1。

具体而言，种群规模n _ps的取值范围是1000到2000，优选为1000。

具体而言，最大迭代次数T的取值范围是500到1000，优选为500。

具体而言，将文件划分为n _pa个输入分片，是在Spark平台上通过Map阶段实现的，输入分片个数n _pa的取值范围是2到10，优选为5。

其中j∈[1，子种群中第cnt代中个体的总数]，

表示子种群中第cnt代中第j个个体中的第dep个元素；

具体而言，本步骤中的分类误差是采用以下公式：

其中，

是真实结果，

是分类结果，n _t是分类点个数；

具体而言，分类点个数n _t的取值范围是30到100，优选为50。

将该新的适应度集合

和

组成集合

该适应度值集合F中剩余的个体组成集合

(2-1-9)根据步骤(2-1-8)中得到的集合I _cnt中的第

个目标个体

生成自适应变异个体

其中

具体而言，生成自适应变异个体的计算公式如下：

其中，

和

均∈[3，sn]，三者彼此不相同，且三者均不等于

F _c为自适应变异因子。

自适应变异因子F _c的计算公式如下：

其中，f是初始变异因子，其取值范围是0.5到0.8，优选为0.6。

(2-1-10)对步骤(2-1-9)得到的自适应变异个体

和步骤(2-1-8)中得到的集合I _cnt中的第

个目标个体

进行交叉操作，以生成实验个体

具体而言，生成实验个体的计算公式如下：

其中，randn是随机产生于{1，2，…，D}随机整数，rand是属于[0，1]间的均匀分布的随机实数，CR是交叉因子，D为个体基因维度，其中h∈[1，D]；

具体而言，交叉因子CR的取值范围是0.7到0.9，优选为0.8，个体基因维度D的取值范围是1到3，优选为1。

(2-1-11)获取步骤(2-1-10)得到的实验个体

对应的适应度值

以及步骤(2-1-9)得到的目标个体

对应的适应度值

(2-2)对步骤(2-1)优化后的DBN模型进行训练，以得到训练好的DBN模型；

本步骤具体包括以下子步骤：

(2-2-2)设置计数器cnt2＝1；

(2-2-3)根据步骤(2-2-1)获得的训练集，将步骤(2)优化后的DBN模型的输入层的初始状态设置为训练集中的训练样本，并将DBN模型的输入层和第一个隐含层构建为受限玻尔兹曼机(Restricted Boltzmann Machine，简称RBM)网络，并初始化该RBM网络中输入层与第一隐含层之间的权重W、输入层的偏置量a、以及第一隐含层的偏置量b；

具体而言，W是使用标准差为0.1的正态分布输出的随机值，a和b设为0；

(2-2-5)利用对比散度(Contrastive Divergence，简称CD)算法对RBM网络的输入值、RBM网络中输入层与第cnt2隐含层之间的权重W、输入层的偏置量a、以及第cnt2隐含层的偏置量b进行更新，以获得更新后的RBM 网络；

所述RBM网络的重构误差RE为：

其中，n _e表示RBM网络的输入层的神经元个数，

表示迭代训练前RBM网络的输入层第i _e个神经元中的训练样本值，

表示迭代训练后RBM网络的输入层第i _e个神经元中的训练样本值。

(2-2-7)设置计数器cnt2＝cnt2+1，并返回步骤(2-2-4)；

通过以上的步骤(2-2-1)到(2-2-7)，就能够实现DBN模型的训练过程。

本发明的DBN-WKELM多分类器模型由m个DBN-WKELM基分类器组成(在本实施方式中，m取值为4)，各个DBN-WKELM基分类器包括输入层、输出层、3个DBN隐含层和1个WKELM隐含层，输入层和输出层的节点数分别为122和5，，其中各个DBN隐含层的节点数分别为110、70、以及30，同时4个DBN-WKELM基分类器中WKELM隐含层的节点数分别为55、65、75以及85：

本发明的DBN-WKELM多分类器模型是通过以下过程训练得到的：

获取训练好的DBN模型，开启4个子线程，在每个子线程中将训练好的DBN模型的输出值设置为WKELM隐含层的输入值X _in，对该输入值X _in进行加权得到成本敏感矩阵W _cs，根据该成本敏感矩阵W _cs获得WKELM隐含层的输出权重β，并基于该输出权重β得到基于DBN特征提取的DBN-WKELM基分类器，4个基于DBN特征提取的DBN-WKELM基分类器共同构成训练好的DBN-WKELM多分类器模型。

本步骤中，对输入值X _in进行加权得到成本敏感矩阵W _cs这一过程具体是：

对X _in中的第i _x个样本点赋予权重

以得到成本敏感矩阵W _cs中的第i _x个主对角元素

其中i _x∈[1，X _in中样本点的总数]，W _cs是一个对角矩阵，其中权重

等于：

其中

为第i _x个样本点所属类别在训练集中的数量。

WKELM隐含层的输出权重β的公式为：

其中，C _r是正则化系数，Ω是对应于WKELM基分类器的核函数F _k(在本发明中，该核函数可以是多项式核函数、或高斯核函数)的核矩阵，T _l是对应于输入值X _in的数据标签。

自适应加权投票法的权重计算公式如下：

其中，W _q是第q个DBN-WKELM基分类器在DBN-WKELM多分类器模型中的投票权重，

是第q个DBN-WKELM基分类器的分类准确率，

是第q个DBN-WKELM基分类器的分类误报率，且有q∈[1，m]；

其中，

是第q个DBN-WKELM基分类器中正确分类的样本数目，

是第q个DBN-WKELM基分类器中总样本数目，

是第q个DBN-WKELM基分类器中的正常样本总数。

步骤(2)中，得到各基分类器的初步分类结果V＝(v ₁，v ₂，v ₃，v ₄，v ₅)，分别对应Normal、Probe、Dos、U2R和R2L这五个行为类型，然后通过自适应加权投票法计算各基分类器的权重，最终根据各基分类器的初步分类结果V和权重得到DBN-WKELM多分类器模型的总分类结果

从该总分类结果中取最大值对应的初步分类结果中的元素相应的行为类型作为最终的行为类型。

假设针对测试集中一条数据而言，4个DBN-WKELM基分类器得到的初步分类结果分别为(0，1，0，0，0)，(0，0，1，0，0)，(0，1，0，0，0)，(0，0，1，0，0)，此时各基分类器的分类准确率为98.5％，97.8％，98.2％，97.3％，分类误报率为2.3％，2.8％，2.7％，2.0％，根据上述公式计算可得各基分类器的权重为0.252，0.249，0.250，0.249，然后用第一个DBN-WKELM基分类器得到的初步分类结果中的v ₁(即0)*0.252+第二个DBN-WKELM基分类器得到的初步分类结果中的v ₁(即0)*0.252+第三个DBN-WKELM基分类器得到的初步分类结果中的v ₁(即0)*0.252+第四个DBN-WKELM基分类器得到的初步分类结果中的v ₁(即0)*0.252＝0，然后用第一个DBN-WKELM基分类器得到的初步分类结果中的v ₂(即1)*0.252+第二个DBN-WKELM基分类器得到的初步分类结果中的v ₂(即0)*0.252+第三个DBN-WKELM基分类器得到的初步分类结果中的v ₂(即1)*0.252+第四个DBN-WKELM基分类器得到的初步分类结果中的v ₂(即0)*0.252＝0.502...，以此类推，最后得到五个总分类结果(0，0.502，0.498，0，0)，从中取最大值(就是0.502)，其对应的初步分类结果中的元素(即v ₂)相应的行为类型(Probe行为类型)作为最终的行为类型。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种基于不平衡数据深度信念网络的并行入侵检测方法，其特征在于，包括以下步骤：

(1)获取不平衡数据集，利用领域清理规则算法对该不平衡数据集进行欠采样处理，并使用基于引力的聚类方法对欠采样处理后的不平衡数据集进行聚类处理，以得到聚类处理后的不平衡数据集；

(2)将步骤(1)获得的聚类处理后的不平衡数据输入训练好的深度信念网络DBN模型中，以提取特征，再将提取的特征输入训练好的DBN-WKELM多分类器模型中的多个DBN-WKELM基分类器中，以得到多个初步分类结果，通过自适应加权投票法计算各个DBN-WKELM基分类器的权重，并根据多个权重和多个初步分类结果获取最终的分类结果、以及该分类结果对应的入侵行为类别。
根据权利要求1所述的并行入侵检测方法，其特征在于，步骤(1)具体包括以下子步骤：

(1-1)获取不平衡数据集DS；

(1-2)从步骤(1-1)得到的不平衡数据集DS中获取一个样本点x以及该样本点x的k近邻数据D _k，其中k表示最近邻参数；

(1-3)获取步骤(1-2)得到的k近邻数据D _k中与样本点x的类别不同的所有样本所构成的集合N _k、以及该集合N _k中的样本数目num；

(1-4)判断步骤(1-3)获取的样本数目num是否大于或等于k-1，如果是，则转入步骤(1-5)，否则转入步骤(1-6)；

(1-5)判断样本点x的类别是否为多数类样本，如果是，则更新不平衡数据集DS为DS＝DS-x，然后进入步骤(1-6)，否则更新不平衡数据集DS为DS＝DS-N _k，然后进入步骤(1-6)；

(1-6)针对不平衡数据集DS中的剩余样本点，重复上述步骤(1-2) 至(1-5)，直到不平衡数据集DS中的所有样本点都被处理完毕为止，从而得到更新后的不平衡数据集DS；

(1-7)设置计数器i＝1；

(1-8)判断i是否等于不平衡数据集DS中的样本点总数，如果是则进入步骤(1-14)，否则进入步骤(1-9)；

(1-9)从步骤(1-6)更新后的不平衡数据集DS中读入第i个新的样本点
其中
表示第i个样本中的第e2个特征属性值，并判断优选设置的聚类集合S是否为空，如果是则转入步骤(1-10)，否则转入步骤(1-11)，其中e2∈[1，n]；

(1-10)将样本点d _i初始化为一个新的类簇C _new＝{d _i}，同时将类簇C _new的质心μ设置为d _i，并将类簇C _new加入到聚类集合S中，转入到步骤(1-13)；

(1-11)计算聚类集合S中的每个类簇对d _i的引力，并得到引力集合G＝{g ₁，g ₂，…，g _ng}，并从引力集合G中得到最大引力g _max及其对应的类簇C _max，其中ng表示聚类集合S中类簇的总数；

(1-12)判断最大引力g _max是否小于设定的阈值r，如果是，则返回步骤(1-10)，否则将样本点d _i合并到类簇C _max中，并更新合并了样本点d _i后的类簇C _max的质心μ _max，然后转入步骤(1-13)；

(1-13)设置计数器i＝i+1，并返回步骤(1-8)；

(1-14)遍历聚类集合S中的所有类簇，并判断是否每个类簇中所有样本点的类型都是多数类样本，如果是，则根据采样率sr随机保存该类簇中的多数类样本，然后针对剩余类簇重复遍历过程，否则针对剩余类簇重复遍历过程。
根据权利要求1或2所述的并行入侵检测方法，其特征在于，

样本点d _i和类簇C之间的引力g是按照如下公式计算：

其中C _num为类簇C中样本点的个数，μ _e2表示中类簇C的质心μ中的第e2个特征属性值；

更新类簇C _max的质心μ _max的公式如下：

其中C _maxn为合并了样本点d _i后类簇C _max中样本点的个数，d _p为合并了样本点d _i后类簇C _max中的第p个样本点，且有p∈[1，C _maxn]。
根据权利要求1所述的并行入侵检测方法，其特征在于，DBN模型是通过步骤训练得到：

(2-1)获取DBN模型，并在分布式内存计算平台上使用改进的差分进化算法对该DBN模型进行优化，以得到优化后的DBN模型；

(2-2)对步骤(2-1)优化后的DBN模型进行训练，以得到训练好的DBN模型。
根据权利要求4所述的并行入侵检测方法，其特征在于，步骤(2-1)具体包括以下子步骤：

(2-1-1)获取DBN模型W _dbn＝{W ₁，W ₂，…，W _dep}，其中dep表示DBN模型中隐含层的总数，W _di表示DBN模型中第di个隐含层中神经元的数量，且有di∈[1，3]；

(2-1-2)随机生成种群规模为n _ps个结构向量的初始种群，从该初始种群中随机选取其中一个结构向量作为该初始种群的全局最优解x _best，将初始种群以文件的形式写入到Hadoop分布式文件***(Hadoop Distributed File System，简称HDFS)中，并设置计数器cnt＝1；

(2-1-3)判断cnt是否等于最大迭代次数T或者全局最优解x _best已收敛，如果是，则输出全局最优解，过程结束，否则转入步骤(2-4)；

(2-1-4)判断cnt是否为1，如果是，则从HDFS中读取步骤(2-1-2)中写入其中的文件，将该文件划分为n _pa个输入分片，每个输入分片包含一个子种群，然后转入步骤(2-1-5)，否则从HDFS中读取更新后的文件，将该文件划分为n _pa个输入分片，每个输入分片包含一个子种群，然后转入步骤(2-1-5)；

(2-1-5)针对步骤(2-1-4)得到的每个子种群而言，获取该子种群中第cnt代中第j个个体
作为DBN模型中各隐含层的神经元数，根据相应DBN模型获取n _t个分类点的分类结果，根据该分类结果计算DBN模型的分类误差CE，并将该分类误差CE作为该子种群中第cnt代中第j个个体的适应度值
其中j∈[1，子种群中第cnt代中个体的总数]，
表示子种群中第cnt代中第j个个体中的第dep个元素；

(2-1-6)针对步骤(2-1-4)得到的每个子种群而言，获取该子种群第cnt代中所有个体的适应度值所构成的适应度值集合

其中sn为适应度值集合F中适应度值的总数，按照从小到大的顺序对该适应度值集合中的所有适应度值进行排序，以获取新的适应度值集合
将该新的适应度集合
中最小适应度值对应的个体作为该子种群的最优解，并将该最小适应度值作为该子种群的最佳适应度值，

(2-1-7)从所有子种群的最佳适应度值中选择最小值作为整体最佳适应度值，并将全局最优解x _best更新为该整体最佳适应度值对应的个体；

(2-1-8)针对步骤(2-1-6)得到的适应度值集合F，取适应度值最小的两个个体
和
组成集合
该适应度值集合F中剩余的个体组成集合

(2-1-9)根据步骤(2-1-8)中得到的集合I _cnt中的第
个目标个体
生成自适应变异个体
其中

(2-1-10)对步骤(2-1-9)得到的自适应变异个体
和步骤(2-1-8)中得到的集合I _cnt中的第
个目标个体
进行交叉操作，以生成实验个体

(2-1-11)获取步骤(2-1-10)得到的实验个体
对应的适应度值
以及步骤(2-1-9)得到的目标个体
对应的适应度值
使用二者中较小的适应度值代替集合I _cnt中的对应个体，并将步骤(2-8)中得到的集合E _cnt中的个体加入到I _cnt中，从而得到更新后的集合I _cnt；

(2-1-12)设置计数器cnt＝cnt+1，将步骤(2-1-11)更新后的集合I _cnt保存到HDFS中，并返回步骤(2-1-3)。
根据权利要求5所述的并行入侵检测方法，其特征在于，

分类误差是采用以下公式获得：

其中，
是真实结果，
是分类结果，n _t是分类点个数；

生成自适应变异个体的计算公式如下：

其中，
和
均∈[3，sn]，三者彼此不相同，且三者均不等于
F _c为自适应变异因子；

自适应变异因子F _c的计算公式如下：

其中，f是初始变异因子；

生成实验个体的计算公式如下：

其中，randn是随机产生于{1，2，…，D}的随机整数，rand是属于[0，1]间的均匀分布的随机实数，CR是交叉因子，D为个体基因维度，其中h∈[1，D]。
根据权利要求4所述的并行入侵检测方法，其特征在于，步骤(2-2)具体包括以下子步骤：

(2-2-1)将步骤(1)聚类处理后的不平衡数据集按照6∶4的比例分为训练集和测试集；

(2-2-2)设置计数器cnt2＝1；

(2-2-3)根据步骤(2-2-1)获得的训练集，将步骤(2)优化后的DBN模型的输入层的初始状态设置为训练集中的训练样本，并将DBN模型的输入层和第一个隐含层构建为受限玻尔兹曼机RBM网络，并初始化该RBM网络中输入层与第一隐含层之间的权重W、输入层的偏置量a、以及第一隐含层的偏置量b；

(2-2-4)判断cnt2是否等于3，如果是则过程结束，否则转入步骤(2-2-5)；

(2-2-5)利用对比散度(Contrastive Divergence，简称CD)算法对RBM网络的输入值、RBM网络中输入层与第cnt2隐含层之间的权重W、输入层的偏置量a、以及第cnt2隐含层的偏置量b进行更新，以获得更新后的RBM网络；

(2-2-6)对步骤(2-2-5)更新后的RBM网络进行迭代训练，直到该RBM网络的重构误差达到最小为止，从而得到整体迭代训练后的RBM模型，将步骤(2)优化后的DBN模型的第cnt2+1隐含层加入到整体迭代训练后的RBM网络中，以构成新的RBM网络，同时将新的RBM网络中输入层与第cnt2+1隐含层之间的权重W更新为整体迭代训练后的RBM网络所输出的权重，将输入层的偏置量a、以及第cnt2+1隐含层的偏置量b分别更新为整体迭代训练后的RBM网络所输出的偏置值，并将整体迭代训练后的RBM网络的输出值作为新的的RBM网络的输入值；

(2-2-7)设置计数器cnt2＝cnt2+1，并返回步骤(2-2-4)。
根据权利要求1所述的并行入侵检测方法，其特征在于，DBN-WKELM多分类器模型是通过以下过程训练得到的：获取训练好的DBN模型，开启4个子线程，在每个子线程中将训练好的DBN模型的输出值设置为WKELM隐含层的输入值X _in，对该输入值X _in进行加权得到成本敏感矩阵W _cs，根据该成本敏感矩阵W _cs获得WKELM隐含层的输出权重β，并基于该输出权重β得到基于DBN特征提取的DBN-WKELM基分类器，4个基于DBN特征提取的DBN-WKELM基分类器共同构成训练好的DBN-WKELM多分类器模型。
根据权利要求8所述的并行入侵检测方法，其特征在于，WKELM隐含层的输出权重β的公式为：

其中，C _r是正则化系数，Ω是对应于WKELM基分类器的核函数F _k的核矩阵，T _l是对应于输入值X _in的数据标签；

自适应加权投票法的权重计算公式如下：

其中，W _q是第q个DBN-WKELM基分类器在DBN-WKELM多分类器模型中的投票权重，
是第q个DBN-WKELM基分类器的分类准确率，
是第q个DBN-WKELM基分类器的分类误报率，且有q∈[1，m]；

第q个DBN-WKELM基分类器的分类准确率和分类误报率的计算公式如下：

其中，
是第q个DBN-WKELM基分类器中正确分类的样本数目，
是第q个DBN-WKELM基分类器中总样本数目，
是第q个DBN-WKELM基分类器中被错误当作入侵行为的正常样本数目，
是第q个DBN-WKELM基分类器中的正常样本总数。
一种基于不平衡数据深度信念网络的并行入侵检测***，其特征在于，包括：

第一模块，用于获取不平衡数据集，利用领域清理规则算法对该不平衡数据集进行欠采样处理，并使用基于引力的聚类方法对欠采样处理后的不平衡数据集进行聚类处理，以得到聚类处理后的不平衡数据集；

第二模块，用于将第一模块获得的聚类处理后的不平衡数据输入训练好的深度信念网络DBN模型中，以提取特征，再将提取的特征输入训练好的DBN-WKELM多分类器模型中的多个DBN-WKELM基分类器中，以得到多个初步分类结果，通过自适应加权投票法计算各个DBN-WKELM基分类器的权重，并根据多个权重和多个初步分类结果获取最终的分类结果、以及该分类结果对应的入侵行为类别。