CN110381052B

CN110381052B - 基于CNN的DDoS攻击多元信息融合方法及装置

Info

Publication number: CN110381052B
Application number: CN201910639677.2A
Authority: CN
Inventors: 唐湘滟; 程杰仁; 黄梦醒; 蔡灿婷; 郭威; 李梦洋
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2021-12-21
Anticipated expiration: 2039-07-16
Also published as: CN110381052A

Abstract

本发明公开了一种基于CNN的DDoS攻击多元信息融合方法及装置，属于通信技术领域。其中所述方法包括：在单位时间内对网络流量进行特征提取，得到多元特征；将所述多元特征基于主成分分析模型进行加权融合特征；构建基于卷积神经网络的分类模型，分析提取所述加权融合特征以获得最终特征。所述装置包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现所述的基于CNN的DDoS攻击多元信息融合方法。本发明相较于现有技术检测DDoS攻击的方法，提高了检测率，降低了漏报率和总错误率，同时还减少了攻击检测的运行时间和内存资源。

Description

基于CNN的DDoS攻击多元信息融合方法及装置

技术领域

本发明涉及通信技术领域，特别涉及一种基于CNN的DDoS攻击多元信息融合方法及装置。

背景技术

卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的多层监督学习神经网络模型，并且是一类特别设计用来处理二维数据的多层神经网络模型。

分布式拒绝服务攻击(Distributed Denial of Service，DDoS)是指攻击者利用雇佣的多台计算机对一个或者多个目标服务器分别发起拒绝服务攻击，从而使服务器无法处理合法用户的指令，利用DDoS攻击能够对网络造成巨大破坏。

如今，在大数据时代，到处都是大量，多样化，高速和可变的数据。信息融合是针对多源异构数据的多层次、多方面和多维度的深度处理过程，可以获得更加完整、准确和及时的结果。近年来，DDoS攻击的范围越来越广，涉及的领域也越来越多。DDoS攻击的攻击方法得到了迅速的演变，单一元素的检测方法无法很好地识别DDoS攻击，并且许多基于单一元素的检测方法具有较高的漏报率和误报率。

本发明的发明人在研究现有DDoS攻击多元信息融合方法的过程中，发现现有技术至少存在以下问题：漏报率和总错误率高、检测率低、内存资源消耗快、运行时间长等。

因此，本发明提供了一种能够提高DDoS的检测率，降低漏报率和总错误率，减少运行时间和内存资源的DDoS攻击信息融合方法。

发明内容

本申请的目的在于提供一种基于CNN的DDoS攻击多元信息融合方法及装置，解决现有技术存在的部分或全部问题。

为实现上述目的，本申请一方面提供了一种基于CNN的DDoS攻击多元信息融合方法，在一个实施例中，所述方法包括：在单位时间内对网络流量进行特征提取，得到多元特征；将所述多元特征基于主成分分析模型进行加权融合特征；构建基于卷积神经网络的分类模型，分析提取所述加权融合特征以获得最终特征。

进一步的，所述在单位时间内对网络流量进行特征提取，得到多元特征，包括：对所述网络流量进行量化，得出所述网络流量在所述单位时间内每个特征的种类；将所述每个特征的种类转化为特征向量，得到所述多元特征。

进一步的，所述将所述多元特征基于主成分分析模型进行加权融合特征，包括：基于所述主成分分析模型计算所述多元特征的权重；根据所述权重进行加权融合特征。

进一步的，所述基于所述主成分分析模型计算所述多元特征的权重，包括：通过所述主成分分析模型对所述多元特征进行归一化处理，得到所述多元特征的方差；通过所述多元特征的方差计算方差贡献率，得到每个特征的最终所述权重。

进一步的，运用所述主成分分析模型处理所述多元特征，并不断调整所述多元特征中主成分的权重和偏差。

进一步的，所述构建基于卷积神经网络的分类模型，分析提取所述加权融合特征以获得最终特征，包括：所述卷积神经网络包括一个输入层、三个卷积层、三个池化层、两个完全连接层和一个输出层；将所述多元特征通过所述输入层输入所述卷积神经网络模型，进入所述卷积层；所述卷积层通过卷积提取所述输入层不同级别的特征，输入所述池化层；通过所述池化层输出的特征图都有权重和偏差，连接完全连接层，将输出值传递到输出层进行分类，以获得最终特征。

进一步的，所述卷积层由多个所述多元特征的特征图组成，每个所述特征图由多个神经元组成；所述卷积层和所述池化层交替出现；所述卷积层和所述卷积层的前一层通过本地连接和权重共享连接。

进一步的，最后一个所述完全连接层的输出值传递到所述输出层，通过softmax进行分类。

进一步的，所述卷积神经网络是一个由一个输入层，三个所述卷积层，三个所述池化层，两个所述完全连通层和一个所述输出层构成的一维所述卷积神经网络。

为实现上述目的，本申请另一方面提供了一种基于CNN的DDoS攻击多元信息融合装置，所述装置包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至5中任一项所述的基于CNN的DDoS攻击多元信息融合方法。

由上可见，本发明通过提供一种基于CNN的DDoS攻击多元信息融合方法及装置，解决了现有技术存在部分或全部问题，本发明相较于现有技术中检测DDoS攻击的方法，提高DDoS的检测率，降低漏报率和总错误率，同时还减少了攻击检测的运行时间和内存资源。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于CNN的DDoS攻击多元信息融合方法的流程图；

图2为本发明实施例提供的基于CNN的不同测试集样本的检测率的对比图；

图3为本发明实施例提供的基于SVM在不同测试集样本中检测率的对比图；

图4为本发明实施例提供的正常流量中MEFF和NWMEFF的特征值示意图；

图5为本发明实施例提供的攻击流量中MEFF和NWMEFF的特征值示意图

图6为本发明实施例提供的训练期间MEFF和NWMEFF准确率的对比图；

图7为本发明实施例提供的基于CNN的DDoS攻击多元信息融合装置的结构示意图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决了现有技术存在部分或全部问题，本发明提供了一种基于CNN的DDoS攻击多元信息融合方法及装置。

图1是本发明实施例提供的基于CNN的DDoS攻击多元信息融合方法的流程图。

S101，在单位时间内对网络流量进行特征提取，得到多元特征。

在一个实施例中，对所述网络流量进行量化，得出所述网络流量在所述单位时间内每个特征的种类；为尽可能保留网络数据流的原始信息，只需对网络数据流进行量化。具体的，由于数据包的属性只是为了进行区分，故可以对网络数据流的数据包的属性进行如下处理：

假设所述单位时间T内的网络流量F是

<(t₁,sip₁,dip₁,sp₁,dp₁,p₁),······,(t_n,sip_n,dip_n,sp_n,dp_n,p_n)>，其中，i＝1,2,······,n

t_i,sip_i,dip_i,sp_i,dp_i,p_i分别表示第i个数据包的时间，源IP地址，目的IP地址，源端口，目的端口和数据包大小。

定义1、在采样时间内，网络流F的源IP地址特征(Source IP Address Feature，SIPAF)定义如下：

在SIPAF的定义中，计算每单位时间内网络流F的源IP地址的种类数，并且该特征可以很好地反映网络情况。DDoS攻击是攻击者通过大量伪造的IP地址向受害主机发送大量无用的数据包，并覆盖普通合法网络用户的请求，从而达到攻击受害主机的目的，消耗网络资源。在正常情况下，一段时间内网络流中不同源IP地址的数量应该较少且较稳定。当攻击发起时，不同源IP地址的数量将突然增加，因为网络流中存在大量虚假源IP地址。SIPAF在攻击情况下比正常情况下更大，因此，它可以有效地区分正常的网络流量和异常的网络流量。

定义2、在采样时间内，网络流F的目的IP地址特征(Destination IP AddressFeature，DIPAF)定义如下：

在DIPAF的定义中，计算每单位时间的网络流F的目的IP地址的种类数。在正常情况下，网络流中不同目的IP地址的数量将较稳定。当攻击发起时，攻击者将找到目标主机，并且目标IP地址相对集中。因此，DIPAF在正常情况下攻击较小，可以有效区分正常网络流量和异常网络流量。

定义3、在采样时间内，网络流F的源端口特征(Source Port Feature，SPF)定义如下：

在SPF的定义中，计算每单位时间的网络流F的源端口的种类数。DDoS攻击是攻击者通过控制随机选择的源端口的主机向受害目标主机发送大量无用数据包。在正常情况下，网络流中源端口的种类数将较少且较稳定。发生攻击时，源端口的数量会增加。

定义4、在采样时间内，网络流的目标端口特征(Destination Port Feature，DPF)定义如下：

在DPF的定义中，计算每单位时间的网络流F的目的端口的种类数。为了耗尽受害主机的网络资源，攻击者将尽可能地占用网络资源，这使得普通用户无法访问网络资源。机器会尽可能地占据受害目标主机的不同端口。因此，在正常情况下，网络流中不同目标端口的数量处于较低水平。相反，它会在发生攻击时突然增加。

定义5、在采样时间内，网络流的数据包个数特征(Packet Number Feature，PNF)定义如下：

PNF＝n (5)

在PNF的定义中，计算每单位时间的网络流F的数据包个数。根据分析可知，正常情况下的数据包数量少于攻击时候的数量。

定义6、在采样时间内，网络流的数据包大小特征(Packet Size Feature，PSF)定义如下：

在PSF的定义中，计算每单位时间的网络流F的数据包大小的类型数。在正常网络中，视频和文本的大小也会有明显不同，即使是相同内容的文本，它们的大小在不同的网络环境中也可能不同。但是，DDoS攻击数据包的大小是完全相同的。根据分析可知，在正常情况下，网络流中的数据包大小几乎都不同。但是，当发起攻击时，数据包的大小完全相同。因此，PSF在攻击中的值会低于在正常情况下的值。

上述定义的六个多元特征可以单独地反映当前的网络情况，但它们并不适用于所有情况。例如，当发生网络拥塞时，可能会误判为DDoS攻击。因此，本申请提出了一种基于卷积神经网络的DDoS攻击多元信息融合方法，它可以从多个角度融合多元特征，更准确地反映网络的真实情况。

在另一个实施例中，将所述每个特征的种类转化为特征向量，得到所述多元特征，所述多元特征如下：

其中X1，X2，X3，X4，X5和X6分别表示SIPAF，DIPAF，SPF，DPF PNF和PSF，n表示样本个数。

S102，将所述多元特征基于主成分分析模型进行加权融合特征。

在一个实施例中，在不同的网络环境下，不同的特征表示的网络情况也是不一样的。对于在受害者端和攻击者端提取的特征也不同。因此本文提出一种特征权重计算模型来计算在不同的网络环境中不同特征对当前网络情况的反应情况。主成分分析(PrincipalComponent Analysis，PCA)是一种多变量统计方法，用于研究多个变量之间的相关性。它研究了如何通过几个主要组成部分揭示多个变量之间的内部结构。主成分分析可以消除评估指标之间的干扰，因为主成分分析可以转换原始数据指标变量，形成相互独立的主成分。由于主成分分析是一种多变量分析方法，因此适用于本文中多元特征的处理。本文提出的基于主成分分析的特征权重计算模型主要考虑多元特征中各特征的贡献来确定权重值。

通过对公式(8)中的矩阵X进行归一化，获得矩阵Z：

其中

表示第j列的均值，

表示第j列的标准差；

通过所述矩阵Z，得到协方差矩阵R：

计算所述矩阵R的特征根和特征向量，得到六个主成分的线性组合：

F₁＝γ₁₁X₁+γ₂₁X₂+…+γ₆₁X₆

F₂＝γ₁₂X₁+γ₂₂X₂+…+γ₆₂X₆

……

F₆＝γ₁₆X₁+γ₂₆X₂+…+γ₆₆X₆ (12)

根据公式(13)计算所述主成分的方差贡献率，当所述主成分的累积方差贡献率大于85％时，选择m个所述主成分，运用公式(14)计算每个要素的权重，然后通过归一化得到每个要素的最终权重。

其中w1，w2，w3，w4，w5和w6分别表示所述SIPAF，所述DIPAF，所述SPF，所述DPF，所述PNF和所述PSF的所述权重。

在另一个实施例中，当前的网络环境越来越复杂，单一特征只能单方面表示网络某个方面的情况。针对DDoS攻击的高流量和多变性特点，单元特征无法准确识别DDoS攻击。本申请提出了一种多元特征信息融合方法，从多个角度考虑信息。通过上述提取的6个特征，得到多元特征，综合考虑多个特征的信息，更准确地反映当前网络情况。

本申请定义了一个多元融合特征(Multi-element Fusion Feature,MEFF)，它是根据六个特征计算出来的，包括SIPAF，DIPAF，SPF，DPF，PNF和PSF。

MEFF＝ω₁lg(SIPAF)+ω₂lg(DIPAF)+ω₃lg(SPF)+ω₄lg(DPF)+ω₅lg(PNF)+ω₆lg(PSF) (15)

其中w1，w2，w3，w4，w5和w6分别表示通过主成分分析计算出的六个特征的权重。本申请通过对SIPAF，DIPAF，SPF，DPF，PNF和PSF取对数，因为如果不取对数，训练过程中梯度方向会偏离，训练时间过长，效果会不好。在进行对数运算后，特征值相对集中，提高了精度和收敛速度。

S103，构建基于卷积神经网络的分类模型，分析提取所述加权融合特征以获得最终特征。

在本实施例中，为了验证本申请提出的信息融合方法的正确性，我们构建了一个基于卷积神经网络的分类模型。卷积神经网络是一种典型的人工前馈神经网络，它通过建立多个滤波器来提取输入数据的特征。随着网络层数的增加，不断分析提取特征以获得最终特征。CNN有两个特点：本地连接和权重共享。卷积层和前一层通过本地连接和权重共享连接，大大减少了参数数量，降低了网络复杂度，使网络更加健壮，并能有效防止过度拟合。

卷积神经网络的基本结构：输入层，卷积层，池化层，完全连接层和输出层。通常，卷积层和池化层交替出现。最后，连接池化层的特征以形成特征向量，并且特征向量通过完全连接层获得分类向量。

卷积层，卷积层由多个特征图组成，每个特征图由多个神经元组成。每个神经元通过卷积核连接到上个特征图。卷积层通过卷积提取输入层不同级别的特征，卷积层的形式如下：

其中l表示当前层，b表示当前层的偏差，k表示卷积核，M_j表示卷积核的卷积窗，激活函数通常使用sigmoid，tanh，relu，在本申请中，我们选择relu激活函数，Relu激活函数定义如下：

f(x)＝max(0,x) (17)

当x＞0时，梯度始终为1，并且没有梯度分散的问题，速递收敛很快；当x＜0时，输出为0；训练后梯度为0的神经元越多，它们就会越稀疏；提取的特征将具有代表性，并且泛化能力将更强。

池化层，池化层由卷积层后面的多个特征映射组成。池化层的每个特征映射仅对应于前一层的一个特征映射，并且特征映射的数量不会改变，卷积层是池化层的输入层，池化层的形式如下：

其中down(x_j)表示第j个神经元的下采样。每个输出特征图都有权重β和偏差b。

完全连接层，在多个卷积层和池化层之后，连接一个或多个完全连接层，完全连接层中的每个神经元完全连接到前一层中的所有神经元，全连接层中每个神经元的激活函数通常选择relu函数，最后一个完全连接层的输出值传递到输出层，可以通过softmax进行分类。

本申请所述的卷积神经网络包括一个输入层、三个卷积层、三个池化层、两个完全连接层和一个输出层。在本实施例中能够有效地提高DDoS的检测率，降低漏报率和总错误率。

为了验证本发明所提供方法，本实施例还对，本实施例还对“CAIDA DDoS Attack2007”的数据集做了实验，如下：

本申请从CAIDA DDoS Attack 2007数据集中获取正常数据样本和攻击数据样本。首先，根据本申请提出的多元特征提取规则提取SIPAF，DIPAF，SPF，DPF，PNS和PSF六个特征。然后，根据权重计算方法，获得式14中的特征的权重，其中w1，w2，w3，w4，w5和w6分别为0.186，0.122，0.185，0.19，0.186和0.131。最后，MEFF是通过多元特征融合公式获得的。

为了验证本文提出的多元特征信息融合方法的有效性和泛化性，我们进行了对比实验，具体步骤和对比实验结果如下：

1、基于CNN的MEFF和其他特征的性能比较

在该实验中，训练集样本的数量不变，从测试集中随机选择五个不同的测试集样本，包含正常流和攻击流。五个测试集样本的数量分别为500，1000，2000，5000和10000。在本实验中，我们比较了基于CNN模型的MEFF特征与其他六个特征在不同样本数量下的检测率，漏报率和错误率的性能。

如图3所示，MEFF，SIPAF，DIPAF，SPF，DPF，PNF和PSF可以较好地检测DDoS攻击。当测试样本数为500时，除了检测率为69.6％的PSF外，每个特征的检测率为70％。然而，当样本数为1000时，显然每个特征的检测率大不相同。在这些特征中，具有高检测率的两个特征是MEFF和SIPAF，它们分别为89.8％和90％。他们之间的差距只有0.2％。可以看出，这两个特征的检测效果差别不大。然而，DIPAF，SPF，DPF，PNF和PSF的检出率分别为84.2％，82.2％，88.8％，85％和82％。与MEFF特征的检测率相比，其他特征的检测率较差。MEFF具有更好的检测结果。当测试集中的样本数为2000时，PSF特征的检测率最低，仅为87.5％，而MEFF特征和SIPAF特征的检测率分别为92％和92.1％，它们之间的差异仅为0.1％。当测试集中的样本数为5000时，MEFF和SIPAF的检测率仍然很高，它们之间的差距较小，仅为0.04％。相反，与样本量为2000的情况相比，DPF特征和PNF特征的检测率增加缓慢。当样本数为10000时，特征检测率的趋势相对稳定。根据实验结果，我们发现随着样本量的增加，MEFF与SIPAF特征之间的检测率差距越来越小，这表明本文提出的融合特征MEFF能够有效识别DDoS攻击。当样本数不同时，MEFF特征的检测率普遍高于其他特征，如DIPAF，SPF，DPF，PNF和PSF。由于MEFF考虑了多个元素的信息，包括源IP地址，目的IP地址，源端口，目的端口，数据包大小和数据包数，因此它比仅考虑单个方面的特征具有更高的检测率。通过图1可知特征的检测率随着测试集中样本数量的增加而增加。基于CNN模型下，各个特征检测率在开始时迅速增长，在后期缓慢增长。

表1

从表1可以看出，具有不同测试集样本的MEFF，SIPAF，DIPAF，SPF，DPF，PNF和PSF的漏报率和错误率的性能。当样本数为500时，每个特征的漏报率和错误率基本相同，表明在小样本的情况下，每个特征的漏报率和错误率的性能是相似的。但是，随着样本数量的增加，不同特征的漏报率和错误率明显不同。当样本数为1000时，MEFF和SIPAF保持较低的漏报率和较低的错误率，甚至比样本量为500的时候减少20％。相反，其他特征具有更高的漏报率和错误率，特别是PSF特征，其漏报率为18％。当样本量为2000时，SIPAF的漏报率在这些特征中最低，仅为7.9％，而MEFF的漏报率为8％，这意味着它们之间没有太大差异。当样本数为2000时，DIPAF特征和SPF特征具有相同的漏报率和错误率，分别为11.1％和5.55％。当样本量为5000时，MEFF特征漏报率为4.04％，错误率为2.02％，SIPAF特征漏报率为4％，错误率为2％。但是，其他特征具有更高的漏报率和错误率。当样本大小为10000时，MEFF特征和SIPAF特征的漏报率和错误率的性能仍然没有太大差异，但MEFF特性的性能远远优于其他五个特征。在漏报率方面，MEFF比DIPAF低3.19％，比SPF低4.41％，比DPF低1.14％，比PNF低2.02％，比PSF低4.68％。随着样本数量的增加，MEFF特征的漏报率和错误率的性能越来越好，而PSF特征的漏报率和错误率的性能越来越差。根据实验结果可以看出，在不同样本量的情况下，本文提出的MEFF特征的漏报率和错误率均优于大多数特征。这是因为MEFF特征考虑了许多方面的信息，而不是仅考虑单个元素的信息。

2、MEFF和其他特征的运行时间和内存使用的比较

在本实验中，我们选择具有固定样本的训练集和测试集来考虑信息，包括源IP地址，目的IP地址，源端口，目的端口，数据包大小和数据包数。此外，该实验在检测是否发生DDoS攻击时，从运行时间和内存使用两方面比较MEFF特性和其他六个特征。

表2

从表2可以看出，在不改变训练集和测试集数量的情况下，MEFF与其他六个特征在运行时间和内存使用性能方面存在较大差距。在运行时间方面，MEFF需要23.54秒，而其他六个的总和为146.27秒。至于内存使用，MEFF功能使用33.84MB，其他六个的总和为225.74MB。从实验结果可以看出，MEFF特征的总运行时间和总内存使用量远远低于其他六个特征的总和。

3、基于SVM的MEFF和其他特征的性能比较

为了验证本申请提出的信息融合方法不仅适用于基于CNN检测模型，还适用于其他模型，因此，对比实验基于支持向量机模型进行。

SVM是机器学***台设置参数c为1，g为0.1。

如图4所示，在SVM模型下，MEFF，SIPAF，DIPAF，SPF，DPF，PNF和PSF仍具有较高的检测率。当测试集的样本大小为500时，每个特征的检测率为80％。当样本量为1000时，MEFF特征和SIPAF特征的检测率约为90％，而PNF，SPF和DIPAF特征的检测率低于85％，表明MEFF特征和SIPAF特征的检测效果明显更好。当测试集数为2000时，PNF，SPF和DIPAF的检测率明显高于其他特征，检测率提高6％。当样本量大于2000时，每个特征的检测率缓慢增长并变得稳定。但是，可以清楚地看到MEFF和SIPAF具有相同的检测率并始终保持高检测率。特别地，当样本量较大时，例如，当样本大小为10000时，MEFF，SIPAF和PSF的检测率大于95％。通过比较PSF特征在基于CNN的检测模型和SVM的检测模型下，我们可以发现PSF特征更适用于SVM模型，因为基于CNN模型，PSF特征的检测率在所有特征中最低，但基于SVM模型，检测率处于较高水平。本文提出的MEFF特征在CNN模型和SVM模型中都保持高检测率。可以看出，本申请提出的MEFF特性可以有效融合多个元素的信息，更准确地检测DDoS攻击。

表3

从表3可以看出随着测试集样本的增加，每个特征的漏报率和错误率呈下降趋势。当样本大小为500时，每个特征的漏报率为20％，错误率为10％。可以看出，在小样本的情况下，每个特征的漏报率和错误率都相对较高。当测试集的样本量为1000时，SPF特征的漏报率和错误率在所有特征中最高，分别为18.2％和9.1％。当样本大小为2000时，MEFF，SIPAF和DPF保持相对较低的漏报率和错误率，它们大约为8％。当样本量为10000时，MEFF特征的错误率为1.25％，SIPAF特征的错误率为1.11％，这些特征中的错误率最大的是DIPAF特征，为4.15％。可以看出，随着样本量的增加，每个特征的漏报率和错误率都越来越低，这表明这些特征可以更好地检测DDoS攻击。然而，MEFF特征的漏报率和错误率普遍低于其他特征的漏报率，这意味着MEFF特征可以有效地融合多个元素的信息。

表4

从表4可以看出当样本不变时，MEFF的运行时间和内存使用明显低于其他六个特征。基于SVM模型下，MEFF的运行时间仅为9.6秒，而其他六个特征的运行时间需要101.44秒。同时，MEFF特征的内存使用量很小，并且远小于六个多元特征的总和。MEFF的内存使用量为19.64MB，其他六个的总和为125.57MB。从实验结果可以看出，MEFF在运行时间和内存使用方面表现更好。MEFF可以考虑多元素信息并使用最短的运行时间和最少的内存使用量。

4、基于CNN的MEFF和NWMEFF性能比较

为了验证特征的权重的正确性。在本申请中，我们进行了一个对比实验，比较了基于CNN模型的训练过程中每批MEFF特征和无权重MEFF特征(NWMEFF)的准确率、检测率、漏报率和错误率。

如图5所示，MEFF的特征值比NWMEFF的特征值相对集中。由于MEFF特征考虑了每个元素特征的重要性并且通过权重衡量每个特征，因此MEFF的特征值相对稳定并且不会波动很大。相反，NWMEFF的特征值波动很大，最大值大于10，最小值小于2。从图3可以看出，在第500次采样时间，第1500次采样时间和第6000次采样时间，NWMEFF的价值处于网络访问的高峰期，并且很可能被误判为攻击。但是，MEFF的值相对稳定，因此不会发生误判。

如图6所示，在攻击开始时，NWMEFF的特征值从2到16大幅波动。在攻击的中后期有几个波动。因此，攻击流可能被误判为正常流。然而，MEFF在攻击的早期和晚期阶段波动不大，因此误判的可能性要低得多。

图6显示了训练期间MEFF和NWMEFF的准确率的比较。在训练开始时，NWMEFF的准确率高于MEFF特征的准确率。从20个批次开始，MEFF的准确率高于NWMEFF，MEFF特征的准确率约为80％。在40个批次中，MEFF的准确率几乎达到90％。从图6可以看出，MEFF的训练精度基本上高于NWMEFF。在正常流量和攻击流量的情况下，NWMEFF的特征值波动很大，这使得无法准确表达当时的网络状况并且容易判断错误。但是，MEFF的特征值相对稳定，判断错误的可能性很小。因此，在整个训练过程中，MEFF的准确率相对高于NWMEFF。

表5

从表5可以看出，MEFF特征的检测率大于NWMEFF特征的检测率。MEFF漏报率为6.24％，NWMEFF漏报率为10.07％。MEFF的错误率远小于NWMEFF，MEFF特征的错误率为3.70％。MEFF特征的性能优于NWMEFF特征的原因是每个特征的权重不同，通过增加和减少每个特征的权重，MEFF可以更准确地表达当前的网络的情况。

根据上述实验，可以看出MEFF特征具有高检测率，低漏报率和错误率。通过MEFF特征检测DDoS攻击运行速度更快，占用内存更少。DPF特征在SVM模型下具有高检测率，但在CNN模型下具有低检测率，表明DPF特征仅适用于SVM模型。实验结果表明，MEFF特征的检测率一般高于其他特征，当考虑其他特征信息时，运行时间和内存使用率较低。此外，MEFF的权重可以有效地测量每个特征的重要性，有效地融合特征，并且精度高。综上所述，本申请提出的信息融合方法能够有效融合多元特征信息，检测率高，漏报率低，错误率低。而且，该方法不仅适用于CNN检测模型，也适用于其他模型。

在本实施例中，基于CNN的DDoS攻击多元信息融合装置包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现基于CNN的DDoS攻击多元信息融合方法。其实现原理和所要达到的技术效果上文中已有论述，在此不再赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于CNN的DDoS攻击多元信息融合方法，其特征在于，所述方法包括：

在单位时间内对网络流量进行特征提取，得到多元特征；

所述多元特征包括源IP地址特征SIPAF，目的IP地址特征DIPAF，源端口特征SPF，目标端口特征DPF，数据包个数特征PNF，数据包大小特征PSF；所述多元特征如下：

其中X1，X2，X3，X4，X5和X6分别表示SIPAF，DIPAF，SPF，DPF PNF和PSF，n表示样本个数；

将所述多元特征基于主成分分析模型进行加权融合特征，具体为：通过对公式(8)中的矩阵X进行归一化，获得矩阵Z：

其中

表示第j列的均值，

表示第j列的标准差；通过所述矩阵Z，得到协方差矩阵R：

根据公式(13)计算所述主成分的方差贡献率，当所述主成分的累积方差贡献率大于阈值时，选择m个所述主成分，运用公式(14)计算每个要素的权重，然后通过归一化得到每个要素的最终权重，公式(14)为

其中ω₁，ω₂，ω₃，ω₄，ω₅和ω₆分别表示所述SIPAF，所述DIPAF，所述SPF，所述DPF，所述PNF和所述PSF的所述权重；根据所述SIPAF，所述DIPAF，所述SPF，所述DPF，所述PNF，所述PSF和其对应权重，计算出加权融合特征MEFF，MEFF＝ω₁lg(SIPAF)+ω₂lg(DIPAF)+ω₃lg(SPF)+ω₄lg(DPF)+ω₅lg(PNF)+ω₆lg(PSF)；

构建基于卷积神经网络的分类模型，分析提取所述加权融合特征以获得最终特征。

2.如权利要求1所述的基于CNN的DDoS攻击多元信息融合方法，其特征在于，所述构建基于卷积神经网络的分类模型，分析提取所述加权融合特征以获得最终特征之前，还包括：

运用所述主成分分析模型处理所述多元特征，并不断调整所述多元特征中主成分的权重和偏差。

3.如权利要求1所述的基于CNN的DDoS攻击多元信息融合方法，其特征在于，所述构建基于卷积神经网络的分类模型，分析提取所述加权融合特征以获得最终特征，包括：

所述卷积神经网络包括一个输入层、三个卷积层、三个池化层、两个完全连接层和一个输出层；

将所述多元特征通过所述输入层输入所述卷积神经网络模型，进入所述卷积层；

所述卷积层通过卷积提取所述输入层不同级别的特征，输入所述池化层；

通过所述池化层输出的特征图都有权重和偏差，连接完全连接层，将输出值传递到输出层进行分类，以获得最终特征。

4.如权利要求3所述的基于CNN的DDoS攻击多元信息融合方法，其特征在于，所述卷积层由多个所述多元特征的特征图组成，每个所述特征图由多个神经元组成；所述卷积层和所述池化层交替出现；所述卷积层和所述卷积层的前一层通过本地连接和权重共享连接。

5.如权利要求3所述的基于CNN的DDoS攻击多元信息融合方法，其特征在于，最后一个所述完全连接层的输出值传递到所述输出层，通过softmax进行分类。

6.如权利要求3所述的基于CNN的DDoS攻击多元信息融合方法，其特征在于，所述卷积神经网络是一个由一个输入层，三个所述卷积层，三个所述池化层，两个所述完全连通层和一个所述输出层构成的一维所述卷积神经网络。

7.一种基于CNN的DDoS攻击多元信息融合装置，其特征在于，所述装置包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至6中任一项所述的基于CNN的DDoS攻击多元信息融合方法。