CN115296899A

CN115296899A - 一种流量异常检测方法、装置、设备及存储介质

Info

Publication number: CN115296899A
Application number: CN202210926888.6A
Authority: CN
Inventors: 陶英杰
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-11-04

Abstract

本申请公开了一种流量异常检测方法、装置、设备及存储介质，可应用于计算机领域或金融领域。首先，对待检测的流量数据进行特征提取，得到维数大于或等于预设维数阈值的第一流量特征以及维数小于所述预设维数阈值的第二流量特征；然后，将所述第一类流量特征和所述第二类流量特征输入到流量矩阵中，通过预设算法计算所述流量矩阵的主分量特征值，筛选出多个所述主分量特征值组成的异常矩阵；最后，将所述流量矩阵向所述异常矩阵进行投影，得到残差流量值；若所述残差流量值大于预设残差阈值，则所述流量数据为异常流量数据。通过高维流量特征异常会导致残差向量发生巨大的变化的特性，实现了对高维流量特征的检测，提高流量异常检测的准确性。

Description

一种流量异常检测方法、装置、设备及存储介质

技术领域

本申请涉及数据检测技术领域，特别是涉及一种流量异常检测方法、装置、设备及存储介质。

背景技术

网络流量异常是指网络攻击、网络病毒、网络突发访问、网络故障等引发的异常。异常流量的特点是发作突然、先兆特征未知，可以在短时间内给网络和网络上的计算机带来重大损失。因此，准确、及时地检测出网络流量的异常行为并做出合理的响应有利于维护网络的可用性，提高网络的可靠性和保证网络服务质量具有重要的意义。

目前，对于异常流量的检测，通常采用的是采用卷积神经网络构建检测模型来进行检测。首先，对流量数据进行可视化处理将原始流量特征提取转化为图像特征提取；然后，采用灰度图像处理方式实现流量特征值的提取；最后，将提取到的流量特征值输入到卷积神经网络检测模型中，检测出异常流量。通过以上方式可以有效缩短检测的时间，但是，由于流量数据的特征中存在低维流量特征和高维流量特征，上述方式只适用于对低维流量特征进行检测，导致对于流量异常的检测准确性较低。

综上，如何提高流量异常检测的准确性，是本领域技术人员需要解决的技术问题。

发明内容

基于上述问题，本申请提供了一种流量异常检测方法、装置、设备及存储介质方法。实现了流量异常检测的准确性，提高网络的可靠性和保证网络服务质量。

本申请实施例公开了如下技术方案：

第一方面，一种异常流量检测方法，包括：对待检测的流量数据进行特征提取，得到维数大于或等于预设维数阈值的第一流量特征以及维数小于所述预设维数阈值的第二流量特征；

将所述第一类流量特征和所述第二类流量特征输入到流量矩阵中，通过主成分分析方法计算所述流量矩阵的主分量特征值，筛选出多个所述主分量特征值组成的异常矩阵；

将所述流量矩阵向所述异常矩阵进行投影，得到残差流量值；

若所述残差流量值大于预设残差阈值，则所述流量数据为异常流量数据。

可选地，所述通过预设算法得到与所述流量矩阵对应的异常矩阵，具体包括：

通过主成分分析方法计算所述流量矩阵的主分量特征值，按照主分量特征值的大小筛选出多个大于预设阈值的所述主分量特征值，并组成正常矩阵；其余的主分量特征值组成正常矩阵。

可选地，所述将所述流量矩阵向所述异常矩阵进行投影，得到残差流量值，具体包括：

将所述流量矩阵向所述正常矩阵进行投影，得到模型向量；

将所述流量矩阵向所述异常矩阵进行投影，得到残差向量；

将所述模型向量与所述残差向量相加，得到测量向量；

根据所述模型向量、所述测量向量及所述残差向量之间的关系，得到用所述模型向量和所述测量向量表示的所述残差向量；

对所述残差向量取范数获得残差流量值。

可选地，所述对待检测的流量数据进行特征提取，得到维数大于或等于预设维数阈值的第一流量特征以及维数小于所述预设维数阈值的第二流量特征，具体包括：

采用模糊C均值聚类算法对流量特征进行提取，得到维数小于第一阈值的流量特征；

采用分类全局搜索方式对所述流量特征进行动态规划，得到维数大于或等于预设维数阈值的第一类流量特征以及维数小于预设维数阈值的第二类流量特征；所述第一阈值大于所述预设维数阈值。

可选地，所述方法还包括：

若所述残差流量值小于或等于所述预设残差阈值，则所述流量数据为正常流量数据。

第二方面，一种异常流量检测装置，包括：特征提取模块，异常矩阵获取模块，投影模块以及比较模块；

所述特征提取模块，用于对待检测的流量数据进行特征提取，得到维数大于或等于预设维数阈值的第一流量特征以及维数小于所述预设维数阈值的第二流量特征；

所述异常矩阵获取模块，用于将所述第一类流量特征和所述第二类流量特征输入到流量矩阵中，通过主成分分析方法得到与所述流量矩阵对应的异常矩阵；

所述投影模块，用于将所述流量矩阵向所述异常矩阵进行投影，得到残差流量值；

所述比较模块，用于比较所述残差流量值与预设残差阈值，若所述残差流量值大于预设阈值，则所述流量数据为异常流量数据。

可选地，所述特征提取模块，具体用于：

可选地，所述异常矩阵获取模块，具体用于：

第三方面，一种异常流量检测设备，所述设备包括：存储器、处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序时实现如第一方面任一项所述的流量异常检测方法的步骤。

第四方面，一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的流量异常检测方法的步骤。

相较于现有技术，本申请具有以下有益效果：

首先，对待检测的流量数据进行特征提取，得到维数大于或等于预设维数阈值的高维流量特征以及维数小于所述预设维数阈值的低维流量特征；然后，将所述高维流量特征和所述低维流量特征输入到流量矩阵中，通过预设算法得到与所述流量矩阵对应的异常矩阵；最后，将所述流量矩阵向所述异常矩阵进行投影，得到残差流量值；若所述残差流量值大于预设残差阈值，则所述流量数据为异常流量数据。

本申请实施例中利用高维流量特征异常会导致残差向量发生巨大的变化的特性，实现了对高维流量特征的检测，提高了流量异常检测的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种流量异常检测方法的流程图；

图2为本申请实施例提供的另一种流量异常检测方法的流程图；

图3为本申请实施例提供的一种流量异常检测装置的结构示意图。

具体实施方式

正如前文描述，目前的异常流量检测方法使用卷积神经网络构建检测模型，并采用灰度图像方式对流量特征进行提取，进而将提取到的特征输入到卷积神经网络检测模型中进行检测。是将流量特征可视化，通过将图像中有意义的区域作为流量特征输入到神经网络模型中进行检测。可以确定的是流量数据中有低维流量特征和高维流量特征，一般的可视化处理，都是二维或者三维的，所以，上述方法并不适用于含有高维特征的流量数据。

发明人经过研究，可以通过将流量特征所占据的高维空间分离为与正常和异常网络相对应的正常矩阵和异常矩阵，利用高维流量特征异常会导致残差向量发生巨大的变化的特性，对高维流量特征进行检测。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，该图为本申请实施例提供的一种流量异常检测方法的流程图。

如图1所示，该流量异常检测方法包括：

S101：对待检测的流量数据进行特征提取，得到维数大于或等于预设维数阈值的第一流量特征以及维数小于预设维数阈值的第二流量特征。

网络流量可以是在给定时间点通过网络移动的数据量，在网络数据的计算机网络主要是包封在网络分组，其提供在网络中的负载。网络流量是网络流量测量、网络流量控制和仿真的主要组成部分。

特征提取可以通过相应的软件来加以实现，比如WireShark、Tcptrace、QPA、Tstat、CapAnalysis以及Xplico中的一种或多种。

比如，WireShark可以在线截取各种网络封包，显示网络封包的详细信息，也可分析已有的报文数据，如由tcpdump/Win Dump、WireShark等采集的报文数据。WireShark提供多种过滤规则，进行报文过滤。使用者可借助该工具的分析功能，获取多种网络数据特征。

Tcptrace可以分析TCP流量数据文件的工具，它的输入包括多种的基于报文采集程序输出的文件，如tcpdump，snoop，etherpeek，HPNet Metrix和WinDump。使用Tcptrace可以获得每个通信连接的各种信息，包括：持续时间，字节数，发送和接收的片段，重传，往返时间等，也可以生成许多图形，用于使用者的后续分析。

通常针对同一个流量数据，可以有各种不同的特征，比如流的源端口、源IP、目的IP、目的端口、IP数据包的长度序列、IP数据集的到达时间序列、有效载荷序列以及相应有效载荷的到达时间序列等。

通过预设维数阈值，确定流量特征维数是高维还是低维。

S102：将第一类流量特征和第二类流量特征输入到流量矩阵中，通过主成分分析方法计算流量矩阵的主分量特征值，筛选出多个主分量特征值组成的异常矩阵。

可以通过MATLAB将第一类流量特征和第二类流量特征输入到流量矩阵中。

主成分分析算法(Principal Components Analysis,PCA)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。

主分量特征值指的是通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

异常矩阵可以是由多个主分量组成的矩阵。

S103:将流量矩阵向异常矩阵进行投影，得到残差流量值；若残差流量值大于预设残差阈值，则流量数据为异常流量数据。

高维流量特征异常会导致残差向量发生巨大的变化的特性，可以实现高维特征的异常检测。

首先，对待检测的流量数据进行特征提取，得到维数大于或等于预设维数阈值的高维流量特征以及维数小于预设维数阈值的低维流量特征；然后，将高维流量特征和低维流量特征输入到流量矩阵中，通过预设算法得到与流量矩阵对应的异常矩阵；最后，将流量矩阵向异常矩阵进行投影，得到残差流量值；若残差流量值大于预设残差阈值，则流量数据为异常流量数据。

参见图2，该图为本申请实施例提供的另一种流量异常检测方法的流程图。

如图1所示，该流量异常检测方法包括：

S201：采用模糊C均值聚类算法对流量特征进行提取，得到维数小于第一阈值的流量特征；采用分类全局搜索方式对流量特征进行动态规划，得到维数大于或等于预设维数阈值的第一类流量特征以及维数小于预设维数阈值的第二类流量特征；第一阈值大于预设维数阈值。

FCM算法是一种基于划分的聚类算法，它的思想就是使得被划分到同一簇的对象之间相似度最大，而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进，普通C均值算法对于数据的划分是硬性的，而FCM则是一种柔性的模糊划分。

假设现在有一群人，要将他们自动分成大人和小孩两类，以身高作为分类标准(若身高大于160cm为大人，小于160cm为小孩)。现有一人身高为100cm，那么根据上述标准，不难判断，他会被划分到小孩一组。但是如果他的身高为159cm，该如何划分呢？

IDEA1：无论如何159cm总是小于160cm，应该被分到小孩组。

IDEA2：159cm很接近160cm,更偏离小孩组，应该被分到大人组。

以上两种说法体现了普通C均值算法(HCM)和模糊C均值算法(FCM)的差异：

普通C均值算法在分类时有一个硬性标准，根据该标准进行划分，分类结果非此即彼。(IDEA1)

模糊C均值算法更看重隶属度，即更接近于哪一方，隶属度越高，其相似度越高。(IDEA2)

通过模糊C均值聚类算法可以实现将高维流量特征进行降维，最大限度的保留流量特征信息，得到低维流量特征，本申请中，可以减少数据计算量。

将聚类结果做自适应调节，采用一个四元组方式表示流量有关特征，即

其中

为流量在T_k1时间点到达窗口第j次的第i个数据要素；

为送出训练的最佳概率值；p^kf(D)，(T_k1，...，T_kj)为流量低维数的流量特征集合。使用分类全局搜索方式对低维数流量进行动态规划，获取第i个数据网络节点中t元组在模糊聚类部分j次的概率值：

若上述概率值大于某一预设阀值，则认为该流量特征为高维流量特征。

S202:将第一类流量特征和第二类流量特征输入到流量矩阵中，通过主成分分析方法计算流量矩阵的主分量特征值，按照主分量特征值的大小筛选出多个主分量特征值组成的正常矩阵；其余的主分量特征值组成正常矩阵。

主成分分析算法(PCA)是最常用的线性降维方法，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中，并期望在所投影的维度上数据的信息量最大(方差最大)，以此使用较少的数据维度，同时保留住较多的原数据点的特性。

假设流量矩阵X为M*N维，有M个样本{X¹，X²，……X^M}，每个样本有N维特征

每一个特征x_j都有各自的特征值。

主成分分析算法的步骤可以分为：

1)对所有特征进行中心化：去均值。

特征x₁的平均值为：

特征x₂的平均值为：

2)求协方差矩阵C。

上述矩阵中，对角线上分别是特征x₁和x₂的方差，非对角线是协方差。协方差大于0表示x₁和x₂若有一个增，另一个也增；小于0表示，x₁和x₂若有一个减，另一个也减；协方差为0时，两者独立。协方差绝对值越大，两者对彼此的影响越大，反之越小。其中，cov(x₁,x₁)的求解公式如下，其他类似：

3)求协方差矩阵C的特征值和相对应的特征向量。

利用矩阵的知识，求协方差矩阵C的特征值λ和相对应的特征向量u(每一个特征值对应一个特征向量)：

特征值λ会有N个，每一个λ_i对应一个特征向量u_i，选取k个特征值组成N*k维数的正常矩阵s，其余部分则为N*(M-k)维的异常矩阵。

S203:将流量矩阵向正常矩阵进行投影，得到模型向量；将流量矩阵向异常矩阵进行投影，得到残差向量；将模型向量与残差向量相加，得到测量向量；根据模型向量、测量向量及残差向量之间的关系，得到用模型向量和测量向量表示的残差向量；对残差向量取范数获得残差流量值；若残差流量值大于预设残差阈值，则流量数据为异常流量数据。

将流量矩阵X分别向正常矩阵s和

进行投影，假设y为矩阵某时间点的测量向量，得到：

其中

为正常矩阵s的投影向量，即模型向量；

为异常矩阵

的投影向量，即残差向量。将正常矩阵空间中k个特征向量组成的N*k维矩阵记为P，获得y运算流程如下：

所以：

其中，ESP表示残差流量值。

一般认为,大规模网络流量异常的发生往往会导致

的巨大变化。因此,检测异常的关键是对

大小的测度。

若SPE＞δ_α，表示流量异常，δ_α表示在1-α置信度下SPE的门限。

首先，通过模糊C聚类算法将所有的流量特征的维度限定在一定的范围内，使得高维流量特征与低维流量特征的最大维度一定；然后通过主成分分析法获得正常矩阵和异常矩阵；最后，将流量矩阵映射到异常矩阵上获得残差向量值。通过将残差向量值与预设阈值相比较，可以判定该流量是否异常。

通过实现对高维流量特征进行检测，提高了流量异常检测的准确率。

参见图3，该图为本申请实施例提供的一种流量异常检测装置的结构示意图。

如图3所示，该流量异常检测装置包括：特征提取模块301，异常矩阵获取模块302，投影模块303以及比较模块304；

特征提取模块301，用于对待检测的流量数据进行特征提取，得到维数大于或等于预设维数阈值的第一流量特征以及维数小于预设维数阈值的第二流量特征；

异常矩阵获取模块302，用于将第一类流量特征和第二类流量特征输入到流量矩阵中，通过主成分分析方法计算流量矩阵的主分量特征值，筛选出多个主分量特征值组成的异常矩阵；

投影模块303，用于将流量矩阵向异常矩阵进行投影，得到残差流量值；

比较模块304，用于比较残差流量值与预设残差阈值，若残差流量值大于预设阈值，则流量数据为异常流量数据。

其中，特征提取模块301，具体用于：

采用分类全局搜索方式对流量特征进行动态规划，得到维数大于或等于预设维数阈值的第一类流量特征以及维数小于预设维数阈值的第二类流量特征；第一阈值大于预设维数阈值。

异常矩阵获取模块302，具体用于：

通过主成分分析方法计算流量矩阵的主分量特征值，筛选出多个主分量特征值组成的正常矩阵；其余的主分量特征值组成异常矩阵。

本申请实施例还提供一种流量异常检测设备，该设备包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时可实现如上任意一种流量异常检测方法的步骤。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任意一种流量异常检测方法的步骤。

在实际应用中，计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明提供的一种流量异常检测方法、装置、设备及存储介质可用于金融领域或其他领域，上述仅为示例，并不对本发明提供的一种流量异常检测方法、装置、设备及存储介质的应用领域进行限定。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种流量异常检测方法，其特征在于，所述方法包括：

对待检测的流量数据进行特征提取，得到维数大于或等于预设维数阈值的第一流量特征以及维数小于所述预设维数阈值的第二流量特征；

将所述第一类流量特征和所述第二类流量特征输入到流量矩阵中，通过主成分分析方法计算所述流量矩阵的主分量特征值，筛选出多个所述主分量特征值并组成异常矩阵；

将所述流量矩阵向所述异常矩阵进行投影，得到残差流量值；若所述残差流量值大于预设残差阈值，则所述流量数据为异常流量数据。

2.如权利要求1所述的方法，其特征在于，所述通过预设算法计算所述流量矩阵的主分量特征值，筛选出多个所述主分量特征值并组成异常矩阵，具体包括：

3.如权利要求2所述的方法，其特征在于，所述将所述流量矩阵向所述异常矩阵进行投影，得到残差流量值，具体包括：

将所述流量矩阵向所述正常矩阵进行投影，得到模型向量；

将所述流量矩阵向所述异常矩阵进行投影，得到残差向量；

将所述模型向量与所述残差向量相加，得到测量向量；

对所述残差向量取范数获得残差流量值。

4.如权利要求1所述的方法，其特征在于，所述对待检测的流量数据进行特征提取，得到维数大于或等于预设维数阈值的第一流量特征以及维数小于所述预设维数阈值的第二流量特征，具体包括：

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

6.一种流量异常检测装置，其特征在于，所述装置包括：特征提取模块，异常矩阵获取模块，投影模块以及比较模块；

所述异常矩阵获取模块，用于将所述第一类流量特征和所述第二类流量特征输入到流量矩阵中，通过主成分分析方法计算所述流量矩阵的主分量特征值，筛选出多个所述主分量特征值并组成异常矩阵；

7.如权利要求6所述的装置，其特征在于，所述特征提取模块，具体用于：

8.如权利要求6所述的装置，其特征在于，所述异常矩阵获取模块，具体用于：

9.一种流量异常检测设备，其特征在于，所述设备包括：存储器、处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述的流量异常检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的流量异常检测方法的步骤。