CN112257760A

CN112257760A - 一种基于时序模体的主机网络通信行为异常检测方法

Info

Publication number: CN112257760A
Application number: CN202011059613.4A
Authority: CN
Inventors: 李巍; 张建强; 李云春
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-22
Anticipated expiration: 2040-09-30
Also published as: CN112257760B

Abstract

本发明公开了一种基于时序模体的主机网络通信行为异常检测方法，涉及网络检测技术领域。所述的网络通信行为异常检测方法，通过将主机网络通信行为建立带权有向图模型，基于图模型上的时序模体挖掘算法，将图的结构，属性，以及网络通信行为的动态变化信息引入到模型中，进而学习能够进行异常检测的表示向量。本发明通过建模提取主机网络通信行为图模型中时序模体的数量分布特征，基于无监督的降噪自编码器分析时序模体内的属性变化特征，构建相似度计算公式，实现对网络通信行为的异常检测。相较于依赖于专家经验的统计分析方法和依赖于需要大量标注数据的神经网络训练方法，可以有效提高检测的准确度和扩大异常检测的适用范围。

Description

一种基于时序模体的主机网络通信行为异常检测方法

技术领域

本发明属于网络检测技术领域，涉及一种基于图模型时序模体的主机网络通信行为异常检测方法

背景技术

根据近年来国家互联网应急中心发布的中国互联网网络安全报告，各类安全事件数量事件已呈上升趋势，在互联网上提供各类应用的主机仍存在较大的安全风险。机构防护机制不健全，对数据的重要程度不敏感等问题，常常会导致信息泄露，网站被篡改等安全问题。作为信息的重要载体，主机网络通信行为异常，常常作为主机异常行为和安全事件发生的重要认知手段。主机的网络通信行为异常识别与检测，对于网络中安全事件的发现具有十分重要的意义。

在网络入侵的杀伤力链模型中，初始入侵及建立命令通道阶段，会涉及到大量的内网探测及内网的批量渗透。如Nmap探测过程中主机的端口扫描，web渗透的目录扫描，暴力破解，蠕虫和挖矿病毒传播过程中的主机漏洞扫描等。如能在初始入侵过程中就将此类行为检测出来，对于域内主机的防御将会起到非常重要的作用。目前，在此类问题的检测上，主要存在的问题有以下两点：

带有标注的网络通信行为异常数据很少，异常数据和正常的样本数据之间非常不平衡。当采用传统机器学习方法或者统计分析方法时，针对其中每一种扫描器的行为，都需要搜集大量的攻击数据输入到模型中进行训练。且随着网络攻击手段越来越隐蔽，如Nmap-T命令中的乱序扫描，慢速扫描，连接时间限制变化等，信息的收集变得非常困难。如何使用无监督的方式来进行通信行为的表示，并在此基础上进行异常挖掘变得非常重要；

传统的检测模型往往对每类特征单独进行研究，造成信息量的折损。如统计分析方法或者神经网络模型只针对于通信行为的属性特征进行研究，没有考虑到主机之间交互网络关系。而大多数的图学习方法主要关注于网络的结构特征，通过在静态网络中寻找结构的变化来发现网络结构的整体异常，无法针对单个主机节点进行异常的发现。且此类扫描器行为在通信行为网络结构上表现出较强的时序性，传统图学习方法也尚未体现。如何将通信的时序性表现在网络结构中，同时将属性特征一起编码进向量是一个需要解决的问题。

发明内容

为了解决上述技术问题，本发明提供一种基于图模型时序模体的主机通信行为异常检测方法，结合主机网络通信行为结构特征和属性特征两个层面，将图的结构，属性，以及网络通信行为的动态变化信息引入到模型中，进而学习能够进行异常检测的表示向量，以达到提高检测的准确度和扩大异常检测的适用范围的目的。

本发明的技术方案包括以下步骤：

步骤1：将网络中主机的通信流量进行流数据聚合，统计每个流数据中的属性值；

步骤2：基于主机的良性网络通信流数据构建主机良性网络通信行为图模型；

步骤3：定义时序模体的边数、边的顺序，在主机良性网络通信行为图模型下进行δ-时序模体的挖掘，δ为时序模体中任意两条边可允许的最大间隔时间；

步骤4：构建降噪自编码器神经网络模型，确定降噪自编码器神经网络模型结构，进行损失函数设计；

步骤5：将主机良性网络通信行为图模型下的时序模体属性值编码进向量，输入至降噪自编码器中进行训练，计算自编码器的拟合误差，采用拟合误差函数对降噪自编码器神经网络模型的权重矩阵，偏置项进行更新，完成降噪自编码器神经网络模型的训练；

步骤6：将主机的待检测网络通信流数据划分时间窗口并构建主机待检测网络通信行为图模型，在每个时间窗口的图模型中进行δ-时序模体的统计，将统计到的δ-时序模体数量分布编码至向量作为主机待检测网络通信行为图模型结构特征；同时将各类型时序模体的属性特征输入至训练好的降噪自编码器神经网络模型，将其输出的拟合误差值编码进向量作为主机待检测网络通信行为图模型的属性特征，结合两类特征构建待检测流数据与良性流数据下的主机网络通信行为相似度计算公式，相似度小于阈值的则判断为异常。

本发明所述的异常检测方法，先通过对主机通信流量的聚合，从而构建主机网络通信行为图模型，保留了其他方法中未使用到的主机与其他域主机通信的网络结构信息，同时通过对通信流特征的计算，减少了基于内容的检测方法对专家经验的依赖。通过在图模型中进行时序模体分布的挖掘，捕捉到网络中行为模式随时间推移而发生的变化，进而对处在变化中的网络图模型进行表示学习。另一方面，通过将良性通信行为的时序模体流特征输入至降噪自编码器神经网络中不断进行学习，训练一个属性特征的的异常检测器来帮助完成异常检测。因为此检测器模型是在良性流特征下训练得到的，没有见过异常数据，因此每一类时序模体流特征经过检测器模型中后的损失值越大，表明此类时序模体的流特征越有异常的可疑性，通过图模型中时序模体的分布特征与时序模体的属性偏移特征进行结合，得到待检测图模型下整体的表示向量，与良性图模型进行相似度计算，从而进行网络通信行为的异常检测，提高检测的准确度。

进一步的，所述步骤1中，对流量数据的统计分为以下4类：

1)与持续时间相关的特征：会话流的持续时间，流中两个数据包发送之间的最长时间，最短时间，平均时间，标准差时间，流中正向时间，逆向时间；

2)与数据包包数量相关的特征：总包数，正向包数，反向包数，平均包流速；

3)与报文长度相关的特征：总报文长度，数据包的平均报文长度，标准差长度，正向报文长度，反向报文长度；

4)与标志位相关的特征：FIN，SYN，RST，PUSH，ACK带有标志位的报文数量及长度；进一步的，所述步骤2与步骤6中，主机网络通信行为图模型的构建包括以下子步骤：

步骤2.1：取一定时间内的主机的通信流数据，建立主机的网络通信行为的带权有向图模型DG，DG＝{V，E，T，F}，其中V是数据样本内源IP(sip)，目的IP(dip)的集合，E是数据样本中有向边集合，E＝{＜sip，dip＞}，T为时间权重集合，T＝{t(sip，dip)}，F为流特征集合，F＝{f(sip，dip)}，sip为源，dip为目的；

步骤2.2：记录建模得到的主机网络通信行为图模型的邻接矩阵A

进一步的，所述步骤3中，δ-时序模体的挖掘包括以下子步骤：

步骤3.1：定义δ为时序模体内边的最大时间间隔，时序模体的边的数量为n，δ的取值为{δ₁，δ₂，δ₃，…，δt}(δ₁＜δ₂＜δ₃＜…＜δt)；

步骤3.2：提取任意n条与主机相关，且其中任意两条时间间隔不超过δ的通信边，将其邻接矩阵与预设时序模体的邻接矩阵进行比对，若与其中一种时序模体的邻接矩阵相符，则主机良性网络通信行为图模型中该类型的时序模体数量加1，直至任意三条都被抽取过，将模体数量的统计结果编码进向量X_δ＝[s₁，s₂，s₃...s_m]，m为预定义的时序模体类型数量；

步骤3.3：将δ的取值从δ₁逐渐增大至δ_i，取结构特征相似度计算公式为两个向量的余弦距离

若δ_t(t＞i)下的时序模体数量分布向量

与

相似度均大于预设阈值S时，则记录δ_i为时序模体内任意两条通信边所需时间间隔的最小值，记录

为主机良性网络通信行为图模型的结构特征。

进一步地，所述步骤4中，降噪自编码器设计的dropout参数为1/n，n为时序模体的边数，自编码器设计为Encoder-Decoder-Encoder结构，且第二个Encoder与第一个Encoder结构保持一致，设自编码器输入的特征向量为X，则损失函数设计为：

进一步地，所述步骤5中，时序模体的属性特征为n个有向边的属性特征拼接成，其属性特征值的个数为n*N，降噪自编码器通过dropout函数随机将输入的时序模体中N个属性特征值置0。第i种时序模体在其对应模型下的损失值为

；

进一步地，所述步骤6包括以下子步骤：

步骤6.1：将主机的待检测网络通信流数据按照时间窗口T进行切分，其中T≥δ；

步骤6.2：对时间窗口内的待检测流数据构建主机待检测网络通信行为图模型，根据步骤3中得到的δ的取值δ_i，在待检测网络通信行为图模型进行时序模体的统计，得到第i种δ-时序模体数量s_i，并将其编码成时间窗口内待检测网络通信行为图模型的结构特征向量X＝[s₁，s₂，s₃...s_m]，m为预定义的时序模体类型数量；

步骤6.3：将每个时序模体的属性特征输入到训练好的降噪自编码器神经网络模型中，得到每类时序模体在其对应模体类型神经网络模型下的拟合误差

并将其编码进向量

向量P作为两个拟合误差的比值，代表了待检测的主机网络通信行为中，每种时序模体属性对良性时序模体属性的偏离程度；

步骤6.4：计算时间窗口内待检测通信流数据与良性通信流数据构建的图模型的相似度，根据步骤3中得到的主机良性网络通信行为图模型的结构特征

计算公式为

若sorce小于预设相似度的阈值，则判断主机的网络通信行为发生了变化，检测出异常。

有益效果：

1)本发明引入了网络图模型中的时序模体挖掘算法，保留了主机网络通信行为的时序性，能够实现对扫描器行为更好的特征学习。

2)本发明通过引入降噪自编码器模型，通过在时序模体的属性特征上进行无监督的训练，避免对不同种类扫描器行为进行大量的数据采集，能够有效提高模型的泛化适用性。

3)本发明通过将图中时序模体的分布特征与时序模体的属性特征相结合，构造相似度计算公式，可以实现比单一特征分析方法更准确的异常检测效果。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一个实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中算法整体流程图；

图2是本发明实施例中δ-时序模体挖掘流程图；

图3是本发明实施例中构建的主机的网络通信行为图模型示意图；

图4是本发明实施例中三条边δ-时序模体分类；

图5是本发明实施例中降噪自编码器神经网络模型；

图6是本发明方法与自编码器神经网络的ROC曲线对比图；

图7是本发明方法在不采集主机DoS环境异常数据进行训练的前提下，进行异常检测的ROC曲线图。

具体实施方式

下面结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明所提供的一种基于图模型时序模体的网络通信行为异常检测方法，包括以下步骤：

1、将网络中主机的通信流量进行流数据聚合，统计每个流数据中的属性值：

将原始网络流量数据进行流聚合，统计单次会话过程中流的属性。若是TCP流，则根据TCP建立连接的三次握手将和四次挥手进行单次会话的识别，若是UDP流，则在一次UDP通信t秒无流量后将其视为一次通信，对其进行流聚合，在本实施例中，t设置为60s。

流聚合后，得到带有源IP，目的IP，时间戳的网络通信流数据。根据聚合的流数据信息，统计每个流数据中各维度的数值，每条流数据的属性被编码为具有N个特征值的属性特征向量，表示为向量K＝[k₁，k₂，k₃...k_N]。

2、基于主机的良性网络通信流数据构建主机网络通信行为图模型：

步骤2.1：取一定时间内的主机的通信流数据，建立主机的网络通信行为的带权有向图模型DG，DG＝{V，E，T，F}，其中V是数据样本内源IP(sip)，目的IP(dip)的集合，E是数据样本中有向边集合，E＝{＜sip，dip＞}，T为时间权重集合，T＝{t(sip，dip)}，F为流特征集合，F＝{f(sip，dip)}，在本实施例中，共获取数据集周一一天的数据集进行图模型的建立。

步骤2.2：记录建模得到的图模型的邻接矩阵A

3、定义时序模体的边数、边的顺序，在主机网络通信行为图模型下进行δ-时序模体的挖掘，δ为时序模体中任意两条边可允许的最大间隔时间：如图2-3所示：

若δ_t(t＞i)下的时序模体数量分布向量

与

为主机良性网络通信行为图模型的结构特征。

在本实施例中，设置时序模体的边数为3，δ步长为1分钟，此时m的数量为40，类型见图4。相似度阈值可通过设置不同的数值，通过绘制ROC曲线来寻找最优阈值设定。

4、构建降噪自编码器神经网络模型：

步骤4.1：因组成模体的属性特征是由任意三条边的特征结合而成，存在不符合统一分布的情况。为了解决过度拟合的问题，因此在搭建自编码器神经网络时，对输入层加入噪声，即以一定的概率把输入层节点的值置为零，如图5所示的dropout层，在此实例中，设置dropout的参数为1/3。

步骤4.2：搭建的自编码器神经网络由两个Encoder和一个Decoder三部分组成。编码器是对原始数据的降维，解码器是对将为数据的重构，当向量被Decoder解码后，将解码后的向量送入一个新的Encoder中，这个Encoder需要和之前的Encoder结构保持一致。在设计损失函数时加入该Encoder和之前Encoder的出的表示向量之间的距离来让第二个Encoder尽可能去拟合第一个Encoder得出的结果，设自编码器输入的特征向量为X，其拟合误差为：

当新数据到来时，如果和之前的数据分布相同的数据，第一个和第二个Encoder结果之间的差距会尽可能小，当异常数据到来时，第二个Encoder未见过异常数据，会使得两个Encoder之间的误差变大。因此直接使用两个Encoder之间的拟合误差作为参数的损失函数进行模型的训练。在此实例中，编码器共设置三层神经元，其中输入的神经元个数为186，隐藏层的神经原个数为62，输出层神经元个数为3，解码器与之相反。初始状态下，对神经网络层Encoder和Decoder中各个神经元激活值和权重进行随机初始化。

步骤5：将良性通信行为图模型下，组成时序模体的边的属性值按边的先后顺序进行拼接，编码进向量x，输入至降噪自编码器中进行训练。得到模型第一次Encoder后的输出向量，和第二次Encoder后的输出向量输入至拟合误差函数公式对神经网络模型的权重矩阵，偏置项进行更新，完成降噪自编码器的参数训练，并获得良性通信行为图模型下第i种时序模体在其对应模型下的损失值为

6、结合两类特征计算待检测网络通信行为构建的图模型与良性通信网络下图模型的相似度：

步骤6.2：对时间窗口内的待检测流数据构建主机网络通信行为图模型，根据步骤3中得到的δ的取值δ_i，在待检测流数据图模型进行时序模体的统计，得到第i种δ-时序模体数量s_i，并将其编码成时间窗口内待检测网络通信行为图模型的结构特征向量X＝[s₁，s₂，s₃...s_m]，m为预定义的时序模体类型数量；

并将其编码进向量

计算公式为

本发明的检测方法通过判断主机网络通信行为组成的图结构的稳定性，设置不同的阈值来绘制ROC曲线，并使用AUC(Area Under Curve)值来作为衡量此检测方法的性能指标。图6表示此检测模型在主机通信网络中发生Portscan+Nmap扫描器行为时，此模型的ROC曲线基本覆盖仅使用自编码器神经网络分类器的ROC曲线，证明使用基于时序模体的异常检测方法能够比传统神经网络取得更好的检测效果。图7表示将DoS的网络环境数据直接输入到已经训练好的检测方法中，AUC达到了89％，在区间[85％,95％]内，属于效果较好的一类分类器，相比较于依赖专家经验进行统计分析方法或需要再次训练的有监督神经网络分类方法，有更好的泛化适用性。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节。在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变化，这些等同变换均属于本发明的保护范围。

Claims

1.一种基于时序模体的主机网络通信行为异常检测方法，其特征在于，包括以下步骤：

步骤6：将主机的待检测网络通信流数据划分时间窗口并构建主机待检测网络通信行为图模型，在每个时间窗口进行δ-时序模体的统计，将统计到的δ-时序模体数量分布编码至向量作为主机待检测网络通信行为图模型的结构特征；同时将各类型时序模体的属性特征输入至训练好的降噪自编码器神经网络模型，将其输出的拟合误差值编码进向量作为主机待检测网络通信行为图模型的属性特征，结合两类特征构建待检测流数据与良性流数据下的主机网络通信行为相似度计算公式，相似度小于阈值的则判断为异常。

2.如权利要求1所述的一种基于时序模体的主机网络通信行为异常检测方法，其特征在于，所述步骤1中，流数据的属性特征分为以下四类：

4)与标志位相关的特征：FIN，SYN，RST，PUSH，ACK带有标志位的报文数量及长度。

3.如权利要求1所述的一种基于时序模体的主机网络通信行为异常检测方法，其特征在于，所述步骤2与步骤6中，主机良性网络通信行为图模型以及主机待检测网络通信行为图模型的构件，均采用主机网络通信行为图模型的构建方法，包括以下子步骤：

步骤2.1：取一定时间内的主机的通信流数据，建立主机的网络通信行为的带权有向图模型DG，DG＝{V，E，T，F}，其中V是数据样本内源IP(sip),目的IP(dip)的集合，E是数据样本中有向边集合，E＝{<sip，dip>}，T为时间权重集合，T＝{t(sip，dip)},F为流特征集合，F＝{f(sip，dip)}，sip为源，dip为目的；

4.如权利要求1所述的一种基于时序模体的主机网络通信行为异常检测方法，其特征在于，所述步骤3中，在主机良性网络通信行为图模型下进行δ-时序模体的挖掘包括以下子步骤：

步骤3.1：定义δ为时序模体内边的最大时间间隔，时序模体的边的数量为n，δ的取值为{δ₁，δ₂，δ₃，…，δ_t}(δ₁＜δ₂＜δ₃＜…＜δ_t)；

若δ_t(t＞i)下的时序模体数量分布向量

与

为主机良性网络通信行为图模型的结构特征。

5.如权利要求1所述的一种基于时序模体的主机网络通信行为异常检测方法，其特征在于，所述步骤4中，降噪自编码器设计的dropout参数为1/n,n为时序模体的边数，自编码器设计为Encoder-Decoder-Encoder结构，且第二个Encoder与第一个Encoder结构保持一致，设自编码器输入的特征向量为X，则损失函数设计为：

6.如权利要求1所述的一种基于时序模体的主机网络通信行为异常检测方法，其特征在于，所述步骤5中，流数据的属性特征参数个数为N,时序模体的属性特征为n个有向边的属性特征拼接成，其属性特征值的个数为n×N,降噪自编码器通过dropout函数随机将输入的时序模体中N个属性特征值置0，第i种时序模体在其对应模型下的损失值为

7.如权利要求1所述的一种基于时序模体的主机网络通信行为异常检测方法，其特征在于，所述步骤6包括以下子步骤：

并将其编码进向量

计算公式为

若sorce小于预设相似度的阈值，则判断主机的网络通信环境发生了变化，检测出主机的网络通信行为异常。