CN113852629B

CN113852629B - 基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质

Info

Publication number: CN113852629B
Application number: CN202111121169.9A
Authority: CN
Inventors: 隆华; 熊忠阳; 张玉芳
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2022-10-28
Anticipated expiration: 2041-09-24
Also published as: CN113852629A

Abstract

本发明提出了一种基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质。该方法为：数据预处理；自适应迭代求出预处理后的每个数据的自然邻集合；根据每个数据的自然邻集合求出每个数据的自适应带宽系数和权重；根据自适应带宽系数和权重计算每个数据的自适应加权核密度、离群度以及离群度阈值，或者计算每个数据的离群度上界；将网络连接记录参数中的n个离群度最大的数据或者大于离群度阈值的所有数据标记为异常数据，完成网络连接异常识别，n为正整数。该网络连接异常识别方法能够为大规模数据的异常数据检测提供启示，可在不确定异常数据数量的情况下，无参提取异常数据。

Description

基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质

技术领域

本发明涉及数据挖掘领域，具体涉及一种基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质。

背景技术

随着数据挖掘领域相关技术的高速发展，人们在关注数据对象整体趋势的同时，越来越关注那些明显与大多数数据对象的行为模式不同的对象，即异常检测。异常检测是数据挖掘领域最重要的任务之一，它在许多领域都有着广泛的应用，例如在欺诈检测中通过对日志数据进行分析，以检测出滥用或者可疑的欺诈行为，以及在医学领域中对图像进行分析来识别出异常细胞或者肿瘤，除了以上应用外，异常点检测还被运用到许多场景中，例如数据泄漏预防、发现异常能耗、检测伪造文件等。

互联网技术在各行业的普及为人们的生活带来了众多的便利，与之而来的是互联网的网络安全问题，各种异常的网络连接变得越来越常见，这些异常的网络连接会导致诸如网页异常跳转、网页打开速度缓慢甚至泄漏个人隐私等严重的信息安全问题，因此对异常网络连接的识别就显得非常重要。

现有的异常检测算法主要可以分为以下几类：

基于分布模型：基于分布的方法通常假设数据集遵循某个分布，然后建立一个基于该分布的模型来检测异常对象。该类方法在数据足够多并且数据分布已知的情况下具有很好的性能。但大多数应用所产生的数据集往往不能呈现出一个理想的数学分布，同时很难估计高维数据的分布。因此，基于分布的方法仅适用于数据分布已知或者数据维度低的情况。

基于聚类：基于聚类的异常检测算法根据数据之间的相似性将数据分成若干个簇，然后将异常对象定义为没在任何簇中或者远离最近的簇的中心的数据对象。但这类方法的性能主要依赖于所使用的聚类算法，并且异常数据往往只是聚类的副产物。如果异常数据被聚类算法分配到一个大簇中，这类方法可能无效。

基于近邻：基于近邻的方法让测试数据通过求出的近邻集合来判断该测试数据的性质，这个性质可以是“全局”的，也可以是“局部”的。可以将基于近邻的技术分为基于距离和基于密度两类，其中基于距离的方法使用数据之间的距离作为异常检测的度量，不需要数据本身满足特定的分布；基于密度的方法通常会求出数据的密度，然后结合近邻集合求出数据的离群度，离群度通常是“局部”性质。不管是基于距离还是基于密度的方法，都面临着选择近邻数k的问题，k的选取会对算法的性能造成影响，同时，在基于密度的方法中对密度的定义直接影响着算法的准确性。

发明内容

为了克服上述现有技术中存在的缺陷，本发明的目的是提供一种基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质。

为了实现本发明的上述目的，本发明提供了一种基于自然邻的自适应加权核密度的网络连接异常识别方法，包括以下步骤：

对网络连接记录参数进行数据预处理；

自适应迭代求出预处理后的每个数据的自然邻集合；

根据每个数据的自然邻集合求出每个数据的自适应带宽系数和权重；

根据自适应带宽系数和权重计算每个数据的自适应加权核密度、离群度以及离群度阈值，或者计算每个数据的离群度上界；

将网络连接记录参数中的n个离群度最大的数据或者大于离群度阈值的所有数据标记为异常数据，完成网络连接异常识别，n为正整数。

该网络连接异常识别方法采用自适应的带宽系数和自适应权重使对数据的密度估计更加准确和更具鲁棒性；采用离群度上界的方式可用于快速裁剪数据，使本方法能够为大规模数据的异常数据检测提供启示；采用自适应加权核密度、离群度以及离群度阈值可在不确定异常数据数量的情况下，能够无参提取异常数据。

该网络连接异常识别方法的优选方案：每个数据的自然邻集合的生成步骤为：

(1)为预处理后数据集构建一颗KD树；

(2)在KD树中遍历数据集，搜索每一个数据的k近邻并将其放入对应的近邻集合NN中，同时更新这个被当作k近邻的数据的逆近邻集合RNN，k是一个初始值为1的正整数；

(3)如果有数据集的逆近邻集合为空或者在相邻的两次迭代中逆近邻集合为空的数据数量发生了变化，则k值加1并执行步骤(2)；

如果数据集中每一个数据都至少有一个逆近邻或者在相邻的两次迭代中逆近邻集合为空的数据数量没有发生改变，则此时可以认为数据集的状态达到了稳定，k值不再递增，接着执行步骤(4)；

(4)求出每个数据近邻集合NN与逆近邻集合RNN的交集，则是每个数据的自然邻集合NaN。

采用迭代的方式求出每个数据的自然邻集合，相比于k近邻，不需要给定近邻参数k，从而避免了因为k值不同使算法性能差异较大的缺陷，使算法具有稳定性。

该网络连接异常识别方法的优选方案：数据对象p的自适应带宽系数计算公式为h_p＝h*dist(p,q)，其中h为固定的带宽系数，dist为距离函数，数据对象q为数据对象p的自然邻集合中距数据对象p最远的近邻。

数据对象p的自适应权重的计算方法为：计算数据对象p为数据x相互可达的代价cost(p,x)，cost(p,x)＝min(r){r|x∈NaN_r(p)∧p∈NaN_r(x)}，其中数据x为数据对象p的自然邻集合NaN(p)中任一数据，是指在数据对象p的自然邻集合中，距数据对象p第r近的数据，是指在数据对象x的自然邻集合中，距数据对象x第r近的数据；

计算数据对象p与其自然邻集合NaN(p)里的所有数据相互可达的平均代价即得到数据对象p的自适应权重weight(p)。

采用该自适应的带宽系数和自适应权重使对数据的密度估计更加准确和更具鲁棒性。

该网络连接异常识别方法的优选方案：数据对象p的自适应加权核密度AKDE(p)计算公式为：

其中weight(p)为数据对象p的自适应权重,KDE(p)为数据对象的核密度估计，计算公式为：

其中|NaN(p)|为数据对象p的自然邻集合中的数据个数，d为数据对象p的维度，h_p为数据对象p的自适应带宽系数,dist为距离函数，数据对象q为数据对象p的自然邻集合中距数据对象p最远的近邻。

数据对象p的离群度KOF(p)的计算公式为：

其中|NaN(p)|为数据对象p的自然邻集合中的数据个数，AKDE(p)为数据对象的自适应加权核密度，AKDE(q)为数据对象的自适应加权核密度。

离群度阈值计算步骤如下：

首先将计算得到的离群度按非递减排序，并计算离群度的变化率KOF_var(i,j)：

其中i，j是相邻的两个数据对象的下标；

根据计算出来的离群度变化率计算离群度阈值KOF_threshold，公式如下：KOF_threshold＝mean(KOF_var)+ω*std(KOF_var)，其中mean(KOF_var)为离群度变化率的均值，std(KOF_var)为离群度变化率的标准差，ω为调节系数。

数据对象p的离群度上界计算步骤为：

计算数据对象p的自适应加权核密度上界AKDE_max(p)：

其中数据对象o为数据对象p的自然邻集合中与数据对象p距离最近的数据；

计算数据对象p的自适应加权核密度下界AKDE_min(p)：

其中数据对象q为数据对象p的自然邻集合中与p距离最远的数据；

计算数据对象p的离群度上界UBKOF(p)：

其中NaN(p)为数据对象p的自然邻集合，|NaN(p)|为数据对象p的自然邻集合里的数据个数，AKDE_min(p)为数据对象p的自适应加权核密度下界，AKDE_max(x)为数据对象p的自然邻集合里数据x的自适应加权核密度上界，KOF(p)为数据对象p的离群度。

该网络连接异常识别方法的优选方案：选取网络连接记录参数中的n个离群度最大的数据的步骤为：

(1)随机选取n个数据，根据该n个数据的离群度构建最小堆heap，令堆顶离群度为KOF(top)；

(2)遍历数据集中剩下数据：

对于一个数据对象p,如果数据对象p的离群度上界UBKOF(p)小于堆顶离群度KOF(top),则继续执行步骤(2)；否则执行步骤(3)；数据遍历完毕执行步骤(5)；

(3)计算数据对象p的离群度KOF(p)，如果KOF(p)小于KOF(top),则执行步骤(2)；否则执行步骤(4)。

(4)将heap堆顶元素弹出，将KOF(p)的值放入heap中，并更新heap中离群度最小值作为KOF(top)；

(5)输出heap中的n个离群度所对应的数据。

加速了top-n问题的计算，能快速选取网络连接记录参数中的n个离群度最大的数据。

本申请还提出了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述的基于自然邻的自适应加权核密度的网络连接异常识别方法对应的操作。

本发明的有益效果是：本发明在对数据进行密度估计时使用了自适应的权重，使数据的密度估计更加准确，并在核密度估计中通过调整自适应的带宽系数能够获得比LOF算法更具鲁棒性的密度估计，在较稀疏区域中异常数据获得的离群度(相对密度)比LOF算法更大；同时不仅加速了top-n问题的计算，还运用统计学方法，可以在不确定异常数据数量的情况下，求出异常数据。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明方法的流程示意图；

图2是实施例中网络连接记录参数的数据集示意图；

图3是实施例中数据集离群度和离群度阈值图；

图4是top-n问题提取出的异常数据图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示，本发明提供了一种基于自然邻的自适应加权核密度的网络连接异常识别方法的实施例，下面进行具体的介绍。

首选获取网络连接记录参数，如图2所示。网络连接记录参数主要包括四大类：连接基本特征、连接内容特征、基于时间的网络流量统计特征、基于主机的网络流量统计特征，总共41项，样例数据如表1所示：

表1

然后对获取的网络连接记录参数的数据集进行预处理，本实施例中以数据集的预处理操作包括去除重复地网络连接记录，删除格式非法的网络连接记录，选取选取{service,duration,srcbytes,dst_bytes}这四种属性作为基本属性,其中service作为标签；将文本替换为数值，并进行数值归一化和标签独热编码操作。

数据预处理之后的数据参数示例：

duration	src_bytes	dst_bytes	labels
				-2.302585092994046	10.906691489914584	9.025708147644988	1

待数据预处理后，接下来进行自适应迭代求出每个数据的自然邻集合。

定义NaN(x)为数据x的自然邻集合；RNN(x):为数据x的逆近邻集合，这个集合里包含将x当作近邻的数据；NN(x)为数据的近邻集合。

本实施例中，生成自然邻集合的步骤如下：

(1)初始化参数，为数据集构建一颗KD树；

得到每个数据的自然邻集合后，根据自然邻集合求出每个数据的自适应带宽系数和权重。具体步骤如下：

对于一个数据对象p，其自然邻集合为NaN(p),则p自适应带宽系数h_p计算方式如下：h_p＝h*dist(p,q)，其中h为固定的带宽系数，dist是一个距离函数，本实施例中优选但不限于采用欧几里得距离；q为p的自然邻集合中距p最远的近邻，可通过求出的自然邻集合可以立即得到；由核密度的定义可知，若数据对象p所处区域越密集，则dist(p,q)的值就越小，得到的自适应带宽系数就越小，则核密度估计的值就越大，反之亦然。

数据对象p的自适应权重weight(p)计算公式为

其中|NaN(p)|为数据对象p的自然邻集合中数据个数，cost(p,x)为数据p为数据x相互可达的代价，即数据对象p的自适应权重为数据对象p与其自然邻集合里的数据相互可达的平均代价；cost函数的计算公式为cost(p,x)＝min(r){r|x∈NaN_r(p)∧p∈NaN_r(x)}，NaN_r(p)是指在数据对象p的自然邻集合中，距数据对象p第r近的数据，NaN_r(x)是指在数据对象x的自然邻集合中，距数据对象x第r近的数据。

由自适应权重的计算方式可知，若数据对象p处于较稀疏区域，则p与其自然邻集合里的数据相互可达的代价较大，反之亦然。

得到每个数据的自适应带宽系数和权重后，针对不同的应用场景，根据自适应带宽系数和权重，计算每个数据的自适应加权核密度、离群度、离群度上界和/或离群度阈值。

对于一个数据对象p，其自适应加权核密度AKDE(p)计算公式为：

其中weight(p)为数据对象p的自适应权重，则weight(p)的值越大，自适应加权核密度的值就越小；KDE(p)为数据对象的核密度估计，计算公式为：

其中|NaN(p)|为数据对象p的自然邻集合中的数据个数，d为数据对象p的维度，维度也就是数据有多少个属性，这个根据获取的数据集中的数据决定，h_p为数据对象p的自适应带宽系数。数据对象q为数据对象p的自然邻集合中距数据对象p最远的近邻，即数据对象q在数据对象p的自然邻集合里，且q与p之间的距离相比于数据对象p与其自然邻集合里的其它数据之间的距离是最远的。

数据对象p的离群度KOF(p)的计算公式为：

其中|NaN(p)|为数据对象p的自然邻集合中的数据个数，AKDE(p)为数据对象的自适应加权核密度，由计算公式可知，若数据对象p为异常对象，则其KOF值就越大。

数据对象p的离群度上界计算方式如下：

首先根据数据对象p的自然邻集合里最近和最远的邻居计算出数据对象p的自适应加权核密度的上界与下界。由于在求自然邻集合的时候，是根据距离从小到大的方式求出，因此数据p的最近与最远的邻居可以在O(1)时间复杂度内得到；

自适应加权核密度上界为AKDE_max(p)：

其中数据对象o为数据对象p的自然邻集合中与p距离最近的数据。

自适应加权核密度下界AKDE_min(p)为：

其中数据对象q为数据对象p的自然邻集合中与p距离最远的数据。

根据数据对象p的自适应加权核密度的上下界可以计算出数据对象p的离群度上界UBKOF(p)，计算方式如下：

其中|NaN(p)|为数据对象p的自然邻集合里的数据个数，AKDE_min(p)为数据对象p的自适应加权核密度下界，AKDE_max(x)为数据对象p的自然邻集合里数据x的自适应加权核密度上界。

离群度阈值计算方式如下：

首先将计算得到的离群度按非递减排序，并通过以下方式计算离群度的变化率KOF_var(i,j)：

其中i，j是相邻的两个数据对象的下标；根据计算出来的离群度变化率，计算离群度阈值KOF_threshold，公式如下：KOF_threshold＝mean(KOF_var)+ω*std(KOF_var)，其中mean(KOF_var)为离群度变化率的均值，std(KOF_var)为离群度变化率的标准差，ω为一个调节系数，取值范围为[0,3]，ω取值为2.5最佳，因此在本实施例中优选ω＝2.5。

通过图3可以看到，得到的离群度阈值能够准确的区分数据集中的正常数据与异常数据。

最后输出n个离群度最大的数据或者大于离群度阈值的所有数据，从而提取出离群点。

下面以具体应用场景为例进行介绍。

top-n问题：当需要获取前n个离群度最大的数据，这n个数据可能即包括正常数据，也包括异常数据，即该场景指定获取前n个离群度最大的数据，将采用离群度上界来快速裁剪数据。

算法如下：

(1)随机选取n个数据，计算这n个数据的离群度，并根据这n个数据的离群度构建一个最小堆heap，其中堆顶离群度假设为KOF(top)，堆顶的离群度是heap中最小的。

(2)遍历数据集中剩下数据：

对于一个数据对象p,根据其自适应带宽系数h_p、自适应权重weight(p)、自然邻集合NaN(p)中的最近邻与最远邻计算p的离群度上界UBKOF(p)，如果UBKOF(p)小于KOF(top),则继续执行步骤(2)；否则执行步骤(3)；数据遍历完毕执行步骤(5)；

(3)计算p的离群度KOF(p),如果KOF(p)小于KOF(top),则执行步骤(2)；否则执行步骤(4)。

(4)将heap堆顶元素弹出，将KOF(p)的值放入heap中，并更新KOF(top)；

(5)输出heap中的n个离群度所对应的数据。

如图4所示，本实施例中数据集针对top-n问题输出的前43个离群度最大的数据，对比图2与图4可以看到，利用离群度上界能够准确并且快速的获取前n个离群度最大的数据。

自动提取异常数据问题，在该应用场景中需要自动识别异常数据，算法如下：

(1)遍历数据集中所有数据：

对于一个数据对象p，根据其自适应带宽系数h_p、自适应权重weight(p)、自然邻集合NaN(p)中的所有数据对象计算其自适应加权核密度AKDE(p)，再根据NaN(p)计算出离群度KOF(p)；

(2)计算离群度阈值KOF_threshold，再次遍历数据集中所有数据，将离群度大于离群度阈值的数据标记为异常数据。

图3为整个示例数据集的所有数据的离群度以及通过统计学习方法获得的离群度阈值，通过图3可以看到，得到的离群度阈值能够准确的区分数据集中的正常数据与异常数据。

本发明在针对top-n问题运用了一个可以在O(1)时间复杂度内得到的离群度上界，加速了计算；另一方面，运用了统计学方法，可以在不确定异常数据数量的情况下，求出异常数据。

本申请还提出了一种计算机存储介质的实施例，该存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述的基于自然邻的自适应加权核密度的网络连接异常识别方法对应的操作。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于自然邻的自适应加权核密度的网络连接异常识别方法，其特征在于，包括以下步骤：

对网络连接记录参数进行数据预处理；

自适应迭代求出预处理后的每个数据的自然邻集合；

每个数据的自然邻集合的生成步骤为：

(1)为预处理后数据集构建一颗KD树；

(4)求出每个数据近邻集合NN与逆近邻集合RNN的交集，则是每个数据的自然邻集合NaN；

具体地，数据对象p的自适应带宽系数计算公式为h_p＝h*dist(p,q)，其中h为固定的带宽系数，dist为距离函数，数据对象q为数据对象p的自然邻集合中距数据对象p最远的近邻；

数据对象p的自适应权重的计算方法为：计算数据对象p为数据x相互可达的代价cost(p,x)，cost(p,x)＝min(r){r|x∈NaN_r(p)∧p∈NaN_r(x)}，其中数据x为数据对象p的自然邻集合NaN(p)中任一数据，NaN_r(p)是指在数据对象p的自然邻集合中，距数据对象p第r近的数据，NaN_r(x)是指在数据对象x的自然邻集合中，距数据对象x第r近的数据；

计算数据对象p与其自然邻集合NaN(p)里的所有数据相互可达的平均代价即得到数据对象p的自适应权重weight(p)；

具体地，数据对象p的自适应加权核密度AKDE(p)计算公式为：

其中|NaN(p)|为数据对象p的自然邻集合中的数据个数，d为数据对象p的维度，h_p为数据对象p的自适应带宽系数,dist为距离函数，数据对象q为数据对象p的自然邻集合中距数据对象p最远的近邻；

数据对象p的离群度KOF(p)的计算公式为：

其中|NaN(p)|为数据对象p的自然邻集合中的数据个数，AKDE(p)为数据对象的自适应加权核密度，AKDE(q)为数据对象的自适应加权核密度；

离群度阈值计算步骤如下：

其中i，j是相邻的两个数据对象的下标；

根据计算出来的离群度变化率计算离群度阈值KOF_threshold，公式如下：KOF_threshold＝mean(KOF_var)+ω*std(KOF_var)，其中mean(KOF_var)为离群度变化率的均值，std(KOF_var)为离群度变化率的标准差，ω为调节系数；

数据对象p的离群度上界计算步骤为：

计算数据对象p的自适应加权核密度上界AKDE_max(p)：

计算数据对象p的自适应加权核密度下界AKDE_min(p)：

计算数据对象p的离群度上界UBKOF(p)：

其中NaN(p)为数据对象p的自然邻集合，|NaN(p)|为数据对象p的自然邻集合里的数据个数，AKDE_min(p)为数据对象p的自适应加权核密度下界，AKDE_max(x)为数据对象p的自然邻集合里数据x的自适应加权核密度上界，KOF(p)为数据对象p的离群度；

2.根据权利要求1所述的基于自然邻的自适应加权核密度的网络连接异常识别方法，其特征在于，选取网络连接记录参数中的n个离群度最大的数据的步骤为：

(2)遍历数据集中剩下数据：

(3)计算数据对象p的离群度KOF(p)，如果KOF(p)小于KOF(top),则执行步骤(2)；否则执行步骤(4)；

(5)输出heap中的n个离群度所对应的数据。

3.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-2任一项所述的基于自然邻的自适应加权核密度的网络连接异常识别方法对应的操作。