CN113852629B - 基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质 - Google Patents

基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质 Download PDF

Info

Publication number
CN113852629B
CN113852629B CN202111121169.9A CN202111121169A CN113852629B CN 113852629 B CN113852629 B CN 113852629B CN 202111121169 A CN202111121169 A CN 202111121169A CN 113852629 B CN113852629 B CN 113852629B
Authority
CN
China
Prior art keywords
data
data object
outlier
natural
kof
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111121169.9A
Other languages
English (en)
Other versions
CN113852629A (zh
Inventor
隆华
熊忠阳
张玉芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202111121169.9A priority Critical patent/CN113852629B/zh
Publication of CN113852629A publication Critical patent/CN113852629A/zh
Application granted granted Critical
Publication of CN113852629B publication Critical patent/CN113852629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出了一种基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质。该方法为:数据预处理;自适应迭代求出预处理后的每个数据的自然邻集合;根据每个数据的自然邻集合求出每个数据的自适应带宽系数和权重;根据自适应带宽系数和权重计算每个数据的自适应加权核密度、离群度以及离群度阈值,或者计算每个数据的离群度上界;将网络连接记录参数中的n个离群度最大的数据或者大于离群度阈值的所有数据标记为异常数据,完成网络连接异常识别,n为正整数。该网络连接异常识别方法能够为大规模数据的异常数据检测提供启示,可在不确定异常数据数量的情况下,无参提取异常数据。

Description

基于自然邻的自适应加权核密度的网络连接异常识别方法及 计算机存储介质
技术领域
本发明涉及数据挖掘领域,具体涉及一种基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质。
背景技术
随着数据挖掘领域相关技术的高速发展,人们在关注数据对象整体趋势的同时,越来越关注那些明显与大多数数据对象的行为模式不同的对象,即异常检测。异常检测是数据挖掘领域最重要的任务之一,它在许多领域都有着广泛的应用,例如在欺诈检测中通过对日志数据进行分析,以检测出滥用或者可疑的欺诈行为,以及在医学领域中对图像进行分析来识别出异常细胞或者肿瘤,除了以上应用外,异常点检测还被运用到许多场景中,例如数据泄漏预防、发现异常能耗、检测伪造文件等。
互联网技术在各行业的普及为人们的生活带来了众多的便利,与之而来的是互联网的网络安全问题,各种异常的网络连接变得越来越常见,这些异常的网络连接会导致诸如网页异常跳转、网页打开速度缓慢甚至泄漏个人隐私等严重的信息安全问题,因此对异常网络连接的识别就显得非常重要。
现有的异常检测算法主要可以分为以下几类:
基于分布模型:基于分布的方法通常假设数据集遵循某个分布,然后建立一个基于该分布的模型来检测异常对象。该类方法在数据足够多并且数据分布已知的情况下具有很好的性能。但大多数应用所产生的数据集往往不能呈现出一个理想的数学分布,同时很难估计高维数据的分布。因此,基于分布的方法仅适用于数据分布已知或者数据维度低的情况。
基于聚类:基于聚类的异常检测算法根据数据之间的相似性将数据分成若干个簇,然后将异常对象定义为没在任何簇中或者远离最近的簇的中心的数据对象。但这类方法的性能主要依赖于所使用的聚类算法,并且异常数据往往只是聚类的副产物。如果异常数据被聚类算法分配到一个大簇中,这类方法可能无效。
基于近邻:基于近邻的方法让测试数据通过求出的近邻集合来判断该测试数据的性质,这个性质可以是“全局”的,也可以是“局部”的。可以将基于近邻的技术分为基于距离和基于密度两类,其中基于距离的方法使用数据之间的距离作为异常检测的度量,不需要数据本身满足特定的分布;基于密度的方法通常会求出数据的密度,然后结合近邻集合求出数据的离群度,离群度通常是“局部”性质。不管是基于距离还是基于密度的方法,都面临着选择近邻数k的问题,k的选取会对算法的性能造成影响,同时,在基于密度的方法中对密度的定义直接影响着算法的准确性。
发明内容
为了克服上述现有技术中存在的缺陷,本发明的目的是提供一种基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质。
为了实现本发明的上述目的,本发明提供了一种基于自然邻的自适应加权核密度的网络连接异常识别方法,包括以下步骤:
对网络连接记录参数进行数据预处理;
自适应迭代求出预处理后的每个数据的自然邻集合;
根据每个数据的自然邻集合求出每个数据的自适应带宽系数和权重;
根据自适应带宽系数和权重计算每个数据的自适应加权核密度、离群度以及离群度阈值,或者计算每个数据的离群度上界;
将网络连接记录参数中的n个离群度最大的数据或者大于离群度阈值的所有数据标记为异常数据,完成网络连接异常识别,n为正整数。
该网络连接异常识别方法采用自适应的带宽系数和自适应权重使对数据的密度估计更加准确和更具鲁棒性;采用离群度上界的方式可用于快速裁剪数据,使本方法能够为大规模数据的异常数据检测提供启示;采用自适应加权核密度、离群度以及离群度阈值可在不确定异常数据数量的情况下,能够无参提取异常数据。
该网络连接异常识别方法的优选方案:每个数据的自然邻集合的生成步骤为:
(1)为预处理后数据集构建一颗KD树;
(2)在KD树中遍历数据集,搜索每一个数据的k近邻并将其放入对应的近邻集合NN中,同时更新这个被当作k近邻的数据的逆近邻集合RNN,k是一个初始值为1的正整数;
(3)如果有数据集的逆近邻集合为空或者在相邻的两次迭代中逆近邻集合为空的数据数量发生了变化,则k值加1并执行步骤(2);
如果数据集中每一个数据都至少有一个逆近邻或者在相邻的两次迭代中逆近邻集合为空的数据数量没有发生改变,则此时可以认为数据集的状态达到了稳定,k值不再递增,接着执行步骤(4);
(4)求出每个数据近邻集合NN与逆近邻集合RNN的交集,则是每个数据的自然邻集合NaN。
采用迭代的方式求出每个数据的自然邻集合,相比于k近邻,不需要给定近邻参数k,从而避免了因为k值不同使算法性能差异较大的缺陷,使算法具有稳定性。
该网络连接异常识别方法的优选方案:数据对象p的自适应带宽系数计算公式为hp=h*dist(p,q),其中h为固定的带宽系数,dist为距离函数,数据对象q为数据对象p的自然邻集合中距数据对象p最远的近邻。
数据对象p的自适应权重的计算方法为:计算数据对象p为数据x相互可达的代价cost(p,x),cost(p,x)=min(r){r|x∈NaNr(p)∧p∈NaNr(x)},其中数据x为数据对象p的自然邻集合NaN(p)中任一数据,是指在数据对象p的自然邻集合中,距数据对象p第r近的数据,是指在数据对象x的自然邻集合中,距数据对象x第r近的数据;
计算数据对象p与其自然邻集合NaN(p)里的所有数据相互可达的平均代价即得到数据对象p的自适应权重weight(p)。
采用该自适应的带宽系数和自适应权重使对数据的密度估计更加准确和更具鲁棒性。
该网络连接异常识别方法的优选方案:数据对象p的自适应加权核密度AKDE(p)计算公式为:
Figure BDA0003277228610000041
其中weight(p)为数据对象p的自适应权重,KDE(p)为数据对象的核密度估计,计算公式为:
Figure BDA0003277228610000042
其中|NaN(p)|为数据对象p的自然邻集合中的数据个数,d为数据对象p的维度,hp为数据对象p的自适应带宽系数,dist为距离函数,数据对象q为数据对象p的自然邻集合中距数据对象p最远的近邻。
数据对象p的离群度KOF(p)的计算公式为:
Figure BDA0003277228610000051
其中|NaN(p)|为数据对象p的自然邻集合中的数据个数,AKDE(p)为数据对象的自适应加权核密度,AKDE(q)为数据对象的自适应加权核密度。
离群度阈值计算步骤如下:
首先将计算得到的离群度按非递减排序,并计算离群度的变化率KOFvar(i,j)
Figure BDA0003277228610000052
其中i,j是相邻的两个数据对象的下标;
根据计算出来的离群度变化率计算离群度阈值KOFthreshold,公式如下:KOFthreshold=mean(KOFvar)+ω*std(KOFvar),其中mean(KOFvar)为离群度变化率的均值,std(KOFvar)为离群度变化率的标准差,ω为调节系数。
数据对象p的离群度上界计算步骤为:
计算数据对象p的自适应加权核密度上界AKDEmax(p):
Figure BDA0003277228610000053
其中数据对象o为数据对象p的自然邻集合中与数据对象p距离最近的数据;
计算数据对象p的自适应加权核密度下界AKDEmin(p):
Figure BDA0003277228610000054
其中数据对象q为数据对象p的自然邻集合中与p距离最远的数据;
计算数据对象p的离群度上界UBKOF(p):
Figure BDA0003277228610000061
其中NaN(p)为数据对象p的自然邻集合,|NaN(p)|为数据对象p的自然邻集合里的数据个数,AKDEmin(p)为数据对象p的自适应加权核密度下界,AKDEmax(x)为数据对象p的自然邻集合里数据x的自适应加权核密度上界,KOF(p)为数据对象p的离群度。
该网络连接异常识别方法的优选方案:选取网络连接记录参数中的n个离群度最大的数据的步骤为:
(1)随机选取n个数据,根据该n个数据的离群度构建最小堆heap,令堆顶离群度为KOF(top);
(2)遍历数据集中剩下数据:
对于一个数据对象p,如果数据对象p的离群度上界UBKOF(p)小于堆顶离群度KOF(top),则继续执行步骤(2);否则执行步骤(3);数据遍历完毕执行步骤(5);
(3)计算数据对象p的离群度KOF(p),如果KOF(p)小于KOF(top),则执行步骤(2);否则执行步骤(4)。
(4)将heap堆顶元素弹出,将KOF(p)的值放入heap中,并更新heap中离群度最小值作为KOF(top);
(5)输出heap中的n个离群度所对应的数据。
加速了top-n问题的计算,能快速选取网络连接记录参数中的n个离群度最大的数据。
本申请还提出了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述的基于自然邻的自适应加权核密度的网络连接异常识别方法对应的操作。
本发明的有益效果是:本发明在对数据进行密度估计时使用了自适应的权重,使数据的密度估计更加准确,并在核密度估计中通过调整自适应的带宽系数能够获得比LOF算法更具鲁棒性的密度估计,在较稀疏区域中异常数据获得的离群度(相对密度)比LOF算法更大;同时不仅加速了top-n问题的计算,还运用统计学方法,可以在不确定异常数据数量的情况下,求出异常数据。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明方法的流程示意图;
图2是实施例中网络连接记录参数的数据集示意图;
图3是实施例中数据集离群度和离群度阈值图;
图4是top-n问题提取出的异常数据图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,本发明提供了一种基于自然邻的自适应加权核密度的网络连接异常识别方法的实施例,下面进行具体的介绍。
首选获取网络连接记录参数,如图2所示。网络连接记录参数主要包括四大类:连接基本特征、连接内容特征、基于时间的网络流量统计特征、基于主机的网络流量统计特征,总共41项,样例数据如表1所示:
表1
Figure BDA0003277228610000081
然后对获取的网络连接记录参数的数据集进行预处理,本实施例中以数据集的预处理操作包括去除重复地网络连接记录,删除格式非法的网络连接记录,选取选取{service,duration,srcbytes,dst_bytes}这四种属性作为基本属性,其中service作为标签;将文本替换为数值,并进行数值归一化和标签独热编码操作。
数据预处理之后的数据参数示例:
duration src_bytes dst_bytes labels
-2.302585092994046 10.906691489914584 9.025708147644988 1
待数据预处理后,接下来进行自适应迭代求出每个数据的自然邻集合。
定义NaN(x)为数据x的自然邻集合;RNN(x):为数据x的逆近邻集合,这个集合里包含将x当作近邻的数据;NN(x)为数据的近邻集合。
本实施例中,生成自然邻集合的步骤如下:
(1)初始化参数,为数据集构建一颗KD树;
(2)在KD树中遍历数据集,搜索每一个数据的k近邻并将其放入对应的近邻集合NN中,同时更新这个被当作k近邻的数据的逆近邻集合RNN,k是一个初始值为1的正整数;
(3)如果有数据集的逆近邻集合为空或者在相邻的两次迭代中逆近邻集合为空的数据数量发生了变化,则k值加1并执行步骤(2);
如果数据集中每一个数据都至少有一个逆近邻或者在相邻的两次迭代中逆近邻集合为空的数据数量没有发生改变,则此时可以认为数据集的状态达到了稳定,k值不再递增,接着执行步骤(4);
(4)求出每个数据近邻集合NN与逆近邻集合RNN的交集,则是每个数据的自然邻集合NaN。
得到每个数据的自然邻集合后,根据自然邻集合求出每个数据的自适应带宽系数和权重。具体步骤如下:
对于一个数据对象p,其自然邻集合为NaN(p),则p自适应带宽系数hp计算方式如下:hp=h*dist(p,q),其中h为固定的带宽系数,dist是一个距离函数,本实施例中优选但不限于采用欧几里得距离;q为p的自然邻集合中距p最远的近邻,可通过求出的自然邻集合可以立即得到;由核密度的定义可知,若数据对象p所处区域越密集,则dist(p,q)的值就越小,得到的自适应带宽系数就越小,则核密度估计的值就越大,反之亦然。
数据对象p的自适应权重weight(p)计算公式为
Figure BDA0003277228610000101
其中|NaN(p)|为数据对象p的自然邻集合中数据个数,cost(p,x)为数据p为数据x相互可达的代价,即数据对象p的自适应权重为数据对象p与其自然邻集合里的数据相互可达的平均代价;cost函数的计算公式为cost(p,x)=min(r){r|x∈NaNr(p)∧p∈NaNr(x)},NaNr(p)是指在数据对象p的自然邻集合中,距数据对象p第r近的数据,NaNr(x)是指在数据对象x的自然邻集合中,距数据对象x第r近的数据。
由自适应权重的计算方式可知,若数据对象p处于较稀疏区域,则p与其自然邻集合里的数据相互可达的代价较大,反之亦然。
得到每个数据的自适应带宽系数和权重后,针对不同的应用场景,根据自适应带宽系数和权重,计算每个数据的自适应加权核密度、离群度、离群度上界和/或离群度阈值。
对于一个数据对象p,其自适应加权核密度AKDE(p)计算公式为:
Figure BDA0003277228610000102
其中weight(p)为数据对象p的自适应权重,则weight(p)的值越大,自适应加权核密度的值就越小;KDE(p)为数据对象的核密度估计,计算公式为:
Figure BDA0003277228610000103
其中|NaN(p)|为数据对象p的自然邻集合中的数据个数,d为数据对象p的维度,维度也就是数据有多少个属性,这个根据获取的数据集中的数据决定,hp为数据对象p的自适应带宽系数。数据对象q为数据对象p的自然邻集合中距数据对象p最远的近邻,即数据对象q在数据对象p的自然邻集合里,且q与p之间的距离相比于数据对象p与其自然邻集合里的其它数据之间的距离是最远的。
数据对象p的离群度KOF(p)的计算公式为:
Figure BDA0003277228610000111
其中|NaN(p)|为数据对象p的自然邻集合中的数据个数,AKDE(p)为数据对象的自适应加权核密度,由计算公式可知,若数据对象p为异常对象,则其KOF值就越大。
数据对象p的离群度上界计算方式如下:
首先根据数据对象p的自然邻集合里最近和最远的邻居计算出数据对象p的自适应加权核密度的上界与下界。由于在求自然邻集合的时候,是根据距离从小到大的方式求出,因此数据p的最近与最远的邻居可以在O(1)时间复杂度内得到;
自适应加权核密度上界为AKDEmax(p):
Figure BDA0003277228610000112
其中数据对象o为数据对象p的自然邻集合中与p距离最近的数据。
自适应加权核密度下界AKDEmin(p)为:
Figure BDA0003277228610000113
其中数据对象q为数据对象p的自然邻集合中与p距离最远的数据。
根据数据对象p的自适应加权核密度的上下界可以计算出数据对象p的离群度上界UBKOF(p),计算方式如下:
Figure BDA0003277228610000121
其中|NaN(p)|为数据对象p的自然邻集合里的数据个数,AKDEmin(p)为数据对象p的自适应加权核密度下界,AKDEmax(x)为数据对象p的自然邻集合里数据x的自适应加权核密度上界。
离群度阈值计算方式如下:
首先将计算得到的离群度按非递减排序,并通过以下方式计算离群度的变化率KOFvar(i,j)
Figure BDA0003277228610000122
其中i,j是相邻的两个数据对象的下标;根据计算出来的离群度变化率,计算离群度阈值KOFthreshold,公式如下:KOFthreshold=mean(KOFvar)+ω*std(KOFvar),其中mean(KOFvar)为离群度变化率的均值,std(KOFvar)为离群度变化率的标准差,ω为一个调节系数,取值范围为[0,3],ω取值为2.5最佳,因此在本实施例中优选ω=2.5。
通过图3可以看到,得到的离群度阈值能够准确的区分数据集中的正常数据与异常数据。
最后输出n个离群度最大的数据或者大于离群度阈值的所有数据,从而提取出离群点。
下面以具体应用场景为例进行介绍。
top-n问题:当需要获取前n个离群度最大的数据,这n个数据可能即包括正常数据,也包括异常数据,即该场景指定获取前n个离群度最大的数据,将采用离群度上界来快速裁剪数据。
算法如下:
(1)随机选取n个数据,计算这n个数据的离群度,并根据这n个数据的离群度构建一个最小堆heap,其中堆顶离群度假设为KOF(top),堆顶的离群度是heap中最小的。
(2)遍历数据集中剩下数据:
对于一个数据对象p,根据其自适应带宽系数hp、自适应权重weight(p)、自然邻集合NaN(p)中的最近邻与最远邻计算p的离群度上界UBKOF(p),如果UBKOF(p)小于KOF(top),则继续执行步骤(2);否则执行步骤(3);数据遍历完毕执行步骤(5);
(3)计算p的离群度KOF(p),如果KOF(p)小于KOF(top),则执行步骤(2);否则执行步骤(4)。
(4)将heap堆顶元素弹出,将KOF(p)的值放入heap中,并更新KOF(top);
(5)输出heap中的n个离群度所对应的数据。
如图4所示,本实施例中数据集针对top-n问题输出的前43个离群度最大的数据,对比图2与图4可以看到,利用离群度上界能够准确并且快速的获取前n个离群度最大的数据。
自动提取异常数据问题,在该应用场景中需要自动识别异常数据,算法如下:
(1)遍历数据集中所有数据:
对于一个数据对象p,根据其自适应带宽系数hp、自适应权重weight(p)、自然邻集合NaN(p)中的所有数据对象计算其自适应加权核密度AKDE(p),再根据NaN(p)计算出离群度KOF(p);
(2)计算离群度阈值KOFthreshold,再次遍历数据集中所有数据,将离群度大于离群度阈值的数据标记为异常数据。
图3为整个示例数据集的所有数据的离群度以及通过统计学习方法获得的离群度阈值,通过图3可以看到,得到的离群度阈值能够准确的区分数据集中的正常数据与异常数据。
本发明在针对top-n问题运用了一个可以在O(1)时间复杂度内得到的离群度上界,加速了计算;另一方面,运用了统计学方法,可以在不确定异常数据数量的情况下,求出异常数据。
本申请还提出了一种计算机存储介质的实施例,该存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述的基于自然邻的自适应加权核密度的网络连接异常识别方法对应的操作。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (3)

1.一种基于自然邻的自适应加权核密度的网络连接异常识别方法,其特征在于,包括以下步骤:
对网络连接记录参数进行数据预处理;
自适应迭代求出预处理后的每个数据的自然邻集合;
每个数据的自然邻集合的生成步骤为:
(1)为预处理后数据集构建一颗KD树;
(2)在KD树中遍历数据集,搜索每一个数据的k近邻并将其放入对应的近邻集合NN中,同时更新这个被当作k近邻的数据的逆近邻集合RNN,k是一个初始值为1的正整数;
(3)如果有数据集的逆近邻集合为空或者在相邻的两次迭代中逆近邻集合为空的数据数量发生了变化,则k值加1并执行步骤(2);
如果数据集中每一个数据都至少有一个逆近邻或者在相邻的两次迭代中逆近邻集合为空的数据数量没有发生改变,则此时可以认为数据集的状态达到了稳定,k值不再递增,接着执行步骤(4);
(4)求出每个数据近邻集合NN与逆近邻集合RNN的交集,则是每个数据的自然邻集合NaN;
根据每个数据的自然邻集合求出每个数据的自适应带宽系数和权重;
具体地,数据对象p的自适应带宽系数计算公式为hp=h*dist(p,q),其中h为固定的带宽系数,dist为距离函数,数据对象q为数据对象p的自然邻集合中距数据对象p最远的近邻;
数据对象p的自适应权重的计算方法为:计算数据对象p为数据x相互可达的代价cost(p,x),cost(p,x)=min(r){r|x∈NaNr(p)∧p∈NaNr(x)},其中数据x为数据对象p的自然邻集合NaN(p)中任一数据,NaNr(p)是指在数据对象p的自然邻集合中,距数据对象p第r近的数据,NaNr(x)是指在数据对象x的自然邻集合中,距数据对象x第r近的数据;
计算数据对象p与其自然邻集合NaN(p)里的所有数据相互可达的平均代价即得到数据对象p的自适应权重weight(p);
根据自适应带宽系数和权重计算每个数据的自适应加权核密度、离群度以及离群度阈值,或者计算每个数据的离群度上界;
具体地,数据对象p的自适应加权核密度AKDE(p)计算公式为:
Figure FDA0003815279040000021
其中weight(p)为数据对象p的自适应权重,KDE(p)为数据对象的核密度估计,计算公式为:
Figure FDA0003815279040000022
其中|NaN(p)|为数据对象p的自然邻集合中的数据个数,d为数据对象p的维度,hp为数据对象p的自适应带宽系数,dist为距离函数,数据对象q为数据对象p的自然邻集合中距数据对象p最远的近邻;
数据对象p的离群度KOF(p)的计算公式为:
Figure FDA0003815279040000023
其中|NaN(p)|为数据对象p的自然邻集合中的数据个数,AKDE(p)为数据对象的自适应加权核密度,AKDE(q)为数据对象的自适应加权核密度;
离群度阈值计算步骤如下:
首先将计算得到的离群度按非递减排序,并计算离群度的变化率KOFvar(i,j)
Figure FDA0003815279040000031
其中i,j是相邻的两个数据对象的下标;
根据计算出来的离群度变化率计算离群度阈值KOFthreshold,公式如下:KOFthreshold=mean(KOFvar)+ω*std(KOFvar),其中mean(KOFvar)为离群度变化率的均值,std(KOFvar)为离群度变化率的标准差,ω为调节系数;
数据对象p的离群度上界计算步骤为:
计算数据对象p的自适应加权核密度上界AKDEmax(p):
Figure FDA0003815279040000032
其中数据对象o为数据对象p的自然邻集合中与数据对象p距离最近的数据;
计算数据对象p的自适应加权核密度下界AKDEmin(p):
Figure FDA0003815279040000033
其中数据对象q为数据对象p的自然邻集合中与p距离最远的数据;
计算数据对象p的离群度上界UBKOF(p):
Figure FDA0003815279040000034
其中NaN(p)为数据对象p的自然邻集合,|NaN(p)|为数据对象p的自然邻集合里的数据个数,AKDEmin(p)为数据对象p的自适应加权核密度下界,AKDEmax(x)为数据对象p的自然邻集合里数据x的自适应加权核密度上界,KOF(p)为数据对象p的离群度;
将网络连接记录参数中的n个离群度最大的数据或者大于离群度阈值的所有数据标记为异常数据,完成网络连接异常识别,n为正整数。
2.根据权利要求1所述的基于自然邻的自适应加权核密度的网络连接异常识别方法,其特征在于,选取网络连接记录参数中的n个离群度最大的数据的步骤为:
(1)随机选取n个数据,根据该n个数据的离群度构建最小堆heap,令堆顶离群度为KOF(top);
(2)遍历数据集中剩下数据:
对于一个数据对象p,如果数据对象p的离群度上界UBKOF(p)小于堆顶离群度KOF(top),则继续执行步骤(2);否则执行步骤(3);数据遍历完毕执行步骤(5);
(3)计算数据对象p的离群度KOF(p),如果KOF(p)小于KOF(top),则执行步骤(2);否则执行步骤(4);
(4)将heap堆顶元素弹出,将KOF(p)的值放入heap中,并更新heap中离群度最小值作为KOF(top);
(5)输出heap中的n个离群度所对应的数据。
3.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-2任一项所述的基于自然邻的自适应加权核密度的网络连接异常识别方法对应的操作。
CN202111121169.9A 2021-09-24 2021-09-24 基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质 Active CN113852629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111121169.9A CN113852629B (zh) 2021-09-24 2021-09-24 基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111121169.9A CN113852629B (zh) 2021-09-24 2021-09-24 基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质

Publications (2)

Publication Number Publication Date
CN113852629A CN113852629A (zh) 2021-12-28
CN113852629B true CN113852629B (zh) 2022-10-28

Family

ID=78979718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111121169.9A Active CN113852629B (zh) 2021-09-24 2021-09-24 基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113852629B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009910B (zh) * 2023-10-08 2023-12-15 湖南工程学院 一种环境温度异常变化智能监测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649339A (zh) * 2015-10-30 2017-05-10 北大方正集团有限公司 离群点的挖掘方法及挖掘装置
CN112364887A (zh) * 2020-10-16 2021-02-12 重庆大学 一种基于密度核心的最小生成树聚类算法及***
CN112800115A (zh) * 2021-04-07 2021-05-14 腾讯科技(深圳)有限公司 数据处理方法及数据处理装置
CN113011888A (zh) * 2021-03-11 2021-06-22 中南大学 一种针对数字货币的异常交易行为检测方法、装置、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10073887B2 (en) * 2015-07-06 2018-09-11 Conduent Business Services, Llc System and method for performing k-nearest neighbor search based on minimax distance measure and efficient outlier detection
CN109067725B (zh) * 2018-07-24 2021-05-14 成都亚信网络安全产业技术研究院有限公司 网络流量异常检测方法及装置
US11005872B2 (en) * 2019-05-31 2021-05-11 Gurucul Solutions, Llc Anomaly detection in cybersecurity and fraud applications

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649339A (zh) * 2015-10-30 2017-05-10 北大方正集团有限公司 离群点的挖掘方法及挖掘装置
CN112364887A (zh) * 2020-10-16 2021-02-12 重庆大学 一种基于密度核心的最小生成树聚类算法及***
CN113011888A (zh) * 2021-03-11 2021-06-22 中南大学 一种针对数字货币的异常交易行为检测方法、装置、设备及介质
CN112800115A (zh) * 2021-04-07 2021-05-14 腾讯科技(深圳)有限公司 数据处理方法及数据处理装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A near-autonomous and incremental intrusion detection system through active learning of known and unknown attacks;Lynda Boukela等;《2021 International Conference on Security, Pattern Analusis, and Cybernetics(SPAC)》;20210620;全文 *
An Efficient Density-Based Local Outlier Detection Approach for Scatterred Data;Shubin Su等;《IEEE ACCESS》;20181211;全文 *
基于模糊C均值的文本迁移学习算法研究;田宏泽;《中国优秀硕士学位论文全文数据库(电子期刊)》;20180615;全文 *
基于离群点检测的网络异常检测算法研究;刘人毓;《中国优秀硕士学位论文全文数据库(电子期刊)》;20190415;全文 *

Also Published As

Publication number Publication date
CN113852629A (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
US8737739B2 (en) Active segmentation for groups of images
Wang et al. Input feature selection method based on feature set equivalence and mutual information gain maximization
CN107682319A (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN108427713B (zh) 一种用于自制视频的视频摘要方法及***
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN109933619B (zh) 一种半监督分类预测方法
CN110298024B (zh) 涉密文档的检测方法、装置及存储介质
CN112001788A (zh) 一种基于rf-dbscan算法的***违约欺诈识别方法
CN113852629B (zh) 基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质
Chai Otsu’s Image Segmentation Algorithm with Memory‐Based Fruit Fly Optimization Algorithm
Shi et al. An improved agglomerative hierarchical clustering anomaly detection method for scientific data
Rahman et al. An efficient approach for selecting initial centroid and outlier detection of data clustering
CN117149581A (zh) 一种基于关联规则算法的异常信息分析预警方法及***
Din et al. A reliable adaptive prototype-based learning for evolving data streams with limited labels
CN110837853A (zh) 一种快速分类模型构建方法
Wang et al. Comparison and Analysis of Several Clustering Algorithms for Pavement Crack Segmentation Guided by Computational Intelligence
Al-Khamees et al. Survey: Clustering techniques of data stream
Li et al. Fuzzy multilevel image thresholding based on modified quick artificial bee colony algorithm and local information aggregation
CN114519605A (zh) 广告点击欺诈检测方法、***、服务器和存储介质
CN113190851A (zh) 恶意文档检测模型的主动学习方法、电子设备及存储介质
Cherednichenko Outlier detection in clustering
CN111401783A (zh) 一种电力***运行数据集成特征选择方法
Zhou et al. An outlier detection algorithm based on an integrated outlier factor
CN112948732B (zh) 一种基于归一化最小生成树聚类的离群点检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant