CN115242556A - 一种基于增量自编码器的网络异常检测方法 - Google Patents

一种基于增量自编码器的网络异常检测方法 Download PDF

Info

Publication number
CN115242556A
CN115242556A CN202211154263.9A CN202211154263A CN115242556A CN 115242556 A CN115242556 A CN 115242556A CN 202211154263 A CN202211154263 A CN 202211154263A CN 115242556 A CN115242556 A CN 115242556A
Authority
CN
China
Prior art keywords
sample
neuron
winning
network
incremental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211154263.9A
Other languages
English (en)
Other versions
CN115242556B (zh
Inventor
吴署光
熊达鹏
王宏艳
颜南江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Original Assignee
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peoples Liberation Army Strategic Support Force Aerospace Engineering University filed Critical Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority to CN202211154263.9A priority Critical patent/CN115242556B/zh
Publication of CN115242556A publication Critical patent/CN115242556A/zh
Application granted granted Critical
Publication of CN115242556B publication Critical patent/CN115242556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及网络与信息安全技术领域,提供了一种基于增量自编码器的网络异常检测方法。该方法包括:采集网络流量数据,得到无标签样本集;输出神经元集合N和连接关系集合C;基于初始化增量自编码器,并采用增量学习方法,基于神经元集合N和连接关系集合C训练增量自编码器,得到异常检测模型;基于将接收到的样本数据输入异常检测模型,计算重构误差得分,并将重构误差得分与异常阈值相比较,根据判定结果获得正常样本,并将该正常样本输入至改进的SOINN网络进行增量学习。本发明解决了遗忘灾难问题,节约了计算和存储开销,使得模型不断学习新的样本特征,实现适应新的网络环境的目的。

Description

一种基于增量自编码器的网络异常检测方法
技术领域
本发明涉及网络与信息安全技术领域,尤其涉及一种基于增量自编码器的网络异常检测方法。
背景技术
近年来,网络技术的高速发展使得网络的使用已经成为人们工作和生活中必不可少的一部分,网络规模逐渐扩大,使得更多的网络安全问题暴发出来。例如,分布式拒绝服务攻击或蠕虫攻击会使局域网在短时间内陷入毁瘫,造成***可靠性下降,甚至造成信息损毁或泄漏。APT等非规则性安全攻击行为的兴起,使得传统防护模式面临巨大挑战。
传统的网络安全防护技术主要有身份鉴别、密码技术、防火墙技术等,然而这些技术都属于静态防御技术,无法抵御来自网络内部的攻击,也无法实时地检测攻击行为。异常检测作为一种主动防御技术,通过发掘网络流量中包含的行为特征,能够及时有效地感知网络运行状态,为采取下一步防御策略提供支持。将机器学习算法应用于网络异常行为检测已经取得了较好的应用效果,其主要方法是构建行为特征向量并据此训练分类或者聚类模型从而实施检测。异常样本的标记和生成依赖于深入的专家知识,因此有标签异常样本的获取往往比较难且数据量少。无监督学习的方法不依赖于样本标签,通过建立正常行为样本的生成模型来对偏离正常行为模式的异常样本进行检测,大大增加了异常行为检测的实用性。然而异常检测模型需要进行经常性更新以适应新的网络环境,现有的方法大多以批量学习方式来更新模型,也就是一次性给定所有需要学习的数据,后续一旦积累了新的数据,需要将新旧数据合并来更新模型,使得老模型信息的丢失,造成“遗忘灾难”,导致计算和存储空间的极大浪费,特别是对于卫星、空间站等小型重要的终端而言,节省计算和存储开销非常重要。
发明内容
有鉴于此,本发明提供了一种基于增量自编码器的网络异常检测方法,以解决现有技术中老模型信息的丢失、计算量大和存储开销大的技术问题。
本发明提供了一种基于增量自编码器的网络异常检测方法,包括:
S1.采集网络流量数据,得到无标签样本集;
S2.基于所述无标签样本集训练改进的SOINN网络,输出神经元集合N和连接关系集合C;其中,所述改进的SOINN网络是基于神经元的相似度阈值以及神经元与输入节点之间的距离来更新神经元邻居节点的学习率;
S3.初始化增量自编码器,并采用增量学习方法,基于所述神经元集合N和连接关系集合C训练所述增量自编码器,得到异常检测模型;
S4.将接收到的样本数据输入所述异常检测模型,计算重构误差得分,并将所述重构误差得分与异常阈值相比较,若所述重构误差得分大于异常阈值,则判定该样本为异常样本,否则判定该样本为正常样本,并将该正常样本输入所述改进的SOINN网络进行增量学习。
进一步地,所述S2包括:
S21.构建单层SOINN网络,初始化两个随机样本中每个训练周期内的神经元集合,计算相关参数,其中,相关参数包括获胜神经元邻居节点的相似度阈值T i 、获胜神经元邻居节点与输入样本
Figure 568533DEST_PATH_IMAGE001
的距离;其中,获胜神经元是训练周期内神经元集合与样本中最近的两个神经元;
S22.基于所述相关参数,更新获胜神经元邻居节点的权重;
S23.基于所述权重,输出训练周期内神经元集合N和连接关系集合C。
进一步地,所述S21中,所述相关参数还包括获胜神经元邻居节点的学习率,其中,获胜神经元邻居节点的学习率包括第一学习率系数τ1和第二学习率系数τ2
进一步地,所述获胜神经元邻居节点的学习率通过以下步骤获得:
计算获胜神经元s 1 与输入样本
Figure 743906DEST_PATH_IMAGE001
的距离
Figure 840956DEST_PATH_IMAGE002
以及获胜神经元邻居节点i与输入样本
Figure 266252DEST_PATH_IMAGE003
的距离
Figure 288566DEST_PATH_IMAGE004
,将该距离
Figure 457510DEST_PATH_IMAGE005
与所述获胜神经元邻居节点i的相似度阈值T i 相比较,
如果
Figure 777109DEST_PATH_IMAGE006
,则所述获胜神经元邻居节点的学习率
Figure 107727DEST_PATH_IMAGE007
,其中,
Figure 430386DEST_PATH_IMAGE008
为预定义参数,命名为学习率系数下限,t为获胜次数;
如果
Figure 886511DEST_PATH_IMAGE009
,且
Figure 63546DEST_PATH_IMAGE010
,表示所述样本
Figure 830645DEST_PATH_IMAGE011
与所述获胜神经元邻居节点i的相似度较大,此时根据所述样本
Figure 93130DEST_PATH_IMAGE011
与获胜神经元所述邻居节点的距离来确定所述第一学习率系数τ1,则获胜神经元邻居节点的学习率为
Figure 335368DEST_PATH_IMAGE012
其中,
Figure 366909DEST_PATH_IMAGE013
如果
Figure 304909DEST_PATH_IMAGE014
,且
Figure 789111DEST_PATH_IMAGE015
,表示所述样本
Figure 840899DEST_PATH_IMAGE011
与所述获胜神经元s 1 重合,此时根据
Figure 461368DEST_PATH_IMAGE016
与获胜神经元的邻居节点的距离来确定所述第二学习率系数τ2,则获胜神经元邻居节点的学习率
Figure 570269DEST_PATH_IMAGE017
其中,
Figure 555149DEST_PATH_IMAGE018
进一步地,所述S22中,根据下式更新获胜神经元邻居节点的权重:
Figure 407699DEST_PATH_IMAGE019
其中,W i 是获胜神经元邻居节点的权重。
进一步地,所述S2还包括:
通过所述神经元的相似度阈值以及神经元与输入节点之间的距离来度量该神经元与输入节点是否属于同一个类别,并通过所述神经元的相似度阈值以及神经元与输入节点之间的距离大小来决定进行类内***还是类间***。
进一步地,所述S3中增量自编码器的构建包括:
将所述无标签样本集经过数据预处理后得到单个样本的数据维度和数据,然后再经过所述改进的SOINN网络后,输出单个样本维度的输出神经元;
将所述单个样本维度的输出神经元输入自动编码器,得到重构样本,将其中预测为正常的样本通过基于距离度量的样本标签筛选机制来进行二次识别,将识别后的正常样本继续输入所述改进的SOINN网络进行增量训练,经过设定轮训练后,形成所述异常检测模型。
进一步地,所述S4包括:
S41.将所述增量自编码器输出的正常样本输入至所述改进的SOINN网络,输出所有获胜神经元邻居节点与该正常样本之间的距离,并选择最近的获胜神经元邻居节点与该正常样本之间的距离作为正常样本的相似度值;
S42.对每个所述正常样本的相似度值按照从小到大进行排序;
S43.基于排序结果,设定样本筛选比例,采用距离量度样本标签筛选出正常样本,并将筛选出的正常样本作为增量学习的正常样本。
进一步地,所述S43还包括:
若筛选出的样本均为非正常样本,则启动防御措施。
进一步地,所述增量自编码器包括输入层、dropout层和隐藏层。
本发明与现有技术相比存在的有益效果是:
1.本发明采用改进SOINN的增量学习特性与自动编码器相结合,解决了“遗忘灾难”问题,使得模型更新训练更加方便;
2.本发明的方案无需保存旧样本,有效节约了计算和存储开销;
3.本发明引入距离度量机制,极大提高了样本标记的准确性,使模型能够及时学习到新样本特征,且无需人工进行大量的数据标注,实现了模型的在线更新;
4.本发明相比于SOINN,LRM-SOINN通过神经元的相似度阈值以及该神经元与输入节点的距离来度量该神经元与输入节点的差异性,进一步提升获胜神经元邻居节点的学习效率,使得算法输出神经元更能代表样本特性;
5.本发明根据检测结果对模型进行增量更新,使得模型不断学习新的样本特征,实现适应新的网络环境的目的。
附图说明
为了更清楚地说明本发明中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种基于增量自编码器的网络异常检测方法的流程图;
图2 是本发明实施例提供的为验证SOINN算法改进前后存储开销的对比图;
图3是本发明实施例提供的正常样本纯度随筛选比例的变化情况示意图;
图4(a)是本发明实施例提供的取前200次增量训练结果的示意图;
图4(b)是本发明实施例提供的取前60次增量训练结果的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
下面将结合附图详细说明根据本发明的一种基于增量自编码器的网络异常检测方法。
图1是本发明实施例提供的一种基于增量自编码器的网络异常检测方法的流程图。
如图1所示,该网络异常检测方法包括:
S1.采集网络流量数据,得到无标签样本集;
S2.基于所述无标签样本集训练改进的SOINN网络,输出神经元集合N和连接关系集合C;其中,所述改进的SOINN网络是基于神经元的相似度阈值以及神经元与输入节点之间的距离来更新神经元邻居节点的学习率;
SOINN是一种基于竞争学习的神经网络,本发明SOINN输出为分布在特征空间的神经元和神经元之间的连接关系,神经元分布大致反映了原始数据的分布特性,连接关系构成了数据的拓扑结构。本发明采用SOINN动态地更新网络,不影响之前的学习效果,降低了学习过程中的存储开销。单层SOINN网络相较于双层SOINN网络具有同样的学习效果,且训练参数进一步简化,算法流程见图3。因此,本发明采用了单层SOINN网络算法。
所述S2还包括:
通过所述获胜神经元的相似度阈值以及获胜神经元与输入节点之间的距离来度量该获胜神经元与输入节点是否属于同一个类别,并通过两者之间的距离大小来决定进行类内***还是类间***。
在改进之前的SOINN算法的神经元自适应调整过程中,通过神经元的相似度阈值T以及该神经元与输入节点的距离d来度量该神经元与输入节点是否属于同一个类别,并通过比较Td的大小来决定进行类内***还是类间***。因此,神经元邻居节点的学习率
Figure 679411DEST_PATH_IMAGE020
应当与Td具有一定的相关性,如图3所示,
Figure 959214DEST_PATH_IMAGE021
为输入样本,s1为获胜神经元,s2和s3为获胜神经元邻居节点,s2与s3的学习步长应当与两者的相似度阈值T2、T3以及s1、s2、s3与输入节点的距离
Figure 409219DEST_PATH_IMAGE022
相关。
Figure 65460DEST_PATH_IMAGE023
的设置在改进之前或之后的SOINN算法都要满足两个条件:
(c)所述获胜神经元与输入节点的距离始终小于获胜神经元邻居节点与输入节点的距离,因此,两者的学习率要满足:
Figure 926099DEST_PATH_IMAGE024
(d)原始SOINN的约束条件为:
Figure 642383DEST_PATH_IMAGE025
改进之后的SOINN网络的获胜神经元与输入节点的距离
Figure 133014DEST_PATH_IMAGE026
的设置也应当满足上述条件。
S2包括:
S21.构建单层SOINN网络,初始化两个随机样本中每个训练周期内的神经元集合,计算相关参数,其中,相关参数包括获胜神经元邻居节点的相似度阈值T i 、获胜神经元邻居节点与输入样本
Figure 858524DEST_PATH_IMAGE027
的距离;其中,获胜神经元是训练周期内神经元集合与接收样本中最近的两个神经元;
S211.初始化每个训练周期内神经元集合
Figure 573670DEST_PATH_IMAGE028
,其中
Figure 198205DEST_PATH_IMAGE029
的权重为
Figure 647904DEST_PATH_IMAGE030
,连接关系集合
Figure 114788DEST_PATH_IMAGE031
为空;
S212.接收样本
Figure 212670DEST_PATH_IMAGE032
,通过计算欧式距离查找所述每个训练周期内神经元集合N中与输入样本
Figure 5176DEST_PATH_IMAGE033
最近的两个神经元s 1s 2,即获胜神经元:
Figure 925859DEST_PATH_IMAGE034
(1)
Figure 462013DEST_PATH_IMAGE035
(2)
其中,
Figure 166400DEST_PATH_IMAGE036
表示神经元
Figure 129808DEST_PATH_IMAGE037
的权重;
S213.计算获胜神经元s 1s 2的相似度阈值,对于任意神经元
Figure 272208DEST_PATH_IMAGE038
,设其邻居神经元的集合为
Figure 346474DEST_PATH_IMAGE039
,则
Figure 887789DEST_PATH_IMAGE040
的相似度阈值
Figure 756519DEST_PATH_IMAGE041
的计算公式为:
如果
Figure 120636DEST_PATH_IMAGE042
Figure 264172DEST_PATH_IMAGE043
(3)
否则
Figure 665853DEST_PATH_IMAGE044
(4)
Figure 705485DEST_PATH_IMAGE045
Figure 556897DEST_PATH_IMAGE046
成立,则进行类间***,为所述接收样本
Figure 238545DEST_PATH_IMAGE047
生成一个新的节点r
Figure 20032DEST_PATH_IMAGE048
,返回步骤S212接收样本,否则执行步骤S214;
S214.若所述获胜神经元s 1s 2没有连接关系,则建立两个神经元的连接,即
Figure 230565DEST_PATH_IMAGE049
,将这条边的年龄设为0,即
Figure 569273DEST_PATH_IMAGE050
S215.更新年龄参数
Figure 789033DEST_PATH_IMAGE051
Figure 153588DEST_PATH_IMAGE052
s 1的邻居神经元;将超龄的边删除,即若
Figure 816913DEST_PATH_IMAGE053
,其中
Figure 642917DEST_PATH_IMAGE054
为预定义参数;
所述S21中,所述相关参数还包括:获胜神经元邻居节点的学习率,其中,获胜神经元邻居节点的学习率包括第一学习率系数τ1和第二学习率系数τ2
所述获胜神经元邻居节点的学习率通过以下步骤获得:
计算获胜神经元s 1 与新输入样本
Figure 397859DEST_PATH_IMAGE055
的距离
Figure 625709DEST_PATH_IMAGE056
以及获胜神经元邻居节点与输入样本
Figure 443624DEST_PATH_IMAGE057
的距离
Figure 756924DEST_PATH_IMAGE058
,将该距离
Figure 586996DEST_PATH_IMAGE059
与所述获胜神经元邻居节点的相似度阈值T i 相比较,其中,i表示获胜神经元邻居节点。
如果
Figure 934932DEST_PATH_IMAGE060
,则所述获胜神经元邻居节点的学习率
Figure 454906DEST_PATH_IMAGE061
,其中,
Figure 521082DEST_PATH_IMAGE062
为预定义参数,命名为学习率系数下限,t为获胜次数;
如果
Figure 148985DEST_PATH_IMAGE063
,且
Figure 367739DEST_PATH_IMAGE064
,表示所述样本
Figure 261877DEST_PATH_IMAGE065
与所述获胜神经元邻居节点的相似度较大,此时根据所述样本
Figure 564418DEST_PATH_IMAGE065
与所述获胜神经元邻居节点的距离来确定所述第一学习率系数τ1,则获胜神经元邻居节点的学习率为
Figure 467783DEST_PATH_IMAGE066
,τ1的确定方法如下:
Figure 55891DEST_PATH_IMAGE067
,其中,x是一个中间参量,由
Figure 917667DEST_PATH_IMAGE068
Figure 424347DEST_PATH_IMAGE069
共同确定,则x的取值范围为:
Figure 865824DEST_PATH_IMAGE070
其中,
Figure 42859DEST_PATH_IMAGE071
所述第一学习率系数
Figure 809958DEST_PATH_IMAGE072
满足两个条件:
(1)所述第一学习率系数τ1x成反比关系,即随着x的增大,
Figure 809793DEST_PATH_IMAGE073
逐渐减少;
(2)当x趋向于0时,
Figure 54961DEST_PATH_IMAGE074
趋向于1;
Figure 86502DEST_PATH_IMAGE075
时,
Figure 758923DEST_PATH_IMAGE076
如果
Figure 771354DEST_PATH_IMAGE077
,且
Figure 570945DEST_PATH_IMAGE078
,表示所述样本
Figure 456992DEST_PATH_IMAGE079
与所述获胜神经元s 1 重合,此时根据
Figure 557105DEST_PATH_IMAGE080
与获胜神经元的邻居节点的距离来确定所述第二学习率系数τ2,则获胜神经元邻居节点的学习率
Figure 528603DEST_PATH_IMAGE081
其中,
Figure 849994DEST_PATH_IMAGE082
所述第二学习率系数τ2满足两个条件:
(3)所述第二学习率系数τ2与所述获胜神经元邻居节点与新输入节点距离
Figure 590548DEST_PATH_IMAGE083
成反比关系;
(4)获胜神经元邻居节点与新输入节点距离取值范围为
Figure 601842DEST_PATH_IMAGE084
Figure 326215DEST_PATH_IMAGE085
,当
Figure 451297DEST_PATH_IMAGE086
时,
Figure 46358DEST_PATH_IMAGE087
;当
Figure 562308DEST_PATH_IMAGE088
趋向于0时,
Figure 508399DEST_PATH_IMAGE089
趋向于1。
S22.基于所述相关参数,更新获胜神经元邻居节点的权重;S221.更新获胜神经元及其邻居节点的权重,
Figure 702751DEST_PATH_IMAGE090
(5)
Figure 696858DEST_PATH_IMAGE091
(6)
所述S22中,根据公式(6)更新获胜神经元邻居节点的权重。
其中,W S1 是获胜神经元的权重,W i 是获胜神经元邻居节点的权重,
Figure 52884DEST_PATH_IMAGE092
是获胜神经元的学习率,
Figure 17429DEST_PATH_IMAGE093
Figure 749893DEST_PATH_IMAGE094
t为获胜次数;
S222. 完成一个训练周期后,则删掉设定密度的神经元,否则返回步骤S212,继续接收新的样本。
由此,对步骤S22中权重求法进行改进,对获胜神经元邻居节点的学习率
Figure 599774DEST_PATH_IMAGE095
进行改进,更新获胜神经元邻居节点的权重。
所述第一学习率系数τ1和第二学习率系数τ2的获得之后包括:
更新获胜神经元邻居节点的权重,并将改进的SOINN命名为LRM-SOINN,其中,LRM-SOINN,全拼为SOINN with Learning Rate Modification,是自组织增量学习神经网络,是本发明改进的SOINN网络。
S23.基于所述权重,输出训练周期内神经元集合N和连接关系集合C。
基于更新获胜神经元及其邻居节点的权重,输出训练周期内神经元集合N和连接关系集合C。
S3.初始化增量自编码器,并采用增量学习方法,基于所述神经元集合N和连接关系集合C训练所述增量自编码器,得到异常检测模型;
除正常样本集之外还包括异常样本集。
异常检测模型包括训练集和测试集,测试集通过增量自编码器进行预测,得到的正常样本中会包含少量的异常样本,基于距离度量的样本标签筛选机制就是要去除这些样本中的异常数据,使得反馈到LRM-SOINN网络中的正常样本纯度更高,甚至接近99.9%。LRM-SOINN的输出神经元作为正常样本的代表点,继承了正常样本的总体特征,分析SOINN算法可知,样本到神经元的距离可以度量两者之间的相似性。基于此,设计一种基于距离度量的样本标签筛选机制,将最终所选的样本作为增量学习的正常样本。
所述S3中增量自编码器的构建包括:
将所述无标签样本集经过数据预处理后得到单个样本的数据维度和数据,然后再经过所述改进的SOINN网络后,输出单个样本维度的输出神经元;
将所述单个样本维度的输出神经元输入自动编码器,得到重构样本,将其中预测为正常的样本通过基于距离度量的样本标签筛选机制来进行二次识别,将识别后的正常样本继续输入所述改进的SOINN网络进行增量训练,经过设定轮训练后,形成所述异常检测模型。
所述增量自编码器包括输入层、dropout层和隐藏层。
本发明采用在自动编码器的输入层和隐藏层加入了dropout层来随机地忽略输入层节点,使得少量的异常数据获得学习的机会的概率进一步降低,使得这些数据对模型的影响变得更小。
S4.将接收到的样本数据输入所述异常检测模型,计算重构误差得分,并将所述重构误差得分与异常阈值相比较,若所述重构误差得分大于异常阈值,则判定该样本为异常样本,否则判定该样本为正常样本,并将该正常样本输入所述改进的SOINN网络进行增量学习。
所述S4包括:
S41.将所述增量自编码器输出的正常样本输入至所述改进的SOINN网络,
增量自编码器并输出所有获胜神经元邻居节点与该正常样本之间的距离,并选择最近的获胜神经元邻居节点与该正常样本之间的距离作为正常样本的相似度值;
其中,最近的获胜神经元邻居节点的距离是曼哈顿距离。
输入:所述改进的SOINN网络的输出神经元集合
Figure 189018DEST_PATH_IMAGE096
,初始增量学习样本集
Figure 844121DEST_PATH_IMAGE097
表示通过所述增量自编码器模型预测后得到的正常样本集;
S411.对于每一初始增量学习样本
Figure 114697DEST_PATH_IMAGE098
,计算其到每一个神经元
Figure 801506DEST_PATH_IMAGE099
的距离
Figure 233755DEST_PATH_IMAGE100
S412.寻找每一个初始增量学习样本
Figure 376154DEST_PATH_IMAGE098
到神经元的最近距离
Figure 450421DEST_PATH_IMAGE101
,得到样本距离集合
Figure 263175DEST_PATH_IMAGE102
S42.对每个所述正常样本的相似度值按照从小到大进行排序;
S421.采用冒泡排序法对d由小到大进行排序,得到
Figure 131905DEST_PATH_IMAGE103
S422.根据索引得到对应的样本排序
Figure 777912DEST_PATH_IMAGE104
S43.基于排序结果,设定样本筛选比例,采用距离量度样本标签筛选出正常样本,并将筛选出的正常样本作为增量学习的正常样本。
S431.确定样本筛选比例λ;
S432.得到正常样本集合
Figure 652940DEST_PATH_IMAGE105
输出:设定纯度的正常样本集Q
其中,设定纯度是纯度较高的纯度,依据人为需要设定,例如,设定纯度包括95%,99%。
所述S43还包括:
若筛选出的为非正常样本,则启动防御措施。
若输出为异常样本,表明网络中存在异常攻击行为,则需要开启防御措施。
本发明采用改进SOINN的增量学习特性与自动编码器相结合,解决了“遗忘灾难”问题,使得模型更新训练更加方便;无需保存旧样本,有效节约了计算和存储开销;通过引入距离度量机制,极大提高了样本标记的准确性,使模型能够及时学习到新样本特征,且无需人工进行大量的数据标注,实现了模型的在线更新;相比于SOINN,改进的SOINN网络通过神经元的相似度阈值以及该神经元与输入节点的距离来度量该神经元与输入节点的差异性,进一步提升获胜神经元邻居节点的学习效率,使得算法输出神经元更能代表样本特性;根据检测结果对模型进行增量更新,使得模型不断学习新的样本特征,实现适应新的网络环境的目的。
实施例1
为检验LRM-SOINN与自动编码器结合后的检测效果,对比实验分别为利用SOINN增量学习的AE和未进行增量学习的AE。LRM-soinn-Autoencoder的AUC值为0.9360,仅次于Autoencoder,说明LRM-soinn在学习过程中丢失了少量的样本特征,但其依然继承了样本的多数特征。Soinn-Autoencoder的AUC值不如LRM-soinn-Autoencoder,说明改进后的SOINN提升了邻居节点学习效果,输出的神经元相比于SOINN更具代表性。
图2 是本发明实施例提供的为验证SOINN算法改进前后存储开销的对比图。
为验证SOINN、LRM-SOINN的数据压缩特性,选取1000至50000的样本规模进行实验,结果如图2所示。其中横轴代表样本规模,纵轴代表存储开销,也就是神经网络输出的神经元数量。由此可知,对AE进行模型更新时,需存储所有已经训练过的样本,而利用SOINN和LRM-SOINN进行增量学习时,只需存储少数的输出神经元。LRM-SOINN略高于SOINN,未增加太大的存储开销。
图3是本发明实施例提供的正常样本纯度随筛选比例的变化情况示意图。
本实验的目的是证明初始增量学习样本集通过基于距离度量的样本标签筛选机制算法后,得到的样本集中正常样本所占比例是否显著提升。实验首先用已经训练好的增量自编码器来预测测试集,得到初始增量学习样本集,然后对该样本集进行筛选得到新的增量学习样本集,通过调节样本筛选比例,来比较筛选前后,正常样本所占比例的变化情况。选择曼哈顿距离作为距离度量方式。经计算,初始增量学习样本集中,正常样本的比例为94.74%,经过筛选后,样本纯度随筛选比例的变化如下图3所示。由图3可知,当筛选比例小于0.4时,正常样本纯度就已经接近100%,证明该方法可进行样本筛选。
为验证模型的在线学***均值,如下表1所示。分析可知,随着增量训练周期的缩短,模型整体性能有所提升,表明了本文提出的增量自编码器模型采用基于距离度量机制的样本标签筛选机制后,具备一定的在线学习能力。当训练周期小于500时,AUC值达到了0.9以上,表明采用本发明的模型具备良好的分类性能。
Figure 51691DEST_PATH_IMAGE106
表1
实施例2
图4(a)是本发明实施例提供的取前200次增量训练结果的示意图。
为检验增量学习效果,不同于离线学习的批量训练,增量学习在更新模型时,只需要用新的训练数据来训练异常检测模型,减少了模型更新的时间。为验证异常检测模型的增量学习能力,首先用初始正常训练集来训练初始模型,然后不断增加正常训练样本数量,观察异常检测模型的性能变化情况。实验数据集划分情况如图4(a)所示。其中初始训练集为30个正常样本,每一个增量训练集规模为50,增量训练次数为200次,测试集为KDD CUP测试集中包含正反例的所有样本。
图4(b)是本发明实施例提供的取前60次增量训练结果的示意图。
如图4(b)所示,为算法改进前后AUC值随着数据规模增长的变化情况,为清楚比较两种算法的性能,图4(b)取前60次增量训练进行比较。随着训练数据的不断增加,AUC呈现波动上升趋势,且在前几个训练周期内上升较快,表明模型具备增量学***均值为0.9232,SOINN的AUC平均值为0.9105,表明改进的SOINN网络的总体性能要优于SOINN。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于增量自编码器的网络异常检测方法,其特征在于,包括:
S1.采集网络流量数据,得到无标签样本集;
S2.基于所述无标签样本集训练改进的SOINN网络,输出神经元集合N和连接关系集合C;其中,所述改进的SOINN网络是基于神经元的相似度阈值以及神经元与输入节点之间的距离来更新神经元邻居节点的学习率;
S3.初始化增量自编码器,并采用增量学习方法,基于所述神经元集合N和连接关系集合C训练所述增量自编码器,得到异常检测模型;
S4.将接收到的样本数据输入所述异常检测模型,计算重构误差得分,并将所述重构误差得分与异常阈值相比较,若所述重构误差得分大于异常阈值,则判定该样本为异常样本,否则判定该样本为正常样本,并将该正常样本输入所述改进的SOINN网络进行增量学习。
2.根据权利要求1所述的网络异常检测方法,其特征在于,所述S2包括:
S21.构建单层SOINN网络,初始化两个随机样本中每个训练周期内的神经元集合,计算相关参数,其中,相关参数包括获胜神经元邻居节点的相似度阈值T i 、获胜神经元邻居节点与输入样本
Figure 949752DEST_PATH_IMAGE001
的距离;其中,获胜神经元是训练周期内神经元集合与样本中最近的两个神经元;
S22.基于所述相关参数,更新获胜神经元邻居节点的权重;
S23.基于所述权重,输出训练周期内神经元集合N和连接关系集合C。
3.根据权利要求2所述的网络异常检测方法,其特征在于,所述S21中,所述相关参数还包括获胜神经元邻居节点的学习率,其中,获胜神经元邻居节点的学习率包括第一学习率系数τ1和第二学习率系数τ2
4.根据权利要求3所述的网络异常检测方法,其特征在于,所述获胜神经元邻居节点的学习率通过以下步骤获得:
计算获胜神经元s 1 与输入样本
Figure 84061DEST_PATH_IMAGE002
的距离
Figure 507564DEST_PATH_IMAGE003
以及获胜神经元邻居节点i与输入样本
Figure 651101DEST_PATH_IMAGE004
的距离
Figure 597322DEST_PATH_IMAGE005
,将该距离
Figure 448340DEST_PATH_IMAGE006
与所述获胜神经元邻居节点i的相似度阈值T i 相比较,
如果
Figure 830911DEST_PATH_IMAGE007
,则所述获胜神经元邻居节点的学习率
Figure 246980DEST_PATH_IMAGE008
,其中,
Figure 310357DEST_PATH_IMAGE009
为预定义参数,命名为学习率系数下限,t为获胜次数;
如果
Figure 52048DEST_PATH_IMAGE010
,且
Figure 656336DEST_PATH_IMAGE011
,表示所述样本
Figure 672834DEST_PATH_IMAGE012
与所述获胜神经元邻居节点i的相似度较大,此时根据所述样本
Figure 49107DEST_PATH_IMAGE012
与获胜神经元所述邻居节点的距离来确定所述第一学习率系数τ1,则获胜神经元邻居节点的学习率为
Figure 430541DEST_PATH_IMAGE013
其中,
Figure 335174DEST_PATH_IMAGE014
如果
Figure 824537DEST_PATH_IMAGE015
,且
Figure 317966DEST_PATH_IMAGE016
,表示所述样本
Figure 135881DEST_PATH_IMAGE012
与所述获胜神经元s 1 重合,此时根据
Figure 714761DEST_PATH_IMAGE017
与获胜神经元的邻居节点的距离来确定所述第二学习率系数τ2,则获胜神经元邻居节点的学习率
Figure 267534DEST_PATH_IMAGE018
其中,
Figure 881049DEST_PATH_IMAGE019
5.根据权利要求4所述的网络异常检测方法,其特征在于,所述S22中,根据下式更新获胜神经元邻居节点的权重:
Figure 151756DEST_PATH_IMAGE020
其中,W i 是获胜神经元邻居节点的权重。
6.根据权利要求1所述的网络异常检测方法,其特征在于,所述S2还包括:
通过所述神经元的相似度阈值以及神经元与输入节点之间的距离来度量该神经元与输入节点是否属于同一个类别,并通过所述神经元的相似度阈值以及神经元与输入节点之间的距离大小来决定进行类内***还是类间***。
7.根据权利要求1所述的网络异常检测方法,其特征在于,所述S3中增量自编码器的构建包括:
将所述无标签样本集经过数据预处理后得到单个样本的数据维度和数据,然后再经过所述改进的SOINN网络后,输出单个样本维度的输出神经元;
将所述单个样本维度的输出神经元输入自动编码器,得到重构样本,将其中预测为正常的样本通过基于距离度量的样本标签筛选机制来进行二次识别,将识别后的正常样本继续输入所述改进的SOINN网络进行增量训练,经过设定轮训练后,形成所述异常检测模型。
8.根据权利要求1所述的网络异常检测方法,其特征在于,所述S4包括:
S41.将所述增量自编码器输出的正常样本输入至所述改进的SOINN网络,输出所有获胜神经元邻居节点与该正常样本之间的距离,并选择最近的获胜神经元邻居节点与该正常样本之间的距离作为正常样本的相似度值;
S42.对每个所述正常样本的相似度值按照从小到大进行排序;
S43.基于排序结果,设定样本筛选比例,采用距离量度样本标签筛选出正常样本,并将筛选出的正常样本作为增量学习的正常样本。
9.根据权利要求8所述的网络异常检测方法,其特征在于,所述S43还包括:
若筛选出的样本均为非正常样本,则启动防御措施。
10.根据权利要求1所述的网络异常检测方法,其特征在于,所述增量自编码器包括输入层、dropout层和隐藏层。
CN202211154263.9A 2022-09-22 2022-09-22 一种基于增量自编码器的网络异常检测方法 Active CN115242556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211154263.9A CN115242556B (zh) 2022-09-22 2022-09-22 一种基于增量自编码器的网络异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211154263.9A CN115242556B (zh) 2022-09-22 2022-09-22 一种基于增量自编码器的网络异常检测方法

Publications (2)

Publication Number Publication Date
CN115242556A true CN115242556A (zh) 2022-10-25
CN115242556B CN115242556B (zh) 2022-12-20

Family

ID=83681928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211154263.9A Active CN115242556B (zh) 2022-09-22 2022-09-22 一种基于增量自编码器的网络异常检测方法

Country Status (1)

Country Link
CN (1) CN115242556B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116743646A (zh) * 2023-08-15 2023-09-12 云南省交通规划设计研究院有限公司 一种基于域自适应深度自编码器隧道网络异常检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789593A (zh) * 2012-06-18 2012-11-21 北京大学 基于增量式ghsom神经网络的入侵检测方法
CN107655483A (zh) * 2017-10-11 2018-02-02 河海大学常州校区 基于增量式在线学习的机器人导航方法
CN110719275A (zh) * 2019-09-30 2020-01-21 浙江大学 一种基于报文特征的电力终端漏洞攻击检测方法
CN110929843A (zh) * 2019-10-29 2020-03-27 国网福建省电力有限公司 一种基于改进深度自编码网络的异常用电行为辨识方法
CN112416662A (zh) * 2020-11-26 2021-02-26 清华大学 多时间序列数据异常检测方法与装置
US20220245945A1 (en) * 2020-03-05 2022-08-04 Northwestern Polytechnical University Video anomaly detection method based on human-machine cooperation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789593A (zh) * 2012-06-18 2012-11-21 北京大学 基于增量式ghsom神经网络的入侵检测方法
CN107655483A (zh) * 2017-10-11 2018-02-02 河海大学常州校区 基于增量式在线学习的机器人导航方法
CN110719275A (zh) * 2019-09-30 2020-01-21 浙江大学 一种基于报文特征的电力终端漏洞攻击检测方法
CN110929843A (zh) * 2019-10-29 2020-03-27 国网福建省电力有限公司 一种基于改进深度自编码网络的异常用电行为辨识方法
US20220245945A1 (en) * 2020-03-05 2022-08-04 Northwestern Polytechnical University Video anomaly detection method based on human-machine cooperation
CN112416662A (zh) * 2020-11-26 2021-02-26 清华大学 多时间序列数据异常检测方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张斌等: "《基于改进 SOINN 算法的恶意软件增量检测方法》", 《网络与信息安全学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116743646A (zh) * 2023-08-15 2023-09-12 云南省交通规划设计研究院有限公司 一种基于域自适应深度自编码器隧道网络异常检测方法
CN116743646B (zh) * 2023-08-15 2023-12-19 云南省交通规划设计研究院股份有限公司 一种基于域自适应深度自编码器隧道网络异常检测方法

Also Published As

Publication number Publication date
CN115242556B (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN110084610B (zh) 一种基于孪生神经网络的网络交易欺诈检测***
CN110020712B (zh) 一种基于聚类的优化粒子群bp网络预测方法和***
CN111783845B (zh) 一种基于局部线性嵌入和极限学习机的隐匿虚假数据注入攻击检测方法
CN113364751B (zh) 网络攻击预测方法、计算机可读存储介质及电子设备
CN115242556B (zh) 一种基于增量自编码器的网络异常检测方法
CN112348080A (zh) 基于工控异常检测的rbf改进方法、装置和设备
CN113269647A (zh) 基于图的交易异常关联用户检测方法
CN113949549A (zh) 一种面向入侵和攻击防御的实时流量异常检测方法
Yang et al. Detection of shilling attack based on bayesian model and user embedding
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
Riyahi et al. Multiobjective whale optimization algorithm‐based feature selection for intelligent systems
CN113438239B (zh) 一种基于深度k近邻的网络攻击检测方法及装置
Owusu et al. A deep learning approach for loan default prediction using imbalanced dataset
CN111310185B (zh) 一种基于改进stacking算法的Android恶意软件检测方法
CN117009613A (zh) 一种图数据分类方法、***、装置及介质
KR100869554B1 (ko) 영역 밀도 표현에 기반한 점진적 패턴 분류 방법
CN116170187A (zh) 一种基于cnn和lstm融合网络的工业互联网入侵监测方法
Benchaji et al. Novel learning strategy based on genetic programming for credit card fraud detection in Big Data
Qu et al. A robust fuzzy time series forecasting method based on multi‐partition and outlier detection
Farahnakian et al. Anomaly-based intrusion detection using deep neural networks
CN113672932A (zh) 一种基于自适应熵值权重的电力物联网智能终端可信计算信任值获取方法
CN116596539B (zh) 一种反洗钱方法及***
CN111833171B (zh) 异常操作检测和模型训练方法、装置以及可读存储介质
Yan et al. Method for Detecting Anomaly Data of WAMS System Based on GA-iForest
Zhang et al. Continual Learning on Graphs: Challenges, Solutions, and Opportunities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant