CN114445671A - 一种基于设备类型的异常流量检测方法及装置 - Google Patents

一种基于设备类型的异常流量检测方法及装置 Download PDF

Info

Publication number
CN114445671A
CN114445671A CN202111581477.XA CN202111581477A CN114445671A CN 114445671 A CN114445671 A CN 114445671A CN 202111581477 A CN202111581477 A CN 202111581477A CN 114445671 A CN114445671 A CN 114445671A
Authority
CN
China
Prior art keywords
equipment
detection model
flow detection
abnormal flow
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111581477.XA
Other languages
English (en)
Inventor
喻灵婧
李侗格
刘庆云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202111581477.XA priority Critical patent/CN114445671A/zh
Publication of CN114445671A publication Critical patent/CN114445671A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种基于设备类型的异常流量检测方法及装置,包括:构建设备mac地址和设备类型之间的映射关系;提取待检测流量中的设备mac地址,并基于所述映射关系,选取相应设备类型的异常流量检测模型;将所述待检测流量的流量特征输入相应设备类型的异常流量检测模型,得到异常流量检测结果。本发明能够自动化的识别产生流量的设备类型,并将其输入到与其设备类型绑定的异常流量检测模型中进行检测,更加及时、准确的发现网络中设备被攻击的状态,并进行警报。

Description

一种基于设备类型的异常流量检测方法及装置
技术领域
本发明涉及流量检测领域,尤其涉及一种基于设备类型的异常流量检测方法及装置。
背景技术
异常流量检测作为一种有效的防护手段,它通过监控设备的进出流量来发现设备被攻击的状态,相比于漏洞检测和基于签名的入侵检测,它具有部署成本低、及时发现未知攻击的优点。目前的异常流量检测方法主要是先进行流量特征提取,再将流量特征输入到模型中进行异常流量和正常流量的判别。根据异常流量检测的方法可以将异常流量检测分为基于分类的、基于统计的、基于机器学习的、基于深度学习的等四大类方法。随着机器学习、深度学习领域的发展,这两种方法成为了异常流量检测的广泛使用的算法之一。
Yisroel Mirsky(Mirsky Y,Doitshman T,Elovici Y,et al.Kitsune:AnEnsemble of Autoencoders for Online Network Intrusion Detection[C]//Networkand Distributed System Security Symposium.2018)等介绍了Kitsune:即插即用的NIDS。该NIDS使用基于自编码器来构造无监督的异常流量检测模型来检测,在线监测IDS模型,提高了无监督异常检测模型的准确率。Thien DucNguyen(Nguyen T D,Marchal S,Miettinen M,et al.D"IoT:A Federated Self-learning Anomaly Detection Systemfor IoT[J].2018.)提出一种能够有效检测受感染的IoT设备的自主自学习分布式***,DIOT自动的识别物设备类型并为使用联邦学习的方法设备类型并建立正常的流量模型来用于检测异常流量,降低了异常流量检测模型的假阳率。安全公司绿盟技术提出了物联网准入网关IoT-AG来保护拓展物联网设备的安全,通过使用设备主动探测发现技术,结合机器学习算法,访问关系白名单等实现管控联网设备行为的目的。安全公司奇安信提出了IoT接入控制***解决网内各类型IoT设备大量使用场景下的安全接入管理问题,通过IoT设备的发现和识别、接入感知与用户识别、多类型设备的统一接入控制、仿冒检测和处置、安全合规检查、状态监控、IP地址管理与使用监控等模块实现安全管理功能。
但目前的异常流量检测技术的相关研究在训练模型时并没有对产生流量的设备类型加以区分,试图训练出一种能够广泛应用的异常流量检测模型。伴随着设备类型的丰富,成百上千的设备类型涌入市场,这为现有的异常流量检测方案带来了一些挑战。
首先是训练集收集的难度增大。为了保证模型训练效果,异常流量检测模型训练时需要涵盖所有的设备类型的正常流量,收集流量需要购买设备耗费大量的资金,而且也无法购买到所有的设备类型,收集到所有的正常流量模式。
其次是模型更新的成本增加。现在设备类型更新速度很快,流量的模型也会出现新的变化,需要对异常流量检测模型进行实时的更新来保证模型效果,增加了模型的更新频率。而且为了保证训练集的全面性往往训练集都非常的大,训练一次需要消耗较大的成本。无论更新频率的增加还是模型训练的高成本都加大了模型更新的成本。
最后是模型的识别准确率下降。由于异常流量检测模型在训练时不具有针对性,各种设备类型的流量模式具有很大的差别,聚集在一起进行学习会影响机器学习方法的学习效果,导致异常检测模型会无法检测到流量微小的变化,模型检测的准确率会有所下降。
虽然有一些研究如绿盟技术的物联网准入网关IoT-AG技术以及Thien DucNguyen等人开始将设备类型和异常流量检测结合起来,目前也存在一些缺陷。
首先,识别设备类型的方法不自动化。设备类型需要人工标注,或者提出的设备类型方法收集设备指纹收集难度比较大,难以大规模应用。绿盟技术的物联网准入网关IoT-AG技术以及Thien DucNguyen等人提出设备识别技术都仅仅是针对物联网设备进行识别,覆盖范围有限。另一方面两者都是使用聚类的方法,就需要购买相应的设备来进行设备指纹收集,耗费资金大,设备指纹收集难。
其次,异常流量检测方法不适用。目前的异常流量检测研究仍集中在有监督的异常流量检测方法上,模型训练集需要包含异常流量。然而现有的设备类型成百上千,更新很快,大部分设备类型并没有专门的安全人员进行研究,也没有爆出相关的安全问题,异常流量也无法收集,有监督的异常流量检测方法比如朴素贝叶斯、随机森林、决策时、XGBoost、rnn、dnn、cnn等都不再适用。Thien DucNguyen等人提出的无监督检测技术需要对每个设备类别的模型进行特殊化定制,不适应于推广。
发明内容
针对上述问题,本发明提供一种基于设备类型的异常流量检测方法及装置,用户在使用本发明部署提供的方法时,能够自动化的识别产生流量的设备类型,并将其输入到与其设备类型绑定的异常流量检测模型中进行检测,更加及时、准确的发现网络中设备被攻击的状态,并进行警报。
本发明的技术方案包括:
一种基于设备类型的异常流量检测方法,其步骤包括:
构建设备mac地址和设备类型之间的映射关系;
提取待检测流量中的设备mac地址,并基于所述映射关系,选取相应设备类型的异常流量检测模型,其中通过以下步骤获取所述异常流量检测模型:
将该相应设备类型的正常流量训练集作为训练样本;
将稀疏自编码器所使用的li范式参数编码作为遗传空间的染色体,并使用稀疏自编码器训练过程的损失值作为适应度;
初始化种群大小与种群中的初始染色体;
计算每一染色体
Figure BDA0003427219240000031
为范式参数时的适应度
Figure BDA0003427219240000032
并基于染色体
Figure BDA0003427219240000033
繁殖染色体
Figure BDA0003427219240000034
其中i为染色体编号,t为繁殖次数,t≤T,T为繁殖次数;
根据最小的适应度
Figure BDA0003427219240000035
得到最优范式参数,并基于最优范式参数对稀疏自编码器进行正则化,以获取异常流量检测模型;
将所述待检测流量的流量特征输入相应设备类型的异常流量检测模型,得到异常流量检测结果。
进一步地,获取待检测流量的方法包括:使用wirshark或者tcpdump对指定局域网出入口流量进行捕获。
进一步地,通过以下步骤构建所述映射关系:
1)提取各设备类型流量样本的设备识别特征;
2)基于设备识别特征,并使用多视图广深算法,获取被动识别结果;
3)使用nmap对各设备类型流量样本进行主动扫描,获取主动识别结果;
4)根据被动识别结果与主动识别结果,得到设备mac地址和设备类型之间得映射关系;
进一步地,设备识别特征包括:广播包特征和http流量特征。
进一步地,广播包特征包括:dhcp协议、mdns协议、ssdp协议、llmnr协议和nbns协议的数据包特征。
进一步地,http流量特征包括:user-agent字段。
进一步地,所述损失值包括:均方误差。
进一步地,繁殖方法包括:基于适应度计算作为父母的概率、配对染色体交换基因和染色体变异中的至少一种。
进一步地,训练稀疏自编码器的损失函数
Figure BDA0003427219240000036
其中n为稀疏自编码器输入向量的维度,xp为输入向量的第p维值,
Figure BDA0003427219240000037
为输出向量的第p维值,m为稀疏自编码器中间层的神经元数量,λ为最优范式参数,wq为中间层中第q个神经元权重。
进一步地,流量特征包括:数据包的大小、流持续时间、ttl、window、flag统计值和固定时间内相同源ip与目的ip的tcp统计数。
进一步地,将流量特征输入相应设备类型的异常流量检测模型之前,对流量特征进行预处理。
进一步地,所述预处理的方法包括:对流量特征进行归一化处理。
进一步地,所述异常流量检测方法适用于多个局域网时,通过联邦学习方法训练异常流量检测模型,包括:
每一训练参与方u从安全服务中心获取设备类型k的异常流量检测模型
Figure BDA0003427219240000041
或设备类型k的异常流量检测模型参数
Figure BDA0003427219240000042
基于异常流量检测模型
Figure BDA0003427219240000043
或异常流量检测模型参数
Figure BDA0003427219240000044
使用本地正常流量训练集进行训练,得到异常流量检测模型
Figure BDA0003427219240000045
其中v为训练轮次;
将异常流量检测模型
Figure BDA0003427219240000046
的参数
Figure BDA0003427219240000047
上传给安全服务中心;
安全服务中心根据参数
Figure BDA0003427219240000048
获取异常流量检测模型
Figure BDA0003427219240000049
与异常流量检测模型参数
Figure BDA00034272192400000410
当训练轮次v达到设定训练轮次或异常流量检测模型
Figure BDA00034272192400000411
的损失值小于设定值,将异常流量检测模型
Figure BDA00034272192400000412
作为训练好的设备类型k异常流量检测模型。
进一步地,通过以下步骤对异常流量检测模型进行新设备类型的迁移:
1)使用word2vec方法,将原有设备类型与新设备类型分别处理成词向量;
2)基于词向量之间的欧式距离,获取与新设备类型最相似的原有设备类型;
3)使用新设备类型的训练数据,对最相似原有设备类型的异常流量检测模型进行训练,得到新设备类型的异常流量检测模型。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行以上所述方法。
一种电子装置,包括存储器和处理器,其中存储器存储执行以上所述方法的程序。
与现有技术相比,本发明具有以下优点:
1.将设备类型和异常流量模型进行绑定,提高了异常流量检测模型的准确性,增强了异常流量检测模型库的拓展性。同时本发明所提出的主被动设备识别方法不仅能对物联网设备进行识别,还可以识别手机型号、电脑型号等设备类型。覆盖面积远大于之前得物联网设备识别相关工作。
2.基于稀疏自编码器进行异常流量检测,并使用遗传算法去寻找稀疏自编码器的最优l1范式参数,在训练过程中学习到了更重要的特征,挖掘了特征间的深层结构,极大的提高了自编码器的准确率。
3.使用联邦学习联合其他局域网在不分享数据的情况下进行联合学习,相比于单个局域网数据进行学习,预设异常流量检测模型在各种流量类别上的的检测率均有所提高。本发明是第一个将联邦学习和稀疏自编码器结合在一起的无监督联邦学习算法。
4.将迁移学习的思想运用到联网设备异常流量检测上,能过使新设备在训练过程中通过较少的迭代次数就可以获得比较好的模型,减少了新生成模型时的成本开销。
附图说明
图1基于设备类型的异常流量检测方法训练流程图。
图2基于设备类型的异常流量检测方法使用流程图。
图3异常流量检测模型所采用的网络结构示意图。
图4联邦学习过程示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明特定实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
本发明可以集成在防火墙、WiFi控制器、路由器、网关服务器等流量出入口,来实现对于流量的异常检测,主要包括流量监听模块、设备类型识别模块、异常流量检测模块以及联邦学习模块。
1.流量监听模块
流量监听模块使用wirshark或者tcpdump进行监听,用于收集流量数据输入到后续的设备类型识别模块和异常流量检测模块进行设备识别和异常流量检测。
2.设备类型识别模块
本模块主要采用主被动结合方法来识别设备类型。
本模块首先使用设备通信流量特征来被动识别设备类型。特征主要包括广播包特征以及http流量特征。广播包特征主要包括dhcp、mdns、ssdp、llmnr、nbns等协议的数据包特征。http流量特征主要包含user-agent等字段,例如红米note7pro在访问微信登录页面时user-agent会保存手机的相关型号。
在被动识别部分使用的识别方法主要使用(Yu L,Luo B,Ma J,et al.You arewhat you broadcast:identification of mobile and IoT devices from(public)WiFi.2020.)提出的多视图广深算法。首先针对键值对相关的特征使用onehot编码,对于伪自然语言类型的特征信息,使用word2vec将其向量化。将所有的特征拼接成向量特征向量e(e1,e2,e3,...,e6),一共6个视图,之后将其输入到多视图广深算法中,多视图广深算法时由两个结构组成:
一个是深度神经网络结构,来提高所述设备识别模型的泛化性能,它得输入是e,输出是
Figure BDA0003427219240000061
为深度融合的神经网络得到的分类判断概率,所述tc为某一种设备信息,即制造商、设备类型或设备型号。
另一个是广度神经网络,用来提升设备信息与各特征视图之间的交互记忆,即每个特征视图如何响应制造商、设备类型和设备型号,分为6个视图分别输入e1,e2,...,ei,输出为
Figure BDA0003427219240000062
Figure BDA0003427219240000063
为广度融合的神经网络得到的分类判断概率,所述tc为某一种设备信息,即制造商、设备类型或设备型号。
最终设备属于某一类别得概率由下式得到:
Figure BDA0003427219240000064
其中,所述
Figure BDA0003427219240000065
为广度融合的神经网络得到的分类判断概率,
Figure BDA0003427219240000066
为深度融合的神经网络得到的分类判断概率,所述tc为某一种设备信息,即制造商、设备类型或设备型号。
之后使用nmap进行主动扫描,使用nmap-o 192.168.10.0/24等命令来进一步获取和完善设备的操作***和设备类型相关信息。
最后综合被动识别方法和主动扫描得结果生成设备mac地址和设备类型之间的映射关系。
本模块可以进行识别的设备类型包括电脑、手机、物联网设备等,可以从设备品牌、设备类型、设备型号、设备操作***四个维度来识别设备,例如华为p30pro的设备品牌为华为,设备类型为手机,设备型号为p30,设备操作***为android。
本模块里的设备识别技术设备使用的是预设的神经网络模型,并通过预先采集训练样本集对所述设备识别模型进行训练,所述训练样本集包括大量预先经过标注的特征信息训练样本。
本模块在异常流量检测开始之前进行,当网络中的流量流经本模块时将会生成mac地址与设备类型的映射关系。如mac地址为7c:67:a2:90:04:6b的设备类型为d-linkcamera930l。
3.异常检测模块
本模块利用设备识别模块标注的设备信息将流特征输入到预设的对应类别的异常流量检测识别模型中,判断是否为异常流量。
特征提取部分负责将流量监听模块收集的原始二进制文件,解析数据包,对数据包进行流重组,并将数据流的流量特征发送给异常流量检测模块。所提取的流量特征主要包括数据包的大小、流持续时间、ttl、window、flag统计值、固定时间内相同源ip目的ip的tcp统计数相关特征等一共85维。
数据处理部分负责对特征数据做归一化处理,以消除不同度量单位所带来的影响影响本模块使用的归一化公式如下所示。
Figure BDA0003427219240000071
其中xmax为数据x中的最大值,xmin为数据x中的最小值,X为归一化后的数据。
异常流量检测部分采用的是预先构建的深度稀疏自编码器模型,通过预先采集的特定类别的正常流量训练样本集训练而成。输入为经过数据处理的流量特征数据,可以表示为向量X(X1,X2,...,Xn),n为输入向量的维度,输出为是否为异常。
自编码器是一种无监督神经网络算法,输入神经元个数等于输出神经元个数,以尽可以的减少输入与输出间的差距为目标来训练自编码器。本模块所使用的损失值计算公式为均方误差为
Figure BDA0003427219240000072
其中xp代表输入向量的第p维值,
Figure BDA0003427219240000073
代表输出向量的第i维值,n代表输入向量的维度,MSE代表均方误差。本模块所使用的稀疏自编码器层数为5层,输入层神经元大小为85,编码器隐藏层神经元个数为59,中间层为神经元个数为42,解码层隐藏层神经元个数为59,输出层神经元个数为85。
自编码器的稀疏性可以被解释为,如果当神经元的输出接近于1的时候本发明认为它被激活,而输出接近于0的时候认为它被抑制,正常情况下,大部分神经元都是被抑制的。本模块使用稀疏自编码器来保证自编码器能够学习的更加深层次的特征结构。本发明使用l1范式对自编码器进行正则化,损失函数公式更新为:
Figure BDA0003427219240000074
其中wq为中间层第q个神经元的权重,m为中间层神经元的个数,λ为范式参数,需要使用者自行确定。
为了更好的确定l1范式参数λ对于模型的影响,本模块采用遗传算法来优化了稀疏自编码器的l1范式参数。遗传算法是一种通过模拟自然进化过程搜索最优解的方法。遗传算法将解决问题的过程转换成类似于自然界生物进化过程中染色体基因的交叉、变异等。
本模块将要求解的稀疏参数编码为二进制,作为遗传空间的染色体,并使用稀疏自编码器训练过程中的MSE值作为适应度,以适应度最小为目标寻找最优稀疏参数。遗传算法的求解过程如下。
1)初始化。初始化最初的种群大小和种群中的初始染色体。
2)计算适应度大小。计算使用种群中每条染色体作为λ时稀疏自编码器训练过程中的MES。
3)选择计算。使用轮赌盘算法来计算本轮中每个染色体作为下一代父母的概率。适应度越小被选择的概率越大。概率计算公式为
Figure BDA0003427219240000081
其中ki为第i条染色体,p(ki)为ki被选中的概率,
Figure BDA0003427219240000082
为λ为ki时的训练均方误差,J为染色体的个数。
4)交叉。对两个相互配对的染色体按照固定两个位置相互交换基因,从而形成两个新的染色体。
5)变异。对染色体的固定位置以66%概率进行变异,从而形成新的染色体。
6)判断是否达到繁殖次数,如果达到,输出适应度最小的λ,并结束;未达到,则输入3)4)5)生成的新种群,并返回2)
通过以上流程可以求得稀疏自编码器的局部最优λ。
之后将λ作为li范式的参数带入稀疏自编码器中进行训练,确定异常数据阈值,获得异常流量检测模型。在训练阶段本模块所使用的训练样本是同一设备类型的正常流量数据,训练出具有针对性与设备类别绑定的异常流量检测模型。在检测阶段,将特定设备类型流量特征输入到与之对应的异常流量检测模型中检测。例如在训练阶段针对d-linkcamera 930l类别的设备正常流量训练出d-link camera 930l类别的异常流量检测模型。在异常流量检测阶段,将d-link camera 930l类别的流量输入到与之对应的d-linkcamera 930l类别的异常流量检测模型中。
4.联邦学习模块
本模块主要负责在异常流量检测模型训练阶段来联合多个不同分布的数据集来共同训练异常检测模型。当打开联邦学习模式时,可以联合其他局域网在不分享数据的情况下进行联合学习,提高预设异常流量检测模型的检测准确率。
联邦学习的具体实现步骤如下所示:
1)各个训练参与方(可以是多个局域网)各自从安全服务中心下载设备类型k(例如设备类型d-link camer 930l)的最新模型或者获得一个随机的模型参数;
2)每个参与方利用本地数据训练设备类型k的模型;
3)各方将本地设备类型k的模型参数上传给安全服务中心;
4)安全服务中心聚合各用户的参数更新设备类型k的模型参数,判断是否符合训练结束条件,如达到一定的训练轮次或模型损失值小于设定值,如果符合就结束并将设备类型k的模型参数返回给各个参与方,不符合回到step1。
使用联邦学习之后,多个局域网可以在不共享数据的情况下,一起训练设备类型k异常流量检测模型。
5.基于迁移学习的新设备异常流量检测模块
本模块主要设备类型不断增加时,异常流量检测模型都需要重头开始训练,更新都带来成本消耗,本模块旨在减小新设备类型出现时的训练成本。
首先将设备类型使用word2vec处理成词向量,当新设备加入时使用词向量时使用欧式距离计算设备首先计算设备之间的相似度,找出与新设备最相似的设备类型.欧式距离的公式如下所示:
Figure BDA0003427219240000091
其中d代表距离,xi代表的x向量的第i维,yi代表y向量的第i维。
之后提取相似设备的模型参数初始化新设备的异常流量检测模型,并使用新设备正常流量数据对模型进行微调,得到新设备的异常流量检测模型,节省训练时间。
本模块主要针对网络中出现新的设备类型,更快的训练设备模型
下面以两个实例对本发明进行具体说明:
实例1基于设备类型的自编码器异常流量检测
以部署在某个局域网网关为例:
异常流量检测模型训练阶段
1)使用tcpdump对指定局域网出入口流量进行捕获;
2)使用已有的设备类型识别技术,对局域网中的设备类型进行标记,生成mac地址和设备类型的对应关系;
3)提取流量特征;
3)将流量特征按照mac地址确定设备类型,将其输入到与其设备类型绑定的5层自编码异常流量检测模型中训练模型;
4)明确每种设备类型正常流量损失值边界,并以此为阈值作为判断是否是该设备正常流量的依据。
异常流量检测模型检测阶段
1)使用tcpdump对指定局域网出入口流量进行捕获;
2)使用已有的设备类型识别技术,识别出流量对应的设备类型;
3)提取流量特征;
4)将流量特征将其输入到与其设备类型绑定的5层自编码异常流量检测模型中计算损失值。
5)超过阈值的判断为异常流量。
实例2基于联邦学习的异常流量检测模型聚合
以部署在某个局域网网关上为例:
异常流量检测模型训练阶段
1)使用tcpdump对指定局域网出入口流量进行捕获;
2)使用已有的设备类型识别技术,对局域网中的设备类型进行标记,生成mac地址和设备类型的对应关系;
3)提取流量特征;
4)将流量特征按设备类型输入到与设备类型绑定的5层自编码异常流量检测模型中训练模型固定轮次;
5)将训练好的模型参数上传给安全服务中心;
6)安全服务中心对多个局域网训练的同一设备类型的异常流量检测模型参数进行聚合,判断是否符合训练结束条件,如达到一定的训练轮次或模型损失值小于设定值,如果符合就结束并将设备类型k的模型参数返回给各个参与方,不符合回到1)继续训练;
7)明确每种设备类型正常流量损失值边界,并以此为阈值作为判断是否是该设备正常。
异常流量检测模型检测阶段
1)使用tcpdump对指定局域网出入口流量进行捕获;
2)使用已有的设备类型识别技术,识别出流量对应的设备类型;
3)提取流量特征;
4)将流量特征将其输入到与其设备类型绑定的5层自编码异常流量检测模型中计算损失值。
5)超过阈值的判断为异常流量。
实验数据
实验数据集:
1)正常数据集,如表1所示:
模型类别 正常数据量(flow)
computer|macos 86489
computer|windows 80917
d-link|camera|930l 6757
phone|android 68258
表12)异常数据集,如表2所示:
Figure BDA0003427219240000111
表2
1、实验1:
分类别和不分类别结果,如表3所示:
Figure BDA0003427219240000112
实验结论:
基于设备类型分类的异常流量检测技术相比于未分类技术,对于botnet、渗透类别的异常数据识别准确率有明显提高,分别提高了13%、8%,并且针对type3-dlink|camera|d930l的异常识别准确率可以达到100%,且假阳率为0,相比于未分类技术效果显著。
2、实验2
基于稀疏自编码器的无监督异常检测算法在computer|windows数据集上的实验结果,如
表4所示:
Figure BDA0003427219240000121
表4
实验结论:
稀疏自编码器在type2-computer|windows类别的botnet、渗透异常数据识别准确率上明显高于baseline,扫描和dos持平。
3、实验3
联邦自编码器算法在computer|windows数据集的实验结果,如表5所示:
Figure BDA0003427219240000122
表5
实验结论:
基于联邦学习的设备异常检测模型聚合技术相比于局域网单独学习能够有效的利用多个局域网数据集的知识,提高异常数据的识别准确率。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于设备类型的异常流量检测方法,其步骤包括:
构建设备mac地址和设备类型之间的映射关系;
提取待检测流量中的设备mac地址,并基于所述映射关系,选取相应设备类型的异常流量检测模型,其中通过以下步骤获取所述异常流量检测模型:
将该相应设备类型的正常流量训练集作为训练样本;
将稀疏自编码器所使用的li范式参数编码作为遗传空间的染色体,并使用稀疏自编码器训练过程的损失值作为适应度;
初始化种群大小与种群中的初始染色体;
计算每一染色体
Figure FDA0003427219230000011
为范式参数时的适应度
Figure FDA0003427219230000012
并基于染色体
Figure FDA0003427219230000013
繁殖染色体
Figure FDA0003427219230000014
其中i为染色体编号,t为繁殖次数,t≤T,T为繁殖次数;
根据最小的适应度
Figure FDA0003427219230000015
得到最优范式参数,并基于最优范式参数对稀疏自编码器进行正则化,以获取异常流量检测模型;
将所述待检测流量的流量特征输入相应设备类型的异常流量检测模型,得到异常流量检测结果。
2.如权利要求1所述的方法,其特征在于,获取待检测流量的方法包括:使用wirshark或者tcpdump对指定局域网出入口流量进行捕获。
3.如权利要求1所述的方法,其特征在于,通过以下步骤构建所述映射关系:
1)提取各设备类型流量样本的设备识别特征;
2)基于设备识别特征,并使用多视图广深算法,获取被动识别结果;
3)使用nmap对各设备类型流量样本进行主动扫描,获取主动识别结果;
4)根据被动识别结果与主动识别结果,得到设备mac地址和设备类型之间得映射关系。
4.如权利要求3所述的方法,其特征在于,设备识别特征包括:广播包特征和http流量特征;广播包特征包括:dhcp协议、mdns协议、ssdp协议、llmnr协议和nbns协议的数据包特征;http流量特征包括:user-agent字段。
5.如权利要求1所述的方法,其特征在于,所述损失值包括:均方误差;繁殖方法包括:基于适应度计算作为父母的概率、配对染色体交换基因和染色体变异中的至少一种。
6.如权利要求1所述的方法,其特征在于,训练稀疏自编码器的损失函数
Figure FDA0003427219230000016
Figure FDA0003427219230000017
其中n为稀疏自编码器输入向量的维度,xp为输入向量的第p维值,
Figure FDA0003427219230000018
为输出向量的第p维值,m为稀疏自编码器中间层的神经元数量,λ为最优范式参数,wq为中间层中第q个神经元权重。
7.如权利要求1所述的方法,其特征在于,流量特征包括:数据包的大小、流持续时间、ttl、window、flag统计值和固定时间内相同源ip与目的ip的tcp统计数;将流量特征输入相应设备类型的异常流量检测模型之前,对流量特征进行预处理;所述预处理的方法包括:对流量特征进行归一化处理。
8.如权利要求1所述的方法,其特征在于,所述异常流量检测方法适用于多个局域网时,通过联邦学习方法训练异常流量检测模型,包括:
每一训练参与方u从安全服务中心获取设备类型k的异常流量检测模型
Figure FDA0003427219230000021
或设备类型k的异常流量检测模型参数
Figure FDA0003427219230000022
基于异常流量检测模型
Figure FDA0003427219230000023
或异常流量检测模型参数
Figure FDA0003427219230000024
使用本地正常流量训练集进行训练,得到异常流量检测模型
Figure FDA0003427219230000025
其中v为训练轮次;
将异常流量检测模型
Figure FDA0003427219230000026
的参数
Figure FDA0003427219230000027
上传给安全服务中心;
安全服务中心根据参数
Figure FDA0003427219230000028
获取异常流量检测模型
Figure FDA0003427219230000029
与异常流量检测模型参数
Figure FDA00034272192300000210
当训练轮次v达到设定训练轮次或异常流量检测模型
Figure FDA00034272192300000211
的损失值小于设定值,将异常流量检测模型
Figure FDA00034272192300000212
作为训练好的设备类型k异常流量检测模型。
9.如权利要求1所述的方法,其特征在于,通过以下步骤对异常流量检测模型进行新设备类型的迁移:
1)使用word2vec方法,将原有设备类型与新设备类型分别处理成词向量;
2)基于词向量之间的欧式距离,获取与新设备类型最相似的原有设备类型;
3)使用新设备类型的训练数据,对最相似原有设备类型的异常流量检测模型进行训练,得到新设备类型的异常流量检测模型。
10.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-9中任一所述方法。
CN202111581477.XA 2021-12-22 2021-12-22 一种基于设备类型的异常流量检测方法及装置 Pending CN114445671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111581477.XA CN114445671A (zh) 2021-12-22 2021-12-22 一种基于设备类型的异常流量检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111581477.XA CN114445671A (zh) 2021-12-22 2021-12-22 一种基于设备类型的异常流量检测方法及装置

Publications (1)

Publication Number Publication Date
CN114445671A true CN114445671A (zh) 2022-05-06

Family

ID=81363724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111581477.XA Pending CN114445671A (zh) 2021-12-22 2021-12-22 一种基于设备类型的异常流量检测方法及装置

Country Status (1)

Country Link
CN (1) CN114445671A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666577A (zh) * 2022-05-24 2022-06-24 杭州海康威视数字技术股份有限公司 一种基于视频行为距离的设备异常检测方法和装置
CN116405330A (zh) * 2023-06-08 2023-07-07 北京金睛云华科技有限公司 基于迁移学习的网络异常流量识别方法、装置和设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666577A (zh) * 2022-05-24 2022-06-24 杭州海康威视数字技术股份有限公司 一种基于视频行为距离的设备异常检测方法和装置
CN116405330A (zh) * 2023-06-08 2023-07-07 北京金睛云华科技有限公司 基于迁移学习的网络异常流量识别方法、装置和设备
CN116405330B (zh) * 2023-06-08 2023-08-22 北京金睛云华科技有限公司 基于迁移学习的网络异常流量识别方法、装置和设备

Similar Documents

Publication Publication Date Title
Ullah et al. Design and development of a deep learning-based model for anomaly detection in IoT networks
Lansky et al. Deep learning-based intrusion detection systems: a systematic review
Qu et al. A survey on the development of self-organizing maps for unsupervised intrusion detection
CN109698836B (zh) 一种基于深度学习的无线局域网入侵检测方法和***
Süzen Developing a multi-level intrusion detection system using hybrid-DBN
Peng et al. Network intrusion detection based on deep learning
Shitharth et al. An innovative perceptual pigeon galvanized optimization (PPGO) based likelihood Naïve Bayes (LNB) classification approach for network intrusion detection system
CN114445671A (zh) 一种基于设备类型的异常流量检测方法及装置
Bodström et al. State of the art literature review on network anomaly detection with deep learning
Bhaya et al. DDoS attack detection approach using an efficient cluster analysis in large data scale
Fries A fuzzy-genetic approach to network intrusion detection
Khedr et al. FMDADM: A multi-layer DDoS attack detection and mitigation framework using machine learning for stateful SDN-based IoT networks
Zomlot et al. Aiding intrusion analysis using machine learning
Ahmad et al. Early detection of network attacks using deep learning
Fu et al. An algorithm for detection of traffic attribute exceptions based on cluster algorithm in industrial internet of things
Wang et al. FeCo: Boosting intrusion detection capability in IoT networks via contrastive learning
Xu et al. [Retracted] DDoS Detection Using a Cloud‐Edge Collaboration Method Based on Entropy‐Measuring SOM and KD‐Tree in SDN
Zhu et al. CMTSNN: A deep learning model for multiclassification of abnormal and encrypted traffic of Internet of Things
Wang et al. Attack detection analysis in software-defined networks using various machine learning method
Samha et al. Intrusion detection system using hybrid convolutional neural network
Raghavendra et al. Detecting IoT botnets on IoT edge devices
Shi et al. Nowhere to hide: A novel private protocol identification algorithm
US20230095966A1 (en) Intrusion detection method based on improved immune network algorithm, and application thereof
Manandhar et al. Intrusion detection based on outlier detection method
Yang et al. IoT botnet detection with feature reconstruction and interval optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination