CN113298125B - 基于特征选择的物联网设备流量异常检测方法、装置及存储介质 - Google Patents

基于特征选择的物联网设备流量异常检测方法、装置及存储介质 Download PDF

Info

Publication number
CN113298125B
CN113298125B CN202110503165.0A CN202110503165A CN113298125B CN 113298125 B CN113298125 B CN 113298125B CN 202110503165 A CN202110503165 A CN 202110503165A CN 113298125 B CN113298125 B CN 113298125B
Authority
CN
China
Prior art keywords
internet
things equipment
data
feature
data stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110503165.0A
Other languages
English (en)
Other versions
CN113298125A (zh
Inventor
江凌云
刘祥军
邓贤旸
朱洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110503165.0A priority Critical patent/CN113298125B/zh
Publication of CN113298125A publication Critical patent/CN113298125A/zh
Application granted granted Critical
Publication of CN113298125B publication Critical patent/CN113298125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于特征选择的物联网设备流量异常检测方法、装置及存储介质,旨在解决现有技术中缺乏物联网设备流量异常检测方法的技术问题。所述方法包括基于预设的阻尼时间窗口采集物联网设备的流量,对流量进行分类和特征提取获得物联网设备的多个样本;利用随机森林算法对物联网设备的多个样本进行迭代运算,获得物联网设备的最优特征子集;基于最优特征子集对物联网设备进行流量异常检测。本发明能够为异构的物联网设备选择合适的特征信息,提高流量异常检测的效率和准确度。

Description

基于特征选择的物联网设备流量异常检测方法、装置及存储 介质
技术领域
本发明涉及一种基于特征选择的物联网设备流量异常检测方法、装置及存储介质,属于物联网信息安全技术领域。
背景技术
随着物联网的快速发展,全球部署的物联网设备的数量急剧增加。然而,大多数的物联网设备受到生产成本的限制,设备的计算、存储能力有限,不能安装复杂的安全机制。另外,大多数物联网设备的生产商都是不具备网络安全专业知识的传统家用电器制造商,这些厂商的开发团队往往不遵循安全的软件开发惯例,例如,重复使用未经验证的代码、不安全的第三方库等。这些因素导致了面向消费者市场的物联网设备很多都是存在安全隐患的,当这些设备接入互联网,整个网络环境的恶意攻击行为将会更加肆意蔓延且检测难度会大大增加。
相对于传统互联网,物联网中的设备具备以下特点:1、大多数的物联网设备硬件资源受限,如计算能力低,存储及电池电量小;2、异构物联网设备的流量类型差异性很大;3、单台物联网设备产生的流量很少,但海量设备与服务器之间的流量巨大;4、物联网设备工作模式和用户的使用习惯有很大关联,在不同的时间段,流量变化很大。目前传统网络中的流量异常检测方案非常丰富,但是由于物联网设备的计算资源和内存资源普遍不足和网络协议等问题,传统的检测技术难以应用于物联网中,因此针对物联网设备特点的流量异常检测方案还比较少。
发明内容
为了解决现有技术中缺乏物联网设备流量异常检测方法的问题,本发明提出了一种基于特征选择的物联网设备流量异常检测方法、装置及存储介质,为异构的物联网设备选择合适的特征信息,降低待检测数据的维度,从而达到降低流量预处理过程的复杂度、提高检测的效率的目的。
为解决上述技术问题,本发明采用了如下技术手段:
第一方面,本发明提出了基于特征选择的物联网设备流量异常检测方法,包括如下步骤:
基于预设的阻尼时间窗口采集物联网设备的流量,对流量进行分类和特征提取获得物联网设备的多个样本,每个样本均包括N个特征,不同样本中的特征值不同;
利用随机森林算法对物联网设备的多个样本进行迭代运算,获得物联网设备的最优特征子集;
基于最优特征子集对物联网设备进行流量异常检测。
结合第一方面,进一步的,物联网设备的每个样本的获取方法为下:
根据数据包参数对物联网设备的流量进行分类,获得分类后的数据流,其中,所述数据包参数包括MAC地址、源IP地址、目的IP地址、源IP-Socket地址和目的IP-Socket地址;
根据数据增量对分类后的数据流进行特征提取,获得物联网设备的样本。
结合第一方面,进一步的,根据数据包参数对每个阻尼时间窗口采集到的流量进行分类的具体操作如下:
获取流量的数据包参数;
将MAC地址、源IP地址、目的IP地址均相同的数据包存储到MAC_IP类别的数据流中;
将源IP地址相同的数据包存储到Src_IP类别的数据流中;
将源IP地址和目的IP地址均相同的数据包存储到Channel类别的数据流中;
将源IP-Socket地址和目的IP-Socket地址均相同的数据包存储到Socket类别的数据流中。
结合第一方面,进一步的,根据数据增量对分类后的数据流进行特征提取的具体操作如下:
根据阻尼时间窗口的衰减因子给分类后的每个数据流配置一个五元组,所述五元组为:
TSi,λ=(w,LS,SS,SRmn,Tlast) (1)
其中,TSi,λ表示衰减因子为λ的阻尼时间窗口内第i个数据流的五元组,w表示当前时刻数据流中数据包的数量,LS表示当前时刻数据流中数据包之和,SS表示当前时刻数据流中数据包的平方和,SRmn表示数据流中第m个数据包与第n个数据包之间的相关系数,m,n∈[1,w],Tlast表示上一次更新五元组TSi,λ的时间,i=1,2,…,H,H为分类后的数据流的总数;
基于阻尼时间窗口内的数据增量更新每个数据流的五元组;
根据更新后的五元组提取每个数据流的特征,并计算特征值,特征值的计算公式包括:
μsi=LS/w (2)
Figure BDA0003057211700000041
Figure BDA0003057211700000042
Figure BDA0003057211700000043
Figure BDA0003057211700000044
Figure BDA0003057211700000045
其中,Si表示第i个数据流,Sj表示第j个数据流,j=1,2,...,H且j≠i,
Figure BDA0003057211700000046
表示Si中数据包的加权平均大小,
Figure BDA0003057211700000047
表示Si中数据包的标准均方差,||Si,Sj||表示Si和Sj的二维均值,
Figure BDA0003057211700000048
表示Sj中数据包的加权平均大小,
Figure BDA0003057211700000049
表示Si和Sj的二维方差,
Figure BDA00030572117000000410
表示Sj中数据包的标准均方差,
Figure BDA00030572117000000411
表示Si和Sj的二维协方差,wi表示Si中数据包的数量,wj表示Sj中数据包的数量,
Figure BDA00030572117000000412
表示Si和Sj的相关系数;
利用所有阻尼时间窗口内所有数据流的特征值组成物联网设备的样本。
结合第一方面,进一步的,利用随机森林算法对物联网设备的多个样本进行迭代运算并获得物联网设备的最优特征子集的具体操作如下:
(1)利用随机森林算法计算物联网设备的所有样本中每个特征的重要性总分和当前迭代的分类准确率;
(2)根据重要性总分利用后向搜索将所有样本中重要性总分最小的特征去除,得到更新后的样本,并将更新后的样本作为当前迭代的特征子集;
(3)基于更新后的样本重复步骤(1)、(2),直到更新后的样本中特征的数量等于1;
(4)依次比较每次迭代的分类准确率,选择分类准确率最大的迭代对应的特征子集作为物联网设备的最优特征子集。
结合第一方面,进一步的,在每次迭代过程中,每个特征的重要性总分和当前迭代的分类准确率的计算方法包括如下步骤:
基于5折交叉验证方法将物联网设备的多个样本划分为不重叠的五个样本集;
利用随机森林算法依次处理每个样本集,根据特征值计算每个样本集中每个特征的重要性得分,并获得当前迭代的分类准确率;
将五个样本集中相同特征的重要性得分相加,得到每个特征的重要性总分。
第二方面,本发明提出了基于特征选择的物联网设备流量异常检测装置,包括:
流量采集模块,用于基于预设的阻尼时间窗口采集物联网设备的流量;
流量分类模块,用于根据数据包参数对物联网设备的流量进行分类,获得分类后的数据流;
特征提取模块,用于根据数据增量对分类后的数据流进行特征提取,获得物联网设备的样本;
特征选择模块,用于利用随机森林算法对物联网设备的多个样本进行迭代运算,获得物联网设备的最优特征子集;
异常检测模块,用于基于最优特征子集物联网设备进行流量异常检测。
结合第二方面,进一步的,每个样本均包括N个特征,特征名称包括数据包数量、加权平均大小、标准均方差、二维均值、二维方差、二维协方差和相关系数。第三方面,本发明提出了基于特征选择的物联网设备流量异常检测装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行本发明第一方面所述方法的步骤。
第四方面,本发明提出了计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面所述方法的步骤。
采用以上技术手段后可以获得以下优势:
本发明提出了一种基于特征选择的物联网设备流量异常检测方法、装置及存储介质,基于阻尼时间窗口进行流量采集,相比滑动时间窗口,阻尼时间窗口不规定窗口内的数据包个数,采集效率更高,而且能够描述设备最近行为问题;本发明对采集到的流量进行分类和特征提取,能够从不同的角度描述设备流量的特点,有利于捕获到设备的异常状态,提高检测算法的泛化性能。本发明基于随机森林算法提出来一种包裹式特征选择算法,可以根据特征重要性进行迭代运算,给异构的物联网设备动态搜索出适合该设备型号的最优特征子集,相比没有进行流量的特征选择,本发明可以有效降低模型的训练时间和异常检测时间。
本发明基于数据增量来计算特征信息,可以在动态数量的数据流上进行高速的特征信息的提取,这种特征计算方法具有O(1)的空间复杂度,占用设备内存很小,可以有效解决物联网设备产生的海量数据会导致检测***的内存不足的问题;此外,考虑到物联网设备资源受限的特点,本发明采用低复杂度的与时间有关的特征信息,可以有效降低特征提取阶段的工作负担,提高物联网设备流量异常检测的准确度和效率。
附图说明
图1为本发明一种基于特征选择的物联网设备流量异常检测方法的步骤流程图;
图2为本发明实施例中物联网设备流量异常检测的工作流程图;
图3为本发明实施例中物联网的网络层次结构图;
图4为本发明基于特征选择的物联网设备流量异常检测装置的结构示意图;
图中,1是流量采集模块,2是流量分类模块,3是特征提取模块,4是特征选择模块,5是异常检测模块。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明:
本发明提出了基于特征选择的物联网设备流量异常检测方法,如图1、2所示,具体包括如下步骤:
步骤A、基于预设的阻尼时间窗口采集物联网设备的流量,对流量进行分类和特征提取获得物联网设备的多个样本。本发明可以根据预设的阻尼时间窗口在不同时刻对物联网设备进行流量采集,利用每次采集的流量可以获得物联网设备的一个样本,通过多次采集获得多个样本,每个样本均包括N个特征,不同样本中的特征值不同。
物联网体系架构主要由感知层、网络层与应用层三部分组成,感知层主要完成信息的采集,它包含了大量的各种类型的物联网设备,这些设备的计算、存储能力受限;网络层是进行信息交换、传递数据的通路,其典型的设备就是网关,而边缘网关一般指地理位置接近感知层设备的网关,是感知层设备最容易获取计算资源的节点;应用层主要解决信息处理和人机界面的问题,通过分析、处理感知层的数据进行控制、管理以及决策,并提供人们所需的信息服务,应用层的地理位置离感知层设备较远,端到端往返时延较大。物联网的网络层次一般如图3所示,在物联网环境中,设备产成的数据流首先在网关处汇聚,多个网关设备数据流再汇聚到路由器,最终连接到互联网上。汇聚后的数据流包含多台设备的流量,增加了对于某台物联网设备异常流量检测的难度。考虑到感知层设备性能受限,不能部署复杂的安全机制的问题,本发明将安全检测***部署在离物联网设备较近的边缘网关处,从而更精确地区分不同设备产生的流量,此外,边缘网关还可以利用不同的物理端口区分来自不同类型物联网设备产生的流量。
在本发明实施例中,步骤A的具体操作如下:
步骤A01、基于预设的阻尼时间窗口采集物联网设备的流量。本发明可以根据实际需求设置不同时间跨度的阻尼时间窗口(预设一个或多个衰减因子),规定阻尼时间窗口的时间间隔T,而不限定阻尼时间窗口内的数据个数,在窗口内接收到的数据包,其权重随时间呈指数下降,对应的衰变函数为:
dλ(t)=2-λt (8)
其中,λ(>0)为衰变因子,t为在阻尼时间窗口内该数据包到最后一个接收数据包的时间间隔,阻尼时间窗口内接收的最后一个数据对应的t=0,阻尼时间窗口内接收的第一个数据包的t=T。阻尼时间窗口能够解决用滑动窗口采集的流量有时不能描述设备最近行为问题。
步骤A02、根据数据包参数对物联网设备的流量进行分类,获得分类后的数据流;具体操作为:
A021、获取流量的数据包参数,其中,数据包参数包括MAC地址、源IP地址、目的IP地址、源IP-Socket地址和目的IP-Socket地址等。
A022、根据数据包参数将物联网设备的流量分成四类:①、将MAC地址、源IP地址、目的IP地址均相同的数据包存储到MAC_IP类别的数据流中;②、将源IP地址相同的数据包存储到Src_IP类别的数据流中;③、将源IP地址和目的IP地址均相同的数据包存储到Channel类别的数据流中;④、将源IP-Socket地址和目的IP-Socket地址均相同的数据包存储到Socket类别的数据流中。因为数据包参数值不一样,所以分类后可能包括多个数据流,这些数据流分属于上面4类。对流量进行分类可以从不同的角度描述出设备流量的特点,后续提取出的特征能更加详细地捕获到设备的异常状态,提高检测算法的泛化性能。
步骤A03、根据数据增量对分类后的数据流进行特征提取,获得物联网设备的样本。本发明设计了一种基于数据增量来计算特征信息的框架,它可以在动态数量的数据流上进行高速的特征信息的提取,该框架通过维护一个数组TS来计算特征信息,不用把阻尼时间窗口内收集到的所有的数据都记录在内存中,当阻尼窗口中新增加一个数据,只需要根据新增的数据更新TS中的特征信息即可,具体的:
A031、根据阻尼时间窗口的衰减因子给分类后的每个数据流配置一个五元组,所述五元组为:
TSi,λ=(w,LS,SS,SRmn,Tlast) (9)
其中,TSi,λ表示衰减因子为λ的阻尼时间窗口内第i个数据流的五元组,w表示当前时刻数据流中数据包的数量,LS表示当前时刻数据流中数据包之和,SS表示当前时刻数据流中数据包的平方和,SRmn表示数据流中第m个数据包与第n个数据包之间的相关系数,m,n∈[1,w],Tlast表示上一次更新五元组TSi,λ的时间,i=1,2,…,H,H为分类后的数据流的总数。
A032、基于阻尼时间窗口内的数据增量更新每个数据流的五元组,具体更新算法如下表所示:
表1
Figure BDA0003057211700000101
Figure BDA0003057211700000111
表1中,xcur表示当前时刻接收到的数据包的大小,Tcur表示当前时刻,xm表示第m个数据包的大小。
A033、根据更新后的五元组提取每个数据流的特征,并计算特征值;在本发明实施例中,特征名称包括数据包数量、加权平均大小、标准均方差、二维均值、二维方差、二维协方差和相关系数,每个特征的特征值的计算公式如下:
Figure BDA0003057211700000112
Figure BDA0003057211700000113
Figure BDA0003057211700000114
Figure BDA0003057211700000115
Figure BDA0003057211700000116
Figure BDA0003057211700000117
其中,Si表示第i个数据流,Sj表示第j个数据流,j=1,2,...,H且j≠i,
Figure BDA0003057211700000118
表示Si中数据包的加权平均大小,
Figure BDA0003057211700000119
表示Si中数据包的标准均方差,||Si,Sj||表示Si和Sj的二维均值,
Figure BDA00030572117000001110
表示Sj中数据包的加权平均大小,
Figure BDA00030572117000001111
表示Si和Sj的二维方差,
Figure BDA00030572117000001112
表示Sj中数据包的标准均方差,
Figure BDA00030572117000001113
表示Si和Sj的二维协方差,wi表示Si中数据包的数量,wj表示Sj中数据包的数量,
Figure BDA00030572117000001114
表示Si和Sj的相关系数。
本发明实施例给出了一种具体的特征提取标准,如表2所示:
表2
Figure BDA0003057211700000121
按照表2中的标准,一个阻尼时间窗口内可以提取23个特征。阻尼时间窗口的数量和窗口的持续时间可以根据实际情况决定,一般地为了全面的描述出流量随时间变化的特征,可以设置五个阻尼时间窗口,持续时间分别为:100毫秒、500毫秒、1.5秒、10秒和1分钟,对应的衰变因子λ分别为:5、3、1、0.1、0.01,当本发明设置5个阻尼时间窗口时,每次采集到的流量一共可以提取23*5=115个特征。
A034、利用所有阻尼时间窗口内所有数据流的特征值组成物联网设备的一个样本,当本发明设置5个阻尼时间窗口时,一个样本中有115个特征。
本发明特征提取方法具有O(1)的空间复杂度,时间复杂度变为O(N),由于计算这些统计特征的复杂度很低,所以用时间复杂度的升高换取空间复杂度的降低是合算的,而且本发明采用低复杂度的与时间有关的特征信息,占用设备内存很小,灵活性高,可以有效解决设备产生的海量数据会导致检测***的内存不足的问题,减轻特征信息提取时设备的工作负担。
步骤B、利用随机森林算法对物联网设备的多个样本进行迭代运算,获得物联网设备的最优特征子集;本发明设计了一种基于随机森林的包裹式特征选择算法RFCVFS,根据样本中每个特征的重要性对特征进行排序,并按顺序删除重要性低的特征,直到获得满足要求的最优特征子集,具体操作如下:
步骤B01、利用随机森林算法计算物联网设备的所有样本中每个特征的重要性总分和当前迭代的分类准确率;具体的:
①、将物联网设备的所有样本输入随机森林算法,基于5折交叉验证方法将物联网设备的多个样本划分为不重叠的五个样本集,选择其中4份作为训练集,剩下1份作为验证集或者测试机。
②、初始化随机森林算法的参数、每个特征的重要性得分FScore=0和重要性总分TotalScore=0;利用随机森林算法依次处理每个样本集,每次处理时利用其中一个样本集构建随机森林分类器,然后根据样本集中的特征值计算每个样本集中每个特征的重要性得分,并获得当前迭代的分类准确率。
③将五个样本集中相同特征的重要性得分相加,得到每个特征的重要性总分:
Figure BDA0003057211700000141
其中,TotalScorek表示第k个特征的重要性总分,
Figure BDA0003057211700000142
表示第g个样本集中第k个特征的重要性得分,k=1,2,...,N,N为特征数量。
步骤B02、根据重要性总分利用后向搜索将所有样本中重要性总分最小的特征去除,得到更新后的样本,并将更新后的样本作为当前迭代的特征子集。
步骤B03、基于更新后的样本重复步骤B01、B02,直到更新后的样本中特征的数量等于1。
步骤B04、依次比较每次迭代的分类准确率,选择分类准确率最大的迭代对应的特征子集作为物联网设备的最优特征子集。
本发明的特征提取方法能够为不同类型的物联网设备筛选出有效的特征信息,并用于训练对应的检测模型,实现对攻击流量的高效准确的检测。
步骤C、基于最优特征子集对物联网设备进行流量异常检测,获得流量异常检测结果。
本发明还提出了基于特征选择的物联网设备流量异常检测装置,如图4所示,主要包括流量采集模块1、流量分类模块2、特征提取模块3、特征选择模块4、异常检测模块5,其中,流量采集模块用于基于预设的阻尼时间窗口采集物联网设备的流量;流量分类模块用于根据数据包参数对物联网设备的流量进行分类,获得分类后的数据流;特征提取模块用于根据数据增量对分类后的数据流进行特征提取,获得物联网设备的样本,每个样本均包括N个特征,特征名称包括数据包数量、加权平均大小、标准均方差、二维均值、二维方差、二维协方差和相关系数。流量采集模块、流量分类模块和特征提取模块的工作原理与本发明方法的步骤A一致。特征选择模块主要用于利用随机森林算法对物联网设备的多个样本进行迭代运算,获得物联网设备的最优特征子集,其工作原理与本发明方法的步骤B一致。异常检测模块主要用于基于最优特征子集物联网设备进行流量异常检测,获得物联网设备的流量异常检测结果。
本发明还提出了基于特征选择的物联网设备流量异常检测装置,包括处理器及存储介质;其中,存储介质用于存储指令;处理器用于根据所述指令进行操作以执行本发明物联网设备流量异常检测方法的步骤。
本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明物联网设备流量异常检测方法的步骤。
本发明能够高效、准确的进行物联网特征提取、特征选择,并基于此进行准确的物联网设备流量异常检测,不需要物联网设备按照复杂的安全机制,也不会过多占用物联网设备的资源,能够在有限的计算资源和内存资源下对网络恶意攻击进行检测,使得部署在边缘网关上的安全检测***可以高效的运行,有利于提高物联网的网络安全。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.基于特征选择的物联网设备流量异常检测方法,其特征在于,包括如下步骤:
基于预设的阻尼时间窗口采集物联网设备的流量,对流量进行分类和特征提取获得物联网设备的多个样本,每个样本均包括N个特征,不同样本中的特征值不同;
利用随机森林算法对物联网设备的多个样本进行迭代运算,获得物联网设备的最优特征子集;
基于最优特征子集对物联网设备进行流量异常检测;
物联网设备的每个样本的获取方法为下:
根据数据包参数对物联网设备的流量进行分类,获得分类后的数据流,其中,所述数据包参数包括MAC地址、源IP地址、目的IP地址、源IP-Socket地址和目的IP-Socket地址;
根据数据增量对分类后的数据流进行特征提取,获得物联网设备的样本;
根据数据增量对分类后的数据流进行特征提取的具体操作如下:
根据阻尼时间窗口的衰减因子给分类后的每个数据流配置一个五元组,所述五元组为:
TSi,λ=(w,LS,SS,SRmn,Tlast)
其中,TSi,λ表示衰减因子为λ的阻尼时间窗口内第i个数据流的五元组,w表示当前时刻数据流中数据包的数量,LS表示当前时刻数据流中数据包之和,SS表示当前时刻数据流中数据包的平方和,SRmn表示数据流中第m个数据包与第n个数据包之间的相关系数,m,n∈[1,w],Tlast表示上一次更新五元组TSi,λ的时间,i=1,2,…,H,H为分类后的数据流的总数;
基于阻尼时间窗口内的数据增量更新每个数据流的五元组;
根据更新后的五元组提取每个数据流的特征,并计算特征值,特征值的计算公式包括:
Figure FDA0003716125240000021
Figure FDA0003716125240000022
Figure FDA0003716125240000023
Figure FDA0003716125240000024
Figure FDA0003716125240000025
Figure FDA0003716125240000026
其中,Si表示第i个数据流,Sj表示第j个数据流,j=1,2,...,H且j≠i,
Figure FDA0003716125240000027
表示Si中数据包的加权平均大小,
Figure FDA0003716125240000028
表示Si中数据包的标准均方差,||Si,Sj||表示Si和Sj的二维均值,
Figure FDA0003716125240000029
表示Sj中数据包的加权平均大小,
Figure FDA00037161252400000210
表示Si和Sj的二维方差,
Figure FDA00037161252400000211
表示Sj中数据包的标准均方差,
Figure FDA00037161252400000212
表示Si和Sj的二维协方差,wi表示Si中数据包的数量,wj表示Sj中数据包的数量,
Figure FDA00037161252400000213
表示Si和Sj的相关系数;
利用所有阻尼时间窗口内所有数据流的特征值组成物联网设备的样本。
2.根据权利要求1所述的基于特征选择的物联网设备流量异常检测方法,其特征在于,根据数据包参数对每个阻尼时间窗口采集到的流量进行分类的具体操作如下:
获取流量的数据包参数;
将MAC地址、源IP地址、目的IP地址均相同的数据包存储到MAC_IP类别的数据流中;
将源IP地址相同的数据包存储到Src_IP类别的数据流中;
将源IP地址和目的IP地址均相同的数据包存储到Channel类别的数据流中;
将源IP-Socket地址和目的IP-Socket地址均相同的数据包存储到Socket类别的数据流中。
3.根据权利要求1所述的基于特征选择的物联网设备流量异常检测方法,其特征在于,利用随机森林算法对物联网设备的多个样本进行迭代运算并获得物联网设备的最优特征子集的具体操作如下:
(1)利用随机森林算法计算物联网设备的所有样本中每个特征的重要性总分和当前迭代的分类准确率;
(2)根据重要性总分利用后向搜索将所有样本中重要性总分最小的特征去除,得到更新后的样本,并将更新后的样本作为当前迭代的特征子集;
(3)基于更新后的样本重复步骤(1)、(2),直到更新后的样本中特征的数量等于1;
(4)依次比较每次迭代的分类准确率,选择分类准确率最大的迭代对应的特征子集作为物联网设备的最优特征子集。
4.根据权利要求3所述的基于特征选择的物联网设备流量异常检测方法,其特征在于,在每次迭代过程中,每个特征的重要性总分和当前迭代的分类准确率的计算方法包括如下步骤:
基于5折交叉验证方法将物联网设备的多个样本划分为不重叠的五个样本集;
利用随机森林算法依次处理每个样本集,根据特征值计算每个样本集中每个特征的重要性得分,并获得当前迭代的分类准确率;
将五个样本集中相同特征的重要性得分相加,得到每个特征的重要性总分。
5.基于特征选择的物联网设备流量异常检测装置,其特征在于,包括:
流量采集模块,用于基于预设的阻尼时间窗口采集物联网设备的流量;
流量分类模块,用于根据数据包参数对物联网设备的流量进行分类,获得分类后的数据流;
特征提取模块,用于根据数据增量对分类后的数据流进行特征提取,获得物联网设备的样本;
特征选择模块,用于利用随机森林算法对物联网设备的多个样本进行迭代运算,获得物联网设备的最优特征子集;
异常检测模块,用于基于最优特征子集物联网设备进行流量异常检测;
物联网设备的每个样本的获取方法为下:
根据数据包参数对物联网设备的流量进行分类,获得分类后的数据流,其中,所述数据包参数包括MAC地址、源IP地址、目的IP地址、源IP-Socket地址和目的IP-Socket地址;
根据数据增量对分类后的数据流进行特征提取,获得物联网设备的样本;
根据数据增量对分类后的数据流进行特征提取的具体操作如下:
根据阻尼时间窗口的衰减因子给分类后的每个数据流配置一个五元组,所述五元组为:
TSi,λ=(w,LS,SS,SRmn,Tlast)
其中,TSi,λ表示衰减因子为λ的阻尼时间窗口内第i个数据流的五元组,w表示当前时刻数据流中数据包的数量,LS表示当前时刻数据流中数据包之和,SS表示当前时刻数据流中数据包的平方和,SSRmn表示数据流中第m个数据包与第n个数据包之间的相关系数,m,n∈[1,w],Tlast表示上一次更新五元组TSi,λ的时间,i=1,2,…,H,H为分类后的数据流的总数;
基于阻尼时间窗口内的数据增量更新每个数据流的五元组;
根据更新后的五元组提取每个数据流的特征,并计算特征值,特征值的计算公式包括:
Figure FDA0003716125240000051
Figure FDA0003716125240000052
Figure FDA0003716125240000053
Figure FDA0003716125240000054
Figure FDA0003716125240000055
Figure FDA0003716125240000056
其中,Si表示第i个数据流,Sj表示第j个数据流,j=1,2,...,H且j≠i,
Figure FDA0003716125240000061
表示Si中数据包的加权平均大小,
Figure FDA0003716125240000062
表示Si中数据包的标准均方差,||Si,Sj||表示Si和Sj的二维均值,
Figure FDA0003716125240000063
表示Sj中数据包的加权平均大小,
Figure FDA0003716125240000064
表示Si和Sj的二维方差,
Figure FDA0003716125240000065
表示Sj中数据包的标准均方差,
Figure FDA0003716125240000066
表示Si和Sj的二维协方差,wi表示Si中数据包的数量,wj表示Sj中数据包的数量,
Figure FDA0003716125240000067
表示Si和Sj的相关系数;
利用所有阻尼时间窗口内所有数据流的特征值组成物联网设备的样本。
6.根据权利要求5所述的基于特征选择的物联网设备流量异常检测装置,其特征在于,每个样本均包括N个特征,特征名称包括数据包数量、加权平均大小、标准均方差、二维均值、二维方差、二维协方差和相关系数。
7.基于特征选择的物联网设备流量异常检测装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~4任一项所述方法的步骤。
8.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~4任一项所述方法的步骤。
CN202110503165.0A 2021-05-10 2021-05-10 基于特征选择的物联网设备流量异常检测方法、装置及存储介质 Active CN113298125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110503165.0A CN113298125B (zh) 2021-05-10 2021-05-10 基于特征选择的物联网设备流量异常检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110503165.0A CN113298125B (zh) 2021-05-10 2021-05-10 基于特征选择的物联网设备流量异常检测方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113298125A CN113298125A (zh) 2021-08-24
CN113298125B true CN113298125B (zh) 2022-08-16

Family

ID=77321121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110503165.0A Active CN113298125B (zh) 2021-05-10 2021-05-10 基于特征选择的物联网设备流量异常检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113298125B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115242431A (zh) * 2022-06-10 2022-10-25 国家计算机网络与信息安全管理中心 基于随机森林和长短期记忆网络的工业物联网数据异常检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023725A (zh) * 2012-12-20 2013-04-03 北京工业大学 一种基于网络流量分析的异常检测方法
CN109120632A (zh) * 2018-09-04 2019-01-01 中国人民解放军陆军工程大学 基于在线特征选择的网络流异常检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023725A (zh) * 2012-12-20 2013-04-03 北京工业大学 一种基于网络流量分析的异常检测方法
CN109120632A (zh) * 2018-09-04 2019-01-01 中国人民解放军陆军工程大学 基于在线特征选择的网络流异常检测方法

Also Published As

Publication number Publication date
CN113298125A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN111565205B (zh) 网络攻击识别方法、装置、计算机设备和存储介质
Lin et al. Using convolutional neural networks to network intrusion detection for cyber threats
CN107370752B (zh) 一种高效的远控木马检测方法
WO2016081312A9 (en) Extracting dependencies between network assets using deep learning
Peraković et al. Artificial neuron network implementation in detection and classification of DDoS traffic
CN102420723A (zh) 一种面向多类入侵的异常检测方法
CN110392013A (zh) 一种基于网络流量分类的恶意软件识别方法、***及电子设备
CN109088903A (zh) 一种基于流式的网络异常流量检测方法
CN112003869B (zh) 一种基于流量的漏洞识别方法
CN111935185B (zh) 基于云计算构建大规模诱捕场景的方法及***
CN110545284A (zh) 一种对抗性网络的域名检测方法及***
CN113298125B (zh) 基于特征选择的物联网设备流量异常检测方法、装置及存储介质
Kozik et al. Pattern extraction algorithm for NetFlow‐based botnet activities detection
Abdulrazaq et al. Combination of multi classification algorithms for intrusion detection system
CN116684877A (zh) 一种基于gyac-lstm的5g网络流量异常检测方法及***
CN111600878A (zh) 一种基于maf-adm的低速率拒绝服务攻击检测方法
CN113742718B (zh) 一种工业互联网设备攻击路径还原方法、相关设备及***
CN113489744A (zh) 一种基于霍克斯多元过程建模的物联网攻击模式识别方法
CN115242487B (zh) 一种基于元行为的apt攻击样本增强及检测方法
Wanode et al. Optimal feature set selection for IoT device fingerprinting on edge infrastructure using machine intelligence
Zhao et al. Traffic classification and application identification based on machine learning in large-scale supercomputing center
Cermak et al. Real-time pattern detection in IP flow data using Apache spark
CN114024748A (zh) 一种结合活跃节点库和机器学习的高效以太坊流量识别方法
Isa et al. Optimizing the effectiveness of intrusion detection system by using Pearson correlation and tune model hyper parameter on microsoft azure platform
Erokhin et al. The Dataset Features Selection for Detecting and Classifying Network Attacks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant