CN114615020B

CN114615020B - 基于特征约减和动态加权的网络设备快速识别方法及***

Info

Publication number: CN114615020B
Application number: CN202210139120.4A
Authority: CN
Inventors: 罗向阳; 王修婷; 杜少勇; 李玲玲; 刘粉林
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2023-05-26
Anticipated expiration: 2042-02-15
Also published as: CN114615020A

Abstract

本发明公开一种基于特征约减和动态加权的网络设备快速识别方法及***。该方法包括：首先，基于快速过滤算法进行特征冗余分析，并删除冗余特征；然后，根据每个特征与设备类型的相关度进行动态加权；最后，通过计算目标设备与已知设备类型的相似性来识别目标设备。在已有公开数据集上的实验结果表明，本发明在随机森林中将已有方法的识别准确率提高了3.5％，时间开销减少80％；在LightGBM中将已有方法的识别准确率提高了10.8％；时间开销减少了72％。本发明方法显著优于现有的基于特征约减对设备类型识别的方法。

Description

基于特征约减和动态加权的网络设备快速识别方法及***

技术领域

本发明属于网络安全技术领域，尤其涉及一种基于特征约减和动态加权的网络设备快速识别方法及***。

背景技术

随着互联网技术的快速发展，越来越多的网络设备连接到互联网中，据IDC(Internet Data Center)预计，2025年将有559亿台网络设备连接到互联网，其类别包含有汽车、智能家居设备以及可穿戴设备等。海量的网络设备在带给人们便利的同时，也带来了各种各样的安全问题。2016年10月，一场超大规模的DDoS攻击导致大半个美国互联网瘫痪，实施此次攻击的黑客主要是利用了一个由大约150万台网络设备组成的“僵尸网络”。因此，出于维护网络安全的目的，需要对网络设备进行识别，提高网络设备的安全性已经刻不容缓。

高效准确识别网络设备是增强网络空间安全、实现资产评估、进行网络态势感知的基础。网络设备识别是指通过各种网络探测技术来获取目标设备的操作***、设备类型、位置、服务等信息。现有的网络设备识别方法主要分为两类：一类是通过专有网络空间搜索引擎进行识别，现有的搜索引擎有Shodan、Censys、ZoomEye等，这些网络空间搜索引擎能够在非常短的时间里反馈给搜索者所需的设备，大到服务器和工控设备，小到摄像头、智能手表等智能家居设备；另一类是通过将网络设备所产生的流量或者设备的标识信息进行处理，生成设备指纹，与已知的设备指纹库进行匹配，以此识别设备类型。目前第二类方法是网络设备识别领域的主要研究内容,学者们围绕第二类方法做了大量工作。文献[Q.Li,X.Feng,R.Wang,Z.Li and L.Sun,"Towards Fine-grained Fingerprinting of Firmwarein Online Embedded Devices,”in Proc.INFOCOM,Honolulu,HI,USA,pp.2537-2545,2018.]提出基于设备的硬件信息之间的细微差异来生成细粒度指纹，利用自然语言处理技术对设备的硬件信息进行处理，并通过***验证了所提方法的有效性。文献[S.Aneja,N.Aneja and M.S.Islam.“IoT Device Identification Using Deep Learning,”inProc.CISIS,Burgos,Spain,pp.76-86,2019.]提出将深度学习应用于网络流量，以自动识别连接到网络的网络设备。文献[X.M.Guo,X.N.Li,R.X.Li,X.X.Wang and X.Y.Luo.“Network Device Identification Based on MAC Boundary Inference,”inProc.ICAIS,Dublin,Ireland,pp.697-712,2021.]提出一种基于MAC边界推断的网络设备识别方法，该方法通过推断设备类型对应的MAC地址边界来识别设备类型。现有基于网络流量的设备识别提取到的特征属性往往存在冗余特征和干扰特征，增加了识别的时间开销，降低了识别准确率。

发明内容

本发明针对现有基于网络流量的设备识别提取到的特征属性往往存在冗余特征和干扰特征，增加了识别的时间开销，降低了识别准确率的问题，提出一种基于特征约减和动态加权的网络设备快速识别方法及***，采用特征约减策略和特征属性动态加权分配机制，降低设备识别时间开销，提高识别准确率。

为了实现上述目的，本发明采用以下技术方案：

本发明一方面提出一种基于特征约减和动态加权的网络设备快速识别方法，包括：

步骤1，数据预处理：对数据进行归一化处理，并进行低方差滤波，剔除属性值基本保持不变的特征；

步骤2，特征约减：分别计算各个特征属性之间的相关性以及各个特征与设备类型之间的相关性，首先剔除与设备类型相关性小的属性特征，即无用特征；再剔除冗余特征，若两个特征属性均与设备类型具有相关性且两个特征属性之间也具有较高的相关性，则剔除两个特征属性中对设备类型影响较小的一个；

步骤3，特征动态权值分配：对于约减之后的特征空间，使用互信息计算各个特征属性对设备类型的影响，按照对设备类型的影响程度为各个特征属性赋权值，之后将不同数据类型的特征数据整合到一个文件中，作为分类器的样本数据；

步骤4，构造分类器：为每一个设备类型构造一个分类器，将经过动态赋值的特征数据作为分类器的输入，训练最优分类模型；

步骤5，设备类型判别：将样本数据作为分类器的输入，通过相似性度量计算两组特征的相似性，根据相似性判断设备类型；若有两个以上分类器输出的相似性值相同，则取置信度最大的类型作为该设备类型。

进一步地，所述步骤2包括：

首先，设置一个阈值δ，计算特征与设备类型t之间的SU值SU_f,t，比较SU_f,t与δ的关系，如果SU_f,t<δ，则剔除该特征；然后，分别计算特征f_i、f_j和设备类型t之间的SU值SU(f_i,t)、SU(f_j,t)，并计算特征f_i和特征f_j之间的SU值SU(f_i,f_j)；如果SU(f_i,t)≥SU(f_j,t)并且SU(f_i,f_j)≥SU(f_j,t)，则剔除特征f_j；最终输出经过特征约减后的最优特征子集列表和SU值。

进一步地，所述步骤3包括：

首先计算设备类型t的熵H(t)和经过特征约减之后留下的最优特征子集列表中特征f的熵H(f)，再基于得出的H(t)和H(f)计算设备类型t和特征f的互信息值r_i，将互信息值r_i作为对应特征f的权重，直至得出最优特征子集列表中所有特征对应的权重，最后输出设备特征权值列表。

本发明另一方面提出一种基于特征约减和动态加权的网络设备快速识别***，包括：

数据预处理模块，用于数据预处理：对数据进行归一化处理，并进行低方差滤波，剔除属性值基本保持不变的特征；

特征约减模块，用于特征约减：分别计算各个特征属性之间的相关性以及各个特征与设备类型之间的相关性，首先剔除与设备类型相关性小的属性特征，即无用特征；再剔除冗余特征，若两个特征属性均与设备类型具有相关性且两个特征属性之间也具有较高的相关性，则剔除两个特征属性中对设备类型影响较小的一个；

特征动态权值分配模块，用于特征动态权值分配：对于约减之后的特征空间，使用互信息计算各个特征属性对设备类型的影响，按照对设备类型的影响程度为各个特征属性赋权值，之后将不同数据类型的特征数据整合到一个文件中，作为分类器的样本数据；

分类器构造模块，用于构造分类器：为每一个设备类型构造一个分类器，将经过动态赋值的特征数据作为分类器的输入，训练最优分类模型；

设备类型判别模块，用于设备类型判别：将样本数据作为分类器的输入，通过相似性度量计算两组特征的相似性，根据相似性判断设备类型；若有两个以上分类器输出的相似性值相同，则取置信度最大的类型作为该设备类型。

进一步地，所述特征约减模块具体用于：

进一步地，所述特征动态权值分配模块具体用于：

与现有技术相比，本发明具有的有益效果：

(1)本发明提出了一种基于特征约减和动态加权的设备识别技术。该方法对网络流量特征进行冗余分析和删除，形成最优特征空间，并对最优特征子集中的特征进行动态赋权值，实现了对网络设备的快速高效识别，解决现有网络设备识别方法中时间开销大、准确率低的问题。与现有方法相比，该方法能够高效、准确地识别网络设备。

(2)本发明提出特征约减策略。通过快速滤波算法，分析并删除冗余特征，降低特征空间的维数，形成最优特征空间。与现有方法相比，该方法可以有效地减少设备识别的时间开销。

(3)本发明提出一种动态特征权值分配策略。该策略根据设备特征重要性不同的原则，计算每个特征与不同设备的识别之间的相关性，并将其作为特征的权重。与现有方法相比，该方法能有效提高设备识别的准确性。

(4)本发明针对不同的机器学习算法进行了时间成本和准确率的实验。在公共数据集上的实验结果表明，本发明方法在随机森林中识别准确率提高了3.5％，减少了80％的时间开销；现有方法的识别准确率提高了10.8％；LightGBM的时间花费减少了72％。

本发明的***有益效果与上述方法有益效果相同/相似，在此不再赘述。

附图说明

图1为本发明实施例一种基于特征约减和动态加权的网络设备快速识别方法的识别框架图；

图2为不同特征在不同设备类型中的比重示例图；

图3为RF算法下本发明方法与文献[16]方法准确率对比。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

针对现有基于网络流量的设备识别方法中存在特征冗余导致时间开销大的问题，本发明提出一种基于特征约减和动态加权的网络设备快速识别方法。该方法的基本思想是：首先删除相关度低的特征；再进行冗余分析并删除冗余特征，从而降低特征空间的维度，提高特征空间的数据质量和设备识别效率；然后根据特征属性对设备类型的影响程度确定各个特征属性的权值；最后计算待识别设备的相似度与已知设备的相似性，根据相似性确定待识别设备的类型。图1展示了基于特征约减和动态加权的网络设备快速识别方法的总体识别框架，该框架主要由数据预处理、特征约减、动态加权和设备类型判别模块四部分组成。

具体的工作流程如下：

1.数据预处理：对数据进行归一化处理，并进行低方差滤波，剔除属性值基本保持不变的特征，实验数据表明这些低方差特征携带的信息量非常少。因此，在本方法中提前设置一个阈值，删除方差小于这个阈值的特征。

2.特征约减：分别计算各个特征属性之间的相关性以及各个特征与类别之间的相关性，首先剔除与设备类别相关性非常小的属性特征，即无用特征；再剔除冗余特征，若两个特征属性均与设备类别具有相关性且两个特征属性之间也具有较高的相关性，则剔除两个特征属性中对设备类型影响较小的那一个。通过剔除无用特征和干扰特征，实现对特征的约减以降低特征空间维度，最终形成最优的特征空间。

3.特征动态权值分配：对于约减之后的特征空间，使用互信息计算各个特征属性对设备类型的影响，按照对设备类型的影响程度为各个特征属性赋权值，之后将不同数据类型的特征数据整合到一个文件中，作为分类器的样本数据。

4.构造分类器：为每一个设备类型构造一个分类器，将经过动态赋值的特征数据作为分类器的输入，训练最优分类模型。特征数据分为两部分，一部分作为训练数据构造分类器，另一部分作为验证数据集验证分类器的分类效果。

5.设备类型判别：将样本数据作为分类器的输入，通过相似性度量计算两组特征的相似性，根据相似性判定与哪个类型更相似，从而判断设备类型。若有两个以上分类器输出的相似性值相同，就通过计算两组数据的置信度判断该样本数据与哪类设备数据更具有相似性，取置信度最大的类型作为该设备类型。

具体地，在特征约减部分，本发明利用FCBF算法(Fast Correlation-BasedFilter，快速相关性滤波算法)实现特征约减，FCBF是一种基于SU(SymmetricalUncertainty)的方法。本实施例中设T为设备类型，其中包含有m个设备类型，将其表示为：

T_k＝[t₁,t₂,t₃,...,t_m],k∈{1,2,3,...,m} (1)

设F为设备特征，其中包含有n个特征属性，将其表示为

F_i＝[f₁,f₂,f₃,...,f_n],i∈{1,2,3,...,n} (2)

首先，设置一个阈值δ，用来判断特征与设备类别之间是否具有高相关性。计算特征与设备类别之间的SU值SU_f,t，当SU_f,t<δ，时，表示特征f与设备类别t之间的相关性太低，即对识别设备类型t的“贡献度”太小，因此剔除特征f。

然后，分别计算特征f_i、f_j与设备类别t之间的SU值SU(f_i,t)、SU(f_j,t)，特征f_i与特征f_j之间的值SU(f_i,f_j)。当SU(f_i,t)≥SU(f_j,t)且SU(f_i,f_j)≥SU(f_j,t)时，剔除f_j。这是因为当SU(f_i,t)≥SU(f_j,t)时，说明特征f_i与类别t具有更强的相关性，且特征f_i与特征f_j之间的SU值大于特征f_i与设备类别t的SU值，即特征f_i与特征f_j之间的相关性更强。由马尔可夫毯(Markov Blanket)可知，f_j可以由f_i来表示，即f_j为冗余特征，因此剔除特征f_j。特征与设备类型之间的SU值计算公式可表示为：

由公式(3)可知SU是IG归一化的一种表示形式，将两个变量的相关性标准化在0-1之间，当SU＝0时，两个变量互相独立；当SU＝1时，两个变量完全相关。H(F)和H(T)分别表示特征和设备类型的信息熵。两个特征之间的SU值公式表示为：

其中IG信息增益公式可表示为：

IG(F)＝H(T)-H(T|F) (5)

具体特征约减过程如算法1所示。算法1的输入是设备类型列表S_t，未选择的原始特征列表S_u和阈值δ。算法首先遍历列表S_t和S_u，分别计算每个特征与设备类型之间的SU值。然后计算两个特征之间的SU值，通过不相关性分析和分冗余分析，剔除原始特征列表Su中对应的不相关的特征和冗余特征，最后输出特征约简后的特征列表S_f。

首先，设置一个阈值δ，用来判断特征与设备类别之间是否具有高相关性。计算特征f与设备类别t之间的SU值r_s1，当r_s1<δ时，表示特征f与设备类别t之间的相关性太低，即对识别设备类型t的“贡献度”太小，因此剔除特征f。然后，分别计算特征f_i、f_j与设备类别t之间的SU值r_s1、r_s2，特征f_i与特征f_j之间的值r_s3。当r_s1≥r_s2并且r_s3≥r_s2时，剔除f_j。最终输出经过特征约减后的最优特征子集列表S_f和SU值r_s。

具体地，在特征动态权值分配部分，本实施例采用公式(6)度量特征F与设备类型T之间的关系，两个变量的互信息指的是两个变量的关联程度。当互信息为0时，表示特征与设备类型相互独立；互信息值越大表示两者之间依赖性越强，即相关性越大。

其中，H(F)是F的熵，可以表示为H(F)＝-∫_FP(F)logP(F)。

具体特征动态加权过程如算法2所示。算法2的输入是设备列表S_t，经过选择的最优特征字迹列表S_f，输出是设备特征权重列表S_w。该算法首先遍历S_f和S_t，计算互信息值r_i。然后，算法将互信息值r_i输入到S_w列表中，即将每个互信息值r_i作为权重赋给特征列表S_f中相应的特征。最后，算法输出权值列表S_w。算法步骤如下：

首先计算每个设备类型t的熵H(t)，和经过特征约减之后留下的最优特征子集中每个特征f的熵H(f)，再通过公式(6)计算设备类型t和特征f的互信息值r_i，此互信息值r_i即为对应特征f的权重，将r_i一一对应到权重列表S_w中并输出。

为评估本发明的性能，本实施例开展了真实数据实验验证，将本发明中提出的快速识别方法与现有的基于网络流量的识别方法进行比较。实验采用文献[Y.Meidan,M.Bohadana,A.Shabtai,J.D.Guarnizo,M.Ochoa,N.O.Tippenhauer and Y.Elovici1.“ProfilIoT:a machine learning approach for IoT device identification based onnetwork traffic analysis,”in Proc.SAC,New York,NY,US,pp.506-509,2017.](为表述方便，后续简称为文献[16])的数据集，分别从时间开销以及准确率方面进行了对比实验。

本实验采用文献[16]的数据集，在该数据集中共采集了10种设备的网络流量，分别是婴儿监视器、灯、运动传感器、监控摄像头、烟雾报警器、插座、恒温器、电视、手表、水传感器。数据集中的每一个实例都表示一个会话，即从SYN包到FIN包的TCP连接，每一个会话又包含有若干个TCP包，每一条数据代表一个TCP包。本实验数据集中数据总数为大约390000条。本实验数据集的具体构成如表1所示。

表1实验数据集

(a)时间开销实验

本实验就识别所需的时间开销与文献[16]识别方法进行对比。本实施例在相同的数据集上分别进行了基于随机森林RF和Light GBM算法的识别方法的实验。我们对数据集中的特征数据采用特征约减算法进行特征约减处理，最终选取的特征及其SU值如表2所示。从表2中可以看出，不同的特征与设备的相关度是不同的，其中TCP包的存活时间和端口号对识别设备类型的区分度较高。

表2部分特征及其SU值

此实验均采用十折交叉验证，计算出代码测试所需时间的平均值，比较不同算法进行设备识别时所需的时间。表3给出了在不同的算法下，本发明方法与未经过特征选择算法的设备识别方法在进行识别测试时所需要的时间开销对比。由表3以看出，我们的算法与文献[16]算法相比，在随机森林RF和LightGBM算法中时，所需要的时间开销分别减少了80％，72％。因此，将FCBF运用到特征约减中时，所需要的时间开销会显著减少。

表3时间效率(秒)

(b)准确率实验

本实验以设备类型识别准确率为标准衡量本发明方法的性能。在该实验中，我们通过动态加权算法对经过约减后留下的特征进行赋值，通过增加对识别设备“贡献度”较高的重要特征的权重来提高准确率。我们统计出8个特征在10种设备类型中的比重，如图2所示。从图2中可以看出，不同设备类型的重要特征不同，如Lights中权值w1所对应的特征f1相较于其他特征更具有区分性，而设备类型Smoke_detector中权值w4所对应的特征f4相较于其他特征更具有区分性。基于此数据集，比较本发明方法与现有方法在不同机器学习算法上的识别效果。

本实验采用accuracy、precision、recall、F1-Score四种常见的性能指标来评估本方法在识别准确率方面的有效性。其中TP是指被判定为某种设备类型且实际为该设备类型的样本数量，FP是指被判定为某种设备类型但实际并不属于该设备类型的样本数量，TN是指被判定为不属于某种设备类型但实际上属于该设备类型的样本数量，FN指在判定和实际中都不属于某种设备类型的样本数量。

图3分别给出了经过十折交叉验证之后，使用本发明方法与文献[16]方法在RF下的识别准确率对比。由图3可以看出，在真实数据集上，虽然设备Security_camera、Thermostat、TV以及Watch中识别准确率略有下降，这是由于在经过特征约减和加权后，一些对识别该设备具有较高相关度的特征可能出现了信息损失，从而造成识别准确率略有下降。但是总体来说，本发明的基于特征约减和动态加权的网络设备快速识别方法在识别准确率方面比文献[16]所提方法略有提升，且比较稳定，波动幅度较小。

表4给出了在RF和LightGBM算法下的识别准确率、召回率以及F1值对比。由表4可以看出，使用特征约减和动态加权算法在识别准确率，召回率以及F1值上比文献[16]所提方法均有提升。进而表明本发明方法能够在保证准确率略有提升的情况下，明显减少时间开销，在大型数据集中具有更强的实用性。

表4在RF和LightGBM算法下的性能对比

上述实验结果表明，本发明所提出的基于特征约减和动态加权的网络设备快速识别方法，能够利用非常少的特征，就达到较好的识别性能，在提高准确率的同时减少了时间开销。通过在公开数据集上对本发明方法的评估，本发明方法的识别性能优于现有基于网络流量的网络设备类型识别方法。

现有基于网络流量的设备类型识别方法，往往忽略了同一特征属性对于特定设备类型的影响程度是不一样的，未能充分考虑冗余特征的带来的影响。本发明提出一种通过特征约减策略和特征属性动态加权来快速识别设备类型的方法，利用相同特征对不同设备类型的影响程度不尽相同的思想，将特征与设备类别的相关度作为权值动态赋予每一个特征，从而实现对网络设备的快速高效识别。我们在真实数据集上对10种智能网络设备进行了实验，实验结果表明，本发明方法可以使用更少的特征，在保证较高精度的同时减少时间开销，在实际应用中具有更强的实用性。

在上述实施例的基础上，本发明还提出一种基于特征约减和动态加权的网络设备快速识别***，包括：

进一步地，所述特征约减模块具体用于：

进一步地，所述特征动态权值分配模块具体用于：

综上，本发明利用快速相关性滤波算法进行特征约减，并通过计算互信息为特征属性动态赋予权值，实现了对网络设备的快速高效识别，解决现有网络设备识别方法中时间开销大、准确率低的问题。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于特征约减和动态加权的网络设备快速识别方法，其特征在于，包括：

步骤3，特征动态权值分配：对于约减之后的特征空间，使用互信息计算各个特征属性对设备类型的影响，按照对设备类型的影响程度为各个特征属性赋权值，之后将不同数据类型的特征数据整合到一个文件中，作为分类器的样本数据；特征数据分为两部分，一部分作为训练数据构造分类器，另一部分作为验证数据集验证分类器的分类效果；

步骤5，设备类型判别：将样本数据作为每个分类器的输入，通过相似性度量计算每个分类器中两组特征的相似性，根据相似性判断设备类型；若有两个以上分类器输出的相似性值相同，则计算两组数据的置信度，取置信度最大的类型作为该设备类型。

2.根据权利要求1所述的基于特征约减和动态加权的网络设备快速识别方法，其特征在于，所述步骤2包括：

首先，设置一个阈值δ，计算特征f与设备类型t之间的SU值SU _f,t，比较SU _f,t与δ的关系，如果SU _f,t＜δ，则剔除该特征；然后，分别计算特征f _i、f _j和设备类型t之间的SU值SU(f _i, t)、SU(f _j, t)，并计算特征f _i和特征f _j之间的SU值SU(f _i, f _j)；如果SU(f _i, t)≥SU(f _j, t)并且SU(f _i, f _j)≥SU(f _j, t)，则剔除特征f _j；最终输出经过特征约减后的最优特征子集列表和SU值。

3.根据权利要求2所述的基于特征约减和动态加权的网络设备快速识别方法，其特征在于，所述步骤3包括：

首先计算设备类型t的熵H(t)和经过特征约减之后留下的最优特征子集列表中特征f的熵H(f)，再基于得出的H(t)和H(f)计算设备类型t和特征f的互信息值r _i，将互信息值r _i作为对应特征f的权重，直至得出最优特征子集列表中所有特征对应的权重，最后输出设备特征权值列表。

4.一种基于特征约减和动态加权的网络设备快速识别***，其特征在于，包括：

特征动态权值分配模块，用于特征动态权值分配：对于约减之后的特征空间，使用互信息计算各个特征属性对设备类型的影响，按照对设备类型的影响程度为各个特征属性赋权值，之后将不同数据类型的特征数据整合到一个文件中，作为分类器的样本数据；特征数据分为两部分，一部分作为训练数据构造分类器，另一部分作为验证数据集验证分类器的分类效果；

设备类型判别模块，用于设备类型判别：将样本数据作为每个分类器的输入，通过相似性度量计算每个分类器中两组特征的相似性，根据相似性判断设备类型；若有两个以上分类器输出的相似性值相同，则计算两组数据的置信度，取置信度最大的类型作为该设备类型。

5.根据权利要求4所述的基于特征约减和动态加权的网络设备快速识别***，其特征在于，所述特征约减模块具体用于：

6.根据权利要求5所述的基于特征约减和动态加权的网络设备快速识别***，其特征在于，所述特征动态权值分配模块具体用于：