CN116662817B

CN116662817B - 物联网设备的资产识别方法及***

Info

Publication number: CN116662817B
Application number: CN202310948044.6A
Authority: CN
Inventors: 李庆; 张永元; 李衡; 段伟恒
Original assignee: Sky Sky Safety Technology Co ltd
Current assignee: Sky Sky Safety Technology Co ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-11-24
Anticipated expiration: 2043-07-31
Also published as: CN116662817A

Abstract

本申请实施例公开了一种物联网设备的资产识别方法及***，其中，方法包括：采集物联网网络的网络流量数据，所述物联网网络由多个物联网设备组成；对所述网络流量数据进行预处理以及聚类处理，得到待匹配标签数据；将所述待匹配标签数据输入至训练完成的资产分类器，输出所述网络流量中各物联网设备对应的资产类别，所述资产分类器基于样本标签数据以及多个弱分类器采用分类算法训练得到，所述样本标签数据由训练数据经过预处理、特征提取操作以及聚类处理得到。采用本申请实施例，可以提高物联网设备的资产识别的效率。

Description

物联网设备的资产识别方法及***

技术领域

本申请涉及数据识别领域，具体涉及一种物联网设备的资产识别方法及***。

背景技术

随着物联网技术的发展，全球物联网设备数量呈现爆发式增长，网络管理员对物联网设备的数量、类型、品牌、操作***等存在大量未知情况，很难进行有效监管。而资产识别是一种利用计算机视觉技术对视频监控画面中的资产进行自动识别的技术，可通过对监控画面进行实时分析和处理，可以自动识别出画面中出现的各种资产，并对其进行分类、识别、跟踪等操作，实现对资产的智能化管理和监控。

而现有的资产识别技术主要根据监听视频摄像头、硬盘录像机、视频编解码设备、视频监控及运维服务器等物联网设备构成的物联网网络输出的网络流量，提取网络流量的特征信息，并将特征信息与样本标签数据进行比对，从而完成对资产的识别。

但是随着物联网网络规模的不断扩大，接入物联网网络的物联网设备也在不断增加或更替，若采用现有技术的方式进行特征提取，需要将大量特征信息与样本标签数据进行比对，物联网设备的资产识别的效率较低。

发明内容

本申请提供了一种物联网设备的资产识别方法及***，可以提高物联网设备的资产识别的效率。

第一方面，本申请提供了一种物联网设备的资产识别方法，包括：

采集物联网网络的网络流量数据，所述物联网网络由多个物联网设备组成；

对所述网络流量数据进行预处理以及聚类处理，得到待匹配标签数据；

将所述待匹配标签数据输入至训练完成的资产分类器，输出所述网络流量中各物联网设备对应的资产类别，所述资产分类器基于样本标签数据以及多个弱分类器采用分类算法训练得到，所述样本标签数据由训练数据经过预处理、特征提取操作以及聚类处理得到。

通过采用上述技术方案，对网络流量数据进行预处理以及聚类处理，对网络流量数据进行粗颗粒度的识别，得到与训练完成的资产分类器数据类型匹配的待匹配标签数据，将待匹配标签数据输入至训练完成的资产分类器，即可快速对网络流量数据进行细颗粒度的识别，并输出网络流量中各物联网设备对应的资产类别，与现有技术相比，可以提高物联网设备的资产识别的效率。

可选的，所述对所述网络流量数据进行预处理以及聚类处理，得到待匹配标签数据，包括：

采用深度包检测技术对所述网络流量数据进行特征提取和协议识别，得到第一网络流量特征数据；

对所述第一网络流量特征数据进行归一化处理、标准化处理以及独热编码处理，得到第二网络流量特征数据；

对所述第二网络流量特征数据进行聚类处理，得到所述待匹配标签数据。

通过采用上述技术方案，深度包检测技术可以对网络流量数据进行深入分析，从而得到第一网络流量特征数据，完成对网络应用协议的识别和分类，从而对第一网络流量特征数据进行归一化处理、标准化处理、独热编码处理以及聚类处理，得到与训练完成的资产分类器数据类型匹配的待匹配标签数据。

可选的，所述接收物联网网络输出的网络流量数据之前，还包括：

采集物联网网络的网络流量训练数据，对所述网络流量训练数据进行预处理，得到第一训练数据；

将所述第一训练数据输入至特征提取模型，输出第二训练数据；

将所述第二训练数据输入至聚类模型，输出目标训练数据；

对所述目标训练数据添加标签，得到样本标签数据；

基于所述样本标签数据以及采用分类算法对多个弱分类器进行训练，得到训练完成的资产分类器。

通过采用上述技术方案，特征提取模型可以对第一训练数据进行高质量提取得到第二训练数据；聚类模型可以对第二训练数据进行快速分类，得到目标训练数据；对目标训练数据添加标签，得到样本标签数据；从而通过样本标签数据以及采用分类算法对多个弱分类器进行训练，得到训练完成的资产分类器，进而可通过训练完成的资产分类器对未知资产的网络流量数据进行资产识别。

可选的，所述特征提取模型包括深度神经网络模型，所述将所述第一训练数据输入至特征提取模型，输出第二训练数据，包括：

将所述第一训练数据输入至所述深度神经网络模型，输出所述第一训练数据的高维特征训练数据；

将所述高维特征训练数据进行降维处理，得到所述第二训练数据。

通过采用上述技术方案，深度神经网络模型可提取第一训练数据的高维特征训练数据，继而对高维特征训练数据进行降维处理，以提高模型的计算效率和泛化能力，同时保留第一训练数据的主要特征数据。

可选的，所述将所述第一训练数据输入至所述深度神经网络模型，输出所述第一训练数据的高维特征训练数据之后，还包括：

根据损失函数公式，计算所述第一训练数据的损失值，并判断所述损失值是否大于损失阈值；

若所述损失值大于所述损失阈值，则校正所述深度神经网络模型的参数，并重新执行所述将所述第一训练数据输入至所述深度神经网络模型，输出所述第一训练数据的高维特征训练数据的步骤，直至所述损失值小于或等于所述损失阈值。

通过采用上述技术方案，根据目标训练数据的损失值，对深度神经网络模型进行迭代训练，从而提高深度神经网络模型提取高维特征的准确性。

可选的，将所述第二训练数据输入至聚类模型，输出目标训练数据，包括：

将所述第二训练数据输入至所述聚类模型，输出第一聚类特征树，所述第一聚类特征树的中的聚类特征簇数、节点内最大聚类特征个数以及聚类特征内最大半径阈值为所述聚类模型的初始参数；

筛除所述第一聚类特征树中的异常聚类特征节点，并根据聚类算法对筛除异常聚类特征节点后的第一聚类特征树中的各个聚类特征节点进行重新聚类，得到第二聚类特征树；

根据所述第二聚类特征树中各聚类特征节点的质心和半径，生成聚类特征圆，根据所述聚类特征圆确定所述目标训练数据；

输出所述目标训练数据。

通过采用上述技术方案，聚类模型根据第二训练数据构建第一聚类特征树，在筛除第一聚类特征树中的异常聚类特征节点后，对第一聚类特征树进行重新聚类，得到第二聚类特征树，可有效避免由于异常聚类特征节点导致聚类不合理情况出现，从而提升对第二训练数据聚类的效果。

可选的，所述输出所述目标训练数据之前，还包括：

计算所述目标训练数据的准确率，并判断所述准确率是否大于准确率阈值；

若所述准确率大于所述准确率阈值，则校正所述聚类特征簇数、节点内最大聚类特征个数以及聚类特征内最大半径阈值，并重新执行所述将所述第二训练数据输入至所述聚类模型的步骤，直至所述准确率小于或等于所述准确率阈值。

通过采用上述技术方案，根据目标训练数据的准确率，对聚类模型进行迭代训练，从而提高聚类模型对第二训练数据进行聚类的准确性。

在本申请的第二方面提供了一种物联网设备的资产识别***，包括：

流量数据采集模块，用于采集物联网网络的网络流量数据，所述物联网网络由多个物联网设备组成；

标签数据生成模块，用于对所述网络流量数据进行预处理以及聚类处理，得到待匹配标签数据；

资产类别确定模块，用于将所述待匹配标签数据输入至训练完成的资产分类器，输出所述网络流量中各物联网设备对应的资产类别，所述资产分类器基于样本标签数据以及多个弱分类器采用分类算法训练得到，所述样本标签数据由训练数据经过预处理、特征提取操作以及聚类处理得到。

在本申请的第三方面提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

在本申请的第四方面提供了一种服务器，包括：处理器、存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

综上所述，本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

通过本申请技术方案，对网络流量数据进行预处理以及聚类处理，对网络流量数据进行粗颗粒度的识别，得到与训练完成的资产分类器数据类型匹配的待匹配标签数据，将待匹配标签数据输入至训练完成的资产分类器，即可快速对网络流量数据进行细颗粒度的识别，并输出网络流量中各物联网设备对应的资产类别，与现有技术相比，可以提高物联网设备的资产识别的效率。

附图说明

图1是本申请实施例提供的一种物联网设备的资产识别方法的流程示意图；

图2是本申请实施例提供的另一种物联网设备的资产识别方法的流程示意图；

图3是本申请实施例公开的一种物联网设备的资产识别***的结构示意图；

图4是本申请实施例公开的一种电子设备的结构示意图。

附图标记说明：301、流量数据采集模块；302、标签数据生成模块；303、资产类别确定模块；400、电子设备；401、处理器；402、存储器；403、用户接口；404、网络接口；405、通信总线。

具体实施方式

为了使本领域的技术人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

在本申请实施例的描述中，“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，术语“多个”的含义是指两个或两个以上。例如，多个***是指两个或两个以上的***，多个屏幕终端是指两个或两个以上的屏幕终端。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

目随着物联网技术的发展，全球物联网设备数量呈现爆发式增长。据全球移动通信***协会预测，全球联网物联网设备数量将于2025年达到246亿。物联网技术的发展给设备制造商、网络服务提供商、开发者带来了机遇，但也同时带来了挑战，尤其是资产管理方面，网络管理员对入网设备数量、类型、品牌、操作***等存在大量未知情况，很难进行有效监管。

视频监控作为物联网技术发展的一种重要分支，已成为智慧城市建设中的重要组成部分，在已投入运营的视频监控网络中，存在大量的视频摄像头、硬盘录像机、视频编解码设备、视频监控及运维服务器等物联网设备构成的物联网网络输出的网络流量，这些物联网设备涉及的厂商、品牌及型号众多，随着物联网网络规模的不断扩大，接入物联网网络的物联网设备资产也在不断增加或更替，有些行业的物联网网络的物联网设备规模高达上千万台，因缺乏有效的技术手段，普遍存在资产摸底不清，导致监管存在盲区。

在现有技术中，针对物联网设备资产的识别和分类主要采用主动探测和被动流量分析两种方法。

主动探测是指主动向目标物联网设备发送探测数据包，以获取目标物联网设备的具体信息。能否对其进行资产识别，主要依赖于物联网设备对探测包的能否回应，以及回应信息对资产识别的是否能起到识别作用，若资产不对探测包进行回应，或者回应的物联网设备信息对资产识别并不能起到识别作用，会直接导致该物联网设备资产无法识别。

被动流量分析是指通过监听和分析网络流量，解析通讯数据包的协议和通讯内容来获取物联网设备资产识别的关键特征，或基于其特征信息进行规则匹配或基于特定的算法进行特征处理，最终实现物联网设备资产的识别和分类，物联网设备资产识别的准确率与特征信息的提取或算法的有效性密切相关，但是随着物联网网络规模的不断扩大，接入物联网网络的物联网设备也在不断增加或更替，若采用该方式进行特征提取，需要将大量特征信息进行比对，物联网设备的资产识别的效率较低。

本申请实施例提供了一种物联网设备的资产识别方法，请参照图1，其示出了本申请实施例提供的一种物联网设备的资产识别方法的流程示意图，该方法可依赖于计算机程序实现，也可运行于基于冯诺依曼体系的物联网设备的资产识别***上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行，该过程主要包括步骤101至步骤103，如下：

步骤101：采集物联网网络的网络流量数据。

其中，网络流量数据指的是在计算机网络中传输的数据量，包括进入网络和离开网络的数据。在本申请实施例中可以理解为由物联网网络输出的网络流量数据，具体的，该物联网网络可以理解为是由大量物联网设备组成。

在一种可行的实施方式中，可采用探针采集交换机镜像的流量数据，从而获取上述网络流量数据，交换机镜像是指将交换机端口上的流量镜像到另一个端口上进行分析和监控。交换机镜像技术可以实时监控网络流量，检测网络异常，快速定位网络故障，提高网络性能等。

步骤102：对网络流量数据进行预处理以及聚类处理，得到待匹配标签数据。

进一步地，在采集到物联网网络的网络流量训练数据后，需要对网络流量数据进行预处理以及聚类处理操作，从而以便于后续对处理后的网络流量数据中各物联网设备的资产类别进行识别，在本申请实施例中，将网络流量数据经过预处理得到的数据定义为待匹配标签数据。

示例性地，在上述实施例的基础上，作为一种可选的实施例，上述对网络流量数据进行预处理以及聚类处理，得到待匹配标签数据的步骤，具体还可以包括以下步骤：

步骤201：采用深度包检测技术对网络流量数据进行特征提取和协议识别，得到第一网络流量特征数据。

其中，深度包检测技术可以对网络流量数据中的网络数据包进行深入分析，从而实现对网络流量数据地应用协议的识别和分类。它利用机器学习、模式识别等技术，对网络流量数据的特征进行抽象和分类，从而判断网络流量数据的数据包所属的应用协议类型。

具体的，运用深度包检测技术对获取到的二进制网络流量数据进行协议识别和特征提取，并将多个数据包整合成一个数据流，以数据流为单位，从数据流中提取五元组、字节数、数据包数、平均字节数、确认字符数量、流持续时间等数据流特征，整合成json的形式。将其通过深度包检测技术对网络流量数据进行特征提取和协议识别转换为第一网络流量特征数据，表示如下：{"ip":"4","prot":1,"vlan_id":6,"src_ip":"10.0.6.45","dst_ip":"10.0.8.194","src_port":2048,"dst_port":0,"c2s_tos":0,"s2c_tos":0,"flow_id":108016,"detect_cplt":1,"bidr":0,"duration":0.0000,"total_pkts":2,"total_len":128,"data_ratio":1.000,"data_ratio_str":"Upload","s2d_pkts":2,"s2d_byts":128,"s2d_gd_byts":36,"d2s_pkts":2,"d2s_byts":0,"d2s_gd_byts":0,"c2s_len_min":64,"c2s_len_max":64,"c2s_len_ave":64,"c2s_len_std":0,"s2c_len_min":0,"s2c_len_max":0,"s2c_len_ave":0,"s2c_len_std":0,"iat_total":0,"iat_min":0,"iat_max":0,"iat_ave":0.0000,"iat_std":0.0000,"ndpi":{"confidence":{"6":"DPI"},"proto":"ICMP","proto_id":"81","proto_by_ip":"Unknown","proto_by_ip_id":0,"encrypted":0,"breed":"Acceptable","category_id":14,"category":"Network","entropy":2.000000}}。

步骤202：对第一网络流量特征数据进行归一化处理、标准化处理以及独热编码处理，得到第二网络流量特征数据。

具体的，采用归一化公式以及标准化公式对第一网络流量特征处理，可以将第一网络流量特征数据转换为统一的标准值，以便于进行比较和分析。

其中，归一化公式为：，式中，/>为归一化处理后的第一网络流量特征，/>为第一网络流量特征；/>为第一网络流量特征中的最小值；/>为第一网络流量特征中的最大值。

其中，标准化公式为：，式中，/>为标准化处理后的第一网络流量特征；/>为第一网络流量特征的均值；/>为第一网络流量特征的标准差。

其中，独热编码处理指的是一种将分类变量转换为数值变量的方法。其原理是将一个分类变量拆分为多个二元变量若干个，每个二元变量表示一个类别，如果样本属于该类别，该二元变量就取1，否则为0。这样做的目的是为了在一些模型中，如神经网络、决策分类器中能更好地处理分类变量。

步骤203：对第二网络流量特征数据添加标签，得到待匹配标签数据。

具体的，在得到第二网络流量特征数据后，需要根据预设的分类标准和规则，对第二网络流量特征数据进行标记，得到待匹配标签数据。

步骤103：将待匹配标签数据输入至训练完成的资产分类器，输出网络流量中各物联网设备对应的资产类别。

其中，资产分类器指是一种决策分类器，决策分类机器学习算法，它可以根据不同的特征将资产进行分类，在本申请实施例中上述资产分类器是基于样本标签数据以及多个弱分类器采用分类算法训练得到的，上述样本标签数据是由训练数据经过预处理、特征特取操作以及聚类处理得到的。

示例性地，在得到待匹配标签数据后，可将其输入至训练完成的资产分类器，资产分类器可根据待匹配标签数据中添加的标签，对识别出其对应的资产类别并输出。

举例来说，当资产分类器识别待匹配标签数据需要将某个网络连接划分到不同的资产类别时，可以从该连接的特征中提取出源IP地址、目的IP地址、端口号等信息，然后依次用这些特征与样本标签数据上的条件进行匹配。如果该连接的源IP地址在区间A内、目的IP地址为B、端口号为C，则将该连接分类为资产类别1；如果源IP地址不在区间A内、目的IP地址为D、端口号为C，则将该连接分类为资产类别2，以此类推。通过不断的匹配和二分，最终将网络数据分到对应的资产类别中，并输出对应的资产类别。

在上述实施例的基础上，作为一种可选的实施例，下面将对上述的样本标签数据以及资产分类器的训练过程进行说明，请参照图2，其示出了本申请实施例提供的另一种物联网设备的资产识别方法，该过程主要包括步骤301至步骤305，如下：

步骤301：采集物联网网络的网络流量训练数据，对网络流量训练数据进行预处理，得到第一训练数据。

其中，网络流量训练数据指的是用于训练模型的网络流量数据，上述对网络流量训练数据进行预处理的过程可参照步骤201至步骤203，在此不做过多赘述，将预处理得到的网络流量数据定义为第一训练数据。

步骤302：将第一训练数据输入至特征提取模型，输出第二训练数据。

其中，特征提取模型在本申请实施例中指的是深度神经网络模型，深度神经网络（Deep Neural Network，DNN）是一种神经网络模型，它在传统神经网络的基础上引入了多层隐层，可以处理更加复杂的问题，如图像识别、自然语言处理等。深度神经网络通常使用反向传播算法进行训练，根据输入数据和输出结果之间的差异来调整网络参数，从而提高网络的准确性。

选取深度神经网络模型对第一训练数据进行高质量特征提取，相比于卷积神经网络模型或传统的浅层神经网络模型，深度神经网络模型更适合处理非结构性数据，而卷积神经网络更适合处理图像类数据，深度神经网络模型有更多的层数和更大的参数量，在大型数据集上更容易捕获复杂的特征，在高维数据中提取特征更加全面和综合，从而在处理复杂任务时表现更好，并且无须专家的参与，可有效减少人为干预。

作为一种可选的实施例，上述步骤302：将第一训练数据输入至特征提取模型，输出第二训练数据，具体还可以包括以下步骤：

步骤401：将第一训练数据输入至深度神经网络模型，输出第一训练数据的高维特征训练数据。

具体的，将第一训练数据输入深度神经网络模型的过程称为前向传播过程，该过程的输出结果就是高维特征训练数据。在前向传播过程中，首先将原始数据输入到输入层，然后根据不同的特征和权重计算出每个隐层的输出结果，最终将输出结果经过输出层输出。由于深度神经网络中每个隐层的输出结果都是高维特征，因此输出层的结果也是高维特征训练数据。

步骤402：将高维特征训练数据进行降维处理，得到第二训练数据。

示例性地，为了使得深度神经网络模型对第一训练数据的处理更准确，需要对深度神经网络模型进行迭代训练，而高维数据通常需要大量的计算资源和存储空间，使得深度神经网络模型的使用和维护变得困难，以及高维数据包含冗余信息，会使深度神经网络模型出现过拟合误差。因此需要对高维特征训练数据进行降维处理，并将降维处理后的高维特征函训练数据定义为第二训练数据。

具体的，在本申请实施例中，采用主成分分析(PCA, principal componentanalysis)算法对数据进行降维处理。具体可以包括去中心化、计算协方差矩阵、求解特征向量和特征值、选取主成分以及数据还原这5个步骤，其中：中心化:对高维特征数据减去其各个特征的平均值，使得数据的均值为零，从而减少输入数据之间的相关性。计算协方差矩阵：协方差矩阵描述了不同特征之间的关联性和变化趋势。它的计算方法为：将去中心化后的高维特征数据，按照特征组合成矩阵X，X的协方差矩阵为XXT/N，其中N表示样本数。求解特征向量和特征值：可以通过SVD奇异值分解或特征值分解求解。特征向量和特征值的关系为：Ax=λx，其中A是协方差矩阵，x是特征向量，λ是特征值。选取主成分：根据特征值降序排列，选取前k个特征向量组成新的矩阵P，使其维数为kxN，并将其左乘原始矩阵X，即Y=PX，得到新的样本矩阵Y，其中每个样本的特征维度已经从原先的N降至k。数据还原：得到新的降维后的数据矩阵Y后，可以通过逆变换将其还原为原始数据空间。

步骤403：根据损失函数公式，计算第一训练数据的损失值，并判断损失值是否大于损失阈值。

其中，损失函数公式为：；式中，y为输出值，/>为真实值。

进一步地，可根据损失函数公式计算第一训练数据的损失值，并将损失值与预设的损失阈值进行比较，从而判断深度神经网络模型的效果。

步骤404：若损失值大于损失阈值，则校正深度神经网络模型的参数，并重新执行将第一训练数据输入至深度神经网络模型，输出第一训练数据的高维特征训练数据的步骤，直至损失值小于或等于损失阈值。

示例性地，可将深度神经网络模型看作是一个非线性函数的组合，一般可以表示为：；

式中，其中，X是输入，W是权重参数，是第i层神经元偏置值，/>表示i层的激活函数。L表示神经网络的层数。具体的，可将上述公式简化为：Y=f(WX+b)。

进一步地，当确定损失值大于损失阈值时，则可通过校正深度神经网络模型的参数W、B，对神经网络模型进行调整，并进行反复迭代直至深度神经网络模型直至第一训练数据的损失值小于或等于损失阈值。

步骤303：将第二训练数据输入至聚类模型，输出目标训练数据。

其中，聚类模型是机器学习中一种常见的无监督学习模型，其主要目的是将数据样本划分成若干个类别或簇，使得同一个簇中的数据样本更加相似，不同簇之间的差异性更大。通常来说，聚类模型不需要先验知识，也不需要事先标注样本类别，因此常被用于数据分析中的探索性任务。

聚类模型可分为层次聚类、原型聚类和密度聚类等几种主要类型。层次聚类是将数据样本逐步划分为较小的簇，直到满足某个终止条件为止，常用的算法有自上而下的凝聚聚类和自下而上的***聚类。原型聚类是将每个簇用一个原型向量来表示，然后通过计算不同样本与原型之间的相似度来进行聚类。常见的原型聚类算法有K-means、DBSCAN和高斯混合模型等。密度聚类算法是根据聚类对象间的密度来确定聚类簇，把具有足够高密度的样本划分为一个簇，在本申请实施例中的聚类模型采用Birch聚类算法，相比于K-means、DBSCAN等聚类算法，Birch聚类算法使用了一个层次聚类的结构，在内存中处理大型数据，使得处理大规模数据十分高效；并且不需要预先指定簇的数量，可以自适应地发现数据中存在的簇的数量和形状，对噪声和离群点具有较强的鲁棒性；通过构造聚类特征树，对数据进行多层压缩，使得其内存占用少。

作为一种可选的实施例，上述步骤303：将第二训练数据输入至聚类模型，输出目标训练数据，具体还可以包括以下步骤：

步骤501：将第二训练数据输入至聚类模型，输出第一聚类特征树，第一聚类特征树的中的聚类特征簇数、节点内最大聚类特征个数以及聚类特征内最大半径阈值为聚类模型的初始参数。

具体的，对第二训练数据进行数据预处理，包括缺失值填充、特征归一化等步骤；将预处理后的数据输入聚类模型，采用聚类算法进行聚类，得到第一聚类特征树；对第一聚类特征树进行遍历，并记录每个聚类特征簇的特征数量、节点内最大聚类特征个数以及聚类特征内最大半径阈值等统计特征；将记录的统计特征作为聚类模型的初始参数。

其中，第一聚类特征树(Clustering Feature Tree，简称CF Tree)。这颗树的每一个节点是由若干个聚类特征(Clustering Feature，简称CF)组成。每一个CF是一个三元组，可以用（N，LS，SS）表示。其中N代表了这个CF中拥有的样本点的数量；LS代表了这个CF中拥有的样本点各特征维度的和向量，SS代表了这个CF中拥有的样本点各特征维度的平方和。CF Tree的参数有三个：非叶子节点最大个数B（分支因子），每个叶子节点包含的最大CF数L，叶子节点每个CF的最大半径阈值T，将所有的训练集样本建立了CF Tree，对应的输出就是若干个CF节点，每个节点里的样本点就是一个聚类的簇。

进一步地，可用公式表示第一聚类特征数的质心为；

半径为：。

步骤502：筛除第一聚类特征树中的异常聚类特征节点，并根据聚类算法对筛除异常聚类特征节点后的第一聚类特征树中的各个聚类特征节点进行重新聚类，得到第二聚类特征树。

具体的，对第一聚类特征树进行遍历，筛除异常聚类特征节点，例如特征数量过少、节点内半径过大等；根据聚类算法对筛除异常节点后的第一聚类特征树中的各个聚类特征节点进行重新聚类，得到第二聚类特征树。

步骤503：根据第二聚类特征树中各聚类特征节点的质心和半径，生成聚类特征圆，根据聚类特征圆确定目标训练数据，输出目标训练数据。

具体的，对第二聚类特征树进行遍历，计算每个聚类特征节点的质心和半径；基于质心和半径，生成每个聚类特征节点对应的聚类特征圆；将所有聚类特征圆综合起来，得到目标区域，将目标区域和原始数据集进行比较，筛选出符合目标区域条件的目标训练数据集，并将其作为目标训练数据输出。

示例性地，聚类特征圆的中心点为：

式中，N为第二聚类特征数中数据点的个数；为第二聚类特征树中第i个数据点；

聚类特征圆的半径为：；

聚类特征圆的直径为：

式中，为第二聚类特征树中第j个数据点。

步骤504：计算目标训练数据的准确率，并判断准确率是否大于准确率阈值。

具体的，对于筛选出的目标训练数据，可将其输入到模型中进行预测，并得出预测结果。分别计算预测结果与实际值之间的误差，以及目标训练数据集的总体误差，根据误差计算目标训练数据的准确率。

步骤505：若准确率大于准确率阈值，则校正聚类特征簇数、节点内最大聚类特征个数以及聚类特征内最大半径阈值，并重新执行将第二训练数据输入至聚类模型的步骤，直至准确率小于或等于准确率阈值。

具体的，若确定准确率大于准确率阈值，则根据目标训练数据集的误差，对聚类特征簇数、节点内最大聚类特征个数以及聚类特征内最大半径阈值等参数进行调整。并重新执行将第二训练数据输入至聚类模型的步骤，直至损失值小于或等于损失阈值。需要注意的是，调整聚类模型参数之后，需要重新执行模型训练，重新得到第一和第二聚类特征树，并对目标训练数据集的准确率进行再次评估。如果准确率仍未达到要求，则需要进行反复调整，直至获得满意的结果。

步骤304：对目标训练数据添加标签，得到样本标签数据。

具体的，在得到目标训练数据后，需要根据预设的分类标准和规则，对目标训练数据进行标记，得到样本标签数据。

步骤305：基于样本标签数据以及采用分类算法对多个弱分类器进行训练，得到训练完成的资产分类器。

具体的，在物联网设备资产分类器的建模过程中，首先需要通过数据预处理和特征工程来得到具有代表性的特征集，然后采用分类算法来对这些特征进行学习。一般情况下，不能使用单一的分类器完成所有的学习任务，因为单一的分类器可能会存在过拟合、欠拟合、泛化能力不足等问题。为了解决这些问题，可以采用弱分类器组合的方式，即将多个弱分类器组合起来形成一个强分类器，提高模型的预测性能。再通过Adaboost算法等方式训练出多个弱分类器，并最终将这些弱分类器经过一定的权重融合，得到一个训练完成的物联网资产分类器。该分类器能够同时完成两个主要任务：对物联网设备资产进行分类和对未知资产进行预测。

示例性地，可对使用已有的样本标签数据，将其切分成训练集和测试集，对训练集进行多次迭代，每一次迭代都是生成一个弱分类器并进行权重调整。在每次迭代中，使用CNN对训练集中的数据进行特征提取，并得到训练集的高级特征图；将高级特征图和标签一起送入弱分类器中进行训练。

对于测试集中的数据，使用已有的所有弱分类器组合得出最终分类结果；选定预测结果相对准确的弱分类器，并按照一定权重融合起来得到最终的分类结果，从而得到训练完成的资产分类器。

需要注意的是，在训练过程中，利用CNN提取的高级特征图和Adaboost算法结合的好处在于，CNN可以有效地提取具有区分度的特征，而Adaboost算法可以将多个弱学习器组合形成一个强分类器，提高模型的准确度和泛化性能。因此，这种方法可以在物联网设备资产分类的场景下得到很好的应用效果。

参照图3，本申请还提供了一种物联网设备的资产识别***，包括：流量数据采集模块301、标签数据生成模块302以及资产类别确定模块303，其中：

上述流量数据采集模块301，用于采集物联网网络的网络流量数据，上述物联网网络由多个物联网设备组成；

上述标签数据生成模块302，用于对上述网络流量数据进行预处理以及聚类处理，得到待匹配标签数据；

上述资产类别确定模块303，用于将上述待匹配标签数据输入至训练完成的资产分类器，输出上述网络流量中各物联网设备对应的资产类别，上述资产分类器基于样本标签数据以及多个弱分类器采用分类算法训练得到，上述样本标签数据由训练数据经过预处理、特征提取操作以及聚类处理得到。

在上述实施例的基础上，作为一种可选的实施例，上述标签数据生成模块302还包括：第一网络流量特征数据生成单元、第二网络流量特征数据生成单元以及待匹配标签数据生成单元，其中：

上述第一网络流量特征数据生成单元，采用深度包检测技术对上述网络流量数据进行特征提取和协议识别，得到第一网络流量特征数据；

上述第二网络流量特征数据生成单元，对上述第一网络流量特征数据进行归一化处理、标准化处理以及独热编码处理，得到第二网络流量特征数据；

上述待匹配标签数据生成单元，对上述第二网络流量特征数据进行聚类处理，得到上述待匹配标签数据。

在上述实施例的基础上，作为一种可选的实施例，上述物联网设备的资产识别***，还包括：第一训练数据生成模块、第二训练数据生成模块、目标训练数据生成模块、样本标签数据确定模以及资产分类器训练模块，其中：

上述第一训练数据生成模块，用于采集物联网网络的网络流量训练数据，对上述网络流量训练数据进行预处理，得到第一训练数据；

上述第二训练数据生成模块，用于将上述第一训练数据输入至特征提取模型，输出第二训练数据；

上述目标训练数据生成模块，用于将上述第二训练数据输入至聚类模型，输出目标训练数据；

上述样本标签数据确定模，用于对上述目标训练数据添加标签，得到样本标签数据；

上述资产分类器训练模块，用于基于上述样本标签数据以及采用分类算法对多个弱分类器进行训练，得到训练完成的资产分类器。

在上述实施例的基础上，作为一种可选的实施例，第一训练数据生成模块还包括：高维特征训练数据生成单元以及第二训练数据生成单元，其中：

上述高维特征训练数据生成单元，用于将上述第一训练数据输入至上述深度神经网络模型，输出上述第一训练数据的高维特征训练数据；

上述第二训练数据生成单元，用于将上述高维特征训练数据进行降维处理，得到上述第二训练数据。

在上述实施例的基础上，作为一种可选的实施例，第一训练数据生成模块还包括：损失值计算单元以及模型参数校正单元，其中：

上述损失值计算单元，用于根据损失函数公式，计算上述第一训练数据的损失值，并判断上述损失值是否大于损失阈值；

上述模型参数校正单元，用于若上述损失值大于上述损失阈值，则校正上述深度神经网络模型的参数，并重新执行上述将上述第一训练数据输入至上述深度神经网络模型，输出上述第一训练数据的高维特征训练数据的步骤，直至上述损失值小于或等于上述损失阈值。

在上述实施例的基础上，作为一种可选的实施例，上述第二训练数据生成模块还包括：第一聚类特征树生成单元、第二聚类特征树生成单元、目标训练数据生成单元以及目标训练数据输出单元，其中：

上述第一聚类特征树生成单元，用于将上述第二训练数据输入至上述聚类模型，输出第一聚类特征树，上述第一聚类特征树的中的聚类特征簇数、节点内最大聚类特征个数以及聚类特征内最大半径阈值为上述聚类模型的初始参数；

上述第二聚类特征树生成单元，用于筛除上述第一聚类特征树中的异常聚类特征节点，并根据聚类算法对筛除异常聚类特征节点后的第一聚类特征树中的各个聚类特征节点进行重新聚类，得到第二聚类特征树；

上述目标训练数据生成单元，用于根据上述第二聚类特征树中各聚类特征节点的质心和半径，生成聚类特征圆，根据上述聚类特征圆确定上述目标训练数据；

上述目标训练数据输出单元，用于输出上述目标训练数据。

需要说明的是：上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置和方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请还公开一种电子设备。参照图4，图4是本申请实施例的公开的一种电子设备的结构示意图。该电子设备400可以包括：至少一个处理器401，至少一个网络接口404，用户接口403，存储器402，至少一个通信总线405。

其中，通信总线405用于实现这些组件之间的连接通信。

其中，用户接口403可以包括显示屏（Display）、摄像头（Camera），可选用户接口403还可以包括标准的有线接口、无线接口。

其中，网络接口404可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。

其中，处理器401可以包括一个或者多个处理核心。处理器401利用各种接口和线路连接整个服务器内的各个部分，通过运行或执行存储在存储器402内的指令、程序、代码集或指令集，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据。可选的，处理器401可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programmable LogicArray，PLA）中的至少一种硬件形式来实现。处理器401可集成中央处理器（CentralProcessing Unit，CPU）、图像处理器（Graphics Processing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面图和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器401中，单独通过一块芯片进行实现。

其中，存储器402可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read-Only Memory）。可选的，该存储器402包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器402可用于存储指令、程序、代码、代码集或指令集。存储器402可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及的数据等。存储器402可选的还可以是至少一个位于远离前述处理器401的存储装置。参照图4，作为一种计算机存储介质的存储器402中可以包括操作***、网络通信模块、用户接口模块以及一种物联网设备的资产识别方法的应用程序。

在图4所示的电子设备400中，用户接口403主要用于为用户提供输入的接口，获取用户输入的数据；而处理器401可以用于调用存储器402中存储一种物联网设备的资产识别方法的应用程序，当由一个或多个处理器401执行时，使得电子设备400执行如上述实施例中一个或多个所述的方法。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必需的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几种实施方式中，应该理解到，所披露的装置，可通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后，将容易想到本公开的其他实施方案。

本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

Claims

1.一种物联网设备的资产识别方法，其特征在于，所述方法包括：

将所述待匹配标签数据输入至训练完成的资产分类器，输出所述网络流量中各物联网设备对应的资产类别，所述资产分类器基于样本标签数据以及多个弱分类器采用分类算法训练得到，所述样本标签数据由训练数据经过预处理、特征提取操作以及聚类处理得到；

其中，所述采集物联网网络的网络流量数据之前，还包括：

将所述第二训练数据输入至聚类模型，输出目标训练数据；

对所述目标训练数据添加标签，得到样本标签数据；

基于所述样本标签数据以及采用分类算法对多个弱分类器进行训练，得到训练完成的资产分类器；

其中，所述将所述第二训练数据输入至聚类模型，输出目标训练数据，包括：

输出所述目标训练数据。

2.根据权利要求1所述的物联网设备的资产识别方法，其特征在于，所述对所述网络流量数据进行预处理以及聚类处理，得到待匹配标签数据，包括：

对所述第二网络流量特征数据添加标签，得到所述待匹配标签数据。

3.根据权利要求1所述的物联网设备的资产识别方法，其特征在于，所述特征提取模型包括深度神经网络模型，所述将所述第一训练数据输入至特征提取模型，输出第二训练数据，包括：

4.根据权利要求3所述的物联网设备的资产识别方法，其特征在于，所述将所述第一训练数据输入至所述深度神经网络模型，输出所述第一训练数据的高维特征训练数据之后，还包括：

5.根据权利要求1所述的物联网设备的资产识别方法，其特征在于，所述输出所述目标训练数据之前，还包括：

6.一种物联网设备的资产识别***，其特征在于，所述***包括：

资产类别确定模块，用于将所述待匹配标签数据输入至训练完成的资产分类器，输出所述网络流量中各物联网设备对应的资产类别，所述资产分类器基于样本标签数据以及多个弱分类器采用分类算法训练得到，所述样本标签数据由训练数据经过预处理、特征提取操作以及聚类处理得到；

第一训练数据生成模块，用于采集物联网网络的网络流量训练数据，对所述网络流量训练数据进行预处理，得到第一训练数据；

第二训练数据生成模块，用于将所述第一训练数据输入至特征提取模型，输出第二训练数据；

目标训练数据生成模块，用于将所述第二训练数据输入至聚类模型，输出目标训练数据；

样本标签数据确定模块，用于对所述目标训练数据添加标签，得到样本标签数据；

资产分类器训练模块，用于基于所述样本标签数据以及采用分类算法对多个弱分类器进行训练，得到训练完成的资产分类器；

其中，所述第二训练数据生成模块还包括：第一聚类特征树生成单元、第二聚类特征树生成单元、目标训练数据生成单元以及目标训练数据输出单元；

所述第一聚类特征树生成单元，用于将所述第二训练数据输入至所述聚类模型，输出第一聚类特征树，所述第一聚类特征树的中的聚类特征簇数、节点内最大聚类特征个数以及聚类特征内最大半径阈值为所述聚类模型的初始参数；

所述第二聚类特征树生成单元，用于筛除所述第一聚类特征树中的异常聚类特征节点，并根据聚类算法对筛除异常聚类特征节点后的第一聚类特征树中的各个聚类特征节点进行重新聚类，得到第二聚类特征树；

所述目标训练数据生成单元，用于根据所述第二聚类特征树中各聚类特征节点的质心和半径，生成聚类特征圆，根据所述聚类特征圆确定所述目标训练数据；

所述目标训练数据输出单元，用于输出所述目标训练数据。

7.一种电子设备，其特征在于，包括处理器、存储器、用户接口及网络接口，所述存储器用于存储指令，所述用户接口和网络接口用于给其他设备通信，所述处理器用于执行所述存储器中存储的指令，以使所述电子设备执行如权利要求1-5任意一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有指令，当所述指令被执行时，执行如权利要求1-5任意一项所述的方法。