CN114724069A

CN114724069A - 一种视频设备型号确认方法、装置、设备及介质

Info

Publication number: CN114724069A
Application number: CN202210368563.0A
Authority: CN
Inventors: 刘佩函; 张永元; 方维; 段伟恒
Original assignee: Sky Sky Safety Technology Co ltd
Current assignee: Sky Sky Safety Technology Co ltd
Priority date: 2022-04-09
Filing date: 2022-04-09
Publication date: 2022-07-08
Anticipated expiration: 2042-04-09
Also published as: CN114724069B

Abstract

本申请涉及视频设备领域，尤其是涉及一种视频设备型号确认方法、装置、设备及介质，该方法包括获取多个待识别视频设备的报文数据，并确定每一报文数据的报文特征数据；将所有报文特征数据进行数据归一化,得到所有归一化报文特征数据；基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合；获取每一类别集合中任意一个待识别视频设备的设备型号；根据设备型号确定设备型号对应的待识别视频设备所在的类别集合的所有待识别视频设备型号。本申请具有的技术效果是：提高了视频设备型号的识别效率。

Description

一种视频设备型号确认方法、装置、设备及介质

技术领域

本申请涉及视频设备领域，尤其是涉及一种视频设备型号确认方法、装置、设备及介质。

背景技术

随着物联网技术的发展，视频设备的数量和型号呈现爆发式增长。由于视频设备功能单一，性能相对较低，安全防护能力较差，所以需要网络管理员对视频设备进行防护，但是某些设备漏洞只是针对特定型号的视频设备，所以网络管理员只有知道视频设备的型号才能对设备漏洞进行有效防范。

在视频设备识别领域，传统技术是根据网络扫描获取视频设备的报文数据以及对外开放的视频设备型号；然后通过人工对报文数据进行分析，提取与视频设备型号对应的特征，以形成规则库；基于规则库的匹配进行视频设备的识别，但是随着视频设备的型号越来越多，依赖人工进行特征提取以得到规则库，工作量大，且成本较高。

为了解决上述问题，相关技术通过网络数据分析，对已知型号的视频设备的协议数据自动进行特征提取，根据提取特征形成规则库，进而基于获取的未知视频设备的协议数据与规则库，确定未知视频设备的型号。

针对上述相关技术，发明人发现，当需要对较多未知视频设备进行型号确定时，需要获取每一个未知视频设备的视频设备数据，并将获取的每一个视频设备的协议数据进行特征提取，进而将提取的特征与规则库进行匹配，以确定每一个未知视频设备的型号，识别效率较低。

发明内容

为了提高视频设备型号的识别效率，本申请提供了一种视频设备型号确认方法、装置、设备及存储介质。

第一方面，本申请提供一种视频设备型号确认方法，采用如下的技术方案：

获取多个待识别视频设备的报文数据，并确定每一所述报文数据的报文特征数据；

将所有所述报文特征数据进行数据归一化,得到所有归一化报文特征数据；

基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合；

获取每一所述类别集合中任意一个待识别视频设备的设备型号；

根据所述设备型号确定设备型号对应的待识别视频设备所在的所述类别集合的所有待识别视频设备型号。

通过采用上述技术方案，获取多个待识别视频设备的报文数据，并确定每一报文数据的报文特征数据，将所有报文特征数据进行数据归一化,得到所有归一化报文特征数据，基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合，获取每一类别集合中任意一个待识别视频设备的设备型号，以确定整个类别结合的所有待识别视频设备的设备型号，只需要确认视频设备类别集合中的一台视频设备的设备型号，就能确定整个视频设备类别集合中所有视频设备的设备型号，极大提高了识别效率。

在一种可能实现的方式中，所述报文特征数据包括：第一子报文特征数据、第二子报文特征数据、第三子报文特征数据，所述将所有所述报文特征数据进行数据归一化，得到归一化后的所有报文特征数据，包括：

对所有第一子报文特征数据使用线性归一化，得到第一子归一化数据；第一子报文特征为报文特征数据中所有字节长度和字节数的子报文特征数据；

对所有第二子报文特征数据使用进制转换和线性归一化，得到第二子归一化数据；第二子报文特征为报文特征数据中所有校验和子报文特征数据；

对所有第三子报文特征数据使用one_hot编码，得到第三子归一化数据；第三子报文特征数据为报文特征数据中除第一子报文特征数据、第二子报文特征数据之外的子报文特征数据。

通过采用上述技术方案，根据不同的报文特征数据应用不同的归一化方法，提高了归一化报文特征数据的精确度。

在一种可能实现的方式中，在将所有报文特征数据进行数据归一化,得到所有归一化报文特征数据之后，还包括：

根据所有所述归一化报文特征数据生成矩阵数据，并对所述矩阵数据进行降维，得到降维数据；

相应的，基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合，包括：

对所述降维数据进行密度聚类，确定多个所述待识别视频设备的多个所述类别集合。

通过采用上述技术方案，对归一化报文特征数据生成的矩阵数据进行降维，得到所有降维数据，减少了计算量，提高了计算速度。

在一种可能实现的方式中，根据所有所述归一化报文特征数据生成矩阵数据，并对所述矩阵数据进行降维，得到降维数据，包括：

利用主成分分析算法对所有所述矩阵数据进行降维，得到降维数据。

通过采用上述技术方案，利用主成分分析对所有归一化报文特征数据生成的矩阵数据进行降维，形成的降维数据相互独立，降维后的效果较好。

在一种可能实现的方式中，基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合，包括：

确定报文特征数据中的每一子报文特征数据的预设邻域距离阈值范围内的所有子报文特征数据的数量；

针对同一子报文特征数据，若存在目标子报文特征数据对应的数量大于邻域内最小样本数阈值，则确定所述目标子报文特征数据为核心子报文特征数据；

根据所有核心子报文特征数据确定多个待识别视频设备的类别集合。

通过采用上述技术方案，对所有归一化报文特征数据生成的矩阵数据进行密度聚类，不需要事先通过网络数据分析提取规则或特征形成规则库或特征库，可以直接对待识别设备所有归一化报文特征数据生成的矩阵数据进行分类，确定多个待识别视频设备对应的多个类别集合，提高了视频设备型号识别的工作效率。

在一种可能实现的方式中，所述预设邻域距离阈值的确定过程，包括：

获取多个样本视频设备的多个样本报文特征数据、标准样本类别集合与标准样本类别数；对所述多个样本报文特征数据进行数据归一化，得到归一化后的所有样本报文特征数据；

根据初始的邻域距离值对归一化后的所有样本报文特征数据进行密度聚类，得到多个样本类别集合；

根据多个样本类别集合、多个样本类别集合对应的样本类别数、标准样本类别集合与标准样本类别数确定准确率；

若所述准确率达到预设标准阈值，则将初始的邻域距离值确定为预设邻域距离阈值；若所述准确率未达到预设标准阈值，则按照预设步幅调整邻域距离值，直至得到的准确率达到预设标准阈值得到所述预设邻域距离阈值。

通过上述技术方案，能够根据邻域距离阈值与准确率之间的关系，验证当前的邻域距离阈值是否符合要求，最终得到符合要求的邻域距离阈值，用于对归一化报文特征数据进行密度聚类。

在一种可能实现的方式中，所述根据多个样本类别集合、多个样本类别集合对应的样本类别数、标准样本类别集合与标准样本类别数确定准确率，包括：

根据多个样本类别集合、多个样本类别集合对应的样本类别数、标准样本类别集合与标准样本类别数利用purity算法确定所述准确率。

通过上述技术方案，获取多个样本类别集合、多个样本类别集合对应的样本类别数、标准样本类别集合与标准样本类别数，利用purity算法确定准确率，根据得到的准确率判断密度聚类的结果，准确率越高，证明密度聚类结果越好，能够直观的反映出密度聚类结果。

第二方面，本申请提供一种视频设备型号确认装置，采用如下的技术方案：

第一确定模块：用于获取多个待识别视频设备的报文数据，并确定每一所述报文数据的报文特征数据；

归一化模块：用于将所有所述报文特征数据进行数据归一化,得到所有归一化报文特征数据；

第二确定模块：用于基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合和类别数；

设备型号获取模块：用于获取每一所述类别集合中任意一个待识别视频设备的设备型号；

第三确定模块：根据所述设备型号确定设备型号对应的待识别视频设备所在的所述类别集合的所有待识别视频设备的型号。

通过采用上述技术方案，获取多个待识别视频设备的报文数据并确定每一报文数据的报文特征数据，将所有报文特征数据进行数据归一化,得到所有归一化报文特征数据，基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合，获取每一类别集合中任意一个待识别视频设备的设备型号，以确定整个类别结合的所有待识别视频设备的设备型号，只需要确认视频设备类别集合中的一台视频设备的设备型号，就能确定整个视频设备类别集合中所有视频设备的设备型号，极大提高了识别效率。

第三方面，本申请提供一种电子设备，采用如下的技术方案：

一种电子设备，该电子设备包括：

至少一个处理器；

存储器；

至少一个应用程序，其中所述至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行上述视频设备型号确认方法。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，包括：存储有能够被处理器加载并执行上述视频设备型号确认方法的计算机程序。

综上所述，本申请包括以下至少一种有益技术效果：

1.通过采用上述技术方案，获取多个待识别视频设备的报文数据并确定每一报文数据的报文特征数据，将所有报文特征数据进行数据归一化,得到所有归一化报文特征数据，基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合，获取每一类别集合中任意一个待识别视频设备的设备型号，以确定整个类别结合的所有待识别视频设备的设备型号，只需要确认视频设备类别集合中的一台视频设备的设备型号，就能确定整个视频设备类别集合中所有视频设备的设备型号，极大提高了识别效率。

附图说明

图1为本申请实施例提供的一种视频设备型号确认方法的流程示意图；

图2为本申请实施例提供的一种视频设备型号确认装置的结构示意图；

图3为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下结合附图1-附图3，对本申请作进一步详细说明。

本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请实施例的范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

下面结合说明书附图对本申请实施例作进一步详细描述。

随着物联网技术的发展，全球物联网设备数量呈现爆发式增长。据GSMA(GlobalSystem for Mobile Communications Association，全球移动通信***协会)预测，全球联网物联网设备数量将于2025年达到246亿。物联网技术的发展给设备制造商、网络服务提供商、开发者带来了机遇，但也同时带来了挑战。

一方面，随着物联网设备数量的增长，资产管理成为一个亟待解决的问题，网络管理员对入网设备数量、类型、品牌、操作***等存在大量未知情况；另一方面，随之带来的是一些安全问题，如某些漏洞只是针对特定的设备类型和品牌上，只有知道设备类型和品牌才能对设备漏洞进行有效防范。

物联网资产大多属于感知层设备，功能单一，性能相对较低，自我安全防护能力也较差，针对物联网资产的识别，其最大的困难就是资产基数大、种类和品牌众多，因此更适合采用机器学习的方法进行识别。

相关技术通过网络数据分析，对已知型号的视频设备数据进行协议特征提取，根据提取特征形成规则库，进而基于获取未知视频设备协议数据与规则库，确定未知视频设备的型号。

针对上述相关技术，发明人发现，当需要对较多未知视频设备进行型号确定时，需要获取每一个未知视频设备的视频设备数据，并将获取的每一个视频设备数据与规则库进行匹配，以确定每一个未知视频设备的型号，识别效率太低。

为了解决上述技术问题，本申请实施例提供了一种视频设备型号确认方法对于未知设备可以自动进行归类，即将相同型号的视频类设备进行自动聚类，这样只需人工确认一类设备中的一台或几台，即可标记该类中所有设备。具体地，获取多个待识别视频设备的报文数据，确定多个报文数据的报文特征数据并进行归一化，得到归一化后的所有报文特征数据，根据归一化后的每一待识别视频设备的报文特征数据进行密度聚类，确定待识别视频设备的类别集合，以实现对所有待识别视频设备的归类，通过获取类别集合中任意一个待识别视频设备的设备型号就可以确定设备型号对应的类别集合中所有待识别视频设备的型号，极大提高了识别效率。

具体地，本申请实施例提供了一种视频设备型号确认方法，由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此，该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

结合图1，图1为本申请实施例提供的一种视频设备型号确认方法的流程示意图，其中，该方法包括步骤S100、步骤S101、步骤S102、步骤S103、步骤S104，包括：

步骤S100，获取多个待识别视频设备的报文数据，并确定每一报文数据的报文特征数据。

其中，报文数据为待识别视频设备的视频协议报文数据。具体地，获取多个待识别视频设备的报文数据的方式可以包括：获取多个待识别视频设备的初始报文数据，初始报文数据是将对交换机的端口进行镜像监听得到的镜像数据进行筛选得到的；对初始报文数据进行筛选，以得到报文数据。具体地，在捕获镜像数据后，会自动过滤掉镜像数据中与视频类设备无关的数据，具体过滤语句可以为：host 10.0.9.201||host 10.0.10.200||host10.0.10.203||host 10.0.10.204||host 10.0.10.209。具体地，获取初始报文数据后，还可以存储初始报文数据，具体存储为.pcap文件，存储初始报文数据可以以每1分钟将捕获的初始报文数据存储为一个.pcap文件，以30分钟为一个周期，最终获得30个存储初始报文数据的.pcap文件，其中30个存储初始报文数据的.pcap文件包括待识别视频设备所有初始报文数据。为了减少待处理的数据量，进一步去除干扰数据，在获取到待识别视频设备的初始报文数据后，利用筛选语句筛选出与RTSP(Real Time Streaming Protocol，实时流传输协议)协议相关的数据作为待识别视频设备的报文数据，其中，RTSP是用来控制声音或影像的多媒体串流协议，筛选语句可以为：frame.protocols_eth＝＝ethertype:ip:tcp:rtsp||frame.protocols_eth＝＝ethertype:ip:tcp:rtsp:rtsp。可见，本申请实施例提供了一种报文数据获取方法，在捕获镜像数据后，筛选掉其他类设备的相关报文，以得到初始报文数据，减少了内存的使用了，之后从初始报文数据中筛选出与声音或影像相关的报文数据，减少了待处理的数据量，提高了工作效率。

进而，利用提取工具从待识别视频设备的报文数据中提取报文特征数据，其中，提取工具可以为Tshark工具，提取语句可以为tshark-r[源文件]-T fields-E header＝y[-e属性名1][-e属性名2]…[-e属性名n]-E separator＝,-E quote＝d-E occurrence＝f>[目的文件]，源文件为待识别视频设备的报文数据存储的文件，目的文件为存储报文特征数据的文件，属性名为待识别视频设备报文特征名称，报文特征数据为多个报文特征名称对应的数据组成的，多个报文特征名称由以下任意多项构成：frame.len(报文长度)、ip.len(ip报文长度)、ip.checksum(ip报文校验和)、tcp.len(tcp报文长度)、tcp.checksum(tcp报文校验和)、tcp.analysis.bytes_in_flight(tcp协议网络上未确认的字节数)、tcp.analysis.push_bytes_sent(自上次push字段置1后发送的字节数)、rtsp.length(rtsp报文长度)、frame.protocols(报文所用各层协议、ip.version(ip协议版本号)、ip.flags(ip报文头部标志位)、ip.ttl(ip报文生存时间)、ip.protocol(ip报文类型)、tcp.flags(tcp报文头部标志位)、tcp.window_size(tcp窗口大小)、tcp.window_size_scalefactor(tcp窗口缩放因子)、tcp.urgent_pointer(tcp协议紧急指针)、rtsp.magic(rtsp协议魔数)、rtsp.channel(rtsp协议通道号)。

步骤S101，将所有报文特征数据进行数据归一化,得到所有归一化报文特征数据。

归一化是数据处理的一种方式，用一种相对值代替报文特征数据，由于获取的所有待识别视频设备的报文特征数据中的某一子报文特征数据存在差值较大的值，影响计算时间，通过归一化，将所有的报文特征数据中的各个子报文特征数据映射为相对值，减少了异常值的影响，提高了计算效率。

步骤S102，基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合。

其中，在本申请实施例中，密度聚类的算法为DBSCAN(Density-Based SpatialClustering of Applications with Noise，密度聚类算法)。

具体地，基于所有归一化报文特征数据进行密度聚类，可以直接对待识别设备归一化报文特征数据进行分类，确定多个待识别视频设备对应的多个类别集合。

步骤S103，获取每一类别集合中任意一个待识别视频设备的设备型号。

其中，一种可能实现的获取每一类别集合中任意一个待识别视频设备的设备型号的方法可以为：通过查询任一待识别视频设备的后端，以获取任一待识别视频设备的设备型号。

另一种可能实现的识别的获取每一类别集合中任意一个待识别视频设备的设备型号的方法可以为：通过网络爬虫，获取设备厂家官网发布的任一待识别视频设备的设备型号。

再一种可能实现的识别的获取每一类别集合中任意一个待识别视频设备的设备型号的方法可以为：将任一待识别视频设备的报文特征数据与规则库进行匹配，以得到与任一待识别视频设备对应的设备型号，其中，规则库包括设备型号与报文特征数据的对应关系。

当然还可能是其他方式本实施例不再进行限定，只要是能够实现本实施例的目的即可。

进一步的，为了提高设备型号确定的准确率，还可以包括：获取每一类别集合中任意多个待识别视频设备的设备型号；根据多个设备型号确定最终的设备型号。

步骤S104，根据设备型号确定设备型号对应的待识别视频设备所在的类别集合的所有待识别视频设备型号。

通过密度聚类将所有待识别视频设备根据型号进行了分类，只需要识别类别集合中任意一台视频设备的设备型号，就可以确定整个类别集合的所有视频设备的设备型号。

具体地，在本申请实施例中，不仅可以对待识别视频设备分类，还可以确定待识别视频设备的型号，对待识别视频设备的识别粒度更细。

基于上述方案，获取多个待识别视频设备的报文数据并确定每一报文数据的报文特征数据，将所有报文特征数据进行数据归一化,得到所有归一化报文特征数据，基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合，只需要确认视频设备类别集合中的一台视频设备的设备型号，就能确定整个视频设备类别集合中所有视频设备的设备型号，大大提高了识别效率。

进一步的，在本申请实施例中，报文特征数据包括：第一子报文特征数据、第二子报文特征数据、第三子报文特征数据，将所有报文特征数据进行数据归一化，得到归一化后的所有报文特征数据，包括：

其中，第一子报文特征数据为除和TCP窗口大小相关的特征外的数据，其中，TCP窗口大小为接收端提供的缓冲区大小，以字节计；线性归一化是将所有第一子报文特征数据根据最大值、最小值映射为相对值，由于第一子报文特征数据为报文特征数据中所有字节长度，数据比较集中，所以对第一子报文特征数据进行线性归一化。具体算法为：df_normalized[k]＝(df[k]-dfmin())/(dfmax()-dfmin())，其中，df_normalized[k]为归一化后第K个待识别视频设备报文特征数据，即第K个待识别视频设备的第一子归一化数据，df[k]为第K个待识别视频设备报文特征实际值即第K个待识别视频设备的第一子报文特征数据，dfmax()为所有待识别视频设备的同一第一子报文特征数据的最大值，dfmin()为所有待识别视频设备的同一第一子报文特征数据的最小值。

进制转换是由于部分特征对应的值进制不统一，所以需要转换为统一进制的才能进行计算。在本申请实施例中，第二子报文特征数据是十六进制，为了方便进行线性归一化，需要将第二子特征数据转化位十进制第二子报文数据。

由于第三子报文特征数据比较离散，所以对第三子报文特征数据进行one_hot编码，one_hot编码是用N个新特征代替第三子报文特征数据，每个新特征代表原第三子报文特征数据的一种取值，且任意情况下有且只有一个新特征置1，其余置0。具体地做法是，确定第三子报文特征数据，确定第三子报文特征数据的分类变量，其中分类变量确定新特征数目，之后将第三子报文特征数据转换为二进制，例如：确定的任一待识别视频设备的第三子报文特征数据为[1,2,0,4,2,3]，由于第三子报文特征数据包括0、1、2、3、4，所以可以确定5个分类变量，用5个新特征代替第三子报文特征数据，将第三子报文特征数据利用one_hot编码表示，则第三子报文特征数据对应的新特征为[01000],[00100],[10000],[00001],[00100]，[00010]。通过one_hot编码，将第三子报文特征数据进行了对应简化，使得计算方式更为简单。

具体地，根据不同的报文特征数据应用不同的归一化方法，提高了归一化报文特征数据的精确度。

进一步的，为了减少计算量，提高计算速度，本申请实施例中，在将所有报文特征数据进行数据归一化,得到所有归一化报文特征数据之后，还包括：

对所有归一化报文特征数据降维，得到所有降维报文特征数据；

根据所有归一化报文特征数据生成矩阵数据，并对矩阵数据进行降维，得到降维数据；

对降维数据进行密度聚类，确定多个待识别视频设备的多个类别集合。

具体地，由于对第三子报文特征数据进行one_hot编码之后，在生成矩阵数据时，维度变高，造成计算速度变慢，其中矩阵数据是由归一化后的数据进行排列形成的矩阵，所以需要对归一化报文特征数据进行降维，通过对归一化数据进行降维，减少了计算复杂度，提高了计算速度。

本实施例不对降维的方式进行限定，可以是：SVD(Singular ValueDecomposition，奇异值分解)、PCA(Principal Component Analysis，主成分分析)、FAI(factor analysis，因子分析)、ICA(Independent Component Correlation Algorithm独立成分分析)中的任意一种。

进一步的，在本申请实施例中，根据所有归一化报文特征数据生成矩阵数据，并对矩阵数据进行降维，得到降维数据，包括：

利用主成分分析算法对所有矩阵数据进行降维，得到降维数据。

其中，主成分分析算法是一种降维的统计方法，由于在进行one_hot编码后，用N个新特征代替了第三子报文特征数据，所以使得生成矩阵数据时维度变高，增加了计算复杂度，提高了计算量，所以需要对矩阵数据进行降维，具体方法包括：将矩阵数据的数据进行零均值化，得到第二矩阵；计算得到第二矩阵的协方差矩阵；并计算协方差矩阵的特征值和单位特征向量，按照特征值从大到小的顺序，将单位特征向量排列成第三矩阵，并根据矩阵数据与第三矩阵计算出主成分矩阵，设定降低后的维度为z，则取前z列主成分矩阵数据作为降低为z维后的数据。

具体地，与其他降维方法相比，主成分分析方法由于通过单位特征想想排列成的第三矩阵与矩阵数据计算主成分矩阵，所以对归一化报文特征数据形成的矩阵数据进行降维后，形成的降维数据相互独立，降维后的效果较好。

进一步的，在本申请实施例中，基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合，包括步骤S30(附图未示出)、步骤S31(附图未示出)、步骤S32(附图未示出)，其中：

步骤S30，确定报文特征数据中的每一子报文特征数据的预设邻域距离阈值范围内的所有子报文特征数据的数量。

其中，确定报文特征数据中的每一子报文特征数据的预设邻域距离阈值范围内的所有子报文特征数据的数量方法可以为，以每一子报文特征数据为圆心，邻域距离阈值为半径的圆，确定圆中子报文特征数据的数量。

步骤S31，针对同一子报文特征数据，若存在目标子报文特征数据对应的数量不小于邻域内最小样本数阈值，则确定目标子报文特征数据为核心子报文特征数据。

其中，若在以目标子报文特征数据为圆心，邻域距离阈值为半径的圆中的子报文特征数据对应的数量不小于邻域内最小样本数阈值，则确定目标子报文特征数据为核心子报文特征数据。邻域内最小样本数阈值可以根据经验进行设置或者计算机自定义设置，本实施例不再进行限定。

步骤S32，根据所有核心子报文特征数据确定多个待识别视频设备的类别集合。

以任意一个核心子报文特征数据为起点，将所有密度可达的核心子报文特征数据连接，直到以核心子报文特征数据为起点没有密度可达的核心子报文特征数据为止，形成多个簇，每一个簇就是每一类别集合。密度可达包括直接密度可达和间接密度可达，例如：P、Q、I为核心子报文特征数据，若Q在以P为圆心，邻域距离阈值为半径的圆中，则P直接密度可达Q；若I在以Q为圆心，邻域距离阈值为半径的圆中，且不在以P为圆心，邻域距离预支为半径的圆中，则Q直接密度可达I，P间接可达I，所以可以说P密度可达Q、I。值得注意的是，P、Q、I必须为核心子报文特征数据。

具体地，对所有归一化报文特征数据生成的矩阵数据进行密度聚类，不需要事先通过网络数据分析提取规则或特征形成规则库或特征库，可以直接对待识别设备所有归一化报文特征数据生成的矩阵数据进行分类，确定多个待识别视频设备对应的多个类别集合，提高了视频设备型号识别的工作效率。

进一步的，在本申请实施例中，预设邻域距离阈值的确定过程，包括步骤S40(附图未示出)、步骤S41(附图未示出)、步骤S42(附图未示出)、步骤S43(附图未示出)、步骤S44(附图未示出)，其中：

步骤S40，获取多个样本视频设备的多个样本报文特征数据、标准样本类别集合与标准样本类别数；

其中，在获取多个样本视频设备的多个样本报文特征数据时，通过人工查看样本视频设备mac地址、样本视频设备ip地址、样本视频设备类型、样本视频设备型号，以对多个样本设备进行分类，以获取标准类别集合与标准样本类别数。例如请参考表1，表1为样本视频设备的相关信息：

表1样本视频设备的相关信息示意表

其中，IPC是IP摄像头类型，DVR是硬盘录像机类型，样本报文数据为样本视频设备的视频协议报文数据。具体地，获取多个样本视频设备的报文数据的方法可以包括：获取多个样本视频设备的初始报文数据，其中初始报文数据是将对交换机的端口进行镜像监听得到的镜像数据进行筛选得到的；对初始报文数据进行筛选，以得到报文数据。进而，利用提取工具从样本视频设备的报文数据中提取报文特征数据。

步骤S41，对多个样本报文特征数据进行数据归一化，得到归一化后的所有样本报文特征数据。

其中，对多个样本报文特征数据进行数据归一化，归一化的方法包括：线性归一化、进制转换、one_hot编码。

步骤S42，根据初始的邻域距离值对归一化后的所有样本报文特征数据进行密度聚类，得到多个样本类别集合。

其中，在本申请实施例中，初始的邻域距离值可以根据经验进行设置或者计算机自定义设置，本实施例不再进行限定。例如，初始的邻域距离值可以设置为0.1，将归一化后的所有样本报文特征数据进行密度聚类，得到邻域距离值为0.1时所有样本视频设备经过密度聚类后的多个样本类别集合。

步骤S43，根据多个样本类别集合、多个样本类别集合对应的样本类别数、标准样本类别集合与标准样本类别数确定准确率。

其中，准确率是评价聚类结果准确性的评价指标，通过计算准确率的大小可以验证密度聚类算法在初始的邻域距离时的准确率。通过计算得到的准确率，判断初始的邻域距离值是否需要调整。准确率确定的方法本实施例不再进行限定，只要是能够实现本实施例的目的即可。

步骤S44，若准确率达到预设标准阈值，则将初始的邻域距离值确定为预设邻域距离阈值；若准确率未达到预设标准阈值，则按照预设步幅调整邻域距离值，直至得到的准确率达到预设标准阈值得到预设邻域距离阈值。

预设标准阈值、预设步幅可以根据经验进行设置或者计算机自定义设置，本实施例不再进行限定。

例如，得到邻域距离阈值为0.1时密度聚类算法的准确率，若准确率满足预设标准阈值，则确定0.1为邻域距离值，若不满足，则按着规定的步幅调整邻域距离值，例如，规定的步幅为0.1，第二次计算准确率则为当预设邻域阈值为0.2时的准确率，直至对应的准确率达到预设标准阈值。

可见，本申请实施例提供了一种实验得到最优邻域距离阈值的方法，能够根据邻域距离阈值与准确率之间的关系，验证每一邻域距离阈值是否符合要求，最终得到符合要求的邻域距离阈值，用于对归一化报文特征数据进行密度聚类。

具体地，在本申请实施例中，根据多个样本类别集合、多个样本类别集合对应的样本类别数、标准样本类别集合与标准样本类别数确定准确率，包括：

根据多个样本类别集合、多个样本类别集合对应的样本类别数、标准样本类别集合与标准样本类别数利用purity算法确定准确率。

其中，purity(纯度)算法是聚类结果的评价指标，在本申请实施例中，对832379个报文中，采用purity方法计算准确率，其中purity算法的公式为：

A＝{a₁,a₂,…,a_n}；B＝{b₁,b₂,…,b_m},其中，acc为准确率，N为样本设备总数目，A为样本类别集合，B为标准样本类别集合，

为A样本类别集合与B标准样本类别集合交集的极大值，a_n为第n个进行密度聚类的样本类别，b_m为第m个标准样本类别，k为A中全部样本类别集合，i为B中全部标准样本类别集合。计算方法是从A集合中与B集合中找出相同的视频设备数目，与设备总数目的比值。例如：邻域距离值取1.4，n的值为8，m的值为4，样本总数量为6，那么通过purity算法所得到的准确率为98.7％。

具体地，本申请实施例提供了一种验证密度聚类准确率的方法，通过获取多个样本类别集合、多个样本类别集合对应的样本类别数、标准样本类别集合与标准样本类别数，利用purity算法确定准确率，根据得到的准确率判断密度聚类的结果，准确率越高，证明密度聚类结果越好，能够直观的反映出密度聚类结果。

另一种可实现的确定准确率的方法可以为：entropy(熵)算法、precious(珍贵度)算法、F-measure(F-测度)算法、Recall(召回率)算法中任一种。

在上述实施例中，从方法流程的角度介绍了一种视频设备型号确认方法，下述实施例从模块或者单元的角度介绍一种视频设备型号确认装置，具体详见下述实施例。请参考图2，图2为本申请实施例提供的一种视频设备型号确认装置的结构示意图，包括：

第一确定模块210：用于获取多个待识别视频设备的报文数据，并确定每一报文数据的报文特征数据；

归一化模块220：用于将所有报文特征数据进行数据归一化,得到所有归一化报文特征数据；

第二确定模块230：用于基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合和类别数；

设备型号获取模块240：用于获取每一类别集合中任意一个待识别视频设备的设备型号；

第三确定模块250：用于根据设备型号确定设备型号对应的待识别视频设备所在的类别集合的所有待识别视频设备的型号。

本申请实施例的一种可能的实现方式，报文特征数据包括：第一子报文特征数据、第二子报文特征数据、第三子报文特征数据，归一化模块220在执行将所有报文特征数据进行数据归一化，得到归一化后的所有报文特征数据时，具体用于：

对第一子报文特征数据使用线性归一化，得到第一子归一化数据；第一子报文特征为报文特征数据中所有字节长度和字节数的子报文特征数据；

对第二子报文特征数据使用进制转换和线性归一化，得到第二子归一化数据；第二子报文特征为报文特征数据中所有校验和子报文特征数据；对第三子报文特征数据使用one_hot编码，得到第三子归一化数据；第三子报文特征数据为报文特征数据中除第一子报文特征数据、第二子报文特征数据之外的子报文特征数据。

本申请实施例的一种可能的实现方式，还包括：

降维模块：用于根据所有归一化报文特征数据生成矩阵数据，并对矩阵数据进行降维，得到降维数据；

相应的，第二确定模块230在执行基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合时，具体用于：

本申请实施例的一种可能的实现方式，降维模块在执行对根据所有归一化报文特征数据生成矩阵数据，并对矩阵数据进行降维，得到降维数据，具体用于：

本申请实施例的一种可能的实现方式，第二确定模块230在执行基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合时，具体用于：

针对同一子报文特征数据，若存在目标子报文特征数据对应的数量大于邻域内最小样本数阈值，则确定目标子报文特征数据为核心子报文特征数据；

根据所有核心子报文特征数据确定多个待识别视频设备的类别集合。本申请实施例的一种可能的实现方法，还包括：预设邻域距离阈值确定模块，用于：

获取多个样本视频设备的多个样本报文特征数据、标准样本类别集合与标准样本类别数；

对多个样本报文特征数据进行数据归一化，得到归一化后的所有样本报文特征数据；

若准确率达到预设标准阈值，则将初始的邻域距离值确定为预设邻域距离阈值；若准确率未达到预设标准阈值，则按照预设步幅调整邻域距离值，直至得到的准确率达到预设标准阈值得到预设邻域距离阈值。

本申请实施例的一种可能的实现方式，预设邻域距离阈值确定模块在执行根据多个样本类别集合、多个样本类别集合对应的样本类别数、标准样本类别集合与标准样本类别数确定准确率时，具体用于：

本申请实施例提供的一种视频设备型号确认装置适用于上述视频设备型号确认方法实施例。下面对本申请实施例提供的一种电子设备进行介绍，下文描述的电子设备与上文描述的视频设备型号确认方法可相互对应参照。

本申请实施例中提供了一种电子设备，如图3所示，图3为本申请实施例提供的一种电子设备的结构示意图，图3所示的电子设备300包括：处理器301和存储器303。其中，处理器301和存储器303相连，如通过总线302相连。可选地，电子设备300还可以包括收发器304。需要说明的是，实际应用中收发器304不限于一个，该电子设备300的结构并不构成对本申请实施例的限定。

处理器301可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请实施例公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线302可包括一通路，在上述组件之间传送信息。总线302可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器303可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器303用于存储执行本申请实施例方案的应用程序代码，并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

下面对本申请实施例提供的一种计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的方法可相互对应参照。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上视频设备型号确认方法的步骤。与相关技术相比，本申请实施例中，获取多个待识别视频设备的报文数据，并确定每一报文数据的报文特征数据，将所有报文特征数据进行数据归一化,得到所有归一化报文特征数据，基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合，获取每一类别集合中任意一个待识别视频设备的设备型号，以确定整个类别结合的所有待识别视频设备的设备型号，只需要确认视频设备类别集合中的一台视频设备的设备型号，就能确定整个视频设备类别集合中所有视频设备的设备型号，极大提高了识别效率。

由于计算机可读存储介质部分的实施例与方法部分的实施例相互对应，因此计算机可读存储介质部分的实施例请参见方法部分的实施例的描述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频设备型号确认方法，其特征在于，包括：

2.根据权利要求1所述的视频设备型号确认方法，其特征在于，所述报文特征数据包括：第一子报文特征数据、第二子报文特征数据、第三子报文特征数据，所述将所有所述报文特征数据进行数据归一化，得到归一化后的所有报文特征数据，包括：

3.根据权利要求2所述的视频设备型号确认方法，其特征在于，在将所有所述报文特征数据进行数据归一化,得到所有归一化报文特征数据之后，还包括：

4.根据权利要求3所述的视频设备型号确认方法，根据所有所述归一化报文特征数据生成矩阵数据，并对所述矩阵数据进行降维，得到降维数据，包括：

利用主成分分析算法对所有所述归一化报文特征数据降维，得到所有所述降维报文特征数据。

5.根据权利要求1所述的视频设备型号确认方法，其特征在于，基于所有归一化报文特征数据进行密度聚类，确定多个待识别视频设备对应的多个类别集合，包括：

针对同一子报文特征数据，若存在目标子报文特征数据对应的数量不小于邻域内最小样本数阈值，则确定所述目标子报文特征数据为核心子报文特征数据；

6.根据权利要求5所述的视频设备型号确认方法，其特征在于，所述预设邻域距离阈值的确定过程，包括：

对所述多个样本报文特征数据进行数据归一化，得到归一化后的所有样本报文特征数据；

7.根据权利要求6所述的视频设备型号确认方法，其特征在于，所述根据多个样本类别集合、多个样本类别集合对应的样本类别数、标准样本类别集合与标准样本类别数确定准确率，包括：

8.一种视频设备型号确认的装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

至少一个处理器；

存储器；

至少一个应用程序，其中所述至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：如权利要求1至7中任一种方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。