CN115392238A - 一种设备识别方法、装置、设备及可读存储介质 - Google Patents

一种设备识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN115392238A
CN115392238A CN202210411879.3A CN202210411879A CN115392238A CN 115392238 A CN115392238 A CN 115392238A CN 202210411879 A CN202210411879 A CN 202210411879A CN 115392238 A CN115392238 A CN 115392238A
Authority
CN
China
Prior art keywords
unidentified
data
clustering
equipment
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210411879.3A
Other languages
English (en)
Inventor
黄子恒
张星
关雪松
张志良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202210411879.3A priority Critical patent/CN115392238A/zh
Publication of CN115392238A publication Critical patent/CN115392238A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种设备识别方法、装置、设备及可读存储介质,应用于物联网技术领域,该方法包括:对获取的各未识别设备的设备数据进行分词,获取未识别设备各自对应的分词数据;对分词数据进行向量化,获取未识别设备各自对应的向量化数据;对向量化数据进行聚类,得到各未识别设备各自对应的聚类类别;获取每个聚类类别各自对应的设备标识信息,并利用设备标识信息标记各聚类类各自对应的全部未识别设备;本发明通过对分词数据进行向量化,获取未识别设备各自对应的向量化数据,能够将分词数据向量化为物联网设备领域专有词向量,使得物联网设备特征更加准确全面,从而提高后续聚类标记的准确性,实现对物联网设备的自动全面梳理。

Description

一种设备识别方法、装置、设备及可读存储介质
技术领域
本发明涉及物联网技术领域,特别涉及一种设备识别方法、装置、设备及可读存储介质。
背景技术
随着现代社会科技的发展,物联网应用在各行业得到了越来越多的部署。同时,物联网设备安全风险逐年升高,物联网设备的安全不容忽视。目前在对物联网设备的筛查中发现,有大量物联网设备直接暴露在互联网上,其中路由器和视频监控设备的数量最多;容易被网络爬虫和恶意攻击者发现。更严重的是,这些设备中有相当大的比例存在弱口令、已知漏洞等风险,可能被恶意代码感染成为僵尸主机。一方面,这些被感染的设备会继续感染其他的设备,组成大规模的物联网僵尸网络;另一方面,它们接受并执行来自命令和控制服务器的指令,发动大规模DDoS(分布式拒绝服务,Distributed Denial of Service)攻击,对互联网上的业务造成很严重的破坏和影响。如果能够对暴露在外的物联网资产进行归纳梳理并分析,对于发现物联网设备的安全问题是具有重要意义的。
目前,对于物联网设备资产的梳理大多靠人工进行梳理,非常费时费力,且梳理不够全面;而现有利用互联网技术替代人工的方式来进行物联网设备资产梳理的方案,由于物联网设备资产数量庞大,难以快速准确的对物联网设备进行识别标记。因此,如何能够快速准确地识别标记物联网设备,实现对物联网设备的自动全面梳理,是现今急需解决的问题。
发明内容
本发明的目的是提供一种设备识别方法、装置、设备及可读存储介质,以快速准确地识别标记物联网设备,实现对物联网设备的自动全面梳理。
为解决上述技术问题,本发明提供一种设备识别方法,包括:
对获取的各未识别设备的设备数据进行分词,获取所述未识别设备各自对应的分词数据;
对所述分词数据进行向量化,获取所述未识别设备各自对应的向量化数据;
对所述向量化数据进行聚类,得到各所述未识别设备各自对应的聚类类别;
获取每个所述聚类类别各自对应的设备标识信息,并利用所述设备标识信息标记各所述聚类类各自对应的全部未识别设备。
可选的,所述对所述向量化数据进行聚类,得到各所述未识别设备各自对应的聚类类别,包括:
利用第一聚类算法对所述向量化数据进行初次聚类,获取各所述未识别设备各自对应的初次聚类结果;
利用第二聚类算法对各所述初次聚类结果对应的向量化数据进行二次聚类,获取各所述未识别设备各自对应的聚类类别。
可选的,所述利用第一聚类算法对所述向量化数据进行初次聚类,获取各所述未识别设备各自对应的初次聚类结果,包括:
根据所述向量化数据,利用手肘法和滑动窗口法,确定K-均值算法的K值;其中,所述K值为所述初次聚类结果的数量。
可选的,所述获取每个所述聚类类别各自对应的设备标识信息,包括:
根据当前聚类类别中的目标未识别设备的聚类数据,从预设规则库中查找获取所述目标未识别设备对应的设备标识信息;其中,当前聚类类别为任一所述聚类类别,所述目标未识别设备为当前聚类类别对应的任一未识别设备;
将所述目标未识别设备对应的设备标识信息确定为当前聚类类别对应的设备标识信息。
可选的,所述对所述分词数据进行向量化,获取所述未识别设备各自对应的向量化数据,包括:
利用预设词向量模型对所述分词数据进行向量化,获取所述未识别设备各自对应的向量化数据。
可选的,所述对所述向量化数据进行聚类,得到各所述未识别设备各自对应的聚类类别之后,还包括:
根据各所述聚类类别各自对应的未识别设备的设备数据,生成各所述聚类类别各自对应的设备指纹;其中,所述设备指纹包括网络协议版本信息、网络协议状态码信息、头部关键字段信息、头部关键字段对应值信息和主体信息中的至少一项。
可选的,所述对所述向量化数据进行聚类,得到各所述未识别设备各自对应的聚类类别之后,还包括:
根据各所述聚类类别各自对应的未识别设备的设备数据,统计各所述聚类类别对应的指纹特征;其中,所述指纹特征为每个所述聚类类别各自对应的设备数据中数量最多的预设数量的字段;
各所述聚类类别对应的指纹特征和设备指纹存储到指纹数据库。
本发明还提供了一种设备识别装置,包括:
分词模块,用于对获取的各未识别设备的设备数据进行分词,获取所述未识别设备各自对应的分词数据;
向量化模块,用于对所述分词数据进行向量化,获取所述未识别设备各自对应的向量化数据;
聚类模块,用于对所述向量化数据进行聚类,得到各所述未识别设备各自对应的聚类类别;
标记模块,用于获取每个所述聚类类别各自对应的设备标识信息,并利用所述设备标识信息标记各所述聚类类各自对应的全部未识别设备。
本发明还提供了一种设备识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述所述的设备识别方法的步骤。
此外,本发明还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的设备识别方法的步骤。
本发明所提供的一种设备识别方法,包括:对获取的各未识别设备的设备数据进行分词,获取未识别设备各自对应的分词数据;对分词数据进行向量化,获取未识别设备各自对应的向量化数据;对向量化数据进行聚类,得到各未识别设备各自对应的聚类类别;获取每个聚类类别各自对应的设备标识信息,并利用设备标识信息标记各聚类类各自对应的全部未识别设备;
可见,本发明通过对分词数据进行向量化,获取未识别设备各自对应的向量化数据,能够将分词数据向量化为物联网设备领域专有词向量,使得物联网设备特征更加准确全面,从而提高后续聚类的准确性,能够快速准确地识别标记物联网设备,实现对物联网设备的自动全面梳理。此外,本发明还提供了一种设备识别装置、设备及可读存储介质,同样具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的一种设备识别方法的流程图;
图2为本发明实施例所提供的另一种设备识别方法的流程示意图;
图3为本发明实施例所提供的一种设备识别装置的结构框图;
图4为本发明实施例所提供的一种设备识别设备的结构示意图;
图5为本发明实施例所提供的一种设备识别设备的具体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例所提供的一种设备识别方法的流程图。该方法可以包括:
步骤101:对获取的各未识别设备的设备数据进行分词,获取未识别设备各自对应的分词数据。
其中,本步骤中的未识别设备可以为需要进行标记识别的设备,如物联网设备。本步骤中的各未识别设备的设备数据可以为未识别设备通过网络返回的响应包数据(Banner),即未识别设备对通过网络接收的请求包返回的响应包的内容。
可以理解的是,本步骤中处理器可以对获取的各未识别设备的设备数据进行分词,以得到各未识别设备各自对应的分词数据。对于本步骤中处理器对获取的各未识别设备的设备数据进行分词,获取未识别设备各自对应的分词数据的具体方式,可以由设计人员根据使用场景和用户需求自行设置,如处理器可以直接对获取的各未识别设备的设备数据进行分词,获取未识别设备各自对应的分词数据;为了保证分词的准确性,本步骤中处理器也可以先对各未识别设备的设备数据进行预处理,再对预处理后得到的各未识别设备各自对应的处理数据进行分词,获取各未识别设备各自对应的分词数据;例如,预处理可以包括无用符号(如标点符号)删除处理和停用词(如语气词“的”)删除处理等;预处理还可以包括无效数据删除处理,以清理掉未识别设备的设备数据(Banner)中的无效数据(如图2中的无效的Key字段)。
也就是说,本步骤中处理器可以对各未识别设备的设备数据进行预处理,得到各未识别设备各自对应的处理数据;对处理数据进行分词,获取各未识别设备各自对应的分词数据;其中,预处理可以包括无效数据删除处理、无用符号删除处理和停用词删除处理。如图2所示,处理器可以对各未识别设备的设备数据(Date1)进行无效数据删除处理,获取各未识别设备各自对应的初次处理数据(Date2);对初次处理数据进行无用符号删除处理和停用词删除处理,获取各未识别设备各自对应的处理数据;对处理数据进行分词,获取各未识别设备各自对应的分词数据(Date3)。
需要说明的是,本实施例中处理器在本步骤之前还可以包括获取各未识别设备的设备数据的过程;如处理器可以根据获取的网段信息和端口信息,获取各未识别设备的设备数据;也就是说,本实施例中处理器可以通过从客户给定的网段信息和端口信息进行扫描过滤,过滤掉网段信息和端口信息对应的设备中已识别设备的设备数据,获取各未识别设备的设备数据。处理器也可以根据获取的IP地址和端口信息,获取各未识别设备的设备数据;也就是说,本实施例中处理器可以利用产品人员提供的设备的IP地址及端口信息,过滤掉设备中已识别设备的设备数据,获取各未识别设备的设备数据。如图2所示,处理器可以将获取的全部设备的设备数据中的已识别设备的设备数据(无效的Banner)删除,得到各未识别设备的设备数据(Date1)。
步骤102:对分词数据进行向量化,获取未识别设备各自对应的向量化数据。
可以理解的是,本步骤中处理器通过对分词数据进行向量化,可以将未识别设备各自对应的分词数据向量化为所需领域(如物联网设备领域)内的专有词向量,从而使得后续聚类所使用的设备特征更加准确全面,提高后续聚类的准确性。
具体的,对于本步骤中处理器对分词数据进行向量化,获取未识别设备各自对应的向量化数据的具体方式,可以由设计人员根据实用场景和用户需求自行设置,如处理器可以利用预设词向量模型对分词数据进行向量化,获取未识别设备各自对应的向量化数据;例如预设词向量模型可以为针对物联网设备信息训练的词向量模型,如word2vec模型(一种用来产生词向量的模型,如图2中的W2V模型)。
对应的,本实施例所提供的方法还可以包括预设词向量模型的构建训练过程,如利用预设配置训练参数获取初始词向量模型后,处理器可以利用预设分词数据对初始词向量模型进行训练,得到预设词向量模型;其中,为了保证预设词向量模型更具有领域性,本实施例中的预设分词数据可以包括预设数量的网络公开设备数据对应的分词数据(即训练分词数据),如从网络搜索引擎上爬取的公开的设备数据1万条(即预设数量),并对其进行清洗和分词,得到训练分词数据;预设分词数据也可以包括步骤101获取的未识别设备的分词数据,如处理器可以在第一次进行设备识别时,利用未识别设备的分词数据和训练分词数据,对初始词向量模型进行训练,得到预设分词数据,使得之后每次进行设备识别时,处理器可以直接利用训练好的预设分词数据进行向量化嵌入,得到相应的向量化数据。
步骤103:对向量化数据进行聚类,得到各未识别设备各自对应的聚类类别。
可以理解的是,本步骤中处理器可以通过对各未识别设备的向量化数据进行聚类,可以得到各未识别设备各自对应的聚类类别,完成全部未识别设备的类别划分。
具体的,对于本步骤中处理器对向量化数据进行聚类,得到各未识别设备各自对应的聚类类别的具体方式,可以由设计人员自行设置,如处理器可以直接利用一种聚类算法对向量化数据进行聚类,得到各未识别设备各自对应的聚类类别;例如,处理器可以直接利用DBScan算法(Density-Based Spatial Clustering of Applications with Noise,一种具有噪声的基于密度的聚类算法)对向量化数据进行聚类,得到各聚类结果和噪音数据,将各聚类结果分别作为各自对应的一种聚类类别,并将噪音数据作为一种聚类类别(即噪音类别)。
对应的,为了在保证聚类准确度的基础上,提高聚类速度,本步骤中处理器可以利用第一聚类算法对向量化数据进行初次聚类,获取各未识别设备各自对应的初次聚类结果;利用第二聚类算法对各初次聚类结果对应的向量化数据进行二次聚类,获取各未识别设备各自对应的聚类类别。例如,第二聚类算法为DBScan算法时,由于DBScan算法的聚类速度在大数据集上较慢;处理器可以利用初次聚类结果,将大数据集先粗略划分为多个相似的小数据,大大增加聚类速度和准度。
具体的,对于上述第一聚类算法和第二聚类算法的具体算法选择,可以由设计人员根据实用场景和用户需求自行设置,如图2所示,第一聚类算法可以具体为K-means算法(K-均值算法),以利用K-means算法的聚类速度快的优势,提高本步骤中的聚类速度;第二聚类算法可以具体为DBScan算法,以利用初次聚类结果(第一次聚类结果Res),各初次聚类结果进行二次聚类,得到第二次聚类结果,从而在全部第二次聚类结果合并后,得到最终聚类结果Res_finall)和噪声数据,以确定各未识别设备各自对应的聚类类别。
进一步的,为了提高利用K-均值算法的初次聚类的准确度,本实施例中处理器可以根据向量化数据,利用手肘法和滑动窗口法,确定K-均值算法的K值;其中,K值为初次聚类结果的数量,即聚类个数。也就是说,本实施例中处理器可以结合手肘法和滑动窗口法,自动得到K-均值算法中的最优K值,省去现有技术中K-均值算法需要人工设定的K值的过程。例如,处理器可以根据向量化数据,利用手肘法和滑动窗口法,从预设K值范围内确定K-均值算法的K值。
进一步的,为了提高利用DBScan算法的二次聚类的准确度,本实施例中处理器可以根据当前初次聚类结果,确定DBScan算法的最小半径值和最少包含数量;其中,当前初次聚类结果为任一聚类结果。也就是说,本实施例中处理器可以自动计算出DBScan算法中最小半径值和最少包含数量和最优数值,以避免人工设定最小半径值和最少包含数量这两个参数的过程。
步骤104:获取每个聚类类别各自对应的设备标识信息,并利用设备标识信息标记各聚类类各自对应的全部未识别设备。
可以理解的是,本步骤中处理器可以利用各聚类类别各自对应的设备标识信息,对各聚类类别对应的全部未识别设备进行标记,从而完成各聚类类别的全部未识别设备快速标记识别。
具体的,对于本步骤中处理器获取每个聚类类别各自对应的设备标识信息的具体方式,可以由设计人员自行设置,如处理器可以利用预先存储有各聚类类别与设备标识信息的对应关系的规则库(即预设规则库),获取各聚类类别各自对应的设备标识信息;例如处理器可以根据当前聚类类别中的目标未识别设备的聚类数据,从预设规则库中查找获取目标未识别设备对应的设备标识信息;将目标未识别设备对应的设备标识信息确定为当前聚类类别对应的设备标识信息;其中,当前聚类类别为任一聚类类别,目标未识别设备为当前聚类类别对应的任一未识别设备,预设规则库存储有各聚类类别与各自对应的设备标识信息之间的对应关系(即规则)。也就是说,本实施例中处理器可以利用预设规则库对每个聚类类别中的一条数据(即聚类数据)进行设备信息的自动标记,只需要标记每聚类类别中的一条数据即可快速标记同一个聚类类别的所有未识别设备。
对应的,本实施例所提供的方法还可以包括预设规则库中的规则增加过程,例如,处理器可以根据获取的规则扩充指令,在预设规则库中加入规则扩充指令对应的新增规则,即新增聚类类别与各自对应的新增设备标识信息之间的对应关系;其中,新增规则的格式与预设规则库中原有的规则的格式相同。
进一步的,本实施例所提供的方法还可以包括设备指纹的生成过程;如处理器可以根据各聚类类别各自对应的未识别设备的设备数据,生成各聚类类别各自对应的设备指纹;其中,设备指纹包括网络协议版本信息、网络协议状态码信息、头部关键字段信息、头部关键字段对应值信息和主体信息中的至少一项。
举例来说,其中,设备指纹包括网络协议版本信息、网络协议状态码信息、头部关键字段信息、头部关键字段对应值信息和主体信息时,某一聚类类别对应的设备指纹可以为200|1.1|ac-rg,co-ty,co-le,l-m,sr|co-ty:te-ht|7f24bcb7,其中,上述网络协议版本信息可以为设备数据(Banner)中头部(Header)数据中的原始网络协议版本号,如原始HTTP(Hyper Text Transfer Protocol,超文本传输协议)版本号的1.1或1.0。上述网络协议状态码信息可以为设备数据中头部数据中的网络协议状态码,如HTTP响应状态的3位数字代码,例如200(表示请求成功,ok),302(表示重定向,Move Temporarily)或404(表示资源未找到,Not found)等。上述头部关键字段信息可以为设备数据中头部数据中各关键字段各自对应的索引值,如哈希值或预设字段库中存储的数值(如上述ac-rg,co-ty,co-le,l-m,sr)。上述头部关键字段对应值信息可以为设备数据中头部数据中各关键字段的数值(即字段值)各自对应的索引值,如哈希值或预设字段数值库中存储的数值(如上述co-ty:te-ht)。上述主体信息可以包括主体(Body)骨架信息,如HTML(超文本标记语言格式)或XML(可扩展标记语言格式)格式的主体数据对应的DOM(文档对象化模型)树中全部标签对应的索引值(如哈希值),例如上述哈希值7f24bcb7,以利用主体骨架信息,尽可能避免因变化性内容不同(如返回数据的时间不同),而导致的同一设备生成的指纹不同的问题。
进一步的,本实施例所提供的方法还可以支持从未识别设备的设备数据中推荐可当做设备指纹的字段(即指纹特征),如处理器可以根据各聚类类别各自对应的未识别设备的设备数据,统计各聚类类别对应的指纹特征;其中,指纹特征为每个聚类类别各自对应的设备数据中数量最多的预设数量的字段;例如预设数量为10时,处理器可以对每一个聚类类别中的全部设备数据进行特征统计,保留出现频率最多的10个字段作为该聚类类别对应的指纹特征。
对应的,处理器可以将各聚类类别对应的指纹特征和设备指纹存储到指纹数据库,以实现各聚类类别的设备的指纹的推荐功能,使得用户可以在指纹数据库中根据需求选择生成的设备指纹或统计的指纹特征作为设备(如物联网设备)的指纹,从而能够从统计的角度及算法自动生成的角度出发,推荐设备的指纹集合,使得推荐的指纹更具有可靠性
本实施例中,本发明实施例通过对分词数据进行向量化,获取未识别设备各自对应的向量化数据,能够将分词数据向量化为物联网设备领域专有词向量,使得物联网设备特征更加准确全面,从而提高后续聚类的准确性,能够快速准确地识别标记物联网设备,实现对物联网设备的自动全面梳理。
相应于上面的方法实施例,本发明实施例还提供了一种设备识别装置,下文描述的一种设备识别装置与上文描述的一种设备识别方法可相互对应参照。
请参考图3,图3为本发明实施例所提供的一种设备识别装置的结构框图。该装置可以包括:
分词模块10,用于对获取的各未识别设备的设备数据进行分词,获取未识别设备各自对应的分词数据;
向量化模块20,用于对分词数据进行向量化,获取未识别设备各自对应的向量化数据;
聚类模块30,用于对向量化数据进行聚类,得到各未识别设备各自对应的聚类类别;
标记模块40,用于获取每个聚类类别各自对应的设备标识信息,并利用设备标识信息标记各聚类类各自对应的全部未识别设备。
可选的,聚类模块30可以包括:
初次聚类子模块,用于利用第一聚类算法对向量化数据进行初次聚类,获取各未识别设备各自对应的初次聚类结果;
二次聚类子模块,用于利用第二聚类算法对各初次聚类结果对应的向量化数据进行二次聚类,获取各未识别设备各自对应的聚类类别。
可选的,第二聚类算法可以具体为具有噪声的基于密度的聚类算法,聚类类别可以包括各二次聚类类别和噪音类别。
可选的,第一聚类算法可以具体为K-均值算法,初次聚类子模块可以包括:
K值自适应子模块,用于根据向量化数据,利用手肘法和滑动窗口法,确定K-均值算法的K值;其中,K值为初次聚类结果的数量。
可选的,标记模块40可以包括:
查找子模块,用于根据当前聚类类别中的目标未识别设备的聚类数据,从预设规则库中查找获取目标未识别设备对应的设备标识信息;其中,当前聚类类别为任一聚类类别,目标未识别设备为当前聚类类别对应的任一未识别设备;
确定子模块,用于将目标未识别设备对应的设备标识信息确定为当前聚类类别对应的设备标识信息。
可选的,向量化模块20可以具体用于利用预设词向量模型对分词数据进行向量化,获取未识别设备各自对应的向量化数据;
对应的,该装置还包括:
训练模块,用于利用预设分词数据对初始词向量模型进行训练,得到预设词向量模型;其中,预设分词数据包括分词数据和预设数量的网络公开设备数据对应的训练分词数据。
可选的,该装置还可以包括:
生成模块,用于根据各聚类类别各自对应的未识别设备的设备数据,生成各聚类类别各自对应的设备指纹;其中,设备指纹包括网络协议版本信息、网络协议状态码信息、头部关键字段信息、头部关键字段对应值信息和主体信息中的至少一项。
可选的,该装置还可以包括:
统计模块,用于根据各聚类类别各自对应的未识别设备的设备数据,统计各聚类类别对应的指纹特征;其中,指纹特征为每个聚类类别各自对应的设备数据中数量最多的预设数量的字段;
存储模块,用于各聚类类别对应的指纹特征和设备指纹存储到指纹数据库。
本实施例中,本发明实施例通过向量化模块20对分词数据进行向量化,获取未识别设备各自对应的向量化数据,能够将分词数据向量化为物联网设备领域专有词向量,使得物联网设备特征更加准确全面,从而提高后续聚类的准确性,能够快速准确地识别标记物联网设备,实现对物联网设备的自动全面梳理。
相应于上面的方法实施例,本发明实施例还提供了一种设备识别设备,下文描述的一种设备识别设备与上文描述的一种设备识别方法可相互对应参照。
请参考图4,图4为本发明实施例所提供的一种设备识别设备的结构示意图。该设备识别设备可以包括:
存储器D1,用于存储计算机程序;
处理器D2,用于执行计算机程序时实现上述方法实施例所提供的请求处理方法的步骤。
具体的,请参考图5,图5为本发明实施例所提供的一种设备识别设备的具体结构示意图,该设备识别设备310可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在设备识别设备310上执行存储介质330中的一系列指令操作。
设备识别设备310还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作***341。例如,Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
其中,设备识别设备310可以具体为服务器。
上文所描述的设备识别方法中的步骤可以由设备识别设备的结构实现。
相应于上面的方法实施例,本发明实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种设备识别方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例所提供的设备识别方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
以上对本发明所提供的一种设备识别方法、装置、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种设备识别方法,其特征在于,包括:
对获取的各未识别设备的设备数据进行分词,获取所述未识别设备各自对应的分词数据;
对所述分词数据进行向量化,获取所述未识别设备各自对应的向量化数据;
对所述向量化数据进行聚类,得到各所述未识别设备各自对应的聚类类别;
获取每个所述聚类类别各自对应的设备标识信息,并利用所述设备标识信息标记各所述聚类类各自对应的全部未识别设备。
2.根据权利要求1所述的设备识别方法,其特征在于,所述对所述向量化数据进行聚类,得到各所述未识别设备各自对应的聚类类别,包括:
利用第一聚类算法对所述向量化数据进行初次聚类,获取各所述未识别设备各自对应的初次聚类结果;
利用第二聚类算法对各所述初次聚类结果对应的向量化数据进行二次聚类,获取各所述未识别设备各自对应的聚类类别。
3.根据权利要求2所述的设备识别方法,其特征在于,所述利用第一聚类算法对所述向量化数据进行初次聚类,获取各所述未识别设备各自对应的初次聚类结果,包括:
根据所述向量化数据,利用手肘法和滑动窗口法,确定K-均值算法的K值;其中,所述K值为所述初次聚类结果的数量。
4.根据权利要求1所述的设备识别方法,其特征在于,所述获取每个所述聚类类别各自对应的设备标识信息,包括:
根据当前聚类类别中的目标未识别设备的聚类数据,从预设规则库中查找获取所述目标未识别设备对应的设备标识信息;其中,当前聚类类别为任一所述聚类类别,所述目标未识别设备为当前聚类类别对应的任一未识别设备;
将所述目标未识别设备对应的设备标识信息确定为当前聚类类别对应的设备标识信息。
5.根据权利要求1所述的设备识别方法,其特征在于,所述对所述分词数据进行向量化,获取所述未识别设备各自对应的向量化数据,包括:
利用预设词向量模型对所述分词数据进行向量化,获取所述未识别设备各自对应的向量化数据。
6.根据权利要求1至5任一项所述的设备识别方法,其特征在于,所述对所述向量化数据进行聚类,得到各所述未识别设备各自对应的聚类类别之后,还包括:
根据各所述聚类类别各自对应的未识别设备的设备数据,生成各所述聚类类别各自对应的设备指纹;其中,所述设备指纹包括网络协议版本信息、网络协议状态码信息、头部关键字段信息、头部关键字段对应值信息和主体信息中的至少一项。
7.根据权利要求6所述的设备识别方法,其特征在于,所述对所述向量化数据进行聚类,得到各所述未识别设备各自对应的聚类类别之后,还包括:
根据各所述聚类类别各自对应的未识别设备的设备数据,统计各所述聚类类别对应的指纹特征;其中,所述指纹特征为每个所述聚类类别各自对应的设备数据中数量最多的预设数量的字段;
各所述聚类类别对应的指纹特征和设备指纹存储到指纹数据库。
8.一种设备识别装置,其特征在于,包括:
分词模块,用于对获取的各未识别设备的设备数据进行分词,获取所述未识别设备各自对应的分词数据;
向量化模块,用于对所述分词数据进行向量化,获取所述未识别设备各自对应的向量化数据;
聚类模块,用于对所述向量化数据进行聚类,得到各所述未识别设备各自对应的聚类类别;
标记模块,用于获取每个所述聚类类别各自对应的设备标识信息,并利用所述设备标识信息标记各所述聚类类各自对应的全部未识别设备。
9.一种设备识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的设备识别方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的设备识别方法的步骤。
CN202210411879.3A 2022-04-19 2022-04-19 一种设备识别方法、装置、设备及可读存储介质 Pending CN115392238A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210411879.3A CN115392238A (zh) 2022-04-19 2022-04-19 一种设备识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210411879.3A CN115392238A (zh) 2022-04-19 2022-04-19 一种设备识别方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN115392238A true CN115392238A (zh) 2022-11-25

Family

ID=84115345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210411879.3A Pending CN115392238A (zh) 2022-04-19 2022-04-19 一种设备识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115392238A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116295262A (zh) * 2023-05-22 2023-06-23 湖南联智科技股份有限公司 一种隧道变形区域自动三维定位方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116295262A (zh) * 2023-05-22 2023-06-23 湖南联智科技股份有限公司 一种隧道变形区域自动三维定位方法
CN116295262B (zh) * 2023-05-22 2023-10-27 湖南联智科技股份有限公司 一种隧道变形区域自动三维定位方法

Similar Documents

Publication Publication Date Title
CN107707545B (zh) 一种异常网页访问片段检测方法、装置、设备及存储介质
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及***
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN110855648B (zh) 一种网络攻击的预警控制方法及装置
CN110602029A (zh) 一种用于识别网络攻击的方法和***
CN113194058B (zh) Web攻击检测方法、设备、网站应用层防火墙及介质
KR102060766B1 (ko) 다크웹 범죄 사이트 모니터링 시스템
Gabryel et al. Browser fingerprint coding methods increasing the effectiveness of user identification in the web traffic
CN115080756A (zh) 一种面向威胁情报图谱的攻防行为和时空信息抽取方法
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN114650176A (zh) 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN103324886A (zh) 一种网络攻击检测中指纹库的提取方法和***
Tang et al. HSLF: HTTP header sequence based lsh fingerprints for application traffic classification
KR102189127B1 (ko) 행위 기반 룰 처리 장치 및 그 처리 방법
Yujie et al. End-to-end android malware classification based on pure traffic images
CN107786529B (zh) 网站的检测方法、装置及***
CN115392238A (zh) 一种设备识别方法、装置、设备及可读存储介质
CN112839055B (zh) 面向tls加密流量的网络应用识别方法、装置及电子设备
CN117675387A (zh) 基于用户行为分析的网络安全风险预测方法及***
CN115314268B (zh) 基于流量指纹和行为的恶意加密流量检测方法和***
CN116633672A (zh) 告警信息检测方法、装置、电子设备及存储介质
CN111314109A (zh) 一种基于弱密钥的大规模物联网设备固件识别方法
CN113688240A (zh) 威胁要素提取方法、装置、设备及存储介质
CN113783920A (zh) 用于识别web访问入口的方法和装置
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination