CN110958305A - 一种识别物联网终端设备的方法和装置 - Google Patents

一种识别物联网终端设备的方法和装置 Download PDF

Info

Publication number
CN110958305A
CN110958305A CN201911119463.9A CN201911119463A CN110958305A CN 110958305 A CN110958305 A CN 110958305A CN 201911119463 A CN201911119463 A CN 201911119463A CN 110958305 A CN110958305 A CN 110958305A
Authority
CN
China
Prior art keywords
terminal
quadruple
unknown
test set
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911119463.9A
Other languages
English (en)
Inventor
李新卫
杜博远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ruijie Networks Co Ltd
Original Assignee
Ruijie Networks Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ruijie Networks Co Ltd filed Critical Ruijie Networks Co Ltd
Priority to CN201911119463.9A priority Critical patent/CN110958305A/zh
Publication of CN110958305A publication Critical patent/CN110958305A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供识别物联网终端的方法和装置,方法包括:获取第一物联网终端发送的携带预知四元组的多个报文;获取多个报文的字段特征,根据预知四元组将多个报文分组并将每个分组中的报文组织成第一数据流;根据每个第一数据流对应的流量特征将每个第一数据流分别组成训练集,对训练集进行训练生成分类器;获取第二物联网终端发送的携带未知四元组的多个数据报文;将多个报文分组并将每个分组中的报文组织成第二数据流;将每个第二数据流分别组成测试集,将每个测试集输入分类器进行预测获得每个测试集中第二数据流分别属于n个终端类别的n个概率,将n个概率进行比较确定每个测试集对应的第二物联网终端所属的终端类别。解决终端自动分类的问题。

Description

一种识别物联网终端设备的方法和装置
技术领域
本发明涉及数据通信领域,尤其是一种识别物联网终端设备的方法和装置。
背景技术
随着互联网的普及,万物相连的物联网(IoT,Internet of Things)时代接踵而至,物联网技术的发展与应用对于未来的社会发展和经济都具有重要意义。根据Gartner公司的报告,预计到2020年IoT设备的数量将达到200亿台,这些设备可能涉及到个人隐私与公共安全,而设备类型的识别为个人隐私与公共安全提供了基础,因此终端设备识别技术在物联网应用中显的特别重要。传统的指纹识别方法需要人工提取每个IoT设备的报文字段,根据某些字段来确认终端设备类型,对于200亿的数量级进行运算耗时极大,而自动的IoT识别方法基于网络行为流的差异性,利用机器学习算法能够主动识别设备类型,大大节省了人力物力财力。
针对于终端识别技术,部分工作是基于指纹库进行设计的,根据终端向服务器发送DHCP(Dynamic Host Configuration Protocol)动态主机配置协议请求报文后,通过DHCP的option选项字段获取第一终端信息,在DHCP特征库中查找与第一终端信息相匹配的终端类型;部分工作又添加了第二终端信息,等待网络连接建立后,终端向服务器发送HTTP(Hypertext Transfer Protocol)超文本传输协议报文,服务器通过HTTP报文头部携带的UA(User Agent)用户代理信息字段分析出所述终端的第二终端信息,在UA特征库中查找与所述第二终端信息相匹配的终端类型,结合第一终端类型和第二终端类型最终确定终端类型。
基于机器学习的网络设备分类方法,部分工作是针对于手持终端特定领域的,部分工作需要建立很大的特征库,只能针对于特征库中类型才能分类,不属于该特征库不能分类,除非搜集该类型的特征加入特征库中。
发明内容
为了解决上述技术问题,本发明的实施例采用如下技术方案:
一种识别物联网终端设备的方法,包括:
获取第一物联网终端设备发送的携带预知四元组的多个数据报文;
获取所述多个数据报文的字段特征,
根据所述预知四元组将所述多个数据报文分组并将每个分组中的数据报文按预设的顺序组织成第一数据流;
根据每个第一数据流中每个报文的字段特征计算每个第一数据流的流量特征;
根据所述每个第一数据流对应的流量特征将所述每个第一数据流分别组成训练集,对所述训练集统一进行模型训练后,生成能根据测试集获得所述测试集对应的未知类别终端设备归属于与所述预知四元组对应的终端类别的概率的分类器模型;
获取第二物联网终端设备发送的携带未知四元组的多个数据报文,所述第二物联网终端设备为未知类别终端设备;
根据所述未知四元组将所述多个数据报文分组并将每个分组中的数据报文组织成第二数据流;
将所述每个第二数据流分别组成测试集,将所述每个测试集输入所述分类器模型对所述每个测试集对应的第二数据流进行预测,获得所述每个测试集中的第二数据流分别属于n个终端类别的n个概率,其中,n为大于等于1的自然数;
将所述n个概率进行比较,根据比较结果确定所述每个测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
可选的,所述将所述n个概率进行比较,根据比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别的步骤具体包括:
将所述n个概率分别与预先设置的阈值进行比较,当其中一个概率大于阈值时,将该概率对应的测试集对应的终端类别的命中次数加1,比较每个终端类别对应的命中次数,根据所述命中次数的比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
可选的,所述根据所述命中次数的比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别的步骤具体包括:
当第一终端类别的命中次数大于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第一终端类别;
当第一终端类别的命中次数小于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第二终端类别。
可选的,所述方法还包括:
将所述n个概率分别与预先设置的阈值进行比较,当其中第一概率小于阈值时,确定所述第一概率对应的测试集对应的未知四元组对应的第二物联网终端设备不属于所述预知四元组分别对应的终端类别,使用聚类算法对所有不属于所述预知四元组分别对应的终端类别的测试集进行聚类,将所有不属于所述预知四元组分别对应的终端类别的测试集分别对应m类终端类别中的一类,则所有不属于所述预知四元组分别对应的终端类别的测试集对应的第二物联网终端设备归属于m类终端类别中的与所述测试集对应的终端类别。
可选的,所述方法还包括:
当m类终端类别中每类终端类别内的多个测试集之间的相似性大于第二阈值时,根据所述相似性进行m类终端类别的划分。
本发明实施例的另一方面在于,提供一种识别物联网终端设备的装置,包括:
第一获取模块,用于获取第一物联网终端设备发送的携带预知四元组的多个数据报文;
第二获取模块,用于获取所述多个数据报文的字段特征,
数据流生成模块,用于根据所述预知四元组将所述多个数据报文分组并将每个分组中的数据报文按预设的顺序组织成第一数据流;
计算模块,用于根据每个第一数据流中每个报文的字段特征计算每个第一数据流的流量特征;
分类器训练模块,用于根据所述每个第一数据流对应的流量特征将所述每个第一数据流分别组成训练集,对所述训练集统一进行模型训练后,生成能根据测试集获得所述测试集对应的未知类别终端设备归属于与所述预知四元组对应的终端类别的概率的分类器模型;
第三获取模块,用于获取第二物联网终端设备发送的携带未知四元组的多个数据报文,所述第二物联网终端设备为未知类别终端设备;
所述数据流生成模块,还用于根据所述未知四元组将所述多个数据报文分组并将每个分组中的数据报文组织成第二数据流;
预测模块,用于将所述每个第二数据流分别组成测试集,将所述每个测试集输入所述分类器模型对所述每个测试集对应的第二数据流进行预测,获得所述每个测试集中的第二数据流分别属于n个终端类别的n个概率,其中,n为大于等于1的自然数;
终端类别确定模块,用于将所述n个概率进行比较,根据比较结果确定所述每个测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
可选的,所述终端类别确定模块具体用于:
将所述n个概率分别与预先设置的阈值进行比较,当其中一个概率大于阈值时,将该概率对应的测试集对应的终端类别的命中次数加1,比较每个终端类别对应的命中次数,根据所述命中次数的比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
可选的,所述终端类别确定模块具体用于:
将所述n个概率分别与预先设置的阈值进行比较,当其中一个概率大于阈值时,将该概率对应的测试集对应的终端类别的命中次数加1,比较每个终端类别对应的命中次数,
当第一终端类别的命中次数大于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第一终端类别;
当第一终端类别的命中次数小于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第二终端类别。
可选的,所述终端类别确定模块还用于:
将所述n个概率分别与预先设置的阈值进行比较,当其中第一概率小于阈值时,确定所述第一概率对应的测试集对应的未知四元组对应的第二物联网终端设备不属于所述预知四元组分别对应的终端类别,使用聚类算法对所有不属于所述预知四元组分别对应的终端类别的测试集进行聚类,将所有不属于所述预知四元组分别对应的终端类别的测试集分别对应m类终端类别中的一类,则所有不属于所述预知四元组分别对应的终端类别的测试集对应的第二物联网终端设备归属于m类终端类别中的与所述测试集对应的终端类别。
可选的,所述终端类别确定模块还用于:
当m类终端类别中每类终端类别内的多个测试集之间的相似性大于第二阈值时,根据所述相似性进行m类终端类别的划分。
本发明实施例的有益效果在于:解决了物联终端设备自动分类的问题,不仅能够对已知类别的物联终端设备进行分类,还能对未知类别的终端设备进行聚类,增强了物联终端分类的范围。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的方法流程图;
图2为本发明一实施例提供的方法流程图;
图3为本发明一实施例提供的装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例采用如下技术方案:
一种识别物联网终端设备的方法,如图1所示,包括:
S101,获取第一物联网终端设备发送的携带预知四元组的多个数据报文;
其中,可以通过端口镜像获取物联网终端设备的数据报文,四元组可以为报文中的发送方和接收方的IP地址和端口号,端口镜像是通过在交换机或路由器上将一个或多个端口的流量转发到某一个指定端口上来实现对网络的监听,在不严重影响端口正常流量吞吐的情况下,可以通过镜像端口对网络的流量进行监控分析;该过程利用端口镜像技术,在汇聚或核心交换机上进行配置,获取物联网终端设备的网络流量包。
S103,获取所述多个数据报文的字段特征,
其中,可以对多个数据报文的传输层解析获取相关的报文字段特征,比如报文长度、报文数量和时间属性;
S105,根据所述预知四元组将所述多个数据报文分组并将每个分组中的数据报文按预设的顺序组织成第一数据流;
其中,可以将报文序列按照时间顺序排列成一个队列,具体为:若报文中有“开始”字段则视为一条流的开始,若报文中有“结束”字段则视为该条流结束。
在本发明的一个实施例中,由于物联网终端设备的流行为的差异性,比如IP(Internet Protocol)功放和网络摄像头的流的持续时间比较长、报文数量多,因此进行了子流处理,仅取一条流的前若干个报文或固定时间长度内的报文,无须等到一条流的结束,只选取该条流中的子流。
S107,根据每个第一数据流中每个报文的字段特征计算每个第一数据流的流量特征;
在本发明的一个实施例中,报文组织成数据流后存储的仍旧是原始的某些报文字段,为了便于机器学***均值、方差、标准差与求和等,共计65维的流量特征。
S109,根据所述每个第一数据流对应的流量特征将所述每个第一数据流分别组成训练集,对所述训练集统一进行模型训练后,生成能根据测试集获得所述测试集对应的未知类别终端设备归属于与所述预知四元组对应的终端类别的概率的分类器模型;
在本发明的一个实施例中,模型训练后,针对于一个样本,调用该模型的predict()方法,即可输出该样本属于某一类的概率,predict()方法的内部代码涉及算法原理,使用的话只需调用该方法即可。
S111,获取第二物联网终端设备发送的携带未知四元组的多个数据报文,所述第二物联网终端设备为未知类别终端设备;
S113,根据所述未知四元组将所述多个数据报文分组并将每个分组中的数据报文组织成第二数据流;
S115,将所述每个第二数据流分别组成测试集,将所述每个测试集输入所述分类器模型对所述每个测试集对应的第二数据流进行预测,获得所述每个测试集中的第二数据流分别属于n个终端类别的n个概率,其中,n为大于等于1的自然数;
S117,将所述n个概率进行比较,根据比较结果确定所述每个测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
可选的,所述步骤S117,具体包括:
将所述n个概率分别与预先设置的阈值进行比较,当其中一个概率大于阈值时,将该概率对应的测试集对应的终端类别的命中次数加1,比较每个终端类别对应的命中次数,根据所述命中次数的比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
可选的,所述根据所述命中次数的比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别的步骤具体包括:
当第一终端类别的命中次数大于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第一终端类别;
当第一终端类别的命中次数小于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第二终端类别。
具体的,计数过程其实就是根据分类器预测的概率与前面的阈值进行比较,若分类器预测样本a属于终端类别1的概率大于阈值,则样本a属于终端类别1的命中次数加1,同样地,若分类器预测样本a属于终端类别2,则属于终端类别2的命中次数加1,最后统计样本a属于终端类别1和属于终端类别2的命中次数,进行比较,若终端类别1的命中次数大于终端类别2,则最终判断样本a属于终端类别1,反之同理。
在具体的应用场景中,比如要预测某一条流是来自打印机还是摄像头(物联网终端设备中的一种),
一开始要采集数据,找一些打印机和摄像头设备,采集来自打印机和摄像头的数据组成训练集,打印机和摄像头属于不同的类别,作为类标签,根据训练集和类标签训练一个分类器a;
测试集:采集一些新的数据,并不知道这些数据来自打印机还是摄像头,使用分类器a让它预测某一条新数据流是来自打印机还是摄像头。
可选的,如图2所示,所述方法还包括:
S201,将所述n个概率分别与预先设置的阈值进行比较,
S203,当其中第一概率小于阈值时,确定所述第一概率对应的测试集对应的未知四元组对应的第二物联网终端设备不属于所述预知四元组分别对应的终端类别,
S205,使用聚类算法对所有不属于所述预知四元组分别对应的终端类别的测试集进行聚类,
S207,将所有不属于所述预知四元组分别对应的终端类别的测试集分别对应m类终端类别中的一类,则所有不属于所述预知四元组分别对应的终端类别的测试集对应的第二物联网终端设备归属于m类终端类别中的与所述测试集对应的终端类别。
可选的,所述方法还包括:
当m类终端类别中每类终端类别内的多个测试集之间的相似性大于第二阈值时,根据所述相似性进行m类终端类别的划分。
具体的,首先使用聚类算法对所有的样本进行聚类,比如测试样本(测试集中的样本)一共有50个,设置聚类的个数为5,则聚类算法就将这50个样本分成5部分,每一部分内的样本相似性比较大,不是同一部分的样本的相似性比较小(相似性可根据与第二阈值的比较进行判断),假如分为a,b,c,d,e这五部分,这五部分的每一部分的个数不一定相等,但是总和等于50,人工地查看每一部分的1~2个样本的类别,然后就认定该部分其他的样本也属于该类别。
本发明实施例的有益效果在于:解决了物联终端设备自动分类的问题不仅能够对已知类别的物联终端设备进行分类,还能对未知类别的终端设备进行聚类,增强了物联终端分类的范围。
本发明实施例的另一方面在于,提供一种识别物联网终端设备的装置,如图3所示,包括:
第一获取模块301,用于获取第一物联网终端设备发送的携带预知四元组的多个数据报文;
第二获取模块303,用于获取所述多个数据报文的字段特征,
数据流生成模块305,用于根据所述预知四元组将所述多个数据报文分组并将每个分组中的数据报文按预设的顺序组织成第一数据流;
计算模块307,用于根据每个第一数据流中每个报文的字段特征计算每个第一数据流的流量特征;
分类器训练模块309,用于根据所述每个第一数据流对应的流量特征将所述每个第一数据流分别组成训练集,对所述训练集统一进行模型训练后,生成能根据测试集获得所述测试集对应的未知类别终端设备归属于与所述预知四元组对应的终端类别的概率的分类器模型;
第三获取模块311,用于获取第二物联网终端设备发送的携带未知四元组的多个数据报文,所述第二物联网终端设备为未知类别终端设备;
所述数据流生成模块305,还用于根据所述未知四元组将所述多个数据报文分组并将每个分组中的数据报文组织成第二数据流;
预测模块313,用于将所述每个第二数据流分别组成测试集,将所述每个测试集输入所述分类器模型对所述每个测试集对应的第二数据流进行预测,获得所述每个测试集中的第二数据流分别属于n个终端类别的n个概率,其中,n为大于等于1的自然数;
终端类别确定模块315,用于将所述n个概率进行比较,根据比较结果确定所述每个测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
可选的,所述终端类别确定模块315具体用于:
将所述n个概率分别与预先设置的阈值进行比较,当其中一个概率大于阈值时,将该概率对应的测试集对应的终端类别的命中次数加1,比较每个终端类别对应的命中次数,根据所述命中次数的比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
可选的,所述终端类别确定模块315具体用于:
将所述n个概率分别与预先设置的阈值进行比较,当其中一个概率大于阈值时,将该概率对应的测试集对应的终端类别的命中次数加1,比较每个终端类别对应的命中次数,
当第一终端类别的命中次数大于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第一终端类别;
当第一终端类别的命中次数小于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第二终端类别。
可选的,所述终端类别确定模块315还用于:
将所述n个概率分别与预先设置的阈值进行比较,当其中第一概率小于阈值时,确定所述第一概率对应的测试集对应的未知四元组对应的第二物联网终端设备不属于所述预知四元组分别对应的终端类别,使用聚类算法对所有不属于所述预知四元组分别对应的终端类别的测试集进行聚类,将所有不属于所述预知四元组分别对应的终端类别的测试集分别对应m类终端类别中的一类,则所有不属于所述预知四元组分别对应的终端类别的测试集对应的第二物联网终端设备归属于m类终端类别中的与所述测试集对应的终端类别。
可选的,所述终端类别确定模块315还用于:
当m类终端类别中每类终端类别内的多个测试集之间的相似性大于第二阈值时,根据所述相似性进行m类终端类别的划分。
本发明实施例的有益效果在于:解决了物联终端设备自动分类的问题,不仅能够对已知类别的物联终端设备进行分类,还能对未知类别的终端设备进行聚类,增强了物联终端分类的范围。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种识别物联网终端设备的方法,其特征在于,包括:
获取第一物联网终端设备发送的携带预知四元组的多个数据报文;
获取所述多个数据报文的字段特征,
根据所述预知四元组将所述多个数据报文分组并将每个分组中的数据报文按预设的顺序组织成第一数据流;
根据每个第一数据流中每个报文的字段特征计算每个第一数据流的流量特征;
根据所述每个第一数据流对应的流量特征将所述每个第一数据流分别组成训练集,对所述训练集统一进行模型训练后,生成能根据测试集获得所述测试集对应的未知类别终端设备归属于与所述预知四元组对应的终端类别的概率的分类器模型;
获取第二物联网终端设备发送的携带未知四元组的多个数据报文,所述第二物联网终端设备为未知类别终端设备;
根据所述未知四元组将所述多个数据报文分组并将每个分组中的数据报文组织成第二数据流;
将所述每个第二数据流分别组成测试集,将所述每个测试集输入所述分类器模型对所述每个测试集对应的第二数据流进行预测,获得所述每个测试集中的第二数据流分别属于n个终端类别的n个概率,其中,n为大于等于1的自然数;
将所述n个概率进行比较,根据比较结果确定所述每个测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
2.如权利要求1所述的方法,其特征在于,所述将所述n个概率进行比较,根据比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别的步骤具体包括:
将所述n个概率分别与预先设置的阈值进行比较,当其中一个概率大于阈值时,将该概率对应的测试集对应的终端类别的命中次数加1,比较每个终端类别对应的命中次数,根据所述命中次数的比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
3.如权利要求2所述的方法,其特征在于,所述根据所述命中次数的比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别的步骤具体包括:
当第一终端类别的命中次数大于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第一终端类别;
当第一终端类别的命中次数小于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第二终端类别。
4.如权利要求2所述的方法,其特征在于,还包括:
将所述n个概率分别与预先设置的阈值进行比较,当其中第一概率小于阈值时,确定所述第一概率对应的测试集对应的未知四元组对应的第二物联网终端设备不属于所述预知四元组分别对应的终端类别,使用聚类算法对所有不属于所述预知四元组分别对应的终端类别的测试集进行聚类,将所有不属于所述预知四元组分别对应的终端类别的测试集分别对应m类终端类别中的一类,则所有不属于所述预知四元组分别对应的终端类别的测试集对应的第二物联网终端设备归属于m类终端类别中的与所述测试集对应的终端类别。
5.如权利要求4所述的方法,其特征在于,还包括:
当m类终端类别中每类终端类别内的多个测试集之间的相似性大于第二阈值时,根据所述相似性进行m类终端类别的划分。
6.一种识别物联网终端设备的装置,其特征在于,包括:
第一获取模块,用于获取第一物联网终端设备发送的携带预知四元组的多个数据报文;
第二获取模块,用于获取所述多个数据报文的字段特征,
数据流生成模块,用于根据所述预知四元组将所述多个数据报文分组并将每个分组中的数据报文按预设的顺序组织成第一数据流;
计算模块,用于根据每个第一数据流中每个报文的字段特征计算每个第一数据流的流量特征;
分类器训练模块,用于根据所述每个第一数据流对应的流量特征将所述每个第一数据流分别组成训练集,对所述训练集统一进行模型训练后,生成能根据测试集获得所述测试集对应的未知类别终端设备归属于与所述预知四元组对应的终端类别的概率的分类器模型;
第三获取模块,用于获取第二物联网终端设备发送的携带未知四元组的多个数据报文,所述第二物联网终端设备为未知类别终端设备;
所述数据流生成模块,还用于根据所述未知四元组将所述多个数据报文分组并将每个分组中的数据报文组织成第二数据流;
预测模块,用于将所述每个第二数据流分别组成测试集,将所述每个测试集输入所述分类器模型对所述每个测试集对应的第二数据流进行预测,获得所述每个测试集中的第二数据流分别属于n个终端类别的n个概率,其中,n为大于等于1的自然数;
终端类别确定模块,用于将所述n个概率进行比较,根据比较结果确定所述每个测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
7.如权利要求6所述的装置,其特征在于,所述终端类别确定模块具体用于:
将所述n个概率分别与预先设置的阈值进行比较,当其中一个概率大于阈值时,将该概率对应的测试集对应的终端类别的命中次数加1,比较每个终端类别对应的命中次数,根据所述命中次数的比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
8.如权利要求7所述的装置,其特征在于,所述终端类别确定模块具体用于:将所述n个概率分别与预先设置的阈值进行比较,当其中一个概率大于阈值时,将该概率对应的测试集对应的终端类别的命中次数加1,比较每个终端类别对应的命中次数,
当第一终端类别的命中次数大于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第一终端类别;
当第一终端类别的命中次数小于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第二终端类别。
9.如权利要求7所述的装置,其特征在于,所述终端类别确定模块还用于:
将所述n个概率分别与预先设置的阈值进行比较,当其中第一概率小于阈值时,确定所述第一概率对应的测试集对应的未知四元组对应的第二物联网终端设备不属于所述预知四元组分别对应的终端类别,使用聚类算法对所有不属于所述预知四元组分别对应的终端类别的测试集进行聚类,将所有不属于所述预知四元组分别对应的终端类别的测试集分别对应m类终端类别中的一类,则所有不属于所述预知四元组分别对应的终端类别的测试集对应的第二物联网终端设备归属于m类终端类别中的与所述测试集对应的终端类别。
10.如权利要求9所述的装置,其特征在于,所述终端类别确定模块还用于:
当m类终端类别中每类终端类别内的多个测试集之间的相似性大于第二阈值时,根据所述相似性进行m类终端类别的划分。
CN201911119463.9A 2019-11-15 2019-11-15 一种识别物联网终端设备的方法和装置 Pending CN110958305A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911119463.9A CN110958305A (zh) 2019-11-15 2019-11-15 一种识别物联网终端设备的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911119463.9A CN110958305A (zh) 2019-11-15 2019-11-15 一种识别物联网终端设备的方法和装置

Publications (1)

Publication Number Publication Date
CN110958305A true CN110958305A (zh) 2020-04-03

Family

ID=69977547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911119463.9A Pending CN110958305A (zh) 2019-11-15 2019-11-15 一种识别物联网终端设备的方法和装置

Country Status (1)

Country Link
CN (1) CN110958305A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112769623A (zh) * 2021-01-19 2021-05-07 河北大学 边缘环境下的物联网设备识别方法
CN112953961A (zh) * 2021-03-14 2021-06-11 国网浙江省电力有限公司电力科学研究院 配电房物联网中设备类型识别方法
WO2022083641A1 (zh) * 2020-10-23 2022-04-28 华为技术有限公司 设备识别方法、装置及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862468A (zh) * 2017-11-23 2018-03-30 深圳市智物联网络有限公司 设备风险识别模型建立的方法及装置
CN109391700A (zh) * 2018-12-12 2019-02-26 北京华清信安科技有限公司 基于深度流量感知的物联网安全云平台
CN110348526A (zh) * 2019-07-15 2019-10-18 武汉绿色网络信息服务有限责任公司 一种基于半监督聚类算法的设备类型识别方法和装置
CN110380989A (zh) * 2019-07-26 2019-10-25 东南大学 网络流量指纹特征二阶段多分类的物联网设备识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862468A (zh) * 2017-11-23 2018-03-30 深圳市智物联网络有限公司 设备风险识别模型建立的方法及装置
CN109391700A (zh) * 2018-12-12 2019-02-26 北京华清信安科技有限公司 基于深度流量感知的物联网安全云平台
CN110348526A (zh) * 2019-07-15 2019-10-18 武汉绿色网络信息服务有限责任公司 一种基于半监督聚类算法的设备类型识别方法和装置
CN110380989A (zh) * 2019-07-26 2019-10-25 东南大学 网络流量指纹特征二阶段多分类的物联网设备识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022083641A1 (zh) * 2020-10-23 2022-04-28 华为技术有限公司 设备识别方法、装置及***
CN112769623A (zh) * 2021-01-19 2021-05-07 河北大学 边缘环境下的物联网设备识别方法
CN112953961A (zh) * 2021-03-14 2021-06-11 国网浙江省电力有限公司电力科学研究院 配电房物联网中设备类型识别方法

Similar Documents

Publication Publication Date Title
WO2019169928A1 (zh) 一种流量检测方法和流量检测设备
CN109117634B (zh) 基于网络流量多视图融合的恶意软件检测方法及***
CN109587008B (zh) 检测异常流量数据的方法、装置及存储介质
US20180131624A1 (en) Managing Network Traffic
CN110958305A (zh) 一种识别物联网终端设备的方法和装置
CN110149266B (zh) 垃圾邮件识别方法及装置
CN109150859B (zh) 一种基于网络流量流向相似性的僵尸网络检测方法
CN111431819A (zh) 一种基于序列化的协议流特征的网络流量分类方法和装置
Chen et al. A network traffic classification model based on metric learning
Hubballi et al. BitProb: Probabilistic bit signatures for accurate application identification
Chen et al. Sequential message characterization for early classification of encrypted internet traffic
CN115600128A (zh) 一种半监督加密流量分类方法、装置及存储介质
CN111064719B (zh) 文件异常下载行为的检测方法及装置
Wang et al. Botnet detection using social graph analysis
Zhao et al. A few-shot learning based approach to IoT traffic classification
CN109347785A (zh) 一种终端类型识别方法及装置
Kwon et al. Automatic classification of network traffic data based on deep learning in onos platform
CN115118447A (zh) 工控网络流量的安全判别方法、装置、电子装置和介质
CN111917665A (zh) 一种终端应用数据流识别方法及***
CN110175635B (zh) 基于Bagging算法的OTT应用程序用户分类方法
CN116170227A (zh) 一种流量异常的检测方法、装置、电子设备及存储介质
CN113918577B (zh) 数据表识别方法、装置、电子设备及存储介质
CN115733679A (zh) 一种面向数据流转的电力监控数据的溯源方法
Hsieh et al. On the classification of mobile broadband applications
WO2021218528A1 (zh) 流量识别方法和流量识别设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200403

RJ01 Rejection of invention patent application after publication