CN111726264B - 网络协议变种检测方法、装置、电子设备和存储介质 - Google Patents

网络协议变种检测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111726264B
CN111726264B CN202010560524.1A CN202010560524A CN111726264B CN 111726264 B CN111726264 B CN 111726264B CN 202010560524 A CN202010560524 A CN 202010560524A CN 111726264 B CN111726264 B CN 111726264B
Authority
CN
China
Prior art keywords
protocol
network protocol
data stream
known network
fuzzy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010560524.1A
Other languages
English (en)
Other versions
CN111726264A (zh
Inventor
许小丰
戴佳浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 36 Research Institute
Original Assignee
CETC 36 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 36 Research Institute filed Critical CETC 36 Research Institute
Priority to CN202010560524.1A priority Critical patent/CN111726264B/zh
Publication of CN111726264A publication Critical patent/CN111726264A/zh
Application granted granted Critical
Publication of CN111726264B publication Critical patent/CN111726264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/18Protocol analysers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了网络协议变种检测方法、装置、电子设备和存储介质,网络协议变种检测方法包括:提取已知网络协议的特征向量,构建特征数据库;获取待检数据流的目标特征向量,将所述目标特征向量与特征数据库中各已知网络协议的特征向量匹配,确定候选网络协议集合;基于模糊推理算法从所述候选网络协议集合中确定待检数据流使用的协议变种所对应的已知网络协议。本申请实施例能够根据数据流的实际状况提高未知协议识别的正确率,而且有效防止了“漏匹配”现象发生,整体计算量小,适合对实时性处理要求高的应用场景。

Description

网络协议变种检测方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,具体涉及网络协议变种检测方法、装置、电子设备和存储介质。
背景技术
匿名通信网络(以下简称匿名网络)是能够为网络通信用户提供匿名服务的由软硬件组件构成的网络***。一般是采用密码技术在访问者与服务器之间建立一条安全隧道的方式,实现秘密访问和通信。这些匿名网***对网络流量加密保护和隐匿访问者原始IP(Internet Protocol,网际协议)地址,给网络***带来了巨大挑战。
由于匿名网络的便捷性和匿名性,成为了网络犯罪者的首选,应用匿名通道进行各种各样的网络犯罪,例如袭击网站,在线传播计算机病毒,网上走私,网上非法交易,侮辱、毁谤等。犯罪分子利用匿名网络均可以实现对其自身真实位置和信息的隐藏,逃避政府的监管。
如何快速、准确的智能化分析检测协议变种进而实现网络安全防护受到越来越多研究人员的关注。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的网络协议变种检测方法、装置、电子设备和存储介质。
依据本申请的一个方面,提供了一种网络协议变种检测方法,包括:
提取已知网络协议的特征向量,构建特征数据库;
获取待检数据流的目标特征向量,将所述目标特征向量与特征数据库中各已知网络协议的特征向量匹配,确定候选网络协议集合;
基于模糊推理算法从所述候选网络协议集合中确定待检数据流使用的协议变种所对应的已知网络协议。
可选地,将所述目标特征向量与特征数据库中各已知网络协议的特征向量匹配,确定候选网络协议集合包括:
分别计算目标特征特征向量与各已知网络协议的特征向量之间的欧式距离;
将计算得到的欧式距离与距离阈值比较,当欧式距离小于距离阈值时,将相应的已知网络协议放入候选网络协议集合中。
可选地,所述基于模糊推理算法从所述候选网络协议集合中确定待检数据流使用的协议变种所对应的已知网络协议包括:
将待检数据流的目标特征向量模糊化,得到目标特征向量中各元素对应的模糊集;
根据所述模糊集以及预先建立的模糊规则库中的模糊蕴含关系,进行推理合成,得到待检数据流与候选网络协议集合中各已知网络协议之间的相似度模糊子集;
对所述相似度模糊子集去模糊化,确定出待检数据流使用的协议变种所对应的已知网络协议。
可选地,对所述相似度模糊子集去模糊化,确定出待检数据流使用的协议变种所对应的已知网络协议包括:
计算相似度模糊子集的隶属度函数曲线所围成区域的重心,将重心所对应的值确定为协议变种所对应的已知网络协议。
可选地,所述获取待检数据流的目标特征向量包括:对截获的待检数据流的前16个字节进行扫描,得到待检数据流的目标特征向量;所述目标特征向量包括下列元素中的一种或多种:数据流存活时间、数据流映射端口、数据流固定字节、数据帧/数据报到达间隔、签名算法、安全传输协议、证书时长、数据帧/数据报长度、协议版本号。
可选地,所述提取已知网络协议的特征向量,构建特征数据库包括:
提取TCP/IP协议簇中各已知网络协议的特征向量,构建特征数据库。
依据本申请的另一个方面,提供了一种网络协议变种检测装置,包括:
数据库构建模块,用于提取已知网络协议的特征向量,构建特征数据库;
匹配模块,用于获取待检数据流的目标特征向量,将所述目标特征向量与特征数据库中各已知网络协议的特征向量匹配,确定候选网络协议集合;
确定模块,用于基于模糊推理算法从所述候选网络协议集合中确定待检数据流使用的协议变种所对应的已知网络协议。
可选地,所述匹配模块,具体用于分别计算目标特征特征向量与各已知网络协议的特征向量之间的欧式距离;将计算得到的欧式距离与距离阈值比较,当欧式距离小于距离阈值时,将相应的已知网络协议放入候选网络协议集合中。
依据本申请的又一方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。
依据本申请的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。
由上述可知,本申请的技术方案,通过建立包括已知网络协议的数据库,并对截获的数据流进行分析,获取目标特征向量,将目标特征向量与数据库中已知网络协议的特征向量进行匹配,初步确定候选网络协议集合,如此可以动态扩展数据流的特征向量的数量,根据数据流的实际状况提高未知协议识别的正确率。另外,确定候选网络协议集合,能够在提升匹配效率的前提下,提高对应已知网络协议的选择空间,有效防止“漏匹配”现象发生。最后,在候选网络协议集合的基础上,利用模糊推理算法,最终得到变种协议对应的已知网络协议类型,方案易于实现,整体计算量小,适合对实时性处理要求高的应用场景。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例的网络协议变种检测方法的流程示意图;
图2示出了本申请实施例的模糊推理的流程示意图;
图3示出了本申请实施例的模糊分类隶属度函数的示意图;
图4示出了本申请实施例的网络协议变种检测装置的框图;
图5示出了本申请实施例的电子设备的结构示意图;
图6示出了本申请实施例的计算机可读存储介质的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
协议变种(或称变种协议)是指从网络中获取到的比特流与已知协议相关但其特征又不尽相同的私有协议类型。匿名网络的使用者通常利用变种协议进行网络通信以达到逃避政府的监管等非法目的。
本申请的技术构思是:针对匿名变种网络协议及其流量数据,利用智能化协议分析技术,将正常网络数据包与变种数据包及比特流进行详细分析检测,通过大量数据的发现与分析,利用模糊测试方法发现私有协议可能存在的违法行为,阻断相关访问控制应用,对信息内容进行审计,在协议识别应用的基础上对信息进行检测和恢复,提高网络信息与指挥***的可控性及鲁棒性,为通信信息安全性提供可信凭证。
具体而言,本申请实施例提供一种有线/无线网络中利用模糊推理方法对网络协议分析的方案,在采用开源软件获取网络数据流的前提下,通过包头或帧头扫描得到抽象的特征向量;然后,计算所获数据流特征向量与数据库中已知网络协议(通用网络协议、匿名网络已有版本等)特征向量的欧式距离;在此基础上,利用模糊数学得到与待检数据流最接近的已知协议类型,从而识别得到非公开协议的变化来源,极大促进我国网络安全领域软件***的协调发展,为我国制定网络安全的长期发展规划添砖加瓦。
图1示出了本申请实施例的网络协议变种检测方法的流程示意图,参见图1,本申请实施例的网络协议变种检测方法包括下列步骤:
步骤S110,提取已知网络协议的特征向量,构建特征数据库。
已知网络协议是指公开可以查到的协议,比如是TCP/IP(Transmission ControlProtocol/Internet Protocol,传输控制协议/网际协议)协议簇中的各已知网络协议。相应的,提取已知网络协议的特征向量,构建特征数据库包括:提取TCP/IP协议簇中各已知网络协议的特征向量,构建特征数据库的特征向量,构建特征数据库。
协议(Protocol)是网络通信过程中的约定或者合同,由计算机组织制定,规定了很多细节,通信的双方必须都遵守才能正常收发数据。本申请实施例中已知网络协议有很多种,例如TCP(Transmission Control Protocol,传输控制协议)、UDP(User DatagramProtocol,用户数据报协议)、IP(Internet Protocol,网际协议)、ICMP(Internet ControlMessage Protocol,控制报文协议)、ARP(Address Resolution Protocol,地址解析协议)、RARP(Reverse Address Resolution Protocol,反向地址转换协议)等,通信的双方必须使用同一协议才能通信。互联网进行通信时,需要相应的网络协议,TCP/IP就是为使用互联网而开发制定的协议簇,TCP/IP协议簇由多种网络传输协议构成的一个协议的集合,目前实际使用的网络模型是TCP/IP模型,它对OSI(Open System Interconnect,开放式***互联)模型进行了简化,只包含了四层,从上到下分别是应用层、传输层、网络层和链路层(网络接口层),每一层都包含了若干协议。
本申请实施例根据TCP/IP协议簇建立已知协议的特征数据库,将网络通信中比特流从物理层到应用层的各种类型协议,按照TCP/IP模型模型建立协议特征数据库,以便变种协议与之进行对应分析。
步骤S120,获取待检数据流的目标特征向量,将所述目标特征向量与特征数据库中各已知网络协议的特征向量匹配,确定候选网络协议集合。
这里的候选网络协议集合中包括特征向量与目标特征向量匹配的那些已知网络协议。
步骤S130,基于模糊推理算法从所述候选网络协议集合中确定待检数据流使用的协议变种所对应的已知网络协议。本步骤中利用模糊推理算法最终确定变种协议对应的已知网络协议。
由图1所示可知,本申请实施例的网络协议变种检测方法,在已知协议分析的基础上,对获取的比特流进行分析得到目标特征向量,将目标特征向量与特征数据库中各已知网络协议的特征向量匹配,初步确定候选网络协议集合,这样可以根据网络数据流实际状况提高未知协议识别的正确率。另外,候选协议集合的提出,能够提升字符串匹配效率,并扩大对应已知协议的选择空间,有效防止“漏匹配”现象发生。最后,在候选协议集合的基础上,利用模糊数学推理算法,最终得到对应的已知协议类型,算法易于实现,整体计算量小,适合对实时性处理要求高的应用场景。
本申请实施例的网络协议变种检测方法,可分为三个阶段:第一阶段建立已知协议特征数据库,将网络通信中比特流从物理层到应用层的各种类型协议保存到已知协议特征数据库中。第二阶段在第一阶段的基础上,对截获数据流的前16个字节进行扫描,得到抽象的目标特征向量;并扫描已知协议特征数据库,以将目标特征向量与已有协议的特征向量进行比对匹配操作,计算特征向量之间的欧式距离,初步确定变种协议对应的候选协议集合,防止“漏匹配”现象。第三阶段在第二阶段完成的情况下,利用模糊推理算法,最终确定获取到的数据流中变种协议所对应的已知网络协议类型。
也就是说,前述步骤S120中所述获取待检数据流的目标特征向量包括:对截获的待检数据流的前16个字节进行扫描,得到待检数据流的目标特征向量。本申请实施例中获取的目标特征向量包括下列元素中的一种或多种:数据流存活时间、数据流映射端口、数据流固定字节、数据帧/数据报到达间隔、签名算法、安全传输协议、证书时长、数据帧/数据报长度、协议版本号。
需要说明的是,属性1:数据流存活时间X1。由于网络中数据流传输路径不同,定义单位时间内,在相同地点截获的同一数据源节点发送的数据包在网络中已经传输的时间间隔。
属性2:数据流映射端口X2。不同的网络应用对应与不同的端口,众所周知的应用遵循约定俗成的规则,使用特定的公知端口,而非公开私有协议端口亦不公开。
属性3:数据流固定字节X3。网络负载中某些特定位置的二进制数据串,也可将其数据报文的特征进行散列变换后作为数字签名。
属性4:数据帧/数据报到达间隔X4。在单位时间T中,网络中测试点捕获的数据帧或者数据报文到达的平均间隔时间t。
这里需要说明的是,比特流(数据流)是原始数据,原始数据在传输层拆分成分组(packet),也叫“包”,在数据链路层中传输“帧”(frame)。数据包到达数据链路层后加上数据链路层的协议头和协议尾就构成了一个数据帧。
属性5:签名算法X5。数据流密码套接字中所使用的保证数据完整性所使用的签名算法,例如:SHAwithRSA。
属性6:安全传输协议X6。为网络数据流在两个通信应用程序之间提供保密性与数据完整性的协议,例如:TLS(Transport Layer Security,安全传输层协议)、SSL(SecureSockets Layer,安全套接字协议)等。
属性7:证书时长X7。生成认证证书时的本地当前时间与远程服务器证书失效时间间隔。例如:2小时、2周等。
属性8:数据帧/数据报长度X8。在单位时间T中,网络中测试点捕获的数据帧或者数据报文的平均长度。
属性9:协议版本号X9。从抓包程序获取到的数据流中,提取得到的协议版本特征。例如:IPV4、IPV6、Tor2.0等。
可以理解,对于截获的数据流,本申请实施例,根据特定位置包头或帧头数据不变的特性对截获数据流的前16个字节进行扫描,得到目标特征向量,当前待检数据流的目标特征向量包括前述属性1至属性9共9个元素。
在获取数据流的目标特征向量之后,前述步骤S120中将所述目标特征向量与特征数据库中各已知网络协议的特征向量匹配,确定候选网络协议集合包括:分别计算目标特征特征向量与各已知网络协议的特征向量之间的欧式距离;将计算得到的欧式距离与距离阈值比较,当欧式距离小于距离阈值时,将相应的已知网络协议放入候选网络协议集合中。
本申请实施例中,利用特征向量之间的欧式距离,初步确定获取的变种协议对应的候选协议集合。比如在数据流特征提取的前提下扫描数据库,以与数据库中已有协议的特征向量进行比对匹配操作,选出截获的数据流特征向量与已知协议特征向量间欧式距离小于指定距离阈值ε的已知网络协议,放入候选网络协议集合。
具体的,前述步骤S120初步确定获取的变种协议对应的候选集合,包括特征提取与欧式距离计算两个子步骤,分别如下。
步骤(1)特征向量提取:特征向量提取过程与构建协议特征数据库时已知协议的字符串匹配过程相似,是根据特定位置包头或帧头数据不变的特性对截获数据流的前16个字节进行扫描,得到抽象的特征向量。
下面以某报文格式的数据流为例说明计算过程:
某数据流提取的特征向量表示为:X=[x1 x2 … x9];特征数据库中已知网络协议的特征向量Y表示为:
Figure BDA0002545924810000091
式中:yi,j表示数据库中第i个协议特征向量的第j个属性。
步骤(2)欧式距离计算:
特征向量X与Y的欧式距离计算公式为:
Figure BDA0002545924810000092
其中,Mx是指x的特征属性,是矢量表示法;(mx-my)表示矢量减。
需要说明的是,本申请实施例提取已知网络协议的特征向量,构建特征数据库时,是本发明采用已有的抓包软件(例如:wireshark等)以及源代码共享的入侵检测(例如:Snort、OSSIM)***进行公开协议的特征分解,提取与前述属性1至属性9,9个元素相应的元素作为各已知网络协议的特征向量,将已知网络协议及其特征向量保存于构建的特征数据库中。注:OSSIM(Open Source Security Information Management,开源安全信息管理***)。
在确定出候选协议集合以及获取数据流的目标特征向量的基础上,输入模糊化接口将数据流特征向量各属性的输入确定值转化为模糊集形式。模糊推理机根据输入模糊集,结合模糊规则库计算相似度的输出模糊集。最后,输出去模糊化接口将相似度模糊输出转化为确定值形式。通过第三阶段的操作,可以最终唯一确定数据比特流对应的已知协议。也就是说,基于模糊推理算法从所述候选网络协议集合中确定待检数据流使用的协议变种所对应的已知网络协议包括:将待检数据流的目标特征向量模糊化,得到目标特征向量中各元素对应的模糊集;根据所述模糊集以及预先建立的模糊规则库中的模糊蕴含关系,进行推理合成,得到待检数据流与候选网络协议集合中各已知网络协议的相似度;对所述相似度去模糊化,确定出待检数据流使用的协议变种所对应的已知网络协议。
图2示出了本申请实施例的模糊推理的流程示意图,参见图2,本申请实施例采用Mamdani模糊推理来分析与研究协议变种对应的已知协议;Mamdani模糊推理过程如图2所示。输入模糊化接口将待检数据流特征向量的输入确定值转化为模糊集形式。模糊推理机根据输入模糊集,结合模糊规则库计算相似度的输出模糊子集。最后,输出去模糊化接口将相似度模糊输出转化为确定值形式。
参见图2,输入模糊接口:用于将待检数据流特征向量的输入确定值转化为模糊集。
这里以前述数据流特征向量的9种属性中的3种进行举例说明,这3种属性分别为数据流存活时间t、数据流固定字节n、安全传输协议d,则相应的模糊集为数据存活时间模糊集T*(t)、数据流固定字节N*(n)和安全传输协议D*(d),具体的模糊方式如下:
Figure BDA0002545924810000111
Figure BDA0002545924810000112
Figure BDA0002545924810000113
dx,y表示前述步骤(2)中的欧式距离。
参见图2,模糊规则库:本申请实施例首先建立输入、输出的语言变量集,即,对候选协议集合中已知网络协议特征向量及最终已知协议相似度进行模糊分类,并建立相应的隶属度函数。通过对特征向量的模糊分类,可以提高其使用效率。为了计算简单化,本申请实施例选择线性划分法分类,并采用三角函数和梯形函数建立模糊子类的隶属度函数。
本申请实施例的规则库例如:数据流存活时间(Time of data-traffic)为{low,medium,high},数据流固定字节(Fix-byte)为{few,adequate,rich},安全传输协议(Safe-protocol)为{far,medium,close},与已知协议相似度为{very low,low,medium,high,very high}。
具体的隶属度函数如图3所示,图3所示的图(a)至(d)中,横坐标表示:确定值,纵坐标表示:模糊分类值。图3中的图(a)表示数据流存活时间的隶属度函数,图(a)中的low表示数据流存活时间短,med(medium)表示数据流存活时间中等high表示数据流存活时间长。
图3中的图(b)表示数据流固定字节的隶属度函数,图(b)中few表示数据流固定字节数少ade(adequate)表示数据流固定字节数等于平均水平rich表示数据流固定字节数多。
图3中的图(c)表示安全传输协议的隶属度函数,图(c)中far表示安全传输协议远med(medium)表示安全传输协议中close表示安全传输协议近。
图3中的图(d)表示与已知协议相似度的隶属度函数,图(d)中vlow(very low)表示待检数据流与当前已知网络协议的相似度很低,low表示待检数据流与当前已知网络协议的相似度低,med(medium)表示待检数据流与当前已知网络协议的相似度处于中间水平,high表示待检数据流与当前已知网络协议的相似度高,vhigh(very high)表示待检数据流与当前已知网络协议的相似度很高。
继续参见图2,模糊推理机:用于根据模糊规则库输入的模糊蕴含关系以及输入模糊集,计算相似度的模糊子集。
本申请实施例根据先前已知条件(已有网络协议类型),建立模糊推理规则,表示为“if…then…”的形式。这里相似度(或称优越度)用ad表示,其模糊子集表示为AD(y)。
接上例,模糊规则库中共建立27条规则,部分示意如下:
If the Length of data-traffic is low,Fix-byte is few and Safe-protocol is far,then AD is very low;
……
If the Length of data-traffic is medium,Fix-byte is adequate andSafe-protocol is medium,then AD is medium;
……
If the Safe-protocol is high,Fix-byte is high and Safe-protocol ishigh,then AD is very high;
模糊推理机得到候选特征属性的模糊输入后,根据模糊蕴含关系R,进行推理合成,即可计算得到候选协议集合中各已知网络协议相似度的模糊输出AD(y):
A*(t,n,d)=T*(t)∧N*(n)∧D*(d);
Figure BDA0002545924810000131
设q(Ak,A*)为Ak(t,n,d)与A*(t,n,d)的贴近度。
Figure BDA0002545924810000132
因此可得:
Figure BDA0002545924810000133
从而得到相似度的模糊输出AD*(y):
Figure BDA0002545924810000134
参见图2,输出去模糊化接口:用于将相似度的模糊子集AD*(y)去模糊化,即可得其确定值ad。
本申请实施例中对相似度模糊子集去模糊化,确定出待检数据流使用的协议变种所对应的已知网络协议,具体包括:计算相似度模糊子集的隶属度函数曲线所围成区域的重心,将重心所对应的值确定为协议变种所对应的已知网络协议。本申请实施例的输出去模糊化接口采用重心法,即,计算隶属度函数曲线包围区域的重心COG(Center-Of-Gravity)。
至此,本申请实施例的网络协议变种检测方法可以根据网络数据流实际状况提高未知协议识别的正确率。采用模糊推理算法确定最终的唯一的已知网络协议,简单易于实现,整体计算量小,特别适合对实时性处理要求高的应用场景使用,满足了有线网络中协议分析、信息获取、信息监控等领域的应用需求。
与前述网络协议变种检测方法同属一个技术构思,本申请实施例还提供了一种网络协议变种检测装置,图4示出了本申请实施例的网络协议变种检测装置的框图。参见图4,本申请实施例的网络协议变种检测装置400包括:
数据库构建模块410,用于提取已知网络协议的特征向量,构建特征数据库。
匹配模块420,用于获取待检数据流的目标特征向量,将所述目标特征向量与特征数据库中各已知网络协议的特征向量匹配,确定候选网络协议集合。
确定模块430,基于模糊推理算法从所述候选网络协议集合中确定待检数据流使用的协议变种所对应的已知网络协议。
在本申请实施例中,匹配模块420,具体用于分别计算目标特征特征向量与各已知网络协议的特征向量之间的欧式距离;将计算得到的欧式距离与距离阈值比较,当欧式距离小于距离阈值时,将相应的已知网络协议放入候选网络协议集合中。
在本申请实施例中,确定模块430具体用于将待检数据流的目标特征向量模糊化,得到目标特征向量中各元素对应的模糊集;根据所述模糊集以及预先建立的模糊规则库中的模糊蕴含关系,进行推理合成,得到待检数据流与候选网络协议集合中各已知网络协议之间的的相似度模糊子集;对所述相似度模糊子集去模糊化,确定出待检数据流使用的协议变种所对应的已知网络协议。
在本申请实施例中,确定模块430具体用于计算相似度模糊子集的隶属度函数曲线所围成区域的重心,将重心所对应的值确定为协议变种所对应的已知网络协议。
在本申请实施例中,匹配模块420具体用于对截获的待检数据流的前16个字节进行扫描,得到待检数据流的目标特征向量;所述目标特征向量包括下列元素中的一种或多种:数据流存活时间、数据流映射端口、数据流固定字节、数据帧/数据报到达间隔、签名算法、安全传输协议、证书时长、数据帧/数据报长度、协议版本号。
在本申请实施例中,数据库构建模块410具体用于提取TCP/IP协议簇中各已知网络协议的特征向量,构建特征数据库。
需要说明的是,上述装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
综上所述,本申请网络协议变种检测技术方案,通过对截获的数据流进行分析得到目标特征向量,将目标特征向量与数据库中已知网络协议的特征向量进行匹配,初步确定候选网络协议集合,提高了未知协议识别的正确率。另外,通过初步确定候选网络协议集合,不仅提升了匹配效率而且扩大了对应已知网络协议的选择空间,有效防止“漏匹配”现象发生。最后,在候选网络协议集合的基础上,利用模糊推理算法得到数据流使用的协议变种对应的已知网络协议类型,整体计算量小,适合对实时性处理要求高的应用场景。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的网络协议变种检测装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。例如,图5示出了本申请实施例的电子设备的结构示意图。该电子设备500包括处理器510和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器520。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码531的存储空间530。例如,用于存储计算机可读程序代码的存储空间530可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码531。计算机可读程序代码531可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图6所述的计算机可读存储介质。图6示出了本申请实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质600存储有用于执行根据本申请的方法步骤的计算机可读程序代码531,可以被电子设备500的处理器510读取,当计算机可读程序代码531由电子设备500运行时,导致该电子设备500执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码531可以执行上述任一实施例中示出的方法。计算机可读程序代码531可以以适当形式进行压缩。应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (8)

1.一种网络协议变种检测方法,其特征在于,包括:
提取已知网络协议的特征向量,构建特征数据库;
获取待检数据流的目标特征向量,将所述目标特征向量与特征数据库中各已知网络协议的特征向量匹配,确定候选网络协议集合;
基于模糊推理算法从所述候选网络协议集合中确定待检数据流使用的协议变种所对应的已知网络协议;
其中,将所述目标特征向量与特征数据库中各已知网络协议的特征向量匹配,确定候选网络协议集合包括:
分别计算目标特征特征向量与各已知网络协议的特征向量之间的欧式距离;
将计算得到的欧式距离与距离阈值比较,当欧式距离小于距离阈值时,将相应的已知网络协议放入候选网络协议集合中。
2.如权利要求1所述的方法,其特征在于,所述基于模糊推理算法从所述候选网络协议集合中确定待检数据流使用的协议变种所对应的已知网络协议包括:
将待检数据流的目标特征向量模糊化,得到目标特征向量中各元素对应的模糊集;
根据所述模糊集以及预先建立的模糊规则库中的模糊蕴含关系,进行推理合成,得到待检数据流与候选网络协议集合中各已知网络协议之间的相似度模糊子集;
对所述相似度模糊子集去模糊化,确定出待检数据流使用的协议变种所对应的已知网络协议。
3.如权利要求2所述的方法,其特征在于,对所述相似度模糊子集去模糊化,确定出待检数据流使用的协议变种所对应的已知网络协议包括:
计算相似度模糊子集的隶属度函数曲线所围成区域的重心,将重心所对应的值确定为协议变种所对应的已知网络协议。
4.如权利要求1所述的方法,其特征在于,所述获取待检数据流的目标特征向量包括:
对截获的待检数据流的前16个字节进行扫描,得到待检数据流的目标特征向量;
所述目标特征向量包括下列元素中的一种或多种:数据流存活时间、数据流映射端口、数据流固定字节、数据帧/数据报到达间隔、签名算法、安全传输协议、证书时长、数据帧/数据报长度、协议版本号。
5.如权利要求1-4中任一项所述的方法,其特征在于,所述提取已知网络协议的特征向量,构建特征数据库包括:
提取TCP/IP协议簇中各已知网络协议的特征向量,构建特征数据库。
6.一种网络协议变种检测装置,其特征在于,包括:
数据库构建模块,用于提取已知网络协议的特征向量,构建特征数据库;
匹配模块,用于获取待检数据流的目标特征向量,将所述目标特征向量与特征数据库中各已知网络协议的特征向量匹配,确定候选网络协议集合;
确定模块,用于基于模糊推理算法从所述候选网络协议集合中确定待检数据流使用的协议变种所对应的已知网络协议;
其中,所述匹配模块,具体用于分别计算目标特征特征向量与各已知网络协议的特征向量之间的欧式距离;将计算得到的欧式距离与距离阈值比较,当欧式距离小于距离阈值时,将相应的已知网络协议放入候选网络协议集合中。
7.一种电子设备,其特征在于,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-5中任一项所述方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1-5中任一项所述方法。
CN202010560524.1A 2020-06-18 2020-06-18 网络协议变种检测方法、装置、电子设备和存储介质 Active CN111726264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010560524.1A CN111726264B (zh) 2020-06-18 2020-06-18 网络协议变种检测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010560524.1A CN111726264B (zh) 2020-06-18 2020-06-18 网络协议变种检测方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111726264A CN111726264A (zh) 2020-09-29
CN111726264B true CN111726264B (zh) 2021-11-19

Family

ID=72567408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010560524.1A Active CN111726264B (zh) 2020-06-18 2020-06-18 网络协议变种检测方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111726264B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112422548A (zh) * 2020-11-10 2021-02-26 宁波智轩物联网科技有限公司 一种基于云控器的通信协议设定***
CN112801261A (zh) * 2021-01-04 2021-05-14 郑州轻工业大学 一种基于图神经网络的电力数据流传输时间推理方法
CN114765634B (zh) * 2021-01-13 2023-12-12 腾讯科技(深圳)有限公司 网络协议识别方法、装置、电子设备及可读存储介质
CN113242205B (zh) * 2021-03-19 2022-07-01 武汉绿色网络信息服务有限责任公司 网络流量分类控制方法、装置、服务器及存储介质
CN113253026A (zh) * 2021-05-13 2021-08-13 北京三维天地科技股份有限公司 一种用于仪器开关机状态的监控方法及设备
CN113268987B (zh) * 2021-05-26 2023-08-11 北京百度网讯科技有限公司 一种实体名称识别方法、装置、电子设备和存储介质
CN115866090A (zh) * 2022-12-26 2023-03-28 南京感动科技有限公司 基于多设备接入的多模协议适配及转换方法和***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0707250A4 (en) * 1992-08-24 1996-01-08 Omron Tateisi Electronics Co METHOD AND DEVICE FOR DETECTING ERRORS
WO2008008046A1 (en) * 2006-07-11 2008-01-17 Agency For Science, Technology And Research Method and system for multi-object tracking
CN102164182A (zh) * 2011-04-18 2011-08-24 北京神州绿盟信息安全科技股份有限公司 一种网络协议识别设备和方法
CN103297427A (zh) * 2013-05-21 2013-09-11 中国科学院信息工程研究所 一种未知网络协议识别方法及***
CN105024993A (zh) * 2015-05-25 2015-11-04 上海南邮实业有限公司 一种基于向量运算的协议比对方法
CN106815566A (zh) * 2016-12-29 2017-06-09 天津中科智能识别产业技术研究院有限公司 一种基于多任务卷积神经网络的人脸检索方法
CN108092948A (zh) * 2016-11-23 2018-05-29 ***通信集团湖北有限公司 一种网络攻击模式的识别方法和装置
CN109495296A (zh) * 2018-11-02 2019-03-19 国网四川省电力公司电力科学研究院 基于聚类与神经网络的智能变电站通信网络状态评价方法
CN109525457A (zh) * 2018-11-14 2019-03-26 中国人民解放军陆军工程大学 一种基于状态迁移遍历的网络协议模糊测试方法
US10623426B1 (en) * 2017-07-14 2020-04-14 NortonLifeLock Inc. Building a ground truth dataset for a machine learning-based security application

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624587B (zh) * 2012-03-26 2015-04-29 中国电力科学研究院 一种针对iec60870-5-101/104通信规约实现缺陷的检测***及方法
US20160357790A1 (en) * 2012-08-20 2016-12-08 InsideSales.com, Inc. Resolving and merging duplicate records using machine learning
CN104155574B (zh) * 2014-07-31 2017-12-15 国网湖北省电力公司武汉供电公司 基于自适应神经模糊推理***的配电网故障分类方法
CN104270392B (zh) * 2014-10-24 2017-09-26 中国科学院信息工程研究所 一种基于三分类器协同训练学习的网络协议识别方法及***
CN105827469A (zh) * 2014-12-29 2016-08-03 国家电网公司 一种modbus tcp实现缺陷测试仪及其检测方法
US9979740B2 (en) * 2015-12-15 2018-05-22 Flying Cloud Technologies, Inc. Data surveillance system

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0707250A4 (en) * 1992-08-24 1996-01-08 Omron Tateisi Electronics Co METHOD AND DEVICE FOR DETECTING ERRORS
WO2008008046A1 (en) * 2006-07-11 2008-01-17 Agency For Science, Technology And Research Method and system for multi-object tracking
CN102164182A (zh) * 2011-04-18 2011-08-24 北京神州绿盟信息安全科技股份有限公司 一种网络协议识别设备和方法
CN103297427A (zh) * 2013-05-21 2013-09-11 中国科学院信息工程研究所 一种未知网络协议识别方法及***
CN105024993A (zh) * 2015-05-25 2015-11-04 上海南邮实业有限公司 一种基于向量运算的协议比对方法
CN108092948A (zh) * 2016-11-23 2018-05-29 ***通信集团湖北有限公司 一种网络攻击模式的识别方法和装置
CN106815566A (zh) * 2016-12-29 2017-06-09 天津中科智能识别产业技术研究院有限公司 一种基于多任务卷积神经网络的人脸检索方法
US10623426B1 (en) * 2017-07-14 2020-04-14 NortonLifeLock Inc. Building a ground truth dataset for a machine learning-based security application
CN109495296A (zh) * 2018-11-02 2019-03-19 国网四川省电力公司电力科学研究院 基于聚类与神经网络的智能变电站通信网络状态评价方法
CN109525457A (zh) * 2018-11-14 2019-03-26 中国人民解放军陆军工程大学 一种基于状态迁移遍历的网络协议模糊测试方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于数据流特征向量识别的P2P僵尸网络检测方法研究";汤伟;《中国优秀硕士学位论文全文数据库》;20150115;全文 *

Also Published As

Publication number Publication date
CN111726264A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111726264B (zh) 网络协议变种检测方法、装置、电子设备和存储介质
CN112203282B (zh) 一种基于联邦迁移学习的5g物联网入侵检测方法及***
CN110460502B (zh) 基于分布特征随机森林的vpn下应用程序流量识别方法
Bhuyan et al. AOCD: An Adaptive Outlier Based Coordinated Scan Detection Approach.
Malik et al. Feature engineering and machine learning framework for DDoS attack detection in the standardized internet of things
He et al. Inferring application type information from tor encrypted traffic
Song et al. Analysis of operating system identification via fingerprinting and machine learning
Pashaei et al. Early Intrusion Detection System using honeypot for industrial control networks
CN113328985A (zh) 一种被动物联网设备识别方法、***、介质及设备
Soleimani et al. Real-time identification of three Tor pluggable transports using machine learning techniques
CN111709022A (zh) 基于ap聚类与因果关系的混合报警关联方法
Li et al. Street-Level Landmarks Acquisition Based on SVM Classifiers.
CN117097489A (zh) 一种轻量级双因素农业物联网设备持续认证方法及***
CN114301850B (zh) 一种基于生成对抗网络与模型压缩的军用通信加密流量识别方法
Yin et al. Anomaly traffic detection based on feature fluctuation for secure industrial internet of things
Choudhary et al. CRIDS: Correlation and regression-based network intrusion detection system for IoT
CN115001790B (zh) 基于设备指纹的二级认证方法、装置及电子设备
CN113726809B (zh) 基于流量数据的物联网设备识别方法
CN113765891B (zh) 一种设备指纹识别方法以及装置
Fan et al. Identify OS from encrypted traffic with TCP/IP stack fingerprinting
US11495101B2 (en) Method of communicating between a client-server system and remote clients
CN114760216A (zh) 一种扫描探测事件确定方法、装置及电子设备
CN114362972B (zh) 一种基于流量摘要和图采样的僵尸网络混合检测方法及***
CN115021986A (zh) 一种用于物联网设备识别可部署模型的构建方法与装置
Wei et al. Mobile device fingerprinting recognition using insensitive information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant