CN112367274A - 一种工控未知协议流量识别方法 - Google Patents

一种工控未知协议流量识别方法 Download PDF

Info

Publication number
CN112367274A
CN112367274A CN202011193917.XA CN202011193917A CN112367274A CN 112367274 A CN112367274 A CN 112367274A CN 202011193917 A CN202011193917 A CN 202011193917A CN 112367274 A CN112367274 A CN 112367274A
Authority
CN
China
Prior art keywords
model
flow
detection
unknown protocol
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011193917.XA
Other languages
English (en)
Inventor
毕建宇
迟永梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baomu Technology Tianjin Co ltd
Original Assignee
Baomu Technology Tianjin Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baomu Technology Tianjin Co ltd filed Critical Baomu Technology Tianjin Co ltd
Priority to CN202011193917.XA priority Critical patent/CN112367274A/zh
Publication of CN112367274A publication Critical patent/CN112367274A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种工控未知协议流量识别方法,S1、输入Netflow格式的双向流作为网络流量数据,对于每一条输入的流数据,将其归入一个四元组中;S2、对于每个四元组中的流数据,以流的开始时间排序,并提取每条流的所含字节数大小、持续时长和周期性特征,以这三个特征为依据,结合流的开始时间,将四元组映射为一条以时间降序排序的时间序列,也即流量的状态链。本发明所述的一种工控未知协议流量识别方法,通过对已采集到的未知协议稳定运行时对应的流量进行分析和建模,即可对未知网络中含有的该种协议的流量进行有效识别。

Description

一种工控未知协议流量识别方法
技术领域
本发明属于工控未知协议的流量识别领域,尤其是涉及一种工控未知协议流量识别方法。
背景技术
目前协议识别主流技术主要包括:基于TCP/UDP端口的识别技术、基于报文负载特征的识别技术、基于关联分析的检测和识别技术以及基于行为特征的识别技术,上述方案在具体实施过程中具有以下缺陷:1、分类算法要求测试集样本中各类协议的样本比例相对均衡,而实际网络环境中的各类协议流量比例不一定均衡;2、该分类算法需一次输入足量的流数据用于检测,不能对网络中的未知协议流量进行实时分类。
发明内容
有鉴于此,本发明旨在提出一种工控未知协议流量识别方法,基于随机过程的马尔可夫原理,能够实时收集真实网络环境中的流量数据,并对其建立时间序列模型。
为达到上述目的,本发明的技术方案是这样实现的:
一种工控未知协议流量识别方法,包括以下步骤:
S1、输入Netflow格式的双向流作为网络流量数据,对于每一条输入的流数据,将其归入一个四元组中;
S2、对于每个四元组中的流数据,以流的开始时间排序,并提取每条流的所含字节数大小、持续时长和周期性特征,以这三个特征为依据,结合流的开始时间,将四元组映射为一条以时间降序排序的时间序列,也即流量的状态链;
S3、对于每个状态链,使用训练好的马尔可夫模型检测;
S4、计算待检测的时间序列在已有检测模型的转移矩阵下,生成待检测时间序列的概率指标是否与检测模型的概率指标相似,若在相似性阈值以内,则该未知协议可认定为与检测模型相同,否则仍为未知协议;
S5、若在相似性阈值以内则选出具有最优相似性的预测结果,对应的模型的标签作为该未知流量的标签。
步骤S1中所述的四元组即为具有相同的源IP、目的IP、目的端口和协议构成的四元组流量集合。
进一步的,步骤S3中的马尔可夫模型包括模型训练阶段以及模型检测阶段,在模型训练阶段中,将需检测的未知协议所对应的流量在步骤S2生成的时间序列模型提取出来,作为下次检测该未知流量时的依据。
进一步的,步骤S3中建立的用于检测的时间序列模型需要有对应未知协议流量的典型性特征。
进一步的,在步骤S3中的马尔可夫模型的模型检测阶段中,对在步骤S2中生成的时间序列,使用已生成的时间序列模型遍历检测。
进一步的,使用已生成的时间序列模型遍历检测的原理为:基于马尔可夫链的状态转移矩阵,计算待检测的时间序列在已有检测模型的转移矩阵下,生成待检测时间序列的概率指标是否与检测模型的概率指标相似,若在相似性阈值以内,则该未知协议可认定为与检测模型相同,否则仍为未知协议,若有多个检测模型对应的结果满足相似性阈值,则取满足相似性阈值的最小值作为最终检测结果。
相对于现有技术,本发明所述的一种工控未知协议流量识别方法具有以下优势:
本发明所述的一种工控未知协议流量识别方法,通过对已采集到的未知协议稳定运行时对应的流量进行分析和建模,即可对未知网络中含有的该种协议的流量进行有效识别,相较于人工逆向的分析方式,本发明的方法对每种未知协议的流量都采用通用的分析方式,只需获取未知协议稳定运行时所发出的所有可能的流量数据,就能对该种未知协议进行有效检测。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的一种工控未知协议流量识别方法功能框架示意图;
图2为本发明实施例所述的一种工控未知协议流量识别方法时间序列模型的详细生成规则示意图;
图3为本发明实施例所述的基于卷积神经网络算法对应的流程图示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。
如图1至图3所示,一种工控未知协议流量识别方法,包括以下步骤:
S1、输入Netflow格式的双向流作为网络流量数据,对于每一条输入的流数据,将其归入一个四元组中;
S2、对于每个四元组中的流数据,以流的开始时间排序,并提取每条流的所含字节数大小、持续时长和周期性特征,以这三个特征为依据,结合流的开始时间,将四元组映射为一条以时间降序排序的时间序列,也即流量的状态链;
S3、对于每个状态链,使用训练好的马尔可夫模型检测;
S4、计算待检测的时间序列在已有检测模型的转移矩阵下,生成待检测时间序列的概率指标是否与检测模型的概率指标相似,若在相似性阈值以内,则该未知协议可认定为与检测模型相同,否则仍为未知协议;
S5、若在相似性阈值以内则选出具有最优相似性的预测结果,对应的模型的标签作为该未知流量的标签。
步骤S1中所述的四元组即为具有相同的源IP、目的IP、目的端口和协议构成的四元组流量集合。
步骤S3中的马尔可夫模型包括模型训练阶段以及模型检测阶段,在模型训练阶段中,将需检测的未知协议所对应的流量在步骤S2生成的时间序列模型提取出来,作为下次检测该未知流量时的依据。
步骤S3中建立的用于检测的时间序列模型需要有对应未知协议流量的典型性特征,典型性特征指的是能够反映这一类流量的特征,比较完整,能够说明问题。
在步骤S3中的马尔可夫模型的模型检测阶段中,对在步骤S2中生成的时间序列,使用已生成的时间序列模型遍历检测。
使用已生成的时间序列模型遍历检测的原理为:基于马尔可夫链的状态转移矩阵,计算待检测的时间序列在已有检测模型的转移矩阵下,生成待检测时间序列的概率指标是否与检测模型的概率指标相似,若在相似性阈值以内,则该未知协议可认定为与检测模型相同,否则仍为未知协议,若有多个检测模型对应的结果满足相似性阈值,则取满足相似性阈值的最小值作为最终检测结果。
在具体实施过程中,时间序列模型的详细生成规则如图2所示,根据提取的流的周期性、包含字节大小和持续时长三个特征,对照上表,可将每个四元组中的所有流数据射为一个时间序列模型,而划分流量大小、持续时长和周期性特征的区间阈值通过分析多种工控协议流量得出。生成的时间序列模型形如:
88+h+h+h+h+Y*y*e*V+v+e+e+e+E+e+E+E+E+e+e+e+E+h+h+h+H+H+y+h+y+Y*H*y*Y+h+y*Y+h+h+H+h+h+y+y+h+h+h+h+
上面的时间序列模型通过与训练好的检测模型进行生成概率的相似性比较,来判断是否为检测模型对应协议的流量。
除本发明创造中提出的算法外,不同协议对应的流量识别算法还可基于卷积神经网络来实现,该方法首先将网络流数据组成灰度图像,再以图像处理的方法进行处理,该方法可以自动提取网络流数据的特征,有效缓解识别率依赖于人为选择特征的不足,同时通过合理的组合网络流中的数据包,提高了网络流量识别的准确率,算法对应的流程图如图3所示,算法流程图说明:以捕获的网络数据trace作为数据源,首先根据协议指纹把数据包分为TCP和UDP两部分。TCP数据包根据TCP建立连接和断开连接的握手信息将其组成完整的数据流,UDP数据包根据不同的五元组进行划分,按照固定的时间间隔生成UDP流。然后将生成的数据流按照一定的规则转换为灰度图像,作为卷积神经网络的输入。随后连接Softmax分类器按照应用程序或者应用层协议类别完成识别。
该算法与本发明提出的算法的不同之处在于,该算法使用卷积神经网络模型,使用输入的网络数据对神经网络模型进行训练,并使用训练好的模型进行不同协议的流量的检测识别。而本发明提出的算法使用马尔可夫的时间序列来建立流量模型,并比较待测时间序列和已建立的检测模型的时间序列的生成概率相似性来进行不同协议的流量的检测和识别。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种工控未知协议流量识别方法,其特征在于包括以下步骤:
S1、输入Netflow格式的双向流作为网络流量数据,对于每一条输入的流数据,将其归入一个四元组中;
S2、对于每个四元组中的流数据,以流的开始时间排序,并提取每条流的所含字节数大小、持续时长和周期性特征,以这三个特征为依据,结合流的开始时间,将四元组映射为一条以时间降序排序的时间序列,也即流量的状态链;
S3、对于每个状态链,使用训练好的马尔可夫模型检测;
S4、计算待检测的时间序列在已有检测模型的转移矩阵下,生成待检测时间序列的概率指标是否与检测模型的概率指标相似,若在相似性阈值以内,则该未知协议可认定为与检测模型相同,否则仍为未知协议;
S5、若在相似性阈值以内则选出具有最优相似性的预测结果,对应的模型的标签作为该未知流量的标签。
2.根据权利要求1所述的一种工控未知协议流量识别方法,其特征在于:步骤S1中所述的四元组即为具有相同的源IP、目的IP、目的端口和协议构成的四元组流量集合。
3.根据权利要求2所述的一种工控未知协议流量识别方法,其特征在于:步骤S3中的马尔可夫模型包括模型训练阶段以及模型检测阶段,在模型训练阶段中,将需检测的未知协议所对应的流量在步骤S2生成的时间序列模型提取出来,作为下次检测该未知流量时的依据。
4.根据权利要求3所述的一种工控未知协议流量识别方法,其特征在于:步骤S3中建立的用于检测的时间序列模型需要有对应未知协议流量的典型性特征。
5.根据权利要求3所述的一种工控未知协议流量识别方法,其特征在于:在步骤S3中的马尔可夫模型的模型检测阶段中,对在步骤S2中生成的时间序列,使用已生成的时间序列模型遍历检测。
6.根据权利要求5所述的一种工控未知协议流量识别方法,其特征在于,使用已生成的时间序列模型遍历检测的原理为:基于马尔可夫链的状态转移矩阵,计算待检测的时间序列在已有检测模型的转移矩阵下,生成待检测时间序列的概率指标是否与检测模型的概率指标相似,若在相似性阈值以内,则该未知协议可认定为与检测模型相同,否则仍为未知协议,若有多个检测模型对应的结果满足相似性阈值,则取满足相似性阈值的最小值作为最终检测结果。
CN202011193917.XA 2020-10-30 2020-10-30 一种工控未知协议流量识别方法 Pending CN112367274A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011193917.XA CN112367274A (zh) 2020-10-30 2020-10-30 一种工控未知协议流量识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011193917.XA CN112367274A (zh) 2020-10-30 2020-10-30 一种工控未知协议流量识别方法

Publications (1)

Publication Number Publication Date
CN112367274A true CN112367274A (zh) 2021-02-12

Family

ID=74513159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011193917.XA Pending CN112367274A (zh) 2020-10-30 2020-10-30 一种工控未知协议流量识别方法

Country Status (1)

Country Link
CN (1) CN112367274A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113037775A (zh) * 2021-03-31 2021-06-25 上海天旦网络科技发展有限公司 网络应用层全流量向量化记录生成方法和***
CN114679308A (zh) * 2022-03-21 2022-06-28 山东大学 一种基于双路自编码的未知流量识别方法及***
CN115834738A (zh) * 2023-01-09 2023-03-21 科来网络技术股份有限公司 一种工控业务行为识别方法、装置、电子设备及可读介质
CN116112380A (zh) * 2023-02-13 2023-05-12 山东云天安全技术有限公司 一种基于异常流量的工控安全控制***
CN116112270A (zh) * 2023-02-13 2023-05-12 山东云天安全技术有限公司 一种确定异常流量的数据处理***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111818049A (zh) * 2020-07-08 2020-10-23 宝牧科技(天津)有限公司 一种基于马尔可夫模型的僵尸网络流量检测方法及***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111818049A (zh) * 2020-07-08 2020-10-23 宝牧科技(天津)有限公司 一种基于马尔可夫模型的僵尸网络流量检测方法及***

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113037775A (zh) * 2021-03-31 2021-06-25 上海天旦网络科技发展有限公司 网络应用层全流量向量化记录生成方法和***
CN113037775B (zh) * 2021-03-31 2022-07-29 上海天旦网络科技发展有限公司 网络应用层全流量向量化记录生成方法和***
CN114679308A (zh) * 2022-03-21 2022-06-28 山东大学 一种基于双路自编码的未知流量识别方法及***
CN115834738A (zh) * 2023-01-09 2023-03-21 科来网络技术股份有限公司 一种工控业务行为识别方法、装置、电子设备及可读介质
CN116112380A (zh) * 2023-02-13 2023-05-12 山东云天安全技术有限公司 一种基于异常流量的工控安全控制***
CN116112270A (zh) * 2023-02-13 2023-05-12 山东云天安全技术有限公司 一种确定异常流量的数据处理***
CN116112270B (zh) * 2023-02-13 2023-08-25 山东云天安全技术有限公司 一种确定异常流量的数据处理***
CN116112380B (zh) * 2023-02-13 2024-02-02 山东云天安全技术有限公司 一种基于异常流量的工控安全控制***

Similar Documents

Publication Publication Date Title
CN112367274A (zh) 一种工控未知协议流量识别方法
CN111385297B (zh) 无线设备指纹识别方法、***、设备及可读存储介质
CN109726744B (zh) 一种网络流量分类方法
Zhang et al. Autonomous unknown-application filtering and labeling for dl-based traffic classifier update
CN105871832B (zh) 一种基于协议属性的网络应用加密流量识别方法及其装置
CN109063745B (zh) 一种基于决策树的网络设备类型识别方法及***
CN113870260B (zh) 一种基于高频时序数据的焊接缺陷实时检测方法及***
CN102315974B (zh) 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN112564974B (zh) 一种基于深度学习的物联网设备指纹识别方法
CN109981474A (zh) 一种面向应用软件的网络流量细粒度分类***及方法
CN112766218B (zh) 基于非对称联合教学网络的跨域行人重识别方法和装置
CN114386514B (zh) 基于动态网络环境下的未知流量数据识别方法及装置
CN115277258B (zh) 一种基于时空特征融合的网络攻击检测方法和***
CN116405419A (zh) 一种基于小样本学习的未知网络协议分类方法
Xiao et al. A traffic classification method with spectral clustering in SDN
CN112073988A (zh) 一种局域网内隐藏摄像头的探测方法
CN113645305A (zh) 一种物联网数据的传输节点确定方法及***
CN109660656A (zh) 一种智能终端应用程序识别方法
Shuai et al. Multi-source feature fusion and entropy feature lightweight neural network for constrained multi-state heterogeneous iris recognition
KR102014234B1 (ko) 무선 프로토콜 자동 분석 방법 및 그를 위한 장치
CN116959099B (zh) 一种基于时空图卷积神经网络的异常行为识别方法
CN112291226A (zh) 一种网络流量的异常检测方法及装置
CN116401586A (zh) 一种全场景业务智能感知与精准分类的方法
CN114666273B (zh) 一种面向应用层未知网络协议的流量分类方法
Pan et al. Unsupervised two-stage root-cause analysis for integrated systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210212