CN109600317A - 一种自动识别流量并提取应用规则的方法及装置 - Google Patents

一种自动识别流量并提取应用规则的方法及装置 Download PDF

Info

Publication number
CN109600317A
CN109600317A CN201811412144.2A CN201811412144A CN109600317A CN 109600317 A CN109600317 A CN 109600317A CN 201811412144 A CN201811412144 A CN 201811412144A CN 109600317 A CN109600317 A CN 109600317A
Authority
CN
China
Prior art keywords
http
flow
matched
http flow
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811412144.2A
Other languages
English (en)
Other versions
CN109600317B (zh
Inventor
王娜
蔡莎
林飞
古元
毛华阳
华仲锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Asia Century Technology Development Co Ltd
Original Assignee
Beijing Asia Century Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Asia Century Technology Development Co Ltd filed Critical Beijing Asia Century Technology Development Co Ltd
Priority to CN201811412144.2A priority Critical patent/CN109600317B/zh
Publication of CN109600317A publication Critical patent/CN109600317A/zh
Application granted granted Critical
Publication of CN109600317B publication Critical patent/CN109600317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种自动识别流量并提取应用规则的装置涉及信息技术领域,尤其是网络监管的流量自动识别领域。本发明由流量分类模块、流量过滤模块、http流量自动学习分析模块、非http流量特征提取模块组成;流量分类模块由流量对比器和http流量特征表组成;流量过滤模块由流量过滤器、流量规则指纹库组成;http流量自动学习分析模块由流量类型判断模块、特征字符串匹配分析器、域名和网页title分析器、服务器ip地址分析器组成;非http流量特征提取模块由非http流量记录器和16进制特征转换器组成。本发明在没有提供流量模型指纹的情况下可以实现通过自动学习分析网络流量识别出网络应用流量类型,并且自动学习到的流量特征能生成规则特征库。本发明的推广可以减少人员的工作量,提高工作效率。

Description

一种自动识别流量并提取应用规则的方法及装置
技术领域
本发明涉及信息技术领域,尤其是网络***方面的流量自动识别领域。
背景技术
随着互联网流量不断扩充,从2G网,3G网,4G网,及后面演变到5G网,这种演变导致互联网应用流量不断扩容,流量的多样化,再加上互联网应用更新频繁和新的互联网应用快速诞生!网络监管要面对这种庞大的网络数据流和变化多端的网络数据流量,用传统的人工流量分析和应用规则提取,已经很难解决监管的及时性及网络的安全性,并且投入大量的人力和时间也不能完全解决该问题,所以急需要一种新的方法应对该情况。
目前主要的方法是用互联网流量与存在的流量模型指纹匹配来自动化识别。然而基于这种方法存在的缺点是:1.没有考虑新的流量类型不断增多,更新频繁的流量类型没有流量模型指纹匹配;2.流量模型指纹所依赖的特征规则库无法自动生成;3.无法自动更新规则库;4.无法快速自动识别网络数据流量和流量趋势图。本发明在没有提供流量模型指纹的情况下可以实现通过自动学习分析网络流量识别出网络应用流量类型,并且自动学习到的流量特征能生成规则特征库。本发明的推广可以减少人员的工作量,提高工作效率。
共有技术
HOST规则特征就是一个能表示应用网络数据会话的负载中标准字段中host特征表达式,如百度的host规则特征是pkt.payload~"Host:[-~]*\.***.com*\r\n"。
域名正则匹配规则就是针对http流量中的代表域名字段(host)的匹配规则,如:pkt.payload~"Host:[-~]*xxx*\r\n"。
规则指纹库就是以前分析总结出来的网络应用的流量的规则特征库。
http的标准头部特征为http.request.method时,其值包括:GET,POST,HEAD,PUT,DELETE,OPTIONS,CONNECT,TRACE,PATCH,MOVE,COPY,LINK,UNLINK,WRAPPED,Extension-mothed。
标准字段是HTTP请求时,流量的头部特征包括:Referer:,rf:,Origin:,Content-Type:,User-Agent:,Host:,userToken:,Cookie:,Q-UA2:,Q-GUID:,QQ-S-ZIP:,Apn-Type:,Date:,Pragma:,Range:,Location:,Server:,Last-modified:,PostData。
http的标准头部特征的独有属性就是针对特殊应用自己独有的HTTP的标准字段,例如:qyi-id是爱奇艺http流量独有的,qqread是腾讯阅读http流量独有的。
HTTP流量与非HTTP流量及常用的流量抓取工具:
1.WireShark是一款常见的网络数据包分析工具。该软件可以在线截取各种网络封包,显示网络封包的详细信息,也可分析已有的报文数据,如由tcpdump/WinDump、WireShark等采集的报文数据。WireShark提供多种过滤规则,进行报文过滤。使用者可借助该工具的分析功能,获取多种网络数据特征。
2.Tcptrace是一款分析TCP流量数据文件的工具,它的输入包括多种的基于报文采集程序输出的文件,如tcpdump,snoop,etherpeek,HPNetMetrix和WinDump。使用Tcptrace可以获得每个通信连接的各种信息,包括:持续时间,字节数,发送和接收的片段,重传,往返时间等,也可以生成许多图形,用于使用者的后续分析。
3.QPA是一款开源的基于进程抓包的实时流量分析软件。其基于进程抓包的优势,能够实时准确判定每个包所属进程,基于正则表达式书写规则,能提取IP、端口、报文长度与内容等维度特征;QPA按流量类型自动归类,分析简便,优于基于一条条会话的分析模式。
4.Tstat是在Tcptrace的基础上进一步开发而来,可以在普通PC硬件或者数据采集卡进行在线的报文数据采集。除此之外,Tstat还可分析已有的数据报文,支持各种dump格式,如libpcap库支持的格式等。双向的TCP流分析可得到新的统计特征,如阻塞窗口大小、乱序片段等,这些信息在服务器和客户端有所区分,还可区分内网主机和外网主机。
5.CapAnalysis是一款有效的网络流量分析工具,适用于信息安全专家,***管理员和其他需要分析大量已捕获网络流量的人员。CapAnalysis通过索引PCAP文件的数据集,执行并将其内容以多种形式转化,从包含TCP,UDP或ESP流的列表,到将其连接以地理图形的方式表示出来。可安装部署到debian32/64位,Ubuntu32/64位***。
6.Xplico的目标是提取互联网流量并捕获应用数据中包含的信息。解码控制器,IP/网络解码器,程序集和可视化***构成了一个完整的Xplico***。该***支持对HTTP,SIP,IMAP,POP,SMTP,TCP,UDP,IPv6等协议的分析。
非HTTP流量能够提取的内容特征包括:IP、端口、报文长度、协议类型、内容。
应用服务器ip地址与应用协议名映射表,由网络监管方记录已知的应用服务器ip和与之对应的应用协议名形成应用服务器ip地址与应用协议名映射表。
发明内容
针对现有技术中网络监管自动化处理不足的缺陷,实现本发明的一种自动识别流量并提取应用规则的装置由流量分类模块、流量过滤模块、http流量自动学习分析模块、非http流量特征提取模块组成;流量分类模块由流量对比器和http流量特征表组成;流量过滤模块由流量过滤器、流量规则指纹库组成;http流量自动学习分析模块由流量类型判断模块、特征字符串匹配分析器、域名和网页title分析器、服务器ip地址分析器组成;非http流量特征提取模块由非http流量记录器和16进制特征转换器组成;
本发明的具体实现步骤包括:
1)网络应用流量的分类
①流量分类模块读取网络应用流量,根据http流量特征表由流量对比器将网络应用流量分成http流量和非http流量,并将http流量和非http流量发送给流量过滤器;
②http流量特征表包括三部分,分别是:http的标准头部特征,http的标准字段和http的独有属性;http的标准头部特征为http.request.method,其值包括:GET,POST,HEAD,PUT,DELETE,OPTIONS,CONNECT,TRACE,PATCH,MOVE,COPY,LINK,UNLINK,WRAPPED,Extension-mothed;http的标准字段是http请求时,流量的头部特征,包括:Referer:,rf:,Origin:,Content-Type:,User-Agent:,Host:,userToken:,Cookie:,Q-UA2:,Q-GUID:,QQ-S-ZIP:,Apn-Type:,Date:,Pragma:,Range:,Location:,Server:,Last-modified:,PostData;http的独有属性就是针对特殊应用独有的http的标准字段,例如:qyi-id是爱奇艺http流量独有的,qqread是腾讯阅读http流量独有的;
③流量对比器提取网络应用流量的IP、端口、报文长度、协议类型、内容,并将所提取的内容与http流量特征表比对,当网络应用流量的内容属于http流量特征表所记录的内容时,标记网络应用流量为http流量,流量对比器将http流量发送给流量过滤器;
④流量对比器提取网络应用流量的IP、端口、报文长度、协议类型、内容,并将所提取的内容与http流量特征表比对,当网络应用流量的内容不属于http流量特征表所记录的内容时,标记网络应用流量为非http流量,流量对比器将非http流量发送给流量过滤器;
2)网络应用流量的过滤
①流量过滤器接收http流量并提取http流量的内容与流量规则指纹库中的http流量规则指纹集合对比,当http流量的内容在http流量规则指纹集合中有记录时放弃http流量;当http流量的内容在http流量规则指纹库集合中没有记录时标记http流量为未匹配的http流量;流量过滤器将未匹配的http流量发送给流量类型判断模块;
②流量过滤器接收非http流量并提取非http流量的IP、端口、报文长度、协议类型、内容,流量过滤器使用16进制特征转换器将非http流量的IP、端口、报文长度、协议类型、内容转换成16进制的非http流量特征指纹;流量过滤器将非http流量特征指纹与流量规则指纹库中的非http流量规则指纹集合对比,当非http流量特征指纹在非http流量规则指纹集合中有记录时放弃非http流量;当非http流量特征指纹在非http流量规则指纹库集合中没有记录时标记非http流量为未匹配的非http流量;流量过滤器将未匹配的非http流量发送给非http流量记录器;
3)http流量自动学习生成 http流量规则指纹
①流量类型判断模块接收未匹配的http流量并解析未匹配的http流量,当未匹配的http流量中包含域名字符串,流量类型判断模块将未匹配的http流量发送给域名和网页title分析器;域名的自动化判断方法为:1.中文域名格式为: *.中国,*.公司,*.网络,*必须含中文,.必须是英文输入法下的点号;2.不超过20个字符,且只能包括字符、数字、和破折号,破折号不能在开始和结尾,不能有两个连续的破折号;3.英文域名以.cn结尾的纯英文域名,格式为:*.cn,*必须是英文;
②流量类型判断模块预设有app应用商店的软件包名录和规则特征字符串池以及服务器IP地址集;app应用商店的软件包名录来源于网络采集;规则特征字符串池中的规则特征字符串来源于网络监管方已知网络应用流量的特征;服务器IP地址集来源于网络监管方已知的服务器IP地址;
③流量类型判断模块接收未匹配的http流量并解析未匹配的http流量,当未匹配的http流量中包含有app应用商店的软件包名并且app应用商店的软件包名在app应用商店的软件包名录中有记录时,流量类型判断模块将未匹配的http流量发送给特征字符串匹配分析器;
④流量类型判断模块接收未匹配的http流量并解析未匹配的http流量,当未匹配的http流量中包含有规则特征字符串池中的规则特征字符串时,流量类型判断模块将未匹配的http流量发送给特征字符串匹配分析器;
⑤ 流量类型判断模块接收未匹配的http流量并解析未匹配的http流量,当未匹配的http流量中包含服务器IP地址集中的IP地址时,流量类型判断模块将未匹配的http流量发送给服务器IP地址分析器;
⑥域名和网页title分析器通过浏览器模拟访问未匹配的http流量中的域名,提取网页title记录为模拟访问的流量对应的协议名,域名和网页title分析器调用正则域名表达式模板,生成http域名正则表达式,并将未匹配的http流量中的域名及对应模拟访问记录的协议名生成的http域名正则表达式;域名和网页title分析器将http域名正则表达式作为http流量规则指纹发送给流量规则指纹库的http流量规则指纹集合存储;
⑦特征字符串匹配分析器将未匹配的http流量的特征字符串对应的协议名生成http的特征字符串正则表达式;特征字符串匹配分析器将未匹配的http流量的app应用商店的软件包名生成http的特征字符串正则表达式,app应用商店的软件包名当作协议名处理;特征字符串匹配分析器将http的特征字符串正则表达式作为http流量规则指纹发送给流量规则指纹库的http流量规则指纹集合存储;
⑧服务器ip地址分析器使用未匹配的http流量包含的服务器ip地址,在应用服务器ip地址与应用协议名映射表中查询对应的协议名,当未匹配的http流量包含的服务器ip地址在应用服务器ip地址与应用协议名映射表中有记录时,将未匹配的http流量包含的服务器ip地址和对应的协议名生成http服务器ip地址规则表达式,服务器ip地址分析器将http服务器ip地址规则表达式作为http流量规则指纹发送给流量规则指纹库的http流量规则指纹集合存储;当未匹配的http流量包含的服务器ip地址在应用服务器ip地址与应用协议名映射表中没有记录时,通过浏览器模拟器拨测未匹配的http流量包含的服务器ip地址,记录返回流量的协议名,将未匹配的http流量包含的服务器ip地址与返回流量的协议名对应记录到应用服务器ip地址与应用协议名映射表中,并将未匹配的http流量包含的服务器ip地址与返回流量的协议名生成http服务器ip地址规则表达式,服务器ip地址分析器将http服务器ip地址规则表达式作为http流量规则指纹发送给流量规则指纹库的http流量规则指纹集合存储;
4)非http流量特征转换生成流量规则指纹
①非http流量记录器接收未匹配的非http流量并解析出IP、端口、报文长度、协议类型、内容;
②非非http流量记录器将未匹配的非http流量并解析出IP、端口、报文长度、协议类型、内容发送给16进制特征转换器;16进制特征转换器将未匹配的非http流量解析出的IP、端口、报文长度、协议类型、内容转换成非http流量特征指纹;
③16进制特征转换器将非http流量特征指纹传送给非http流量规则指纹集合存储。
有益效果
实现本发明对互联网新增应用流量,自动应用流量分析速度更快,不用依靠现有指纹模板才能识别,并且生成新的流量模型库;实现本发明最开始对流量初步分类,对不同的流量类型进行并且自动分析处理,提高了自动分析速度和提高每个阶段的处理性能;实现本发明能自动生成规则库,自动加载规则库,从而减少自动流量分析模块处理流量的数量,提高处理性能。
附图说明
图1是本发明的结构及流程图。
具体实施方式
参看图1实现本发明的一种自动识别流量并提取应用规则的装置由流量分类模块A、流量过滤模块B、http流量自动学习分析模块C、非http流量特征提取模块D组成;流量分类模块A由流量对比器11和http流量特征表12组成;流量过滤模块B由流量过滤器21、流量规则指纹库22组成;http流量自动学习分析模块C由流量类型判断模块31、特征字符串匹配分析器33、域名和网页title分析器32、服务器ip地址分析器组成34;非http流量特征提取模块D由非http流量记录器41和16进制特征转换器42组成;
本发明的具体实现步骤包括:
1)网络应用流量的分类
①流量分类模块A读取网络应用流量10,根据http流量特征表12由流量对比器11将网络应用流量10分成http流量13和非http流量14,并将http流量13和非http流量14发送给流量过滤器21;
②http流量特征表12包括三部分,分别是:http的标准头部特征,http的标准字段和http的独有属性;http的标准头部特征为http.request.method,其值包括:GET,POST,HEAD,PUT,DELETE,OPTIONS,CONNECT,TRACE,PATCH,MOVE,COPY,LINK,UNLINK,WRAPPED,Extension-mothed;http的标准字段是http请求时,流量的头部特征,包括:Referer:,rf:,Origin:,Content-Type:,User-Agent:,Host:,userToken:,Cookie:,Q-UA2:,Q-GUID:,QQ-S-ZIP:,Apn-Type:,Date:,Pragma:,Range:,Location:,Server:,Last-modified:,PostData;http的独有属性就是针对特殊应用独有的http的标准字段,例如:qyi-id是爱奇艺http流量独有的,qqread是腾讯阅读http流量独有的;
③流量对比器11提取网络应用流量10的IP、端口、报文长度、协议类型、内容,并将所提取的网络应用流量10的内容与http流量特征表12比对,当网络应用流量10的内容属于http流量特征表12所记录的内容时,标记网络应用流量为http流量13,流量对比器11将http流量13发送给流量过滤器21;
④流量对比器11提取网络应用流量10的IP、端口、报文长度、协议类型、内容,并将所提取的网络应用流量10的内容与http流量特征表12比对,当网络应用流量10的内容不属于http流量特征表12所记录的内容时,标记网络应用流量为非http流量14,流量对比器11将非http流量14发送给流量过滤器21;
2)网络应用流量的过滤
①流量过滤器21接收http流量13并提取http流量13的内容与流量规则指纹库22中的http流量规则指纹集合221对比,当http流量13的内容在http流量规则指纹集合221中有记录时放弃http流量13;当http流量13的内容在http流量规则指纹库集合221中没有记录时标记http流量为未匹配的http流量23;流量过滤器21将未匹配的http流量23发送给流量类型判断模块31;
②流量过滤器21接收非http流量14并提取非http流量14的IP、端口、报文长度、协议类型、内容,流量过滤器21使用16进制特征转换器42将非http流量14的IP、端口、报文长度、协议类型、内容转换成16进制的非http流量特征指纹43;流量过滤器21将非http流量特征指纹43与流量规则指纹库22中的非http流量规则指纹集合222对比,当非http流量特征指纹43在非http流量规则指纹集合222中有记录时放弃非http流量14;当非http流量特征指纹43在非http流量规则指纹库集合222中没有记录时标记非http流量为未匹配的非http流量24;流量过滤器21将未匹配的非http流量24发送给非http流量记录器41;
3)http流量自动学习生成 http流量规则指纹
①流量类型判断模块31接收未匹配的http流量23并解析未匹配的http流量23,当未匹配的http流量23中包含域名字符串,流量类型判断模块31将未匹配的http流量发送给域名和网页title分析器32;域名的自动化判断方法为:1.中文域名格式为: *.中国,*.公司,*.网络,*必须含中文,.必须是英文输入法下的点号;2.不超过20个字符,且只能包括字符、数字、和破折号,破折号不能在开始和结尾,不能有两个连续的破折号;3.英文域名以.cn结尾的纯英文域名,格式为:*.cn,*必须是英文;
②流量类型判断模块31预设有app应用商店的软件包名录和规则特征字符串池以及服务器IP地址集;app应用商店的软件包名录来源于网络采集;规则特征字符串池中的规则特征字符串来源于网络监管方已知网络应用流量的特征;服务器IP地址集来源于网络监管方已知的服务器IP地址;
③流量类型判断模块31接收未匹配的http流量23并解析未匹配的http流量23,当未匹配的http流量23中包含有app应用商店的软件包名并且app应用商店的软件包名在app应用商店的软件包名录中有记录时,流量类型判断模块31将未匹配的http流量23发送给特征字符串匹配分析器33;
④流量类型判断模块31接收未匹配的http流量23并解析未匹配的http流量23,当未匹配的http流量23中包含有规则特征字符串池中的规则特征字符串时,流量类型判断模块31将未匹配的http流量23发送给特征字符串匹配分析器33;
⑤ 流量类型判断模块31接收未匹配的http流量23并解析未匹配的http流量23,当未匹配的http流量23中包含服务器IP地址集中的IP地址时,流量类型判断模块31将未匹配的http流量23发送给服务器IP地址分析器34;
⑥域名和网页title分析器32通过浏览器模拟访问未匹配的http流量23中的域名,提取网页title记录为模拟访问的流量对应的协议名,域名和网页title分析器32调用正则域名表达式模板,生成http域名正则表达式,并将未匹配的http流量23中的域名及对应模拟访问记录的协议名生成的http域名正则表达式;域名和网页title分析器32将http域名正则表达式作为http流量规则指纹发送给流量规则指纹库22的http流量规则指纹集合221存储;
⑦特征字符串匹配分析器33将未匹配的http流量23的特征字符串对应的协议名生成http的特征字符串正则表达式;特征字符串匹配分析器33将未匹配的http流量23的app应用商店的软件包名生成http的特征字符串正则表达式,app应用商店的软件包名当作协议名处理;特征字符串匹配分析器33将http的特征字符串正则表达式作为http流量规则指纹发送给流量规则指纹库22的http流量规则指纹集合221存储;
⑧服务器ip地址分析器34使用未匹配的http流量23包含的服务器ip地址,在应用服务器ip地址与应用协议名映射表中查询对应的协议名,当未匹配的http流量23包含的服务器ip地址在应用服务器ip地址与应用协议名映射表中有记录时,将未匹配的http流量23包含的服务器ip地址和对应的协议名生成http服务器ip地址规则表达式,服务器ip地址分析器将http服务器ip地址规则表达式作为http流量规则指纹发送给流量规则指纹库22的http流量规则指纹集合221存储;当未匹配的http流量23包含的服务器ip地址在应用服务器ip地址与应用协议名映射表中没有记录时,通过浏览器模拟器拨测未匹配的http流量23包含的服务器ip地址,记录返回流量的协议名,将未匹配的http流量23包含的服务器ip地址与返回流量的协议名对应记录到应用服务器ip地址与应用协议名映射表中,并将未匹配的http流量23包含的服务器ip地址与返回流量的协议名生成http服务器ip地址规则表达式,服务器ip地址分析器34将http服务器ip地址规则表达式作为http流量规则指纹发送给流量规则指纹库22的http流量规则指纹集合221存储;
4)非http流量特征转换生成流量规则指纹
①非http流量记录器41接收未匹配的非http流量24并解析出IP、端口、报文长度、协议类型、内容;
②非http流量记录器41将未匹配的非http流量24并解析出IP、端口、报文长度、协议类型、内容发送给16进制特征转换器42;16进制特征转换器42将未匹配的非http流量24解析出的IP、端口、报文长度、协议类型、内容转换成非http流量特征指纹43;
③16进制特征转换器42将非http流量特征指纹43传送给非http流量规则指纹集合222存储。

Claims (1)

1.一种自动识别流量并提取应用规则的装置,其特征在于由流量分类模块、流量过滤模块、http流量自动学习分析模块、非http流量特征提取模块组成;流量分类模块由流量对比器和http流量特征表组成;流量过滤模块由流量过滤器、流量规则指纹库组成;http流量自动学习分析模块由流量类型判断模块、特征字符串匹配分析器、域名和网页title分析器、服务器ip地址分析器组成;非http流量特征提取模块由非http流量记录器和16进制特征转换器组成;
本发明的具体实现步骤包括:
1)网络应用流量的分类
①流量分类模块读取网络应用流量,根据http流量特征表由流量对比器将网络应用流量分成http流量和非http流量,并将http流量和非http流量发送给流量过滤器;
②http流量特征表包括三部分,分别是:http的标准头部特征,http的标准字段和http的独有属性;http的标准头部特征为http.request.method,其值包括:GET,POST,HEAD,PUT,DELETE,OPTIONS,CONNECT,TRACE,PATCH,MOVE,COPY,LINK,UNLINK,WRAPPED,Extension-mothed;http的标准字段是http请求时,流量的头部特征,包括:Referer:,rf:,Origin:,Content-Type:,User-Agent:,Host:,userToken:,Cookie:,Q-UA2:,Q-GUID:,QQ-S-ZIP:,Apn-Type:,Date:,Pragma:,Range:,Location:,Server:,Last-modified:,PostData;http的独有属性就是针对特殊应用独有的http的标准字段,例如:qyi-id是爱奇艺http流量独有的,qqread是腾讯阅读http流量独有的;
③流量对比器提取网络应用流量的IP、端口、报文长度、协议类型、内容,并将所提取的内容与http流量特征表比对,当网络应用流量的内容属于http流量特征表所记录的内容时,标记网络应用流量为http流量,流量对比器将http流量发送给流量过滤器;
④流量对比器提取网络应用流量的IP、端口、报文长度、协议类型、内容,并将所提取的内容与http流量特征表比对,当网络应用流量的内容不属于http流量特征表所记录的内容时,标记网络应用流量为非http流量,流量对比器将非http流量发送给流量过滤器;
2)网络应用流量的过滤
①流量过滤器接收http流量并提取http流量的内容与流量规则指纹库中的http流量规则指纹集合对比,当http流量的内容在http流量规则指纹集合中有记录时放弃http流量;当http流量的内容在http流量规则指纹库集合中没有记录时标记http流量为未匹配的http流量;流量过滤器将未匹配的http流量发送给流量类型判断模块;
②流量过滤器接收非http流量并提取非http流量的IP、端口、报文长度、协议类型、内容,流量过滤器使用16进制特征转换器将非http流量的IP、端口、报文长度、协议类型、内容转换成16进制的非http流量特征指纹;流量过滤器将非http流量特征指纹与流量规则指纹库中的非http流量规则指纹集合对比,当非http流量特征指纹在非http流量规则指纹集合中有记录时放弃非http流量;当非http流量特征指纹在非http流量规则指纹库集合中没有记录时标记非http流量为未匹配的非http流量;流量过滤器将未匹配的非http流量发送给非http流量记录器;
3)http流量自动学习生成 http流量规则指纹
①流量类型判断模块接收未匹配的http流量并解析未匹配的http流量,当未匹配的http流量中包含域名字符串,流量类型判断模块将未匹配的http流量发送给域名和网页title分析器;域名的自动化判断方法为:1.中文域名格式为: *.中国,*.公司,*.网络,*必须含中文,.必须是英文输入法下的点号;2.不超过20个字符,且只能包括字符、数字、和破折号,破折号不能在开始和结尾,不能有两个连续的破折号;3.英文域名以.cn结尾的纯英文域名,格式为:*.cn,*必须是英文;
②流量类型判断模块预设有app应用商店的软件包名录和规则特征字符串池以及服务器IP地址集;app应用商店的软件包名录来源于网络采集;规则特征字符串池中的规则特征字符串来源于网络监管方已知网络应用流量的特征;服务器IP地址集来源于网络监管方已知的服务器IP地址;
③流量类型判断模块接收未匹配的http流量并解析未匹配的http流量,当未匹配的http流量中包含有app应用商店的软件包名并且app应用商店的软件包名在app应用商店的软件包名录中有记录时,流量类型判断模块将未匹配的http流量发送给特征字符串匹配分析器;
④流量类型判断模块接收未匹配的http流量并解析未匹配的http流量,当未匹配的http流量中包含有规则特征字符串池中的规则特征字符串时,流量类型判断模块将未匹配的http流量发送给特征字符串匹配分析器;
⑤ 流量类型判断模块接收未匹配的http流量并解析未匹配的http流量,当未匹配的http流量中包含服务器IP地址集中的IP地址时,流量类型判断模块将未匹配的http流量发送给服务器IP地址分析器;
⑥域名和网页title分析器通过浏览器模拟访问未匹配的http流量中的域名,提取网页title记录为模拟访问的流量对应的协议名,域名和网页title分析器调用正则域名表达式模板,生成http域名正则表达式,并将未匹配的http流量中的域名及对应模拟访问记录的协议名生成的http域名正则表达式;域名和网页title分析器将http域名正则表达式作为http流量规则指纹发送给流量规则指纹库的http流量规则指纹集合存储;
⑦特征字符串匹配分析器将未匹配的http流量的特征字符串对应的协议名生成http的特征字符串正则表达式;特征字符串匹配分析器将未匹配的http流量的app应用商店的软件包名生成http的特征字符串正则表达式,app应用商店的软件包名当作协议名处理;特征字符串匹配分析器将http的特征字符串正则表达式作为http流量规则指纹发送给流量规则指纹库的http流量规则指纹集合存储;
⑧服务器ip地址分析器使用未匹配的http流量包含的服务器ip地址,在应用服务器ip地址与应用协议名映射表中查询对应的协议名,当未匹配的http流量包含的服务器ip地址在应用服务器ip地址与应用协议名映射表中有记录时,将未匹配的http流量包含的服务器ip地址和对应的协议名生成http服务器ip地址规则表达式,服务器ip地址分析器将http服务器ip地址规则表达式作为http流量规则指纹发送给流量规则指纹库的http流量规则指纹集合存储;当未匹配的http流量包含的服务器ip地址在应用服务器ip地址与应用协议名映射表中没有记录时,通过浏览器模拟器拨测未匹配的http流量包含的服务器ip地址,记录返回流量的协议名,将未匹配的http流量包含的服务器ip地址与返回流量的协议名对应记录到应用服务器ip地址与应用协议名映射表中,并将未匹配的http流量包含的服务器ip地址与返回流量的协议名生成http服务器ip地址规则表达式,服务器ip地址分析器将http服务器ip地址规则表达式作为http流量规则指纹发送给流量规则指纹库的http流量规则指纹集合存储;
4)非http流量特征转换生成流量规则指纹
①非http流量记录器接收未匹配的非http流量并解析出IP、端口、报文长度、协议类型、内容;
②非非http流量记录器将未匹配的非http流量并解析出IP、端口、报文长度、协议类型、内容发送给16进制特征转换器;16进制特征转换器将未匹配的非http流量解析出的IP、端口、报文长度、协议类型、内容转换成非http流量特征指纹;
③16进制特征转换器将非http流量特征指纹传送给非http流量规则指纹集合存储。
CN201811412144.2A 2018-11-25 2018-11-25 一种自动识别流量并提取应用规则的方法及装置 Active CN109600317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811412144.2A CN109600317B (zh) 2018-11-25 2018-11-25 一种自动识别流量并提取应用规则的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811412144.2A CN109600317B (zh) 2018-11-25 2018-11-25 一种自动识别流量并提取应用规则的方法及装置

Publications (2)

Publication Number Publication Date
CN109600317A true CN109600317A (zh) 2019-04-09
CN109600317B CN109600317B (zh) 2022-05-17

Family

ID=65958893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811412144.2A Active CN109600317B (zh) 2018-11-25 2018-11-25 一种自动识别流量并提取应用规则的方法及装置

Country Status (1)

Country Link
CN (1) CN109600317B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602041A (zh) * 2019-08-05 2019-12-20 中国人民解放军战略支援部队信息工程大学 基于白名单的物联网设备识别方法、装置及网络架构
CN111431771A (zh) * 2020-04-07 2020-07-17 江苏省互联网行业管理服务中心 一种抗噪音干扰的城域网数据核验装置
CN111581475A (zh) * 2020-04-13 2020-08-25 江苏省互联网行业管理服务中心 一种识别标识解析流量的***及方法
CN111585830A (zh) * 2020-03-25 2020-08-25 国网思极网安科技(北京)有限公司 一种用户行为分析方法、装置、设备及存储介质
CN111786971A (zh) * 2020-06-19 2020-10-16 杭州安恒信息技术股份有限公司 主机***攻击的防御方法、装置和计算机设备
CN112261645A (zh) * 2020-10-16 2021-01-22 北京锐驰信安技术有限公司 一种基于分组分域的移动应用指纹自动化提取方法及***
CN112307279A (zh) * 2020-10-29 2021-02-02 宜通世纪物联网研究院(广州)有限公司 一种dpi业务识别方法、装置、电子设备及存储介质
CN112532616A (zh) * 2020-11-26 2021-03-19 杭州迪普科技股份有限公司 网络应用的特征分析方法及装置
CN112866289A (zh) * 2021-03-02 2021-05-28 恒为科技(上海)股份有限公司 一种提取特征规则的方法及***
CN115412532A (zh) * 2022-08-15 2022-11-29 深圳市风云实业有限公司 一种sip及扩展协议会话控制流识别及处理的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101741744A (zh) * 2009-12-17 2010-06-16 东南大学 一种网络流量识别方法
US8102783B1 (en) * 2009-02-04 2012-01-24 Juniper Networks, Inc. Dynamic monitoring of network traffic
US20140157405A1 (en) * 2012-12-04 2014-06-05 Bill Joll Cyber Behavior Analysis and Detection Method, System and Architecture
CN103856370A (zh) * 2014-02-25 2014-06-11 中国科学院计算技术研究所 一种应用流量识别方法及其***
CN104468273A (zh) * 2014-12-12 2015-03-25 北京百度网讯科技有限公司 识别流量数据的应用类型的方法及***
CN106101015A (zh) * 2016-07-19 2016-11-09 广东药科大学 一种移动互联网流量类别标记方法和***
US20160337333A1 (en) * 2014-03-07 2016-11-17 Mitsubishi Electric Corporation Method and device for classifying tcp connection carrying http traffic

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8102783B1 (en) * 2009-02-04 2012-01-24 Juniper Networks, Inc. Dynamic monitoring of network traffic
CN101741744A (zh) * 2009-12-17 2010-06-16 东南大学 一种网络流量识别方法
US20140157405A1 (en) * 2012-12-04 2014-06-05 Bill Joll Cyber Behavior Analysis and Detection Method, System and Architecture
CN103856370A (zh) * 2014-02-25 2014-06-11 中国科学院计算技术研究所 一种应用流量识别方法及其***
US20160337333A1 (en) * 2014-03-07 2016-11-17 Mitsubishi Electric Corporation Method and device for classifying tcp connection carrying http traffic
CN104468273A (zh) * 2014-12-12 2015-03-25 北京百度网讯科技有限公司 识别流量数据的应用类型的方法及***
CN106101015A (zh) * 2016-07-19 2016-11-09 广东药科大学 一种移动互联网流量类别标记方法和***

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602041A (zh) * 2019-08-05 2019-12-20 中国人民解放军战略支援部队信息工程大学 基于白名单的物联网设备识别方法、装置及网络架构
CN111585830A (zh) * 2020-03-25 2020-08-25 国网思极网安科技(北京)有限公司 一种用户行为分析方法、装置、设备及存储介质
CN111431771A (zh) * 2020-04-07 2020-07-17 江苏省互联网行业管理服务中心 一种抗噪音干扰的城域网数据核验装置
CN111581475A (zh) * 2020-04-13 2020-08-25 江苏省互联网行业管理服务中心 一种识别标识解析流量的***及方法
CN111581475B (zh) * 2020-04-13 2022-06-28 江苏省互联网行业管理服务中心 一种识别标识解析流量的***及方法
CN111786971A (zh) * 2020-06-19 2020-10-16 杭州安恒信息技术股份有限公司 主机***攻击的防御方法、装置和计算机设备
CN112261645A (zh) * 2020-10-16 2021-01-22 北京锐驰信安技术有限公司 一种基于分组分域的移动应用指纹自动化提取方法及***
CN112307279A (zh) * 2020-10-29 2021-02-02 宜通世纪物联网研究院(广州)有限公司 一种dpi业务识别方法、装置、电子设备及存储介质
CN112532616A (zh) * 2020-11-26 2021-03-19 杭州迪普科技股份有限公司 网络应用的特征分析方法及装置
CN112866289A (zh) * 2021-03-02 2021-05-28 恒为科技(上海)股份有限公司 一种提取特征规则的方法及***
CN115412532A (zh) * 2022-08-15 2022-11-29 深圳市风云实业有限公司 一种sip及扩展协议会话控制流识别及处理的方法
CN115412532B (zh) * 2022-08-15 2023-07-21 深圳市风云实业有限公司 一种sip及扩展协议会话控制流识别及处理的方法

Also Published As

Publication number Publication date
CN109600317B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN109600317A (zh) 一种自动识别流量并提取应用规则的方法及装置
CN106330584B (zh) 一种业务流的识别方法及识别装置
CN105933268B (zh) 一种基于全量访问日志分析的网站后门检测方法及装置
CN105930363B (zh) 一种基于html5网页的用户行为分析方法及装置
CN110113345A (zh) 一种基于物联网流量的资产自动发现的方法
CN103384213B (zh) 一种检测规则优化配置方法及设备
CN111385297B (zh) 无线设备指纹识别方法、***、设备及可读存储介质
CN103067218B (zh) 一种高速网络数据包内容分析装置
CN105337753B (zh) 一种互联网真实质量监测方法及装置
CN102035698A (zh) 基于决策树分类算法的http隧道检测方法
CN107995226A (zh) 一种基于被动流量的设备指纹识别方法
CN109275045A (zh) 基于dfi的移动端加密视频广告流量识别方法
CN110661807A (zh) IPv6地址的自动化采集方法及装置
CN109344138A (zh) 一种日志解析方法及***
CN110011962A (zh) 一种车联网业务数据的识别方法
CN109450733A (zh) 一种基于机器学习的网络终端设备识别方法及***
CN107404398A (zh) 一种网络用户行为判别***
CN106535240A (zh) 基于云平台的移动app集中性能分析方法
CN111654486A (zh) 一种服务器设备判定识别方法
CN109309587A (zh) 一种日志采集方法及***
CN109660656A (zh) 一种智能终端应用程序识别方法
CN112449371A (zh) 一种无线路由器的性能评测方法及电子设备
CN106453689A (zh) 提取及校验url的方法
CN108650145A (zh) 一种家庭宽带WiFi下手机号码特征自动提取方法
CN109818782A (zh) 一种对服务器进行分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant