CN106941459A - 非对称路由环境中http下行流量的处理方法及*** - Google Patents

非对称路由环境中http下行流量的处理方法及*** Download PDF

Info

Publication number
CN106941459A
CN106941459A CN201710302023.1A CN201710302023A CN106941459A CN 106941459 A CN106941459 A CN 106941459A CN 201710302023 A CN201710302023 A CN 201710302023A CN 106941459 A CN106941459 A CN 106941459A
Authority
CN
China
Prior art keywords
port
http
application
analysis
reptile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710302023.1A
Other languages
English (en)
Inventor
夏祖转
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Greenet Information Service Co Ltd
Original Assignee
Wuhan Greenet Information Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Greenet Information Service Co Ltd filed Critical Wuhan Greenet Information Service Co Ltd
Priority to CN201710302023.1A priority Critical patent/CN106941459A/zh
Publication of CN106941459A publication Critical patent/CN106941459A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/19Flow control; Congestion control at layers above the network layer
    • H04L47/196Integration of transport layer protocols, e.g. TCP and UDP
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/20Traffic policing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出了一种分析因非对称路由环境http下行流量的方法,具体步骤如下:分析不能识别的http单向流量,提取未知的服务器端IP地址和端口号;反馈这些IP地址及端口号到爬虫模块;使用爬虫对提取的IP和端口进行爬取;判断是否爬取到页面;对这些http页面进行分析;判断能否识别;人工分析;将该IP及端口作为该应用特征更新至规则库中。将爬虫技术引用到协议识别分析中,解决了在非对称环境下只有HTTP下行流量而没有HTTP上行流量的问题,通过爬取网站对应的首页获取了网站的标题、公司属性、版本保护等和网站具体业务强相关的信息,有利于现网设备在非对称环境下流量的识别问题。

Description

非对称路由环境中HTTP下行流量的处理方法及***
技术领域
本发明涉及网络业务识别技术领域,具体涉及一种非对称路由环境下单边HTTP下行流量的分析。
背景技术
DPI(Deep Packet Investigate)深度包检测技术,是一种基于应用层的流量检测技术,当数据流通过基于DPI技术的网络***时,该***通过深入读取数据包载荷的内容来对OSI七层协议中的应用层信息进行分析,从而可以识别出用户的访问行为、访问的数据等。
理想情况下(对称路由),用户发送的请求报文和服务器返回给用户的响应报文会走相同的网络路径,也就是说,DPI设备可以同时捕获到用户的上下行流量,获取到完整的报文。这种情况下,非常有利于分析人员及DPI设备去识别出用户的访问行为。
随着DPI设备部署的环境越来越复杂,发现非对称环境下(用户请求的报文和服务器响应的报文只有一边流经DPI设备)的流量越来越越多,而只有单边流量会急剧降低DPI设备的分析能力。
HTTP(HyperText Transport Protocol)是超文本传输协议的缩写,它用于传送WWW方式的数据,关于HTTP协议的详细内容请参考RFC2616。HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求,请求头包含请求的方法、URL、协议版本、以及包含请求修饰符、客户信息和内容的类似于MIME的消息结构。服务器以一个状态行作为响应,响应的内容包括消息协议的版本,成功或者错误编码加上包含服务器信息、实体元信息以及可能的实体内容。
本方法就是针对这种因非对称路由环境而产生的单向下行的HTTP流量,于只有下行流量,获取不到用户访问的URI信息。虽然我们不知道用户具体访问了那个页面,但我们可以获取到服务器对应的IP地址和端口。而通过HTTP协议访问这个IP地址和端口:即为访问这个网站的首页,一般网站在其首页都会有明显的版权保护及视觉标识自己的网站,通过分析这些内容,很容易确定这个网站的具体分类信息,从而提高DPI设备的分析能力。
发明内容
本发明提供了一种分析因非对称路由环境而产生的单边下行Http流量的方法和***,以解决现有技术中DPI设备分析能力低的问题。
为解决上述问题,本发明的一种分析因非对称路由环境而产生的单边上行未知流量的方法,其特征在于包括以下步骤:
步骤101,从不能识别的单向未知流量中提取未知的服务器端IP地址及对应端口号,
步骤102,反馈这些IP地址及端口号到爬虫模块,
步骤103,使用爬虫对提取的IP和端口进行爬取,
步骤104,判断爬虫是否爬取到页面,如果是,进入步骤105;否则,由于爬取不到页面,无法确定该IP及端口属于那个应用的服务器的IP和端口,
步骤105,使用现有的协议库及引擎,对这些http页面进行分析识别,
步骤106,判断能否识别,即判断http页面能否识别为某个应用,如果可以,则直接进入步骤108;否则,进入步骤107,
步骤107,在http页面不能识别为某个应用时,需要协议分析人员对爬取的http页面进行分析,以确定该页面所属应用,
步骤108,在确定http页面所属应用后,将该IP、端口、协议作为该应用特征更新至规则库中。
优选的,所述步骤107中不能识别某个应用的情形包括规则库没有覆盖到该应用,或者虽然覆盖到了该应用,但规则有遗漏。
优选的,所述步骤107中的分析包括将分析出的规则特征也需更新到规则库中。
优选的,所述协议包括tcp/udp协议。
此外,本发明还提供了一种因非对称路由环境而产生的单边上行未知流量的***,其特征在于包括:
信息提取模块,从不能识别的单向未知流量中提取未知的服务器端IP地址及对应端口号,
信息反馈模块,反馈这些IP地址及端口号到爬虫模块,
爬虫模块,使用爬虫对提取的IP和端口进行爬取,
页面判断模块,判断爬虫是否爬取到页面,如果是,则由分析识别模块使用现有的协议库及引擎,对这些http页面进行分析识别;否则,由于爬取不到页面,无法确定该IP及端口属于那个应用的服务器的IP和端口,
应用判断模块,判断能否分析识别这些页面,即判断http页面能否识别为某个应用,如果可以,则由特征更新模块将该IP、端口、协议作为该应用特征更新至规则库中,否则在http页面不能识别为某个应用时,需要协议分析人员对爬取的http页面进行分析,以确定该页面所属应用,
优选的,应用判断模块不能识别某个应用的情形包括规则库没有覆盖到该应用,或者虽然覆盖到了该应用,但规则有遗漏。
优选的,分析包括将分析出的规则特征也需更新到规则库中。
优选的,所述协议包括tcp/udp协议。
当本发明通过提出了出了一种分析因非对称路由环境而产生的单向未知流量的方法和***,,将爬虫技术引用到协议识别分析中,解决了在非对称环境下只有HTTP下行流量而没有HTTP上行流量的问题,通过爬取网站对应的首页获取了网站的标题、公司属性、版本保护等和网站具体业务强相关的信息,有利于现网设备在非对称环境下流量的识别问题。
附图说明
图1示出了本发明的逻辑框图
图2、3示出了本发明识别到的与网站业务相关的相关信息
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
请参考图1,本发明提供了分析因非对称路由环境而产生的单边上行未知流量的方法,具体步骤如下:分析不能识别的http单向流量,提取未知的服务器端IP地址和端口号;反馈这些IP地址及端口号到爬虫模块;使用爬虫对提取的IP和端口进行爬取;判断是否爬取到页面;对这些http页面进行分析;判断能否识别;人工分析;将该IP及端口作为该应用特征更新至规则库中,具体包括:
步骤101,从不能识别的单向未知流量中提取未知的服务器端IP地址及对应端口号,
步骤102,反馈这些IP地址及端口号到爬虫模块,
步骤103,使用爬虫对提取的IP和端口进行爬取,
步骤104,判断爬虫是否爬取到页面,如果是,进入步骤105;否则,由于爬取不到页面,无法确定该IP及端口属于那个应用的服务器的IP和端口,
步骤105,使用现有的协议库及引擎,对这些http页面进行分析识别,
步骤106,判断能否识别,即判断http页面能否识别为某个应用,如果可以,则直接进入步骤108;否则,进入步骤107,
步骤107,在http页面不能识别为某个应用时,需要协议分析人员对爬取的http页面进行分析,以确定该页面所属应用,这种情况通常是协议规则库不支持该应用或规则覆盖不全导致的,因此协议分析人员分析出的规则特征也需更新到规则库中。
步骤108,在确定http页面所属应用后,将该IP、端口、协议(tcp/udp)作为该应用特征更新至规则库中。
如图2所示,只知道<61.183.0.66,80,tcp>这3个信息时(61.183.0.66是服务器IP地址,http采用tcp协议,默认端口是80),通过访问这个地址,就可以得到上图所示的和网站业务相关的标题、公司视觉标识。
如图3所示,通过获得的是版本保护内容相关信息,也可以很方便分析出网站对应的业务。
此外,相应的,本发明还提供了一种分析因非对称路由环境而产生的单边下行未知流量的***。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种分析因非对称路由环境而产生的单边上行未知流量的方法,其特征在于包括以下步骤:
步骤101,从不能识别的单向未知流量中提取未知的服务器端IP地址及对应端口号,
步骤102,反馈这些IP地址及端口号到爬虫模块,
步骤103,使用爬虫对提取的IP和端口进行爬取,
步骤104,判断爬虫是否爬取到页面,如果是,进入步骤105;否则,由于爬取不到页面,无法确定该IP及端口属于那个应用的服务器的IP和端口,
步骤105,使用现有的协议库及引擎,对这些http页面进行分析识别,
步骤106,判断能否识别,即判断http页面能否识别为某个应用,如果可以,则直接进入步骤108;否则,进入步骤107,
步骤107,在http页面不能识别为某个应用时,需要协议分析人员对爬取的http页面进行分析,以确定该页面所属应用,
步骤108,在确定http页面所属应用后,将该IP、端口、协议作为该应用特征更新至规则库中。
2.根据权利要求1所述的方法,其特征在于,所述步骤107中不能识别某个应用的情形包括规则库没有覆盖到该应用,或者虽然覆盖到了该应用,但规则有遗漏。
3.根据权利要求2所述的方法,其特征在于,所述步骤107中的分析包括将分析出的规则特征也需更新到规则库中。
4.根据权利要求1或2或3所述的方法,所述协议包括tcp/udp协议。
5.一种因非对称路由环境而产生的单边上行未知流量的***,其特征在于包括:
信息提取模块,从不能识别的单向未知流量中提取未知的服务器端IP地址及对应端口号,
信息反馈模块,反馈这些IP地址及端口号到爬虫模块,
爬虫模块,使用爬虫对提取的IP和端口进行爬取,
页面判断模块,判断爬虫是否爬取到页面,如果是,则由分析识别模块使用现有的协议库及引擎,对这些http页面进行分析识别;否则,由于爬取不到页面,无法确定该IP及端口属于那个应用的服务器的IP和端口,
应用判断模块,判断能否分析识别这些页面,即判断http页面能否识别为某个应用,如果可以,则由特征更新模块将该IP、端口、协议作为该应用特征更新至规则库中,否则在http页面不能识别为某个应用时,需要协议分析人员对爬取的http页面进行分析,以确定该页面所属应用。
6.根据权利要求5所述的***,其特征在于,应用判断模块中不能识别某个应用的情形包括规则库没有覆盖到该应用,或者虽然覆盖到了该应用,但规则有遗漏。
7.根据权利要求6所述的***,其特征在于,应用判断模块中的分析包括将分析出的规则特征也需更新到规则库中。
8.根据权利要求5或6或7所述的***,所述协议包括tcp/udp协议。
CN201710302023.1A 2017-05-02 2017-05-02 非对称路由环境中http下行流量的处理方法及*** Pending CN106941459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710302023.1A CN106941459A (zh) 2017-05-02 2017-05-02 非对称路由环境中http下行流量的处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710302023.1A CN106941459A (zh) 2017-05-02 2017-05-02 非对称路由环境中http下行流量的处理方法及***

Publications (1)

Publication Number Publication Date
CN106941459A true CN106941459A (zh) 2017-07-11

Family

ID=59464452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710302023.1A Pending CN106941459A (zh) 2017-05-02 2017-05-02 非对称路由环境中http下行流量的处理方法及***

Country Status (1)

Country Link
CN (1) CN106941459A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107948266A (zh) * 2017-11-17 2018-04-20 武汉绿色网络信息服务有限责任公司 非对称路由环境中http上行流量的处理方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080175243A1 (en) * 2007-01-19 2008-07-24 International Business Machines Corporation System and method for crawl policy management utilizing ip address and ip address range
CN102137022A (zh) * 2011-04-01 2011-07-27 华为技术有限公司 提供用于识别数据包的信息的方法、爬虫引擎及网络***
CN104022920A (zh) * 2014-06-26 2014-09-03 重庆重邮汇测通信技术有限公司 一种lte网络流量识别***及方法
CN104125121A (zh) * 2014-08-15 2014-10-29 携程计算机技术(上海)有限公司 网络劫持行为的检测***及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080175243A1 (en) * 2007-01-19 2008-07-24 International Business Machines Corporation System and method for crawl policy management utilizing ip address and ip address range
CN102137022A (zh) * 2011-04-01 2011-07-27 华为技术有限公司 提供用于识别数据包的信息的方法、爬虫引擎及网络***
CN104022920A (zh) * 2014-06-26 2014-09-03 重庆重邮汇测通信技术有限公司 一种lte网络流量识别***及方法
CN104125121A (zh) * 2014-08-15 2014-10-29 携程计算机技术(上海)有限公司 网络劫持行为的检测***及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107948266A (zh) * 2017-11-17 2018-04-20 武汉绿色网络信息服务有限责任公司 非对称路由环境中http上行流量的处理方法及***

Similar Documents

Publication Publication Date Title
CN103825887B (zh) 基于https加密的网站过滤方法和***
CN109951500A (zh) 网络攻击检测方法及装置
CN103179132A (zh) 一种检测和防御cc攻击的方法及装置
CN108768921B (zh) 一种基于特征检测的恶意网页发现方法及***
US20140189498A1 (en) System and method for enhanced interaction between an iframe or a web page and an embedded iframe from a different domain
CN103218431B (zh) 一种能识别网页信息自动采集的***
CN105357195A (zh) web访问的越权漏洞检测方法及装置
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN102724317A (zh) 一种网络数据流量分类方法和装置
JP2006120130A (ja) アクセスログの管理システム及び管理方法
CN102073960A (zh) 一种网站营销过程中运行效果的评估方法
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN106446113A (zh) 移动大数据解析方法及装置
CN106789242A (zh) 一种基于手机客户端软件动态特征库的识别应用智能分析引擎
CN108462615A (zh) 一种网络用户分组方法和装置
CN108289093A (zh) App应用特征码库的构建方法及构建***
CN102984003A (zh) 网络接入检测***和网络接入检测方法
CN107590265A (zh) 一种基于网络爬虫的网站行政归属识别方法
CN104679747A (zh) 一种网址重定向的检测装置及方法
CN108965011A (zh) 一种基于智能网关深度报文分析***和分析方法
US10225358B2 (en) Page push method, device, server and system
CN106941459A (zh) 非对称路由环境中http下行流量的处理方法及***
US11394687B2 (en) Fully qualified domain name (FQDN) determination
CN102073678A (zh) 一种网站信息分析***及其方法
CN107948266A (zh) 非对称路由环境中http上行流量的处理方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170711