CN110602038B

CN110602038B - 一种基于规则的异常ua检测和分析的方法及***

Info

Publication number: CN110602038B
Application number: CN201910706278.3A
Authority: CN
Inventors: 苟高鹏; 熊刚; 陈洁; 李镇; 徐安林
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2020-12-04
Anticipated expiration: 2039-08-01
Also published as: CN110602038A

Abstract

本发明提供一种基于规则的异常UA检测和分析的方法及***，基于Spark网络流量捕获平台对网络流量进行捕获，根据HTTP格式将HTTP流量从所有网络流量中过滤出来，通过对HTTP流量进行UA字段的提取，可以有效针对网络流量中的异常UA进行检测和分析，从而便于网络管理和恶意软件检测。

Description

一种基于规则的异常UA检测和分析的方法及***

技术领域

本发明属于网络信息技术领域，具体涉及一种基于规则的异常UA(User Agent)检测和分析的方法及***。

背景技术

在网络流量中的关键字段在网络流量中起着至关重要的作用。Domain NameSystem(DNS)中的关键字段可用于解决域中的剩余信任以查看DNS解析的演变，以及检测网络中的恶意软件行为。同样，HyperText Transfer Protocol(HTTP)和Transport LayerSecurity/Secure Socket Layer(TLS/SSL)协议中的关键字段，如UA，cookie，server nameindication(SNI)，在网络行为分析和恶意行为检测中起着至关重要的作用。

由于HTTP每天产生的所有流量中占据了所有协议流量的将近一半，用户使用HTTP的频率很高且涉及到的用户使用HTTP数目很多，并且HTTP中的User Agent字段包含客户端的信息，包括客户端的操作***及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。因此，研究User Agent字段既可以被认为是研究了网络中流量关键字段含有异常字符的情况还可以从客户端的角度分析异常字符出现的原因，因为产生含有这些异常字符的客户端可能存在恶意行为。为了研究这种在网络流量中各种协议的关键字段存在异常字符的现象，对HTTP协议的User Agent字段作为数据进行检测和分析。由于UA可以包含客户端的信息，UA也会被用于识别恶意软件，同时通过统计客户端的操作***，浏览器以及设备的信息可以显现客户端的偏好。

在高速网络环境下，对网络协议实现深度解析，提取关键字段内容是对网络测绘，流量属性标注的首要前提，然而，由于网络协议的复杂性，现有的解析工具对高速网络环境下的协议解析经常出现关键字段存在异常字符的情况，这些关键字段中的异常字符对实现网络流量的有效测绘与标注引入了污染的错误信息。

对于关键字段出现异常字符的情况，在以往对UA的相关研究中中通常会被忽视，不直接对这些关键字段进行处理。由于对这些UA也在一定程度生反应出客户端的行为和客户端有着紧密的联系，这些UA是不应该被忽略的，它们也表现了在网络流量中UA的生态***。

发明内容

本发明的目的在于提供一种基于规则的异常UA检测和分析的方法及***，通过对网络中的HTTP流量进行UA字段的提取，可以有效针对网络流量中的异常UA进行检测和分析，从而便于网络管理和恶意软件检测。

为实现上述目的，本发明采用如下技术方案：

一种基于规则的异常UA检测和分析的方法，包括以下步骤：

基于Spark网络流量捕获平台对网络流量进行捕获；

对捕获到的流量进行协议解析，根据HTTP格式将HTTP流量从所有网络流量中过滤出来，提取出UA字段和客户端的IP信息并存储为日志；

通过正则表达式对提取出的UA进行异常检测，判断UA是否存在异常字符，若存在异常字符，则判定为异常UA；

根据检测出的异常UA，对日志中的数据计算异常UA和正常UA的相似度，保存与异常UA的相似度大于0的正常UA；

对含有异常UA数目最多的前若干个客户端进行分析，找出出现异常字符的原因；

对保存的正常UA进行自定义类别并按照自定义类型进行分类，将不符合自定义类别的正常UA重新判定为异常UA，并对含有该异常UA的客户端所使用的设备类型和浏览器类型进行偏好分析，检测出恶意客户端。

进一步地，UA字段和客户端的IP信息以<client ID，UA>的格式形成日志。

进一步地，使用Levenshtein距离对日志中的数据计算异常UA和正常UA的相似度。

进一步地，所述若干个客户端的指含有的异常UA总数占所有异常UA总数的80％的客户端。

进一步地，对异常UA进行单独存储，并统计数量。

进一步地，出现异常字符的原因包括：恶意软件自身产生异常UA，UA的编码和解码方式不同产生异常UA。

一种基于规则的异常UA检测和分析的***，包括：

Spark网络流量捕获平台，用于捕获网络流量；

过滤器，用于对捕获到的流量进行协议解析，提取出UA字段和客户端的IP信息并存储为日志，通过正则表达式对提取出的UA进行异常检测，检测出含有异常字符的异常UA和与异常UA的相似度大于0正常UA；

分析器，用于对含有异常UA数目最多的前若干个客户端进行分析，找出出现异常字符的原因；以及对保存的正常UA进行自定义类别并按照自定义类型进行分类，将不符合自定义类别的正常UA重新判定为异常UA，并对含有该异常UA的客户端所使用的设备类型和浏览器类型进行偏好分析，检测出恶意客户端。

进一步地，过滤器包括HTTP提取器、UA提取器和IP提取器，HTTP提取器用于根据HTTP格式将HTTP流量从所有网络流量中过滤出来，UA提取器用于从HTTP流量中提取出UA字段，IP提取器用于从HTTP流量中提取出客户端的IP信息。

本发明方法旨在关注通常被忽略的含有异常字符的UA，使用基于规则的方法(即正则表达式)，对网络流量中所有的UA过滤出含有异常字符的UA和对这些UA的数量进行统计，并且从这些UA中分析出恶意的客户端。本方法实现高速网络流量进行被动测量，使用基于Spark的高速网络流量捕获平台捕获网络流量，并且对HTTP进行了识别和深度解析，提取出了其中的UA字段。研究了通常被忽略的异常UA的检测方法以及它们出现的原因，使用了基于规则的方法，即正则表达式对UA字段进行异常UA检测，使用正则表达式成功区分含有异常字符的UA和正常的UA。通过使用Levenshtein距离计算每个异常UA和其他正常UA的相似度，并且将于这些异常UA的相似度大于0的正常UA保存起来以便分析。从编码和恶意用户的角度揭示了网络流量中产生异常字符的原因。

本发明方法具有以下优点：

(1)关注细节，测量分析在网络流量中含有异常字符的UA。

(2)使用基于规则的正则表达式从所有的UA字段中检测出了含有异常字符的UA，从耗费的时间上来看会快于基于统计的方法。并且正常UA具有固定的格式和字符，使用正确规则的方法不会出现误判的情况产生。

(3)对含有异常字符数目最多的前若干个(例如前20个)的客户端进行分析，避免偶然因素造成的UA含有异常字符干扰分析结果，从客户端的角度分析异常UA产生的原因。

(4)不仅对异常UA进行分析，同时还对使用Levenshtein距离计算与这些异常UA的相似度大于0的正常UA进行分析，形式上正常的UA在含义上可能是异常的，本方法中不仅检测出形式上异常的UA还可以检测出含义上异常的UA，展现了异常UA在网络流量中的“生态***”。

附图说明

图1是一种基于规则的异常UA检测和分析的方法流程图。

图2是一种基于规则的异常UA检测和分析的***框架图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文结合附图，对本发明公开的一种基于规则的异常UA检测和分析的方法进行详细说明，如图1所示流程图，包括以下步骤：

一、检测阶段：

(1)网络流量捕获：使用基于Spark的高速网络流量捕获平台，对高速流量进行捕获，并且等待处理。

(2)网络流量过滤和关键字段提取：将上述捕获到的流量进行协议解析，根据HTTP格式将HTTP流量从所有网络流量中过滤出来，并且按照HTTP的格式提取出UA字段和客户端的IP信息，以<client ID，UA>的格式形成日志存储起来。

(3)异常UA检测：通过正则表达式对提取出的UA进行检测，判断是否存在异常字符，若UA不符合所制定的规则，则判定为存在异常字符，对其进行单独存储起来，并且同时统计他们的数量。

(4)正常UA提取：根据检测出的异常UA，使用Levenshtein距离在收集的日志中的数据计算异常UA和正常UA的相似度，并且保存与这些异常UA的相似度大于0的正常UA。

二、分析阶段：

(1)异常UA分析：为了防止网络中的偶然因素造成的UA中出现异常字符的情况，选择含有异常UA数目在所有客户端中为前20的客户端进行出现异常字符的原因分析，这20个客户端含有的异常UA总数占所有异常UA总数的80％左右。通过对过滤出的异常UA的分析，发现这些UA出现的原因有两个，其中主要是由于恶意软件自身产生的异常UA，因为这种客户端产生了大量相同的异常UA，同时UA的编码和解码方式不同也是造成异常UA的原因之一。可以通过这些异常UA检测和追踪这些恶意软件的恶意行为，有利于维护网络安全，并且展示了异常UA的生态***可以通过这些异常UA检测和追踪这些恶意软件的恶意行为，有利于维护网络安全，并且展示了异常UA的生态***。

(2)正常UA分析：由于这些客户端产生了很多的异常UA，这些客户端的正常UA从UA的使用意义来说也一定是正常的，对这些正常的UA自定义类别和分类，并且从客户端使用设备类型和浏览器进行了分析。

上述方法通过一种基于规则的异常UA检测和分析的***实现，如图1和图2所示，具体包括以下几个部分：

Spark网络流量捕获平台，用于捕获网络流量；

过滤器，用于对捕获到的流量进行协议解析，提取出UA字段和客户端的IP信息并存储为日志，通过正则表达式对提取出的UA进行异常检测，检测出含有异常字符的异常UA和与异常UA的相似度大于0正常UA；具体地，过滤器包括HTTP提取器、UA提取器和IP提取器，HTTP提取器用于根据HTTP格式将HTTP流量从所有网络流量中过滤出来，UA提取器用于从HTTP流量中提取出UA字段，IP提取器用于从HTTP流量中提取出客户端的IP信息。

以下特举一实施例，对本发明方法做进一步说明：

如图2所示，使用流量捕获平台捕获了2个月的流量，一共收集了超过1500亿的UA，其中有近2200万的UA含有异常字符，这些异常UA与正常UA的比例约为0.1485‰，其中含有异常字符的客户端的数目大约有91000个，它们分布在世界各地。

选择含有异常UA的数目为所有客户端的前20的客户端查找原因，避免偶然因素给分析带来干扰。从中找到了两个原因导致异常UA，其中一个原因是UA的解码和编码方法不匹配，另一个原因是用户/应用程序本身产生了这些异常UA，这些恶意用户更容易生成异常UA来进行恶意活动，并且它们的格式不同于正常UA的格式。

最后对过滤出的正常UA进行自定义类别，并且按照自定义类别使用正则表达式对正常UA进行分类，发现了3种含义上异常(即不符合上述自定义类别)的UA的类型，展现了异常UA的生态***。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于规则的异常UA检测和分析的方法，包括以下步骤：

基于Spark网络流量捕获平台对网络流量进行捕获；

2.如权利要求1所述的方法，其特征在于，UA字段和客户端的IP信息以<client ID，UA>的格式形成日志。

3.如权利要求1所述的方法，其特征在于，使用Levenshtein距离对日志中的数据计算异常UA和正常UA的相似度。

4.如权利要求1所述的方法，其特征在于，所述若干个客户端的指含有的异常UA总数占所有异常UA总数的80％的客户端。

5.如权利要求1所述的方法，其特征在于，对异常UA进行单独存储，并统计数量。

6.如权利要求1所述的方法，其特征在于，出现异常字符的原因包括：恶意软件自身产生异常UA，UA的编码和解码方式不同产生异常UA。

7.一种基于规则的异常UA检测和分析的***，包括：

Spark网络流量捕获平台，用于捕获网络流量；

过滤器，用于对捕获到的流量进行协议解析，提取出UA字段和客户端的IP信息并存储为日志，通过正则表达式对提取出的UA进行异常检测，检测出含有异常字符的异常UA，计算所述异常UA与正常UA的相似度，保存与所述异常UA的相似度大于0的正常UA；

8.如权利要求7所述的***，其特征在于，过滤器包括HTTP提取器、UA提取器和IP提取器，HTTP提取器用于根据HTTP格式将HTTP流量从所有网络流量中过滤出来，UA提取器用于从HTTP流量中提取出UA字段，IP提取器用于从HTTP流量中提取出客户端的IP信息。

9.如权利要求8所述的***，其特征在于，UA字段和客户端的IP信息以<client ID，UA>的格式形成日志。

10.如权利要求7所述的***，其特征在于，所述若干个客户端的指含有的异常UA总数占所有异常UA总数的80％的客户端。