CN103559235A

CN103559235A - 一种在线社交网络恶意网页检测识别方法

Info

Publication number: CN103559235A
Application number: CN201310507897.2A
Authority: CN
Inventors: 李沁蕾; 王蕊; 贾晓启; 张道娟
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2013-10-24
Filing date: 2013-10-24
Publication date: 2014-02-05
Anticipated expiration: 2033-10-24
Also published as: CN103559235B

Abstract

本发明涉及一种在线社交网络恶意网页检测识别方法，步骤为：1）对在线社交网络中任意一个待检测识别的网页，统计该网页中所有关键字的出现频率；根据网页中源代码将网页分成：HTML标签集合或JavaScript集合或URL集合中一种或者多种不同类型的集合；2）从上述不为空的集合中提取辨别混淆性质得到网页的关联性特征；3）创建关联信息数据库并实时更新数据库中的网页的关联性特征，根据关联性特征提取得到网页传播速度；4）根据页传播速度，并结合统计得到的上述特征检测识别出恶意网页。本发明不但具有很好的普适性能够较准确的描述在线社交网络恶意网页的特征，而且对恶意网页的检测识别更加准确、效率更高、分析成本更低。

Description

一种在线社交网络恶意网页检测识别方法

技术领域

本发明属于网络安全技术领域，涉及一种在线社交网络恶意网页识别方法，特别涉及基于恶意网页特征提取的在线社交网络恶意网页识别方法。

背景技术

随着在线社交网络（Online Social Network，OSN）的蓬勃发展，各大在线社交网络平台已拥有巨大的用户量，再加上其隐藏的用户私密信息和潜在的经济利益，使其成为了越来越多网络黑客们的焦点。在针对在线社交网络的攻击中，跨站脚本攻击（Cross-site Scripting，XSS）是一种常见的具有破坏力的攻击方式之一，利用跨站脚本漏洞产生的网络蠕虫，可以在短时间内感染大量的网络用户，甚至影响到服务器的正常运行。因此，提取有效的网页特征以提高对在线社交网络恶意网页的识别是当前亟待解决的问题。

现有的在线社交网络恶意网页分析大多采用复杂的静态分析方法。通常，在网页的源码中包含了HTML、CSS、URI、JavaScript等元素，网页中恶意的HTML、CSS、URI、JavaScript可能导致网页在浏览器端加载的时候产生恶意的行为，例如窃取cookie、打开钓鱼网站等。在线社交网络中，用户可以从网页的文本框中自由的输入一定长度的内容，包括HTML、CSS、URI、JavaScript等代码，为了避免用户输入内容中可能包含的恶意代码，在对输入框中的内容提交时，需要对其进行静态分析，可以分别从HTML、CSS、URI、JavaScript的角度，利用形式化的方法分析判断这些元素结构和内容是否可能产生恶意行为。

在恶意网页中，基于XSS漏洞的恶意代码是最常见的一种网页恶意代码，针对这种类型的恶意代码已经有了许多成熟的分析手段。在非在线社交网络（如：门户网站、论坛网站等）的网页分析过程中，从混淆代码的角度切入，提取网页中混淆代码的特征，判断网页是否存在可疑的恶意代码。提取的特征主要包括：关键字、JavaScript特征（包括长度、字符个数等）、URL特征等。

在已有的一系列在线社交网络恶意网页分析检测识别方法中，静态分析方法大多需要复杂的分析步骤，处理时间长，时效性不高，与动态分析方法相比，静态分析方法本应具有的低时间消耗并未得到完全的提现，而复杂的分析和计算过程导致的网页请求延迟也会对网络应用带来负面影响。因此，针对在线社交网络恶意网页，提出一种简单而有效的特征提取方法，减低分析成本，是目前亟需研究解决的问题。

发明内容

针对在线社交网络恶意网页检测识别的问题，本发明的目的在于提出一种基于在线社交网络恶意网页特征提取的在线社交网络恶意网页检测识别方法。在对在线社交网络的网页进行分析之后，从以下恶意网页特征进行分析：关键字、JavaScript、HTML、URL及在线社交网络自身特性的角度提取具有量化性质的特征，利用提取的该些恶意网页特征对在线社交网络中的带有XSS漏洞的恶意代码的恶意网页进行识别。

本发明的技术方案如下：一种在线社交网络恶意网页检测识别方法，其步骤包括：

1）对在线社交网络中任意一个待检测识别的网页，统计该网页中所有关键字的出现频率；根据所述网页中源代码将网页分成：HTML标签集合或JavaScript集合或URL集合中一种或者多种不同类型的集合；

2）从上述不为空的集合中提取辨别混淆性质的网页静态特征得到可疑字段，结合所述可疑字段出现的时间得到网页的关联性特征；

3）创建关联信息数据库用于储存该网页的关联性特征并实时更新数据库中的网页的关联性特征，根据所述关联性特征提取得到网页传播速度；

4）根据所述页传播速度，并结合统计得到的关键字的出现频率、检测得到的可疑的JavaScript脚本、可疑的HTML标签、可疑的URL中一种或者多种特征检测识别出恶意网页。

更进一步，从网页中源代码取出符合HTML标签的代码段收集成HTML标签集合，所述HTML标签由开始标签和/或结束标签组成，所述开始标签是被括号包围的元素名，结束标签是被括号包围的斜杆和元素名。

更进一步，网页中源代码的JavaScript脚本出现在的位置为：<script></script>标签之间或者在“javascript:”后；根据所述脚本出现位置取出JavaScript脚本，收集成集合。

更进一步，从网页中源代码取出查找以HTTP、HTTPS、FTP协议名称为开头的一段有效字符串分离提取出URL后得到URL集合。

更进一步，对所述HTML标签集合提取辨别混淆性质的网页静态特征方法如下：

统计HTML标签集合中所有标签的信息，提取集合中标签的最大长度、长标签的个数，以及标签中所含JavaScript字符串的比例，作为HTML标签混淆程度的计量。

更进一步，对所述JavaScript集合提取辨别混淆性质的网页静态特征方法如下：

统计JavaScript集合中所有脚本的信息，提取集合中脚本字符串的最大长度、脚本字符串中被编码字符的比例以及集合中出现字符串连接的次数，作为JavaScript脚本混淆程度的计量。

更进一步，对所述URL集合提取辨别混淆性质的网页静态特征方法如下：

统计集合中所有URL的信息，提取集合中URL的最大长度、长URL的个数，以及URL中编码字符的比例，作为URL混淆程度的计量。

更进一步，所述关键字是有在良性脚本和恶意脚本中出现的频率存在着差异性的JavaScript函数或者HTML标签，包括：eval,document.write，unescape,fromCharCode,createElement,createTextNode。

更进一步，所述传播速度为：单位时间内可疑恶意代码出现在网页中的频率，计算可疑字符串在网页中传播速度的步骤如下：

1）在关联信息数据库中统计网页的<可疑字段出现的时间，可疑字符串内容>记录；

2）通过查询数据库中字符串内容相同，且时间在t以前一小时内的所有记录的个数，统计每一条记录中字符串内容的传播速度；

3）记录所有传播速度中的最大值，将其作为网页的传播速度。

本发明的有益效果：

1.本发明提取一组在线社交网络恶意网页特征，具有很好的普适性。

2.本发明基于网页结构特点，对网页进行预处理，从网页元素类型角度，提取网页特征，同时建立网页间的关联信息数据库。

3.本发明充分考虑到了在线社交网络中恶意代码的传播特点，基于传播特点提取一组对在线社交网络具有针对性的特征。

综上，本发明提出的在线社交网络恶意网页检测识别方法，能够较准确的描述在线社交网络恶意网页的特征，对恶意网页的检测识别更加准确、效率更高、分析成本更低。

附图说明

图1为在线社交网络恶意网页检测识别方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实现本发明的一种具体实施方式如下，在线社交网络恶意网页检测识别方法，其步骤为：

1)对在线社交网络中任意一个待检测识别的网页，统计该网页中所有给定关键字的出现频率；

2)解析网页结构根据网页源代码将网页分成不同类型的集合，将网页源码分解成HTML集合、JavaScript集合、URL集合；

3)从HTML集合、JavaScript集合、URL集合中提取辨别混淆性质的网页静态特征即可疑字段，结合可疑字段出现的时间得到网页的关联性特征；

4)储存该网页的关联性特征，更新关联信息数据库，以更新最新的关联性特征；根据记录在线社交网络网页关联性特征的数据库信息，提取网页的关联性特征；

5)根据关联性信息提取得到网页传播速度，并结合给定关键字、可疑JavaScript、可疑HTML、可疑URL，共五个特征，得到网页的特征向量；

6)根据特征向量检测识别出恶意网页。

在本发明的一实施例中，关键字是指有一些JavaScript函数或者HTML标签，它们在良性脚本和恶意脚本中出现的频率存在着差异性。这样的一些关键字，它们在良性网页中出现次数较少而在恶意网页中出现的频率较高，我们认为这些字段可以成为网页中的关键字，从而可以利用网页中关键字出现的频率判断网页是否是恶意的。

在本发明的一实施例中，根据解析网页的结构得到网页的组成元素，我们对网页进行预处理，处理的目标是将网页分成不同类型的集合。由于我们提取的特征均来自于HTML标签、JavaScript脚本、URL，因此，在对网页进行预处理时，将网页的源码分成了HTML标签集合、JavaScript脚本集合以及URL集合，在接下来的步骤中，我们只需要分别对这三个集合提取相关的信息即可，避免了每次都需要处理大量的数据而导致的处理时间过长，另外，对分类后的集合进行分析提取特征，也能使得特征更加的准确。

在本发明的一实施例中，提取网页静态特征，据是网页中具有混淆性质的特征，对三组集合，其提取方法为：

(1)对HTML标签集合，统计集合中所有标签的信息，提取集合中标签的最大长度、长标签的个数，以及标签中所含JavaScript字符串的比例，这些量化的统计值可以作为HTML标签混淆程度的计量。

(2)对JavaScript脚本集合，统计集合中所有脚本的信息，提取集合中脚本字符串的最大长度、脚本字符串中被编码字符的比例，以及集合中出现字符串连接的次数，这些量化的统计值可以作为JavaScript脚本混淆程度的计量。

(3)对URL集合，统计集合中所有URL的信息，提取集合中URL的最大长度、长URL的个数，以及URL中编码字符的比例，这些量化的统计值可以作为URL混淆程度的计量。

在本发明的一实施例中，根据在线社交网络的特点，恶意代码在社交网络中的传播有别于一般网络中的传播，最直观的特点是，社交网络拓扑的高聚集度和较小的平均最短距离，导致社交网络中的恶意代码传播速度远高于一般网络中的传播速度。为了量化传播速度的值，在本发明中定义传播速度为：单位时间内，可疑恶意代码出现在网页中的频率，即速度的统计需要依赖于服务器端在最近一个小时内发送的网页中可疑恶意代码出现的次数。为了提取特征，需要知道过去的单位时间内其被检测的所有网页，因此创建一个关联信息数据库并实时更新数据库中的在线社交网络网页关联性特征，从数据库中，可以统计提取出需要的特征。

在本发明的一实施例中，关联信息数据库需要不断的更新，数据库需要保存所有网页的关联信息，因此，在得到网页的关联性特征后，将网页的关联性信息保存到数据库中，更新关联信息数据库。为了提高更新效率只需要参考最近一小时内的关联信息，一小时前的所有信息实际上是不作为参考的，为了提高数据库的访问效率，每十分钟维护一次数据库条目，将一小时前的所有信息删除。

如图1所示是线社交网络恶意网页检测识别方法的流程示意图，包括步骤：

1.提取第1部分网页特征，特征主要包括关键字特征。

恶意网页在客户端浏览器中加载时，会进行一些攻击行为，这些行为发生是通过一系列函数组合执行实现的。在静态分析网页关键字时，利用关键字的出现的次数代替动态分析时关键字的执行序列作为关键字的特征。从统计数据中发现，一些脚本函数，它可能出现在所有的网页中，但是它们被使用的频率却大不相同。关键字可以包括但不限于：eval,document.write，unescape,fromCharCode,createElement,createTextNode等，本领域清楚地明白如何针对恶意网页漏洞进行关键字的提取，所以上述关键字的类型并不对关键字进行限制。如一个字符串执行函数eval，它可以执行一个以字符串形式存在的代码，eval是一个合法的函数，它存在于各种网页中，但是它一般在网页中出现的频率较低。然而，在恶意网页中，eval出现的次数会高于一般情况下出现的次数，因此提取类似这样关键字的特征，可以作为一种识别恶意网页的标示。

2.网页预处理，将网页源码根据元素类型分类。

网页源码中有多种元素，最基本的包括了HTML标签、JavaScript脚本、URL等。本发明的切入点之一是从HTML标签、JavaScript脚本、URL中查找恶意代码存在的蛛丝马迹，为了方便方法的实现，在提取另外几部分特征前，需要进行一次网页预处理，处理后得到三种元素的集合。

预处理过程如下：

1)HTML标签是一组具有规范格式的，标签由开始标签和结束标签组成，开始标签是被括号包围的元素名，结束标签是被括号包围的斜杆和元素名，有些可能没有结束标签，如<br/>。从网页源码中取出符合HTML标签的代码段，收集成集合。

2)在网页中，JavaScript脚本通常出现在<script></script>标签之间，或者在“javascript:”后。依据脚本出现的位置，分析网页源码，从其中取出JavaScript脚本，收集成集合。

3)URL是所有资源在Internet上的地址，它们遵循统一的标准网页中可能存在着一些来自本域或者其他域的资源。URL格式的起始是一个协议名称，并且Internet中常用的协议是有限的，包括了HTTP、HTTPS、FTP等，在收集URL集合时，只需要查找以协议名称为开头的一段有效字符串即可以从网页源码中分离提取出URL。

3.提取第2部分特征，特征主要包括HTML标签特征。

HTML标签构成了web网页的结构，标签可以通过脚本动态的添加和删除，另外标签中的属性可以利用脚本动态的修改（如：value），有些还可以自动执行（如：src），因此，HTML标签成为了恶意脚本藏匿的好地方。一般的HTML标签长度有限，如果HTML标签中藏匿了恶意脚本，那么HTML标签长度可能大于良性网页中标签的长度。

4.提取第3部分特征，特征主要包括JavaScript脚本特征。

XSS恶意代码一般使用JavaScript脚本编写，除了代码的攻击性外，很多情况下恶意代码制造者为了迷惑受害者，会对脚本使用一些混淆手段，降低程序的可读性，避免受害者察觉。一种普遍的混淆手段是对恶意代码编码。经过编码的脚本程序，长度明显增加，并且字符串中编码字符的比例也将增大。

5.提取第4部分特征，特征主要包括URL特征。

当网页中存在反射型XSS时，网页源码中会包含引起XSS的恶意URL，这些URL带有恶意脚本。为了迷惑用户点击恶意URL，恶意代码制造者会有意的对URL进行处理变形，使得用户无法区分出URL参数部分的内容，欺骗用户在无防备之下点击网页中的URL。

6.储存网页关联性信息，更新关联信息数据库。

建立一个关联信息数据库，数据库中保存着网页的关联性信息。所谓的关联性信息，是指网页中一些可疑的字段（如可疑的JavaScript脚本字符串、可疑的URL、可疑的HTML标签等），及可疑字段出现的时间。由于需要统计传播的速度，而速度与时间直接相关，因此时间是数据库中的一个重要字段。

当一个网页被提取特征时，在进行了前五步的处理之后，会得到一组该网页中的一些可疑字符串，为了方便的计算网络流中之后出现的网页的传播速度，需要保存该网页中可疑字符串对后来网页的关联性信息，将网页的<可疑字段出现的时间，可疑字符串内容>这样的一组记录***到数据库中，另外，为了提高数据库工作的效率，每十分钟对数据库的内容进行一次冗余处理，删除一小时前的所有数据记录，减小数据库的规模，做到及时更新和维护关联信息数据库。

7.提取第5部分特征，特征主要包括网页关联性特征。

在社交网络中，类似基于XSS漏洞的恶意代码在网页中的传播速度都较快，传播速度是识别恶意网页的一个有效特征，因此，需要通过一种方法从UTF-8编码的网页源码中提取出反应传播速度的量化特征。

类似标量速度的简单定义（单位时间内物体通过的路程），对传播速度进行定义，即单位时间内，字符串在网页中出现的次数。计算可疑字符串在网页中传播速度的步骤如下：

1)统计步骤6中网页的<时间t，字符串内容C>记录；

2)统计每一条记录中字符串内容的传播速度，即查询数据库中字符串内容相同，且时间在t以前一小时内的所有记录的个数，该统计值为该条记录的传播速度；

3)记录所有传播速度中的最大值，将其作为网页的传播速度。

8.合并步骤1,3,4,5,7中得到的五部分特征，合并后得到网页的特征向量。

在线社交网络与一般网络应用相比具有独特性。XSS恶意代码在社交网络中的传播有别于一般网络中的传播，最直观的特点是，社交网络拓扑的高聚集度和较小的平均最短距离，导致社交网络中的XSS恶意代码传播速度远高于一般网络中的传播速度。以一个实际发生的例子佐证，与2003年的计算机病毒Blaster在20小时感染336,000相比，社交网络XSS蠕虫Samy在20小时内感染了1,000,000个用户。从这样的对比数据中可以发现，平均单位时间内恶意代码感染的用户数，在线社交网络的个数约为一般网络的3倍，因此，若能够将传播速度标示出，就能更好的辨别网络流中的恶意网页。

实验数据：

类型	Malicious	Benign
			样本数	11,761	18,302
Precision	87.1%	96.1%
			Recall	94.3%	91.1%
F-Measure	90.6%	93.5%

从上表中的检测结果可以看出，利用本发明中提出的特征对网页进行检测的识别度平均可以达到90%，检测效果良好，可以看出，本发明中提出的“传播速度”在在线社交网络的恶意网页识别中具有重要的作用。

Claims

1.一种在线社交网络恶意网页检测识别方法，其步骤包括：

2.如权利要求1所述的在线社交网络恶意网页检测识别方法，其特征在于，从网页中源代码取出符合HTML标签的代码段收集成HTML标签集合，所述HTML标签由开始标签和/或结束标签组成，所述开始标签是被括号包围的元素名，结束标签是被括号包围的斜杆和元素名。

3.如权利要求1所述的在线社交网络恶意网页检测识别方法，其特征在于，网页中源代码的JavaScript脚本出现在的位置为：<script></script>标签之间或者在“javascript:”后；根据所述脚本出现位置取出JavaScript脚本，收集成集合。

4.如权利要求1所述的在线社交网络恶意网页检测识别方法，其特征在于，从网页中源代码取出查找以HTTP、HTTPS、FTP协议名称为开头的一段有效字符串分离提取出URL后得到URL集合。

5.如权利要求1或2所述的在线社交网络恶意网页检测识别方法，其特征在于，对所述HTML标签集合提取辨别混淆性质的网页静态特征方法如下：

6.如权利要求1或3所述的在线社交网络恶意网页检测识别方法，其特征在于，对所述JavaScript集合提取辨别混淆性质的网页静态特征方法如下：

7.如权利要求1或4所述的在线社交网络恶意网页检测识别方法，其特征在于，对所述URL集合提取辨别混淆性质的网页静态特征方法如下：

8.如权利要求1所述的在线社交网络恶意网页检测识别方法，其特征在于，所述关键字是有在良性脚本和恶意脚本中出现的频率存在着差异性的JavaScript函数或者HTML标签，包括：eval,document.write，unescape,fromCharCode,createElement,createTextNode。

9.如权利要求1所述的在线社交网络恶意网页检测识别方法，其特征在于，所述传播速度为：单位时间内可疑恶意代码出现在网页中的频率，计算可疑字符串在网页中传播速度的步骤如下：