CN104735074A

CN104735074A - 一种恶意url检测方法及其实现***

Info

Publication number: CN104735074A
Application number: CN201510149110.9A
Authority: CN
Inventors: 汪德嘉; 叶芸; 胡振中; 葛彦霆; 刘伟
Original assignee: JIANGSU PAYEGIS INFORMATION TECHNOLOGY Co Ltd
Current assignee: JIANGSU PAYEGIS INFORMATION TECHNOLOGY Co Ltd
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2015-06-24

Abstract

本发明公开了一种恶意URL检测方法和***。本发明提供的方法包括：根据RFC1738规范中URL语法、语义结构将待检测的URL拆分为字符串；分析、补全和修改拆分得到的字符串；对由处理后的字符串构成的新URL，遍历匹配URL知识库；再通过规则判断URL是否包含恶意特征、是否属于短URL，如果是短URL，则还原成相应的长URL；最后从URL知识库中提取特征，应用机器学习的分类算法训练模型并预测URL的恶意性。应用本发明，解决了URL形式的灵活性、常变性，并能识别新出现的恶意网站，有效抵御恶意URL的危害，大幅提高用户信息的安全性能。

Description

一种恶意URL检测方法及其实现***

技术领域

本发明涉及一种计算机信息安全认证技术，综合利用计算机网络及机器学习算法实现，可应用于在各终端上执行与钱财往来的信息确认等需要进行身份认证的***及领域，具体涉及一种恶意URL检测方法及其实现***。

背景技术

按照RFC1738规范，URL（Uniform Resource Locator）的语法格式一般表示成如下形式：“<scheme>:<scheme-specific-part>”，一个URL包含了方案名称（<scheme>）和方案描述部分（<scheme-specific-part>），方案描述部分完全由其使用的方案来决定。方案名称通常是HTTP协议，方案部分如果省略也默认是HTTP协议，则其相应的方案描述部分形式如下：“//<user>:<password>@<host>:<port>/<url-path>?<searchpart>”，其中“<user>:<password>@”，“:<password>”，“:<port>”，“/<url-path>?<searchpart>”和“?<searchpart>”都有可能被省略。 “<searchpart>”是查询字符串，在检测URL是否恶意的过程中可以忽略，即：剔除“<searchpart>”及其前面的“？”得到的新URL与待检测URL的恶意性是实质意义上相同的。

随着微博的快速发展，短URL服务逐渐活跃。短URL，顾名思义就是形式上比较短的网址。短网址服务可以把一个长网址缩短，从而方便在社交网络和微博上分享链接。因为微博等内容一般都有字数限制，较长的URL地址会挤压正文的空间，而短网址服务正好解决了这种问题，借助短网址服务可以用简短的网址代替原来冗长的网址。然而这也带来了安全隐患，由于短网址都是采用压缩的算法生成，这使得一些恶意的短网址更加具有隐蔽性，同时给URL检测增加了困难。但是短URL恶意性检测已经刻不容缓，《赛门铁克互联网安全威胁报告16》显示，2010年，将近2/3的恶意链接都采用了短链接，全球范围内达数百万条。

目前业界的恶意URL检测方法主要包括：基于静态字符串匹配的方法，将恶意URL存放在文件中，对待检测URL进行匹配判断；基于哈希值的对比检测，提取并保存恶意URL的哈希值，对待检测URL计算哈希值并对比判断；基于URL所在的消息和内容，提取恶意URL所在的消息内容和该URL对应的页面资源，对待检测URL判断是否包含恶意内容。上述的这些方法可以处理大部分的恶意URL检测问题，不幸的是当前终端设备无法完全规避URL灵活性、常变性导致的恶意入侵，时刻威胁着用户终端的***安全和更重要的财产安全等。

发明内容

本发明针对现有技术的迫切需求，提出了一种恶意URL检测方法及其实现***，以期提供一种检测方式更灵活，更加安全可靠的URL检测技术解决方案。

本发明的上述第一个目的得以实现的技术解决方案是：一种恶意URL检测方法，其特征在于包括步骤：S1、根据RFC1738规范将待检测URL拆分为字符串，并采用补全、修改字符串的方式整理得到实质相同的新URL；S2，将S1所得到的新URL在URL知识库中遍历匹配，将包含于URL知识库中并直接匹配的URL检测结果输出；S3，对无法在URL知识库中查到的新URL通过预定义规则进行判断并分类检测，包括步骤S31-S33：S31、对规则判断包含恶意特征的URL检测结果输出；S32、对规则判断为简短化的URL，采用还原法转换成相应长度的URL并执行步骤S2；S33、对于规则无法判断的URL，提取特征字段构建预测文件，并通过线下训练且不断更新的分类器对预测文件作模型预测恶意性并输出。

进一步地，步骤S1中所述补全、修改字符串的方式是指：面向拆分待检测URL所得的字符串，判断是否存在协议或是否包含查询字符串，对缺失协议的情况补充默认的HTTP协议；对包含查询字符串的情况去除该查询字符串及其前面的“?”字符，形成实质相同的新URL。

进一步地，步骤S2中所述URL知识库包含正常URL、恶意URL及正常URL的顶级域名，待检测URL或待检测URL的顶级域名存在于URL知识库中直接匹配，将URL检测结果输出。

进一步地，步骤S3中所述预定义规则包括恶意特征筛检和简短化URL筛检，其中恶意特征筛检指的是标识只包含英文字母或数字的待检测URL，简短化URL筛检指的是标识包含短URL服务商、URL只有三层路径且第三层中只包含英文字母或数字的待检测URL。

进一步地，步骤S33中所述分类器的线下训练方式为：基于URL知识库从中提取URL的相关特征构建训练文件，然后采用分类算法进行训练、优化并保存模型，其中分类算法至少为决策树、支持向量机、逻辑回归、随机森林或多种复用；所述分类器的线下训练为随URL知识库变化定期或非定期地更新，在对预定义规则无法判断的URL进行恶意性检测时，提取URL的相关特征字段构建预测文件，而后采用所保存的模型对预测文件作检测，得到预测结果并输出。

本发明的上述第二个目的得以实现的技术解决方案是：一种恶意URL检测的实现***，其特征在于由整理模块、匹配模块、规则识别模块和模型预测模块相连构成，其中所述整理模块具有待检测URL的接收端且为按照RFC1738规范对待检测URL通过采用拆分，补全、修改的方式整理得到实质相同的新URL的处理装置；所述匹配模块接收连至整理模块且匹配模块中包含URL知识库及匹配处理装置，所述规则识别模块具有预定义规则及基于该规则的分类处理装置，且规则识别模块对应分类判断的结果分别输出连至模型预测模块、整理模块或检测结果输出端，所述模型预测模块具有线下训练且持续更新的分类器，并具有基于分类器对预测文件作恶意性检测的处理装置。

进一步地，匹配模块中所述URL知识库中包含持续更新的正常URL、恶意URL及正常URL的顶级域名。

应用本发明的上述技术方案，较之于传统恶意URL检测方法具有显著的技术效果：针对URL形式的灵活性、常变性，能识别新出现的恶意网站，有效提高了URL恶意检测的准确性，抵御恶意URL的危害，大幅提高用户信息的安全性能。

附图说明

图1为本发明恶意URL检测方法的运行流程图。

图2为本发明恶意URL检测模型的训练流程图。

图3为本发明恶意URL检测的实现***框图。

具体实施方式

本发明针对现有移动支付等飞速发展的网络安全需求，创新提出了一种恶意URL检测***解决方案，为用户提供安全、可靠的网络环境。为了清楚地阐述本发明的目的、特征和优点，下面将结合附图对本发明作进一步的描述。根据RFC1738规范，URL规范化形式一般是：“<scheme>://<user>:<password>@<host>:<port>/<url-path>?<searchpart>”，根据前述分析可知，它通常与“<scheme>://<host>/<url-path>”的恶意性检测结果是等效的。

以下分别从检测方法及其实现***两个层面分别介绍该技术解决方案。首先，本发明创新提出了一种更完善、灵活处理性更强的恶意URL检测方法。其步骤概括而言包括：S1、根据RFC1738规范将待检测URL拆分为字符串，并采用补全、修改字符串的方式整理得到实质相同的新URL；S2，将S1所得到的新URL在URL知识库中遍历匹配，将包含于URL知识库中并直接匹配的URL检测结果输出；S3，对无法在URL知识库中查到的新URL通过预定义规则进行判断并分类检测，包括步骤S31-S33：S31、对规则判断包含恶意特征的URL检测结果输出；S32、对规则判断为简短化的URL，采用还原法转换成相应长度的URL并执行步骤S2；S33、对于规则无法判断的URL，提取特征字段构建预测文件，并通过线下训练且不断更新的分类器对预测文件作模型预测恶意性并输出。

具体、细化地来看：上述步骤S1中所述补全、修改字符串的方式是指：面向待检测URL按照RFC规范拆分所得的字符串，从中判断是否存在协议“<scheme>”或是否包含查询字符串“<searchpart>”，对缺失协议的情况补充默认的HTTP协议；对包含查询字符串的情况去除该查询字符串及其前面的“?”字符，形成实质相同的新URL。

步骤S2中所述URL知识库包含当前已经确定的正常URL、恶意URL及正常URL的顶级域名等并且持续更新，待检测URL或待检测URL的顶级域名存在于URL知识库中直接匹配，如果存在则将URL检测结果直接输出。

步骤S3中所述预定义规则包括恶意特征筛检和简短化URL筛检，其中恶意特征筛检指的是标识只包含英文字母或数字的待检测URL，简短化URL筛检指的是标识包含短URL服务商、URL只有三层路径且第三层中只包含英文字母或数字的待检测URL。具体地，检测URL中是否包含明确的恶意特征；是否包含短URL的特征。所述明确的恶意特征，如：URL中是否只包含英文字符，或者是否只包含数值等。所述短URL特征，如：URL中包含短URL服务商，“is.gd”、“bit.ly”、“j.mp” 、“dwz.cn”、“t.cn”、“sina.lt”、“suo.im”、“taourl.com”、“tao.bb”、“955.cc”、“baid.ws”等，并且URL只有三层路径，且第三层只含有字母或者数字字符。如果URL被检测为短URL，则通过捕获其重定向页面中的“Location”字段作为相应的长URL。

进一步地，步骤S33中所述分类器的线下训练方式为：基于URL知识库从中提取URL的相关特征构建训练文件，然后采用分类算法进行训练、优化并保存模型；具体的过程为：首先从URL知识库中提取特征字段，目前采用的特征字段具体如下表1所示：

，其中包含：字段名称、字段类型、字段含义和字段的来源，将提取到的所有特征构建成训练文件，然后采用多种分类算法进行训练并优化，如：决策树、支持向量机、逻辑回归、随机森林等，最终选择分类效果最优的决策树算法，并保存决策树模型。具体的模型训练流程如下图2所示。该分类器的线下训练为随URL知识库变化定期或非定期地更新。

在对预定义规则无法判断的URL进行恶意性检测时，提取URL的相关特征字段构建预测文件，而后采用所保存的模型对预测文件作检测，得到预测结果并输出。这里采用线下训练、线上仅使用的分类器，能有效放置针对该模型的篡改、攻击，进一步保障恶意URL检测的准确效力。

如图3所示，为本发明提供的一种恶意URL检测的实现***，该实现***由整理模块、匹配模块、规则识别模块和模型预测模块相连构成，其中所述整理模块具有待检测URL的接收端且为按照RFC1738规范对待检测URL通过采用拆分，补全、修改的方式整理得到实质相同的新URL的处理装置；所述匹配模块接收连至整理模块且匹配模块中包含URL知识库及匹配处理装置，所述规则识别模块具有预定义规则及基于该规则的分类处理装置，且规则识别模块对应分类判断的结果分别输出连至模型预测模块、整理模块或检测结果输出端，所述模型预测模块具有线下训练且持续更新的分类器，并具有基于分类器对预测文件作恶意性检测的处理装置。

其中，匹配模块中所述URL知识库中包含持续更新的正常URL、恶意URL及正常URL的顶级域名。

为进一步理解本创作检测解决方案的实现方式，以下通过若干具体实施例清楚展示。

实施例一、若待检测url：“abcdefg”，具体判断步骤如下：

（1）首先根据实施步骤S1，补全修改后的url为“http://abcdefg”；

（2）然后根据实施步骤S2，判断该url并不在URL知识库；

（3）再进入步骤S3，通过规则过滤出url中包含了恶意特征（执行S31）：url方案描述部分只含有英文字符，所以最终判断待检测url为恶意。如果rul方案描述部分只含有数字的情况同理。实施例二、若待检测url：“http://www.dwz.cn/t05ZQ”，具体判断步骤如下：

（1）首先根据实施步骤S1，补全修改后的url仍然为“http://www.dwz.cn/t05ZQ”；

（2）然后根据实施步骤S2，该url并不在URL知识库；

（3）再进入步骤S3，通过规则判断其中包含了短url特征（执行S32），则将其还原成长url：“http://search.jd.com/search?keyword=%E5%8E%9F%E5%88%9B&enc=utf-8&qr=&qrst=UNEXPAND&et=&as=1&rt=1&stop=1&vt=2&sttr=1&cid2=1343&ev=exprice_199-599%40&uc=0&lastprice=200-299#select”；

（4）针对长url实施步骤S1，补全修改后为：“http://search.jd.com/search”；

（5）对修改后的url实施步骤S2，该url存在于URL数据库中，并且标记为正常，所以最终判断待检测url为正常。

实施例三、若待检测url：“http://shop.ldangdang.com/14416”，具体判断步骤如下：

（1）首先根据实施步骤S1，补全修改后的url仍然为“http://shop.ldangdang.com/14416”；

（2）然后根据实施步骤S2，判断该url并不在URL知识库；

（3）再进入步骤s3，通过规则判断其中不仅没有恶意URL特征，而且也不包含短URL特征；

（4）最后进入步骤S33，采用模型预测模块进行预测，预测结果为恶意，所以最终判断待检测url为恶意。其中所用的模型预测模块具有线下训练且持续更新的分类器，并具有基于分类器对预测文件作恶意性检测的处理装置。

综上所述可见，应用本发明恶意URL检测方法及其实现***的技术方案，较之于传统恶意URL检测方法具有显著的技术效果：针对URL形式的灵活性、常变性，能识别新出现的恶意网站，有效提高了URL恶意检测的准确性，抵御恶意URL的危害，大幅提高用户信息的安全性能。

Claims

1.一种恶意URL检测方法，其特征在于包括步骤：S1、根据RFC1738规范将待检测URL拆分为字符串，并采用补全、修改字符串的方式整理得到实质相同的新URL；S2，将S1所得到的新URL在URL知识库中遍历匹配，将包含于URL知识库中并直接匹配的URL检测结果输出；S3，对无法在URL知识库中查到的新URL通过预定义规则进行判断并分类检测，包括步骤S31-S33；

S31、对规则判断包含恶意特征的URL检测结果输出；

S32、对规则判断为简短化的URL，采用还原法转换成相应长度的URL并执行步骤S2；

S33、对于规则无法判断的URL，提取特征字段构建预测文件，并通过线下训练且不断更新的分类器对预测文件作模型预测恶意性并输出。

2.根据权利要求1所述恶意URL检测方法，其特征在于：步骤S1中所述补全、修改字符串的方式是指：面向拆分待检测URL所得的字符串，判断是否存在协议或是否包含查询字符串，对缺失协议的情况补充默认的HTTP协议；对包含查询字符串的情况去除该查询字符串及其前面的“?”字符，形成实质相同的新URL。

3.根据权利要求1所述恶意URL检测方法，其特征在于：步骤S2中所述URL知识库包含正常URL、恶意URL及正常URL的顶级域名，待检测URL或待检测URL的顶级域名存在于URL知识库中直接匹配，将URL检测结果输出。

4.根据权利要求1所述恶意URL检测方法，其特征在于：步骤S3中所述预定义规则包括恶意特征筛检和简短化URL筛检，其中恶意特征筛检指的是标识只包含英文字母或数字的待检测URL，简短化URL筛检指的是标识包含短URL服务商、URL只有三层路径且第三层中只包含英文字母或数字的待检测URL。

5.根据权利要求1所述恶意URL检测方法，其特征在于：步骤S33中所述分类器的线下训练方式为：基于URL知识库从中提取URL的相关特征构建训练文件，然后采用分类算法进行训练、优化并保存模型，其中分类算法至少为决策树、支持向量机、逻辑回归、随机森林或多种复用；所述分类器的线下训练为随URL知识库变化定期或非定期地更新，在对预定义规则无法判断的URL进行恶意性检测时，提取URL的相关特征字段构建预测文件，而后采用所保存的模型对预测文件作检测，得到预测结果并输出。

6.一种恶意URL检测的实现***，其特征在于由整理模块、匹配模块、规则识别模块和模型预测模块相连构成，其中所述整理模块具有待检测URL的接收端且为按照RFC1738规范对待检测URL通过采用拆分，补全、修改的方式整理得到实质相同的新URL的处理装置；所述匹配模块接收连至整理模块且匹配模块中包含URL知识库及匹配处理装置，所述规则识别模块具有预定义规则及基于该规则的分类处理装置，且规则识别模块对应分类判断的结果分别输出连至模型预测模块、整理模块或检测结果输出端，所述模型预测模块具有线下训练且持续更新的分类器，并具有基于分类器对预测文件作恶意性检测的处理装置。

7.根据权利要求6所述恶意URL检测的实现***，其特征在于：匹配模块中所述URL知识库中包含持续更新的正常URL、恶意URL及正常URL的顶级域名。