CN102790762A

CN102790762A - 基于url分类的钓鱼网站检测方法

Info

Publication number: CN102790762A
Application number: CN2012102027014A
Authority: CN
Inventors: 曹玖新; 罗军舟; 王田峰; 董丹; 刘波; 东方; 杨鹏伟; 吴江林
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2012-06-18
Filing date: 2012-06-18
Publication date: 2012-11-21

Abstract

本发明公开了一种基于URL分类的钓鱼网站检测方法，首先对URL特征进行建模，针对特征中的域名模仿现象，本发明提出了一种利用动态规划思想对可疑域名和受保护域名进行相似度计算的方法，为收集钓鱼URL高频可疑字符特征，本发明提出了一种基于广义后缀树的可疑字符提取算法，之后在特征建模基础上利用支持向量机（SVM）算法对实验训练集进行了分类训练，训练结果得到SVM分类模型，用于对待检测URL进行分类，检测钓鱼网站的服务器根据特定的在线增量学习策略对当前SVM分类模型进行升级。

Description

基于URL分类的钓鱼网站检测方法

技术领域

本发明涉及网络安全领域，涉及一种反网络钓鱼的方法，特别涉及一种基于URL分类的钓鱼网站检测方法。

背景技术

网络钓鱼攻击已经成为当前网上交易安全的一个重大威胁，其对电子商务的发展造成了很大阻碍，因而对钓鱼防范的研究成为网络安全领域的热点问题。钓鱼网站的规模逐年成倍递增，从机器学习与模式识别角度讲，大量的钓鱼网站已经呈现出一种有迹可循的模式，这给用模式识别的方法进行学习分类带来了一定的应用空间。

目前存在的基于模式识别的钓鱼网站判别方法主要有：

1.基于邮件特征的钓鱼邮件检测方法。其主要方法是通过对大量钓鱼邮件的学习训练找出一组普遍存在的现象特征。方案从邮件的语言，布局以及结构入手获取诸如特殊句法，结构布局特点，词汇使用模式，反常语言应用等特征。

2.基于网页文本特征的钓鱼网页检测方法。该方法借助于TF-IDF算法计算一篇文档中的重要程度较高的词汇，然后以这些词汇为网页特征对网页进行分类，分类过程借鉴了***对网页的评价排名。

3.基于网页图像相似度得钓鱼网页检测。首先将HTML网页转换为标准图片形式，提取主色调和图片重心位置等属性标示图片特征，然后应用EMD(Earth Mover’s Distance)算法计算两图像间的相似度，设定一个阈值判断当前网页是否有模仿现象。

目前钓鱼检测方法存在一定的不足，无论是基于邮件特征还是基于网页特征都要通过对邮件或网页内容进行整体分析，这可能带来以下问题，一是邮件或网页标准不统一，这导致预先设定的检测特征有可能缺失；二是对邮件或网页进行整体分析花费时间较多，从应用角度来讲可能超过用户所能忍受的网络延时；三是受保护机构合法邮件或网页更新时，检测机构没有相应的联动机制。

发明内容

本发明的目的是针对现有技术的不足，提供一种适用性强、效率高的基于统一标准的URL的钓鱼检测方法。

本发明采用的技术方案是：一种基于URL分类的钓鱼网站检测方法，该方法包括以下步骤：

（1）、对钓鱼URL特征进行归纳分析，包括数值特征和布尔特征，数值特征有：1）包含IP地址的个数2)包含“.”的个数；3)域名位置的字符长度4)包含“-”的个数5)包含的数字字母组合个数6)*** PageRank值；布尔特征包括两部分，一是域名相关特征，二是关键词相关特征。其中前一种表示是否有域名模仿现象；后一种包括钓鱼URL中出现频率较高的关键词在当前URL中的存在情况。

上述对钓鱼URL特征进行归纳具体包括：

1)URL中存在IP地址。一定比例的钓鱼URL包含有IP地址，而在合法URL中几乎不存在包含IP地址的情况；

2)用“.”来对域名进行混淆。钓鱼网页往往通过用很多“.”来隔开一个正常的字段以达到迷惑用户的目的，如http://paypal.com.online-update.onlinebanking.service.customer./...而这种URL在合法网站几乎很少见到；

3)URL路径深度异常。即URL中包括“/”的数目，伪造的URL通过加长路径来混淆合法网址；

4)包含特殊字符。如“”“~”“-”在钓鱼URL中经常会出现；

5)存在较多数字、字母相混合的情况。该特征在合法URL与钓鱼URL中都有体现，但在钓鱼URL中更为明显；

6)域名字段长度异常。一般情况下，认为出现在‘http://’与第一个‘/’之间的字符串为域名字段，大部分合法URL的域名长度比较适中，而有一部分钓鱼URL此部分长度显得过长；

7)PageRank排名较低。PageRank是Google对所收录网页按照重要程度进行的排名，在检测中发现，绝大部分钓鱼URL此项数值较低或没有记录；

8)合法域名篡改。钓鱼网站域名往往对合法网站域名进行篡改，如把“paypal”中的字母“l”替换为数字“1”，根据一定方法可以对该现象进行检测。

9）可疑词汇。钓鱼URL中有些词汇出现频率较高，如“login”，“account”等，根据一定方法可以对这些可疑词汇进行统计提取。

采用特定方法检测域名篡改现象与统计可疑关键词。

所述域名篡改检测方法为：

假设从URL提取出的域名字符串U＝u₁u₂…u_m，受保护域名字符串T＝t₁t₂…t_n，目标是计算U和T的最大相似度值S（U，T)。

采用动态规划思想，选择计算分别以u_i和t_j结束的两个域名字符串分段的最大相似度值问题作为子问题，该相似度值用H_i，j表示，那么根据u_i与t_j相对位置的不同与H_i，j值有四种情况：

1）两子字符串到u_i与t_j结束时长度相同，此时有：

H_{ij} = H_{i - 1, j - 1} + s (u_{i}, t_{j}) = \{\begin{matrix} H_{i - 1, j - 1} + w_{match}, u_{i} = t_{j} \\ H_{i - 1, j - 1} - w_{dismatch, u_{i}! = t_{j}} \end{matrix}

其中w_match与w_dismatch分别表示u_i与t_j相同和相异时的权值。

2）以u_i结束的子字符串在u_i之前存在长度为k的缺失值，此时有：

H_i,j＝H_i-k，j-W_k.

其中W_k为缺失惩罚值。

3）与2)类似的，以t_j结束的子字符串在t_j之前存在长度为l的缺失值，此时有：

H_i,j＝H_i，j-l-W_l.

其中W₁为缺失惩罚值。

4）当i＝0或j＝0时，为防止出现负的匹配值，定义此时的H_i，j为0，即：

H_i,0＝H_0,j＝0.

综合上述四种情况，可以得到递归公式：

H_{i, j} = \max \{\begin{matrix} 0 \\ H_{i - 1, j - 1} + s (u_{i}, t_{j}) \\ \max_{k &GreaterEqual; 1} (H_{i - k, j} - w_{k}) \\ \max_{l &GreaterEqual; 1} (H_{i, j - l} - w_{l}) \end{matrix}\},

1≤i≤m,1≤j≤n

利用上述递归公式对两域名进行计算得到一个m*n的矩阵H。两域名的最大相似度值即矩阵的最大值h(m，n)。根据目标受保护域名（即域名T)的长度进行规格化处理，之后得到U的域名相似系数

当TM_U=1时表示U与目标合法域名完全匹配，对于其他情况，给定一个域名模仿的阈值区间(f₁,f₂)，当TM_U∈(f₁,f₂)时表示极有可能为域名模仿现象。在发明将此区间设置为(0.5,1)。

所述可疑关键词定义如下：超过一定比例的URL所共有；在这些共有URL的公共子字符串中（如有多个）中是最长的；不包括诸如“http://”,“www”等URL基本元素。可疑关键词提取利用广义后缀树查找方法，寻找在给定URL字符串集合中出现次数超过k次的URL子字符串，计算步骤如下：

步骤1.构造一棵空的广义后缀树（GST），设定路径结束符为“$”；

步骤2.将URL字符串产生的后缀依次***GST，若遇到相同后缀则合并当前节点，若无已存在后缀则***当前节点产生新的后缀节点；

步骤3.重复步骤2直至URL集合中的所有URL处理完毕，此时GST构建完成；

步骤4.设置Map集合<P,S>，其中P表示路径集合，S表示P所对应的字符串；

步骤5.遍历GST，对于每个节点所对应的路径e，查询其所属于的URL子字符串s，根据s搜索Map集合得到s所对应的所有路径集合p’,如果令=∪<e,s>否则转步骤6；

步骤6.如果e比p’中任一路径都要长，令p’=p’∪e；

步骤7.重复步骤5、6，直到所有路径都遍历完成；

步骤8.遍历集合<P,S>，输出s出现次数超过k次的响应P集合D，D即为所求。

（2）、根据特征建模结果，采用支持向量机算法对原始数据进行训练得到初始分类模型，根据此分类模型可以对待检测的URL进行检测。具体步骤如下：

步骤1.根据特征建模结果，将原始URL记录转换成特征向量。

步骤2.采用支持向量机算法对这些特征向量进行训练得到初始分类模型M，用于对待检测URL进行分类。

（3）、为适应钓鱼攻击行为的多变性，检测钓鱼网站的服务器根据特定的在线增量学习策略对当前分类模型进行升级。所述在线增量学习策略如下：

步骤1.定义两个空数据集C-SET与B-SET，其中C-SET用于存放分类器训

练样本，B-SET存放增量过程中的丢弃样本。

步骤2.定义初始样本集为Y_H，此时有C-SET＝Y_H

步骤3.以Y_H为训练样本得到初始分类器Ψ_H。以Ψ_H检验增量样本集Y_I，其中违背KKT条件的样本记为Y_I ^NK，符合KKT条件的样本记为Y_I ^K，若

则本轮增量结束否则转步骤4

步骤4.令C-SET=C-SET∪Y_I ^NK，B-SET=B-SET∪Y_I ^K。对C-SET进行训练得到增量分类器Ψ_I。

步骤5.利用Ψ_I对B-SET进行再分类得到Y_B ^NK，若

则Ψ_I为最终增量分类器。否则令C-SET=C-SET∪Y_B ^NK，对C-SET进行再次训练得到修正的最终分类器Ψ_O。

有益效果：本发明所采用的基于URL学习分类的钓鱼检测方法，综合利用了黑白名单匹配检测与钓鱼URL特征检测，对于已有明确记录的URL信息可以达到快速检测的目的，对于数据库中未存储的URL数据可以利用训练生成的SVM分类模型对URL进行预测分类，这种综合检测方法有效弥补了单纯依靠黑白名单检测对未知URL无法处理的情况。同时，本发明在URL特征建模过程中对域名模仿以及关键词特征进行了有效的定义与检测，使得钓鱼URL特征描述更加精确，继而有效提高了SVM分类精度。

附图说明

图1为本发明基于URL分类的钓鱼检测原型***框架；

图2为本发明基于URL的钓鱼检测方法流程图；

图3为本发明基于URL的钓鱼检测方法实施过程时序图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步说明：

根据上述技术方案，本发明实现了一个基于URL分类的钓鱼检测原型***，该***的结构示意图如图1所示。***包括三个组成部分：浏览器客户端、分析中心服务器以及受保护机构(bank，e-business)。其中浏览器客户端以浏览器插件形式存在，负责监控用户输入的网址并将获取的网址送入分析中心服务器分析。分析中心服务器包括URL数据库（URL Database）以及机器学习引擎(ML engine)，负责对URL进行综合分析并将结果反馈于浏览器客户端。受保护机构主要为分析中心服务器提供最新的受保护域名信息，并通过邮件等方式告知用户最新的针对该机构的攻击信息。***在三方协作的基础上力求最大限度地提高用户网上交易的安全性。

图3是***详细设计中的各模块之间的交互时序图，***组成模块包括浏览器插件（BrowserPlugin）、Web程序容器(WebContainer)、服务器主程序(URLCheckServlet)、分类模型（ClassifierModel）、特征生成模块(FeatureGenerator)以及数据库管理模块(DataManager)。

结合图2、3所示，基于URL分类的钓鱼网站检测方法的具体实施方式可以描述为：

步骤1.用户在浏览器终端输入网址，浏览器插件对地址栏URL进行监听并将状态转换为URL待发送；

步骤2.用户在浏览器插件界面点击允许发送URL按钮，插件将URL信息传入后台服务器。

步骤3.后台服务器调用主程序（URLCheckServlet），该servlet首先调用数据库管理模块（DataManager）查询黑白名单数据库，若存在黑名单匹配，则直接判定为钓鱼，流程结束，若存在白名单匹配，则直接判定为合法，流程结束。若不存在匹配情况，转入步骤4.

步骤4.URLCheckServlet调用模型分类主程序ClassiferModel进行预测分类。ClassiferModel调用URL特征提取模块FeatureGenertor对URL进行特征提取形成相应的特征向量。在此特征向量基础上利用SVM分类模型获得分类预测值。步骤5.将步骤4所得分类预测值映射为相应的钓鱼可能性概率，将该结果反馈给客户端。

基于本发明方法开发了原型***。从实验效果来看，本发明能在短时间内，较为准确地判断URL地址的合法性，并将结果反馈给用户，对用户的财产信息安全起到了一定的保护效果。

应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于URL分类的钓鱼网站检测方法，其特征在于，该方法包括以下步骤：

（1）、对钓鱼URL特征进行归纳分析，包括数值特征和布尔特征，布尔特征包括域名相关特征和关键词相关特征，采用特定方法检测域名篡改现象与统计可疑关键词；

（2）、根据特征建模结果，采用支持向量机算法对原始数据进行训练得到初始分类模型，根据此分类模型可以对待检测的URL进行检测；

（3）、为适应钓鱼攻击行为的多变性，检测钓鱼网站的服务器根据特定的在线增量学习策略对当前分类模型进行升级。

2.根据权利要求1所述的基于URL分类的钓鱼网站检测方法，其特征在于：

所述步骤（1）中域名篡改检测方法为：

1)两子字符串到u_i与t_j结束时长度相同，此时有：

H_{ij} = H_{i - 1, j - 1} + s (u_{i}, t_{j}) = \{\begin{matrix} H_{i - 1, j - 1} + w_{match}, u_{i} = t_{j} \\ H_{i - 1, j - 1} - w_{dismatch, u_{i}! = t_{j}} \end{matrix}

其中w_match与w_dismatch分别表示u_i与t_j相同和相异时的权值。

2)以u_i结束的子字符串在u_i之前存在长度为k的缺失值，此时有：

H_i,j＝H_i-k,j-W_k.

其中W_k为缺失惩罚值。

3)与2)类似的，以t_j结束的子字符串在t_j之前存在长度为l的缺失值，此时有：

H_i,j＝H_i，j-l-W_l.

其中W₁为缺失惩罚值。

4)当i＝0或j＝0时，为防止出现负的匹配值，定义此时的H_i，j为0，即：H_i,0＝H_0,j＝0.

综合上述四种情况，可以得到递归公式：

H_{i, j} = \max \{\begin{matrix} 0 \\ H_{i - 1, j - 1} + s (u_{i}, t_{j}) \\ \max_{k &GreaterEqual; 1} (H_{i - k, j} - w_{k}) \\ \max_{l &GreaterEqual; 1} (H_{i, j - l} - w_{l}) \end{matrix}\},

1≤i≤m,1≤j≤n

3.根据权利要求1所述的基于URL分类的钓鱼网站检测方法，其特征在于：所述可疑关键词统计方法为：

步骤5.遍历GST，对于每个节点所对应的路径e，查询其所属于的URL子字符串s，根据s搜索Map集合得到s所对应的所有路径集合p’,如果

令=∪<e,s>否则转步骤6；

步骤6.如果e比p’中任一路径都要长，令p’=p’∪e；

步骤7.重复步骤5、6，直到所有路径都遍历完成；

4.根据权利要求1所述的基于URL分类的钓鱼网站检测方法，其特征在于：所述步骤（2）中得到初始分类模型步骤如下：

步骤1.根据特征建模结果，将原始URL记录转换成特征向量。

5.根据权利要求1所述的基于URL分类的钓鱼网站检测方法，其特征在于：所述步骤（3）中在线增量学习策略如下：

练样本，B-SET存放增量过程中的丢弃样本。

步骤2.定义初始样本集为Y_H，此时有C-SET＝Y_H

步骤3.以Y_H为训练样本得到初始分类器Ψ_H。以Ψ_H检验增量样本集Y_I，

其中违背KKT条件的样本记为Y_I ^NK，符合KKT条件的样本记为Y_I ^K，若

则本轮增量结束否则转步骤4

步骤5.利用Ψ_I对B-SET进行再分类得到Y_B ^NK，若