CN107566389A

CN107566389A - 一种基于c4.5决策树的模仿url链接钓鱼域名识别方法

Info

Publication number: CN107566389A
Application number: CN201710843991.3A
Authority: CN
Inventors: 张永斌; 姚强
Original assignee: Ji'nan Mutual Trust Software Co Ltd
Current assignee: Ji'nan Mutual Trust Software Co Ltd
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2018-01-09

Abstract

本发明提供了一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法，包括以下步骤：S1、提取模仿URL链接的域名及特征；S2、基于C4.5算法对模仿URL链接的域名进行分类，构建分类树；S3、对于符合分类树内类型的域名进行拦截。本发明能够提取其中的高危域名，实时检测该类域名的安全性。

Description

一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法。

背景技术

网络钓鱼是一种电子盗窃行为，通过在电子商务中伪装成一个值得信赖的实体来从毫无怀疑的用户那里获取敏感信息。随着互联网的普及，网络钓鱼对上网用户造成的危害越来越普遍，网络中存在大量钓鱼网站。反钓鱼工作组(Anti-Phishing Working Group,APWG)在2016年第4季度发现1,220,523次钓鱼攻击[1]。中国反钓鱼联盟(Anti-PhishingAlliance of China，APAC)在2017年第1季度共发现4,958个钓鱼网站[2]。钓鱼形势相当严峻，对网络环境构成严重的影响。研究发现：钓鱼域名中大量域名存在明显特征，例如：www.paypal.com.signin.country.en.locale.en.diamondzapper.com，缺乏网络知识的用户极容易将此类域名看作URL链接。本文称这类域名为模仿URL链接域名。由于该类域名对用户的迷惑性更强，由此快速评估此类域名的安全性，对提高用户上网体验、净化网络有着重要的意义。

发明内容

本发明提供了一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法，提取其中的高危域名，实时检测该类域名的安全性。

为解决上述技术问题，本申请实施例提供了一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法，包括以下步骤：

S1、提取模仿URL链接的域名及特征；

S2、基于C4.5算法对模仿URL链接的域名进行分类，构建分类树；

S3、对于符合分类树内类型的域名进行拦截。

作为本发明的一个优选的技术方案，模仿URL链接的域名及特征为：

1)域名级数较高、长度较长；

2)域名字符转换频率高，连续字母最大长度较短或连续数字最大长度较短；

3)域名的连字符数目较高；

4)域名包含品牌名，且品牌名的位置较明显；

5)最长子域名级数较高。

作为本发明的一个优选的技术方案，所述的分类树的构建方法如下：

Step1：对样本数据进行预处理，规范数据格式以形成决策树的训练集；

Step2：计算各属性的信息增益率；

假设训练样本集合为S，训练样本被分为k类，即为C＝{C₁,C₂,...,C_k}，p(S_i)表示样本属于C_i的比例，此时集合S的信息熵如式(1)所示，

假设属性集为A，且A＝{A₁,A₂,...,A_m}，选择A_j为测试属性来划分样本，并设Values(A_j)为A_j的值域，则属性A_j的信息增益如式(2)所示，

式中：|S|表示样本集合的元素数量，|Sv|为样本集合S中属性A_j值为v的元素数量，此时，可得属性A***样本集S的广度和均匀性，如式(3)所示，

由此，通过信息增益与***信息可求出属性A_j的信息增益率，如式4所示，

Step3：构建决策树模型

挑选具有最高信息增益率的属性(比如最大子域名级数)作为决策树的根节点。在剩下的候选属性中选择具有最高信息增益率的属性作为分叉节点，递归形成决策树模型。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

可提取其中的高危域名，实时检测该类域名的安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的流程框架结构示意图；

图2是本申请实施例域名的品牌名位置明显度分布图；

图3是本申请实施例域名连续字母最大长度分布图；

图4是本申请实施例图连续数字的最大长度图；

图5是本申请实施例图最长子域名明显度图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本实施例所述的一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法，包括以下步骤：

S1、提取模仿URL链接的域名及特征；

S3、对于符合分类树内类型的域名进行拦截。

其中，在本实施例中，模仿URL链接的域名及特征为：

1)域名级数较高、长度较长。而合法域名为便于用户记忆，通常其长度较短，且级数较低。

2)域名字符转换频率高，连续字母最大长度较短或连续数字最大长度较短。而通常合法域名通过人为方式命名域名，并且为便于记忆合法域名常采用连续字母或数字，字母转换频率较小。

3)域名的连字符数目较高。而合法域名的字符构造较简单，连字符的数量较小。

4)域名包含品牌名，且品牌名的位置较明显。非知名合法域名包含品牌名的情况则较少。为增加用户访问的几率，钓鱼者将品牌名作为子域名，并将品牌名置于较明显的位置。此外，某些钓鱼者将知名域名嵌套于域名中，加大了域名的迷惑性。

5)最长子域名级数较高。为使得用户不易发现真实的主域名，通常钓鱼域名的最长子域名的级数较低，而合法域名则不具备此特征。

其中，在本实施例中，所述的分类树的构建方法如下：

Step2：计算各属性的信息增益率；

Step3：构建决策树模型

在创建决策树过程中，数据噪声和孤立点会引起训练集的分支异常。此时，需要通过剪枝的方法处理数据过拟合的情况，即通过统计度量剪去不可靠的分支，使得剪枝后的决策树更快更好地分类待检测数据。

测试结果与分析

数据来源

从Phishtank、Openphish[15]、Watcherlab等网站收集大量已知的钓鱼域名，使用本文域名筛选条件提取模仿URL链接域名集，进而从中提取具有明显特征的域名共2,008个，作为负样本。

互联网中大部分域名是合法的，而钓鱼域名相对很少，并且域名数据量很大，无法进行人工标注，本实验收集教育网的访问数据，过滤数据集中的钓鱼域名，从中提取模仿URL链接域名共171,834个，作为正样本。

分类性能评价

实验特征分析

对2,008个已标注的模仿URL链接钓鱼域名进行统计分析，部分分析结果如图2、3、4所示。分析发现品牌名明显度、连续字母最大长度、连续数字最大长度、最长子域名明显度特征，对于检测钓鱼域名有较好的区分度。

由图2可知，模仿URL链接的钓鱼域名中含品牌名较多，大约占36％，并且品牌名在域名中的位置较为明显；而合法域名中，大约93％的域名不存在品牌名，且其位置明显度较低。

由图3可知，大约56％的安全域名连续字母的最大长度小于20，而大约94％的模仿URL链接钓鱼域名连续字母的最大长度小于20。模仿URL链接钓鱼域名的连续字母最大长度较低，而安全域名的连续字母最大长度较高。

由图4可知，大约65％的模仿URL链接钓鱼域名中不存在连续数字，而合法域名中只有大约13％的域名不存在连续数字，模仿URL链接钓鱼域名的连续数字最大长度较低，而安全域名的连续数字最大长度较高。

由图5可知，当最长子域名明显度小于0.67时，模仿URL链接钓鱼域名大约占其总体的21％，而有45％的合法域名在该范围内；模仿URL链接钓鱼域名的最长子域名较明显，而合法域名最长子域名均值低于钓鱼域名。

分类器性能评价

从钓鱼域名集合、安全域名集合中各随机提取1,041个域名，分别作为训练集的负样本和正样本。使用C4.5决策树分类器并采用十折交叉验证对该数据集进行分类验证，结果如表1所示。

表1 模仿URL链接域名训练集分类效果

由表1可知，该分类器对钓鱼域名、安全域名的识别准确率分别达到91.80％、96.80％，由此可得该分类器可有效提取模仿URL链接域名中的高危域名。对实验中域名误报情况进行分析，有少量的钓鱼域名被误报为安全域名，例如：wp-secured-accout.com，是由于域名钓鱼特征不显著造成误报；一些安全域名被误报为钓鱼域名，例如：金山云的某域名bd7316f02e7e46499eda436584d213dc.trace-ldns.ksyun.com，该域名的四级域名采用随机字符串，与某些模仿URL链接钓鱼域名存在相似性，导致域名被误报。

分类器分类效果

由于实际网络中钓鱼域名的比例很小，为真实反映本章模型在真实网络的分类器效果，实验采用的安全域名数目远高于钓鱼域名数目，来模拟真实网络检测场景。实验采用了30,000个安全域名，967个钓鱼域名。分类结果如表5所示。

表2 模仿URL链接域名分类结果

由表2可知，1.00％、2.70％的安全域名和钓鱼域名被误报。分析域名检测中的误报情况，被误报的安全域名主要为内容分发网络(Content Delivery Network，CDN)域名、代理软件域名。例如：1445516683-state-connected.D4EE071C9C86.1445535542.cc.hiwifi.com，该域名为极路由域名，在请求连接时将待连接网站信息转换成随机字符，由于其字符构造特征与模仿URL链接钓鱼域名相似，由此被误报；128a5743c1148cd503b9ced8e549480b.***.com.dnsbl7.mailshell.net为网络安全服务公司Mailshell的检测某数据信息的安全域名，由于子域名包含品牌名Google，品牌名位置较明显，且域名字母数字转换频率较高，由此该域名被误判为钓鱼域名。少量钓鱼域名被误报为安全域名，分析发现是这些域名的特征不明显所致。

实验结果分析与讨论

综上所述，基于C4.5决策树的模仿URL链接钓鱼域名识别模型可有效检测钓鱼域名。然而该实验也存在一定的漏报率，大量代理软件、知名网站CDN域名被误报为钓鱼域名，实验后期可整理这些域名名单，并将该名单加入白名单以过滤安全域名；对容易被漏判的特征不明显域名，实验后期将进行深入研究，并挖掘出更多有效特征信息，来提高钓鱼域名的检测率。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法，其特征在于，包括以下步骤：

S1、提取模仿URL链接的域名及特征；

S3、对于符合分类树内类型的域名进行拦截。

2.根据权利要求1所述的一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法，其特征在于：模仿URL链接的域名及特征为：

1)域名级数较高、长度较长；

3)域名的连字符数目较高；

4)域名包含品牌名，且品牌名的位置较明显；

5)最长子域名级数较高。

3.根据权利要求1所述的一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法，其特征在于：所述的分类树的构建方法如下：

Step2：计算各属性的信息增益率；

<mrow> <mi>I</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>G</mi> <mi>a</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>,</mo> <msub> <mi>A</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>I</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>v</mi> <mo>&Element;</mo> <mi>V</mi> <mi>a</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>v</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>v</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>S</mi> <mi>p</mi> <mi>l</mi> <mi>i</mi> <mi>t</mi> <mi>I</mi> <mi>n</mi> <mi>f</mi> <mi>o</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>,</mo> <msub> <mi>A</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>v</mi> <mo>&Element;</mo> <mi>V</mi> <mi>a</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>v</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <msub> <mi>log</mi> <mn>2</mn> </msub> <mfrac> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>v</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

Step3：构建决策树模型

挑选具有最高信息增益率的属性(比如最大子域名级数)作为决策树的根节点，在剩下的候选属性中选择具有最高信息增益率的属性作为分叉节点，递归形成决策树模型。