WO2012089005A1

WO2012089005A1 - 钓鱼网页检测方法及设备

Info

Publication number: WO2012089005A1
Application number: PCT/CN2011/083745
Authority: WO
Inventors: 马勺布; 郭辉
Original assignee: 成都市华为赛门铁克科技有限公司
Priority date: 2010-12-31
Filing date: 2011-12-09
Publication date: 2012-07-05
Also published as: CN102082792A; US20130086677A1; US9218482B2

Abstract

本发明实施例提供一种钓鱼网页检测方法及设备，该方法包括：判断信任域名库中是否存在待检测网页对应的唯一域名；在信任域名库中不存在唯一域名时，分别确定从待检测网页中提取的内容特征与模板文件库的各模板文件中内容特征的相似度；内容特征至少包括：编码格式、文档对象模型、词汇和词汇数量；在从待检测网页中提取的内容特征，至少与一个模板文件中内容特征的相似度大于预设的相似阈值时，确定待检测网页为钓鱼网页。本发明实施例提高了钓鱼网页检测结果的准确性。

Description

钓鱼网页检测方法及设备本申请要求于 2010 年 12 月 31 日提交中国专利局、申请号为 201010620647.6、发明名称为 "钓鱼网页检测方法及设备" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明实施例涉及网络技术，尤其涉及一种钓鱼网页检测方法及设备。背景技术

钓鱼网站举报机制是防护钓鱼网站攻击的一种基础性解决方法。反钓鱼组织鼓励终端用户提交发现的 phishing (钓鱼）信息， phishing信息包括统一资源定位符（ Uniform Resource Locator, 简称 URL ), 邮件内容等，然后将收集到的 phishing信息进行甄别处理组织成知识库，例如 URL列表方式、单向哈希（Hash )值方式等。将知识库部署在各类安全设备或客户端软件中，上述设备监测到知识库存在当前访问的网页时对该网页拦截和过滤，防止钓鱼网页的攻击，

目前，通用的方法是将 Phishing检测模块集成到客户端软件中，当用户通过浏览器访问网页时， Phishing检测模块依据本地或者远程数据查询结果计算出该网页的可疑度，当可疑度较高时，向用户发出告警信息。远程 Anti-Phishing服务器向众多客户端 Phishing检测模块提供数据更新、查询、过滤等功能。 Phishing检测模块的监测依据主要包括：已知 phishing 的 URL 列表， Phishing 的 IP列表，信任 i或名列表， phishing关键词、 phishing网页通用特征等。 phishing 网页通用特征包括：拥有超文本置标语言（ HyperText Markup Language, HTML )输入标签，有符合社会保险号码的数据，显示的 URL和真实 URL不一致等，

由于，钓鱼网页的 URL、 IP 和域名经常变化，有许多正常网页也包括 phishing关键词。因此，通过上述方法检测钓鱼网页时，不仅对钓鱼网页的识别率较低，而且对正常网页的误判率也较高、因而，现有钓鱼网页检测方法的检测准确率较低。发明内容

本发明实施例提供一种钓鱼网页检测方法及设备，用以提高钓鱼网站的检测准确率。

本发明实施例提供一种钓鱼网页检测方法，包括：

判断信任域名库中是否存在待检测网页对应的唯一域名；

在所述信任域名库中不存在所述唯一域名时，分别确定从所述待检测网页中提取的内容特征与模板文件库的各模板文件中内容特征的相似度；所述内容特征至少包括：编码格式、文档对象模型、词汇和词汇数量；

在从所述待检测网页中提取的内容特征，至少与一个所述模板文件中内容特征的相似度大于预设的相似阈值时，确定所述待检测网页为钓鱼网页。

本发明实施例提供一种钓鱼网页检测设备，包括：

信任域名库，用于保存受信任网页对应的唯一域名；

模板文件库，用于保存多个模板文件，所述模板文件包括从网页中提取的内容特征；所述内容特征至少包括：网页的编码格式、文档对象模型、词汇和词汇数量；

域名确定模块，用于判断信任域名库中是否存在待检测网页对应的唯一域名；

内容提取模块，用于在所述信任域名库中不存在所述唯一域名时，从所述待检测网页中提取的内容特征；

相似度确定模块，用于分别确定从所述待检测网页中提取的内容特征与所述模板文件库的各模板文件中内容特征的相似度；

钓鱼网页确定模块，用于在从所述待检测网页中提取的内容特征，至少待检测网页为钓鱼网页。

本发明实施例，确定待检测网页的唯一域名不是信任域名后，通过待检测网页的内容特征确定与模板文件库中各模板文件的相似度，如编码格式、文档对象模型、词汇和词汇数量等内容特征与模板文件库中各模板文件中内容特征的相似度，确定该待检测网页是否为钓鱼网页。因此本发明通过内容特征确定网页是否钓鱼网页，可提高钓鱼网页检测结果的准确性。另外，由于本发明通过不断更新的信任域名库先确定待检测网页是否为受信任的网页，从而减少了将品牌网页误判为钓鱼网页的几率。附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明提供的钓鱼网页检测方法实施例一流程图；

图 2为本发明提供的钓鱼网页检测方法实施例二流程图；

图 3为本发明提供的钓鱼网页检测方法实施例三流程图；

图 4A为本发明提供的钓鱼网页检测设备实施例一结构示意图；图 4B为本发明提供的钓鱼网页检测设备一种应用场景示意图；图 4C为本发明提供的钓鱼网页检测设备另一种应用场景示意图；图 5为本发明提供的钓鱼网页检测设备实施例二结构示意图；

图 6为图 4或图 5中相似度确定模块的结构示意图；

图 7为本发明提供的钓鱼网页检测设备实施例三结构示意图。具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图 1为本发明提供的钓鱼网页检测方法实施例一流程图。如图 1所示，本实施例包括：

步骤 11 : 判断信任域名库中是否存在待检测网页对应的唯一域名。

本实施例中待检测网页可以有多种获取方式，一种是根据 URL下载待检测网页，将下载后的待检测网页存储于存储介质中；一种是从网络通信流量中直接提取数据包。直接从网络通信流量中提取数据包时，进一步将数据包进行解析直接形成 HTML文件。

获取待检测网页后，从待检测网页对应的 URL中提取出唯一域名，并在信任域名库查找该唯一域名。信任域名库中存在该唯一域名时，即该唯一域名为信任域名，表明该唯一域名对应的待检测网页不是钓鱼网页。信任域名库中没有该唯一域名时，该待检测网页有可能是钓鱼网页，也可能不是钓鱼网页，需进一步通过后续的内容特征匹配过程，检测该待检测网页是否为钓鱼网页。

信任域名库中保存有万级、百万级甚至千万级受信任网页的唯一域名，目的是在检测钓鱼网页时，先通过唯一域名排除品牌网页或从未受到钓鱼网站攻击的网页。信任域名库需要周期性更新，域名的收集和提取主要依据如下原则：从收集的 URL列表逐一取出 URL, 在某一 URL中顶级域名为非国家顶级域名时，从该 URL中提取出二级域名写入信任域名库；该 URL中顶级域名是国家域名且二级域名是顶级域名字符串，从 URL中提取三级域名写入信任域名库。

例如， URL中顶级域名是 ".com，，、 ".org", ".edu，，、 ".net", ".gov", "int，，、 "mil", "biz", "info", "pro", "name" 和" idv"等非国家顶级域名，则 URL中提取二级域名。顶级域名是国家或地区域名，则判断二级域是否为常用的顶级域名字符串，例如" com，，、 "org", "net", "gov", "edu，，和 "biz"等，则提取到三级域名，否则只提取到二级域名。提取到的域名如下所示： huawei.com、 huawei.com.cn、 sina.com.cn、 apwg.org、 apwg.net等。域名提取后, 夺提取的域名转换成 Hash表存储以利于后续查询，建立 Hash表的具体 Hash算法可以采用 MD5、 SHA1等标准算法，也可以采用自定义算法。

步骤 12: 在信任域名库中不存在唯一域名时，分别确定从待检测网页中提取的内容特征与模板文件库的各模板文件中内容特征的相似度。

模板文件库可为品牌模板库，也可为钓鱼模板库。模板文件库用于保存包括从钓鱼网页提取的内容特征的模板文件，或用于保存包括从品牌网页提取的内容特征的模板文件；内容特征至少包括从网页提取的：编码格式、文档对象模型、词汇和词汇数量。

在信任域名库不存在该待检测网页对应的唯一域名时，从该待检测网页中提取内容特征，与钓鱼模板库中每个模板文件中保存的内容特征进行匹配；另外，也可与品牌模板库中每个模板文件中保存的内容特征进行匹配，确定从待检测网页中提取的内容特征与各模板文件中内容特征的相似度。

由于大量钓鱼网站通过自动程序产生或直接仿冒品牌网页时，通常会采用相同的编码格式、较接近的词汇和相似的文档对象模型（ Document Object Model, 简称 DOM ) , 并且词汇数量也基本接近，因此，本发明实施例通过分析包括编码格式、文档对象模型、词汇和词汇数量的内容特征，可以确定待检测网页与品牌网页或钓鱼网页的相似度。

钓鱼模板库中包括多个钓鱼模板文件，用于保存从各钓鱼网页提取的内容特征。建立钓鱼模板库时，从多个钓鱼网页分别提取出内容特征，以模板文件形式分别保存每个钓鱼网页的内容特征。

品牌模板库中包括多个品牌模板文件，用于保存从各品牌网页提取的内容特征。品牌网页为经常被仿冒的网页或可能被仿冒的网页，比如全球各大银行网页、保险公司网页、网上支付机构或企业网页、社交网站登陆网页等。建立品牌模板库时，从多个品牌网页分别提取出内容特征，以模板文件形式分别保存每个品牌网页的内容特征。步骤 13: 在从待检测网页中提取的内容特征，至少与一个模板文件中内容特征的相似度大于预设的相似阈值时，确定待检测网页为钓鱼网页。

从待检测网页中提取的内容特征，与钓鱼模板库中一个或一个以上的钓存在与该待检测网页相似的钓鱼模板文件时，确定该待检测网页为非仿冒品牌网页的钓鱼网页。例如，相似度可以是百分比数值，也可以是其他的自定义的类型，当相似度是百分比数值时，百分比数值越高，相似度越大；相似度也可以是 0到 100的数值，在这种情况下，数值越大相似度越大，其中，预设的相似阈值可以是经验值。

另外，由于钓鱼模板库每个模板文件对应一个钓鱼网页，在确定该待检测网页中内容特征与钓鱼网页的内容特征相同时，还可确定与该待检测网页相似的钓鱼网页的网页名称。

从待检测网页中提取的内容特征，与品牌模板库中一个或一个以上的品存在与该待检测网页相似的品牌模板文件时，由于该待检测网页对应的唯一域名不是信任域名，因此确定该待检测网页为仿冒品牌网页的钓鱼网页。

本发明实施例，确定待检测网页的唯一域名不是信任域名后，通过待检测网页的内容特征确定与模板文件库中各模板文件的相似度，确定该待检测网页是否为钓鱼网页。品牌模板文件保存的是品牌网页的内容特征，在该待检测网页的唯一域名不是信任域名的情况下，其内容特征与品牌网页的相似度较高时，确定该待检测网页为仿冒品牌网页的钓鱼网页。模板文件保存的是钓鱼网页的内容特征或品牌网页的内容特征，在该待检测网页的肉容特征与模板文件的相似度较高时，确定该待检测网页为非仿冒品牌网页的钓鱼网页。由于钓鱼网页通常由自动程序产生或直接仿冒品牌网页，且大多数钓鱼网页的内容特征基本相似，内容特征反映出钓鱼网页的特性。因此本发明通过内容特征确定网页是否钓鱼网页，可提高钓鱼网页检测结果的准确性。另外，由于本发明通过不断更新的信任域名库先确定待检测网页是否为受信任的网页，从而减少了将品牌网页误判为钓鱼网页的几率。

图 2 为本发明提供的钓鱼网页检测方法实施例二流程图。本实例主要说明如何将待检测网页的内容特征与钓鱼模板库中钓鱼模板文件进行匹配的方法。如图 2所示，本实施例包括：

步骤 20: 从待检测网页中提取出内容特征。

在步骤 20之前，先在信任域名库查找待检测网页的唯一域名，由于信任域名库保存的是受信任的唯一域名，因此当信任域名库存在待检测网页的唯一域名时，确定待检测网页为受信任的网页。如果信任域名库中不存在待检测网页的唯一域名执行步骤 20 , 通过待检测网页的内容特征判断其是否为钓鱼网页。

步骤 21 : 判断钓鱼模板库中是否存在还没有与待检测网页进行匹配的钓鱼模板文件。如果是则执行步骤 22, 否则结束。

如果采用品牌模板库中品牌模板文件与待检测网页进行匹配，则步骤 21 可为：判断品牌模板库是否存在还没有与该待检测网页进行匹配的品牌模板文件。

步骤 22: 从钓鱼模板库中按序读取一个还没有与待检测页匹配的钓鱼模板文件。

建立钓鱼模板库时，为避免在钓鱼品牌库保存内容特征相似的钓鱼模板文件，从钓鱼网页提取出内容特征后，将从钓鱼网页提取的内容特征与钓鱼模板库中各钓鱼模板文件中内容特征进行匹配，确定从钓鱼网页提取的内容特征与各钓鱼模板文件的相似度，通过相似度大小确定是否将该内容特征以钓鱼模板文件的形式写入钓鱼模板库。在从钓鱼网页提取的内容特征与各钓鱼模板文件的相似度均小于预设的相似阈值时，将从钓鱼网页提取的内容特征形成钓鱼模板文件写入钓鱼模板库。

同理，建立品牌模板库时，为避免在品牌库保存内容特征相同的品牌模板文件，从品牌网页提取出内容特征后，将从品牌网页提取的内容特征与品牌模板库中各品牌模板文件中内容特征进行匹配，确定从品牌网页提取的内容特征与各品牌模板文件的相似度，通过相似度大小确定是否将该内容特征以品牌模板文件的形式写入品牌模板库。在从品牌网页提取的内容特征与各品牌模板文件的相似度均小于预设的相似阈值时，将从品牌网页提取的内容特征形成品牌模板文件写入品牌模板库。

步骤 23：判断该待检测网页的编码格式是否与当前钓鱼模板文件中的编码格式相同。如果不相同返回步骤 21执行，如果相同执行步骤 24。

步骤 24: 在该待检测网页的编码格式与当前钓鱼模板文件中的编码格式相同时，判断从待检测网页中提取的词汇数量与当前模板文件中的词汇数量差值的绝对值是否在数量相似预设范围内。如果不在数量相似预设范围内，返回步骤 21执行；如果在数量相似预设范围内，执行步骤 25。

从待检测网页中提取的词汇数量与当前钓鱼模板文件中的词汇数量的差值的绝对值在数量相似预设范围内时，表明从待检测网页中提取的词汇数量与当前模板文件中的词汇数量较接近，该待检测网页有可能是钓鱼网页，需通过进一步的判断才可确定其是否钓鱼网页。通过数量相似预设范围可确定从待检测网页中提取的词汇数量与当前钓鱼模板文件中的词汇数量是否在一个量级，如果两者相差较大，则认为待检测网页与当前钓鱼模板文件不相似，数量相似预设范围可根据待检测网页中的词汇数量设置。

步骤 25: 从待检测网页中提取的词汇数量在数量相似预设范围时，判断从待检测网页中提取的词汇与当前钓鱼模板文件中词汇的词汇相似度是否在词汇相似高预设值与词汇相似低预设值之间。如果词汇相似度在词汇相似高预设值与词汇相似低预设值之间执行步骤 26。若词汇相似度不在词汇相似高预设值与词汇相似低预设值之间，但词汇相似度大于词汇相似高预设值时执行步骤 27, 词汇相似度小于词汇相似低预设值时返回步骤 21执行。

词汇相似度是指待检测网页中的词汇与某一钓鱼模板文件有多少相同的词汇的度量，一般情况下词汇相似度可以描述成某种算式，比如：待检测网页有 m个词汇，而某一钓鱼模板文件有 n个词汇，两者有 s个相同的词汇，此时词汇相似度可描述为一个百分比数值： [2 X s/(m + n)] X 100, 当该数值高于某一阈值，则认为待检测网页中的词汇与某一钓鱼模板文件的词汇相似度很高。

词汇相似度大于词汇相似高预设值时，表明待检测网页的词汇与钓鱼模板文件的相同词汇较多，由于当前钓鱼模板文件对应的网页是钓鱼网页，因此可确定待检测网页为钓鱼网页。如果当前品牌模板文件对应的网页为品牌网页，由于在提取待检测网页的内容特征之前，已确定在信任域名库中没有该待检测网页的唯一域名，因此，同样可确定该待检测网页为钓鱼网页。

词汇相似度小于词汇相似高预设值时，表明待检测网页的词汇与模板文件的相同词汇较少，可确定该待检测网页不是钓鱼网页。

步骤 26: 词汇相似度在词汇相似高预设值与词汇相似低预设值之间时，判断从待检测网页中提取的文档对象模型与当前钓鱼模板文件中文档对象模型的模型相似度是否大于模型相似预设值。如果是执行步骤 27, 否则返回步骤 21执行。

从待检测网页中提取的文档对象模型与当前钓鱼模板文件中文档对象模型的模型相似度大于模型相似预设值，表明两者在文档对象模型方面的相似程度较高。模型相似度可以换算成百分比数，模型相似度也可以换算成 0到 100的数值。将模型相似度换算成百分比数时模型相似预设值可以为 80%。将模型相似度换算成 0到 100的数值时，模型相似预设值可以是 50。

步骤 27: 在模型相似度大于模型相似预设值时，确定待检测网页为钓鱼网页，并输出该钓鱼模板文件对应的钓鱼网页名称。返回步骤 21执行。

在确定待检测网页为钓鱼网页后，与后续的模板文件继续匹配的目的是，可根据模型相似度从多个达到模型相似预设值的模板文件中找出相似度最高的模板文件，从而输出该相似度最高的模板文件对应的钓鱼网页名称。

如果在步骤 22中读取的是品牌模板库中品牌模板文件，则步骤 27中输出该品牌模板文件对应的品牌网页的网页名称。

需要说明的是，钓鱼模板中可以仅包含编码格式、词汇数量、词汇相似度、文档对象模型的相似度中的部分内容特征，并且上述各内容也可以灵活组合，进行相似度判决时的顺序也可以灵活调整。例如：

替代方案一：

省略步骤 23 , 在执行步骤 22, 从钓鱼模板库中按序读取一个还没有与待检测页匹配的钓鱼模板文件后，直接进入步骤 24, 判断从待检测网页中提取的词汇数量与当前模板文件中的词汇数量差值的绝对值是否在数量相似预设范围内。如果不在数量相似预设范围内，返回步骤 21执行；如果在数量相似预设范围内，执行步骤 25。

替代方案二：

先执行步骤 24〜步骤 25所述的词汇数量、词汇相似度的判决，再在根据词汇数量、词汇相似度无法判断出为钓鱼网页时，再执行步骤 23编码格式的判断，若编码格式相同则为钓鱼网页，否则为非钓鱼网页。

各种替代方案在这里不再一一列举。

本发明实施例。通过从待检测网页提取的内容特征：待检测网页的编码格式、词汇、网页词汇量和 DOM, 分别与钓鱼模板库中各钓鱼模板文件保存的内容特征进行匹配，在编码格式与当前匹配的钓鱼模板文件相同时，则确定待检测网页为钓鱼网页，并继续与下一个钓鱼模板文件进行匹配。在编码格式不同时，与当前钓鱼模板文件中的词汇数量进行匹配，在与当前钓鱼模板文件的词汇数量接近时，确定该待检测网页为钓鱼网页，否则继续与该钓鱼模板文件进行词汇相似度匹配。在词汇相似度达到词汇相似预设值时确定该待检测网页为钓鱼网页，并继续与下一个钓鱼模板文件进行匹配；否则与该钓鱼模板文件的 DOM进行模型相似度匹配，模型相似预设值时，确定待检测网页为钓鱼网页。在确定待检测网页为钓鱼网页时，同时还输出当前匹配的钓鱼模板议论折的网页名称。另外，还可将待检测网页的内容特征与品牌模板库中各模板文件进行匹配。确定该待检测网页为钓鱼网页的同时，还可输出该模板文件对应网页的名称，即该待检测网页所仿冒的品牌网页的名称。

图 3 为本发明提供的钓鱼网页检测方法实施例三流程图。本实例主要说明品牌模板库中品牌模板文件建立过程。钓鱼模板库中钓鱼模板文件建立过程与品牌模板库相似，区别仅在于钓鱼模板库中钓鱼模板文件用于保存已知钓鱼网页的内容特征，而品牌模板库中品牌模板文件用于保存已知品牌网页的内容特征。如图 3所示，本实施例包括：

步骤 30: 判断品牌 URL列表中是否还存在没有处理的 URL。如果是执行步骤 31 , 否则结束。

步骤 31 : 从品牌 URL列表按序读取一个没有处理的 URL。

步骤 32: 根据读取的 URL下载相应的网页。

步骤 33: 从下载网页中提取出内容特征：下载网页的编码格式、词汇、词汇数量和 DOM。

步骤 34: 判断品牌模板库是否存在还没有匹配的品牌模板文件。具体判断品牌模板库是否存在还没有与从下载网页中提取出内容特征进行匹配的品牌模板文件。如果存在还没有与从下载网页中提取出内容特征进行匹配的品牌模板文件，执行步骤 35 , 否则执行步骤 37。

步骤 35: 从品牌模板库中按序读取一个没有匹配过的品牌模板文件。步骤 36: 判断该下载网页的内容特征与当前品牌模板文件的内容特征的相似度是否小于预设的相似阈值。如果小于预设的相似阈值，确定该下载网与当前品牌模板文件不相似，返回步骤 34执行继续与后续的品牌模板文件进行匹配。如果大于预设的相似阈值，确定该下载网与当前品牌模板文件相似，不需要在品牌模板库中保存该下载网页的内容特征，返回步骤 30执行，以对下一个 URL对应的下载网页进行匹配。

步骤 37: 将下载网页的内容特征以品牌模板文件形式写入品牌模板库。返回步骤 30继续执行。

本发明实施例建立品牌模板库时，将下载网页的内容特征与品牌模板库中已有品牌模板文件进行匹配，只有在品牌模板库中不存在与该下载网页的内容特征相似的品牌模板文件 (即下载网页与所有品牌模板文件都不相似 ) 时，才将该下载网页以品牌模板文件形式存入品牌模板库中，从而避免了在品牌模板库中重复保存多个相似网页的品牌模板文件。图 4A为本发明提供的钓鱼网页检测设备实施例一结构示意图。如图 4所示，本实施例包括：信任域名库 40、域名确定模块 41、内容提取模块 42、相似度确定模块 43和钓鱼网页确定模块 44以及模板文件库 45。

信任域名库 40, 用于保存受信任的唯一域名。模板文件库 45 , 用于保存多个模板文件，模板文件包括从网页中提取的内容特征；所述内容特征至少包括：网页的编码格式、文档对象模型、词汇和词汇数量。具体地，模板文件库包括：钓鱼模板库和品牌模板库。钓鱼模板库，用于保存包括从钓鱼网页中提取的内容特征的模板文件。品牌模板库，用于保存包括从品牌网页中提取的内容特征的模板文件。

域名确定模块 41 ,用于判断信任域名库 40中是否存在待检测网页对应的唯一域名。内容提取模块 42, 用于在域名确定模块 41确定信任域名库中不存在唯一域名时，从待检测网页中提取的内容特征。

相似度确定模块 43 ,用于分别确定内容提取模块 42从待检测网页中提取的内容特征与模板文件库 45的各模板文件中内容特征的相似度。

钓鱼网页确定模块 44, 用于在从待检测网页中提取的内容特征，至少与为钓鱼网页。

由于本发明实施例钓鱼网页检测设备检测网页，不需要远程设备配合完成，可以部署于任意网络节点处，支持大流量检测。例如可部署于网络流量监控设备、防火墙设备和路由器等。图 4B为本发明提供的钓鱼网页检测设备一种应用场景示意图。如图 4B所示，本发明实施例钓鱼网页检测设备从网络流量监控设备中获取待检测网页的 URL,根据 URL从网络下载待检测网页后进行检测，将检测结果输出给其它设备。图 4C为本发明提供的钓鱼网页检测设备另一种应用场景示意图。如图 4C所示，本发明实施例钓鱼网页检测设备直接从网络流量监控设备获取 HTTP数据包进行钓鱼网页检测，将检测结果输出给其它设备。

进一步，如图 5所示，本实施例还包括：网页名称输出模块 46, 用于确件，输出该些模板文件所对应的钓鱼网页名称或对应的被仿冒品牌网页名称。上述各模块的工作机理参见图 1对应实施例的描述，在此不再贅述。本发明实施例钓鱼检测设备，在检测待检测网页时，域名确定模块 41从本地保存的信任域名库中查找待检测页面对应的唯一域名，在信任域名库中不存在该唯一域名时，相似度确定模块 43将待检测网页的内容特征，与保存在本地的模板文件进行匹配确定相似度。由于钓鱼网页通常由自动程序产生或直接仿冒品牌网页，钓鱼网页的内容特征基本相似，内容特征可反映出钓鱼网页的特性。因此本发明通过内容特征确定网页是否钓鱼网页，提高了钓鱼网页检测结果的准确性。另外，由于本发明通过不断更新的信任域名库先确定待检测网页是否为受信任的网页，从而减少了将品牌网页误判为钓鱼网页的几率。

图 6为图 4或图 5中相似度确定模块的结构示意图。如图 6所示，相似度确定模块 43 包括：读取单元 431、编码格式确定单元 432、词汇数量确定单元 433、词汇确定单元 434和对象模型确定单元 435。

读取单元 431 , 用于从钓鱼模板库或品牌模板库中读取一模板文件。

编码格式确定单元 432,用于判断从待检测网页中提取的编码格式是否与模板文件中的编码格式相同。

词汇数量确定单元 433 ,用于在编码格式确定单元 432确定编码格式相同时，判断从待检测网页中提取的词汇数量是否在模板文件中的词汇数量对应的数量相似预设范围内。

词汇确定单元 434,用于词汇数量确定单元 433确定词汇数量在数量相似预设范围时，判断从待检测网页中提取的词汇与模板文件中词汇的词汇相似度是否在词汇相似高预设值与词汇相似低预设值之间。

对象模型确定单元 435 ,用于在词汇确定单元 434确定所述词汇相似度在词汇相似高预设值与词汇相似低预设值之间时，确定从所述待检测网页中提取的文档对象模型与所述模板文件中文档对象模型的模型相似度，并判断所述模型相似度是否大于模型相似预设值。

钓鱼网页确定模块 44, 具体用于在对象模型确定单元 435确定模型相似度大于模型相似预设值或在词汇确定单元 434词汇相似度高于词汇相似高预设值时，确定待检测网页为钓鱼网页。

上述各模块的工作机理参见图 2对应实施例的描述，在此不再贅述。本发明实施例。通过从待检测网页提取的内容特征：网页编码格式、网页词汇、网页词汇量和网页 DOM, 分别与钓鱼模板库中各模板文件保存的内容特征进行匹配，得到多个相似度。只要其中一个相似度大于预设的相似阈值，则确定该待检测网页是钓鱼网页，并还可确定相似度大于预设的相似阈值的模板文件对应的网页名称，从而确定该待检测网页相似的钓鱼网页。另外，还可将待检测网页的内容特征与品牌模板库中各模板文件进行匹配。在品牌模板库中确定出相似度大于预设的相似阀值的模板文件时，确定该待检测网页为钓鱼网页的同时，还可输出该模板文件对应网页的名称，即该待检测网页所仿冒的品牌网页的名称。

图 7为本发明提供的钓鱼网页检测设备实施例三结构示意图。如图 7所示，在图 5所示的基础上还包括：钓鱼模板库建立模块 47、品牌模板库建立模块 48和信任域名库建立模块 49。

钓鱼模板库建立模块 47, 用于将从钓鱼网页提取的内容特征，与钓鱼模板库中各模板文件中内容特征进行匹配，确定从钓鱼网页提取的内容特征与各模板文件的相似度；在从钓鱼网页提取的内容特征与各模板文件的相似度均小于预设的相似阈值时，将从钓鱼网页提取的内容特征形成模板文件写入钓鱼模板库。

品牌模板库建立模块 48, 用于将从品牌网页提取的内容特征，与品牌模板库中各模板文件中内容特征进行匹配，确定从品牌网页提取的内容特征与各模板文件的相似度；在从品牌网页提取的内容特征与各模板文件的相似度均小于预设的相似阈值时，将从品牌网页提取的内容特征形成模板文件写入品牌模板库。信任域名库建立模块 49, 用于若 URL中顶级域名为非国家顶级域名，从 URL中提取出二级域名写入信任域名库；若 URL中顶级域名是国家域名且二级域名是顶级域字符串，从 URL中提取三级域名写入信任域名库。

上述各模块的工作机理参见图 3对应实施例的描述，在此不再贅述。本发明实施例建立品牌模板库时，将下载网页的内容特征与品牌模板库中已有模板文件进行匹配，只有在品牌模板库中不存在与该下载网页的内容特征相似的模板文件时，才将该下载网页以模板文件形式存入品牌模板库中，从而避免了在品牌模板库中重复保存多个相似网页的模板文件。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括： ROM、 RAM, 磁碟或者光盘等各种可以存储程序代码的介最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

权利要求

1、一种钓鱼网页检测方法，其特征在于，包括：

判断信任域名库中是否存在待检测网页对应的唯一域名；

2、根据权利要求 1所述的钓鱼网页检测方法，其特征在于，所述分别确定从所述待检测网页中提取的内容特征与模板文件库的各模板文件中内容特征的相似度，包括：

从所述模板文件库中读取模板文件，判断从所述待检测网页中提取的编码格式是否与所述模板文件中的编码格式相同；

在从所述待检测网页中提取的编码格式与所述模板文件中的编码格式相同时，判断从所述待检测网页中提取的词汇数量与所述模板文件中词汇数量的差值的绝对值是否在数量相似预设范围内；

所述词汇数量在所述数量相似预设范围时，确定从所述待检测网页中提取的词汇与所述模板文件中词汇的词汇相似度是否在词汇相似高预设值与词汇相似低预设值之间；

在所述词汇相似度在词汇相似高预设值与词汇相似低预设值之间时，计算从所述待检测网页中提取的文档对象模型与所述模板文件中文档对象模型的模型相似度；

在所述模型相似度大于模型相似预设值或在所述词汇相似度高于词汇相似高预设值时，确定所述待检测网页为钓鱼网页；从所述钓鱼模板库或所述品牌模板库读取下一模板文件，重复执行上述步骤，直至根据模型相似度从多个达到模型相似预设值的模板文件中找出相似度最高的模板文件。

3、根据权利要求 1或 2所述的钓鱼网页检测方法，其特征在于，所述信任域名库用于保存待检测网页受信任的唯一域名，所述模板文件库为品牌模板库或钓鱼模板库；所述钓鱼模板库中模板文件中包括从钓鱼网页提取的内容特征，所述品牌模板库中模板文件包括从品牌网页提取的内容特征。

4、根据权利要求 1或 2所述的钓鱼网页检测方法，其特征在于，在所述确定所述待检测网页为钓鱼网页之后，还包括：相似阈值的模板文件时，输出所述模板文件所对应的钓鱼网页名称或对应的被仿冒品牌网页名称。

5、根据权利要求 1所述的钓鱼网页检测方法，其特征在于，在所述判断信任域名库中是否存在待检测网页对应的唯一域名之前还包括：

将从钓鱼网页提取的内容特征，与钓鱼模板库中各模板文件中内容特征进行匹配，确定从钓鱼网页提取的内容特征与各所述模板文件的相似度；在从所述钓鱼网页提取的内容特征与各所述模板文件的相似度均小于所述预设的相似阈值时，将从钓鱼网页提取的内容特征形成模板文件写入所述钓鱼模板库。

6、根据权利要求 1所述的钓鱼网页检测方法，其特征在于，在所述判断信任域名库中是否存在待检测网页对应的唯一域名之前还包括：

将从品牌网页提取的内容特征，与品牌模板库中各模板文件中内容特征进行匹配，确定从品牌网页提取的内容特征与各所述模板文件的相似度；在从所述品牌网页提取的内容特征与各所述模板文件的相似度均小于所述模型相似预设值时，将从品牌网页提取的内容特征形成模板文件写入所述品牌模板库。

7、根据权利要求 5或 6所述的钓鱼网页检测方法，其特征在于，在所述判断信任域名库中是否存在待检测网页对应的唯一域名之前还包括：

收集的统一资源定位符中顶级域名为非国家顶级域名时，从所述统一资源定位符中提取出二级域名写入所述信任域名库；收集的所述统一资源定位符中顶级域名是国家域名且二级域名是顶级域名字符串时，从所述统一资源定位符中提取三级域名写入所述信任域名库。

8、一种钓鱼网页检测设备，其特征在于，包括：

信任域名库，用于保存受信任网页对应的唯一域名；

模板文件库，用于保存多个模板文件，所述模板文件包括从网页中提取的内容特征；所述内容特征至少包括：编码格式、文档对象模型、词汇和词汇数量；

相似度确定模块，用于分别确定从所述待检测网页中提取的内容特征与所述模板文件库的各所述模板文件中内容特征的相似度；

9、根据权利要求 8所述的钓鱼网页检测设备，其特征在于，还包括：网页名称输出模块，用于确定与从所述待检测网页中提取的内容特征的文件所对应的钓鱼网页名称或对应的被仿冒品牌网页名称。

10、根据权利要求 9所述的钓鱼网页检测设备，其特征在于，所述相似度确定模块包括：

读取单元，用于从钓鱼模板库或品牌模板库中读取模板文件；与所述模板文件中的编码格式相同；模板文件中的编码格式相同时，判断从所述待检测网页中提取的词汇数量与所述模板文件中词汇数量的差值的绝对值是否在数量相似预设范围内；词汇确定单元，用于从所述待检测网页中提取的词汇数量与所述模板文件中词汇数量的差值的绝对值在所述数量相似预设范围内时，判断从所述待检测网页中提取的词汇与所述模板文件中词汇的词汇相似度是否在词汇相似高预设值与词汇相似低预设值之间；

对象模型确定单元，用于在所述词汇相似度在词汇相似高预设值与词汇相似低预设值之间时，确定从所述待检测网页中提取的文档对象模型与所述模板文件中文档对象模型的模型相似度，并判断所述模型相似度是否大于所述模型相似预设值；

所述钓鱼网页确定模块，具体用于在所述模型相似度大于模型相似预设值或在所述词汇相似度高于词汇相似高预设值时，确定所述待检测网页为钓鱼网页。

11、根据权利要求 10所述的钓鱼网页检测设备，其特征在于，所述模板文件库包括：

钓鱼模板库，用于保存包括从钓鱼网页中提取的内容特征的模板文件；品牌模板库，用于保存包括从品牌网页中提取的内容特征的模板文件。

12、根据权利要求 11所述的钓鱼网页检测设备，其特征在于，还包括：钓鱼模板库建立模块，用于将从钓鱼网页提取的内容特征，与钓鱼模板库中各模板文件中内容特征进行匹配，确定从钓鱼网页提取的内容特征与各所述模板文件的相似度；在从所述钓鱼网页提取的内容特征与各所述模板文件的相似度均小于所述预设的相似阈值时，将从钓鱼网页提取的内容特征形成模板文件写入所述钓鱼模板库；

品牌模板库建立模块，用于将从品牌网页提取的内容特征，与品牌模板库中各模板文件中内容特征进行匹配，确定从品牌网页提取的内容特征与各所述模板文件的相似度；在从所述品牌网页提取的内容特征与各所述模板文件的相似度均小于所述预设的相似阈值时，将从品牌网页提取的内容特征形成模板文件写入所述品牌模板库。

13、根据权利要求 12所述的钓鱼网页检测设备，其特征在于，还包括：信任域名库建立模块，用于收集的统一资源定位符中顶级域名为非国家顶级域名时，从所述统一资源定位符中提取出二级域名写入所述信任域名库；收集的统一资源定位符中顶级域名是国家域名且二级域名是顶级域名字符串时，从所述统一资源定位符中提取三级域名写入所述信任域名库。

14、一种钓鱼网页检测方法，其特征在于，包括：

判断信任域名库中是否存在待检测网页对应的唯一域名；

在所述信任域名库中不存在所述唯一域名时，分别确定从所述待检测网页中提取的内容特征与模板文件库的各模板文件中内容特征的相似度；所述内容特征至少包括：词汇、词汇数量和文档对象模型；

15、根据权利要求 14所述的钓鱼网页检测方法，其特征在于，所述分别确定从所述待检测网页中提取的内容特征与模板文件库的各模板文件中内容特征的相似度，包括：

从所述模板文件库中读取模板文件，判断从所述待检测网页中提取的词汇数量与所述模板文件中词汇数量的差值的绝对值是否在数量相似预设范围内；

16、根据权利要求 14或 15所述的钓鱼网页检测方法，其特征在于，所述信任域名库用于保存待检测网页受信任的唯一域名，所述模板文件库为品牌模板库或钓鱼模板库；所述钓鱼模板库中模板文件中包括从钓鱼网页提取的内容特征，所述品牌模板库中模板文件包括从品牌网页提取的内容特征。

17、根据权利要求 14或 15所述的钓鱼网页检测方法，其特征在于，在所述确定所述待检测网页为钓鱼网页之后，还包括：相似阈值的模板文件时，输出所述模板文件所对应的钓鱼网页名称或对应的被仿冒品牌网页名称。

18、根据权利要求 14或 15所述的钓鱼网页检测方法，其特征在于，在所述判断信任域名库中是否存在待检测网页对应的唯一域名之前还包括：将从钓鱼网页提取的内容特征，与钓鱼模板库中各模板文件中内容特征进行匹配，确定从钓鱼网页提取的内容特征与各所述模板文件的相似度；在从所述钓鱼网页提取的内容特征与各所述模板文件的相似度均小于所述预设的相似阈值时，将从钓鱼网页提取的内容特征形成模板文件写入所述钓鱼模板库。

19、根据权利要求 14所述的钓鱼网页检测方法，其特征在于，在所述判断信任域名库中是否存在待检测网页对应的唯一域名之前还包括：