CN103179095A

CN103179095A - 一种检测钓鱼网站的方法及客户端装置

Info

Publication number: CN103179095A
Application number: CN2011104362614A
Authority: CN
Inventors: 聂万泉
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2011-12-22
Filing date: 2011-12-22
Publication date: 2013-06-26
Anticipated expiration: 2031-12-22
Also published as: CN103179095B; HK1182857A1

Abstract

本申请提供了一种检测钓鱼网站的方法及客户端装置，以解决目前的检测方法存在延后性，无法检测出新出现的钓鱼网站的问题。所述方法包括：获取目标网站的网址，并根据所述网址获取目标网站的页面信息；从目标网站的页面信息中提取出关键区域特征，并与真实关键区域特征库中的关键区域特征进行界面图像相似度的匹配；如果界面图像相似度的匹配度符合第二预设条件，则确定目标网站为钓鱼网站，否则确定目标网站为正常网站。本申请完全以局部的特征为标志，无需进行图像切割和距离匹配，所以本申请支持图像的模糊变换，即使钓鱼网站的图像出现变形和扭曲依然能够有效识别。

Description

一种检测钓鱼网站的方法及客户端装置

技术领域

本申请涉及网络安全技术，特别是涉及一种检测钓鱼网站的方法及客户端装置。

背景技术

钓鱼网站是一种网络欺诈行为，指不法分子利用各种手段，仿冒真实网站的URL地址以及页面内容，或者利用真实网站服务器程序上的漏洞在站点的某些网页中***危险的HTML代码，以此来骗取用户银行或***账号、密码等私人资料或敏感信息的恶意网站。

钓鱼网站的传播性很强，并且对用户的危害也很大，因此现有技术提出了多种检测钓鱼网站的方法。其中，普遍采用的检测方法是：设置黑名单，在客户端浏览器访问服务端的时候，首先检查客户端浏览器要访问的网站是否在所述黑名单中，如果是，则直接判定要访问的网站为钓鱼网站；如果否，则判定为正常网站，可以访问。

上述检测方法能够百分之百地检测出已列入黑名单中的钓鱼网站，但是黑名单的收集存在一定的延后性，对于新出现的钓鱼网站，不能及时收录到黑名单中，因此现有的这种方法无法检测出来。

发明内容

本申请提供了一种检测钓鱼网站的方法及客户端装置，以解决目前的检测方法存在延后性，无法检测出新出现的钓鱼网站的问题。

为了解决上述问题，本申请公开了一种检测钓鱼网站的方法，包括：

获取目标网站的网址，并根据所述网址获取目标网站的页面信息；

从目标网站的页面信息中提取出关键区域特征，并与真实关键区域特征库中的关键区域特征进行界面图像相似度的匹配；

如果界面图像相似度的匹配度符合第二预设条件，则确定目标网站为钓鱼网站，否则确定目标网站为正常网站。

其中，所述界面图像相似度的匹配度符合第二预设条件，包括：界面图像相似度的匹配度超过第二预设值，则符合第二预设条件。

优选的，所述从目标网站的页面信息中提取出关键区域特征，包括：在所述目标网站的页面图像上确定出一个或多个关键区域；在每个关键区域中提取出由两个特征点构成一组的n组特征点；将上述每组特征点中的两个特征点连成一条直线，并在所述直线上提取出m个特征点，由此每个关键区域表示成一个n×m的特征点阵列，其中n和m均为自然数；将每个关键区域对应的特征点阵列与根据页面图像的大小获取的随机数组相结合，得到用来描述所述目标网站页面的关键区域特征。

优选的，在每个关键区域中按照特殊点提取出由两个特征点构成一组的n组特征点，其中所述特殊点包含角点、边缘点、亮点和暗点。

优选的，所述相结合包括：将每个关键区域对应的特征点阵列与根据页面图像的大小获取的随机数组相加。

优选的，所述界面图像相似度的匹配之前，还包括：从目标网站的页面信息中提取出文档结构特征，并与真实文档特征库中的文档结构特征进行文档结构相似度的匹配；如果文档结构相似度的匹配度符合第一预设条件，则确定目标网站为钓鱼网站，如果不符合预设条件，则进行界面图像相似度的匹配。

优选的，所述文档结构相似度的匹配度符合第一预设条件，包括：文档结构相似度的匹配度超过第一预设值，则符合第一预设条件。

优选的，所述文档结构相似度的匹配包括：将目标网站页面的文档结构特征与真实文档特征库中的文档结构特征进行比对，并对匹配上的文档结构特征加上相应的权值；将目标网站页面的所有文档结构特征的权值累加，得到总分值；将所述总分值作为文档结构相似度的匹配度。

优选的，所述获取目标网站的网址之后，还包括：检测所述目标网站是否在预设的白名单中，当所述目标网站不在所述白名单中时，根据所述网址获取目标网站的页面信息；否则，确定目标网站为正常网站。

优选的，所述方法还包括：依据所述白名单建立真实文档特征库和真实关键区域特征库。

本申请还提供了一种检测钓鱼网站的客户端装置，包括：

网页获取模块，用于获取目标网站的网址，并根据所述网址获取目标网站的页面信息；

关键区域特征提取模块，用于从目标网站的页面信息中提取出关键区域特征；

关键区域特征匹配模块，用于将目标网站页面的关键区域特征与真实关键区域特征库中的关键区域特征进行界面图像相似度的匹配；如果界面图像相似度的匹配度符合第二预设条件，则确定目标网站为钓鱼网站，否则确定目标网站为正常网站。

优选的，所述关键区域特征提取模块包括：

关键区域确定子模块，用于在所述目标网站的页面图像上确定出一个或多个关键区域；

特征点提取子模块，用于在每个关键区域中提取出由两个特征点构成一组的n组特征点；将上述每组特征点中的两个特征点连成一条直线，并在所述直线上提取出m个特征点，由此每个关键区域表示成一个n×m的特征点阵列，其中n和m均为自然数；

关键区域特征确定子模块，用于将每个关键区域对应的特征点阵列与根据页面图像的大小获取的随机数组相结合，得到用来描述所述目标网站页面的关键区域特征。

优选的，所述装置还包括：

文档结构特征提取模块，用于从目标网站的页面信息中提取出文档结构特征；

文档结构特征匹配模块，用于将目标网站页面的文档结构特征与真实文档特征库中的文档结构特征进行文档结构相似度的匹配；如果文档结构相似度的匹配度符合第一预设条件，则确定目标网站为钓鱼网站，如果不符合预设条件，则触发关键区域特征提取模块。

优选的，所述文档结构特征匹配模块包括：

匹配子模块，用于将目标网站页面的文档结构特征与真实文档特征库中的文档结构特征进行比对，并对匹配上的文档结构特征加上相应的权值；

权值计算子模块，用于将目标网站页面的所有文档结构特征的权值累加，得到总分值；将所述总分值作为文档结构相似度的匹配度。

优选的，所述装置还包括：

白名单筛选模块，用于检测所述目标网站是否在预设的白名单中，当所述目标网站不在所述白名单中时，触发所述网页获取模块根据所述网址获取目标网站的页面信息；否则，确定目标网站为正常网站。

优选的，所述装置还包括：

特征库建立模块，用于依据所述白名单建立真实文档特征库和真实关键区域特征库。

与现有技术相比，本申请包括以下优点：

首先，本申请在进行界面图像相似度的匹配计算时，主要将网站页面的关键区域，比如登录区域、支付区域的位置，局部弯曲特征等作为匹配要素，这种图像识别方法完全以局部的特征为标志，无需进行图像切割和距离匹配，所以本申请支持图像的模糊变换，即使钓鱼网站的图像出现变形和扭曲依然能够有效识别。

其次，本申请从网站的文档结构和UI界面两方面进行相似度计算，先将目标网站与真实文档特征库进行文档结构相似度的匹配，如果匹配度符合第一预设条件，则确定为钓鱼网站；否则，继续将目标网站与真实关键区域特征库进行界面图像相似度的匹配，如果匹配度符合第二预设条件，则确定为钓鱼网站，否则确定为正常网站。经过上述两个部分的共同判断，即使目标网站是新出现的钓鱼网站，只要目标网站模仿的真实网站的特征都收录在真实文档特征库或真实关键区域特征库中，就可以及时检测出来。因此，本申请可以及时检测出钓鱼网站，并拦***问提示用户。

再次，本申请还可以先检测目标网站是否在预设的白名单中，当所述目标网站不在所述白名单中时，再从文档结构和UI界面两方面进行相似度计算。这样可以预先过滤出大量的正常网站，而只针对数量相对较少的钓鱼网站进行有针对性的检测，从而提高了检测效率。

当然，实施本申请的任一产品不一定需要同时达到以上所述的所有优点。

附图说明

图1是本申请实施例所述一种检测钓鱼网站的方法流程图；

图2是本申请实施例中提取关键区域特征的流程图；

图3是本申请另一实施例所述一种检测钓鱼网站的方法流程图；

图4是本申请实施例所述一种检测钓鱼网站的客户端装置结构图；

图5是本申请另一实施例所述一种检测钓鱼网站的客户端装置结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

钓鱼网站具有很强的模仿性，UI界面基本模仿官方网站，本申请从这个角度出发，从网站页面的文档结构和UI界面两方面进行相似度计算，及时发现钓鱼网站，并拦截此类风险提示用户。

下面通过实施例对本申请的具体实现进行详细说明。

参照图1，其为本申请实施例所述一种检测钓鱼网站的方法流程图。

步骤101，获取目标网站的网址，并根据所述网址获取目标网站的页面信息；

所述目标网站即是需要检测的可疑网站。通常，从客户端浏览器发出的目标网站的访问请求中可以获取到目标网站的网址(图URL)，依据该网址可以从服务器端获取到网页信息，所述网页信息是包括网页内容的数据。

步骤102，从目标网站的页面信息中提取出文档结构特征，并与真实文档特征库中的文档结构特征进行文档结构相似度的匹配；

如果文档结构相似度的匹配度符合第一预设条件，则确定目标网站为钓鱼网站，如果不符合预设条件，则继续以下步骤103；

目标网站的文档结构特征提取过程具体可以包括以下两个子步骤：

子步骤1，将目标网站的页面信息解析成DOM(Document Object Model，文档对象模型)树结构；

本实施例可采用现有技术中的任何一种文档结构解析方法。

子步骤2，从所述DOM树结构中提取出文档结构特征。

当一个网页以DOM树结构来表示时，可以将DOM结构进一步描述为文档结构特征的集合。例如：

DOM结构为

<a

href＝″http://ju.atpanel.com/？url＝http://list.taobao.com/browse/cat-0.htm？ad_id＝&am_id＝&cm_id＝&pm_id＝15006048193468e03af6″ target＝″_top″rel＝″nofollow″>商品分类</a>

可以描述为特征A：http://ju.atpanel.com；

特征B：商品分类。

对于目标网站页面的DOM树结构，可以从中提取部分文档结构特征进行部分匹配，也可以提取全部的文档结构特征进行全局匹配，本实施例不进行限定。

此外，所述真实文档特征库是依据官网的真实网页而建立，这些真实网页都是受保护网站的网页。建立真实文档特征库时，首先也需要对所有受保护的真实网页进行文档结构特征提取，其提取过程与从目标网站的页面信息中提取出文档结构特征类似；然后，对提取出的文档结构特征设置权值，以便计算匹配度。

所述文档结构相似度的匹配具体可以包括以下子步骤：

子步骤1，将目标网站页面的文档结构特征与真实文档特征库中的文档结构特征进行比对，并对匹配上的文档结构特征加上相应的权值；

子步骤2，将目标网站页面的所有文档结构特征的权值累加，得到总分值；

子步骤3，将所述总分值作为文档结构相似度的匹配度。

举例来说：

首先，将官方的网页模板用DOM树的方式描绘成特征。

比如DOM结构为

<a

可以描述为特征A：http://ju.atpanel.com

特征B：商品分类

然后，将这个两个特征根据网页中的权重(由业务人员进行定义)，进行评分。其中，

特征A为：10分

特征B为：5分

按照上述方法建立起来的真实文档特征库，库中是所有受保护网页的文档结构特征及其对应的权值的集合。进行匹配时，按照目标网站的DOM节点将目标网站的文件结构特征与库中所有网页的文档结构特征进行匹配，而不是针对某个网页的文档结构特征进行匹配。如果目标网站的某个文档结构特征与真实文档特征库中的特征A匹配上，则得分加10分；如果该目标网站的另一个文档结构特征与真实文档特征库中的特征B也匹配上，则得分再加5分。

依据此过程，当目标网站提取出的文档结构特征全部与真实文档特征库匹配完成后，得到一个总分值。这个总分值越高，表明二者的相似度越大，目标网站是钓鱼网站的可能性就越大，因为目标网站作为可疑网站，是在模仿真实网站，如果相似度越大，表明模仿度越高，就是一个钓鱼网站。如果相似度越低，表明目标网站与真实文档特征库中需要保护的真实网站越不相像，说明这个目标网站有可能没有模仿真实网站。

基于此，具体的，所述文档结构相似度的匹配度符合第一预设条件，可以为：文档结构相似度的匹配度超过第一预设值，则符合第一预设条件；如果未超过所述第一预设值，则不符合第一预设条件。

对于符合上述第一预设条件即相似度较高的目标网站，可以判定为钓鱼网站。进一步地，还可以判定所述钓鱼网站与真实文档特征库中的哪一个真实网站的相似度最高，从而确定出该钓鱼网站模仿的对象。

但是，对于不符合上述第一预设条件即相似度较低的目标网站，此时还不能完全确定是正常网站，还需要结合步骤103进行进一步地判定。在实际应用中，经过步骤102得到的匹配度分值即使很低也不会为0，所以一般都会进入步骤103的处理。但是在某些特殊情况下，也不排除匹配度分值为0的情况，此时目标网站完全与真实文档特征库中的网站不存在任何相似，这种情况下可判定目标网站为正常网站，无需再进入步骤103的处理。

步骤103，从目标网站的页面信息中提取出关键区域特征，并与真实关键区域特征库中的关键区域特征进行界面图像相似度的匹配；

所述界面图像相似度的匹配是基于图像识别的匹配，主要将网站页面的关键区域，比如登录区域、支付区域的位置，局部弯曲特征等作为匹配要素，这种图像识别方法完全以局部的特征为标志，无需进行图像切割和距离匹配，所以支持图片的模糊变换，即使钓鱼网站的图像出现变形和扭曲依然能够有效识别。

下面通过图2详细说明如何从网站的页面信息中提取出关键区域特征。

参照图2，其为本申请实施例中提取关键区域特征的流程图。以目标网站的提取为例，步骤如下：

步骤201，在所述目标网站的页面图像上确定出一个或多个关键区域；

步骤202，在每个关键区域中提取出由两个特征点构成一组的n组特征点；

将关键区域单独提取出来之后，把每个关键区域按照特殊点提取出由两个特征点构成一组的n组特征点，其中所述特殊点包含角点、边缘点、亮点和暗点等。例如，把每个关键区域按照角点、边缘点、亮点、暗点等提取128组特征点，每组包含两个特征点。

步骤203，将上述每组特征点中的两个特征点连成一条直线，并在所述直线上提取出m个特征点，由此每个关键区域表示成一个n×m的特征点阵列，其中n和m均为自然数；

具体的，n与m可以相同，也可以不同。例如，n和m均取值128，对于每组特征点，将组里两个特征点连成直线后，在该直线上提取出128个特征点。这样，128组特征点就构成一个128×128的特征点阵列。

步骤204，将每个关键区域对应的特征点阵列与根据页面图像的大小获取的随机数组相结合，得到用来描述所述目标网站页面的关键区域特征。

所述随机数组是根据图像大小而随机生成，将随机数组与特征点阵列结合时可以有多种结合方式，例如：可以将每个关键区域对应的特征点阵列与根据页面图像的大小获取的随机数组相加，或者相减，或者进行相乘等其他运算。通过这种结合，一幅图像中的关键特征就可以用经过处理的特征点描述出来。

目标网站可以通过图2的流程提取出关键区域特征，同样，真实关键区域特征库中的关键区域特征也可以通过图2的流程提取出来，只是提取的对象为官网的真实网页的界面图像。

每当进行钓鱼网站识别的时候，会将目标网站的截图按照以上方法进行关键区域特征提取，然后将目标网站提取出来的关键区域特征和真实关键区域特征库中预先提取好的关键区域特征进行匹配，如果符合的特征点越多，代表网站相似度越大，当相似度超过阀值则判断为钓鱼网站。

因此，所述界面图像相似度的匹配度符合第二预设条件具体可以为：界面图像相似度的匹配度超过第二预设值，则符合第二预设条件；如果未超过所述第二预设值，则不符合第二预设条件。

需要说明的是，这种基于图像识别的关键区域特征匹配方法，并不涉及传统的图像切割和距离匹配，所以支持图像的模糊变换。而且，按照射影几何的概念，按照角点、亮点、边缘、暗点等获取的图像特征，是不会因为图像的缩小、变形或扭曲而发生比较大的变化的，因此钓鱼网站在不改变图像基本显示效果的情况下，依然能够有效识别出来。

综上所述，这种从网站的文档结构和UI界面图像两方面进行相似度计算，并依据相似度计算结果进行钓鱼网站识别的方法，可以及时检测出钓鱼网站，即使目标网站是新出现的钓鱼网站，只要该目标网站模仿的真实网站的特征都收录在真实文档特征库或真实关键区域特征库中，就可以及时检测出来。

需要说明的是，图1所示实施例是本申请的一个优选实施例，本申请通过以下实施例也可以解决现有技术的检测方法存在延后性，无法检测出新出现的钓鱼网站的问题。该实施例可以仅包含图1的步骤101和103，即直接进行界面图像相似度的匹配，也可以及时检测出钓鱼网站，即使目标网站是新出现的钓鱼网站，只要该目标网站模仿的真实网站的特征都收录在真实文档特征库或真实关键区域特征库中，就可以及时检测出来。当然，如果按照图1所示实施例将文档结构和UI界面图像相结合的检测方法，犹豫增加了文档结构相似度的匹配，所以可达到更好地检测效果。

基于上述内容，为了使本领域技术人员更加了解本申请的实现，下面通过另一优选实施例进行说明。

在该实施例中，首先依据预设的白名单建立真实文档特征库和真实关键区域特征库。所述白名单中列出了受保护的网站，如果钓鱼网站模仿白名单中的真实网站，即使这个钓鱼网站是新出现的，没有被列入黑名单中，也可以被检测出来。

参照图3，其为本申请另一实施例所述一种检测钓鱼网站的方法流程图。

步骤301，获取浏览器事件；

本实施例所述方法监测浏览器的运行，并获取浏览器事件。

步骤302，接管浏览器事件；

本实施例所述方法将获取到的浏览器事件接管过来，进行钓鱼网站的检测识别。

步骤303，检测是否有网页跳转事件；

通过分析浏览器事件，可以检测出当前的浏览器事件中是否有网页跳转事件。网页跳转是指从一个网页跳转到另一网页的操作，例如用户打开某个网页，该网页上有多个链接，用户点击其中某个链接后，就产生网页跳转事件。通常，用户直接打开一个钓鱼网站的可能性很小，一般是在网页跳转的过程中链接到了钓鱼网站，因此本实施例主要检测网页跳转事件中跳转的目标URL是否为钓鱼网站。

如果有网页跳转事件，则可以提取出跳转的目标URL，并依据该URL从目标服务器上获取目标网站的网页信息，然后进入步骤304。如果没有网页跳转事件，则返回步骤301继续监测并获取浏览器事件(图3中未示出)。

步骤304，检测所述目标网站是否在预设的白名单中；

由于钓鱼网站的网址与要模仿的真实网站的网址略有不同，因此通过网址比对可以发现目标网站是否在白名单中。当所述目标网站不在所述白名单中时，为可疑网站，需进入步骤305；否则，目标网站在白名单中，一定是安全的真实的网站，因此可以确定目标网站为正常网站，结束流程。

通过白名单的初步筛选，可以预先过滤出大量的正常网站，而只针对数量相对较少的钓鱼网站进行有针对性的检测，从而提高了检测效率。

步骤305，对目标网站的页面进行文档结构分析，从目标网站的页面信息中提取出DOM文档结构特征，并利用文档匹配器与官网文档特征库中的文档结构特征进行DOM节点匹配，然后返回匹配结果值；

如果所述匹配结果值超过预设阀值，则确定目标网站为钓鱼网站，并发出危险警示提醒用户；如果所述匹配结果值未超过预设阀值，则进入步骤306。

步骤306，判断是否符合图像识别要求；

图像识别的要求是DOM结构的匹配的相似度在低值但不为0的情况下，会进入步骤307进行图像识别；如果DOM识别的匹配结果值为0，则不会进行图像识别，判断为正常网站，流程结束。

因此，除非钓鱼网站完全与官网不存在任何相似，即匹配结果值为0，否则都会进行图像识别。

步骤307，对目标网站的页面进行图像识别分析，按照区域识别方法从目标网站的页面信息中提取出关键区域特征，并与官网关键区域特征库中的关键区域特征进行界面图像相似度的匹配，然后返回匹配结果值。

区域识别方法主要将官网的关键区域，比如登录区域、支付区域的位置，局部弯曲特征作为匹配要素，此种方法完全以局部的特征为标志，进行全图匹配，无需进行图片的切割，所以支持图片的模糊变换，即使钓鱼网站的图像出现变形和扭曲依然能够有效识别。

如果图像识别的匹配结果值超过预设阀值，则确定目标网站为钓鱼网站，并发出危险警示提醒用户；如果所述匹配结果值未超过预设阀值，则确定目标网站为正常网站。

综上所述，图3所示实施例为了提高检测效率，首先通过白名单过滤出真实可靠的网站，然后将可疑网站从文档结构和UI界面两方面进行相似度计算。并且，如果判定为钓鱼网站，还会发出危险警示信息，提示用户。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请所必需的。

基于上述方法实施例的说明，本申请还提供了相应的检测钓鱼网站的客户端装置实施例，来实现上述方法实施例所述的内容。

参照图4，其为本申请实施例所述一种检测钓鱼网站的客户端装置结构图。

所述客户端装置可以包括以下模块：

网页获取模块10，用于获取目标网站的网址，并根据所述网址获取目标网站的页面信息；

文档结构特征提取模块20，用于从目标网站的页面信息中提取出文档结构特征；

文档结构特征匹配模块30，用于将目标网站页面的文档结构特征与真实文档特征库中的文档结构特征进行文档结构相似度的匹配；如果文档结构相似度的匹配度符合第一预设条件，则确定目标网站为钓鱼网站，如果不符合预设条件，则触发关键区域特征提取模块40；

关键区域特征提取模块40，用于从目标网站的页面信息中提取出关键区域特征；

关键区域特征匹配模块50，用于将目标网站页面的关键区域特征与真实关键区域特征库中的关键区域特征进行界面图像相似度的匹配；如果界面图像相似度的匹配度符合第二预设条件，则确定目标网站为钓鱼网站，否则确定目标网站为正常网站。

其中，所述文档结构相似度的匹配度符合第一预设条件，包括：文档结构相似度的匹配度超过第一预设值，则符合第一预设条件；

所述界面图像相似度的匹配度符合第二预设条件，包括：界面图像相似度的匹配度超过第二预设值，则符合第二预设条件。

需要说明的是，上述客户端装置结构仅是本申请的一个优选实施例，所述客户端装置仅包含网页获取模块10、关键区域特征提取模块40和关键区域特征匹配模块50，也可以解决现有技术的检测方法存在延后性，无法检测出新出现的钓鱼网站的问题。

基于上述两个客户端装置实施例，具体地，所述关键区域特征匹配模块50可包含以下子模块：

其中，特征点提取子模块可以在每个关键区域中按照特殊点提取出由两个特征点构成一组的n组特征点，其中所述特殊点包含角点、边缘点、亮点和暗点。

其中，所述结合可以是相加、相乘等运算，例如将每个关键区域对应的特征点阵列与根据页面图像的大小获取的随机数组相加。

具体地，所述文档结构特征匹配模块30可包含以下子模块：

DOM解析子模块，用于将目标网站的页面信息解析成DOM树结构；

文档特征提取子模块，用于从所述DOM树结构中提取出文档结构特征。

具体地，所述文档结构特征匹配模块30可包含以下子模块：

进一步可选地，为了提高检测效率，如图5所示，所述客户端装置还可以包括以下模块：

白名单筛选模块60，用于检测所述目标网站是否在预设的白名单中，当所述目标网站不在所述白名单中时，触发所述网页获取模块10根据所述网址获取目标网站的页面信息；否则，确定目标网站为正常网站。

所述客户端装置还可以包括：

特征库建立模块70，用于依据所述白名单建立真实文档特征库和真实关键区域特征库。

对于上述检测钓鱼网站的客户端装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见图1至图3所示方法实施例的部分说明即可。

在实际应用中，所述检测钓鱼网站的客户端装置可做成类似插件的单独软件安装到客户端，用于检测客户端访问的网站是否为钓鱼网站。此外，所述客户端装置也可以直接嵌入浏览器中，作为浏览器的一个功能模块，使该浏览器具有检测钓鱼网站的功能。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请可用于众多通用或专用的计算***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上对本申请所提供的一种检测钓鱼网站方法及客户端装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种检测钓鱼网站的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述界面图像相似度的匹配度符合第二预设条件，包括：

界面图像相似度的匹配度超过第二预设值，则符合第二预设条件。

3.根据权利要求1所述的方法，其特征在于，所述从目标网站的页面信息中提取出关键区域特征，包括：

在所述目标网站的页面图像上确定出一个或多个关键区域；

在每个关键区域中提取出由两个特征点构成一组的n组特征点；

将上述每组特征点中的两个特征点连成一条直线，并在所述直线上提取出m个特征点，由此每个关键区域表示成一个n×m的特征点阵列，其中n和m均为自然数；

将每个关键区域对应的特征点阵列与根据页面图像的大小获取的随机数组相结合，得到用来描述所述目标网站页面的关键区域特征。

4.根据权利要求3所述的方法，其特征在于：

在每个关键区域中按照特殊点提取出由两个特征点构成一组的n组特征点，其中所述特殊点包含角点、边缘点、亮点和暗点。

5.根据权利要求3所述的方法，其特征在于，所述相结合包括：

将每个关键区域对应的特征点阵列与根据页面图像的大小获取的随机数组相加。

6.根据权利要求1所述的方法，其特征在于，所述界面图像相似度的匹配之前，还包括：

从目标网站的页面信息中提取出文档结构特征，并与真实文档特征库中的文档结构特征进行文档结构相似度的匹配；

如果文档结构相似度的匹配度符合第一预设条件，则确定目标网站为钓鱼网站，如果不符合预设条件，则进行界面图像相似度的匹配。

7.根据权利要求6所述的方法，其特征在于，所述文档结构相似度的匹配度符合第一预设条件，包括：

文档结构相似度的匹配度超过第一预设值，则符合第一预设条件。

8.根据权利要求6所述的方法，其特征在于，所述文档结构相似度的匹配包括：

将目标网站页面的文档结构特征与真实文档特征库中的文档结构特征进行比对，并对匹配上的文档结构特征加上相应的权值；

将目标网站页面的所有文档结构特征的权值累加，得到总分值；

将所述总分值作为文档结构相似度的匹配度。

9.根据权利要求1所述的方法，其特征在于，所述获取目标网站的网址之后，还包括：

检测所述目标网站是否在预设的白名单中，当所述目标网站不在所述白名单中时，根据所述网址获取目标网站的页面信息；否则，确定目标网站为正常网站。

10.根据权利要求9所述的方法，其特征在于，还包括：依据所述白名单建立真实文档特征库和真实关键区域特征库。

11.一种检测钓鱼网站的客户端装置，其特征在于，包括：

12.根据权利要求11所述的装置，其特征在于，所述关键区域特征提取模块包括：

13.根据权利要求11所述的装置，其特征在于，还包括：

14.根据权利要求13所述的装置，其特征在于，所述文档结构特征匹配模块包括：

15.根据权利要求11所述的装置，其特征在于，还包括：

16.根据权利要求15所述的装置，其特征在于，还包括：