CN105763543B

CN105763543B - 一种识别钓鱼网站的方法及装置

Info

Publication number: CN105763543B
Application number: CN201610076991.0A
Authority: CN
Inventors: 安子岩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-02-03
Filing date: 2016-02-03
Publication date: 2019-08-30
Anticipated expiration: 2036-02-03
Also published as: CN105763543A

Abstract

本发明实施例公开了一种识别钓鱼网站的方法及装置。该方法包括：对网页进行抓取，以生成网页抓取结果；对所述网页抓取结果进行网页渲染，以形成待识别网页；依据真实网站网页对所述待识别网页进行图像匹配，并根据图像匹配结果识别钓鱼网站。本发明实施例通过采用上述技术方案，可以对钓鱼网站进行主动识别，能够有效地提高钓鱼网站的识别速度，缩短钓鱼网站的发现周期，从而减少钓鱼网站类诈骗案件的发生，降低用户因钓鱼网站产生的财产损失，提高用户体验。

Description

一种识别钓鱼网站的方法及装置

技术领域

本发明涉及网络安全领域，尤其涉及一种识别钓鱼网站的方法及装置。

背景技术

随着互联网的发展，用户在互联网上存放的资产越来越重，网络诈骗也越来越多。在网络诈骗中，因钓鱼网站通常是由用户操作的，缺少行之有效的预防和防范方法而使得钓鱼网站类诈骗在网络诈骗中占据了很高的比例。

现有技术对于钓鱼网站的防范主要是各安全性较高的网站针对各自的站点采用用户上报处理的机制来进行防护，这种防护方法没有办法针对钓鱼网站进行主动识别，需要依靠用户的上报来进行被动处理，发现周期长，不能对钓鱼网站进行很好的防护，用户体验差。此外，各网站对于钓鱼网站的防护措施往往只适用于自己的网站，不具备普遍适用性。

发明内容

有鉴于此，本发明实施例提供一种识别钓鱼网站的方法及装置，以解决现有技术中针对钓鱼网站的防护措施不能对钓鱼网站进行主动识别，钓鱼网站发现周期长，用户体验差的问题。

第一方面，本发明实施例提供了一种识别钓鱼网站的方法，包括：

对网页进行抓取，以生成网页抓取结果；

对所述网页抓取结果进行网页渲染，以形成待识别网页；

依据真实网站网页对所述待识别网页进行图像匹配，并根据图像匹配结果识别钓鱼网站。

第二方面，本发明实施例还提供了一种识别钓鱼网站的装置，包括：

网页抓取模块，对网页进行抓取，以生成网页抓取结果；

网页渲染模块，用于对所述网页抓取结果进行网页渲染，以形成待识别网页；

网页匹配模块，用于依据真实网站网页对所述待识别网页进行图像匹配，并根据图像匹配结果识别钓鱼网站。

本发明实施例提供的技术方案，对网页进行抓取，并对网页抓取的结果进行网页渲染，从而形成待识别网页，并通过将真实网站网页与待识别网页进行匹配来识别钓鱼网站，无需进行图像切割，不需要用户进行上报处理即可对钓鱼网站进行主动识别，能够有效地提高钓鱼网站的识别速度，缩短钓鱼网站的发现周期，因而能够减少钓鱼网站类诈骗案件的发生，降低了用户因钓鱼网站产生的财产损失，提高了用户体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例一提供的一种识别钓鱼网站的方法的流程示意图；

图2为本发明实施例一提供的待抓取统一资源定位符阵列示意图；

图3为本发明实施例二提供的一种识别钓鱼网站的方法的流程示意图；

图4为本发明实施例三提供的一种识别钓鱼网站的方法的流程示意图；

图5A为本发明实施例三提供的真实网站网页图像示意图；

图5B为本发明实施例三提供的一个待识别网页图像示意图；

图5C为本发明实施例三提供的另一个待识别网页图像示意图；

图6为本发明实施例四提供的一种识别钓鱼网站的装置的结构框图，

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

实施例一

本发明实施例一提供一种识别钓鱼网站的方法，该方法可以由识别钓鱼网站的装置执行，其中该装置可由软件和/或硬件实现，一般可集成在钓鱼网站识别服务器中。图1为本发明实施例一提供的识别钓鱼网站方法的流程示意图。如图1所示，该方法包括：

S101、对网页进行抓取，以生成网页抓取结果。

其中，所述对网页进行抓取，以生成网页抓取结果，可以包括：采用网络爬虫技术对网页进行抓取，以生成网页抓取结果；和/或，采用网络抓包技术对网页进行抓取，以生成网页抓取结果。

抓包指的是将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作，网络抓包技术可以通过对网络数据进行截获、检测等操作来检查网络的安全性。

网络爬虫是一个自动提取网页的程序，是搜索引擎的重要组成部分。示例性的，以采用网络爬虫技术进行网页抓取为例，网络抓取过程包括：首先选取种子统一资源定位符(Uniform Resource Locator，URL)，将这些种子URL放入待抓取URL队列；从待抓取的URL阵列中取出待抓取URL，解析待抓取URL的域名***(Domain Name System，DNS)，查看与待抓取URL对应的网页，并将这些对应网页已查看的URL放入已抓取URL队列；分析已抓取URL队列中的URL，分析其中包含的其他URL，并将其他URL放入待抓取URL队列，从而进入下一个循环。其中，统一资源定位符URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址，互联网上的每个文件都有一个唯一的URL，以指出文件的位置以及浏览器对该文件的处理方式；域名***DNS是互联网上作为域名和IP地址相互映射的一个分布式数据库，域名解析指的是通过主机名，最终得到该主机名对应的IP地址的过程。

在对网页进行抓取时，决定待抓取URL队列中URL排列顺序的方法叫做抓取策略，常见的抓取策略包括深度优先遍历策略、宽度优先遍历策略、反向链接数策略、大站优先策略等，相同的网页采用不同的抓取策略进行网页抓取，往往会有不同的抓取顺序。其中资深优先遍历策略的基本思路为：网络爬虫从种子URL开始一个链接一个链接的进行跟踪，处理完一条线路后再转入下一条线路；宽度优先遍历策略的基本思路为：将新查看网页中发现的URL直接***待抓取URL队列的末尾，也就是指网络爬虫会先抓取种子网页中包含的所有网页，然后再选择其中一个链接网页，继续抓取在此网页中链接的所有网页；反向链接数表示的是一个网页的内容受其他网页链接所指向的数量，因此反向链接数策略指的是以网页的反向链接数的多少确定网页的抓取顺序；大站优先策略的基本思路为：将待抓取URL队列中的所有网页根据其所属网站进行分类，对于待查看网页数多的网站优先抓取。

示例性的，如图2所示，假设URL A为种子URL，URL A中包含URL B、URL C、URL D、URL E、URL F，URL E中包含UEL H，URL F中包含URL G，URL H中包含URL I，若采用深度优先策略对其进行抓取，则抓取的路径可以为：A-B-C-D-E-H-I-F-G；若采用宽度有点遍历策略，则其抓取路径可以为：A-B-C-D-E-F-G-H-I。本发明实施例中对网页进行抓取时可采用上述的任意一项或多项抓取策略进行抓取，此处不作限制。

示例性的，在对网页进行抓取的过程中，可以将生成的网页抓取结果以超文本标记语言(Hyper Text Markup Language，HTML)形式的字符串进行存储与传输。对网页抓取结果进行存储时，优选的，可以在每个网页抓取完成后即对该网页的相关信息进行存储。对网页抓取结果进行传输时，可以在全网网页存储完成后对所有网页信息进行一次传输，或是在每个网页的网页信息存储完成后即对该网页的网页信息进行传输；也可以预先设置网页抓取结果的传输阈值，若已存储且未发送的网页抓取结果的大小达到传输阈值，则对该已存储且未发送部分的网页抓取结果进行传输。

S102、对所述网页抓取结果进行网页渲染，以形成待识别网页。

示例性的，网页渲染的过程可以为：(1)根据接收到的网页抓取结果向服务器发送请求并接收文件(JS、CSS等)；(2)解析HTML源码，调用脚本(Javascript，JS)文件，创建解析树(DOM Tree，DOM树)，其中，在DOM树中，每个HTML标签都有一个对应的节点，且每一个文本也都具有一个对应的文本节点；(3)解析层叠样式表(Cascading Style Sheets，CSS)代码，调用脚本文件构建CSS规则树(CSS Rule Tree)，其中，在解析CSS的时候可以按照如下顺序定义优先级：浏览器默认设置-用户设置-外链样式-内联样式-HTML中定义的样式；(4)调用DOM树和CSS规则树构造渲染树(Rendering Tree)，其中，在构建渲染树时往往会忽略不需要渲染的元素，如head、display：none的元素等，然后将HTML中的每一行对应创建一个独立的节点，并将其对应的CSS属性存储到节点中；(5)根据渲染树绘制网页页面。

在此，渲染后形成的待识别页面与用户浏览该网页时所看到的待识别页面是完全一致的，从而保证了钓鱼网站识别结果的准确性。

S103、依据真实网站网页对所述待识别网页进行图像匹配，并根据图像匹配结果识别钓鱼网站。

示例性的，在依据真实网站网页对所述待识别网页进行图像匹配时，可以首先从真实网站图像库中调用真实网站的图像，并将待识别网页转换成图片格式的文件，然后将待识别网站图像和真实网站图像进行图像匹配度计算，若待识别网站图像与真实网站图像的匹配度高于设定阈值，则将待识别网站所属网站判定为钓鱼网站。其中，真实网站图像库用于存储真实网站各网页所用过的历史版本和现用版本的图像，使用时可以间隔预设时间对真实网站图像库进行更新，预设时间可以根据需要灵活设置，例如可以设置为24小时，即每间隔24小时对真实网站图像库更新一次，并保留该真实网站更新前后的图像；设定阈值可以根据需要进行动态调整，此处不作限制，示例性的，设定阈值可以设置为0.8，此时，若待识别网站图像与真实网站图像的匹配度高于0.8，则判定待识别网页所属网站为钓鱼网站。

本发明实施例提供的技术方案，采用网络爬虫技术和/或网络抓包技术进行网页抓取，并对网页抓取的结果进行网页渲染，从而形成待识别网页，对真实网站网页与待识别网页进行图像匹配，根据匹配结果判定待识别网页所属网站是否为钓鱼网站，若待识别网页所属网站被判定为钓鱼网站，则可以在检索列表中添加标注或将待识别网页所属网站的网址加入到***的防御体系中，当用户访问待识别网页所属网站时自动弹出对话框告知用户此网站可能是钓鱼网站；也可以主动针对被判定为钓鱼网站的待识别网页所属网站进行律师函的发放或通知真实网站方其网站被钓鱼网站模仿。本发明实施例通过采用上述技术方案，通过将真实网站网页与待识别网页进行匹配来识别钓鱼网站，无需进行图像切割，不需要用户进行上报处理即可对钓鱼网站进行主动识别，能够有效地提高钓鱼网站的识别速度，缩短钓鱼网站的发现周期，从而减少钓鱼网站类诈骗案件的发生，降低用户因钓鱼网站产生的财产损失，提高用户体验。

实施例二

本发明实施例二提供一种识别钓鱼网站的方法，本实施例在上述实施例的基础上进行优化：

进一步的，所述依据真实网站网页对所述待识别网页进行图像匹配，并根据图像匹配结果识别钓鱼网站，包括：依据所述真实网站网页对所述待识别网页进行主题布局匹配，计算所述待识别网页与所述真实网站网页的主题布局相似度；若所述待识别网页与所述真实网站网页的主题布局相似度大于第一相似度阈值，则对所述待识别网页所属的待识别网站与真实网站进行网站标识匹配，计算所述待识别网站与所述真实网站的标识相似度；若所述待识别网站与所述真实网站的标识相似度大于第二相似度阈值，则将所述待识别网站确定为钓鱼网站。

进一步的，依据真实网站网页对所述待识别网页进行图像匹配之前，还包括：依据真实网站的域名，筛除所述待识别网页中包含的真实网站网页。

图3为本发明实施例二提供的识别钓鱼网站的方法的流程示意图，相应的，如图3所示，该方法包括：

S201、对网页进行抓取，以生成网页抓取结果。

S202、对所述网页抓取结果进行网页渲染，以形成待识别网页。

S203、依据真实网站的域名，筛除所述待识别网页中包含的真实网站网页。

域名(Domain Name)是由一串用点分隔的名字组成的互联网上某一台计算机或计算机组的名称，用于在数据传输时标识计算机的电子方位。域名可以分为不同的级别，如：顶级域名、二级域名、三级域名、注册域名等。其中，顶级域名通常指cn、us等国家顶级域名或是com、nom等国际顶级域名；二级域名在顶级域名之下，通常是指域名注册人的网上名称；三级域名在二级域名之下，由字母(A-Z，a-z)、数字(0-9)和连接符(-)组成，各级域名之间用实点(.)连接。示例性的，假设某域名为：baike.***.com，那么其顶级域名为com，二级域名为***，三级域名为baike。

优选的，在所述依据真实网站的域名，筛除所述待识别网页中包含的真实网站网页之前，可以预先设置域名白名单，并将真实网站的域名存储到该域名白名单中，对于域名白名单内的域名免于进行图像匹配。

示例性的，在筛除待识别网页中包含的真实网站网页时，可以首先从域名白名单中调用真实网站的网页，然后将待识别网页与真实网页进行域名匹配，若匹配成功，则判定待识别网页为真实网页，不再进行后续操作；若匹配失败，则调用域名白名单中的下一未匹配真实网站域名重新进行域名匹配直至域名匹配成功或域名白名单中的所有域名均匹配结束，若域名白名单中存储的所有域名均匹配结束时仍未找到与待识别网页域名匹配的真实网站域名，则说明待识别网页域名未存储在域名白名单中，对待识别网页进行图像匹配的操作。为了提高筛除待识别网页中包含的真实网站网页时的筛除效率，优选的，在进行域名匹配时，可以只对待识别网页与真实网站的顶级域名与二级域名进行匹配，若顶级域名与二级域名均匹配成功，则判定待识别网页为真实网站网页；否则，调用下一真实网站域名对待识别网页进行域名匹配或者对待识别网页进行图像匹配的操作。

S204、依据所述真实网站网页对所述待识别网页进行主题布局匹配，计算所述待识别网页与所述真实网站网页的主题布局相似度。

示例性的，依据真实网站网页对待识别网页进行主题布局匹配，计算待识别网页与真实网站网页的主题布局相似度的过程可以为：将待匹配网页转化为图片格式的文件并从真实网站图像库中调用真实网站的图像，分别将图片格式的真实网站网页和图片格式的待识别网页进行区块化处理，将真实网站网页图像和待识别网页图像各区块相邻的颜色进行融合以将真实网站网页图像和待识别网页图像转化为包含若干色块的模糊图像，计算待识别网页图像和真实网站网页图像中各色块的相似度以得到待识别网页与真实网站网页的主题布局相似度。

S205、若所述待识别网页与所述真实网站网页的主题布局相似度大于第一相似度阈值，则对所述待识别网页所属的待识别网站与真实网站进行网站标识匹配，计算所述待识别网站与所述真实网站的标识相似度。

在此，第一相似度阈值可以根据实际需要进行设置和调整，此处不作限制，示例性的，第一相似度阈值可以设置为0.8，此时，若待识别网页与真实网站网页的主题布局相似度大于0.8，则对待识别网页进行网站标识匹配；否则，则判定待识别网站网页为非钓鱼网站，不再进行后续操作。

网站标识可以是网站的商标/徽标(Logo)，也可以是网址中其他具有标志性的标识，考虑到操作的简洁性以及所选取标识的易识别性，优选的，可以选取网站的Logo进行网站标识匹配。

S206、若所述待识别网站与所述真实网站的标识相似度大于第二相似度阈值，则将所述待识别网站确定为钓鱼网站。

在此，第二相似度阈值可以根据实际需要进行设置和调整，此处不作限制，示例性的，第一相似度阈值可以设置为0.8，此时，若待识别网站与真实网站的标识相似度大于0.8，则判定待识别网站为钓鱼网站，并对其采取相应的措施进行防范；否则，则判定待识别网站为非钓鱼网站。

本发明实施例通过采用上述技术方案，对真实网站域名和抓取的待识别网页域名进行匹配以筛除待识别网页中包含的真实网站网页，对真实网站网页图片和待识别网页图片进行主题布局匹配，若二者主题布局匹配相似度小于或等于第一相似度阈值，则判定待识别网页所属待识别网站为非钓鱼网站，不再进行后续操作；若二者主题布局匹配相似度大于第一相似度阈值，则对待识别网站与真实网站进行网站标识匹配，若二者网站标识匹配小于或等于第二相似度阈值，则判定待识别网站为非钓鱼网站；否则，若二者网站标识匹配大于第二相似度阈值，则判定待识别网站为钓鱼网站并对其采取相应的防范措施。本发明实施例通过采用上述技术方案，对待识别网页与真实网站网页进行域名匹配，能够筛除待识别网页中的真实网站网页，有效地减少需要进行主题布局匹配和标识匹配的待识别网页的数量，从而减少钓鱼网站识别过程中的运算数量；对待识别网页与真实网站网页进行主题布局匹配和标识匹配，可以保证钓鱼网站识别结果的准确性，提高用户体验。

实施例三

图4所示为本发明实施例三提供的一种识别钓鱼网站的方法的流程示意图，本发明实施例三在上述实施例的基础上进行优化：

进一步的，所述依据所述真实网站网页对所述待识别网页进行主题布局匹配，计算所述待识别网页与所述真实网站网页的主题布局相似度，包括：确定真实网站网页中的主题特征区域；依据所述真实网站网页中的主题特征区域，确定所述待识别网页中的待识别区域；将所述真实网站网页中的主题特征区域与所述待识别网页中的待识别区域进行图像匹配，以得到所述待识别网页与所述真实网站网页的主题布局相似度。

进一步的，所述对所述待识别网页所属的待识别网站与真实网站进行网站标识匹配，计算所述待识别网站与所述真实网站的标识相似度，包括：对真实网站标识进行特征提取，以获取所述真实网站标识的主要色值；依据所述真实网站标识的主要色值，确定所述待识别网站的标识区域；依据所述真实网站标识和所述待识别网站的标识区域，计算所述待识别网站与所述真实网站的标识相似度。

相应的，本实施例提供的识别钓鱼网站的方法包括：

S301、对网页进行抓取，以生成网页抓取结果。

S302、对所述网页抓取结果进行网页渲染，以形成待识别网页。

S303、依据真实网站的域名，筛除所述待识别网页中包含的真实网站网页。

S304、确定真实网站网页中的主题特征区域。

优选的，可以通过对真实网站网页进行深度学习以确定真实网站网页中的主题特征区域。

S305、依据所述真实网站网页中的主题特征区域，确定所述待识别网页中的待识别区域。

S306、将所述真实网站网页中的主题特征区域与所述待识别网页中的待识别区域进行图像匹配，以得到所述待识别网页与所述真实网站网页的主题布局相似度。

S307、若所述待识别网页与所述真实网站网页的主题布局相似度大于第一相似度阈值，则对真实网站标识进行特征提取，以获取所述真实网站标识的主要色值。

相应的，若待识别网页与真实网站网页的主题布局相似度小于或等于第一相似度阈值，则判定待识别网页所属待识别网站为非钓鱼网站，不再进行后续操作。

S308、依据所述真实网站标识的主要色值，确定所述待识别网站的标识区域。

S309、依据所述真实网站标识和所述待识别网站的标识区域，计算所述待识别网站与所述真实网站的标识相似度。

S310、若所述待识别网站与所述真实网站的标识相似度大于第二相似度阈值，则将所述待识别网站确定为钓鱼网站。

相应的，若待识别网站与真实网站的标识相似度小于或等于第二相似度阈值，则判定待识别网站为非钓鱼网站。

示例性的，图5A所示为真实网站网页图像，图5B所示为待识别网页图像，以第一相似度阈值为0.8为例，假设待识别网页的域名不属于域名白名单，则采用本发明实施例提供的技术方案对图5B所示网页进行图像匹配的过程可以为：确定真实网站网页图像的主题特征区域501和主题特征区域502，依据真实网站网页的特征区域确定待识别网页中的待识别区域504和待识别区域505，将真实网站网页图像主题特征区域501与待识别网页图像待识别区域504进行图像匹配，将真实网站网页图像主题特征区域502与待识别网页图像待识别区域505进行图像匹配，从而获得待识别网页与真实网站网页的主题布局相似度,计算得到待识别网页与真实网站网页的主题布局相似度值为0.25，由于该相似度值小于第一相似度阈值0.8，由此可以判定图5B所示待识别网页所属待识别网站不是模仿图5A所示真实网站的钓鱼网站。

示例性的，图5A为真实网站网页图像，图5C所示为待识别网页图像，以第一相似度阈值为0.8，第二相似度阈值为0.75为例，假设待识别网页的域名不属于域名白名单，则采用本发明实施例提供的技术方案对图5C所示网页进行图像匹配的过程可以为：确定真实网站网页图像的主题特征区域501和主题特征区域502，依据真实网站网页的特征区域确定待识别网页中的待识别区域506和待识别区域507，将真实网站网页图像主题特征区域501与待识别网页图像待识别区域506进行图像匹配，将真实网站网页图像主题特征区域502与待识别网页图像待识别区域507进行图像匹配，从而获取待识别网页与真实网站网页的主题布局相似度,计算得到待识别网页与真实网站网页的主题布局相似度值为0.9，该相似度值大于第一相似度阈值0.8，则提取真实网站网页标识503,从而得到真实网站网页标识503的主要色值，根据得到的主要色值确定待识别网页的标识区域508，计算待识别网页标识区域508与真实网站网页标识503的相似度，从而获得待识别网站与真实网站的标识相似度，计算得到待识别网页与真实网站的标识相似度为0.95，该相似度大于第二相似度阈值0.75，由此可以判定图5C所示待识别网页所属待识别网站为钓鱼网站。

本发明实施例通过采用上述技术方案，对待识别网页与真实网站网页进行域名匹配，能够筛除待识别网页中的真实网站网页，有效地减少需要进行主题布局匹配和标识匹配的待识别网页的数量，从而减少钓鱼网站识别过程中的运算数量；图像匹配时，对待识别网页首先进行主题布局匹配，根据匹配结果判断是否进行标识匹配，能够快速筛除大量的完全不匹配网页，减少运算量，提高图像匹配速度；对待识别网页进行主题布局匹配和标识匹配，可以保证钓鱼网站识别结果的准确率。此外，本发明实施例所提供的技术方案还可以对钓鱼网站进行主动识别，缩短钓鱼网站的发现周期，减少钓鱼网站类诈骗案件的发生，降低用户因钓鱼网站产生的财产损失，提高用户体验。

实施例四

图6为本发明实施例四提供的一种识别钓鱼网站的装置的结构框图，该装置可由软件和/或硬件实现，一般可集成在钓鱼网站识别服务器中，可通过执行识别钓鱼网站的方法来识别钓鱼网站。如图6所示，该装置包括：

网页抓取模块601，用于对网页进行抓取，以生成网页抓取结果；

网页渲染模块602，用于对所述网页抓取结果进行网页渲染，以形成待识别网页；

网页匹配模块603，用于依据真实网站网页对所述待识别网页进行图像匹配，并根据图像匹配结果识别钓鱼网站。

进一步的，所述网页抓取模块601具体可以用于：采用网络爬虫技术对网页进行抓取，以生成网页抓取结果；和/或，采用网络抓包技术对网页进行抓取，以生成网页抓取结果。

进一步的，所述网页匹配模块603可以包括：主题匹配单元，用于依据所述真实网站网页对所述待识别网页进行主题布局匹配，计算所述待识别网页与所述真实网站网页的主题布局相似度；标识匹配单元，用于若所述待识别网页与所述真实网站网页的主题布局相似度大于第一相似度阈值，则对所述待识别网页所属的待识别网站与真实网站进行网站标识匹配，计算所述待识别网站与所述真实网站的标识相似度；钓鱼网站单元，用于若所述待识别网站与所述真实网站的标识相似度大于第二相似度阈值，则将所述待识别网站确定为钓鱼网站。

进一步的，所述主题匹配单元可以包括：特征区域子单元，用于确定真实网站网页中的主题特征区域；待识别区域子单元，用于依据所述真实网站网页中的主题特征区域，确定所述待识别网页中的待识别区域；布局相似度子单元，用于将所述真实网站网页中的主题特征区域与所述待识别网页中的待识别区域进行图像匹配，以得到所述待识别网页与所述真实网站网页的主题布局相似度。

进一步的，所述标识匹配单元可以包括：主要色值子单元，用于对真实网站标识进行特征提取，以获取所述真实网站标识的主要色值；标识区域子单元，用于依据所述真实网站标识的主要色值，确定所述待识别网站的标识区域；标识相似度子单元，用于依据所述真实网站标识和所述待识别网站的标识区域，计算所述待识别网站与所述真实网站的标识相似度。

进一步的，本发明实施例提出的识别钓鱼网站的装置还可以包括：域名筛选模块，用于在依据真实网站网页对所述待识别网页进行图像匹配之前，依据真实网站的域名，筛除所述待识别网页中包含的真实网站网页。

本发明实施例四提供的识别钓鱼网站的装置可执行本发明任意实施例所提供的识别钓鱼网站的方法，具备执行识别钓鱼网站的方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的识别钓鱼网站的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种识别钓鱼网站的方法，其特征在于，包括：

对网页进行抓取，以生成网页抓取结果；

对所述网页抓取结果进行网页渲染，以形成待识别网页；

依据真实网站的域名，筛除所述待识别网页中包含的真实网站网页；

确定真实网站网页中的主题特征区域；

依据所述真实网站网页中的主题特征区域，确定所述待识别网页中的待识别区域；

将所述真实网站网页中的主题特征区域与所述待识别网页中的待识别区域进行图像匹配，以得到所述待识别网页与所述真实网站网页的主题布局相似度；

若所述待识别网页与所述真实网站网页的主题布局相似度大于第一相似度阈值，则对所述待识别网页所属的待识别网站与真实网站进行网站标识匹配，计算所述待识别网站与所述真实网站的标识相似度；

若所述待识别网站与所述真实网站的标识相似度大于第二相似度阈值，则将所述待识别网站确定为钓鱼网站。

2.根据权利要求1所述的方法，其特征在于，所述对网页进行抓取，以生成网页抓取结果，包括：

采用网络爬虫技术对网页进行抓取，以生成网页抓取结果；和/或，

采用网络抓包技术对网页进行抓取，以生成网页抓取结果。

3.根据权利要求1所述的方法，其特征在于，所述对所述待识别网页所属的待识别网站与真实网站进行网站标识匹配，计算所述待识别网站与所述真实网站的标识相似度，包括：

对真实网站标识进行特征提取，以获取所述真实网站标识的主要色值；

依据所述真实网站标识的主要色值，确定所述待识别网站的标识区域；

依据所述真实网站标识和所述待识别网站的标识区域，计算所述待识别网站与所述真实网站的标识相似度。

4.一种识别钓鱼网站的装置，其特征在于，包括：

网页抓取模块，用于对网页进行抓取，以生成网页抓取结果；

域名筛选模块，用于依据真实网站的域名，筛除所述待识别网页中包含的真实网站网页；

网页匹配模块包括：

主题匹配单元，用于依据真实网站网页对待识别网页进行主题布局匹配，计算所述待识别网页与所述真实网站网页的主题布局相似度；所述主题匹配单元包括：特征区域子单元，用于确定真实网站网页中的主题特征区域；待识别区域子单元，用于依据所述真实网站网页中的主题特征区域，确定所述待识别网页中的待识别区域；布局相似度子单元，用于将所述真实网站网页中的主题特征区域与所述待识别网页中的待识别区域进行图像匹配，以得到所述待识别网页与所述真实网站网页的主题布局相似度；

标识匹配单元，用于若所述待识别网页与所述真实网站网页的主题布局相似度大于第一相似度阈值，则对所述待识别网页所属的待识别网站与真实网站进行网站标识匹配，计算所述待识别网站与所述真实网站的标识相似度；

钓鱼网站单元，用于若所述待识别网站与所述真实网站的标识相似度大于第二相似度阈值，则将所述待识别网站确定为钓鱼网站。

5.根据权利要求4所述的装置，其特征在于，所述网页抓取模块具体用于：

采用网络抓包技术对网页进行抓取，以生成网页抓取结果。

6.根据权利要求4所述的装置，其特征在于，所述标识匹配单元包括：

主要色值子单元，用于对真实网站标识进行特征提取，以获取所述真实网站标识的主要色值；

标识区域子单元，用于依据所述真实网站标识的主要色值，确定所述待识别网站的标识区域；

标识相似度子单元，用于依据所述真实网站标识和所述待识别网站的标识区域，计算所述待识别网站与所述真实网站的标识相似度。