CN109347786A

CN109347786A - 钓鱼网站检测方法

Info

Publication number: CN109347786A
Application number: CN201810924887.1A
Authority: CN
Inventors: 康金钟; 胡国良; 肖刚; 张超; 胡嘉俊; 张勇; 严寒冰; 饶毓; 陈阳; 雷君; 周昊; 李志辉; 徐剑; 张帅; 吕志泉; 韩志辉; 马莉雅; 高川; 李世淙; 贾子骁
Original assignee: Hunan Branch Of National Computer Network And Information Security Management Center; National Computer Network and Information Security Management Center
Current assignee: Hunan Branch Of National Computer Network And Information Security Management Center; National Computer Network and Information Security Management Center
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2019-02-15

Abstract

本发明涉及一种钓鱼网站检测方法，所述方法包括:提取待检测网站的访问数据；根据所述访问数据对所述待检测网站进行第一维度检测、第二维度检测…第M维度检测中的一种或多种,M为大于等于2的正整数；若所有检测结果均为非钓鱼网站，则所述待检测网站为非钓鱼网站，否则，所述待检测网站为钓鱼网站。本发明通过多维度对钓鱼网站进行检测，从而可以准确有效地识别钓鱼网站。

Description

钓鱼网站检测方法

技术领域

本发明涉及网络安全技术领域，尤其涉及一种钓鱼网站检测方法。

背景技术

网络钓鱼，指的是攻击者通过社交网站、实时通信、垃圾邮件等信息载体发布欺诈性消息，诱导网络用户访问其构建的虚假仿冒钓鱼网站的一种攻击方式。钓鱼网站的页面与真实网站界面基本一致，目的是为了引诱用户泄露其个人敏感数据(如用户名、密码、账户ID等其他敏感信息)，黑客可利用这些个人信息对黑客假冒受害者进行欺诈性金融交易，从而获得经济利益。近年来，钓鱼网站量不断增加，用户面临愈发严峻的网络钓鱼攻击威胁。且针对移动互联网用户的钓鱼已超过传统互联网，成为钓鱼攻击新趋势。

鉴于钓鱼网站危害程度越发显著，现有技术中出现了多种钓鱼网站检测方法，用于从海量的原始流量及网络日志当中发现移动互联网的钓鱼仿冒网站，协助打击日益猖獗的电信诈骗行为，维护网络安全以及用户权益。但是，现有的钓鱼网站的检测方法至少存在以下不足：基于页面内容的网站识别需要将检测网站与已知的正规网站进行内容匹配，难以全面覆盖所有的钓鱼网站。而基于详细网络链接的钓鱼网站识别方式则是通过匹配待检测网站与常被仿冒的正规网站进行相似度匹配，当钓鱼网站域名与被仿冒网站相关程度不高时，一定程度上将影响该类方法的检测效果。因此，如何实现准确有效地识别钓鱼网站，成为亟待解决的技术问题。

发明内容

本发明所要解决的技术问题在于，提供一种钓鱼网站检测方法，通过多维度对钓鱼网站进行检测，从而可以准确有效地识别钓鱼网站。

为了解决上述技术问题，根据本发明实施例第一方面，提供了一种钓鱼网站检测方法，包括:

提取待检测网站的访问数据；

根据所述访问数据对所述待检测网站进行第一维度检测、第二维度检测…第M维度检测中的一种或多种,M为大于等于2的正整数；

若所有检测结果均为非钓鱼网站，则所述待检测网站为非钓鱼网站，否则，所述待检测网站为钓鱼网站。

进一步的，所述访问数据包括网站域名、域名对应的IP地址和网站的html页面数据，

所述根据所述访问数据对所述待检测网站进行第一维度检测、第二维度检测…第M维度检测中的一种或多种,包括以下步骤：

根据所述域名对应的IP地址对所述待检测网站进行所述第一维度检测、根据所述网站域名对所述待检测网站进行所述第二维度检测、根据所述网站的html页面数据对所述待检测网站进行所述第三维度检测中的一种或多种。

进一步的，所述提取待检测网站的访问数据，包括以下步骤：

从原始上网日志当中提取http协议的访问记录，并排除域名符合域名白名单的访问记录，得到待检测网站的访问记录；

提取所述待检测网站的网站域名、URL地址和域名对应IP地址；

根据所述URL地址获取网站的html页面数据。

进一步的，所述根据所述URL地址获取网站的html页面数据，包括以下步骤：

采用网络爬虫根据所述URL地址爬取网站的html页面数据；

根据html的标签内容筛选出文本类数据进行保存。

进一步的，所述根据所述域名对应的IP地址对所述待检测网站进行第一维度检测，包括以下步骤：

将所述域名对应的IP地址与预设的钓鱼网站黑名单IP地址库进行逐一匹配；

若所述域名对应IP地址在所述预设的钓鱼网站黑名单IP地址库中，则所述待检测网站为已知的钓鱼网站。

进一步的，所述根据所述网站域名对所述待检测网站进行第二维度检测，包括以下步骤：

根据所述网站域名与预设官方正规网站域名计算域名相似度；

若所述域名相似程度超过预设的第一阈值，则判断所述待检测网站为仿冒域名类型的钓鱼网站。

进一步的，所述根据所述网站域名与预设官方正规网站域名计算域名相似度，包括以下步骤：

分别计算待检测网站域名字符串与每一所述预设正规官方网站域名字符串的相同字母占比和同序列字符长度占比；

根据所述相同字母占比和同序列字符长度占比，计算所述待检测网站与每一所述预设正规官方网站的最终相似程度得分，公式为：

最终相似程度得分＝2*相同字母占比*同序列字符长度占比/(相同字母占比+同序列字符长度占比)，

选取所述最终相似程度得分的最大值作为所述域名相似度。

进一步的，所述计算待检测网站域名字符串与每一所述预设正规官方网站域名字符串的相同字母占比，包括以下步骤：

按照ASCII分别将待检测网站域名字符串以及每一所述预设正规官方网站域名字符串的字母或数字进行还原并去重，得到每个域名字符串对应的字符集合；

统计待检测网站域名字符集合与所述预设正规官网站方域名字符集合中相同的字符个数，并计算相同字母占比，公式如下：

相同字母占比＝相同的字符个数/预设正规官网站方域名字符集合的长度。

进一步的，所述计算待检测网站域名字符串与每一所述预设正规官方网站域名字符串的同序列字符长度占比，包括以下步骤：

初始化同序列字符列表为空列表；

将所述预设正规官网站方域名字符串中的第i个字符char_i，与待检测网站域名字符串的第j个字符char_j进行循环匹配，若char_i等于char_j，则在所述同序列字符列表中添加字符char_i，并退出当前的第j个循环，进入i+1个循环当中，其中i，j均为正整数；

当遍历完所有的字符char_i后，得到同序列字符列表，计算所述同序列字符长度占比，公式如下：

同序列字符长度占比＝同序列字符列表长度/预设正规官方网站域名长度。

进一步的，所述根据所述网站的html页面数据对所述待检测网站进行第三维度检测，包括以下步骤：

根据所述网站的html页面数据提取所述待检测网站的网页关键词；

计算所述待检测网站与预设官方正规网站的网页关键词相似度；

若所述网页关键词相似度超过预设的第二阈值，则所述待检测网站为仿冒页面内容类型的钓鱼网站。

进一步的，所述计算所述待检测网站与预设官方正规网站的网页关键词相似度，包括以下步骤：

对待检测网站以及所有预设官方正规网站的所有关键词列表进行去重排序，得到关键词总列表，所述关键词总列表包括N个关键词，N为正整数；

将所述待检测网站以及每一预设官方正规网站对应的关键词向量初始化为一个长度为N，内容全部为0的数组；

将所述待检测网站以及每一预设官方正规网站的关键词列表中的每一关键词分别与所述关键词总列表进行比较，若该关键词存在与所述关键词总列表中，则该列取值置为1，否则置为0，从而得到待检测网站的关键词向量，以及每一预设官方正规网站的关键词向量；

分别计算所述待检测网站的关键词向量与每一预设官方正规网站的关键词向量的相似度，并选取其中的最大值，作为所述待检测网站与官方正规网站的网页关键词相似度。

根据本发明实施例第二方面，提供一种控制器，其包括存储器与处理器，所述存储器存储有计算机程序，所述程序在被所述处理器执行时能够实现所述方法的步骤。

根据本发明实施例第三方面，提供一种计算机可读存储介质，用于存储计算机程序，所述程序在由一计算机或处理器执行时实现所述方法的步骤。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明一种钓鱼网站检测方法可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明通过结合IP维度、域名维度及网页内容维度等多维度对钓鱼网站进行识别，从而准确有效地识别钓鱼网站。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明一实施例提供钓鱼网站检测方法示意图；

图2为本发明一实施例提供的钓鱼网站检测方法流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种钓鱼网站检测方法的具体实施方式及其功效，详细说明如后。

如图1所示，本发明实施例提供了一种钓鱼网站检测方法，包括以下步骤:

步骤S1、提取待检测网站的访问数据；

作为一种示例，所述步骤S1可包括以下步骤：

步骤S11、从原始上网日志当中提取超文本传输协议(Hyper Text TransportProtocol，简称http协议)的访问记录，并排除域名符合域名白名单的访问记录，得到待检测网站的访问记录；

其中，原始上网日志可为运营商留存的原始上网日志。所述域名白名单库可包括美国科技公司发布的权威域名白名单库Quantcast Top Million、域名ICP备案信息库、运营商及相关网络安全厂家日常工作中积累的正常域名库等数据库的一种或多种。

步骤S12、提取所述待检测网站的网站域名、统一资源定位符(Uniform ResourceLocator简称URL)地址和域名对应IP地址；

步骤S13、根据所述URL地址获取网站的超文本标记语言(Hyper Text MarkupLanguage简称html)页面数据。

作为一种示例，所述步骤S13包括以下步骤：

步骤S131、采用网络爬虫根据所述URL地址爬取网站的html页面数据；

步骤是132、根据html的标签内容筛选出文本类数据进行保存，可提高爬取效率。

步骤S2、根据所述访问数据对所述待检测网站进行第一维度检测、第二维度检测…第M维度检测中的一种或多种,M为大于等于2的正整数；

作为一种示例，所述访问数据包括网站域名、域名对应的IP地址和网站的html页面数据，步骤S2包括：

作为一种示例，所述根据所述域名对应的IP地址对所述待检测网站进行第一维度检测，可包括以下步骤：

步骤S21、将所述域名对应的IP地址与预设的钓鱼网站黑名单IP地址库进行逐一匹配；其中，预设钓鱼网站黑名单IP地址库可来源于网络当中公开的钓鱼网站地址库以及运营商在日常过程当中的经验积累。

步骤S22、若所述域名对应IP地址在所述预设的钓鱼网站黑名单IP地址库中，则所述待检测网站为已知的钓鱼网站，可输出该钓鱼网站的访问信息。

需要说明的是，上述根据所述域名对应的IP地址对所述待检测网站进行第一维度检测的步骤仅为一种示例，其他根据IP地址检测所述待检测网站是否为钓鱼网站的方法也可适用于此。

作为一种示例，所述根据所述网站域名对所述待检测网站进行第二维度检测，包括以下步骤：

步骤S23、根据所述网站域名与预设官方正规网站域名计算域名相似度；

步骤S24、若所述域名相似程度超过预设的第一阈值，则判断所述待检测网站为仿冒域名类型的钓鱼网站，其中所述第一阈值可根据具体检测需求进行设定。

步骤S23-步骤S24可通过将待检测网站域名与预设的官方正规网站域名输入域名相似度匹配引擎，进行域名相似度的计算。

作为一种示例，所述步骤S23包括以下步骤：

步骤S231、分别计算待检测网站域名字符串str与每一所述预设正规官方网站域名字符串str_n的相同字母占比和同序列字符长度占比；

步骤S232、根据所述相同字母占比和同序列字符长度占比，计算所述待检测网站与每一所述预设正规官方网站的最终相似程度得分，公式为：

最终相似程度得分＝2*相同字母占比*同序列字符长度占比/(相同字母占比+同序列字符长度占比)；

步骤S233、选取所述最终相似程度得分的最大值作为所述域名相似度。

其中，步骤S231中，计算待检测网站域名字符串str与每一所述预设正规官方网站域名字符串str_n的相同字母占比，包括以下步骤：

步骤S2311、按照美国标准信息交换代码(American Standard Code forInformation Interchange，简称ASCII)分别将待检测网站域名字符串str以及每一所述预设正规官方网站域名字符串str_n的字母或数字进行还原并去重，得到每个域名字符串对应的字符集合；

步骤S2312、统计待检测网站域名字符集合与所述预设正规官网站方域名字符集合中相同的字符个数，并计算相同字母占比，公式如下：

步骤S231中，所述计算待检测网站域名字符串str与每一所述预设正规官方网站域名字符串str_n的同序列字符长度占比，包括以下步骤：

步骤S2313、初始化同序列字符列表为空列表；

将所述预设正规官网站方域名字符串中的第i个字符char_i，与待检测网站域名字符串str的第j个字符char_j进行循环匹配，若char_i等于char_j，则在所述同序列字符列表中添加字符char_i，并退出当前的第j个循环，进入i+1个循环当中，其中i，j均为正整数；

步骤S2314、当遍历完所有的字符char_i后，得到同序列字符列表，计算所述同序列字符长度占比，公式如下：

需要说明的是，上述根据网站域名对所述待检测网站进行第二维度检测的步骤仅为一种示例，其他根据网站域名检测所述待检测网站是否为钓鱼网站的方法也可适用于此。

作为一种示例，所述根据所述网站的html页面数据对所述待检测网站进行第三维度检测，包括以下步骤：

步骤S25、根据所述网站的html页面数据提取所述待检测网站的网页关键词；其中，可通过网络爬虫爬取的待检测网站的html页面数据，从<head>标签中提取Meta元素当中的关键词。

步骤S26、计算所述待检测网站与预设官方正规网站的网页关键词相似度；其中，可将提取到的待检测网站的网页内容关键词与官方正规网站的内容关键词输入至网站关键词相似度判断引擎，计算得出网页关键词相似度。

步骤S27、若所述网页关键词相似度超过预设的第二阈值，则判断该网站的关键词内容与官方正规网站的页面关键词雷同，则所述待检测网站为仿冒页面内容类型的钓鱼网站，其中第二阈值可根据具体的检测需求来设定。

作为一种示例，所述步骤S26包括以下步骤：

步骤S261、对待检测网站以及所有预设官方正规网站的所有关键词列表进行去重排序，得到关键词总列表[关键词1，关键词2...关键词N]，所述关键词总列表包括N个关键词，N为正整数；

步骤S262、将所述待检测网站以及每一预设官方正规网站对应的关键词向量keyword_vector初始化为一个长度为N，内容全部为0的数组；

步骤S263、将所述待检测网站以及每一预设官方正规网站的关键词列表中的每一关键词分别与所述关键词总列表进行比较，若该关键词存在与所述关键词总列表中，则该列取值置为1，否则置为0，从而得到待检测网站的关键词向量，以及每一预设官方正规网站的关键词向量，例如，关键词向量keyword_vector可为[1,0,0....1]；

步骤S264、分别计算所述待检测网站的关键词向量与每一预设官方正规网站的关键词向量的相似度，并选取其中的最大值，作为所述待检测网站与官方正规网站的网页关键词相似度。作为一种示例，计算所述待检测网站的关键词向量与每一预设官方正规网站的关键词向量的相似度，可为通过计算两个向量的余弦相似度作为网页关键词相似度，设长度为N的向量A＝(A1,A2,...,An)，B＝(B1,B2,...,Bn)，则余弦相似度θ为：

需要说明的是，上述根据网站的html页面数据对所述待检测网站进行第一维度检测的步骤仅为一种示例，其他根据网站的html页面数据检测所述待检测网站是否为钓鱼网站的方法也可适用于此。

步骤S3、若所有检测结果均为非钓鱼网站，则所述待检测网站为非钓鱼网站，否则，所述待检测网站为钓鱼网站。

通过多个维度对待检测网站进行检测，可准确有效的识别钓鱼网站，且可进一步识别钓鱼网站类型。

以下通过一具体实施例对本发明实施例所述的钓鱼网站检测方法进行进一步说明，如图2所示，包括以下步骤:

步骤S10、提取待检测网站的访问数据，所述访问数据包括网站域名、域名对应的IP地址和网站的html页面数据；

步骤S20、根据所述域名对应的IP地址对所述待检测网站进行第一维度检测，若为钓鱼网站，则结束检测，否则，进行步骤S30；

步骤S30、根据所述网站域名对所述待检测网站进行第二维度检测，若为钓鱼网站，则结束检测，否则进行步骤S40；

步骤S40、根据所述网站的html页面数据对所述待检测网站进行第三维度检测，若为钓鱼网站，则结束检测，否则，所述待检测网站为非钓鱼网站。

需要说明的是，上述检测方案仅为一种示例，实际应用中具体所涉及的维度检测、以及不同维度检测的顺序可根据检测需求等因素进行设定。其中，步骤S20-步骤S40中的第一维度检测、第二维度检测和第三维度检测可参照上述实施例中的具体过程进行，在此不再赘述。通过步骤S10-步骤S40不仅可以准确有效地识别出钓鱼网站，还可具体区分所识别的钓鱼网站所属类型。

本发明实施例还提供一种控制器，其包括存储器与处理器，所述存储器存储有计算机程序，所述程序在被所述处理器执行时能够实现所述钓鱼网站检测方法的步骤。

本发明实施例还提供一种计算机可读存储介质，用于存储计算机程序，所述程序在由一计算机或处理器执行时实现所述钓鱼网站检测方法的步骤。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种钓鱼网站检测方法，其特征在于：包括:

提取待检测网站的访问数据；

2.根据权利要求1所述的钓鱼网站检测方法，其特征在于：

所述访问数据包括网站域名、域名对应的IP地址和网站的html页面数据，

所述根据所述访问数据对所述待检测网站进行第一维度检测、第二维度检测…第M维度检测中的一种或多种包括以下步骤：

3.根据权利要求1或2所述的钓鱼网站检测方法，其特征在于：

所述提取待检测网站的访问数据，包括以下步骤：

根据所述URL地址获取网站的html页面数据；

其中，所述根据所述URL地址获取网站的html页面数据，包括以下步骤：

采用网络爬虫根据所述URL地址爬取网站的html页面数据；

根据html的标签内容筛选出文本类数据进行保存。

4.根据权利要求2所述的钓鱼网站检测方法，其特征在于：

所述根据所述域名对应的IP地址对所述待检测网站进行第一维度检测，包括以下步骤：

5.根据权利要求2所述的钓鱼网站检测方法，其特征在于：

所述根据所述网站域名对所述待检测网站进行第二维度检测，包括以下步骤：

6.根据权利要求5所述的钓鱼网站检测方法，其特征在于：

所述根据所述网站域名与预设官方正规网站域名计算域名相似度，包括以下步骤：

选取所述最终相似程度得分的最大值作为所述域名相似度。

7.根据权利要求6所述的钓鱼网站检测方法，其特征在于：

所述计算待检测网站域名字符串与每一所述预设正规官方网站域名字符串的相同字母占比，包括以下步骤：

8.根据权利要求6所述的钓鱼网站检测方法，其特征在于：

所述计算待检测网站域名字符串与每一所述预设正规官方网站域名字符串的同序列字符长度占比，包括以下步骤：

初始化同序列字符列表为空列表；

9.根据权利要求2所述的钓鱼网站检测方法，其特征在于：

所述根据所述网站的html页面数据对所述待检测网站进行第三维度检测，包括以下步骤：

10.根据权利要求9所述的钓鱼网站检测方法，其特征在于：

所述计算所述待检测网站与预设官方正规网站的网页关键词相似度，包括以下步骤：