CN113420239A

CN113420239A - 一种基于hacker搜索语法的钓鱼站点检测方法

Info

Publication number: CN113420239A
Application number: CN202110708007.9A
Authority: CN
Inventors: 金舒原; 张允义; 黄依婷
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-21
Anticipated expiration: 2041-06-24
Also published as: CN113420239B

Abstract

本发明公开了一种基于hacker搜索语法的钓鱼站点检测方法，包括步骤如下：S1：获取链接，利用已有的数据进行判定，检测该链接是否已经进行过判定，若是，则警告用户访问站点为钓鱼站点，若不是，则执行下一步；S2：对链接的URL进行解析，生成不同的搜索字符串，并结合Hacks搜索语法生成搜索模式；S3：根据搜索模式进行Hacks搜索，获得搜索结果；S4：根据搜索结果依次进行索引策略和资源策略的判定；S5：根据判定做出响应，若判定目标URL为钓鱼站点，则将URL加入本地数据库，并向用户发出警告正在访问站点可能为钓鱼站点；否则不做响应。本发明结合启发式策略有效检出钓鱼站点，包括部署在失陷站点上的钓鱼站点。

Description

一种基于hacker搜索语法的钓鱼站点检测方法

技术领域

本发明涉及网络安全技术领域，更具体的，涉及一种基于hacker搜索语法的钓鱼站点检测方法。

背景技术

伴随着网络技术的发展，互联网已深入到人们生活的方方面面。但网络给人们生活带来便利的同时也增加了各种网络犯罪的风险。网络攻击更具多元化、规模化、复杂化、持续化。域名解析服务作为网络的基础设施，已成为攻击者的主要攻击目标之一。其中，钓鱼攻击近年来呈明显增长的趋势。钓鱼攻击是一种欺骗性的攻击，攻击者通过伪造目标站点，诱使受害者在伪造站点上填写个人敏感信息，包括用户名，密码等，从而实现对这些敏感信息的窃取。钓鱼攻击可以通过多种方式实现，包括电子邮件、web站点、恶意软件等。

网络钓鱼攻击的日益严峻，极大的影响了用户在互联网上安全性，不仅阻碍了互联网的发展，并且也可能对社会造成不良影响。目前在钓鱼站点的研究上，主要包括三个方面：一是增加用户对网络钓鱼的认识，通过培训提高用户对钓鱼站点的识别能力，不轻易的相信来历不明的站点；二是从互联网发展角度培养网络用户的自发举报意识，形成良性的循环，共同守护互联网的安全；三是通过技术手段对钓鱼站点进行检测，提前向用户预警，阻断用户与钓鱼站点的接触。

目前的钓鱼站点检测研究主要可以分为四类，基于列表的检测方法、基于启发式的检测方法、基于第三方信誉的检测方法和基于机器学习的检测方法。

其中，基于列表的方法，即采用黑/白名单对访问域名进行匹配，是最简单最直接的方法，具有较高的准确度，***开销小，但是其受限于名单的质量，需要高质量的黑名单才能有效检出钓鱼站点，而且不能防范未知的攻击。为了缓解黑名单的不足，文献[Ramanathan S,Mirkovic J,Yu M.BLAG:Improving the Accuracy of Blacklists[J]]为了提高黑名的准确性，提出了一个汇总和评估多个黑名单的***-BLAG，并且其可以针对特定网络生成具有针对性的黑名单。BLAG通过利用黑名单的三个特性，聚合性，历史性和集中性，使用推荐***对指定网络流量中的域名进行推断，降低黑名单的误分类。

基于启发式的方法从站点上抽取多种特征，然后设计启发式的判定条件来推断站点是否是钓鱼站点。但是抽取的目标特征并不一定存在，导致这种方法准确率较低，同时启发式的判定也容易被攻击者绕过。

基于第三方信誉值的方法通过获取第三方的数据，如搜索引擎排名，whois信息等，综合考虑判定。但是基于信誉值的方法存在一个问题，如果钓鱼站点部署在一个失陷站点上，则检测方法很容易失效。据Moore and Clayton(2007)研究，其观察到的钓鱼站点中76％的部署在失陷主机上。部署在失陷主机上有两个好处，一是可以利用当前域名的信誉度，有可能绕过检测；二是攻击者节约了攻击成本。文献[Rao R S,Pais A R.Jail-Phish:An improved search engine based phishing detection system[J].computers&Security,2019,83:246-267]提出了一种利用域名搜索引擎排名的钓鱼检测方法-Jail-Phish，其通过动态生成目标站点的搜索字符串提高了搜索字符串的准确度，同时对搜索结果的返回页面进行分析，可以有效识别出部署在失陷站点上的钓鱼站点。

传统检测方法都具有各自缺陷，使用机器学习的算法可以有效的弥补一部分缺陷，但同样其本身也具有局限性。文献[Xiang G,Hong J,Rose C P,et al.Cantina+afeature-rich machine learning framework for detecting phishing web sites[J].ACM Transactions on Information and System Security(TISSEC),2011,14(2):1-28]在CANTINA的基础上提出了CANTINA+，其使用了八种不同的新特征，包括搜索引擎，第三方数据，HTML数据等，使用机器学习算法进行钓鱼站点检测。但存在的问题是需要专家知识设计特定的特征，并且需要考虑特征缺失值对效果的影响。

目前钓鱼攻击仍然难以有效检测。已有的基于列表检测、启发式检测、或是机器学习方法的检测，都需要大量的人工工作，并且列表和站点特征的完整度对效果影响较大。基于第三方信誉的方法虽然不需要大量的人工工作，但是如何更准确的描绘目标站点、如何更有效的利用信誉值、以实现对钓鱼站点简单高效准确的检测，仍需要进一步研究。

发明内容

发明的目的在于克服现有基于搜索引擎信誉的钓鱼站点中无法有效搜索目标站点和无法有效利用搜索结果数据的问题，提出一种基于hacker搜索语法的的钓鱼站点检测方法，其结合启发式策略有效检出钓鱼站点，包括部署在失陷站点上的钓鱼站点。

为实现上述本发明目的，采用的技术方案如下：

一种基于hacker搜索语法的钓鱼站点检测方法，包括步骤如下：

S1：获取链接，利用已有的数据进行判定，检测该链接是否已经进行过判定，若是，则警告用户访问站点为钓鱼站点，若不是，则执行下一步；

S2：对于数据库中不存在的链接，对URL进行解析，生成不同的搜索字符串，并结合Hacks搜索语法生成搜索模式；

S3：根据搜索模式进行Hacks搜索，获得搜索结果；

S4：根据搜索结果依次进行索引策略和资源策略的判定；

S5：根据判定做出响应，若判定目标URL为钓鱼站点，则将URL加入本地数据库，并向用户发出警告正在访问站点可能为钓鱼站点；否则不做响应。

优选地，所述的搜索模式有两种，具体如下：

对于URL中存在路径的，生成

site：域名inurl：起始路径

对于URL中不存在路径的，生成：

site：域名。

进一步地，步骤S2中，还为每个链接的URL增加重定向标志位，若产生重定向，则将重定向标志位置1，同时获取重定向后的URL，并生成其对应的生成模式。

再进一步地，步骤S3，根据搜索模式进行Hacks搜索，首先检查重定向标志位，若发生重定向，则对原始URL和重定向后URL进行Hacks搜索，否则仅对原始URL进行搜索，然后从搜索结果中提取目标数据最终的站点索引数和搜索结果的前N个URL。

再进一步地，步骤S4，对索引策略的判定，具体如下：检测重定向标志位：

a.若重定向标志位为1，则首先判定重定向前后URL的搜索结果检查索引数量是否一致性，若索引数量不一致，则判定为钓鱼站点且类型为重定向钓鱼；若索引数量一致，则检查是否为零，若为零，则判定为钓鱼且类型为普通钓鱼；

b.若重定向标志位为0，则检查站点索引数是否为零，若为零，则判定为钓鱼且类型为普通钓鱼。

再进一步地，所述资源策略包括资源类型一致性、资源路径相似度。

再进一步地，由于搜索结果中会包括多个URL，因此得到RTC和RPS的列表；

对于RPS列表PS＝{p₁，p₂，...，p_n}，其中，p_n表示搜索结果中第n个URL的资源类型是否与目标URL中的资源类型一致，一致为1，否则为0，所述的资源一致性的评价值计算公式为：

当RPSV为1时，判定该站点为正常，否则为钓鱼且类型为失陷钓鱼；

对于RTC列表TC＝{t₁，t₂，...，t_n}，其中，t_n表示搜索结果中第n个URL与目标URL的路径重合度，所述的资源路径相似度的评价值计算公式为：

令资源路径相似度的阈值为R，则当RTCV大于阈值R时，判定站点为正常站点，否则为钓鱼且类型为失陷钓鱼。

一种计算机设备，包括

检测判断模块，用于获取链接，并利用已有的数据进行判定，检测该链接是否已经进行过判定；

告警模块，用于警告用户访问站点为钓鱼站点；

搜索模式模块，用于对链接的URL进行解析，生成不同的搜索字符串，并结合Hacks搜索语法生成搜索模式，并进行Hacks搜索，获得搜索结果；

判定模块，用于判定目标URL是否为钓鱼站点，若是则将URL加入本地数据库。

一种计算机***，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述的处理器执行所述的计算机程序时，实现如上述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现如上述的方法的步骤。

本发明的有益效果如下：

相较于现有的钓鱼检测方法，本发明提出的钓鱼站点检测方法，具有以下优势：第一，针对不同的URL生成不同搜索字符串，结合hacker搜索语法生成不同的搜索模式，更精准的搜索目标站点，可以直接搜索出搜索引擎收录的站点，排除攻击者使用SEO技术对搜索效果的影响，可以更精准有效的搜集目标站点的有效数据，降低广告、SEO手段对搜索结果的影响。第二，增强的双重判定策略，综合使用搜索引擎提供的索引数据和搜索结果数据，可以有效发现不同类型的钓鱼站点，比如部署在失陷站点上的钓鱼站点，使用重定向隐藏技术的钓鱼站点。

附图说明

图1是实施例1所述的钓鱼站点检测方法的步骤流程图。

图2是实施例1所述的钓鱼站点检测方法的数据流程图。

图3是实施例1所述的资源类型一致性和资源路径相似度计算示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

本实施例根据钓鱼页面部署的不同位置，将钓鱼站点划分为三类，如表1所示。

表1钓鱼类型分类

如图1、图2所示，本实施例提供了一种基于hacker搜索语法的钓鱼站点检测方法，包括步骤如下：

本实施例的一个实现载体可以选择为浏览器插件，图2展示了插件运行情况下的检测流程图。

当用户使用安装了本插件的浏览器浏览网页，同时本插件处于开启状态。用户输入URL链接，插件获取到用户待访问的站点链接，在后台执行钓鱼站点判断流程。

在一个具体的实施例中，考虑到输入URL的不同情况，提供了两种搜索模式，具体如下：

对于URL中存在路径的，如“http://example.com/img/hello.jpg”，生成

site：example.com inurl：img

对于URL中不存在路径的，如“http://example.com”，生成：

site：example.com。

步骤S2中，还为每个链接的URL增加重定向标志位，若产生重定向，则将重定向标志位置1，同时获取重定向后的URL，并生成其对应的生成模式。

S3：根据搜索模式进行Hacks搜索，获得搜索结果；

具体地，根据搜索模式进行Hacks搜索，首先检查重定向标志位，若发生重定向，则对原始URL和重定向后URL进行Hacks搜索，否则仅对原始URL进行搜索，然后从搜索结果中提取目标数据最终的站点索引数和搜索结果的前N个URL。

S4：根据搜索结果依次进行索引策略和资源策略的判定；其中所述资源策略包括资源类型一致性、资源路径相似度。

在一个具体的实施例中，所述的索引策略：索引数是搜索引擎提供给站点的基础信誉值。一般来说，流行站点的索引数非常大，甚至可以达到上千万，而钓鱼站点则基本不会被收录，索引数为0。对于重定向情况，首先获取重定向后URL，然后对输入URL和重定向URL分别进行Hacks搜索，获取对应的搜索结果。

对比两个URL的搜索结果，若两个搜索结果索引数量级不一致，则判定为钓鱼且类型为重定向钓鱼；

否则检查两个搜索结果索引是否为零，若为零，则判定为钓鱼且类型为普通钓鱼；否则，进入资源策略模块进行判定。

对于非重定向情况，仅对输入URL进行Hacks搜索，判断其搜索结果索引数是否为零，若为零，则判定为钓鱼且类型为普通钓鱼，否则进行资源策略的判定。

因此本实施例对索引策略的判定，具体如下：检测重定向标志位：

在一个具体的实施例中，所述的资源策略：索引策略的思想来源于已有的基于搜索引擎的钓鱼检测方法，但其一般无法检测被盗用的失陷站点域名。正常站点开发通常会遵循开发规范，特定的文件有固定的存储位置，如图片存放在“img”文件夹下。而攻击者在攻陷站点后可能将钓鱼页面随意放置，如将“login.php”文件存放在“img”文件夹下。所述的资源策略包括资源类型一致性(Resource Type Consistency，RTC)和资源路径相似度(Resource Path Similarity，RPS)。

图3展示了资源一致性和资源路径相似度的计算过程。图3中仅仅是一个简单的例子，搜索结果中仅有一条URL。

在本实施例中，由于搜索结果中会包括多个URL，因此得到RTC和RPS的列表；

本实施例首先资源类型一致性，例如对于目标站点URL：https://xx.xxx-verify-xxx.com/Login.php，其目标资源类型集合target_type＝{php}，假设搜索结果资源类型集合query_type＝{html，jsp}，则资源类型一致性为：

php≠html＝＞p₁＝0

php≠jsp＝＞p₂＝0

所以得到资源类型一致性列表PS＝{0，0}，根据计算公式得到最终的资源一致性评价值为RPSV。

若资源类型一致性无法判定，则计算资源路径相似性。同样对于目标站点URLhttps://lloydsxxxx.xxx-verify-xxx.com/Login.php，其目标站点路径集合target_path＝{login.php}，假设获得的搜索结果路径集合为query_paths＝[{pay-with-visa，featured-technologies，verified-by-visa.html}，{security，secure-online-shopping.html}，...]，

得到资源路径相似度列表为TC＝[0，0，...]，根据计算公式得到最终的资源路径相似度评价值RTCV。

实施例2

本实施例基于实施例1所述的基于hacker搜索语法的钓鱼站点检测方法，还提供了一种计算机设备，包括

告警模块，用于警告用户访问站点为钓鱼站点；

实施例3

一种计算机***，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述的处理器执行所述的计算机程序时，实现的方法步骤如下：

S3：根据搜索模式进行Hacks搜索，获得搜索结果；

S4：根据搜索结果依次进行索引策略和资源策略的判定；

实施例4

一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现的方法步骤如下：

S3：根据搜索模式进行Hacks搜索，获得搜索结果；

S4：根据搜索结果依次进行索引策略和资源策略的判定；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于hacker搜索语法的钓鱼站点检测方法，其特征在于：包括步骤如下：

S3：根据搜索模式进行Hacks搜索，获得搜索结果；

S4：根据搜索结果依次进行索引策略和资源策略的判定；

2.根据权利要求1所述的基于hacker搜索语法的钓鱼站点检测方法，其特征在于：

所述的搜索模式有两种，具体如下：

对于URL中存在路径的，生成

site:域名inurl:起始路径

对于URL中不存在路径的，生成：

site:域名。

3.根据权利要求2所述的基于hacker搜索语法的钓鱼站点检测方法，其特征在于：步骤S2中，还为每个链接的URL增加重定向标志位，若产生重定向，则将重定向标志位置1，同时获取重定向后的URL，并生成其对应的生成模式。

4.根据权利要求3所述的基于hacker搜索语法的钓鱼站点检测方法，其特征在于：步骤S3，根据搜索模式进行Hacks搜索，首先检查重定向标志位，若发生重定向，则对原始URL和重定向后URL进行Hacks搜索，否则仅对原始URL进行搜索，然后从搜索结果中提取目标数据最终的站点索引数和搜索结果的前N个URL。

5.根据权利要求4所述的基于hacker搜索语法的钓鱼站点检测方法，其特征在于：步骤S4，对索引策略的判定，具体如下：检测重定向标志位：

6.根据权利要求5所述的基于hacker搜索语法的钓鱼站点检测方法，其特征在于：所述资源策略包括资源类型一致性、资源路径相似度。

7.根据权利要求6所述的基于hacker搜索语法的钓鱼站点检测方法，其特征在于：由于搜索结果中会包括多个URL，因此得到RTC和RPS的列表；

对于RPS列表PS＝{p₁,p₂,…,p_n}，其中，p_n表示搜索结果中第n个URL的资源类型是否与目标URL中的资源类型一致，一致为1，否则为0，所述的资源一致性的评价值计算公式为：

对于RTC列表TC＝{t₁,t₂,…,t_n}，其中，t_n表示搜索结果中第n个URL与目标URL的路径重合度，所述的资源路径相似度的评价值计算公式为：

8.一种计算机设备，其特征在于：包括

告警模块，用于警告用户访问站点为钓鱼站点；

9.一种计算机***，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述的处理器执行所述的计算机程序时，实现如权利要求1～7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述的计算机程序被处理器执行时，实现如权利要求1～7任一项所述的方法的步骤。