WO2021258838A1

WO2021258838A1 - 钓鱼网站的检测方法、装置、设备、计算机可读存储介质

Info

Publication number: WO2021258838A1
Application number: PCT/CN2021/088986
Authority: WO
Inventors: 梁杰; 范渊
Original assignee: 杭州安恒信息技术股份有限公司
Priority date: 2020-06-22
Filing date: 2021-04-22
Publication date: 2021-12-30
Also published as: CN111756724A

Abstract

一种钓鱼网站的检测方法、钓鱼网站的检测装置、计算机设备和计算机可读存储介质，其中，该钓鱼网站的检测方法包括：获取待测网站的多个特征信息；获取每个特征信息对应的置信度值和权重值；按照多个特征信息分别对应的置信度值和权重值，确定待测网站的加权置信度值；在加权置信度值大于预设阈值的情况下，确定待测网站为钓鱼网站。

Description

钓鱼网站的检测方法、装置、设备、计算机可读存储介质

相关术语解释如下：

URL(Uniform Resource Locator，统一资源定位符)：网络地址。

威胁情报：根据Gartner(高德纳咨询公司)对威胁情报的定义，威胁情报是某种基于证据的知识，这些知识与资产所面临已有的或酝酿中的威胁或危害相关，这些知识包括情境、机制、指标、推论与可行建议，这些知识可为威胁响应提供决策依据。从安全从业者的角度而言，威胁情报是指一些入侵威胁指标，可用于判定待测目标是否对***构成安全威胁。

IOC(Indicators of Compromise，入侵威胁指标)：指威胁情报中具体的指标项。

置信度：指某一参数的真实值有一定概率落在测量结果的周围的程度。

钓鱼网站：指欺骗用户的虚假网站，其界面与真实网站的界面基本一致，欺骗消费者或者窃取访问者提交的账号和密码信息。

当前主流的钓鱼网站识别方案可分为以下两种：

一种是基于黑名单的检测方法，该技术通过钓鱼链接披露网站，例如PhishTank网站，其收录了大量钓鱼网站，并且更新频率高，可以通过直接对比当前访问的链接来判断该链接是否为钓鱼链接。这种识别方式较为直观，然而，最大问题在于漏报率高，目前国内披露钓鱼链接的网站较少，某些行业的钓鱼链接披露网站更是寥寥无几，比如金融行业，一方面由于样本量少，另一方面是事后披露，在全网范围内能拦截到的钓鱼网站只占很小一部分。

另一种是基于链接特征离线判断检测方法，其根据链接长度、链接路径与主机相关度、是否有加密协议构建特征模型，根据特征模型进行判断。这种方式通用范围广，然而，无法实时结合现有的威胁情报，通过离线判断的方式会产生大量的误拦截，需要增加人力投入进行审核确认，导致成本投入大且存在滞后性。

目前针对相关技术中存在的钓鱼网站的检测结果准确度低的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种钓鱼网站的检测方法、钓鱼网站的检测装置、计算机设备和计算机可读存储介质，以至少解决相关技术中存在的钓鱼网站的检测结果准确度低的问题。

第一方面，本申请实施例提供了一种钓鱼网站的检测方法，包括：获取待测网站的多个特征信息；获取每个特征信息对应的置信度值和权重值；按照所述多个特征信息分别对应的置信度值和权重值，确定所述待测网站的加权置信度值；在所述加权置信度值大于预设阈值的情况下，确定所述待测网站为钓鱼网站。

在其中一些实施例中，所述多个特征信息包括第一特征信息；获取待测网站的多个特征信息包括：获取所述网站的URL；根据所述URL获取所述第一特征信息，其中，所述第一特征信息包括以下至少之一：IP、域名、可执行文件的文件Hash值、Whois信息。

在其中一些实施例中，所述多个特征信息还包括第二特征信息；获取待测网站的多个特征信息还包括以下至少之一：从情报库中获取与所述IP关联的域名信息，以及获取与所述域名关联的IP信息，所述第二特征信息包括与所述IP关联的域名信息，以及与所述域名关联的IP信息；通过Whois反查技术，获取与所述Whois信息关联的IP和域名信息，所述第二特征信息包括与所述Whois信息关联的IP和域名信息；通过可执行文件动态分析技术，获取与所述可执行文件回连的IP和域名信息，其中，所述第二特征信息包括与所述可执行文件回连的IP和域名信息。

在其中一些实施例中，获取每个特征信息对应的置信度值和权重值包括：将所述待测网站的多个特征信息与所述情报库中的预设特征信息进行匹配；根据匹配结果得到与所述待测网站中每个特征信息对应的置信度值和权重值。

在其中一些实施例中，获取每个特征信息对应的置信度值和权重值还包括：从所述多个特征信息中确定第三特征信息，其中，所述第三特征信息包括以下至少之一：从所述URL中获取的网络传输协议信息、端口信息；根据所述第三特征信息，获取对应于所述第三特征信息的置信度值和权重值。

在其中一些实施例中，在按照所述多个特征信息分别对应的置信度值和权重值，确定所述待测网站的加权置信度值之后，所述方法还包括：判断所述加权置信度值是否大于第一预设阈值；在判断到所述加权置信度值大于第一预设阈值的情况下，确定所述待测网站为钓鱼网站，并拒绝访问所述待测网站；判断所述加权置信度值是否大于第二预设阈值；在判断到所述加权置信度值大于第二预设阈值的情况下，确定所述待测网站为疑似钓鱼网站，并发出用于指示所述待测网站为疑似钓鱼网站的告警信息。

在其中一些实施例中，在确定所述待测网站为钓鱼网站或者疑似钓鱼网站的情况下之后，所述方法还包括：将所述待测网站的URL、所述待测网站中多个特征信息收录至所述情报库中。

第二方面，本申请实施例提供了一种钓鱼网站的检测装置，包括：第一获取模块，用于获取待测网站的多个特征信息；第二获取模块，用于获取每个特征信息对应的置信度值和权重值；第一确定模块，用于按照所述多个特征信息分别对应的置信度值和权重值，确定所述待测网站的加权置信度值；第二确定模块，用于在所述加权置信度值大于预设阈值的情况下，确定所述待测网站为钓鱼网站。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的钓鱼网站的检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的钓鱼网站的检测方法。

相比于相关技术，本申请实施例提供的钓鱼网站的检测方法、钓鱼网站的检测装置、计算机设备和计算机可读存储介质，通过获取待测网站的多个特征信息；获取每个特征信息对应的置信度值和权重值；按照多个特征信息分别对应的置信度值和权重值，确定待测网站的加权置信度值；在加权置信度值大于预设阈值的情况下，确定待测网站为钓鱼网站，解决了相关技术中存在的钓鱼网站的检测结果准确度低的问题，提升了钓鱼网站的检测结果的准确度。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种钓鱼网站的检测方法的流程图。

图2是根据本申请实施例的待测网站中多个特征信息之间的关联关系示意图。

图3是根据本申请可选实施例的钓鱼网站的检测方法的流程示意图。

图4是根据本申请实施例的钓鱼网站的检测装置的结构框图。

图5是根据本申请实施例的计算机设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本实施例提供了一种钓鱼网站的检测方法。图1是根据本申请实施例的一种钓鱼网站的检测方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101：获取待测网站的多个特征信息。特征信息包括IP、域名、文件Hash值。

其中，IP形如192.168.1.1，是用户客户端(例如浏览器)定位目标服务器的唯一寻址方式。互联网中服务器的IP是全球唯一的，其可分为IPV4和IPV6，本实施例对于这两种类型的IP都是适用的。

其中，域名形如www.***.com。通过DNS服务可以将域名解析为IP，再发起服务资源的请求。因此，域名与IP存在互相关联关系，在相同时间内，一个域名可以配置解析多个IP，产生一对多关系。在历史维度上，同一个IP的服务器可能被多个域名更改解析，产生多对多关系。

其中，文件Hash值是基于消息摘要算法，对一个文件的文件特征进行计算后得到的字符串，该字符串包括字母和/或数字。在当前条件下计算生成的文件Hash值与某个文件具有一一对应关系，及文件Hash值可作为对应文件的唯一标识，以区别于其他文件。本实施例可以采用诸如SHA(Secure Hash Algorithm，安全散列算法)、MD5(Message-Digest Algorithm，消息摘要算法)等消息摘要算法获取文件Hash值。不同的消息摘要算法，摘要出来的文件特征具有不同长度，长度越长，越具有唯一性。在上述两种算法中，可选SHA-256获取文件Hash值，因为MD5的字符串相对较短，可能存在两个不同的文件但MD5值相同的情况；如果选择其他算法，字符串太长会浪费存储空间。因此，本实施例采用SHA-256，以达到同时兼顾抗碰撞性和节省存储空间的效果。

步骤S102：获取每个特征信息对应的置信度值和权重值。在本实施例中，特征信息即入侵威胁指标，本实施为每个入侵威胁指标分配了置信度值和权重值，其中，置信度值代表某一入侵威胁指标相对于待测网站被判为钓鱼网站这一决策的准确程度，权重值代表某一入侵威胁指标相对于待测网站被判为钓鱼网站这一决策的重要程度。

步骤S103：按照多个特征信息分别对应的置信度值和权重值，确定待测网站的加权置信度值。本实施例使用对应于每个特征信息的置信度值和权重值占比的积，作为单项权重，通过对各个单项权重的加和计算，得到待测网站的加权置信度值。其中，权重值占比指某一特征信息的权重值占所有特征信息的权重值之和的比值。

相关技术中通常基于单威胁情报和特征直接做出判断，导致误差较大。本实施例考虑多个特征信息，考虑每个特征信息的置信度和权重，最终以加权置信度值决定结果，有利于减小误差。

步骤S104：在加权置信度值大于预设阈值的情况下，确定待测网站为钓鱼网站。其中，预设阈值可以为多次测试得到的经验值，也可以是预先设定的值。

通过上述步骤，解决了相关技术中存在的钓鱼网站的检测结果准确度低的问题，提升了钓鱼网站的检测结果的准确度。

具有威胁的恶意文件通常会利用离线或在线的方式进行运作。离线运作方式，以破坏用户计算机为目的，造成用户使用计算的体验不畅甚至无法使用；在线运作方式，以非法搜集用户信息为目的，往往会盗取用户计算机上的资料、密码，以URL的方式寻找并连接远程服务器，将搜集的用户信息上传到恶意服务器。由此，可根据待测网站中多个特征信息之间的关联关系，逐一获取特征信息。

图2是待测网站中多个特征信息之间的关联关系示意图，如图2所示，不同特征信息之间有相互关联关系，并且可以相互转化。以下实施例将介绍如何根据多个特征信息之间的关联关系，提取多个特征信息。

在其中一些实施例中，多个特征信息包括第一特征信息；获取待测网站的多个特征信息包括：获取网站的URL；根据URL获取第一特征信息，其中，第一特征信息包括但不限于以下至少之一：IP、域名、可执行文件的文件Hash值、Whois信息。

第一特征信息指从网站的URL中获取的直接相关的、精准的信息，以下将对获取网站的URL以及获取第一特征信息分别进行介绍。

(1)获取网站URL，URL形如<protocal>://[host]:[port]/[path]。其中，protocal为协议，例如http(Hyper Text Transfer Protocol，超文本传输协议)、https(Hyper Text Transfer Protocol over Secure Socket Layer，超文本传输安全协议)、ftp(File Transfer Protocol，文件传输协议)。host为主机，域名可以解析为IP，也可以直接是IP，例如www.***.com或180.101.49.11。port为端口号，常见的网站端口例如80、443、8080等，80和443为默认可以省略。path为路径，例如index.html。

钓鱼网站通常是诱使用户通过浏览器点击操作，产生恶意行为。URL作为一种互联网上网页的唯一标识，可以通过以下两种方式获得。一种是在浏览网页时，复制浏览器顶部的地址栏，获取URL；另一种是在自动化场景里，通过防火墙设备，拦截用户访问的URL。

在获取到URL后，将进行多维度特征提取，其中，直接获取到的第一特征信息以$base开头。

(2)拆分URL，获取到$base_protocal、$base_host、$base_port、$base_path。实现方式上，可以通过分隔符拆分，或者正则表达式提取。正则表达式是一种匹配提取技术，其对具有指定特征的字符串，可用于判断是否匹配，也可用于提取其中指定信息。

(3)提取域名和IP，如果$base_host为域名，则$base_domain＝$base_host。然后对 $base_domain进行dns(Domain Name System，域名***(服务)协议)解析，解析方式可以通过windows或者linux的nslookup命令解析得到，也可以通过在线工具解析得到。解析到的IP可能是多个，记为$base_ip。如果$host为ip，则$base_ip＝$base_host。

(4)提取Whois信息。Whoiss信息是一种域名的注册所有者信息，通常为企业或个人，通过该信息，有可能查询到注册所有者的注册时间、过期时间以及邮箱等信息。查询方式可通过linux或者windows的Whois命令获取，也可以通过在线工具获取，记为$base_whois。

(5)提取网页中的文件Hash值。通常金融类网站，特别是网银交易类网站，为保证信息安全，会提供密盾类插件，让用户下载并安装。仿冒的钓鱼网站，也会提供“密盾”下载链接，然而提供的可执行文件，很可能是病毒木马类程序。在一些实施例中，可通过http请求URL或者使用浏览器渲染的方式，获取到待测网站中网页的html(Hyper Text Markup Language，超文本标记语言)代码，并从中检索可执行文件下载链接，将下载到的可执行文件记为$base_file，并计算其文件Hash值，记为$base_hash。

在其中一些实施例中，多个特征信息还包括第二特征信息；获取待测网站的多个特征信息还包括但不限于以下至少之一：从情报库中获取与IP关联的域名信息，以及获取与域名关联的IP信息，第二特征信息包括与IP关联的域名信息，以及与域名关联的IP信息；通过Whois反查技术，获取与Whois信息关联的IP和域名信息，第二特征信息包括与Whois信息关联的IP和域名信息；通过可执行文件动态分析技术，获取与可执行文件回连的IP和域名信息，其中，第二特征信息包括与可执行文件回连的IP和域名信息。

第二特征信息指相对于第一特征信息而言的间接相关的、粗略的信息，在获取到URL后，将进行多维度特征提取，其中，通过检索间接获取到的信息以$ext开头。以下将对获取第二特征信息分别进行介绍。

(6)提取历史解析IP和域名。以上步骤获取到了域名或者IP，由于域名和IP的绑定关系不是永恒不变的，域名所有者可以随时更改自己域名指向的IP；而同一个IP在不同时间，会租借给不同的用户使用，绑定不同域名。在一些实施例中，可根据域名和IP的绑定关系，在情报库中获取与IP关联的域名信息，以及获取与域名关联的IP信息，其中，情报库包括威胁情报库；也可以在一些信息收录网站，获取与IP关联的域名信息，以及获取与域名关联的IP信息。这种历史解析的域名和IP，分别记入$ext_domain和$ext_ip。

(7)Whois信息反查。个人或者单位，有权注册多个域名，通过whois反查技术，可以用Whois信息获取到该个人或单位名下的更多域名，记入$ext_domains，其中这些域名信息，又可以解析出对应的IP，记入$ext_ip。

(8)提取可执行文件中的服务器地址。如果是恶意的可执行程序，很可能以在线的方式，上传用户信息到恶意服务器，搜集用户敏感数据。使用可执行文件动态分析技术，分析出与可执行文件回连的域名或者IP，记入$ext_domain或者$ext_ip。其中，可执行文件动态分析技术涉及二进制、反汇编、沙箱等技术。

通过以上步骤，已获取到直接相关的、精准的$base_数据，以及间接相关的、粗略的$ext_数据。表1给出了通过以上步骤获取得到的两种特征信息的汇总情况，如表1所示。

表1直接相关与间接相关特征信息

以下实施例将结合表1给出的两类特征信息，进行进一步匹配分析。

在其中一些实施例中，获取每个特征信息对应的置信度值和权重值包括：将待测网站的多个特征信息与情报库中的预设特征信息进行匹配；根据匹配结果得到与待测网站中每个特征信息对应的置信度值和权重值。

本实施例中的情报库包括威胁情报库，其中，威胁情报库可包括自建情报库和第三方情报库，其共同点为都按照相似的维度，收录了存在恶意行为的域名、IP、文件Hash值等核心入侵威胁指标。本实施例可选采用自建情报库，除了上述核心入侵威胁指标外，在一些实施例中，可在自建情报库中设置Whois信息、历史解析域名和IP信息、情报置信度、恶意URL在内的情报，以辅助前步骤中多个特征信息的获取，以及之后对获取的多个特征信息进行加权判定。另外，对于前步骤中获取到的可执行文件，也可以上传自建情报库，分析是否存在恶意行为。

以下将介绍如何对获取的多个特征信息进行加权判定。

(1)原则：在第一特征信息($base_)命中情报库的情况下，为该第一特征信息的置信度值分配高权重值；在第二特征信息($ext_)命中情报库的情况下，为该第二特征信息的置信度值分配低权重值。

(2)公式：假设置信度值为c，0≤c≤1；权重值为w，1≤w≤10；判定得分为S，S即为加权置信度值，0≤S≤1，采用加权平均算法，则有

其中，n为自然数。

(3)第一特征信息加权：$base_domain、$base_ip、$base_whois、$base_hash、$base_path为情报库可收录信息。

其中，在进行$base_domain、$base_ip、$base_hash匹配时，该类特征信息的准确度高，为核心匹配内容，可以采用精确匹配方式，即$base_domain完全等于情报库的domain； $base_ip同理；$base_hash有不同种表现形式，本实施例采用SHA256算法，与情报库中的SHA256值做精确匹配。对于上述匹配到的数据，c取自于情报库中预设的confidence字段，该confidence字段包含了置信度值，confidence字段反应了对应于某个特征信息在当前条件下的置信度情况。对于未匹配到的数据，c取值为0，w均取值为8。

$base_whois主要匹配注册所有者和注册所有者联系方式的数据，可以采用精确匹配方式。对于匹配到的数据，c取自于情报库中预设的confidence字段；对于未匹配到的数据，c取值为0，w均取值为6。

$base_path采用是否包含的方式进行匹配，c取自于情报库中预设的confidence字段，未匹配到则c取值为0，w均取值为4。

需要说明的是，以上c的取值是根据情报库中预设的confidence字段确定的，confidence字段中对应于某个特征信息的置信度值是在当前条件下根据该特征信息的可信程度计算得到的。而w可以取自于情报库中的预设值，也可以根据特征信息检出的准确性，适当调整w。

(4)第二特征信息加权：通过历史解析，或者可执行文件的联网行为解析得到域名和IP。相较于从URL中获取的第一特征信息，第二特征信息的相关性稍低，并且数据量为多条，本实施例对这类特征信息分配较低权重值。在第二特征信息匹配到情报库中收录的入侵威胁指标的情况下，c取自于情报库中预设的confidence字段；否则，未匹配到则c取值为0，w均取值为2。每匹配到一条入侵威胁指标，均作为加权平均的累加项之一。

目前https的网络传输加密技术已经得到大范围推广，金融行业网站首选采用https协议，对于非https协议的网站，典型的Google Chrome(谷歌浏览器)会标记为不安全网站。而https证书，需要由权威机构颁发才会被浏览器信任，非信任或者不一致的证书，可能被浏览器拒绝连接。

由此可知，网络传输协议和端口信息也可作为加权判定的特征信息。在其中一些实施例中，获取每个特征信息对应的置信度值和权重值还包括：从多个特征信息中确定第三特征信息，其中，第三特征信息包括但不限于以下至少之一：从URL中获取的网络传输协议信息、端口信息；根据第三特征信息，获取对应于第三特征信息的置信度值和权重值。

第三特征信息指非情报特征信息，即从URL中获取的网络传输协议信息、端口信息。

如果待测网站仅使用http协议，则令c＝1，w＝2。如果待测网站使用了https协议，但是不具有权威机构颁发的证书，则判断为不可信，令c＝1，w＝3。

网站为了用户方便访问，通常采用见名知意的域名帮助用户记忆，并且使用可以省略输入的默认端口，比如http协议通常采用80端口，https协议通常采用443端口。如果待测网站仅采用ip的方式访问，则令c＝1,w＝3。如果待测网站使用了非默认端口，而使用8080、9090、8888这种端口，则c＝1,w＝3。

在其中一些实施例中，在按照多个特征信息分别对应的置信度值和权重值，确定待测网站的加权置信度值之后，还包括：判断加权置信度值是否大于第一预设阈值；在判断到加权置信度值大于第一预设阈值的情况下，确定待测网站为钓鱼网站，并拒绝访问待测网站。判断加权置信度值是否大于第二预设阈值；在判断到加权置信度值大于第二预设阈值的情况下，确定待测网站为疑似钓鱼网站，并发出用于指示待测网站为疑似钓鱼网站的告警信息。

通过以上综合各项信息加权，代入加权平均公式计算得到得分S，可根据预设阈值对S进行分级，根据分级结果采取针对待测网站的策略。

第一预设阈值可取值0.8，如果S≥0.8，则确定该待测网站为钓鱼网站，可以直接拒绝用户访问。

第二预设阈值可取值0.6，如果S≥0.6，确定待测网站为疑似钓鱼网站，可以发出告警信息，以提醒该待测网站存在诈骗的可能性的，需要谨慎判断。

在其中一些实施例中，在确定待测网站为钓鱼网站或者疑似钓鱼网站的情况下之后，还包括：将待测网站的URL、待测网站中多个特征信息收录至情报库中。

在本实施例中，可以设置第三预设阈值，第三预设阈值可取值0.4，如果S≥0.4，则将该待测网站的特征信息收录到可疑信息库，以便于进一步核实，供后续优化算法参数使用。如果S<0.4，则丢弃从该待测网站获取的特征信息。

相关技术中采用的开源威胁情报或者商业威胁情报通常以离线方式检测网站，由于其入侵威胁指标存在滞后性，随着时间的发展，误报率将逐渐上升。而本实施例采用自建情报库，在情报库中设置入侵威胁指标，并将检测出的当前待测网站中可疑信息反向收录至情报库中，以更新入侵威胁指标，解决入侵威胁指标的滞后性问题，有利于降低误报率；同时有利于提高情报库的丰富性，提升判定精确度和广度，保持良性循环。

下面通过可选实施例对本申请实施例进行描述和说明。

图3是根据本申请可选实施例的钓鱼网站的检测方法的流程示意图，如图3所示，该流程包括如下步骤：

步骤S301：获取网站的URL。

步骤S302：拆分URL，获取$base_protocal、$base_host、$base_port、$base_path。

步骤S303：直接获取或解析，得到$base_domain、$base_ip、$base_whois、$base_hash。

步骤S304：间接获取或解析，得到$ext_domain、$ext_ip。

步骤S305：匹配情报库，获取置信度值c和权重值w；非情报库直接判定置信度值c和权重值w。

步骤S306：采用加权平均算法计算加权置信度值。即采用以下公式计算S：

步骤S307：通过S评分，作出访问限制决策。

步骤S308：将判定为钓鱼网站或者疑似钓鱼网站的网站信息回收至情报库。

在其中一些实施例中，可以直接将情报库中的IOC信息下发到web(World Wide Web，万维网)防火墙，在遇到匹配的特征信息的情况下，直接拦截，以实现精准拦截。

相比较于相关技术，本申请实施例包括以下优势：

(1)使用自建情报库中内置的对应于入侵威胁指标的置信度，可帮助判定目标网站可疑程度。

(2)从待测网站的URL中提取出能与情报库匹配的直接关联信息，并且通过直接关联信息的自身属性，获取到附加的关联信息，以进行综合判定，实现多维度匹配。相比传统方式，能够更准确地发现钓鱼网站，有利于防止用户被假冒网站诈骗，影响正常的经济秩序。

(3)对各种特征信息的置信度加权，最终以权重决定检测结果，解决单威胁情报和特征直接做出判断导致误差大的问题。

(4)本次检测结果，可入库用于扩充基础库数据，用于之后的钓鱼网站判断；针对误报问题，可通过调整权重值的方式采取干预。

本实施例还提供了一种钓鱼网站的检测装置，该装置用于实现上述实施例及可选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“子模块”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本申请实施例的钓鱼网站的检测装置的结构框图，如图4所示，该装置包括：

第一获取模块41，用于获取待测网站的多个特征信息。

第二获取模块42，耦合至第一获取模块41，用于获取每个特征信息对应的置信度值和权重值。

第一确定模块43，耦合至第二获取模块42，用于按照多个特征信息分别对应的置信度值和权重值，确定待测网站的加权置信度值。

第二确定模块44，耦合至第一确定模块43，用于在加权置信度值大于预设阈值的情况下，确定待测网站为钓鱼网站。

在其中一些实施例中，装置包括：第一获取子模块，用于获取网站的URL；第二获取子模块，用于根据URL获取第一特征信息，其中，第一特征信息包括但不限于以下至少之一：IP、域名、可执行文件的文件Hash值、Whois信息。

在其中一些实施例中，装置包括：第三获取子模块，用于从情报库中获取与IP关联的域名信息，以及获取与域名关联的IP信息，第二特征信息包括与IP关联的域名信息，以及与域名关联的IP信息；Whois反查模块，用于通过Whois反查技术，获取与Whois信息关联的IP和域名信息，第二特征信息包括与Whois信息关联的IP和域名信息；可执行文件动态分析模块，用于通过可执行文件动态分析技术，获取与可执行文件回连的IP和域名信息，其中，第二特征信息包括与可执行文件回连的IP和域名信息。

在其中一些实施例中，装置包括：匹配模块，用于将待测网站的多个特征信息与情报库中的预设特征信息进行匹配；根据匹配结果得到与待测网站中每个特征信息对应的置信度值和权重值。

在其中一些实施例中，装置包括：确定子模块，用于从多个特征信息中确定第三特征信息，其中，第三特征信息包括但不限于以下至少之一：从URL中获取的网络传输协议信息、端口信息；第四获取子模块，用于根据第三特征信息，获取对应于第三特征信息的置信度值和权重值。

在其中一些实施例中，装置还包括：第一判断模块，用于判断加权置信度值是否大于第一预设阈值；在判断到加权置信度值大于第一预设阈值的情况下，确定待测网站为钓鱼网站，并拒绝访问待测网站；第二判断模块，用于判断加权置信度值是否大于第二预设阈值；在判断到加权置信度值大于第二预设阈值的情况下，确定待测网站为疑似钓鱼网站，并发出用于指示待测网站为疑似钓鱼网站的告警信息。

其中一些实施例中，装置还包括：收录模块，用于将待测网站的URL、待测网站中多个特征信息收录至情报库中。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

另外，结合图1描述的本申请实施例钓鱼网站的检测方法可以由计算机设备来实现。图5为根据本申请实施例的计算机设备的硬件结构示意图。

计算机设备可以包括处理器51以及存储有计算机程序指令的存储器52。

具体地，上述处理器51可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器52可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器52可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器52可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器52可在数据处理装置的内部或外部。在特定实施例中，存储器52是非易失性(Non-Volatile)存储器。在特定实施例中，存储器52包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(Random Access Memory，简称为RAM)。

存储器52可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器51所执行的可能的计算机程序指令。

处理器51通过读取并执行存储器52中存储的计算机程序指令，以实现上述实施例中的任意一种钓鱼网站的检测方法。

在其中一些实施例中，钓鱼网站的检测设备还可包括通信接口53和总线50。其中，如图5所示，处理器51、存储器52、通信接口53通过总线50连接并完成相互间的通信。

通信接口53用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口53还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线50包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线50包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。在合适的情况下，总线50可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机设备可以基于获取到的待测网站的URL，执行本申请实施例中的钓鱼网站的检测方法，从而实现结合图1描述的钓鱼网站的检测方法。

另外，结合上述实施例中的钓鱼网站的检测方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种钓鱼网站的检测方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种钓鱼网站的检测方法，其特征在于，所述方法包括：

获取待测网站的多个特征信息；

获取每个特征信息对应的置信度值和权重值；

按照所述多个特征信息分别对应的置信度值和权重值，确定所述待测网站的加权置信度值；

在所述加权置信度值大于预设阈值的情况下，确定所述待测网站为钓鱼网站。
根据权利要求1所述的钓鱼网站的检测方法，其中，所述多个特征信息包括第一特征信息；获取待测网站的多个特征信息包括：

获取所述网站的URL；

根据所述URL获取所述第一特征信息，其中，所述第一特征信息包括以下至少之一：IP、域名、可执行文件的文件Hash值、Whois信息。
根据权利要求2所述的钓鱼网站的检测方法，其中，所述多个特征信息还包括第二特征信息；获取待测网站的多个特征信息还包括以下至少之一：

从情报库中获取与所述IP关联的域名信息，以及获取与所述域名关联的IP信息，所述第二特征信息包括与所述IP关联的域名信息，以及与所述域名关联的IP信息；

通过Whois反查技术，获取与所述Whois信息关联的IP和域名信息，所述第二特征信息包括与所述Whois信息关联的IP和域名信息；

通过可执行文件动态分析技术，获取与所述可执行文件回连的IP和域名信息，其中，所述第二特征信息包括与所述可执行文件回连的IP和域名信息。
根据权利要求3所述的钓鱼网站的检测方法，其中，获取每个特征信息对应的置信度值和权重值包括：

将所述待测网站的多个特征信息与所述情报库中的预设特征信息进行匹配；

根据匹配结果得到与所述待测网站中每个特征信息对应的置信度值和权重值。
根据权利要求4所述的钓鱼网站的检测方法，其中，获取每个特征信息对应的置信度值和权重值还包括：

从所述多个特征信息中确定第三特征信息，其中，所述第三特征信息包括以下至少之一：从所述URL中获取的网络传输协议信息、端口信息；

根据所述第三特征信息，获取对应于所述第三特征信息的置信度值和权重值。
根据权利要求3所述的钓鱼网站的检测方法，其中，在按照所述多个特征信息分别对应的置信度值和权重值，确定所述待测网站的加权置信度值之后，所述方法还包括：

判断所述加权置信度值是否大于第一预设阈值；在判断到所述加权置信度值大于第一预设阈值的情况下，确定所述待测网站为钓鱼网站，并拒绝访问所述待测网站；

判断所述加权置信度值是否大于第二预设阈值；在判断到所述加权置信度值大于第二预设阈值的情况下，确定所述待测网站为疑似钓鱼网站，并发出用于指示所述待测网站为疑似钓鱼网站的告警信息。
根据权利要求6所述的钓鱼网站的检测方法，其中，在确定所述待测网站为钓鱼网站或者疑似钓鱼网站的情况下之后，所述方法还包括：

将所述待测网站的URL、所述待测网站中多个特征信息收录至所述情报库中。
一种钓鱼网站的检测装置，其特征在于，包括：

第一获取模块，用于获取待测网站的多个特征信息；

第二获取模块，用于获取每个特征信息对应的置信度值和权重值；

第一确定模块，用于按照所述多个特征信息分别对应的置信度值和权重值，确定所述待测网站的加权置信度值；

第二确定模块，用于在所述加权置信度值大于预设阈值的情况下，确定所述待测网站为钓鱼网站。
一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的钓鱼网站的检测方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的钓鱼网站的检测方法。