CN108694321A

CN108694321A - 一种钓鱼网站的识别方法及装置

Info

Publication number: CN108694321A
Application number: CN201710225325.3A
Authority: CN
Inventors: 王丹; 王昱; 马志远
Original assignee: Wuhan Antian Information Technology Co Ltd
Current assignee: Wuhan Antian Information Technology Co Ltd
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2018-10-23

Abstract

本发明提供一种钓鱼网站的识别方法，在将提取的网页文本内容与钓鱼类预定义敏感词进行匹配之前，对文本元素的结构特征进行判断，若存在隐藏元素，则删除隐藏元素，提取并合并非隐藏元素的文本内容。本发明先主动的对待检测网站进行处理，针对性强，然后再结合预定义敏感词，这种方法能更好地对抗现有的混淆手段，提升钓鱼网站检测准确率。另外，整个方案仅消耗较少的计算资源，检测效率高。本发明还公开了一种钓鱼网站的识别装置。

Description

一种钓鱼网站的识别方法及装置

技术领域

本发明涉及信息安全技术领域，尤其涉及一种钓鱼网站的识别方法及装置。

背景技术

时至今日，互联网已经成为人们社会生活重要的组成部分，但是伴随着互联网的不断普及和应用水平的不断提高，除了木马、病毒以及僵尸网络等传统的信息安全威胁以外，互联网钓鱼欺诈已经逐渐成为网络犯罪分子最主要的攻击手段之一。

钓鱼网站通常是指伪装成银行网站或电子商务网站、用以窃取用户提交的私人信息的网站。不法分子利用各种手段仿冒真实网站的统一资源定位符(UniformResourceLocator，简称URL)及页面内容，诱导用户访问仿冒的页面内容，以此来骗取用户输入的银行帐号、密码等私人信息。钓鱼网站的出现严重影响了在线金融服务的发展，破坏了公众使用互联网的信心。因此对钓鱼网站进行有效识别就成为互联网安全领域中的一项重要工作。

现有主要的钓鱼网站检测技术有：(1)向第三方域名注册网站查询目标网站的域名注册信息或者证书信息，通过对域名注册信息或证书信息的查验，判断目标网站是否为钓鱼网站。但是域名信息并不能直接反映钓鱼网站的页面特征，例如仿冒其他网站页面样式、显示诈骗信息等。现有方式只能是对钓鱼网站的域名信息进行规律总结，通过域名信息的规律性特点对钓鱼网站进行识别，因此这种方式的准确性较低。(2)基于网站内容的钓鱼网站识别技术，即提取网站中网页标题、标签内容等信息，然后与预定义规则进行匹配，若匹配成功，则判断为可疑钓鱼网站。这种方式比较被动，只适用于钓鱼网站制作变化不大的情况，预定义规则越丰富，则检测效果越好。然而，随着反钓鱼网站检测技术的不断发展，钓鱼网站制作者采用各种手段防止被检测，极大地增加了钓鱼网站的检测难度，比如通过在网页中增加不直接显示的文字类元素等等，依然单方面的依靠制定预定义规则而不对原钓鱼网站做些处理，已很难达到良好的检测效果。

发明内容

本发明的目的在于提供一种钓鱼网站的识别方法及装置，能对抗采用了混淆技术的钓鱼网站，检测效果好。

本发明公开了一种钓鱼网站检测方法，包括以下步骤：

S01，获取待检测网站的网页，提取网页源代码中的文本元素；

S02，判断所提取的文本元素是否为隐藏元素，当有文本元素为隐藏元素时，删除隐藏元素；

S03，提取并合并非隐藏元素的文本内容，将提取的文本内容与预定义敏感词进行匹配，若命中，则判断该网站为疑似钓鱼网站。

进一步的，在步骤S01前，获取待识别网站的域名，若该域名不满足预设的白名单，则获取待检测网站的网页。

进一步的，判断文本元素是否为隐藏元素的方法包括：提取文本元素中的样式属性信息，当存在表示该元素内容不在页面中显示的关键字时，判断当前文本元素为隐藏元素。

进一步的，若步骤S02中没有隐藏元素时，则直接进行步骤S03。

本发明还公开了一种钓鱼网站检测装置，包括文本元素提取模块、隐藏元素判断模块、识别判断模块，其中：

所述文本元素提取模块，用于获取待检测网站的网页，提取网页源代码中的文本元素；

所述隐藏元素判断模块，用于判断所提取的文本元素是否为隐藏元素，当有文本元素为隐藏元素时，删除隐藏元素；

所述识别判断模块，用于提取并合并非隐藏元素的文本内容，将提取的文本内容与预定义敏感词进行匹配，若命中，则判断该网站为疑似钓鱼网站。

进一步的，所述文本元素提取模块，还用于在获取待检测网站的网页前，获取待识别网站的域名，若该域名不满足预设的白名单，则获取待检测网站的网页。

进一步的，所述隐藏元素判断模块，还用于若所提取的文本元素没有隐藏元素时，则直接启动所述判断模块。

本发明与现有技术相比的有益效果：本发明在将提取的网页文本内容与钓鱼类预定义敏感词进行匹配之前，对文本元素的结构特征进行判断，若存在隐藏元素，则删除隐藏元素，提取并合并非隐藏元素的文本内容。本发明先主动的对待检测网站进行处理，针对性强，然后再结合预定义敏感词，这种方法能更好地对抗现有的混淆手段，提升钓鱼网站检测准确率。另外，整个方案仅消耗较少的计算资源，检测效率高。

附图说明

图1为一种钓鱼网站的识别方法的流程图。

图2为一种钓鱼网站的识别装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

在一些实施例中，如图1所示，钓鱼网站的识别方法包括以下步骤：

S01，获取待检测网站的网页，提取网页源代码中的文本元素。

具体的，通过模拟浏览器的方式向待检测网站发起URL请求，获取网站的网页源代码信息。一般，网站页面的源代码中存在不同类型的元素，可以根据标签的不同来识别这些元素，比如标签<title>用于定义文档的标题、标签<body>用于定义文档的主体、标签用于定义段落、标签<a>用于定义锚、标签<img>用于定义图像等。如果元素中包含中英文字符、数字、符号等内容，则判断其为文本元素。例如：This is a paragraph即为文本元素。

为了提高检测效率，在获取待检测网站的网页前还可以先获取待识别网站的域名，若该域名满足预设的白名单(比如常用支付网站、金融网站等网站的域名信息)，则说明该网站不是钓鱼网站，则直接退出检测。若该域名不满足预设白名单，再进行步骤S02。

S02，判断所提取的文本元素是否为隐藏元素，当有文本元素为隐藏元素时，删除隐藏元素。

判断文本元素是否为隐藏元素的方法可以有多种，比较简单的方法是提取文本元素中的样式属性信息，当存在表示该元素内容不在页面中显示的关键字,比如“display:non”、“visibility:hidden”、“opacity:0”、“clip:rect(0px 0px 0px 0px)”、“type＝"hidden"”等，判断存在隐藏元素。

可以理解的，每个网页元素被定义了相应的样式属性(如文字颜色、字体大小等)，用来定义如何在页面中显示该元素。比如代码：

This is a paragraph表示该段落的文本信息“This is a paragraph”为红色字体。

若代码为This is a paragraph，则表示“Thisis a paragraph”不在页面中显示，因此若发现文本元素中包含“display:none”则判断存在隐藏元素。

隐藏元素的存在不利于步骤S03中预定义敏感词的匹配过程，因此需要删除隐藏元素，以下示出一例：网页源代码中的文本元素包括：“招”、“东西”、“商”、“银”“西西”、“行”，其中隐藏元素为“东西”、“西西”，非隐藏元素为“招”、“商”、“银”、“行”(可以理解的，用户网页上显示的为“招商银行”，属于判断钓鱼网站的敏感词汇)，唯有删除掉“东西”、“西西”，在步骤S03中才能将“招”、“商”、“银”、“行”合并后得到“招商银行”，然后进行预定义敏感词的匹配。

当然，若步骤S02中没有隐藏元素时，则直接进行步骤S03。

提取并合并非隐藏元素的文本内容后，即完成了对待检测网站的主动处理，后面再结合一些预定义敏感词即可判断疑似钓鱼网站。

根据大数据情况可知，钓鱼网站类预定义敏感词包含但不限于：“银行”、“***”、“支付”、“中奖”、“登录”、“密码”等，可根据钓鱼网站类型的增加进行更新设置。

当然，还可以结合其余方法进一步验证网站的性质。

本发明在将提取的网页文本内容与钓鱼类预定义敏感词进行匹配之前，对文本元素的结构特征进行判断，若存在隐藏元素，则删除隐藏元素，提取并合并非隐藏元素的文本内容。本发明在检测出文本元素后没有直接与预定义敏感词进行匹配进行，而是主动增加了对待检测网站的处理步骤，针对性强能更好地对抗现有的混淆手段，提升钓鱼网站检测准确率。另外，整个方案仅消耗较少的计算资源，检测效率高。

在另一些实施例中，如图2所示，钓鱼网站的识别装置10包括文本元素提取模块101、隐藏元素判断模块102、识别判断模块103，其中：

文本元素提取模块101，用于获取待检测网站的网页，提取网页源代码中的文本元素。

为了提高检测效率，在获取待检测网站的网页前还可以先获取待识别网站的域名，若该域名满足预设的白名单(比如常用支付网站、金融网站等网站的域名信息)，则说明该网站不是钓鱼网站，则直接退出检测。若该域名不满足预设白名单，则再进入隐藏元素判断模。

隐藏元素判断模块102，用于判断所提取的文本元素是否为隐藏元素，当有文本元素为隐藏元素时，删除隐藏元素。

每个网页元素被定义了相应的样式属性(如文字颜色、字体大小等)，用来定义如何在页面中显示该元素。比如代码：

隐藏元素的存在不利于判断模块中预定义敏感词的匹配过程，因此需要删除隐藏元素，以下示出一例：网页源代码中的文本元素包括：“招”、“东西”、“商”、“银”“西西”、“行”，其中隐藏元素为“东西”、“西西”，非隐藏元素为“招”、“商”、“银”、“行”(可以理解的，用户网页上显示的为“招商银行”，属于判断钓鱼网站的敏感词汇)，唯有删除掉“东西”、“西西”，在判断模块中才能将“招”、“商”、“银”、“行”合并后得到“招商银行”，然后进行预定义敏感词的匹配。

当然，若文本元素不是隐藏元素时，则直接进入识别判断模块103。

识别判断模块103，用于提取并合并非隐藏元素的文本内容，将提取的文本内容与预定义敏感词进行匹配，若命中，则判断该网站为疑似钓鱼网站。

本发明在将提取的网页文本内容与钓鱼类预定义敏感词进行匹配之前，对文本元素的结构特征进行判断，若存在隐藏元素，则删除隐藏元素，提取并合并非隐藏元素的文本内容。

本发明在检测出文本元素后没有直接与预定义敏感词进行匹配进行，而是主动增加了对待检测网站的处理步骤，针对性强能更好地对抗现有的混淆手段，提升钓鱼网站检测准确率。另外，整个方案仅消耗较少的计算资源，检测效率高。

本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。

上述说明示出并描述了本发明的若干实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种钓鱼网站检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的检测方法，其特征在于，在步骤S01前，获取待识别网站的域名，若该域名不满足预设的白名单，则获取待检测网站的网页。

3.如权利要求1所述的检测方法，其特征在于，判断文本元素是否为隐藏元素的方法包括：提取文本元素中的样式属性信息，当存在表示该元素内容不在页面中显示的关键字时，判断当前文本元素为隐藏元素。

4.如权利要求1所述的检测方法，其特征在于，若步骤S02中没有隐藏元素时，则直接进行步骤S03。

5.一种钓鱼网站检测装置，其特征在于，包括文本元素提取模块、隐藏元素判断模块、识别判断模块，其中：

6.如权利要求5所述的检测装置，其特征在于，所述文本元素提取模块，还用于在获取待检测网站的网页前，获取待识别网站的域名，若该域名不满足预设的白名单，则获取待检测网站的网页。

7.如权利要求5所述的检测装置，其特征在于，判断文本元素是否为隐藏元素的方法包括：提取文本元素中的样式属性信息，当存在表示该元素内容不在页面中显示的关键字时，判断当前文本元素为隐藏元素。

8.如权利要求5所述的检测装置，其特征在于，所述隐藏元素判断模块，还用于若所提取的文本元素没有隐藏元素时，则直接启动所述判断模块。