CN109347786A - 钓鱼网站检测方法 - Google Patents

钓鱼网站检测方法 Download PDF

Info

Publication number
CN109347786A
CN109347786A CN201810924887.1A CN201810924887A CN109347786A CN 109347786 A CN109347786 A CN 109347786A CN 201810924887 A CN201810924887 A CN 201810924887A CN 109347786 A CN109347786 A CN 109347786A
Authority
CN
China
Prior art keywords
website
domain name
detected
regular
official
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810924887.1A
Other languages
English (en)
Inventor
康金钟
胡国良
肖刚
张超
胡嘉俊
张勇
严寒冰
饶毓
陈阳
雷君
周昊
李志辉
徐剑
张帅
吕志泉
韩志辉
马莉雅
高川
李世淙
贾子骁
温森浩
姚力
朱芸茜
王小群
张腾
王适文
肖崇蕙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Branch Of National Computer Network And Information Security Management Center
National Computer Network and Information Security Management Center
Original Assignee
Hunan Branch Of National Computer Network And Information Security Management Center
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Branch Of National Computer Network And Information Security Management Center, National Computer Network and Information Security Management Center filed Critical Hunan Branch Of National Computer Network And Information Security Management Center
Priority to CN201810924887.1A priority Critical patent/CN109347786A/zh
Publication of CN109347786A publication Critical patent/CN109347786A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种钓鱼网站检测方法,所述方法包括:提取待检测网站的访问数据;根据所述访问数据对所述待检测网站进行第一维度检测、第二维度检测…第M维度检测中的一种或多种,M为大于等于2的正整数;若所有检测结果均为非钓鱼网站,则所述待检测网站为非钓鱼网站,否则,所述待检测网站为钓鱼网站。本发明通过多维度对钓鱼网站进行检测,从而可以准确有效地识别钓鱼网站。

Description

钓鱼网站检测方法
技术领域
本发明涉及网络安全技术领域,尤其涉及一种钓鱼网站检测方法。
背景技术
网络钓鱼,指的是攻击者通过社交网站、实时通信、垃圾邮件等信息载体发布欺诈性消息,诱导网络用户访问其构建的虚假仿冒钓鱼网站的一种攻击方式。钓鱼网站的页面与真实网站界面基本一致,目的是为了引诱用户泄露其个人敏感数据(如用户名、密码、账户ID等其他敏感信息),黑客可利用这些个人信息对黑客假冒受害者进行欺诈性金融交易,从而获得经济利益。近年来,钓鱼网站量不断增加,用户面临愈发严峻的网络钓鱼攻击威胁。且针对移动互联网用户的钓鱼已超过传统互联网,成为钓鱼攻击新趋势。
鉴于钓鱼网站危害程度越发显著,现有技术中出现了多种钓鱼网站检测方法,用于从海量的原始流量及网络日志当中发现移动互联网的钓鱼仿冒网站,协助打击日益猖獗的电信诈骗行为,维护网络安全以及用户权益。但是,现有的钓鱼网站的检测方法至少存在以下不足:基于页面内容的网站识别需要将检测网站与已知的正规网站进行内容匹配,难以全面覆盖所有的钓鱼网站。而基于详细网络链接的钓鱼网站识别方式则是通过匹配待检测网站与常被仿冒的正规网站进行相似度匹配,当钓鱼网站域名与被仿冒网站相关程度不高时,一定程度上将影响该类方法的检测效果。因此,如何实现准确有效地识别钓鱼网站,成为亟待解决的技术问题。
发明内容
本发明所要解决的技术问题在于,提供一种钓鱼网站检测方法,通过多维度对钓鱼网站进行检测,从而可以准确有效地识别钓鱼网站。
为了解决上述技术问题,根据本发明实施例第一方面,提供了一种钓鱼网站检测方法,包括:
提取待检测网站的访问数据;
根据所述访问数据对所述待检测网站进行第一维度检测、第二维度检测…第M维度检测中的一种或多种,M为大于等于2的正整数;
若所有检测结果均为非钓鱼网站,则所述待检测网站为非钓鱼网站,否则,所述待检测网站为钓鱼网站。
进一步的,所述访问数据包括网站域名、域名对应的IP地址和网站的html页面数据,
所述根据所述访问数据对所述待检测网站进行第一维度检测、第二维度检测…第M维度检测中的一种或多种,包括以下步骤:
根据所述域名对应的IP地址对所述待检测网站进行所述第一维度检测、根据所述网站域名对所述待检测网站进行所述第二维度检测、根据所述网站的html页面数据对所述待检测网站进行所述第三维度检测中的一种或多种。
进一步的,所述提取待检测网站的访问数据,包括以下步骤:
从原始上网日志当中提取http协议的访问记录,并排除域名符合域名白名单的访问记录,得到待检测网站的访问记录;
提取所述待检测网站的网站域名、URL地址和域名对应IP地址;
根据所述URL地址获取网站的html页面数据。
进一步的,所述根据所述URL地址获取网站的html页面数据,包括以下步骤:
采用网络爬虫根据所述URL地址爬取网站的html页面数据;
根据html的标签内容筛选出文本类数据进行保存。
进一步的,所述根据所述域名对应的IP地址对所述待检测网站进行第一维度检测,包括以下步骤:
将所述域名对应的IP地址与预设的钓鱼网站黑名单IP地址库进行逐一匹配;
若所述域名对应IP地址在所述预设的钓鱼网站黑名单IP地址库中,则所述待检测网站为已知的钓鱼网站。
进一步的,所述根据所述网站域名对所述待检测网站进行第二维度检测,包括以下步骤:
根据所述网站域名与预设官方正规网站域名计算域名相似度;
若所述域名相似程度超过预设的第一阈值,则判断所述待检测网站为仿冒域名类型的钓鱼网站。
进一步的,所述根据所述网站域名与预设官方正规网站域名计算域名相似度,包括以下步骤:
分别计算待检测网站域名字符串与每一所述预设正规官方网站域名字符串的相同字母占比和同序列字符长度占比;
根据所述相同字母占比和同序列字符长度占比,计算所述待检测网站与每一所述预设正规官方网站的最终相似程度得分,公式为:
最终相似程度得分=2*相同字母占比*同序列字符长度占比/(相同字母占比+同序列字符长度占比),
选取所述最终相似程度得分的最大值作为所述域名相似度。
进一步的,所述计算待检测网站域名字符串与每一所述预设正规官方网站域名字符串的相同字母占比,包括以下步骤:
按照ASCII分别将待检测网站域名字符串以及每一所述预设正规官方网站域名字符串的字母或数字进行还原并去重,得到每个域名字符串对应的字符集合;
统计待检测网站域名字符集合与所述预设正规官网站方域名字符集合中相同的字符个数,并计算相同字母占比,公式如下:
相同字母占比=相同的字符个数/预设正规官网站方域名字符集合的长度。
进一步的,所述计算待检测网站域名字符串与每一所述预设正规官方网站域名字符串的同序列字符长度占比,包括以下步骤:
初始化同序列字符列表为空列表;
将所述预设正规官网站方域名字符串中的第i个字符char_i,与待检测网站域名字符串的第j个字符char_j进行循环匹配,若char_i等于char_j,则在所述同序列字符列表中添加字符char_i,并退出当前的第j个循环,进入i+1个循环当中,其中i,j均为正整数;
当遍历完所有的字符char_i后,得到同序列字符列表,计算所述同序列字符长度占比,公式如下:
同序列字符长度占比=同序列字符列表长度/预设正规官方网站域名长度。
进一步的,所述根据所述网站的html页面数据对所述待检测网站进行第三维度检测,包括以下步骤:
根据所述网站的html页面数据提取所述待检测网站的网页关键词;
计算所述待检测网站与预设官方正规网站的网页关键词相似度;
若所述网页关键词相似度超过预设的第二阈值,则所述待检测网站为仿冒页面内容类型的钓鱼网站。
进一步的,所述计算所述待检测网站与预设官方正规网站的网页关键词相似度,包括以下步骤:
对待检测网站以及所有预设官方正规网站的所有关键词列表进行去重排序,得到关键词总列表,所述关键词总列表包括N个关键词,N为正整数;
将所述待检测网站以及每一预设官方正规网站对应的关键词向量初始化为一个长度为N,内容全部为0的数组;
将所述待检测网站以及每一预设官方正规网站的关键词列表中的每一关键词分别与所述关键词总列表进行比较,若该关键词存在与所述关键词总列表中,则该列取值置为1,否则置为0,从而得到待检测网站的关键词向量,以及每一预设官方正规网站的关键词向量;
分别计算所述待检测网站的关键词向量与每一预设官方正规网站的关键词向量的相似度,并选取其中的最大值,作为所述待检测网站与官方正规网站的网页关键词相似度。
根据本发明实施例第二方面,提供一种控制器,其包括存储器与处理器,所述存储器存储有计算机程序,所述程序在被所述处理器执行时能够实现所述方法的步骤。
根据本发明实施例第三方面,提供一种计算机可读存储介质,用于存储计算机程序,所述程序在由一计算机或处理器执行时实现所述方法的步骤。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明一种钓鱼网站检测方法可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明通过结合IP维度、域名维度及网页内容维度等多维度对钓鱼网站进行识别,从而准确有效地识别钓鱼网站。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明一实施例提供钓鱼网站检测方法示意图;
图2为本发明一实施例提供的钓鱼网站检测方法流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种钓鱼网站检测方法的具体实施方式及其功效,详细说明如后。
如图1所示,本发明实施例提供了一种钓鱼网站检测方法,包括以下步骤:
步骤S1、提取待检测网站的访问数据;
作为一种示例,所述步骤S1可包括以下步骤:
步骤S11、从原始上网日志当中提取超文本传输协议(Hyper Text TransportProtocol,简称http协议)的访问记录,并排除域名符合域名白名单的访问记录,得到待检测网站的访问记录;
其中,原始上网日志可为运营商留存的原始上网日志。所述域名白名单库可包括美国科技公司发布的权威域名白名单库Quantcast Top Million、域名ICP备案信息库、运营商及相关网络安全厂家日常工作中积累的正常域名库等数据库的一种或多种。
步骤S12、提取所述待检测网站的网站域名、统一资源定位符(Uniform ResourceLocator简称URL)地址和域名对应IP地址;
步骤S13、根据所述URL地址获取网站的超文本标记语言(Hyper Text MarkupLanguage简称html)页面数据。
作为一种示例,所述步骤S13包括以下步骤:
步骤S131、采用网络爬虫根据所述URL地址爬取网站的html页面数据;
步骤是132、根据html的标签内容筛选出文本类数据进行保存,可提高爬取效率。
步骤S2、根据所述访问数据对所述待检测网站进行第一维度检测、第二维度检测…第M维度检测中的一种或多种,M为大于等于2的正整数;
作为一种示例,所述访问数据包括网站域名、域名对应的IP地址和网站的html页面数据,步骤S2包括:
根据所述域名对应的IP地址对所述待检测网站进行所述第一维度检测、根据所述网站域名对所述待检测网站进行所述第二维度检测、根据所述网站的html页面数据对所述待检测网站进行所述第三维度检测中的一种或多种。
作为一种示例,所述根据所述域名对应的IP地址对所述待检测网站进行第一维度检测,可包括以下步骤:
步骤S21、将所述域名对应的IP地址与预设的钓鱼网站黑名单IP地址库进行逐一匹配;其中,预设钓鱼网站黑名单IP地址库可来源于网络当中公开的钓鱼网站地址库以及运营商在日常过程当中的经验积累。
步骤S22、若所述域名对应IP地址在所述预设的钓鱼网站黑名单IP地址库中,则所述待检测网站为已知的钓鱼网站,可输出该钓鱼网站的访问信息。
需要说明的是,上述根据所述域名对应的IP地址对所述待检测网站进行第一维度检测的步骤仅为一种示例,其他根据IP地址检测所述待检测网站是否为钓鱼网站的方法也可适用于此。
作为一种示例,所述根据所述网站域名对所述待检测网站进行第二维度检测,包括以下步骤:
步骤S23、根据所述网站域名与预设官方正规网站域名计算域名相似度;
步骤S24、若所述域名相似程度超过预设的第一阈值,则判断所述待检测网站为仿冒域名类型的钓鱼网站,其中所述第一阈值可根据具体检测需求进行设定。
步骤S23-步骤S24可通过将待检测网站域名与预设的官方正规网站域名输入域名相似度匹配引擎,进行域名相似度的计算。
作为一种示例,所述步骤S23包括以下步骤:
步骤S231、分别计算待检测网站域名字符串str与每一所述预设正规官方网站域名字符串str_n的相同字母占比和同序列字符长度占比;
步骤S232、根据所述相同字母占比和同序列字符长度占比,计算所述待检测网站与每一所述预设正规官方网站的最终相似程度得分,公式为:
最终相似程度得分=2*相同字母占比*同序列字符长度占比/(相同字母占比+同序列字符长度占比);
步骤S233、选取所述最终相似程度得分的最大值作为所述域名相似度。
其中,步骤S231中,计算待检测网站域名字符串str与每一所述预设正规官方网站域名字符串str_n的相同字母占比,包括以下步骤:
步骤S2311、按照美国标准信息交换代码(American Standard Code forInformation Interchange,简称ASCII)分别将待检测网站域名字符串str以及每一所述预设正规官方网站域名字符串str_n的字母或数字进行还原并去重,得到每个域名字符串对应的字符集合;
步骤S2312、统计待检测网站域名字符集合与所述预设正规官网站方域名字符集合中相同的字符个数,并计算相同字母占比,公式如下:
相同字母占比=相同的字符个数/预设正规官网站方域名字符集合的长度。
步骤S231中,所述计算待检测网站域名字符串str与每一所述预设正规官方网站域名字符串str_n的同序列字符长度占比,包括以下步骤:
步骤S2313、初始化同序列字符列表为空列表;
将所述预设正规官网站方域名字符串中的第i个字符char_i,与待检测网站域名字符串str的第j个字符char_j进行循环匹配,若char_i等于char_j,则在所述同序列字符列表中添加字符char_i,并退出当前的第j个循环,进入i+1个循环当中,其中i,j均为正整数;
步骤S2314、当遍历完所有的字符char_i后,得到同序列字符列表,计算所述同序列字符长度占比,公式如下:
同序列字符长度占比=同序列字符列表长度/预设正规官方网站域名长度。
需要说明的是,上述根据网站域名对所述待检测网站进行第二维度检测的步骤仅为一种示例,其他根据网站域名检测所述待检测网站是否为钓鱼网站的方法也可适用于此。
作为一种示例,所述根据所述网站的html页面数据对所述待检测网站进行第三维度检测,包括以下步骤:
步骤S25、根据所述网站的html页面数据提取所述待检测网站的网页关键词;其中,可通过网络爬虫爬取的待检测网站的html页面数据,从<head>标签中提取Meta元素当中的关键词。
步骤S26、计算所述待检测网站与预设官方正规网站的网页关键词相似度;其中,可将提取到的待检测网站的网页内容关键词与官方正规网站的内容关键词输入至网站关键词相似度判断引擎,计算得出网页关键词相似度。
步骤S27、若所述网页关键词相似度超过预设的第二阈值,则判断该网站的关键词内容与官方正规网站的页面关键词雷同,则所述待检测网站为仿冒页面内容类型的钓鱼网站,其中第二阈值可根据具体的检测需求来设定。
作为一种示例,所述步骤S26包括以下步骤:
步骤S261、对待检测网站以及所有预设官方正规网站的所有关键词列表进行去重排序,得到关键词总列表[关键词1,关键词2...关键词N],所述关键词总列表包括N个关键词,N为正整数;
步骤S262、将所述待检测网站以及每一预设官方正规网站对应的关键词向量keyword_vector初始化为一个长度为N,内容全部为0的数组;
步骤S263、将所述待检测网站以及每一预设官方正规网站的关键词列表中的每一关键词分别与所述关键词总列表进行比较,若该关键词存在与所述关键词总列表中,则该列取值置为1,否则置为0,从而得到待检测网站的关键词向量,以及每一预设官方正规网站的关键词向量,例如,关键词向量keyword_vector可为[1,0,0....1];
步骤S264、分别计算所述待检测网站的关键词向量与每一预设官方正规网站的关键词向量的相似度,并选取其中的最大值,作为所述待检测网站与官方正规网站的网页关键词相似度。作为一种示例,计算所述待检测网站的关键词向量与每一预设官方正规网站的关键词向量的相似度,可为通过计算两个向量的余弦相似度作为网页关键词相似度,设长度为N的向量A=(A1,A2,...,An),B=(B1,B2,...,Bn),则余弦相似度θ为:
需要说明的是,上述根据网站的html页面数据对所述待检测网站进行第一维度检测的步骤仅为一种示例,其他根据网站的html页面数据检测所述待检测网站是否为钓鱼网站的方法也可适用于此。
步骤S3、若所有检测结果均为非钓鱼网站,则所述待检测网站为非钓鱼网站,否则,所述待检测网站为钓鱼网站。
通过多个维度对待检测网站进行检测,可准确有效的识别钓鱼网站,且可进一步识别钓鱼网站类型。
以下通过一具体实施例对本发明实施例所述的钓鱼网站检测方法进行进一步说明,如图2所示,包括以下步骤:
步骤S10、提取待检测网站的访问数据,所述访问数据包括网站域名、域名对应的IP地址和网站的html页面数据;
步骤S20、根据所述域名对应的IP地址对所述待检测网站进行第一维度检测,若为钓鱼网站,则结束检测,否则,进行步骤S30;
步骤S30、根据所述网站域名对所述待检测网站进行第二维度检测,若为钓鱼网站,则结束检测,否则进行步骤S40;
步骤S40、根据所述网站的html页面数据对所述待检测网站进行第三维度检测,若为钓鱼网站,则结束检测,否则,所述待检测网站为非钓鱼网站。
需要说明的是,上述检测方案仅为一种示例,实际应用中具体所涉及的维度检测、以及不同维度检测的顺序可根据检测需求等因素进行设定。其中,步骤S20-步骤S40中的第一维度检测、第二维度检测和第三维度检测可参照上述实施例中的具体过程进行,在此不再赘述。通过步骤S10-步骤S40不仅可以准确有效地识别出钓鱼网站,还可具体区分所识别的钓鱼网站所属类型。
本发明实施例还提供一种控制器,其包括存储器与处理器,所述存储器存储有计算机程序,所述程序在被所述处理器执行时能够实现所述钓鱼网站检测方法的步骤。
本发明实施例还提供一种计算机可读存储介质,用于存储计算机程序,所述程序在由一计算机或处理器执行时实现所述钓鱼网站检测方法的步骤。
本发明通过结合IP维度、域名维度及网页内容维度等多维度对钓鱼网站进行识别,从而准确有效地识别钓鱼网站。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种钓鱼网站检测方法,其特征在于:包括:
提取待检测网站的访问数据;
根据所述访问数据对所述待检测网站进行第一维度检测、第二维度检测…第M维度检测中的一种或多种,M为大于等于2的正整数;
若所有检测结果均为非钓鱼网站,则所述待检测网站为非钓鱼网站,否则,所述待检测网站为钓鱼网站。
2.根据权利要求1所述的钓鱼网站检测方法,其特征在于:
所述访问数据包括网站域名、域名对应的IP地址和网站的html页面数据,
所述根据所述访问数据对所述待检测网站进行第一维度检测、第二维度检测…第M维度检测中的一种或多种包括以下步骤:
根据所述域名对应的IP地址对所述待检测网站进行所述第一维度检测、根据所述网站域名对所述待检测网站进行所述第二维度检测、根据所述网站的html页面数据对所述待检测网站进行所述第三维度检测中的一种或多种。
3.根据权利要求1或2所述的钓鱼网站检测方法,其特征在于:
所述提取待检测网站的访问数据,包括以下步骤:
从原始上网日志当中提取http协议的访问记录,并排除域名符合域名白名单的访问记录,得到待检测网站的访问记录;
提取所述待检测网站的网站域名、URL地址和域名对应IP地址;
根据所述URL地址获取网站的html页面数据;
其中,所述根据所述URL地址获取网站的html页面数据,包括以下步骤:
采用网络爬虫根据所述URL地址爬取网站的html页面数据;
根据html的标签内容筛选出文本类数据进行保存。
4.根据权利要求2所述的钓鱼网站检测方法,其特征在于:
所述根据所述域名对应的IP地址对所述待检测网站进行第一维度检测,包括以下步骤:
将所述域名对应的IP地址与预设的钓鱼网站黑名单IP地址库进行逐一匹配;
若所述域名对应IP地址在所述预设的钓鱼网站黑名单IP地址库中,则所述待检测网站为已知的钓鱼网站。
5.根据权利要求2所述的钓鱼网站检测方法,其特征在于:
所述根据所述网站域名对所述待检测网站进行第二维度检测,包括以下步骤:
根据所述网站域名与预设官方正规网站域名计算域名相似度;
若所述域名相似程度超过预设的第一阈值,则判断所述待检测网站为仿冒域名类型的钓鱼网站。
6.根据权利要求5所述的钓鱼网站检测方法,其特征在于:
所述根据所述网站域名与预设官方正规网站域名计算域名相似度,包括以下步骤:
分别计算待检测网站域名字符串与每一所述预设正规官方网站域名字符串的相同字母占比和同序列字符长度占比;
根据所述相同字母占比和同序列字符长度占比,计算所述待检测网站与每一所述预设正规官方网站的最终相似程度得分,公式为:
最终相似程度得分=2*相同字母占比*同序列字符长度占比/(相同字母占比+同序列字符长度占比),
选取所述最终相似程度得分的最大值作为所述域名相似度。
7.根据权利要求6所述的钓鱼网站检测方法,其特征在于:
所述计算待检测网站域名字符串与每一所述预设正规官方网站域名字符串的相同字母占比,包括以下步骤:
按照ASCII分别将待检测网站域名字符串以及每一所述预设正规官方网站域名字符串的字母或数字进行还原并去重,得到每个域名字符串对应的字符集合;
统计待检测网站域名字符集合与所述预设正规官网站方域名字符集合中相同的字符个数,并计算相同字母占比,公式如下:
相同字母占比=相同的字符个数/预设正规官网站方域名字符集合的长度。
8.根据权利要求6所述的钓鱼网站检测方法,其特征在于:
所述计算待检测网站域名字符串与每一所述预设正规官方网站域名字符串的同序列字符长度占比,包括以下步骤:
初始化同序列字符列表为空列表;
将所述预设正规官网站方域名字符串中的第i个字符char_i,与待检测网站域名字符串的第j个字符char_j进行循环匹配,若char_i等于char_j,则在所述同序列字符列表中添加字符char_i,并退出当前的第j个循环,进入i+1个循环当中,其中i,j均为正整数;
当遍历完所有的字符char_i后,得到同序列字符列表,计算所述同序列字符长度占比,公式如下:
同序列字符长度占比=同序列字符列表长度/预设正规官方网站域名长度。
9.根据权利要求2所述的钓鱼网站检测方法,其特征在于:
所述根据所述网站的html页面数据对所述待检测网站进行第三维度检测,包括以下步骤:
根据所述网站的html页面数据提取所述待检测网站的网页关键词;
计算所述待检测网站与预设官方正规网站的网页关键词相似度;
若所述网页关键词相似度超过预设的第二阈值,则所述待检测网站为仿冒页面内容类型的钓鱼网站。
10.根据权利要求9所述的钓鱼网站检测方法,其特征在于:
所述计算所述待检测网站与预设官方正规网站的网页关键词相似度,包括以下步骤:
对待检测网站以及所有预设官方正规网站的所有关键词列表进行去重排序,得到关键词总列表,所述关键词总列表包括N个关键词,N为正整数;
将所述待检测网站以及每一预设官方正规网站对应的关键词向量初始化为一个长度为N,内容全部为0的数组;
将所述待检测网站以及每一预设官方正规网站的关键词列表中的每一关键词分别与所述关键词总列表进行比较,若该关键词存在与所述关键词总列表中,则该列取值置为1,否则置为0,从而得到待检测网站的关键词向量,以及每一预设官方正规网站的关键词向量;
分别计算所述待检测网站的关键词向量与每一预设官方正规网站的关键词向量的相似度,并选取其中的最大值,作为所述待检测网站与官方正规网站的网页关键词相似度。
CN201810924887.1A 2018-08-14 2018-08-14 钓鱼网站检测方法 Pending CN109347786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810924887.1A CN109347786A (zh) 2018-08-14 2018-08-14 钓鱼网站检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810924887.1A CN109347786A (zh) 2018-08-14 2018-08-14 钓鱼网站检测方法

Publications (1)

Publication Number Publication Date
CN109347786A true CN109347786A (zh) 2019-02-15

Family

ID=65291655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810924887.1A Pending CN109347786A (zh) 2018-08-14 2018-08-14 钓鱼网站检测方法

Country Status (1)

Country Link
CN (1) CN109347786A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362729A (zh) * 2019-07-03 2019-10-22 杭州安恒信息技术股份有限公司 基于搜索引擎的未上架风险app检索方法
CN111680220A (zh) * 2020-06-12 2020-09-18 国家计算机网络与信息安全管理中心浙江分中心 一种基于网站特征的贷款类诈骗网站的识别方法
CN112200196A (zh) * 2020-11-10 2021-01-08 平安普惠企业管理有限公司 钓鱼网站检测方法、装置、设备及计算机可读存储介质
CN113163234A (zh) * 2021-04-02 2021-07-23 中国科学院信息工程研究所 一种基于第三方服务的盗版视频网站检测方法及***
CN113239256A (zh) * 2021-05-14 2021-08-10 北京百度网讯科技有限公司 生成网站签名的方法、识别网站的方法及装置
CN114363039A (zh) * 2021-12-30 2022-04-15 恒安嘉新(北京)科技股份公司 一种诈骗网站的识别方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737183A (zh) * 2012-06-12 2012-10-17 腾讯科技(深圳)有限公司 网页安全访问的方法及装置
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及***
CN104899508A (zh) * 2015-06-17 2015-09-09 中国互联网络信息中心 一种多阶段钓鱼网站检测方法与***
CN106055574A (zh) * 2016-05-19 2016-10-26 微梦创科网络科技(中国)有限公司 一种识别非法统一资源标识符url的方法与装置
CN108234474A (zh) * 2017-12-28 2018-06-29 北京奇虎科技有限公司 一种网站识别的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737183A (zh) * 2012-06-12 2012-10-17 腾讯科技(深圳)有限公司 网页安全访问的方法及装置
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及***
CN104899508A (zh) * 2015-06-17 2015-09-09 中国互联网络信息中心 一种多阶段钓鱼网站检测方法与***
CN106055574A (zh) * 2016-05-19 2016-10-26 微梦创科网络科技(中国)有限公司 一种识别非法统一资源标识符url的方法与装置
CN108234474A (zh) * 2017-12-28 2018-06-29 北京奇虎科技有限公司 一种网站识别的方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362729A (zh) * 2019-07-03 2019-10-22 杭州安恒信息技术股份有限公司 基于搜索引擎的未上架风险app检索方法
CN111680220A (zh) * 2020-06-12 2020-09-18 国家计算机网络与信息安全管理中心浙江分中心 一种基于网站特征的贷款类诈骗网站的识别方法
CN112200196A (zh) * 2020-11-10 2021-01-08 平安普惠企业管理有限公司 钓鱼网站检测方法、装置、设备及计算机可读存储介质
CN113163234A (zh) * 2021-04-02 2021-07-23 中国科学院信息工程研究所 一种基于第三方服务的盗版视频网站检测方法及***
CN113163234B (zh) * 2021-04-02 2022-10-14 中国科学院信息工程研究所 一种基于第三方服务的盗版视频网站检测方法及***
CN113239256A (zh) * 2021-05-14 2021-08-10 北京百度网讯科技有限公司 生成网站签名的方法、识别网站的方法及装置
CN113239256B (zh) * 2021-05-14 2024-02-23 北京百度网讯科技有限公司 生成网站签名的方法、识别网站的方法及装置
CN114363039A (zh) * 2021-12-30 2022-04-15 恒安嘉新(北京)科技股份公司 一种诈骗网站的识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109347786A (zh) 钓鱼网站检测方法
Chiew et al. Utilisation of website logo for phishing detection
Panchenko et al. Website fingerprinting in onion routing based anonymization networks
Ramesh et al. An efficacious method for detecting phishing webpages through target domain identification
Das Guptta et al. Modeling hybrid feature-based phishing websites detection using machine learning techniques
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与***
Panchenko et al. Analysis of fingerprinting techniques for Tor hidden services
CN104077396A (zh) 一种钓鱼网站检测方法及装置
CN108038173B (zh) 一种网页分类方法、***及一种网页分类设备
CN103209177B (zh) 网络钓鱼攻击的检测方法和装置
CN106789939A (zh) 一种钓鱼网站检测方法和装置
Bannur et al. Judging a site by its content: learning the textual, structural, and visual features of malicious web pages
Dadkhah et al. An introduction to journal phishings and their detection approach
CN106230835B (zh) 基于Nginx日志分析和IPTABLES转发的反恶意访问的方法
CN110474889A (zh) 一种基于网站图标的钓鱼网站识别方法及装置
CN108023868A (zh) 恶意资源地址检测方法和装置
CN108270754B (zh) 一种钓鱼网站的检测方法及装置
Sanglerdsinlapachai et al. Web phishing detection using classifier ensemble
Park et al. Phishing website detection framework through web scraping and data mining
Khan Detection of phishing websites using deep learning techniques
CN115134147A (zh) 电子邮件检测方法及装置
CN103475673A (zh) 钓鱼网站识别方法、装置及客户端
Jain Phishing websites detection using machine learning
Valiyaveedu et al. Survey and analysis on AI based phishing detection techniques
Kaur et al. Five-tier barrier anti-phishing scheme using hybrid approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190215

WD01 Invention patent application deemed withdrawn after publication