CN102790762A - 基于url分类的钓鱼网站检测方法 - Google Patents

基于url分类的钓鱼网站检测方法 Download PDF

Info

Publication number
CN102790762A
CN102790762A CN2012102027014A CN201210202701A CN102790762A CN 102790762 A CN102790762 A CN 102790762A CN 2012102027014 A CN2012102027014 A CN 2012102027014A CN 201210202701 A CN201210202701 A CN 201210202701A CN 102790762 A CN102790762 A CN 102790762A
Authority
CN
China
Prior art keywords
url
domain name
detection method
characteristic
fishing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN2012102027014A
Other languages
English (en)
Inventor
曹玖新
罗军舟
王田峰
董丹
刘波
东方
杨鹏伟
吴江林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN2012102027014A priority Critical patent/CN102790762A/zh
Publication of CN102790762A publication Critical patent/CN102790762A/zh
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于URL分类的钓鱼网站检测方法,首先对URL特征进行建模,针对特征中的域名模仿现象,本发明提出了一种利用动态规划思想对可疑域名和受保护域名进行相似度计算的方法,为收集钓鱼URL高频可疑字符特征,本发明提出了一种基于广义后缀树的可疑字符提取算法,之后在特征建模基础上利用支持向量机(SVM)算法对实验训练集进行了分类训练,训练结果得到SVM分类模型,用于对待检测URL进行分类,检测钓鱼网站的服务器根据特定的在线增量学习策略对当前SVM分类模型进行升级。

Description

基于URL分类的钓鱼网站检测方法
技术领域
本发明涉及网络安全领域,涉及一种反网络钓鱼的方法,特别涉及一种基于URL分类的钓鱼网站检测方法。
背景技术
网络钓鱼攻击已经成为当前网上交易安全的一个重大威胁,其对电子商务的发展造成了很大阻碍,因而对钓鱼防范的研究成为网络安全领域的热点问题。钓鱼网站的规模逐年成倍递增,从机器学习与模式识别角度讲,大量的钓鱼网站已经呈现出一种有迹可循的模式,这给用模式识别的方法进行学习分类带来了一定的应用空间。
目前存在的基于模式识别的钓鱼网站判别方法主要有:
1.基于邮件特征的钓鱼邮件检测方法。其主要方法是通过对大量钓鱼邮件的学习训练找出一组普遍存在的现象特征。方案从邮件的语言,布局以及结构入手获取诸如特殊句法,结构布局特点,词汇使用模式,反常语言应用等特征。
2.基于网页文本特征的钓鱼网页检测方法。该方法借助于TF-IDF算法计算一篇文档中的重要程度较高的词汇,然后以这些词汇为网页特征对网页进行分类,分类过程借鉴了***对网页的评价排名。
3.基于网页图像相似度得钓鱼网页检测。首先将HTML网页转换为标准图片形式,提取主色调和图片重心位置等属性标示图片特征,然后应用EMD(Earth Mover’s Distance)算法计算两图像间的相似度,设定一个阈值判断当前网页是否有模仿现象。
目前钓鱼检测方法存在一定的不足,无论是基于邮件特征还是基于网页特征都要通过对邮件或网页内容进行整体分析,这可能带来以下问题,一是邮件或网页标准不统一,这导致预先设定的检测特征有可能缺失;二是对邮件或网页进行整体分析花费时间较多,从应用角度来讲可能超过用户所能忍受的网络延时;三是受保护机构合法邮件或网页更新时,检测机构没有相应的联动机制。
发明内容
本发明的目的是针对现有技术的不足,提供一种适用性强、效率高的基于统一标准的URL的钓鱼检测方法。
本发明采用的技术方案是:一种基于URL分类的钓鱼网站检测方法,该方法包括以下步骤:
(1)、对钓鱼URL特征进行归纳分析,包括数值特征和布尔特征,数值特征有:1)包含IP地址的个数2)包含“.”的个数;3)域名位置的字符长度4)包含“-”的个数5)包含的数字字母组合个数6)*** PageRank值;布尔特征包括两部分,一是域名相关特征,二是关键词相关特征。其中前一种表示是否有域名模仿现象;后一种包括钓鱼URL中出现频率较高的关键词在当前URL中的存在情况。
上述对钓鱼URL特征进行归纳具体包括:
1)URL中存在IP地址。一定比例的钓鱼URL包含有IP地址,而在合法URL中几乎不存在包含IP地址的情况;
2)用“.”来对域名进行混淆。钓鱼网页往往通过用很多“.”来隔开一个正常的字段以达到迷惑用户的目的,如http://paypal.com.online-update.onlinebanking.service.customer./...而这种URL在合法网站几乎很少见到;
3)URL路径深度异常。即URL中包括“/”的数目,伪造的URL通过加长路径来混淆合法网址;
4)包含特殊字符。如“”“~”“-”在钓鱼URL中经常会出现;
5)存在较多数字、字母相混合的情况。该特征在合法URL与钓鱼URL中都有体现,但在钓鱼URL中更为明显;
6)域名字段长度异常。一般情况下,认为出现在‘http://’与第一个‘/’之间的字符串为域名字段,大部分合法URL的域名长度比较适中,而有一部分钓鱼URL此部分长度显得过长;
7)PageRank排名较低。PageRank是Google对所收录网页按照重要程度进行的排名,在检测中发现,绝大部分钓鱼URL此项数值较低或没有记录;
8)合法域名篡改。钓鱼网站域名往往对合法网站域名进行篡改,如把“paypal”中的字母“l”替换为数字“1”,根据一定方法可以对该现象进行检测。
9)可疑词汇。钓鱼URL中有些词汇出现频率较高,如“login”,“account”等,根据一定方法可以对这些可疑词汇进行统计提取。
采用特定方法检测域名篡改现象与统计可疑关键词。
所述域名篡改检测方法为:
假设从URL提取出的域名字符串U=u1u2…um,受保护域名字符串T=t1t2…tn,目标是计算U和T的最大相似度值S(U,T)。
采用动态规划思想,选择计算分别以ui和tj结束的两个域名字符串分段的最大相似度值问题作为子问题,该相似度值用Hi,j表示,那么根据ui与tj相对位置的不同与Hi,j值有四种情况:
1)两子字符串到ui与tj结束时长度相同,此时有:
H ij = H i - 1 , j - 1 + s ( u i , t j ) = H i - 1 , j - 1 + w match , u i = t j H i - 1 , j - 1 - w dismatch , u i ! = t j
其中wmatch与wdismatch分别表示ui与tj相同和相异时的权值。
2)以ui结束的子字符串在ui之前存在长度为k的缺失值,此时有:
Hi,j=Hi-k,j-Wk.
其中Wk为缺失惩罚值。
3)与2)类似的,以tj结束的子字符串在tj之前存在长度为l的缺失值,此时有:
Hi,j=Hi,j-l-Wl.
其中W1为缺失惩罚值。
4)当i=0或j=0时,为防止出现负的匹配值,定义此时的Hi,j为0,即:
Hi,0=H0,j=0.
综合上述四种情况,可以得到递归公式:
H i , j = max 0 H i - 1 , j - 1 + s ( u i , t j ) max k ≥ 1 ( H i - k , j - w k ) max l ≥ 1 ( H i , j - l - w l ) , 1≤i≤m,1≤j≤n
利用上述递归公式对两域名进行计算得到一个m*n的矩阵H。两域名的最大相似度值即矩阵的最大值h(m,n)。根据目标受保护域名(即域名T)的长度进行规格化处理,之后得到U的域名相似系数
Figure BDA00001780634800042
当TMU=1时表示U与目标合法域名完全匹配,对于其他情况,给定一个域名模仿的阈值区间(f1,f2),当TMU∈(f1,f2)时表示极有可能为域名模仿现象。在发明将此区间设置为(0.5,1)。
所述可疑关键词定义如下:超过一定比例的URL所共有;在这些共有URL的公共子字符串中(如有多个)中是最长的;不包括诸如“http://”,“www”等URL基本元素。可疑关键词提取利用广义后缀树查找方法,寻找在给定URL字符串集合中出现次数超过k次的URL子字符串,计算步骤如下:
步骤1.构造一棵空的广义后缀树(GST),设定路径结束符为“$”;
步骤2.将URL字符串产生的后缀依次***GST,若遇到相同后缀则合并当前节点,若无已存在后缀则***当前节点产生新的后缀节点;
步骤3.重复步骤2直至URL集合中的所有URL处理完毕,此时GST构建完成;
步骤4.设置Map集合<P,S>,其中P表示路径集合,S表示P所对应的字符串;
步骤5.遍历GST,对于每个节点所对应的路径e,查询其所属于的URL子字符串s,根据s搜索Map集合得到s所对应的所有路径集合p’,如果令=∪<e,s>否则转步骤6;
步骤6.如果e比p’中任一路径都要长,令p’=p’∪e;
步骤7.重复步骤5、6,直到所有路径都遍历完成;
步骤8.遍历集合<P,S>,输出s出现次数超过k次的响应P集合D,D即为所求。
(2)、根据特征建模结果,采用支持向量机算法对原始数据进行训练得到初始分类模型,根据此分类模型可以对待检测的URL进行检测。具体步骤如下:
步骤1.根据特征建模结果,将原始URL记录转换成特征向量。
步骤2.采用支持向量机算法对这些特征向量进行训练得到初始分类模型M,用于对待检测URL进行分类。
(3)、为适应钓鱼攻击行为的多变性,检测钓鱼网站的服务器根据特定的在线增量学习策略对当前分类模型进行升级。所述在线增量学习策略如下:
步骤1.定义两个空数据集C-SET与B-SET,其中C-SET用于存放分类器训
练样本,B-SET存放增量过程中的丢弃样本。
步骤2.定义初始样本集为YH,此时有C-SET=YH
步骤3.以YH为训练样本得到初始分类器ΨH。以ΨH检验增量样本集YI,其中违背KKT条件的样本记为YI NK,符合KKT条件的样本记为YI K,若
Figure BDA00001780634800051
Figure BDA00001780634800052
则本轮增量结束否则转步骤4
步骤4.令C-SET=C-SET∪YI NK,B-SET=B-SET∪YI K。对C-SET进行训练得到增量分类器ΨI
步骤5.利用ΨI对B-SET进行再分类得到YB NK,若
Figure BDA00001780634800053
则ΨI为最终增量分类器。否则令C-SET=C-SET∪YB NK,对C-SET进行再次训练得到修正的最终分类器ΨO
有益效果:本发明所采用的基于URL学习分类的钓鱼检测方法,综合利用了黑白名单匹配检测与钓鱼URL特征检测,对于已有明确记录的URL信息可以达到快速检测的目的,对于数据库中未存储的URL数据可以利用训练生成的SVM分类模型对URL进行预测分类,这种综合检测方法有效弥补了单纯依靠黑白名单检测对未知URL无法处理的情况。同时,本发明在URL特征建模过程中对域名模仿以及关键词特征进行了有效的定义与检测,使得钓鱼URL特征描述更加精确,继而有效提高了SVM分类精度。
附图说明
图1为本发明基于URL分类的钓鱼检测原型***框架;
图2为本发明基于URL的钓鱼检测方法流程图;
图3为本发明基于URL的钓鱼检测方法实施过程时序图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步说明:
根据上述技术方案,本发明实现了一个基于URL分类的钓鱼检测原型***,该***的结构示意图如图1所示。***包括三个组成部分:浏览器客户端、分析中心服务器以及受保护机构(bank,e-business)。其中浏览器客户端以浏览器插件形式存在,负责监控用户输入的网址并将获取的网址送入分析中心服务器分析。分析中心服务器包括URL数据库(URL Database)以及机器学习引擎(ML engine),负责对URL进行综合分析并将结果反馈于浏览器客户端。受保护机构主要为分析中心服务器提供最新的受保护域名信息,并通过邮件等方式告知用户最新的针对该机构的攻击信息。***在三方协作的基础上力求最大限度地提高用户网上交易的安全性。
图3是***详细设计中的各模块之间的交互时序图,***组成模块包括浏览器插件(BrowserPlugin)、Web程序容器(WebContainer)、服务器主程序(URLCheckServlet)、分类模型(ClassifierModel)、特征生成模块(FeatureGenerator)以及数据库管理模块(DataManager)。
结合图2、3所示,基于URL分类的钓鱼网站检测方法的具体实施方式可以描述为:
步骤1.用户在浏览器终端输入网址,浏览器插件对地址栏URL进行监听并将状态转换为URL待发送;
步骤2.用户在浏览器插件界面点击允许发送URL按钮,插件将URL信息传入后台服务器。
步骤3.后台服务器调用主程序(URLCheckServlet),该servlet首先调用数据库管理模块(DataManager)查询黑白名单数据库,若存在黑名单匹配,则直接判定为钓鱼,流程结束,若存在白名单匹配,则直接判定为合法,流程结束。若不存在匹配情况,转入步骤4.
步骤4.URLCheckServlet调用模型分类主程序ClassiferModel进行预测分类。ClassiferModel调用URL特征提取模块FeatureGenertor对URL进行特征提取形成相应的特征向量。在此特征向量基础上利用SVM分类模型获得分类预测值。步骤5.将步骤4所得分类预测值映射为相应的钓鱼可能性概率,将该结果反馈给客户端。
基于本发明方法开发了原型***。从实验效果来看,本发明能在短时间内,较为准确地判断URL地址的合法性,并将结果反馈给用户,对用户的财产信息安全起到了一定的保护效果。
应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (5)

1.一种基于URL分类的钓鱼网站检测方法,其特征在于,该方法包括以下步骤:
(1)、对钓鱼URL特征进行归纳分析,包括数值特征和布尔特征,布尔特征包括域名相关特征和关键词相关特征,采用特定方法检测域名篡改现象与统计可疑关键词;
(2)、根据特征建模结果,采用支持向量机算法对原始数据进行训练得到初始分类模型,根据此分类模型可以对待检测的URL进行检测;
(3)、为适应钓鱼攻击行为的多变性,检测钓鱼网站的服务器根据特定的在线增量学习策略对当前分类模型进行升级。
2.根据权利要求1所述的基于URL分类的钓鱼网站检测方法,其特征在于:
所述步骤(1)中域名篡改检测方法为:
假设从URL提取出的域名字符串U=u1u2…um,受保护域名字符串T=t1t2…tn,目标是计算U和T的最大相似度值S(U,T)。
采用动态规划思想,选择计算分别以ui和tj结束的两个域名字符串分段的最大相似度值问题作为子问题,该相似度值用Hi,j表示,那么根据ui与tj相对位置的不同与Hi,j值有四种情况:
1)两子字符串到ui与tj结束时长度相同,此时有:
H ij = H i - 1 , j - 1 + s ( u i , t j ) = H i - 1 , j - 1 + w match , u i = t j H i - 1 , j - 1 - w dismatch , u i ! = t j
其中wmatch与wdismatch分别表示ui与tj相同和相异时的权值。
2)以ui结束的子字符串在ui之前存在长度为k的缺失值,此时有:
Hi,j=Hi-k,j-Wk.
其中Wk为缺失惩罚值。
3)与2)类似的,以tj结束的子字符串在tj之前存在长度为l的缺失值,此时有:
Hi,j=Hi,j-l-Wl.
其中W1为缺失惩罚值。
4)当i=0或j=0时,为防止出现负的匹配值,定义此时的Hi,j为0,即:Hi,0=H0,j=0.
综合上述四种情况,可以得到递归公式:
H i , j = max 0 H i - 1 , j - 1 + s ( u i , t j ) max k &GreaterEqual; 1 ( H i - k , j - w k ) max l &GreaterEqual; 1 ( H i , j - l - w l ) , 1≤i≤m,1≤j≤n
利用上述递归公式对两域名进行计算得到一个m*n的矩阵H。两域名的最大相似度值即矩阵的最大值h(m,n)。根据目标受保护域名(即域名T)的长度进行规格化处理,之后得到U的域名相似系数
Figure FDA00001780634700022
当TMU=1时表示U与目标合法域名完全匹配,对于其他情况,给定一个域名模仿的阈值区间(f1,f2),当TMU∈(f1,f2)时表示极有可能为域名模仿现象。在发明将此区间设置为(0.5,1)。
3.根据权利要求1所述的基于URL分类的钓鱼网站检测方法,其特征在于:所述可疑关键词统计方法为:
步骤1.构造一棵空的广义后缀树(GST),设定路径结束符为“$”;
步骤2.将URL字符串产生的后缀依次***GST,若遇到相同后缀则合并当前节点,若无已存在后缀则***当前节点产生新的后缀节点;
步骤3.重复步骤2直至URL集合中的所有URL处理完毕,此时GST构建完成;
步骤4.设置Map集合<P,S>,其中P表示路径集合,S表示P所对应的字符串;
步骤5.遍历GST,对于每个节点所对应的路径e,查询其所属于的URL子字符串s,根据s搜索Map集合得到s所对应的所有路径集合p’,如果
Figure FDA00001780634700023
令=∪<e,s>否则转步骤6;
步骤6.如果e比p’中任一路径都要长,令p’=p’∪e;
步骤7.重复步骤5、6,直到所有路径都遍历完成;
步骤8.遍历集合<P,S>,输出s出现次数超过k次的响应P集合D,D即为所求。
4.根据权利要求1所述的基于URL分类的钓鱼网站检测方法,其特征在于:所述步骤(2)中得到初始分类模型步骤如下:
步骤1.根据特征建模结果,将原始URL记录转换成特征向量。
步骤2.采用支持向量机算法对这些特征向量进行训练得到初始分类模型M,用于对待检测URL进行分类。
5.根据权利要求1所述的基于URL分类的钓鱼网站检测方法,其特征在于:所述步骤(3)中在线增量学习策略如下:
步骤1.定义两个空数据集C-SET与B-SET,其中C-SET用于存放分类器训
练样本,B-SET存放增量过程中的丢弃样本。
步骤2.定义初始样本集为YH,此时有C-SET=YH
步骤3.以YH为训练样本得到初始分类器ΨH。以ΨH检验增量样本集YI
其中违背KKT条件的样本记为YI NK,符合KKT条件的样本记为YI K,若
Figure FDA00001780634700031
Figure FDA00001780634700032
则本轮增量结束否则转步骤4
步骤4.令C-SET=C-SET∪YI NK,B-SET=B-SET∪YI K。对C-SET进行训练得到增量分类器ΨI
步骤5.利用ΨI对B-SET进行再分类得到YB NK,若
Figure FDA00001780634700033
则ΨI为最终增量分类器。否则令C-SET=C-SET∪YB NK,对C-SET进行再次训练得到修正的最终分类器ΨO
CN2012102027014A 2012-06-18 2012-06-18 基于url分类的钓鱼网站检测方法 Withdrawn CN102790762A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012102027014A CN102790762A (zh) 2012-06-18 2012-06-18 基于url分类的钓鱼网站检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012102027014A CN102790762A (zh) 2012-06-18 2012-06-18 基于url分类的钓鱼网站检测方法

Publications (1)

Publication Number Publication Date
CN102790762A true CN102790762A (zh) 2012-11-21

Family

ID=47156063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102027014A Withdrawn CN102790762A (zh) 2012-06-18 2012-06-18 基于url分类的钓鱼网站检测方法

Country Status (1)

Country Link
CN (1) CN102790762A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049483A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 网页危险性的识别***
CN103647774A (zh) * 2013-12-13 2014-03-19 扬州永信计算机有限公司 基于云计算的web内容信息过滤方法
CN104378361A (zh) * 2014-10-24 2015-02-25 苏州阔地网络科技有限公司 一种网络入侵检测方法及***
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和***
WO2015058616A1 (zh) * 2013-10-23 2015-04-30 腾讯科技(深圳)有限公司 恶意网站的识别方法和装置
CN104965926A (zh) * 2015-07-14 2015-10-07 安一恒通(北京)科技有限公司 网页提供方法及装置
CN105138912A (zh) * 2015-09-25 2015-12-09 北京奇虎科技有限公司 钓鱼网站检测规则的自动生成方法及装置
WO2016034048A1 (zh) * 2014-09-03 2016-03-10 飞天诚信科技股份有限公司 一种实现网络防钓鱼的方法
CN105635126A (zh) * 2015-12-24 2016-06-01 北京奇虎科技有限公司 恶意网址访问防护方法、客户端、安全服务器及***
CN105939340A (zh) * 2016-01-22 2016-09-14 北京匡恩网络科技有限责任公司 一种发现隐藏的蠕虫病毒的方法及***
CN106060038A (zh) * 2016-05-30 2016-10-26 南京邮电大学 基于客户端程序行为分析的钓鱼网站检测方法
CN107566389A (zh) * 2017-09-19 2018-01-09 济南互信软件有限公司 一种基于c4.5决策树的模仿url链接钓鱼域名识别方法
CN107679029A (zh) * 2017-08-28 2018-02-09 昆明理工大学 一种高准确性英文域名相似度检测方法
CN107807987A (zh) * 2017-10-31 2018-03-16 广东工业大学 一种字符串分类方法、***及一种字符串分类设备
CN107818132A (zh) * 2017-09-21 2018-03-20 中国科学院信息工程研究所 一种基于机器学习的网页代理发现方法
CN107992469A (zh) * 2017-10-13 2018-05-04 中国科学院信息工程研究所 一种基于词序列的钓鱼url检测方法及***
CN108111489A (zh) * 2017-12-07 2018-06-01 阿里巴巴集团控股有限公司 Url攻击检测方法、装置以及电子设备
CN108111584A (zh) * 2017-12-15 2018-06-01 中南大学 一种基于特征提取的有效下载链接识别方法与***
CN108737439A (zh) * 2018-06-04 2018-11-02 上海交通大学 一种基于自反馈学习的大规模恶意域名检测***及方法
CN109284465A (zh) * 2018-09-04 2019-01-29 暨南大学 一种基于url的网页分类器构建方法及其分类方法
CN109698820A (zh) * 2018-09-03 2019-04-30 长安通信科技有限责任公司 一种域名相似性计算及分类方法和***
CN109840413A (zh) * 2017-11-28 2019-06-04 ***通信集团浙江有限公司 一种钓鱼网站检测方法及装置
CN110298005A (zh) * 2019-06-26 2019-10-01 上海观安信息技术股份有限公司 一种对url进行归一化的方法
CN110493088A (zh) * 2019-09-24 2019-11-22 国家计算机网络与信息安全管理中心 一种基于url的移动互联网流量分类方法
CN110572359A (zh) * 2019-08-01 2019-12-13 杭州安恒信息技术股份有限公司 基于机器学习的钓鱼网页检测方法
CN111049816A (zh) * 2019-12-04 2020-04-21 北京奇虎科技有限公司 域名地址的过滤方法、设备及计算机可读存储介质
CN111563276A (zh) * 2019-01-25 2020-08-21 深信服科技股份有限公司 一种网页篡改检测方法、检测***及相关设备
CN112073427A (zh) * 2020-09-17 2020-12-11 成都思维世纪科技有限责任公司 一种基于http协议上下行流量数据接口识别***及方法
CN112565164A (zh) * 2019-09-26 2021-03-26 中国电信股份有限公司 危险ip的识别方法、装置和计算机可读存储介质
CN112564928A (zh) * 2019-09-10 2021-03-26 华为技术有限公司 服务分类方法及设备、互联网***
CN113992390A (zh) * 2021-10-26 2022-01-28 上海斗象信息科技有限公司 一种钓鱼网站的检测方法及装置、存储介质
WO2023043750A1 (en) * 2021-09-14 2023-03-23 Netskope, Inc. Machine learning-based systems and methods of using url feature hashes, html encodings, and content page embedded images for detecting phishing websites

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049483A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 网页危险性的识别***
CN103049483B (zh) * 2012-11-30 2016-04-20 北京奇虎科技有限公司 网页危险性的识别***
WO2015058616A1 (zh) * 2013-10-23 2015-04-30 腾讯科技(深圳)有限公司 恶意网站的识别方法和装置
CN103647774A (zh) * 2013-12-13 2014-03-19 扬州永信计算机有限公司 基于云计算的web内容信息过滤方法
WO2016034048A1 (zh) * 2014-09-03 2016-03-10 飞天诚信科技股份有限公司 一种实现网络防钓鱼的方法
CN104378361A (zh) * 2014-10-24 2015-02-25 苏州阔地网络科技有限公司 一种网络入侵检测方法及***
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和***
CN104486461B (zh) * 2014-12-29 2019-04-19 北京奇安信科技有限公司 域名分类方法和装置、域名识别方法和***
CN104965926A (zh) * 2015-07-14 2015-10-07 安一恒通(北京)科技有限公司 网页提供方法及装置
CN105138912A (zh) * 2015-09-25 2015-12-09 北京奇虎科技有限公司 钓鱼网站检测规则的自动生成方法及装置
CN105635126A (zh) * 2015-12-24 2016-06-01 北京奇虎科技有限公司 恶意网址访问防护方法、客户端、安全服务器及***
CN105635126B (zh) * 2015-12-24 2018-10-09 北京奇虎科技有限公司 恶意网址访问防护方法、客户端、安全服务器及***
CN105939340A (zh) * 2016-01-22 2016-09-14 北京匡恩网络科技有限责任公司 一种发现隐藏的蠕虫病毒的方法及***
CN106060038A (zh) * 2016-05-30 2016-10-26 南京邮电大学 基于客户端程序行为分析的钓鱼网站检测方法
CN106060038B (zh) * 2016-05-30 2019-07-12 南京邮电大学 基于客户端程序行为分析的钓鱼网站检测方法
CN107679029A (zh) * 2017-08-28 2018-02-09 昆明理工大学 一种高准确性英文域名相似度检测方法
CN107566389A (zh) * 2017-09-19 2018-01-09 济南互信软件有限公司 一种基于c4.5决策树的模仿url链接钓鱼域名识别方法
CN107818132A (zh) * 2017-09-21 2018-03-20 中国科学院信息工程研究所 一种基于机器学习的网页代理发现方法
CN107992469A (zh) * 2017-10-13 2018-05-04 中国科学院信息工程研究所 一种基于词序列的钓鱼url检测方法及***
CN107807987B (zh) * 2017-10-31 2021-07-02 广东工业大学 一种字符串分类方法、***及一种字符串分类设备
US11463476B2 (en) 2017-10-31 2022-10-04 Guangdong University Of Technology Character string classification method and system, and character string classification device
CN107807987A (zh) * 2017-10-31 2018-03-16 广东工业大学 一种字符串分类方法、***及一种字符串分类设备
CN109840413B (zh) * 2017-11-28 2020-12-22 ***通信集团浙江有限公司 一种钓鱼网站检测方法及装置
CN109840413A (zh) * 2017-11-28 2019-06-04 ***通信集团浙江有限公司 一种钓鱼网站检测方法及装置
CN108111489A (zh) * 2017-12-07 2018-06-01 阿里巴巴集团控股有限公司 Url攻击检测方法、装置以及电子设备
CN108111584A (zh) * 2017-12-15 2018-06-01 中南大学 一种基于特征提取的有效下载链接识别方法与***
CN108737439A (zh) * 2018-06-04 2018-11-02 上海交通大学 一种基于自反馈学习的大规模恶意域名检测***及方法
CN108737439B (zh) * 2018-06-04 2021-02-09 上海交通大学 一种基于自反馈学习的大规模恶意域名检测***及方法
CN109698820A (zh) * 2018-09-03 2019-04-30 长安通信科技有限责任公司 一种域名相似性计算及分类方法和***
CN109284465A (zh) * 2018-09-04 2019-01-29 暨南大学 一种基于url的网页分类器构建方法及其分类方法
CN111563276B (zh) * 2019-01-25 2024-04-09 深信服科技股份有限公司 一种网页篡改检测方法、检测***及相关设备
CN111563276A (zh) * 2019-01-25 2020-08-21 深信服科技股份有限公司 一种网页篡改检测方法、检测***及相关设备
CN110298005A (zh) * 2019-06-26 2019-10-01 上海观安信息技术股份有限公司 一种对url进行归一化的方法
CN110572359A (zh) * 2019-08-01 2019-12-13 杭州安恒信息技术股份有限公司 基于机器学习的钓鱼网页检测方法
CN112564928A (zh) * 2019-09-10 2021-03-26 华为技术有限公司 服务分类方法及设备、互联网***
CN110493088B (zh) * 2019-09-24 2021-06-01 国家计算机网络与信息安全管理中心 一种基于url的移动互联网流量分类方法
CN110493088A (zh) * 2019-09-24 2019-11-22 国家计算机网络与信息安全管理中心 一种基于url的移动互联网流量分类方法
CN112565164A (zh) * 2019-09-26 2021-03-26 中国电信股份有限公司 危险ip的识别方法、装置和计算机可读存储介质
CN112565164B (zh) * 2019-09-26 2023-07-25 中国电信股份有限公司 危险ip的识别方法、装置和计算机可读存储介质
CN111049816A (zh) * 2019-12-04 2020-04-21 北京奇虎科技有限公司 域名地址的过滤方法、设备及计算机可读存储介质
CN112073427A (zh) * 2020-09-17 2020-12-11 成都思维世纪科技有限责任公司 一种基于http协议上下行流量数据接口识别***及方法
CN112073427B (zh) * 2020-09-17 2023-04-07 成都思维世纪科技有限责任公司 一种基于http协议上下行流量数据接口识别***及方法
WO2023043750A1 (en) * 2021-09-14 2023-03-23 Netskope, Inc. Machine learning-based systems and methods of using url feature hashes, html encodings, and content page embedded images for detecting phishing websites
CN113992390A (zh) * 2021-10-26 2022-01-28 上海斗象信息科技有限公司 一种钓鱼网站的检测方法及装置、存储介质

Similar Documents

Publication Publication Date Title
CN102790762A (zh) 基于url分类的钓鱼网站检测方法
CN102739679A (zh) 一种基于url分类的钓鱼网站检测方法
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和***
Rao et al. Jail-Phish: An improved search engine based phishing detection system
Lakshmi et al. Efficient prediction of phishing websites using supervised learning algorithms
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及***
CN107341183B (zh) 一种基于暗网网站综合特征的网站分类方法
Smadi et al. Detection of phishing emails using data mining algorithms
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN109274632B (zh) 一种网站的识别方法及装置
TWI437452B (zh) 使用查詢相關性資料的垃圾網頁分類
CN101883024B (zh) 一种跨站点伪造请求的动态检测方法
CN109450845B (zh) 一种基于深度神经网络的算法生成恶意域名检测方法
CN106776567B (zh) 一种互联网大数据分析提取方法及***
CN104077396A (zh) 一种钓鱼网站检测方法及装置
CN104217160A (zh) 一种中文钓鱼网站检测方法及***
CN108337255B (zh) 一种基于web自动化测试和宽度学习的钓鱼网站检测方法
CN104982011A (zh) 使用多尺度文本指纹的文档分类
CN104536956A (zh) 一种基于微博平台的事件可视化方法及***
JP2010501096A (ja) ラッパー生成およびテンプレート検出の協同最適化
CN103544436A (zh) 一种钓鱼网站鉴别***和方法
CN105138921B (zh) 基于页面特征匹配的钓鱼网站目标域名识别方法
CN102170447A (zh) 一种基于最近邻及相似度测量检测钓鱼网页的方法
CN107046586A (zh) 一种基于类自然语言特征的算法生成域名检测方法
CN111181922A (zh) 一种钓鱼链接检测方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C04 Withdrawal of patent application after publication (patent law 2001)
WW01 Invention patent application withdrawn after publication

Application publication date: 20121121