CN114095278B - 一种基于混合特征选择框架的钓鱼网站检测方法 - Google Patents

一种基于混合特征选择框架的钓鱼网站检测方法 Download PDF

Info

Publication number
CN114095278B
CN114095278B CN202210059367.5A CN202210059367A CN114095278B CN 114095278 B CN114095278 B CN 114095278B CN 202210059367 A CN202210059367 A CN 202210059367A CN 114095278 B CN114095278 B CN 114095278B
Authority
CN
China
Prior art keywords
sample
feature
primary selection
coordinate system
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210059367.5A
Other languages
English (en)
Other versions
CN114095278A (zh
Inventor
赵立凡
秦素娟
温巧燕
李明柱
张胜
陈飞
陈静华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Mingbo Internet Safety Innovation Research Institute Co ltd
Beijing University of Posts and Telecommunications
Original Assignee
Nanjing Mingbo Internet Safety Innovation Research Institute Co ltd
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Mingbo Internet Safety Innovation Research Institute Co ltd, Beijing University of Posts and Telecommunications filed Critical Nanjing Mingbo Internet Safety Innovation Research Institute Co ltd
Priority to CN202210059367.5A priority Critical patent/CN114095278B/zh
Publication of CN114095278A publication Critical patent/CN114095278A/zh
Application granted granted Critical
Publication of CN114095278B publication Critical patent/CN114095278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于混合特征选择框架的钓鱼网站检测方法,采用全新设计策略,基于预设各初选类型特征,根据模型预测时间指标和准确率指标,确定最佳特征截止位置,生成目标特征组,最后将该目标特征组送入决策树分类器进行模型调参、训练模型,获得钓鱼网页检测模型,用于钓鱼网站检测***;整个方案从混合特征选择框架方面入手,提高了特征选择的稳定性,打破以往人工设置阈值方法所带来准确率和***检测速率无法平衡的问题,从而提升了钓鱼网站的检测效率和准确度,有效提高了网络的整体防护能力。

Description

一种基于混合特征选择框架的钓鱼网站检测方法
技术领域
本发明涉及一种基于混合特征选择框架的钓鱼网站检测方法,属于钓鱼网站侦测技术领域。
背景技术
为保护用户避免遭到钓鱼攻击,国内外众多研究已经进行了多项工作,钓鱼网站的检测技术主要分为三类:基于黑白名单技术、基于启发式检测、基于机器学习的方法。
1.基于黑白名单技术
基于黑白名单技术是防止网络钓鱼攻击的最简单方法之一,目前主流的浏览器集成了黑白名单以抵御网络钓鱼攻击。Google浏览器通过自动更新黑名单列表来阻止恶意网站进行钓鱼攻击,用户可以通过Google安全浏览API检查带访问站点的安全性。Jain A K和GuptaB.B等人在2016年提出了一种自动更新白名单的技术来检测钓鱼攻击,该方法使用超链接功能检查网页的合法性,访问页面时从其源代码中提取超链接并将其用于网络钓鱼检测算法,此方法可以有效检测各种类型的攻击。
Adam Oest等人2020年提出一种新型检测方法,他们首先提取网络事件,这些事件可以从原始的网络流量日志,如图像或样式元素的请求,或从网络***或JavaScriptweb应用程序代码的预处理数据中获得。然后使用时间戳注释每个被接收的事件,并提取进一步的属性,如IP地址、用户代理、会话标识符、引用的URL和被访问的URL。接着对引用URL和被访问URL属性,用白名单过滤法来消除正常情况下预期会发生的良性事件,例如对组织的合法网站的请求或与经批准的合作伙伴网站上的推荐人的请求。此后,通过字符串匹配技术将剩余事件的URL与来自其他数据源的已知钓鱼网站URL库进行比对,发现其相关性,这种相关性可以发现一些可能只与以前报告的URL使用类似的主机名或路径,但有其他不同之处的新型钓鱼URL。
2.基于启发式检测
基于启发式的技术不依赖任何预定义的黑白名单,通常需要人工提取网页中的启发式规则来识别网络钓鱼。Rao等人提出了一个应用程序Jail-Phish,他可以提高基于搜索引擎技术的准确性,可以识别出托管在受感染服务器上的网络钓鱼站点以及新注册的合法站点,并且准确率高达98.61%,而FPR小于0.64%
3.基于机器学习的方法
基于机器学习的识别技术依据从网站中提取的特征识别网络钓鱼。通常网络钓鱼网站与正常网站存在可区分的特征,并且机器学习在这方面效果显著。常见的特征提取自URL、HTML、JavaScript、CSS以及第三方服务。Huaping Yuan等人从URL以及网页的链接中提取特征来检测钓鱼网站及其目标,除了给定URL的基本特征,还根据网页中的链接提取了特征矩阵用于模型训练,并比较了多种机器学习算法的性能,其中深度森林表现出较好的性能,TPP为98.3%,误报率为2.6%。此外,该方法还可以无视网站使用的语言,并提出了一种基于搜索算子的钓鱼网站目标检测方法。
Boshen Chen等人提出一种基于CSS特征的网页恶意重定向链接检测方法。此方法提取了诸如网页内容中宽度和高度为零的元素的数量、overflow属性为hidden的数量等新型特征,用于针对性的检测使用遮蔽技术来隐藏恶意重定向的网站。通过与常规方法对比实验证明,使用CSS特征模型准确率高达98%,但对于存在iframe标签的重定向网站,SVM模型会产生误判现象。
虽然基于机器学习的钓鱼监测***的准确性主要取决于所选的特征,但是所提特征的冗余性和不相关性不仅会增加计算成本,还会导致***的精度下降,所以高效的特征选择算法对于检测钓鱼网站也很重要。
发明内容
本发明所要解决的技术问题是提供一种基于混合特征选择框架的钓鱼网站检测方法,采用全新设计策略,提升了钓鱼网站的检测效率和准确度,有效提高了网络的整体防护能力。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于混合特征选择框架的钓鱼网站检测方法,通过步骤A至步骤D,获得钓鱼网页检测模型,然后按步骤i,应用钓鱼网页检测模型,针对待检测网页实现钓鱼检测;
步骤A. 针对预设数量
Figure DEST_PATH_IMAGE001
个已知样本网址所对应样本网页对应钓鱼网页标签或非 钓鱼网页标签的有效样本网址,按不同样本子数据集之间允许存在相同有效样本网址,以 及单个样本子数据集包含至少
Figure DEST_PATH_IMAGE002
个有效样本网址,执行划分获得
Figure DEST_PATH_IMAGE003
个样本子数据集,且 全部样本子数据集中的有效样本网址覆盖全部
Figure 986931DEST_PATH_IMAGE001
个有效样本网址,然后进入步骤B;
步骤B. 针对各个样本子数据集,根据预设各初选类型特征,获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C;
步骤C. 获得各个样本子数据集分别所对应综合特征组之间的并集,作为目标特征组,然后进入步骤D;
步骤D. 根据全部
Figure 536992DEST_PATH_IMAGE001
个有效样本网址分别所对应样本网页的样本源代码分别对应 目标特征组中各初选类型特征的特征值,以及全部
Figure 545530DEST_PATH_IMAGE001
个有效样本网址分别所对应样本网页 对应钓鱼网页标签或非钓鱼网页标签,以样本源代码对应目标特征组中各初选类型特征的 特征值为输入,样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针 对预设分类网络进行训练,获得钓鱼网页检测模型;
步骤i. 获得待检测网页的源代码对应目标特征组中各初选类型特征的特征值,并应用钓鱼网页检测模型,获得待检测网页对应钓鱼网页标签或非钓鱼网页标签,针对待检测网页实现钓鱼检测。
作为本发明的一种优选技术方案:所述步骤B中,分别针对各个样本子数据集,执行如下步骤B1至步骤B6,获得样本子数据集所对应的综合特征组;进而获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C;
步骤B1. 分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码,按预设非数据字符库,剔除样本源代码中的非数据字符,更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码,然后进入步骤B2;
步骤B2. 分别针对该样本子数据集中各有效样本网址所对应样本网页的样本源代码,获得样本源代码分别对应预设各初选类型特征的特征值,进而获得各样本源代码分别对应预设各初选类型特征的特征值,然后进入步骤B3;
步骤B3. 根据各样本源代码分别对应预设各初选类型特征的特征值,分别应用各特征选择方法,针对各个初选类型特征进行打分、排序,获得各特征选择方法下、各初选类型特征的排序,构成各个初选特征排序,然后进入步骤B4;
步骤B4. 针对各个初选特征排序,获得各初选特征排序下
Figure DEST_PATH_IMAGE004
个初选特征组分别所 对应的预测时长与准确度,然后进入步骤B5;其中,
Figure 344683DEST_PATH_IMAGE004
表示初选类型特征的数量;
步骤B5. 针对各个初选特征排序,根据初选特征排序下
Figure 396428DEST_PATH_IMAGE004
个初选特征组分别所对 应的预测时长与准确度,获得各个初选特征排序分别所对应的中级特征组,然后进入步骤 B6;
步骤B6. 获得各初选特征排序分别所对应中级特征组之间的交集,构成该样本子数据集所对应的综合特征组。
作为本发明的一种优选技术方案:所述步骤B1中,分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码,按预设非数据字符库,应用正则表达式匹配方式或字符串匹配方式,剔除样本源代码中的非数据字符,更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码。
作为本发明的一种优选技术方案:所述步骤B3中,所述各特征选择方法包括信息增益特征选择方法、对称不确定性特征选择方法、卡方检验特征选择方法。
作为本发明的一种优选技术方案:所述步骤B4中,分别针对各个初选特征排序,执 行如下步骤B4-1至步骤B4-4,获得初选特征排序下
Figure 156705DEST_PATH_IMAGE004
个初选特征组分别所对应的预测时长 与准确度;进而获得各初选特征排序下
Figure 79137DEST_PATH_IMAGE004
个初选特征组分别所对应的预测时长与准确度,然 后进入步骤B5;
步骤B4-1. 初始化参数
Figure DEST_PATH_IMAGE005
,并进入步骤B4-2;
步骤B4-2. 选择初选特征排序中第1个初选类型特征至第
Figure DEST_PATH_IMAGE006
个初选类型特征,构成 第
Figure 804516DEST_PATH_IMAGE006
个初选特征组,然后进入步骤B4-3;
步骤B4-3. 根据该样本子数据集中各样本源代码分别对应第
Figure 89697DEST_PATH_IMAGE006
个初选特征组中各 初选类型特征的特征值,以及该各样本源代码分别对应样本网页对应钓鱼网页标签或非钓 鱼网页标签,以样本源代码对应第
Figure 715982DEST_PATH_IMAGE006
个初选特征组中各初选类型特征的特征值为输入,样本 源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针对预设网络进行训 练,获得训练后网络所对应的准确度,并获得训练后网络针对预设数量样本网页进行预测 所对应的预测时长,构成第
Figure 430603DEST_PATH_IMAGE006
个初选特征组所对应的预测时长与准确度,然后进入步骤B4- 4;
步骤B4-4. 判断
Figure DEST_PATH_IMAGE007
是否大于初选类型特征的数量
Figure 497523DEST_PATH_IMAGE004
,是则即获得该初选特征排 序下
Figure 261211DEST_PATH_IMAGE004
个初选特征组分别所对应的预测时长与准确度;否则针对
Figure 956766DEST_PATH_IMAGE006
的值进行加1更新,并返回 步骤B2-2。
作为本发明的一种优选技术方案:步骤B5. 分别针对各个初选特征排序,根据初 选特征排序下
Figure 853790DEST_PATH_IMAGE004
个初选特征组分别所对应的预测时长与准确度,执行如下步骤B5-1至步骤 B5-6,获得初选特征排序所对应的中级特征组;进而获得各个初选特征排序分别所对应的 中级特征组,然后进入步骤B6;
步骤B5-1. 构建以初选特征组所包含初选类型特征数量为横坐标、预测时长为纵 坐标的时长坐标系,并根据初选特征排序下
Figure 343808DEST_PATH_IMAGE004
个初选特征组分别所对应的预测时长,获得该 初选特征排序下
Figure 594792DEST_PATH_IMAGE004
个初选特征组分别对应时长坐标系中的各节点;
同时构建以初选特征组所包含初选类型特征数量为横坐标、准确度为纵坐标的准 确坐标系,并根据初选特征排序下
Figure 837248DEST_PATH_IMAGE004
个初选特征组分别所对应的准确度,获得该初选特征排 序下
Figure 729724DEST_PATH_IMAGE004
个初选特征组分别对应准确坐标系中的各节点;
然后进入步骤B5-2;
步骤B5-2. 分别针对时长坐标系与准确坐标系,首先获得坐标系中各节点分别相较横坐标上与其相邻前一节点在纵坐标上的差值,作为各节点分别所对应的差值,然后获得各节点所对应差值分别与横坐标上与其相邻前一节点所对应差值的比值,作为各节点分别所对应的差值变化率,然后进入步骤B5-3;
步骤B5-3. 分别针对时长坐标系与准确坐标系,判断坐标系中各节点分别所对应的差值变化率是否满足预设差值高波动范围,是则定义节点为改变点,否则定义节点为非改变点,然后进入步骤B5-4;
步骤B5-4. 分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值呈预设目标单一方向变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点,然后进入步骤B5-5;
步骤B5-5. 分别针对时长坐标系中的各个拐点,获得拐点所对应横坐标上初选类型特征数量,并获得准确坐标系横坐标上该初选类型特征数量所对应节点对应的准确度,结合该拐点对应时长坐标系的预测时长,按预设准确度权重、预设预测时长权重,执行加权计算获得该拐点所对应的综合结果,进而获得该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果;
同时分别针对准确坐标系中的各个拐点,获得拐点所对应横坐标上初选类型特征数量,并获得时长坐标系横坐标上该初选类型特征数量所对应节点对应的预测时长,结合该拐点对应准确坐标系的准确度,按预设准确度权重、预设预测时长权重,执行加权计算获得该拐点所对应的综合结果,进而获得该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果;然后进入步骤B5-6;
步骤B5-6. 根据该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果,以及该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果,选择最大综合结果所对应拐点在所属坐标系中对应横坐标上的初选类型特征数量,结合该初选特征排序获得相对应的初选特征组,作为该初选特征排序所对应的中级特征组。
作为本发明的一种优选技术方案:所述步骤B5-3中,分别针对时长坐标系与准确 坐标系,判断坐标系中各节点分别所对应的差值变化率是否满足
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
,是则定义节点为改变点,否则定义节点为非改变点。
作为本发明的一种优选技术方案:所述步骤B5-4中,分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值以上升变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点。
作为本发明的一种优选技术方案:所述步骤B5-4中,分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值以下降变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点。
作为本发明的一种优选技术方案:所述步骤D中的预设分类网络为决策树模型。
本发明所述一种基于混合特征选择框架的钓鱼网站检测方法,采用以上技术方案与现有技术相比,具有以下技术效果:
本发明所设计基于混合特征选择框架的钓鱼网站检测方法,采用全新设计策略,基于预设各初选类型特征,根据模型预测时间指标和准确率指标,确定最佳特征截止位置,生成目标特征组,最后将该目标特征组送入决策树分类器进行模型调参、训练模型,获得钓鱼网页检测模型,用于钓鱼网站检测***;整个方案从混合特征选择框架方面入手,提高了特征选择的稳定性,打破以往人工设置阈值方法所带来准确率和***检测速率无法平衡的问题,从而提升了钓鱼网站的检测效率和准确度,有效提高了网络的整体防护能力。
附图说明
图1是本发明所设计基于混合特征选择框架的钓鱼网站检测方法的框架示意图;
图2是本发明所设计基于混合特征选择框架的钓鱼网站检测方法的应用示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明所设计一种基于混合特征选择框架的钓鱼网站检测方法,实际应用当中,如图1和图2所示,通过步骤A至步骤D,获得钓鱼网页检测模型,然后按步骤i,应用钓鱼网页检测模型,针对待检测网页实现钓鱼检测。
步骤A. 针对预设数量
Figure 951496DEST_PATH_IMAGE001
个已知样本网址所对应样本网页对应钓鱼网页标签或非 钓鱼网页标签的有效样本网址,按不同样本子数据集之间允许存在相同有效样本网址,以 及单个样本子数据集包含至少
Figure 768404DEST_PATH_IMAGE002
个有效样本网址,执行划分获得
Figure 271673DEST_PATH_IMAGE003
个样本子数据集,且 全部样本子数据集中的有效样本网址覆盖全部
Figure 880640DEST_PATH_IMAGE001
个有效样本网址,然后进入步骤B。
步骤B. 针对各个样本子数据集,根据预设各初选类型特征,获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C。
实际应用当中,上述步骤B中,分别针对各个样本子数据集,执行如下步骤B1至步骤B6,获得样本子数据集所对应的综合特征组;进而获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C。
步骤B1. 分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码,按预设非数据字符库,应用正则表达式匹配方式或字符串匹配方式,剔除样本源代码中的非数据字符,诸如‘&’、‘;’、‘&#x’等,更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码,然后进入步骤B2。
步骤B2. 分别针对该样本子数据集中各有效样本网址所对应样本网页的样本源代码,获得样本源代码分别对应预设各初选类型特征的特征值,进而获得各样本源代码分别对应预设各初选类型特征的特征值,然后进入步骤B3。
实际应用当中,预设各初选类型特征诸如下表1所示。
表1
特征 含义
NumDots URL中 . 的数量
SubdomainLevel URL中子域名级别数
PathLevel URL中路径深度
UrlLength URL中URL长度
NumDash URL中破折号数
NumDashInHostname URL中域名中破折号数
AtSymbol URL中@数
TildeSymbol URL中~数
NumUnderscore URL中_数
NumPercent URL中%数
NumQueryComponents URL中查询数
NumAmpersand URL中&数
NumHash URL中#数
NumNumericChars URL中数字字符数
NoHttps HTTPS是否存在于URL
RandomString 随机字符串是否存在于URL
IpAddress 域名中是否包含ip地址
DomainInSubdomains 顶级域名和国家域名是否在子域名中
DomainInPaths 顶级域名和国家域名是否在路径中
HttpsInHostname HTTPS在主机名中
HostnameLength 主机名长度
PathLength 路径长度
QueryLength 查询长度
DoubleSlashInPath 路径中是否存在//
EmbeddedBrandName 子域名和路径中是否嵌入品牌名,品牌名即网页中最频繁出现域名
PctExtHyperlinks 外部超链接百分比
PctExtResourceUrls 外部资源URLs百分比
InsecureForms 不安全表单,action属性中是否包含未使用HTTPS的URL
ExtFormAction 表单action属性是否包含来自外部域的URL
AbnormalFormAction 表单action属性是否包含‘#’,‘about:blank’,空字符串或者‘JavaScript:true’
FrequentDomainNameMismatch 网页中最常见域名与URL域名是否匹配
RightClickDisabled 检查网页中是否包含JavaScript指令 禁止右键点击
PopUpWindow 检查网页中是否包含JavaScript指令 弹窗
SubmitInfoToEmail 检查网页中是否包含提交信息给邮箱 ‘mailto’
IframeOrFrame 是否使用Frame框架
MissingTitle 是否缺失Title tag
步骤B3. 根据各样本源代码分别对应预设各初选类型特征的特征值,分别应用诸如信息增益特征选择方法、对称不确定性特征选择方法、卡方检验特征选择方法的特征选择方法,针对各个初选类型特征进行打分、排序,获得各特征选择方法下、各初选类型特征的排序,构成各个初选特征排序,然后进入步骤B4。
步骤B4. 针对各个初选特征排序,获得各初选特征排序下
Figure 986829DEST_PATH_IMAGE004
个初选特征组分别所 对应的预测时长与准确度,然后进入步骤B5;其中,
Figure 87772DEST_PATH_IMAGE004
表示初选类型特征的数量。
上述步骤B4在实际应用当中,分别针对各个初选特征排序,执行如下步骤B4-1至 步骤B4-4,获得初选特征排序下
Figure 394732DEST_PATH_IMAGE004
个初选特征组分别所对应的预测时长与准确度;进而获得 各初选特征排序下
Figure 858205DEST_PATH_IMAGE004
个初选特征组分别所对应的预测时长与准确度,然后进入步骤B5。
步骤B4-1. 初始化参数
Figure 857998DEST_PATH_IMAGE005
,并进入步骤B4-2。
步骤B4-2. 选择初选特征排序中第1个初选类型特征至第
Figure 915078DEST_PATH_IMAGE006
个初选类型特征,构成 第
Figure 760149DEST_PATH_IMAGE006
个初选特征组,然后进入步骤B4-3。
步骤B4-3. 根据该样本子数据集中各样本源代码分别对应第
Figure 78129DEST_PATH_IMAGE006
个初选特征组中各 初选类型特征的特征值,以及该各样本源代码分别对应样本网页对应钓鱼网页标签或非钓 鱼网页标签,以样本源代码对应第
Figure 994963DEST_PATH_IMAGE006
个初选特征组中各初选类型特征的特征值为输入,样本 源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针对预设网络进行训 练,获得训练后网络所对应的准确度,并获得训练后网络针对预设数量样本网页进行预测 所对应的预测时长,构成第
Figure 867235DEST_PATH_IMAGE006
个初选特征组所对应的预测时长与准确度,然后进入步骤B4- 4。
步骤B4-4. 判断
Figure 250418DEST_PATH_IMAGE007
是否大于初选类型特征的数量
Figure 422905DEST_PATH_IMAGE004
,是则即获得该初选特征排 序下
Figure 233342DEST_PATH_IMAGE004
个初选特征组分别所对应的预测时长与准确度;否则针对
Figure 389648DEST_PATH_IMAGE006
的值进行加1更新,并返回 步骤B2-2。
步骤B5. 分别针对各个初选特征排序,根据初选特征排序下
Figure 313872DEST_PATH_IMAGE004
个初选特征组分别 所对应的预测时长与准确度,执行如下步骤B5-1至步骤B5-6,获得初选特征排序所对应的 中级特征组;进而获得各个初选特征排序分别所对应的中级特征组,然后进入步骤B6。
步骤B5-1. 构建以初选特征组所包含初选类型特征数量为横坐标、预测时长为纵 坐标的时长坐标系,并根据初选特征排序下
Figure 869094DEST_PATH_IMAGE004
个初选特征组分别所对应的预测时长,获得该 初选特征排序下
Figure 384520DEST_PATH_IMAGE004
个初选特征组分别对应时长坐标系中的各节点。
同时构建以初选特征组所包含初选类型特征数量为横坐标、准确度为纵坐标的准 确坐标系,并根据初选特征排序下
Figure 443436DEST_PATH_IMAGE004
个初选特征组分别所对应的准确度,获得该初选特征排 序下
Figure 905772DEST_PATH_IMAGE004
个初选特征组分别对应准确坐标系中的各节点;然后进入步骤B5-2。
步骤B5-2. 分别针对时长坐标系与准确坐标系,首先获得坐标系中各节点分别相较横坐标上与其相邻前一节点在纵坐标上的差值,作为各节点分别所对应的差值,然后获得各节点所对应差值分别与横坐标上与其相邻前一节点所对应差值的比值,作为各节点分别所对应的差值变化率,然后进入步骤B5-3。
步骤B5-3. 分别针对时长坐标系与准确坐标系,判断坐标系中各节点分别所对应 的差值变化率是否满足
Figure 315501DEST_PATH_IMAGE008
Figure 1828DEST_PATH_IMAGE009
,是则定义节点为改变点,否则定义节点 为非改变点,然后进入步骤B5-4。
步骤B5-4. 分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值呈预设目标单一方向变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点,然后进入步骤B5-5。
实际应用当中,上述步骤B5-4具体可以采用下述两种实施例中的任意一种。
其一,步骤B5-4中,分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值以上升变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点。
其二,步骤B5-4中,分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值以下降变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点。
步骤B5-5. 分别针对时长坐标系中的各个拐点,获得拐点所对应横坐标上初选类型特征数量,并获得准确坐标系横坐标上该初选类型特征数量所对应节点对应的准确度,结合该拐点对应时长坐标系的预测时长,按预设准确度权重、预设预测时长权重,执行加权计算获得该拐点所对应的综合结果,进而获得该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果。
同时分别针对准确坐标系中的各个拐点,获得拐点所对应横坐标上初选类型特征数量,并获得时长坐标系横坐标上该初选类型特征数量所对应节点对应的预测时长,结合该拐点对应准确坐标系的准确度,按预设准确度权重、预设预测时长权重,执行加权计算获得该拐点所对应的综合结果,进而获得该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果;然后进入步骤B5-6。
步骤B5-6. 根据该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果,以及该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果,选择最大综合结果所对应拐点在所属坐标系中对应横坐标上的初选类型特征数量,结合该初选特征排序获得相对应的初选特征组,作为该初选特征排序所对应的中级特征组。
步骤B6. 获得各初选特征排序分别所对应中级特征组之间的交集,构成该样本子数据集所对应的综合特征组。
步骤C. 获得各个样本子数据集分别所对应综合特征组之间的并集,作为目标特征组,然后进入步骤D。
步骤D. 根据全部
Figure 5163DEST_PATH_IMAGE001
个有效样本网址分别所对应样本网页的样本源代码分别对应 目标特征组中各初选类型特征的特征值,以及全部
Figure DEST_PATH_IMAGE010
个有效样本网址分别所对应样本网页 对应钓鱼网页标签或非钓鱼网页标签,以样本源代码对应目标特征组中各初选类型特征的 特征值为输入,样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针 对决策树模型进行训练,获得钓鱼网页检测模型,其中,决策树模型的参数max_depth=3, min_weight_fraction_leaf=0。
关于预设分类网络的选择,设计过程当中,对比了SVM,、Naive_Bayes、DecisionTree、RandomForest四种机器学习模型,并使用GridSearchCV进行参数调优,最终选取决策树模型。
步骤i. 获得待检测网页的源代码对应目标特征组中各初选类型特征的特征值,并应用钓鱼网页检测模型,获得待检测网页对应钓鱼网页标签或非钓鱼网页标签,针对待检测网页实现钓鱼检测。
上述技术方案在实际应用当中,将经过钓鱼网页检测模型检测为钓鱼网页标签的网页,会被收集到对应数据库中,则之后对待检测网页进行检测时,可以先与该数据库进行比对,若比对成功,则直接判断待检测网页对应钓鱼网页标签,否则再进一步执行上述步骤i进行检测。
上述技术方案所设计基于混合特征选择框架的钓鱼网站检测方法,采用全新设计策略,基于预设各初选类型特征,根据模型预测时间指标和准确率指标,确定最佳特征截止位置,生成目标特征组,最后将该目标特征组送入决策树分类器进行模型调参、训练模型,获得钓鱼网页检测模型,用于钓鱼网站检测***;整个方案从混合特征选择框架方面入手,提高了特征选择的稳定性,打破以往人工设置阈值方法所带来准确率和***检测速率无法平衡的问题,从而提升了钓鱼网站的检测效率和准确度,有效提高了网络的整体防护能力。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (4)

1.一种基于混合特征选择框架的钓鱼网站检测方法,其特征在于:通过步骤A至步骤D,获得钓鱼网页检测模型,然后按步骤i,应用钓鱼网页检测模型,针对待检测网页实现钓鱼检测;
步骤A.针对预设数量N个已知样本网址所对应样本网页对应钓鱼网页标签或非钓鱼网页标签的有效样本网址,按不同样本子数据集之间允许存在相同有效样本网址,以及单个样本子数据集包含至少
Figure FDA0003532784960000011
个有效样本网址,执行划分获得n个样本子数据集,且全部样本子数据集中的有效样本网址覆盖全部N个有效样本网址,然后进入步骤B;
步骤B.针对各个样本子数据集,根据预设各初选类型特征,获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C;
上述步骤B中,分别针对各个样本子数据集,执行如下步骤B1至步骤B6,获得样本子数据集所对应的综合特征组;进而获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C;
步骤B1.分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码,按预设非数据字符库,剔除样本源代码中的非数据字符,更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码,然后进入步骤B2;
步骤B2.分别针对该样本子数据集中各有效样本网址所对应样本网页的样本源代码,获得样本源代码分别对应预设各初选类型特征的特征值,进而获得各样本源代码分别对应预设各初选类型特征的特征值,然后进入步骤B3;
步骤B3.根据各样本源代码分别对应预设各初选类型特征的特征值,分别应用各特征选择方法,针对各个初选类型特征进行打分、排序,获得各特征选择方法下、各初选类型特征的排序,构成各个初选特征排序,然后进入步骤B4;
步骤B4.针对各个初选特征排序,获得各初选特征排序下L个初选特征组分别所对应的预测时长与准确度,然后进入步骤B5;其中,L表示初选类型特征的数量;
上述步骤B4中,分别针对各个初选特征排序,执行如下步骤B4-1至步骤B4-4,获得初选特征排序下L个初选特征组分别所对应的预测时长与准确度;进而获得各初选特征排序下L个初选特征组分别所对应的预测时长与准确度,然后进入步骤B5;
步骤B4-1.初始化参数l=1,并进入步骤B4-2;
步骤B4-2.选择初选特征排序中第1个初选类型特征至第l个初选类型特征,构成第l个初选特征组,然后进入步骤B4-3;
步骤B4-3.根据该样本子数据集中各样本源代码分别对应第l个初选特征组中各初选类型特征的特征值,以及该各样本源代码分别对应样本网页对应钓鱼网页标签或非钓鱼网页标签,以样本源代码对应第l个初选特征组中各初选类型特征的特征值为输入,样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针对预设网络进行训练,获得训练后网络所对应的准确度,并获得训练后网络针对预设数量样本网页进行预测所对应的预测时长,构成第l个初选特征组所对应的预测时长与准确度,然后进入步骤B4-4;
步骤B4-4.判断l+1是否大于初选类型特征的数量L,是则即获得该初选特征排序下L个初选特征组分别所对应的预测时长与准确度;否则针对l的值进行加1更新,并返回步骤B2-2;
步骤B5.针对各个初选特征排序,根据初选特征排序下L个初选特征组分别所对应的预测时长与准确度,获得各个初选特征排序分别所对应的中级特征组,然后进入步骤B6;
上述步骤B5.分别针对各个初选特征排序,根据初选特征排序下L个初选特征组分别所对应的预测时长与准确度,执行如下步骤B5-1至步骤B5-6,获得初选特征排序所对应的中级特征组;进而获得各个初选特征排序分别所对应的中级特征组,然后进入步骤B6;
步骤B5-1.构建以初选特征组所包含初选类型特征数量为横坐标、预测时长为纵坐标的时长坐标系,并根据初选特征排序下L个初选特征组分别所对应的预测时长,获得该初选特征排序下L个初选特征组分别对应时长坐标系中的各节点;
同时构建以初选特征组所包含初选类型特征数量为横坐标、准确度为纵坐标的准确坐标系,并根据初选特征排序下L个初选特征组分别所对应的准确度,获得该初选特征排序下L个初选特征组分别对应准确坐标系中的各节点;
然后进入步骤B5-2;
步骤B5-2.分别针对时长坐标系与准确坐标系,首先获得坐标系中各节点分别相较横坐标上与其相邻前一节点在纵坐标上的差值,作为各节点分别所对应的差值,然后获得各节点所对应差值分别与横坐标上与其相邻前一节点所对应差值的比值,作为各节点分别所对应的差值变化率,然后进入步骤B5-3;
步骤B5-3.分别针对时长坐标系与准确坐标系,判断坐标系中各节点分别所对应的差值变化率是否满足(-∞,-2.25]或[2,+∞),是则定义节点为改变点,否则定义节点为非改变点,然后进入步骤B5-4;
步骤B5-4.分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值呈预设目标单一方向变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点,然后进入步骤B5-5;
上述步骤B5-4中,分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值以上升变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点;
或者上述步骤B5-4中,分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值以下降变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点;
步骤B5-5.分别针对时长坐标系中的各个拐点,获得拐点所对应横坐标上初选类型特征数量,并获得准确坐标系横坐标上该初选类型特征数量所对应节点对应的准确度,结合该拐点对应时长坐标系的预测时长,按预设准确度权重、预设预测时长权重,执行加权计算获得该拐点所对应的综合结果,进而获得该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果;
同时分别针对准确坐标系中的各个拐点,获得拐点所对应横坐标上初选类型特征数量,并获得时长坐标系横坐标上该初选类型特征数量所对应节点对应的预测时长,结合该拐点对应准确坐标系的准确度,按预设准确度权重、预设预测时长权重,执行加权计算获得该拐点所对应的综合结果,进而获得该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果;然后进入步骤B5-6;
步骤B5-6.根据该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果,以及该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果,选择最大综合结果所对应拐点在所属坐标系中对应横坐标上的初选类型特征数量,结合该初选特征排序获得相对应的初选特征组,作为该初选特征排序所对应的中级特征组;
步骤B6.获得各初选特征排序分别所对应中级特征组之间的交集,构成该样本子数据集所对应的综合特征组;
步骤C.获得各个样本子数据集分别所对应综合特征组之间的并集,作为目标特征组,然后进入步骤D;
步骤D.根据全部N个有效样本网址分别所对应样本网页的样本源代码分别对应目标特征组中各初选类型特征的特征值,以及全部N个有效样本网址分别所对应样本网页对应钓鱼网页标签或非钓鱼网页标签,以样本源代码对应目标特征组中各初选类型特征的特征值为输入,样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针对预设分类网络进行训练,获得钓鱼网页检测模型;
步骤i.获得待检测网页的源代码对应目标特征组中各初选类型特征的特征值,并应用钓鱼网页检测模型,获得待检测网页对应钓鱼网页标签或非钓鱼网页标签,针对待检测网页实现钓鱼检测。
2.根据权利要求1所述一种基于混合特征选择框架的钓鱼网站检测方法,其特征在于:所述步骤B1中,分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码,按预设非数据字符库,应用正则表达式匹配方式或字符串匹配方式,剔除样本源代码中的非数据字符,更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码。
3.根据权利要求1所述一种基于混合特征选择框架的钓鱼网站检测方法,其特征在于:所述步骤B3中,所述各特征选择方法包括信息增益特征选择方法、对称不确定性特征选择方法、卡方检验特征选择方法。
4.根据权利要求1至3中任意一项所述一种基于混合特征选择框架的钓鱼网站检测方法,其特征在于:所述步骤D中的预设分类网络为决策树模型。
CN202210059367.5A 2022-01-19 2022-01-19 一种基于混合特征选择框架的钓鱼网站检测方法 Active CN114095278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210059367.5A CN114095278B (zh) 2022-01-19 2022-01-19 一种基于混合特征选择框架的钓鱼网站检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210059367.5A CN114095278B (zh) 2022-01-19 2022-01-19 一种基于混合特征选择框架的钓鱼网站检测方法

Publications (2)

Publication Number Publication Date
CN114095278A CN114095278A (zh) 2022-02-25
CN114095278B true CN114095278B (zh) 2022-05-24

Family

ID=80308601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210059367.5A Active CN114095278B (zh) 2022-01-19 2022-01-19 一种基于混合特征选择框架的钓鱼网站检测方法

Country Status (1)

Country Link
CN (1) CN114095278B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826105A (zh) * 2010-04-02 2010-09-08 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法
CN101894134A (zh) * 2010-06-21 2010-11-24 南京邮电大学 一种基于空间布局的钓鱼网页检测及其实现方法
CN102096781A (zh) * 2011-01-18 2011-06-15 南京邮电大学 一种基于网页关联性的钓鱼检测方法
CN102170447A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于最近邻及相似度测量检测钓鱼网页的方法
CN102316099A (zh) * 2011-07-28 2012-01-11 中国科学院计算机网络信息中心 网络钓鱼检测方法及装置
CN102647422A (zh) * 2012-04-10 2012-08-22 中国科学院计算机网络信息中心 钓鱼网站检测方法及设备
CN102647408A (zh) * 2012-02-27 2012-08-22 珠海市君天电子科技有限公司 一种基于内容分析的判断钓鱼网站的方法
CN103324615A (zh) * 2012-03-19 2013-09-25 哈尔滨安天科技股份有限公司 基于搜索引擎优化的钓鱼网站探测方法及***
CN103544436A (zh) * 2013-10-12 2014-01-29 深圳先进技术研究院 一种钓鱼网站鉴别***和方法
CN103685307A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 基于特征库检测钓鱼欺诈网页的方法及***、客户端、服务器
CN104077396A (zh) * 2014-07-01 2014-10-01 清华大学深圳研究生院 一种钓鱼网站检测方法及装置
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置
CN104899508A (zh) * 2015-06-17 2015-09-09 中国互联网络信息中心 一种多阶段钓鱼网站检测方法与***
CN105138921A (zh) * 2015-08-18 2015-12-09 中南大学 基于页面特征匹配的钓鱼网站目标域名识别方法
CN105338001A (zh) * 2015-12-04 2016-02-17 北京奇虎科技有限公司 识别钓鱼网站的方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2432933B (en) * 2006-03-14 2008-07-09 Streamshield Networks Ltd A method and apparatus for providing network security
US7668921B2 (en) * 2006-05-30 2010-02-23 Xerox Corporation Method and system for phishing detection
CN101820366B (zh) * 2010-01-27 2012-09-05 南京邮电大学 一种基于预取的钓鱼网页检测方法
CN103049484B (zh) * 2012-11-30 2016-04-20 北京奇虎科技有限公司 一种网页危险性的识别方法和装置
CN103368958A (zh) * 2013-07-05 2013-10-23 腾讯科技(深圳)有限公司 一种网页检测方法、装置和***
CN107360200A (zh) * 2017-09-20 2017-11-17 广东工业大学 一种基于分类信心和网站特征的钓鱼检测方法
CN109657470A (zh) * 2018-12-27 2019-04-19 北京天融信网络安全技术有限公司 恶意网页检测模型训练方法、恶意网页检测方法及***
CN110602113B (zh) * 2019-09-19 2021-05-25 中山大学 一种基于深度学习的层次化钓鱼网站检测方法
CN112468501B (zh) * 2020-11-27 2022-10-25 安徽大学 一种面向url的钓鱼网站检测方法
CN113051500B (zh) * 2021-03-25 2022-08-16 武汉大学 一种融合多源数据的钓鱼网站识别方法及***
CN113132410B (zh) * 2021-04-29 2023-12-08 深圳信息职业技术学院 一种用于检测钓鱼网址的方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826105A (zh) * 2010-04-02 2010-09-08 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法
CN101894134A (zh) * 2010-06-21 2010-11-24 南京邮电大学 一种基于空间布局的钓鱼网页检测及其实现方法
CN102096781A (zh) * 2011-01-18 2011-06-15 南京邮电大学 一种基于网页关联性的钓鱼检测方法
CN102170447A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于最近邻及相似度测量检测钓鱼网页的方法
CN102316099A (zh) * 2011-07-28 2012-01-11 中国科学院计算机网络信息中心 网络钓鱼检测方法及装置
CN102647408A (zh) * 2012-02-27 2012-08-22 珠海市君天电子科技有限公司 一种基于内容分析的判断钓鱼网站的方法
CN103324615A (zh) * 2012-03-19 2013-09-25 哈尔滨安天科技股份有限公司 基于搜索引擎优化的钓鱼网站探测方法及***
CN102647422A (zh) * 2012-04-10 2012-08-22 中国科学院计算机网络信息中心 钓鱼网站检测方法及设备
CN103544436A (zh) * 2013-10-12 2014-01-29 深圳先进技术研究院 一种钓鱼网站鉴别***和方法
CN103685307A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 基于特征库检测钓鱼欺诈网页的方法及***、客户端、服务器
CN104077396A (zh) * 2014-07-01 2014-10-01 清华大学深圳研究生院 一种钓鱼网站检测方法及装置
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置
CN104899508A (zh) * 2015-06-17 2015-09-09 中国互联网络信息中心 一种多阶段钓鱼网站检测方法与***
CN105138921A (zh) * 2015-08-18 2015-12-09 中南大学 基于页面特征匹配的钓鱼网站目标域名识别方法
CN105338001A (zh) * 2015-12-04 2016-02-17 北京奇虎科技有限公司 识别钓鱼网站的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于分类置信度和网站特征的钓鱼检测***;陈旭等;《信息网络安全》;20170910;全文 *
基于敏感特征的网络钓鱼网站检测方法;宋明秋;《万方》;20131204;全文 *
基于页面特征的钓鱼网站层次化检测的研究;朱琪;《万方》;20190827;全文 *

Also Published As

Publication number Publication date
CN114095278A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN107786575B (zh) 一种基于dns流量的自适应恶意域名检测方法
US10560471B2 (en) Detecting web exploit kits by tree-based structural similarity search
CN105072089B (zh) 一种web恶意扫描行为异常检测方法与***
CN103297435B (zh) 一种基于web日志的异常访问行为检测方法与***
EP1964364B1 (en) Method for evaluating and accessing a network address
CN106302440B (zh) 一种多渠道获取可疑钓鱼网站的方法
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
EP2090058B1 (en) System and method of analyzing web addresses
US9003524B2 (en) System and method for analyzing web content
US10404731B2 (en) Method and device for detecting website attack
Cui et al. Malicious URL detection with feature extraction based on machine learning
US8799310B2 (en) Method and system for processing a uniform resource locator
US8510262B2 (en) Promoting websites based on location
CN102279875A (zh) 钓鱼网站的识别方法和装置
CN111753171B (zh) 一种恶意网站的识别方法和装置
CN110572359A (zh) 基于机器学习的钓鱼网页检测方法
CN109768992A (zh) 网页恶意扫描处理方法及装置、终端设备、可读存储介质
CN110365810B (zh) 基于网络爬虫的域名缓存方法、装置、设备及存储介质
CN109104421A (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN112131507A (zh) 网站内容处理方法、装置、服务器和计算机可读存储介质
CN103440454B (zh) 一种基于搜索引擎关键词的主动式蜜罐检测方法
CN114095278B (zh) 一种基于混合特征选择框架的钓鱼网站检测方法
RU2740856C1 (ru) Способ и система для идентификации кластеров аффилированных веб-сайтов
KR100914600B1 (ko) 무효 클릭 판단 방법 및 시스템
CN117319014A (zh) 一种网络运维***中基于url相关性的恶意url图检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant