CN107181730A - 一种仿冒网站监测识别方法及*** - Google Patents
一种仿冒网站监测识别方法及*** Download PDFInfo
- Publication number
- CN107181730A CN107181730A CN201710145302.1A CN201710145302A CN107181730A CN 107181730 A CN107181730 A CN 107181730A CN 201710145302 A CN201710145302 A CN 201710145302A CN 107181730 A CN107181730 A CN 107181730A
- Authority
- CN
- China
- Prior art keywords
- webpage
- web page
- detected
- phisher
- page contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2119—Authenticating web pages, e.g. with suspicious links
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种仿冒网站监测识别方法及***,方法包括:S1、分别对被仿冒网站和待检测网站进行页面解析,得到解析后的被仿冒网页和待检测网页;S2、分别对解析后的被仿冒网页和待检测网页进行特征提取,得到被仿冒网页和待检测网页的网页特征;S3、计算被仿冒网页与待检测网页的网页特征的相似性,得到对应于网页特征中所有特征的所有计算结果;S4、对所有计算结果进行集成汇总,得到集成汇总结果;S5、将集成汇总结果与预设阈值进行比较,如果集成汇总结果大于预设阈值,则待检测网站为仿冒网站。本发明的有益效果是:同时考虑了网页URL、网页内容以及网页图像的相似性,并对三个相似性进行集成汇总,提高对仿冒网站进行识别的准确性。
Description
技术领域
本发明涉及仿冒网站识别领域,特别涉及一种仿冒网站监测识别方法及***。
背景技术
随着计算机网络的迅速发展和广泛应用,对科学技术、经济发展和文化活动带来了巨大的推动作用,但同时计算机网络安全问题也变得日益复杂和突出。特别是政府和金融行业网站,一直是不法分子攻击的重点目标。《网络安全监测数据分析—2016年8月》显示,2016年8月针对境内网站的仿冒页面数量31046个,较7月增长4.2%。仿冒网站层出不穷,也引起了国内外专家学者的广泛关注,如何快速有效的检测出仿冒网站,成为当前网络安全领域研究的热点问题。
现有的仿冒网站识别方法是通过在用户浏览器中维护一个仿冒网站url的黑名单,并对这个黑名单进行实时更新,若用户访问页面在黑名单中则可阻止用户访问,但黑名单更新有一定的滞后性。现有技术还利用仿冒网站与被仿冒网站页面较为相似这一特性,通过提取网页内容特征,采用机器学习算法判断待检测网站是否是仿冒网站,但该方法对于仿冒网站中使用图片代替文本,构造虚假文本等类型的网站判断效果不佳,并不能准确识别仿冒网站。
发明内容
本发明提供了一种仿冒网站监测识别方法及***,解决了现有技术中不能准确识别仿冒网站的技术问题。
本发明解决上述技术问题的技术方案如下:一种仿冒网站监测识别方法,包括:
S1、分别对被仿冒网站和待检测网站进行页面解析,得到解析后的被仿冒网页和待检测网页;
S2、分别对解析后的所述被仿冒网页和所述待检测网页进行特征提取,得到所述被仿冒网页的网页特征和所述待检测网页的网页特征,其中,所述网页特征包括:网页URL、网页内容和网页截图;
S3、计算所述被仿冒网页的网页特征与所述待检测网页的网页特征的相似性,得到对应于所述网页特征中所有特征的所有计算结果;
S4、对所有所述计算结果进行集成汇总,得到集成汇总结果;
S5、将所述集成汇总结果与预设阈值进行比较,如果所述集成汇总结果大于所述预设阈值,则所述待检测网站为仿冒网站。
本发明的有益效果是:本技术方案在鉴别仿冒网站时,综合考虑了网页URL相似性、网页内容相似性以及网页图像相似性,通过对三个相似性结果进行集成汇总,从而提高对仿冒网站进行识别的准确性。
在上述技术方案的基础上,本发明还可以做如下改进。
优选地,步骤S3包括:
S31、计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的相似性,得到第一计算结果;
S32、计算所述被仿冒网页的网页内容与所述待检测网页的网页内容的相似性,得到第二计算结果;
S33、计算所述被仿冒网页的网页截图与所述待检测网页的网页截图的相似性,得到第三计算结果。
优选地,步骤S4具体通过线性组合方式对所述第一计算结果、所述第二计算结果和所述第三计算结果进行集成汇总,得到集成汇总结果。
优选地,步骤S2中,分别对解析后的所述被仿冒网页和所述待检测网页进行特征提取,得到所述被仿冒网页和所述待检测网页的网页内容的过程具体包括:
分别对所述被仿冒网页的网页内容和所述待检测网页的网页内容进行JavaScript解析,得到所述被仿冒网页和所述待检测网页的网页源码;
分别将所述被仿冒网页的网页源码和所述待检测网页的网页源码输入文档解析器中,得到所述被仿冒网页的文档对象模型和所述待检测网页的文档对象模型;
根据预先配置的XPath规则分别提取所述被仿冒网页的文档对象模型和所述待检测网页的文档对象模型中的网页内容。
优选地,步骤S32中,在计算所述被仿冒网页的网页内容与所述待检测网页的网页内容的相似性之前,还包括:
分别对所述被仿冒网页的网页内容和所述待检测网页的网页内容进行特征提取,得到所述被仿冒网页的网页内容的特征词和所述待检测网页的网页内容的特征词;
其中,计算所述被仿冒网页的网页内容与所述待检测网页的网页内容的相似性,包括:
根据所述特征词,计算所述被仿冒网页的网页内容和所述待检测网页的网页内容的相似性。
优选地,分别对所述被仿冒网页的网页内容和所述待检测网页的网页内容进行特征提取,具体包括:
分别对所述被仿冒网页的网页内容和所述待检测网页的网页内容进行分词;
通过开方检验算法分别对分词后的所述被仿冒网页的网页内容和所述待检测网页的网页内容进行特征词提取,得到所述被仿冒网页的网页内容的特征词和所述待检测网页的网页内容的特征词,所述特征词用于计算所述被仿冒网页的网页内容和所述待检测网页的网页内容的相似性。
优选地,步骤S31中,计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的相似性,得到第一计算结果具体包括:
通过编辑距离方法计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的不同距离比率;
计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的相同距离比率;
对所述不同距离比率和所述相同距离比率进行加权计算,得到第一计算结果。
优选地,步骤S33具体通过SIFT算法计算所述被仿冒网页的网页截图与所述待检测网页的网页截图的相似性。
一种仿冒网站监测识别***,包括:
解析模块,用于分别对被仿冒网站和待检测网站进行页面解析,得到解析后的被仿冒网页和待检测网页;
提取模块,用于分别对解析后的所述被仿冒网页和所述待检测网页进行特征提取,得到所述被仿冒网页的网页特征和所述待检测网页的网页特征,其中,所述网页特征包括:网页URL、网页内容和网页截图;
计算模块,用于计算所述被仿冒网页的网页特征与所述待检测网页的网页特征的相似性,得到对应于所述网页特征中所有特征的所有计算结果;
汇总模块,用于对所有所述计算结果进行集成汇总,得到集成汇总结果;
比较模块,用于将所述集成汇总结果与预设阈值进行比较,如果所述集成汇总结果大于所述预设阈值,则所述待检测网站为仿冒网站。
优选地,所述计算模块包括:
第一计算子模块,用于计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的相似性,得到第一计算结果;
第二计算子模块,用于计算所述被仿冒网页的网页内容与所述待检测网页的网页内容的相似性,得到第二计算结果;
第三计算子模块,用于计算所述被仿冒网页的网页截图与所述待检测网页的网页截图的相似性,得到第三计算结果;
所述汇总模块具体通过线性组合方式对所述第一计算结果、所述第二计算结果和所述第三计算结果进行集成汇总,得到集成汇总结果。
附图说明
图1为本发明实施例提供的一种仿冒网站监测识别方法的流程示意图;
图2为本发明另一实施例提供的一种仿冒网站监测识别方法的流程示意图;
图3为本发明实施例提供的一种仿冒网站监测识别***的结构示意图;
图4为本发明另一实施例提供的一种仿冒网站监测识别***的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,在实施例中,提供一种仿冒网站监测识别方法,包括:
S1、分别对被仿冒网站和待检测网站进行页面解析,得到解析后的被仿冒网页和待检测网页;
S2、分别对解析后的被仿冒网页和待检测网页进行特征提取,得到被仿 冒网页的网页特征和待检测网页的网页特征,其中,网页特征包括:网页URL、网页内容和网页截图;
S3、计算被仿冒网页的网页特征与待检测网页的网页特征的相似性,得到对应于网页特征中所有特征的所有计算结果;
S4、对所有计算结果进行集成汇总,得到集成汇总结果;
S5、将集成汇总结果与预设阈值进行比较,如果集成汇总结果大于预设阈值,则待检测网站为仿冒网站。
应理解,该实施例中,在鉴别仿冒网站时,综合考虑了网页URL相似性、网页内容相似性以及网页图像相似性,通过对三个相似性结果进行集成汇总,从而提高对仿冒网站进行识别的准确性。
具体地,对集成汇总结果进行归一化处理,使其处于预定范围内,如果集成汇总结果归一化后大于预定阈值,那么可以判断待检测网站为仿冒网站。
具体地,该实施例中,分别对被仿冒网站和待检测网站进行页面解析具体指进行JS(JavaScript)解析,现在越来越多的网站或页面使用JavaScript技术在客户端进行处理,这使得Web前端开发更加灵活高效、兼容性更强,但后端进行页面解析抽取处理操作时,JavaScript语言的信息会隐藏起来,传统的静态页面解析技术无法对其进行提取和分析,相较于静态页面需要做进一步JS页面解析操作。JS页面解析工具包括:PhantomJS、SlimerJS、CasperJS等,该实施例采用PhantomJS做页面解析,并搭建JS解析服务。
如图2所示,在另一实施例中,图1中的步骤S3包括:
S31、计算被仿冒网页的网页URL与待检测网页的网页URL的相似性,得到第一计算结果;
S32、计算被仿冒网页的网页内容与待检测网页的网页内容的相似性,得到第二计算结果;
S33、计算被仿冒网页的网页截图与待检测网页的网页截图的相似性,得到第三计算结果。
该实施例中,分别计算网页URL相似性、网页内容相似性和网页截图相似性,然后,通过线性组合方式对计算得到的第一计算结果、第二计算结果和第三计算结果进行集成汇总,得到集成汇总结果。
该实施例中,步骤S2中,分别对解析后的被仿冒网页和待检测网页进行特征提取,得到被仿冒网页和待检测网页的网页内容进行提取的过程具体包括:
分别对被仿冒网页的网页内容和待检测网页的网页内容进行JavaScript解析,得到被仿冒网页和待检测网页的网页源码;
分别将被仿冒网页的网页源码和待检测网页的网页源码输入文档解析器中,得到被仿冒网页的文档对象模型和待检测网页的文档对象模型;
根据预先配置的XPath规则分别提取被仿冒网页的文档对象模型和待检测网页的文档对象模型中的网页内容。
具体地,对被仿冒网页和待检测网页的网页内容进行JavaScript解析,获取JS解析后网页源码;然后,通过HTMLCleaner库(文档解析器)加载成HTML DOM(文档对象模型);使用预先配置好的XPath规则抽取网页内容。
该实施例中,步骤S32中,在计算被仿冒网页的网页内容与待检测网页的网页内容的相似性之前,分别对被仿冒网页的网页内容和待检测网页的网页内容进行特征提取,还包括:
分别对被仿冒网页的网页内容和待检测网页的网页内容进行特征提取,得到被仿冒网页的网页内容的特征词和待检测网页的网页内容的特征词;
其中,计算被仿冒网页的网页内容与待检测网页的网页内容的相似性,包括:
根据特征词,计算被仿冒网页的网页内容和待检测网页的网页内容的相似性。
具体地,分别对被仿冒网页的网页内容和待检测网页的网页内容进行特征提取,具体包括:
分别对被仿冒网页的网页内容和待检测网页的网页内容进行分词;
通过开方检验算法分别对分词后的被仿冒网页的网页内容和待检测网页的网页内容进行特征词提取,得到被仿冒网页的网页内容的特征词和待检测网页的网页内容的特征词。
具体地,对抽取的网页内容使用Java开源中文分词器Ansj进行中文分词,利用开放检验方法提取特征词。
具体地,该实施例中,步骤S31中,计算被仿冒网页的网页URL与待检测网页的网页URL的相似性,得到第一计算结果具体包括:
通过编辑距离方法计算被仿冒网页的网页URL与待检测网页的网页URL的不同距离比率;
计算被仿冒网页的网页URL与待检测网页的网页URL的相同距离比率;
对不同距离比率和相同距离比率进行加权计算,得到第一计算结果。
具体地,若两个URL的域名分别表示为U、V,其中U为被仿冒网站域名,V为待检测网站域名,待检测网站V的域名长度为len=length(V),编辑距离表示为Leven,即由V转化成U所需操作的最少编辑次数。在编辑距离公式中,insertions表示***的字符数,deletions表示删除的字符数,substitutions表示替换的字符数。两者的编辑距离表示为diff=Leven(U,V),不同距离比率表示为diffrate=diff/len,U、V两个域名的相同距离表示为same=length(U)-(substitutions+deletions),相同距离比率表示为samerate=same/len,两个网页URL的相似性原则为:不同距离比率越小,相 同距离比率越大,两个URL越相似。为了将多目标问题简化为容易解决的单目标问题,通过大量实验对两距离比率公式设权重,选定合适阈值,URL相似性计算公式为f(x)=0.6*diffrate-0.4*samerate。
具体地,该实施例中,步骤S33通过SIFT算法计算被仿冒网页的网页截图与待检测网页的网页截图的相似性。
应理解,图像相似性计算主要分两部分:网页截图以及基于Sift的页面图像相似性计算。其中网页截图采用PhantomJS技术。PhantomJS是一个基于WebKit的服务器端JavaScript API。它全面支持web而不需浏览器支持,支持各种Web标准(DOM处理、CSS选择器、JSON、Canvas和SVG)。PhantomJS可以用于页面自动化、网络监测、网页截屏以及无界面测试等。
SIFT特征匹配算法是在现有的基于不变量技术的特征检测方法的基础上的一种基于尺度空间的、对图像缩放、旋转甚至仿射变换保持不变性的特征匹配算法。该算法匹配能力较强,能提取稳定的特征,可以处理两幅图像之间发生平移、旋转、仿射变换、视角变换、光照变换情况下的匹配问题,甚至在某种程度上对任意角度拍摄的图像也具备较为稳定的特征匹配能力,从而可以实现差异较大的两幅图像之间的特征的匹配,继而计算两幅图像的相似性。
如图3所示,在实施例中,提供一种仿冒网站监测识别***,包括:
解析模块1,用于分别对被仿冒网站和待检测网站进行页面解析,得到解析后的被仿冒网页和待检测网页;
提取模块2,用于分别对解析后的被仿冒网页和待检测网页进行特征提取,得到被仿冒网页的网页特征和待检测网页的网页特征,其中,网页特征包括:网页URL、网页内容和网页截图;
计算模块3,用于计算被仿冒网页的网页特征与待检测网页的网页特征的相似性,得到对应于网页特征中所有特征的所有计算结果;
汇总模块4,用于对所有计算结果进行集成汇总,得到集成汇总结果;
比较模块5,用于将集成汇总结果与预设阈值进行比较,如果集成汇总结果大于预设阈值,则待检测网站为仿冒网站。
如图4所示,在另一实施例中,图3中的计算模块3包括:
第一计算子模块31,用于计算被仿冒网页的网页URL与待检测网页的网页URL的相似性,得到第一计算结果;
第二计算子模块32,用于计算被仿冒网页的网页内容与待检测网页的网页内容的相似性,得到第二计算结果;
第三计算子模块33,用于计算被仿冒网页的网页截图与待检测网页的网页截图的相似性,得到第三计算结果;
汇总模块4具体通过线性组合方式对第一计算结果、第二计算结果和第三计算结果进行集成汇总,得到集成汇总结果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种仿冒网站监测识别方法,其特征在于,包括:
S1、分别对被仿冒网站和待检测网站进行页面解析,得到解析后的被仿冒网页和待检测网页;
S2、分别对解析后的所述被仿冒网页和所述待检测网页进行特征提取,得到所述被仿冒网页的网页特征和所述待检测网页的网页特征,其中,所述网页特征包括:网页URL、网页内容和网页截图;
S3、计算所述被仿冒网页的网页特征与所述待检测网页的网页特征的相似性,得到对应于所述网页特征中所有特征的所有计算结果;
S4、对所有所述计算结果进行集成汇总,得到集成汇总结果;
S5、将所述集成汇总结果与预设阈值进行比较,如果所述集成汇总结果大于所述预设阈值,则所述待检测网站为仿冒网站。
2.根据权利要求1所述的一种仿冒网站监测识别方法,其特征在于,步骤S3包括:
S31、计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的相似性,得到第一计算结果;
S32、计算所述被仿冒网页的网页内容与所述待检测网页的网页内容的相似性,得到第二计算结果;
S33、计算所述被仿冒网页的网页截图与所述待检测网页的网页截图的相似性,得到第三计算结果。
3.根据权利要求2所述的一种仿冒网站监测识别方法,其特征在于,步骤S4具体通过线性组合方式对所述第一计算结果、所述第二计算结果和所述第三计算结果进行集成汇总,得到集成汇总结果。
4.根据权利要求2所述的一种仿冒网站监测识别方法,其特征在于,步骤S2中,分别对解析后的所述被仿冒网页和所述待检测网页进行特征提取,得到所述被仿冒网页和所述待检测网页的网页内容的过程具体包括:
分别对所述被仿冒网页的网页内容和所述待检测网页的网页内容进行JavaScript解析,得到所述被仿冒网页和所述待检测网页的网页源码;
分别将所述被仿冒网页的网页源码和所述待检测网页的网页源码输入文档解析器中,得到所述被仿冒网页的文档对象模型和所述待检测网页的文档对象模型;
根据预先配置的XPath规则分别提取所述被仿冒网页的文档对象模型和所述待检测网页的文档对象模型中的网页内容。
5.根据权利要求4所述的一种仿冒网站监测识别方法,其特征在于,步骤S32中,在计算所述被仿冒网页的网页内容与所述待检测网页的网页内容的相似性之前,还包括:
分别对所述被仿冒网页的网页内容和所述待检测网页的网页内容进行特征提取,得到所述被仿冒网页的网页内容的特征词和所述待检测网页的网页内容的特征词;
其中,计算所述被仿冒网页的网页内容与所述待检测网页的网页内容的相似性,包括:
根据所述特征词,计算所述被仿冒网页的网页内容和所述待检测网页的网页内容的相似性。
6.根据权利要求5所述的一种仿冒网站监测识别方法,其特征在于,分别对所述被仿冒网页的网页内容和所述待检测网页的网页内容进行特征提取,具体包括:
分别对所述被仿冒网页的网页内容和所述待检测网页的网页内容进行分词;
通过开方检验算法分别对分词后的所述被仿冒网页的网页内容和所述待检测网页的网页内容进行特征词提取,得到所述被仿冒网页的网页内容的特征词和所述待检测网页的网页内容的特征词。
7.根据权利要求2所述的一种仿冒网站监测识别方法,其特征在于,步骤S31具体包括:
通过编辑距离方法计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的不同距离比率;
计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的相同距离比率;
对所述不同距离比率和所述相同距离比率进行加权计算,得到第一计算结果。
8.根据权利要求2所述的一种仿冒网站监测识别方法,其特征在于,步骤S33具体通过SIFT算法计算所述被仿冒网页的网页截图与所述待检测网页的网页截图的相似性,得到所述第三计算结果。
9.一种仿冒网站监测识别***,其特征在于,包括:
解析模块(1),用于分别对被仿冒网站和待检测网站进行页面解析,得到解析后的被仿冒网页和待检测网页;
提取模块(2),用于分别对解析后的所述被仿冒网页和所述待检测网页进行特征提取,得到所述被仿冒网页的网页特征和所述待检测网页的网页特征,其中,所述网页特征包括:网页URL、网页内容和网页截图;
计算模块(3),用于计算所述被仿冒网页的网页特征与所述待检测网页的网页特征的相似性,得到对应于所述网页特征中所有特征的所有计算结果;
汇总模块(4),用于对所有所述计算结果进行集成汇总,得到集成汇总结果;
比较模块(5),用于将所述集成汇总结果与预设阈值进行比较,如果所述集成汇总结果大于所述预设阈值,则所述待检测网站为仿冒网站。
10.根据权利要求9所述的一种仿冒网站监测识别***,其特征在于,所述计算模块(3)包括:
第一计算子模块(31),用于计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的相似性,得到第一计算结果;
第二计算子模块(32),用于计算所述被仿冒网页的网页内容与所述待检测网页的网页内容的相似性,得到第二计算结果;
第三计算子模块(33),用于计算所述被仿冒网页的网页截图与所述待检测网页的网页截图的相似性,得到第三计算结果;
所述汇总模块(4)具体用于通过线性组合方式对所述第一计算结果、所述第二计算结果和所述第三计算结果进行集成汇总,得到集成汇总结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710145302.1A CN107181730A (zh) | 2017-03-13 | 2017-03-13 | 一种仿冒网站监测识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710145302.1A CN107181730A (zh) | 2017-03-13 | 2017-03-13 | 一种仿冒网站监测识别方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107181730A true CN107181730A (zh) | 2017-09-19 |
Family
ID=59830105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710145302.1A Pending CN107181730A (zh) | 2017-03-13 | 2017-03-13 | 一种仿冒网站监测识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107181730A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832428A (zh) * | 2017-11-14 | 2018-03-23 | 北京知行锐景科技有限公司 | 基于网站页面的网页状态监控方法及*** |
CN107911360A (zh) * | 2017-11-13 | 2018-04-13 | 哈尔滨工业大学(威海) | 一种被黑网站检测方法及*** |
CN107957872A (zh) * | 2017-10-11 | 2018-04-24 | 中国互联网络信息中心 | 一种完整网站源码获取方法及非法网站检测方法、*** |
CN108234474A (zh) * | 2017-12-28 | 2018-06-29 | 北京奇虎科技有限公司 | 一种网站识别的方法和装置 |
CN108959928A (zh) * | 2018-06-29 | 2018-12-07 | 北京奇虎科技有限公司 | 一种网页后门的检测方法、装置、设备及存储介质 |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和*** |
CN110020075A (zh) * | 2017-10-20 | 2019-07-16 | 南京烽火软件科技有限公司 | 非法网站自动发掘装置 |
CN111538550A (zh) * | 2020-04-17 | 2020-08-14 | 姜海强 | 一种基于图像检测算法的网页信息筛查方法 |
CN112948028A (zh) * | 2019-11-26 | 2021-06-11 | 北京京东尚科信息技术有限公司 | 一种检测页面显示信息的方法和装置 |
CN114124564A (zh) * | 2021-12-03 | 2022-03-01 | 北京天融信网络安全技术有限公司 | 一种仿冒网站检测方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826105A (zh) * | 2010-04-02 | 2010-09-08 | 南京邮电大学 | 基于匈牙利匹配算法的钓鱼网页检测方法 |
CN102082792A (zh) * | 2010-12-31 | 2011-06-01 | 成都市华为赛门铁克科技有限公司 | 钓鱼网页检测方法及设备 |
CN102096781A (zh) * | 2011-01-18 | 2011-06-15 | 南京邮电大学 | 一种基于网页关联性的钓鱼检测方法 |
CN104143008A (zh) * | 2014-08-11 | 2014-11-12 | 北京奇虎科技有限公司 | 基于图片匹配检测钓鱼网页的方法及装置 |
CN104462152A (zh) * | 2013-09-23 | 2015-03-25 | 深圳市腾讯计算机***有限公司 | 一种网页的识别方法及装置 |
-
2017
- 2017-03-13 CN CN201710145302.1A patent/CN107181730A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826105A (zh) * | 2010-04-02 | 2010-09-08 | 南京邮电大学 | 基于匈牙利匹配算法的钓鱼网页检测方法 |
CN102082792A (zh) * | 2010-12-31 | 2011-06-01 | 成都市华为赛门铁克科技有限公司 | 钓鱼网页检测方法及设备 |
CN102096781A (zh) * | 2011-01-18 | 2011-06-15 | 南京邮电大学 | 一种基于网页关联性的钓鱼检测方法 |
CN104462152A (zh) * | 2013-09-23 | 2015-03-25 | 深圳市腾讯计算机***有限公司 | 一种网页的识别方法及装置 |
CN104143008A (zh) * | 2014-08-11 | 2014-11-12 | 北京奇虎科技有限公司 | 基于图片匹配检测钓鱼网页的方法及装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107957872A (zh) * | 2017-10-11 | 2018-04-24 | 中国互联网络信息中心 | 一种完整网站源码获取方法及非法网站检测方法、*** |
CN110020075A (zh) * | 2017-10-20 | 2019-07-16 | 南京烽火软件科技有限公司 | 非法网站自动发掘装置 |
CN107911360A (zh) * | 2017-11-13 | 2018-04-13 | 哈尔滨工业大学(威海) | 一种被黑网站检测方法及*** |
CN107832428A (zh) * | 2017-11-14 | 2018-03-23 | 北京知行锐景科技有限公司 | 基于网站页面的网页状态监控方法及*** |
CN108234474A (zh) * | 2017-12-28 | 2018-06-29 | 北京奇虎科技有限公司 | 一种网站识别的方法和装置 |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和*** |
CN108959928A (zh) * | 2018-06-29 | 2018-12-07 | 北京奇虎科技有限公司 | 一种网页后门的检测方法、装置、设备及存储介质 |
CN112948028A (zh) * | 2019-11-26 | 2021-06-11 | 北京京东尚科信息技术有限公司 | 一种检测页面显示信息的方法和装置 |
CN111538550A (zh) * | 2020-04-17 | 2020-08-14 | 姜海强 | 一种基于图像检测算法的网页信息筛查方法 |
CN114124564A (zh) * | 2021-12-03 | 2022-03-01 | 北京天融信网络安全技术有限公司 | 一种仿冒网站检测方法、装置、电子设备及存储介质 |
CN114124564B (zh) * | 2021-12-03 | 2023-11-28 | 北京天融信网络安全技术有限公司 | 一种仿冒网站检测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107181730A (zh) | 一种仿冒网站监测识别方法及*** | |
CN104462152B (zh) | 一种网页的识别方法及装置 | |
CN103810425B (zh) | 恶意网址的检测方法及装置 | |
CN103559235B (zh) | 一种在线社交网络恶意网页检测识别方法 | |
CN112541476B (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
CN109194677A (zh) | 一种sql注入攻击检测方法、装置及设备 | |
CN103577755A (zh) | 一种基于支持向量机的恶意脚本静态检测方法 | |
CN103810251B (zh) | 一种文本提取方法及装置 | |
CN106021383A (zh) | 网页相似度计算方法及装置 | |
Suo et al. | A simple and robust correlation filtering method for text-based person search | |
CN107957872A (zh) | 一种完整网站源码获取方法及非法网站检测方法、*** | |
CN113779481B (zh) | 诈骗网站的识别方法、装置、设备及存储介质 | |
CN108694325B (zh) | 指定类型网站的辨别方法和指定类型网站的辨别装置 | |
CN110191096A (zh) | 一种基于语义分析的词向量网页入侵检测方法 | |
WO2020101479A1 (en) | System and method to detect and generate relevant content from uniform resource locator (url) | |
CN111460803B (zh) | 基于工业物联网设备Web管理页面的设备识别方法 | |
CN111078979A (zh) | 一种基于ocr和文本处理技术识别网贷网站的方法及*** | |
CN112200196A (zh) | 钓鱼网站检测方法、装置、设备及计算机可读存储介质 | |
CN106446123A (zh) | 一种网页中验证码元素识别方法 | |
CN107679401A (zh) | 一种恶意网页识别方法和装置 | |
CN113111645A (zh) | 一种媒体文本相似性检测方法 | |
CN117112814A (zh) | 虚假媒体内容挖掘及识别***及其识别方法 | |
CN111581478A (zh) | 一种特定主体的跨网站通用新闻采集方法 | |
CN114169432B (zh) | 一种基于深度学习的跨站脚本攻击识别方法 | |
CN114124448B (zh) | 一种基于机器学习的跨站脚本攻击识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170919 |