CN107181730A

CN107181730A - 一种仿冒网站监测识别方法及***

Info

Publication number: CN107181730A
Application number: CN201710145302.1A
Authority: CN
Inventors: 王海洋; 李雪梅; 杜慧; 刘衍琦; 刘玮; 程学旗
Original assignee: Yantai Branch Institute Of Computing Technology Chinese Academy Of Science; Institute of Computing Technology of CAS
Current assignee: Yantai Branch Institute Of Computing Technology Chinese Academy Of Science; Institute of Computing Technology of CAS
Priority date: 2017-03-13
Filing date: 2017-03-13
Publication date: 2017-09-19

Abstract

本发明公开了一种仿冒网站监测识别方法及***，方法包括：S1、分别对被仿冒网站和待检测网站进行页面解析，得到解析后的被仿冒网页和待检测网页；S2、分别对解析后的被仿冒网页和待检测网页进行特征提取，得到被仿冒网页和待检测网页的网页特征；S3、计算被仿冒网页与待检测网页的网页特征的相似性，得到对应于网页特征中所有特征的所有计算结果；S4、对所有计算结果进行集成汇总，得到集成汇总结果；S5、将集成汇总结果与预设阈值进行比较，如果集成汇总结果大于预设阈值，则待检测网站为仿冒网站。本发明的有益效果是：同时考虑了网页URL、网页内容以及网页图像的相似性，并对三个相似性进行集成汇总，提高对仿冒网站进行识别的准确性。

Description

一种仿冒网站监测识别方法及***

技术领域

本发明涉及仿冒网站识别领域，特别涉及一种仿冒网站监测识别方法及***。

背景技术

随着计算机网络的迅速发展和广泛应用，对科学技术、经济发展和文化活动带来了巨大的推动作用，但同时计算机网络安全问题也变得日益复杂和突出。特别是政府和金融行业网站，一直是不法分子攻击的重点目标。《网络安全监测数据分析—2016年8月》显示，2016年8月针对境内网站的仿冒页面数量31046个，较7月增长4.2％。仿冒网站层出不穷，也引起了国内外专家学者的广泛关注，如何快速有效的检测出仿冒网站，成为当前网络安全领域研究的热点问题。

现有的仿冒网站识别方法是通过在用户浏览器中维护一个仿冒网站url的黑名单，并对这个黑名单进行实时更新，若用户访问页面在黑名单中则可阻止用户访问，但黑名单更新有一定的滞后性。现有技术还利用仿冒网站与被仿冒网站页面较为相似这一特性，通过提取网页内容特征，采用机器学习算法判断待检测网站是否是仿冒网站，但该方法对于仿冒网站中使用图片代替文本，构造虚假文本等类型的网站判断效果不佳，并不能准确识别仿冒网站。

发明内容

本发明提供了一种仿冒网站监测识别方法及***，解决了现有技术中不能准确识别仿冒网站的技术问题。

本发明解决上述技术问题的技术方案如下：一种仿冒网站监测识别方法，包括：

S1、分别对被仿冒网站和待检测网站进行页面解析，得到解析后的被仿冒网页和待检测网页；

S2、分别对解析后的所述被仿冒网页和所述待检测网页进行特征提取，得到所述被仿冒网页的网页特征和所述待检测网页的网页特征，其中，所述网页特征包括：网页URL、网页内容和网页截图；

S3、计算所述被仿冒网页的网页特征与所述待检测网页的网页特征的相似性，得到对应于所述网页特征中所有特征的所有计算结果；

S4、对所有所述计算结果进行集成汇总，得到集成汇总结果；

S5、将所述集成汇总结果与预设阈值进行比较，如果所述集成汇总结果大于所述预设阈值，则所述待检测网站为仿冒网站。

本发明的有益效果是：本技术方案在鉴别仿冒网站时，综合考虑了网页URL相似性、网页内容相似性以及网页图像相似性，通过对三个相似性结果进行集成汇总，从而提高对仿冒网站进行识别的准确性。

在上述技术方案的基础上，本发明还可以做如下改进。

优选地，步骤S3包括：

S31、计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的相似性，得到第一计算结果；

S32、计算所述被仿冒网页的网页内容与所述待检测网页的网页内容的相似性，得到第二计算结果；

S33、计算所述被仿冒网页的网页截图与所述待检测网页的网页截图的相似性，得到第三计算结果。

优选地，步骤S4具体通过线性组合方式对所述第一计算结果、所述第二计算结果和所述第三计算结果进行集成汇总，得到集成汇总结果。

优选地，步骤S2中，分别对解析后的所述被仿冒网页和所述待检测网页进行特征提取，得到所述被仿冒网页和所述待检测网页的网页内容的过程具体包括：

分别对所述被仿冒网页的网页内容和所述待检测网页的网页内容进行JavaScript解析，得到所述被仿冒网页和所述待检测网页的网页源码；

分别将所述被仿冒网页的网页源码和所述待检测网页的网页源码输入文档解析器中，得到所述被仿冒网页的文档对象模型和所述待检测网页的文档对象模型；

根据预先配置的XPath规则分别提取所述被仿冒网页的文档对象模型和所述待检测网页的文档对象模型中的网页内容。

优选地，步骤S32中，在计算所述被仿冒网页的网页内容与所述待检测网页的网页内容的相似性之前，还包括：

分别对所述被仿冒网页的网页内容和所述待检测网页的网页内容进行特征提取，得到所述被仿冒网页的网页内容的特征词和所述待检测网页的网页内容的特征词；

其中，计算所述被仿冒网页的网页内容与所述待检测网页的网页内容的相似性，包括：

根据所述特征词，计算所述被仿冒网页的网页内容和所述待检测网页的网页内容的相似性。

优选地，分别对所述被仿冒网页的网页内容和所述待检测网页的网页内容进行特征提取，具体包括：

分别对所述被仿冒网页的网页内容和所述待检测网页的网页内容进行分词；

通过开方检验算法分别对分词后的所述被仿冒网页的网页内容和所述待检测网页的网页内容进行特征词提取，得到所述被仿冒网页的网页内容的特征词和所述待检测网页的网页内容的特征词，所述特征词用于计算所述被仿冒网页的网页内容和所述待检测网页的网页内容的相似性。

优选地，步骤S31中，计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的相似性，得到第一计算结果具体包括：

通过编辑距离方法计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的不同距离比率；

计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的相同距离比率；

对所述不同距离比率和所述相同距离比率进行加权计算，得到第一计算结果。

优选地，步骤S33具体通过SIFT算法计算所述被仿冒网页的网页截图与所述待检测网页的网页截图的相似性。

一种仿冒网站监测识别***，包括：

解析模块，用于分别对被仿冒网站和待检测网站进行页面解析，得到解析后的被仿冒网页和待检测网页；

提取模块，用于分别对解析后的所述被仿冒网页和所述待检测网页进行特征提取，得到所述被仿冒网页的网页特征和所述待检测网页的网页特征，其中，所述网页特征包括：网页URL、网页内容和网页截图；

计算模块，用于计算所述被仿冒网页的网页特征与所述待检测网页的网页特征的相似性，得到对应于所述网页特征中所有特征的所有计算结果；

汇总模块，用于对所有所述计算结果进行集成汇总，得到集成汇总结果；

比较模块，用于将所述集成汇总结果与预设阈值进行比较，如果所述集成汇总结果大于所述预设阈值，则所述待检测网站为仿冒网站。

优选地，所述计算模块包括：

第一计算子模块，用于计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的相似性，得到第一计算结果；

第二计算子模块，用于计算所述被仿冒网页的网页内容与所述待检测网页的网页内容的相似性，得到第二计算结果；

第三计算子模块，用于计算所述被仿冒网页的网页截图与所述待检测网页的网页截图的相似性，得到第三计算结果；

所述汇总模块具体通过线性组合方式对所述第一计算结果、所述第二计算结果和所述第三计算结果进行集成汇总，得到集成汇总结果。

附图说明

图1为本发明实施例提供的一种仿冒网站监测识别方法的流程示意图；

图2为本发明另一实施例提供的一种仿冒网站监测识别方法的流程示意图；

图3为本发明实施例提供的一种仿冒网站监测识别***的结构示意图；

图4为本发明另一实施例提供的一种仿冒网站监测识别***的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，在实施例中，提供一种仿冒网站监测识别方法，包括：

S2、分别对解析后的被仿冒网页和待检测网页进行特征提取，得到被仿冒网页的网页特征和待检测网页的网页特征，其中，网页特征包括：网页URL、网页内容和网页截图；

S3、计算被仿冒网页的网页特征与待检测网页的网页特征的相似性，得到对应于网页特征中所有特征的所有计算结果；

S4、对所有计算结果进行集成汇总，得到集成汇总结果；

S5、将集成汇总结果与预设阈值进行比较，如果集成汇总结果大于预设阈值，则待检测网站为仿冒网站。

应理解，该实施例中，在鉴别仿冒网站时，综合考虑了网页URL相似性、网页内容相似性以及网页图像相似性，通过对三个相似性结果进行集成汇总，从而提高对仿冒网站进行识别的准确性。

具体地，对集成汇总结果进行归一化处理，使其处于预定范围内，如果集成汇总结果归一化后大于预定阈值，那么可以判断待检测网站为仿冒网站。

具体地，该实施例中，分别对被仿冒网站和待检测网站进行页面解析具体指进行JS(JavaScript)解析，现在越来越多的网站或页面使用JavaScript技术在客户端进行处理，这使得Web前端开发更加灵活高效、兼容性更强，但后端进行页面解析抽取处理操作时，JavaScript语言的信息会隐藏起来，传统的静态页面解析技术无法对其进行提取和分析，相较于静态页面需要做进一步JS页面解析操作。JS页面解析工具包括：PhantomJS、SlimerJS、CasperJS等，该实施例采用PhantomJS做页面解析，并搭建JS解析服务。

如图2所示，在另一实施例中，图1中的步骤S3包括：

S31、计算被仿冒网页的网页URL与待检测网页的网页URL的相似性，得到第一计算结果；

S32、计算被仿冒网页的网页内容与待检测网页的网页内容的相似性，得到第二计算结果；

S33、计算被仿冒网页的网页截图与待检测网页的网页截图的相似性，得到第三计算结果。

该实施例中，分别计算网页URL相似性、网页内容相似性和网页截图相似性，然后，通过线性组合方式对计算得到的第一计算结果、第二计算结果和第三计算结果进行集成汇总，得到集成汇总结果。

该实施例中，步骤S2中，分别对解析后的被仿冒网页和待检测网页进行特征提取，得到被仿冒网页和待检测网页的网页内容进行提取的过程具体包括：

分别对被仿冒网页的网页内容和待检测网页的网页内容进行JavaScript解析，得到被仿冒网页和待检测网页的网页源码；

分别将被仿冒网页的网页源码和待检测网页的网页源码输入文档解析器中，得到被仿冒网页的文档对象模型和待检测网页的文档对象模型；

根据预先配置的XPath规则分别提取被仿冒网页的文档对象模型和待检测网页的文档对象模型中的网页内容。

具体地，对被仿冒网页和待检测网页的网页内容进行JavaScript解析，获取JS解析后网页源码；然后，通过HTMLCleaner库(文档解析器)加载成HTML DOM(文档对象模型)；使用预先配置好的XPath规则抽取网页内容。

该实施例中，步骤S32中，在计算被仿冒网页的网页内容与待检测网页的网页内容的相似性之前，分别对被仿冒网页的网页内容和待检测网页的网页内容进行特征提取，还包括：

分别对被仿冒网页的网页内容和待检测网页的网页内容进行特征提取，得到被仿冒网页的网页内容的特征词和待检测网页的网页内容的特征词；

其中，计算被仿冒网页的网页内容与待检测网页的网页内容的相似性，包括：

根据特征词，计算被仿冒网页的网页内容和待检测网页的网页内容的相似性。

具体地，分别对被仿冒网页的网页内容和待检测网页的网页内容进行特征提取，具体包括：

分别对被仿冒网页的网页内容和待检测网页的网页内容进行分词；

通过开方检验算法分别对分词后的被仿冒网页的网页内容和待检测网页的网页内容进行特征词提取，得到被仿冒网页的网页内容的特征词和待检测网页的网页内容的特征词。

具体地，对抽取的网页内容使用Java开源中文分词器Ansj进行中文分词，利用开放检验方法提取特征词。

具体地，该实施例中，步骤S31中，计算被仿冒网页的网页URL与待检测网页的网页URL的相似性，得到第一计算结果具体包括：

通过编辑距离方法计算被仿冒网页的网页URL与待检测网页的网页URL的不同距离比率；

计算被仿冒网页的网页URL与待检测网页的网页URL的相同距离比率；

对不同距离比率和相同距离比率进行加权计算，得到第一计算结果。

具体地，若两个URL的域名分别表示为U、V，其中U为被仿冒网站域名，V为待检测网站域名，待检测网站V的域名长度为len＝length(V)，编辑距离表示为Leven，即由V转化成U所需操作的最少编辑次数。在编辑距离公式中，insertions表示***的字符数，deletions表示删除的字符数，substitutions表示替换的字符数。两者的编辑距离表示为diff＝Leven(U，V)，不同距离比率表示为diff_rate＝diff/len，U、V两个域名的相同距离表示为same＝length(U)-(substitutions+deletions)，相同距离比率表示为same_rate＝same/len，两个网页URL的相似性原则为：不同距离比率越小，相同距离比率越大，两个URL越相似。为了将多目标问题简化为容易解决的单目标问题，通过大量实验对两距离比率公式设权重，选定合适阈值，URL相似性计算公式为f(x)＝0.6*diff_rate-0.4*same_rate。

具体地，该实施例中，步骤S33通过SIFT算法计算被仿冒网页的网页截图与待检测网页的网页截图的相似性。

应理解，图像相似性计算主要分两部分：网页截图以及基于Sift的页面图像相似性计算。其中网页截图采用PhantomJS技术。PhantomJS是一个基于WebKit的服务器端JavaScript API。它全面支持web而不需浏览器支持，支持各种Web标准(DOM处理、CSS选择器、JSON、Canvas和SVG)。PhantomJS可以用于页面自动化、网络监测、网页截屏以及无界面测试等。

SIFT特征匹配算法是在现有的基于不变量技术的特征检测方法的基础上的一种基于尺度空间的、对图像缩放、旋转甚至仿射变换保持不变性的特征匹配算法。该算法匹配能力较强，能提取稳定的特征，可以处理两幅图像之间发生平移、旋转、仿射变换、视角变换、光照变换情况下的匹配问题，甚至在某种程度上对任意角度拍摄的图像也具备较为稳定的特征匹配能力，从而可以实现差异较大的两幅图像之间的特征的匹配，继而计算两幅图像的相似性。

如图3所示，在实施例中，提供一种仿冒网站监测识别***，包括：

解析模块1，用于分别对被仿冒网站和待检测网站进行页面解析，得到解析后的被仿冒网页和待检测网页；

提取模块2，用于分别对解析后的被仿冒网页和待检测网页进行特征提取，得到被仿冒网页的网页特征和待检测网页的网页特征，其中，网页特征包括：网页URL、网页内容和网页截图；

计算模块3，用于计算被仿冒网页的网页特征与待检测网页的网页特征的相似性，得到对应于网页特征中所有特征的所有计算结果；

汇总模块4，用于对所有计算结果进行集成汇总，得到集成汇总结果；

比较模块5，用于将集成汇总结果与预设阈值进行比较，如果集成汇总结果大于预设阈值，则待检测网站为仿冒网站。

如图4所示，在另一实施例中，图3中的计算模块3包括：

第一计算子模块31，用于计算被仿冒网页的网页URL与待检测网页的网页URL的相似性，得到第一计算结果；

第二计算子模块32，用于计算被仿冒网页的网页内容与待检测网页的网页内容的相似性，得到第二计算结果；

第三计算子模块33，用于计算被仿冒网页的网页截图与待检测网页的网页截图的相似性，得到第三计算结果；

汇总模块4具体通过线性组合方式对第一计算结果、第二计算结果和第三计算结果进行集成汇总，得到集成汇总结果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种仿冒网站监测识别方法，其特征在于，包括：

2.根据权利要求1所述的一种仿冒网站监测识别方法，其特征在于，步骤S3包括：

3.根据权利要求2所述的一种仿冒网站监测识别方法，其特征在于，步骤S4具体通过线性组合方式对所述第一计算结果、所述第二计算结果和所述第三计算结果进行集成汇总，得到集成汇总结果。

4.根据权利要求2所述的一种仿冒网站监测识别方法，其特征在于，步骤S2中，分别对解析后的所述被仿冒网页和所述待检测网页进行特征提取，得到所述被仿冒网页和所述待检测网页的网页内容的过程具体包括：

5.根据权利要求4所述的一种仿冒网站监测识别方法，其特征在于，步骤S32中，在计算所述被仿冒网页的网页内容与所述待检测网页的网页内容的相似性之前，还包括：

6.根据权利要求5所述的一种仿冒网站监测识别方法，其特征在于，分别对所述被仿冒网页的网页内容和所述待检测网页的网页内容进行特征提取，具体包括：

通过开方检验算法分别对分词后的所述被仿冒网页的网页内容和所述待检测网页的网页内容进行特征词提取，得到所述被仿冒网页的网页内容的特征词和所述待检测网页的网页内容的特征词。

7.根据权利要求2所述的一种仿冒网站监测识别方法，其特征在于，步骤S31具体包括：

8.根据权利要求2所述的一种仿冒网站监测识别方法，其特征在于，步骤S33具体通过SIFT算法计算所述被仿冒网页的网页截图与所述待检测网页的网页截图的相似性，得到所述第三计算结果。

9.一种仿冒网站监测识别***，其特征在于，包括：

解析模块(1)，用于分别对被仿冒网站和待检测网站进行页面解析，得到解析后的被仿冒网页和待检测网页；

提取模块(2)，用于分别对解析后的所述被仿冒网页和所述待检测网页进行特征提取，得到所述被仿冒网页的网页特征和所述待检测网页的网页特征，其中，所述网页特征包括：网页URL、网页内容和网页截图；

计算模块(3)，用于计算所述被仿冒网页的网页特征与所述待检测网页的网页特征的相似性，得到对应于所述网页特征中所有特征的所有计算结果；

汇总模块(4)，用于对所有所述计算结果进行集成汇总，得到集成汇总结果；

比较模块(5)，用于将所述集成汇总结果与预设阈值进行比较，如果所述集成汇总结果大于所述预设阈值，则所述待检测网站为仿冒网站。

10.根据权利要求9所述的一种仿冒网站监测识别***，其特征在于，所述计算模块(3)包括：

第一计算子模块(31)，用于计算所述被仿冒网页的网页URL与所述待检测网页的网页URL的相似性，得到第一计算结果；

第二计算子模块(32)，用于计算所述被仿冒网页的网页内容与所述待检测网页的网页内容的相似性，得到第二计算结果；

第三计算子模块(33)，用于计算所述被仿冒网页的网页截图与所述待检测网页的网页截图的相似性，得到第三计算结果；

所述汇总模块(4)具体用于通过线性组合方式对所述第一计算结果、所述第二计算结果和所述第三计算结果进行集成汇总，得到集成汇总结果。