CN106599242A

CN106599242A - 一种基于相似度计算的网页变更监测方法和***

Info

Publication number: CN106599242A
Application number: CN201611182671.XA
Authority: CN
Inventors: 刘坤朋; 郑杭; 练军
Original assignee: FUJIAN LIUREN NETWORK SECURITY Co Ltd
Current assignee: FUJIAN LIUREN NETWORK SECURITY Co Ltd
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2017-04-26
Anticipated expiration: 2036-12-20
Also published as: CN106599242B

Abstract

本发明的一种基于相似度计算的网页变更监测方法和***，使用网络爬虫技术将网页内容保存到本地，在设定的时间间隔再次获取网页内容，利用模糊哈希算法与本地保存的页面内容相似度进行比较。可以自定义网页内容属性，内容不会改变的网页内容，监测步骤较为简洁，监测效率高。对于内容可改变的网页内容，进一步进行差异分析，识别字符或者图片的篡改，可以第一时间准确识别网页内容是被篡改还是正常的更新，提高网页内容的安全性。

Description

一种基于相似度计算的网页变更监测方法和***

技术领域

本发明涉及一种网页信息监测技术，具体地说涉及一种基于相似度计算的网页变更监测方法和***。

背景技术

保证用户正常浏览网页的一项关键内容是防止网站侧发布的网页(页面) 被黑客篡改。所谓篡改，区别于合法的网页内容修改(刷新)，是指网页内容的变化不符合网站管理员或者用户所请求网页的预期。随着互联网信息***式增长，每一天互联网中的网页都面临着被篡改的风险。如不能及时发现网页被篡改将给网站和用户带来不可估量的损失。

网页被黑客篡改的方式主要有：黑客可能攻破网站，直接对该发布的网页内容进行修改。现有技术中检测网页被篡改的方案为：：利用扫描器对网站进行周期性监测，具体为：安装扫面器软件，周期性获取访问被监测网页的URL(Uniform Resoure Locator，统一资源***)，按照某种算法设置基准页面，并将被监测网页的页面与基准页面相比较，得出被监测网页中被修改的页面元素占该网页所有页面元素的比例，并根据该比例与预先设置的比例阈值判断页面是否被修改，该比例小于比例阈值认为被监测网站未被篡改，否则认为被监测网页被篡改。或者，预先设置某些敏感词，判断被监测网页中包括此类敏感词时，则认为页面被黑客篡改。由于现有的网站动态网页技术很多，因此现有的技术方案很难准确识别网页是被篡改还是正常内容刷新，不可避免地存在误检和漏检。

发明内容

为此，本发明所要解决的技术问题在于现有技术中实时监测网页无法准确识别网页是被篡改还是正常的更新内容。

为解决上述技术问题，本发明所采用的技术方案：

一种基于相似度计算的网页变更监测方法，包含以下步骤：

S1：将网络中的网页内容通过使用网络爬虫存储至本地存储设备, 计算网页内容的模糊哈希值；

S2：判断所述网页内容属于第一网页类型还是属于第二网页类型，并作出相应标记，第一网页类型为网页内容不会发生变化的网页，第二网页类型为网页内容会发生变化的网页；

S3：在设定的时间间隔后再次从网络中爬取所述网页内容，并计算此刻网页内容的模糊哈希值；

S4：计算步骤S3中获得的模糊哈希值与步骤S1中获得的模糊哈希值的相似度，相似度的取值范围为0-100；

S5：判断所述网页内容所属网页类型，若所述网页内容属于第一网页内容，则进行步骤S6；若所述网页内容属于第二网页内容，则进行步骤S7；

S6：判断相似度的取值是否为100，是，则进行步骤S61；否，则进行步骤S62；

S61：结束所述网页内容的监测；

S62:发出警告，结束所述网页内容的监测；

S7：判断相似度的取值是否为100，是，则结束所述网页内容的监测；否，则进行步骤S71；

S71：利用DIFF工具找出所述网页内容相比初始状态的差异；

S72：判断差异是否由于图片变化引起，是，则进行步骤S8；否，则进行步骤S9；

S8：将图片内容与恶意内容特征进行匹配，检测图片中是否有异常内容；是，则进行步骤S81;否，则进行步骤S82;

S81：发出警告，结束所述网页内容的监测；

S82：结束所述网页内容的监测；

S9：与敏感词库进行匹配，若匹配到敏感词，则发出警告。

步骤S9中，还包含与木马特征库进行匹配，若匹配到木马特征，则发出警告。

所述步骤S8中调用图片识别算法对图片内容进行识别，将图片内容与恶意内容特征进行匹配，检测图片中是否有异常内容；是，则进行步骤S81;否则进行步骤S82。

一种基于相似度计算的网页变更监测***，包含以下模块：

初始采集模块：将网络中的网页内容通过使用网络爬虫存储至本地存储设备, 计算网页内容的模糊哈希值；

判断模块：判断所述网页内容属于第一网页类型还是属于第二网页类型，并作出相应标记，第一网页类型为网页内容不会发生变化的网页，第二网页类型为网页内容会发生变化的网页；

实时采集模块：在设定的时间间隔后再次从网络中爬取所述网页内容，并计算此刻网页内容的模糊哈希值；

计算模块：计算实时采集模块中获得的模糊哈希值与初始采集模块中获得的模糊哈希值的相似度，相似度的取值范围为0-100；

网页判断模块：判断所述网页内容所属网页类型，若所述网页内容属于第一网页内容，则转入第一判断模块；若所述网页内容属于第二网页内容，则转入第二判断模块；

第一判断模块：判断相似度的取值是否为100，是，则结束所述网页内容的监测；否，则转入第一警告模块;

第一警告模块:发出警告，结束所述网页内容的监测；

第二判断模块：判断相似度的取值是否为100，是，则转入第一终止模块；否，则转入差异分析模块；

第一终止模块：结束所述网页内容的监测；

差异分析模块：利用DIFF工具找出所述网页内容相比初始状态的差异；

第三判断模块：判断差异是否由于图片变化引起，是，则转入第一匹配模块；否，则准入第二匹配模块；

第一匹配模块：将图片内容与恶意内容特征进行匹配，检测图片中是否有异常内容；是，则转入第二警告模块;否，则转入第二终止模块;

第二警告模块：发出警告，结束所述网页内容的监测；

第二终止模块：结束所述网页内容的监测；

第二匹配模块：与敏感词库进行匹配，若匹配到敏感词，则发出警告。

所述第二匹配模块还包含与木马特征库进行匹配，若匹配到木马特征，则发出警告。

第三判断模块中调用图片识别算法对图片内容进行识别，判断差异是否由于图片变化引起，是，则转入第一匹配模块；否，则准入第二匹配模块。

本发明的上述技术方案相比现有技术具有以下优点。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中，

图1为本发明一种基于相似度计算的网页变更监测方法的流程图；

图2为本发明一种基于相似度计算的网页变更监测***的结构框图。

图中附图标记表示为：1-初始采集模块；2-判断模块；3-实时采集模块；4-计算模块；5-网页判断模块；6-第一判断模块；61-第一警告模块；7-第二判断模块；71-第一终止模块；72-差异分析模块；8-第三判断模块；81-第一匹配模块；82-第二匹配模块；811-第二警告模块；812-第二终止模块。

具体实施方式

一种基于相似度计算的网页变更监测方法，如图1所示，包含以下步骤：

S1：将网络中的网页内容通过使用网络爬虫存储至本地存储设备, 计算网页内容的模糊哈希值。模糊哈希值主要是利用模糊哈希算法，可以调用ssdeep工具。模糊哈希算法又叫基于内容分割的分片哈希算法（context triggered piecewise hashing, CTPH），主要用于文件的相似性比较。2006年，Jesse Kornblum提出CTPH，并给出一个名为spamsum的算法实例。随后，Jason Sherman开发了ssdeep工具（http://ssdeep.sourceforge.net/）。该算法在本发明中可以用于恶意代码检测，也可以用于漏洞挖掘等。模糊哈希的主要原理是，使用一个弱哈希计算文件局部内容，在特定条件下对文件进行分片，然后使用一个强哈希对文件每片计算哈希值，取这些值的一部分并连接起来，与分片条件一起构成一个模糊哈希结果。使用一个字符串相似性对比算法判断两个模糊哈希值的相似度有多少，从而判断两个文件的相似程度。对文件的部分变化（包括在多处修改、增加、删除部分内容），使用模糊哈希均能发现与源文件的相似关系，是目前判断相似性较好的一种方法。

S2：判断所述网页内容属于第一网页类型还是属于第二网页类型，并作出相应标记，第一网页类型为网页内容不会发生变化的网页，第二网页类型为网页内容会发生变化的网页。可与人工进行分类，也可以利用现有技术中的网页内容识别与分类技术（诸如中国专利文献201210299843.7、201210376933.1等记载）对网页内容进行分类。

S3：在设定的时间间隔后再次从网络中爬取所述网页内容，并计算此刻网页内容的模糊哈希值。

步骤S1和S3中模糊哈希值的计算过程如下：

用一个弱哈希算法对所述网页内容的文件分片。具体方法为：

在文件中读取一部分内容，用弱哈希算法Alder-32进行计算，以滚动哈希的方式得到一个4字节的哈希值。所谓滚动哈希是指，比如原来已经计算了abcdef的哈希值h1，接下来要计算bcdefg的哈希值，不需要完全重新计算，只需要h1–X(a) + Y(g)即可。其中X、Y是两个函数，即只需要相应增减差量对哈希值的影响即可。这种哈希可以大大加快分片判断的速度。

设定分片值n，由它来控制分片条件。n的值根据文件长度、文件内容等确定。确定原则和方法如下：

n的值始终取2的整数次方，这样Alder-32哈希值除以n的余数接近于均匀分布。仅当余数等于n-1时分片，就相当于只有差不多1/n的情况下会分片。也就是说，对一个文件，窗口每移动一次，就有1/n的可能要分片。如果某一次分的片数太小，那就减小n的值，使每次分片的可能性增加，增大片数。而如果觉得分的片太多，就增大n的值，使每次分片的可能性减少，降低片数。每次将n除以或者乘以2，进行调整，使最终的片数尽可能在32到64之间。由于分片的可能性差不多是1/n，所以每次运行ssdeep时，第一次尝试的n值就是一个接近于文件长度/64的值。

当Alder-32哈希值除以n的余数恰好等于n-1时，就在当前位置分片；否则，不分片，窗口往后滚动一个字节，然后再次计算Alder-32哈希值并判断，如此继续。

用一个强哈希算法对S101中得到的每个片计算哈希值。可使用Fowler-Noll-Vohash哈希算法。

压缩哈希值。对每一个文件分片，计算得到一个哈希值以后，可以选择将结果压缩短。具体为：取哈希结果的最低6位，并用一个ASCII字符表示出来，作为这个分片的最终哈希值的结果。

连接哈希值。将每片压缩后的哈希值连接到一起，即得到该文件的模糊哈希值。如果分片值n对不同文件不同，还应该将n纳入模糊哈希值中，具体做法是直接把n追加在原哈希值最后，作为哈希值的一部分。

S4：计算步骤S3中获得的模糊哈希值与步骤S1中获得的模糊哈希值的相似度，相似度的取值范围为0-100。步骤S4中相似度的计算过程如下：所述网页内容的模糊哈希值是一个字符串，设为s1、s2。将s1到s2的加权编辑距离作为评价其相似性的依据；加权编辑距离是指，先判断从s1变为s2，最少需要多少步操作（包括***、删除、修改），然后对不同操作给出一个权值。***、删除、修改的权值分别设为：0.2、0.3、0.5。最后，将结果加起来，即得到加权编辑距离。

将这个距离除以s1和s2的长度和，以将绝对结果变为相对结果，再映射到0-100的一个整数值上，其中，100表示两个字符串完全一致，而0表示完全不相似；该结果即可以用来判断两个网页内容的相似程度。

S5：判断所述网页内容所属网页类型，若所述网页内容属于第一网页内容，则进行步骤S6；若所述网页内容属于第二网页内容，则进行步骤S7。

S6：判断相似度的取值是否为100，是，则进行步骤S61；否，则进行步骤S62。

S61：结束所述网页内容的监测。

S62:发出警告，结束所述网页内容的监测。

S7：判断相似度的取值是否为100，是，则结束所述网页内容的监测；否，则进行步骤S71。

S71：利用DIFF工具找出所述网页内容相比初始状态的差异。

S72：判断差异是否由于图片变化引起，是，则进行步骤S8；否，则进行步骤S9。

S8：将图片内容与恶意内容特征进行匹配，检测图片中是否有异常内容；是，则进行步骤S81;否，则进行步骤S82。

S81：发出警告，结束所述网页内容的监测。

S82：结束所述网页内容的监测。

S9：与敏感词库进行匹配，若匹配到敏感词，则发出警告。如变化部分是字符串，用正则表达式方式与预设的敏感词库进行匹配，如匹配到敏感词，则进行警告。

步骤S9中，还包含与木马特征库进行匹配，若匹配到木马特征，则发出警告。也是利用正则表达式方式与预设的木马特征库进行匹配。

一种基于相似度计算的网页变更监测***，包含以下模块：

初始采集模块1：将网络中的网页内容通过使用网络爬虫存储至本地存储设备, 计算网页内容的模糊哈希值。模糊哈希值主要是利用模糊哈希算法，可以调用ssdeep工具。

判断模块2：判断所述网页内容属于第一网页类型还是属于第二网页类型，并作出相应标记，第一网页类型为网页内容不会发生变化的网页，第二网页类型为网页内容会发生变化的网页。可与人工进行分类，也可以利用现有技术中的网页内容识别与分类技术（诸如中国专利文献201210299843.7、201210376933.1等记载）对网页内容进行分类。

实时采集模块3：在设定的时间间隔后再次从网络中爬取所述网页内容，并计算此刻网页内容的模糊哈希值。

初始采集模块1和实时采集模块3中模糊哈希值的计算过程如下：

计算模块4：计算实时采集模块中获得的模糊哈希值与初始采集模块中获得的模糊哈希值的相似度，相似度的取值范围为0-100计算模块4中相似度的计算过程如下：所述网页内容的模糊哈希值是一个字符串，设为s1、s2。将s1到s2的加权编辑距离作为评价其相似性的依据；加权编辑距离是指，先判断从s1变为s2，最少需要多少步操作（包括***、删除、修改），然后对不同操作给出一个权值。***、删除、修改的权值分别设为：0.2、0.3、0.5。最后，将结果加起来，即得到加权编辑距离。

网页判断模块5：判断所述网页内容所属网页类型，若所述网页内容属于第一网页内容，则转入第一判断模块6；若所述网页内容属于第二网页内容，则转入第二判断模块7。

第一判断模块6：判断相似度的取值是否为100，是，则结束所述网页内容的监测；否，则转入第一警告模块61。

第一警告模块61:发出警告，结束所述网页内容的监测。

第二判断模块7：判断相似度的取值是否为100，是，则转入第一终止模块71；否，则转入差异分析模块72。

第一终止模块71：结束所述网页内容的监测。

差异分析模块72：利用DIFF工具找出所述网页内容相比初始状态的差异。

第三判断模块8：判断差异是否由于图片变化引起，是，则转入第一匹配模块81；否，则准入第二匹配模块82。

第一匹配模块81：将图片内容与恶意内容特征进行匹配，检测图片中是否有异常内容；是，则转入第二警告模块811;否，则转入第二终止模块812。

第二警告模块811：发出警告，结束所述网页内容的监测。

第二终止模块812：结束所述网页内容的监测。

第二匹配模块82：与敏感词库进行匹配，若匹配到敏感词，则发出警告。

所述第二匹配模块82还包含与木马特征库进行匹配，若匹配到木马特征，则发出警告。

第三判断模块8中调用图片识别算法对图片内容进行识别，判断差异是否由于图片变化引起，是，则转入第一匹配模块81；否，则准入第二匹配模块82。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于相似度计算的网页变更监测方法，其特征在于，包含以下步骤：

S61：结束所述网页内容的监测；

S62:发出警告，结束所述网页内容的监测；

S71：利用DIFF工具找出所述网页内容相比初始状态的差异；

S81：发出警告，结束所述网页内容的监测；

S82：结束所述网页内容的监测；

S9：与敏感词库进行匹配，若匹配到敏感词，则发出警告。

2.根据权利要求1所述的一种基于相似度计算的网页变更监测方法，其特征在于，步骤S9中，还包含与木马特征库进行匹配，若匹配到木马特征，则发出警告。

3.根据权利要求2所述的一种基于相似度计算的网页变更监测方法，其特征在于，所述步骤S8中调用图片识别算法对图片内容进行识别，将图片内容与恶意内容特征进行匹配，检测图片中是否有异常内容；是，则进行步骤S81;否则进行步骤S82。

4.一种基于相似度计算的网页变更监测***，其特征在于，包含以下模块：

第一警告模块:发出警告，结束所述网页内容的监测；

第一终止模块：结束所述网页内容的监测；

第二警告模块：发出警告，结束所述网页内容的监测；

第二终止模块：结束所述网页内容的监测；

5.根据权利要求4所述的一种基于相似度计算的网页变更监测***，其特征在于，所述第二匹配模块还包含与木马特征库进行匹配，若匹配到木马特征，则发出警告。

6.根据权利要求5所述的一种基于相似度计算的网页变更监测***，其特征在于，第三判断模块中调用图片识别算法对图片内容进行识别，判断差异是否由于图片变化引起，是，则转入第一匹配模块；否，则准入第二匹配模块。