CN107016298B

CN107016298B - 一种网页篡改监测方法及装置

Info

Publication number: CN107016298B
Application number: CN201710189055.5A
Authority: CN
Inventors: 王奇
Original assignee: NSFOCUS Information Technology Co Ltd; Nsfocus Technologies Inc
Current assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Priority date: 2017-03-27
Filing date: 2017-03-27
Publication date: 2020-07-10
Anticipated expiration: 2037-03-27
Also published as: CN107016298A

Abstract

本发明公开了一种网页篡改监测方法及装置，用于监测非法篡改页面，该方法包括：获取所需监测网站的页面，提取出页面包含的多个分词；遍历敏感词库，从多个分词中筛选出在敏感词库中存在的敏感分词；获取每个敏感分词在一个页面出现时该页面为非法篡改页面的概率；根据每个敏感分词在一个页面出现时该页面为非法篡改页面的概率，确定页面为非法篡改页面的概率；在页面为非法篡改页面的概率大于第一设定阈值时，确定页面为非法篡改页面。该方法使用区分非法篡改页面的敏感词库，根据敏感词库监测网页是否为非法篡改页面，这样得出的监测效果更接近实际情况，与单纯的页面变更检测和关键字匹配查找相比，减少了大量误报，提高了检出率。

Description

一种网页篡改监测方法及装置

技术领域

本发明涉及网络安全领域，特别涉及一种网页篡改监测方法及装置。

背景技术

在网站篡改检测中，现有技术方案依赖于同一个页面在前后时间段的变动情况来确定可疑网页，当网页内容的变动比例超过预设的阈值时，就认为是可疑事件，然后由人工进行确认。这种检测方式实际上为页面变更检测，对于程序来说，仅根据页面内容的变动比例并不能确定页面内容是否被恶意篡改，实际上绝大部分页面变动属于站点的正常变动，这样还会产生大量的误报，人工无法及时处理。

在每年的重大活动(如G20，APEC)或者上级机构检查期间，都需要对网站内容做安全性检测。如果在此时间点之前网站内容已经被黑客篡改或者植入一些暗链，由于现有技术方案依赖于前后时间段页面内容的对比，所以无法检测到网站是否已经被篡改，客户会因此蒙受经济或者声誉方面的损失。

综上，现有的网页监测仅仅页面内容在前后时间段内的变动比例无法确定网页是否篡改，存在误报率较高的技术问题。

发明内容

本发明实施例提供一种网页篡改监测方法及装置，用以解决现有的网页篡改监测仅仅页面内容在前后时间段内的变动比例无法确定网页是否篡改，存在误报率较高的技术问题。

本发明实施例提供一种网页篡改监测方法，用于监测非法篡改页面，该方法包括：

获取所需监测网站的页面，提取出所述页面包含的多个分词；

遍历敏感词库，从所述多个分词中筛选出在所述敏感词库中存在的敏感分词；

获取每个所述敏感分词在一个页面出现时该页面为非法篡改页面的概率；

根据每个所述敏感分词在一个页面出现时该页面为非法篡改页面的概率，确定所述页面为非法篡改页面的概率；

在所述页面为非法篡改页面的概率大于第一设定阈值时，确定所述页面为非法篡改页面。

可选实施例中，所述每个敏感分词分别在一个页面出现时该页面为非法篡改页面的事件预先设置为相互独立的事件；

可选实施例中，根据每个敏感分词在一个页面出现时该页面为非法篡改页面的概率，确定所述页面为非法篡改页面的概率，包括：

根据所述每个敏感分词在一个页面出现时该页面为非法篡改页面的概率，计算筛选出的所有所述敏感分词同时在一个页面出现时该页面为非法篡改页面的联合概率；

将所述联合概率确定为所述页面为非法篡改页面的概率。

可选实施例中，所述敏感词库通过以下方式确定:

获取第一正样本集和第一负样本集；所述第一正样本集包括多种非法篡改类型的非法篡改页面；所述第一负样本集包括多种类型的正常页面；

提取所述第一正样本集中每个非法篡改页面中包含的分词，确定每个分词在所述第一正样本集中出现的概率；提取所述第一负样本集中每个正常页面中包含的分词，确定每个分词在所述第一负样本集中出现的概率；

对于同一分词：

获取所述分词根据语义分析被划分为敏感分词的概率，以及所述分词根据语义分析被划分为正常分词的概率；

根据所述分词在所述第一正样本集中出现的概率，所述分词在所述第一负样本集中出现的概率，以及所述分词被划分为敏感分词的概率，所述分词被划分为正常分词的概率，确定所述分词在一个页面出现时该页面为非法篡改页面的概率；

在所述分词在一个页面出现时该页面为非法篡改页面的概率超过第二设定阈值时，将所述分词确定为敏感分词，并将所述分词以及所述分词在一个页面出现时该页面为非法篡改页面的概率存储在所述敏感词库中。

上述实施例中，对需要监测网站的网页进行分词提取后，从提取的分词中筛选出出现在敏感词库中的敏感分词，根据筛选出的每一个敏感分词在一个页面出现时该页面为非法篡改页面的概率，确定需要监测的页面为非法篡改页面的概率，在需要监测的页面为非法篡改页面的概率满足第一设定阈值时，需要监测的页面为非法篡改页面。本发明不仅仅判断提取的分词是不是敏感分词，还结合筛选出的敏感分词在一个页面出现时该页面为非法篡改页面的概率来判断需监测的网页是不是非法篡改页面，因每个敏感分词在一个页面出现时该页面为非法篡改页面的概率是通过采用机器学习的方式来确定的，可提高非法篡改页面监测的准确性。本发明实施例并不是直接根据网页包含如偏重于黄、赌、毒、垃圾广告、反动、政治等敏感特征词就确定非法篡改页面，而是根据页面包含的每个敏感分词在一个页面出现时该页面为非法篡改页面的概率确定，因此可以大大的减小一旦网页包含这些敏感词就认定该网页是非法篡改页面的误报率。

本发明实施例提供一种网页篡改监测方法，用于监测错误页面，该方法包括：

遍历错误页面特征词库，从所述多个分词中筛选出在所述错误页面特征词库中存在的特征分词；

获取每个所述特征分词在一个页面出现时该页面为错误页面的概率；

根据每个所述特征分词在一个页面出现时该页面为错误页面的概率，确定所述页面为错误页面的概率；

在所述页面为错误页面的概率大于第三设定阈值时，确定所述页面为错误页面。

可选实施例中，所述每个特征分词分别在一个页面出现时该页面为错误页面的事件预先设置为相互独立的事件；

根据每个特征分词在一个页面出现时该页面为错误页面的概率，确定所述页面为错误页面的概率，包括：

根据每个所述特征分词在一个页面出现时该页面为错误页面的概率，计算筛选出的所有所述特征分词同时在一个页面出现时该页面为错误页面的联合概率；

将所述联合概率确定为所述页面为错误页面的概率。

可选实施例中，所述错误页面特征词库通过以下方式确定:

获取第二正样本集和第二负样本集；所述第二正样本集包括多种错误类型的错误页面；所述第二负样本集包括多种类型的正常页面；

提取所述第二正样本集中每个错误页面中包含的分词，确定每个分词在所述第二正样本集中出现的概率；提取所述第二负样本集中每个正常页面中包含的分词，确定每个分词在所述第二负样本集中出现的概率；

对于同一分词：

获取所述分词根据语义分析被划分为特征分词的概率，以及所述分词根据语义分析被划分为正常分词的概率；

根据所述分词在所述第二正样本集中出现的概率，所述分词在所述第二负样本集中出现的概率，以及所述分词被划分为特征分词的概率，所述分词被划分为正常分词的概率，确定所述分词在一个页面出现时该页面为错误页面的概率；

在所述分词在一个页面出现时该页面为错误页面的概率超过第四设定阈值时，将所述分词确定为特征分词，并将所述分词以及所述分词在一个页面出现时该页面为错误页面的概率存储在所述错误页面特征词库中。

上述实施例中，对需要监测网站的网页进行分词提取后，从提取的分词中筛选出出现在错误页面特征词库中的特征分词，根据筛选出的每一个特征分词在一个页面出现时该页面为错误页面的概率，确定需要监测的页面为错误页面的概率，在需要监测的页面为错误页面的概率满足第三设定阈值时，需要监测的页面为错误页面。本发明不仅仅判断提取的分词是不是特征分词，还结合筛选出的特征分词在一个页面出现时该页面为错误页面的概率来判断需监测的网页是不是错误页面，因每个特征分词在一个页面出现时该页面为错误页面的概率是通过采用机器学习的方式来确定的，可提高错误页面监测的准确性。本发明实施例并不是直接根据网页包含如页面临时不能访问，后台错误等特征分词就确定错误页面，而是根据页面包含的每个特征分词在一个页面出现时该页面为错误页面的概率确定，因此可以大大的减小一旦网页包含这些特征分词就认定该网页是错误页面的误报率。

本发明实施例提供一种网页篡改监测装置，用于监测非法篡改页面，包括：

提取单元，用于获取所需监测网站的页面，提取出所述页面包含的多个分词；

筛选单元，用于遍历敏感词库，从所述提取单元提取的所述多个分词中筛选出在所述敏感词库中存在的敏感分词；

处理单元，用于获取所述筛选单元筛选出的每个所述敏感分词在一个页面出现时该页面为非法篡改页面的概率；根据每个所述敏感分词在一个页面出现时该页面为非法篡改页面的概率，确定所述页面为非法篡改页面的概率；在所述页面为非法篡改页面的概率大于第一设定阈值时，确定所述页面为非法篡改页面。

可选实施例中，所述每个敏感分词分别在一个页面出现时该页面为非法篡改页面的事件预先设置为相互独立的事件；所述处理单元用于：

将所述联合概率确定为所述页面为非法篡改页面的概率。

可选实施例中，所述敏感词库通过以下方式确定:

对于同一分词：

本发明实施例一种网页篡改监测装置，用于监测错误页面，包括：

筛选单元，用于遍历错误页面特征词库，从所述提取单元提取的所述多个分词中筛选出在所述错误页面特征词库中存在的特征分词；

处理单元，用于获取所述筛选单元筛选出的每个所述特征分词在一个页面出现时该页面为错误页面的概率；

可选实施例中，所述每个特征分词分别在一个页面出现时该页面为错误页面的事件预先设置为相互独立的事件；所述处理单元具体用于：

将所述联合概率确定为所述页面为错误页面的概率。

可选实施例中，所述错误页面特征词库通过以下方式确定:

对于同一分词：

附图说明

图1为本发明实施例提供的一种生成敏感词库的方法流程示意图；

图2为本发明实施例提供的一种生成错误页面特征词库的方法流程示意图；

图3为本发明实施例提供的一种网页篡改监测的方法流程示意图；

图4为本发明实施例提供的一种网页篡改监测的方法流程示意图；

图5为本发明实施例提供的一种网页篡改监测装置的结构示意图；

图6为本发明实施例提供的一种网页篡改监测装置的结构示意图。

具体实施方式

通过广泛的分析总结，黑客篡改网站后留下的内容有一定的特点，如偏重于黄、赌、毒、垃圾广告、反动、政治等敏感词或具有一定特点的特征词。所以可以基于页面内容是否含有这些敏感词来判断是否被篡改。其中敏感词不能简单的通过一些敏感词或者特征词的查找来实现，因为这样误报也非常多，达不到检测效果。

本发明不仅仅判断提取的分词是不是敏感分词，还结合筛选出的敏感分词在一个页面出现时该页面为非法篡改页面的概率来判断需监测的网页是不是非法篡改页面，因每个敏感分词在一个页面出现时该页面为非法篡改页面的概率是通过采用机器学习的方式来确定的，可提高非法篡改页面监测的准确性。由于本发明实施例并不是直接根据网页包含的敏感词或者特征词就确定非法篡改页面，而是根据页面包含的每个敏感分词在一个页面出现时该页面为非法篡改页面的概率确定，因此可以大大的减小一旦网页包含这些敏感词就认定该网页是非法篡改页面的误报率。

本发明实施例采用机器学习的方式来生成敏感词库，该敏感词库中的敏感分析用于监测非法篡改页面。

具体的，本发明实施例提供了一种生成敏感词库的方法，如图1所示，该方法包括：

步骤101，获取第一正样本集和第一负样本集；所述第一正样本集包括多种非法篡改类型的非法篡改页面；所述第一负样本集包括多种类型的正常页面；

第一正样本集中的非法篡改页面是获取的大量经过非法篡改的互联网页面，第一正样本集中的非法篡改页面主要由公安部提供，且其内容丰富，覆盖全面，能够将多种情形的非法篡改包含在内。第一负样本集中的正常页面是从互联网随机抽取的大量正常页面内容。第一负样本集和第一正样本集作为非法篡改页面的训练样本，其中，第一正样本集中的非法篡改页面作为非法篡改页面的正训练样本，第一负样本集中的正常页面作为非法篡改页面的负训练样本。训练样本中的一个分词可同时出现在第一负样本集和第一正样本集中，根据第一正样本集和第一负样本集中的训练样本最终训练出的敏感分词出现在非法篡改页面中的概率高于出现在正常页面中的概率。

步骤102，提取所述第一正样本集中每个非法篡改页面中包含的分词，确定每个分词在所述第一正样本集中出现的概率；提取所述第一负样本集中每个正常页面中包含的分词，确定每个分词在所述第一负样本集中出现的概率；

具体，可通过分词算法对非法篡改页面中的各个分词进行操作，计算各个词语在第一正样本集中出现的概率，同样的，通过分词算法对正常页面中的各个分词进行操作，计算各个词语在第一负样本集中出现的概率。

对于上述步骤102第一负样本集和第一正样本集中的同一分词，执行步骤103至步骤105：

步骤103，获取所述分词根据语义分析被划分为敏感分词的概率，以及所述分词根据语义分析被划分为正常分词的概率；

结合人为的语义分析，每个分词被赋予了划分为敏感分词的概率，以及被划分为正常分词的概率。例如，“赌博”一词，根据其词义，容易出现在非法篡改页面中，因此被划分为敏感分词的概率大于被划分为正常分词的概率，“政治”一词，根据其语义统计，可以出现在正常页面中，也可出现在非法篡改页面中，而出现在正常页面中的可能性会大些，因此被划分为敏感分词的概率小于被划分为正常分词的概率。通过语义分析，来确定分词被划分为敏感分词的概率，以及分词被划分为正常分词的概率，进而再基于这些语义判断来进一步确定敏感分词，能够避免一些对正常页面贡献大的分词被作为敏感分词而导致误报。

步骤104，根据所述分词在所述第一正样本集中出现的概率，所述分词在所述第一负样本集中出现的概率，以及所述分词被划分为敏感分词的概率，所述分词被划分为正常分词的概率，确定所述分词在一个页面出现时该页面为非法篡改页面的概率；

不直接将分词在第一正样本集中出现的概率作为分词在一个页面出现时该页面为非法篡改页面的概率，而是结合步骤103中每个分词根据语义分析被划分为敏感分词的概率，以及被划分为正常分词的概率，以及结合步骤102中该分词分别在第一正样本集和第一负样本集中出现的概率，确定分词在一个页面出现时该页面为非法篡改页面的概率，这样得到的敏感分词能够较准确的区分非法篡改页面。

步骤105，在所述分词在一个页面出现时该页面为非法篡改页面的概率超过第二设定阈值时，将所述分词确定为敏感分词，并将所述分词以及所述分词在一个页面出现时该页面为非法篡改页面的概率存储在所述敏感词库中。

其中，第二设定阈值可以为大于0.5的值，如0.6等。

通过以上步骤，可以获得区分页面内容是否受到非法篡改的敏感词库，敏感词库中的每个分词在一个页面出现时该页面为非法篡改页面的概率被存储下来，以便后续使用敏感分词在一个页面出现时该页面为非法篡改页面的概率来计算需要监测网页是非法篡改页面的概率。

除了被黑客恶意篡改，网站还存在一些特殊状态，如页面临时不能访问，后台错误等等，这些异常信息，不同的客户关注度也不一样。检测程序同样需要识别这种情况，选择通知到客户或者直接忽略。本发明采用机器学习的方式来生成错误页面特征库。

为了能够监测出错误页面，本发明实施例采用机器学习的方式来生成错误页面特征词库。本发明实施例提供的一种生成错误页面特征词库的方法流程如下，如图2所示，主要包括：

步骤201，获取第二正样本集和第二负样本集；所述第二正样本集包括多种错误类型的错误页面；所述第二负样本集包括多种类型的正常页面；

步骤202，提取所述第二正样本集中每个错误页面中包含的分词，确定每个分词在所述第二正样本集中出现的概率；提取所述第二负样本集中每个正常页面中包含的分词，确定每个分词在所述第二负样本集中出现的概率；

对于上述步骤202第二负样本集和第二正样本集中的同一分词，执行步骤203至步骤205：

步骤203，获取所述分词根据语义分析被划分为特征分词的概率，以及所述分词根据语义分析被划分为正常分词的概率；

步骤204，根据所述分词在所述第二正样本集中出现的概率，所述分词在所述第二负样本集中出现的概率，以及所述分词被划分为特征分词的概率，所述分词被划分为正常分词的概率，确定所述分词在一个页面出现时该页面为错误页面的概率；

步骤205，在所述分词在一个页面出现时该页面为错误页面的概率超过第四设定阈值时，将所述分词确定为特征分词，并将所述分词以及所述分词在一个页面出现时该页面为错误页面的概率存储在所述错误页面特征词库中。

上述采用机器学习的方式来生成错误页面特征词库的方法与上述实施例中采用机器学习的方式来生成非法篡改页面敏感词库的方法类似，具体内容不再累述。

基于采用机器学习的方式生成的敏感词库和错误页面特征词库，本发明实施例提供一种网页监测方法，可以用来监测一个需要监测的网页是否为包含敏感内容的非法篡改页面，以及监测一个需要监测的网页是否为包括错误内容的错误页面。

基于上述内容，本发明实施例提供一种网页篡改监测方法，用于监测非法篡改页面，如图3所示，该方法包括：

步骤301，获取所需监测网站的页面，提取出所述页面包含的多个分词；

具体的，提取出所述页面包含的多个分词，包括：对页面内容进行初步过滤，按顺序依次提取出所有中文字符，对中文字符进行分词操作，得到多个中文分词。

步骤302，遍历敏感词库，从所述多个分词中筛选出在所述敏感词库中存在的敏感分词；

具体的，查询每个分词是否出现在敏感词库中，如果某个分词出现在敏感词库中，则标记该分词为敏感分词，记录页面内容中所有出现在敏感词库中的分词。

步骤303，获取每个所述敏感分词在一个页面出现时该页面为非法篡改页面的概率；

页面内容中出现在敏感词库中的分词出现在一个页面时该页面为非法篡改页面的概率，即为该分词对应的敏感词库中的敏感分词在一个页面出现时该页面为非法篡改页面的概率。一个敏感分词在一个页面出现时该页面为非法篡改页面的概率，是指在每个分词出现在一个页面的条件下，该页面的内容为非法篡改内容的概率。

步骤304，根据每个所述敏感分词在一个页面出现时该页面为非法篡改页面的概率，确定所述页面为非法篡改页面的概率；

具体的，将所述每个敏感分词分别在一个页面出现时该页面为非法篡改页面的事件预先设置为相互独立的事件，也就是默认需要监测的网页包含的每个敏感分词之间相互独立，这样可利用联合概率计算需要监测的网页为非法篡改页面的概率支持度。需要监测的网页为非法篡改页面的概率支持度即为监测的网页为非法篡改页面的联合概率。

具体的，根据每个敏感分词在一个页面出现时该页面为非法篡改页面的概率，确定所述页面为非法篡改页面的概率，包括：

根据所述每个敏感分词在一个页面出现时该页面为非法篡改页面的概率，计算筛选出的所有所述敏感分词同时在一个页面出现时该页面为非法篡改页面的联合概率；将所述联合概率确定为所述页面为非法篡改页面的概率。

步骤305，在所述页面为非法篡改页面的概率大于第一设定阈值时，确定所述页面为非法篡改页面。

如果步骤304中需要监测的网页为非法篡改页面的概率支持度，大于某个阈值，则认为需要监测的网页发生了非法篡改。第一设定阈值的确定需要使得第一正样本集和第一负样本集中随机选择的测试数据的准确率最高，为保证第一设定阈值的准确性，采用十字交叉验证的方法进行实验，并且后期进行人工调参，使得模型具有更好的泛化能力。

上述非法篡改页面监测方法的实施例中，使用机器学习方法中的统计策略对非篡改页面和正常页面的内容进行学习，得到用来区分非法篡改页面的敏感词库，根据敏感词库监测网页是否为非法篡改页面，这样得出的监测效果更接近实际情况，与单纯的页面变更检测和关键字匹配查找相比，减少了大量误报，提高了检出率。通过实际运行效果来看，减少误报在95％左右。第一设定阈值参数可以根据所需监测站点的实际情况进行灵活设定，不同类型的站点可以设置不同的阈值。

此外，相比现有技术依赖于人工识别非法篡改行为，并且现有技术只能识别页面变动或者识别少量篡改后的恶意内容。本发明实施例可以由执行上述步骤301至步骤305的计算机程序自动识别非法篡改页面，而且可以识别绝大部分篡改后的恶意内容，节约人力成本。相对于现有技术，本发明敏感词库的形成是基于语义统计进行的，可以减小误报率和漏报率。在安全检查中，通过分布式部署可以在很短时间内(1天之内)对上万个网站的所有页面进行篡改内容的检测，及时发现有害页面，并自动通知到客户。

基于上述内容，本发明实施例提供一种网页篡改监测方法，用于监测错误页面，如图4所示，该方法包括：

步骤401，获取所需监测网站的页面，提取出所述页面包含的多个分词；

步骤402，遍历错误页面特征词库，从所述多个分词中筛选出在所述错误页面特征词库中存在的特征分词；

具体的，查询每个分词是否出现在错误页面特征词库中，如果某个分词出现在错误页面特征词库中，则标记该分词为特征分词，记录页面内容中所有出现在错误页面特征词库中的分词。

步骤403，获取每个所述特征分词在一个页面出现时该页面为错误页面的概率；

页面内容中出现在错误页面特征词库中的分词出现在一个页面时该页面为错误页面的概率，即为该分词对应的错误页面特征词库中的特征分词在一个页面出现时该页面为错误页面的概率。一个特征分词在一个页面出现时该页面为错误页面的概率，是指在每个分词出现在一个页面的条件下，该页面为指定的某种错误类型页面的概率。

步骤404，根据每个所述特征分词在一个页面出现时该页面为错误页面的概率，确定所述页面为错误页面的概率；

可选的，所述每个特征分词分别在一个页面出现时该页面为错误页面的事件预先设置为相互独立的事件，也就是默认需要监测的网页包含的每个特征分词之间相互独立，这样可利用联合概率计算需要监测的网页为错误页面的概率支持度，需要监测的网页为错误页面的概率支持度即为监测的网页为错误页面的联合概率。

根据每个所述特征分词在一个页面出现时该页面为错误页面的概率，计算筛选出的所有所述特征分词同时在一个页面出现时该页面为错误页面的联合概率；将所述联合概率确定为所述页面为错误页面的概率。

步骤405，在所述页面为错误页面的概率大于第三设定阈值时，确定所述页面为错误页面。

如果步骤404中需要监测的网页为非法篡改页面的联合概率大于第三设定阈值，则认为需要监测的网页发生了错误。第三设定阈值的确定需要使得第二正样本集和第二负样本集中随机选择的测试数据的准确率最高，为保证第三设定阈值的准确性，采用十字交叉验证的方法进行实验，并且后期进行人工调参，使得模型具有更好的泛化能力。

上述错误页面监测方法的实施例中，使用机器学习方法中的统计策略对错误页面和正常页面的内容进行学习，得到由能够区分错误面的特征分词组成的错误页面特征词库，根据错误页面特征词库，监测网页是否为错误页面，这样得出的监测效果更接近实际情况，与单纯的页面变更检测和关键字匹配查找相比，减少了大量误报，提高了检出率。通过实际运行效果来看，减少误报在95％左右。第三设定阈值参数可以根据所需监测站点的实际情况进行灵活设定，不同类型的站点可以设置不同的阈值。

基于相同发明构思，本发明实施例还提供了一种网页篡改监测装置，用于监测非法篡改页面，如图5所示，网页篡改监测装置500包括：

提取单元501，用于获取所需监测网站的页面，提取出所述页面包含的多个分词；

筛选单元502，用于遍历敏感词库，从所述提取单元501提取的所述多个分词中筛选出在所述敏感词库中存在的敏感分词；

处理单元503，用于获取所述筛选单元502筛选出的每个所述敏感分词在一个页面出现时该页面为非法篡改页面的概率；根据每个所述敏感分词在一个页面出现时该页面为非法篡改页面的概率，确定所述页面为非法篡改页面的概率；在所述页面为非法篡改页面的概率大于第一设定阈值时，确定所述页面为非法篡改页面。

可选实施例中，所述每个敏感分词分别在一个页面出现时该页面为非法篡改页面的事件预先设置为相互独立的事件；所述处理单元503用于：

将所述联合概率确定为所述页面为非法篡改页面的概率。

可选实施例中，所述敏感词库通过以下方式确定:

对于同一分词：

关于该装置的功能的详细描述可以参照本发明方法实施例的相关内容，在此不做赘述。

基于相同发明构思，本发明实施例还提供了一种网页篡改监测装置，用于监测错误页面，如图6所示，网页篡改监测装置600包括：

提取单元601，用于获取所需监测网站的页面，提取出所述页面包含的多个分词；

筛选单元602，用于遍历错误页面特征词库，从所述提取单元601提取的所述多个分词中筛选出在所述错误页面特征词库中存在的特征分词；

处理单元603，用于获取所述筛选单元602筛选出的每个所述特征分词在一个页面出现时该页面为错误页面的概率；

可选实施例中，所述每个特征分词分别在一个页面出现时该页面为错误页面的事件预先设置为相互独立的事件；所述处理单元603具体用于：

将所述联合概率确定为所述页面为错误页面的概率。

可选实施例中，所述错误页面特征词库通过以下方式确定:

对于同一分词：

本领域内的技术人员应明白，本发明实施例可提供为方法、***、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种网页篡改监测方法，其特征在于，该方法包括：

在所述页面为非法篡改页面的概率大于第一设定阈值时，确定所述页面为非法篡改页面；

所述敏感词库通过以下方式确定:

对于同一分词：

2.如权利要求1所述的方法，其特征在于，每个敏感分词分别在一个页面出现时该页面为非法篡改页面的事件预先设置为相互独立的事件；

根据每个敏感分词在一个页面出现时该页面为非法篡改页面的概率，确定所述页面为非法篡改页面的概率，包括：

将所述联合概率确定为所述页面为非法篡改页面的概率。

3.一种网页篡改监测方法，其特征在于，该方法包括：

在所述页面为错误页面的概率大于第三设定阈值时，确定所述页面为错误页面；

所述错误页面特征词库通过以下方式确定:

对于同一分词：

4.如权利要求3所述的方法，其特征在于，每个特征分词分别在一个页面出现时该页面为错误页面的事件预先设置为相互独立的事件；

将所述联合概率确定为所述页面为错误页面的概率。

5.一种网页篡改监测装置，其特征在于，包括：

处理单元，用于获取所述筛选单元筛选出的每个所述敏感分词在一个页面出现时该页面为非法篡改页面的概率；根据每个所述敏感分词在一个页面出现时该页面为非法篡改页面的概率，确定所述页面为非法篡改页面的概率；在所述页面为非法篡改页面的概率大于第一设定阈值时，确定所述页面为非法篡改页面；

所述敏感词库通过以下方式确定:

对于同一分词：

6.如权利要求5所述的装置，其特征在于，每个敏感分词分别在一个页面出现时该页面为非法篡改页面的事件预先设置为相互独立的事件；所述处理单元用于：

将所述联合概率确定为所述页面为非法篡改页面的概率。

7.一种网页篡改监测装置，其特征在于，包括：

所述错误页面特征词库通过以下方式确定:

对于同一分词：

8.如权利要求7所述的装置，其特征在于，每个特征分词分别在一个页面出现时该页面为错误页面的事件预先设置为相互独立的事件；所述处理单元具体用于：

将所述联合概率确定为所述页面为错误页面的概率。