CN103150369A

CN103150369A - 作弊网页识别方法及装置

Info

Publication number: CN103150369A
Application number: CN201310073265XA
Authority: CN
Inventors: 杨甲东
Original assignee: PEOPLE SEARCH NETWORK AG
Current assignee: PEOPLE SEARCH NETWORK AG
Priority date: 2013-03-07
Filing date: 2013-03-07
Publication date: 2013-06-12

Abstract

本发明公开了一种作弊网页识别方法及装置，其中，该方法包括：获取已知网页样本的集合，其中，该已知网页样本为已知是否为作弊网页的网页样本；根据上述已知网页样本的集合生成用于判断作弊网页的初始支持向量机；获取预设第一数量的未知网页样本的集合，其中，该未知网页样本为未知是否为作弊网页的网页样本；根据上述未知网页样本的集合对上述初始支持向量机的模型参数进行调整；使用调整后的支持向量机判断待检测网页是否为作弊网页。通过本发明，解决了相关技术中基于机器学习的作弊页面识别方法对于新型作弊网页识别效果较差的问题，提升了对于新型作弊网页的识别效果。

Description

作弊网页识别方法及装置

技术领域

本发明涉及计算机信息检索领域，尤其涉及一种作弊网页识别方法及装置。

背景技术

在当前互联网信息***式增长的背景下，搜索引擎已成为人们根据自身需要进入互联网世界的重要入口之一。因此，网页在搜索引擎中的排名位置在相当程度上影响着该网页的访问量。为了获得到更高的访问量，进而获取更多的经济效益，网站总是希望自己的页面出现在搜索引擎返回结果中排名靠前的位置。通过提高页面的质量，使其内容与用户查询更相关、更加契合用户的需要，是常规的提高页面排名的方法。然而，一些网页根据搜索引擎的特点采取有针对性的欺骗手段，而不是提高自身的内容质量，使得其获得非公平的查询相关性和价值重要性，从而提高其在搜索引擎中的排名。这样的网页就是所谓的作弊网页。

互联网中的作弊网页对搜索引擎的性能产生了不可忽视的负面影响。一方面，作弊网页导致搜索引擎将相关度弱或权威性低的网页展现给用户，直接影响了用户所获得的查询结果;另一方面，作弊网页还导致搜索引擎索引大量内容质量低或重要性差的信息，从而增加了无谓的索引空间开销和检索时间开销。因此，识别作弊页面成为高效搜索引擎所不可或缺的关键技术之一。

现有的作弊网页主要包括以下四类:基于内容的作弊、基于链接的作弊、基于掩盖的作弊和基于跳转的作弊等。基于内容的作弊指通过在网页的标题、页面以及不可见的文本区域中添加或者堆砌热门的查询词汇，使该网页能够在搜索热门词汇时被检索出来，同时获得较高的相关度评分，从而提升网页排车的作弊方式;基于链接的作弊指通过在网页中添加若干链接，构建出用于误导PageRank算法的链接结构，从而提升网页的权威性以获得优先排名的作弊手段;基于掩盖的作弊是指页面内容在被搜索引擎抓取和实际点击过程不一致，进而欺骗搜索引擎的作弊行为;基于跳转的作弊指利用重定向技术，从当前网页跳转至另一个页面，从而改变网页可见内容的作弊方式。

面对上述的作弊手段和方式，大量的作弊网页检测方法和反作弊策略应运而生。其中，基于机器学习的方法由于其在理论上有着坚实的基础，同时在实践中也取得了优于其他方法的反作弊效果，因此在业界被广泛采用。例如，相关技术中提供了一种搜索引擎作弊检测的优化方法，以及一种基于小样本集的搜索引擎作弊检测方法，这些方法中提供了基于机器学习的作弊网页检测方法，其百先从页面中提取特征，然后根据已知的网页样本利用机器学习方法训练模型，最后利用模型对作弊网页进行识别。

需要指出的是，搜索引擎的反作弊策略和作弊页面制造者之间一直处于针锋相对的状态。当某网站中的作弊页面被反作弊策略控制，网站相关人员将会在原有作弊页面的基础上衍生出新的作弊页面，力图躲避原有的反作弊策略的识别和处理。这就意味着，反作弊策略如果仅仅能够对当前环境中的作弊网页进行甄别，那么它还不能较好地满足实际需要。只有能够在当前识别能力的基础上不断迭代改进，进而在面对不断变化的作弊网页时保持可控的召回水平，反作弊策略才能持续发挥作用。

因此，相关技术中提出通过不断地增加、删除和修改网页特征的方式，以期在不修改方法结构的前提下满足对新型作弊页面的识别要求。然而，特征的调整主要源于新型作弊网页。这意味着，调整后的特征在原有的网页样本中表现得并不典型。因此，如果仅仅调整网页特征往往还不足以很好地应对新型的作弊网页。只有根据页面特征的调整情况，适时地添加有针对性的网页样本(包括作弊和正常的网页)，才能使反作弊的有效性保持在相对稳定的水平。对于作弊网页而言，尽管其在整体网页中的绝对占比不算低，但在短时间内寻找到特征调整所需的作弊页面却需要花费不菲的代价。对于正常网页而言，尽管获取成本低，但是从中选择出有较强代表性和典型性，同时又与原有模型配合最佳的实例，也并非轻而易举。

由上述分析可知，为了使基于机器学***，网页的获取和标注过程十分关键。由于该过程需要付出较多的人力成本，因此提高这一环节的效率对于提高作弊页面识别方法的整体性能影响重大。遗憾的是，相关技术未能有效解决这一间题。

针对相关技术中基于机器学习的作弊页面识别方法对于新型作弊网页识别效果较差的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的是提供一种作弊网页识别方法及装置，以至少解决相关技术中基于机器学习的作弊页面识别方法对于新型作弊网页识别效果较差的问题。

根据本发明的一个方面，提供了一种作弊网页识别方法，包括:获取已知网页样本的集合，其中，所述已知网页样本为已知是否为作弊网页的网页样本;根据所述已知网页样本的集合生成用于判断作弊网页的初始支持向量机;获取预设第一数量的未知网页样本的集合，其中，所述未知网页样本为未知是否为作弊网页的网页样本;根据所述未知网页样本的集合对所述初始支持向量机的模型参数进行调整;使用调整后的支持向量机判断待检测网页是否为作弊网页。

优选地，根据所述未知网页样本的集合对所述初始支持向量机的模型参数进行调整包括:使用所述初始支持向量机将所述未知网页样本的集合划分为正常页面子集和作弊页面子集;将所述正常页面子集与所述作弊页面子集中的所述未知网页样本进行逐一交换，并重新计算所述初始支持向量机的模型参数，直至所述正常页面子集与所述作弊页面子集的间隔不再扩大;使用最终得到的所述正常页面子集与所述作弊页面子集对所述初始支持向量机的模型参数进行调整。

优选地，根据所述未知网页样本的集合对所述初始支持向量机的模型参数进行调整包括使用所述初始支持向量机将所述未知网页样本的集合划分为正常页面于集和作弊页面子集;分别获取所述正常页面子集和所述作弊页面子集中置信度最高的预设第二数量的未知网页样本作为候选的标注样本，其中，所述预设第二数量小于所述正常页面子集以及所述作弊页面子集中的未知网页样本数量;在所述候选的标注样本的标注结果与所述初始支持向量机对所述候选的标注样本的判断结果不同时，将所述候选的标注样本按照所述标注结果添加至所述已知网页样本的集合;使用最终得到的所述已知网页样本的集合对所述初始支持向量机的模型参数进行调整。

优选地，在根据所述已知网页样本的集合生成用于判断作弊网页的初始支持向量机之前，还包括:将所述已知网页样本的集合中网页样本的网页特征转化为特征向量，其中，所述网页特征包括以下类型至少之一:网页的内容特征，网页的结构特征，网页的链接特征。

优选地，根据所述已知网页样本的集合生成用于判断作弊网页的初始支持向量机包括:将所述已知网页样本的集合分为第一子集和第二子集;根据所述第一子集生成用于判断作弊网页的初始支持向量机;使用所述第二子集对所述初始支持向量机的判断准确性进行测试。

根据本发明的另一方面，还提供了一种作弊网页识别装置，包括:第一获取模块，用于获取已知网页样本的集合，其中，所述已知网页样本为已知是否为作弊网页的网页样本;生成模块，用于根据所述已知网页样本的集合生成用于判断作弊网页的初始支持向量机;第二获取模块，用于获取预设第一数量的未知网页样本的集合，其中，所述未知网页样本为未知是否为作弊网页的网页样本;调整模块，用于根据所述未知网页样本的集合对所述初始支持向量机的模型参数进行调整;判断模块，用于使用调整后的支持向量机判断待检测网页是否为作弊网页。

优选地，所述调整模块包括:第一划分单元，用于使用所述初始支持向量机将所述未知网页样本的集合划分为正常页面子集和作弊页面子集:第一处理单元，用于将所述正常页面子集与所述作弊页面子集中的所述未知网页样本进行逐一交换，并重新计算所述初始支持向量机的模型参数，直至所述正常页面子集与所述作弊页面子集的间隔不再扩大:第一调整单元，用于使用最终得到的所述正常页面子集与所述作弊页面子集对所述初始支持向量机的模型参数进行调整。

优选地，所述调整模块包括:第二划分单元，用于使用所述初始支持向量机将所述未知网页样本的集合划分为正常页面子集和作弊页面子集:获取单元，用于分别获取所述正常页面子集和所述作弊页面子集中置信度最高的预设第二数量的未知网页样本作为候选的标注样本，其中，所述预设第二数量小于所述正常页面子集以及所述作弊页面子集中的未知网页样本数量;第二处理单元，用于在所述候选的标注样本的标注结果与所述初始支持向量机对所述候选的标注样本的判断结果不同时，将所述候选的标注样本按照所述标注结果添加至所述已知网页样本的集合;第二调整单元，用于使用最终得到的所述已知网页样本的集合对所述初始支持向量机的模型参数进行调整。

优选地，所述装置还包括:转化模块，用于将所述已知网页样本的集合中网页样本的网页特征转化为特征向量，其中，所述网页特征包括以下类型至少之一:网页的内容特征，网页的结构特征，网页的链接特征。

优选地，所述生成模块包括:第三划分单元，用于将所述已知网页样本的集合分为第一子集和第二子集;生成单元，用于根据所述第一子集生成用于判断作弊网页的初始支持向量机;测试单元，用于使用所述第二子集对所述初始支持向量机的判断准确性进行测试。

根据本发明的技术方案，采用获取已知网页样本的集合，其中，该已知网页样本为已知是否为作弊网页的网页样本;根据上述已知网页样本的集合生成用于判断作弊网页的初始支持向量机;获取预设第一数量的未知网页样本的集合，其中，该未知网页样本为未知是否为作弊网页的网页样本;根据上述未知网页样本的集合对上述初始支持向量机的模型参数进行调整;使用调整后的支持向量机判断待检测网页是否为作弊网页的方式，解决了相关技术中基于机器学习的作弊页面识别方法对于新型作弊网页识别效果较差的问题，提升了对于新型作弊网页的识别效果。

附图说明

说明书附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的作弊网页识别方法的流程图

图2是根据本发明实施例的作弊网页识别装置的结构框图;

图3是根据本发明实施例的调整模块的优选结构框图;

图4是根据本发明实施例的作弊网页识别装置的优选结构框图;

图5是根据本发明实施例的生成模块的优选结构框图;

图6是根据本发明实施例一的基于半监督学习和主动学习的作弊网页识别方法的各步骤流程图;

图7是根据本发明实施例一的基于半监督学习和主动学习的作弊网页识别装置的结构框图;

图8是根据本发明实施例二的样本预处理步骤的优选流程图;

图9是根据本发明实施例二的基于半监督学习识别模型训练步骤的优选流程图

图10是根据本发明实施例二的基于主动学习的网页样本添加步骤的优选流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

虽然相关技术中提供了基于机器学习的作弊网页检测方法，并提出通过增加、删除和修改网页特征，保持***对作弊识别的有效性。然而，对于如何通过添加针对性样本的问题，相关技术中均未提及。

因此，在本实施例中提供了一种作弊网页识别方法，图1是根据本发明实施例的作弊网页识别方法的流程图，如图1所示，该方法包括如下步骤:

步骤S102，获取已知网页样本的集合，其中，该已知网页样本为已知是否为作弊网页的网页样本;

步骤S104，根掘上述已知网页样本的集合生成用于判断作弊网页的初始支持向量机;

步骤S106，获取预设第一数量的未知网页样本的集合，其中，该未知网页样本为未知是否为作弊网页的网页样本;

步骤S108，根据上述未知网页样本的集合对上述初始支持向量机的模型参数进行调整，这里可以重复执行S106-S108的步骤，继续获取未知网页样本，以持续更新支持向量机的模型参数:

步骤Sll0，使用调整后的支持向量机判断待检测网页是否为作弊网页。

本实施例通过上述步骤，在根据已知网页样本的集合生成初始的用于判断是否为作弊网页的支持向量机之后，再根据未知网页样本集合(该未知网页样本集合优选地可以包含具有统计意义数量的未知网页样本)对初始的支持向量机的模型参数进行调整，并使用调整后的支持向量机对待检测网页进行作弊判断，由于调整后的支持向量机的模型参数中考虑了未知网页样本集合，从而相比使用只考虑已知网页样本集合的初始支持向量机进行作弊判断而言，调整后的支持向量机对于新型作弊网页的判断更加快速和准确，解决了相关技术中基于机器学习的作弊页面识别方法对于新型作弊网页识别效果较差的问题，提升了对于新型作弊网页的识别效果。

优选地，上述步骤S108中根据未知网页样本的集合对初始支持向量机的模型参数进行调整的方式可以包括两种，一种方式是半监督学习方式，一种是主动学习方式，下面对这两种方式分别进行说明:

方式一(半监督学习方式)，该方式可以首先使用初始支持向量机将未知网页样本的集合划分为正常页面子集和作弊页面子集，然后将正常页面子集与作弊页面子集中的元素(即未知网页样本)进行逐一交换，并重新计算初始支持向量机的模型参数，扩大正常页面子集与作弊页面子集之间的间隔，直至正常页面子集与作弊页面子集的间隔不再扩大为止，使用最终得到的正常页面子集与作弊页面子集对初始支持向量机参数进行调整。此时根据最终调整得到的参数即可获得最终调整后的支持向量机。

方式二(主动学习方式)，该方式也可以是首先使用初始支持向量机将末知网页样本的集合划分为正常页面子集和作弊页面子集，然后，分别获取正常页面子集和作弊页面子集中置信度最高的预设第二数量的未知网页样本作为候选的标注样本，其中该预设第二数量是小于正常页面子集以及作弊页面子集中的未知网页样本数量的。经过人工对候选的标注样本进行标注后，如果发现候选的标注样本的人工标注结果与初始支持向量机对候选的标注样本的判断结果不同，例如，正常页面子集中的候选标注样本的人工标注结果为作弊网页，或者作弊页面子集中的候选标注样本的人工标注结果为正常网页，则可以将候选的标注样本按照人工标注的结果添加至已知网页样本的集合中。此时由于已知网页样本集合发生改变，则可以使用改变的已知网页样本集合对初始支持向量机参数进行调整，根据最终调整得到的参数即可获得最终调整后的支持向量机。

优选地，在根据已知网页样本的集合生成用于判断作弊网页的初始支持向量机之前，还可以对已知网页样本集合进行一些预处理，以方便支持向量机的生成，例加，可以将已知网页样本的集合中网页样本的网页特征分别转化为特征向量，其中，上述网页特征可以包括但不限于以下类型至少之一:网页的内容特征，网页的结构特征，网页的链接特征等。

优选地，步骤S104中根据已知网页样本的集合生成用于判断作弊网页的初始支持向量机的方式可以为:将已知网页样本的集合分为第一子集(例如，可以称为训练子集)和第二子集(例如，可以称为测试子集)，然后根据第一子集生成用于判断作弊网页的初始支持向量机，最后使用第二子集对初始支持向量机的判断准确性进行测试。通过这种边学习边验证的方式，保证了初始支持向量机对于已知网页样本集合的判断准确性。

对应于上述方法，在本实施例中还提供了一种作弊网页识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。加以下所使用的，术语"模块"可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较住地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的作弊网页识别装置的结构框图，如图2所示，该装置包括:第一获取模块22、生成模块24、第二获取模块26、调整模块28、以及判断模块30，下面对各个模块进行详细说明。

第一获取模块22，用于获取已知网页样本的集合，其中，已知网页样本为已知是否为作弊网页的网页样本;生成模块24，与第一获取模块22相连，用于根据第一获取模块22获取的已知网页样本的集合生成用于判断作弊网页的初始支持向量机;第二获取模块26，用于获取预设第一数量的未知网页样本的集合，其中，未知网页样本为未知是否为作弊网页的网页样本;调整模块28，与生成模块24和第二获取模块26相连，用于根据第二获取模块26获取的未知网页样本的集合对生成模块24生成的初始支持向量机的模型参数进行调整;判断模块30，与调整模块28相连，用于使用调整后的支持向量机判断待检测网页是否为作弊网页。

图3是根据本发明实施例的调整模块28的优选结构框图，如图3所示，调整模块28可以包括:第一划分单元282，用于使用初始支持向量机将未知网页样本的集合划分为正常页面子集和作弊页面子集;第一处理单元284，与第一划分单元282相连，用于将正常页面子集与作弊页面子集中的未知网页样本进行逐一交换，并重新计算初始支持向量机的模型参数，直至正常页面子集与作弊页面子集的间隔不再扩大;第一调整单元286，与第一处理单元284相连，用于使用第一处理单元284最终得到的正常页面子集与作弊页面子集对初始支持向量机的模型参数进行调整。优选地，如图3所示，调整模块28也可以包括:第二划分单元288，用于使用初始支持向量机将末知网页样本的集合划分为正常页面子集和作弊页面子集;获取单元290，与第二划分单元288相连，用于分别获取正常页面子集和作弊页面子集中置信度最高的预设第二数量的未知网页样本作为候选的标注样本，其中，该预设第二数量小于正常页面子集以及作弊页面子集中的末知网页样本数量;第二处理单元292，与获取单元290相连，用于在候选的标注样本的标注结果与初始支持向量机对候选的标注样本的判断结果不同时，将候选的标注样本按照标注结果添加至已知网页样本的集合;第二调整单元294，用于使用第二处理单元292最终得到的已知网页样本的集合对初始支持向量机的模型参数进行调整。

图4是根据本发明实施例的作弊网页识别装置的优选结构框图，如图4所示，该装置还可以包括:转化模块42，与第一获取模块22相连，用于将已知网页样本的集合中网页样本的网页特征转化为特征向量，其中该网页特征可以包括以下类型至少之一:网页的内容特征，网页的结构特征，网页的链接特征。

图5是根据本发明实施例的生成模块24的优选结构框图，如图5所示，生成模块24可以包括:第三划分单元242，用于将已知网页样本的集合分为第一子集和第二子集;生成单元244，与第三划分单元242相连，用于根据第一子集生成用于判断作弊网页的初始支持向量机;测试单元246，与生成单元244相连，用于使用第二子集对初始支持向量机的判断准确性进行测试。

下面结合优选实施例和附图对上述实施例及优选实施方式的实现过程进行详细说明。

在以下优选实施例中，以计算机信息检索和搜索引擎技术领域为例进行说明，提供了一种作弊网页的识别方法及装置，该方法和装置首先能够根据已知的网页样本生成用于识别作弊网页的模型，并在此基础上自动选择出的供模型持续迭代改进的候选网页样本供人工标注，从而解决了现有页面作弊识别方法需要花费大量时间和人力成本获取网页样本以应对新型作弊网页的问题。

实施例一

本优选实施例提供了一种基于主动学习和半监督学习的作弊网页识别方法，图6是根据本发明实施例一的基于半监督学习和主动学习的作弊网页识别方法的各步骤流程图，如图6所示，该方法可以包括如下步骤:

步骤S602：明确所利用的网页特征集合F。该步骤主要用于确定从网页中所需要抽取的特征，包括内容特征、结构特征、链接关系特征等方面。

步骤S604:预处理已知网页样本集合S。该步骤的目标在于根据步骤S602确定的特征集合F，将各已知的网页样本转化为特征向量，同时将样本集合S划分为用于模型训练和测试的两部分。需要指出的是，在本文中的"已知网页"指的是该网页是否为作弊网页是已知的。

步骤S606:获取未知网页样本集合U。该步骤的目标在于从大量的网页中抽样获得若干样本，网页样本是否为作弊网页未知。需要指出的是，在本文中"未知网页"指的是该网页是否为作弊网页尚未确定。

步骤S608：根据集合S和U，采用半监督学习的方法，生成用于识别作弊网页的持向量机(Support Vector Machine)模型。

步骤S610利用得到的支持向量机模型，判断某个网页是否作弊，并进行相应处理。

步骤S612向网页特征集合F添加新的特征。该步骤的目的在于人工添加表征新作弊类型的网页特征，从而增强原有模型的识别能力。

步骤S614:向网页样本集合S添加新的样本。该步骤主要采用主动学习的方法，根据已有的识别模型，从具有统计意义规模的未知网页样本中挑选出若干待标注的网页，在经过人工标注(即人工确认该网页是否作弊)后添加至网页样本集合5。

对应于上述方法，在本优选实施例中还提供了一种基于主动学习和半监督学习的作弊网页识别装置，图7是根据本发明实施例一的基于半监督学习和主动学习的作弊网页识别装置的结构框图，如图7所示，该装置包括:

网页样本数据库:用于保存已知的网页样本相关信息。

样本处理模块:用于管理网页样本数据库***，包括单独样本实例的维护，以及对网页样本集合全体的统计与划分。

特征分析模块:用于对网页进行分析，从而将其转换为特征向量。进一步地，该模块包括内容分析子模块、结构分析子模块、链接分析子模块。上述三个子模块分别从内容、结构以及链接角度对网页进行定量描述。同时，特征分析模块还负责维护分析网页所涉及的各个特征。

模型训练模块:用于根据已知的网页样本和末知的网页样本，获得支持向量机模型。进一步地，该模块可以包括性能评价和参数选择两个子模块。其中，前者(性能评价子模块)用于当参数已知时，评价模型识别作弊网页的性能，后者(参数选择子模块)在前者的基础上，选择出使支持向量机模型性能最优的参数。

网页作弊判断模块:用于根据支持向量机模型判断网页是否作弊。进一步地，该模块可以包括判断子模块和处理子模块。其中，后者(处理子模块)用于在判断某一网页为作弊网页时，向搜索引擎其他的部分发出提示信号，从而对该网页进行处理(更改索引数据等)。

样本扩充模块:用于根据网页特征集合和支持向量机模型，在给定的样本集合中选择出若干能够最大程度提高模型性能的网页样本。该模块进一步可以包括网页分析子模块和网页选择子模块。其中，前者(网页分析子模块)利用已经获得的支持向量机模型对未知的样本进行判断，同时对判断结果的置信度进行评估:后者(网页选择子模块)则根据判断结果页的置信度选择出符合要求的网页。

网页标注模块，用于对选择出的未知网页进行人工标注。

通过本优选实施例中提供的用于识别作弊网页的方法和装置，对作弊网页进行分析，将网页转换为抽象的特征向量，并以此训练支持向量机模型，进而判断未知网页是否作弊。同时，本优选实施例还提供了便捷高效的方法，从而在不改变方法整体结构的同时通过添加特征及选择性地添加样本的方法，以有效应对以新出现的作弊网页。本优选实施例提供的用于识别作弊网页的方法和装置的主要优势体现在以下三个方面:

一、由于本优选实施例从内容、结构和链接等多个方面对网页进行综合分析，与仅局限于单一角度识别作弊网页的方法和装置相比，本优选实施例的方法及装置对作弊网页的识别能力更强;

二、本优选实施例的方法及装置在生成用于识别作弊网页的模型过程中，在参考已知网页样本的同时，也参考了具有统计意义规模的未知网页样本。这样的设计可以有效避免已知样本可能存在的采样偏差，从而提高识别的惟确率。

三、本优选实施例提出的方法和装置，一方面通过修改网页特征集合提高对作弊网页的描述能力;另一方面，通过主动学***保持稳定。

实施例二

本优选实施例所提出的基于主动学习和半监督学习的作弊网页识别方法，其各步骤总体流程如图6所示。其中，步骤S602确定所利用的网页特征集合F，步骤S604根据步骤S602所确定的特征集合对已知网页样本集合S中各网页进行预处理，步骤S606获取若干末标注的网页样本(记为集合U)，步骤S608根据集合S和U训练支持向量机模型，并利用该模型识别作弊网页，步骤S610用于向网页特征集合F添加新的特征，步骤S612和S614采用主动学习的方法，向网页样本集合S添加新样本。接下来详细叙述各主要步骤。

步骤S602:确定所利用的网页特征集合F。

该步骤将根据已知的作弊网页，从网页标题、正文内容、网页结构和链接关系等方面入手明确表征网页的特征集合。

步骤S604:预处理已知的网页样本集合S。

该步骤的目标在于根据步骤S602确定的特征集合F对S中的各个网页进行处理。图8是根据本发明实施例二的样本预处理步骤的优选流程图，如图8所示，对于某一具体网页而言，该步骤首先对网页的各个特征进行评定，将其转化为某种形式的数值(步骤5604-2)。然后，对得到的数值进行分析，根据其类型采取相应的归一化方法(步骤5604-4)，同时根据该网页是否为作弊页面，将该类别属性同特征数值一起生成某一特征向量，从而代表对应网页。最后，将得到的全体特征向量划分按照l:c(4＜c＜lO)的比例分为训练数据集合和测试数据集合两部分(步骤5604-6)。

步骤S606:获取未知网页样本集合U。

该步骤的主要任务是随机获得若干网页样本。与步骤5604类似，该步骤同样需要对获得的各个页面进行评定、归一化从而转化为其一特征向量。由于集合U中的样本不知是否为作弊页面，因此各个页面的类别属性将被标注为不同子集合S中两种类别的属性值。

步骤S608：根据集合S和U训练支持向量机模型，并利用该模型识别作弊网页。图9是根据本发明实施例二的基于半监督学习识别模型训练步骤的优选流程图，如图9所示，该步骤5608可以包括以下5608-2、5608-4两个子步骤。

步骤S608-2:根据步骤S2得到的训练数据集合和测试数据集合，生成支持向量机模型。具体地说，百先，根据训练数据集合寻找生成初始的模型;然后，寻找使得模型对测试集合的识别准确率最高的参数;最后，根据该参数生成模型M'。

步骤S608-4:首先，利用M'对集合U中的各样本进行识别，其实质是将集合U分为正常页面和作弊页面两个子集U+和U-;其次，在保证模型对集合S类别识别正确的基础上，通过逐一交换U+和U-中元素的方式，扩大U+和U-的间隔;然后根据对U+和U-调整结果，调整M'中的参数;该步骤一直执行直到U+和U-的间隔不能在扩大，此时根据最终调整所得的参数生成M，M即为最终的识别模型。

步骤S610:使用支持向量机模型判断网页是否作弊。对其一具体网页，该步骤不仅给出正常或者作弊的判断结果，而且还将获得该网页样本距离分类超平面的距离。而当判断其一网页为作弊网页时，该步骤将向搜索引擎其他的部分发出提示信号，以对对应的索引数据进行修改。

步骤S612:在网页特征集合F添加新的特征。

对于新出现或新观察到的作弊类型，首先需要对其进行人工分析的技术，并提取出全部的特征。然后，将这些特征同原有的网页特征集合F进行合并。该过程将有可能增加、删除或者调整F中的元素。由于集合F发生了变化，因此本步骤完成后，步骤S604和S606中涉及调整元素的分析、评定和归一化方法都将有可能被改变。

步骤S614:采用主动学习的方法向网页样本集合S添加新样本。图10是根据本发明实施例二的基于主动学习的网页样本添加步骤的优选流程图，如图10所示，该步骤5614可以包括以下5614-2、5614-4、5614-6、5614-8四个子步骤。

步骤5614-2:随机获得具有统计意义规模的本知网页W(例如，规模超过100000，即|W|＞10，0000)，利用步骤S608得到的支持向量机模型对网页否为作弊网页进行判断。该步骤的结果将W分为W+和W-两个子集，其分别由W中判断为正常和作弊的网页组成。

步骤5614-4:按照与支持向量机模型中分类超平面的距离从小到大的顺序，对于步骤S614-2所得到的W+和W-的各个网页进行排序。

步骤S614-6:对于步骤S614-4得到的W+和W-，分别取其排序结果中前n(n＜＜|W|)个网页(共2n个)网页作为候选标注网页，并人工对这2n个网页进行标注。如果人工标注的结果和支持向量机模型判断的结果不一致，则将这些网页保存至集合L。L中各个网页的类型以人工标注的结果为准。

步骤S614-8：将L中的全部网页添加至网页样本集合S。

需要指出的是，步骤S602至步骤S610已经组成了完整的、利用支持向量机模型识别作弊页面方法。在此基础上，步骤5612至步骤5614则将与步骤5602至步骤5610共同完成对向量机模型的持续迭代改进，从而不断提高对于作弊页面的识别能力。

本优选实施例还提供了一种识别作弊网页的装置，其中包括一个用于存储的数据库***和六个用于事务处理的模块。装置各组成元素间的相互关系如图7所示。以下将结合附图对该装置进行进一步说明。

网页样本数据库:该***将保存用于模型训练的网页样本。其中，各个样本的类型(正常或者作弊)已经明确。所保存的网页相关信息主要包括网页的ID、标题、url、html代码、获取时间、类型等。

样本处理模块:用于维护网页样本数据库***，包括添加、修改网页样本;负责对全体网页样本集合进行划分，生成模型训练需要的训练和测试的两部分;负责对网页样本进行统计，以配合完成模型训练。

特征分析模块:该模块主要负责三方面的任务:一、分析根据已知的网页，分析将其对应的html;二、将网页特征向量化:三、维护模型训练所涉及的特征集合。

第一方面的任务由三个子模块协同完成:内容分析子模块、结构分析子模块、链接分析子模块。内容分析子模块主要考察网页内容方面的特征，包括标题、中心内容、高亮文本、链接等可见内容中的文本特征、语法特征以及语义特征;结构分析子模块主要涉及网页html代码所对应的DOM树的结构信息、页面整体的布局情况、页面局部中各个元素的关系以及网页不可见部分的所隐含的信息;链接分析子模块主要分析本网页与站点主页、同站点下其他网页以及与其他外部网页的间关系。需要说明的是，上述三个子模块方面间相互联系，相当一部分的网页特征由两个或者全部三个子模块中共同产生。

第二方面的任务由特征向量化子模块完成，该模块根据网页分析的结果进行评定，并综合某一特征值在全体网页样本中的统计情况选择合理的归一化从而将某一特征映射为某一数值，并最终将网页转化为其一向量。

第三方面的任务有特征维护子模块完成，该模块负责添加、删除和修改网页分析所涉及到的配置信息，包括特征数目、名称、类型等等。

模型训练模块:该模块负责生成用于最终判断网页作弊与否的支持向量机模型。该模块进一步包括性能评价和参数选择两个子模块。其中，

性能评价子模块，负责根据训练样本以及指定的参数和配置生成支持向量机模型，并根据测试样本集合及和末知样本集合评价模型多方面的性能指标，包括识别的正确率、准确率、召回率等等。

参数选择子模块，负责在参数可选择的范围内进行搜索，从而选择出使支持向量机模型性能最优的参数。需要指出的是，所谓的性能可以根据实际需要进行调整，它可以设置为性能评价子模块中所涉及的任何指标及其组合。

网页作弊判断模块:该模块用于完成作弊页面的判断任务。进一步地，当其一网页被判断为作弊网页时，该模块还负责向搜索引擎其他的部分发出提示信号，并传递该网页的相关信息，从而为对该网页进行处理提供参考信息。

样本扩充模块:该模块负责根据网页特征集合和当前生成的支持向量机模型，选择最大程度提高作弊网页识别能力的样本。该模块进一步包括网页分析子模块和网页选择子模块。其中：

前者利用已经获得的支持向量机模型对具有统计意义规模的未知样本进行判断。同时，该模块还负责对判断结果的置信度(即样本距支持向量机中的分类超平面的距离)进行计算。

后者将分别对识别得到的两类网页(正常或者作弊)的置信度按照从低到高的顺序进行排序，并分别从中选择出前若干个候选网页样本。

网页标注模块:该模块用于对未知网页进行人工标注。由于标注页面是相当主观的任务，因此该模块提供了多人标注及比较功能。当多个标注结果不一致时，该模块将发出提示。当明确标注结果后，该网页将被添加至网页样本数据库中。

实施例三

在本优选实施例中，提供了一种作弊网页的识别方法，包括:步骤S2:明确所利用的网页特征集合，包括网页的内容特征、结构特征、链接关系特征等。步骤S4:预处理已知网页样本集合，包括根据步骤网页特征将网页向量化，同时对样本集合进行划分为训练和测试的两部分。步骤S6:获取末知网页样本集合，步骤S8:根据已知和未知的网页样本，采用半监督学习的方法，生成识别模型:步骤SlO:根据模型判断某网页是否作弊，并进行相应处理;步骤S12:添加新的网页特征;步骤S14:采用主动学习的方法，添加新的已知网页样本。

优选地，上述预处理已知网页样本集合的步骤可以包括:将网页特征将转化为其一数值，同时对其采取归一化方法，从而将网页转化为其一特征向量;同时还包括将已知网页样本集合划分为训练和测试的两部分。

优选地，采用半监督学习的方法生成识别模型的步骤可以包括:首先根据已知的训练和测试网页样本生成初始的支持向量机模型，然后根据未知样本集合对支持向量机模型的参数进行调整。

优选地，上述模型参数调整方法可以包括:首先，利用初始的支持向量机模型对未知样本集合进行识别，将其分为正常页面和作弊页面两个子集;其次，在保证模型对已知网页样本识别正确的基础上，逐一交换两个子集中的元素以扩大子集间的间隔，并据此调整模型的参数;该步骤一直执行直到子集的间隔不能在扩大。

优选地，上述作弊网页的识别方法可以采用主动学习的方法，添加新的已知网页样本的步骤，包括:利用已有的模型对具有统计意义规模的未知网页进行识别，从而将未知网页集合划分为两个子集;在两个子集中分别选择出待标注的网页样本，在进行标注后添加至已知网页样本集合。

优选地，上述待标注网页的选择方法可以为:按照判断结果的置信度从小到大的顺序，分别对于两个子集中的网页进行排序，并分别取前若干网页作为候选标注样本。其中的结果置信度，定义为与支持向量机模型中分类超平面的距离。当这些网页的人工标注结果与判断结果不一致时，将其添加至已知网页样本集合。

对应于上述方法，在本优选实施例中还提供了一种基于主动学习和半监督学习的作弊网页识别装置，包括:网页样本数据库(也称网页样本数据库***):用于保存已知的网页样本相关信息;样本处理模块:用于管理网页样本数据库***;特征分析模块:用于对网页进行分析，从而将其转换为特征向量;模型训练模块:用于根据已知的网页样本和未知的网页样本，获得支持向量机模型;网页作弊判断模块:用于根据支持向量机模型判断网页是否作弊;样本扩充模块:用于根据网页特征集合和支持向量机模型，选择出若干能够最大程度提高模型性能的网页样本。

优选地，上述特征分析模块通过以下方式对网页特征进行分忻

A.从包括标题、中心内容、高亮文本、链接等可见内容中的文本、语法以及语义角度考察内容特征;从网页html代码所对应的DOM树的结构信息、页面布局情况、以及网页不可见部分考察结构特征;从该网页与同站点主页、同站点下其他网页以及与其他外部网页的间关系考察链接特征。

B.根据网页特征分析的结果进行评定，并综合其一特征值在全体网页样本中的统计情况选择合理的归一化从而将某一特征映射为其一数值，将网页转化为其一向量。

优选地，上述特征分析模块包括性能评价和参数选择两个子模块:其中前者负责根据训练样本以及指定的参数和配置生成支持向量机模型，并根据测试样本集合及和未知样本集合评价模型;后者，负责在参数可选择的范围内进行搜索，从而选择出使支持向量机模型性能最优的参数。

优选地，上述特征分析模块可以通过以下方式扩充样本:首先利用已经获得的支持向量机模型对具有统计意义规模的未知样本进行判断，从而将其分类为正常或作弊两类网页，同时计算判断结果的置信度(即样本距支持向量机中的分类超平面的距离)；然后，分别对识别得到的两类网页(正常或者作弊)的置信度按照从低到高的顺序进行排序，并分别从中选择出前若干个网页样本进行人工标注，如果标注结果与判断结果不一致，那么网页样本扩充至网页样本集合。

在另外一个实施例中，还提供了一种软件，该软件用于执行上述实施例及优选实施例中描述的技术方案。

在另外一个实施例中，还提供了一种存储介质，该存储介质中存储有上述软件，该存储介质包括但不限于光盘、软盘、埂盘、可擦写存储器等。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种作弊网页识别方法，其特征在于，包括

获取已知网页样本的集合，其中，所述已知网页样本为已知是否为作弊网页的网页样本;

根据所述已知网页样本的集合生成用于判断作弊网页的初始支持向量机;

获取预设第一数量的未知网页样本的集合，其中，所述未知网页样本为未知是否为作弊网页的网页样本:

根据所述未知网页样本的集合对所述初始支持向量机的模型参数进行调整;

使用调整后的支持向量机判断待检测网页是否为作弊网页。

2.根据权利要求1所述的方法，其特征在于，根据所述未知网页样本的集合对所述初始支持向量机的模型参数进行调整包括:

使用所述初始支持向量机将所述未知网页样本的集合划分为正常页面子集和作弊页面子集；

将所述正常页面子集与所述作弊页面子集中的所述未知网页样本进行逐一交换，并重新计算所述初始支持向量机的模型参数，直至所述正常页面子集与所述作弊页面子集的间隔不再扩大;

使用最终得到的所述正常页面子集与所述作弊页面子集对所述初始支持向量机的模型参数进行调整。

3.根据权利要求1所述的方法，其特征在于，根据所述未知网页样本的集合对所述初始支持向量机的模型参数进行调整包括:

分别获取所述正常页面子集和所述作弊页面子集中置信度最高的预设第二数量的未知网页样本作为候选的标注样本，其中，所述预设第二数量小于所述正常页面子集以及所述作弊页面子集中的未知网页样本数量:

在所述候选的标注样本的标注结果与所述初始支持向量机对所述候选的标注样本的判断结果不同时，将所述候选的标注样本按照所述标注结果添加至所述已知网页样本的集合;

使用最终得到的所述已知网页样本的集合对所述初始支持向量机的模型参数进行调整。

4.根据权利要求1至3中任一项所述的方法，其特征在于，在根据所述已知网页样本的集合生成用于判断作弊网页的初始支持向量机之前，还包括:

将所述已知网页样本的集合中网页样本的网页特征转化为特征向量，其中，所述网页特征包括以下类型至少之一:网页的内容特征，网页的结构特征，网页的链接特征。

5.根据权利要求4所述的方法，其特征在于，根据所述已知网页样本的集合生成用于判断作弊网页的初始支持向量机包括:

将所述已知网页样本的集合分为第一子集和第二子集;

根据所述第一子集生成用于判断作弊网页的初始支持向量机;

使用所述第二子集对所述初始支持向量机的判断准确性进行测试。

6.一种作弊网页识别装置，其特征在于，包括

第一获取模块，用于获取已知网页样本的集合，其中，所述已知网页样本为已知是否为作弊网页的网页样本;

生成模块，用于根据所述已知网页样本的集合生成用于判断作弊网页的初始支持向量机;

第二获取模块，用于获取预设第一数量的末知网页样本的集合，其中，所述末知网页样本为未知是否为作弊网页的网页样本;

调整模块，用于根据所述未知网页样本的集合对所述初始支持向量机的模型参数进行调整;

判断模块，用于使用调整后的支持向量机判断待检测网页是否为作弊网页。

7.根据权利要求6所述的装置，其特征在于，所述调整模块包括

第一划分单元，用于使用所述初始支持向量机将所述未知网页样本的集合划分为正常页面子集和作弊页面子集

第一处理单元，用于将所述正常页面子集与所述作弊页面子集中的所述未知网页样本进行逐一交换，并重新计算所述初始支持向量机的模型参数，直至所述正常页面子集与所述作弊页面子集的间隔不再扩大;

第一调整单元，用于使用最终得到的所述正常页面子集与所述作弊页面子集对所述初始支持向量机的模型参数进行调整。

8.根据权利要求6所述的装置，其特征在于，所述调整模块包括

第二划分单元，用于使用所述初始支持向量机将所述未知网页样本的集合划分为正常页面子集和作弊页面子集;

获取单元，用于分别获取所述正常页面子集和所述作弊页面子集中置信度最高的预设第二数量的未知网页样本作为候选的标注样本，其中，所述预设第二数量小于所述正常页面子集以及所述作弊页面子集中的未知网页样本数量;

第二处理单元，用于在所述候选的标注样本的标注结果与所述初始支持向量机对所述候选的标注样本的判断结果不同时，将所述候选的标注样本按照所述标注结果添加至所述已知网页样本的集合;

第二调整单元，用于使用最终得到的所述已知网页样本的集合对所述初始支持向量机的模型参数进行调整。

9.根据权利要求6至8中任一项所述的装置，其特征在于，所述装置还包括:

转化模块，用于将所述已知网页样本的集合中网页样本的网页特征转化为特征向量，其中，所述网页特征包括以下类型至少之一:网页的内容特征，网页的结构特征，网页的链接特征。

10.根据权利要求9所述的装置，其特征在于，所述生成模块包括:

第三划分单元，用于将所述已知网页样本的集合分为第一子集和第二子集;

生成单元，用于根据所述第一子集生成用于判断作弊网页的初始支持向量机;

测试单元，用于使用所述第二子集对所述初始支持向量机的判断准确性进行测试。