CN110147472B

CN110147472B - 作弊站点的检测方法、装置以及用于作弊站点的检测装置

Info

Publication number: CN110147472B
Application number: CN201710576240.XA
Authority: CN
Inventors: 李健; 李毅; 许静芳
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2021-10-15
Anticipated expiration: 2037-07-14
Also published as: CN110147472A

Abstract

本申请提供了作弊站点的检测方法、装置以及用于作弊站点的检测装置，其中，作弊站点的检测方法包括：从已知作弊站点的检索日志和/或访问日志中，提取所述已知作弊站点下页面的页面特征；依据所述页面特征表示的作弊规律构建作弊检测模型，所述作弊检测模型用于检测站点是否作弊；依据所述作弊检测模型对待检测站点是否作弊进行检测。采用本申请实施例，可以提高对站点的作弊检测结果的准确性。

Description

作弊站点的检测方法、装置以及用于作弊站点的检测装置

技术领域

本申请涉及站点检测技术领域，特别涉及一种作弊站点的检测方法、装置，一种用于作弊站点的检测装置，以及，一种计算机可读介质。

背景技术

目前，随着用户使用互联网的次数越来越频繁，随之而生的站点作弊的情况也越来越多。站点作弊即是部分站点为了使本来不属于用户查询结果的网页也能出现在用户的查询结果中，这种情况可以称为站点作弊。一般情况下，用户查询到网页所属站点作弊，主要分为基于内容作弊、链接作弊、以及欺骗爬虫作弊等。

现有技术中，一般对站点下的各网页进行分析，并依据分析结果来判断是否存在站点作弊的情况。

发明内容

发明人在研究过程中发现，现有技术在分析网页时，需要依赖于已经识别出的作弊站点所采用的作弊手段，而如果一个站点下的网页采用的是未分析过的一种作弊手段，则现有技术在判断该站点是否作弊的时候就不够准确；并且，对网页进行分析一般采用随机采样的方法，可能会将大量不具有代表性的网页也作为分析对象，导致现有技术训练的作弊网页模型的精度和召回不足。

发明人在研究过程中还发现，对于已知作弊网页，如果能够利用搜索引擎的历史搜索记录包括的、对该站点下网页进行检索的检索日志和进行访问的访问日志，从而利用已知作弊站点下被检索的检索结果网页以及访问网页的访问频率、对应的检索词等信息，来构建作弊检测模型，就使得该作弊检测模型能够反映出作弊站点的作弊规律，从而对其他站点进行更为准确的作弊检测；并且，因为建立作弊检测模型时基于用户在搜索引擎的检索日志和访问日志，所以基于从用户角度出发来建立模型就更具有统一性和代表性。

基于此，本申请提供了一种作弊站点的检测方法，可以包括：

从已知作弊站点的检索日志和/或访问日志中，提取所述已知作弊站点下页面的页面特征；

依据所述页面特征表示的作弊规律构建作弊检测模型，所述作弊检测模型用于检测站点是否作弊；

依据所述作弊检测模型对待检测站点是否作弊进行检测。

其中，所述从已知作弊站点的检索日志和/或访问日志中，提取所述已知作弊站点下页面的页面特征，可以包括：

获取所述已知作弊站点的检索日志和/或访问日志，所述检索日志包括：检索词和与所述检索词对应的检索结果页面，所述访问日志包括：用户的访问页面以及各访问页面的访问次数；

提取所述检索结果页面和/或访问页面的文本特征和/或结构特征，作为所述页面特征。

其中，所述提取所述检索结果页面和/或访问页面的文本特征和/或结构特征，作为所述页面特征，可以包括：

从所述检索结果页面和/或访问页面中提取各页面的正文文本信息和/或标题文本信息，作为所述文本特征；以及

从所述检索结果页面和/或访问页面中提取各页面的正文结构特征和标题结构特征，作为所述结构特征。

其中，所述依据所述页面特征表示的作弊规律构建作弊检测模型，可以包括：

将所述检索结果页面和/或访问页面的页面特征，分别转化为检索特征向量和/或访问特征向量；

依据检索特征向量和/或访问特征向量，构建作弊检测模型。

其中，所述依据所述作弊检测模型对待检测站点是否作弊进行检测，可以包括：

获取待检测站点的待检测页面；

提取所述待检测页面的待检测页面特征，并将所述待检测页面特征转换为所述待检测站点的待检测特征向量；

依据所述待检测特征向量是否符合页面作弊规律，检测所述待检测站点是否为作弊站点。

其中，所述已知作弊站点可以通过以下方式确定：

获取待确定是否作弊的站点集合；

对所述站点集合中的各站点进行聚类，得到聚类后的各类站点；以及

将所述各类站点中人工标注结果为作弊的站点确定为所述已知作弊站点，所述人工标注结果用于表示所述各类站点是否为作弊站点。

其中，所述方法还可以包括：

对检测结果为作弊的待检测站点进行降权或者删除处理。本申请还提供了一种装置，用以保证上述方法在实际中的实现及应用。

本申请实施例提供的一种作弊站点的检测装置，包括：

提取单元，用于从已知作弊站点的检索日志和/或访问日志中，提取所述已知作弊站点下页面的页面特征；

模型构建单元，用于依据所述页面特征表示的作弊规律构建作弊检测模型，所述作弊检测模型用于检测站点是否作弊；

检测单元，用于依据所述作弊检测模型对待检测站点是否作弊进行检测。

其中，所述提取单元可以包括：

获取子单元，用于获取所述已知作弊站点的检索日志和/或访问日志，所述检索日志包括：检索词和与所述检索词对应的检索结果页面，所述访问日志包括：用户的访问页面以及各访问页面的访问次数；以及，

提取子单元，用于提取所述检索结果页面和/或访问页面的文本特征和/或结构特征，作为所述页面特征。

其中，所述提取子单元可以包括：

信息提取子单元，用于从所述检索结果页面和/或访问页面中提取各页面的正文文本信息和/或标题文本信息，作为所述文本特征；以及

结构提取子单元，用于从所述检索结果页面和/或访问页面中提取各页面的正文结构特征和标题结构特征，作为所述结构特征。

其中，所述模型构建单元可以包括：

转化子单元，用于将所述检索结果页面和/或访问页面的页面特征，分别转化为检索特征向量和/或访问特征向量；以及，

构建子单元，用于依据检索特征向量和/或访问特征向量，构建作弊检测模型。

其中，所述检测单元可以包括：

获取子单元，用于获取待检测站点的待检测页面；

提取子单元，用于提取所述待检测页面的待检测页面特征，并将所述待检测页面特征转换为所述待检测站点的待检测特征向量；

检测子单元，用于依据所述待检测特征向量是否符合页面作弊规律，检测所述待检测站点是否为作弊站点。

其中，所述已知作弊站点可以通过以下方式确定：

获取待确定是否作弊的站点集合；

对所述站点集合中的各站点进行聚类，得到聚类后的各类站点；

其中，所述装置还可以包括：

作弊处理单元，用于对检测结果为作弊的待检测站点进行降权或者删除处理。

本申请还提供了一种作弊站点的检测装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

依据所述作弊检测模型对待检测站点是否作弊进行检测。

本申请还提供了一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述的一个或多个所述的作弊站点的检测方法。

其中，所述从已知作弊站点的检索日志和/或访问日志中，提取所述已知作弊站点下页面的页面特征，具体可以包括：

获取所述已知作弊站点的检索日志和/或访问日志，所述检索日志包括：检索词和与所述检索词对应的检索结果页面，所述访问日志包括：用户的访问页面以及各访问页面的访问次数；以及

其中，所述提取所述检索结果页面和/或访问页面的文本特征和/或结构特征，作为所述页面特征，具体可以包括：

其中，所述依据所述页面特征表示的作弊规律构建作弊检测模型，具体可以包括：

依据检索特征向量和/或访问特征向量，构建作弊检测模型。

其中，所述依据所述作弊检测模型对待检测站点是否作弊进行检测，具体可以包括：

获取待检测站点的待检测页面；

提取所述待检测页面的待检测页面特征，并将所述待检测页面特征转换为所述待检测站点的待检测特征向量；以及，

其中，所述已知作弊站点可以通过以下方式确定：

获取待确定是否作弊的站点集合；

其中，所述装置还可以经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对检测结果为作弊的待检测站点进行降权或者删除处理。

在本申请实施例中，对于已知作弊站点，从搜索引擎保存的检索日志和/或访问日志中，提取该已知作弊站点下各个页面或者部分的页面特征，从而依据提取得到的页面特征表示的作弊特点构建作弊检测模型，因此，在基于该作弊检测模型对待检测站点是否作弊进行检测时，因为该作弊检测模型能够反映出作弊站点在页面上的作弊特点，所以对其他站点就能进行更为准确的作弊检测；并且，因为建立作弊检测模型时基于用户在搜索引擎的检索日志和访问日志，所以从用户角度出发来建立模型就更具有作弊站点的统一性和代表性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的作弊站点的检测方法实施例的示例性流程图；

图2是本申请的作弊站点的检测装置实施例的示例性结构框图；

图3是本申请中根据一示例性实施例示出的一种用于作弊站点的检测装置800的框图；

图4是本申请实施例中服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

参考图1，示出了本申请一种作弊站点的检测方法实施例的流程图，本申请实施例中作弊站点的检测流程可以包括作弊模型的构建流程，以及站点检测流程，作弊模型的构建流程包括步骤101～步骤102，站点检测流程包括步骤103，本实施例的整体流程包括以下步骤101～步骤104：

步骤101：从已知作弊站点的检索日志和/或访问日志中，提取所述已知作弊站点下页面的页面特征。

在本实施例中，在已知一个作弊站点的情况下，可以利用数据库中存储的该作弊站点的检索日志、访问日志等，来提取出该作弊站点下各页面或者部分页面的页面特征，以便后续利用作弊站点下的页面特征来构建作弊检测模型。

具体的，假设一个搜索引擎的数据库中存储了站点“www.ABCD.com”的全部检索日志和访问日志。

其中，检索日志用于表示该站点下的各个页面被用户检索的检索信息；检索日志可以包括：用户每次检索时输入的检索词及其对应的检索结果页面等。

访问日志用于表示用户每次检索后点击访问页面的信息，或者，用户通过页面推荐等方式访问页面的信息；访问日志可以包括：用户的访问页面信息及各个访问页面对应的访问次数，例如，用户对站点“www.ABCD.com”下的页面“www.ABCD.com/890/hty”进行访问的访问次数为10次，而对站点“www.ABCD.com”下的页面“www.ABCD.com/855555/ef”的访问次数为100次，等等。

在获取到已知作弊站点的检索日志和访问日志后，从中获取到各检索结果页面和访问页面，并提取出个检索结果页面的页面特征和访问页面的页面特征。其中，页面特征可以包括页面中的文本特征和结构特征，文本特征用于表征页面中的文本信息的特点，而结构特征用于表征页面的各个部分在结构上的分布特点。例如，文本特征可以包括：页面中的文本信息是否包括非法词，是否存在大量重复的词汇，是否语句不够通顺，是否上下文不相关，等等。而结构特征可以表示页面中各个部分的分布情况，例如，页面中的标题位于页面的哪个位置，页面的各个部分之间是否是拼接的，页面的长度是否超过预设长度阈值，用于展示正文的主体框和其他功能框之间的分布是否合理，或者，广告分布是否合理或遮盖了页面正文或标题等。

当然，在实际应用中，可以仅将文本特征作为页面特征，也可以仅将结构特征作为页面特征，还可以将文本特征和结构特征都作为页面特征。另外，在本实施例中，也可以仅对检索日志中的检索结果页面提取页面特征，也可以仅对访问日志中的访问页面提取特征，或者对检索结果页面和访问页面都提取页面特征，本领域技术人员在实际场景中可以根据需求自主设置。而对于检索日志或者访问日志，因为其中的检索结果页面或访问页面可能有很多，所以在实际应用中也可以随机选取一部分检索结果页面或一部分访问页面进行页面特征的提取，在本申请实施例中对此不作限定。

在实际应用中，已知作弊站点可以通过如下所示的步骤A1～步骤A3的一种示例性方式来确定：

步骤A1：获取待确定是否作弊的站点集合。

在本实施例中，对站点是否作弊进行检测时，可以先对各个待确定是否作弊的站点集合中的站点进行聚类，进而根据对聚类后的各类站点进行人工标注，即，标注每一类站点属于作弊站点或正常站点，从而得到各站点是否作弊的检测结果。

步骤A2：对所述站点集合中的各站点进行聚类，得到聚类后的各类站点。

对于步骤A1中获取到的各个站点，根据每一个站点所包括的网页以及该网页对应的检索词，提取各站点下各个网页的特征，并转换为相对应的特征向量。具体的，提取网页的网页特征以及转化特征向量的过程，可以参考下面步骤102的详细介绍。

在得到各站点下各个网页的特征向量之后，可以对这些特征向量进行聚类，聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。例如，在本步骤中可以采用用于对样本进行聚类的k-means聚类算法进行聚类，在实际应用中，作弊站点下的各个网页的特征向量一般情况下会聚为一类，而正常站点下的各个网页的特征向量则会聚为另外一类。

步骤A3：将所述各类站点中人工标注结果为作弊的站点确定为所述已知作弊站点，所述人工标注结果用于表示所述各类站点是否为作弊站点。

在得到聚类后的两类站点后，可以由人工对该两类站点进行标记，即人工标记出哪一类是作弊站点，哪一类是正常站点，进而根据人工标记结果来确定各个站点是作弊站点还是正常站点，并将人工标注结果为作弊站点的站点作为步骤101中的已知作弊站点即可。

除了上述对未知的各站点进行聚类来确定已知作弊站点的方式之外，本申请实施例中还可以将后续步骤103检测得到的作弊站点也作为已知作弊站点，以便通过对新的已知作弊站点进行页面特征提取，实现对步骤102中建立的作弊检测模型进一步更新；当然，步骤103检测得到的作弊站点还可以进行人工标注验证，如果步骤103中检测得到的作弊站点进行人工标注的结果也是作弊站点，再将其作为已知作弊站点对建立的作弊检测模型进一步更新。

在步骤101提取了已知作弊站点的页面特征之后，接着进入步骤102：

步骤102：依据所述页面特征表示的作弊规律构建作弊检测模型，所述作弊检测模型用于检测站点是否作弊。

根据步骤101中得到的页面特征表示的该已知作弊站点的作弊规律，可以采用有监督的机器学习方法训练一个分类器作为作弊检测模型，该作弊检测模型用于检测其他站点是否是作弊站点。

具体的，步骤102在实现过程中可以包括以下步骤B1～步骤B2：

步骤B1：将所述检索结果页面和/或访问页面的页面特征，分别转化为检索特征向量和/或访问特征向量。

在本步骤中，首先可以将检索结果页面的页面特征，和访问页面的页面特征，分别转化为已知作弊站点的检索特征向量和访问特征向量。在实际应用中，仅采用检索特征向量构建模型，或者仅采用访问特征向量构建模型，或者同时采用检索特征向量和访问特征向量构建模型都可以。

具体的，在转化特征向量的过程中，可以先获取各个页面特征在该站点下的每个网页中对应的特征值，然后统计得到各个页面特征在已知作弊站点下所有页面对应特征值所属的特征值范围。例如，对于页面长度这个结构特征，获取其在网页A中的数值作为网页A中页面长度对应的特征值，并且获取其在网页B中的数值作为网页B中页面长度对应的特征值，以此类推，直至获取得到该站点下的所有网页中页面长度对应的特征值为止。

接着，统计各个网页中页面长度对应的特征值，来确定页面长度在已知作弊站点下所有网页对应特征值所属的特征值范围。假设获取得到页面长度在各个网页中对应的特征值后，经统计确定其对应特征值的最大值为1024个像素，对应特征值的最小值为268个像素，则可以确定页面长度在该已知作弊站点下的各个网页中对应特征值范围为268个像素到1024个像素，则将特征值范围转化为计算机能够识别的二进制数值，即得到对应的向量值，例如对应的向量值范围对应为000100～111111。

假设对于已知作弊站点下的所有网页一共统计发现有100个页面特征，则对于数值型的页面特征，例如页面长度这个页面特征的数值为268或者1024，则可以通过将已知作弊站点下各个网页的页面特征的数值进行相加的和值，来作为该已知作弊站点的页面特征的特征值，然后将该特征值转化为二进制数值，即可得到1*N维的特征向量的第N个向量值，其中，N为大于零的整数。例如，已知作弊站点的特征向量的第一个向量值对应于页面长度这个页面特征的特征值，则累加所有网页的页面长度之后得到和值8534，则第一个向量值就为“8534”转换的二进制数值。

而对于非数值型的页面特征，例如图像清晰度这个页面特征，其特征值分别为“清晰”、“普通”和“不清晰”，则本领域技术人员可以分别采用二进制数值“2”、“1”和“0”来分别表示上述三个特征值“清晰”、“普通”和“不清晰”。例如，已知作弊站点的特征向量的第二个向量值用于表示图像清晰度这个页面特征，而已知作弊站点下有5个网页A～E，则已知作弊站点的特征向量的第二个向量值至第六个向量值，分别表示这5个网页的图像清晰度。例如，已知作弊站点的特征向量的第2～6个向量值分别为{0、2、1、1、2}，而预先设置好的网页顺序则为从A～E的字母顺序，则表示网页A的清晰度为不清晰，网页B的清晰度为清晰，网页C的清晰度为普通，网页D的清晰度为普通，网页E的清晰度为清晰。

以此类推，根据已知作弊站点下各个网页的页面特征的特征值是否为数值型，以及已知作弊站点下网页的数量，从而最终得到已知作弊站点对应的一个1*N维的特征向量。当然，上述方式仅仅为示例性内容，不应将其理解为本申请实施例的限定。

在实际应用中，每个网页对应的特征向量中页面特征的数量多少，直接影响模型训练的准确性和速度，而采用上述方法生成的特征向量，可以仅包含重要的页面特征，因此特征向量就可以通过较低的维度来有效提高后续的训练和检索效率。

步骤B2：依据检索特征向量和/或访问特征向量，构建作弊检测模型。

在将已知作弊站点下各个网页的页面特征转换成特征向量之后，可以得到两组训练数据，一组是已知作弊站点的检索特征向量构成的检索特征向量集合，另一组是已知作弊站点的访问特征向量构成的访问特征向量集合。在构建作弊检测模型时，可以分别按照检索特征向量集合和访问特征向量集合，构建出两个作弊检测模型；也可以构建一个作弊检测模型。

以构建一个作弊检测模型为例，因为访问页面是用户点击查看过的页面，所以可以将访问特征向量集合中的各个访问特征向量的权重设置大一些，将各个访问特征向量和检索特征向量分别作为输入对象，将检测结果作为期望的输出值(也被称为监督信号)，采用kNN(最近邻，k-NearestNeighbor)或者支持向量机(SVM，Support Vector Machine)的方法等有监督的机器学习方法，来训练得到作弊网页检测模型。其中，期望的输出值可以为“检测结果为作弊”或者“检测结果为作弊的概率为100％”等。

以上步骤101～步骤102是本申请实施例中构建作弊检测模型的流程，在作弊检测模型构建以后，在需要检测其他站点是否作弊的情况下，执行以下步骤103。

步骤103：依据所述作弊检测模型对待检测站点是否作弊进行检测。

在训练的到作弊网页检测模型之后，利用该作弊网页检测模型可以对其他待检测站点是否作弊进行检测。

具体的，检测待检测站点是否作弊的过程可以包括步骤C1～步骤C3：

步骤C1：获取待检测站点的待检测页面。

首先，获取待检测站点下的各个待检测页面，或者随机获取待检测站点下的部分页面作为待检测页面。在实际应用中，可以获取待检测站点下的全部页面进行检测，而如果待检测页面的数量过大，也可以从中抽取部分页面，例如60％的页面作为待检测页面，在抽取部分页面时，抽取全部页面的百分比可以由本领域技术人员自主设置。

步骤C2：提取所述待检测页面的待检测页面特征，并将所述待检测页面特征转换为所述待检测站点的待检测特征向量。

然后再提取待检测页面的页面特征，可以包括文本特征和结构特征等，并将提取到的待检测页面特征转换为待检测站点的待检测特征向量。页面特征的提取可以参考步骤101的介绍，转换特征向量的过程可以参考步骤B1的介绍，在此不再赘述。

步骤C3：依据所述待检测特征向量是否符合页面作弊规律，检测所述待检测站点是否为作弊站点。

再将步骤C2中得到的待检测特征向量作为步骤102构建的作弊检测模型的输入，从而得到输出结果，即待检测站点是作弊站点或不是作弊站点。在实际应用中，根据采用的有监督的方法的不同，作弊检测模型的输出可以直接为待检测站点是否为作弊站点的结果，也可以是对待检测站点为作弊站点的一个预测概率，例如，待检测站点为作弊站点的概率是80％，在这种情况下，本领域技术人员可以预先设置一个概率判断阈值，例如70％，如果作弊检测模型输出的概率值大于该概率判断阈值，则确认该待检测站点为作弊站点。

在步骤103对其他站点是否作弊进行检测之后，可以选择执行以下步骤104。

步骤104：对检测结果为作弊的待检测站点进行降权或者删除处理。

在本实施例中，如果待检测站点为作弊站点，则为了降低该待检测站点下的各个页面被用户检索到的可能性，可以对待检测站点进行降权处理，或者可以直接将待检测站点下的各个页面进行删除。

对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

与上述本申请一种作弊站点的检测方法实施例所提供的方法相对应，参见图2，本申请还提供了一种作弊站点的检测装置实施例，在本实施例中，该装置可以包括：

提取单元201，用于从已知作弊站点的检索日志和/或访问日志中，提取所述已知作弊站点下页面的页面特征。

其中，所述提取单元201可以包括：

获取子单元，用于获取所述已知作弊站点的检索日志和/或访问日志，所述检索日志包括：检索词和与所述检索词对应的检索结果页面，所述访问日志包括：用户的访问页面以及各访问页面的访问次数；以及，提取子单元，用于提取所述检索结果页面和/或访问页面的文本特征和/或结构特征，作为所述页面特征。

其中，所述提取子单元可以包括：

信息提取子单元，用于从所述检索结果页面和/或访问页面中提取各页面的正文文本信息和/或标题文本信息，作为所述文本特征；以及，结构提取子单元，用于从所述检索结果页面和/或访问页面中提取各页面的正文结构特征和标题结构特征，作为所述结构特征。

其中，所述已知作弊站点可以通过以下方式确定：

获取待确定是否作弊的站点集合；对所述站点集合中的各站点进行聚类，得到聚类后的各类站点；以及，将所述各类站点中人工标注结果为作弊的站点确定为所述已知作弊站点，所述人工标注结果用于表示所述各类站点是否为作弊站点。

模型构建单元202，用于依据所述页面特征表示的作弊规律构建作弊检测模型，所述作弊检测模型用于检测站点是否作弊。

其中，所述模型构建单元202可以包括：

转化子单元，用于将所述检索结果页面和/或访问页面的页面特征，分别转化为检索特征向量和/或访问特征向量；以及，构建子单元，用于依据检索特征向量和/或访问特征向量，构建作弊检测模型。

检测单元203，用于依据所述作弊检测模型对待检测站点是否作弊进行检测。

其中，所述检测单元203可以包括：

获取子单元，用于获取待检测站点的待检测页面；提取子单元，用于提取所述待检测页面的待检测页面特征，并将所述待检测页面特征转换为所述待检测站点的待检测特征向量；以及，检测子单元，用于依据所述待检测特征向量是否符合页面作弊规律，检测所述待检测站点是否为作弊站点。

其中，所述装置还可以包括：

作弊处理单元204，用于对检测结果为作弊的待检测站点进行降权或者删除处理。

可见，在本申请实施例中，对于已知作弊站点，从搜索引擎保存的检索日志和/或访问日志中，提取该已知作弊站点下各个页面或者部分的页面特征，从而依据提取得到的页面特征表示的作弊规律构建作弊检测模型，因此，在基于该作弊检测模型对待检测站点是否作弊进行检测时，就能够该作弊检测模型能够反映出作弊站点的作弊规律，从而对其他站点进行更为准确的作弊检测；并且，因为建立作弊检测模型时基于用户在搜索引擎的检索日志和访问日志，所以基于从用户角度出发来建立模型就更具有统一性和代表性，能够对未知作弊类型也进行准确地检测。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种用于作弊站点的检测装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种作弊站点的检测方法，所述方法包括：从已知作弊站点的检索日志和/或访问日志中，提取所述已知作弊站点下页面的页面特征；依据所述页面特征表示的作弊规律构建作弊检测模型，所述作弊检测模型用于检测站点是否作弊；依据所述作弊检测模型对待检测站点是否作弊进行检测。

依据检索特征向量和/或访问特征向量，构建作弊检测模型。

获取待检测站点的待检测页面；

其中，所述已知作弊站点可以通过以下方式确定：

获取待确定是否作弊的站点集合；

其中，所述装置800还可以经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对检测结果为作弊的待检测站点进行降权或者删除处理。

图4是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种作弊站点的检测方法，其特征在于，包括：

从已知作弊站点的检索日志和/或访问日志中，提取所述已知作弊站点下至少一个页面中每个页面的页面特征；

将所述至少一个页面中每个页面的页面特征，转换为所述已知作弊站点的向量特征；

依据所述作弊站点的向量特征构建作弊检测模型，所述作弊检测模型用于检测站点是否作弊；

依据所述作弊检测模型对待检测站点是否作弊进行检测。

2.根据权利要求1所述的方法，其特征在于，所述从已知作弊站点的检索日志和/或访问日志中，提取所述已知作弊站点下页面的页面特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述提取所述检索结果页面和/或访问页面的文本特征和/或结构特征，作为所述页面特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述依据所述作弊站点的向量特征构建作弊检测模型，包括：

将所述检索结果页面和/或访问页面的页面特征，分别转换为检索特征向量和/或访问特征向量；

依据检索特征向量和/或访问特征向量，构建作弊检测模型。

5.根据权利要求4所述的方法，其特征在于，所述依据所述作弊检测模型对待检测站点是否作弊进行检测，包括：

获取待检测站点的待检测页面；

6.根据权利要求1所述的方法，其特征在于，所述已知作弊站点通过以下方式确定：

获取待确定是否作弊的站点集合；

7.根据权利要求1所述的方法，其特征在于，还包括：

对检测结果为作弊的待检测站点进行降权或者删除处理。

8.一种作弊站点的检测装置，其特征在于，包括：

提取单元，用于从已知作弊站点的检索日志和/或访问日志中，提取所述已知作弊站点下至少一个页面中每个页面的页面特征；

模型构建单元，用于将所述至少一个页面中每个页面的页面特征，转换为所述已知作弊站点的向量特征；依据所述作弊站点的向量特征构建作弊检测模型，所述作弊检测模型用于检测站点是否作弊；

9.根据权利要求8所述的装置，其特征在于，所述提取单元可以包括：

10.根据权利要求9所述的装置，其特征在于，所述提取子单元可以包括：

11.根据权利要求10所述的装置，其特征在于，所述模型构建单元可以包括：

转换子单元，用于将所述检索结果页面和/或访问页面的页面特征，分别转换为检索特征向量和/或访问特征向量；以及，

12.根据权利要求11所述的装置，其特征在于，所述检测单元可以包括：

获取子单元，用于获取待检测站点的待检测页面；

13.根据权利要求8所述的装置，其特征在于，所述已知作弊站点可以通过以下方式确定：

获取待确定是否作弊的站点集合；

14.根据权利要求8所述的装置，其特征在于，所述装置还可以包括：

15.一种作弊站点的检测装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

将所述至少一个页面中每个页面的页面特征，转换为所述已知作弊站点的向量特征；依据所述作弊站点的向量特征构建作弊检测模型，所述作弊检测模型用于检测站点是否作弊；

依据所述作弊检测模型对待检测站点是否作弊进行检测。

16.一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的作弊站点的检测方法。