CN109146574A

CN109146574A - 广告点击作弊监测方法及装置

Info

Publication number: CN109146574A
Application number: CN201811040607.7A
Authority: CN
Inventors: 张舒虹
Original assignee: Shenzhen Papaya Mobile Technology Co Ltd
Current assignee: Shenzhen Papaya Mobile Technology Co Ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2019-01-04

Abstract

本申请实施例提供了一种广告点击作弊监测方法及装置，涉及数据处理领域。方法包括：基于广告的M条点击数据，获得M条点击数据中的各种相关数据，M为正整数；将M条点击数据中的各种相关数据按相同维度进行关联，按不同维度进行组合，统计计算得到N条特征数据，N为正整数；获得N条特征数据中每条特征数据的信息增益率；调用预设的高斯模型输入N条特征数据中高信息增益率的n条特征数据，确定M条点击数据中是否有作弊点击的点击数据，n为不大于N的正整数。实现对点击作弊进行监测，避免了因维护和更新黑名单所造成的资源耗费。在出现新的点击作弊手段时，利用分析该新的点击作弊中分类能力强的特征也可以对其进行识别，极大的提高反点击作弊防护的安全性。

Description

广告点击作弊监测方法及装置

技术领域

本申请涉及数据处理领域，具体而言，涉及一种广告点击作弊监测方法及装置。

背景技术

随着移动设备的广泛应用，广告的市场也相应的迅速扩展。流量方在用户使用移动终端的过程中向其投放广告，通过用户的曝光、点击、下载安装、激活和购买等行为为广告主带来期望的转化，同时为自己谋利。于是，通过伪造流量的移动广告作弊应运而生。而依照目前主流的计费方式CPC(Cost Per Click、每次点击计费)，反作弊的手段主要以识别虚假点击为主。

目前，广告点击的反作弊技术大多是以设置黑名单主。比如，通过建立黑名单，剔除所有来自匿名或代理IP，高风险或新的设备ID的点击，从访问的源头处过滤可疑流量。以及统计相同设备型号、UA或IP产生的点击过多或过于集中来识别点击作弊。但这种反作弊方法需要实时维护和更新黑名单，资源消耗大，且一旦出现新的点击作弊手段，原有的黑名单往往无法识别，从而任其造成巨大的损失。

发明内容

本申请在于提供一种广告点击作弊监测方法及装置，以有效改善上述的缺陷。

为了实现上述目的，本申请的实施例通过如下方式实现：

第一方面，本申请实施例提供了一种广告点击作弊监测方法，所述方法包括：基于广告的M条点击数据，获得所述M条点击数据中的各种相关数据，M为正整数；将所述M条点击数据中的各种相关数据按相同维度进行关联，按不同维度进行组合，统计计算得到N条特征数据，N为正整数；获得所述N条特征数据中每条特征数据的信息增益率，其中，每个信息增益率用于表示对应的每个特征数据分类能力的大小；调用预设的高斯模型输入所述N条特征数据中高信息增益率的n条特征数据，确定所述M条点击数据中是否有点击作弊，n为不大于N的正整数。

结合第一方面，在一些可能的实现方式中，所述获得所述N条特征数据中每条特征数据的信息增益率，包括：将所述N条特征数据中每条特征数据进行boxcox变换，获得每条特征数据的变换结果数据；基于每条特征数据的变换结果数据进行信息增益率计算，获得每条特征数据的信息增益率。

结合第一方面，在一些可能的实现方式中，所述基于每条特征数据的变换结果数据进行特征选择，获得每条特征数据的信息增益率，包括：计算每条特征数据的变换结果数据的熵，以及计算每条特征数据的变换结果数据基于原始类标签的条件熵，其中，所述原始类标签作为一个点击数据是否为点击作弊的真实标记；根据每条特征数据的熵、所述条件熵和所述原始类标签的信息熵，获得每条特征数据的信息增益率。

结合第一方面，在一些可能的实现方式中，所述调用预设的高斯模型输入所述N条特征数据中高信息增益率的n条特征数据，确定所述M条点击数据中是否有点击作弊的点击数据，包括：从所述N条特征数据中确定出高信息增益率的n条特征数据；调用预设的高斯模型计算所述n条特征数据中每条特征数据的概率密度，获得所述n条特征数据对应的概率密度乘积；根据所述概率密度乘积，确定所述M条点击数据中是否有点击作弊。

结合第一方面，在一些可能的实现方式中，所述根据所述概率密度乘积，确定所述M条点击数据中是否有点击作弊，包括：根据所述概率密度乘积，获得M条点击数据中每条点击数据在所述概率密度乘积中对应的概率密度乘积，；根据每条点击数据的所述概率密度乘积中是否小于预设阈值，确定每条点击数据为是否为点击作弊，其中，每条点击数据的所述概率密度乘积小于所述预设阈值表示每条点击数据为点击作弊。

第二方面，本申请实施例提供了一种广告点击作弊监测装置，所述装置包括：数据获得模块，用于基于广告的M条点击数据，获得所述M条点击数据中的各种相关数据，M为正整数；特征抽取模块，用于将所述M条点击数据中的各种相关数据按相同维度进行关联，按不同维度进行组合，统计计算得到N条特征数据，N为正整数；特征选择模块，用于获得所述N条特征数据中每条特征数据的信息增益率，其中，每个信息增益率用于表示对应的每个特征数据分类能力的大小；点击作弊确定模块，用于调用预设的高斯模型输入所述N条特征数据中高信息增益率的n条特征数据，确定所述M条点击数据中是否有点击作弊，n为不大于N的正整数。

结合第二方面，在一些可能的实现方式中，所述特征选择模块，还用于将所述N条特征数据中每条特征数据进行boxcox变换，获得每条特征数据的变换结果数据；基于每条特征数据的变换结果数据进行特征选择计算，获得每条特征数据的信息增益率。

结合第二方面，在一些可能的实现方式中，所述特征选择模块，还用于计算每条特征数据的变换结果数据的熵，以及计算每条特征数据的变换结果数据基于原始类标签的条件熵，其中，所述原始类标签作为一个点击数据是否为点击作弊击的真实标记；根据每条特征数据的熵、所述条件熵和所述原始类标签的信息熵，获得每条特征数据的信息增益率。

结合第二方面，在一些可能的实现方式中，所述点击作弊确定模块，还用于从所述N条特征数据中确定出高信息增益率的n条特征数据；调用预设的高斯模型计算所述n条特征数据中每条特征数据的概率密度，获得所述n条特征数据对应的概率密度乘积；根据所述概率密度乘积，确定所述M条点击数据中是否有点击作弊。

结合第二方面，在一些可能的实现方式中，所述点击作弊确定模块，还用于根据所述概率密度乘积，获得M条点击数据中每条点击数据在所述概率密度乘积中对应的概率密度乘积，；根据每条点击数据的所述概率密度乘积中是否小于预设阈值，确定每条点击数据为是否为点击作弊，其中，每条点击数据的所述概率密度乘积小于所述预设阈值表示每条点击数据为点击作弊。

第三方面，本申请实施例提供了一种电子设备，所述电子设备包括：处理器，存储器，总线和通信模块。所述处理器、所述通信模块和存储器通过所述总线连接。所述存储器，用于存储程序。所述处理器，用于通过调用存储在所述存储器中的第一方面及第一方面的任一种可能的实现方式所述的广告点击作弊监测方法。

第四方面，本申请实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读储存介质，所述程序代码使所述处理器执行第一方面及第一方面的任一种可能的实现方式所述的广告点击作弊监测方法。

本申请实施例的有益效果是：

通过对广告的M条点击数据解析并关联相同维度、组合不同维度来进行特征抽取，使得基于M条点击数据而统计计算得到N条特征数据，进而便可以计算出每条特征数据的信息增益率。由于信息增益率用于表示特征分类能力的大小，那么通过调用预设的高斯模型输入该N条特征数据中高信息增益率的n条特征数据，则可以确定M条点击数据中是否有点击作弊。实现对点击作弊进行监测，避免了因维护和更新黑名单所造成的资源耗费，且在出现新的点击作弊手段时，利用分析该新的点击作弊中分类能力强的特征也可以对其进行识别，极大的提高反点击作弊防护的安全性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请第一实施例提供的一种电子设备的结构框图；

图2示出了本申请第二实施例提供的一种广告点击作弊监测方法的流程图；

图3示出了本申请第三实施例提供的一种广告点击作弊监测方法的结构框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有进行出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

第一实施例

请参阅图1，本申请实施例提供了电子设备10，该电子设备10可以包括：存储器11、通信模块12、总线13和处理器14。其中，处理器14、通信模块12和存储器11通过总线13连接。处理器14用于执行存储器11中存储的可执行模块，例如计算机程序。图1所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，电子设备10也可以具有其他组件和结构

其中，存储器11可能包含高速随机存取存储器(Random Access Memory RAM)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。本实施例中，存储器11存储了执行广告点击作弊监测方法所需要的程序。

总线13可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器14可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器14中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器14可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。

本发明实施例任意实施例揭示的流过程或定义的装置所执行的方法可以应用于处理器14中，或者由处理器14实现。处理器14在接收到执行指令后，通过总线13调用存储在存储器11中的程序后，处理器14通过总线13控制通信模块12则可以执行广告点击作弊监测方法的流程。

第二实施例

本实施例提供了一种广告点击作弊监测方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。以下对本实施例进行详细介绍。

请参阅图2，在本实施例提供的广告点击作弊监测方法中，该广告点击作弊监测方法包括：步骤S100、步骤S200、步骤S300和步骤S400。

步骤S100：基于广告的M条点击数据，获得所述M条点击数据中的各种相关数据，M为正整数；

步骤S200：将所述M条点击数据中的各种相关数据按相同维度进行关联，按不同维度进行组合，统计计算得到N条特征数据，N均正整数。

步骤S300：获得所述N条特征数据中每条特征数据的信息增益率，其中，每个信息增益率用于表示对应的每个特征数据分类能力的大小。

步骤S400：调用预设的高斯模型输入所述N条特征数据中高信息增益率的n条特征数据，确定所述M条点击数据中是否有点击作弊，n为不大于N的正整数。

下面将对本申请的方案进行详细的描述。

步骤S100：基于广告的M条点击数据，获得所述M条点击数据中的各种相关数据，M为正整数。

电子设备可以获得一条广告的M条点击数据，其中，M为正整数。例如，网站上投放有该广告，那么各用户在该网站上执行的对该广告的点击操作，便可以使得运行该网站的服务器上存储各用户的点击操作对应的M条点击数据，那么该电子设备可以从服务器上获得离线的该广告的M条点击数据。也例如，电子设备可以获得广告的1000条点击数据。

在M条点击数据中，每条点击数据可以包括：广告点击时间、用户设备UA(UserAgent、用户代理)、设备IDFA(Identifier For Advertising，广告标识)、用户IP、referer(引用字段)等数据。可以理解到，每条点击数据中的原始数据的信息量还是不够多，为了丰富数据信息，电子设备可以对每条点击数据进行解析，从而可以从每条点击数据中的原始数据提取出更多的信息的各种相关数据。例如，电子设备对每条点击数据中的用户设备UA进行解析，则可以解析出设备品牌、设备型号、设备***及版本、浏览器及版本和设备类别等信息，电子设备对每条点击数据中的用户IP进行解析，则可以解析出用户所在的国家、城市、地区、经纬度、自治***、ISP(Internet Service Provider、互联网服务提供商)和机构等信息。其中，针对每条点击数据中的用户IP，电子设备可以获得用户IP的前24位，以便后续通过该用户IP的网络地址进行计算时。

获得的M条点击数据的各种相关数据使得M条点击数据在整体上具备更大的信息量，便于后续的计算的准确性。例如，每条点击数据的原始数据中包含10条信息，那么通过解析，可以使得每条点击数据的原始数据中包含500条信息，从而M条点击数据整体上的信息量就从M*10变成了信息量更大的M*500。

于本实施例中，并不是每条点击数据都可以解析出所有的信息，例如有的点击数据能够解析出设备型号，但有的点击数据却缺失该设备型号，故电子设备在解析后，电子设备还需要判断解析出的每条信息是否可用。具体的，由于点击数据的总量为M条，故解析出的每个信息的总量在不缺失的情况下也应为M个，那么电子设备可以通过判断在M条点击数据中的各种相关数据中每个信息的总量与M的比值是否大于预设比值，以确定解析出的每个信息是否可用，其中，预设比值可以为0.5。

在确定解析出的任一个信息的总量与M的比值是大于预设比值，则电子设备可以确定该任一个信息是可用的。基于这种情况，若该比值为1，则说明该任一个信息的总量是不缺失的。例如，M个点击数据解析出的设备***及版本的数量为M个，则说明该设备***及版本是不缺失的，后续可以直接使用该M个设备***及版本。但若该比值为介于0.5至1之间，则说明该任一个信息的总量是缺失的，故电子设备则需要按照预设规则将缺失的信息进行补充。例如，M个点击数据解析出的国家的数量为2/3M个，则说明该国家的总量是缺失的，电子设备可以按照预设规则将缺失的1/3M个国家进行补充，比如，缺失的1/3M个国家均补充为Other，以便于后续可以使用该M个设备***及版本。

在确定解析出的任一个信息的总量与M的比值是小于预设比值，则电子设备可以确定该任一个信息是不可用的，故电子设备可以将该不可用的信息抛弃，以防止后续使用该不可用的信息进行计算会影响计算结果的准确性。

需要说明的是，也为便于后续计算，针对每条点击数据中的点击时间，可以以一天中的多个时间段为单位，例如将把一天24小时等分为4个时间段，即依据人的作息规律分为：凌晨，上午，下午，晚上。那么则将M条点击数据中的点击时间分割到各个同时间段中，以便后续的计算。

也作为一种可选地方式，基于每条点击数据的解析出的各种相关数据的多个信息并不便于后续计算，故本实施例可以将各种相关数据中任一类的M个信息作为一个信息组，再将相同维度的每个信息组与其它至少一个信息组关联，而关联合并形成不同维度的特征数据。这样电子设备就可以获得基于对M条点击数据中的各种相关数据按相同维度进行关联，获得各个维度的N条特征数据，其中，N也为正整数。

例如，某一维度的特征数据可以为：一天内，来自同一用户IP的不同设备UA的数量，或某一维度的特征数据又可以为：一天内，来自同一用户IP的不同设备IDFA的数量。或某一维度的特征数据还可以为：一天内，来自同一国家的不同的用户IP的比率其中，不同的用户IP的比率＝来自同一国家的不同的用户IP的数量/来自同一国家的所有点击数量；或某一维度的特征数据还可以为：一天内不同时间段内，来自同一用户IP的不同的设备型号的数量的方差；或某一维度的特征数据还可以为：一天内不同时间段内，来自同一用户IP的不同IDFA数量的标准差；或某一维度的特征数据还可以为：一天内，来自同一用户IP的不同设备品牌数分布在一天内的多个时间段的占比等特征。

这样，通过将M条点击数据统计并获得各个维度的N条特征数据，即可以将广告的1000条点击的原始10个属性数据转换为400个不同维度的特征数据，且每个维度的特征数据中的数据量均为1000条。

本实施例可以采用计算每条特征数据的信息增益率，以通过每条特征数据的信息增益率来筛选出分类能力强的数据，以便后续利用这些分类能力强的特征数据来进行计算，实现效果的同时，降低电子设备的负荷。

具体的，由于后续的计算是采用高斯模型，而N条特征数据中每条特征数据为不适用于高斯模型的长尾分布，那么为便于后续采用高斯模型的计算，电子设备可以将N条特征数据中每条特征数据进行boxcox变换，获得每条特征数据的变换结果数据。可以理解到的是，每条特征数据的变换结果数据则为更接近于正态分布，以便可以将其应用到高斯模型中进行计算。

可选地，boxcox变换的公式如下式1所示：

其中，其中y为特征数据，y(λ)为特征数据的变换结果数据，λ为boxcox变换的参数。

本实施例中，电子设备利用boxcox变换后每个特征数据的变换结果数据，可以基于每条特征数据的变换结果数据进行信息增益率计算，从而获得每条特征数据的信息增益率，这样就可以确定出信息增益率高的特征数据。

可选地，电子设备可以计算每条特征数据的变换结果数据的熵，以及计算每条特征数据的变换结果数据基于原始类标签的条件熵，其中，原始类标签作为一个点击数据是否为点击作弊的真实标记。

需要理解的是，计算每条特征数据的变换结果数据基于原始类标签的条件熵为便于确定出每条特征数据的变换结果数据对原始类标签的信息量影响，若影响越大，则每条特征数据的变换结果数据计算出的条件熵越小，且说明每条每特征数据的分类能力越强。

可选地，电子设备中还预先计算出了原始类标签的信息熵，故电子设备基于每条特征数据的熵、每个条特征数据的相对于原始类标签的条件熵和原始类标签的信息熵，则可以计算出获得每条特征数据的信息增益率。

可选地，获得每条特征数据的信息增益率的公式如下式2和式3所示：

其中，H(X)表示随机变量X的熵；随机变量X可以为每条特征数据的变换结果数据；pi表示离散随机变量的概率值；g_R(D,A)表示每条特征数据的信息增益率；H(D)表示原始类标签的信息熵，H(D|A)表示每条特征数据的变换结果数据相对于原始类标签的条件熵；H(A)表示每条特征数据的变换结果数据的熵。

由于每个信息增益率用于表示对应的每个特征数据分类能力的大小，那么电子设备可以基于获得每条特征数据的信息增益率，对特征数据进行筛选从而将有用度低特征数据抛弃，留下分类能力强的特征数据。

可选地，电子设备中预先设置有信息增益率阈值，该信息增益率阈值可以为电子设备自行动态调节，例如，电子设备基于当前对广告点击作弊的识别率动态设置该增益率阈值，比如，电子设备当前对广告点击作弊的识别率较低，那么基于识别率较低的结果和其它的一些参考因素，则可以动态的将增益率阈值设置的高一些，反之则将增益率阈值设置的低一些。那么，电子设备基于该增益率阈值，则可以从N条特征数据中确定出信息增益率大于该增益率阈值的高信息增益率的n条特征数据，并将该高信息增益率的n条特征数据用于后续计算，其中，n为不大于N的正整数。例如，通过基于增益率阈值的筛选，可以将广告的1000条点击数据的400个不同维度的特征数据筛选为广告的1000条点击数据的20个不同维度的高信息增益率的特征数据，其中，n为1000*20。

可选地，电子设备还可以根据调用预设的高斯模型输入该n条特征数据，从而获得n条特征数据对应的n个概率密度，以及获得n条特征数据对应的概率密度乘积。

可选地，调用高斯模型计算该n条特征数据的概率密度乘积的公式如下式4所述：

其中，μ和σ表示正态分布的均值和方差，p(x)为每个概率密度乘积。

可选地，基于获得的n条特征数据对应的概率密度乘积，电子设备根据该概率密度乘积，就可以确定该M条点击数据中是否有点击作弊。

本实施例中，电子设备中还预先设置有预设阈值，该预设阈值可以为电子设备自行动态调节，例如，电子设备基于当前对广告点击作弊的识别率动态设置该预设阈值，比如，电子设备当前对广告点击作弊的识别率较低，那么基于识别率较低的结果和其它的一些参考因素，则可以动态的预设阈值设置的低一些，反之则将增益率阈值设置的高一些。基于此，电子设备根据每条点击数据的概率密度乘积中是否为小于预设阈值，则可以确定每条点击数据为是否为点击作弊。其中，每条点击数据的概率密度乘积小于预设阈值表示每条点击数据为点击作弊。

可以理解到的是，概率密度乘积越小，则表示对应的每个特征数据对应的点击数据越有可能为点击作弊。因此，基于概率密度乘积和预设阈值的比较来确定对应的点击数据是否为点击作弊可以使得识别新兴的作弊技术基于概率也能够被识别出来，故使得电子设备能够有效检测zero-day attack。

第三实施例

请参阅图3，本申请实施例提供了一种广告点击作弊监测装置100，该广告点击作弊监测装置100应用于电子设备，该广告点击作弊监测装置100包括。

数据获得模块110，用于基于广告的M条点击数据，获得所述M条点击数据中的各种相关数据，M为正整数。

特征抽取模块120，用于将所述M条点击数据中的各种相关数据按相同维度进行关联，按不同维度进行组合，统计计算得到N条特征数据，N为正整数。

特征选择模块130，用于获得所述N条特征数据中每条特征数据的信息增益率，其中，每个信息增益率用于表示对应的每个特征数据分类能力的大小。

点击作弊确定模块140，用于调用预设的高斯模型输入所述N条特征数据中高信息增益率的n条特征数据，确定所述M条点击数据中是否有点击作弊，n为不大于N的正整数。

其中，所述特征选择模块120，还用于将所述N条特征数据中每条特征数据进行boxcox变换，获得每条特征数据的变换结果数据；基于每条特征数据的变换结果数据进行增益率计算，获得每条特征数据的信息增益率。

以及，所述特征选择模块120，还用于计算每条特征数据的变换结果数据的熵，以及计算每条特征数据的变换结果数据基于原始类标签的条件熵，其中，所述原始类标签作为一个点击数据是否为点击作弊的真实标记；根据每条特征数据的熵、所述条件熵和所述原始类标签的信息熵，获得每条特征数据的信息增益率。

以及，所述点击作弊确定模块130，从所述N条特征数据中确定出高信息增益率的n条特征数据；调用预设的高斯模型计算所述n条特征数据中每条特征数据的概率密度，获得所述n条特征数据对应的概率密度乘积；根据所述概率密度乘积，确定所述M条点击数据中是否有点击作弊。

以及，所述点击作弊确定模块130，还用于根据所述概率密度乘积，获得M条点击数据中每条点击数据在所述概率密度乘积中对应的概率密度乘积，；根据每条点击数据的所述概率密度乘积中是否小于预设阈值，确定每条点击数据为是否为点击作弊，其中，每条点击数据的所述概率密度乘积小于所述预设阈值表示每条点击数据为点击作弊。

需要说明的是，由于所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域内的技术人员应明白，本申请实施例可提供为方法、***、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

综上所述，本申请实施例提供了一种广告点击作弊监测方法及装置，方法包括：基于广告的M条点击数据，获得M条点击数据中的各种相关数据，M为正整数；将M条点击数据中的各种相关数据按相同维度进行关联，按不同维度进行组合，统计计算得到N条特征数据，N为正整数；获得N条特征数据中每条特征数据的信息增益率，其中，每个信息增益率用于表示对应的每个特征数据分类能力的大小；调用预设的高斯模型输入N条特征数据中高信息增益率的n条特征数据，确定M条点击数据中是否有点击作弊的点击数据，n为不大于N的正整数。

通过对广告的M条点击数据解析并按相同维度关联进行特征抽取，使得基于M条点击数据而获得各个维度的N条特征数据，进而便可以计算出每条特征数据的信息增益率。由于信息增益率用于表示特征数据分类能力的大小，那么通过调用预设的高斯模型计算该N条特征数据中高信息增益率的n条特征数据，则可以准确的确定M条点击数据中是否有点击作弊的点击数据。实现对点击作弊进行监测，避免了因维护和更新黑名单所造成的资源耗费，且在出现新的点击作弊手段时，利用分析该新的点击作弊中分类能力强的特征也可以对其进行识别，极大的提高反点击作弊防护的安全性。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种广告点击作弊监测方法，其特征在于，所述方法包括：

基于广告的M条点击数据，获得所述M条点击数据中的各种相关数据，M为正整数；

将所述M条点击数据中的各种相关数据按相同维度进行关联，按不同维度进行组合，统计计算得到N条特征数据，N为正整数；

获得所述N条特征数据中每条特征数据的信息增益率，其中，每个信息增益率用于表示对应的每个特征数据分类能力的大小；

调用预设的高斯模型输入所述N条特征数据中高信息增益率的n条特征数据，确定所述M条点击数据中是否有点击作弊，n为不大于N的正整数。

2.根据权利要求1所述的广告点击作弊监测方法，其特征在于，所述获得所述N条特征数据中每条特征数据的信息增益率，包括：

将所述N条特征数据中每条特征数据进行boxcox变换，获得每条特征数据的变换结果数据；

基于每条特征数据的变换结果数据进行特征选择，获得每条特征数据的信息增益率。

3.根据权利要求2所述的广告点击作弊监测方法。其特征在于，所述基于每条特征数据的变换结果数据进行特征选择，获得每条特征数据的信息增益率，包括：

计算每条特征数据的变换结果数据的熵，以及计算每条特征数据的变换结果数据基于原始类标签的条件熵，其中，所述原始类标签作为一个点击数据是否为作弊点击的真实标记；

根据每条特征数据的熵、所述条件熵和所述原始类标签的信息熵，获得每条特征数据的信息增益率。

4.根据权利要求1-3任一权项所述的广告点击作弊监测方法，其特征在于，所述调用预设的高斯模型输入所述N条特征数据中高信息增益率的n条特征数据，确定所述M条点击数据中是否有点击作弊，包括：

从所述N条特征数据中确定出高信息增益率的n条特征数据；

调用预设的高斯模型计算所述n条特征数据中每条特征数据的概率密度，获得所述n条特征数据对应的概率密度乘积；

根据所述概率密度乘积，确定所述M条点击数据中是否有点击作弊。

5.根据权利要求4所述的广告点击作弊监测方法，其特征在于，根据所述概率密度乘积，确定所述M条点击数据中是否有点击作弊，包括：

根据所述概率密度乘积，获得M条点击数据中每条点击数据在所述概率密度乘积中对应的概率密度乘积；

根据每条点击数据的所述概率密度乘积中是否小于预设阈值，确定每条点击数据为是否为点击作弊，其中，每条点击数据的所述概率密度乘积小于所述预设阈值表示每条点击数据为点击作弊。

6.一种广告点击作弊监测装置，其特征在于，所述装置包括：

数据获得模块，用于基于广告的M条点击数据，获得所述M条点击数据中的各种相关数据，M为正整数；

特征抽取模块，用于将所述M条点击数据中的各种相关数据按相同维度进行关联，按不同维度进行组合，统计计算得到N条特征数据，N为正整数；

特征选择模型，用于获得所述N条特征数据中每条特征数据的信息增益率，其中，每个信息增益率用于表示对应的每个特征数据分类能力的大小；

点击作弊确定模块，用于调用预设的高斯模型输入所述N条特征数据中高信息增益率的n条特征数据，确定所述M条点击数据中是否有点击作弊，n为不大于N的正整数。

7.根据权利要求6所述的广告点击作弊监测装置，其特征在于，

所述特征选择模块，还用于将所述N条特征数据中每条特征数据进行boxcox变换，获得每条特征数据的变换结果数据；基于每条特征数据的变换结果数据进行信息增益率计算，获得每条特征数据的信息增益率。

8.根据权利要求7所述的广告点击作弊监测装置。其特征在于，

所述特征选择模块，还用于计算每条特征数据的变换结果数据的熵，以及计算每条特征数据的变换结果数据基于原始类标签的条件熵，其中，所述原始类标签作为一个点击数据是否为点击作弊的真实标记；根据每条特征数据的熵、所述条件熵和所述原始类标签的信息熵，获得每条特征数据的信息增益率。

9.根据权利要求6-8任一权项所述的广告点击作弊监测装置，其特征在于，

所述点击作弊确定模块，还用于从所述N条特征数据中确定出高信息增益率的n条特征数据；调用预设的高斯模型计算所述n条特征数据中每条特征数据的概率密度，获得所述n条特征数据对应的概率密度乘积；根据所述概率密度乘积，确定所述M条点击数据中是否有点击作弊。

10.根据权利要求9所述的广告点击作弊监测装置，其特征在于，

所述点击作弊确定模块，还用于根据所述概率密度乘积，获得M条点击数据中每条点击数据在所述概率密度乘积中对应的概率密度乘积；根据每条点击数据的所述概率密度乘积中是否小于预设阈值，确定每条点击数据为是否为点击作弊，其中，每条点击数据的所述概率密度乘积小于所述预设阈值表示每条点击数据为点击作弊。