CN106097000B

CN106097000B - 一种信息处理方法及服务器

Info

Publication number: CN106097000B
Application number: CN201610389956.4A
Authority: CN
Inventors: 李东豫; 彭作杰; 刘杰; 王春辉; 孙宇; 李益群
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-06-02
Filing date: 2016-06-02
Publication date: 2022-07-26
Anticipated expiration: 2036-06-02
Also published as: WO2017206811A1; EP3471044A1; JP2019510283A; JP6628376B2; EP3471044A4; US20180276709A1; US11373205B2; CN106097000A

Abstract

本发明实施例公开了一种信息处理方法及服务器。所述方法包括：获得第一日志信息；基于所述第一日志信息获得终端信息及对应的地域信息；所述终端信息对应于对媒体信息展示位存在点击行为的终端；判断第一预设时间范围内所述终端信息对应的地域数量是否大于第一阈值；基于判断结果获得对应的地域数量大于第一阈值的第一终端信息，判定所述第一终端信息对应的终端为异常终端。

Description

一种信息处理方法及服务器

技术领域

本发明涉及信息处理技术，具体涉及一种信息处理方法及服务器。

背景技术

在移动终端的媒体信息(媒体信息例如广告)的展示中，由于经济利益的原因，作弊的手段随着反作弊的手段的提升不断升级。作弊方要获得更多的收入，需要上报更多的点击量，其中最直接的方式是伪造新用户。目前作弊的技术手段主要包括以下几种：第一种是通过技术手段伪造终端信息，所述终端信息例如安卓(Android)***中的国际移动设备标识(IMEI)、Android ID等，或者例如IOS***中的广告标示符(IDFA)、媒介访问控制(MAC)地址等。通过伪造的终端信息可以使一台移动终端被识别为多个终端。第二种是通过技术手段获得几乎所有的网络互联协议(IP)资源。第三种是通过模拟点击技术实现用户的点击行为。

这样，采用上述三种作弊的技术手段及其结合，采用现有的反作弊检测策略是无法准确检测识别出作弊用户的，进而也无法准确的统计获得媒体信息展示位的点击量。然而，相关技术中，对于该问题，尚无有效解决方案。

发明内容

本发明实施例期望提供了一种信息处理方法及服务器，以解决现有技术中的媒体信息展示的作弊技术手段无法准确检测识别出作弊用户的问题。

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种信息处理方法，所述方法包括：

获得第一日志信息；

基于所述第一日志信息获得终端信息及对应的地域信息；所述终端信息对应于对媒体信息展示位存在点击行为的终端；

判断第一预设时间范围内所述终端信息对应的地域数量是否大于第一阈值；

基于判断结果获得对应的地域数量大于第一阈值的第一终端信息，判定所述第一终端信息对应的终端为异常终端。

上述方案中，所述方法还包括：统计异常终端对应的媒体信息展示位中，第一媒体信息展示位对应的异常终端数量和终端总数量；所述第一媒体信息展示位为异常终端对应的媒体信息展示位中任一媒体信息展示位；

计算所述异常终端数量与终端总数量的第一比值；

当所述第一比值大于第二阈值时，将所述第一媒体信息展示位标记为疑似异常媒体信息展示位。

上述方案中，所述方法还包括：获得第二日志信息；所述第二日志信息的时间范围大于所述第一日志信息的时间范围；

基于所述第二日志信息获得第二媒体信息展示位在第一预设时间范围内的第一点击量以及在第二预设时间范围内的第二点击量；所述第一预设时间范围表征白天的时间范围；所述第二预设时间范围表征夜晚的时间范围；

计算所述第一点击量与所述第二点击量的第二比值；

当所述第二比值小于第二阈值时，判定所述第二媒体信息展示位为疑似异常媒体信息展示位。

上述方案中，所述获得第二日志信息后，所述方法还包括：基于所述第二日志信息获得第三媒体信息展示位的点击位置信息；

根据所述第三媒体信息展示位的点击位置信息计算第一参数，所述第一参数表征所述第三媒体信息展示位的点击位置的分布情况；

当所述第一参数不在预设阈值范围内时，确定第三媒体信息展示位为疑似异常媒体信息展示位。

上述方案中，所述方法还包括：分别设置第一比值、所述第二比值和所述第一参数对应的权重值；

根据所述第一比值、所述第二比值和所述第一参数按对应的权重值进行计算获得第一疑似异常媒体信息展示位对应的第二参数；

当所述第二参数大于第三阈值时，确定所述第一疑似异常媒体信息展示位为异常媒体信息展示位。

上述方案中，所述判定所述第一终端信息对应的终端为异常终端后，所述方法还包括：将所述异常终端对应的媒体信息展示位的点击行为记为无效。

上述方案中，所述确定所述第一疑似异常媒体信息展示位为异常媒体信息展示位后，所述方法还包括：将针对所述异常媒体信息展示位的点击行为记为无效。

本发明实施例还提供了一种服务器，所述服务器包括：数据获取单元、数据分析单元和确定单元；其中，

所述数据获取单元，用于获得第一日志信息；

所述数据分析单元，用于基于所述数据获取单元获得的第一日志信息获得终端信息及对应的地域信息；所述终端信息对应于对媒体信息展示位存在点击行为的终端；判断第一预设时间范围内所述终端信息对应的地域数量是否大于第一阈值；

所述确定单元，用于基于所述数据分析单元获得的判断结果获得对应的地域数量大于第一阈值的第一终端信息，判定所述第一终端信息对应的终端为异常终端。

上述方案中，所述数据分析单元，还用于统计异常终端对应的媒体信息展示位中，第一媒体信息展示位对应的异常终端数量和终端总数量；所述第一媒体信息展示位为异常终端对应的媒体信息展示位中任一媒体信息展示位；计算所述异常终端数量与终端总数量的第一比值；

所述确定单元，还用于当所述第一比值大于第二阈值时，将所述第一媒体信息展示位标记为疑似异常媒体信息展示位。

上述方案中，所述数据获取单元，还用于获得第二日志信息；所述第二日志信息的时间范围大于所述第一日志信息的时间范围；

所述数据分析单元，还用于基于所述第二日志信息获得第二媒体信息展示位在第一预设时间范围内的第一点击量以及在第二预设时间范围内的第二点击量；所述第一预设时间范围表征白天的时间范围；所述第二预设时间范围表征夜晚的时间范围；计算所述第一点击量与所述第二点击量的第二比值；

所述确定单元，还用于当所述第二比值小于第二阈值时，判定所述第二媒体信息展示位为疑似异常媒体信息展示位。

上述方案中，所述数据分析单元，还用于基于所述第二日志信息获得第三媒体信息展示位的点击位置信息；根据所述第三媒体信息展示位的点击位置信息计算第一参数，所述第一参数表征所述第三媒体信息展示位的点击位置的分布情况；判断所述第一参数是否在预设阈值范围内；

所述确定单元，还用于当所述第一参数不在预设阈值范围内时，确定第三媒体信息展示位为疑似异常媒体信息展示位。

上述方案中，所述服务器还包括设置单元，用于分别设置第一比值、所述第二比值和所述第一参数对应的权重值；

所述确定单元，还用于根据所述第一比值、所述第二比值和所述第一参数按对应的权重值进行计算获得第一疑似异常媒体信息展示位对应的第二参数；当所述第二参数大于第三阈值时，确定所述第一疑似异常媒体信息展示位为异常媒体信息展示位。

上述方案中，所述服务器还包括第一判罚单元，用于所述确定单元判定所述第一终端信息对应的终端为异常终端后，将所述异常终端对应的媒体信息展示位的点击行为记为无效。

上述方案中，所述服务器包括第二判罚单元，用于所述确定单元判定第一疑似异常媒体信息展示位为异常媒体信息展示位后，将针对所述异常媒体信息展示位的点击行为记为无效。

本发明实施例提供的信息处理方法及服务器，所述方法包括：获得第一日志信息；基于所述第一日志信息获得终端信息及对应的地域信息；所述终端信息对应于对媒体信息展示位存在点击行为的终端；判断第一预设时间范围内所述终端信息对应的地域数量是否大于第一阈值；基于判断结果获得对应的地域数量大于第一阈值的第一终端信息，判定所述第一终端信息对应的终端为异常终端。采用本发明实施例的技术方案，通过对媒体信息展示位存在点击行为的终端信息以及对应的地域信息进行分析，将地域数量大于第一阈值的终端判定为异常终端，有效的解决了现有技术中的媒体信息展示的作弊技术手段无法准确检测识别出作弊用户的问题，大大提升了媒体信息展示位的点击量的准确率。

附图说明

图1为本发明实施例中进行信息交互的各方硬件实体的示意图；

图2为本发明实施例的信息处理方法的第一种流程示意图；

图3为本发明实施例的信息处理方法的第二种流程示意图；

图4为本发明实施例中的媒体信息展示位的正常点击量曲线示意图；

图5a和图5b分别为本发明实施例中的媒体信息展示位的异常点击量示意图；

图6为本发明实施例中的媒体信息展示位点击量日夜比分布散点图；

图7a至图7c分别为媒体信息展示位的点击位置分布示意图；

图8为本发明实施例中异常终端占比与广告位数量的比重关系示意图；

图9为本发明实施例的信息处理方法的一种处理过程示意图；

图10为本发明实施例的信息处理方法的一种应用场景下的处理过程示意图；

图11为本发明实施例的服务器的第一种组成结构示意图；

图12为本发明实施例的服务器的第二种组成结构示意图；

图13为本发明实施例的服务器模块化的具体结构示意图；

图14为本发明实施例的服务器作为硬件实体的一个示例图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

图1为本发明实施例中进行信息交互的各方硬件实体的示意图，图1中包括：服务器11……1n、终端设备21-24，终端设备21-24通过有线网络或者无线网络与服务器进行信息交互，终端设备包括手机、台式机、PC机、一体机等类型。一个示例中，服务器可以通过网络与第一类终端(如广告主所在的终端，或称为提供广告素材和内容推广的对象)进行交互，第一类终端(如广告主所在的终端，或称为提供广告素材和内容推广的对象)将想要投放的广告提交后，被存储在服务器或服务器集群中，可以配备技术人员对第一类终端(如广告主所在的终端，或称为提供广告素材和内容推广的对象)投放的广告进行审核等一系列处理。其中，相对于第一类终端(如广告主所在的终端，或称为提供广告素材和内容推广的对象)而言，终端设备21-24可以称为第二类终端(如普通用户所在的终端，或称为广告展示或曝光的对象)，可以为通过视频应用看视频的用户、使用社交应用的用户等等。其中，终端设备中安装的所有应用或者指定的应用(如游戏应用，视频应用，导航应用等等)都可以添加广告以展示给用户更多的推荐信息。

在本实施例中，所述服务器包括两类服务器；其中，第一类服务器用于提供媒体信息投放的流量，在本实施例中可称为流量方。第一类终端(如广告主所在的终端)需从第一类服务器中(如流量方)购买流量，以通过所购买的流量投放媒体信息。第二类服务器用于对上述行为进行作弊检测，以防止流量方通过作弊手段增加媒体信息的点击量，从而损害广告主的利益。本实施例的信息处理方法应用于上述第二类服务器或服务器集群中。

实施例一

本发明实施例提供了一种信息处理方法。图2为本发明实施例的信息处理方法的第一种流程示意图；如图1所示，所述方法包括：

步骤101：获得第一日志信息。

步骤102：基于所述第一日志信息获得终端信息及对应的地域信息；所述终端信息对应于对媒体信息展示位存在点击行为的终端。

步骤103：判断第一预设时间范围内所述终端信息对应的地域数量是否大于第一阈值。

步骤104：基于判断结果获得对应的地域数量大于第一阈值的第一终端信息，判定所述第一终端信息对应的终端为异常终端。

本发明实施例的信息处理方法应用于媒体信息投放***；所述媒体信息内同具体例如广告内容；

本实施例的信息处理方法主要针对现有技术中伪造用户的作弊技术手段；现有技术中主要通过变换IP地址与变换终端信息结合的方式实现伪造用户。发明人发现，以终端信息为IMEI为例，单独看IMEI与IP地址的维度都是分散的，然而如果将IMEI与IP地址合并来看，将IP地址对应于终端所在的区域(该区域可精确到市级等)，正常情况下，某一小段时间内(例如一个小时内)，正常的终端会固定在某一区域内，该终端出现在多个区域的是小概率事件。因而在数据表现上，找出在一小段时间内，某些IMEI对应多个区域的情况，这些IMEI对应的终端和可能是伪造出的终端。

表1为某一小时内，媒体信息投放平台中所有IMEI出现地域的分布情况。统计显示，约97％的IMEI只会出现在1个地区，有少量的约2％的IMEI会出现在2个地区，而还有不到1％的IMEI会在1小时内出现在2个以上的地区，最多的一个IMEI出现在261个不同的地区(表中未示出)。

出现地区数	IMEI数量	占比
			等于1	513457	97.78％
等于2	10530	2.00％
			大于2	1127	0.22％

表1

可以看出，每小时内一个IMEI会出现在3个或3个以上的区域概率很小，约在0.22％左右，可以认为在预设时间范围内(例如一个小时内)，如果一个终端信息出现的地域数量大于第一阈值(例如2)时，可以认定所述终端信息为通过伪造终端信息结合变换IP地址伪造的，属于异常终端。基于此，本实施例中通过获得媒体信息推送平台中的终端信息以及对应的地域信息，所述地域信息具体可通过市级区域范围表示。当低于预设时间范围(例如一个小时)内第一终端信息对应的低于数量大于第一阈值(例如3)时，可确定所述第一终端信息对应的第一终端为异常终端。

本实施例中，所述第一日志信息为较短时间范围内日志信息，作为一种实施方式，所述第一日志信息可以为小时级日志信息，例如一小时的日志信息；当然不限于小时级日志信息，也可以为分钟级日志信息等等。其中，所述第一日志信息包括媒体信息推送平台获得的所有信息，包括媒体信息展示位的点击行为、终端信息、用户信息以及终端所在的位置信息等等。

采用本发明实施例的技术方案，通过对媒体信息展示位存在点击行为的终端信息以及对应的地域信息进行分析，将地域数量大于第一阈值的终端判定为异常终端，有效的解决了现有技术中的媒体信息展示的作弊技术手段无法确检测识别出作弊用户的问题，大大提升了媒体信息展示位的点击量的准确率；另一方面也保护了媒体信息投放方(例如广告主)的利益。

实施例二

本发明实施例还提供了一种信息处理方法。基于实施例一的信息处理方案，基于识别出的异常终端，结合时间范围较长的第二日志信息，本实施例的信息处理方案主要用于对异常媒体信息展示位的识别。图3为本发明实施例的信息处理方法的第二种流程示意图；如图3所示，在实施例一的步骤104之后，所述信息处理方法包括：

步骤105：统计异常终端对应的媒体信息展示位中，第一媒体信息展示位对应的异常终端数量和终端总数量；所述第一媒体信息展示位为异常终端对应的媒体信息展示位中任一媒体信息展示位。

步骤106：计算所述异常终端数量与终端总数量的第一比值。

步骤107：当所述第一比值大于第二阈值时，将所述第一媒体信息展示位标记为疑似异常媒体信息展示位，进一步执行步骤208。

步骤201：获得第二日志信息；所述第二日志信息的时间范围大于所述第一日志信息的时间范围。

步骤202：基于所述第二日志信息获得第二媒体信息展示位在第一预设时间范围内的第一点击量以及在第二预设时间范围内的第二点击量；所述第一预设时间范围表征白天的时间范围；所述第二预设时间范围表征夜晚的时间范围。

步骤203：计算所述第一点击量与所述第二点击量的第二比值。

步骤204：当所述第二比值小于第二阈值时，判定所述第二媒体信息展示位为疑似异常媒体信息展示位，进一步执行步骤208。

步骤205：基于所述第二日志信息获得第三媒体信息展示位的点击位置信息。

步骤206：根据所述第三媒体信息展示位的点击位置信息计算第一参数，所述第一参数表征所述第三媒体信息展示位的点击位置的分布情况。

步骤207：当所述第一参数不在预设阈值范围内时，确定第三媒体信息展示位为疑似异常媒体信息展示位，进一步执行步骤208。

步骤208：根据所述第一比值、所述第二比值和所述第一参数按对应的权重值进行计算获得第一疑似异常媒体信息展示位对应的第二参数。

步骤209：当所述第二参数大于第三阈值时，确定所述第一疑似异常媒体信息展示位为异常媒体信息展示位。

本实施例中，分析流量方作弊的终极目的，无非是要拿到更高额的媒体信息投放方(例如广告主)的投放费用。因此，多数流量方会最大限度地利用作弊方式增加媒体信息的点击量。那么通过作弊技术的媒体信息的点击行为的表现与正常的媒体信息的点击行为的表现就有所不同。作为其中的第一种差异在于，为了最大化收益，流量方会不分昼夜地对媒体信息进行点击。这与正常行为相悖。

图4为本发明实施例中的媒体信息展示位的正常点击量曲线示意图；如图4所示，可以看出在凌晨2点到6点之间，媒体信息展示位的点击行为数量较低，而从早上8点开始，媒体信息展示位的点击行为数量逐渐增加到当天最高水平。在夜里23点左右又会有所下降。由此可见，媒体信息展示位的点击行为是与用户的作息时间相关，在白天用户未处于睡眠状态时产生媒体信息展示位的点击行为的概率要远远大于在夜晚用户处于睡眠状态时产生媒体信息展示位的点击行为的概率。

基于此，如果有媒体信息展示位的点击行为不存在图3所示的日夜区别，而是不分昼夜的产生点击行为，则从统计学的角度也会被认为是小概率事件。

图5a和图5b分别为本发明实施例中的媒体信息展示位的异常点击量示意图，可以看出，图5a和图5b与图4所示的媒体信息展示位的正常点击量的曲线示意图的规律是不同的。具体如图5a所示，媒体信息展示位的点击量虽然存在上下波动，但并无日夜区别，可以认为在一天的时间内媒体信息展示位的点击量是平均分布的。而如图5b所示，媒体信息展示位的点击量在夜里0点以后至上午7点以前均在较高的数值，在上午7点以后逐渐下降直至上午11点接近最低水平，这是与图4所示的媒体信息展示位的正常点击行为分布式完全相悖的。由此可以认为这些媒体信息展示位产生的点击行为都经过人为的干预，有作弊的嫌疑。

根据图4所示的媒体信息展示位的正常点击行为的分布规律，本实施例步骤202至步骤204中，可以取几个有代表性的时段表示日夜：例如，“夜”(用户睡眠时段)可定义为夜间0点到上午8点之间的时段，而“日”(用户清醒时段)可定义为上午8点至夜间0点之间的时段。当然，本实施例中，“日”为第一预设时间范围，所述第一预设时间范围表示用户处于清醒状态的时段；“夜”为第二预设时间范围，所述第二时间范围表示用户处于睡眠状态的时段。本实施例中，统计第二媒体信息展示位在第一预设时间范围内的第一点击量以及在第二预设时间范围内的第二点击量；其中，所述第二媒体信息展示位为媒体信息推送平台中的任一媒体信息展示位。计算所述第一点击量和所述第二点击量的第二比值；当所述第二比值小于第二阈值时，判定所述第二媒体信息展示位为疑似异常媒体信息展示位。其中，所述第二阈值为小于等于1的数值，所述第二比值小于所述第二阈值，表明所述第二媒体信息展示位的“日”点击量小于“夜”点击量。具体可如图6所示，处于横坐标小于1的部分为夜间比日间更活跃的广告位，纵坐标表示广告位的数量，可以看出有部分广告位在夜间活跃，排除一些特殊的应用之外，很大一部分是作弊的广告位。

本实施例中，作为其中的第二种差异在于，通过在软件开发工具包(SDK，SoftwareDevelopment Kit)可以将每个用户的点击的媒体信息展示位的位置进行上报，服务端会统计出每个媒体信息展示位的点击坐标分布情况。通过统计分析发现，通过作弊手段的媒体信息展示位的点击位置分布会与正常媒体信息展示位有所不同。

图7a至图7c分别为媒体信息展示位的点击位置分布示意图。图7a为正常的媒体信息展示位的点击位置分布示意图，如图7a所示，正常的媒体信息展示位的点击位置会根据媒体信息的样式、内容等具有一定的热点分布，例如某些区域的媒体信息展示位的坐标呈散点状分布；而某些区域的媒体信息展示位较受到用户的关注，其坐标呈集中状同分布。而异常的媒体信息展示位的点击位置分布可如图7b和图7c所示；由于作弊手段的媒体信息展示位的点击行为由程序化的固定模式而来，其点击位置会呈现一定的规律性，经数据分析，异常媒体信息展示位的点击位置的分布往往会呈现散点状或是集中状，具体可分别参照图7b和图7c所示；其中，图7b表示散点状的点击位置分布。图7c表示集中状的点击位置分布；图7c中线条的粗细程度以及虚实状态分别表示不同点击量；例如，细实线表示一种点击量；粗实线表示第二种点击量；虚线表示第三种点击量。

基于上述描述，本实施例步骤205至步骤207中，根据所述第三媒体信息展示位的点击位置信息计算第一参数，所述第一参数表征所述第三媒体信息展示位的点击位置的分布情况；当所述第一参数不在预设阈值范围内时，确定第三媒体信息展示位为疑似异常媒体信息展示位。其中，所述第一参数可通过熵值表示，即通过熵的算法识别媒体信息展示媒体信息展示位。

具体的，针对异常媒体信息展示位的点击位置的分布呈现散点状的情况，如图7b所示，从水平方向和垂直方向来看，坐标点也都是均匀分布的。所以如果能分辨出在水平方向或垂直方向的分布都很均匀，就能识别出点击位置的分布呈现散点状，即识别出媒体信息展示位的点击位置异常。在给定水平和垂直方向的区间范围的情况下，均匀分布可以使熵值达到最大。用熵来描述点击分布的均匀程度，以水平方向为例，其计算方法如下：

H(x)＝-∑p(x)log(p(x)) (1)

其中，x表示点击位置的横坐标；p(x)表示点击位置的横坐标为x时的概率；H(x)表示媒体信息展示位的点击位置的熵值。

另一方面，针对异常媒体信息展示位的点击位置的分布呈现集中状的情况，如图7c所示，当固定水平坐标值x时，垂直坐标y的取值是比较少的，即在已知横坐标x的情况下，纵坐标y的不确定性是比较小的，因此可以通过条件熵来表示，具体如下所示：

其中，x和y分别表示点击位置的横坐标和纵坐标；p(x)表示点击位置的横坐标为x时的概率；p(x，y)表示点击位置的横坐标为x、纵坐标为y时的概率；H(Y|X)表示媒体信息展示位的点击位置的熵值。

基于上述熵的计算方式，对每一个媒体信息展示位的点击位置计算第一参数，所述第一参数具体可以为熵值；针对不同类型的媒体信息展示位(所述类型例如横幅、插屏等类型)分别设置对应的预设阈值范围；当计算获得的媒体信息展示位的第一参数(例如熵值)不在预设阈值范围内时，可确定所述媒体信息展示位为疑似异常媒体信息展示位。例如，对插屏广告位来说，熵值在约8bit左右时可以认为其代表了某种情况下的均匀分布，可能有作弊嫌疑，即所述插屏广告位可以判定为疑似异常媒体信息展示位。

本实施例中，作为其中的第三种差异在于，对于实施例一中识别出的异常终端，假设一个广告位每天有100次点击，有占10％的点击来自这样的IMEI，那么可以通过以下公式大体估算此事件发生的概率：P＝(0.0022)¹⁰×(0.9978)⁹⁰。上述P是一个无限接近于0的数值，说明这种情况是个极小概率事件，若某广告位的流量上有大量的此类多地域出现的IMEI的话，那么它是作弊广告位的可能性很大。图8的分布也说明了这一点，正常的广告位中，异常终端占比都很小，例如在三千个广告位中，约有两千六百至两千七百个广告位中，点击上述广告位的终端中有不足5％的终端为异常终端；而有部分广告位中，异常终端占比超过10％；有约一百个广告位中，点击上述广告位的终端中有100％的终端为异常终端。

基于上述描述，本实施例步骤105至步骤107中，统计异常终端对应的媒体信息展示位中，第一媒体信息展示位对应的异常终端数量和终端总数量；所述第一媒体信息展示位为异常终端对应的媒体信息展示位中任一媒体信息展示位；计算所述异常终端数量与终端总数量的第一比值；当所述第一比值大于第二阈值时，将所述第一媒体信息展示位标记为疑似异常媒体信息展示位。

基于上述三种方式标记的疑似异常媒体信息展示位，即基于日夜点击行为的获得的第二比值、基于点击位置分布情况获得的第一参数以及基于异常终端(即用户维度)获得的第一比值，按预先设置的权重值分别计算对应异常媒体信息展示位对应的第二参数；其中，所述第一参数对应的权重值可相对较大；将每个参数与对应的权重值相乘并将结果相加，最终获得所述第二参数。比较所述第二参数是否大于第三阈值；当所述第二参数大于第三阈值时，确定所述第一疑似异常媒体信息展示位为异常媒体信息展示位。

图9为本发明实施例的信息处理方法的一种处理过程示意图；如图9所示，通过对日志***中的日志信息的获取，所获取的日志信息包括小时级日志(例如本实施例中所述的第一日志信息)和天级日志(例如本实施例中所述的第二日志信息)。一方面，基于小时级日志对作弊终端进行识别，按实施例一中所述方式确定异常终端，进一步地，所述判定所述第一终端信息对应的终端为异常终端后，所述方法还包括：将所述异常终端对应的媒体信息展示位的点击行为记为无效。另一方面，基于天级日志对作弊媒体信息展示位(例如广告位)进行识别，按实施例二中所述方式确定异常媒体信息展示位，进一步地，所述确定所述第一疑似异常媒体信息展示位为异常媒体信息展示位后，所述方法还包括：将针对所述异常媒体信息展示位的点击行为记为无效。

采用本发明实施例的技术方案，一方面，通过对媒体信息展示位存在点击行为的终端信息以及对应的地域信息进行分析，将地域数量大于第一阈值的终端判定为异常终端；另一方面，通过对媒体信息展示位的日夜点击量比值、以及点击位置分布情况进行分析，从而识别出异常媒体信息展示位，有效的解决了现有技术中的媒体信息展示的作弊技术手段无法准确检测识别出作弊用户的问题，也解决了现有技术中无法准确的统计获得媒体信息展示位的点击量，大大提升了媒体信息展示位的点击量的准确率，同时也保护了媒体信息投放方(例如广告主)的利益。

下面以具体的广告展示的应用场景对本发明实施例的信息处理方法进行详细说明。

图10为本发明实施例的信息处理方法的一种应用场景下的处理过程示意图；如图10所示，本应用场景下的信息处理方案包括两部分内容：异常用户的识别以及判罚过程，具体包括步骤41至步骤43；异常广告位的识别以及判罚过程，具体包括步骤51至步骤57以及步骤44、45至步骤54。其中，异常用户的识别以及判罚过程具体包括：

步骤41：获得小时级日志信息。

具体的，服务器可通过设置一小时的定时器；每当定时器定时时间到时，获得日志***中在一个小时时间范围内的IMEI以及对应的地址信息。

步骤42：每小时计算多地出现的异常IMEI。

其中，可在获得小时级日志信息之后统计每个IMEI在当前一个小时范围内出现的地域信息；当确定某个IMEI在一个小时范围内出现的地域数量达到预设阈值(例如3)时，则确定该IMEI为异常IMEI。

步骤43：异常用户推送线上判罚。

具体的，将异常IMEI对应的终端判定为异常终端，也可以理解为将异常IMEI对应的用户判定为异常用户。将异常用户推送线上判罚具体包括：将所述异常终端对应的点击行为记为无效。

异常广告位的识别以及判罚过程具体包括三部分内容：第一部分内容为通过识别广告位中的异常用户的点击数的比值确定疑似异常广告位；第二部分内容为通过识别广告位的日夜点击量比确定疑似异常广告位；第三部分内容为通过是被广告位点击的坐标分布情况确定疑似异常广告位；再对上述三种方式确定的疑似异常广告位进行统计从而确定最终的异常广告位。具体包括：

步骤44：将异常IMEI按广告位聚合，统计广告位的点击中，异常用户的数量以及用户总数量。

步骤45：判断异常用户的数量与用户总数量的占比是否超出预设阈值；当判定异常用户的数量与用户总数量的占比超出预设阈值时，确定该广告位为疑似异常广告位，将所述疑似异常广告位推送至步骤54中进行异常广告位的判定。

具体的，按照实施例二中的分析描述，正常的广告位点击中，异常用户的占比很小；如果某广告位的点击中，异常用户的占比较大，则可确定该广告位为疑似异常广告位。

步骤51：获得天级别日志。

具体的，服务器可通过在每天的固定时刻获得前一天的日志信息。

步骤52：基于获得的天级别日志计算每个广告位的日夜点击量比。

步骤53：判断日夜点击量比是否超出预设阈值，当确定日夜点击量比超出预设阈值时，可确定该广告位为疑似异常广告位，将所述疑似异常广告位推送至步骤54中进行异常广告位的判定。

步骤55：基于获得的天级别日志统计广告位点击坐标分布情况。

步骤56：计算表征点击坐标的集中与分散程度的参数，进一步执行步骤54。

具体的，所述计算表征点击坐标的集中与分散程度的参数，可通过计算广告位的点击坐标的熵确定。

步骤53：判断所述参数是否大于预设阈值，当确定所述参数大于预设阈值时，可确定该广告位为疑似异常广告位，将所述疑似异常广告位推送至步骤54中进行异常广告位的判定。当然，在这里执行步骤53时，进行比较的预设阈值与上述与日夜点击量比进行比较的预设阈值不同。

步骤54：根据上述三种方式确定的疑似异常广告位进行异常广告位的判定，具体的，可针对上述三种方式确定的疑似异常广告位进行异常广告位预先配置相对应的权重值。上述三种方式确定的疑似异常广告位对应三种参数：基于日夜点击行为的获得的表征日夜点击量的第二比值、基于点击位置分布情况获得的表征点击坐标的集中或分散程度的第一参数以及基于异常终端(即用户维度)获得的表征异常用户与用户总量的第一比值；将每个参数与对应的权重值相乘并将结果相加，最终获得的记过如果大于预设阈值，则可确定该疑似异常广告位为异常广告位。

步骤57：将异常广告位推送线上判罚。

具体的，将异常广告位推送线上判罚具体包括：将针对所述异常广告位对应的点击行为记为无效。

实施例三

基于实施例一，本发明实施例还提供了一种服务器。图11为本发明实施例的服务器的第一种组成结构示意图；如图11所示，所述服务器包括：数据获取单元31、数据分析单元32和确定单元33；其中，

所述数据获取单元31，用于获得第一日志信息；

所述数据分析单元32，用于基于所述数据获取单元31获得的第一日志信息获得终端信息及对应的地域信息；所述终端信息对应于对媒体信息展示位存在点击行为的终端；判断第一预设时间范围内所述终端信息对应的地域数量是否大于第一阈值；

所述确定单元33，用于基于所述数据分析单元32获得的判断结果获得对应的地域数量大于第一阈值的第一终端信息，判定所述第一终端信息对应的终端为异常终端。

本实施例中，基于实施例一的具体描述，所述数据分析单元32获得媒体信息推送平台中的终端信息以及对应的地域信息，所述地域信息具体可通过市级区域范围表示。当低于预设时间范围(例如一个小时)内第一终端信息对应的低于数量大于第一阈值(例如3)时，所述确定单元33可确定所述第一终端信息对应的第一终端为异常终端。

作为一种实施方式，所述服务器还包括第一判罚单元35，用于所述确定单元33判定所述第一终端信息对应的终端为异常终端后，将所述异常终端对应的媒体信息展示位的点击行为记为无效。

本领域技术人员应当理解，本发明实施例的服务器中各处理单元的功能，可参照前述信息处理方法的相关描述而理解，本发明实施例的服务器中各处理单元，可通过实现本发明实施例所述的功能的模拟电路而实现，也可以通过执行本发明实施例所述的功能的软件在智能终端上的运行而实现。

实施例四

基于实施例二，本发明实施例还提供了一种服务器；图12为本发明实施例的服务器的第二种组成结构示意图；如图12所示，所述服务器包括：数据获取单元31、数据分析单元32、确定单元33和设置单元34；其中，

所述数据获取单元31，用于获得第一日志信息；

所述数据分析单元32，用于基于所述数据获取单元31获得的第一日志信息获得终端信息及对应的地域信息；所述终端信息对应于对媒体信息展示位存在点击行为的终端；判断第一预设时间范围内所述终端信息对应的地域数量是否大于第一阈值；还用于统计异常终端对应的媒体信息展示位中，第一媒体信息展示位对应的异常终端数量和终端总数量；所述第一媒体信息展示位为异常终端对应的媒体信息展示位中任一媒体信息展示位；计算所述异常终端数量与终端总数量的第一比值；

所述确定单元33，用于基于所述数据分析单元32获得的判断结果获得对应的地域数量大于第一阈值的第一终端信息，判定所述第一终端信息对应的终端为异常终端；还用于当所述第一比值大于第二阈值时，将所述第一媒体信息展示位标记为疑似异常媒体信息展示位；

所述数据获取单元31，还用于获得第二日志信息；所述第二日志信息的时间范围大于所述第一日志信息的时间范围；

所述数据分析单元32，还用于基于所述第二日志信息获得第二媒体信息展示位在第一预设时间范围内的第一点击量以及在第二预设时间范围内的第二点击量；所述第一预设时间范围表征白天的时间范围；所述第二预设时间范围表征夜晚的时间范围；计算所述第一点击量与所述第二点击量的第二比值；还用于基于所述第二日志信息获得第三媒体信息展示位的点击位置信息；根据所述第三媒体信息展示位的点击位置信息计算第一参数，所述第一参数表征所述第三媒体信息展示位的点击位置的分布情况；判断所述第一参数是否在预设阈值范围内；

所述确定单元33，还用于当所述第二比值小于第二阈值时，判定所述第二媒体信息展示位为疑似异常媒体信息展示位；还用于当所述第一参数不在预设阈值范围内时，确定第三媒体信息展示位为疑似异常媒体信息展示位；

所述设置单元34，用于分别设置第一比值、所述第二比值和所述第一参数对应的权重值；

所述确定单元33，还用于根据所述第一比值、所述第二比值和所述第一参数按对应的权重值进行计算获得第一疑似异常媒体信息展示位对应的第二参数；当所述第二参数大于第三阈值时，确定所述第一疑似异常媒体信息展示位为异常媒体信息展示位。

本实施例中，所述数据获取单元31获取第一日志信息，以及第二日志信息；其中，所述第一日志信息为较短时间范围内日志信息，作为一种实施方式，所述第一日志信息可以为小时级日志信息，例如一小时的日志信息；当然不限于小时级日志信息，也可以为分钟级日志信息等等。所述第二日志信息的时间范围大于所述第一日志信息的时间范围；所述第二日志信息相对于所述第一日志信息具有较长的时间范围；作为一种实施方式，所述第二日志信息可以为天级日志信息；当然不限于一天时间范围内的日志信息，也可以是十天范围内的日志信息等等。

基于实施例二的描述，第一方面，所述数据分析单元32基于第二日志信息对媒体信息展示位在第一预设时间范围内的第一点击量(即日点击量)以及在第二预设时间范围内的第二点击量(即夜点击量)进行分析，计算日点击量与夜点击量的比值。所述确定单元33当所述比值小于第二阈值时，判定相应的媒体信息展示位为疑似异常媒体信息展示位。

第二方面，所述数据分析单元32基于第二日志信息对媒体信息展示位的点击位置信息进行分析，基于媒体信息展示位的点击位置信息计算第一参数(即熵值)。所述确定单元33当所述第一参数(即熵值)不在预设阈值范围内时，确定第三媒体信息展示位为疑似异常媒体信息展示位。

第三方面，所述数据分析单元32针对所述确定单元33判定的异常终端，对异常终端涉及的媒体信息展示位进行分析，计算媒体信息展示位中异常终端与终端总量的比值；当所述比值大于第二阈值时，所述确定单元33将所述第一媒体信息展示位标记为疑似异常媒体信息展示位。

结合上述三方面，所述确定单元33基于所述设置单元34设置的权重值，分别计算对应异常媒体信息展示位对应的第二参数；其中，所述第一参数对应的权重值可相对较大；将每个参数与对应的权重值相乘并将结果相加，最终获得所述第二参数。比较所述第二参数是否大于第三阈值；当所述第二参数大于第三阈值时，确定所述第一疑似异常媒体信息展示位为异常媒体信息展示位。

作为另一种实施方式，所述服务器包括第二判罚单元36，用于所述确定单元33判定第一疑似异常媒体信息展示位为异常媒体信息展示位后，将针对所述异常媒体信息展示位的点击行为记为无效。

本发明实施例三和实施例四中，所述服务器中的数据获取单元31、数据分析单元32、确定单元33、设置单元34、第一判罚单元35和第二判罚单元36，在实际应用中均可由所述服务器的中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，DigitalSignal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)实现。

图13为本发明实施例的服务器模块化的具体结构示意图，如图13所示，作弊终端识别模块、点击日夜比异常识别模块和点击位置分布异常识别模块分别从日志***中获得日志信息；其中，作弊终端识别模块获得小时级日志信息；点击日夜比异常识别模块和点击位置分布异常识别模块分别获得天级日志信息。策略配置信息将作弊判定策略配置给策略更新模块。作弊终端识别模块、点击日夜比异常识别模块和点击位置分布异常识别模块依据策略更新模块中的作弊判定策略进行分析识别；策略更新模块获得异常终端和异常媒体信息展示位(即异常广告位)。线上实时***接收到计费模块的请求后，依据获得的判定结果进行判罚，对异常终端进行的点击行为记为无效，对针对异常媒体信息展示位的点击行为记为无效；同时，记为模块对记为无效的点击行为不进行计费。

本实施例中，服务器作为硬件实体的一个示例如图14所示。所述服务器包括处理器61、存储介质62以及至少一个外部通信接口63；所述处理器61、存储介质62以及外部通信接口63均通过总线64连接。

这里需要指出的是：以上涉及服务器项的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述。对于本发明服务器实施例中未披露的技术细节，请参照本发明方法实施例的描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种异常媒体信息展示位的识别方法，其特征在于，所述方法包括：

通过识别第一媒体信息展示位中的异常终端的点击数的比值确定第一疑似异常媒体信息展示位；其中，所述通过识别第一媒体信息展示位中的异常终端的点击数的比值确定第一疑似异常媒体信息展示位，包括：获得第一日志信息；基于所述第一日志信息获得终端信息及对应的表征终端所在位置的地域数量；所述终端信息对应于对媒体信息展示位存在点击行为的终端；当第一预设时间范围内所述终端信息对应的地域数量大于第一阈值时，获得对应的地域数量大于第一阈值的第一终端信息，判定所述第一终端信息对应的终端为异常终端；获取所述异常终端对应的第一媒体信息展示位对应的异常终端数量和终端总数量；当所述异常终端数量与终端总数量的第一比值大于第二阈值时，将所述第一媒体信息展示位标记为第一疑似异常媒体信息展示位；

通过识别第二媒体信息展示位的日夜点击量比确定第二疑似异常媒体信息展示位；其中，所述通过识别第二媒体信息展示位的日夜点击量比确定第二疑似异常媒体信息展示位，包括：获取所述第二媒体信息展示位对应的第二日志信息，所述第二日志信息至少包括日夜点击行为；基于所述日夜点击行为，确定所述第二媒体信息展示位为第二疑似异常媒体信息展示位；

通过识别第三媒体信息展示位点击的坐标分布情况确定第三疑似异常媒体信息展示位；其中，所述第二日志信息还包括点击位置信息，所述通过识别第三媒体信息展示位点击的坐标分布情况确定第三疑似异常媒体信息展示位，包括：基于所述点击位置信息，确定所述第三媒体信息展示位为第三疑似异常媒体信息展示位；

对所述第一疑似异常媒体信息展示位、所述第二疑似异常媒体信息展示位、以及所述第三疑似异常媒体信息展示位进行统计识别异常媒体信息展示位。

2.根据权利要求1所述的方法，其特征在于，所述第二日志信息的时间范围大于所述第一日志信息的时间范围，所述通过识别第二媒体信息展示位的日夜点击量比确定第二疑似异常媒体信息展示位，具体包括：

计算所述第一点击量与所述第二点击量的第二比值；

当所述第二比值小于第二阈值时，判定所述第二媒体信息展示位为第二疑似异常媒体信息展示位。

3.根据权利要求2所述的方法，其特征在于，所述获得第二日志信息后，所述通过识别第三媒体信息展示位点击的坐标分布情况确定第三疑似异常媒体信息展示位，具体包括：

当所述第一参数不在预设阈值范围内时，确定第三媒体信息展示位为第三疑似异常媒体信息展示位。

4.根据权利要求3所述的方法，其特征在于，所述对所述第一疑似异常媒体信息展示位、所述第二疑似异常媒体信息展示位、以及所述第三疑似异常媒体信息展示位进行统计识别异常媒体信息展示位，具体包括：

分别设置第一比值、所述第二比值和所述第一参数对应的权重值；

根据所述第一比值、所述第二比值和所述第一参数按对应的权重值进行计算获得第二参数；

当所述第二参数大于第三阈值时，确定所述第一疑似异常媒体信息展示位、所述第二疑似异常媒体信息展示位、以及所述第三疑似异常媒体信息展示位中的异常媒体信息展示位。

5.根据权利要求4所述的方法，其特征在于，所述确定所述第一疑似异常媒体信息展示位、所述第二疑似异常媒体信息展示位、以及所述第三疑似异常媒体信息展示位中的异常媒体信息展示位后，所述方法还包括：将针对所述异常媒体信息展示位的点击行为记为无效。

6.一种服务器，其特征在于，所述服务器包括：数据获取单元、数据分析单元、确定单元；其中，

所述数据获取单元，用于获得第一日志信息；

所述数据分析单元，用于通过识别第一媒体信息展示位中的异常终端的点击数的比值确定第一疑似异常媒体信息展示位，其中，所述通过识别第一媒体信息展示位中的异常终端的点击数的比值确定第一疑似异常媒体信息展示位，包括：基于所述第一日志信息获得终端信息及对应的表征终端所在位置的地域数量；所述终端信息对应于对媒体信息展示位存在点击行为的终端；当第一预设时间范围内所述终端信息对应的地域数量大于第一阈值时，获得对应的地域数量大于第一阈值的第一终端信息，判定所述第一终端信息对应的终端为异常终端；获取所述异常终端对应的第一媒体信息展示位对应的异常终端数量和终端总数量；

所述确定单元，用于当所述异常终端数量与终端总数量的第一比值大于第二阈值时，将所述第一媒体信息展示位标记为第一疑似异常媒体信息展示位；

所述数据获取单元，还用于获取第二媒体信息展示位对应的第二日志信息，所述第二日志信息至少包括日夜点击行为和点击位置信息；

所述确定单元，还用于通过识别所述第二媒体信息展示位的日夜点击量比确定第二疑似异常媒体信息展示位；其中，所述通过识别所述第二媒体信息展示位的日夜点击量比确定第二疑似异常媒体信息展示位，包括：基于所述日夜点击行为，确定所述第二媒体信息展示位为第二疑似异常媒体信息展示位；以及，通过识别第三媒体信息展示位点击的坐标分布情况确定第三疑似异常媒体信息展示位；其中，所述通过识别第三媒体信息展示位点击的坐标分布情况确定第三疑似异常媒体信息展示位，包括：基于所述点击位置信息，确定所述第三媒体信息展示位为第三疑似异常媒体信息展示位，以及对所述第一疑似异常媒体信息展示位、所述第二疑似异常媒体信息展示位、以及所述第三疑似异常媒体信息展示位进行统计识别异常媒体信息展示位。

7.根据权利要求6所述的服务器，其特征在于，所述第二日志信息的时间范围大于所述第一日志信息的时间范围；

所述数据分析单元，具体用于基于所述第二日志信息获得第二媒体信息展示位在第一预设时间范围内的第一点击量以及在第二预设时间范围内的第二点击量；所述第一预设时间范围表征白天的时间范围；所述第二预设时间范围表征夜晚的时间范围；计算所述第一点击量与所述第二点击量的第二比值；

所述确定单元，具体用于当所述第二比值小于第二阈值时，判定所述第二媒体信息展示位为第二疑似异常媒体信息展示位。

8.根据权利要求7所述的服务器，其特征在于，所述数据分析单元，具体用于根据所述第三媒体信息展示位的点击位置信息计算第一参数，所述第一参数表征所述第三媒体信息展示位的点击位置的分布情况；判断所述第一参数是否在预设阈值范围内；

所述确定单元，具体用于当所述第一参数不在预设阈值范围内时，确定第三媒体信息展示位为第三疑似异常媒体信息展示位。

9.根据权利要求8所述的服务器，其特征在于，所述服务器还包括设置单元，用于分别设置第一比值、所述第二比值和所述第一参数对应的权重值；

所述确定单元，具体用于根据所述第一比值、所述第二比值和所述第一参数按对应的权重值进行计算获得第二参数；当所述第二参数大于第三阈值时，确定所述第一疑似异常媒体信息展示位、所述第二疑似异常媒体信息展示位、以及所述第三疑似异常媒体信息展示位中的异常媒体信息展示位。

10.根据权利要求9所述的服务器，其特征在于，所述服务器包括第二判罚单元，用于所述确定单元判定所述第一疑似异常媒体信息展示位、所述第二疑似异常媒体信息展示位、以及所述第三疑似异常媒体信息展示位中的异常媒体信息展示位后，将针对所述异常媒体信息展示位的点击行为记为无效。

11.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现如权利要求1至5任一项所述的异常媒体信息展示位的识别方法。