CN103970727A - 基于话题的反作弊方法、装置和服务器 - Google Patents

基于话题的反作弊方法、装置和服务器 Download PDF

Info

Publication number
CN103970727A
CN103970727A CN201310034406.7A CN201310034406A CN103970727A CN 103970727 A CN103970727 A CN 103970727A CN 201310034406 A CN201310034406 A CN 201310034406A CN 103970727 A CN103970727 A CN 103970727A
Authority
CN
China
Prior art keywords
information
characteristic parameter
topic
words
digit strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310034406.7A
Other languages
English (en)
Other versions
CN103970727B (zh
Inventor
吴志坚
陈斌
赵子轩
覃武权
何建国
***
林松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310034406.7A priority Critical patent/CN103970727B/zh
Publication of CN103970727A publication Critical patent/CN103970727A/zh
Application granted granted Critical
Publication of CN103970727B publication Critical patent/CN103970727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于话题的反作弊方法、装置和服务器,属于计算机技术领域。基于话题的反作弊方法包括:获取目标用户账户在预定时间窗口内发布的携带有话题的信息;计算信息的至少一种特征参数;分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件;统计检测结果为符合预定条件的特征参数的个数;检测符合预定条件的特征参数的个数是否达到作弊认定条件;若达到作弊认定条件,则将目标用户账户认定为作弊用户账户。解决了现有的基于话题的反作弊方法识别在判定目标用户账户是否为作弊用户账户时,识别准确率低并且计算复杂度高效率低的问题。

Description

基于话题的反作弊方法、装置和服务器
技术领域
本发明涉及计算机技术领域,特别涉及一种基于话题的反作弊方法、装置和服务器。
背景技术
话题是诸如微博、论坛、空间和博客等社区中常见的一种相关信息的聚合信息列表,通常以“#话题#”的形式存在于一条信息中。由于带有话题的信息可以被社区中的所有用户通过检索来查看,具有很高的曝光率,所以一些用户通过发表一条内容与话题完全无关的信息来推广自己的产品或者赚取关注度,所以如何避免用户利用话题的高曝光率而进行作弊的行为已经成为计算机领域技术人员当前重要的研究课题之一。
现有的一种基于话题的反作弊方法是:第一,服务器获取目标用户账户发布的信息,并采用预定分词方法对获取的信息中的话题进行分词;第二,服务器计算分词后得到的词语与信息内容的相关度,当相关度达到一定阈值时,认为该目标用户账户为作弊用户账户,从而服务器屏蔽该目标用户账户在之后一段时间内发布的所有信息。
在实现本发明的过程中,发明人发现现有技术至少存在如下问题:
由于服务器是通过计算话题中的词语与信息内容的相关度来判定目标用户账户是否作弊,所以这就导致当用户发表的信息内容与话题隐性相关时,服务器也会将该目标用户账户误判为作弊,识别准确率较低;同时,由于服务器需要对信息中的话题进行分词,而现有的分词技术实现起来较为复杂并且计算效率低,所以现有方法在具体实现时计算复杂度高并且效率低。
发明内容
为了解决现有技术中基于话题的反作弊方法判定目标用户账户是否为作弊用户账户时,识别准确率低并且计算复杂度高效率低的问题,本发明实施例提供了一种基于话题的反作弊方法、装置和服务器。所述技术方案如下:
第一方面,提供了一种基于话题的反作弊方法,所述方法包括:
获取目标用户账户在预定时间窗口内发布的携带有话题的信息;
计算所述信息的至少一种特征参数;
分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件;
统计检测结果为符合预定条件的特征参数的个数;
检测符合预定条件的特征参数的个数是否达到作弊认定条件;
若达到作弊认定条件,则将所述目标用户账户认定为作弊用户账户。
第二方面,提供了一种基于话题的反作弊装置,所述装置包括:
信息获取模块,用于获取目标用户账户在预定时间窗口内发布的携带有话题的信息;
参数计算模块,用于计算所述信息的至少一种特征参数;
第一检测模块,用于分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件;
参数统计模块,用于统计检测结果为符合预定条件的特征参数的个数;
第二检测模块,用于检测符合预定条件的特征参数的个数是否达到作弊认定条件;
结果判定模块,用于若所述第二检测模块的检测结果为符合预定条件的特征参数的个数达到作弊认定条件,则将所述目标用户账户认定为作弊用户账户。
本发明实施例提供的技术方案的有益效果是:
通过在获取到目标用户账户在预定时间窗口内发布的携带有话题的信息之后,计算信息的至少一种特征参数,从而检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件,并且只有当符合预定条件的特征参数的个数达到作弊认定条件时,将目标用户账户认定为作弊用户账户;解决了现有的基于话题的反作弊方法识别在判定目标用户账户是否为作弊用户账户时,识别准确率低并且计算复杂度高效率低的问题;达到了服务器可以根据目标用户账户的特征参数来检测是否是作弊用户账户,从而提高了作弊用户账户的识别准确率,降低计算复杂度和计算效率的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的基于话题的反作弊方法的方法流程图;
图2是本发明实施例二提供的基于话题的反作弊方法的方法流程图;
图3是本发明实施例三提供的基于话题的反作弊装置的结构方框图;
图4是本发明实施例四提供的基于话题的反作弊装置的结构方框图;
图5是本发明实施例四提供的参数计算模块的结构方框图;
图6是本发明实施例四提供的基于话题的反作弊装置的另一结构方框图;
图7是本发明实施例四提供的阈值计算模块的结构方框图;
图8是本发明实施例四提供的样本计算单元的结构方框图;
图9是本发明实施例四提供的阈值计算模块的另一结构方框图;
图10是本发明实施例四提供的基于话题的反作弊装置的另一结构方框图;
图11是本发明实施例四提供的第二检测模块的结构方框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
请参考图1,其示出了本发明实施例一提供的基于话题的反作弊方法的方法流程图,该基于话题的反作弊方法,包括:
步骤101,获取目标用户账户在预定时间窗口内发布的携带有话题的信息;
步骤102,计算信息的至少一种特征参数;
服务器可以计算信息的至少一种特征参数。特征参数的种类可以包括信息中数字字符串的个数、数字字符串去重后的个数、数字字符串的个数与数字字符串去重后的个数的比例、网页链接的个数、图片的个数、视频的个数、单条信息中话题个数最多的话题数、单条信息中话题字数与信息字数比值的最大值、发布两条信息的时间间隔的最小值、完全相同的信息条数的最大值、去重后的话题个数、相同话题的信息条数的最大值、信息总条数、信息字数超过第一阈值的信息条数、信息字数超过第一阈值的信息条数与信息总条数的比例或信息字数的均方差。
步骤103,分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件;
步骤104,统计检测结果为符合预定条件的特征参数的个数;
步骤105,检测符合预定条件的特征参数的个数是否达到作弊认定条件;
步骤106,若达到作弊认定条件,则将目标用户账户认定为作弊用户账户。
综上所述,本实施例提供的基于话题的反作弊方法,通过在获取到目标用户账户在预定时间窗口内发布的携带有话题的信息之后,计算信息的至少一种特征参数,从而检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件,并且只有当符合预定条件的特征参数的个数达到作弊认定条件时,将目标用户账户认定为作弊用户账户;解决了现有的基于话题的反作弊方法识别在判定目标用户账户是否为作弊用户账户时,识别准确率低并且计算复杂度高效率低的问题;达到了服务器可以根据目标用户账户的特征参数来检测是否是作弊用户账户,从而提高了作弊用户账户的识别准确率,降低计算复杂度和计算效率的效果。
实施例二
请参考图2,其示出了本发明实施例二提供的基于话题的反作弊方法,该方法可以应用于如微博、论坛、空间和博客等可以发表带有话题的社区服务器中,该基于话题的反作弊方法,包括:
步骤201,获取目标用户账户在预定时间窗口内发布的携带有话题的信息;
当服务器需要判定目标用户账户是否是作弊用户账户时,服务器可以获取目标用户账户在预定时间窗口内发布的携带话题的信息。
比如,在微博社区中,当服务器需要判定微博用户账户A会否是作弊用户账户时,则服务器可以获取A在预定时间窗口如“24小时”内发布的所有微博信息,并且从中提取出携带话题的微博信息。
步骤202,计算信息的至少一种特征参数;
服务器可以计算信息的至少一种特征参数。特征参数的种类可以包括信息中数字字符串的个数、数字字符串去重后的个数、数字字符串的个数与数字字符串去重后的个数的比例、网页链接的个数、图片的个数、视频的个数、单条信息中话题个数最多的话题数、单条信息中话题字数与信息字数比值的最大值、发布两条信息的时间间隔的最小值、完全相同的信息条数的最大值、去重后的话题个数、相同话题的信息条数的最大值、信息总条数、信息字数超过第一阈值的信息条数、信息字数超过第一阈值的信息条数与信息总条数的比例或信息字数的均方差。
由于每种特征参数都不相同,所以在计算每种特征参数时可以采用不同的方式。具体包括:
第一,若特征参数的种类包括数字字符串的个数,则统计信息中数字字符串的个数;
由于用户账户在通过携带话题的信息来推广自己的产品,也即用户账户是作弊用户账户时,用户账户通常在发布的信息中添加诸如QQ号、手机号或固定电话等联系方式,所以特征参数的种类可以包括数字字符串的个数,并且当特征参数的种类包括数字字符串的个数时,服务器可以统计信息中数字字符串的个数。比如,服务器计算得到目标用户账户A在24小时内发布的信息中的数字字符串的个数为“10个”。
第二,若特征参数的种类包括数字字符串去重后的个数,则统计信息中内容不同的数字字符串的个数;
为了能够获取信息中不同的数字字符串的个数,特征参数的种类还可以包括数字字符串去重后的个数,并且当特征参数的种类包括数字字符串去重后的个数,服务器可以检测信息中是否有内容相同的数字字符串,并且统计其中内容不同的数字字符串的个数。比如,服务器计算得到目标用户账户A在24小时内发布的信息中的数字字符串的个数为“10个”,并且检测到10条数字字符串中有4条数字字符串的内容相同,所以服务器可以计算得到数字字符串去重后的个数为“7个”。
第三,若特征参数的种类包括数字字符串的个数与数字字符串去重后的个数的比例,则统计信息中数字字符串的个数和信息中内容不同的数字字符串的个数,并计算两者的比值;
服务器还可以设定特征参数的种类包括数字字符串的个数与数字字符串去重后的个数的比例,此时,服务器可以计算信息中数字字符串的个数和信息中内容不同的数字字符串的个数,并且计算两者的比值。
第四,若特征参数的种类包括网页链接的个数,则统计信息中网页链接的个数;
由于用户账户在通过携带话题的信息来推广自己的产品,也即用户账户是作弊用户账户时,用户账户还会在发布的信息中添加网页链接,所以特征参数的种类可以包括网页链接的个数,并且当特征参数的种类包括网页链接的个数时,服务器可以统计信息中网页链接的个数。
第五,若特征参数的种类包括图片的个数,则统计信息中图片的个数;
作弊用户账户还会在发布的信息中添加图片来吸引其他用户账户的眼球,从而达到推广自己产品的目的,所以特征参数的种类还可以包括图片的个数,并且当特征参数的种类包括图片的个数时,服务器可以统计信息中图片的个数。
第六,若特征参数的种类包括视频的个数,则统计信息中视频的个数;
作弊用户账户还会在发布的信息中添加视频来吸引其他用户账户的眼球,从而达到推广自己产品的目的,所以特征参数的种类还可以包括视频的个数,并且当特征参数的种类包括视频的个数时,服务器可以统计信息中视频的个数。
第七,若特征参数的种类包括单条信息中话题个数最多的话题数,则统计每条信息中的话题个数,并选择话题个数最多的话题数;
为了被更多的用户账户检索到自己发布的信息,作弊用户账户还会在发布的信息中携带多个话题,所以特征参数的种类包括单条信息中话题个数最多的话题数,并且当特征参数的种类包括单条信息中话题个数最多的话题数,服务器可以统计信息中每条信息中携带的话题个数,并且从中选择话题个数最多的话题数。比如,服务器获取目标用户账户A在24小时内发布的信息的条数是“15条”,其中1条信息中的话题个数为“4个”、1条信息中的话题个数为“3个”、2条信息中的话题个数为“2个”以及其他信息中的话题个数均为“1个”,所以当特征参数是单条信息中话题个数最多的话题数,服务器计算得到的结果为“4个”。
第八,若特征参数的种类包括单条信息中话题字数与信息字数比值的最大值,则统计每条信息中话题字数与信息字数的比值,并选择比值最大的数值作为特征值;
为了被更多的用户账户检索到自己发布的信息,作弊用户账户还会在发布的信息中携带多个话题,并且在该信息中只发布很短的内容,此时,用户账户作弊动机明显,所以特征参数的种类可以包括单条信息中话题字数与信息字数比值的最大值;并且此时,服务器计算信息中每条信息的话题字数与信息字数的比值,并且从中选择出比值最大的数值作为特征参数值。
第九,若特征参数的种类包括发布两条信息的时间间隔的最小值,则分别计算目标用户账户发布任意两条信息的时间间隔,并选择其中时间间隔的最小值;
当用户账户发布的信息是推广产品的信息时,这些信息一般都是预先已经编辑好,每次发布时只是简单的拷贝,并且为了使得更多的其他用户账户能够检索到自己发布的信息,用户账户通常频繁的发布信息,所以特征参数的种类包括发布两条信息的时间间隔的最小值,并且此时,服务器计算目标用户账户发布任意两条信息的时间间隔,并选择其中时间间隔最小的数值作为特征参数。
第十,若特征参数的种类包括完全相同的信息条数的最大值,则统计信息中内容相同的信息的条数,并选择内容相同的信息条数的最大值;
当用户账户发布的信息是推广产品的信息时,这些信息一般都是预先已经编辑好,每次发布时只是简单的拷贝,并且为了使得更多的其他用户账户能够检索到自己发布的信息,用户账户通常将同一条信息多次发布,所以特征参数的种类包括完全相同的信息条数的最大值,并且此时,服务器统计信息中内容相同的信息的条数,并从中选择内容相同的信息条数的最大值。
第十一,若特征参数的种类包括去重后的话题个数,则统计信息中话题不同的话题个数;
为了增加自己发布的信息被检索的次数,用户账户会在同一个热门话题下发布多条信息,所以特征参数的种类包括去重后的话题个数,并且此时服务器可以检测每条信息的话题,并且计算话题不同的话题个数。
第十二,若特征参数的种类包括相同话题的信息条数的最大值,则统计信息中具有相同话题的信息条数,并选择其中信息条数的最大值;
为了增加自己发布的信息被检索的次数,用户账户会在同一个热门话题下发布多条信息,所以特征参数的种类包括相同话题的信息条数的最大值,并且此时服务器可以检测每条信息的话题,统计信息中具有相同话题的信息条数,并且选择其中信息条数的最大值。
第十三,若特征参数的种类包括信息总条数,则统计信息的总条数;
为了增加自己发布的信息被检索的次数,用户账户在一定时间内会频繁的发布信息,所以特征参数的种类包括信息总条数,此时服务器可以统计已经获取的信息的总条数。
第十四,若特征参数的种类包括信息字数超过第一阈值的信息条数,则统计每条信息的信息字数,并计算信息字数超过第一阈值的信息条数;
由于用户账户在发布信息时,发布的内容是当时的心情或想要分享的事件,通常信息字数都比较少,而当用户账户发布信息是广告时,信息字数都比较多,所以特征参数的种类包括信息字数超过第一阈值的信息条数,此时,服务器可以统计每条信息的字数,并计算信息字数超过第一阈值的信息条数。其中第一阈值是正整数如“100”,本实施例对此并不做限定。
第十五,若特征参数的种类包括信息字数超过第一阈值的信息条数与信息总条数的比值,则统计信息的总条数、每条信息的信息字数,根据信息字数计算信息字数超过第一阈值的信息条数,并计算信息字数超过第一阈值的信息条数与信息总条数的比值;
由于当用户账户发布信息是广告时,信息字数都比较多,所以为了判定目标用户账户发布的信息中有多少是广告,特征参数的种类包括信息字数超过第一阈值的信息条数与信息总条数的比值,此时,服务器可以统计信息的总条数、每条信息的字数、信息字数超过第一阈值的信息条数,并且计算信息字数超过第一阈值的信息条数与信息的总条数的比值。
第十六,若特征参数的种类包括信息字数的均方差,则统计信息中每条信息的信息字数,计算信息的信息字数的平均值,最后计算信息字数的均方差。
大多用户账户每次发布的信息的字数都会不同,而当用户账户发布的信息是广告时,用户账户每次发布的信息的字数比较接近,甚至每条信息的内容也即每条信息的字数完全一样,所以特征参数的种类包括信息字数的均方差,此时,服务器可以统计每条信息的字数、计算信息的信息字数的平均值,从而计算信息字数的均方差。
其中,设服务器计算得到的第i条信息的信息字数为si、信息中的信息字数的平均值为信息条数为n、信息字数的均方差为S,则均方差为:
S = Σ i = 1 n ( s i - s ‾ ) 2 n .
需要补充说明的一点是,当特征参数的种类包括信息中数字字符串的个数、数字字符串去重后的个数或数字字符串的个数与数字字符串去重后的个数的比例时,由于信息中的数字字符串不一定是联系方式,也有可能只是表示数字,所以在服务器计算信息的至少一种特征参数之前,服务器还可以检测信息中的数字字符串,并且抛弃数字字符串的字符数小于等于第二阈值的数字字符串;比如,当前当数字字符串的字符数大于等于4时,即可认为该数字字符串是QQ号或者电话号码,所以可以设置第二阈值为4,当然在实际应用中,可以根据不同需求为第二阈值设置不同的数值,本实施例对此并不做限定;
需要补充说明的另一点是,服务器可以计算上述16中特征参数中的几种,计算的特征参数越多,作弊用户账户的判定越准确。为此,服务器可以获取信息的至少5种、8种、10种特征参数来进行分析,优选可以计算上述全部16种特征参数。当然,特征参数也可以不局限于上述16种特征信息,还可以包括其它第17种特征参数,第18种特征参数等,本实施例对此并不做限定。
步骤203,通过二值分类法计算每种特征参数对应的预设阈值;
在服务器计算得到至少一种特征参数之后,服务器可以通过二值分类法计算每种特征参数对应的预设阈值。具体的,由于本实施例中是为了判定目标用户账户是否为作弊用户账户,所以服务器可以计算每种特征参数与作弊率之间的对应关系。其中,常用的二值分类法包括logistic回归、决策树、神经网络或报表统计。本实施例以通过报表统计来计算为例,具体的计算方法包括:
第一,建立第一样本用户账户集和第二样本用户账户集;
服务器建立第一样本用户账户集和第二样本用户账户集。其中,第一样本用户账户集包括第一预定个数的已经确定为作弊用户账户的用户账户,第二样本用户账户集包括第二预定个数的随机选取的用户账户,第一样本用户账户集和第二样本用户账户集的并集称为样本用户账户集。
需要说明的是,已经确定为作弊用户账户的用户账户可以是通过人工挖掘得到的用户账户,本实施例对其具体的确定方法并不做具体限定,,同时,为了使得计算得到的特征参数对应的预设阈值的结果更加准确,服务器可以选择相近个数的用户账户作为第一样本用户账户集和第二样本用户账户集中的用户账户,也即第一预定个数和第二预定个数的数值相近,本实施例以第一预定个数等于第二预定个数为例。
第二,获取样本用户账户集中的每个用户账户在采样时间窗口内发布的携带有话题的信息;
在服务器选择得到样本用户账户集之后,服务器可以获取样本用户账户集中的每个用户账户在采样时间窗口内发布的携带话题的信息,该步骤与步骤201类似,在此不再赘述。
需要补充说明的是,为了使得计算得到的特征参数对应的预设阈值更准确,避免一些偶然情况,服务器可以设置采样时间窗口为时间间隔比较长的时间窗口如“1个月”等,本实施例对采样时间窗口的时间长度并不做限定。
第三,对于样本用户账户集中的每个用户账户,计算信息的至少一种特征参数;
为了得到每个用户账户的每种特征参数与作弊率之间的对应关系,对于样本用户账户集中的每个用户账户,服务器可以计算信息的至少一种特征参数,具体步骤包括:
a,若特征参数的种类包括数字字符串的个数,则统计信息中数字字符串的个数;
b,若特征参数的种类包括数字字符串去重后的个数,则统计信息中内容不同的数字字符串的个数;
c,若特征参数的种类包括数字字符串的个数与数字字符串去重后的个数的比例,则统计信息中数字字符串的个数和信息中内容不同的数字字符串的个数,并计算两者的比值;
d,若特征参数的种类包括网页链接的个数,则统计信息中网页链接的个数;
e,若特征参数的种类包括图片的个数,则统计信息中图片的个数;
f,若特征参数的种类包括视频的个数,则统计信息中视频的个数;
g,若特征参数的种类包括单条信息中话题个数最多的话题数,则统计每条信息中的话题个数,并选择话题个数最多的话题数;
h,若特征参数的种类包括单条信息中话题字数与信息字数比值的最大值,则统计每条信息中话题字数与信息字数的比值,并选择比值最大的数值作为特征值;
i,若特征参数的种类包括发布两条信息的时间间隔的最小值,则分别计算目标用户账户发布任意两条信息的时间间隔,并选择其中时间间隔的最小值;
j,若特征参数的种类包括完全相同的信息条数的最大值,则统计信息中内容相同的信息的条数,并选择内容相同的信息条数的最大值;
k,若特征参数的种类包括去重后的话题个数,则统计信息中话题不同的话题个数;
l,若特征参数的种类包括相同话题的信息条数的最大值,则统计信息中具有相同话题的信息条数,并选择其中信息条数的最大值;
m,若特征参数的种类包括信息总条数,则统计信息的总条数;
n,若特征参数的种类包括信息字数超过第一阈值的信息条数,则统计每条信息的信息字数,并计算信息字数超过第一阈值的信息条数;
o,若特征参数的种类包括信息字数超过第一阈值的信息条数与信息总条数的比值,则统计信息的总条数、每条信息的信息字数,根据信息字数计算信息字数超过第一阈值的信息条数,并计算信息字数超过第一阈值的信息条数与信息总条数的比值;
p,若特征参数的种类包括信息字数的均方差,则统计信息中每条信息的信息字数,计算信息的信息字数的平均值,最后计算信息字数的均方差。
需要补充说明的一点是,当特征参数的种类包括信息中数字字符串的个数、数字字符串去重后的个数或数字字符串的个数与数字字符串去重后的个数的比例时,由于信息中的数字字符串不一定是联系方式,也有可能只是表示数字,所以在服务器计算信息的至少一种特征参数之前,服务器还可以检测信息中的数字字符串,并且抛弃数字字符串的字符数小于等于第二阈值的数字字符串;比如,当前当数字字符串的字符数大于等于4时,即可认为该数字字符串是QQ号或者电话号码,所以可以设置第二阈值为4,当然在实际应用中,可以根据不同需求为第二阈值设置不同的数值,本实施例对此并不做限定;
同时由于样本用户账户集中的每个用户账户的信息的至少一种特征参数的计算方法与目标用户账户的信息的至少一种特征参数的计算方法类似,具体请参考步骤202,在此不再赘述。
第四,根据样本用户账户集中每个用户账户的每种特征参数,计算样本用户账户集中每种特征参数的数值大小与作弊率之间的至少一组对应关系;
服务器在计算得到样本用户账户中的每个用户账户的信息中的每种特征参数之后,可以计算样本用户账户集中每种特征参数的数值大小与作弊率之间的至少一组对应关系。其中,作弊率为样本用户账户集中对应于当前特征参数的作弊用户账户的个数与对应于当前特征参数的总用户账户的个数的比值。
具体的,以服务器计算的特征参数的种类包括数字字符串的个数为例,服务器在计算得到每个用户账户在采样时间窗口内的数字字符串的个数之后,服务器可以根据数字字符串的个数的大小对各用户账户进行升序排名,然后将排名后的用户账户分为预定个数的等份,计算每等份的用户账户中,数字字符串的个数与作弊率之间的对应关系。
比如,在一组用户账户中有2万个用户账户,这些用户账户的数字字符串的个数分别为8、9或10,并且2万个用户账户中有1.5万为已经确定为作弊用户账户的用户账户,则服务器可以计算得到当数字字符串的个数在8至10的范围内时,作弊率为1.5/2=0.6,此时,服务器可以建立一组数字字符串的个数为8至10时,作弊率为0.6的对应关系,类似的,服务器可以对数字字符串的个数的其他数值以及其他的特征参数采用相同的方法建立对应关系,在此不再一一赘述。
第五,根据每种特征参数的每组对应关系,将每种特征参数中作弊率等于第一预定值时对应的特征参数的数值作为特征参数对应的预设阈值;
由于样本用户账户集中已经已知作弊用户账户的个数为第一预定个数以及随机选取的用户账户的个数为第二预定个数,所以当作弊率为第一预定个数与第二预定个数的比值时,可以近似看做该作弊率对应的特征参数的数值是服务器可以检测出作弊用户账户的数值,所以服务器可以根据每种特征参数的每组对应关系,将每种特征参数中作弊率等于第一预定值时对应的特征参数的数值作为特征参数对应的预设阈值。为了提高服务器判定作弊用户账户的准确性,服务器可以将第一预定值设置为大于等于第一预定个数与第二预定个数比值的任意数值,并且当第一预定值越大时,服务器判定作弊用户账户的准确性越高。
步骤204,分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件;
在服务器计算得到每种特征参数对应的预设阈值之后,服务器可以分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件。
具体地讲,若特征参数的种类包括信息中数字字符串的个数、数字字符串去重后的个数、数字字符串的个数与数字字符串去重后的个数的比例、网页链接的个数、图片的个数、视频的个数、单条信息中话题个数最多的话题数、单条信息中话题字数与信息字数比值的最大值、完全相同的信息条数的最大值、去重后的话题个数、相同话题的信息条数的最大值、信息总条数、信息字数超过第一阈值的信息条数或信息字数超过第一阈值的信息条数与信息总条数的比例时,分别检测每种特征参数是否大于等于对应的预设阈值;
若特征参数的种类包括发布两条信息的时间间隔的最小值或信息字数的均方差时,分别检测每种特征参数是否小于等于对应的预设阈值。
然而,由于若特征参数的种类包括信息中数字字符串的个数、数字字符串去重后的个数、网页链接的个数、图片的个数、视频的个数、单条信息中话题个数最多的话题数、完全相同的信息条数的最大值、去重后的话题个数、相同话题的信息条数的最大值、信息总条数或信息字数超过第一阈值的信息条数时,特征参数是在一定时间窗口内累积计算的结果,时间窗口的大小的不同,特征参数的数值会有很大差别,所以将在预定时间窗口内计算得到的特征参数与在采样时间窗口内计算得到的该特征参数对应的预设阈值进行比较,是没有意义的,所以在服务器分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件之前,服务器可以根据采样时间窗口和预定时间窗口的时间长度的比例,先将特征参数在采样时间窗口内对应的预设阈值转换成在预定时间窗口内对应的预设阈值,在此不再赘述。
步骤205,统计检测结果为符合预定条件的特征参数的个数;
在服务器分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件之后,服务器可以统计检测结果为符合预定条件的特征参数的个数。
步骤206,检测符合预定条件的特征参数的个数是否达到作弊认定条件;
服务器检测符合预定条件的特征参数的个数是否达到作弊认定条件。具体的,当服务器只计算信息的一种特征参数时,该特征参数符合预定条件时即可判定目标用户账户为作弊用户账户;而当服务器计算信息的多种特征参数时,服务器需要首先检测符合预定条件的特征参数的个数是否达到一定条件,具体可以包括如下几种方式中的任一种:
第一,检测符合预定条件的特征参数的个数是否达到第三预定个数;
服务器可以设定当符合预定条件的特征参数的个数达到第三预定个数时,可以判定目标用户账户为作弊用户账户,则此时服务器可以检测符合预定条件的特征参数的个数是否达到第三预定个数。
第二,检测符合预定条件的特征参数的个数与所有特征参数的个数的比值是否达到第二预定值;
服务器还可以设定当符合预定条件的特征参数的个数与所有特征参数的个数的比值是否达到第二预定值时,可以判定目标用户账户为作弊用户账户,则此时服务器可以检测符合预定条件的特征参数的个数与所有特征参数的个数的比值是否达到第二预定值。
需要补充说明的是,为了充分考虑到每种特征参数对判定目标用户账户是否是作弊用户账户的影响,服务器还可以对每种特征参数进行归一化,并且同时为每种特征参数设置一个权重,计算目标用户账户的各特征参数的总得分,从而检测目标用户账户的特征参数的总得分是否达到预定得分,进而判定目标用户是否为作弊用户账户;在具体实现时,可以根据不同的需求采用不同的方法,本实施例对此并不做具体限定。
步骤207,若达到作弊认定条件,则将目标用户账户认定为作弊用户账户。
当服务器检测到符合预定条件的特征参数的个数达到作弊认定条件时,可以将目标用户账户认定为作弊用户账户,从而服务器屏蔽目标用户账户在之后一段时间内发布的所有信息。
综上所述,本实施例提供的基于话题的反作弊方法,通过在获取到目标用户账户在预定时间窗口内发布的携带有话题的信息之后,计算信息的至少一种特征参数,从而检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件,并且只有当符合预定条件的特征参数的个数达到作弊认定条件时,将目标用户账户认定为作弊用户账户;解决了现有的基于话题的反作弊方法识别在判定目标用户账户是否为作弊用户账户时,识别准确率低并且计算复杂度高效率低的问题;达到了服务器可以根据目标用户账户的特征参数来检测是否是作弊用户账户,从而提高了作弊用户账户的识别准确率,降低计算复杂度和计算效率的效果。
实施例三
请参考图3,其示出了本发明实施例三提供的基于话题的反作弊装置的结构方框图,该装置可以实现成为诸如微博、论坛、空间和博客等可以发表带有话题的社区服务器服或者服务器中的一个单元。该基于话题的反作弊装置包括:信息获取模块310、参数计算模块320、第一检测模块330、参数统计模块340、第二检测模块350和结果判定模块360。
信息获取模块310,用于获取目标用户账户在预定时间窗口内发布的携带有话题的信息;
参数计算模块320,用于计算所述信息的至少一种特征参数;
第一检测模块330,用于分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件;
参数统计模块340,用于统计检测结果为符合预定条件的特征参数的个数;
第二检测模块350,用于检测符合预定条件的特征参数的个数是否达到作弊认定条件;
结果判定模块360,用于若所述第二检测模块的检测结果为符合预定条件的特征参数的个数达到作弊认定条件,则将所述目标用户账户认定为作弊用户账户。
综上所述,本实施例提供的基于话题的反作弊装置,通过在获取到目标用户账户在预定时间窗口内发布的携带有话题的信息之后,计算信息的至少一种特征参数,从而检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件,并且只有当符合预定条件的特征参数的个数达到作弊认定条件时,将目标用户账户认定为作弊用户账户;解决了现有的基于话题的反作弊方法识别在判定目标用户账户是否为作弊用户账户时,识别准确率低并且计算复杂度高效率低的问题;达到了服务器可以根据目标用户账户的特征参数来检测是否是作弊用户账户,从而提高了作弊用户账户的识别准确率,降低计算复杂度和计算效率的效果。
实施例四
请参考图4,其示出了本发明实施例四提供的基于话题的反作弊装置的结构方框图,该装置可以实现成为诸如微博、论坛、空间和博客等可以发表带有话题的社区服务器服或者服务器中的一个单元。该基于话题的反作弊装置包括:信息获取模块310、参数计算模块320、第一检测模块330、参数统计模块340、第二检测模块350、结果判定模块360和阈值计算模块370。
信息获取模块310,用于获取目标用户账户在预定时间窗口内发布的携带有话题的信息;
参数计算模块320,用于计算所述信息的至少一种特征参数,所述特征参数的种类包括所述信息中数字字符串的个数、所述数字字符串去重后的个数、所述数字字符串的个数与所述数字字符串去重后的个数的比例、网页链接的个数、图片的个数、视频的个数、单条信息中话题个数最多的话题数、单条信息中话题字数与信息字数比值的最大值、发布两条信息的时间间隔的最小值、完全相同的信息条数的最大值、去重后的话题个数、相同话题的信息条数的最大值、信息总条数、信息字数超过第一阈值的信息条数、信息字数超过所述第一阈值的信息条数与信息总条数的比例或信息字数的均方差;
阈值计算模块370,用于通过二值分类法计算每种特征参数对应的预设阈值。
第一检测模块330,用于分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件;
参数统计模块340,用于统计检测结果为符合预定条件的特征参数的个数;
第二检测模块350,用于检测符合预定条件的特征参数的个数是否达到作弊认定条件;
结果判定模块360,用于若所述第二检测模块的检测结果为符合预定条件的特征参数的个数达到作弊认定条件,则将所述目标用户账户认定为作弊用户账户。
具体地讲,请参考图5,所述参数计算模块320,具体可以包括:第一计算单元321、第二计算单元322、第三计算单元323、第四计算单元324、第五计算单元325、第六计算单元326、第七计算单元327、第八计算单元328、第九计算单元329、第十计算单元410、第十一计算单元411、第十二计算单元412、第十三计算单元413、第十四计算单元414、第十五计算单元415和第十六计算单元416。
所述第一计算单元321,用于若所述特征参数的种类包括所述数字字符串的个数,则统计所有信息中所述数字字符串的个数;
所述第二计算单元322,用于若所述特征参数的种类包括所述数字字符串去重后的个数,则统计所有信息中内容不同的所述数字字符串的个数;
所述第三计算单元323,用于若所述特征参数的种类包括所述数字字符串的个数与所述数字字符串去重后的个数的比例,则统计所有信息中所述数字字符串的个数和所有信息中内容不同的所述数字字符串的个数,并计算两者的比值;
所述第四计算单元324,用于若所述特征参数的种类包括所述网页链接的个数,则统计所有信息中所述网页链接的个数;
所述第五计算单元325,用于若所述特征参数的种类包括所述图片的个数,则统计所有信息中所述图片的个数;
所述第六计算单元326,用于若所述特征参数的种类包括所述视频的个数,则统计所有信息中所述视频的个数;
所述第七计算单元327,用于若所述特征参数的种类包括所述单条信息中话题个数最多的话题数,则统计每条信息中的话题个数,并选择话题个数最多的话题数;
所述第八计算单元328,用于若所述特征参数的种类包括所述单条信息中话题字数与信息字数比值的最大值,则统计每条信息中话题字数与信息字数的比值,并选择比值最大的数值作为所述特征值;
所述第九计算单元329,用于若所述特征参数的种类包括所述发布两条信息的时间间隔的最小值,则分别计算所述目标用户账户发布任意两条信息的时间间隔,并选择其中时间间隔的最小值;
所述第十计算单元410,用于若所述特征参数的种类包括所述完全相同的信息条数的最大值,则统计所有信息中内容相同的信息的条数,并选择内容相同的信息条数的最大值;
所述第十一计算单元411,用于若所述特征参数的种类包括所述去重后的话题个数,则统计所有信息中话题不同的话题个数;
所述第十二计算单元412,用于若所述特征参数的种类包括所述相同话题的信息条数的最大值,则统计所有信息中具有相同话题的信息条数,并选择其中信息条数的最大值;
所述第十三计算单元413,用于若所述特征参数的种类包括所述信息总条数,则统计所有信息的总条数;
所述第十四计算单元414,用于若所述特征参数的种类包括所述信息字数超过第一阈值的信息条数,则统计每条信息的信息字数,并计算信息字数超过所述第一阈值的信息条数;
所述第十五计算单元415,用于若所述特征参数的种类包括所述信息字数超过所述第一阈值的信息条数与信息总条数的比值,则统计所有信息的总条数、每条信息的信息字数,根据所述信息字数计算信息字数超过所述第一阈值的信息条数,并计算信息字数超过所述第一阈值的信息条数与信息总条数的比值;
所述第十六计算单元416,用于若所述特征参数的种类包括所述信息字数的均方差,则统计所有信息中每条信息的信息字数,计算所有信息的信息字数的平均值,最后计算所述信息字数的均方差。
请参考图6,若所述特征参数的种类包括所述信息中数字字符串的个数、所述数字字符串去重后的个数或所述数字字符串的个数与所述数字字符串去重后的个数的比例,所述装置还包括抛弃模块370;
所述抛弃模块370,用于抛弃所述信息中所述数字字符串的字符数小于第二阈值的数字字符串,所述第二阈值为正整数。
请参考图7,所述阈值计算模块380,具体包括:样本建立单元381、样本获取单元382、样本计算单元383、关系计算单元384和阈值选择单元385;
所述样本建立单元381,用于建立第一样本用户账户集和第二样本用户账户集,所述第一样本用户账户集包括第一预定个数的已经确定为作弊用户账户的用户账户,所述第二样本用户账户集包括第二预定个数的随机选取的用户账户,所述第一样本用户账户集和所述第二样本用户账户集的并集称为样本用户账户集;
所述样本获取单元382,用于获取所述样本用户账户集中的每个用户账户在采样时间窗口内发布的携带有话题的信息;
所述样本计算单元383,用于对于所述样本用户账户集中的每个用户账户,计算所述信息的至少一种特征参数;
所述关系计算单元384,用于根据所述样本用户账户集中每个用户账户的每种特征参数,计算所述样本用户账户集中每种特征参数的数值大小与作弊率之间的至少一组对应关系,所述作弊率为所述样本用户账户集中对应于当前特征参数的作弊用户账户的个数与对应于所述当前特征参数的总用户账户的个数的比值;
所述阈值选择单元385,用于根据每种特征参数的每组对应关系,将每种特征参数中所述作弊率等于第一预定值时对应的特征参数的数值作为所述特征参数对应的预设阈值;
所述第一预定值为大于等于所述第一预定个数与所述第二预定个数比值的任意数值。
请参考图8,所述样本计算单元383,具体包括:第一计算子单元510、第二计算子单元511、第三计算子单元512、第四计算子单元513、第五计算子单元514、第六计算子单元515、第七计算子单元516、第八计算子单元517、第九计算子单元518、第十极端子单元519、第十一计算子单元520、第十二计算子单元521、第十三计算子单元522、第十四计算子单元523、第十五计算子单元524和第十六计算子单元525。
所述第一计算子单元510,用于若所述特征参数的种类包括所述数字字符串的个数,则统计所有信息中所述数字字符串的个数;
所述第二计算子单元511,用于若所述特征参数的种类包括所述数字字符串去重后的个数,则统计所有信息中内容不同的所述数字字符串的个数;
所述第三计算子单元512,用于若所述特征参数的种类包括所述数字字符串的个数与所述数字字符串去重后的个数的比例,则统计所有信息中所述数字字符串的个数和所有信息中内容不同的所述数字字符串的个数,并计算两者的比值;
所述第四计算子单元513,用于若所述特征参数的种类包括所述网页链接的个数,则统计所有信息中所述网页链接的个数;
所述第五计算子单元514,用于若所述特征参数的种类包括所述图片的个数,则统计所有信息中所述图片的个数;
所述第六计算子单元515,用于若所述特征参数的种类包括所述视频的个数,则统计所有信息中所述视频的个数;
所述第七计算子单元516,用于若所述特征参数的种类包括所述单条信息中话题个数最多的话题数,则统计每条信息中的话题个数,并选择话题个数最多的话题数;
所述第八计算子单元517,用于若所述特征参数的种类包括所述单条信息中话题字数与信息字数比值的最大值,则统计每条信息中话题字数与信息字数的比值,并选择比值最大的数值作为所述特征值;
所述第九计算子单元518,用于若所述特征参数的种类包括所述发布两条信息的时间间隔的最小值,则分别计算所述目标用户账户发布任意两条信息的时间间隔,并选择其中时间间隔的最小值;
所述第十计算子单元519,用于若所述特征参数的种类包括所述完全相同的信息条数的最大值,则统计所有信息中内容相同的信息的条数,并选择内容相同的信息条数的最大值;
所述第十一计算子单元520,用于若所述特征参数的种类包括所述去重后的话题个数,则统计所有信息中话题不同的话题个数;
所述第十二计算子单元521,用于若所述特征参数的种类包括所述相同话题的信息条数的最大值,则统计所有信息中具有相同话题的信息条数,并选择其中信息条数的最大值;
所述第十三计算子单元522,用于若所述特征参数的种类包括所述信息总条数,则统计所有信息的总条数;
所述第十四计算子单元523,用于若所述特征参数的种类包括所述信息字数超过第一阈值的信息条数,则统计每条信息的信息字数,并计算信息字数超过所述第一阈值的信息条数;
所述第十五计算子单元524,用于若所述特征参数的种类包括所述信息字数超过所述第一阈值的信息条数与信息总条数的比值,则统计所有信息的总条数、每条信息的信息字数,根据所述信息字数计算信息字数超过所述第一阈值的信息条数,并计算信息字数超过所述第一阈值的信息条数与信息总条数的比值;
所述第十六计算子单元525,用于若所述特征参数的种类包括所述信息字数的均方差,则统计所有信息中每条信息的信息字数,计算所有信息的信息字数的平均值,最后计算所述信息字数的均方差。
请参考图9,若所述特征参数的种类包括所述信息中数字字符串的个数、所述数字字符串去重后的个数或所述数字字符串的个数与所述数字字符串去重后的个数的比例,所述阈值计算模块380,还包括:抛弃单元386;
所述抛弃单元386,用于抛弃所述信息中所述数字字符串的字符数小于第二阈值的数字字符串,所述第二阈值为正整数。
请参考图10,若所述特征参数的种类包括所述信息中数字字符串的个数、所述数字字符串去重后的个数、网页链接的个数、图片的个数、视频的个数、单条信息中话题个数最多的话题数、完全相同的信息条数的最大值、去重后的话题个数、相同话题的信息条数的最大值、信息总条数或信息字数超过第一阈值的信息条数,所述装置,还包括:阈值转换模块390;
所述阈值转换模块390,用于根据所述采样时间窗口和所述预定时间窗口的时间长度的比例,将所述特征参数在所述采样时间窗口内对应的预设阈值转换成在所述预定时间窗口内对应的预设阈值。
所述第一检测模块330,还用于若所述特征参数的种类包括所述信息中数字字符串的个数、所述数字字符串去重后的个数、所述数字字符串的个数与所述数字字符串去重后的个数的比例、网页链接的个数、图片的个数、视频的个数、单条信息中话题个数最多的话题数、单条信息中话题字数与信息字数比值的最大值、完全相同的信息条数的最大值、去重后的话题个数、相同话题的信息条数的最大值、信息总条数、信息字数超过第一阈值的信息条数或信息字数超过所述第一阈值的信息条数与信息总条数的比例,分别检测每种特征参数是否大于等于对应的预设阈值;
所述第一检测模块330,还用于若所述特征参数的种类包括发布两条信息的时间间隔的最小值或信息字数的均方差,分别检测每种特征参数是否小于等于对应的预设阈值。
请参考图11,所述第二检测模块350,具体包括:第一检测单元351和第二检测单元352;
所述第一检测单元351,用于检测符合预定条件的特征参数的个数是否达到第三预定个数;
所述第二检测单元352,用于检测符合预定条件的特征参数的个数与所有特征参数的个数的比值会否达到第二预定值。
综上所述,本实施例提供的基于话题的反作弊装置,通过在获取到目标用户账户在预定时间窗口内发布的携带有话题的信息之后,计算信息的至少一种特征参数,从而检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件,并且只有当符合预定条件的特征参数的个数达到作弊认定条件时,将目标用户账户认定为作弊用户账户;解决了现有的基于话题的反作弊方法识别在判定目标用户账户是否为作弊用户账户时,识别准确率低并且计算复杂度高效率低的问题;达到了服务器可以根据目标用户账户的特征参数来检测是否是作弊用户账户,从而提高了作弊用户账户的识别准确率,降低计算复杂度和计算效率的效果。
需要说明的是:上述实施例提供的基于话题的反作弊装置在判定目标用户账户是否为作弊用户账户时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于话题的反作弊装置与基于话题的反作弊方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (23)

1.一种基于话题的反作弊方法,其特征在于,所述方法包括:
获取目标用户账户在预定时间窗口内发布的携带有话题的信息;
计算所述信息的至少一种特征参数;
分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件;
统计检测结果为符合预定条件的特征参数的个数;
检测符合预定条件的特征参数的个数是否达到作弊认定条件;
若达到作弊认定条件,则将所述目标用户账户认定为作弊用户账户。
2.根据权利要求1所述的基于话题的反作弊方法,其特征在于,
所述特征参数的种类包括所述信息中数字字符串的个数、所述数字字符串去重后的个数、所述数字字符串的个数与所述数字字符串去重后的个数的比例、网页链接的个数、图片的个数、视频的个数、单条信息中话题个数最多的话题数、单条信息中话题字数与信息字数比值的最大值、发布两条信息的时间间隔的最小值、完全相同的信息条数的最大值、去重后的话题个数、相同话题的信息条数的最大值、信息总条数、信息字数超过第一阈值的信息条数、信息字数超过所述第一阈值的信息条数与信息总条数的比例或信息字数的均方差。
3.根据权利要求2所述的基于话题的反作弊方法,其特征在于,所述计算所述信息的至少一种特征参数,包括:
若所述特征参数的种类包括所述数字字符串的个数,则统计所述信息中所述数字字符串的个数;
若所述特征参数的种类包括所述数字字符串去重后的个数,则统计所述信息中内容不同的所述数字字符串的个数;
若所述特征参数的种类包括所述数字字符串的个数与所述数字字符串去重后的个数的比例,则统计所述信息中所述数字字符串的个数和所述信息中内容不同的所述数字字符串的个数,并计算两者的比值;
若所述特征参数的种类包括所述网页链接的个数,则统计所述信息中所述网页链接的个数;
若所述特征参数的种类包括所述图片的个数,则统计所述信息中所述图片的个数;
若所述特征参数的种类包括所述视频的个数,则统计所述信息中所述视频的个数;
若所述特征参数的种类包括所述单条信息中话题个数最多的话题数,则统计每条信息中的话题个数,并选择话题个数最多的话题数;
若所述特征参数的种类包括所述单条信息中话题字数与信息字数比值的最大值,则统计每条信息中话题字数与信息字数的比值,并选择比值最大的数值作为所述特征值;
若所述特征参数的种类包括所述发布两条信息的时间间隔的最小值,则分别计算所述目标用户账户发布任意两条信息的时间间隔,并选择其中时间间隔的最小值;
若所述特征参数的种类包括所述完全相同的信息条数的最大值,则统计所述信息中内容相同的信息的条数,并选择内容相同的信息条数的最大值;
若所述特征参数的种类包括所述去重后的话题个数,则统计所述信息中话题不同的话题个数;
若所述特征参数的种类包括所述相同话题的信息条数的最大值,则统计所述信息中具有相同话题的信息条数,并选择其中信息条数的最大值;
若所述特征参数的种类包括所述信息总条数,则统计所述信息的总条数;
若所述特征参数的种类包括所述信息字数超过第一阈值的信息条数,则统计每条信息的信息字数,并计算信息字数超过所述第一阈值的信息条数;
若所述特征参数的种类包括所述信息字数超过所述第一阈值的信息条数与信息总条数的比值,则统计所述信息的总条数、每条信息的信息字数,根据所述信息字数计算信息字数超过所述第一阈值的信息条数,并计算信息字数超过所述第一阈值的信息条数与信息总条数的比值;
若所述特征参数的种类包括所述信息字数的均方差,则统计所述信息中每条信息的信息字数,计算所述信息的信息字数的平均值,最后计算所述信息字数的均方差。
4.根据权利要求3所述的基于话题的反作弊方法,其特征在于,若所述特征参数的种类包括所述信息中数字字符串的个数、所述数字字符串去重后的个数或所述数字字符串的个数与所述数字字符串去重后的个数的比例,所述计算所述信息的至少一种特征参数之前,还包括:
抛弃所述信息中所述数字字符串的字符数小于第二阈值的数字字符串,所述第二阈值为正整数。
5.根据权利要求2所述的基于话题的反作弊方法,其特征在于,所述分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件之前,还包括:
通过二值分类法计算每种特征参数对应的预设阈值。
6.根据权利要求5所述的基于话题的反作弊方法,其特征在于,所述通过二值分类法计算每种特征参数对应的预设阈值,包括:
建立第一样本用户账户集和第二样本用户账户集,所述第一样本用户账户集包括第一预定个数的已经确定为作弊用户账户的用户账户,所述第二样本用户账户集包括第二预定个数的随机选取的用户账户,所述第一样本用户账户集和所述第二样本用户账户集的并集称为样本用户账户集;
获取所述样本用户账户集中的每个用户账户在采样时间窗口内发布的携带有话题的信息;
对于所述样本用户账户集中的每个用户账户,计算所述信息的至少一种特征参数;
根据所述样本用户账户集中每个用户账户的每种特征参数,计算所述样本用户账户集中每种特征参数的数值大小与作弊率之间的至少一组对应关系,所述作弊率为所述样本用户账户集中对应于当前特征参数的作弊用户账户的个数与对应于所述当前特征参数的总用户账户的个数的比值;
根据每种特征参数的每组对应关系,将每种特征参数中所述作弊率等于第一预定值时对应的特征参数的数值作为所述特征参数对应的预设阈值;
所述第一预定值为大于等于所述第一预定个数与所述第二预定个数比值的任意数值。
7.根据权利要求6所述的基于话题的反作弊方法,其特征在于,所述对于所述样本用户账户集中的每个用户账户,计算所述信息的至少一种特征参数,包括:
若所述特征参数的种类包括所述数字字符串的个数,则统计所述信息中所述数字字符串的个数;
若所述特征参数的种类包括所述数字字符串去重后的个数,则统计所述信息中内容不同的所述数字字符串的个数;
若所述特征参数的种类包括所述数字字符串的个数与所述数字字符串去重后的个数的比例,则统计所述信息中所述数字字符串的个数和所述信息中内容不同的所述数字字符串的个数,并计算两者的比值;
若所述特征参数的种类包括所述网页链接的个数,则统计所述信息中所述网页链接的个数;
若所述特征参数的种类包括所述图片的个数,则统计所述信息中所述图片的个数;
若所述特征参数的种类包括所述视频的个数,则统计所述信息中所述视频的个数;
若所述特征参数的种类包括所述单条信息中话题个数最多的话题数,则统计每条信息中的话题个数,并选择话题个数最多的话题数;
若所述特征参数的种类包括所述单条信息中话题字数与信息字数比值的最大值,则统计每条信息中话题字数与信息字数的比值,并选择比值最大的数值作为所述特征值;
若所述特征参数的种类包括所述发布两条信息的时间间隔的最小值,则分别计算所述目标用户账户发布任意两条信息的时间间隔,并选择其中时间间隔的最小值;
若所述特征参数的种类包括所述完全相同的信息条数的最大值,则统计所述信息中内容相同的信息的条数,并选择内容相同的信息条数的最大值;
若所述特征参数的种类包括所述去重后的话题个数,则统计所述信息中话题不同的话题个数;
若所述特征参数的种类包括所述相同话题的信息条数的最大值,则统计所述信息中具有相同话题的信息条数,并选择其中信息条数的最大值;
若所述特征参数的种类包括所述信息总条数,则统计所述信息的总条数;
若所述特征参数的种类包括所述信息字数超过第一阈值的信息条数,则统计每条信息的信息字数,并计算信息字数超过所述第一阈值的信息条数;
若所述特征参数的种类包括所述信息字数超过所述第一阈值的信息条数与信息总条数的比值,则统计所述信息的总条数、每条信息的信息字数,根据所述信息字数计算信息字数超过所述第一阈值的信息条数,并计算信息字数超过所述第一阈值的信息条数与信息总条数的比值;
若所述特征参数的种类包括所述信息字数的均方差,则统计所述信息中每条信息的信息字数,计算所述信息的信息字数的平均值,最后计算所述信息字数的均方差。
8.根据权利要求7所述的基于话题的反作弊方法,其特征在于,若所述特征参数的种类包括所述信息中数字字符串的个数、所述数字字符串去重后的个数或所述数字字符串的个数与所述数字字符串去重后的个数的比例,所述计算所述信息的至少一种特征参数之前,还包括:
抛弃所述信息中所述数字字符串的字符数小于第二阈值的数字字符串,所述第二阈值为正整数。
9.根据权利要求6所述的基于话题的反作弊方法,其特征在于,若所述特征参数的种类包括所述信息中数字字符串的个数、所述数字字符串去重后的个数、网页链接的个数、图片的个数、视频的个数、单条信息中话题个数最多的话题数、完全相同的信息条数的最大值、去重后的话题个数、相同话题的信息条数的最大值、信息总条数或信息字数超过第一阈值的信息条数,所述分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件之前,还包括:
根据所述采样时间窗口和所述预定时间窗口的时间长度的比例,将所述特征参数在所述采样时间窗口内对应的预设阈值转换成在所述预定时间窗口内对应的预设阈值。
10.根据权利要求9所述的基于话题的反作弊方法,其特征在于,
若所述特征参数的种类包括所述信息中数字字符串的个数、所述数字字符串去重后的个数、所述数字字符串的个数与所述数字字符串去重后的个数的比例、网页链接的个数、图片的个数、视频的个数、单条信息中话题个数最多的话题数、单条信息中话题字数与信息字数比值的最大值、完全相同的信息条数的最大值、去重后的话题个数、相同话题的信息条数的最大值、信息总条数、信息字数超过第一阈值的信息条数或信息字数超过所述第一阈值的信息条数与信息总条数的比例,所述分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件,包括:
分别检测每种特征参数是否大于等于对应的预设阈值;
若所述特征参数的种类包括发布两条信息的时间间隔的最小值或信息字数的均方差,则所述分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件,包括:
分别检测每种特征参数是否小于等于对应的预设阈值。
11.根据权利要求1所述的基于话题的反作弊方法,其特征在于,所述检测符合预定条件的特征参数的个数是否达到作弊认定条件,包括:
检测符合预定条件的特征参数的个数是否达到第三预定个数;或
检测符合预定条件的特征参数的个数与所有特征参数的个数的比值是否达到第二预定值。
12.一种基于话题的反作弊装置,其特征在于,所述装置包括:
信息获取模块,用于获取目标用户账户在预定时间窗口内发布的携带有话题的信息;
参数计算模块,用于计算所述信息的至少一种特征参数;
第一检测模块,用于分别检测每种特征参数与对应的预设阈值之间的关系是否符合预定条件;
参数统计模块,用于统计检测结果为符合预定条件的特征参数的个数;
第二检测模块,用于检测符合预定条件的特征参数的个数是否达到作弊认定条件;
结果判定模块,用于若所述第二检测模块的检测结果为符合预定条件的特征参数的个数达到作弊认定条件,则将所述目标用户账户认定为作弊用户账户。
13.根据权利要求12所述的基于话题的反作弊装置,其特征在于,
所述特征参数的种类包括所述信息中数字字符串的个数、所述数字字符串去重后的个数、所述数字字符串的个数与所述数字字符串去重后的个数的比例、网页链接的个数、图片的个数、视频的个数、单条信息中话题个数最多的话题数、单条信息中话题字数与信息字数比值的最大值、发布两条信息的时间间隔的最小值、完全相同的信息条数的最大值、去重后的话题个数、相同话题的信息条数的最大值、信息总条数、信息字数超过第一阈值的信息条数、信息字数超过所述第一阈值的信息条数与信息总条数的比例或信息字数的均方差。
14.根据权利要求11所述的基于话题的反作弊装置,其特征在于,所述参数计算模块,包括:
第一计算单元,用于若所述特征参数的种类包括所述数字字符串的个数,则统计所有信息中所述数字字符串的个数;
第二计算单元,用于若所述特征参数的种类包括所述数字字符串去重后的个数,则统计所有信息中内容不同的所述数字字符串的个数;
第三计算单元,用于若所述特征参数的种类包括所述数字字符串的个数与所述数字字符串去重后的个数的比例,则统计所有信息中所述数字字符串的个数和所有信息中内容不同的所述数字字符串的个数,并计算两者的比值;
第四计算单元,用于若所述特征参数的种类包括所述网页链接的个数,则统计所有信息中所述网页链接的个数;
第五计算单元,用于若所述特征参数的种类包括所述图片的个数,则统计所有信息中所述图片的个数;
第六计算单元,用于若所述特征参数的种类包括所述视频的个数,则统计所有信息中所述视频的个数;
第七计算单元,用于若所述特征参数的种类包括所述单条信息中话题个数最多的话题数,则统计每条信息中的话题个数,并选择话题个数最多的话题数;
第八计算单元,用于若所述特征参数的种类包括所述单条信息中话题字数与信息字数比值的最大值,则统计每条信息中话题字数与信息字数的比值,并选择比值最大的数值作为所述特征值;
第九计算单元,用于若所述特征参数的种类包括所述发布两条信息的时间间隔的最小值,则分别计算所述目标用户账户发布任意两条信息的时间间隔,并选择其中时间间隔的最小值;
第十计算单元,用于若所述特征参数的种类包括所述完全相同的信息条数的最大值,则统计所有信息中内容相同的信息的条数,并选择内容相同的信息条数的最大值;
第十一计算单元,用于若所述特征参数的种类包括所述去重后的话题个数,则统计所有信息中话题不同的话题个数;
第十二计算单元,用于若所述特征参数的种类包括所述相同话题的信息条数的最大值,则统计所有信息中具有相同话题的信息条数,并选择其中信息条数的最大值;
第十三计算单元,用于若所述特征参数的种类包括所述信息总条数,则统计所有信息的总条数;
第十四计算单元,用于若所述特征参数的种类包括所述信息字数超过第一阈值的信息条数,则统计每条信息的信息字数,并计算信息字数超过所述第一阈值的信息条数;
第十五计算单元,用于若所述特征参数的种类包括所述信息字数超过所述第一阈值的信息条数与信息总条数的比值,则统计所有信息的总条数、每条信息的信息字数,根据所述信息字数计算信息字数超过所述第一阈值的信息条数,并计算信息字数超过所述第一阈值的信息条数与信息总条数的比值;
第十六计算单元,用于若所述特征参数的种类包括所述信息字数的均方差,则统计所有信息中每条信息的信息字数,计算所有信息的信息字数的平均值,最后计算所述信息字数的均方差。
15.根据权利要求14所述的基于话题的反作弊装置,其特征在于,所述装置还包括:
抛弃模块,用于抛弃所述信息中所述数字字符串的字符数小于第二阈值的数字字符串,所述第二阈值为正整数。
16.根据权利要求13所述的基于话题的反作弊装置,其特征在于,所述装置还包括:
阈值计算模块,用于通过二值分类法计算每种特征参数对应的预设阈值。
17.根据权利要求16所述的所述的基于话题的反作弊装置,其特征在于,所述阈值计算模块,包括:
样本建立单元,用于建立第一样本用户账户集和第二样本用户账户集,所述第一样本用户账户集包括第一预定个数的已经确定为作弊用户账户的用户账户,所述第二样本用户账户集包括第二预定个数的随机选取的用户账户,所述第一样本用户账户集和所述第二样本用户账户集的并集称为样本用户账户集;
样本获取单元,用于获取所述样本用户账户集中的每个用户账户在采样时间窗口内发布的携带有话题的信息;
样本计算单元,用于对于所述样本用户账户集中的每个用户账户,计算所述信息的至少一种特征参数;
关系计算单元,用于根据所述样本用户账户集中每个用户账户的每种特征参数,计算所述样本用户账户集中每种特征参数的数值大小与作弊率之间的至少一组对应关系,所述作弊率为所述样本用户账户集中对应于当前特征参数的作弊用户账户的个数与对应于所述当前特征参数的总用户账户的个数的比值;
阈值选择单元,用于根据每种特征参数的每组对应关系,将每种特征参数中所述作弊率等于第一预定值时对应的特征参数的数值作为所述特征参数对应的预设阈值;
所述第一预定值为大于等于所述第一预定个数与所述第二预定个数比值的任意数值。
18.根据权利要求17所述的基于话题的反作弊装置,其特征在于,所述样本计算单元,包括:
第一计算子单元,用于若所述特征参数的种类包括所述数字字符串的个数,则统计所有信息中所述数字字符串的个数;
第二计算子单元,用于若所述特征参数的种类包括所述数字字符串去重后的个数,则统计所有信息中内容不同的所述数字字符串的个数;
第三计算子单元,用于若所述特征参数的种类包括所述数字字符串的个数与所述数字字符串去重后的个数的比例,则统计所有信息中所述数字字符串的个数和所有信息中内容不同的所述数字字符串的个数,并计算两者的比值;
第四计算子单元,用于若所述特征参数的种类包括所述网页链接的个数,则统计所有信息中所述网页链接的个数;
第五计算子单元,用于若所述特征参数的种类包括所述图片的个数,则统计所有信息中所述图片的个数;
第六计算子单元,用于若所述特征参数的种类包括所述视频的个数,则统计所有信息中所述视频的个数;
第七计算子单元,用于若所述特征参数的种类包括所述单条信息中话题个数最多的话题数,则统计每条信息中的话题个数,并选择话题个数最多的话题数;
第八计算子单元,用于若所述特征参数的种类包括所述单条信息中话题字数与信息字数比值的最大值,则统计每条信息中话题字数与信息字数的比值,并选择比值最大的数值作为所述特征值;
第九计算子单元,用于若所述特征参数的种类包括所述发布两条信息的时间间隔的最小值,则分别计算所述目标用户账户发布任意两条信息的时间间隔,并选择其中时间间隔的最小值;
第十计算子单元,用于若所述特征参数的种类包括所述完全相同的信息条数的最大值,则统计所有信息中内容相同的信息的条数,并选择内容相同的信息条数的最大值;
第十一计算子单元,用于若所述特征参数的种类包括所述去重后的话题个数,则统计所有信息中话题不同的话题个数;
第十二计算子单元,用于若所述特征参数的种类包括所述相同话题的信息条数的最大值,则统计所有信息中具有相同话题的信息条数,并选择其中信息条数的最大值;
第十三计算子单元,用于若所述特征参数的种类包括所述信息总条数,则统计所有信息的总条数;
第十四计算子单元,用于若所述特征参数的种类包括所述信息字数超过第一阈值的信息条数,则统计每条信息的信息字数,并计算信息字数超过所述第一阈值的信息条数;
第十五计算子单元,用于若所述特征参数的种类包括所述信息字数超过所述第一阈值的信息条数与信息总条数的比值,则统计所有信息的总条数、每条信息的信息字数,根据所述信息字数计算信息字数超过所述第一阈值的信息条数,并计算信息字数超过所述第一阈值的信息条数与信息总条数的比值;
第十六计算子单元,用于若所述特征参数的种类包括所述信息字数的均方差,则统计所有信息中每条信息的信息字数,计算所有信息的信息字数的平均值,最后计算所述信息字数的均方差。
19.根据权利要求18所述的基于话题的反作弊装置,其特征在于,所述阈值计算模块,还包括:
抛弃单元,用于抛弃所述信息中所述数字字符串的字符数小于第二阈值的数字字符串,所述第二阈值为正整数。
20.根据权利要求17所述的基于话题的反作弊装置,其特征在于,所述装置还包括:
阈值转换模块,用于根据所述采样时间窗口和所述预定时间窗口的时间长度的比例,将所述特征参数在所述采样时间窗口内对应的预设阈值转换成在所述预定时间窗口内对应的预设阈值。
21.根据权利要求20所述的基于话题的反作弊装置,其特征在于,
所述第一检测模块,还用于若所述特征参数的种类包括所述信息中数字字符串的个数、所述数字字符串去重后的个数、所述数字字符串的个数与所述数字字符串去重后的个数的比例、网页链接的个数、图片的个数、视频的个数、单条信息中话题个数最多的话题数、单条信息中话题字数与信息字数比值的最大值、完全相同的信息条数的最大值、去重后的话题个数、相同话题的信息条数的最大值、信息总条数、信息字数超过第一阈值的信息条数或信息字数超过所述第一阈值的信息条数与信息总条数的比例,分别检测每种特征参数是否大于等于对应的预设阈值;
所述第一检测模块,还用于若所述特征参数的种类包括发布两条信息的时间间隔的最小值或信息字数的均方差,分别检测每种特征参数是否小于等于对应的预设阈值。
22.根据权利要求12所述的基于话题的反作弊装置,其特征在于,第二检测模块,包括:
第一检测单元,用于检测符合预定条件的特征参数的个数是否达到第三预定个数;
第二检测单元,用于检测符合预定条件的特征参数的个数与所有特征参数的个数的比值会否达到第二预定值。
23.一种服务器,其特征在于,其包括如权利要求12至22任一所述的基于话题的反作弊装置。
CN201310034406.7A 2013-01-29 2013-01-29 基于话题的反作弊方法、装置和服务器 Active CN103970727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310034406.7A CN103970727B (zh) 2013-01-29 2013-01-29 基于话题的反作弊方法、装置和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310034406.7A CN103970727B (zh) 2013-01-29 2013-01-29 基于话题的反作弊方法、装置和服务器

Publications (2)

Publication Number Publication Date
CN103970727A true CN103970727A (zh) 2014-08-06
CN103970727B CN103970727B (zh) 2018-01-09

Family

ID=51240245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310034406.7A Active CN103970727B (zh) 2013-01-29 2013-01-29 基于话题的反作弊方法、装置和服务器

Country Status (1)

Country Link
CN (1) CN103970727B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106954207A (zh) * 2017-04-25 2017-07-14 腾讯科技(深圳)有限公司 一种获取目标终端的帐号属性值的方法及装置
CN107093085A (zh) * 2016-08-19 2017-08-25 北京小度信息科技有限公司 异常用户识别方法及装置
CN108241610A (zh) * 2016-12-26 2018-07-03 上海神计信息***工程有限公司 一种文本流的在线主题检测方法和***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093510A (zh) * 2007-07-25 2007-12-26 北京搜狗科技发展有限公司 一种针对网页作弊的反作弊方法及***
CN102891838A (zh) * 2011-07-22 2013-01-23 腾讯科技(深圳)有限公司 一种问答社区中推广内容的检测方法以及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093510A (zh) * 2007-07-25 2007-12-26 北京搜狗科技发展有限公司 一种针对网页作弊的反作弊方法及***
CN102891838A (zh) * 2011-07-22 2013-01-23 腾讯科技(深圳)有限公司 一种问答社区中推广内容的检测方法以及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李智超 等: "网页作弊与反作弊技术综述", 《山东大学学报(理学版)》 *
贾志洋 等: "搜索引擎垃圾网页检测模型研究", 《重庆文理学院学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107093085A (zh) * 2016-08-19 2017-08-25 北京小度信息科技有限公司 异常用户识别方法及装置
CN108241610A (zh) * 2016-12-26 2018-07-03 上海神计信息***工程有限公司 一种文本流的在线主题检测方法和***
CN106954207A (zh) * 2017-04-25 2017-07-14 腾讯科技(深圳)有限公司 一种获取目标终端的帐号属性值的方法及装置

Also Published As

Publication number Publication date
CN103970727B (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107168854B (zh) 互联网广告异常点击检测方法、装置、设备及可读存储介质
CN104915392B (zh) 一种微博转发行为预测方法及装置
CN104933622A (zh) 一种基于用户和微博主题的微博流行度预测方法及***
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN111371767B (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN103795612A (zh) 即时通讯中的垃圾和违法信息检测方法
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和***
CN103399891A (zh) 网络内容自动推荐方法、装置和***
CN113743111B (zh) 基于文本预训练和多任务学习的金融风险预测方法及装置
CN103064987A (zh) 一种虚假交易信息识别方法
WO2020257991A1 (zh) 用户识别方法及相关产品
CN104317784A (zh) 一种跨平台用户识别方法和***
CN104077417A (zh) 社交网络中的人物标签推荐方法和***
CN104881458A (zh) 一种网页主题的标注方法和装置
CN106156372A (zh) 一种互联网网站的分类方法及装置
CN112711691B (zh) 网络舆情引导效果数据信息处理方法、***、终端及介质
CN105930507A (zh) 一种获得用户的Web浏览兴趣的方法及装置
CN108363784A (zh) 一种基于文本机器学习的舆情走向预测方法
CN103617146B (zh) 一种基于硬件资源消耗的机器学习方法及装置
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN103729388A (zh) 用于网络用户发表状态的实时热点检测方法
CN111061948A (zh) 一种用户标签推荐方法、装置、计算机设备及存储介质
CN103970727A (zh) 基于话题的反作弊方法、装置和服务器
CN103595747A (zh) 用户信息推荐方法和***
CN113051911B (zh) 提取敏感词的方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant