CN103117891A

CN103117891A - 微博平台上的僵尸用户探测方法

Info

Publication number: CN103117891A
Application number: CN201310019660XA
Authority: CN
Inventors: 李石君; 王峰; 余伟; 甘琳; 杨莎; 王俊; 刘晶; 丁永刚
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2013-01-18
Filing date: 2013-01-18
Publication date: 2013-05-22
Anticipated expiration: 2033-01-18
Also published as: CN103117891B

Abstract

本发明属于社交网络上可信度研究体系中的用户可信度的研究范畴，涉及一种微博平台上的僵尸用户探测方法，建立模型解决微博平台上的僵尸用户的探测问题，把僵尸用户的探测这一抽象的问题，与用户可信度的评估问题紧密的结合起来，通过建立起僵尸用户评估得分模型和僵尸用户概率判定模型，并且在僵尸用户概率划分模型中建立起一系列阈值，用于界定僵尸用户的级别。通过僵尸用户评估得分模型和僵尸用户概率判定模型的结合对微博平台上的用户一一进行僵尸用户的甄别。

Description

微博平台上的僵尸用户探测方法

技术领域

本发明属于信息可信度的技术领域，特别涉及社交网络上可信度研究体系中的用户可信度领域。

背景技术

基于全球著名的微博平台Twitter和新浪微博等微博平台上的僵尸用户探测研究是一个新兴的研究领域。

该领域涉及到的主要研究对象，关键技术和实际应用价值主要包括：

互动百科：僵尸粉是一系列不活跃的用户，通常这些用户没有头像，不发表任何微博，和具有很少粉丝数。通常来说，僵尸粉通常由互联网公司批量注册用于买卖，或者留着自用。然而却还要一种僵尸粉注册的目的却是为了引起别人的关注而并非是用作自己发微博。[1]

百度百科：所谓的僵尸粉是微博上的虚假粉丝，指花钱就可以买到“关注”，有名无实的微博粉丝，它们通常是由***自动产生的恶意注册用户。手机用户注册时，僵尸粉是由***自动产生的关注。僵尸粉为什么只自动关注带“V”的用户，而不关注非“V”用户呢？这只是为了满足“V”用户的虚荣心。“从表面逻辑看粉丝自己跑来，谁也不能说博主不诚信，炫耀者因此大言不惭。”[2]

一种降低微博僵尸粉影响的方法：原福永等人以新浪微博平台为研究对象，针对微博平台存在的虚假粉丝——僵尸粉问题进行分析，从僵尸粉的定义、发展和目前采取的措施进行研究。根据微博用户存在的形式和用户间关系的特征，从链接分析的角度提出用户被关注度的概念及计算方法。实验通过对用户被关注度、用户人气值和用户影响力进行比较和分析，证明用户被关注度可以有效地降低僵尸粉带来的虚假粉丝问题[3]。

Twitter上评估事件可信度：Manish Gupta等人研究出了与用户和微博相关的一系列事件可信度自动评估的问题，提出了一套基于事件图优化的可信度分析方法。首先在由事件，微博和用户组成的多类型网络上实施类Page-Rank可信度传播实验，然后在每一次的迭代中通过一个新事件图的规范化更新事件的可信度得分，从而加强基本的信任分析。该文的主要贡献在于：1.为了计算Twitter事件的可信度，提出了BasicCA方法，该方法为多类型网络上权威的传播运用类Page-Rank迭代，这种多类型网络由事件，微博和用户组成。2.提出了EventOptCA算法在每次迭代过程中构建事件图，利用相似事件应该具有相似的可信度得分的直觉加强事件可信度的值。3.利用从两大数据集中提取的457个新闻事件证明了本文中提到方法的比基于分类器特征方法的准确性更高。[4]

Twitter平台上紧急情况下的信息可信度：Twitter在快速信息传播方面展现出了它最巨大的影响力。之前的研究表明大多数微博信息的发布是值得信赖的，但是因为一些人在Twitter上发布了紧急情况下的谣言和垃圾信息，舆论导向就会因此而误导甚至于引发***。X.Xia等人在论文中提出了一种在线Twitter监测模型。在这个监督模型中提出了一套非监督性学习算法用于探测突发性事件。然后人为的把数据分为可信和不可信两类。然后提取和用户的社会行为，消息内容，消息主题和消息传播相关的特征。文中利用学习贝叶斯网络的监督性方法来预测紧急情况下的消息可信度。[5]

Twitter上新闻内容可信度度量：Hend S.Al-Khalifa等人在论文中开发一套能衡量Twitter上发布的新闻内容的可信度***采用两种方法给每条微博消息指定可信度层次。第一种方法是基于Twitter消息和真实新闻源的相似性的。第二种方法是基于一系列已验证的新闻源的，这些新闻源不包括一系列提出的特征。[6]

Twitter上的信息可信度：通过Twitter分析新闻传播的信息可信度是一种广受欢迎的微博服务。之前的研究表明Twitter上大多数发布的消息还是值得信赖的，但是微博服务也通常被用来传播错误信息和假的谣言。该文主要关注于评估指定的消息集的自动评估方法。特别是分析跟主题相关的微博的可信与否及其特征的提取。利用来自于用户发布和转发微博的行为，来自于发布微博的文本，来自于外部源的引用等特征。[7]

Twitter上度量***文本的可信度：当前自动度量网络内容的可信度的研究，如文本和多媒体已经涉及到了许多种语言，但没有一种语言是关于***语网络内容的可信度度量的。Rasha M.BinSultan Al-Eidan等人在该文中展示了一种自动度量发布在Twitter上指定新闻区域内的***语写的内容的可信度（一种微博服务）。该工具基于两种方法，第一种方法是基于Twitter消息和真实新闻源的相似性的。第二种方法是基于一系列已经提出的特征中，有一部分已验证内容的相似性。[8]

在线信息可信度判断：为了更好的支持老年人在互联网上高质量健康信息的消费，理解老年人是怎样做在线健康信息判断是很重要的，为了做到这一点，Q.Vera Liao等人在论文中提到了两次实验研究来探索消息内容，网址特征，和用户评论的可信度线索在不同程度上是怎样影响年轻人和老年人的可信度判断的。文中的第一个实验表明了跟年轻人相比，老年人对消息内容和网址特征的可信度线索更缺乏敏感；第二个实验表明，与消息内容中可信度线索一致的用户评论能够加强老年人的可信度判断。和年轻人相比，老年人似乎很少受到和消息内容不一致的用户评论的影响。[9]

微博的可信度认知：Twitter现在被用来发布大量内容，例如***式新闻，由此增加了评估微博消息可信度的重要性。由于用户越来越多的通过搜索来访问微博消息，和直接访问互联网相比，他们能用来做基本可信度判断的信息很少。Meredith Ringel Morris等人在该文中展示了关于用户的微博消息可信度感知的调查结果，并发现了特征用户考虑的和可信度评估相关的事情与当前搜索引擎揭示的不同之处。实验表明，用户就单独基于内容的可信赖判断是很弱的，相反当在做可信度评估的时候，用户会受到例如用户名等的启发式方法的影响。基于这些发现，微博消息的作者能够被用来加强他们与读者间的信赖程度。为了更好的表达可信度，对显示社交搜索结果进行了改进。[10]

博客帖子的可信度：信息的可信度要参考它本身的可信度或者它的来源的可信度。

W．Weerkamp等人在该文中探索了关于博客帖子检索任务的启发式可信度指标，凭直觉来讲，越可信的博客帖子更受到研究者的青睐。基于之前引入的一个针对微博的可信度框架，把它们筛选为一些可信度指标，并把它们划分为发布层指标（例如拼写，时间性和文档长度）和博客层指标（例如，规则性，专业知识和评论）。假设启发式可信度指标的使用会积极的影响准确率。该文中提出采用从重排方法中的可信度框架到博客发布检索问题的思想，介绍了两种初始化运行的Top n重排的简单方法。第一种方法是启发式可信度重排，简单的重排基于启发式可信度得分这一标准的Top n。第二种方法是合并重排，即把Top n结果的启发式可信度得分乘以Top n结果的检索得分，然后基于相乘结果的得分重新排序。实验结果表明，启发式重排比合并重排有更大的改进，然而在已有强标准的基础上两种方法都有所改进。对于启发式重排来说最佳性能是把所有发布层指标结合起来。采用发布层指标结合评论和代词时，连接重排运行最佳。，虽然博客层指标（专业知识，规则性和连贯性）对性能没有什么积极的贡献，但是分析表明这些指标对某种主题是有用的。[11]

在线新闻的可信度：C.Joo Chung等人在该研究中调查了一系列对在线新闻来源的三个类别的可信度感知有贡献的传统的和技术性的指标。这些来源包括主流网址，独立网址和索引类型的网址。然而可信度的传统维仍旧是有影响的，实验结果表明索引类在线新闻源的超文本特性是特别的重要，而多媒体特性和交互性并不影响可信度感知。[12]

网络搜索结果的可信度判断：Y.Yamamoto等人在该文中提出了一套***帮助用户判断网络搜索结果的可信度从而进一步能够搜索出可信的网页。常规的网络搜索引擎仅仅只展示标题，网页片段和URLs链接给用户，几乎不给出判断网络搜索结果的可信度线索。此外，常规搜索引擎的排序算法通常都是基于网页相关性和网页受欢迎程度的。而该***能够提供给用户三方面功能：1.关于主要的可信度搜索结果的几个得分的计算和可视化；2.通过对网络搜索结果的用户可信度反馈而建立的用户可信度判断预测模型；3.基于用户预测可信度模型的网络搜索结果重排。实验结果表明，***能够使用户，特别是对搜索主题有一定认识的用户，能够使他们从一系列的网络搜索结果中找出可信的网页，而且查找效率比常规网络搜索接口效率还要高。[13]

可信度管理：对等应用被用在互联网上的共享用户生成内容中。对于用户生成内容有重大需求以此来分析可信度和质量。通过分析用户的反馈，针对来源于内容项目的可信度提出了一系列方案，其中大多数采用去中心化计算和半去中心化的方法。Y.Liao等人在该文中提出了P2P方案：得分树。它是针对每个感兴趣的内容项，通过聚合分布式评估和发布可信度评估，去中心化的一种相对复杂的可信度管理算法。[14]

社交网络中的平衡原理：社交网络中的平衡原理如图2所示，“+”表示信任，“—”表示不信任。该原理的主要思想如下：

图2(a)中表明，用户a和用户b之间相互信任，用户b和用户c之间相互信任，则可以推导出用户a和用户c之间相互信任。

图2(b)中表明，用户a和用户b之间相互不信任，用户b和用户c之间相互不信任，则可以推导出用户a和用户c之间相互不信任。

图2(c)中表明，用户a和用户b之间相互不信任，用户a和用户c之间相互不信任，则可以推导出用户b和用户c之间相互信任。

图2(d)中表明，用户a和用户b之间相互信任，用户a和用户c之间相互信任，则可以推导出用户b和用户c之间相互不信任。

从该原理的基本思想分析可以得出，显然图a和图b的推导过程在通常情况下是成立的，而图c和图d的推导过程则不一定是成立的了，所以，图a和图b显示的这种社交网络结构通常意义上来讲是一种稳定的社交网络结构，而图c和图d则不一定是一种稳定的社交网络结构。该原理同样可以运用到微博平台的用户可信度进行研究，即用户a对用户b的可信度高，用户a对用户c的可信度高,则用户b对用户c的可信度高；用户a对用户b的可信度低，用户a对用户c的可信度低,则用户b对用户c的可信度低。[15]

新浪微博在当今全球的新闻信息的传播方面发挥着至关重要的作用，它由新浪公司于2009年8月创办，是中国最大的门户网站，像用户提供了一系列微博服务。据新浪新闻发布的最新消息，新浪微博迄今为止注册用户已突破三亿人，多于一半的用户使用手机终端登录微博，一天产生的微博数总量多达一亿条。注册用户可以通过网页，WAP页，短信和彩信等途径发布信息和上传图片。一句话或者一张图片可以通过电脑或者手机随时随地的发布，并且可以随时随地的和朋友们探讨话题和共享资源。新浪微博自2009年成立以来，获得了社会各界的热烈欢迎和广泛关注，截止2010年时注册用户总数就达到了5000万，但是在当时的5000万用户中，并不是所以用户都是正常用户，而事实上他们中的一些还很有可能是僵尸用户。另外，现在已经出现的由新浪微博平台和新浪官方制定的解决僵尸用户的措施和方法有些都是不太合适的。僵尸用户虽然说也是新浪微博的注册用户，但是僵尸用户与正常用户相比的话，还是有很多不同之处的。僵尸用户是一个从注册当日开始就不是很积极的参与到新浪微博的社交活动中的特殊群体。他们几乎不怎么活跃的从事微博活动，例如他们几乎不怎么发微博，几乎不对微博中的任何话题做评论，几乎不转发任何微博，不收藏任何微博博文，粉丝数少，但是却大量的去关注其他人的微博等等特征。他们存在的目的就是为了增加其他人的粉丝数，一旦他们关注了指定的用户之后，他们就会停止几乎所有的虚拟社交活动，类似于僵尸一样。僵尸粉的存在会影响正常注册用户对高粉丝用户的粉丝数的判断。正常用户会误认为凡是高粉丝数的用户理所当然就应该是高可信度的用户。但事实上，很多名人对于自己的微博账号堆积了如此多的僵尸粉是非常反感的。这种通过僵尸粉来提高自己的粉丝数的行为仅仅只是为了满足一些人的虚荣心，使他们认为他们拥有大量的追随者和崇拜者，让他们拥有一种认同感，但这样做却是毫无意义的。

可见，这些僵尸用户浪费了大量***资源，而针对全球著名的微博平台上的用户可信度研究正处于一个新兴的时期的事实，基于各种微博平台下的僵尸用户探测还没有出现解决方案。

参考文献：

[1]Hudong:ZombieFans[EB/OL].[2012-02-10].http://www.hudong.com/wiki/%E5%83%B5%E5%B0%B8%E7%B2%89.

[2]Baidu Baike:Zombie Fans[EB/OL].[2012-02-10].http://baike.***.com/view/4047998.html．

[3]原福永，冯静，符茜茜，等.一种降低微博僵尸粉影响的方法[J].现代图书情报技术，2012(5):70-74.

[4]Manish Gupta,Peixiang Zhao,Jiawei Han.Evaluation Event Credibility on Twitter.SDM153-164.

[5]X.Xia et al.Information Credibility on Twitter in Emergency Situation.PAISI,2012:45-59.

[6]Hend S.Al-Khalifa,Rasha M.Al-Eidan.An experimental system for measuring thecredibility of news content in Twitter.International Journal of Web Information Systems(IJWIS),Vol.7No.2,2011 pp.130-151.

[7]Carlos Castillo,Marcelo Mendoza,Barbara Poblete.Information Credibility onTwitter.WWW,2011:675-684.

[8]Rasha M.BinSultan Al-Eidan,Rend S.Al-Khalif a and AbdulMalik S.AI-Salman.Measuring The Credibility of Arabic Text Content in Twitter.ICDIM,2010:285-291.

[9]Q.Vera Liao&Wai-Tat Fu.Age Differences in Credibility Judgment of Online HealthInformation.IHI,2012:353-362.

[10]M.Ringel Morris,S.Counts,A.Roseway,A.Hoff,J.Schwarz.Tweeting is Believing?Understanding Micro-blog Credibility Perceptions.CSCW,2012:441-450.

[11]W.Weerkamp & M.de Rijke.Credibility-inspired ranking for blog post retrieval.Information Retrieval For Social Media.2012,Vol 15:243-277.

[12]C.Joo Chung,Y.Nam,M.A.Stefanone.Exploring Online News Credibility:The RelativeInfluence of Traditional and Technological Factors.Journal of Computer-MediatedCommunication[J].2012,Vol 17:171-186.

[13]Y.Yamamoto,K.Tanaka.Enhancing Credibility Judgment of Web SearchResults.CHI.2011,1235-1244.

[14]Y.Liao,A.Harwood,K.Ramamohanarao.Score-Tree:A De-centralised Framework forCredibility Management of User-Generated Content.DAIS 2011,LNCS 6723,pp.249-256.

[15]Pranay Anchuri,Malik Magdon-Ismail.Communities and Balance in Signed Networks:ASpectral Approach.ASONAM,2012.

发明内容

针对现有技术的缺陷，本发明提出了一种微博平台上的僵尸用户探测方法。

本发明的技术方案是一种微博平台上的僵尸用户探测方法，包括以下步骤：

步骤1，建立通配算子Z如下，

Z=(Tw,Fr,Fa,Bf)

其中，四个特征向量Tw,Fr,Fa,Bf表示四个影响因子，分别为微博数、关注数、收藏数和互粉数；

步骤2，根据采用的影响因子，对用户计算通配算子Z对时间的一阶偏导数

和二阶偏导数

实现方式如下，

采用的影响因子为微博数时，

计算微博数变化率如下，

Tw (Δ) = \frac{Tw (i) - Tw (j)}{t} = {Tw}^{'}

其中，Tw(i)表示时刻i用户发表的微博数，Tw(j)表示时刻j用户发表的微博数，Tw′表示用户发表的微博数对时间的一阶导数，t表示时刻i与时刻j的时间差；

计算微博数对时间的二阶导数如下，

{Tw}^{'} (Δ) = \frac{{Tw}^{'} (i) - {Tw}^{'} (j)}{t} = {Tw}^{''}

其中，Tw′(i)表示时刻i用户的微博数对时间的一阶导数，Tw′(j)表示时刻j用户的微博数对时间的一阶导数，Tw″表示用户的微博数对时间的二阶导数，t表示时刻i与时刻j的时间差；

采用的影响因子为关注数时，

计算关注数变化率如下，

Fr (Δ) = \frac{Fr (i) - Fr (j)}{t} = {Fr}^{'}

其中，Fr(i)表示时刻i用户的关注数，Fr(i)表示时刻j用户的关注数，Fr′表示用户的关注数对时间的一阶导数，t表示时刻i与时刻j的时间差；

计算关注数对时间的二阶导数如下，

{Fr}^{'} (Δ) = \frac{{Fr}^{'} (i) - {Fr}^{'} (j)}{t} = {Fr}^{''}

其中，Fr′(ⁱ)表示时刻i用户的关注数对时间的一阶导数，Fr′(j)表示时刻j用户的关注数对时间的一阶导数，Fr″表示用户的关注数对时间的二阶导数，t表示时刻i与时刻j的时间差；

采用的影响因子为收藏数时，

计算收藏数变化率如下，

Fa (Δ) = \frac{Fa (i) - Fa (j)}{t} = {Fa}^{'}

其中，Fa(i)表示时刻i用户的收藏数，Fa(i)表示时刻j用户的收藏数，Fa′表示用户的收藏数对时间的一阶导数，t表示时刻i与时刻j的时间差；

计算收藏数对时间的二阶导数如下，

{Fa}^{'} (Δ) = \frac{{Fa}^{'} (i) - {Fa}^{'} (j)}{t} = {Fa}^{''}

其中，Fa′(i)表示时刻i用户的收藏数对时间的一阶导数，Fa′(j)表示时刻j用户的收藏数对时间的一阶导数，Fa″表示用户的收藏数对时间的二阶导数，t表示时刻i与时刻j的时间差；

采用的影响因子为互粉数时，

计算互粉数变化率如下，

Bf (Δ) = \frac{Bf (i) - Bf (j)}{t} = {Bf}^{'}

其中，Bf(i)表示时刻i用户的互粉数，Bf(j)表示时刻j用户的互粉数，Bf′表示用户的互粉数对时间的一阶导数，t表示时刻i与时刻j的时间差；

计算互粉数对时间的二阶导数如下，

{Bf}^{'} (Δ) = \frac{{Bf}^{'} (i) - {Bf}^{'} (j)}{t} = {Bf}^{''}

其中，Bf′(i)表示时刻i用户的互粉数对时间的一阶导数，Bf′(j)表示时刻j用户的互粉数对时间的一阶导数，Bf″表示用户的互粉数对时间的二阶导数，t表示时刻i与时刻j的时间差；

步骤3，以时间为X轴、以影响因子为Y轴生成曲线，定义僵尸粉判别算子如下并进行计算，

η = \{\begin{matrix} 0 & Z^{'' = 0} \\ &Sum; \frac{Z^{'}}{Z^{''}} & Z^{'' &NotEqual; 0} \end{matrix}

η等于0时，表明用户从该时刻开始进入蛰伏期，当蛰伏期大于预设的阈值λ时，则认为该用户为僵尸粉的概率为100%；

步骤4，定义曲线在某一时刻T的切线与X轴形成的夹角为θ，定义夹角θ的正弦值sinθ为该用户的活跃度得分，计算公式如下，

S(T)=sinθ

基于上述表达式，得出探测僵尸用户的探测模型如下，

P(T)=(1-sinθ)×100%

P(T)表示用户在某一时刻T被计算模型判定为僵尸用户的概率。

而且，采用一种或以上影响因子进行探测。

而且，根据概率P(T)和预设的概率划分等级对用户进行僵尸粉分级。

本发明基于全球著名的微博平台，如Twitter,新浪微博，腾讯微博等，针对信息可信度进行研究，与用户可信度的评估问题紧密的结合起来，通过建立起僵尸用户评估得分模型和僵尸用户概率判定模型，并且在僵尸用户概率划分模型中建立起一系列阈值，用于界定僵尸用户的级别。通过僵尸用户评估得分模型和僵尸用户概率判定模型的结合对微博平台上的用户一一进行僵尸用户的甄别。在一定程度上为微博上海量信息的自动识别真伪奠定了重要的基础，可起到节约资源的作用。

附图说明

图1是本发明实施例的原理图。

图2是社交网络中的平衡原理示意图，其中图2(a)、图2(b)、图2(c)、图2(d)分别为四种情况的示意图。

图3是本发明实施例的上升的“凹”型僵尸用户判定图。

图4是本发明实施例的上升的“凸”型僵尸用户判定图。

图5是本发明实施例的下降的“凸”型僵尸用户判定图。

图6是本发明实施例的下降的“凹”型僵尸用户判定图。

具体实施方式

本发明技术方案可采用计算机软件流程实现自动运行。以下结合附图和实施例说明本发明技术方案。

如图1所示，影响因子集包括四个最重要的影响因子，即微博数，关注数，收藏数和互粉数。由四个影响因子分别可以计算出四个影响因子对时间的变化率，即微博数变化率，关注数变化率，收藏数变化率和互粉数变化率，由四个影响因子对时间的变化率再求解二阶导数即可得出僵尸粉判定算子，用户活跃度得分和僵尸用户判定概率，其中用户活跃度得分与僵尸用户判定概率之和为1，僵尸粉判定算子对用户活跃度得分和僵尸用户判定概率对用户是否为僵尸用户起到辅助判定的作用，如果僵尸粉判定算子为0，那么用户的用户活跃度得分必然为0，而僵尸用户的判定概率则为100%，相反如果僵尸粉判定算子不为0，则可利用用户活跃度得分和僵尸用户判定概率的计算公式，进一步计算用户的活跃度得分和僵尸用户判定的概率。

根据互联网上的较权威信息，可以把僵尸粉的特征大致的概括如下：

1、在线时间。为了判断一个微博账号是否是僵尸用户，他粉丝列表中20-50页之后的粉丝的在线时间应该被关注。如果他们几天甚至一个星期都不在线，他们很有可能就是僵尸粉。

2、互动。一般来说，新浪微博的本质就是一个虚拟的社交圈，圈中的注册的正常用户应当在一定时间内从事发微博，转发微博，参与微博讨论和一系列微博互动活动，如果上述活动在一定时间内都没有参与的话，那么很有可能就是僵尸粉了。

3、内容。僵尸用户存在的目的就是为了为商家做广告，特别是直接把广告发送给消费者。与僵尸用户正好相反的是，正常用户却不会发送广告。僵尸用户的微博中几乎不包含任何经典应用却充斥着大量的广告，而正常的微博用户几乎不含广告，却包含了大量的经典引用和视频信息。

4、转发。僵尸用户转发大量的广告信息却很少转发经典引用，而真正的粉丝对经典引用很感兴趣却对广告没什么兴趣。

5、有没有名人的关注。大量高质量的微博博文或多或少都会有名人来关注。如果一条微博被名人关注过的话，那么微博的发布者是僵尸粉的可能性就会降低很多。

微博推广越来越受到商家的重视，但选择微博做推广的时候需要注意，很多微博推广平台宣称自己已经对微博主fans做了审核，其实不然，因为很多僵尸粉团根本就是他们自己的，现在微博推广很受商家欢迎，岂不知里面的80%的微博主都是刷出来的微博粉丝。甚至“刷粉丝”还成为了一种商业交易，粉丝明码标价4元/1000个，最高上限50W个fans，确保不掉，掉了再补。

本发明实施例在提出僵尸粉探测模型之前，首先列出一些与模型相关的定义如下：

设在某一特定时间内（时刻i和时刻j之间）考虑变换率，

微博数变化率：它被定义为某一特定时间内的微博变化数，用表示式表示如下：

Tw (Δ) = \frac{Tw (i) - Tw (j)}{t} = {Tw}^{'} - - - (1)

Tw(i)表示时刻i用户发表的微博数，Tw(j)表示时刻j用户发表的微博数，Tw′表示用户发表的微博数对时间的一阶导数，t表示时刻i与时刻j的时间差；

与微博数变化率类似的，本发明同样可以定义粉丝数变化率，关注数变化率，收藏数变化率和互粉数变化率如下：

关注数变化率：它被定义为某一特定时间内的粉丝数变化数，用表示式表示如下：

Fr (Δ) = \frac{Fr (i) - Fr (j)}{t} = {Fr}^{'} - - - (2)

Fr(i)表示时刻i用户的关注数，Fr(i)表示时刻j用户的关注数，Fr′表示用户的关注数对时间的一阶导数，t表示时刻i与时刻j的时间差。

收藏数变化率：它被定义为某一特定时间内的收藏数变化数，用表示式表示如下：

Fa (Δ) = \frac{Fa (i) - Fa (j)}{t} = {Fa}^{'} - - - (3)

Fa(i)表示时刻i用户的收藏数，Fa(i)表示时刻j用户的收藏数，Fa′表示用户的收藏数对时间的一阶导数，t表示时刻i与时刻j的时间差。

互粉数变化率：它被定义为某一特定时间内的互粉数变化数，用表示式表示如下：

Bf (Δ) = \frac{Bf (i) - Bf (j)}{t} = {Bf}^{'} - - - (4)

Bf(i)表示时刻i用户的互粉数，Bf(j)表示时刻j用户的互粉数，Bf′表示用户的互粉数对时间的一阶导数，t表示时刻i与时刻j的时间差。

从上述表达式1-4中，Tw,Fr,Fa,Bf这四个影响因子分别是微博数，关注数，收藏数和互粉数的词缩写。如果某个注册用户是僵尸用户，那么他这四个因子中的一个或几个的变化数必然很小。

基于用户可信度得分的思想，本发明提出探测和找出僵尸粉的方法和过程可以概括如下：步骤1：一定时间内的微博数变化率可由公式1计算出来，被用来表征某个特定用户从时间点i到时间点j的时间段内用户微博数的变化。

步骤2：一定时间内的关注数变化率可由公式2计算出来，被用来表征某个特定用户从时间点i到时间点j的时间段内用户关注数的变化。

步骤4：一定时间内的收藏数变化率可由公式3计算出来，被用来表征某个特定用户从时间点i到时间点j的时间段内用户收藏数的变化。

步骤5：一定时间内的互粉数变化率可由公式4计算出来，被用来表征某个特定用户从时间点i到时间点j的时间段内用户互粉数的变化。

基于以上步骤，本发明可以得到僵尸粉的探测结果，该结果可以被量化成概率或者得分。它表示一个特定用户可能是僵尸用户的概率。通过这个概率或者得分可以得出某用户是僵尸用户的可能性排序。

与此同时，本发明定义四个影响因子的变化趋势对微博用户是否是僵尸粉可能性的影响程度。这种影响因子的变化趋势和用户是否是僵尸粉可能性的影响程度，可用变化曲线进行描述，以时间为X轴、以影响因子为Y轴生成曲线，具体定义如下：

定义1：四个影响因子中的一个或几个影响因子对时间的一阶导数大于零且对时间的二阶导数大于零，则表明它们呈现出增长趋势，且这种增长趋势的增长速度越来越快；这种增长的趋势越来越快，反过来表明该用户的相应影响因子的增长速度也越来越快，从而该用户被评估为僵尸粉用户的概率就会越来越小，影响因子对评估时间段的变化趋势曲线的示例图如图3所示。

定义2：四个影响因子中的一个或几个影响因子对时间的一阶导数大于零且对时间的二阶导数小于零，则表明它们呈现出增长趋势，但这种增长趋势的增长速度越来越慢；这种增长的趋势越来越慢，反过来表明该用户的相应影响因子的增长速度也越来越慢，从而该用户被评估为僵尸粉用户的概率就会越来越大，影响因子对评估时间段的变化趋势曲线的示例图如图4所示。

定义3：四个影响因子中的一个或几个影响因子对时间的一阶导数小于零且对时间的二阶导数大于零，则表明它们呈现出下降趋势，但这种下降趋势的下降速度越来越快；这种下降的趋势越来越快，反过来表明该用户的相应影响因子的下降速度也越来越快，从而该用户被评估为僵尸粉用户的概率就会越来越小，虽然这种情况下，该用户的活跃度很大，实际上这是一种严重掉粉丝的情况，但这种情况的持续发展并不利于用户在微博平台的虚拟社交活动，当掉粉丝到一定程度之后，用户的四个影响因子就有可能趋于平衡状态（即各因子对时间的二阶导数趋于零），当这种情况出现时，该用户的影响因子对评估时间段的变化趋势曲线会立即变化为下面的第4种曲线图，当然这种情况在微博平台上的僵尸用户探测过程中并不常见。它的影响因子对评估时间段的变化趋势曲线的示例图如图5所示。

定义4：四个影响因子中的一个或几个影响因子对时间的一阶导数小于零且对时间的二阶导数小于零，则表明它们呈现出下降趋势，但这种下降趋势的下降速度越来越慢；这种下降的趋势越来越慢，反过来表明该用户的相应影响因子的下降速度也越来越慢，从而该用户被评估为僵尸粉用户的概率就会越来越大，它的影响因子对评估时间段的变化趋势曲线的示例图如图6所示。

特别地，上述定义2和定义4中，如果这种变化趋势最终导致四个影响因子中的一个或几个影响因子对时间的一阶导数等于零且对时间的二阶导数等于零时，表明此时的四个影响因子将不会有任何的变化，即它们既不会有增长趋势也不会有下降趋势（因为它们中的一个或几个影响因子对时间的一阶导数为零），同时也就谈不上增长趋势或者下降趋势的快慢变化了（因为它们中的一个或几个影响因子对时间的二阶导数为零）。此时的用户状态开始进入僵尸粉评估蛰伏期，此时可以定义蛰伏期的一个阈值λ，当待评测用户的蛰伏期大于阈值λ时，则可以认为该用户为僵尸粉的概率为100%。具体实施时，本领域技术人员可以自行根据情况预设阈值λ的数值。

由此，可以得出四个影响因子对时间的二阶导数的计算公式如下：

{Tw}^{'} (Δ) = \frac{{Tw}^{'} (i) - {Tw}^{'} (j)}{t} = {Tw}^{''},

{Fr}^{'} (Δ) = \frac{{Fr}^{'} (i) - {Fr}^{'} (j)}{t} = {Fr}^{''},

{Fa}^{'} (Δ) = \frac{{Fa}^{'} (i) - {Fa}^{'} (j)}{t} = {Fa}^{''},

{Bf}^{'} (Δ) = \frac{{Bf}^{'} (i) - {Bf}^{'} (j)}{t} = {Bf}^{''} - - - (5)

Tw′(i)表示时刻i用户的微博数对时间的一阶导数，Tw′(j)表示时刻j用户的微博数对时间的一阶导数，Tw″表示用户的微博数对时间的二阶导数，t表示时刻i与时刻j的时间差；

Fr′(i)表示时刻i用户的关注数对时间的一阶导数，Fr′(j)表示时刻j用户的关注数对时间的一阶导数，Fr″表示用户的关注数对时间的二阶导数，t表示时刻i与时刻j的时间差；

Fa′(i)表示时刻i用户的收藏数对时间的一阶导数，Fa′(j)表示时刻j用户的收藏数对时间的一阶导数，Fa″表示用户的收藏数对时间的二阶导数，t表示时刻i与时刻j的时间差；

Bf′(i)表示时刻i用户的互粉数对时间的一阶导数，Bf′(j)表示时刻j用户的互粉数对时间的一阶导数，Bf″表示用户的互粉数对时间的二阶导数，t表示时刻i与时刻j的时间差。

上述公式5中的公式表示形式和公式1-4的表示形式类似，不同之处在于它计算出来的结果是四个影响因子对时间的二阶偏导数。

实施例的具体流程如下：

步骤1，建立通配算子Z：

为了表述的方便，本发明把这四个影响因子定义为一个通配算子Z的四个特征向量，如下：

Z=(Tw,Fr,Fa,Bf) （6）

步骤2，相应地，Z对时间的一阶偏导数和二阶偏导数可分别表示如下：

Z^{' = \frac{&PartialD; Z}{&PartialD; t},}

Z^{'' = \frac{{&PartialD;}^{2} Z}{&PartialD; t}} - - - (7)

根据采用的影响因子，按前述公式计算即可。

步骤3，以时间为X轴、以影响因子为Y轴生成曲线。可定义僵尸粉判定算子如下：

η = \{\begin{matrix} 0 & Z^{'' = 0} \\ &Sum; \frac{Z^{'}}{Z^{''}} & Z^{'' &NotEqual; 0} \end{matrix} - - - (8)

η等于0时，表明待评估用户从该时刻开始进入蛰伏期，成为候选僵尸粉；

η大于0时，表明待评估用户属于上述第1种和第4种情况，曲线是向上凸的；

η小于0时，表明待评估用户属于上述第2种和第3种情况，曲线是向下凹的。

步骤4，基于以上理论，定义一些与模型相关的变量和计算公式；

定义曲线在某一时刻的切线与X轴形成的夹角为θ，那么本发明定义夹角θ的正弦值sinθ为该用户的活跃度得分。计算公式如下：

S(T)=sinθ （9）

上述表达式表明，该用户在时间T时刻的得分与夹角θ的正弦值成正比例关系。微博用户的用户活跃度，表征用户在微博平台这一虚拟的社交网络中从事社交活动的活跃程度，用户活跃度得分越高，则该用户四大影响因子的变化率之和越大，反之则用户四大影响因子的变化率之和越小。

基于上述表达式，可以得出探测僵尸用户的探测模型如下：

P(T)=(1-sinθ)×100% (10)

该计算模型表示出了僵尸用户在某一时刻T被计算模型判定为僵尸用户的概率。

例如，某用户在时刻T的切线与X轴的夹角为60度，那么它的正弦值为

那么该用户为僵尸粉的概率为

(1 - \frac{\sqrt{3}}{2}) * 100 % = 13.39746 % .

具体实施时，可以选用微博数、关注数、收藏数和互粉数中的任意一种进行探测，也可以从中选两种或以上影响因子综合进行探测，例如本领域技术人员可以自行设定多种影响因子分别所求P(T)取平均为最终的僵尸用户概率。

本发明技术人员可以预先设置概率划分等级，用于判断一个用户为僵尸用户时的僵尸粉级别。再为这个等级划分建立一个标准，因此可以定义一系列阈值，形成僵尸用户概率判定模型。当某种影响因子由僵尸粉判断模型计算得出的概率P(T)大于等于概率阈值时，或者多种影响因子所求概率P(T)取平均得分低于平均分阈值时，本发明就认为该用户是僵尸粉的可能性越大；与此相反的，当由僵尸粉判断模型计算得出的概率值小于等于概率阈值时，或者即平均得分高于平均分阈值时，本发明就认为该用户是僵尸粉的可能性越小。

与此同时，用户成为僵尸粉的那一时刻到它再次摆脱僵尸粉出现复苏时刻的那一段时间叫做蛰伏期，当该用户的一阶导数为零时，表明该用户进入僵尸粉阶段，一阶导数为零的瞬间是蛰伏期的开始，一阶导数再次大于零的时刻定义为蛰伏期的结束。如果该用户的蛰伏期超过判定阈值λ时，则该用户即被判定为僵尸用户。

值得注意的是，僵尸用户的判定具有时效性，即该用户就算已经被判定模型判定为僵尸用户了，但是只要在某一时刻，该用户再次活跃起来时，那么他的判定概率将小于100%。被判定为僵尸粉的用户在蛰伏期内活跃度为零。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种微博平台上的僵尸用户探测方法，其特征在于，包括以下步骤：