CN103279483B

CN103279483B - 一种面向微博客的话题流行范围评估方法及***

Info

Publication number: CN103279483B
Application number: CN201310143846.6A
Authority: CN
Inventors: 程学旗; 李静远; 李佳; 王元卓; 刘悦
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-04-23
Filing date: 2013-04-23
Publication date: 2016-04-13
Anticipated expiration: 2033-04-23
Also published as: CN103279483A

Abstract

本发明提供一种面向微博客的话题流行范围评估方法及***，其中方法包括：S1，采集微博客平台的历史数据，提取多个话题及多个消息，进行合并操作获得多个合并消息，然后将发布或者转发同一个合并消息的用户构建一个社区，获得多个社区，基于多个社区的重合程度进行话题的归类，提取同一类别中话题的特征；S2，获取微博客平台的实时数据，提取新话题及多个新消息，进行合并操作获得多个新合并消息，将发布或者转发同一个新合并消息的用户构建一个新社区，获得多个新社区，基于多个新社区的重合程度进行新话题的归类，提取同一类别中新话题的新特征；S3，将所述特征与所述新特征进行匹配，获得目标话题，对所述目标话题的流行范围进行评估。

Description

一种面向微博客的话题流行范围评估方法及***

技术领域

本发明涉及互联网信息管理领域，尤其涉及一种面向微博客的话题流行范围评估方法及***。

背景技术

互联网的快速发展，特别是Web2.0的快速发展，以Facebook、Myspace和Twitter为代表的社交网络服务成为了网络用户不可或缺的交流工具。这些社交网络服务为用户提供了包括好友的更新信息、感兴趣的人或群组的更新信息、最新热门时间的相关信息等功能，而这些功能正在逐渐改变着社交网络服务用户的信息获取方式。以国外的Twitter和国内的新浪微博为代表的微博客作为一种新型的社交网络与Facebook等依托传统社区产生的虚拟社区形式有很大的区别，这主要表现在关注机制、消息传播方式和消息实时性上。微博客不同于一般的社交网络，采用了单向关注的机制，使得任何用户都可以随意关注任何自己感兴趣的人；微博客的消息传播为广播式传播，用户发布的消息会被推送到该用户的所有听众；微博客是结合网络与移动终端等方式的新型网络服务，它对用户发送的内容进行了限制，更加强调消息的实时性。微博用户往往通过短小精悍的文本（一般不超过140个字）描述新闻、事件及表达自己的观点

微博客的这些有别于传统社交网络的特性使得微博客平台中实时更新的数据量非常庞大，在这种宏大的信息流中，用户对于信息获取有了更为迫切的需求。首先，由于微博客是短文本，话题发现不同于传统的博客等，如何有效的发现话题并且总结话题，将相应的微博客归类到有意义的话题上是具有挑战性的问题，话题之间的内在联系被忽视；其次，社交网络上面的用户是由隐含的社区所组成，目前社区发现尚没有对应的直接应用。另外，目前尚没有对于社区和话题之间关系的相关研究。这些不足之处也是具有研究价值的问题所在。

第一，微博客是一种话题驱动机制，话题的生命期包括出现、发展衍化和消退这几个阶段，由于微博客的实时性，用户希望在话题出现的阶段实时获取相关信息，从而能够更早的参与到自己感兴趣的话题的讨论中去。如何在微博客平台实现话题发现，尚未有明确的方案；微博客平台对用户发送的内容数量上做了限制，这是为了保证消息的实时性，但这在某种程度上也导致了用户无法在一条消息内做到完整的表述。这种信息不足也增加了突发话题发现的难度；

第二，微博客平台上发现话题之后，多个话题之间的关系的发现时一个被忽略的研究问题。如何发现话题之间关系，表达话题之间关系，以及利用话题之间的关系进行对未来话题流行度的评估都是具有挑战的问题。

第三，微博客平台上进行有意义社区的发现。目前对于社区的定义仍然具有争议，一种观点认为连接紧密的用户是一个社区，另一种观点认为具有相同兴趣和话题的用户是一个社区。社区和话题之间的关系，如何表示两者之间的关系，两者之间的关系是否有意义，如何利用这种关系评估话题的可能的流行范围等尚缺乏相关的研究。

发明内容

本发明的目的是融合话题和社区关系的消息流行范围评估，利用话题和社区，社区和社区之间，话题和话题之间的关系，可以实时有效的对新话题的可能的流行范围进行评估。

为实现上述目的，本发明提供一种面向微博客的话题流行范围评估方法，该方法包括：

步骤1，采集微博客平台的历史数据,根据所述历史数据提取多个话题，以及所述多个话题所对应的多个消息，并根据对所述多个消息进行合并操作获得多个合并消息，然后将发布或者转发同一个合并消息的用户构建一个社区，获得多个社区，基于所述多个社区的重合程度，进行话题的归类，提取同一类别中话题的特征；

步骤2，获取微博客平台的实时数据，根据所述实时数据提取新话题，以及所述新话题所对应的多个新消息，并根据对所述多个新消息进行合并操作获得多个新合并消息，将发布或者转发同一个新合并消息的用户构建一个新社区，获得多个新社区，基于所述多个新社区的重合程度，进行新话题的归类，提取同一类别中新话题的新特征；

步骤3，将所述特征与所述新特征进行匹配，获得目标话题，对所述目标话题的流行范围进行评估；

其中L1和L2分别为任意两条消息的长度，Lcom为任意两条消息的共同的词的数目，threshold介于[0.3,0.4]区间内。

所述步骤1和步骤2中进行合并操作后进行以下处理：

根据合并结果执行LDA机器学习方式获得话题，利用计算话题之间的区别值，其中P和Q为两个向量，分别是对应所有消息出现在话题中的概率，令前一次的D_KL为D_KL_Old,本次的D_KL是D_KL_new，当D_KL_new>D_KL_older时保留合并结果并继续新的合并操作，否则消除合并结果并继续新的合并操作。

所述步骤1和步骤2中的归类操作具体为：

将满足的任意话题下的任意两个社区归为同一类，其中C1和C2为任意两个社区，C1中的所有用户为U1，C2中的所有用户为U2，U1和U2中相同的用户为Ucom。

为实现上述目的，本发明还提供一种面向微博客的话题流行范围评估***，该***包括：

历史数据处理单元，采集微博客平台的历史数据,根据所述历史数据提取多个话题，以及所述多个话题所对应的多个消息，并根据对所述多个消息进行合并操作获得多个合并消息，然后将发布或者转发同一个合并消息的用户构建一个社区，获得多个社区，基于所述多个社区的重合程度，进行话题的归类，提取同一类别中话题的特征；

实时数据处理单元，获取微博客平台的实时数据，根据所述实时数据提取新话题，以及所述新话题所对应的多个新消息，并根据对所述多个新消息进行合并操作获得多个新合并消息，将发布或者转发同一个新合并消息的用户构建一个新社区，获得多个新社区，基于所述多个新社区的重合程度，进行新话题的归类，提取同一类别中新话题的新特征；

话题范围评估单元，将所述特征与所述新特征进行匹配，获得目标话题，对所述目标话题的流行范围进行评估；

所述历史数据处理单元和实时数据处理单元中进行合并操作后进行以下处理：

所述历史数据处理单元和实时数据处理单元中的归类操作具体为：

本发明的有益效果在于：

1、本发明中针对于微博客中短文本的特征，提出一种对LDA的修正，即对数据进行合并，合并之后有利于LDA模型找到更加有意义的话题。

2、本发明使用了话题来获得不同的用户群，在不同的话题下，不是针对所有用户进行社区发现，而是对已经对这个话题感兴趣的用户进行社区的发现；

3、本发明使用了社区的信息来对话题进行归类，能够发现更加适合评估话题传播的话题类别，利用社区和话题之间的对应关系，对话题流行范围进行有效地评估。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1是本发明的面向微博客的话题流行范围评估方法流程图；

图2是本发明的面向微博客的话题流行范围评估***示意图；

图3是本发明的一实施例的面向微博客的话题流行范围评估***示意图；

图4是本发明的一实施例的话题发现和特征提取方法的预处理流程图；

图5是本发明的一实施例的新话题流行范围评估方法流程图；

图6是本发明中所用到的LDA模型的图示；

图7是本发明中话题发现模块的流程图。

具体实施方式

图1是本发明的面向微博客的话题流行范围评估方法流程图。如图1所示，该方法包括：

S1，采集微博客平台的历史数据,根据所述历史数据提取多个话题，以及所述多个话题所对应的多个消息，并根据对所述多个消息进行合并操作获得多个合并消息，然后将发布或者转发同一个合并消息的用户构建一个社区，获得多个社区，基于所述多个社区的重合程度，进行话题的归类，提取同一类别中话题的特征；

S2，获取微博客平台的实时数据，根据所述实时数据提取新话题，以及所述新话题所对应的多个新消息，并根据对所述多个新消息进行合并操作获得多个新合并消息，将发布或者转发同一个新合并消息的用户构建一个新社区，获得多个新社区，基于所述多个新社区的重合程度，进行新话题的归类，提取同一类别中新话题的新特征；

S3，将所述特征与所述新特征进行匹配，获得目标话题，对所述目标话题的流行范围进行评估；

所述S1和S2中进行合并操作后进行以下处理：

所述S1和S2中的归类操作具体为：

图2是本发明的面向微博客的话题流行范围评估***示意图。如图2所示，该***包括：

历史数据处理单元10，采集微博客平台的历史数据,根据所述历史数据提取多个话题，以及所述多个话题所对应的多个消息，并根据对所述多个消息进行合并操作获得多个合并消息，然后将发布或者转发同一个合并消息的用户构建一个社区，获得多个社区，基于所述多个社区的重合程度，进行话题的归类，提取同一类别中话题的特征；

实时数据处理单元20，获取微博客平台的实时数据，根据所述实时数据提取新话题，以及所述新话题所对应的多个新消息，并根据对所述多个新消息进行合并操作获得多个新合并消息，将发布或者转发同一个新合并消息的用户构建一个新社区，获得多个新社区，基于所述多个新社区的重合程度，进行新话题的归类，提取同一类别中新话题的新特征；

话题范围评估单元30，将所述特征与所述新特征进行匹配，获得目标话题，对所述目标话题的流行范围进行评估；

所述历史数据处理单元10和实时数据处理单元20中进行合并操作后进行以下处理：

所述历史数据处理单元10和实时数据处理单元20中的归类操作具体为：

现在列举本发明的一实施例。在下面的实施例中以提供基本功能的微博客环境为例，对本发明的方法进行说明。微博客所提供的基本功能包括：用户功能、消息功能。用户功能包含关注、被关注。消息功能有发送、评论、转发。

在本发明的一个实施例中提供了一种微博客话题流行范围的评估***，该***从采集的数据中选择合适的模型发现一段时间内的所有的话题，完成话题发现后，针对于每一个话题，提取涉及到这个话题的所有用户，应用合适的模型对用户进行社区的发现。完成社区发现后，根据社区的重合度对话题进行归类，对话题类进行特征的提取。当一个新的话题出现时，对这个新的话题提取特征，根据特征，匹配新的话题的类别。根据匹配出的类别，评估话题可能流行的范围。***包括微博客数据采集模块、话题类发现和特征提取模块、新话题流行范围评估模块和数据存储采集模块。

其中，话题发现模块，在已有的历史数据中进行话题的发现。其中历史的数据主要包括以下的内容，用户数据，所述用户数据包括微博客用户的个人信息、朋友（关注）关系和给定时间间隔内的发送、转发的消息以及评论信息等。例如用户的基本信息，用户的朋友关系，用户发送、转发、评论的消息数量，用户在采集周期内发送的消息被转发和评论的次数等信息。可以将采集到的数据存储在日志服务器。通常可以用网页爬虫或服务商提供的第三方API来采集初始数据。对于微博客进行话题发现采用的模型是对LDA模型的改进，LDA是一个机器学习中的一个主题模型，可以用来识别大规模文档集合中的隐藏的主题信息，利用到了词与词之间共同出现的信息。LDA在微博客上存在的主要问题是因为微博客的文本比较短（140个字以内），导致词与词之间共同出现的次数大大的减少。我们提出了一种合并的方式，可以增加词与词之间共同出现，改善LDA在短文本上的结果。

话题归类模块中，本发明主要提出了一种按照用户关注的方式对话题进行分类。本发明提出的话题和社区关系思想是：相同的一批人关注了不同的话题的时候，这些话题存在某些内在的联系和属性，对于有类似属性的话题，很可能还被相同的一批人所关注。对于不同的话题，对于涉及到某个话题的所有用户进行社区的分析，而不是对所有的用户进行社区的分析。根据不同话题下的社区之间的重合程度，可以发现对传播具有实际价值的话题的分类。

提取话题类的特征模块对于每个话题类进行特征的提取并且将特征保存到特征数据库。完成话题分类后，针对每个类别，提取这个类别的特征，例如话题所属类别，话题关注事件的发生地点等。

新话题流行范围评估模块对于新出现的话题，在出现了一段时间之后，提取相应的特征，和话题类发现和特征提取模块中所产生的特征进行相似性的匹配，相似性的匹配利用余弦相似度。匹配之后获得新的话题可能所属的类别，根据话题类别以往流行的范围，评估新的话题的流行范围。随着话题的流行，可以获得更多关于这个话题的信息，进一步提取话题的特征后，对于可能流行的范围进行修正。

由于微博客平台数据具有时效性，数据的有效期非常短，这要求***能自适应的利用新采集的数据进行特征提取与后续的模型训练从而提高***的稳定性，这要求***应该能够自适应的进行模型更新。本发明中，数据采集模块采集到的数据在数据存储模块进行了保存，则可对特征进行离线更新，完成模型的迭代式更新过程。

图3是本发明的一实施例的面向微博客的话题流行范围评估***示意图。如图3所示，该方法首先在历史数据上进行话题的发现（S101），其次，在这些发现的话题下面，获得关注每个话题的用户，将用户重合度高的话题分到相同的类别中（S102），通过社区的用户程度，发现对于传播有价值的话题组，对话题组进行特征提取（S103），并且保存每个话题的特征。之后，对于实时采集的数据流进行新话题流行范围的评估（S104）。其中，数据特征包括1）、账户注册时间和最近登录微博客时间；2）、关注与被关注朋友的数量；3）、发送、转发和评论的消息的数量；4）、发送的消息被评论和转发的数量；等等，并在***运行中不断对特征进行更新。

图4是本发明的一实施例的话题发现和特征提取方法的预处理流程图。如图4所示，该方法首先要根据微博客中短文本的特点选择合适的话题发现的方法（S201），由于本方法不同于长博客，需要在短文本上进行，另外话题的数目不确定，可选的模型包括机器学习中的LDA模型，并对于LDA模型进行针对于短文本的改进，方法使用历史数据进行话题的汇总，针对于上一步中发现的每个话题进行社区的发现（S202），首先要获得涉及到某个话题的所有用户，对于这些用户，将互相连通的用户分为一个社区。通过这一步，方法得到了不同话题下的多种社区的划分。然后，根据社区中用户的重合程度（S203）,完成对话题进行归类。归类完成后，对每个话题类进行特征的提取（S204），特征包括，话题的类别，话题涉及到的事件的时间、地点等。

图5是本发明的一实施例的新话题流行范围评估方法流程图。如图5所示，该方法首先将***进行初始化处理，包括将消息可能的流行范围清空、将可能存储在缓存内的数据进行固化（存入数据库）等（S301）。由于***运行在实时数据流上，初始化处理非常重要，否则会造成数据污染而影响方法的效果。完成初始化步骤后，***开始作用于微博客数据采集模块获得的实时数据流（S302），对实时采集的数据分别进行话题特征的提取（S303），这一步中使用的特征应该与S204中使用的特征完全相同。完成上一步后，根据特征和S204中获得的话题组的特征进行匹配，选择最相似的话题组，根据这个话题组以前流行的用户，对于这个话题的流行范围进行评估(S305)。评估之后，随着话题的进一步流行，可以得到更多关于话题的特征，可以对评估的范围进行进一步的修正。如果话题已经处于消亡阶段，那么结束。至此，方法在微博客平台下基于话题和社区关系的话题流行范围评估方法完成了，将该方法整合到***中，对于话题类的特征进行保存，随着时间的推进，获得更多的话题类并对话题的流行范围进行评估。

图6是本发明中所用到的LDA模型的图示，图7是本发明中话题发现模块的流程图。如图6与图7所示：

首先，在S501,中对***进行清理。之后对于相似的消息按照前面提到的规则进行合并（S502），在合并之后的数据上面，进行LDA模型的话题发现（s503），之后，在S504对于发现的话题，计算话题之间的KL-Divergence，是为了判断话题与话题之间的相似性，希望话题与话题之间的区别变大，相近的话题应该是属于同样的话题，如果KL-Divergence有变大（s505），那么我们继续进行合并到操作，知道不能够增加KL-Divergence的值。那么算法结束。

本发明中提供的方法和***适用于具有微博客特点的各类网络服务中，例如Twitter、新浪微博和腾讯微博等。

下面用一个具体的小例子来说明本发明中的方法。首先说明步骤一中的话题发现方法的改进。我们挑选出了包含5个话题的50条微博来说明我们的方法，五个话题分别是电影，健康，学习，游戏，微博。LDA的结果展示通常使用每个话题中的最有可能的词汇来展示，下面是没有进行LDA的改进之前的五个学习出来的话题。

fortopic1:gameawesomefarmlovetownitsfuckingaddictivelolgames

fortopic2:inceptionmovieyearnightstudyingamazingeasilyyesterdaycoolbrilliant

fortopic3:tweetshopperaccountclarifymeantlookedrecentflannelmaggieseason

fortopic4:gamecrispyhealthcarelistengamecomicswilliamscomicbackwardaaron

fortopic5:twitterfacebookmyspacetexttweetpeoplenopeyoutubelatemessaging

可以看出上面的话题中区别程度有限，例如topic3和topic5都和微博相关，而topic2和topic4都和游戏相关，五个话题并没有很好地区分。之后我们进行合并，例如inceptionwaseasilythebestmovieihaveseen.和inceptionisthebestmovieoftheyear,sofar.这两个句子中相同的词数多，所以进行合并，进行了一系列类似的合并之后，得到的结果如下。

fortopic1:gamecrispyteamaddictivelolrulelovereasonsbadtown

fortopic2:twitterfacebookmyspacetextaccounttweetslateshowtweetmessaging

fortopic3:studyingclasssittodaybiocriblayingcalllowhoursschoolnight.boutiamdolleyfiercelifesupposedattentionpayive

fortopic4:healthcarestarwarnfluhospitalbuddypublicityillmaskhoosiers

fortopic5:inceptionmovieyearnightgreatwatchyesterdaycoolenjoyedawesome

可以看出各个topic之间的区分程度比较高。而且基本上对应了上面所述的五个话题。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种面向微博客的话题流行范围评估方法，其特征在于，包括：

2.如权利要求1所述的话题流行范围评估方法，其特征在于，所述步骤1和步骤2中进行合并操作后进行以下处理：

3.如权利要求1所述的话题流行范围评估方法，其特征在于，所述步骤1和步骤2中的归类操作具体为：

将满足的任意话题下的任意两个社区归为同一类，任意两个社区中的一个社区的所有用户为U1，另外一个社区的所有用户为U2，U1和U2中相同的用户为Ucom。

4.一种面向微博客的话题流行范围评估***，其特征在于，包括：

5.如权利要求4所述的话题流行范围评估***，其特征在于，对于所述历史数据处理单元和实时数据处理单元中进行合并操作后进行以下处理：

6.如权利要求4所述的话题流行范围评估***，其特征在于，对于所述历史数据处理单元和实时数据处理单元中的归类操作具体为：