CN103390051A

CN103390051A - 一种基于微博数据的话题发现与追踪方法

Info

Publication number: CN103390051A
Application number: CN2013103163167A
Authority: CN
Inventors: 孙国梓; 黄斯琪; 杨一涛; 陈国兰; 仇呈燕; 郑冬亚
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2013-07-25
Filing date: 2013-07-25
Publication date: 2013-11-13
Anticipated expiration: 2033-07-25
Also published as: CN103390051B

Abstract

本发明公开了一种基于微博数据的话题发现与追踪方法，该方法针对大规模的社交网络信息中潜在的隐主题进行挖掘；首先将海量增长的微博数据按照时序属性进行分块，过滤冗余信息；对时间窗口中的文本内容进行分析和归类从中返回抽取后语义独立的关键性主题描述，提取出不同时间窗口中的话题；最后通过分析时间窗口间话题的继承性与同一性总结出微博话题变化趋势。通过该方法可以展现话题内容的动态发展过程，即话题的产生，发展，高潮，消亡的整个过程，更为准确、全面的描述话题。

Description

一种基于微博数据的话题发现与追踪方法

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种基于微博数据的话题发现与追踪方法。

背景技术

随着Web2.0的迅速发展和信息传播手段的进步，近年来微博成长为发展迅速且影响非常大的网络全民媒体形式。作为一种新的信息载体和传播途径，微博使网民可以更加方便地对各种产品以及服务进行评论，参与各种热点话题的讨论，在网络舆情信息发起与传播过程中起着越来越重要的作用。实时大规模增长的微博信息对于用户来说并不是全部都有价值的，需要自动地从海量微博信息中提取出能让用户感兴趣的热点话题，过滤掉无实际价值的冗余数据。

话题是事件相关报道的集合。网络中信息来源多种多样，其中包括公众所关心的热点话题，当然也可能存在着有关公共安全，社会稳定的敏感话题。事件随着时间，文化等诸多因素的影响，其发展状态会产生相应的变化。话题演化反映了某一个话题从他的产生，上升，下降以及结束的一个过程，随着时间的推移，话题的强度和内容都会发生变化，即存在话题的迁移。舆情分析就是通过对互联网上的海量文本数据进行分析，掌握主题的演化趋势，做出及时正确的预测，供决策者参考。

目前，传统话题演化主要应用在以新闻专线，广播，电视，博客，论坛社区等媒体为数据来源，通过一系列的数据挖掘方法并进行相似度比对来达到话题检测的目的。在该问题的研究中，来源信息中的文本是极为重要的信息。微博文本均为字数限制在140个字符以内的短文本，他们随时产生，数量巨大。由于字数的限制，用户通常都以更为精简的方式进行发表。文本形式自由、口语化、缩写、网络语言、拼写错误现象极为常见，并常嵌入超文本，如表情，图片，视频，网页链接等等。如果使用传统的通过构造词汇-文本特征矩阵的方式来分析话题，微博文本自身所独有的一些性质会造成特征矩阵高度稀疏，可想而知得到的检测结果也会大打折扣。而本发明能够很好地解决上面的问题。

发明内容

本发明目的在于设计了一种基于微博数据的话题发现与追踪方法，该方法是在大规模增量微博信息上进行实时数据分析，通过主题建模，实现话题自动归类生成，并根据话题内容和话题强度随时间的变化建立话题在时间轴上的关联与变化，总结话题演变的动态趋势。

本发明解决其技术问题所采用的技术方案是：本发明设计了一种基于微博数据的话题发现与追踪方法，该方法将海量增长的微博数据按照时序属性进行分块，并对时间窗口中的文本内容进行挖掘分析，提取出不同时间窗口中的话题，最后通过分析时间窗口间话题的继承性与同一性总结出微博话题变化趋势。该方法主要由数据预处理，时间窗口话题生成和时间窗口间话题关联分析等步骤完成。

方法流程：

步骤1：数据预处理

①忽略指向性对话互动消息。即忽略掉带有“用户名”格式的微博信息，这类微博帖子往往不具有普遍话题的体现行，忽略后能够尽可能的消除只针对个人之间交互的噪声数据。

②原微博数据扩充。将微博正文中涉及到的URL中的信息抽取出并添加到微博信息中，支撑用户的观点描述。

③微博文本式化：对微博文本进行分词、去停用词、去除低频词和高频词的处理。综合考虑微博文本中的评论、转发、用户自定义标签（形如“#主题名#”的hashtag）以及内嵌外部链接（URL），运用修改后的TF-IDF权重算法。将每个微博帖子形式化，与一个多维词向量W_i相对应。

④去稀疏性：针对微博较短的数据文本，对其进行基于词向量的聚类处理。（即首先将微博分词后表示为单词向量，基于单词向量对微博用K均值算法进行聚类处理。假设聚类结果为K类，将每一类里的微博消息合并成单个文档，则得到了K个合成的微博文档D。）

步骤2：时间窗口内话题生成

①将经过预处理后的所有数据信息根据其时间信息离散到时间序列上对应的时间窗口t中，每个时间窗口中的集合为S_t={W₁,W₂,……W_Mt}，这样原本连续的文本流分成了若干个时间窗口，其中每个时间窗口中的文档数目M_t可以相同也可以不同。

②去稀疏性。微博数据多为短句子甚至短语，针对其较为稀疏的数据内容，对其进行基于词向量的聚类处理。

③针对已经切分为时间片的微博文本，依次处理每个时间窗口内的文本集合，运用LDA模型进行话题模型建模，从中抽取出若干个主题T，并分别获得话题内容以及话题强度。其中每个窗口内生成的话题数量可以相同也可以不同，话题数量N由模型选择方法根据每个时间窗口中的微博文本内容动态生成。

④由于已经出现过的某个话题在接下来的时间窗口中仍会以一定概率出现，因此利用历史时间窗口中词的分布的后验概率作为当前时间窗口内话题发掘的先验知识。采取基于非条件依赖的先离散方法，对于当前时间窗口t，用时间窗口为t-1内的词分布与某个加权值w作为时间窗口t中词分布的先验。

步骤3：时间窗口间话题关联分析

话题演化主要指的是不同时间段上，具有相同语义的话题随时间的变化趋势，以及旧话题的灭亡，新话题的产生等等。分析时间窗口间话题内容关联性，包括话题间的继承性与同一性，从而得到话题的演化路径。其中，话题间的继承性通过语义相似度来衡量，同一性通过微博向量信息中的相似度来衡量。通过窗口话题内容和强度的变化，将话题由产生到消亡划描述为若干阶段，形成话题的变化趋势。将具有时序关系和内容关联的若干窗口话题组合成话题，通过窗口话题内容和强度的变化，将一话题由产生到消亡划分为若干阶段，描述出话题的演化过程。

有益效果：

1、在数据预处理阶段，充分考虑微博消息自身的特点，综合考虑到微博中的转发，评论，标签等，对无用的噪音数据进行过滤，对描述话题有建设性的数据进行加权，构造了更能反映微博特征的向量。

2、对微博中含有的内嵌URL，将该URL指向的数据补充到原微博内容中，丰富微博原文的信息量。

3、由于微博数据不同于一般的文本数据，受140字限制，较为短小，运用聚类方法解决文本稀疏的问题。

4、基于局部时间窗口的话题抽取，通过模型选择方法动态确定话题数目，采用具有时序关系和内容关联的窗口话题描述，可以较为精确地描述话题的语义。

5、采用加权组合相似度的比对方法来衡量话题间的关联，综合了三种相似度不同的思想与角度，避免了使用任何一种单一匹对方法的缺陷。

附图说明

图1是本发明微博数据话题发现与追踪方法流程图。

图2是本发明LDA生成话题模型示意图。

具体实施方式

以下结合说明书附图对本发明创造作进一步的详细说明。

步骤1：数据预处理

①忽略指向性对话互动消息。即忽略掉带有“用户名”格式的微博信息，此类信息多为具有指向性的用户之间的对话交流，往往描述一般话题的可能性较小。去除后可以尽可能的消除噪声数据。

②原微博数据扩充。将微博正文中涉及到的内嵌外部链接（URL）中的信息抽取出并添加到微博信息中，支撑用户的观点描述。将提取出的数据运用到下一步的TF-IDF值计算中。

③微博文本式化。为了将微博数据规范化，首先对其数据进行预处理。经过分词，去停用词，去高低频词的处理，以及进行改变后的TF-IDF权重计算。

由于微博不同于其他的传统数据文本，可以将其明确的分为转发微博的源文本，当前微博正文和评论信息三个部分。虽然其信息的主题是其正文中所表达的信息，但通过对转发源文本和评论中出现的词进行分析，可以更有效，更准确地提取出能够表现文章特征的词汇。譬如，如果一个词在转发源文本，微博正文以及评论中均有出现，则这个词就极有可能是能够代表该微博特征的主题词，无论其TF-IDF值为多少。而在正文部分，形如“#主题名#”格式的标签字段也是对主题的一种总结体现，往往可以概括出当前文博所要表达的主题。

针对以上情况，对传统的TF-IDF权值赋予方法进行修改，使其更适合微博文本向量空间的构建，其计算方法如下：

{tf}_{ij} = \frac{n_{i, j}}{Σ_{k} n_{k, j}}

式（1）

n_i,j＝n_post_i,j+o_hash_i,j×w_hashtag+o_url_i,j×w_url

式（1）中，tf_ij表示特征词j在微博i中的词频，n_i，j表示特征词j在微博i中出现的次数，n_post_i,j表示特征词j在微博i的文本（包括转发和评论，去除hashtag、URL）数据中出现的次数，n_hash_i,j、n_url_i,j分别表示特征词j在微博i中hashtag和URL中出现的次数，w_hashtag、w_url分别为其加权的权重值。Σ_kn_kj示微博i中的总词数。

idf = (\frac{N}{n} + 0.01)

式（2）

式（2）中，N表示总的微博数量，n表示出现特征词j的微博数量，0.01是常量，为了避免idf结果出现0值。

V_ij＝tf_ij×idf_j 式（3）

得到形式化的文本。形式化后的每条微博数据与一个多维词向量W_i相对应：

W_i～(V_i1,V_i2,…V_ik) 式（4）

式（4）中，k表示词向量的维度，V_ij表示微博i中特征词j的TF-IDF权重，由式（3）求出。

步骤2：时间窗口内话题生成

①将进行过预处理的信息按其时间属性离散成若干个随时间变化的信息块，对应于时间序列上的每个时间窗口，时间窗口t内的集合为S_t={W₁,W₂,……W_Mt}。每个时间窗口内的文档数目M_t视具体的信息流而定，文档数目可以相同也可以不同。

②去稀疏性。微博数据多为短句子甚至短语，针对其较为稀疏的数据内容，对其进行基于词向量的聚类处理。在时间窗口t内，对S_t中的词向量W_j使用K均值算法进行聚类处理。假设聚类结果为K类，将每一类里的微博数据合并成单个文档，则得到了K个合成的微博文档Dt。

③针对已经切分为时间片的微博文本D_t，依次处理每个时间窗口内的文本集合，运用D.M.Blei在2003年提出的LDA(Latent Dirichlet Allocation)模型进行话题模型建模，从中抽取出若干个主题T，并分别获得话题内容以及话题强度。具体过程如图2所示。

其中每个窗口内生成的话题数量可以相同也可以不同，话题数量N由模型选择方法根据每个时间窗口中的微博文本内容动态生成：

P (w | z) = {(\frac{Γ (Vβ)}{Γ {(β)}^{V}})}^{N} Π_{i = 1}^{N} \frac{Π_{w} Γ (f_{j}^{w} + β)}{Γ (f_{j} + Vβ)}

式（4）

其中Γ()为标准的Gamma函数，表示将词汇w分配给主题j的频数，n_j表示所有分配给主题j的词的词数。上式中使得p(w|z)最小的N即为最佳的话题数目。

④利用前一时间窗口的后验概率影响当前时间窗口的先验概率来维持主体间的连续性，解决已经出现过的话题在接下来的时间窗口中概率出现的问题。使用先离散方法，其基于非条件依赖，对于当前时间窗口t，用时间窗口为t-1内的词分布

与某个加权值w作为时间窗口t中词分布的先验

即

式（5）

步骤3：时间窗口间话题关联分析

话题演化主要指的是不同时间段上，具有相同语义的话题随时间的变化趋势，以及旧话题的灭亡，新话题的产生等等。所以需要分析时间窗口间话题内容之间的关系，包括话题间的继承性与同一性，从而得到话题的变化趋势。其中，话题间的继承性通过语义相似度来衡量，同一性通过微博向量信息中的相似度来衡量。

①窗口间话题继承性：话题间的继承性表现在话题内容上的相似性，通过语义相似度算法对其进行衡量。

②窗口话题间同一性：语义相似度高的两个话题并不能直接表示其构成了话题变化的趋势，为了避免纯粹是语义上耦合，而不具有描述同一话题功能的内容，采用加权组合相似度的比对方法来衡量话题间的继承性。算法中综合了余弦夹角法与Jaccard系数两种相似度不同的思想与角度，避免了使用任何一种单一匹对方法的缺陷。同时能够保证相似度在[0,1]区间里，值越大表示相似度值越高。

Sim_inh(T₁,T₂)＝Sim_cos(T₁,T₂)×α+Sim_jac(T₁,T₂)×β 式（6）

式中，Sim_cos(T₁,T₂)，Sim_jac(T₁,T₂)分别表示余弦相似度，Jaccard系数算法下，时间窗口1和时间窗口2中话题T₁，T₂的相似度。α，β表示加权系数，反映了2种不同相似度对总体相似度的权值大小。

综合考虑话题间的继承性与同一性度量，得出衡量话题间关联判断的组合相似度：

Sim_com(T₁,T₂)＝Sim_inh(T₁,T₂)×λ+Sim_sen(T₁,T₂)×μ 式（7）

其中Sim_sem(T₁,T₂)，Sim_inh(T₁,T₂)分别是话题间继承性与同一性的度量的算法，λ，μ为加权系数。

②窗口话题间关联性分析：将具有时序关系和内容关联的若干窗口话题组合成话题，通过窗口话题内容和强度的变化，将一话题由产生到消亡划分为若干阶段，描述出话题的演化过程。

关联分析中将每个窗口话题T_i的前向时间窗口话题T_i-1和后向时间窗口话题生的新话题，Sim_com(T_i,T_i+1)<ε说明Ti为消失的旧话题，Sim_com(T_i,T_i-1)≥ε说明话题得到了继承，由此过程得出话题由产生到消亡的过程。将话题发现与追踪方法运用到微博平台，可以群策群力，快速追踪热点话题并更新话题热度，弥补传统媒体对实时热点话题追踪分析的不足之处。

Claims

1.一种基于微博数据的话题发现与追踪方法，其特征在于，分为如下步骤：

步骤1：数据预处理；

①忽略指向性对话互动消息；

②原微博数据扩充；

③微博文本式化：对微博文本进行分词、去停用词、去除低频词和高频词的处理；

④去稀疏性：针对微博较短的数据文本，对其进行基于词向量的聚类处理；

步骤2：时间窗口内话题生成；

①将经过预处理后的所有数据信息根据其时间信息离散到时间序列上对应的时间窗口t中；

②去稀疏性：微博数据多为短句子甚至短语，针对其较为稀疏的数据内容，对其进行基于词向量的聚类处理；

③针对已经切分为时间片的微博文本，依次处理每个时间窗口内的文本集合，运用LDA模型进行话题模型建模，从中抽取出若干个主题T，并分别获得话题内容以及话题强度；其中每个窗口内生成的话题数量可以相同也可以不同，话题数量N由模型选择方法根据每个时间窗口中的微博文本内容动态生成；

④由于已经出现过的某个话题在接下来的时间窗口中仍会以一定概率出现，因此利用历史时间窗口中词的分布的后验概率作为当前时间窗口内话题发掘的先验知识；采取基于非条件依赖的先离散方法，对于当前时间窗口t，用时间窗口为t-1内的词分布与某个加权值w作为时间窗口t中词分布的先验；

步骤3：时间窗口间话题关联分析；

话题演化主要指的是不同时间段上，具有相同语义的话题随时间的变化趋势，以及旧话题的灭亡，新话题的产生；分析时间窗口间话题内容关联性，包括话题间的继承性与同一性，从而得到话题的演化路径；其中，话题间的继承性通过语义相似度来衡量，同一性通过微博向量信息中的相似度来衡量；通过窗口话题内容和强度的变化，将话题由产生到消亡划描述为若干阶段，形成话题的变化趋势；将具有时序关系和内容关联的若干窗口话题组合成话题，通过窗口话题内容和强度的变化，将一话题由产生到消亡划分为若干阶段，描述出话题的演化过程。

2.根据权利要求1所述的一种基于微博数据的话题发现与追踪方法，其特征在于：所述方法的步骤1中，在数据预处理阶段，忽略指向性对话互动消息；即忽略掉带有“用户名”格式的微博信息，此类信息多为具有指向性的用户之间的对话交流，往往描述一般话题的可能性较小。

3.根据权利要求1所述的一种基于微博数据的话题发现与追踪方法，其特征在于：所述方法的步骤1中，将原本稀疏的微博数据信息进行扩充，把微博正文中涉及到的内嵌外部链接（URL）中的信息抽取出并添加到微博信息中，支撑用户的观点描述；将提取出的数据运用到针对微博特征改进的TF-IDF值计算中，其针对微博信息中的正文，评论，转发赋予了不同的权值。

4.根据权利要求1所述的一种基于微博数据的话题发现与追踪方法，其特征在于：所述方法的步骤1中，对微博数据进行去稀疏性处理，微博数据多为短句子甚至短语，针对其较为稀疏的数据内容，对其进行基于词向量的聚类处理；在时间窗口t内，对S_t中的词向量W_j使用K均值算法进行聚类处理；假设聚类结果为K类，将每一类里的微博数据合并成单个文档，则得到了K个合成的微博文档Dt。

5.根据权利要求1所述的一种基于微博数据的话题发现与追踪方法，其特征在于：所述方法的步骤2中，针对已经切分为时间片的微博文本D_t，依次处理每个时间窗口内的文本集合，应用D.M.Blei在2003年提出的LDA(Latent Dirichlet Allocation)模型行话题模型建模，从中抽取出若干个主题T，并分别获得话题内容以及话题强度，其中每个窗口内生成的话题数量可以相同也可以不同，话题数量N由模型选择方法根据每个时间窗口中的微博文本内容动态生成：

P (w | z) = {(\frac{Γ (Vβ)}{Γ {(β)}^{V}})}^{N} Π_{i = 1}^{N} \frac{Π_{w} Γ (f_{j}^{w} + β)}{Γ (f_{j} + Vβ)} .

6.根据权利要求1所述的一种基于微博数据的话题发现与追踪方法，其特征在于：所述方法的步骤3中，利用前一时间窗口的后验概率影响当前时间窗口的先验概率来维持主体间的连续性；应用先离散方法，其基于非条件依赖，对于当前时间窗口t，用时间窗口为t-1内的词分布

与某个加权值w作为时间窗口t中词分布的先验

即

7.根据权利要求1所述的一种基于微博数据的话题发现与追踪方法，其特征在于：所述方法的步骤2中，采用加权组合相似度的比对方法来衡量话题间的继承性；方法中综合了余弦夹角法与Jaccard系数两种相似度不同的思想与角度，避免了使用任何一种单一匹对方法的缺陷，同时能够保证相似度在[0,1]区间里，值越大表示相似度值越高；

Sim_inh(T₁,T₂)＝Sim_cos(T₁,T₂)×α+Sim_jac(T₁,T₂)×β

式中，Sim_cos(T₁,T₂)，Sim_jac(T₁,T₂)分别表示余弦相似度，Jaccard系数算法下，时间窗口1和时间窗口2中话题T1，T2的相似度，α，β表示加权系数，反映了2种不同相似度对总体相似度的权值大小；

Sim_com(T₁,T₂)＝Sim_inh(T₁,T₂)×λ+Sim_sen(T₁,T₂)×μ

其中Sim_sem(T₁,T₂)，Sim_inh(T₁,T₂)分别是话题间继承性与同一性的度量的算法，λ，μ为加权系数；

话题间的继承性表现在话题内容上的相似性，通过语义相似度算法对其进行衡量。

8.根据权利要求1所述的一种基于微博数据的话题发现与追踪方法，其特征在于：所述方法的步骤3中，窗口话题间关联性分析是将具有时序关系和内容关联的若干窗口话题组合成话题，通过窗口话题内容和强度的变化，将一话题由产生到消亡划分为若干阶段，描述出话题的演化过程；

关联分析中将每个窗口话题T_i的前向时间窗口话题T_i-1和后向时间窗口话题生的新话题，Sim_com(T_i,T_i+1)<ε说明Ti为消失的旧话题，Sim_com(T_i,T_i-1)≥ε说明话题得到了继承，由此过程得出话题由产生到消亡的过程。