CN103390051A - 一种基于微博数据的话题发现与追踪方法 - Google Patents

一种基于微博数据的话题发现与追踪方法 Download PDF

Info

Publication number
CN103390051A
CN103390051A CN2013103163167A CN201310316316A CN103390051A CN 103390051 A CN103390051 A CN 103390051A CN 2013103163167 A CN2013103163167 A CN 2013103163167A CN 201310316316 A CN201310316316 A CN 201310316316A CN 103390051 A CN103390051 A CN 103390051A
Authority
CN
China
Prior art keywords
topic
microblogging
time window
window
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103163167A
Other languages
English (en)
Other versions
CN103390051B (zh
Inventor
孙国梓
黄斯琪
杨一涛
陈国兰
仇呈燕
郑冬亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201310316316.7A priority Critical patent/CN103390051B/zh
Publication of CN103390051A publication Critical patent/CN103390051A/zh
Application granted granted Critical
Publication of CN103390051B publication Critical patent/CN103390051B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于微博数据的话题发现与追踪方法,该方法针对大规模的社交网络信息中潜在的隐主题进行挖掘;首先将海量增长的微博数据按照时序属性进行分块,过滤冗余信息;对时间窗口中的文本内容进行分析和归类从中返回抽取后语义独立的关键性主题描述,提取出不同时间窗口中的话题;最后通过分析时间窗口间话题的继承性与同一性总结出微博话题变化趋势。通过该方法可以展现话题内容的动态发展过程,即话题的产生,发展,高潮,消亡的整个过程,更为准确、全面的描述话题。

Description

一种基于微博数据的话题发现与追踪方法
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种基于微博数据的话题发现与追踪方法。
背景技术
随着Web2.0的迅速发展和信息传播手段的进步,近年来微博成长为发展迅速且影响非常大的网络全民媒体形式。作为一种新的信息载体和传播途径,微博使网民可以更加方便地对各种产品以及服务进行评论,参与各种热点话题的讨论,在网络舆情信息发起与传播过程中起着越来越重要的作用。实时大规模增长的微博信息对于用户来说并不是全部都有价值的,需要自动地从海量微博信息中提取出能让用户感兴趣的热点话题,过滤掉无实际价值的冗余数据。
话题是事件相关报道的集合。网络中信息来源多种多样,其中包括公众所关心的热点话题,当然也可能存在着有关公共安全,社会稳定的敏感话题。事件随着时间,文化等诸多因素的影响,其发展状态会产生相应的变化。话题演化反映了某一个话题从他的产生,上升,下降以及结束的一个过程,随着时间的推移,话题的强度和内容都会发生变化,即存在话题的迁移。舆情分析就是通过对互联网上的海量文本数据进行分析,掌握主题的演化趋势,做出及时正确的预测,供决策者参考。
目前,传统话题演化主要应用在以新闻专线,广播,电视,博客,论坛社区等媒体为数据来源,通过一系列的数据挖掘方法并进行相似度比对来达到话题检测的目的。在该问题的研究中,来源信息中的文本是极为重要的信息。微博文本均为字数限制在140个字符以内的短文本,他们随时产生,数量巨大。由于字数的限制,用户通常都以更为精简的方式进行发表。文本形式自由、口语化、缩写、网络语言、拼写错误现象极为常见,并常嵌入超文本,如表情,图片,视频,网页链接等等。如果使用传统的通过构造词汇-文本特征矩阵的方式来分析话题,微博文本自身所独有的一些性质会造成特征矩阵高度稀疏,可想而知得到的检测结果也会大打折扣。而本发明能够很好地解决上面的问题。
发明内容
本发明目的在于设计了一种基于微博数据的话题发现与追踪方法,该方法是在大规模增量微博信息上进行实时数据分析,通过主题建模,实现话题自动归类生成,并根据话题内容和话题强度随时间的变化建立话题在时间轴上的关联与变化,总结话题演变的动态趋势。
本发明解决其技术问题所采用的技术方案是:本发明设计了一种基于微博数据的话题发现与追踪方法,该方法将海量增长的微博数据按照时序属性进行分块,并对时间窗口中的文本内容进行挖掘分析,提取出不同时间窗口中的话题,最后通过分析时间窗口间话题的继承性与同一性总结出微博话题变化趋势。该方法主要由数据预处理,时间窗口话题生成和时间窗口间话题关联分析等步骤完成。
方法流程:
步骤1:数据预处理
①忽略指向性对话互动消息。即忽略掉带有“用户名”格式的微博信息,这类微博帖子往往不具有普遍话题的体现行,忽略后能够尽可能的消除只针对个人之间交互的噪声数据。
②原微博数据扩充。将微博正文中涉及到的URL中的信息抽取出并添加到微博信息中,支撑用户的观点描述。
③微博文本式化:对微博文本进行分词、去停用词、去除低频词和高频词的处理。综合考虑微博文本中的评论、转发、用户自定义标签(形如“#主题名#”的hashtag)以及内嵌外部链接(URL),运用修改后的TF-IDF权重算法。将每个微博帖子形式化,与一个多维词向量Wi相对应。
④去稀疏性:针对微博较短的数据文本,对其进行基于词向量的聚类处理。(即首先将微博分词后表示为单词向量,基于单词向量对微博用K均值算法进行聚类处理。假设聚类结果为K类,将每一类里的微博消息合并成单个文档,则得到了K个合成的微博文档D。)
步骤2:时间窗口内话题生成
①将经过预处理后的所有数据信息根据其时间信息离散到时间序列上对应的时间窗口t中,每个时间窗口中的集合为St={W1,W2,……WMt},这样原本连续的文本流分成了若干个时间窗口,其中每个时间窗口中的文档数目Mt可以相同也可以不同。
②去稀疏性。微博数据多为短句子甚至短语,针对其较为稀疏的数据内容,对其进行基于词向量的聚类处理。
③针对已经切分为时间片的微博文本,依次处理每个时间窗口内的文本集合,运用LDA模型进行话题模型建模,从中抽取出若干个主题T,并分别获得话题内容以及话题强度。其中每个窗口内生成的话题数量可以相同也可以不同,话题数量N由模型选择方法根据每个时间窗口中的微博文本内容动态生成。
④由于已经出现过的某个话题在接下来的时间窗口中仍会以一定概率出现,因此利用历史时间窗口中词的分布的后验概率作为当前时间窗口内话题发掘的先验知识。采取基于非条件依赖的先离散方法,对于当前时间窗口t,用时间窗口为t-1内的词分布与某个加权值w作为时间窗口t中词分布的先验。
步骤3:时间窗口间话题关联分析
话题演化主要指的是不同时间段上,具有相同语义的话题随时间的变化趋势,以及旧话题的灭亡,新话题的产生等等。分析时间窗口间话题内容关联性,包括话题间的继承性与同一性,从而得到话题的演化路径。其中,话题间的继承性通过语义相似度来衡量,同一性通过微博向量信息中的相似度来衡量。通过窗口话题内容和强度的变化,将话题由产生到消亡划描述为若干阶段,形成话题的变化趋势。将具有时序关系和内容关联的若干窗口话题组合成话题,通过窗口话题内容和强度的变化,将一话题由产生到消亡划分为若干阶段,描述出话题的演化过程。
有益效果:
1、在数据预处理阶段,充分考虑微博消息自身的特点,综合考虑到微博中的转发,评论,标签等,对无用的噪音数据进行过滤,对描述话题有建设性的数据进行加权,构造了更能反映微博特征的向量。
2、对微博中含有的内嵌URL,将该URL指向的数据补充到原微博内容中,丰富微博原文的信息量。
3、由于微博数据不同于一般的文本数据,受140字限制,较为短小,运用聚类方法解决文本稀疏的问题。
4、基于局部时间窗口的话题抽取,通过模型选择方法动态确定话题数目,采用具有时序关系和内容关联的窗口话题描述,可以较为精确地描述话题的语义。
5、采用加权组合相似度的比对方法来衡量话题间的关联,综合了三种相似度不同的思想与角度,避免了使用任何一种单一匹对方法的缺陷。
附图说明
图1是本发明微博数据话题发现与追踪方法流程图。
图2是本发明LDA生成话题模型示意图。
具体实施方式
以下结合说明书附图对本发明创造作进一步的详细说明。
步骤1:数据预处理
①忽略指向性对话互动消息。即忽略掉带有“用户名”格式的微博信息,此类信息多为具有指向性的用户之间的对话交流,往往描述一般话题的可能性较小。去除后可以尽可能的消除噪声数据。
②原微博数据扩充。将微博正文中涉及到的内嵌外部链接(URL)中的信息抽取出并添加到微博信息中,支撑用户的观点描述。将提取出的数据运用到下一步的TF-IDF值计算中。
③微博文本式化。为了将微博数据规范化,首先对其数据进行预处理。经过分词,去停用词,去高低频词的处理,以及进行改变后的TF-IDF权重计算。
由于微博不同于其他的传统数据文本,可以将其明确的分为转发微博的源文本,当前微博正文和评论信息三个部分。虽然其信息的主题是其正文中所表达的信息,但通过对转发源文本和评论中出现的词进行分析,可以更有效,更准确地提取出能够表现文章特征的词汇。譬如,如果一个词在转发源文本,微博正文以及评论中均有出现,则这个词就极有可能是能够代表该微博特征的主题词,无论其TF-IDF值为多少。而在正文部分,形如“#主题名#”格式的标签字段也是对主题的一种总结体现,往往可以概括出当前文博所要表达的主题。
针对以上情况,对传统的TF-IDF权值赋予方法进行修改,使其更适合微博文本向量空间的构建,其计算方法如下:
tf ij = n i , j Σ k n k , j 式(1)
ni,j=n_posti,j+o_hashi,j×whashtag+o_urli,j×wurl
式(1)中,tfij表示特征词j在微博i中的词频,ni,j表示特征词j在微博i中出现的次数,n_posti,j表示特征词j在微博i的文本(包括转发和评论,去除hashtag、URL)数据中出现的次数,n_hashi,j、n_urli,j分别表示特征词j在微博i中hashtag和URL中出现的次数,whashtag、wurl分别为其加权的权重值。Σknkj示微博i中的总词数。
idf = ( N n + 0.01 ) 式(2)
式(2)中,N表示总的微博数量,n表示出现特征词j的微博数量,0.01是常量,为了避免idf结果出现0值。
Vij=tfij×idfj   式(3)
得到形式化的文本。形式化后的每条微博数据与一个多维词向量Wi相对应:
Wi~(Vi1,Vi2,…Vik)   式(4)
式(4)中,k表示词向量的维度,Vij表示微博i中特征词j的TF-IDF权重,由式(3)求出。
步骤2:时间窗口内话题生成
①将进行过预处理的信息按其时间属性离散成若干个随时间变化的信息块,对应于时间序列上的每个时间窗口,时间窗口t内的集合为St={W1,W2,……WMt}。每个时间窗口内的文档数目Mt视具体的信息流而定,文档数目可以相同也可以不同。
②去稀疏性。微博数据多为短句子甚至短语,针对其较为稀疏的数据内容,对其进行基于词向量的聚类处理。在时间窗口t内,对St中的词向量Wj使用K均值算法进行聚类处理。假设聚类结果为K类,将每一类里的微博数据合并成单个文档,则得到了K个合成的微博文档Dt。
③针对已经切分为时间片的微博文本Dt,依次处理每个时间窗口内的文本集合,运用D.M.Blei在2003年提出的LDA(Latent Dirichlet Allocation)模型进行话题模型建模,从中抽取出若干个主题T,并分别获得话题内容以及话题强度。具体过程如图2所示。
其中每个窗口内生成的话题数量可以相同也可以不同,话题数量N由模型选择方法根据每个时间窗口中的微博文本内容动态生成:
P ( w | z ) = ( Γ ( Vβ ) Γ ( β ) V ) N Π i = 1 N Π w Γ ( f j w + β ) Γ ( f j + Vβ ) 式(4)
其中Γ()为标准的Gamma函数,表示将词汇w分配给主题j的频数,nj表示所有分配给主题j的词的词数。上式中使得p(w|z)最小的N即为最佳的话题数目。
Figure BDA00003567047000041
④利用前一时间窗口的后验概率影响当前时间窗口的先验概率来维持主体间的连续性,解决已经出现过的话题在接下来的时间窗口中概率出现的问题。使用先离散方法,其基于非条件依赖,对于当前时间窗口t,用时间窗口为t-1内的词分布
Figure BDA00003567047000042
与某个加权值w作为时间窗口t中词分布的先验
Figure BDA00003567047000043
Figure BDA00003567047000044
式(5)
步骤3:时间窗口间话题关联分析
话题演化主要指的是不同时间段上,具有相同语义的话题随时间的变化趋势,以及旧话题的灭亡,新话题的产生等等。所以需要分析时间窗口间话题内容之间的关系,包括话题间的继承性与同一性,从而得到话题的变化趋势。其中,话题间的继承性通过语义相似度来衡量,同一性通过微博向量信息中的相似度来衡量。
①窗口间话题继承性:话题间的继承性表现在话题内容上的相似性,通过语义相似度算法对其进行衡量。
②窗口话题间同一性:语义相似度高的两个话题并不能直接表示其构成了话题变化的趋势,为了避免纯粹是语义上耦合,而不具有描述同一话题功能的内容,采用加权组合相似度的比对方法来衡量话题间的继承性。算法中综合了余弦夹角法与Jaccard系数两种相似度不同的思想与角度,避免了使用任何一种单一匹对方法的缺陷。同时能够保证相似度在[0,1]区间里,值越大表示相似度值越高。
Siminh(T1,T2)=Simcos(T1,T2)×α+Simjac(T1,T2)×β   式(6)
式中,Simcos(T1,T2),Simjac(T1,T2)分别表示余弦相似度,Jaccard系数算法下,时间窗口1和时间窗口2中话题T1,T2的相似度。α,β表示加权系数,反映了2种不同相似度对总体相似度的权值大小。
综合考虑话题间的继承性与同一性度量,得出衡量话题间关联判断的组合相似度:
Simcom(T1,T2)=Siminh(T1,T2)×λ+Simsen(T1,T2)×μ   式(7)
其中Simsem(T1,T2),Siminh(T1,T2)分别是话题间继承性与同一性的度量的算法,λ,μ为加权系数。
②窗口话题间关联性分析:将具有时序关系和内容关联的若干窗口话题组合成话题,通过窗口话题内容和强度的变化,将一话题由产生到消亡划分为若干阶段,描述出话题的演化过程。
关联分析中将每个窗口话题Ti的前向时间窗口话题Ti-1和后向时间窗口话题生的新话题,Simcom(Ti,Ti+1)<ε说明Ti为消失的旧话题,Simcom(Ti,Ti-1)≥ε说明话题得到了继承,由此过程得出话题由产生到消亡的过程。将话题发现与追踪方法运用到微博平台,可以群策群力,快速追踪热点话题并更新话题热度,弥补传统媒体对实时热点话题追踪分析的不足之处。

Claims (8)

1.一种基于微博数据的话题发现与追踪方法,其特征在于,分为如下步骤:
步骤1:数据预处理;
①忽略指向性对话互动消息;
②原微博数据扩充;
③微博文本式化:对微博文本进行分词、去停用词、去除低频词和高频词的处理;
④去稀疏性:针对微博较短的数据文本,对其进行基于词向量的聚类处理;
步骤2:时间窗口内话题生成;
①将经过预处理后的所有数据信息根据其时间信息离散到时间序列上对应的时间窗口t中;
②去稀疏性:微博数据多为短句子甚至短语,针对其较为稀疏的数据内容,对其进行基于词向量的聚类处理;
③针对已经切分为时间片的微博文本,依次处理每个时间窗口内的文本集合,运用LDA模型进行话题模型建模,从中抽取出若干个主题T,并分别获得话题内容以及话题强度;其中每个窗口内生成的话题数量可以相同也可以不同,话题数量N由模型选择方法根据每个时间窗口中的微博文本内容动态生成;
④由于已经出现过的某个话题在接下来的时间窗口中仍会以一定概率出现,因此利用历史时间窗口中词的分布的后验概率作为当前时间窗口内话题发掘的先验知识;采取基于非条件依赖的先离散方法,对于当前时间窗口t,用时间窗口为t-1内的词分布与某个加权值w作为时间窗口t中词分布的先验;
步骤3:时间窗口间话题关联分析;
话题演化主要指的是不同时间段上,具有相同语义的话题随时间的变化趋势,以及旧话题的灭亡,新话题的产生;分析时间窗口间话题内容关联性,包括话题间的继承性与同一性,从而得到话题的演化路径;其中,话题间的继承性通过语义相似度来衡量,同一性通过微博向量信息中的相似度来衡量;通过窗口话题内容和强度的变化,将话题由产生到消亡划描述为若干阶段,形成话题的变化趋势;将具有时序关系和内容关联的若干窗口话题组合成话题,通过窗口话题内容和强度的变化,将一话题由产生到消亡划分为若干阶段,描述出话题的演化过程。
2.根据权利要求1所述的一种基于微博数据的话题发现与追踪方法,其特征在于:所述方法的步骤1中,在数据预处理阶段,忽略指向性对话互动消息;即忽略掉带有“用户名”格式的微博信息,此类信息多为具有指向性的用户之间的对话交流,往往描述一般话题的可能性较小。
3.根据权利要求1所述的一种基于微博数据的话题发现与追踪方法,其特征在于:所述方法的步骤1中,将原本稀疏的微博数据信息进行扩充,把微博正文中涉及到的内嵌外部链接(URL)中的信息抽取出并添加到微博信息中,支撑用户的观点描述;将提取出的数据运用到针对微博特征改进的TF-IDF值计算中,其针对微博信息中的正文,评论,转发赋予了不同的权值。
4.根据权利要求1所述的一种基于微博数据的话题发现与追踪方法,其特征在于:所述方法的步骤1中,对微博数据进行去稀疏性处理,微博数据多为短句子甚至短语,针对其较为稀疏的数据内容,对其进行基于词向量的聚类处理;在时间窗口t内,对St中的词向量Wj使用K均值算法进行聚类处理;假设聚类结果为K类,将每一类里的微博数据合并成单个文档,则得到了K个合成的微博文档Dt。
5.根据权利要求1所述的一种基于微博数据的话题发现与追踪方法,其特征在于:所述方法的步骤2中,针对已经切分为时间片的微博文本Dt,依次处理每个时间窗口内的文本集合,应用D.M.Blei在2003年提出的LDA(Latent Dirichlet Allocation)模型行话题模型建模,从中抽取出若干个主题T,并分别获得话题内容以及话题强度,其中每个窗口内生成的话题数量可以相同也可以不同,话题数量N由模型选择方法根据每个时间窗口中的微博文本内容动态生成:
P ( w | z ) = ( &Gamma; ( V&beta; ) &Gamma; ( &beta; ) V ) N &Pi; i = 1 N &Pi; w &Gamma; ( f j w + &beta; ) &Gamma; ( f j + V&beta; ) .
6.根据权利要求1所述的一种基于微博数据的话题发现与追踪方法,其特征在于:所述方法的步骤3中,利用前一时间窗口的后验概率影响当前时间窗口的先验概率来维持主体间的连续性;应用先离散方法,其基于非条件依赖,对于当前时间窗口t,用时间窗口为t-1内的词分布
Figure FDA00003567046900021
与某个加权值w作为时间窗口t中词分布的先验
Figure FDA00003567046900022
7.根据权利要求1所述的一种基于微博数据的话题发现与追踪方法,其特征在于:所述方法的步骤2中,采用加权组合相似度的比对方法来衡量话题间的继承性;方法中综合了余弦夹角法与Jaccard系数两种相似度不同的思想与角度,避免了使用任何一种单一匹对方法的缺陷,同时能够保证相似度在[0,1]区间里,值越大表示相似度值越高;
Siminh(T1,T2)=Simcos(T1,T2)×α+Simjac(T1,T2)×β
式中,Simcos(T1,T2),Simjac(T1,T2)分别表示余弦相似度,Jaccard系数算法下,时间窗口1和时间窗口2中话题T1,T2的相似度,α,β表示加权系数,反映了2种不同相似度对总体相似度的权值大小;
综合考虑话题间的继承性与同一性度量,得出衡量话题间关联判断的组合相似度:
Simcom(T1,T2)=Siminh(T1,T2)×λ+Simsen(T1,T2)×μ
其中Simsem(T1,T2),Siminh(T1,T2)分别是话题间继承性与同一性的度量的算法,λ,μ为加权系数;
话题间的继承性表现在话题内容上的相似性,通过语义相似度算法对其进行衡量。
8.根据权利要求1所述的一种基于微博数据的话题发现与追踪方法,其特征在于:所述方法的步骤3中,窗口话题间关联性分析是将具有时序关系和内容关联的若干窗口话题组合成话题,通过窗口话题内容和强度的变化,将一话题由产生到消亡划分为若干阶段,描述出话题的演化过程;
关联分析中将每个窗口话题Ti的前向时间窗口话题Ti-1和后向时间窗口话题生的新话题,Simcom(Ti,Ti+1)<ε说明Ti为消失的旧话题,Simcom(Ti,Ti-1)≥ε说明话题得到了继承,由此过程得出话题由产生到消亡的过程。
CN201310316316.7A 2013-07-25 2013-07-25 一种基于微博数据的话题发现与追踪方法 Expired - Fee Related CN103390051B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310316316.7A CN103390051B (zh) 2013-07-25 2013-07-25 一种基于微博数据的话题发现与追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310316316.7A CN103390051B (zh) 2013-07-25 2013-07-25 一种基于微博数据的话题发现与追踪方法

Publications (2)

Publication Number Publication Date
CN103390051A true CN103390051A (zh) 2013-11-13
CN103390051B CN103390051B (zh) 2016-07-20

Family

ID=49534323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310316316.7A Expired - Fee Related CN103390051B (zh) 2013-07-25 2013-07-25 一种基于微博数据的话题发现与追踪方法

Country Status (1)

Country Link
CN (1) CN103390051B (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678277A (zh) * 2013-12-04 2014-03-26 东软集团股份有限公司 基于文档分段的构建主题-词汇分布的方法及***
CN103699611A (zh) * 2013-12-16 2014-04-02 浙江大学 一种基于动态摘要技术的微博流信息提取方法
CN103793501A (zh) * 2014-01-20 2014-05-14 惠州学院 基于社交网络的主题社团发现方法
CN103793478A (zh) * 2014-01-14 2014-05-14 四川大学 基于主题遗传的在线主题建模方法
CN103970863A (zh) * 2014-05-08 2014-08-06 清华大学 基于lda主题模型的微博用户兴趣的挖掘方法及***
CN103984729A (zh) * 2014-05-19 2014-08-13 北京大学 微博信息追踪方法和微博信息追踪装置
CN103984731A (zh) * 2014-05-19 2014-08-13 北京大学 微博环境下自适应话题追踪方法和装置
CN104281653A (zh) * 2014-09-16 2015-01-14 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法
CN104731811A (zh) * 2013-12-20 2015-06-24 北京师范大学珠海分校 一种面向大规模动态短文本的聚类信息演化分析方法
CN105138684A (zh) * 2015-09-15 2015-12-09 联想(北京)有限公司 一种信息处理方法和信息处理装置
CN105260358A (zh) * 2015-10-14 2016-01-20 上海大学 一种面向短文本的突发事件发展过程表示方法
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
CN105760410A (zh) * 2015-04-15 2016-07-13 北京工业大学 一种基于转发评论的微博语义扩充模型和方法
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106294405A (zh) * 2015-05-22 2017-01-04 国家计算机网络与信息安全管理中心 一种微博子话题演化分析方法及装置
CN106354818A (zh) * 2016-08-30 2017-01-25 电子科技大学 基于社交媒体的动态用户属性提取方法
CN106557551A (zh) * 2016-10-27 2017-04-05 西南石油大学 基于微博事件聚类建模的微博传播规模预测方法和***
CN106570088A (zh) * 2016-10-20 2017-04-19 浙江大学 一种科研文献话题发现和演化跟踪的方法
CN106570167A (zh) * 2016-11-08 2017-04-19 南京理工大学 基于融合知识的主题模型的微博话题发现方法
CN106599002A (zh) * 2015-10-19 2017-04-26 北京国双科技有限公司 话题演化分析的方法及装置
CN106649726A (zh) * 2016-12-23 2017-05-10 中山大学 一种社交网络中社团话题演化挖掘方法
CN106776503A (zh) * 2016-12-22 2017-05-31 东软集团股份有限公司 文本语义相似度的确定方法及装置
CN106934014A (zh) * 2017-03-10 2017-07-07 山东省科学院情报研究所 一种基于Hadoop的网络数据挖掘与分析平台及其方法
CN107025299A (zh) * 2017-04-24 2017-08-08 北京理工大学 一种基于加权lda主题模型的金融舆情感知方法
CN107203513A (zh) * 2017-06-06 2017-09-26 中国人民解放军国防科学技术大学 基于概率模型的微博文本数据细粒度话题演化分析方法
CN107835113A (zh) * 2017-07-05 2018-03-23 中山大学 一种基于网络映射的社交网络中异常用户检测方法
CN107918611A (zh) * 2016-10-09 2018-04-17 郑州大学 一种分析微博话题演化的模型
CN108399162A (zh) * 2018-03-21 2018-08-14 北京理工大学 基于短语袋主题模型的话题发现方法
CN108717421A (zh) * 2018-04-23 2018-10-30 深圳市城市规划设计研究院有限公司 一种基于时空变化的社交媒体文本主题提取方法及***
CN108763208A (zh) * 2018-05-22 2018-11-06 腾讯科技(上海)有限公司 话题信息获取方法、装置、服务器和计算机可读存储介质
CN109543110A (zh) * 2018-11-28 2019-03-29 南京航空航天大学 一种微博情感分析方法及***
US10275444B2 (en) 2016-07-15 2019-04-30 At&T Intellectual Property I, L.P. Data analytics system and methods for text data
CN110059225A (zh) * 2019-03-11 2019-07-26 北京奇艺世纪科技有限公司 视频分类方法、装置、终端设备及存储介质
CN111125305A (zh) * 2019-12-05 2020-05-08 东软集团股份有限公司 热门话题确定方法、装置、存储介质及电子设备
CN111666268A (zh) * 2020-05-20 2020-09-15 安徽火蓝数据有限公司 一种微博大数据舆情分析方法
CN112905751A (zh) * 2021-03-19 2021-06-04 常熟理工学院 一种结合主题模型和孪生网络模型的话题演化跟踪方法
CN113127643A (zh) * 2021-05-11 2021-07-16 江南大学 一种融合微博主题及评论的深度学习谣言检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120041953A1 (en) * 2010-08-16 2012-02-16 Microsoft Corporation Text mining of microblogs using latent topic labels
CN103116651A (zh) * 2013-03-05 2013-05-22 南京理工大学常熟研究院有限公司 一种舆情热点动态检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120041953A1 (en) * 2010-08-16 2012-02-16 Microsoft Corporation Text mining of microblogs using latent topic labels
CN103116651A (zh) * 2013-03-05 2013-05-22 南京理工大学常熟研究院有限公司 一种舆情热点动态检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
胡艳丽等: "一种话题演化建模与分析方法", 《自动化学报》 *
贺亮: "科技文献话题演化研究", 《现代图书情报技术》 *

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678277A (zh) * 2013-12-04 2014-03-26 东软集团股份有限公司 基于文档分段的构建主题-词汇分布的方法及***
CN103699611A (zh) * 2013-12-16 2014-04-02 浙江大学 一种基于动态摘要技术的微博流信息提取方法
CN103699611B (zh) * 2013-12-16 2017-01-11 浙江大学 一种基于动态摘要技术的微博流信息提取方法
CN104731811A (zh) * 2013-12-20 2015-06-24 北京师范大学珠海分校 一种面向大规模动态短文本的聚类信息演化分析方法
CN104731811B (zh) * 2013-12-20 2018-10-09 北京师范大学珠海分校 一种面向大规模动态短文本的聚类信息演化分析方法
CN103793478B (zh) * 2014-01-14 2017-01-11 四川大学 基于主题遗传的在线主题建模方法
CN103793478A (zh) * 2014-01-14 2014-05-14 四川大学 基于主题遗传的在线主题建模方法
CN103793501B (zh) * 2014-01-20 2016-03-02 惠州学院 基于社交网络的主题社团发现方法
CN103793501A (zh) * 2014-01-20 2014-05-14 惠州学院 基于社交网络的主题社团发现方法
CN103970863B (zh) * 2014-05-08 2017-12-19 清华大学 基于lda主题模型的微博用户兴趣的挖掘方法及***
CN103970863A (zh) * 2014-05-08 2014-08-06 清华大学 基于lda主题模型的微博用户兴趣的挖掘方法及***
CN103984731A (zh) * 2014-05-19 2014-08-13 北京大学 微博环境下自适应话题追踪方法和装置
CN103984729A (zh) * 2014-05-19 2014-08-13 北京大学 微博信息追踪方法和微博信息追踪装置
CN103984731B (zh) * 2014-05-19 2017-03-08 北京大学 微博环境下自适应话题追踪方法和装置
CN104281653A (zh) * 2014-09-16 2015-01-14 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法
CN104281653B (zh) * 2014-09-16 2018-07-27 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法
CN105760410B (zh) * 2015-04-15 2019-04-19 北京工业大学 一种基于转发评论的微博语义扩充模型和方法
CN105760410A (zh) * 2015-04-15 2016-07-13 北京工业大学 一种基于转发评论的微博语义扩充模型和方法
CN106294405A (zh) * 2015-05-22 2017-01-04 国家计算机网络与信息安全管理中心 一种微博子话题演化分析方法及装置
CN105138684B (zh) * 2015-09-15 2018-12-14 联想(北京)有限公司 一种信息处理方法和信息处理装置
CN105138684A (zh) * 2015-09-15 2015-12-09 联想(北京)有限公司 一种信息处理方法和信息处理装置
CN105260358A (zh) * 2015-10-14 2016-01-20 上海大学 一种面向短文本的突发事件发展过程表示方法
CN106599002B (zh) * 2015-10-19 2020-06-05 北京国双科技有限公司 话题演化分析的方法及装置
CN106599002A (zh) * 2015-10-19 2017-04-26 北京国双科技有限公司 话题演化分析的方法及装置
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
CN105354333B (zh) * 2015-12-07 2018-11-06 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106055538B (zh) * 2016-05-26 2019-03-08 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
US10275444B2 (en) 2016-07-15 2019-04-30 At&T Intellectual Property I, L.P. Data analytics system and methods for text data
US11010548B2 (en) 2016-07-15 2021-05-18 At&T Intellectual Property I, L.P. Data analytics system and methods for text data
US10642932B2 (en) 2016-07-15 2020-05-05 At&T Intellectual Property I, L.P. Data analytics system and methods for text data
CN106354818B (zh) * 2016-08-30 2020-01-10 电子科技大学 基于社交媒体的动态用户属性提取方法
CN106354818A (zh) * 2016-08-30 2017-01-25 电子科技大学 基于社交媒体的动态用户属性提取方法
CN107918611A (zh) * 2016-10-09 2018-04-17 郑州大学 一种分析微博话题演化的模型
CN106570088A (zh) * 2016-10-20 2017-04-19 浙江大学 一种科研文献话题发现和演化跟踪的方法
CN106557551A (zh) * 2016-10-27 2017-04-05 西南石油大学 基于微博事件聚类建模的微博传播规模预测方法和***
CN106570167A (zh) * 2016-11-08 2017-04-19 南京理工大学 基于融合知识的主题模型的微博话题发现方法
CN106776503A (zh) * 2016-12-22 2017-05-31 东软集团股份有限公司 文本语义相似度的确定方法及装置
CN106776503B (zh) * 2016-12-22 2020-03-10 东软集团股份有限公司 文本语义相似度的确定方法及装置
CN106649726A (zh) * 2016-12-23 2017-05-10 中山大学 一种社交网络中社团话题演化挖掘方法
CN106934014A (zh) * 2017-03-10 2017-07-07 山东省科学院情报研究所 一种基于Hadoop的网络数据挖掘与分析平台及其方法
CN106934014B (zh) * 2017-03-10 2021-03-19 山东省科学院情报研究所 一种基于Hadoop的网络数据挖掘与分析平台及其方法
CN107025299A (zh) * 2017-04-24 2017-08-08 北京理工大学 一种基于加权lda主题模型的金融舆情感知方法
CN107203513A (zh) * 2017-06-06 2017-09-26 中国人民解放军国防科学技术大学 基于概率模型的微博文本数据细粒度话题演化分析方法
CN107835113B (zh) * 2017-07-05 2020-09-08 中山大学 一种基于网络映射的社交网络中异常用户检测方法
CN107835113A (zh) * 2017-07-05 2018-03-23 中山大学 一种基于网络映射的社交网络中异常用户检测方法
CN108399162A (zh) * 2018-03-21 2018-08-14 北京理工大学 基于短语袋主题模型的话题发现方法
CN108717421A (zh) * 2018-04-23 2018-10-30 深圳市城市规划设计研究院有限公司 一种基于时空变化的社交媒体文本主题提取方法及***
CN108763208A (zh) * 2018-05-22 2018-11-06 腾讯科技(上海)有限公司 话题信息获取方法、装置、服务器和计算机可读存储介质
CN109543110A (zh) * 2018-11-28 2019-03-29 南京航空航天大学 一种微博情感分析方法及***
CN110059225A (zh) * 2019-03-11 2019-07-26 北京奇艺世纪科技有限公司 视频分类方法、装置、终端设备及存储介质
CN111125305A (zh) * 2019-12-05 2020-05-08 东软集团股份有限公司 热门话题确定方法、装置、存储介质及电子设备
CN111666268A (zh) * 2020-05-20 2020-09-15 安徽火蓝数据有限公司 一种微博大数据舆情分析方法
CN112905751A (zh) * 2021-03-19 2021-06-04 常熟理工学院 一种结合主题模型和孪生网络模型的话题演化跟踪方法
CN112905751B (zh) * 2021-03-19 2024-03-29 常熟理工学院 一种结合主题模型和孪生网络模型的话题演化跟踪方法
CN113127643A (zh) * 2021-05-11 2021-07-16 江南大学 一种融合微博主题及评论的深度学习谣言检测方法

Also Published As

Publication number Publication date
CN103390051B (zh) 2016-07-20

Similar Documents

Publication Publication Date Title
CN103390051A (zh) 一种基于微博数据的话题发现与追踪方法
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及***
Bellaachia et al. Ne-rank: A novel graph-based keyphrase extraction in twitter
Kang et al. Modeling user interest in social media using news media and wikipedia
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析***及方法
CN102200975B (zh) 一种利用语义分析的垂直搜索引擎***
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN103455562A (zh) 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
Hou et al. Newsminer: Multifaceted news analysis for event search
CN105068991A (zh) 一种基于大数据的舆情发现方法
CN102609427A (zh) 舆情垂直搜索分析***及方法
CN104965823A (zh) 一种基于大数据的观点抽取方法
CN102955853B (zh) 一种跨语言文摘的生成方法及装置
CN104516961A (zh) 一种基于地域的话题挖掘及话题走势分析方法及***
CN106202065A (zh) 一种跨语言话题检测方法及***
CN101609445A (zh) 基于时间信息的关键子话题提取方法
CN105183765A (zh) 一种基于大数据的话题抽取方法
Zhu et al. Real-time personalized twitter search based on semantic expansion and quality model
Zhang et al. An approach of service discovery based on service goal clustering
Kotlerman et al. Clustering small-sized collections of short texts
Huang et al. Topic detection from microblog based on text clustering and topic model analysis
Zhao et al. Towards events detection from microblog messages
Wimmer et al. Word sense disambiguation for ontology learning
Othman et al. Customer opinion summarization based on twitter conversations
Saputra et al. C4. 5 and naive bayes for sentiment analysis Indonesian Tweet on E-Money user during pandemic

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20131113

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: 2016320000218

Denomination of invention: Topic detection and tracking method based on microblog data

Granted publication date: 20160720

License type: Common License

Record date: 20161118

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: 2016320000218

Date of cancellation: 20170706

EC01 Cancellation of recordation of patent licensing contract
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160720