CN103678670A - 一种微博热词与热点话题挖掘***及方法 - Google Patents

一种微博热词与热点话题挖掘***及方法 Download PDF

Info

Publication number
CN103678670A
CN103678670A CN201310725400.4A CN201310725400A CN103678670A CN 103678670 A CN103678670 A CN 103678670A CN 201310725400 A CN201310725400 A CN 201310725400A CN 103678670 A CN103678670 A CN 103678670A
Authority
CN
China
Prior art keywords
hot
hot word
candidate
word
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310725400.4A
Other languages
English (en)
Other versions
CN103678670B (zh
Inventor
陈羽中
郭文忠
陈国龙
方明月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201310725400.4A priority Critical patent/CN103678670B/zh
Publication of CN103678670A publication Critical patent/CN103678670A/zh
Application granted granted Critical
Publication of CN103678670B publication Critical patent/CN103678670B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及社交网络技术领域,特别是一种微博热词与热点话题挖掘***及方法,所述方法包括如下步骤:对微博中发布的内容数据进行预处理,获得候选热词序列;根据候选热词集合,考虑候选热词在当前时刻和给定历史时间窗口内的出现频率和突发性,计算每个候选热词的生命力,筛选出热词集合;根据筛选出的热词集合,计算热词相关性,构造热词共现网络;根据热词共现网络,使用基于多标签传播的热词聚类算法对热词集合进行划分,获得热点话题集。该***及方法可以实现微博热词与热点话题的高效挖掘,提高了挖掘精度和处理效率。

Description

一种微博热词与热点话题挖掘***及方法
技术领域
本发明涉及社交网络技术领域,特别是一种微博热词与热点话题挖掘***及方法。
背景技术
随着微博的兴起,人们的参与度不断地提高,用户可以通过电脑、手机随时随地地发布自己的所见所闻,并实现即时分享。现在微博已成为互联网的一种时尚,同时也是热点话题产生和讨论的重要场所,热点话题是指在一段时间内,频繁出现在网络上,人们广泛关注并讨论的话题。微博信息的指数增长,使得如何有效地掌控海量信息并提取热点话题,成为亟待解决的问题。
对于热点话题检测,传统的方法是对文本进行聚类,但是这种方法不利于用户直观地识别出热点话题,而且微博具有短文本特性,数据稀疏且分布不平衡,导致这类方法用于发现热点话题的效果并不理想。因此主流的方法是通过热词抽取并聚类实现热点话题发现。
用来权衡词重要性并抽取热词的经典方法有TFIDF和TFPDF等。TFIDF的主要思想是,词出现的频率并不能充分代表文本特征,比如“是”、“神马”这种词,频繁出现,但几乎没有表述文本的能力。而如果一个词在该文本的出现的频率非常高,在其他文本中出现的次数低,这样就能更加充分体现出这个文本的特征,然而,这种方法并不适合于微博中词的权重计算,微博具有短文本特性,一条微博上很少会出现重复的词,而且微博上的热点话题出现之后,会引起用户的广泛转发和讨论,大量微博上包含有同样的关键词,如果用TFIDF的方法来进行关键词抽取,会在一定程度上导致重要词汇遗失。因此,有学者提出了TFPDF的方法,其赋予那些在多数文档中出现的词更高的权重,来抽取热点词汇。这种方法有利于提取热点话题相关的重点词汇,但是也会提取出一些频繁出现但没有表述话题能力的词。热点词汇是指在一段时间内词频剧增的词,而上述两种方法都没有考虑到词随时间的分布情况,不利于热词的抽取。
针对热词聚类,现有的方法有:1)采用初始簇不敏感的Bisecting K-mean聚类算法;2)通过构建词相似度矩阵,利用Affinity Propagation算法在无需指定簇个数情况下进行聚类,其时间复杂度接近;3)基于密度聚类的算法,如DBSCAN;4)层次聚类算法等。
对于海量微博数据的热点发现问题,现有的热词聚类方法的主要问题在于:首先,聚类结果中不同的话题所涉及的词不允许存在交集,这与实际情况并不相符,易导致一些话题没有被发现,或者是话题的辨识度很低。比如,“高校花费问题”和“高校排行榜”这两个话题中,“高校”一词最多只能属于一个话题,而这两个话题无论哪个缺少了“高校”这一关键词,将很难辨识出原本的话题。另外,传统的聚类算法时间复杂度较高,难以适应海量微博数据聚类的要求。
综上,针对社交网络中用户个体的影响力分析已经出现了较完善的技术和方法,但是针对社交网络中社区级别的影响力分析的方法还相对较少,且缺乏对社交网络中各社区的影响力的全面分析评估,面对大规模社交网络的场景,现有方法无论是在分析效果和效率上都难以满足要求。
发明内容
本发明的目的在于克服现有技术的不足,提供一种微博热词与热点话题挖掘***及方法,该***及方法有利于提高微博热点发现的准确率和处理效率。
为实现上述目的,本发明的技术方案是:一种微博热词与热点话题挖掘***,所述***包括:预处理模块、热词筛选模块、热词共现网络构造模块和热词聚类模块;
预处理模块,用于对社交网络中发布的内容数据进行预处理,获取候选热词,并以此构建候选热词集合;
热词筛选模块,用于根据所述候选热词集合中各个候选热词在当前时刻和给定历史时间窗口内的出现频率和突发性,计算每个候选热词的生命力,筛选出热词,并以此构建热词集合;
热词共现网络构造模块,用于计算热词集合中各个热词的相关性,并以此构造热词共现网络;
热词聚类模块,用于根据所述热词共现网络,使用基于多标签传播的热词聚类算法对热词集合进行划分,获得热点话题集。
本发明还提供一种微博热词与热点话题挖掘方法,所述方法包括如下步骤:
步骤A:对社交网络中发布的内容数据进行预处理,获取候选热词,并以此构建候选热词集合;
步骤B:根据所述候选热词集合中各个候选热词在当前时刻和给定历史时间窗口内的出现频率和突发性,计算每个候选热词的生命力,筛选出热词,并以此构建热词集合;
步骤C:计算所述热词集合中各个热词的相关性,并以此构造热词共现网络;
步骤D:根据所述热词共现网络,使用基于多标签传播的热词聚类算法对热词集合进行划分,获得热点话题集。
进一步地,所述步骤B中,筛选热词并构建热词集合的过程,具体包括以下步骤:
步骤B1:计算在时间段t内,各个候选热词的营养值;候选热词w的营养值Nutr w,t 为在时间段t内,微博集合tw t 中每条微博对候选热词w的营养值的贡献之和,计算公式为:
其中,Contr w,j 为在时间段t内,第j条微博对候选热词w的营养值的贡献,jtw t ,计算公式为:
Figure 564785DEST_PATH_IMAGE002
其中,
Figure 2013107254004100002DEST_PATH_IMAGE003
表示第j条微博中出现候选热词w的次数,
Figure 855827DEST_PATH_IMAGE004
表示第j条微博中的最大词频;
步骤B2:利用候选热词w的突发值来描述候选热词w的词频在当前时间段与历史时间段之间变化的剧烈程度;候选热词w的突发值B w,t 的计算方法为:取时间段t之前的k个历史时间窗口,历史时间窗口大小与时间段t相同,然后基于二项式分布的离散事件模型,分别统计在时间段t和时间段t之前k个历史时间窗口内包含候选热词w的微博数,采用
Figure 2013107254004100002DEST_PATH_IMAGE005
统计公式,计算候选热词w在时间段t内的突发值,计算公式为:
Figure 876043DEST_PATH_IMAGE006
其中,A表示在时间段t内,包含候选热词w的微博数;B表示在k个历史时间窗口内,包含候选热词w的平均微博数;C表示在时间段t内,不包含候选词w的微博数;D表示在k个历史时间窗口内,不包含词候选热词w的平均微博数;
步骤B3:结合各个候选热词的营养值和突发值,计算每个候选热词的生命力值;归一化的候选热词w的生命力值life w,t 的计算方法为:
Figure 2013107254004100002DEST_PATH_IMAGE007
其中,terms表示候选热词集合,w’表示候选热词集合terms中的元素;
步骤B4:根据候选热词的生命力值,对候选热词集合中的候选热词进行排序,筛选出排序靠前的L个候选热词作为热词,并以此构成热词集合。
进一步地,所述步骤C中,热词z和热词k在给定时间段t内的相关性c z,k 定义为:
Figure 582836DEST_PATH_IMAGE008
其中,r z,k 表示同时包含热词z和热词k的微博数,n z 表示包含热词z的微博数,R k 表示包含热词k的微博数,N表示时间段t内所有的微博数,即N=tw t
热词共现网络定义为G(V,E,W),其中
Figure 2013107254004100002DEST_PATH_IMAGE009
为节点集合,表示所述步骤B中得到的热词集合,m表示节点个数;E表示节点之间边的集合,对于任意两个节点
Figure 272575DEST_PATH_IMAGE010
,如果这两个节点代表的词存在共现关系,则构建这两个顶点之间的边
Figure 2013107254004100002DEST_PATH_IMAGE011
W表示边的集合E到实数集合R的映射,若v i v j 之间有边
Figure 409552DEST_PATH_IMAGE011
,则边权值为第i个热词和第j个热词之间的相似度sim(ij),定义为:
进一步地,所述步骤D中, 热词集合中的每个热词,即每个节点都有一个标签隶属度集合,在每次迭代中更新节点的标签隶属度集合,直到算法收敛,具体包括以下步骤:
步骤D1:根据所述热词共现网络,进行节点的标签初始化;
步骤D2:随机获取未更新标签的节点v,遍历节点v的邻居节点,根据邻居节点的标签集合,更新节点v的标签集合中每个标签的隶属度,对节点v进行标签隶属度归一化;
步骤D3:反复迭代,直到满足迭代终止条件;
步骤D4:根据迭代获得的节点的标签隶属度集合,对节点进行归类,获得热点话题集。
进一步地,所述步骤D1中,标签初始化的方法为:为每个节点分配一个唯一的标签号,并分别以隶属度
Figure 2013107254004100002DEST_PATH_IMAGE013
隶属于这个标签号,这些唯一的标签号集合记为uniqueLabels
进一步地,所述步骤D2中,标签隶属度的更新规则为:随机获取未更新标签的节点v,获取该节点的邻居节点集合Nb(v),进而得到邻居节点拥有的标签集合labels,则在第h次迭代,节点v属于标签号
Figure 124753DEST_PATH_IMAGE014
的隶属度为:
Figure DEST_PATH_IMAGE015
其中,sim(uv)表示节点u 和节点v之间的相似度,分母
Figure 108145DEST_PATH_IMAGE016
用于标签隶属度的归一化,保证节点v的标签隶属度之和为1。
进一步地,所述步骤D3中,迭代终止条件为:
Figure 2013107254004100002DEST_PATH_IMAGE017
其中r h 定义为:
Figure 914559DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
,迭代结束。
相较于现有技术,本发明的有益效果是:根据候选热词在当前时刻和给定历史时间窗口内的出现频率和突发性,计算每个候选热词的生命力,筛选出热词集合,并根据筛选出的热词集合,计算热词相关性,构造热词共现网络,使用多标签传播的热词聚类算法对热词集合进行划分,获得热点话题集合。所述***和方法可以实现社交网络热点话题的高效挖掘,在话题检测精度和处理效率上均有提高。
附图说明
图1是本发明***的模块结构示意图。
图2是本发明方法的流程图。
图3是本发明方法中微博热词聚类的实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
图1是本发明的微博热词与热点话题挖掘***的模块结构示意图。如图1所示,所述***包括:预处理模块100、热词筛选模块200、热词共现网络构造模块300和热词聚类模块400。
预处理模块100用于对社交网络中发布的内容数据进行预处理,获取候选热词,并以此构建候选热词集合;热词筛选模块200用于根据所述候选热词集合中各个候选热词在当前时刻和给定历史时间窗口内的出现频率和突发性,计算每个候选热词的生命力,筛选出热词,并以此构建热词集合;热词共现网络构造模块300用于计算热词集合中各个热词的相关性,并以此构造热词共现网络;热词聚类模块400用于根据所述热词共现网络,使用基于多标签传播的热词聚类算法对热词集合进行划分,获得热点话题集。
图2是本发明的微博热词与热点话题挖掘方法的流程图。如图2所示,所述方法包括如下步骤:
步骤A:对社交网络中发布的内容数据进行预处理,获取候选热词,并以此构建候选热词集合。
具体的,可使用中科院的ICTCLA进行分词及词性标注,提取对话题有较强表达能力的名词和动词,之后使用停用词表进一步过滤,得到候选热词集合,记为
Figure 980472DEST_PATH_IMAGE020
r表示候选词数。
步骤B:根据所述候选热词集合中各个候选热词在当前时刻和给定历史时间窗口内的出现频率和突发性,计算每个候选热词的生命力,筛选出热词,并以此构建热词集合。
所述步骤B中,筛选热词并构建热词集合的过程,具体包括以下步骤:
步骤B1:计算在时间段t内,各个候选热词的营养值;候选热词w的营养值Nutr w,t 为在时间段t内,微博集合tw t 中每条微博对候选热词w的营养值的贡献之和,计算公式为:
Figure DEST_PATH_IMAGE021
其中,Contr w,j 为在时间段t内,第j条微博对候选热词w的营养值的贡献,jtw t ,计算公式为:
Figure 31998DEST_PATH_IMAGE022
其中,
Figure 430750DEST_PATH_IMAGE003
表示第j条微博中出现候选热词w的次数,
Figure 234496DEST_PATH_IMAGE004
表示第j条微博中的最大词频;
步骤B2:利用候选热词w的突发值来描述候选热词w的词频在当前时间段与历史时间段之间变化的剧烈程度;候选热词w的突发值B w,t 的计算方法为:取时间段t之前的k个历史时间窗口,历史时间窗口大小与时间段t相同,然后基于二项式分布的离散事件模型,分别统计在时间段t和时间段t之前k个历史时间窗口内包含候选热词w的微博数,采用
Figure 413804DEST_PATH_IMAGE005
统计公式,计算候选热词w在时间段t内的突发值,计算公式为:
Figure DEST_PATH_IMAGE023
其中,A表示在时间段t内,包含候选热词w的微博数;B表示在k个历史时间窗口内,包含候选热词w的平均微博数;C表示在时间段t内,不包含候选词w的微博数;D表示在k个历史时间窗口内,不包含词候选热词w的平均微博数;
步骤B3:结合各个候选热词的营养值和突发值,计算每个候选热词的生命力值;归一化的候选热词w的生命力值life w,t 的计算方法为:
Figure 15161DEST_PATH_IMAGE024
其中,terms表示候选热词集合,w’表示候选热词集合terms中的元素;
步骤B4:根据候选热词的生命力值,对候选热词集合中的候选热词进行排序,筛选出排序靠前的L个候选热词作为热词,并以此构成热词集合。
具体的,计算得出各热词的生命力值后,可以采用快速排序(Quick Sort)算法,按照生命力值从高到底对候选热词进行排序,按照给定的阈值M,选择生命力值最高的前M个候选热词作为时间段t内的热词。
步骤C:计算所述热词集合中各个热词的相关性,并以此构造热词共现网络。
所述步骤C中,热词z和热词k在给定时间段t内的相关性c z,k 定义为:
Figure DEST_PATH_IMAGE025
其中,r z,k 表示同时包含热词z和热词k的微博数,n z 表示包含热词z的微博数,R k 表示包含热词k的微博数,N表示时间段t内所有的微博数,即N=tw t
热词共现网络定义为G(V,E,W),其中
Figure 970216DEST_PATH_IMAGE009
为节点集合,表示所述步骤B中得到的热词集合,m表示节点个数;E表示节点之间边的集合,对于任意两个节点
Figure 180749DEST_PATH_IMAGE010
,如果这两个节点代表的词存在共现关系,则构建这两个顶点之间的边W表示边的集合E到实数集合R的映射,若v i v j 之间有边
Figure 365316DEST_PATH_IMAGE011
,则边权值为第i个热词和第j个热词之间的相似度sim(ij),定义为:
步骤D:根据所述热词共现网络,使用基于多标签传播的热词聚类算法对热词集合进行划分,获得热点话题集。
基于多标签传播的热词聚类算法的特点在于:由于基于人类语言或文本文档构建的词汇共现网络具有高聚度、短路径特性。因此一个话题可以看成是内部连接紧密与外部链接稀疏的点(词)的集合,符合复杂网络中对社区的定义,再者,话题之间可能存在重叠的关键词,则话题发现问题可以转换为对词共现网络 进行重叠词社区划分的问题;多标签指允许一个节点具有多个社区标签,属于多个热词社区,即允许一个热词属于多个话题。每个标签携带着一个标签隶属度, 在标签传播过程中,对节点的标签和标签隶属度值进行更新,并根据设定的阈值对每个节点的标签集合进行裁剪,最终根据每个节点所拥有的标签将节点划分到多个社区(热点话题)。
所述步骤D中, 热词集合中的每个热词,即每个节点都有一个标签隶属度集合,在每次迭代中更新节点的标签隶属度集合,直到算法收敛。图3是本发明方法中步骤D的实现流程图,具体包括以下步骤:
步骤D1:根据所述热词共现网络,进行节点(热词)的标签初始化;
所述步骤D1中,标签初始化的方法为:为每个节点分配一个唯一的标签号,并分别以隶属度
Figure 447989DEST_PATH_IMAGE013
隶属于这个标签号,这些唯一的标签号集合记为uniqueLabels
步骤D2:随机获取未更新标签的节点v,遍历节点v的邻居节点,根据邻居节点的标签集合,更新节点v的标签集合中每个标签的隶属度,对节点v进行标签隶属度归一化;
所述步骤D2中,标签隶属度的更新规则为:随机获取未更新标签的节点v,获取该节点的邻居节点集合Nb(v),进而得到邻居节点拥有的标签集合labels,则在第h次迭代,节点v属于标签号
Figure 772529DEST_PATH_IMAGE014
的隶属度为:
Figure DEST_PATH_IMAGE027
其中,sim(uv)表示节点u 和节点v之间的相似度,分母
Figure 530401DEST_PATH_IMAGE016
用于标签隶属度的归一化,保证节点v的标签隶属度之和为1。
步骤D3:根据给定的阈值p,对节点v的标签集合进行过滤,之后对保留的标签的隶属度值再次进行归一化;
具体的,步骤D3需要给定一个参数p在迭代过程中对标签隶属度更新后的节点的标签集合进行过滤,只保留部分标签,防止节点的标签集合过于庞大,p的大小表示允许节点拥有的最大标签数量,具体过滤规则为:删除节点的标签隶属集合中的隶属度低于1/p的元素。过滤后得到的标签集合再一次进行归一化,保证节点的各个标签隶属度总和为1。
步骤D4:反复迭代,直到满足迭代终止条件;
所述步骤D4中,迭代终止条件为:判断相邻两次迭代中在产生的标签集合一样的情况下,如果历史记录的各个标签的内部节点数量不再发生变化,则迭代结束,即:
Figure 259716DEST_PATH_IMAGE028
其中r h 定义为:
Figure 77630DEST_PATH_IMAGE019
,迭代结束。
步骤D5:根据迭代获得的节点的标签隶属度集合,对节点(热词)进行归类,获得热点话题集。
具体的,迭代结束之后检测各个节点的标签集合,将节点(热词)划分到相应的类别(社区),根据给定的阈值M,每个类别(社区)只需要取生命值排名靠前的M个热词用于表达对应的热点话题。M默认取值10。
本发明所述微博热点话题检测***及方法,综合考虑词出现的频率和突发性,设计了一种新颖的词生命值计算模型进行热词抽取,之后构建词共现网络,并基于接近线性时间复杂度的多标签传播进行热词聚类,得到热点话题。综上,上述***和方法能够有效的提取热词与热点话题,并在热点话题检测的精度和时间效率上有较大提高。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (8)

1.一种微博热词与热点话题挖掘***,其特征在于,所述***包括:
预处理模块,用于对社交网络中发布的内容数据进行预处理,获取候选热词,并以此构建候选热词集合;
热词筛选模块,用于根据所述候选热词集合中各个候选热词在当前时刻和给定历史时间窗口内的出现频率和突发性,计算每个候选热词的生命力,筛选出热词,并以此构建热词集合;
热词共现网络构造模块,用于计算热词集合中各个热词的相关性,并以此构造热词共现网络;
热词聚类模块,用于根据所述热词共现网络,使用基于多标签传播的热词聚类算法对热词集合进行划分,获得热点话题集。
2.一种微博热词与热点话题挖掘方法,其特征在于,所述方法包括如下步骤:
步骤A:对社交网络中发布的内容数据进行预处理,获取候选热词,并以此构建候选热词集合;
步骤B:根据所述候选热词集合中各个候选热词在当前时刻和给定历史时间窗口内的出现频率和突发性,计算每个候选热词的生命力,筛选出热词,并以此构建热词集合;
步骤C:计算所述热词集合中各个热词的相关性,并以此构造热词共现网络;
步骤D:根据所述热词共现网络,使用基于多标签传播的热词聚类算法对热词集合进行划分,获得热点话题集。
3.根据权利要求2所述的一种微博热词与热点话题挖掘方法,其特征在于,所述步骤B中,筛选热词并构建热词集合的过程,具体包括以下步骤:
步骤B1:计算在时间段t内,各个候选热词的营养值;候选热词w的营养值Nutr w,t 为在时间段t内,微博集合tw t 中每条微博对候选热词w的营养值的贡献之和,计算公式为:
Figure 2013107254004100001DEST_PATH_IMAGE002
其中,Contr w,j 为在时间段t内,第j条微博对候选热词w的营养值的贡献,jtw t ,计算公式为:
Figure 2013107254004100001DEST_PATH_IMAGE004
其中,
Figure 2013107254004100001DEST_PATH_IMAGE006
表示第j条微博中出现候选热词w的次数,
Figure 2013107254004100001DEST_PATH_IMAGE008
表示第j条微博中的最大词频;
步骤B2:利用候选热词w的突发值来描述候选热词w的词频在当前时间段与历史时间段之间变化的剧烈程度;候选热词w的突发值B w,t 的计算方法为:取时间段t之前的k个历史时间窗口,历史时间窗口大小与时间段t相同,然后基于二项式分布的离散事件模型,分别统计在时间段t和时间段t之前k个历史时间窗口内包含候选热词w的微博数,采用
Figure 2013107254004100001DEST_PATH_IMAGE010
统计公式,计算候选热词w在时间段t内的突发值,计算公式为:
Figure 2013107254004100001DEST_PATH_IMAGE012
其中,A表示在时间段t内,包含候选热词w的微博数;B表示在k个历史时间窗口内,包含候选热词w的平均微博数;C表示在时间段t内,不包含候选词w的微博数;D表示在k个历史时间窗口内,不包含词候选热词w的平均微博数;
步骤B3:结合各个候选热词的营养值和突发值,计算每个候选热词的生命力值;归一化的候选热词w的生命力值life w,t 的计算方法为:
Figure 2013107254004100001DEST_PATH_IMAGE014
其中,terms表示候选热词集合,w’表示候选热词集合terms中的元素;
步骤B4:根据候选热词的生命力值,对候选热词集合中的候选热词进行排序,筛选出排序靠前的L个候选热词作为热词,并以此构成热词集合。
4.根据权利要求2所述的一种微博热词与热点话题挖掘方法,其特征在于,所述步骤C中,热词z和热词k在给定时间段t内的相关性c z,k 定义为:
Figure 2013107254004100001DEST_PATH_IMAGE016
其中,r z,k 表示同时包含热词z和热词k的微博数,n z 表示包含热词z的微博数,R k 表示包含热词k的微博数,N表示时间段t内所有的微博数,即N=tw t
热词共现网络定义为G(V,E,W),其中为节点集合,表示所述步骤B中得到的热词集合,m表示节点个数;E表示节点之间边的集合,对于任意两个节点
Figure 2013107254004100001DEST_PATH_IMAGE020
,如果这两个节点代表的词存在共现关系,则构建这两个顶点之间的边
Figure 2013107254004100001DEST_PATH_IMAGE022
W表示边的集合E到实数集合R的映射,若v i v j 之间有边
Figure 275677DEST_PATH_IMAGE022
,则边权值为第i个热词和第j个热词之间的相似度sim(ij),定义为:
Figure 2013107254004100001DEST_PATH_IMAGE024
5.根据权利要求4所述的一种微博热词与热点话题挖掘方法,其特征在于,所述步骤D中, 热词集合中的每个热词,即每个节点都有一个标签隶属度集合,在每次迭代中更新节点的标签隶属度集合,直到算法收敛,具体包括以下步骤:
步骤D1:根据所述热词共现网络,进行节点的标签初始化;
步骤D2:随机获取未更新标签的节点v,遍历节点v的邻居节点,根据邻居节点的标签集合,更新节点v的标签集合中每个标签的隶属度,对节点v进行标签隶属度归一化;
步骤D3:反复迭代,直到满足迭代终止条件;
步骤D4:根据迭代获得的节点的标签隶属度集合,对节点进行归类,获得热点话题集。
6.根据权利要求5所述的一种微博热词与热点话题挖掘方法,其特征在于,所述步骤D1中,标签初始化的方法为:为每个节点分配一个唯一的标签号,并分别以隶属度
Figure 2013107254004100001DEST_PATH_IMAGE026
隶属于这个标签号,这些唯一的标签号集合记为uniqueLabels
7.根据权利要求6所述的一种微博热词与热点话题挖掘方法,其特征在于,所述步骤D2中,标签隶属度的更新规则为:随机获取未更新标签的节点v,获取该节点的邻居节点集合Nb(v),进而得到邻居节点拥有的标签集合labels,则在第h次迭代,节点v属于标签号
Figure 2013107254004100001DEST_PATH_IMAGE028
的隶属度为:
Figure 2013107254004100001DEST_PATH_IMAGE030
其中,sim(uv)表示节点u 和节点v之间的相似度,分母
Figure 2013107254004100001DEST_PATH_IMAGE032
用于标签隶属度的归一化,保证节点v的标签隶属度之和为1。
8.根据权利要求7所述的一种微博热词与热点话题挖掘方法,其特征在于,所述步骤D3中,迭代终止条件为:
其中r h 定义为:
Figure 2013107254004100001DEST_PATH_IMAGE036
Figure 2013107254004100001DEST_PATH_IMAGE038
,迭代结束。
CN201310725400.4A 2013-12-25 2013-12-25 一种微博热词与热点话题挖掘***及方法 Expired - Fee Related CN103678670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310725400.4A CN103678670B (zh) 2013-12-25 2013-12-25 一种微博热词与热点话题挖掘***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310725400.4A CN103678670B (zh) 2013-12-25 2013-12-25 一种微博热词与热点话题挖掘***及方法

Publications (2)

Publication Number Publication Date
CN103678670A true CN103678670A (zh) 2014-03-26
CN103678670B CN103678670B (zh) 2017-01-11

Family

ID=50316214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310725400.4A Expired - Fee Related CN103678670B (zh) 2013-12-25 2013-12-25 一种微博热词与热点话题挖掘***及方法

Country Status (1)

Country Link
CN (1) CN103678670B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063428A (zh) * 2014-06-09 2014-09-24 国家计算机网络与信息安全管理中心 一种中文微博突发热点话题检测方法
CN104156436A (zh) * 2014-08-13 2014-11-19 福州大学 一种社交云媒体协同过滤推荐方法
CN105095988A (zh) * 2015-07-01 2015-11-25 中国科学院计算技术研究所 社交网络信息爆发检测方法与***
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘***
CN106446191A (zh) * 2016-09-30 2017-02-22 浙江工业大学 一种基于Logistic回归的多特征网络流行标签预测方法
CN106610989A (zh) * 2015-10-22 2017-05-03 北京国双科技有限公司 搜索关键词聚类方法及装置
CN106919627A (zh) * 2015-12-28 2017-07-04 北京国双科技有限公司 热词的处理方法和装置
CN107122478A (zh) * 2017-05-03 2017-09-01 成都云数未来信息科学有限公司 一种基于关键词提取热点话题的方法
CN108170693A (zh) * 2016-12-07 2018-06-15 北京国双科技有限公司 推送热词的方法及装置
CN108182191A (zh) * 2016-12-08 2018-06-19 腾讯科技(深圳)有限公司 一种热点数据处理方法及其设备
CN108241611A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 一种关键词提取方法以及提取设备
CN108304371A (zh) * 2017-07-14 2018-07-20 腾讯科技(深圳)有限公司 热点内容挖掘的方法、装置、计算机设备及存储介质
CN108804432A (zh) * 2017-04-26 2018-11-13 慧科讯业有限公司 一种基于网络媒体数据流发现并跟踪热点话题的方法、***和装置
CN109509110A (zh) * 2018-07-27 2019-03-22 福州大学 基于改进bbtm模型的微博热点话题发现方法
CN110377823A (zh) * 2019-06-28 2019-10-25 厦门美域中央信息科技有限公司 一种Hadoop框架下的热点挖掘***的构建
CN110765239A (zh) * 2019-10-29 2020-02-07 腾讯科技(深圳)有限公司 热词识别方法、装置及存储介质
CN111125484A (zh) * 2019-12-17 2020-05-08 网易(杭州)网络有限公司 话题发现方法、***及电子设备
CN112668836A (zh) * 2020-12-07 2021-04-16 数据地平线(广州)科技有限公司 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置
CN113673224A (zh) * 2021-08-19 2021-11-19 北京三快在线科技有限公司 识别热门词汇的方法、装置、计算机设备及可读存储介质
CN113836307A (zh) * 2021-10-15 2021-12-24 国网北京市电力公司 一种供电服务工单热点发现方法、***、装置及存储介质
CN114938477A (zh) * 2022-06-23 2022-08-23 阿里巴巴(中国)有限公司 视频话题确定方法、装置及设备
CN117076963A (zh) * 2023-10-17 2023-11-17 北京国科众安科技有限公司 一种基于大数据平台的资讯热度分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2700629A1 (en) * 2010-05-13 2011-11-13 Gerard Voon Shopping enabler
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置
CN103294818A (zh) * 2013-06-12 2013-09-11 北京航空航天大学 多信息融合的微博热点话题检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2700629A1 (en) * 2010-05-13 2011-11-13 Gerard Voon Shopping enabler
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置
CN103294818A (zh) * 2013-06-12 2013-09-11 北京航空航天大学 多信息融合的微博热点话题检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
龙志祎等: "基于词聚类的热点话题检测算法", 《计算机工程与设计》, vol. 32, no. 6, 30 June 2011 (2011-06-30), pages 2214 - 2217 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063428A (zh) * 2014-06-09 2014-09-24 国家计算机网络与信息安全管理中心 一种中文微博突发热点话题检测方法
CN104156436B (zh) * 2014-08-13 2017-05-10 福州大学 一种社交云媒体协同过滤推荐方法
CN104156436A (zh) * 2014-08-13 2014-11-19 福州大学 一种社交云媒体协同过滤推荐方法
CN105095988A (zh) * 2015-07-01 2015-11-25 中国科学院计算技术研究所 社交网络信息爆发检测方法与***
CN106610989B (zh) * 2015-10-22 2021-06-01 北京国双科技有限公司 搜索关键词聚类方法及装置
CN106610989A (zh) * 2015-10-22 2017-05-03 北京国双科技有限公司 搜索关键词聚类方法及装置
CN105488196B (zh) * 2015-12-07 2019-01-22 中国人民大学 一种基于互联语料的热门话题自动挖掘***
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘***
CN106919627A (zh) * 2015-12-28 2017-07-04 北京国双科技有限公司 热词的处理方法和装置
CN106446191B (zh) * 2016-09-30 2019-11-05 浙江工业大学 一种基于Logistic回归的多特征网络流行标签预测方法
CN106446191A (zh) * 2016-09-30 2017-02-22 浙江工业大学 一种基于Logistic回归的多特征网络流行标签预测方法
CN108170693A (zh) * 2016-12-07 2018-06-15 北京国双科技有限公司 推送热词的方法及装置
CN108170693B (zh) * 2016-12-07 2020-07-31 北京国双科技有限公司 推送热词的方法及装置
CN108182191A (zh) * 2016-12-08 2018-06-19 腾讯科技(深圳)有限公司 一种热点数据处理方法及其设备
CN108182191B (zh) * 2016-12-08 2022-01-18 腾讯科技(深圳)有限公司 一种热点数据处理方法及其设备
CN108241611A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 一种关键词提取方法以及提取设备
CN108241611B (zh) * 2016-12-26 2021-08-17 北京国双科技有限公司 一种关键词提取方法以及提取设备
CN108804432A (zh) * 2017-04-26 2018-11-13 慧科讯业有限公司 一种基于网络媒体数据流发现并跟踪热点话题的方法、***和装置
CN107122478A (zh) * 2017-05-03 2017-09-01 成都云数未来信息科学有限公司 一种基于关键词提取热点话题的方法
CN107122478B (zh) * 2017-05-03 2020-05-08 成都云数未来信息科学有限公司 一种基于关键词提取热点话题的方法
CN108304371A (zh) * 2017-07-14 2018-07-20 腾讯科技(深圳)有限公司 热点内容挖掘的方法、装置、计算机设备及存储介质
CN108304371B (zh) * 2017-07-14 2021-07-13 腾讯科技(深圳)有限公司 热点内容挖掘的方法、装置、计算机设备及存储介质
CN109509110A (zh) * 2018-07-27 2019-03-22 福州大学 基于改进bbtm模型的微博热点话题发现方法
CN109509110B (zh) * 2018-07-27 2021-08-31 福州大学 基于改进bbtm模型的微博热点话题发现方法
CN110377823A (zh) * 2019-06-28 2019-10-25 厦门美域中央信息科技有限公司 一种Hadoop框架下的热点挖掘***的构建
CN110765239A (zh) * 2019-10-29 2020-02-07 腾讯科技(深圳)有限公司 热词识别方法、装置及存储介质
CN110765239B (zh) * 2019-10-29 2023-03-28 腾讯科技(深圳)有限公司 热词识别方法、装置及存储介质
CN111125484A (zh) * 2019-12-17 2020-05-08 网易(杭州)网络有限公司 话题发现方法、***及电子设备
CN111125484B (zh) * 2019-12-17 2023-06-30 网易(杭州)网络有限公司 话题发现方法、***及电子设备
CN112668836A (zh) * 2020-12-07 2021-04-16 数据地平线(广州)科技有限公司 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置
CN112668836B (zh) * 2020-12-07 2024-04-05 数据地平线(广州)科技有限公司 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置
CN113673224B (zh) * 2021-08-19 2022-04-05 北京三快在线科技有限公司 识别热门词汇的方法、装置、计算机设备及可读存储介质
CN113673224A (zh) * 2021-08-19 2021-11-19 北京三快在线科技有限公司 识别热门词汇的方法、装置、计算机设备及可读存储介质
CN113836307A (zh) * 2021-10-15 2021-12-24 国网北京市电力公司 一种供电服务工单热点发现方法、***、装置及存储介质
CN113836307B (zh) * 2021-10-15 2024-02-20 国网北京市电力公司 一种供电服务工单热点发现方法、***、装置及存储介质
CN114938477A (zh) * 2022-06-23 2022-08-23 阿里巴巴(中国)有限公司 视频话题确定方法、装置及设备
CN114938477B (zh) * 2022-06-23 2024-05-03 阿里巴巴(中国)有限公司 视频话题确定方法、装置及设备
CN117076963A (zh) * 2023-10-17 2023-11-17 北京国科众安科技有限公司 一种基于大数据平台的资讯热度分析方法
CN117076963B (zh) * 2023-10-17 2024-01-02 北京国科众安科技有限公司 一种基于大数据平台的资讯热度分析方法

Also Published As

Publication number Publication date
CN103678670B (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
CN103678670A (zh) 一种微博热词与热点话题挖掘***及方法
CN103745000B (zh) 一种中文微博客的热点话题检测方法
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
Li et al. Filtering out the noise in short text topic modeling
CN106156286B (zh) 面向专业文献知识实体的类型抽取***及方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN103699525A (zh) 一种基于文本多维度特征自动生成摘要的方法和装置
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN107291886A (zh) 一种基于增量聚类算法的微博话题检测方法及***
CN109214454B (zh) 一种面向微博的情感社区分类方法
CN111914087A (zh) 一种舆情分析方法
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN104281565A (zh) 语义词典构建方法和装置
CN107203513A (zh) 基于概率模型的微博文本数据细粒度话题演化分析方法
Xiaomei et al. Sentiment-based and hashtag-based Chinese online bursty event detection
CN110929683B (zh) 一种基于人工智能的视频舆情监测方法及***
CN102063497B (zh) 一种开放式知识共享平台及其词条处理方法
CN103488637A (zh) 一种基于动态社区挖掘进行专家检索的方法
CN105117466A (zh) 一种互联网信息筛选***及方法
Campbell et al. Content+ context networks for user classification in twitter
KR102328234B1 (ko) 소셜 네트워크에서 연관 문서 분석을 통한 지역 이벤트 검출 시스템 및 방법
Lim et al. ClaimFinder: A Framework for Identifying Claims in Microblogs.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170111

Termination date: 20191225

CF01 Termination of patent right due to non-payment of annual fee