CN110990592A - 一种微博突发话题在线检测方法及检测装置 - Google Patents

一种微博突发话题在线检测方法及检测装置 Download PDF

Info

Publication number
CN110990592A
CN110990592A CN201911081872.4A CN201911081872A CN110990592A CN 110990592 A CN110990592 A CN 110990592A CN 201911081872 A CN201911081872 A CN 201911081872A CN 110990592 A CN110990592 A CN 110990592A
Authority
CN
China
Prior art keywords
document
microblog
topic
time
burst
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911081872.4A
Other languages
English (en)
Other versions
CN110990592B (zh
Inventor
林福宏
赵新颖
周成成
陆月明
许海涛
安建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Beijing University of Posts and Telecommunications
Original Assignee
University of Science and Technology Beijing USTB
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB, Beijing University of Posts and Telecommunications filed Critical University of Science and Technology Beijing USTB
Priority to CN201911081872.4A priority Critical patent/CN110990592B/zh
Publication of CN110990592A publication Critical patent/CN110990592A/zh
Application granted granted Critical
Publication of CN110990592B publication Critical patent/CN110990592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种微博突发话题在线检测方法及检测装置,能够实现微博突发话题实时在线检测。所述方法包括:获取微博文档流,提取文档的时间信息;对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。本发明涉及互联网技术领域。

Description

一种微博突发话题在线检测方法及检测装置
技术领域
本发明涉及互联网技术领域,特别是指一种微博突发话题在线检测方法及检测装置。
背景技术
如今,社交媒体已成为人们日常生活的重要组成部分,它使每个用户都成为一个信息来源,人们可以随时随地享受即时信息和知识,分享自己的想法和观点。消息在整个社交网络中迅速而广泛地传播,它极大地改变了新闻的生成和通信的方式。微博作为目前主流的社交平台,备受大众的喜爱。近年来,微博在许多热点事件的发布和传播中发挥了重要作用。许多热点大事件都源于微博信息的发布和传播。微博中的信息涉及到人们关注的各个方面,然而信息的传播的迅速,趋势的难以控制也给网络的管理带来巨大的挑战。
尤其涉及负面舆情的突发事件,一旦通过微博在短时间内不断被转发扩散,将会产生极为不良的影响,对于这一类事件应在爆发前尽早识别出主题,并进行一定的人工控制和引导,将其不利影响降至最低,确保网络的健康发展。
现有技术中,由于微博文档数据稀疏,无法实时、准确地实现微博突发话题的在线检测。
发明内容
本发明要解决的技术问题是提供一种微博突发话题在线检测方法及检测装置,以解决现有技术所存在的微博文档数据稀疏,无法实时、准确地实现微博突发话题在线检测的问题。
为解决上述技术问题,本发明实施例提供一种微博突发话题在线检测方法,包括:
获取微博文档流,提取文档的时间信息;
对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;
将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;
通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。
进一步地,所述获取微博文档流,提取文档的时间信息包括:
获取微博文档流;
对获取的微博文档流进行去噪处理滤除无用信息,提取文档的时间信息,并划分固定长度为△T的时间片;其中,每个文档按照时间顺序在相应的时间片中,同一个时间片中的文档与时间戳td相关联,其中,td=t,t表示第t个时间片;△T表示时间片的长度。
进一步地,滤除的无用信息包括:URL链接、@某用户、非中文字符及表情中的一种或多种。
进一步地,所述对有标签的文档提取标签内容,利用提取的标签内容代替正文内容包括:
对有标签的文档提取两个#字符之间的标签内容,删除标签内容之外的正文内容,将标签内容重新写入相应的文档之中。
进一步地,所述将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型包括:
将新合成的微博文档流中的词汇构成单词对,并放入相应的时间片中;其中,单词对表示为bi=(wi1,wi2),wi1、wi2表示新合成的微博文档流中文档di中的任2个词汇;
确定时间窗口,对时间窗口内的每一个文档生成文档的主题分布θ和每个主题k对应的词汇分布φk;其中,所述时间窗口包括:若干个时间片;
根据生成的词汇分布,确定每个主题包含的单词对;
确定每个时间片内单词对的速度;
根据确定的每个时间片内单词对的速度,确定每个时间片结束时单词对的加速度;
判断加速度在预设时间段内是否皆大于预设的阈值,若是,则当前单词对为突发项,并根据加速度大小为单词对赋予相应的贡献权重,确定突发项对应的主题是否是突发话题。
进一步地,单词对的速度表示为:
Figure BDA0002264226920000031
其中,vit(wi1,wi2)表示单词对(wi1,wi2)在第t个时间片的速度,Wt和Nt分别表示第t个时间片内的词汇集合和词汇数量。
进一步地,单词对的加速度可表示为:
Figure BDA0002264226920000032
其中,Ait(wi1,wi2)表示第t个时间片结束时单词对(wi1,wi2)的加速度,vi(t+1)(wi1,wi2)表示单词对(wi1,wi2)在第t+1个时间片的速度。
进一步地,所述对时间窗口内的每一个文档生成文档的主题分布θ和每个主题k对应的词汇分布φk包括:
对时间窗口内的每一个文档,根据狄利克雷分布,生成文档的主题分布θ和每个主题k对应的词汇分布φk
进一步地,所述通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测包括:
在线突发话题检测过程中,新的待检测微博文档流不断进入,采用滑动窗口的方法,随着时间窗口不断滑动,丢弃时间窗口之外的时间片,并固定上一个时间窗口中的参数的分布期望θ、φk,求解新的时间窗口中的参数α和β:
Figure BDA0002264226920000033
Figure BDA0002264226920000034
其中,αN和βN分别为新的时间窗口中参数α和β的值,α表示每个文档下主题分布的狄利克雷分布先验参数,β表示主题k下词汇分布的狄利克雷先验参数;DO和WO分别为旧的时间窗口中文档数和单词对数量;
Figure BDA0002264226920000042
Figure BDA0002264226920000041
分别为旧时间窗口中的主题数和主题中包含的单词对数;BN为新时间窗口中单词对的数量;△表示旧时间窗口对新时间窗口的贡献权重。
本发明实施例还提供一种微博突发话题在线检测装置,包括:
提取模块,用于获取微博文档流,提取文档的时间信息;
合成模块,用于对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;
建立模块,用于将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;
更新模块,用于通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。
本发明的上述技术方案的有益效果如下:
上述方案中,获取微博文档流,提取文档的时间信息;对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。这样,通过利用微博标签内容突出文档中心主题并采用单词对共现的方法来解决数据稀疏问题,进而利用带有时间信息的单词对获得突发项,建立、更新突发话题检测模型实现微博突发话题实时在线检测,且能够提高微博话题检测的准确率。
附图说明
图1为本发明实施例提供的微博突发话题在线检测方法的流程示意图;
图2为本发明实施例提供的建立突发话题检测模型的原理示意图;
图3为本发明实施例提供的微博突发话题在线检测装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的微博文档数据稀疏,无法实时、准确地实现微博突发话题在线检测的问题,提供一种微博突发话题在线检测方法及检测装置。
实施例一
如图1所示,本发明实施例提供的微博突发话题在线检测方法,包括:
S101,获取微博文档流,提取文档的时间信息;
S102,对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;
S103,将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;
S104,通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。
本发明实施例所述的微博突发话题在线检测方法,获取微博文档流,提取文档的时间信息;对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。这样,通过利用微博标签内容突出文档中心主题并采用单词对共现的方法来解决数据稀疏问题,进而利用带有时间信息的单词对获得突发项,建立、更新突发话题检测模型实现微博突发话题实时在线检测,且能够提高微博话题检测的准确率。
在前述微博突发话题在线检测方法的具体实施方式中,进一步地,所述获取微博文档流,提取文档的时间信息包括:
获取微博文档流;
对获取的微博文档流进行去噪处理滤除无用信息,提取文档的时间信息,并划分固定长度为△T的时间片;其中,每个文档按照时间顺序在相应的时间片中,同一个时间片中的文档与时间戳td相关联,其中,td=t,t表示第t个时间片;△T表示时间片的长度。
本实施例中,可以通过爬虫获取微博文档流
Figure BDA0002264226920000061
其中,ND为文档数量,di为文档i;并对获取的微博文档流进行去噪处理滤除文档中的URL链接、@某用户、非中文字符及表情等无用信息,这些无用信息对话题检测并无意义。需要说明的是:两个#中间的内容为话题标签,本实施例重点考虑标签内容,所以对于#字符不予处理。
本实施例中,去噪处理的同时提取文档的时间信息,并划分固定长度为△T的时间片,这样每个文档按照时间顺序在相应的时间片中,同一个时间片中的文档与时间戳td=t相关联,其中时间片t的取值按照时间片的数量依次增长,t=1,2,3…。
在前述微博突发话题在线检测方法的具体实施方式中,进一步地,所述对有标签的文档提取标签内容,利用提取的标签内容代替正文内容包括:
对有标签的文档提取两个#字符之间的标签内容,删除标签内容之外的正文内容,将标签内容重新写入相应的文档之中。
本实施例中,对于带有标签的微博文档,提取两个#字符之间的标签内容,并滤除标签之外的正文内容,然后,将标签内容重新写入相应的文档之中;其中,标签内容一般为2-5个单词组成的短语或者一句话,此标签内容能够代表文档的中心话题内容。
本实施例中,对于不带有标签的微博文档不做处理,此时,将处理后的有标签的文档和没有标签的文档合成新的微博文档流,得到更新之后的微博文档流D。
在前述微博突发话题在线检测方法的具体实施方式中,进一步地,所述将新合成的微博文档流中的词汇构成单词对,利用带有时间信息(时间特征)的单词对获得突发项,建立突发话题检测模型包括:
将新合成的微博文档流中的词汇构成单词对,并放入相应的时间片中;其中,单词对表示为bi=(wi1,wi2),wi1、wi2表示新合成的微博文档流中文档di中的任2个词汇;
确定时间窗口,对时间窗口内的每一个文档生成文档的主题分布θ和每个主题k对应的词汇分布φk;其中,所述时间窗口包括:若干个时间片;
根据生成的词汇分布,确定每个主题包含的单词对;
确定每个时间片内单词对的速度;
根据确定的每个时间片内单词对的速度,确定每个时间片结束时单词对的加速度;
判断加速度在预设时间段内是否皆大于预设的阈值,若是,则当前单词对为突发项,并根据加速度大小为单词对赋予相应的贡献权重,确定突发项对应的主题是否是突发话题。
本实施例中,将新合成的微博文档流中的词汇构成单词对,利用带有时间信息(时间特征)的单词对获得突发项,建立突发话题检测模型具体可以包括以下步骤:
A11,单词对共现
本实施例中,应用文档语料库中的所有单词对共现的方式,即两个单词同时出现,将新合成的微博文档流中的词汇构成单词对,将带有时间特征单词对形成语料集合,并放入相应的长度相同的时间片中;例如,新合成的微博文档流中的文档di由一组词汇集合Wi表示,将Wi中的词汇两两组成一个单词对bi=(wi1,wi2),wi1、wi2表示文档di中的任意2个词汇,则文档di也可由单词对集合
Figure BDA0002264226920000071
表示,其中,NB为单词对的数量。单词对共现的频率越稳定,越更清楚地揭示词汇之间的相关性。
本实施例中,突发话题检测模型考虑微博文档中的标签内容,用标签内容替换正文内容,突出文档中心主题,并对新合成的微博文档流中的文档采用单词对共现的方法,这两步操作均在一定程度上解决微博文档数据稀疏问题。
A12,“加速度”确定突发项
本实施例中,时间特征包括术语的变化率及变化趋势,具体抽象为在时间线上的“速度”与“加速度”,计算在每个时间片中术语的变化趋势,并设置相应阈值及标准提取突发项,即:对于突发话题的检测考虑用“加速度”的变化来确定突发项。
本实施例中,首先确定每个时间片内单词对的“速度”,表示为,
Figure BDA0002264226920000081
其中,vit(wi1,wi2)表示单词对(wi1,wi2)在第t个时间片的速度,Wt和Nt分别表示第t个时间片内的词汇集合和词汇数量。
在式(1)中,当wi1=wi2时,vt(wi1,wi2)等于单词wi1所占比率;当wi1≠wi2时,vt(wi1,wi2)表示项wi1和wi2的共现的概率。
接着,根据确定的每个时间片内单词对的速度,确定每个时间片结束时单词对的“加速度”,表示为:
Figure BDA0002264226920000082
其中,Ait(wi1,wi2)表示第t个时间片结束时单词对(wi1,wi2)的加速度,vi(t+1)(wi1,wi2)表示单词对(wi1,wi2)在第t+1个时间片的速度。
本实施例中,由同两个相邻时间片的“速度”计算前一个时间片结束时单词对的“加速度”,若Ait(wi1,wi2)在预设时间段内皆大于预设的阈值,则确定当前单词对为突发项,否则,则当前单词对为一般术语,根据“加速度”的大小为单词对赋予相应的贡献权重δ,判断突发项对应的主题是否为突发主题。
Figure BDA0002264226920000083
其中,η表示主题为突发主题的概率,η∈(0,1);Aj(wi1,wi2)表示主题中包含的第j个单词对的加速度;NKB为主题中包含的单词对数量;δ为单词对的权重,根据不同的“加速度”的值设置不同的δ。
本实施例中,定义一个二进制变量m判断主题是否为突发话题,其中,m表示突发话题标识,若η<0.5,取m=0,不做输出;若η>0.5,取m=1,输出突发项对应的主题为突发话题。
本实施例中,采用“加速度”确定突发项,并根据加速度大小给予不同的贡献权重确定是否是突发主题,能够提高话题检测的准确率。
A13,建立突发话题检测模型,如图2所示(单圆圈表示隐变量,双圆圈表示观察到的变量),具体可以包括以下步骤:
A131,确定时间窗口T,其中,所述时间窗口包括:若干个时间片;对于时间片t∈T的每一个文档,参照文档主题生成(LDA)模型的生成过程,根据狄利克雷分布(DirichletDistribution),生成文档的主题分布θ和每个主题k对应的词汇分布φk
生成主题分布θ~Dir(α),其中,文档的主题分布θ服从参数为α的狄利克雷分布,α表示每个文档下主题分布的狄利克雷分布先验参数,Dir()表示狄利克雷分布;
生成词汇分布φk~Dir(β),其中,主题k对应的词汇分布φk服从参数为β的Dirchlet分布,β表示主题k下词汇分布的狄利克雷先验参数。
A132,对于时间片t内的每一个单词对:
生成两个单词wi1、wi2,其中,wi1、wi2为单词对中的两个词汇;
根据步骤A12,生成变量m;
如果m=1,生成突发话题zi
本实施例中,在突发话题检测模型中,联合条件分布概率P为为:
其中,∝表示正比例于,
Figure BDA0002264226920000093
nk是主题k中单词对的数量,K表示主题的总数量,nk,w是主题k中词汇w出现的次数,W表示词汇的总数量,
Figure BDA0002264226920000092
i表示除去单词对bi
本实施例中,使用吉布斯采样(Gibbs sampling)算法估计参数α和β,基本思想是使用从潜在变量θ和φk的后验分布中抽取的样本,来估计参数α和β。
在前述微博突发话题在线检测方法的具体实施方式中,进一步地,所述通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测包括:
在线突发话题检测过程中,新的待检测微博文档流不断进入,采用滑动窗口的方法,随着时间窗口不断滑动,丢弃最早的时间窗口之外的时间片,并固定上一个时间窗口中的参数的分布期望θ、φk,求解新的时间窗口中的参数α和β:
Figure BDA0002264226920000101
Figure BDA0002264226920000102
其中,αN和βN分别为新的时间窗口中参数α和β的值,α表示每个文档下主题分布的狄利克雷分布先验参数,β表示主题k下词汇分布的狄利克雷先验参数;DO和WO分别为旧的时间窗口中文档数和单词对数量;
Figure BDA0002264226920000107
Figure BDA0002264226920000106
分别为旧时间窗口中的主题数和主题中包含的单词对数;BN为新时间窗口中单词对的数量;△表示旧时间窗口对新时间窗口的贡献权重。
本实施例中,
Figure BDA0002264226920000103
表示新时间窗口中词汇包含旧时间窗口中词汇的数量
Figure BDA0002264226920000104
占新时间窗口中词汇总数
Figure BDA0002264226920000105
的比重,代表了旧窗口对新窗口的贡献权重。
本实施例中,通过公式(5)和(6)实时维护突发话题检测模型的参数更新,以实现微博突发话题的在线检测。
实施例二
本发明还提供一种微博突发话题在线检测装置的具体实施方式,由于本发明提供的微博突发话题在线检测装置与前述微博突发话题在线检测方法的具体实施方式相对应,该微博突发话题在线检测装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述微博突发话题在线检测方法具体实施方式中的解释说明,也适用于本发明提供的微博突发话题在线检测装置的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图3所示,本发明实施例还提供一种微博突发话题在线检测装置,包括:
提取模块11,用于获取微博文档流,提取文档的时间信息;
合成模块12,用于对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;
建立模块13,用于将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;
更新模块14,用于通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。
本发明实施例所述的微博突发话题在线检测装置,获取微博文档流,提取文档的时间信息;对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。这样,通过利用微博标签内容突出文档中心主题并采用单词对共现的方法来解决数据稀疏问题,进而利用带有时间信息的单词对获得突发项,建立、更新突发话题检测模型实现微博突发话题实时在线检测,且能够提高微博话题检测的准确率。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种微博突发话题在线检测方法,其特征在于,包括:
获取微博文档流,提取文档的时间信息;
对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;
将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;
通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。
2.根据权利要求1所述的微博突发话题在线检测方法,其特征在于,所述获取微博文档流,提取文档的时间信息包括:
获取微博文档流;
对获取的微博文档流进行去噪处理滤除无用信息,提取文档的时间信息,并划分固定长度为△T的时间片;其中,每个文档按照时间顺序在相应的时间片中,同一个时间片中的文档与时间戳td相关联,其中,td=t,t表示第t个时间片;△T表示时间片的长度。
3.根据权利要求1所述的微博突发话题在线检测方法,其特征在于,滤除的无用信息包括:URL链接、@某用户、非中文字符及表情中的一种或多种。
4.根据权利要求2所述的微博突发话题在线检测方法,其特征在于,所述对有标签的文档提取标签内容,利用提取的标签内容代替正文内容包括:
对有标签的文档提取两个#字符之间的标签内容,删除标签内容之外的正文内容,将标签内容重新写入相应的文档之中。
5.根据权利要求2所述的微博突发话题在线检测方法,其特征在于,所述将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型包括:
将新合成的微博文档流中的词汇构成单词对,并放入相应的时间片中;其中,单词对表示为bi=(wi1,wi2),wi1、wi2表示新合成的微博文档流中文档di中的任2个词汇;
确定时间窗口,对时间窗口内的每一个文档生成文档的主题分布θ和每个主题k对应的词汇分布φk;其中,所述时间窗口包括:若干个时间片;
根据生成的词汇分布,确定每个主题包含的单词对;
确定每个时间片内单词对的速度;
根据确定的每个时间片内单词对的速度,确定每个时间片结束时单词对的加速度;
判断加速度在预设时间段内是否皆大于预设的阈值,若是,则当前单词对为突发项,并根据加速度大小为单词对赋予相应的贡献权重,确定突发项对应的主题是否是突发话题。
6.根据权利要求5所述的微博突发话题在线检测方法,其特征在于,单词对的速度表示为:
Figure FDA0002264226910000021
其中,vit(wi1,wi2)表示单词对(wi1,wi2)在第t个时间片的速度,Wt和Nt分别表示第t个时间片内的词汇集合和词汇数量。
7.根据权利要求6所述的微博突发话题在线检测方法,其特征在于,单词对的加速度可表示为:
Figure FDA0002264226910000022
其中,Ait(wi1,wi2)表示第t个时间片结束时单词对(wi1,wi2)的加速度,vi(t+1)(wi1,wi2)表示单词对(wi1,wi2)在第t+1个时间片的速度。
8.根据权利要求5所述的微博突发话题在线检测方法,其特征在于,所述对时间窗口内的每一个文档生成文档的主题分布θ和每个主题k对应的词汇分布φk包括:
对时间窗口内的每一个文档,根据狄利克雷分布,生成文档的主题分布θ和每个主题k对应的词汇分布φk
9.根据权利要求8所述的微博突发话题在线检测方法,其特征在于,所述通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测包括:
在线突发话题检测过程中,新的待检测微博文档流不断进入,采用滑动窗口的方法,随着时间窗口不断滑动,丢弃时间窗口之外的时间片,并固定上一个时间窗口中的参数的分布期望θ、φk,求解新的时间窗口中的参数α和β:
Figure FDA0002264226910000031
Figure FDA0002264226910000032
其中,αN和βN分别为新的时间窗口中参数α和β的值,α表示每个文档下主题分布的狄利克雷分布先验参数,β表示主题k下词汇分布的狄利克雷先验参数;DO和WO分别为旧的时间窗口中文档数和单词对数量;
Figure FDA0002264226910000033
Figure FDA0002264226910000034
分别为旧时间窗口中的主题数和主题中包含的单词对数;BN为新时间窗口中单词对的数量;△表示旧时间窗口对新时间窗口的贡献权重。
10.一种微博突发话题在线检测装置,其特征在于,包括:
提取模块,用于获取微博文档流,提取文档的时间信息;
合成模块,用于对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;
建立模块,用于将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;
更新模块,用于通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。
CN201911081872.4A 2019-11-07 2019-11-07 一种微博突发话题在线检测方法及检测装置 Active CN110990592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911081872.4A CN110990592B (zh) 2019-11-07 2019-11-07 一种微博突发话题在线检测方法及检测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911081872.4A CN110990592B (zh) 2019-11-07 2019-11-07 一种微博突发话题在线检测方法及检测装置

Publications (2)

Publication Number Publication Date
CN110990592A true CN110990592A (zh) 2020-04-10
CN110990592B CN110990592B (zh) 2023-06-23

Family

ID=70083438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911081872.4A Active CN110990592B (zh) 2019-11-07 2019-11-07 一种微博突发话题在线检测方法及检测装置

Country Status (1)

Country Link
CN (1) CN110990592B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069394A (zh) * 2020-08-14 2020-12-11 上海风秩科技有限公司 文本信息的挖掘方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447179A (zh) * 2015-12-14 2016-03-30 清华大学 基于微博社交网络的话题自动推荐方法及其***
US20170075991A1 (en) * 2015-09-14 2017-03-16 Xerox Corporation System and method for classification of microblog posts based on identification of topics
CN106547875A (zh) * 2016-11-02 2017-03-29 哈尔滨工程大学 一种基于情感分析和标签的微博在线突发事件检测方法
CN108733816A (zh) * 2018-05-21 2018-11-02 重庆人文科技学院 一种微博突发事件检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170075991A1 (en) * 2015-09-14 2017-03-16 Xerox Corporation System and method for classification of microblog posts based on identification of topics
CN105447179A (zh) * 2015-12-14 2016-03-30 清华大学 基于微博社交网络的话题自动推荐方法及其***
CN106547875A (zh) * 2016-11-02 2017-03-29 哈尔滨工程大学 一种基于情感分析和标签的微博在线突发事件检测方法
CN108733816A (zh) * 2018-05-21 2018-11-02 重庆人文科技学院 一种微博突发事件检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069394A (zh) * 2020-08-14 2020-12-11 上海风秩科技有限公司 文本信息的挖掘方法及装置
CN112069394B (zh) * 2020-08-14 2023-09-29 上海风秩科技有限公司 文本信息的挖掘方法及装置

Also Published As

Publication number Publication date
CN110990592B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
Saravia et al. CARER: Contextualized affect representations for emotion recognition
Tsur et al. What's in a hashtag? Content based prediction of the spread of ideas in microblogging communities
CN107608949B (zh) 一种基于语义模型的文本信息抽取方法及装置
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN107729480A (zh) 一种限定区域的文本信息抽取方法及装置
CN106202053B (zh) 一种社交关系驱动的微博主题情感分析方法
CN109214454B (zh) 一种面向微博的情感社区分类方法
CN107357785A (zh) 主题特征词抽取方法及***、情感极性判断方法及***
Li et al. Exploring (dis-) similarities in emoji-emotion association on twitter and weibo
Srivastava et al. Challenges with sentiment analysis of on-line micro-texts
CN108733675A (zh) 基于大量样本数据的情感评价方法及装置
CN111626050A (zh) 基于表情词典与情感常识的微博情感分析方法
CN104484437B (zh) 一种网络短评情感挖掘方法
CN108038166A (zh) 一种基于词项主客观偏向性的中文微博情感分析方法
CN106708796A (zh) 一种基于文本的关键人名的提取方法及***
CN110990592A (zh) 一种微博突发话题在线检测方法及检测装置
Garg et al. Can language models capture graph semantics? from graphs to language model and vice-versa
Atoum Detecting cyberbullying from tweets through machine learning techniques with sentiment analysis
Nandathilaka et al. A rule-based lemmatizing approach for sinhala language
CN103984731B (zh) 微博环境下自适应话题追踪方法和装置
Thulasi et al. Aspect polarity recognition of movie and product reviews in Malayalam
CN114861004A (zh) 一种社交事件检测方法、装置及***
Fang et al. How to generate popular post headlines on social media?
Chavan et al. Machine learning applied in emotion classification: a survey on dataset, techniques, and trends for text based documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant