CN110990592A

CN110990592A - 一种微博突发话题在线检测方法及检测装置

Info

Publication number: CN110990592A
Application number: CN201911081872.4A
Authority: CN
Inventors: 林福宏; 赵新颖; 周成成; 陆月明; 许海涛; 安建伟
Original assignee: University of Science and Technology Beijing USTB; Beijing University of Posts and Telecommunications
Current assignee: University of Science and Technology Beijing USTB; Beijing University of Posts and Telecommunications
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-04-10
Anticipated expiration: 2039-11-07
Also published as: CN110990592B

Abstract

本发明提供一种微博突发话题在线检测方法及检测装置，能够实现微博突发话题实时在线检测。所述方法包括：获取微博文档流，提取文档的时间信息；对有标签的文档提取标签内容，利用提取的标签内容代替正文内容，将处理后的有标签的文档和没有标签的文档合成新的微博文档流；将新合成的微博文档流中的词汇构成单词对，利用带有时间信息的单词对获得突发项，建立突发话题检测模型；通过增量的方式实时更新突发话题检测模型，实现微博突发话题的在线检测。本发明涉及互联网技术领域。

Description

一种微博突发话题在线检测方法及检测装置

技术领域

本发明涉及互联网技术领域，特别是指一种微博突发话题在线检测方法及检测装置。

背景技术

如今，社交媒体已成为人们日常生活的重要组成部分，它使每个用户都成为一个信息来源，人们可以随时随地享受即时信息和知识，分享自己的想法和观点。消息在整个社交网络中迅速而广泛地传播，它极大地改变了新闻的生成和通信的方式。微博作为目前主流的社交平台，备受大众的喜爱。近年来，微博在许多热点事件的发布和传播中发挥了重要作用。许多热点大事件都源于微博信息的发布和传播。微博中的信息涉及到人们关注的各个方面，然而信息的传播的迅速，趋势的难以控制也给网络的管理带来巨大的挑战。

尤其涉及负面舆情的突发事件，一旦通过微博在短时间内不断被转发扩散，将会产生极为不良的影响，对于这一类事件应在爆发前尽早识别出主题，并进行一定的人工控制和引导，将其不利影响降至最低，确保网络的健康发展。

现有技术中，由于微博文档数据稀疏，无法实时、准确地实现微博突发话题的在线检测。

发明内容

本发明要解决的技术问题是提供一种微博突发话题在线检测方法及检测装置，以解决现有技术所存在的微博文档数据稀疏，无法实时、准确地实现微博突发话题在线检测的问题。

为解决上述技术问题，本发明实施例提供一种微博突发话题在线检测方法，包括：

获取微博文档流，提取文档的时间信息；

对有标签的文档提取标签内容，利用提取的标签内容代替正文内容，将处理后的有标签的文档和没有标签的文档合成新的微博文档流；

将新合成的微博文档流中的词汇构成单词对，利用带有时间信息的单词对获得突发项，建立突发话题检测模型；

通过增量的方式实时更新突发话题检测模型，实现微博突发话题的在线检测。

进一步地，所述获取微博文档流，提取文档的时间信息包括：

获取微博文档流；

对获取的微博文档流进行去噪处理滤除无用信息，提取文档的时间信息，并划分固定长度为△T的时间片；其中，每个文档按照时间顺序在相应的时间片中，同一个时间片中的文档与时间戳t_d相关联，其中，t_d＝t，t表示第t个时间片；△T表示时间片的长度。

进一步地，滤除的无用信息包括：URL链接、@某用户、非中文字符及表情中的一种或多种。

进一步地，所述对有标签的文档提取标签内容，利用提取的标签内容代替正文内容包括：

对有标签的文档提取两个#字符之间的标签内容，删除标签内容之外的正文内容，将标签内容重新写入相应的文档之中。

进一步地，所述将新合成的微博文档流中的词汇构成单词对，利用带有时间信息的单词对获得突发项，建立突发话题检测模型包括：

将新合成的微博文档流中的词汇构成单词对，并放入相应的时间片中；其中，单词对表示为b_i＝(w_i1,w_i2)，w_i1、w_i2表示新合成的微博文档流中文档d_i中的任2个词汇；

确定时间窗口，对时间窗口内的每一个文档生成文档的主题分布θ和每个主题k对应的词汇分布φ_k；其中，所述时间窗口包括：若干个时间片；

根据生成的词汇分布，确定每个主题包含的单词对；

确定每个时间片内单词对的速度；

根据确定的每个时间片内单词对的速度，确定每个时间片结束时单词对的加速度；

判断加速度在预设时间段内是否皆大于预设的阈值，若是，则当前单词对为突发项，并根据加速度大小为单词对赋予相应的贡献权重，确定突发项对应的主题是否是突发话题。

进一步地，单词对的速度表示为：

其中，v_it(w_i1,w_i2)表示单词对(w_i1,w_i2)在第t个时间片的速度，W_t和N_t分别表示第t个时间片内的词汇集合和词汇数量。

进一步地，单词对的加速度可表示为：

其中，A_it(w_i1,w_i2)表示第t个时间片结束时单词对(w_i1,w_i2)的加速度，v_i(t+1)(w_i1,w_i2)表示单词对(w_i1,w_i2)在第t+1个时间片的速度。

进一步地，所述对时间窗口内的每一个文档生成文档的主题分布θ和每个主题k对应的词汇分布φ_k包括：

对时间窗口内的每一个文档，根据狄利克雷分布，生成文档的主题分布θ和每个主题k对应的词汇分布φ_k。

进一步地，所述通过增量的方式实时更新突发话题检测模型，实现微博突发话题的在线检测包括：

在线突发话题检测过程中，新的待检测微博文档流不断进入，采用滑动窗口的方法，随着时间窗口不断滑动，丢弃时间窗口之外的时间片，并固定上一个时间窗口中的参数的分布期望θ、φ_k，求解新的时间窗口中的参数α和β：

其中，α_N和β_N分别为新的时间窗口中参数α和β的值，α表示每个文档下主题分布的狄利克雷分布先验参数，β表示主题k下词汇分布的狄利克雷先验参数；D_O和W_O分别为旧的时间窗口中文档数和单词对数量；

和

分别为旧时间窗口中的主题数和主题中包含的单词对数；B_N为新时间窗口中单词对的数量；△表示旧时间窗口对新时间窗口的贡献权重。

本发明实施例还提供一种微博突发话题在线检测装置，包括：

提取模块，用于获取微博文档流，提取文档的时间信息；

合成模块，用于对有标签的文档提取标签内容，利用提取的标签内容代替正文内容，将处理后的有标签的文档和没有标签的文档合成新的微博文档流；

建立模块，用于将新合成的微博文档流中的词汇构成单词对，利用带有时间信息的单词对获得突发项，建立突发话题检测模型；

更新模块，用于通过增量的方式实时更新突发话题检测模型，实现微博突发话题的在线检测。

本发明的上述技术方案的有益效果如下：

上述方案中，获取微博文档流，提取文档的时间信息；对有标签的文档提取标签内容，利用提取的标签内容代替正文内容，将处理后的有标签的文档和没有标签的文档合成新的微博文档流；将新合成的微博文档流中的词汇构成单词对，利用带有时间信息的单词对获得突发项，建立突发话题检测模型；通过增量的方式实时更新突发话题检测模型，实现微博突发话题的在线检测。这样，通过利用微博标签内容突出文档中心主题并采用单词对共现的方法来解决数据稀疏问题，进而利用带有时间信息的单词对获得突发项，建立、更新突发话题检测模型实现微博突发话题实时在线检测，且能够提高微博话题检测的准确率。

附图说明

图1为本发明实施例提供的微博突发话题在线检测方法的流程示意图；

图2为本发明实施例提供的建立突发话题检测模型的原理示意图；

图3为本发明实施例提供的微博突发话题在线检测装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的微博文档数据稀疏，无法实时、准确地实现微博突发话题在线检测的问题，提供一种微博突发话题在线检测方法及检测装置。

实施例一

如图1所示，本发明实施例提供的微博突发话题在线检测方法，包括：

S101，获取微博文档流，提取文档的时间信息；

S102，对有标签的文档提取标签内容，利用提取的标签内容代替正文内容，将处理后的有标签的文档和没有标签的文档合成新的微博文档流；

S103，将新合成的微博文档流中的词汇构成单词对，利用带有时间信息的单词对获得突发项，建立突发话题检测模型；

S104，通过增量的方式实时更新突发话题检测模型，实现微博突发话题的在线检测。

本发明实施例所述的微博突发话题在线检测方法，获取微博文档流，提取文档的时间信息；对有标签的文档提取标签内容，利用提取的标签内容代替正文内容，将处理后的有标签的文档和没有标签的文档合成新的微博文档流；将新合成的微博文档流中的词汇构成单词对，利用带有时间信息的单词对获得突发项，建立突发话题检测模型；通过增量的方式实时更新突发话题检测模型，实现微博突发话题的在线检测。这样，通过利用微博标签内容突出文档中心主题并采用单词对共现的方法来解决数据稀疏问题，进而利用带有时间信息的单词对获得突发项，建立、更新突发话题检测模型实现微博突发话题实时在线检测，且能够提高微博话题检测的准确率。

在前述微博突发话题在线检测方法的具体实施方式中，进一步地，所述获取微博文档流，提取文档的时间信息包括：

获取微博文档流；

本实施例中，可以通过爬虫获取微博文档流

其中，N_D为文档数量，d_i为文档i；并对获取的微博文档流进行去噪处理滤除文档中的URL链接、@某用户、非中文字符及表情等无用信息，这些无用信息对话题检测并无意义。需要说明的是：两个#中间的内容为话题标签，本实施例重点考虑标签内容，所以对于#字符不予处理。

本实施例中，去噪处理的同时提取文档的时间信息，并划分固定长度为△T的时间片，这样每个文档按照时间顺序在相应的时间片中，同一个时间片中的文档与时间戳t_d＝t相关联，其中时间片t的取值按照时间片的数量依次增长，t＝1,2,3…。

在前述微博突发话题在线检测方法的具体实施方式中，进一步地，所述对有标签的文档提取标签内容，利用提取的标签内容代替正文内容包括：

本实施例中，对于带有标签的微博文档，提取两个#字符之间的标签内容，并滤除标签之外的正文内容，然后，将标签内容重新写入相应的文档之中；其中，标签内容一般为2-5个单词组成的短语或者一句话，此标签内容能够代表文档的中心话题内容。

本实施例中，对于不带有标签的微博文档不做处理，此时，将处理后的有标签的文档和没有标签的文档合成新的微博文档流，得到更新之后的微博文档流D。

在前述微博突发话题在线检测方法的具体实施方式中，进一步地，所述将新合成的微博文档流中的词汇构成单词对，利用带有时间信息(时间特征)的单词对获得突发项，建立突发话题检测模型包括：

根据生成的词汇分布，确定每个主题包含的单词对；

确定每个时间片内单词对的速度；

本实施例中，将新合成的微博文档流中的词汇构成单词对，利用带有时间信息(时间特征)的单词对获得突发项，建立突发话题检测模型具体可以包括以下步骤：

A11，单词对共现

本实施例中，应用文档语料库中的所有单词对共现的方式，即两个单词同时出现，将新合成的微博文档流中的词汇构成单词对，将带有时间特征单词对形成语料集合，并放入相应的长度相同的时间片中；例如，新合成的微博文档流中的文档d_i由一组词汇集合W_i表示，将W_i中的词汇两两组成一个单词对b_i＝(w_i1,w_i2)，w_i1、w_i2表示文档d_i中的任意2个词汇，则文档d_i也可由单词对集合

表示，其中，N_B为单词对的数量。单词对共现的频率越稳定，越更清楚地揭示词汇之间的相关性。

本实施例中，突发话题检测模型考虑微博文档中的标签内容，用标签内容替换正文内容，突出文档中心主题，并对新合成的微博文档流中的文档采用单词对共现的方法，这两步操作均在一定程度上解决微博文档数据稀疏问题。

A12，“加速度”确定突发项

本实施例中，时间特征包括术语的变化率及变化趋势，具体抽象为在时间线上的“速度”与“加速度”，计算在每个时间片中术语的变化趋势，并设置相应阈值及标准提取突发项，即：对于突发话题的检测考虑用“加速度”的变化来确定突发项。

本实施例中，首先确定每个时间片内单词对的“速度”，表示为，

在式(1)中，当w_i1＝w_i2时，v_t(w_i1,w_i2)等于单词w_i1所占比率；当w_i1≠w_i2时，v_t(w_i1,w_i2)表示项w_i1和w_i2的共现的概率。

接着，根据确定的每个时间片内单词对的速度，确定每个时间片结束时单词对的“加速度”，表示为：

本实施例中，由同两个相邻时间片的“速度”计算前一个时间片结束时单词对的“加速度”，若A_it(w_i1,w_i2)在预设时间段内皆大于预设的阈值，则确定当前单词对为突发项，否则，则当前单词对为一般术语，根据“加速度”的大小为单词对赋予相应的贡献权重δ，判断突发项对应的主题是否为突发主题。

其中，η表示主题为突发主题的概率，η∈(0,1)；A_j(w_i1,w_i2)表示主题中包含的第j个单词对的加速度；N_KB为主题中包含的单词对数量；δ为单词对的权重，根据不同的“加速度”的值设置不同的δ。

本实施例中，定义一个二进制变量m判断主题是否为突发话题，其中，m表示突发话题标识，若η<0.5，取m＝0，不做输出；若η>0.5，取m＝1，输出突发项对应的主题为突发话题。

本实施例中，采用“加速度”确定突发项，并根据加速度大小给予不同的贡献权重确定是否是突发主题，能够提高话题检测的准确率。

A13，建立突发话题检测模型，如图2所示(单圆圈表示隐变量，双圆圈表示观察到的变量)，具体可以包括以下步骤：

A131，确定时间窗口T，其中，所述时间窗口包括：若干个时间片；对于时间片t∈T的每一个文档，参照文档主题生成(LDA)模型的生成过程，根据狄利克雷分布(DirichletDistribution)，生成文档的主题分布θ和每个主题k对应的词汇分布φ_k：

生成主题分布θ～Dir(α)，其中，文档的主题分布θ服从参数为α的狄利克雷分布，α表示每个文档下主题分布的狄利克雷分布先验参数，Dir()表示狄利克雷分布；

生成词汇分布φ_k～Dir(β)，其中，主题k对应的词汇分布φ_k服从参数为β的Dirchlet分布，β表示主题k下词汇分布的狄利克雷先验参数。

A132，对于时间片t内的每一个单词对：

生成两个单词w_i1、w_i2，其中，w_i1、w_i2为单词对中的两个词汇；

根据步骤A12，生成变量m；

如果m＝1，生成突发话题z_i。

本实施例中，在突发话题检测模型中，联合条件分布概率P为为：

其中，∝表示正比例于，

n_k是主题k中单词对的数量，K表示主题的总数量，n_k,w是主题k中词汇w出现的次数，W表示词汇的总数量，

i表示除去单词对b_i。

本实施例中，使用吉布斯采样(Gibbs sampling)算法估计参数α和β，基本思想是使用从潜在变量θ和φ_k的后验分布中抽取的样本，来估计参数α和β。

在前述微博突发话题在线检测方法的具体实施方式中，进一步地，所述通过增量的方式实时更新突发话题检测模型，实现微博突发话题的在线检测包括：

在线突发话题检测过程中，新的待检测微博文档流不断进入，采用滑动窗口的方法，随着时间窗口不断滑动，丢弃最早的时间窗口之外的时间片，并固定上一个时间窗口中的参数的分布期望θ、φ_k，求解新的时间窗口中的参数α和β：

和

本实施例中，

表示新时间窗口中词汇包含旧时间窗口中词汇的数量

占新时间窗口中词汇总数

的比重，代表了旧窗口对新窗口的贡献权重。

本实施例中，通过公式(5)和(6)实时维护突发话题检测模型的参数更新，以实现微博突发话题的在线检测。

实施例二

本发明还提供一种微博突发话题在线检测装置的具体实施方式，由于本发明提供的微博突发话题在线检测装置与前述微博突发话题在线检测方法的具体实施方式相对应，该微博突发话题在线检测装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的，因此上述微博突发话题在线检测方法具体实施方式中的解释说明，也适用于本发明提供的微博突发话题在线检测装置的具体实施方式，在本发明以下的具体实施方式中将不再赘述。

如图3所示，本发明实施例还提供一种微博突发话题在线检测装置，包括：

提取模块11，用于获取微博文档流，提取文档的时间信息；

合成模块12，用于对有标签的文档提取标签内容，利用提取的标签内容代替正文内容，将处理后的有标签的文档和没有标签的文档合成新的微博文档流；

建立模块13，用于将新合成的微博文档流中的词汇构成单词对，利用带有时间信息的单词对获得突发项，建立突发话题检测模型；

更新模块14，用于通过增量的方式实时更新突发话题检测模型，实现微博突发话题的在线检测。

本发明实施例所述的微博突发话题在线检测装置，获取微博文档流，提取文档的时间信息；对有标签的文档提取标签内容，利用提取的标签内容代替正文内容，将处理后的有标签的文档和没有标签的文档合成新的微博文档流；将新合成的微博文档流中的词汇构成单词对，利用带有时间信息的单词对获得突发项，建立突发话题检测模型；通过增量的方式实时更新突发话题检测模型，实现微博突发话题的在线检测。这样，通过利用微博标签内容突出文档中心主题并采用单词对共现的方法来解决数据稀疏问题，进而利用带有时间信息的单词对获得突发项，建立、更新突发话题检测模型实现微博突发话题实时在线检测，且能够提高微博话题检测的准确率。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。