CN104573031A

CN104573031A - 一种微博突发事件检测方法

Info

Publication number: CN104573031A
Application number: CN201510018617.0A
Authority: CN
Inventors: 徐睿峰; 汪奕丁; 黄锦辉; 陆勤
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2015-01-14
Filing date: 2015-01-14
Publication date: 2015-04-29
Anticipated expiration: 2035-01-14
Also published as: CN104573031B

Abstract

一种微博突发事件检测方法，包括步骤：降维处理：基于LSH算法对微博数据流中的词汇进行映射处理；创建B-Sketch模型：创建微博数据流中的B-Sketch数据；推测突发事件：根据B-Sketch数据计算微博数据流中的事件加速率a和事件中词的分布向量p，根据事件加速率a判断事件是否为突发事件。由于通过LSH算法将所有词汇映射到低维空间，降低了计算的复杂度，并基于B-Sketch模型推测隐含的突发事件，使得能够快速有效的实时处理微博数据流，及早地检测出突发事件。

Description

一种微博突发事件检测方法

技术领域

本发明涉及自然语言处理、文本数据挖掘、突发事件检测技术领域，具体涉及一种微博突发事件检测方法。

背景技术

微博，即微博客(MicroBlog)，是一种迷你型博客，可供用户写一段简短的文字(中文微博客平台一般为140个汉字)来描述日常生活或发布消息、评论时事并传递这些信息给好友或感兴趣的旁观者，发布方式可以是手机短信、即时通讯工具(IM)、邮件或网络。与即时通讯相比，用户可以指定发布的信息是公开还是只限于一个小网络内；与博客平台相比，用户的时间和精力投入更低，沟通速度更快，还有更高的更新频率。

互联网的发展使得微博的发布和获取变得更方便快捷，这直接导致了如下两个问题：第一，微博的数量规模巨大，通过人工的方式阅读所有信息是不可行的。第二，有价值的话题通常具有突发性，但这些话题被淹没在众多普通话题之中，如何从海量数据中找出具有突发性的事件是需要迫切解决的问题。因此使用计算机来处理微博数据，并自动获得其中的突发事件是很有必要的。

目前，基于微博的突发事件检测研究的很少，一般的研究是检测微博流中频率异常高的突发词，而后对突发词按照出现在同一微博中次数进行聚类来找到新事件，但是该方法还很难达到实用的地步。

目前，针对微博突发事件的检测方法具有以下的局限性：

1)一般都是离线模式，达不到在线实时处理的需求，处理的数据规模十分有限；

2)不能及早地探测到突发事件，表现出突发事件发现的滞后性，往往实用性极低；

3)对特征空间没有采取降维处理，往往会导致运行速度缓慢，耗费大量的内存空间。

发明内容

针对微博突发事件检测的局限性，本申请提供一种微博突发事件检测方法，包括步骤：

降维处理：基于LSH算法对微博数据流中的词汇进行映射处理；

创建B-Sketch模型：创建微博数据流中的B-Sketch数据；

推测突发事件：根据B-Sketch数据，计算微博数据流中的事件加速率a和事件中词的分布向量p，根据事件加速率a判断事件是否为突发事件。

依据上述实施例的微博突发事件检测方法，由于通过LSH算法将所有词汇映射到低维空间，降低了计算的复杂度，并基于B-Sketch模型推测隐含的突发事件，使得能够快速有效的实时处理微博数据流，及早地检测出突发事件。

附图说明

图1为本发明微博突发事件检测方法流程图。

具体实施方式

在本发明实施例中，提出一种微博突发事件检测方法，具体是，通过提出的B-Sketch模型作为突发事件推断的基础，并基于LSH算法降低计算的复杂度，使得本发明可以检测出更多突发事件，并且能够更加精确的定位突发事件真实的发生时间。

本例的微博突发事件检测方法包括如下步骤，其流程图如图1所示。

S1：去噪处理。

微博数据流中具有各种各样的信息，包括很多关于日常生活的描述、感慨以及一些广告信息等，这些信息对突发事件的检测有很大的干扰作用，所以本步骤对微博数据流先进行去噪处理。具体的，通过筛选微博数据流中的停用词，并将该停用词删除。

一般情况下，把一个已做分词处理的微博文本中的名词、形容词、动词称之为实词，而把那些虽然经常在文本中出现，但对文本处理没有多大意义的词称为虚词。本例的停用词表包含所有绝大部分的虚词和一部分经常在微博出现的，比如“转发”、“评论”、“详情”等实词，当然还包括所有的标点符号。对于这些停用词而言，因为它们对突发事件的检测没有太多帮助，甚至会影响探测的准确性，还造成了一定程度上的资源浪费，所以在实际应用***中，将这些停用词都进行删除。

另外，去噪处理还包括将微博文本中的广告以及个人心情描述进行删除。这部分主要考虑的是微博文本中的广告以及个人心情描述对突发事件检测也没有任何帮助，同样也会造成计算资源和存储资源的浪费。本例中，通过正则表达式的匹配将微博文本中的广告以及个人心情描述进行删除，具体的，从样本数据里面筛选出一些广告微博和个人心情的微博，人工提取了这些微博的常规模式生成正则表达式规则，从实际结果来看，这种方法既简单又能有效去除80％以上的噪音数据，效率较高。

S2：降维处理。

由于微博数据流中的词语数量巨大，可以很容易的达到几十万的量级，所以，为了避免词语的高维度灾难的问题发生，本例采用LSH(Locality-sensitivehashing)算法对微博数据流中的词汇进行映射处理，LSH算法是本领域技术人员所熟知的，不作赘述。

针对微博数据流中词语出现高维度的问题，现有的解决方案是：取一段时间内的活跃单词，如最近15分钟，当一个突发词被触发了，就只需考虑最近词汇集中的单词。然而，由于，微博数据流中这样处理之后的词汇量还是很大，依然不能有效的解决这个问题。

基于LSH算法，本例解决上述问题的方案为：将微博数据流中的词汇哈希映射到B(B<<N)个哈希桶中，并且将每一个桶中所有单词看做一个“词”，而不是保存所有的活跃词汇集，并采用COUNT-MIN算法估计概率最高的单词。

因此B-Sketch中的词汇数量就变为O(B²)，维度空间的数量级优化为O(B*K)。这个比原问题中的O(N²)和O(N*K)小很多，映射之后，将得到关于哈希桶的分布，而不是原有活跃单词的哈希分布，即通过哈希桶的概率得到单词的概率。为了解决这个问题，通过观察发现，LSH算法只需关心概率最高的单词，因为它能够表示突发事件，因此采用Count-Min算法。它可以维护数据流上的频繁项。然而，对于这两个问题，潜在的逻辑是一样的，如下：如果使用H哈希函数去映射每个单词，可能会发生这种情况，一个话题的两个高频词都落在了相同的哈希桶内，因为所有的哈希函数是非常小的，更重要的是，如果在一个哈希桶中仅有一个单词是显著的高频率，就可以使用这个哈希桶的频率去代替这个高频单词的频率。

具体的工作流程如下：假设有H个哈希函数(H₁，H₂，...,H_H)，该H个哈希函数可以统一、独立地将单词映射到哈希桶[1,2,…,B]中。对于一个事件中，词的分布p_k和每个哈希函数H_h，1≤h≤H，对于每个哈希函数，就可以估计哈希桶的分布。这时，使用Count-Min算法去估计单词i的概率为返回概率高的单词其中s为概率阈值，比如0.02。LSH算法还维护了活跃单词集，因此估计集合中的单词概率不是此表中所有单词的概率。根据估计哈希桶的分布，这个算法在估计每个单词的概率为的情况下，其估计误差不大于e/B。

S3：创建B-Sketch模型。

本例提出的一种B-Sketch模型的新数据结构，该B-Sketch模型能够及早的发现突发事件的发生。具体的，通过对比微博整体发帖数的规模和加速率，给定一个能尽早发现突发事件的指示器，以此来检测是否发生了突发事件。事件T_k的加速率表示为a_k(t)，它是λ_k(t)在时间t上的导数。但是，一个隐含的突发事件是无法直接从a_k(t)观测得到的，需要通过观测数据流D(t)的几个特征变量来推测出a_k(t)。

一般情况下，所选择的检测加速的特征变量其数学表达式为：为了达到尽早发现以及事件的推断，本例在数据流D(t)构建了一种B-Sketch模型，该B-Sketch数据包括三个特征变量：S"、X"和Y"，其中，S"(t)和X"(t)提供了某个事件突然飙升的指示器，Y"(t)维持着可能被探测到的突发事件中词语之间关系的关键信息，且以上的三个特征变量可以很容易计算和更新，本例获取S"、X"和Y"的方式如下。

等式一：

S^{''} (t) = Σ_{k = 1}^{K} a_{k} (t);

等式二：

E [X^{''} (t)] = Σ_{k = 1}^{K} a_{k} (t) \cdot p_{k};

等式三：

E [Y^{''} (t)] = Σ_{k = 1}^{K} a_{k} (t) \cdot p_{k} \cdot {p_{k}}^{T} .

设Q(t)为以上三个特征变量被检测的表示，则：

(1)S"(t)：表示在微博数据流D(t)中微博总数的加速率，这样，Q(t)就变成一个标量表示，比如表示成S(t)：S(t)＝|D(t)|；

(2)X"(t)：表示微博数据流中D(t)的每个词的加速率，这样Q(t)就变成一个N维向量，比如表示成X(t)：

(3)Y"(t)：表示微博数据流中D(t)的每个词对的加速率，这样Q(t)就变成一个N×N的矩阵，比如表示成Y(t)：

Y_{i, j} (t) = \{\begin{matrix} \underset{d &Element; D (t)}{Σ} \frac{d {(i)}^{2} - d (i)}{| d | (| d | - 1)}, i = j \\ \underset{d &Element; D (t)}{Σ} \frac{d (i) d (j)}{| d | (| d | - 1)}, i &NotEqual; j \end{matrix},

(1≤i≤N,1≤j≤N)。

另外，本例的B-Sketch模型处理的是连续的时间微博数据流，比如，微博可以在任何一个时间点到达。将微博的数据流D(t)表示成{d₁,d₂,...,d_|D(t)|},这样就有t_d1≤t_d2≤...≤t_d|D(t)|≤t。假设t_d0＝0，这样，可以用下述公式来估计变化率：

{S^{'}}_{ΔT} (t) = Σ_{i = 1}^{| D (t) |} \frac{e^{\frac{(t_{d_{i}} - t)}{ΔT}}}{ΔT};

式中的是一个平滑因子，取较大值时能提高平滑的粒度，但是将缺少反应最近信息变化的趋势。在任何一个时间点t，t∈(t_di-1,t_di]，可以通过下述公式来更新当前变化率：

{S^{'}}_{ΔT} (t) = \{\begin{matrix} S_{ΔT}^{'} (t_{d_{i - 1}}) \cdot e^{\frac{(t_{d_{i - 1}} - t)}{ΔT}}, t &Element; ({t_{d}}_{i - 1}, t_{d_{i}}) \\ S_{ΔT}^{'} (t_{d_{i - 1}}) \cdot e^{\frac{(t_{d_{i - 1}} - t)}{ΔT}} + \frac{1}{ΔT}, t = t_{d_{i}} \end{matrix} .

与上述的类同，式中和都是平滑因子，由此可以看出，计算增长率的时间消耗是O(1)。

S4：推测突发事件。

根据B-Sketch数据计算微博数据流中的事件加速率a_k(t)和事件上词的分布向量p_k，根据事件加速率a_k(t)判断事件是否为突发事件，在本步骤之前，还包括***动态生成一阈值的步骤，该阈值为当前活跃事件的前N天的微博总数的平均值，N≥1，本例优选N＝3，即本例的阈值为当前活跃事件的前3天的微博总数的平均值，然后比较计算出的事件加速率a_k(t)与该阈值的大小，如果该事件加速率a_k(t)大于该阈值，则判定该事件为突发事件。

事件加速率a_k(t)和分布向量p_k具体的推导过程为：设定当前活跃事件的数目T_k的上界为K，并且增长率λ_k(t)大于0，本例通过B-Sketch数据推测K个活跃事件中的突发事件，具体推测过程如下。

因为整个微博数据流是事件的多个不均匀过程的混合，利用不均匀泊松过程的叠加属性，整个数据流本身也即是一个不均匀泊松过程，其速率函数为可以简化出得到步骤S3中的等式一：然后利用期望的线性组合属性可以得到步骤S3中的等式二和等式三：

等式二：

E [X^{''} (t)] = Σ_{k = 1}^{K} a_{k} (t) \cdot p_{k};

等式三：

E [Y^{''} (t)] = Σ_{k = 1}^{K} a_{k} (t) \cdot p_{k} \cdot {p_{k}}^{T} .

通过等式一、等式二和等式三，便可以从B-Sketch中推导出事件{T_k}和其加速率。在时间t，可以从B-Sketch估计参数{p_k}和{a_k(t)}，估计过程是：首先找出适合的参数{p_k}和{a_k(t)}使其满足等式一，并且使等式二和等式三中观测值和期望值之间的差值最小化，将等式二和等式三相应的权重设为w_X＞0和w_Y＞0。

本例中，为了估计参数{p_k}和{a_k(t)}，先创建目标函数f，f＝w_X·e_X+w_Y·e_Y，其中，e_X和e_Y分别为等式二和等式三的误差的平方和，通过目标函数、等式一、等式二和等式三，将目标函数最小化，计算出{a_k(t)}和{p_k}，计算的过程中还需要满足条件：p_k,i≥0,1≤k≤K,1≤i≤N；e_X和e_Y的表达式分别为等式四和等式五，具体如下：

等式四：

e_{X} = Σ_{i = 1}^{N} {(Σ_{k = 1}^{K} a_{k} (t) \cdot p_{k, i} - X_{i}^{''} (t))}^{2};

等式五：

e_{Y} = Σ_{i = 1}^{N} Σ_{j = 1}^{N} {(Σ_{k = 1}^{K} a_{k} (t) \cdot p_{k, i} \cdot p_{k, j} - Y_{i, j}^{''} (t))}^{2} .

通过上述推导过程虽然可以计算出{a_k(t)}和{p_k}，进而推测出突发事件的发生，但上述的计算复杂度较大，不利于实际运用，本例基于上述推导方法，并根据步骤S22中的LSH降维处理，对等式四和等式五做变换，以降低上述的计算复杂度。

通过步骤S22降维之后，B-Sketch数据的S"(t)特征变量没有任何改变，对于不同的哈希函数，一个单词可能落入不同的桶，对X"(t)特征变量设定H向量对Y"(t)特征变量设定矩阵为了估计哈希桶的概率分布对等式四和等式五的变换如下：

等式四：

e_{X} = Σ_{h = 1}^{H} Σ_{j = 1}^{B} {(Σ_{k = 1}^{K} a_{k} \cdot p_{k, i}^{(h)} - X_{i}^{'' (h)})}^{2};

等式五：

e_{Y} = Σ_{h = 1}^{H} Σ_{i = 1}^{B} Σ_{j = 1}^{B} {(Σ_{k = 1}^{K} a_{k} \cdot p_{k, i}^{(h)} \cdot p_{k, j}^{(h)} - Y_{i, j}^{'' (h)})}^{2};

同时，对需要满足的条件做如下变换：

Σ_{i = 1}^{B} p_{k, i}^{(h)} = 1,1 \leq k \leq K, 1 \leq h \leq H, p_{k, i}^{(h)} &GreaterEqual; 0,1 \leq k \leq K, 1 \leq i \leq B, 1 \leq h \leq H .

通过上述变换后，B-Sketch的空间变为O(H*B²)，则目标函数f优化问题的维度数目就降为O(H*B*K)，因此，大大降低了计算的复杂度。

另外，为了进一步优化目标函数f，本例采用分别更新参数和{a_k}，其目的是有利于程序的并行化处理，具体采用微分的方法：令为向量a，为向量就可以推断出对应的梯度表达式，以及相应的二次微分：

\frac{&PartialD; f}{&PartialD; a}, \frac{&PartialD; f}{&PartialD; p_{k}^{(h)}}; \frac{{&PartialD;}^{2} f}{&PartialD; a &PartialD; a^{T}}, \frac{{&PartialD;}^{2} f}{&PartialD; p_{k}^{(h)} &PartialD; p_{k}^{{(h)}^{T}}} .

初始化a和后，利用牛顿-拉普森(Newton-Raphson)方法进行迭代更新，当a是一个固定值时，独立于h，因此在程序的实现过程中可以并行化处理，其最大的迭代次数或者参数是否收敛取决于设置的停止条件是否被满足。

通过上述的推导，计算出{a_k}和根据{a_k}判断事件是否为突发事件，根据可以进一步得出该突发事件中的关键词汇，进一步，本例还对该突发事件进行突发度的计算，对表示该突发事件的关键词汇综合算出的权重再做一次加权，即可以得到该突发事件的突发度。

本发明通过LSH算法对微博数据流中的文本作降维处理，然后基于B-Sketch模型以及目标函数f，通过求目标函数f最优计算出事件加速率{a_k}和事件中词的分布量然后再比较事件加速率{a_k}和阈值的大小，进而能够实时有效的检测出微博中的突发事件。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种微博突发事件检测方法,其特征在于，包括步骤：

创建B-Sketch模型：创建微博数据流中的B-Sketch数据；

推测突发事件：根据B-Sketch数据，计算微博数据流中的事件加速率a和事件中词的分布向量p，根据所述事件加速率a判断所述事件是否为突发事件。

2.如权利要求1所述的方法，其特征在于，所述创建B-Sketch模型的过程包括获取特征变量：微博数据流中的总微博数的加速率S"、微博数据流中的每个词在总词汇数的加速率X"和微博数据流中的每个词对的加速率Y"。

3.如权利要求2所述的方法，其特征在于，

所述S"的获取方式为：通过等式一：得到；

所述X"的获取方式为：通过等式二：得到；

所述Y"的获取方式为：通过等式三：得到；

所述等式一、等式二和等式三中的K为微博数据流中的当前活跃事件的数目。

4.如权利要求3所述的方法，其特征在于，所述计算事件加速率a和分布向量p的具体步骤包括：

构建目标函数f，f＝w_X·e_X+w_Y·e_Y，其中，e_X和e_Y分别为等式二和等式三的误差的平方和，w_X和w_Y分别为等式二和等式三中待调节的权重；

根据所述等式一、等式二和等式三将所述目标函数f最优化，计算出事件加速率a和分布向量p。

5.如权利要求4所述的方法，其特征在于，所述推测突发事件之前，还包括步骤：动态生成一阈值，所述阈值为当前活跃事件的前N天的微博总数的平均值，N≥1。

6.如权利要求5所述的方法，其特征在于，所述根据事件加速率a判断所述事件是否为突发事件的具体步骤包括：

比较所述事件加速率a与所述阈值的大小，如果所述事件加速率a大于所述阈值，则所述事件为突发事件。

7.如权利要求4所述的方法，其特征在于，所述降维处理具体为：将相似词汇映射到同一个哈希桶里，将每个桶里的所有词汇视为一个词，并采用COUNT-MIN算法估计概率最高的单词。

8.如权利要求7所述的方法，其特征在于，根据降维处理变换所述e_X和e_Y，所述e_X和e_Y的表达式分别变换为：

e_{X} = Σ_{h = 1}^{H} Σ_{j = 1}^{B} {(Σ_{k = 1}^{K} a_{k} \cdot p_{k, i}^{(h)} - X_{i}^{'' (h)})}^{2},

e_{Y} = Σ_{h = 1}^{H} Σ_{i = 1}^{B} Σ_{j = 1}^{B} {(Σ_{k = 1}^{K} a_{k} \cdot p_{k, i}^{(h)} \cdot p_{k, j}^{(h)} - Y_{i, j}^{'' (h)})}^{2} .

9.如权利要求1至8中任一项所述的方法，其特征在于，所述降维处理之前，还包括去噪处理：筛选微博数据流中的停用词，并删除所述停用词。