CN106547875B

CN106547875B - 一种基于情感分析和标签的微博在线突发事件检测方法

Info

Publication number: CN106547875B
Application number: CN201610945406.6A
Authority: CN
Inventors: 邹晓梅; 杨静; 张健沛
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2016-11-02
Filing date: 2016-11-02
Publication date: 2020-05-15
Anticipated expiration: 2036-11-02
Also published as: CN106547875A

Abstract

本发明属于网络检测领域，具体涉及一种基于情感分析和标签的微博在线突发事件检测方法。本发明包括：使用情感分类模型情感轮，构造情感分析模型——情感同现图；使用步骤(1)构造的情感分析模型，对微博流中的微博进行情感分类，采用kleinberg算法检测微博流的突发期；提取突发期内的微博标签，过滤掉垃圾标签，对剩余标签进行分词处理；形成事件的初始关键词；利用步骤(3)生成的关键词，提取微博中与此关键词相关的词，形成事件的最终描述。本发明构造基于情感轮的情感同现图，情感分类更加细致，情感更容易理解和解释，相对于基于情感符号的事件检测准确率更高。

Description

一种基于情感分析和标签的微博在线突发事件检测方法

技术领域

本发明属于网络检测领域，具体涉及一种基于情感分析和标签的微博在线突发事件检测方法。

背景技术

近年来随着Web2.0技术蓬勃发展，涌现出一系列社交网络。这些社交网络如新浪微博、推特等吸引着大量的用户。用户们活跃在在社交网络上，发布大量的微博消息，其中包含着有关某些事件的看法或观点。通过挖掘这些微博消息，可以得到大量的如用户情感等的更深层次的信息。使用这些深层次的信息可以为政府或企业提供服务，例如，政府可以使用这些信息判断人们对法律法案是否支持，对某一社会事件持有什么样的看法，从而进行舆情控制和引导；企业可以通过挖掘用户的微博消息，得知用户的行为习惯和偏好，从而向其推荐用户最有可能感兴趣或购买的商品。

对于突发事件检测，传统方法有两种，即基于文档的突发事件检测和基于特征的突发事件检测。基于文档的突发事件检测思想是，将文档表示成词向量或命名实体向量，计算文档之间的相似度，对文档进行聚类形成事件。对基于特征突发进行事件检测是挖掘数据流中突发事件的有效方法之一，其主要思想是首先抽取文档特征词，通过分析特征词随时间变化轨迹检测突发现象，然后将具有相同突发轨迹的特征词进行聚合，形成突发事件。然而，这种两种方法在微博短文本的情况下并不适用。首先微博数据量大，对于每个微博提取特征词、形成tfidf矩阵需要花费大量的时间。其次，微博表达方式不规则，形式多变，可能含有大量的新词，形成的矩阵稀疏，不利于计算相似度，增加识别难度。同时，传统方法只完成了突发事件的提取，并未对突发事件进行更深层次的分析，例如情感分析。

发明内容

本发明的目的在于提供一种针对微博数据流短文本的在线突发事件检测模型，能够准确而又迅速的提取出数据流中的突发事件的基于情感分析和标签的微博在线突发事件检测方法。

本发明的目的是这样实现的：

一种基于情感分析和标签的微博在线突发事件检测方法，包括如下步骤：

(1)使用情感分类模型情感轮，构造情感分析模型——情感同现图；

(2)使用步骤(1)构造的情感分析模型，对微博流中的微博进行情感分类，采用kleinberg算法检测微博流的突发期；

(3)提取突发期内的微博标签，过滤掉垃圾标签，对剩余标签进行分词处理；形成事件的初始关键词；

(4)利用步骤(3)生成的关键词，提取微博中与此关键词相关的词，形成事件的最终描述。

所述步骤(1)中，通过如下方法构造情感同现图：

(1.1)使用情感轮模型，人工对情感符号赋予合理的词汇；

(1.2)对原始微博数据进行分词处理，形成微博语料库；

(1.3)使用HowNet词典，采用基于距离的词语相似性计算微博语料库词语和情感符号词语之间的相似度；

(1.3)中使用如下公式计算词语检测的相似性：

式中W₁和W₂代表词语，词语W₁有k个义项：{n₁₁,n₁₂,…,n_1k}，词语W₂有p个义项：{n₂₁,n₂₂,…,n_2p}，p₁和p₂表示两个义原，d是p₁和p₂在义原层次体系中的路径长度，是一个正整数；α是一个可调节的参数；

(1.4)建立相似度大于给定阈值λ的词语之间的连接，完成情感同现图的构造；λ选择0.6。

所述的步骤(3)中，包含以下步骤：

(3.1)对提取的标签进行词性标注，去掉只有动词的标签或者只有一个名词的标签；

(3.2)剔除掉标签中含有特殊符号的标签；

(3.3)剔除掉含有标准日期格式、只有数字和标点符号的标签；

所述的步骤(4)中包括以下步骤：

(4.1)对突发期内剩余标签进行分词处理；

(4.2)计算突发期内有关微博标签关键词的频繁模式；

(4.3)提取频繁模式中的2项集，计算该2项集中词语之间的互信息；

(4.4)保留互信息大于给定阈值γ的词形成最终的事件描述；γ的值选择1.5；

步骤4.4中互信息计算公式为：

C(W₁)和C(W₂)分别表示语料库中含有W₁和W₂的微博数量，C(W₁,W₂)表示同时含有W₁和W₂的微博数量；R为语料库的规模，即微博总数。

本发明的有益效果是：

本发明构造基于情感轮的情感同现图，情感分类更加细致，情感更容易理解和解释，相对于基于情感符号的事件检测准确率更高。使用建立的情感同现图进行情感分析，过滤掉大量的无用微博，利用情感分析结果检测微博数据流的突发状态，效率高。利用微博标签作为引导进行突发事件发现，比基于聚类的事件发现准确率高，检测检测时间快。

附图说明

图1基于情感同现图的在线突发事件模型框架。

具体实施方式

下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述。

步骤1：使用情感分类模型情感轮，构造情感分析模型——情感同现图。具体包括以下步骤：

步骤1.1：使用情感轮模型，人工对情感符号赋予合理的词汇；

步骤1.2：对原始微博数据进行分词处理，形成微博语料库；

步骤1.3：使用HowNet词典，采用基于距离的词语相似性计算微博语料库词语和情感符号词语之间的相似度。

步骤1.3中使用如下公式计算词语检测的相似性：

式中W₁和W₂代表词语，词语W₁有k个义项(概念)：{n₁₁,n₁₂,…,n_1k}，词语W₂有p个义项(概念)：{n₂₁,n₂₂,…,n_2p}，p₁和p₂表示两个义原，d是p₁和p₂在义原层次体系中的路径长度，是一个正整数。α是一个可调节的参数，在本发明中取1.6。

步骤1.4：建立相似度大于给定阈值λ的词语之间的连接，完成情感同现图的构造。在本发明中λ选择0.6。

步骤2：使用步骤1构造的情感分析模型，对微博流中的微博进行情感分类，采用kleinberg算法检测微博流的突发期。

步骤2.1:对于微博流中的每一条微博，对其进行分词处理。

步骤2.2：对分词完毕的微博，使用建立的情感同现图模型建立微博的情感向量Sd。

步骤2.3：设置标志位flag＝true，如果Sd向量相应情感标记σsk为1，则将该微博加入情感文档集Ds Tk中，将flag置为false。

步骤2.4：重复步骤2.2和2.3直到所有的微博分类完毕。

步骤2.5：对于每一类情感微博，使用kleinberg算法检测突发期。

步骤3：提取突发期内的微博标签，过滤掉垃圾标签，对剩余标签进行分词处理。形成事件的初始关键词。

步骤3.1：对提取的标签进行词性标注，去掉只有动词的标签或者只有一个名词的标签，如“#早安#”、“#晚安#”、“#唱吧#”、“#九寨沟#”、“#旅途#”这类标签。

步骤3.2：剔除掉标签中含有特殊符号(“《”、“+”、“-”、“-”)的标签。如“#搞笑+视频#”、“#早安*恋馆#”、“#Weico+#”。

步骤3.3：剔除掉含有标准日期格式、只有数字和标点符号的标签、。如“#365#”、“#4.01#”。

步骤4：利用步骤3生成的关键词，提取微博中与此关键词相关的词，形成事件的最终描述。

步骤4.1：对突发期内剩余标签进行分词处理。

步骤4.2：计算突发期内有关微博标签关键词的频繁模式。

步骤4.3：提取频繁模式中的2项集，计算该2项集中词语之间的互信息。

步骤4.4：保留互信息大于给定阈值Y的词，按词频对词进行排序，形成最终的事件描述。在本发明中，Y的值选择1.5。

步骤4.4中互信息计算公式为：

C(W₁)和C(W₂)分别表示语料库中含有W₁和W₂的微博数量，C(W₁，W₂)表示同时含有W₁和W₂的微博数量。R为语料库的规模，即微博总数。