CN106547875B - 一种基于情感分析和标签的微博在线突发事件检测方法 - Google Patents

一种基于情感分析和标签的微博在线突发事件检测方法 Download PDF

Info

Publication number
CN106547875B
CN106547875B CN201610945406.6A CN201610945406A CN106547875B CN 106547875 B CN106547875 B CN 106547875B CN 201610945406 A CN201610945406 A CN 201610945406A CN 106547875 B CN106547875 B CN 106547875B
Authority
CN
China
Prior art keywords
emotion
microblog
labels
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610945406.6A
Other languages
English (en)
Other versions
CN106547875A (zh
Inventor
邹晓梅
杨静
张健沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201610945406.6A priority Critical patent/CN106547875B/zh
Publication of CN106547875A publication Critical patent/CN106547875A/zh
Application granted granted Critical
Publication of CN106547875B publication Critical patent/CN106547875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于网络检测领域,具体涉及一种基于情感分析和标签的微博在线突发事件检测方法。本发明包括:使用情感分类模型情感轮,构造情感分析模型——情感同现图;使用步骤(1)构造的情感分析模型,对微博流中的微博进行情感分类,采用kleinberg算法检测微博流的突发期;提取突发期内的微博标签,过滤掉垃圾标签,对剩余标签进行分词处理;形成事件的初始关键词;利用步骤(3)生成的关键词,提取微博中与此关键词相关的词,形成事件的最终描述。本发明构造基于情感轮的情感同现图,情感分类更加细致,情感更容易理解和解释,相对于基于情感符号的事件检测准确率更高。

Description

一种基于情感分析和标签的微博在线突发事件检测方法
技术领域
本发明属于网络检测领域,具体涉及一种基于情感分析和标签的微博在线突发事件检测方法。
背景技术
近年来随着Web2.0技术蓬勃发展,涌现出一系列社交网络。这些社交网络如新浪微博、推特等吸引着大量的用户。用户们活跃在在社交网络上,发布大量的微博消息,其中包含着有关某些事件的看法或观点。通过挖掘这些微博消息,可以得到大量的如用户情感等的更深层次的信息。使用这些深层次的信息可以为政府或企业提供服务,例如,政府可以使用这些信息判断人们对法律法案是否支持,对某一社会事件持有什么样的看法,从而进行舆情控制和引导;企业可以通过挖掘用户的微博消息,得知用户的行为习惯和偏好,从而向其推荐用户最有可能感兴趣或购买的商品。
对于突发事件检测,传统方法有两种,即基于文档的突发事件检测和基于特征的突发事件检测。基于文档的突发事件检测思想是,将文档表示成词向量或命名实体向量,计算文档之间的相似度,对文档进行聚类形成事件。对基于特征突发进行事件检测是挖掘数据流中突发事件的有效方法之一,其主要思想是首先抽取文档特征词,通过分析特征词随时间变化轨迹检测突发现象,然后将具有相同突发轨迹的特征词进行聚合,形成突发事件。然而,这种两种方法在微博短文本的情况下并不适用。首先微博数据量大,对于每个微博提取特征词、形成tfidf矩阵需要花费大量的时间。其次,微博表达方式不规则,形式多变,可能含有大量的新词,形成的矩阵稀疏,不利于计算相似度,增加识别难度。同时,传统方法只完成了突发事件的提取,并未对突发事件进行更深层次的分析,例如情感分析。
发明内容
本发明的目的在于提供一种针对微博数据流短文本的在线突发事件检测模型,能够准确而又迅速的提取出数据流中的突发事件的基于情感分析和标签的微博在线突发事件检测方法。
本发明的目的是这样实现的:
一种基于情感分析和标签的微博在线突发事件检测方法,包括如下步骤:
(1)使用情感分类模型情感轮,构造情感分析模型——情感同现图;
(2)使用步骤(1)构造的情感分析模型,对微博流中的微博进行情感分类,采用kleinberg算法检测微博流的突发期;
(3)提取突发期内的微博标签,过滤掉垃圾标签,对剩余标签进行分词处理;形成事件的初始关键词;
(4)利用步骤(3)生成的关键词,提取微博中与此关键词相关的词,形成事件的最终描述。
所述步骤(1)中,通过如下方法构造情感同现图:
(1.1)使用情感轮模型,人工对情感符号赋予合理的词汇;
(1.2)对原始微博数据进行分词处理,形成微博语料库;
(1.3)使用HowNet词典,采用基于距离的词语相似性计算微博语料库词语和情感符号词语之间的相似度;
(1.3)中使用如下公式计算词语检测的相似性:
Figure BDA0001140590780000021
Figure BDA0001140590780000022
式中W1和W2代表词语,词语W1有k个义项:{n11,n12,…,n1k},词语W2有p个义项:{n21,n22,…,n2p},p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个正整数;α是一个可调节的参数;
(1.4)建立相似度大于给定阈值λ的词语之间的连接,完成情感同现图的构造;λ选择0.6。
所述的步骤(3)中,包含以下步骤:
(3.1)对提取的标签进行词性标注,去掉只有动词的标签或者只有一个名词的标签;
(3.2)剔除掉标签中含有特殊符号的标签;
(3.3)剔除掉含有标准日期格式、只有数字和标点符号的标签;
所述的步骤(4)中包括以下步骤:
(4.1)对突发期内剩余标签进行分词处理;
(4.2)计算突发期内有关微博标签关键词的频繁模式;
(4.3)提取频繁模式中的2项集,计算该2项集中词语之间的互信息;
(4.4)保留互信息大于给定阈值γ的词形成最终的事件描述;γ的值选择1.5;
步骤4.4中互信息计算公式为:
Figure BDA0001140590780000023
Figure BDA0001140590780000024
Figure BDA0001140590780000025
Figure BDA0001140590780000026
Figure BDA0001140590780000031
C(W1)和C(W2)分别表示语料库中含有W1和W2的微博数量,C(W1,W2)表示同时含有W1和W2的微博数量;R为语料库的规模,即微博总数。
本发明的有益效果是:
本发明构造基于情感轮的情感同现图,情感分类更加细致,情感更容易理解和解释,相对于基于情感符号的事件检测准确率更高。使用建立的情感同现图进行情感分析,过滤掉大量的无用微博,利用情感分析结果检测微博数据流的突发状态,效率高。利用微博标签作为引导进行突发事件发现,比基于聚类的事件发现准确率高,检测检测时间快。
附图说明
图1基于情感同现图的在线突发事件模型框架。
具体实施方式
下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述。
步骤1:使用情感分类模型情感轮,构造情感分析模型——情感同现图。具体包括以下步骤:
步骤1.1:使用情感轮模型,人工对情感符号赋予合理的词汇;
步骤1.2:对原始微博数据进行分词处理,形成微博语料库;
步骤1.3:使用HowNet词典,采用基于距离的词语相似性计算微博语料库词语和情感符号词语之间的相似度。
步骤1.3中使用如下公式计算词语检测的相似性:
Figure BDA0001140590780000032
Figure BDA0001140590780000033
式中W1和W2代表词语,词语W1有k个义项(概念):{n11,n12,…,n1k},词语W2有p个义项(概念):{n21,n22,…,n2p},p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数,在本发明中取1.6。
步骤1.4:建立相似度大于给定阈值λ的词语之间的连接,完成情感同现图的构造。在本发明中λ选择0.6。
步骤2:使用步骤1构造的情感分析模型,对微博流中的微博进行情感分类,采用kleinberg算法检测微博流的突发期。
步骤2.1:对于微博流中的每一条微博,对其进行分词处理。
步骤2.2:对分词完毕的微博,使用建立的情感同现图模型建立微博的情感向量Sd。
步骤2.3:设置标志位flag=true,如果Sd向量相应情感标记σsk为1,则将该微博加入情感文档集Ds Tk中,将flag置为false。
步骤2.4:重复步骤2.2和2.3直到所有的微博分类完毕。
步骤2.5:对于每一类情感微博,使用kleinberg算法检测突发期。
步骤3:提取突发期内的微博标签,过滤掉垃圾标签,对剩余标签进行分词处理。形成事件的初始关键词。
步骤3.1:对提取的标签进行词性标注,去掉只有动词的标签或者只有一个名词的标签,如“#早安#”、“#晚安#”、“#唱吧#”、“#九寨沟#”、“#旅途#”这类标签。
步骤3.2:剔除掉标签中含有特殊符号(“《”、“+”、“-”、“-”)的标签。如“#搞笑+视频#”、“#早安*恋馆#”、“#Weico+#”。
步骤3.3:剔除掉含有标准日期格式、只有数字和标点符号的标签、。如“#365#”、“#4.01#”。
步骤4:利用步骤3生成的关键词,提取微博中与此关键词相关的词,形成事件的最终描述。
步骤4.1:对突发期内剩余标签进行分词处理。
步骤4.2:计算突发期内有关微博标签关键词的频繁模式。
步骤4.3:提取频繁模式中的2项集,计算该2项集中词语之间的互信息。
步骤4.4:保留互信息大于给定阈值Y的词,按词频对词进行排序,形成最终的事件描述。在本发明中,Y的值选择1.5。
步骤4.4中互信息计算公式为:
Figure BDA0001140590780000041
Figure BDA0001140590780000042
Figure BDA0001140590780000043
Figure BDA0001140590780000044
Figure BDA0001140590780000045
C(W1)和C(W2)分别表示语料库中含有W1和W2的微博数量,C(W1,W2)表示同时含有W1和W2的微博数量。R为语料库的规模,即微博总数。

Claims (1)

1.一种基于情感分析和标签的微博在线突发事件检测方法,其特征在于,包括如下步骤:
(1)使用情感分类模型情感轮,构造情感分析模型——情感同现图;
(2)使用步骤(1)构造的情感分析模型,对微博流中的微博进行情感分类,采用kleinberg算法检测微博流的突发期;
(3)提取突发期内的微博标签,过滤掉垃圾标签,对剩余标签进行分词处理;形成事件的初始关键词;
(4)利用步骤(3)生成的关键词,提取微博中与此关键词相关的词,形成事件的最终描述;
所述步骤(1)中,通过如下方法构造情感同现图:
(1.1)使用情感轮模型,人工对情感符号赋予合理的词汇;
(1.2)对原始微博数据进行分词处理,形成微博语料库;
(1.3)使用HowNet词典,采用基于距离的词语相似性计算微博语料库词语和情感符号词语之间的相似度;
(1.3)中使用如下公式计算词语检测的相似性:
Figure FDA0002209203670000011
Figure FDA0002209203670000012
式中W1和W2代表词语,词语W1有k个义项:{n11,n12,…,n1k},词语W2有p个义项:{n21,n22,…,n2p},p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个正整数;α是一个可调节的参数;
(1.4)建立相似度大于给定阈值λ的词语之间的连接,完成情感同现图的构造;λ选择0.6;
所述的步骤(3)中,包含以下步骤:
(3.1)对提取的标签进行词性标注,去掉只有动词的标签或者只有一个名词的标签;
(3.2)剔除掉标签中含有特殊符号的标签;
(3.3)剔除掉含有标准日期格式、只有数字和标点符号的标签;
所述的步骤(4)中包括以下步骤:
(4.1)对突发期内剩余标签进行分词处理;
(4.2)计算突发期内有关微博标签关键词的频繁模式;
(4.3)提取频繁模式中的2项集,计算该2项集中词语之间的互信息;
(4.4)保留互信息大于给定阈值γ的词形成最终的事件描述;γ的值选择1.5;
步骤4.4中互信息计算公式为:
Figure FDA0002209203670000021
Figure FDA0002209203670000022
Figure FDA0002209203670000023
Figure FDA0002209203670000024
Figure FDA0002209203670000025
C(W1)和C(W2)分别表示语料库中含有W1和W2的微博数量,C(W1,W2)表示同时含有W1和W2的微博数量;R为语料库的规模,即微博总数。
CN201610945406.6A 2016-11-02 2016-11-02 一种基于情感分析和标签的微博在线突发事件检测方法 Active CN106547875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610945406.6A CN106547875B (zh) 2016-11-02 2016-11-02 一种基于情感分析和标签的微博在线突发事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610945406.6A CN106547875B (zh) 2016-11-02 2016-11-02 一种基于情感分析和标签的微博在线突发事件检测方法

Publications (2)

Publication Number Publication Date
CN106547875A CN106547875A (zh) 2017-03-29
CN106547875B true CN106547875B (zh) 2020-05-15

Family

ID=58393729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610945406.6A Active CN106547875B (zh) 2016-11-02 2016-11-02 一种基于情感分析和标签的微博在线突发事件检测方法

Country Status (1)

Country Link
CN (1) CN106547875B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886442A (zh) * 2017-11-28 2018-04-06 合肥工业大学 基于微博文本的公众情感分布建模方法及装置
JP7091700B2 (ja) * 2018-02-21 2022-06-28 富士通株式会社 情報処理プログラム、メッセージ解析プログラム、情報処理装置及び情報処理方法
CN109189910B (zh) * 2018-09-18 2019-09-10 哈尔滨工程大学 一种面向移动应用问题报告的标签自动推荐方法
CN109783800B (zh) * 2018-12-13 2024-04-12 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN109977231B (zh) * 2019-04-10 2021-04-02 上海海事大学 一种基于情感衰变因子的抑郁情绪分析方法
CN110990592B (zh) * 2019-11-07 2023-06-23 北京科技大学 一种微博突发话题在线检测方法及检测装置
CN111950273B (zh) * 2020-07-31 2023-09-01 南京莱斯网信技术研究院有限公司 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN112084333B (zh) * 2020-08-31 2022-04-22 杭州电子科技大学 一种基于情感倾向分析的社交用户生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246728A (zh) * 2013-05-10 2013-08-14 北京大学 一种基于文档词汇特征变化的突发事件检测方法
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及***
CN104573031A (zh) * 2015-01-14 2015-04-29 哈尔滨工业大学深圳研究生院 一种微博突发事件检测方法
CN105224604A (zh) * 2015-09-01 2016-01-06 天津大学 一种基于堆优化的微博突发事件检测方法及其检测装置
CN105718598A (zh) * 2016-03-07 2016-06-29 天津大学 基于at的时间模型构建方法与网络突发事件预警方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及***
CN103246728A (zh) * 2013-05-10 2013-08-14 北京大学 一种基于文档词汇特征变化的突发事件检测方法
CN104573031A (zh) * 2015-01-14 2015-04-29 哈尔滨工业大学深圳研究生院 一种微博突发事件检测方法
CN105224604A (zh) * 2015-09-01 2016-01-06 天津大学 一种基于堆优化的微博突发事件检测方法及其检测装置
CN105718598A (zh) * 2016-03-07 2016-06-29 天津大学 基于at的时间模型构建方法与网络突发事件预警方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"一种基于情感符号的在线突发事件检测方法";张鲁民等;《计算机学报》;20130815(第8期);正文第1660-1666页、图2 *

Also Published As

Publication number Publication date
CN106547875A (zh) 2017-03-29

Similar Documents

Publication Publication Date Title
CN106547875B (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
Kumar et al. Sentiment analysis of multimodal twitter data
Gokulakrishnan et al. Opinion mining and sentiment analysis on a twitter data stream
WO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
Anoop et al. Leveraging heterogeneous data for fake news detection
Stavrianou et al. NLP-based feature extraction for automated tweet classification
Biba et al. Sentiment analysis through machine learning: an experimental evaluation for Albanian
CN109857869A (zh) 一种基于Ap增量聚类和网络基元的热点话题预测方法
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN104123336B (zh) 深度玻尔兹曼机模型及短文本主题分类***和方法
KR102185733B1 (ko) 프로필 자동생성서버 및 방법
Hussain et al. A technique for perceiving abusive bangla comments
CN107729509A (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Xie et al. A topic detection method for Chinese microblog
Mapa et al. Text normalization in social media by using spell correction and dictionary based approach
Kotevska et al. Automatic Categorization of Social Sensor Data
Jawale et al. Design of automated sentiment or opinion discovery system to enhance its performance
Shirahatti et al. Sentiment analysis on Twitter data using Hadoop
CN110837740B (zh) 一种基于词典改进lda模型的评论方面观点级挖掘方法
Singh et al. Sentiment analysis of twitter data set: survey
Surabhi et al. Twitter sentiment analysis on Indian Government schemes using machine learning models
Lou et al. Research on micro-blog sentiment analysis
Shi et al. Opinion sentence extraction and sentiment analysis for Chinese microblogs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant