CN106547875A - 一种基于情感分析和标签的微博在线突发事件检测方法 - Google Patents

一种基于情感分析和标签的微博在线突发事件检测方法 Download PDF

Info

Publication number
CN106547875A
CN106547875A CN201610945406.6A CN201610945406A CN106547875A CN 106547875 A CN106547875 A CN 106547875A CN 201610945406 A CN201610945406 A CN 201610945406A CN 106547875 A CN106547875 A CN 106547875A
Authority
CN
China
Prior art keywords
label
microblogging
word
emotion
sentiment analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610945406.6A
Other languages
English (en)
Other versions
CN106547875B (zh
Inventor
邹晓梅
杨静
张健沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201610945406.6A priority Critical patent/CN106547875B/zh
Publication of CN106547875A publication Critical patent/CN106547875A/zh
Application granted granted Critical
Publication of CN106547875B publication Critical patent/CN106547875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于网络检测领域,具体涉及一种基于情感分析和标签的微博在线突发事件检测方法。本发明包括:使用情感分类模型情感轮,构造情感分析模型——情感同现图;使用步骤(1)构造的情感分析模型,对微博流中的微博进行情感分类,采用kleinberg算法检测微博流的突发期;提取突发期内的微博标签,过滤掉垃圾标签,对剩余标签进行分词处理;形成事件的初始关键词;利用步骤(3)生成的关键词,提取微博中与此关键词相关的词,形成事件的最终描述。本发明构造基于情感轮的情感同现图,情感分类更加细致,情感更容易理解和解释,相对于基于情感符号的事件检测准确率更高。

Description

一种基于情感分析和标签的微博在线突发事件检测方法
技术领域
本发明属于网络检测领域,具体涉及一种基于情感分析和标签的微博在线突发事件检测方法。
背景技术
近年来随着Web2.0技术蓬勃发展,涌现出一系列社交网络。这些社交网络如新浪微博、推特等吸引着大量的用户。用户们活跃在在社交网络上,发布大量的微博消息,其中包含着有关某些事件的看法或观点。通过挖掘这些微博消息,可以得到大量的如用户情感等的更深层次的信息。使用这些深层次的信息可以为政府或企业提供服务,例如,政府可以使用这些信息判断人们对法律法案是否支持,对某一社会事件持有什么样的看法,从而进行舆情控制和引导;企业可以通过挖掘用户的微博消息,得知用户的行为习惯和偏好,从而向其推荐用户最有可能感兴趣或购买的商品。
对于突发事件检测,传统方法有两种,即基于文档的突发事件检测和基于特征的突发事件检测。基于文档的突发事件检测思想是,将文档表示成词向量或命名实体向量,计算文档之间的相似度,对文档进行聚类形成事件。对基于特征突发进行事件检测是挖掘数据流中突发事件的有效方法之一,其主要思想是首先抽取文档特征词,通过分析特征词随时间变化轨迹检测突发现象,然后将具有相同突发轨迹的特征词进行聚合,形成突发事件。然而,这种两种方法在微博短文本的情况下并不适用。首先微博数据量大,对于每个微博提取特征词、形成tfidf矩阵需要花费大量的时间。其次,微博表达方式不规则,形式多变,可能含有大量的新词,形成的矩阵稀疏,不利于计算相似度,增加识别难度。同时,传统方法只完成了突发事件的提取,并未对突发事件进行更深层次的分析,例如情感分析。
发明内容
本发明的目的在于提供一种针对微博数据流短文本的在线突发事件检测模型,能够准确而又迅速的提取出数据流中的突发事件的基于情感分析和标签的微博在线突发事件检测方法。
本发明的目的是这样实现的:
一种基于情感分析和标签的微博在线突发事件检测方法,包括如下步骤:
(1)使用情感分类模型情感轮,构造情感分析模型——情感同现图;
(2)使用步骤(1)构造的情感分析模型,对微博流中的微博进行情感分类,采用kleinberg算法检测微博流的突发期;
(3)提取突发期内的微博标签,过滤掉垃圾标签,对剩余标签进行分词处理;形成事件的初始关键词;
(4)利用步骤(3)生成的关键词,提取微博中与此关键词相关的词,形成事件的最终描述。
所述步骤(1)中,通过如下方法构造情感同现图:
(1.1)使用情感轮模型,人工对情感符号赋予合理的词汇;
(1.2)对原始微博数据进行分词处理,形成微博语料库;
(1.3)使用HowNet词典,采用基于距离的词语相似性计算微博语料库词语和情感符号词语之间的相似度;
(1.3)中使用如下公式计算词语检测的相似性:
式中W1和W2代表词语,词语W1有k个义项:{n11,n12,…,n1k},词语W2有p个义项:{n21,n22,…,n2p},p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个正整数;α是一个可调节的参数;
(1.4)建立相似度大于给定阈值λ的词语之间的连接,完成情感同现图的构造;λ选择0.6。
所述的步骤(3)中,包含以下步骤:
(3.1)对提取的标签进行词性标注,去掉只有动词的标签或者只有一个名词的标签;
(3.2)剔除掉标签中含有特殊符号的标签;
(3.3)剔除掉含有标准日期格式、只有数字和标点符号的标签;
所述的步骤(4)中包括以下步骤:
(4.1)对突发期内剩余标签进行分词处理;
(4.2)计算突发期内有关微博标签关键词的频繁模式;
(4.3)提取频繁模式中的2项集,计算该2项集中词语之间的互信息;
(4.4)保留互信息大于给定阈值γ的词形成最终的事件描述;γ的值选择1.5;
步骤4.4中互信息计算公式为:
C(W1)和C(W2)分别表示语料库中含有W1和W2的微博数量,C(W1,W2)表示同时含有W1和W2的微博数量;R为语料库的规模,即微博总数。
本发明的有益效果是:
本发明构造基于情感轮的情感同现图,情感分类更加细致,情感更容易理解和解释,相对于基于情感符号的事件检测准确率更高。使用建立的情感同现图进行情感分析,过滤掉大量的无用微博,利用情感分析结果检测微博数据流的突发状态,效率高。利用微博标签作为引导进行突发事件发现,比基于聚类的事件发现准确率高,检测检测时间快。
附图说明
图1基于情感同现图的在线突发事件模型框架。
具体实施方式
下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述。
步骤1:使用情感分类模型情感轮,构造情感分析模型——情感同现图。具体包括以下步骤:
步骤1.1:使用情感轮模型,人工对情感符号赋予合理的词汇;
步骤1.2:对原始微博数据进行分词处理,形成微博语料库;
步骤1.3:使用HowNet词典,采用基于距离的词语相似性计算微博语料库词语和情感符号词语之间的相似度。
步骤1.3中使用如下公式计算词语检测的相似性:
式中W1和W2代表词语,词语W1有k个义项(概念):{n11,n12,…,n1k},词语W2有p个义项(概念):{n21,n22,…,n2p},p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数,在本发明中取1.6。
步骤1.4:建立相似度大于给定阈值λ的词语之间的连接,完成情感同现图的构造。在本发明中λ选择0.6。
步骤2:使用步骤1构造的情感分析模型,对微博流中的微博进行情感分类,采用kleinberg算法检测微博流的突发期。
步骤2.1:对于微博流中的每一条微博,对其进行分词处理。
步骤2.2:对分词完毕的微博,使用建立的情感同现图模型建立微博的情感向量Sd。
步骤2.3:设置标志位flag=true,如果Sd向量相应情感标记σsk为1,则将该微博加入情感文档集Ds Tk中,将flag置为false。
步骤2.4:重复步骤2.2和2.3直到所有的微博分类完毕。
步骤2.5:对于每一类情感微博,使用kleinberg算法检测突发期。
步骤3:提取突发期内的微博标签,过滤掉垃圾标签,对剩余标签进行分词处理。形成事件的初始关键词。
步骤3.1:对提取的标签进行词性标注,去掉只有动词的标签或者只有一个名词的标签,如“#早安#”、“#晚安#”、“#唱吧#”、“#九寨沟#”、“#旅途#”这类标签。
步骤3.2:剔除掉标签中含有特殊符号(“《”、“+”、“-”、“-”)的标签。如“#搞笑+视频#”、“#早安*恋馆#”、“#Weico+#”。
步骤3.3:剔除掉含有标准日期格式、只有数字和标点符号的标签、。如“#365#”、“#4.01#”。
步骤4:利用步骤3生成的关键词,提取微博中与此关键词相关的词,形成事件的最终描述。
步骤4.1:对突发期内剩余标签进行分词处理。
步骤4.2:计算突发期内有关微博标签关键词的频繁模式。
步骤4.3:提取频繁模式中的2项集,计算该2项集中词语之间的互信息。
步骤4.4:保留互信息大于给定阈值Y的词,按词频对词进行排序,形成最终的事件描述。在本发明中,Y的值选择1.5。
步骤4.4中互信息计算公式为:
C(W1)和C(W2)分别表示语料库中含有W1和W2的微博数量,C(W1,W2)表示同时含有W1和W2的微博数量。R为语料库的规模,即微博总数。

Claims (4)

1.一种基于情感分析和标签的微博在线突发事件检测方法,其特征在于,包括如下步骤:
(1)使用情感分类模型情感轮,构造情感分析模型——情感同现图;
(2)使用步骤(1)构造的情感分析模型,对微博流中的微博进行情感分类,采用kleinberg算法检测微博流的突发期;
(3)提取突发期内的微博标签,过滤掉垃圾标签,对剩余标签进行分词处理;形成事件的初始关键词;
(4)利用步骤(3)生成的关键词,提取微博中与此关键词相关的词,形成事件的最终描述。
2.根据权利要求1所述的一种基于情感分析和标签的微博在线突发事件检测方法,其特征在于,所述步骤(1)中,通过如下方法构造情感同现图:
(1.1)使用情感轮模型,人工对情感符号赋予合理的词汇;
(1.2)对原始微博数据进行分词处理,形成微博语料库;
(1.3)使用HowNet词典,采用基于距离的词语相似性计算微博语料库词语和情感符号词语之间的相似度;
(1.3)中使用如下公式计算词语检测的相似性:
式中W1和W2代表词语,词语W1有k个义项:{n11,n12,…,n1k},词语W2有p个义项:{n21,n22,…,n2p},p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个正整数;α是一个可调节的参数;
(1.4)建立相似度大于给定阈值λ的词语之间的连接,完成情感同现图的构造;λ选择0.6。
3.根据权利要求1所述的一种基于情感分析和标签的微博在线突发事件检测方法,其特征在于,所述的步骤(3)中,包含以下步骤:
(3.1)对提取的标签进行词性标注,去掉只有动词的标签或者只有一个名词的标签;
(3.2)剔除掉标签中含有特殊符号的标签;
(3.3)剔除掉含有标准日期格式、只有数字和标点符号的标签。
4.根据权利要求1所述的一种基于情感分析和标签的微博在线突发事件检测方法,其特征在于,所述的步骤(4)中包括以下步骤:
(4.1)对突发期内剩余标签进行分词处理;
(4.2)计算突发期内有关微博标签关键词的频繁模式;
(4.3)提取频繁模式中的2项集,计算该2项集中词语之间的互信息;
(4.4)保留互信息大于给定阈值γ的词形成最终的事件描述;γ的值选择1.5;
步骤4.4中互信息计算公式为:
C(W1)和C(W2)分别表示语料库中含有W1和W2的微博数量,C(W1,W2)表示同时含有W1和W2的微博数量;R为语料库的规模,即微博总数。
CN201610945406.6A 2016-11-02 2016-11-02 一种基于情感分析和标签的微博在线突发事件检测方法 Active CN106547875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610945406.6A CN106547875B (zh) 2016-11-02 2016-11-02 一种基于情感分析和标签的微博在线突发事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610945406.6A CN106547875B (zh) 2016-11-02 2016-11-02 一种基于情感分析和标签的微博在线突发事件检测方法

Publications (2)

Publication Number Publication Date
CN106547875A true CN106547875A (zh) 2017-03-29
CN106547875B CN106547875B (zh) 2020-05-15

Family

ID=58393729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610945406.6A Active CN106547875B (zh) 2016-11-02 2016-11-02 一种基于情感分析和标签的微博在线突发事件检测方法

Country Status (1)

Country Link
CN (1) CN106547875B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886442A (zh) * 2017-11-28 2018-04-06 合肥工业大学 基于微博文本的公众情感分布建模方法及装置
CN109189910A (zh) * 2018-09-18 2019-01-11 哈尔滨工程大学 一种面向移动应用问题报告的标签自动推荐方法
CN109783800A (zh) * 2018-12-13 2019-05-21 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN109977231A (zh) * 2019-04-10 2019-07-05 上海海事大学 一种基于情感衰变因子的抑郁情绪分析方法
JP2019144905A (ja) * 2018-02-21 2019-08-29 富士通株式会社 情報処理プログラム、メッセージ解析プログラム、情報処理装置及び情報処理方法
CN110990592A (zh) * 2019-11-07 2020-04-10 北京科技大学 一种微博突发话题在线检测方法及检测装置
CN111950273A (zh) * 2020-07-31 2020-11-17 南京莱斯网信技术研究院有限公司 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN112084333A (zh) * 2020-08-31 2020-12-15 杭州电子科技大学 一种基于情感倾向分析的社交用户生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246728A (zh) * 2013-05-10 2013-08-14 北京大学 一种基于文档词汇特征变化的突发事件检测方法
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及***
CN104573031A (zh) * 2015-01-14 2015-04-29 哈尔滨工业大学深圳研究生院 一种微博突发事件检测方法
CN105224604A (zh) * 2015-09-01 2016-01-06 天津大学 一种基于堆优化的微博突发事件检测方法及其检测装置
CN105718598A (zh) * 2016-03-07 2016-06-29 天津大学 基于at的时间模型构建方法与网络突发事件预警方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及***
CN103246728A (zh) * 2013-05-10 2013-08-14 北京大学 一种基于文档词汇特征变化的突发事件检测方法
CN104573031A (zh) * 2015-01-14 2015-04-29 哈尔滨工业大学深圳研究生院 一种微博突发事件检测方法
CN105224604A (zh) * 2015-09-01 2016-01-06 天津大学 一种基于堆优化的微博突发事件检测方法及其检测装置
CN105718598A (zh) * 2016-03-07 2016-06-29 天津大学 基于at的时间模型构建方法与网络突发事件预警方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张鲁民等: ""一种基于情感符号的在线突发事件检测方法"", 《计算机学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886442A (zh) * 2017-11-28 2018-04-06 合肥工业大学 基于微博文本的公众情感分布建模方法及装置
JP7091700B2 (ja) 2018-02-21 2022-06-28 富士通株式会社 情報処理プログラム、メッセージ解析プログラム、情報処理装置及び情報処理方法
JP2019144905A (ja) * 2018-02-21 2019-08-29 富士通株式会社 情報処理プログラム、メッセージ解析プログラム、情報処理装置及び情報処理方法
CN109189910A (zh) * 2018-09-18 2019-01-11 哈尔滨工程大学 一种面向移动应用问题报告的标签自动推荐方法
CN109189910B (zh) * 2018-09-18 2019-09-10 哈尔滨工程大学 一种面向移动应用问题报告的标签自动推荐方法
CN109783800A (zh) * 2018-12-13 2019-05-21 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN109783800B (zh) * 2018-12-13 2024-04-12 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN109977231A (zh) * 2019-04-10 2019-07-05 上海海事大学 一种基于情感衰变因子的抑郁情绪分析方法
CN110990592A (zh) * 2019-11-07 2020-04-10 北京科技大学 一种微博突发话题在线检测方法及检测装置
CN110990592B (zh) * 2019-11-07 2023-06-23 北京科技大学 一种微博突发话题在线检测方法及检测装置
CN111950273B (zh) * 2020-07-31 2023-09-01 南京莱斯网信技术研究院有限公司 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN111950273A (zh) * 2020-07-31 2020-11-17 南京莱斯网信技术研究院有限公司 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN112084333B (zh) * 2020-08-31 2022-04-22 杭州电子科技大学 一种基于情感倾向分析的社交用户生成方法
CN112084333A (zh) * 2020-08-31 2020-12-15 杭州电子科技大学 一种基于情感倾向分析的社交用户生成方法

Also Published As

Publication number Publication date
CN106547875B (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN106547875A (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN104199972B (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN103559233B (zh) 微博中网络新词抽取方法和微博情感分析方法及***
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
Akaichi et al. Text mining facebook status updates for sentiment classification
CN104008091B (zh) 一种基于情感值的网络文本情感分析方法
CN108363725B (zh) 一种用户评论观点提取和观点标签生成的方法
CN105045857A (zh) 一种社交网络谣言识别方法及***
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN107357793A (zh) 信息推荐方法和装置
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN102436480B (zh) 一种面向文本的知识单元关联关系挖掘方法
CN104199845B (zh) 基于主体模型的网上评论情感分类方法
CN106126502A (zh) 一种基于支持向量机的情感分类***及方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
CN103455639A (zh) 一种识别微博突发热点事件的方法及装置
Bouchlaghem et al. A machine learning approach for classifying sentiments in Arabic tweets
CN109857869A (zh) 一种基于Ap增量聚类和网络基元的热点话题预测方法
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN105068986B (zh) 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
CN104123336B (zh) 深度玻尔兹曼机模型及短文本主题分类***和方法
Khun et al. Visualization of Twitter sentiment during the period of US banned huawei

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant