CN106547875B - 一种基于情感分析和标签的微博在线突发事件检测方法 - Google Patents
一种基于情感分析和标签的微博在线突发事件检测方法 Download PDFInfo
- Publication number
- CN106547875B CN106547875B CN201610945406.6A CN201610945406A CN106547875B CN 106547875 B CN106547875 B CN 106547875B CN 201610945406 A CN201610945406 A CN 201610945406A CN 106547875 B CN106547875 B CN 106547875B
- Authority
- CN
- China
- Prior art keywords
- emotion
- microblog
- labels
- words
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 65
- 238000001514 detection method Methods 0.000 title claims abstract description 23
- 238000004458 analytical method Methods 0.000 title claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims abstract description 5
- 238000013145 classification model Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 4
- 238000005065 mining Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于网络检测领域,具体涉及一种基于情感分析和标签的微博在线突发事件检测方法。本发明包括:使用情感分类模型情感轮,构造情感分析模型——情感同现图;使用步骤(1)构造的情感分析模型,对微博流中的微博进行情感分类,采用kleinberg算法检测微博流的突发期;提取突发期内的微博标签,过滤掉垃圾标签,对剩余标签进行分词处理;形成事件的初始关键词;利用步骤(3)生成的关键词,提取微博中与此关键词相关的词,形成事件的最终描述。本发明构造基于情感轮的情感同现图,情感分类更加细致,情感更容易理解和解释,相对于基于情感符号的事件检测准确率更高。
Description
技术领域
本发明属于网络检测领域,具体涉及一种基于情感分析和标签的微博在线突发事件检测方法。
背景技术
近年来随着Web2.0技术蓬勃发展,涌现出一系列社交网络。这些社交网络如新浪微博、推特等吸引着大量的用户。用户们活跃在在社交网络上,发布大量的微博消息,其中包含着有关某些事件的看法或观点。通过挖掘这些微博消息,可以得到大量的如用户情感等的更深层次的信息。使用这些深层次的信息可以为政府或企业提供服务,例如,政府可以使用这些信息判断人们对法律法案是否支持,对某一社会事件持有什么样的看法,从而进行舆情控制和引导;企业可以通过挖掘用户的微博消息,得知用户的行为习惯和偏好,从而向其推荐用户最有可能感兴趣或购买的商品。
对于突发事件检测,传统方法有两种,即基于文档的突发事件检测和基于特征的突发事件检测。基于文档的突发事件检测思想是,将文档表示成词向量或命名实体向量,计算文档之间的相似度,对文档进行聚类形成事件。对基于特征突发进行事件检测是挖掘数据流中突发事件的有效方法之一,其主要思想是首先抽取文档特征词,通过分析特征词随时间变化轨迹检测突发现象,然后将具有相同突发轨迹的特征词进行聚合,形成突发事件。然而,这种两种方法在微博短文本的情况下并不适用。首先微博数据量大,对于每个微博提取特征词、形成tfidf矩阵需要花费大量的时间。其次,微博表达方式不规则,形式多变,可能含有大量的新词,形成的矩阵稀疏,不利于计算相似度,增加识别难度。同时,传统方法只完成了突发事件的提取,并未对突发事件进行更深层次的分析,例如情感分析。
发明内容
本发明的目的在于提供一种针对微博数据流短文本的在线突发事件检测模型,能够准确而又迅速的提取出数据流中的突发事件的基于情感分析和标签的微博在线突发事件检测方法。
本发明的目的是这样实现的:
一种基于情感分析和标签的微博在线突发事件检测方法,包括如下步骤:
(1)使用情感分类模型情感轮,构造情感分析模型——情感同现图;
(2)使用步骤(1)构造的情感分析模型,对微博流中的微博进行情感分类,采用kleinberg算法检测微博流的突发期;
(3)提取突发期内的微博标签,过滤掉垃圾标签,对剩余标签进行分词处理;形成事件的初始关键词;
(4)利用步骤(3)生成的关键词,提取微博中与此关键词相关的词,形成事件的最终描述。
所述步骤(1)中,通过如下方法构造情感同现图:
(1.1)使用情感轮模型,人工对情感符号赋予合理的词汇;
(1.2)对原始微博数据进行分词处理,形成微博语料库;
(1.3)使用HowNet词典,采用基于距离的词语相似性计算微博语料库词语和情感符号词语之间的相似度;
(1.3)中使用如下公式计算词语检测的相似性:
式中W1和W2代表词语,词语W1有k个义项:{n11,n12,…,n1k},词语W2有p个义项:{n21,n22,…,n2p},p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个正整数;α是一个可调节的参数;
(1.4)建立相似度大于给定阈值λ的词语之间的连接,完成情感同现图的构造;λ选择0.6。
所述的步骤(3)中,包含以下步骤:
(3.1)对提取的标签进行词性标注,去掉只有动词的标签或者只有一个名词的标签;
(3.2)剔除掉标签中含有特殊符号的标签;
(3.3)剔除掉含有标准日期格式、只有数字和标点符号的标签;
所述的步骤(4)中包括以下步骤:
(4.1)对突发期内剩余标签进行分词处理;
(4.2)计算突发期内有关微博标签关键词的频繁模式;
(4.3)提取频繁模式中的2项集,计算该2项集中词语之间的互信息;
(4.4)保留互信息大于给定阈值γ的词形成最终的事件描述;γ的值选择1.5;
步骤4.4中互信息计算公式为:
C(W1)和C(W2)分别表示语料库中含有W1和W2的微博数量,C(W1,W2)表示同时含有W1和W2的微博数量;R为语料库的规模,即微博总数。
本发明的有益效果是:
本发明构造基于情感轮的情感同现图,情感分类更加细致,情感更容易理解和解释,相对于基于情感符号的事件检测准确率更高。使用建立的情感同现图进行情感分析,过滤掉大量的无用微博,利用情感分析结果检测微博数据流的突发状态,效率高。利用微博标签作为引导进行突发事件发现,比基于聚类的事件发现准确率高,检测检测时间快。
附图说明
图1基于情感同现图的在线突发事件模型框架。
具体实施方式
下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述。
步骤1:使用情感分类模型情感轮,构造情感分析模型——情感同现图。具体包括以下步骤:
步骤1.1:使用情感轮模型,人工对情感符号赋予合理的词汇;
步骤1.2:对原始微博数据进行分词处理,形成微博语料库;
步骤1.3:使用HowNet词典,采用基于距离的词语相似性计算微博语料库词语和情感符号词语之间的相似度。
步骤1.3中使用如下公式计算词语检测的相似性:
式中W1和W2代表词语,词语W1有k个义项(概念):{n11,n12,…,n1k},词语W2有p个义项(概念):{n21,n22,…,n2p},p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数,在本发明中取1.6。
步骤1.4:建立相似度大于给定阈值λ的词语之间的连接,完成情感同现图的构造。在本发明中λ选择0.6。
步骤2:使用步骤1构造的情感分析模型,对微博流中的微博进行情感分类,采用kleinberg算法检测微博流的突发期。
步骤2.1:对于微博流中的每一条微博,对其进行分词处理。
步骤2.2:对分词完毕的微博,使用建立的情感同现图模型建立微博的情感向量Sd。
步骤2.3:设置标志位flag=true,如果Sd向量相应情感标记σsk为1,则将该微博加入情感文档集Ds Tk中,将flag置为false。
步骤2.4:重复步骤2.2和2.3直到所有的微博分类完毕。
步骤2.5:对于每一类情感微博,使用kleinberg算法检测突发期。
步骤3:提取突发期内的微博标签,过滤掉垃圾标签,对剩余标签进行分词处理。形成事件的初始关键词。
步骤3.1:对提取的标签进行词性标注,去掉只有动词的标签或者只有一个名词的标签,如“#早安#”、“#晚安#”、“#唱吧#”、“#九寨沟#”、“#旅途#”这类标签。
步骤3.2:剔除掉标签中含有特殊符号(“《”、“+”、“-”、“-”)的标签。如“#搞笑+视频#”、“#早安*恋馆#”、“#Weico+#”。
步骤3.3:剔除掉含有标准日期格式、只有数字和标点符号的标签、。如“#365#”、“#4.01#”。
步骤4:利用步骤3生成的关键词,提取微博中与此关键词相关的词,形成事件的最终描述。
步骤4.1:对突发期内剩余标签进行分词处理。
步骤4.2:计算突发期内有关微博标签关键词的频繁模式。
步骤4.3:提取频繁模式中的2项集,计算该2项集中词语之间的互信息。
步骤4.4:保留互信息大于给定阈值Y的词,按词频对词进行排序,形成最终的事件描述。在本发明中,Y的值选择1.5。
步骤4.4中互信息计算公式为:
C(W1)和C(W2)分别表示语料库中含有W1和W2的微博数量,C(W1,W2)表示同时含有W1和W2的微博数量。R为语料库的规模,即微博总数。
Claims (1)
1.一种基于情感分析和标签的微博在线突发事件检测方法,其特征在于,包括如下步骤:
(1)使用情感分类模型情感轮,构造情感分析模型——情感同现图;
(2)使用步骤(1)构造的情感分析模型,对微博流中的微博进行情感分类,采用kleinberg算法检测微博流的突发期;
(3)提取突发期内的微博标签,过滤掉垃圾标签,对剩余标签进行分词处理;形成事件的初始关键词;
(4)利用步骤(3)生成的关键词,提取微博中与此关键词相关的词,形成事件的最终描述;
所述步骤(1)中,通过如下方法构造情感同现图:
(1.1)使用情感轮模型,人工对情感符号赋予合理的词汇;
(1.2)对原始微博数据进行分词处理,形成微博语料库;
(1.3)使用HowNet词典,采用基于距离的词语相似性计算微博语料库词语和情感符号词语之间的相似度;
(1.3)中使用如下公式计算词语检测的相似性:
式中W1和W2代表词语,词语W1有k个义项:{n11,n12,…,n1k},词语W2有p个义项:{n21,n22,…,n2p},p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个正整数;α是一个可调节的参数;
(1.4)建立相似度大于给定阈值λ的词语之间的连接,完成情感同现图的构造;λ选择0.6;
所述的步骤(3)中,包含以下步骤:
(3.1)对提取的标签进行词性标注,去掉只有动词的标签或者只有一个名词的标签;
(3.2)剔除掉标签中含有特殊符号的标签;
(3.3)剔除掉含有标准日期格式、只有数字和标点符号的标签;
所述的步骤(4)中包括以下步骤:
(4.1)对突发期内剩余标签进行分词处理;
(4.2)计算突发期内有关微博标签关键词的频繁模式;
(4.3)提取频繁模式中的2项集,计算该2项集中词语之间的互信息;
(4.4)保留互信息大于给定阈值γ的词形成最终的事件描述;γ的值选择1.5;
步骤4.4中互信息计算公式为:
C(W1)和C(W2)分别表示语料库中含有W1和W2的微博数量,C(W1,W2)表示同时含有W1和W2的微博数量;R为语料库的规模,即微博总数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610945406.6A CN106547875B (zh) | 2016-11-02 | 2016-11-02 | 一种基于情感分析和标签的微博在线突发事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610945406.6A CN106547875B (zh) | 2016-11-02 | 2016-11-02 | 一种基于情感分析和标签的微博在线突发事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106547875A CN106547875A (zh) | 2017-03-29 |
CN106547875B true CN106547875B (zh) | 2020-05-15 |
Family
ID=58393729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610945406.6A Active CN106547875B (zh) | 2016-11-02 | 2016-11-02 | 一种基于情感分析和标签的微博在线突发事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106547875B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886442A (zh) * | 2017-11-28 | 2018-04-06 | 合肥工业大学 | 基于微博文本的公众情感分布建模方法及装置 |
JP7091700B2 (ja) * | 2018-02-21 | 2022-06-28 | 富士通株式会社 | 情報処理プログラム、メッセージ解析プログラム、情報処理装置及び情報処理方法 |
CN109189910B (zh) * | 2018-09-18 | 2019-09-10 | 哈尔滨工程大学 | 一种面向移动应用问题报告的标签自动推荐方法 |
CN109783800B (zh) * | 2018-12-13 | 2024-04-12 | 北京百度网讯科技有限公司 | 情感关键词的获取方法、装置、设备及存储介质 |
CN109977231B (zh) * | 2019-04-10 | 2021-04-02 | 上海海事大学 | 一种基于情感衰变因子的抑郁情绪分析方法 |
CN110990592B (zh) * | 2019-11-07 | 2023-06-23 | 北京科技大学 | 一种微博突发话题在线检测方法及检测装置 |
CN111950273B (zh) * | 2020-07-31 | 2023-09-01 | 南京莱斯网信技术研究院有限公司 | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 |
CN112084333B (zh) * | 2020-08-31 | 2022-04-22 | 杭州电子科技大学 | 一种基于情感倾向分析的社交用户生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246728A (zh) * | 2013-05-10 | 2013-08-14 | 北京大学 | 一种基于文档词汇特征变化的突发事件检测方法 |
CN103559233A (zh) * | 2012-10-29 | 2014-02-05 | 中国人民解放军国防科学技术大学 | 微博中网络新词抽取方法和微博情感分析方法及*** |
CN104573031A (zh) * | 2015-01-14 | 2015-04-29 | 哈尔滨工业大学深圳研究生院 | 一种微博突发事件检测方法 |
CN105224604A (zh) * | 2015-09-01 | 2016-01-06 | 天津大学 | 一种基于堆优化的微博突发事件检测方法及其检测装置 |
CN105718598A (zh) * | 2016-03-07 | 2016-06-29 | 天津大学 | 基于at的时间模型构建方法与网络突发事件预警方法 |
-
2016
- 2016-11-02 CN CN201610945406.6A patent/CN106547875B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559233A (zh) * | 2012-10-29 | 2014-02-05 | 中国人民解放军国防科学技术大学 | 微博中网络新词抽取方法和微博情感分析方法及*** |
CN103246728A (zh) * | 2013-05-10 | 2013-08-14 | 北京大学 | 一种基于文档词汇特征变化的突发事件检测方法 |
CN104573031A (zh) * | 2015-01-14 | 2015-04-29 | 哈尔滨工业大学深圳研究生院 | 一种微博突发事件检测方法 |
CN105224604A (zh) * | 2015-09-01 | 2016-01-06 | 天津大学 | 一种基于堆优化的微博突发事件检测方法及其检测装置 |
CN105718598A (zh) * | 2016-03-07 | 2016-06-29 | 天津大学 | 基于at的时间模型构建方法与网络突发事件预警方法 |
Non-Patent Citations (1)
Title |
---|
"一种基于情感符号的在线突发事件检测方法";张鲁民等;《计算机学报》;20130815(第8期);正文第1660-1666页、图2 * |
Also Published As
Publication number | Publication date |
---|---|
CN106547875A (zh) | 2017-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106547875B (zh) | 一种基于情感分析和标签的微博在线突发事件检测方法 | |
Kumar et al. | Sentiment analysis of multimodal twitter data | |
Gokulakrishnan et al. | Opinion mining and sentiment analysis on a twitter data stream | |
WO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
CN105183717A (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN115017303A (zh) | 基于新闻文本进行企业风险评估的方法、计算设备和介质 | |
Anoop et al. | Leveraging heterogeneous data for fake news detection | |
Stavrianou et al. | NLP-based feature extraction for automated tweet classification | |
Biba et al. | Sentiment analysis through machine learning: an experimental evaluation for Albanian | |
CN109857869A (zh) | 一种基于Ap增量聚类和网络基元的热点话题预测方法 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN104123336B (zh) | 深度玻尔兹曼机模型及短文本主题分类***和方法 | |
KR102185733B1 (ko) | 프로필 자동생성서버 및 방법 | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
CN107729509A (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
Xie et al. | A topic detection method for Chinese microblog | |
Mapa et al. | Text normalization in social media by using spell correction and dictionary based approach | |
Kotevska et al. | Automatic Categorization of Social Sensor Data | |
Jawale et al. | Design of automated sentiment or opinion discovery system to enhance its performance | |
Shirahatti et al. | Sentiment analysis on Twitter data using Hadoop | |
CN110837740B (zh) | 一种基于词典改进lda模型的评论方面观点级挖掘方法 | |
Singh et al. | Sentiment analysis of twitter data set: survey | |
Surabhi et al. | Twitter sentiment analysis on Indian Government schemes using machine learning models | |
Lou et al. | Research on micro-blog sentiment analysis | |
Shi et al. | Opinion sentence extraction and sentiment analysis for Chinese microblogs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |