CN104239383A - 一种微博情感可视化方法 - Google Patents

一种微博情感可视化方法 Download PDF

Info

Publication number
CN104239383A
CN104239383A CN201410254028.8A CN201410254028A CN104239383A CN 104239383 A CN104239383 A CN 104239383A CN 201410254028 A CN201410254028 A CN 201410254028A CN 104239383 A CN104239383 A CN 104239383A
Authority
CN
China
Prior art keywords
topic
seed
time
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410254028.8A
Other languages
English (en)
Inventor
任福继
刘宁
康鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201410254028.8A priority Critical patent/CN104239383A/zh
Publication of CN104239383A publication Critical patent/CN104239383A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种微博情感可视化方法,基于统计获得的关键词词频数据及情感计算获得的8维情感结果,根据相关策略做出微博热点事件全国关注趋势图、微博热点事件情感全国分布图及微博热点事件地区分布图。

Description

一种微博情感可视化方法
技术领域
本发明涉及微博情感分析方法领域,具体是一种微博情感可视化方法。
背景技术
情感计算成为当前热门研究领域之一,文本情感计算尤为火热。随着微博这种短文本消息模式的兴起,大量的富含情感特征的文本可以轻松的获得,为文本情感研究提供了便利。由于文本情感度量上的难点,使得文本情感可视化面临诸多难题,微博情感可视化同样如此。
发明内容
本发明的目的是提供一种微博情感可视化方法,以实现直观形象的展示微博文本情感。
为了达到上述目的,本发明所采用的技术方案为:
一种微博情感可视化方法,其特征在于:包括以下步骤:
(1)、扩充指定话题关键词集合:
由于微博内容上的口语化,获取到的指定话题微博数据中,指定话题原有的种子关键词并不是规范化表述,此时需要将指定话题原有的的种子关键词口语话、俚语化,扩充步骤如下:
(1.1)、将指定话题微博文本分词,统计词频,并确定指定话题原有的种子关键词;
(1.2)、按词频排序,取前20个词作为候选指定话题种子关键词;
(1.3)、根据公式(1)计算20个候选指定话题种子关键词与指定话题原有的种子关键词的相似度:
d = Σ j = 1 n log p ( word _ seed j , word i ) p ( word _ seed j ) p ( word i ) - - - ( 1 )
其中,word_seedj表示指定话题原有的种子关键词,wordi表示候选指定话题种子关键词,p(word_seedj,wordi)表示指定话题原有的种子关键词与候选指定话题种子关键词在微博文本中同时出现的概率,p(word_seedj)表示指定话题原有的种子关键词在微博文本中出现的概率,p(wordi)表示候选指定话题种子关键词在微博文本中出现的概率,d表示候选指定话题种子关键词与指定话题原有的种子关键词的相似性;
(1.4)、根据步骤(1.3)的计算结果,取相似度排名前10个的候选指定话题种子关键词作为扩充的种子关键词,扩充的种子关键词与指定话题原有的种子关键词一起作为话题关键词集合,记为K;
(2)、分离指定话题微博数据:将指定话题微博数据按照微博所属城市拆分为地区微博数据,记为Dcity;根据微博发布时间,以天为单位,将指定话题微博数据拆分为时间微博数据,记为Dtime
(3)、将步骤(2)获取的地区微博数据按照时间以天为单位拆分为地区时分微博数据,记为Dcity time
(4)、统计指定话题微博数据分离后的时间微博数据Dtime中的种子关键词的频率,按天计算所有种子关键词的频率和即为指定话题微博数据中该话题当天的关注度,根据统计数据,采用折线图,不同话题选择不同的颜色区分,以关键词频率为纵轴,以时间为横轴,即可得到以天为单位的指定话题指定时间段内全国关注度趋势图;统计地区时分微博数据Dcity time中的种子关键词的频率,按照上述方法,以关键词频率为纵轴,以时间及城市为横轴,即可得到指定话题地区关注度趋势对比图,当前话题地区关注度趋势对比图中采用簇状柱状图表示对比信息;
(5)、作指定话题全国情感分布图及地区分布图,过程如下:
(5.1)、计算指定话题微博数据的时间微博数据Dtime及地区时分微博数据Dcity time;获得指定话题每天的8维微博情感结果,如公式(2)所示:
E=(ehate,eanger,esorrow,eanxiety,esurprise,elove,ejoy,eexpect)  (2)
其中,公式(2)中的向量元素依次表示指定话题微博在憎恨、生气、悲伤、焦虑、惊讶、喜爱、高兴、期望8种情感下的情感强度值;
(5.2)、采用三维堆积柱状图表示指定话题微博每天的情感强度值,分别使用RGB色#EE9572、#9AC0CD、#CD8162、#5CACEE、#5D478B、#6E8B3D、#8B2500、#3A5FCD表示憎恨、生气、悲伤、焦虑、惊讶、喜爱、高兴、期望8种情感,以情感强度为横轴,以时间线及地区为纵轴,做出指定话题微博地区情感分布图,并以情感强度为横轴,以时间线为纵轴,做出指定话题微博全国情感分布图。
本发明基于统计获得的关键词词频数据及情感计算获得的8维情感结果,根据相关策略做出微博热点事件全国关注趋势图、微博热点事件情感全国分布图及微博热点事件地区分布图,可直观形象的展示微博文本情感。
附图说明
图1为本发明中指定话题指定时间段内全国关注度趋势图。
图2为本发明中指定话题地区关注度趋势对比图。
图3为本发明中指定话题微博地区情感分布图。
图4为本发明中指定话题微博全国情感分布图。
具体实施方式
一种微博情感可视化方法,包括以下步骤:
(1)、扩充指定话题关键词集合:
由于微博内容上的口语化,获取到的指定话题微博数据中,指定话题原有的种子关键词并不是规范化表述,此时需要将指定话题原有的的种子关键词口语话、俚语化,扩充步骤如下:
(1.1)、将指定话题微博文本分词,统计词频,并确定指定话题原有的种子关键词;
(1.2)、按词频排序,取前20个词作为候选指定话题种子关键词;
(1.3)、根据公式(1)计算20个候选指定话题种子关键词与指定话题原有的种子关键词的相似度:
d = Σ j = 1 n log p ( word _ seed j , word i ) p ( word _ seed j ) p ( word i ) - - - ( 1 )
其中,word_seedj表示指定话题原有的种子关键词,wordi表示候选指定话题种子关键词,p(word_seedj,wordi)表示指定话题原有的种子关键词与候选指定话题种子关键词在微博文本中同时出现的概率,p(word_seedj)表示指定话题原有的种子关键词在微博文本中出现的概率,p(wordi)表示候选指定话题种子关键词在微博文本中出现的概率,d表示候选指定话题种子关键词与指定话题原有的种子关键词的相似性;
(1.4)、根据步骤(1.3)的计算结果,取相似度排名前10个的候选指定话题种子关键词作为扩充的种子关键词,扩充的种子关键词与指定话题原有的种子关键词一起作为话题关键词集合,记为K;
(2)、分离指定话题微博数据:将指定话题微博数据按照微博所属城市拆分为地区微博数据,记为Dcity;根据微博发布时间,以天为单位,将指定话题微博数据拆分为时间微博数据,记为Dtime
(3)、将步骤(2)获取的地区微博数据按照时间以天为单位拆分为地区时分微博数据,记为Dcity time
(4)、统计指定话题微博数据分离后的时间微博数据Dtime中的种子关键词的频率,按天计算所有种子关键词的频率和即为指定话题微博数据中该话题当天的关注度,根据统计数据,采用折线图,不同话题选择不同的颜色区分,以关键词频率为纵轴,以时间为横轴,即可得到以天为单位的指定话题指定时间段内全国关注度趋势图,如图1所示;统计地区时分微博数据Dcity time中的种子关键词的频率,按照上述方法,以关键词频率为纵轴,以时间及城市为横轴,即可得到指定话题地区关注度趋势对比图,如图2所示,当前话题地区关注度趋势对比图中采用簇状柱状图表示对比信息;
(5)、作指定话题全国情感分布图及地区分布图,过程如下:
(5.1)、计算指定话题微博数据的时间微博数据Dtime及地区时分微博数据Dcity time;获得指定话题每天的8维微博情感结果,如公式(2)所示:
E=(ehate,eanger,esorrow,eanxiety,esurprise,elove,ejoy,eexpect)  (2)
其中,公式(2)中的向量元素依次表示指定话题微博在憎恨、生气、悲伤、焦虑、惊讶、喜爱、高兴、期望8种情感下的情感强度值;
(5.2)、采用三维堆积柱状图表示指定话题微博每天的情感强度值,分别使用RGB色#EE9572、#9AC0CD、#CD8162、#5CACEE、#5D478B、#6E8B3D、#8B2500、#3A5FCD表示憎恨、生气、悲伤、焦虑、惊讶、喜爱、高兴、期望8种情感,以情感强度为横轴,以时间线及地区为纵轴,做出指定话题微博地区情感分布图,如图3所示,并以情感强度为横轴,以时间线为纵轴,做出指定话题微博全国情感分布图,如图4所示。

Claims (1)

1.一种微博情感可视化方法,其特征在于:包括以下步骤:
(1)、扩充指定话题关键词集合:
由于微博内容上的口语化,获取到的指定话题微博数据中,指定话题原有的种子关键词并不是规范化表述,此时需要将指定话题原有的的种子关键词口语话、俚语化,扩充步骤如下:
(1.1)、将指定话题微博文本分词,统计词频,并确定指定话题原有的种子关键词;
(1.2)、按词频排序,取前20个词作为候选指定话题种子关键词;
(1.3)、根据公式(1)计算20个候选指定话题种子关键词与指定话题原有的种子关键词的相似度:
d = Σ j = 1 n log p ( word _ seed j , word i ) p ( word _ seed j ) p ( word i ) - - - ( 1 )
其中,word_seedj表示指定话题原有的种子关键词,wordi表示候选指定话题种子关键词,p(word_seedj,wordi)表示指定话题原有的种子关键词与候选指定话题种子关键词在微博文本中同时出现的概率,p(word_seedj)表示指定话题原有的种子关键词在微博文本中出现的概率,p(wordi)表示候选指定话题种子关键词在微博文本中出现的概率,d表示候选指定话题种子关键词与指定话题原有的种子关键词的相似性;
(1.4)、根据步骤(1.3)的计算结果,取相似度排名前10个的候选指定话题种子关键词作为扩充的种子关键词,扩充的种子关键词与指定话题原有的种子关键词一起作为话题关键词集合,记为K;
(2)、分离指定话题微博数据:将指定话题微博数据按照微博所属城市拆分为地区微博数据,记为Dcity;根据微博发布时间,以天为单位,将指定话题微博数据拆分为时间微博数据,记为Dtime
(3)、将步骤(2)获取的地区微博数据按照时间以天为单位拆分为地区时分微博数据,记为Dcity time
(4)、统计指定话题微博数据分离后的时间微博数据Dtime中的种子关键词的频率,按天计算所有种子关键词的频率和即为指定话题微博数据中该话题当天的关注度,根据统计数据,采用折线图,不同话题选择不同的颜色区分,以关键词频率为纵轴,以时间为横轴,即可得到以天为单位的指定话题指定时间段内全国关注度趋势图;统计地区时分微博数据Dcity time中的种子关键词的频率,按照上述方法,以关键词频率为纵轴,以时间及城市为横轴,即可得到指定话题地区关注度趋势对比图,当前话题地区关注度趋势对比图中采用簇状柱状图表示对比信息;
(5)、作指定话题全国情感分布图及地区分布图,过程如下:
(5.1)、计算指定话题微博数据的时间微博数据Dtime及地区时分微博数据Dcity time;获得指定话题每天的8维微博情感结果,如公式(2)所示:
E=(ehate,eanger,esorrow,eanxiety,esurprise,elove,ejoy,eexpect)  (2)
其中,公式(2)中的向量元素依次表示指定话题微博在憎恨、生气、悲伤、焦虑、惊讶、喜爱、高兴、期望8种情感下的情感强度值;
(5.2)、采用三维堆积柱状图表示指定话题微博每天的情感强度值,分别使用RGB色#EE9572、#9AC0CD、#CD8162、#5CACEE、#5D478B、#6E8B3D、#8B2500、#3A5FCD表示憎恨、生气、悲伤、焦虑、惊讶、喜爱、高兴、期望8种情感,以情感强度为横轴,以时间线及地区为纵轴,做出指定话题微博地区情感分布图,并以情感强度为横轴,以时间线为纵轴,做出指定话题微博全国情感分布图。
CN201410254028.8A 2014-06-09 2014-06-09 一种微博情感可视化方法 Pending CN104239383A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410254028.8A CN104239383A (zh) 2014-06-09 2014-06-09 一种微博情感可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410254028.8A CN104239383A (zh) 2014-06-09 2014-06-09 一种微博情感可视化方法

Publications (1)

Publication Number Publication Date
CN104239383A true CN104239383A (zh) 2014-12-24

Family

ID=52227457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410254028.8A Pending CN104239383A (zh) 2014-06-09 2014-06-09 一种微博情感可视化方法

Country Status (1)

Country Link
CN (1) CN104239383A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677920A (zh) * 2016-03-04 2016-06-15 百度在线网络技术(北京)有限公司 基于人工智能的自媒体质量指标反馈方法和装置
CN105989176A (zh) * 2015-03-05 2016-10-05 北大方正集团有限公司 数据处理方法及装置
CN107704621A (zh) * 2017-10-27 2018-02-16 西南财经大学 一种互联网舆情地图可视化展示方法
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN109783815A (zh) * 2018-12-28 2019-05-21 华南理工大学 一种多维度网络舆情大数据对比分析方法
CN109783800A (zh) * 2018-12-13 2019-05-21 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN111832573A (zh) * 2020-06-12 2020-10-27 桂林电子科技大学 一种基于类激活映射和视觉显著性的图像情感分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及***
US20140095148A1 (en) * 2012-10-03 2014-04-03 Kanjoya, Inc. Emotion identification system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
US20140095148A1 (en) * 2012-10-03 2014-04-03 Kanjoya, Inc. Emotion identification system and method
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及***
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NING LIU 等: ""Microblogging Hot Events Emotion Analysis Based on Ren-CECps"", 《PROCEEDINGS OF THE 2013 IEEE/SICE INTERNATIONAL SYMPOSIUM ON SYSTEM INTEGRATION》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989176A (zh) * 2015-03-05 2016-10-05 北大方正集团有限公司 数据处理方法及装置
CN105677920A (zh) * 2016-03-04 2016-06-15 百度在线网络技术(北京)有限公司 基于人工智能的自媒体质量指标反馈方法和装置
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN107704621A (zh) * 2017-10-27 2018-02-16 西南财经大学 一种互联网舆情地图可视化展示方法
CN109783800A (zh) * 2018-12-13 2019-05-21 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN109783800B (zh) * 2018-12-13 2024-04-12 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN109783815A (zh) * 2018-12-28 2019-05-21 华南理工大学 一种多维度网络舆情大数据对比分析方法
CN111832573A (zh) * 2020-06-12 2020-10-27 桂林电子科技大学 一种基于类激活映射和视觉显著性的图像情感分类方法

Similar Documents

Publication Publication Date Title
CN104239383A (zh) 一种微博情感可视化方法
Brambilla et al. Illustrative flow visualization: State of the art, trends and challenges
Pourmohamadi et al. LINKOgrapher: An analysis tool to study design protocols based on FBS coding scheme
CN107291696A (zh) 一种基于深度学习的评论词情感分析方法及***
CN103605658B (zh) 一种基于文本情感分析的搜索引擎***
US20200265193A1 (en) Content editing using AI-based content modeling
CN106095749A (zh) 一种基于深度学习的文本关键词提取方法
CN105930362B (zh) 搜索目标识别方法、装置及终端
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN104239554A (zh) 跨领域跨类别的新闻评论情绪预测方法
CN105426381A (zh) 一种基于微博情绪上下文的音乐推荐方法
CN103678304A (zh) 为预定网页推送特定内容的方法、装置
CN104573070B (zh) 一种针对混合长度文本集的文本聚类方法
CN112100353B (zh) 人机对话方法及***、计算机设备及介质
CN104517106A (zh) 一种列表识别方法与***
CN105631932A (zh) 一种轮廓线指导的三维模型重构造方法
CN103729456A (zh) 一种基于微博群环境的微博多模态情感分析方法
CN102609500A (zh) 一种问题推送方法和采用该方法的问答***和搜索引擎
CN104462408A (zh) 一种基于主题建模的多粒度情感分析方法
Wu et al. Human–machine hybrid intelligence for the generation of car frontal forms
Li et al. Compositional Zero-Shot Artistic Font Synthesis.
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN114398909A (zh) 用于对话训练的问题生成方法、装置、设备和存储介质
CN104063359A (zh) 个性化汉字字库的实现方法
CN103150329A (zh) 双语文本的词语对齐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141224

RJ01 Rejection of invention patent application after publication