CN105843796A - 一种微博情感倾向分析方法及装置 - Google Patents

一种微博情感倾向分析方法及装置 Download PDF

Info

Publication number
CN105843796A
CN105843796A CN201610181735.8A CN201610181735A CN105843796A CN 105843796 A CN105843796 A CN 105843796A CN 201610181735 A CN201610181735 A CN 201610181735A CN 105843796 A CN105843796 A CN 105843796A
Authority
CN
China
Prior art keywords
sentence
emotion value
emotion
word
subordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610181735.8A
Other languages
English (en)
Inventor
姚海鹏
方超
赵天奇
张俊东
张培颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201610181735.8A priority Critical patent/CN105843796A/zh
Publication of CN105843796A publication Critical patent/CN105843796A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种微博情感倾向分析方法及装置,应用于电子设备,本发明实施例能够同时根据微博内容中包括的表情的情感值以及文本的情感值来确定微博内容的情感值,并且,在确定文本的情感值时,同时考虑了文本中各复句的句型,以及各复句中包括的各分句的句间关系,与现有技术相比,使用了更多的影响微博情感倾向的因素来确定微博的情感倾向,因此,能够提高微博情感倾向分析的准确性。

Description

一种微博情感倾向分析方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种微博情感倾向分析方法及装置。
背景技术
随着互联网的发展,人们越来越习惯于在网络上表达自己的观点。例如,可以通过微博来表达自己的观点。
微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台。用户开通微博服务后,可以发表、转发及评论消息,来标记生活、分享新鲜事、表达观点等。微博一问世就凭借其开放性、平等性、易用性迅速吸引了大众的目光。微博的数量大,更新快,其中很多表达了用户对某些事件的观点和态度,分析微博内容的情感倾向性具有重要的现实意义。例如,网民针对某些热点事件的看法,对于政府了解当前的舆情信息、判断当前的舆论形势及决策是非常有价值的;而针对商品、用户的评论,则对商家调整市场策略和买家选择商品都有一定的帮助。
现有技术中,主要可以基于语义规则来进行微博情感倾向分析。所谓基于语义规则,就是通过统计微博文本中情感词的情感值并适当考虑与之搭配的程度副词和否定副词,通过求平均或者其它运算方式给出语句和文本的情感值。但是,在实际应用中,由于对微博内容的情感倾向影响因素众多,仅仅根据情感词以及与之搭配的程度副词和否定副词不能准确地分析微博内容的情感倾向。
发明内容
本发明实施例的目的在于提供一种微博情感倾向分析方法及装置,以提高微博情感倾向分析的精确性。具体技术方案如下:
第一方面,本发明实施例提供了一种微博情感倾向分析方法,应用于电子设备,所述方法包括:
针对待分析的微博内容,提取所述微博内容中包括的表情集合,并确定所述微博内容对应的文本;
针对所述表情集合中的每个表情,根据预先构建的表情数据库,获取每个表情对应的情感值,并根据所述每个表情对应的情感值,计算所述表情集合的情感值;
根据预设的标点符号,将所述文本划分为至少一个复句;并根据各复句的句型,确定所述各复句的句型系数;
针对每个复句,提取该复句中包括的各分句,并根据各分句与其他分句的句间关系,确定各分句的句间关系系数;
针对每个分句,对该分句进行分词处理,得到该分句中包括的各分词,并识别各分词中的情感词;根据预先构建的词库,确定各情感词的情感值;
根据所述各情感词的情感值、所述各分句的句间关系系数、以及各复句的句型系数,计算所述文本的情感值;
根据所述表情集合的情感值和所述文本的情感值,计算所述微博内容的情感值。
进一步地,所述根据所述每个表情对应的情感值,计算所述表情集合的情感值包括:
计算所有的表情对应的情感值的平均值,并将所述平均值作为所述表情集合的情感值。
进一步地,所述针对每个分句,对该分句进行分词处理,得到该分句中包括的各分词之后,所述方法还包括:
对各分词进行词性标注处理;
所述识别各分词中的情感词之后,所述方法还包括:
识别所述情感词之前的程度副词和否定副词;
所述根据预先构建的词库,确定各情感词的情感值包括:
根据预先构建的词库,以及各情感词之前的程度副词和否定副词,确定修正后的各情感词的情感值。
进一步地,所述根据所述各情感词的情感值、所述各分句的句间关系系数、以及各复句的句型系数,计算所述文本的情感值包括:
根据确定的各分句中各情感词的情感值,计算各分句中包括的各情感词的情感值之和,作为各分句的词语情感值;
根据各分句的词语情感值,以及对应各分句的句间关系系数,计算各分句的词语情感值与对应各分句的句间关系系数的乘积,作为各分句的情感值;
根据各分句的情感值,以及各复句的句型系数,计算各复句中包括的各分句的情感值之和与对应各复句的句型系数的乘积,作为各复句的情感值;
计算所述各复句的情感值之和,作为所述文本的情感值。
进一步地,所述根据所述表情集合的情感值和所述文本的情感值,计算所述微博内容的情感值包括:
将所述表情集合的情感值乘以预定的第一权值,将所述文本的情感值乘以预定的第二权值,并将所计算的结果相加,得到所述微博内容的情感值。
第二方面,本发明实施例提供了一种微博情感倾向分析装置,应用于电子设备,所述装置包括:
提取模块,用于针对待分析的微博内容,提取所述微博内容中包括的表情集合,并确定所述微博内容对应的文本;
第一计算模块,用于针对所述表情集合中的每个表情,根据预先构建的表情数据库,获取每个表情对应的情感值,并根据所述每个表情对应的情感值,计算所述表情集合的情感值;
第一确定模块,用于根据预设的标点符号,将所述文本划分为至少一个复句;并根据各复句的句型,确定所述各复句的句型系数;
第二确定模块,用于针对每个复句,提取该复句中包括的各分句,并根据各分句与其他分句的句间关系,确定各分句的句间关系系数;
第三确定模块,用于针对每个分句,对该分句进行分词处理,得到该分句中包括的各分词,并识别各分词中的情感词;根据预先构建的词库,确定各情感词的情感值;
第二计算模块,用于根据所述各情感词的情感值、所述各分句的句间关系系数、以及各复句的句型系数,计算所述文本的情感值;
第三计算模块,用于根据所述表情集合的情感值和所述文本的情感值,计算所述微博内容的情感值。
进一步地,所述第一计算模块具体用于:
计算所有的表情对应的情感值的平均值,并将所述平均值作为所述表情集合的情感值。
进一步地,所述装置还包括:
处理模块,用于对各分词进行词性标注处理;
识别模块,用于识别所述情感词之前的程度副词和否定副词;
所述第三确定模块,还用于根据预先构建的词库,以及各情感词之前的程度副词和否定副词,确定修正后的各情感词的情感值。
进一步地,所述第二计算模块包括:
第一计算子模块,用于根据确定的各分句中各情感词的情感值,计算各分句中包括的各情感词的情感值之和,作为各分句的词语情感值;
第二计算子模块,用于根据各分句的词语情感值,以及对应各分句的句间关系系数,计算各分句的词语情感值与对应各分句的句间关系系数的乘积,作为各分句的情感值;
第三计算子模块,用于根据各分句的情感值,以及各复句的句型系数,计算各复句中包括的各分句的情感值之和与对应各复句的句型系数的乘积,作为各复句的情感值;
第四计算子模块,用于计算所述各复句的情感值之和,作为所述文本的情感值。
进一步地,所述第三计算模块具体用于:
将所述表情集合的情感值乘以预定的第一权值,将所述文本的情感值乘以预定的第二权值,并将所计算的结果相加,得到所述微博内容的情感值。
本发明实施例提供了一种微博情感倾向分析方法及装置,所述方法包括:针对待分析的微博内容,提取所述微博内容中包括的表情集合,并确定所述微博内容对应的文本;针对所述表情集合中的每个表情,根据预先构建的表情数据库,获取每个表情对应的情感值,并根据所述每个表情对应的情感值,计算所述表情集合的情感值;根据预设的标点符号,将所述文本划分为至少一个复句;并根据各复句的句型,确定所述各复句的句型系数;针对每个复句,提取该复句中包括的各分句,并根据各分句与其他分句的句间关系,确定各分句的句间关系系数;针对每个分句,对该分句进行分词处理,得到该分句中包括的各分词,并识别各分词中的情感词;根据预先构建的词库,确定各情感词的情感值;根据所述各情感词的情感值、所述各分句的句间关系系数、以及各复句的句型系数,计算所述文本的情感值;根据所述表情集合的情感值和所述文本的情感值,计算所述微博内容的情感值。本发明实施例能够同时根据微博内容中包括的表情的情感值以及文本的情感值来确定微博内容的情感值,并且,在确定文本的情感值时,同时考虑了文本中各复句的句型,以及各复句中包括的各分句的句间关系,与现有技术相比,使用了更多的影响微博情感倾向的因素来确定微博的情感倾向,因此,能够提高微博情感倾向分析的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种微博情感倾向分析方法的流程图;
图2为常用的图片形式的微博表情示意图;
图3为本发明实施例提供的一种微博情感倾向分析装置的结构示意图。
具体实施方式
为了提高微博情感倾向分析的精确性,本发明实施例提供了一种微博情感倾向分析方法及装置。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了提高微博情感倾向分析的精确性,本发明实施例提供了一种微博情感倾向分析方法过程,如图1所示,该过程包括以下步骤:
S101,针对待分析的微博内容,提取所述微博内容中包括的表情集合,并确定所述微博内容对应的文本。
本发明实施例提供的方法可以应用于电子设备。具体地,该电子设备例如可以是:笔记本电脑、智能终端、台式计算机、便携式计算机等等。
在本发明实施例中,电子设备可以首先获取待分析的微博内容。例如,电子设备可以在网络上通过爬虫爬取得到待分析的整条微博内容,如,可以通过爬虫爬取得到新浪微博中的任一条微博内容,并将该微博内容作为待分析的微博内容;或者,为了提高微博情感倾向分析的效率,电子设备也可以预先在网络上通过爬虫爬取得到至少一条微博内容,并将获取到的微博内容保存在数据库中,在进行微博情感倾向分析时,直接从数据库中获取待分析的微博内容。通过爬虫爬取得到微博内容的过程可以采用现有技术,本发明实施例对此过程不进行赘述。
可以理解,有些情况下,用户在发表微博内容时,微博内容中除了可以包括文本之外,还可以包括一些表情,该表情可以是字符形式,也可以是图片形式。并且,通常情况下,微博内容中的表情能够很好地表达用户的情感,标识微博内容的情感倾向。
如图2所示,其示出了常用的图片形式的微博表情示意图,其中,表情210为“微笑”,表情220为“酷”。
因此,在本发明实施例中,为了提高微博情感倾向分析的准确性,电子设备可以同时根据微博内容的表情和文本来分析微博内容的情感倾向。
具体地,电子设备在获取到待分析的微博内容后,可以首先针对待分析的微博内容,提取该微博内容中包括的表情,获取包含各表情的表情集合,并确定该微博内容对应的文本。例如,电子设备可以首先提取微博内容中包括的每个表情,将包含所提取的包含每个表情的集合作为表情集合,并将除表情集合之外的内容确定为该微博内容对应的文本。
例如,当电子设备直接在网络上通过爬虫爬取得到待分析的整条微博内容时,该微博内容中包括的表情可以是图片格式。这种情况下,电子设备可以识别待分析的微博内容中包括的图片,并将识别到的图片确定为该待分析的微博内容中包括的表情集合。当电子设备从数据库中获取待分析的微博内容时,数据库中保存的微博内容中的表情通常会以表情文字的形式显示,并且,该表情文字可以以预定的格式显示。如图2中表情210在数据库中可以显示为【微笑】、表情220在数据库中可以显示为【酷】。这种情况下,电子设备可以提取符号“【】”内包括的表情文字,并将提取的表情文字确定为待分析微博内容中包括的表情集合。
S102,针对所述表情集合中的每个表情,根据预先构建的表情数据库,获取每个表情对应的情感值,并根据所述每个表情对应的情感值,计算所述表情集合的情感值。
提取得到待分析微博内容中包括的表情集合后,电子设备可以针对所提取的表情集合中的每个表情,根据预先构建的表情数据库,获取每个表情对应的情感值,并根据每个表情对应的情感值,计算表情集合的情感值。
例如,在本发明实施例中,当电子设备获取到的是以图片格式显示的表情时,在获得各表情对应的情感值之前,可以首先将各表情转换为其对应的表情文字,进而可以根据表情数据库,查找各表情文字对应的情感值。
在本发明实施例中,可以预先构建表情数据库,在该表情数据库中包括有每个表情文字及其对应的情感值。
例如,本发明实施例中构建的表情数据库可以如下表所示:
如上述表格所示,表情文字“微笑”对应的情感值可以为1.0;,表情文字“怒骂”对应的情感值可以为-0.9;表情文字“伤心”对应的情感值可以为-1。其中,表情文字的情感值的正负用来标识该表情文字的情感倾向,当情感值为正值时,表明该表情文字的情感倾向为正向;当情感值为负值时,表明该表情文字的情感倾向为负向;当情感值为0时,表明该表情文字的情感倾向为中性。各情感值的数值越大,表明该表情文字的情感倾向越强烈。在本发明实施例中,可以将各表情对应的情感值设置在-1到1之间。
电子设备在计算待分析微博内容中包括的表情集合的情感值时,可以在表情数据库中查找表情集合中包括的每个表情对应的情感值。
需要说明的是,在本发明实施例中,当电子设备获取到的是以图片格式显示的表情时,在获得各表情对应的情感值之前,可以首先将各表情转换为其对应的表情文字,进而可以根据如上述所示的表情数据库,查找各表情文字对应的情感值。
获取到表情集合中包括的每个表情对应的情感值后,电子设备可以进一步地根据每个表情对应的情感值,计算表情集合的情感值。
例如,在一种实现方式中,电子设备可以计算所有的表情对应的情感值的平均值,并将计算得到的平均值作为表情集合的情感值。
S103,根据预设的标点符号,将所述文本划分为至少一个复句;并根据各复句的句型,确定所述各复句的句型系数。
在本发明实施例中,电子设备还可以根据文本的情感值来确定微博内容的情感值。
具体地,电子设备可以首先根据预设的标点符号,如句号、问号、感叹号等,将文本划分为至少一个复句。并且,可以根据各复句的句型,确定各复句的句型系数。将文本划分为至少一个复句的过程可以采用现有技术,本发明实施例对此过程不进行赘述。
得到各复句后,电子设备可以根据各复句的句型,确定各复句的句型系数。本发明实施例中的复句句型可以包括陈述句、感叹句、疑问句以及反问句等。具体地,电子设备可以根据各复句中包括的标点符号,以及预定的关键字等,确定各复句的句型。
例如,当复句中包括的标点符号为句号时,电子设备可以确定该复句的句型为陈述句;当复句中包括的标点符号为感叹号时,电子设备可以确定该复句的句型为感叹句;当复句中包括的标点符号为问号,且不包含如“不”、“不是”等反问词时,电子设备可以确定该复句的句型为疑问句;当复句中包括的标点符号为问号,且包含如“不”、“不是”等反问词时,电子设备可以确定该复句的句型为反问句。
并且,在本发明实施例中,当复句为陈述句时,其句型系数可以为1;当复句为感叹句时,其句型系数可以为2;当复句为疑问句时,其句型系数可以为0;当复句为反问句时,其句型系数可以为-1.5。
S104,针对每个复句,提取该复句中包括的各分句,并根据各分句与其他分句的句间关系,确定各分句的句间关系系数。
电子设备确定各复句的句型及对应的句型系数后,针对每个复句,还可以提取该复句中包括的各分句,并可以根据各分句与其他分句的句间关系,确定各分句的句间关系系数。电子设备提取各复句中包括的各分句的过程,可以采用现有技术,如,电子设备可以根据各复句中包括的逗号,提取各复句中包括的各分句,本发明实施例对此过程不进行赘述。
得到各复句中包括的各分句后,电子设备还可以针对每个复句,根据该复句中包括的各分句与其他分句的句间关系,确定各分句的句间关系系数。
可以理解,在一个复句中包括的各分句之间,可以存在一些连接关系,如转折、递进、假设等。而存在不同连接关系的各分句,其表达的情感倾向也可能不同。
因此,在本发明实施例中,电子设备可以针对每个复句,根据该复句中包括的各分句与其他分句的句间关系,确定各分句的句间关系系数。
具体地,电子设备可以针对每个复句,识别该复句中包含的各分句中是否包含预定的关键词,来确定各分句与其他分句的句间关系。
例如,当分句中包含如“但是”、“但”、“却”、“可是”等表示转折的关系词时,可以确定该分句与其前面的分句的句间关系为转折关系。
可以理解,在存在转折关系的分句中,通常前面分句提出某种事实或情况,后面分句转而述说与前面分句相反或相对的意思,即后面分句才是说话人所要表达的真正意图。因此,在本发明实施例中,当几个分句间的句间关系为转折时,各分句的句间关系系数可以为:转折词前面的分句为0,转折词后面的分句为1。
当分句中包含如“更加”、“更有甚者”等表示递进的关系词时,可以确定该分句与其前面的分句的句间关系为递进关系。当几个分句间的句间关系为递进时,各分句的句间关系系数可以为:递进词前面的分句为1,递进词后面的分句为1.5。
S105,针对每个分句,对该分句进行分词处理,得到该分句中包括的各分词,并识别各分词中的情感词;根据预先构建的词库,确定各情感词的情感值。
得到各分句的句间关系系数后,进一步地,电子设备还可以针对每个分句,对该分句进行分词处理,得到该分句中包括的各分词,并识别各分词中的情感词,然后可以根据预先构建的词库,确定各情感词的情感值。
在本发明实施例中,电子设备针对每个分句,对该分句进行分词,得到该分句中包括的各分词,并识别各分词中的情感词,然后可以根据预先构建的词库,确定各情感词的情感值的过程可以采用现有技术,本发明实施例对此过程不进行赘述。
可选地,在本发明实施例中,为了提高各情感词的情感值确定的准确性,电子设备针对每个分句,对该分句进行分词处理,得到该分句中包括的各分词之后,还可以对各分词进行词性标注处理;进一步地,电子设备还可以在识别各分词中包括的情感词之后,还可以识别各情感词之前的程度副词和否定副词;进一步地,电子设备在确定各情感词的情感值时,可以根据预先构建的词库,以及各情感词之前的程度副词和否定副词,确定修正后的各情感词的情感值。
在本发明实施例中,电子设备对各分句进行词性标注处理,识别各情感词之前的程度副词和否定副词,根据预先构建的词库,以及各情感词之前的程度副词和否定副词,确定修正后的各情感词的情感值的过程可以采用现有技术,本发明实施例对此过程不进行赘述。
S106,根据所述各情感词的情感值、所述各分句的句间关系系数、以及各复句的句型系数,计算所述文本的情感值。
在本发明实施例中,电子设备可以根据各情感词的情感值、各分句的句间关系系数、以及各复句的句型系数,计算文本的情感值。
具体地,电子设备可以首先根据确定的各分句中各情感词的情感值,计算各分句中包括的各情感词的情感值之和,作为各分句的词语情感值;然后,可以根据各分句的词语情感值,以及对应各分句的句间关系系数,计算各分句的词语情感值与对应各分句的句间关系系数的乘积,作为各分句的情感值;之后,可以根据各分句的情感值,以及各复句的句型系数,计算各复句中包括的各分句的情感值之和与对应各复句的句型系数的乘积,作为各复句的情感值;最后,可以计算各复句的情感值之和,作为文本的情感值。
例如,电子设备可以首先根据以下公式,计算分句i的情感值E(si):
E(si)=∑E(Wi)×ri
其中,E(Wi)为该分句i中包括的各情感词的情感值;∑E(Wi)为该分句i的词语情感值;ri为分句i的句间关系系数。
进一步地,电子设备可以根据以下公式,计算复句j的情感值E(Sj):
E ( S j ) = Σ j = 1 n E ( s j ) × T j
其中,E(sj)为复句j中包括的各分句的情感值;Tj为复句j的句型系数。
S107,根据所述表情集合的情感值和所述文本的情感值,计算所述微博内容的情感值。
得到待分析微博内容中包括的表情集合的情感值和文本的情感值后,电子设备可以根据表情集合的情感值和文本的情感值,计算待分析微博内容的情感值。
具体地,电子设备可以将表情集合的情感值乘以预定的第一权值,将文本的情感值乘以预定的第二权值,并将所计算的结果相加,得到微博内容的情感值。
例如,上述第一权值可以是0.4,第二权值可以是0.6;或者,第一权值可以是0.35,第二权值可以是0.65等。
本发明实施例提供的微博情感倾向分析方法,能够同时根据微博内容中包括的表情的情感值以及文本的情感值来确定微博内容的情感值,并且,在确定文本的情感值时,同时考虑了文本中各复句的句型,以及各复句中包括的各分句的句间关系,与现有技术相比,使用了更多的影响微博情感倾向的因素来确定微博的情感倾向,因此,能够提高微博情感倾向分析的准确性。
相应于上面的方法实施例,本发明实施例还提供了相应的装置实施例。
图3为本发明实施例提供的一种微博情感倾向分析装置,应用于电子设备,所述装置包括:
提取模块310,用于针对待分析的微博内容,提取所述微博内容中包括的表情集合,并确定所述微博内容对应的文本;
第一计算模块320,用于针对所述表情集合中的每个表情,根据预先构建的表情数据库,获取每个表情对应的情感值,并根据所述每个表情对应的情感值,计算所述表情集合的情感值;
第一确定模块330,用于根据预设的标点符号,将所述文本划分为至少一个复句;并根据各复句的句型,确定所述各复句的句型系数;
第二确定模块340,用于针对每个复句,提取该复句中包括的各分句,并根据各分句与其他分句的句间关系,确定各分句的句间关系系数;
第三确定模块350,用于针对每个分句,对该分句进行分词处理,得到该分句中包括的各分词,并识别各分词中的情感词;根据预先构建的词库,确定各情感词的情感值;
第二计算模块360,用于根据所述各情感词的情感值、所述各分句的句间关系系数、以及各复句的句型系数,计算所述文本的情感值;
第三计算模块370,用于根据所述表情集合的情感值和所述文本的情感值,计算所述微博内容的情感值。
本发明实施例提供的微博情感倾向分析装置,能够同时根据微博内容中包括的表情的情感值以及文本的情感值来确定微博内容的情感值,并且,在确定文本的情感值时,同时考虑了文本中各复句的句型,以及各复句中包括的各分句的句间关系,与现有技术相比,使用了更多的影响微博情感倾向的因素来确定微博的情感倾向,因此,能够提高微博情感倾向分析的准确性。
进一步地,所述第一计算模块320具体用于:
计算所有的表情对应的情感值的平均值,并将所述平均值作为所述表情集合的情感值。
进一步地,所述装置还包括:
处理模块(图中未示出),用于对各分词进行词性标注处理;
识别模块(图中未示出),用于识别所述情感词之前的程度副词和否定副词;
所述第三确定模块350,还用于根据预先构建的词库,以及各情感词之前的程度副词和否定副词,确定修正后的各情感词的情感值。
进一步地,所述第二计算模块360包括:
第一计算子模块(图中未示出),用于根据确定的各分句中各情感词的情感值,计算各分句中包括的各情感词的情感值之和,作为各分句的词语情感值;
第二计算子模块(图中未示出),用于根据各分句的词语情感值,以及对应各分句的句间关系系数,计算各分句的词语情感值与对应各分句的句间关系系数的乘积,作为各分句的情感值;
第三计算子模块(图中未示出),用于根据各分句的情感值,以及各复句的句型系数,计算各复句中包括的各分句的情感值之和与对应各复句的句型系数的乘积,作为各复句的情感值;
第四计算子模块(图中未示出),用于计算所述各复句的情感值之和,作为所述文本的情感值。
进一步地,所述第三计算模块370具体用于:
将所述表情集合的情感值乘以预定的第一权值,将所述文本的情感值乘以预定的第二权值,并将所计算的结果相加,得到所述微博内容的情感值。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种微博情感倾向分析方法,应用于电子设备,其特征在于,所述方法包括:
针对待分析的微博内容,提取所述微博内容中包括的表情集合,并确定所述微博内容对应的文本;
针对所述表情集合中的每个表情,根据预先构建的表情数据库,获取每个表情对应的情感值,并根据所述每个表情对应的情感值,计算所述表情集合的情感值;
根据预设的标点符号,将所述文本划分为至少一个复句;并根据各复句的句型,确定所述各复句的句型系数;
针对每个复句,提取该复句中包括的各分句,并根据各分句与其他分句的句间关系,确定各分句的句间关系系数;
针对每个分句,对该分句进行分词处理,得到该分句中包括的各分词,并识别各分词中的情感词;根据预先构建的词库,确定各情感词的情感值;
根据所述各情感词的情感值、所述各分句的句间关系系数、以及各复句的句型系数,计算所述文本的情感值;
根据所述表情集合的情感值和所述文本的情感值,计算所述微博内容的情感值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述每个表情对应的情感值,计算所述表情集合的情感值包括:
计算所有的表情对应的情感值的平均值,并将所述平均值作为所述表情集合的情感值。
3.根据权利要求1所述的方法,其特征在于,所述针对每个分句,对该分句进行分词处理,得到该分句中包括的各分词之后,所述方法还包括:
对各分词进行词性标注处理;
所述识别各分词中的情感词之后,所述方法还包括:
识别所述情感词之前的程度副词和否定副词;
所述根据预先构建的词库,确定各情感词的情感值包括:
根据预先构建的词库,以及各情感词之前的程度副词和否定副词,确定修正后的各情感词的情感值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述各情感词的情感值、所述各分句的句间关系系数、以及各复句的句型系数,计算所述文本的情感值包括:
根据确定的各分句中各情感词的情感值,计算各分句中包括的各情感词的情感值之和,作为各分句的词语情感值;
根据各分句的词语情感值,以及对应各分句的句间关系系数,计算各分句的词语情感值与对应各分句的句间关系系数的乘积,作为各分句的情感值;
根据各分句的情感值,以及各复句的句型系数,计算各复句中包括的各分句的情感值之和与对应各复句的句型系数的乘积,作为各复句的情感值;
计算所述各复句的情感值之和,作为所述文本的情感值。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述表情集合的情感值和所述文本的情感值,计算所述微博内容的情感值包括:
将所述表情集合的情感值乘以预定的第一权值,将所述文本的情感值乘以预定的第二权值,并将所计算的结果相加,得到所述微博内容的情感值。
6.一种微博情感倾向分析装置,应用于电子设备,其特征在于,所述装置包括:
提取模块,用于针对待分析的微博内容,提取所述微博内容中包括的表情集合,并确定所述微博内容对应的文本;
第一计算模块,用于针对所述表情集合中的每个表情,根据预先构建的表情数据库,获取每个表情对应的情感值,并根据所述每个表情对应的情感值,计算所述表情集合的情感值;
第一确定模块,用于根据预设的标点符号,将所述文本划分为至少一个复句;并根据各复句的句型,确定所述各复句的句型系数;
第二确定模块,用于针对每个复句,提取该复句中包括的各分句,并根据各分句与其他分句的句间关系,确定各分句的句间关系系数;
第三确定模块,用于针对每个分句,对该分句进行分词处理,得到该分句中包括的各分词,并识别各分词中的情感词;根据预先构建的词库,确定各情感词的情感值;
第二计算模块,用于根据所述各情感词的情感值、所述各分句的句间关系系数、以及各复句的句型系数,计算所述文本的情感值;
第三计算模块,用于根据所述表情集合的情感值和所述文本的情感值,计算所述微博内容的情感值。
7.根据权利要求6所述的装置,其特征在于,所述第一计算模块具体用于:
计算所有的表情对应的情感值的平均值,并将所述平均值作为所述表情集合的情感值。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
处理模块,用于对各分词进行词性标注处理;
识别模块,用于识别所述情感词之前的程度副词和否定副词;
所述第三确定模块,还用于根据预先构建的词库,以及各情感词之前的程度副词和否定副词,确定修正后的各情感词的情感值。
9.根据权利要求8所述的装置,其特征在于,所述第二计算模块包括:
第一计算子模块,用于根据确定的各分句中各情感词的情感值,计算各分句中包括的各情感词的情感值之和,作为各分句的词语情感值;
第二计算子模块,用于根据各分句的词语情感值,以及对应各分句的句间关系系数,计算各分句的词语情感值与对应各分句的句间关系系数的乘积,作为各分句的情感值;
第三计算子模块,用于根据各分句的情感值,以及各复句的句型系数,计算各复句中包括的各分句的情感值之和与对应各复句的句型系数的乘积,作为各复句的情感值;
第四计算子模块,用于计算所述各复句的情感值之和,作为所述文本的情感值。
10.根据权利要求6-9任一项所述的装置,其特征在于,所述第三计算模块具体用于:
将所述表情集合的情感值乘以预定的第一权值,将所述文本的情感值乘以预定的第二权值,并将所计算的结果相加,得到所述微博内容的情感值。
CN201610181735.8A 2016-03-28 2016-03-28 一种微博情感倾向分析方法及装置 Pending CN105843796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610181735.8A CN105843796A (zh) 2016-03-28 2016-03-28 一种微博情感倾向分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610181735.8A CN105843796A (zh) 2016-03-28 2016-03-28 一种微博情感倾向分析方法及装置

Publications (1)

Publication Number Publication Date
CN105843796A true CN105843796A (zh) 2016-08-10

Family

ID=56584525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610181735.8A Pending CN105843796A (zh) 2016-03-28 2016-03-28 一种微博情感倾向分析方法及装置

Country Status (1)

Country Link
CN (1) CN105843796A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202584A (zh) * 2016-09-20 2016-12-07 北京工业大学 一种基于标准词典和语义规则的微博情感分析方法
CN106326481A (zh) * 2016-08-31 2017-01-11 中译语通科技(北京)有限公司 一种基于突发特征的微博热点话题检测方法
CN106503220A (zh) * 2016-10-28 2017-03-15 上海大学 一种基于点互信息的微博表情符号情感计算方法
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及***
CN108153831A (zh) * 2017-12-13 2018-06-12 北京小米移动软件有限公司 音乐添加方法及装置
CN108197104A (zh) * 2017-12-27 2018-06-22 浙江力石科技股份有限公司 文本分析方法、装置及云平台
CN108228573A (zh) * 2018-03-23 2018-06-29 北京航空航天大学 文本情感分析方法、装置及电子设备
CN108647257A (zh) * 2018-04-24 2018-10-12 北京科技大学 一种微博情感确定方法
CN109145306A (zh) * 2018-09-11 2019-01-04 刘瑞军 文本驱动的三维表情生成方法
CN109471928A (zh) * 2018-10-31 2019-03-15 北京国信云服科技有限公司 一种基于扩散传播模型的关联实体情感判断方法
CN109598402A (zh) * 2018-10-23 2019-04-09 平安科技(深圳)有限公司 基于数据挖掘的数据报告生成方法、装置、计算机设备
CN113378578A (zh) * 2021-05-08 2021-09-10 重庆航天信息有限公司 食药舆情分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN103699626A (zh) * 2013-12-20 2014-04-02 华南理工大学 一种微博用户个性化情感倾向分析方法及***
CN105224640A (zh) * 2015-09-25 2016-01-06 杭州朗和科技有限公司 一种提取观点的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN103699626A (zh) * 2013-12-20 2014-04-02 华南理工大学 一种微博用户个性化情感倾向分析方法及***
CN105224640A (zh) * 2015-09-25 2016-01-06 杭州朗和科技有限公司 一种提取观点的方法和设备

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326481A (zh) * 2016-08-31 2017-01-11 中译语通科技(北京)有限公司 一种基于突发特征的微博热点话题检测方法
CN106202584A (zh) * 2016-09-20 2016-12-07 北京工业大学 一种基于标准词典和语义规则的微博情感分析方法
CN106503220A (zh) * 2016-10-28 2017-03-15 上海大学 一种基于点互信息的微博表情符号情感计算方法
CN107229612B (zh) * 2017-05-24 2021-01-08 重庆电信***集成有限公司 一种网络信息语义倾向分析方法及***
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及***
CN108153831A (zh) * 2017-12-13 2018-06-12 北京小米移动软件有限公司 音乐添加方法及装置
CN108197104A (zh) * 2017-12-27 2018-06-22 浙江力石科技股份有限公司 文本分析方法、装置及云平台
CN108228573A (zh) * 2018-03-23 2018-06-29 北京航空航天大学 文本情感分析方法、装置及电子设备
CN108647257A (zh) * 2018-04-24 2018-10-12 北京科技大学 一种微博情感确定方法
CN109145306A (zh) * 2018-09-11 2019-01-04 刘瑞军 文本驱动的三维表情生成方法
CN109598402A (zh) * 2018-10-23 2019-04-09 平安科技(深圳)有限公司 基于数据挖掘的数据报告生成方法、装置、计算机设备
CN109471928A (zh) * 2018-10-31 2019-03-15 北京国信云服科技有限公司 一种基于扩散传播模型的关联实体情感判断方法
CN109471928B (zh) * 2018-10-31 2021-09-28 北京国信云服科技有限公司 一种基于扩散传播模型的关联实体情感判断方法
CN113378578A (zh) * 2021-05-08 2021-09-10 重庆航天信息有限公司 食药舆情分析方法

Similar Documents

Publication Publication Date Title
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN102866989B (zh) 基于词语依存关系的观点抽取方法
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN105005564B (zh) 一种基于问答平台的数据处理方法和装置
CN105630768B (zh) 一种基于层叠条件随机场的产品名识别方法及装置
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
CN106951438A (zh) 一种面向开放域的事件抽取***及方法
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN102200975B (zh) 一种利用语义分析的垂直搜索引擎***
CN104881458B (zh) 一种网页主题的标注方法和装置
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及***
CN106970912A (zh) 中文语句相似度计算方法、计算装置以及计算机存储介质
CN104820686A (zh) 一种网络搜索方法及网络搜索***
CN109960756A (zh) 新闻事件信息归纳方法
CN103473380B (zh) 一种计算机文本情感分类方法
CN106126502A (zh) 一种基于支持向量机的情感分类***及方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
Nandi et al. Bangla news recommendation using doc2vec
CN109472022A (zh) 基于机器学习的新词识别方法及终端设备
CN107798622A (zh) 一种识别用户意图的方法和装置
CN106250365A (zh) 基于文本分析的消费者评论中商品属性特征词的提取方法
CN114722174A (zh) 提词方法和装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160810

RJ01 Rejection of invention patent application after publication