CN112417892A

CN112417892A - 一种语义情感识别方法

Info

Publication number: CN112417892A
Application number: CN202011421315.5A
Authority: CN
Inventors: 张荣显; 朱振; 侯鹏
Original assignee: Zhuhai Hengqin Boyi Data Technology Co ltd
Current assignee: Zhuhai Hengqin Boyi Data Technology Co ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-02-26

Abstract

本发明公开了一种语义情感识别方法，能够提高基于情感词典的情感分类的准确性，减少误判数量，解决情感词典领域局限性，提高情感词汇的覆盖率和单一依靠情感词汇判断情感倾向效果不佳的问题。

Description

一种语义情感识别方法

技术领域

本发明涉及情感识别技术领域，特别涉及一种语义情感识别方法。

背景技术

目前，情感分析(或情绪分析)方法主要有2种，基于情感词典的分析方法与基于机器学习(或深度学习)的分析方法；这两种方法各有利弊，其中基于情感词典的分析方法技术较为基础，由于更新调整更为灵活、便捷，也很常用，其弊端有以下几点：

1、情感词典通常带有领域性，词典的覆盖率在一定程度上决定了情感分类的效果。若规模较小会遗漏很多情感词，若范围太大区分性不强，都会造成分析结果的错误。

2、目前还没有一部通用且完整的情感词典。比较成熟的开源词典有知网HowNet中英文词典、台湾大学的NTUSD(中文情感极性词典)、LIWC、大连理工大学的中文情感词汇本体库、清华大学李军中文褒贬义词典等，他们的词典标注方式各不相同，使用起来较为麻烦。

情感倾向不仅与情感词有关，还与情感词的表达方式或句法规则等有重要关系，仅仅依靠情感词典并不能很好地完成情感分类。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种语义情感识别方法，提高基于情感词典的情感分类的准确性，减少误判数量；解决单一依靠情感词汇判断情感倾向效果不佳的问题。

本发明的一种实施例解决其技术问题所采用的技术方案是：一种语义情感识别方法，包括如下步骤：

步骤S1、创建情绪词典、程度副词词典和否定词词典；

步骤S2、将待分类文本按句切分成若干个子句，再将子句按语义切分成若干个词；

步骤S3、通过比对情绪词典、程度副词词典和否定词词典来找到各子句匹配的词汇，并获取词典标记好的强度分数或等级分数；

步骤S4、当前情绪词的基础强度分数记为Si，该情绪词所在位置的前面n个位置内出现否定词，正面词情感极性强度左移L个单位，Si＝∑(Si-L)，负面词的情感极性强度右移R个单位，Si＝∑(Si+R)；该情感词所在位置的前面n个位置内出现程度副词，该副词强度分数记为Wi，依据程度副词的程度大小，该处情感极性强度分数乘以对应词典标示的系数，Si＝∑(Wi×Si)，将整句的情感强度分数汇总得到总分WS，WS＝∑Si，WS表示该子句的全部情绪词、程度副词、否定词遍历计算后得到的情感总分数；

步骤S5、汇总各个子句的分析结果，包括正面子句总句数Pos、中立子句总句数Mid、负面子句总句数Neg、总句数N＝Pos+Mid+Neg、正面子句总分数PWS、负面子句总分数NWS、总分数TWS＝PWS+NWS，字符总数Char。

所述一种语义情绪识别方法还包括步骤S6：

调整TWS中NWS的权重系数，所述NWS的权重系数设置为α，则TWS＝PWS+α×NWS，其中α值设置为1.5。

所述一种语义情绪识别方法还包括步骤S7：

利用评估函数Score＝(TWS/N+σ×TWS/Char)/2计算得到全文情绪评估分数Score，将评估分数Score代入判别函数Fun＝Score/(Score×Score+β)1/2计算得到最终的整体情感分类，若Fun>＝0.5，则最终待分析文本判为正面；若Fun<＝-0.5，则最终待分析文本判为负面；若-0.5<Fun<0.5，则最终待分析文本判为中立。

优选的，所述系数σ的值设置为30。

优选的，所述系数β的值设置为7。

在步骤S4中：

若是长文，则对首尾指定数量的子句的情绪总成予以重视，优先加权乘以对应加权系数θ，则该子句调整后的情感总分WS＝WS×θ；若该子句总分数WS>0，则子句情感倾向判为正面；若该子句总分数WS<0，则子句情感倾向判为负面；若该子句总分数WS＝0，则子句情感倾向判为中立。

优选的，所述长文的子句数量不少于10句。

优选的，对首尾各2句子句优先加权。

优选的，所述加权系数θ的值设置为1.5。

本发明的有益效果：通过本发明所公开的一种语义情感识别方法，能够提高基于情感词典的情感分类的准确性，减少误判数量，解决情感词典领域局限性，提高情感词汇的覆盖率和单一依靠情感词汇判断情感倾向效果不佳的问题。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为情绪词典的部分词语及对应的强度分数表；

图2为程度副词词典的部分词语及对应的强度分数表；

图3为否定词典的部分词语表。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

在本发明的描述中，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

本发明中，除非另有明确的限定，“设置”、“安装”、“连接”等词语应做广义理解，例如，可以是直接相连，也可以通过中间媒介间接相连；可以是固定连接，也可以是可拆卸连接，还可以是一体成型；可以是机械连接；可以是两个元件内部的连通或两个元件的相互作用关系。所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

参照图1至图3，一种语义情感识别方法，包括如下步骤：

步骤S1、创建情绪词典、程度副词词典和否定词词典；

步骤S4、当前情绪词的基础强度分数记为Si，该情绪词所在位置的前面1个或2个位置出现否定词，正面词情感极性强度左移8个单位，Si＝∑(Si-8)，负面词的情感极性强度右移8个单位，Si＝∑(Si+8)；该情感词所在位置的前面1个或2个位置出现程度副词，该副词强度分数记为Wi，依据程度副词的程度大小，该处情感极性强度分数乘以对应词典标示的系数，Si＝∑(Wi×Si)，将整句的情感强度分数汇总得到总分WS，WS＝∑Si，WS表示该子句的全部情绪词、程度副词、否定词遍历计算后得到的情感总分数；

步骤S5、汇总各个子句的分析结果，包括正面子句总句数Pos、中立子句总句数Mid、负面子句总句数Neg、总句数N＝Pos+Mid+Neg、正面子句总分数PWS、负面子句总分数NWS、总分数TWS＝PWS+NWS。

在本发明中，整合了目前较为流行且成熟的开源词典资源，能够方便使用，用于使用算法模型进行实时机器编码，实现自动化情感分类，能够快速且较为准确地识别语义情感。

所述一种语义情绪识别方法还包括步骤S6：

调整TWS中NWS的权重系数，所述NWS的权重系数设置为1.5，则TWS＝PWS+1.5×NWS；这是因为同等情况下，往往负面语义比正面语义给人的冲击更为深刻，因此对NWS的权重系数进行调整。

所述一种语义情绪识别方法还包括步骤S7：

利用评估函数Score＝(TWS/N+30×TWS/Char)/2计算得到全文情绪评估分数Score，将评估分数Score代入判断函数Fun＝Score/(Score×Score+7)1/2计算得到最终的整体情感分类，若Fun>＝0.5，则最终待分析文本判为正面；若Fun<＝-0.5，则最终待分析文本判为负面；若-0.5<Fun<0.5，则最终待分析文本判为中立；这是考虑到情感倾向不仅与语义有直接关系，还与文字长度有关，往往文字越长，除非极性特别明显，否则更倾向于中立。

在步骤S4中：

所述长文的子句数量不少于10句；对首尾各2句子句优先加权；所述加权系数θ的值设置为1.5；非“长文”情况下，即子句的数量少于10句时不做调整，即加权系数θ＝1。

参照图1，为情绪词典，其中展示了情绪词典的部分词语及其对应的情绪强度等级和分数，采用1、3、5、7、9共5个等级来区分情绪强度，分数越高则表示情绪强度越大，反之则情绪强度越小；正、负号用来区分情绪倾向的方向，“﹢”(一般省略)表示为正面词、“-”表示为负面词，即共10种标记值。

参照图2，为程度副词词典，其中展示了情绪词典的部分词语及其对应的情绪强度等级和分数，采用1.8、1.4、1.1、0.6、0.2共5等级来区分强度，分数越高对被修饰的情感词的影响越大，反之对被修饰的情感词的影响越小。

参照图3，为否定词词典，包括但不仅限于“不”、“不会”、“没”、“非”、“无”、“未必”、“not”、“without”；否定词是表示否定含义的词语，它的出现会改变所修饰词语的情感倾向，但往往并非极性反转，比如“不是特别喜欢...”，含义上并非“讨厌”，而是仍有一定程度的“喜欢”。

当然，本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出等同变形或替换，这些等同的变形和替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种语义情感识别方法，其特征在于，包括如下步骤：

步骤S1、创建情绪词典、程度副词词典和否定词词典；

2.根据权利要求1所述的一种语义情感识别方法，其特征在于，还包括步骤S6：

调整TWS中NWS的权重系数，所述NWS的权重系数设置为α，则TWS＝PWS+α×NWS，其中α设置为1.5。

3.根据权利要求2所述的一种语义情感识别方法，其特征在于，还包括步骤S7：

利用评估函数Score＝(TWS/N+σ×TWS/Char)/2计算得到全文情绪评估分数Score，将评估分数Score代入判别函数Fun＝Score/(Score×Score+β)_1/2计算得到最终的整体情感分类，若Fun>＝0.5，则最终待分析文本判为正面；若Fun<＝-0.5，则最终待分析文本判为负面；若-0.5<Fun<0.5，则最终待分析文本判为中立。

4.根据权利要求3所述的一种语义情感识别方法，其特征在于：所述系数σ的值设置为30，β的值设置为7。

5.根据权利要求1所述的一种语义情感识别方法，其特征在于：所述强度平移单位数L、R的值都设置为8。

6.根据权利要求1所述的一种语义情感识别方法，其特征在于：所述情绪词所在位置的前面位置数n的值设置为2。

7.根据权利要求1所述的一种语义情感识别方法，其特征在于，在步骤S4中：

若是长文，则对首尾指定数量的子句的情绪总分予以重视，优先加权乘以对应加权系数θ，则该子句调整后的情感总分WS＝WS×θ；若该子句总分数WS>0，则子句情感倾向判为正面；若该子句总分数WS<0，则子句情感倾向判为负面；若该子句总分数WS＝0，则子句情感倾向判为中立。

8.根据权利要求7所述的一种语义情感识别方法，其特征在于：所述长文的子句数量不少于10句。

9.根据权利要求7所述的一种语义情感识别方法，其特征在于：对首尾各2句子句优先加权。

10.根据权利要求7所述的一种语义情感识别方法，其特征在于：所述加权系数θ的值设置为1.5。