CN112364646A

CN112364646A - 一种考虑修饰词的句子评论情感极性分析方法

Info

Publication number: CN112364646A
Application number: CN202011293192.1A
Authority: CN
Inventors: 徐勇; 李晓宇; 苏发桂; 吕锡志; 李宇琪
Original assignee: Anhui University of Finance and Economics
Current assignee: Anhui University of Finance and Economics
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-02-12

Abstract

本发明公开了一种考虑修饰词的句子评论情感极性分析方法，解决了情感极性计算不够精确的问题，本方法从情感极性方向和情感极性强度两个维度进行情感分析，首先通过情感词判断句子中用户表达的情感极性方向，然后根据依存句法理论通过计算修饰副词、否定词对情感极性的影响程度获得情感倾向的偏离程度，从而更加细腻地刻画评论文本中的用户情感。为了消除用户语言使用习惯不同带来的情感值变化幅度过大、不可比较问题，对情感短语情感极性值取值范围进行规范化处理为[‑5,5]。实验结果表明，本发明计算得到的句子情感极性值能够更加细腻地反映用户情感，取值范围更为合理。

Description

一种考虑修饰词的句子评论情感极性分析方法

技术领域

本发明涉及句子评论情感分析领域，具体涉及一种考虑修饰词的句子评论情感极性分析方法。

背景技术

随着Web2.0的兴起与普及，由Web用户主动在Web2.0平台发布的信息越来越多，这些信息统称为Web2.0下的用户生成内容(UGC,User-Generated Content)。近年来，UGC在电商、旅游等领域有广泛的应用。例如，电商平台在为消费者提供产品特征相关信息(如产品的材质，大小等)的同时，还提供了商品的评价功能，购买过该商品的消费者可以在该平台对其购物体验进行描述，这些购物体验UGC将为后来的消费者购买该商品提供非常有价值的决策参考。但是，随着消费者数量不断增加，商品评论UGC数量也急剧增多，消费者评价***的实用性却在逐步减弱，大多数的消费者不愿意为了了解商品的属性而去花大量的时间阅读成千上万的评价信息，这就造成评价信息丰富，但是潜在消费者从评价UGC中获取的有用信息却越来越少。所以，为电子商务、旅游体验等网络平台构建一个便捷、有效的UGC评价体系，帮助用户快速、精确地了解商品、服务等信息具有重要的实际意义。

情感是人们表达态度的一种直接方式，与感受、意向是协调一致的，情感的类别可简单划分为正向情感与负向情感。Minsky的《The Society of Mind》中首次提出情感识别问题。为了使情感得到准确地量化，Picard于1997年在《Affective Computing》一书中定义了“情感计算”，并提出计算机可以像人类一样理解情感，实现情感识别、情感表示、强度计算等，推动了文本分析、语音识别、人脸识别等领域的进步。

目前，用户生成内容情感分析的主要任务可以大体可划分为极性化分析计算(Emotion Analysis)与观点倾向性分析计算(Sentiment Analysis)。根据情感分析流程，又可划分为情感元素的提取、情感信息分类，以及情感的检索与归纳。

UGC情感分析的作用也是显而易见的，它可以帮助用户做出正确的购买决策、帮助平台进行舆情的监控和与预测、帮助企业口碑的保护与提升。在金融领域，评论文本的情感分析也被用来预测股票的走势。情感分析研究领域存在着一些亟待解决的问题，如情感的来源、特征标识、传播机制的影响、以及外部因素的量化问题目前的主要问题包括情感的来源与本质特征的表示问题。徐勇等选择模糊统计的方法来确定情感分析阶段的指标权重和综合评价隶属度，提出UGC模糊综合评价模型(FCE)。同样为了对产品评论提供一个全面的评价，Raghupathi等提出了一个较为准确的整体情感评级算法，从单个文本分析出发，用一个影响语言字典来评价单词树的叶子。随着个性化这一概念不断加入到用户生成内容的相关研究中，如用户画像、推荐***、网络舆情分析等。文本情感分析主流技术归纳如下：

一、基于情感词典/基于语义的方法

一个好的极性词典能够有效地改善情感分析的分类结果，是分析用户情感必不可少的工具。在英文领域，General Inquirer、SentiWordNet、Opinion Lexicon词典等都相对比较热门。General Inquirer是英文最早的一款情感词典，包含积极情感词和消极情感词两类，这些词都源于《哈弗词典》和《拉斯维尔词典》。SentiWordNet是英文语义知识库WordNet的升级版本，主要在WordNet词典的基础进一步扩充词典，词典中给出了情感词和情感词对应的情感得分，部分词的同义、反义词等信息。

由于针对中文情感分析的研究起步较晚，且中文的复杂性导致了中文词典不同于英文词典，不具备完整的语义资源。目前，董振东等人发布的HowNet情感词典应用十分广泛，该词典提供了英语和汉语的情感词两类，除此之外还提供了214个程度副词和38个主张词语。大连理工大学发布的DUTIR情感词汇本体库对一个情感词进行多角度描述，并进行词性标注，设置响应的强度值，情感词共含有中性、褒义和贬义三类，在此基础上继续细分7大类和21小类。NTUSD(National Taiwan University Sentiment Dictionary)是台湾大学公布的情感词典，该情感词典工作主要对贬义词做了很多的扩充。随着互联网的不断发展，诸如面部表情等情感数据的出现增加了英文标记语料库的数量。

由于现有中文词典的规模不足够大且词语偏正式，不适用于网络文本的分析，且随着网络用语的更新需要及时对词典进行补充，徐华林提出一种新词发现方法，根据复合新词的Max-confidence筛选出文本中出现的新词。Xu等认为一些多义情感词具有积极性、消极性和中立性，词性极性无法准确表达，从而在一定程度上降低了文本感伤分析的准确性，故构造了一个包含了基本情感词、多义情感词和多义情感词的扩展的情感词典。Wu等构建了基于社会认知的中文词汇，并提出在计算情感价值前，需要明确情感倾向和用户意见，此外还研究了基于传统机器学习技术的方法的局限性。为建立适应性情绪词汇来改善微博客中情绪的极性分类。Keshavarz等基于遗传算法对微博文本中生成情感词典，以寻找最优的情感词汇。

二、基于机器学习的方法

相对与情感词典而言，机器学习(Machine Learning，ML)的情感分析方法更加智能化，它用特定的算法分类将情感进行分类，通过将文本数字转化为模型以及数学概念与机器的自学习相结合的方法来分类文本。

在机器学习的应用方面，针对酒店行业每天产生的大量在线意见，为保持用户对在线评论的信任，Martinez-Torres等认为需要开发使用机器学习方法的自动化工具区分正负欺骗性和非欺骗性评论。Luo等通过实验证实基于支持向量机(SVM)和模糊领域本体(FDO)算法的鲁棒分类算法在预测在线评论的有用性方面优于朴素贝叶斯(MB)和SVM本体等传统分类算法。Alfrjani等提出了一种混合语义知识库机器学习方法，用于在领域特征层挖掘观点，并在多点尺度上对总体观点进行分类。该方法利用了一种新的语义知识库方法，在领域特征层次上分析一组评论，并生成一组结构化信息，将表达的观点与特定的领域特征相关联。

三、基于深度学习的方法

深度学习(Deep Learning，DL)是机器学习的一个研究分支，也是在机器学习的基础上不断进化，逐步走向人工智能领域。根据内容类别，深度学习主要包括卷积神经网络(CNN)、多层神经元的自编码神经网络，以及更加优化的深度置信网络(DBN)。

Zheng等考虑了短期和长期的上下文依赖性，提出了一种基于卷积控制块(CCB)概念的中文情感分类模型，旨在将汉语语句分为肯定句和否定句。考虑到欺骗性评论和真实性评论是由消费者在使用网上购买的商品或服务方面没有实际经验和有实际经验的作者组成的，因此二者之间应该有不同的语境信息。Zhang等提出了一种用于文本表示的深度学习方法单词向量的深度上下文表示(DC-Word)用于欺骗性评论的识别。Lee等提出了一种新的基于在线产品评价的统一产品排序方法。与现有的方法不同之处在于使用了深度学习技术来提取在学习过程中包含最多语义信息的高级潜在评论表示。

综述所述，目前针对用户生成内容的情感分析研究常常与用户主体被隔离开，每一条在线评论都离不开评论主体，因此如何将两者结合，确定UGC主体在UGC中包含的情感偏好是目前存在的难点。现有的用户生成内容情感分析都针对的某一种特定形式的UGC，如文本情感分析、语音情感分析，甚至是人脸识别中的情感分析。考虑到UGC作为信息载体具有多样性，用户表达情感的方式也多种多样，如何进行多模式的混合情感分析是重要的研究内容。

发明内容

针对现有的用户生成内容中情感极性计算不够精确的问题，本发明提供了一种考虑修饰词的句子评论情感极性分析方法。

本发明采用以下的技术方案：

一种考虑修饰词的句子评论情感极性分析方法，包括以下步骤：

步骤1：评论文本预处理：对评论文本进行分词，删除停用词、标点符号和空格符；

步骤2：对HowNet词典进行改进；

步骤3：基于改进的HowNet词典对预处理后的评论文本进行特征提取；

步骤4：识别情感短语：情感词、修饰副词和否定词构成情感短语；

步骤5：情感短语的情感极性值计算：根据改进的HowNet词典获得情感词的情感值，其中积极情感词的情感极性值为1，消极情感词的情感极性值为-1；

获得修饰副词和否定词的权值，修饰副词和否定词的权值乘以情感词的情感值得到的积为情感短语的情感极性值，当存在n个修饰副词时对情感短语情感极性值的绝对值取1/n次幂进行归范处理，且设定幂运算结果的符号与原值符号相同；

情感短语的情感极性值PS的计算公式为：

其中w_n为否定词的赋值，w_a分别为修饰副词的权重；m、n分别为否定词、修饰副词的个数；S为情感词的情感极性值，S取值为1或-1；

步骤6：句子情感极性值计算：

句子情感极性值的计算公式为：

PS_i为第i个情感短语的情感极性值，j为句子中情感短语的个数。

优选地，步骤1具体包括：预处理包括分词、删除标点符号、删除停用词、删除换行符和删除空格符，将预处理后的评论文本以列表的形式存储，列表形式中每个元素是单个的词语，以字符类型存储。

优选地，步骤2具体包括：

在HowNet词典中补充情感词、修饰副词和否定词，补充后，HowNet词典分为三大类，分别为：情感词词典、修饰副词词典和否定词词典；

情感词词典中包括积极情感词和消极情感词，积极情感词的情感极性值为1，消极情感词的情感极性值为-1；

修饰副词词典中根据词语的不同包括6个权重值，分别为：2、1.75、1.5、1.25、0.5和0.25；

否定词词典中否定词的赋值为-1。

优选地，步骤3特征提取具体包括：

a)确定积极情感词的个数；

b)确定消极情感词的个数；

c)确定否定词的个数与位置；

d)确定修饰副词的个数与位置。

优选地，句子情感极性值的取值范围为[-5,5]。

本发明具有的有益效果是：

本发明提供了一种考虑修饰词的句子评论情感极性分析方法，从情感极性方向和情感极性强度两个维度进行情感分析，首先通过情感词判断句子中用户表达的情感极性方向，然后根据依存句法理论通过计算修饰副词、否定词对情感极性的影响程度获得情感倾向的偏离程度，从而更加细腻地刻画评论文本中的用户情感。为了消除用户语言使用习惯不同带来的情感值变化幅度过大、不可比较问题，对情感短语情感极性值取值范围进行规范化处理为[-5,5]。实验结果表明，本发明计算得到的句子情感极性值能够更加细腻地反映用户情感，取值范围更为合理。

附图说明

图1为实施例1中单条UGC的预处理过程。

图2为实施例1中SP方法计算的情感极性值。

图3为实施例1中QCSP方法计算的情感极性值。

图4为实施例1中本发明的方法计算的情感极性值。

图5为50条评论UGC文本三种计算方法的情感极性值比较图。

图6为实施例2中第1条评论原始信息利用SP方法计算的情感极性值。

图7为实施例2中第1条评论原始信息利用QCSP方法计算的情感极性值。

图8为实施例2中第1条评论原始信息利用本发明的方法计算的情感极性值。

图9为1000条评论UGC文本三种计算方法的情感极性值比较图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

结合图1至图9，一种考虑修饰词的句子评论情感极性分析方法，首先通过识别情感词分析了评论文本中用户表达的情感极性倾向，然后进一步通过计算修饰副词、否定词对情感极性的影响程度获得情感倾向的偏离程度，从而得到更加细腻的情感极性值。

包括以下步骤：

步骤1：评论文本预处理：对评论文本进行分词，删除停用词、标点符号和空格符。

预处理包括分词、删除标点符号、删除停用词、删除换行符和删除空格符等，将预处理后的评论文本以列表(List)的形式存储，列表形式中每个元素是单个的词语，以字符(string)类型存储。

如图1所示，图1中展示了原始UGC的内容，经过分词后的UGC的内容，预处理阶段完成后的内容。

步骤2：对HowNet词典进行改进。

在HowNet词典中补充情感词、修饰副词和否定词，补充后，HowNet词典分为三大类，分别为：情感词词典、修饰副词词典和否定词词典。

情感词词典如表1：

表1情感词词典示例

情感词词典中包括7176个积极情感词和12062个消极情感词，积极情感词的情感极性值为1，消极情感词的情感极性值为-1。

修饰副词词典中修饰副词有219个，修饰副词词典中根据词语的不同包括6个权重值，分别为：2、1.75、1.5、1.25、0.5和0.25。如表2：

表2程度副词词典示例

否定词词典中有否定词58个，否定词的赋值为-1。如表3：

表3否定词词典示例

步骤3：基于改进的HowNet词典对预处理后的评论文本进行特征提取，包括：

a)确定积极情感词的个数；

b)确定消极情感词的个数；

c)确定否定词的个数与位置；

d)确定修饰副词的个数与位置。

步骤4：识别情感短语：情感词、修饰副词和否定词构成情感短语。

为增强基于情感词典的情感分析结果的精确性，基于词典的情感分析还必须要考虑到UGC中修饰副词、否定词与情感词之间存在的依存关系。如果没有考虑语境中存在的依存句法现象，将会造成基于情感词典的情感分析方法存在较大的误差。

为降低中文语义带来的情感计算偏差，可在情感极值计算过程引入中文依存句法分析(Dependency Parsing,DP)，即通过分析语言单位内成分之间的依存关系揭示其句法结构。句法分析的基本任务是确定句子的语法结构或句子中词汇之间的依存关系，不是一个自然语言处理任务的最终目标，但它往往是实现最终目标的关键环节。为简单起见，本发明仅考虑位于情感词前面的程度副词与情感词之间的依存关系；对于否定词仅考虑其对情感极性的影响，不考虑位置远近对情感强度的影响。

获得修饰副词和否定词的权值，修饰副词和否定词的权值乘以情感词的情感值得到的积为情感短语的情感极性值，当存在n个修饰副词时对情感短语的情感极性值的绝对值取1/n次幂进行归范处理，且设定幂运算结果的符号与原值符号相同；

正如以上所述仅考虑简单结构形式的情感短语，其结构的一般形式为：(否定词)*|(副词)*情感词，情感短语的情感极性值PS的计算公式为：

其中w_n为否定词的赋值，w_a分别为修饰副词的权重；m、n分别为否定词、修饰副词的个数；S为情感词的情感极性值，S取值为1或-1。

本发明中修饰副词的权重按其强度采用均匀设置的方法，以0.25的步长递增，取值范围为[0.25,2]。见表2。

情感短语的情感极性值计算过程中，当积极情感词的修饰副词中含有否定词时，应将该情感短语计入消极情感词集中；同理，当消极情感词的修饰副词中含有否定词时，应将该消极情感短语计入积极情感词集中。无论积极情感词、还是消极情感词，其对应的情感短语中每遇到一次否定词即变换一次该情感短语的情感极性。

步骤6：句子情感极性值计算：

句子情感极性值的计算公式为：

句子情感极性值的取值范围为[-5,5]。

由于单个修饰副词的取值范围为[0.25,2]，为消除修饰副词数量过多造成情感值数值过大的问题，情感短语的情感极性值计算时采用1/n方、求平均的计算方法来调整短语中程度副词对情感词情感极性值的影响。考虑目前电商平台较为普遍的用户评价等级采用五级评分制，本发明在计算句子UGC情感极性值时将其取值范围调整为[-5,5]。

实施例1

本实施例实验的UGC数据是利用Python爬虫程序在某电商网络平台爬取获得。UGC数据内容为用户针对消费情况所发表的评论，数据类型是包括标点、字符和空白符在内的文本数据。本实施例以单条UGC为例进行说明。

单条UGC的内容为“快递收到了，外观挺好看的，使用了一会儿，运行速度也很流畅，物流、服务也都很不错的，总体很满意。”

图1为对该单条UGC的预处理过程。

该示例，共包含4个积极情感词，分别是“好看”、“流畅”、“不错”和“满意”，每个情感词都有一个修饰副词，“好看”的修饰副词为“挺”，权重为1.25，“流畅”的修饰副词为“很”，权重为1.75，“不错”的修饰副词为“很”，权重为1.75，“满意”的修饰副词为“很”，权重为1.75。

利用本发明的考虑修饰词的句子评论情感极性分析方法，最终计算得到的句子情感极性值4.062。如图4。

下面比较未考虑修饰词的简单句子UGC情感极性计算方法SP、考虑修饰词但未对程度副词进行规范化处理的句子UGC情感极性计算方法QCSP和本发明情感极性分析方法。

SP方法是基于简单词频(TF)思想的情感倾向分析方法，仅统计句子中情感特征项在正负两类情感类别中出现的词频数，情感特征项在积极、消极情感两个类别中的哪一个类别出现频率高,就判断该句子为哪一类情感，积极、消极情感项数量和为句子的情感极性值。由于评论UGC存在大量的短文本现象，因此将每条评论UGC句子中的情感词均作为该句子的特征项。

QCSP方法将所有修饰词的权重与情感词的情感值直接相乘获得情感短语的情感极性值，再将句子中所有情感短语的极性值相加得到句子的情感极性值。

其中，SP方法计算公式为：

其中S_i为第i个情感词的情感极性值；QCSP方法计算公式为：

PS’代表的是QCSP方法计算的情感短语情感极性值。

由图2可知，SP方法下，本实施例的单条UGC中，共包含4个积极情感词，分别是“好看”、“流畅”、“不错”和“满意”。所以该示例UGC句子的情感极性值为4，即该条UGC为肯定的UGC。

由图3可知，QCSP方法下，该条UGC的积极情感得分为6.5，消极情感得分为0，最终情感极性值为6.5。

图4为利用本发明的方法计算的情感极性值为4.062。

本发明计算的情感极性值大于SP方法计算得到的结果4。原因是SP方法仅考虑了句子UGC中情感词的数量，没有考虑句子中的修饰副词、否定词对情感词表达强度的影响。

本发明计算的情感极性值4.062小于QCSP方法的情感极性值6.5，原因是QCSP方法没有考虑不同用户表达***均值并进行规范化处理，以达到调整表达习惯差异导致的修饰副词过度重复问题。由实施例1结果可知，本发明计算得到的情感极性值具有更好的参考价值。

实施例2

利用Python爬虫程序从某电商平台爬取1000条评论UGC文本，以文本文件格式存储。

一、首先针对50条评论UGC文本利用本发明的方法、QCSP方法和SP方法计算UGC情感极性值的实验结果与分析。

图5为50条评论UGC文本三种计算方法的情感极性值比较。

当评论UGC的情感极性值大于0时，即表示积极情感得分大于消极情感得分，单条评论的整体情感倾向为积极。当评论UGC的情感极性值小于0时，即表示积极情感得分小于消极情感得分，单条评论的整体情感倾向为消极。

例如，第1条评论原始信息为“总的来说还可以.几点不足：1)卫生间有臭味；2)打的不方便，要走过桥到大街上招呼3)中餐厅菜偏贵。”

如图6至图8，第1条评论在SP方法、QCSP方法、本发明的方法三种方法下计算得到的情感极性得分分别为：1、-1.5、-2.292。

同样的评论UGC在三种评价方法下得到的情感极性结果不一样，虽然三种计算方法均识别出来相同的积极、消极情感词，但是SP计算方法中只统计了积极和消极情感词的数量，没有考虑情感词前的修饰副词，从而得到代表积极情感极性的正数情感值1。

而QCSP方法与本发明的情感极性值均为代表消极情感的消极的情感极性值，这是因为计算方法考虑了修饰副词对情感词情感表达强度的影响，从而得到更加精确的情感极性值。

本发明的方法计算得到的情感极性值绝对值大于QCSP方法计算得到的情感极性值绝对值并不是因为本发明的方法判断该评论的负向情感更加强烈，而是因为本发明的方法通过规范化处理计算结果，使得所有评论UGC无论是长文本还是短文本，其情感极性值均匀分布在[-5,5]之间，降低了用户表达习惯简洁或详细对情感极性值造成的误差。

因此，本发明通过基于情感词典、考虑修饰副词的情感极值计算，不仅可以判断文本UGC的情感倾向，还可以根据数值的大小，判断不同UGC之间的情感强度。可以更好地衡量用户所发表评论UGC中包含的用户情感。

二、对1000条UGC数据进行计算情感极性值实验结果与分析。

图9为1000条评论UGC文本三种计算方法的情感极性值比较。

表4 1000条数据情感值的统计指标

	最大值	最小值	平均值	方差
					SP	28	-7	1.25	6.42
QCSP	52.5	-12	1.68	13.34
					本发明	5	-5	0.69	3.83

由图9、表4可知，SP方法、QCSP方法、本发明的方法计算方法得到的情感极性值范围分别在[-7,28]、[-12,52.5]、[-5,5]，显然SP、QCSP方法计算得到的情感极性边界值将会随着评论UGC的变化有显著的变化，从而可能会导致这两种方法得到的同一情感极性值在不同领域UGC语料中表达的情感强度是不一样的。例如对于同样的数值2，若A领域UGC语料分析中得到的情感极性值范围为[x,2]，则2表示最为强烈的肯定情感；若B领域UGC语料分析得到的情感极性值取值范围为[2,x]，则2表示最弱的肯定情感，从而导致信息表达的不确定而造成混乱。而本发明的方法计算得到的情感极性值在-5到5之间，不会出现随评论UGC长短差异出现较大幅度的波动，从而具有更好的参考价值。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种考虑修饰词的句子评论情感极性分析方法，其特征在于，包括以下步骤：

步骤2：对HowNet词典进行改进；

情感短语的情感极性值PS的计算公式为：

步骤6：句子情感极性值计算：

句子情感极性值的计算公式为：

2.根据权利要求1所述的一种考虑修饰词的句子评论情感极性分析方法，其特征在于，步骤1具体包括：预处理包括分词、删除标点符号、删除停用词、删除换行符和删除空格符，将预处理后的评论文本以列表的形式存储，列表形式中每个元素是单个的词语，以字符类型存储。

3.根据权利要求1所述的一种考虑修饰词的句子评论情感极性分析方法，其特征在于，步骤2具体包括：

否定词词典中否定词的赋值为-1。

4.根据权利要求1所述的一种考虑修饰词的句子评论情感极性分析方法，其特征在于，步骤3特征提取具体包括：

a)确定积极情感词的个数；

b)确定消极情感词的个数；

c)确定否定词的个数与位置；

d)确定修饰副词的个数与位置。

5.根据权利要求1所述的一种考虑修饰词的句子评论情感极性分析方法，其特征在于，句子情感极性值的取值范围为[-5,5]。