CN112926307A

CN112926307A - 基于依存关系的评价对象情感分析方法及存储介质

Info

Publication number: CN112926307A
Application number: CN202110297976.XA
Authority: CN
Inventors: 杨晓燕; 修锦鸿; 徐戈; 王炅
Original assignee: Minjiang University
Current assignee: Minjiang University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-06-08

Abstract

一种基于依存关系的评价对象情感分析方法及存储介质，其中方法包括如下步骤，S1、对文本进行分词处理，与情感词典进行匹配，判断其是否为情感词，提取情感词；S2、根据情感词与候选评价对象词之间的直接、间接依存关系找到评价对象；S3、抽取与情感词有直接依存关系的词与知网程度词典、知网否定词典进行匹配，判断其是否为程度副词、否定词，并分别计算情感词、程度副词、否定词分数；S4、对各评价对象进行情感倾向计算。上述方案，可用于对评价文本中的各评价对象进行情感倾向性量化。

Description

基于依存关系的评价对象情感分析方法及存储介质

技术领域

本发明涉及语义识别领域，尤其涉及基于依存关系的评价对象情感分析方法。

背景技术

在现有的语义分析技术方案中，如专利号201610537567.1的技术方案，用于基于依存关系进行评价对象的选取，以及申请号2017107837114的技术方案，用于基于依存关系进行评价对象抽取。上述对象能够对句子的语义进行分析，并提取其中的评价对象。我们的技术方案在现有技术方案的基础上上，尝试对评价对象的情感分析进行进一步的改进。

发明内容

为此，需要提供一种能够在基于依存关系的评价对象提取后建立评价体系的方法，以解决在现有技术中对评价对象情感分析的问题；

为实现上述目的，发明人提供了一种基于依存关系的评价对象情感分析方法，包括如下步骤，

S1、对文本进行分词处理，与情感词典进行匹配，判断其是否为情感词，提取情感词；

S2、根据情感词与候选评价对象词之间的直接、间接依存关系找到评价对象；

S3、抽取与情感词有直接依存关系的词与程度词典、否定词典进行匹配，判断其是否为程度副词、否定词，并分别计算情感词分数、程度副词分数、否定词分数；

S4、根据计算情感词分数、程度副词分数、否定词分数对各评价对象进行情感倾向计算。

具体地，所述步骤S2具体实现如下：

S21、定义观点评价对象词与情感词之间的直接、间接依存关系：

(1)定义观点评价对象词与情感词之间的直接依存关系，即：观点评价对象词与情感词之间存在依存关系，且在依存路径上没有依赖其他词；观点评价对象词与情感词之间的直接依存关系包括：父亲关系、儿子关系；

(2)定义观点评价对象词与情感词之间的间接依存关系，即：观点评价对象词与情感词通过其他词产生依存关系；观点评价对象词与情感词之间的间接依存关系包括：兄弟关系、夫妻关系、祖父关系、孙子关系、远亲关系；

S22、基于步骤S21定义的观点评价对象词与情感词之间的依存关系，构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板；

(1)根据观点评价对象词与情感词之间的直接依存关系，构建观点评价对象词与情感词之间的直接依存关系模板，具体表示为(dp，target，relate，opinion)，其中：dp表示观点评价对象词与情感词之间的依存关系；target指观点评价对象词；relate表示观点评价对象词与情感词之间的依存关系形式，并用-1表示观点评价对象词是情感词的父亲节点，用+1表示观点评价对象词是情感词的儿子节点；opinion指情感词；

(2)根据观点评价对象词与情感词之间的间接依存关系，构建观点评价对象词与情感词之间的间接依存关系模板，具体表示为(dp₁，target，relate₁，middle₁)+…+(dp_k-1，middle_k-1，relate_k-1，middle_k)+(dp_k，middle_k，relate_k，opinion)，其中：dp₁表示第1个观点评价对象词与第1个中间词的依存关系；relate₁表示第1个观点评价对象词与第1个中间词之间的依存关系形式，用-1或+1表示；middle_k指第k个中间词；dp_k表示第k个情感词与第k个中间词的依存关系；relate_k表示第k个情感词与第k个中间词的依存关系形式，用-1或+1表示；

S23、基于依存关系模板抽取观点评价对象；

(1)候选观点评价对象词预处理：

a、词性过滤：仅将名词或名词短语作为候选评价对象词；

b、停用词过滤：过滤停用词；

c、位置过滤：过滤不存在情感词的分句中的观点评价对象词；

(2)候选观点评价对象词分数计算：

设集合X＝{x₁,x₂,...,x_i,...,x_u}与集合Y＝{y₁,y₂,...,y_j,...,y_v}，取X×Y的一个子集R构造一个从X到Y的匹配关系，若＜x_i,y_j＞∈R，即称x_i与y_j有匹配关系，记作x_iRy_j；若

即称x_i与y_j没有匹配关系，记作

依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为W＝(w_ij),i＝{1,2,...,u},j＝{1,2,...,v}，其中：u表示依存关系模板个数；v表示候选观点评价对象词候选个数；

当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时w_ij＝w_ij+1；

而后通过公式①计算第j个候选观点评价对象词分数

若sw_j大于0.0025，则该第j个候选观点评价对象词即为观点评价对象种子词；

(3)候选依存关系模板分数计算：

观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵P＝(p_ts),t＝{1,2,...,m},s＝{1,2,...,n}表示；其中：m表示观点评价对象种子词个数；n表示候选依存关系模板个数；

当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时p_ts＝p_ts+1；

而后通过公式②算第s个候选依存关系模板分数

若sp_s大于0.05，则该第s个候选依存关系模板即为依存关系种子模板；

(4)基于依存关系的观点评价对象边界识别规则：

ATT规则：若当前词是观点评价对象词，前一个词或后一个词与该词具有定中关系ATT或数量关系QUN或“的”字结构DE关系，则前一个词或后一个词扩展为观点评价对象词；

合并规则：若当前词是观点评价对象词，该词的前一个词或后一个词是候选观点评价对象词，则前一个词或后一个词扩展为观点评价对象词；

所述步骤(3)候选依存关系模板分数计算、(4)基于依存关系的观点评价对象边界识别规则之间还包括一步骤，即：由步骤(2)、(3)得到的观点评价对象种子词、依存关系种子模板重新对步骤(1)处理的候选观点评价对象词进行训练，直至没有新的观点评价对象种子词产生。

进一步地，所述步骤S3具体实现如下：

S31、否定词的分数计算；

S32、程度副词的分数计算；

S33、情感词的分数计算；

所述步骤S31具体实现如下：

S31、否定词的分数计算；

抽取与情感词有直接依存关系的词与知网否定词典进行匹配，判断其是否为否定词。如果存在否定词，该词分数设为-1，如果不存在否定词，分数设为1。

S32、程度副词的分数计算；

(1)在知网程度词典中，程度副词分为5个等级，1级是程序最高，5级是程度最低，再补充一个没有程度副词的情况，将这6个级别归一化处理，得到每个程度级别的分数{0.325，0.225，0.18，0.135，0.09，0.045}。

(2)抽取与情感词有直接依存关系的词与知网程度词典进行匹配，判断其是否为程度词，并根据词典对应的等级设置分数；

S33、情感词的分数计算；

将积极情感词分数设置为1、消极情感词分数设置为–1。

具体地，所述步骤S4具体实现如下：

S41、对各个评价对象的情感进行分数计算；

由于一个评价对象可能有多个情感词、多个程度副词对其进行评价。因此对评价对象的每组情感词、程度词、否定词分数进行叠加计算得到该评价对象的分数。分数计算如公式③：

其中，i表示修饰评价对象的第i组词，包含情感词、程度副词、否定词，negval(i)表示第i组否定词；degree(i)表示第i组程度副词；sentiment(i)表示第i组情感词；

S42、各评价对象的情感倾向性分析

根据得到的分数值，将其转换成百分比数值从而得到该评价对象的情感倾向性，所述分数值为正数则是对该评价对象的正面评价，否则是负面评价，分数值得绝对值越高说明情感倾向程度越高。

一种基于依存关系的评价对象情感分析存储介质，存储有计算机程序，所述计算机程序在被执行时进行包括如下步骤：

具体地，所述计算机程序在被执行时进行的步骤S2具体实现如下：

S23、基于依存关系模板抽取观点评价对象；

(1)候选观点评价对象词预处理：

a、词性过滤：仅将名词或名词短语作为候选评价对象词；

b、停用词过滤：过滤停用词；

(2)候选观点评价对象词分数计算：

即称x_i与y_j没有匹配关系，记作

而后通过公式①计算第j个候选观点评价对象词分数

(3)候选依存关系模板分数计算：

而后通过公式②算第s个候选依存关系模板分数

(4)基于依存关系的观点评价对象边界识别规则：

进一步地，所述计算机程序在被执行时进行的步骤S3具体实现如下：

S31、否定词的分数计算；

S32、程度副词的分数计算；

S33、情感词的分数计算；

所述步骤S31具体实现如下：

S31、否定词的分数计算；

S32、程度副词的分数计算；

S33、情感词的分数计算；

将积极情感词分数设置为1、消极情感词分数设置为–1。

具体地，所述计算机程序在被执行时进行的步骤S4具体实现如下：

S41、对各个评价对象的情感进行分数计算；

S42、各评价对象的情感倾向性分析

通过上述方案，我们构建了一个在识别句子中的评价对象后，对该评价对象的情感倾向性的评价体系，得到的分数值为正则为正面评价，分数值为负则为负面评价，同时得分越高说明倾向性越高。解决了现有技术中无法对评价对象进行情感倾向性量化的问题。

附图说明

图1为具体实施方式所述的基于依存关系的评价对象情感分析方法流程图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，一种基于依存关系的评价对象情感分析方法，包括如下步骤，对文本进行预处理抽取情感词，再抽取与该情感词有依存关系的评价对象、程度词、否定词，并对各评价对象进行情感倾向计算。

S1、对文本进行分词处理，与情感词典进行匹配，判断其是否为情感词，提取情感词；这里的情感词典可以选用现有技术的情感词典，如知网情感词典。

S3、抽取与情感词有直接依存关系的词与知网程度词典、知网否定词典进行匹配，判断其是否为程度副词、否定词，并分别计算情感词、程度副词、否定词分数；

S4、对各评价对象进行情感倾向计算。

在进一步的实施例中，所述步骤S2具体实现如下：

(2)定义观点评价对象词与情感词之间的间接依存关系，即：观点评价对象词与情感词通过其他词产生依存关系；观点评价对象词与情感词之间的间接依存关系包括：兄弟关系、夫妻关系、祖父关系、孙子关系、远亲关系。

S22、基于步骤S11定义的观点评价对象词与情感词之间的依存关系，构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板；

S23、基于依存关系模板抽取观点评价对象；

(1)候选观点评价对象词预处理：

a、词性过滤：仅将名词或名词短语作为候选评价对象词；

b、停用词过滤：过滤停用词；

(2)候选观点评价对象词分数计算：

即称x_i与y_j没有匹配关系，记作

而后通过公式①计算第j个候选观点评价对象词分数

(3)候选依存关系模板分数计算：

而后通过公式②算第s个候选依存关系模板分数

(4)基于依存关系的观点评价对象边界识别规则：

所述步骤(3)、(4)之间还包括一步骤，即：由步骤(2)、(3)得到的观点评价对象种子词、依存关系种子模板重新对步骤(1)处理的候选观点评价对象词进行训练，直至没有新的观点评价对象种子词产生，再执行步骤(4)。

所述步骤S3具体实现如下：

S31、否定词的分数计算；

S32、程度副词的分数计算；

S33、情感词的分数计算；

所述步骤S31具体实现如下：

S31、否定词的分数计算；

抽取与情感词有直接依存关系的词与否定词典进行匹配，判断其是否为否定词。如果存在否定词，该词分数设为-1，如果不存在否定词，分数设为1。这里的否定词典可以采用现有技术中的否定词典设计，本例以知网否定词典为例。

S32、程度副词的分数计算；

接下来所要提到的程度词典可以采用现有技术中的程度词典设计，本文以知网程度词典为例，下同。

(1)在知网程度词典中，程度副词分为5个等级，1级是程序最高，5级是程度最低。我们再补充一个没有程度副词的情况，将这6个级别归一化处理，得到每个程度级别的分数{0.325，0.225，0.18，0.135，0.09，0.045}。在遇到不同程度词典的实施例中，也可以根据不同的程度副词等级设定进行不同的归一化设置。

(2)抽取与情感词有直接依存关系的词与知网程度词典进行匹配，判断其是否为程度词，并根据词典对应的等级设置分数。比如：“还可以，这个价格真的很便宜！”。该语句中有两个情感词“可以”和“便宜”对评价对象“价格”进行修饰。与情感词“可以”有依存关系的词是“还”，该词在知网程度词典中存在，且是一个3级程度的副词。因此该程度词的分数设为0.18。与情感词“便宜”有依存关系的程度词有“真的”、“很”，但只有“很”这个词在知网程度词典中存在且程度级别为2级，所以，该程度词的分数设为0.225。

S33、情感词的分数计算；

知网情感词典将情感词分为积极词和消极词。积极词又分为正面评价词和正面情感词，消极词又分为负面评价词和负面情感词。积极情感词分数设置为1、消极情感词分数设置为-1。比如：“还可以，这个价格真的很便宜！”。该语句中修饰评价对象“价格”的两个情感词“可以”和“便宜”都是积极情感词分数都是1。

在具体的实施例中，所述步骤S4具体实现如下：

S41、对各个评价对象的情感进行分数计算；

由于一个评价对象可能有多个情感词、多个程度副词对其进行评价。因此对评价对象的每组情感词、程度词、否定词分数进行叠加计算得到该评价对象的分数。分数计算如公式3：

其中，i表示修饰评价对象的第i组词，包含情感词、程度副词、否定词，negval(i)表示第i组否定词；degree(i)表示第i组程度副词；sentiment(i)表示第i组情感词。比如：“还可以，这个价格真的很便宜！”。该语句中修饰评价对象“价格”有两个情感词“可以”和“便宜”，第一组修饰词情感分数为0.18。第二组修饰词情感分数为0.24。因此评价对象“价格”的情感倾向分数是0.42。

S42、各评价对象的情感倾向性分析

根据得到的分数值，将其转换成百分比数值从而得到该评价对象的情感倾向性。如果是正数认为是对该评价对象的正面评价，否则是负面评价。分数越高说明情感倾向程度越高。比如：“还可以，这个价格真的很便宜！”。该语句中评价对象“价格”的情感倾向分数是0.42，说明评论者对“价格”这个评价对象给予较正面积极的评价。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。