CN113705243A

CN113705243A - 一种情感分析方法

Info

Publication number: CN113705243A
Application number: CN202110997775.0A
Authority: CN
Inventors: 罗瑜; 吴晓华; 令狐阳
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-26

Abstract

本发明公开了一种情感分析方法，通过获取训练文本集，并对所述训练文本集进行预处理得到训练情感得分向量集，基于所述训练情感得分向量集和预设语义词向量集对预设的神经网络进行训练，基于训练后的神经网络对待分析文本进行情感分析，对所述训练文本集进行预处理得到训练情感得分向量具体包括，对所述训练文本集进行分词处理，基于预设文本长度对分词处理后的训练文本集进行长度裁剪或补正得到标准训练文本集，基于情感词典确定出所述标准训练文本集对应的训练情感得分向量集，实现了分析文本的具体含义，能够将情感词典与神经网络结合，能够有效分析无规则文本，在进行情感分析时准确度较高，且运行效率高。

Description

一种情感分析方法

技术领域

本发明属于人工智能技术领域，具体涉及一种情感分析方法。

背景技术

随着社交媒体的兴起，人们在微博、评论等信息交互的过程中，产生了大量表达人们各种感情和倾向的信息，通过对情感信息的分析，可以更好的分析用户的喜好，预测事物发展趋势。目前，情感分析已经成长为自然语言处理领域最活跃的研究领域之一，被广泛应用于市场营销、分析舆论等领域。

目前情感分析的方法可以分为两类：基于情感词典的方法和基于机器学习的方法。情感词典的方法基于词典和规则，通过找寻文本中的各类情感词，计算每句的情感倾向分值来达到情感分析的效果，其语料适用范围广，但受限于情感词典的质量和覆盖度。机器学习的方法又包含了基于特征的方法和基于深度学习的方法。基于特征的方法从大量语料中选取特征对文本进行表示，然后使用支持向量机(SVM)、决策树等机器学习方法进行情感分析，受限于特征的选取。深度学习的方法通过训练集进行分类训练实现对文本的情感分析，避免了人工特征提取工作，能够有效地处理文本前后关联的问题，有着强大的判别能力和特征自学能力，适合高维数、无标签和大数据的特点，也是现在使用最广泛的方法。

但现有技术降低了对特征工程和语言学知识的依赖，但忽视了文本的具体意义，导致情感分析准确度不高。

因此，如何提高情感分析的准确度，是本领域技术人员有待解决的技术问题。

发明内容

本发明的目的是为了解决现有技术对于情感分析准确度不高的技术问题，提出了一种情感分析方法。

本发明的技术方案为：一种情感分析方法，包括以下步骤：

S1、获取训练文本集，并对所述训练文本集进行预处理得到训练情感得分向量集；

S2、基于所述训练情感得分向量集和预设语义词向量集对预设的神经网络进行训练；

S3、基于训练后的神经网络对待分析文本进行情感分析。

进一步地，所述步骤S1中对所述训练文本集进行预处理得到训练情感得分向量具体包括以下分步骤：

S11、对所述训练文本集进行分词处理；

S12、基于预设文本长度对分词处理后的训练文本集进行长度裁剪或补正得到标准训练文本集；

S13、基于情感词典确定出所述标准训练文本集对应的训练情感得分向量集。

进一步地，所述步骤S12具体包括以下分步骤：

S121、将所述分词处理后的训练文本集中大于所述预设长度的训练文本进行裁剪；

S122、将所述分词处理后的训练文本集中小于所述预设长度的训练文本的前端用0补齐；

S123、将经过步骤S121和步骤S122处理后的训练文本集作为标准训练文本集。

进一步地，所述步骤S13具体包括以下分步骤：

S131、将所述标准训练文本集中每一个词与所述情感词典进行匹配判断，若匹配成功，则执行步骤S132，若匹配不成功，则执行步骤S133；

S132、将所述标准训练文本集中匹配成功的词替换为对应的情感极性得分，然后进入步骤S134；

S133、将所述标准训练文本集中匹配不成功的词替换为0，然后进入步骤S134；

S134、将所述标准训练文本集中所有词均被替换后的文本集作为训练情感得分向量集。

进一步地，所述步骤S2具体包括以下分步骤：

S21、将所述训练情感得分向量集作为所述神经网络的编码器的输入，并得到第一特征向量序列；

S22、将所述预设语义词向量集作为所述编码器的输入，并得到第二特征向量序列；

S23、将所述第一特征向量序列和所述第二特征向量序列进行拼接得到第三特征向量序列，并将所述第三特征向量序列作为所述神经网络的解码器的输入，且在解码出结尾标识符时，结束解码过程；

S24、在步骤S21至步骤S23的基础上使用交叉熵损失函数训练所述神经网络，得到训练后的神经网络。

进一步地，所述步骤S3具体包括以下分步骤：

S31、将所述待分析文本进行所述预处理得到情感得分向量；

S32、将所述情感得分向量和所述预设语义词向量集作为训练后的神经网络的输入，并得到对应的输出得分；

S33、基于所述输出得分得到情感分析结果。

与现有技术相比，本发明具备以下有益效果：

(1)本发明通过获取训练文本集，并对所述训练文本集进行预处理得到训练情感得分向量集，基于所述训练情感得分向量集和预设语义词向量集对预设的神经网络进行训练，基于训练后的神经网络对待分析文本进行情感分析，对所述训练文本集进行预处理得到训练情感得分向量具体包括，对所述训练文本集进行分词处理，基于预设文本长度对分词处理后的训练文本集进行长度裁剪或补正得到标准训练文本集，基于情感词典确定出所述标准训练文本集对应的训练情感得分向量集，实现了分析文本的具体含义，能够将情感词典与神经网络结合，能够有效分析无规则文本，在进行情感分析时准确度较高，且运行效率高。

(2)本发明中采用了将情感得分向量和预设语义词向量进行结合的方法，情感得分向量可以获得词语的准确情感倾向，神经网络可以有效捕捉长距离语义，更好地学习词语间的语义依赖关系，实现更加准确的文本情感分析结果。

附图说明

图1所示为本发明实施例提供的一种情感分析方法的流程示意图；

图2所示为本发明实施例中确定第一特征向量序列和第二特征向量序列的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示为本申请实施例提出的一种情感分析方法的流程示意图，该方法包括以下步骤：

步骤S1、获取训练文本集，并对所述训练文本集进行预处理得到训练情感得分向量集。

在本申请实施例中，所述步骤S1中对所述训练文本集进行预处理得到训练情感得分向量具体包括以下分步骤：

S11、对所述训练文本集进行分词处理；

在本申请实施例中，所述步骤S12具体包括以下分步骤：

在本申请实施例中，所述步骤S13具体包括以下分步骤：

步骤S2、基于所述训练情感得分向量集和预设语义词向量集对预设的神经网络进行训练。

在具体的应用场景中，仿真实验使用的中文文本共39661个样本，其中正向数据为15510条，负向数据为24151条。从语料中按9比1的比例，随机选取3967条数据作为测试数据，剩下的为训练数据。测试数据中正向数据为1586条，负向数据为2381条。

其中，使用jieba分词工具对39661条文本进行中文分词操作。

对39661条文本进行长度分析，得到所有文本的长度分布，去掉过长的文本，选择一个能覆盖95％文本的长度数值，作为文本裁剪的长度。

对小于裁剪长度的文本在前端用0补齐，对大于裁剪长度的文本删除超出的部分。

本发明实例中，39661条文本的长度呈正态分布，最长文本长度为137个词语，选择长度97时能覆盖95％的文本，能有效避免噪声产生的影响。

将每个词和情感词典进行匹配，如果该词存在，则将它替换为情感词典中的情感极性得分，如果该词不存在，则将它用“0”替换，计算公式为：

S＝(v₁,v₂,…,v_n)

S_out＝(g₁,g₂,…,g_n)

其中，S为原句子，v_n为第n个经过分词后句子中的词语，Sout为经过转化后的句子，g为每个v对应的情感词典中的情感得分。

本发明实例中，由于使用的语料为微博语料，故情感词典选择的是由大量微博数据经过SO-PMI算法得到的微博情感词典。

在本申请实施例中，所述步骤S2具体包括以下分步骤：

在具体应用场景中，神经网络模型编码器包括多层感知机(MLP)和双向长短期记忆网络(BiLSTM)，神经网络解码器采用多层感知机。

其中，得到第一特征向量序列和第二特征向量序列可如图2所示，图2中词向量表示即为预设语义词向量，情感特征即为第一特征向量序列，语义特征即为第二特征向量序列，得到第一特征向量序列可具体如下：

1、使用由单元数分别为256、128与16的三个激活函数为Relu的全连接层构造多层感知机模型；

2、对每个全连接层使用了参数p为0.3的Dropout算法来避免过拟合，计算公式为：

r＝Bernoulli(p)

x′_i＝x_i×r

z＝wx′_i+b

x＝f(z)

其中，Bernoulli(p)函数以概率p生成值为0或1的屏蔽因子r，使得某个神经元以概率p停止工作，x_i为第i个单元的激活值，x′_i为第i个单元由屏蔽因子r控制后的输出值，z为第i个单元的输出，w为权重，b为偏置，x为经过激活函数的输出，f(z)表示Relu激活函数。然后把训练得到的损失结果通过修改的网络反向传播。一小批训练样本执行完这个过程后，在没有被停止工作的神经元上按照随机梯度下降法更新对应的参数(w,b)。

3、将39661个情感得分向量作为多层感知机编码器的输入，输出得到编码过后的16维特征向量序列，计算公式为：

h_out＝f(wx+b)

h_mlp＝(h₁,h₂,…,h₁₆)

其中，w是感知机的权重，b是偏置，函数f是激活函数，h_mlp是情感得分向量经过多层感知机学习后的16维隐层特征向量序列。

得到第二特征向量序列可具体如下：

1、使用skip-Gram训练微博文本语料，得到300维预训练词向量，也即预设语义词向量集。

2、构造双向的64个单元LSTM网络使得整个模型能学习到文本的上下文信息。通过连接正向和逆向LSTM网络的输出向量作为BiLSTM网络的最终输出，计算公式为：

其中，

和

分别表示正向

和逆向

的输出，h_B表示BiLSTM的输出，h表示LSTM中隐含层的输出，x为输入向量，C表示LSTM中的细胞状态。

3、将预训练的300维词向量和预处理后的文本作为双向LSTM模型编码器的输入，输出得到编码过后的16维特征向量序列，计算公式为：

h_BiLSTM＝(h₁,h₂,…,h₁₆)

其中，h_BiLSTM是文本使用预训练词向量经过双向LSTM学习后得到的16维隐层特征向量序列，h_i表示第i维上的输出。

将第一特征向量序列和第二特征向量序列进行拼接，可具体如下所示：

1、构造使用sigmoid激活函数的二分类分类层。

2、将MLP的输出与BiLSTM的输出使用Concat方式连接作为输入，使得情感词典的情感得分属性和通过词向量学习到的语义表示结合，计算公式为：

x_input＝[h_BiLSTM,h_mlp]

其中，x_input即为使用concat拼接后得到的32维特征向量序列，h_BiLsTM是文本使用预训练词向量经过双向LSTM学习后得到的16维语义特征向量序列，h_mlp为文本通过情感词典得到的情感得分向量经过多层感知机后得到的16维情感特征向量序列。

步骤S3、基于训练后的神经网络对待分析文本进行情感分析。

在本申请实施例中，所述步骤S3具体包括以下分步骤：

S31、将所述待分析文本进行所述预处理得到情感得分向量；

S33、基于所述输出得分得到情感分析结果。

需要说明的是，情感分析结果包括两种，一种是积极，另一种为消极，这实际上本质上还是一个两类的分类问题，本专利的侧重点，是在构造更有利于分类的输入特征上。输出得分实际上是偏向于积极情感或偏向于消极情感的概率。

在具体的应用场景中，首先将待分析文本转换为情感得分向量，然后将情感得分向量作为训练后的神经网络的输入，并得到编码过后的16维特征向量序列也即第一特征向量序列，计算公式为：

h_out＝f(wx+b)

h_mlp＝(h₁,h₂,…,h₁₆)

其中，w是权重，b是偏置，函数f是激活函数，h_mlp是情感得分向量经过多层感知机学习后的16维隐层特征向量序列，x为，h₁为。

然后将上述中预设语义词向量作为训练后的双向LSTM模型编码器的输入，输出得到编码过后的16维特征向量序列也即第二特征向量序列，计算公式为：

h_BiLSTM＝(h₁,h₂,…,h₁₆)

其中，h_BiLSTM是文本使用预训练词向量经过双向LSTM学习后得到的16维隐层特征向量序列，

和

分别表示正向

和逆向

接着将第一特征向量序列和第二特征向量序列进行拼接，在具体应用场景中如下所示：

1、将MLP的输出与BiLSTM输出的16维特征向量序列使用Concat方式连接得到32维特征向量序列，作为输入，使得情感词典的情感得分属性和通过词向量学习到的语义表示结合，计算公式为：

x_input＝[h_BiLSTM,h_mlp]

其中，x_input即为使用concat拼接后得到的32维特征向量序列。

2、采用交叉熵损失函数来衡量真实分布和预测分布之间的差距，计算公式为：

式中，x为样本标签序列，z为样本属于正类标签的概率序列，x_i为第i个样本的标签，z_i为第i个样本属于正类标签的概率，n为样本数。

下面以两个具体实验例对本发明提供的基于情感词典和神经网络结合的情感分析方法的准确率、召回率和F1值做进一步描述。

(1)情感得分向量效果

本具体实验例中，情感得分向量在正向的正确率和负向的召回率、F值分别有12.71％、17.89％和7.17％的提升，而正向数据中F值和召回率较情感词典方法低。这个结果主要是由于部分双重否定和程度副词的影响，情感词典方法同时使用了情感词典、否定词词典和程度副词词典进行情感分析，而MLP方法仅使用了情感词典，对部分双重否定的句式产生了错误的判断，而对于正常的否定句式有着很好的分辨效果，因此在负向数据，MLP方法的召回率和F值有了明显的提高，可见本发明能够有效地学习情感词典中情感得分这一特征进行情感分析，对比结果如表1所示：

表1情感得分向量效果

(2)总体模型效果

本发明提出的基于情感词典和神经网络结合的情感分析方法相比使用词向量的BiLSTM方法提高了情感分析的总体准确率。在正向数据方面，本发明的准确率和F值比BiLSTM方法提升了3.59％和0.82％，在负向数据方面，本发明的召回率和F值提升了2.64％和1.16％，总体的准确度相比BiLSTM方法提高了1.16％。而在正向数据和负向数据中的提升正好也与基于情感得分向量的MLP方法和情感词典方法的提升部分相同，这反映了使用情感词典的情感得分来作为文本的向量表示，再用MLP学习，得到的隐层表示信息能够正确的加入到BiLSTM学习预训练词向量的隐层表示信息中，并符合预期的提升情感分析能力，对比结果如表2所示：

表2总体模型情感分析结果

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种情感分析方法，其特征在于，包括以下步骤：

S3、基于训练后的神经网络对待分析文本进行情感分析。

2.如权利要求1所述的情感分析方法，其特征在于，所述步骤S1中对所述训练文本集进行预处理得到训练情感得分向量具体包括以下分步骤：

S11、对所述训练文本集进行分词处理；

3.如权利要求2所述的情感分析方法，其特征在于，所述步骤S12具体包括以下分步骤：

4.如权利要求2所述的情感分析方法，其特征在于，所述步骤S13具体包括以下分步骤：

5.如权利要求1所述的情感分析方法，其特征在于，所述步骤S2具体包括以下分步骤：

6.如权利要求1所述的情感分析方法，其特征在于，所述步骤S3具体包括以下分步骤：

S31、将所述待分析文本进行所述预处理得到情感得分向量；

S33、基于所述输出得分得到情感分析结果。