CN110245229B

CN110245229B - 一种基于数据增强的深度学习主题情感分类方法

Info

Publication number: CN110245229B
Application number: CN201910365005.7A
Authority: CN
Inventors: 周晨星; 赖韩江; 印鉴
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2023-03-28
Anticipated expiration: 2039-04-30
Also published as: CN110245229A

Abstract

本发明提供一种基于数据增强的深度学习主题情感分类方法，该方法通过bert预训练语言模型能够让词先获取到一个初步的语义信息，然后经过双向GRU网络学习词与词之间的上下文语义特征，同时提出一种增强数据的方法，通过剔除每个句子中影响情感极性最大的词，迫使模型去学习更难句子的情感极性的判定，同时扩充数据集又使得模型能够从更多的数据集捕获特征。通过在相应数据集上的实验表明，本发明对比之前的情感分类方法，有较大提升。

Description

一种基于数据增强的深度学习主题情感分类方法

技术领域

本发明涉及自然语言处理领域，更具体地，涉及一种基于数据增强的深度学习主题情感分类方法。

背景技术

近些年来，互联网技术愈发成熟，人们习惯在网上相互交流和表达自己的想法。在此期间，互联网上保留了很多的文本信息，而情感分析技术旨在于从这些文本信息中挖掘出客户在针对某样事物表达情感的观点和倾向，为后续的具体应用场景比如商铺革新等提供了技术支持，所以情感分析技术在学术界和工业界都具有很高的应用价值。

而主题级别的情感分析就是判断一句话关于某个主题的情感倾向性，这在情感分析中具有举足轻重的作用。目前来说常用的分析方法主要包括基于情感词典和基于机器学习的方法。基于情感词典的方法是通过寻找句子中关于某个主题的情感词汇出现数量以及它们的情感极性来综合评价这个句子关于这个主题的情感倾向，这一步的重点是需要确定与给定主题相关的情感词汇有哪一些然后再进行统计分析。此方法操作简便，容易上手。不过缺点也显而易见：1.对所构建的情感词典的质量要求很高，有一些隐式地表达情感的词很容易被所忽略而造成情感分析准确率下降。2.需要精准定位到当前句子关于某个主题的情感词，如果定位不准确的话会造成错误分类同样降低分类性能。因此，基于情感词典的方法逐渐地被其他方法所替代。目前很多研究都采用机器学习的情感分析方法，首先将其看成是一个分类问题，从已标注的训练样本中选取有利于关于主题的情感分析判定的特征，然后训练一个分类器模型(如最近邻KNN，贝叶斯与支持向量机SVM等)去预测未知句子关于某个主题的情感极性。这种方法比基于情感词典的方法分类效果更好，但是依旧没有达到人们的期望。

分析目前出现的造成分类效果不好的一个原因---数据集规模小。考虑，通过在原数据集的基础上扩充新数据集使得深度网络具有一个更强大的分类能力。由于在一句话中影响某个主题的情感极性的词不是唯一的，想着通过挖去一句话中影响情感极性判定最大的那一个词，将其作为新的训练集放入深度网络中再次训练，一方面可以达到扩充数据集的目的，以便增强深度网络对数据集特征的提取和学习；另一方面增强深度网络对情感极性不明显的句子的分析能力。通过这样一种方式可以使分类器分类效果更好，准确率也会更高。

发明内容

本发明提供一种准确率较高的基于数据增强的深度学习主题情感分类方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于数据增强的深度学习主题情感分类方法，包括以下步骤：

S1：建立用于生成句子的语义信息，特征表示以及分类器的深度学习网络模型G；

S2：根据深度学习网络模型G挑选出训练集中影响情感分析最重要的词构成新的训练集；

S3：根据原始训练集和新训练集对深度学习网络模型G再次进行训练，然后进行测试。

进一步地，所述步骤S1的具体过程是：

S11：利用bert预训练语言模型，将预训练处理后的句子中的每个单词用一个低维，稠密的实数向量进行表示，并且由于bert预训练语言模型本身已经包含了对每个单词的语义建模，因此，经过bert输出的每个词都具有语义信息，于是将整个句子表示成X＝[x₁,…,x_t,…,x_n]，其中n是句子的长度，向量矩阵X的维度为768维；

S12：根据经过bert层的词向量表示已经具备一定的语义信息，还需要让模型学习句子的每个词的上下文信息，用一个双向GRU网络去学习句子的上下文信息；设每一个词代表一个时间步t，每个GRU细胞单元的输入为当前t时刻的词向量x_t以及t-1时刻的GRU细胞隐层输出h_ft-1，得到前向GRU的表示为H_f＝[h_f1,…,h_ft,…h_fn]，同理，后向GRU的表示为H_b＝[h_b1,…,h_bt,…h_bn]

S13：为了学习句子的每个词与主题词的关系，构建一层Attention层，用来计算每个词关于主题词的权重，权重越大代表该词在影响句子关于当前主题的情感极性越大，首先每个词由S12表示为H＝H_f+H_b，当前主题词的词向量表示为e_N，然后将两个向量进行拼接并使用tanh激活函数，得到的向量表示为M＝tanh([H；e_N]),然后学习一个参数W去计算每个词关于主题词的权重大小再乘上对应位置每个词的GRU输出得到句子关于主题词的整体表示r，其中r＝H·softmax(W^TM)；

S14：建立最后一层输出层，将S13得到的句子表示r通过两层全连接层以及一层softmax映射到三个分类类别上，分别对应当前句子的情感极性是积极，消极和中性的概率，然后根据概率大小情况输出最大概率的情感极性，输出结果；

S15：将数据集中的训练数据按照上述流程进行一遍训练，训练过程中采用交叉熵作为损失函数，使用ADAM优化器进行优化，采用L2正则化防止出现过拟合，最后将网络的参数保存下来。

进一步地，所述步骤S2的具体过程是：

S21：将训练数据的每一个句子的每一个词都分别用[MASK]进行一次替换，设当前句子为s＝[w₁,…,w_t,…,w_n],n表示当前句子包含的词的个数，则每个句子经过逐个替换后的句子集合s′一共有n句话，其中s′为{[[MASK],…,w_t,…,w_n],…,[w₁,…,[MASK],…,w_n],…,[w₁,…,w_t,…,[MASK]]}.

S22:重新加载S15中保存的网络参数，得到之前已经训练过的网络G，然后将s′的每一条语句分别输入到网络G中可以得到一个预测情感极性的概率分布，然后选择离真实情感分布相距最远的那一条语句，放入到新的训练集中，获取到多一倍的新训练集，并且每一条语句都挖去了影响该语句情感极性最大的一个词，增强了模型的分类能力。

进一步地，所述步骤S3的具体过程是：

S31：将S22中生成的训练集与原训练数据一起作为训练集放入S15中已经训练好的网络中，然后按照S1的流程再进行一次训练，训练的时候依旧采用交叉熵作为损失函数，用ADAM作为优化器，采用L2正则化,学习率设为0.01，训练5个epochs之后模型收敛。

S32：将测试数据放入S31中训练好的网络中进行测试，测试指标采用准确率进行衡量。

进一步地，所述步骤S22中离真实情感分布相距最远的那一条语句的判定规则是：

假设真实情感分布为y₁,y₂,y₃···,y_n,真实标签为y_t,所有预测的概率分布集合为{(x₁₁,x₁₂,x₁₃,···，x_1n),(x₂₁,x₂₂,x₂₃,···，x_2n),…,(x_m1,x_m2,x_m3,···，x_mn)},找出最小的x_it,其所对应的分布(x_i1,x_i2,x_i3,···，x_in)即为离真实情感分布相距最远的语句。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过bert预训练语言模型能够让词先获取到一个初步的语义信息，然后经过双向GRU网络学习词与词之间的上下文语义特征，同时提出一种增强数据的方法，通过剔除每个句子中影响情感极性最大的词，迫使模型去学习更难句子的情感极性的判定，同时扩充数据集又使得模型能够从更多的数据集捕获特征。通过在相应数据集上的实验表明，本发明对比之前的情感分类方法，有较大提升。

附图说明

图1为本发明的数据增强的网络流程示意图；

图2为本发明完整的模型示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于数据增强的深度学习主题情感分类方法，包括以下步骤：

步骤S1的具体过程是：

步骤S2的具体过程是：

步骤S3的具体过程是：

步骤S22中离真实情感分布相距最远的那一条语句的判定规则是：

实施例2

本方法采用的数据集是2015年计算语言学协会词汇特别兴趣小组SIGLEX旗下设计的一系列计算语义分析***评估的任务，采用的数据集来自Task12.这个任务包含了两部分的数据，一部分是来自一些客户的餐馆评论，另一些来自客户对手提电脑的评论。关于餐馆评论的主题词有13个，关于手提电脑评论的主题词有87个，并且两个评论都只包含三种情感标签：积极，中性和消极的。本发明所使用的数据集基本情况如下表所示：

Dataset	Train	Test	Topics
				Restaurant	1478	775	13
Laptop	1972	948	87

网络N的构建如图2左边部分所示。

以这句话为例子：The food is so good and delicious,but the staff isterrible.Topic:service(标签为消极的)将这个原始句子输入到模型中去，经过bert之后会得到一个768×14的矩阵。然后将这个矩阵输入到双向GRU中学习词与词之间的上下文信息，分别可以得到前向的GRU输出：H_f＝[h_f1,…,h_ft,…h_fn]以及后向的GRU输出：H_f＝[h_f1,…,h_ft,…h_fn]。然后将二者的输出对应维度相加，即可得到最后每个词的整体表示：H＝[h₁,h₂,…,h_n]。接下来，将该矩阵的每个词与主题词的词向量拼接在一起，目的是为了计算每个词关主题词的相关性。主题词使用Glove进行词表示，维度为300.拼接之后的矩阵M的维度为1068×14.然后学习一个参数W去计算每一个词的权值，计算的方法是softmax(W^TM)，最后得到的权值矩阵为α＝[α₁,α₂,…,α_n],其中所有元素的和为1，然后将权值矩阵乘上对应每个词的表示H并相加得到整个句子的表示r,其中r是一个1×768的向量。然后将其通过两个全连接层最后通过softmax层映射到三个分类类别上，对应的情感分类分别为积极，消极和中性。

先用现有的训练集对刚刚搭建的模型进行训练，训练过程中采用交叉熵作为损失函数，使用ADAM优化器进行优化，并采用L2正则化防止出现过拟合。当训练好模型后将参数保存下来，接下来利用该模型对数据集进行扩充。扩充的想法来源于比如要判断下面这句话The food is so good and delicious,but the staff is terrible.Topic:service，可以通过两个方面判断出关于service这个topic情感极性为负，一个是通过terrible这个词，另一个是通过good和but,but后面是转折，由于good是积极的，因此but后面所描述的对象就是消极的。所以即使把terrible这个词盖住，还是可以通过good和but来推测service的情感极性为负。并且使用这种判断方法迫使模型去学习句子内在的语义信息，从而增强模型的分类能力。

那么盖住怎么样的词可以加大模型预测当前句子情感极性的难度并且同时增加数据集的规模呢？如图2，采用的步骤如下：以上面那句话为The food is so good anddelicious,but the staff is terrible.从盖住第一个词一直到盖住最后一个词，盖住的词用[MASK]替代，这样就生成了14句话(因为有14个词)，然后将这些句子分别放入刚刚已经训练好的模型中可以得到每个句子的一个预测概率分布，然后选择概率分布与真实情感分布相距最远的那一条语句(若两个概率分布分别为0.1 0.8 0.1以及0.3 0.5 0.2，而真实分布为0 1 0，则认为0.3 0.5 0.2这一分布距离真实分布最远)放入新的训练中，对于当前句子而言，会选择The food is so good and delicious,but the staff is[MASK]将其放入到新的训练集当中去。通过对训练集的每一条语句执行上述操作，可以获得和训练集大小一样多的新训练集。

当获得了新的数据集后，将其和原有的数据集合并在一起组成一个更大的数据集，然后在之前的模型基础之上再训练一遍该网络，依旧采用交叉熵作为损失函数，用ADAM作为优化器，采用L2正则化，学习率设为0.01，训练了5个epochs之后模型开始收敛。随后将测试数据放入训练好的模型中进行测试。

为了表现本实验的良好效果，本实验和当前已有的效果很好的主题情感分类模型(Word&clause level)进行了比较验证，评估指标为准确率(accuracy)，准确率定义为模型正确预测的样本数目占整个测试数据集样本总数的百分比。实验结果如下：

从结果可以看出的发明相较于以前的方法有较大的提升，本发明从数据增强的角度出发，提升模型在分类较难句子的主题情感分析中的分类能力，并且合理利用bert这样一种预训练语言模型。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

相同或相似的标号对应相同或相似的部件；

Claims

1.一种基于数据增强的深度学习主题情感分类方法，其特征在于，包括以下步骤：

S1：建立用于生成句子的语义信息，特征表示以及分类器的深度学习网络模型G；具体过程为：

S15：将数据集中的训练数据按照上述步骤S1-S14进行一遍训练，训练过程中采用交叉熵作为损失函数，使用ADAM优化器进行优化，采用L2正则化防止出现过拟合，最后将网络的参数保存下来；

2.根据权利要求1所述的基于数据增强的深度学习主题情感分类方法，其特征在于，步骤S2的具体过程是：

S21：将训练数据的每一个句子的每一个词都分别用[MASK]进行一次替换，设当前句子为s＝[w₁,…,w_t,…,w_n],n表示当前句子包含的词的个数，则每个句子经过逐个替换后的句子集合s'一共有n句话，其中s'为{[[MASK],…,w_t,…,w_n],…,[w₁,…,[MASK],…,w_n],…,[w₁,…,w_t,…,[MASK]]}.

S22:重新加载S15中保存的网络参数，得到之前已经训练过的网络G，然后将s'的每一条语句分别输入到网络G中可以得到一个预测情感极性的概率分布，然后选择离真实情感分布相距最远的那一条语句，放入到新的训练集中，获取到多一倍的新训练集，并且每一条语句都挖去了影响该语句情感极性最大的一个词，增强了模型的分类能力。

3.根据权利要求2所述的基于数据增强的深度学习主题情感分类方法，其特征在于，步骤S3的具体过程是：

S31：将S22中生成的训练集与原训练数据一起作为训练集放入S15中已经训练好的网络中，然后按照S1的流程再进行一次训练，训练的时候依旧采用交叉熵作为损失函数，用ADAM作为优化器，采用L2正则化,学习率设为0.01，训练5个epochs之后模型收敛；

4.根据权利要求3所述的基于数据增强的深度学习主题情感分类方法，其特征在于，步骤S22中离真实情感分布相距最远的那一条语句的判定规则是：