CN108984724A

CN108984724A - 利用高维表示提高特定属性情感分类准确率方法

Info

Publication number: CN108984724A
Application number: CN201810754022.5A
Authority: CN
Inventors: 谢珏; 吴含前; 李露
Original assignee: Kelbot Information Technology (kunshan) Co Ltd
Current assignee: Kelbot Information Technology (kunshan) Co Ltd
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2018-12-11
Anticipated expiration: 2038-07-10
Also published as: CN108984724B

Abstract

本发明公开了一种利用高维表示提高特定属性情感分类准确率方法，该方法从单词、子句及句子三个不同的维度，利用评论文本及其特定属性信息构建多层次、高维度的深度神经网络模型。首先本发明提出了一种子句切分的算法将评论文本切分成若干个子句；其次利用多个双向长短期记忆神经网络将每个子句中的单词进行编码，以此得到各子句的表示；最后采用一个双向长短期记忆神经网络对上一步中得到的各子句的表示进行编码以此来得到整个句子的最终表示。通过上述方法从单词、子句、句子三个不同的维度捕捉与特定属性更为相关的信息，最终提高特定属性的情感分类的准确率。

Description

利用高维表示提高特定属性情感分类准确率方法

技术领域

本发明涉及评论文本表达的情感分析方法，具体的，其展示一种利用高维表示提高特定属性情感分类准确率方法。

背景技术

为了得到评论文本中各属性的情感极性，通过情感分析(SentimentAnalysis，SA)技术，将评论文本中的属性词、情感词、情感修饰词识别出来进行进一步的分析处理，以此来判断出针对特定属性该评论文本表达的情感极性，可将其应用于事件分析、网络舆情分析、垃圾邮件处理等领域。

传统的粗粒度情感分析方法在进行评论文本的情感极性判断时，仅仅是对评论文本整体进行分析处理，无法针对评论文本中的特定属性对其进行细粒度的极性判断。因此，近年来的对于情感分析的研究越来越趋向于细粒度，这也成为了国内外研究和关注的热点话题。

针对评论文本中特定属性进行情感极性判断是更细粒度的评论文本情感分析，当前已有利用深度神经网络(Deep Neural Network，DNN)技术对文本中的特定属性进行情感分析的研究，Tang等在“Target-dependent Sentiment Classification with Long Short-term Memory”中针对特定属性对句子进行情感分类的问题上提出了基于目标依赖的长短期记忆神经网络(Target-Dependent Long Short Term Memory，TD-LSTM)和基于目标关联的长短期记忆神经网络(Target-Connection Long Short Term Memory，TC- LSTM)，其中TD-LSTM在生成句子表示时将目标信息考虑了进去，其次TC-LSTM在上述方法的基础上将目标信息及其上下文关联起来，该方法通过将目标短语中词向量的平均值作为目标向量，然而简单的平均目标短语中的词向量并不能完全表达出目标短语的语义，因此并不能得到最优结果。Dong等在“Adaptive Recursive Neural Network for Target-dependentTwitter Sentiment Classification”中针对依赖于特定属性的推文提出了一种自适应的递归神经网络(Adaptive Recursive Neural Network，AdaRNN)。根据情感词和特定属性之间的上下文内容和句法关系，自适应地将情感词传递给特定属性。该方法将句子的依存树转换成针对特定属性的递归结构，并基于该结构获得更高层的表示。实验研究表明，基于AdaRNN构建的分类器其分类性能优于传统的机器学习方法以及基本的递归神经网络方法，但其分类性能仍旧有待提高。

发明内容

发明目的：基于现有技术的不足，本发明提出一种利用高维表示提高特定属性情感分类准确率方法，首先利用本发明提出的子句切分算法将句子切分为若干子句，然后从单词、子句及句子三个不同的维度，利用评论文本及其特定属性信息构建多层次、高维度的深度神经网络模型，通过捕捉与特定属性更为相关的信息来提高分类性能。

技术方案如下：

一种利用高维表示提高特定属性情感分类准确率方法，包括训练阶段和测试阶段：

具体步骤为：

训练阶段:

S1)利用子句切分算法将句子切分为若干子句，将子句中各单词以词向量的形式表示，以单词的词向量与属性词向量拼接后的整体作为深度神经网络模型的输入，所有的未登录词均是在均匀分布U(-0.01,0.01)中进行随机采样初始化的，词向量以及双向长短期记忆神经网络的维度均设置为300，其他超参则根据开发数据集进行相应的调整，得到训练好的深度神经网络模型；

S2)所述深度神经网络模型包括单词编码层、子句编码层和softmax层共3层架构，所述单词编码层用于捕捉子句中各个单词与特定属性的相关性，所述子句编码层将特定属性映射到子句中，所述softmax层用于将评论文本的最终表示s输入softmax分类器中，最终得到针对给定的属性该评论文本的类别概率分布；

S3)所述深度神经网络模型的输入单词序列为(d+d’)维的词向量，其中d表示词向量的维度，d′表示属性词向量的维度，其中d值的大小可以根据实验情况调节；

S4)模型的训练损失函数采用交叉熵损失函数(Cross-Entropy Loss Function)，通过端到端(End-to End)的方式来训练基于高维表示的特定属性情感分类模型；

S5)给定训练数据x_t，a_t，y_t，其中x_t表示第t个待预测样本，a_t表示该样本中出现的属性，y_t表示待预测样本x_t针对特定属性a_t的真实类别标签；

S6)将基于高维表示的特定属性情感分类模型看做是一个黑盒函数该函数的输出是一个向量，该向量表示的是输入文本属于各个类别标签的概率，训练的目标是最小化损失函数：

上式中M表示训练样本的数目，K表示类别标签的数目，l表示偏置参数L₂的正则化；

S7)采用Adagrad优化函数，所有的矩阵和向量的参数均匀分布在中，其中r和c′是矩阵中行数和列数；并且在训练过程中为了避免过度拟合，在Bi-LSTM中采用了Dropout策略；

测试阶段：

S8)将待处理的评论文本输入训练好的深度神经网络模型，得到针对特定属性该评论文本的情感极性。

进一步的，子句切分算法具体为通过标点符号和连接词(统称为分隔符)来切分句子：定义了minnum参数来限制子句中至少应该包含的单词数，当且仅当minnum大于指定值的时候才将该部分句子划分为子句；

此外，还定义了一个maxnum参数来保证将每个句子都切分成相同数量的子句数目，此操作的目的在于后续神经网络要求固定数目的子句作为输入；

分隔符包含了标点符号和连接词即“，”，“；”，“and”，“but”，“so”，“especially”，“however”，“then”，“although”，“except”。

进一步的，其他超参则根据开发数据集进行相应的调整，具体来说，学习率的初始值设置为0.1，参数的正则化权重设置为10-⁵，DropoutRate设置为0.25。

进一步的，子句切分算法中将参数minnum设置为3，参数maxnum设置为4，以便从句子中挖掘所有可能的子句，从而使模型在开发数据集上达到最佳性能。

进一步的，由单词编码层、子句编码层和softmax层组成的基于高维表示的双向长短期记忆神经网络模型，其具体过程如下：

第一单词编码层，假设评论文本共包含C个子句，其中用c_i来表示第i个子句并且每个子句中共包含N_i个单词，I_ij则表示出现在第i个子句中的第j个位置的单词，其中 j∈[1，N_i]；

子句c_i中出现的单词用来表示,其中j∈[1，N]，这些单词w_ij＝E_w·I_ij均被存储在词向量(word embedding)矩阵中，其中这里的d代表的是词向量的维度，V则代表的是词汇；

出现的属性类别(aspect category)由实体(entity)和特征(attribute)两部分构成：

具体地，假设实体字符串e₁的长度为L₁，在本发明中将其表示为其中表示的是实体字符串中第n个单词的d′维向量表示；

相应的，本发明将特征字符串表示为

通常词向量表示具有线性结构，这使得它在语义层面的具有叠加或消减特性，因此可以通过将词向量的各元素相加方法来达到组合单词的目的；

将实体词向量和特征词向量进行相加来得到属性词向量的最终表示：

然后，在单词词向量表示的基础上加入属性词向量来得到每个单词的属性扩充表示：

上式中即的维度为(d+d’)，i∈[1，C]，j∈[1，N_i]，表示向量拼接操作符，C表示子句的个数，N_i表示子句c_i中包含的单词个数；

将得到的词向量作为输入，采用双向长短期记忆神经网络(Bi-LSTM)将前向和后向的各单词信息综合起来，以此将词向量矩阵的输入转化为一种新的表示：

Bi-LSTM是指每一个训练序列向前和向后均是一个长短期记忆神经网络(LSTM)，而且它们都连接着一个输出层；

这个结构提供给输出层输入序列中每一个点完整的过去和未来的上下文信息；

该Bi-LSTM包含的前向LSTM表示为该神经网络从I_i，1到即从前向后来读取子句c_i中的单词，相应的后向LSTM表示为则是从到I_i，1即从后向前来读取子句c_i中的单词：

将前向隐层状态和后向隐层状态进行拼接得到了子句中各单词I_ij的最终隐层状态表示，该表示融合了子句中所有跟单词I_ij的有关的信息：

最终，经过Mean-Pooling层将子句中各个单词I_ij的隐层状态h_ij进行平均池化，得到子句的最终表示：

第二子句编码层，对于上一步中得到的子句向量c_i，仍旧采用一个Bi-LSTM来将这些给定的子句向量进行编码以便融合上下文信息：

与单词编码层相似，通过拼接前向隐层状态和后向隐层状态来得到评论文本中各子句c_i的最终隐层状态表示，该表示融合了评论文本中所有跟子句c_i有关的信息：

经过Mean-Pooling层将评论文本中各子句c_i的隐层状态h_i进行平均池化，得到评论文本的最终表示：

针对第三softmax层，将评论文本的最终表示s输入softmax分类器中，最终得到针对给定的属性，该评论文本的类别概率分布：

o＝W_l·s+b_l

表示输出，W_l表示权重矩阵，b_l表示偏移量；

计算给定句子属于各个类别k∈[1，K]的概率的方法如下：

θ代表所有参数，根据该公式计算出的最高概率的类别标签作为该评论文本的最终类别标签。

与现有技术相比，本发明提出的一种利用高维表示提高特定属性情感分类准确率方法：结合属性信息对评论文本进行情感分类，该方法从单词、子句及句子三个不同的维度，利用评论文本及其特定属性信息构建多层次、高维度的深度神经网络模型，以达到更优的分类性能。

附图说明

图1是本发明方法流程图；

图2是本发明构建的特定属性情感分类模型架构图；

图3是餐厅领域评论文本示例。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

本实施例展示一种利用高维表示提高特定属性情感分类准确率方法：

针对特定属性构可建基于高维表示的双向长短期记忆神经网络模型，包括训练阶段和测试阶段：

在训练阶段，所述单词编码层用于捕捉子句中各个单词与特定属性的相关性，所述子句编码层将特定属性映射到子句中，作为深度神经网络模型的输入，所有的未登录词均是在均匀分布U(-0.01,0.01)中进行随机采样初始化的，词向量以及双向长短期记忆神经网络的维度均设置为300，其他超参则根据开发数据集进行相应的调整，得到训练好的深度神经网络模型；

在测试阶段，将待处理的评论文本输入训练好的深度神经网络模型，得到针对特定属性该评论文本的情感极性；

其中：针对判断评论文本针对特定属性表达出的情感极性：

一方面在评论文本中并不是所有的组成部分都与特定的属性有一定的相关性；

另一方面评论文本中可能包含多个属性，可能会结合句子中不同部分的信息对不同的属性进行情感分类；

因此，参阅图1，本实施例提出的子句切分算法将句子切分为不同的子句，以便将特定属性映射到这些子句中去。

本实施例提出的子句切分算法基本思想是通过标点符号和连接词(统称为分隔符) 来切分句子：

如图3所示“great and tasty”却不应该通过“and”这一连接词将其切分为两个子句，由此可见并不是所有的分隔符都可作为子句切分的边界；

本方案定义了minnum参数来限制子句中至少应该包含的单词数，当且仅当minnum大于指定值的时候才将该部分句子划分为子句；

该子句切分的方法在表1中做了详细说明，其中分隔符包含了标点符号和连接词即“，”，“；”，“and”，“but”，“so”，“especially”，“however”，“then”，“although”，“except”。

表1子句切分算法

参阅图2，针对特定属性构建的基于高维表示的双向长短期记忆神经网络模型包含单词编码层、子句编码层和softmax层共3层架构：

单词编码层用于捕捉子句中各个单词与特定属性的相关性；

子句编码层将特定属性映射到子句中；

softmax层用于将评论文本的最终表示s输入softmax分类器中，最终得到针对给定的属性，该评论文本的类别概率分布；

模型的训练损失函数选择交叉熵损失函数(Cross-Entropy Loss Function)，激活函数为Adagrad：

由单词编码层、子句编码层和softmax层组成的基于高维表示的双向长短期记忆神经网络模型，其具体过程如下：

相应的，本发明将特征字符串表示为

o＝W_l·s+b_l

表示输出，W_l表示权重矩阵，b_l表示偏移量；

计算给定句子属于各个类别k∈[1，Ｋ]的概率的方法如下：

验证步骤：

为了验证本发明提出的深度神经网络模型相对于其他情感分类算法的优势，进行了一系列的对比实验：

实验环境配置包括硬件和软件两部分：

训练模型使用的硬件配置是Intel Xeon 2.5GHz，4核，内存8GB；

软件配置部分，操作***为Windows10，利用的机器学习前端库为keras-1.2.2，后端为theano-0.8.2，基于python2.7以及一些科学计算库；

实验的步骤主要包括三个方面：

1)数据准备

本发明在SemeEval-2015语义评测任务Task12的两个数据集上(即Laptop电脑领域和Restaurant领域)进行实验来验证本发明提出方法的有效性，每个数据集由许多用户评论组成，每条评论包含一个属性列表以及各属性对应的情感极性，其中情感极性包括正向、中性和负向，参照表2，其展示了数据集中两个领域的数据分布情况；

另外，从训练集中随机选择出10％的数据作为调整算法参数的开发数据集，并且选取了Glove作为预训练的词向量。

表2 Restaurant和Laptop电脑领域数据集的分布

2)模型训练

本发明采用交叉熵损失函数(Cross-Entropy Loss Function)，通过端到端(End-to-End) 的方式来训练基于高维表示的特定属性情感分类模型。给定训练数据x_t，a_t，y_t，其中x_t表示第t个待预测样本，a_t表示该样本中出现的属性，y_t表示待预测样本x_t针对特定属性a_t的真实类别标签；

将基于高维表示的特定属性情感分类模型看做是一个黑盒函数该函数的输出是一个向量，该向量表示的是输入文本属于各个类别标签的概率，训练的目标是最小化损失函数：

M表示训练样本的数目，K表示类别标签的数目，l表示偏置参数L₂的正则化；

优化函数采用Adagrad，所有的矩阵和向量的参数均匀分布在中，其中r和c′是矩阵中行数和列数；

并且在训练过程中为了避免过度拟合，在Bi-LSTM中采用了Dropout策略。

3)实验结果

进行深度神经网络模型与基准方法的对比，以便全面评估模型的性能：

基准方法和本方案提出的方法在训练时均是采用Glove词向量；

其中各基准方法作包括：

1)多数算法(Majority)：这种方法是一种基本的基准方法，该方法是针对特定属性将训练集中出现的占多数的情感极性分配给各测试样本；

2)长短期记忆神经网路(LSTM)：这种方法只使用一个LSTM来对上下文进行建模从而得到每个单词的隐藏层表示，之后，所有隐藏层表示的平均值被视为输入的最终表示，并将该最终表示送入softmax层得到各个标签的预测概率值；

3)基于目标关联的长短期记忆神经网络(TC-LSTM)：该方法通过使用两个LSTM 对基本的LSTM进行了扩展，即针对属性信息采用一个前向LSTM和一个后向LSTM。此外，该模型将属性信息融入到句子的表示中去，最后，将两种属性的表示拼接在一起用于针对特定属性的情感极性预测；

4)基于注意力机制的长短期记忆神经网络(ATAE-LSTM)：该方法通过LSTM对上下文单词进行建模，并在每个词向量上嵌入属性向量；

5)交互式注意力网络(IAN)：该方法是一种交互式学习方法，首先通过LSTM对上下文和属性进行建模，然后在上下文和属性上交互地学习注意力表示；

本方案提出的方法为多层双向长短期记忆神经网络(Hierarchical Bi-LSTM)：它是一种多层的Bi-LSTM，基于高维表示从单词、子句及句子三个不同的维度，利用评论文本及其特定属性信息构建多层次、高维度的深度神经网络模型：首先使用子句切分算法将一个句子切分成若干个子句；后利用多个双向长短期记忆神经网络对所有子句进行编码；最后利用一个双向长短期记忆神经网络对子句进行编码，进而经过softmax层得到针对特定属性该评论文本属于各个类别的概率。

表3面向普通文本的不同属性级情感分类方法性能比较

参照表3显示的是本方案与其他基准方法之间的性能对比：

从表3可以观察到，Majority算法的性能是最差的，采用Majority算法构建的分类器在Restaurant领域和Laptop领域的分类准确率分别为53.7％和57.0％；

除此之外的所有方法都是基于LSTM神经网络模型来实现的，它们的分类性能均优于Majority算法，实验结果表明LSTM模型不仅具有自动生成表示的潜力,并且还可以为属性级情感分类带来性能上的改进；

此外，从表3还可以看出TC-LSTM，ATAE-LSTM和IAN三种方法的分类准确率均优于LSTM。这一结果证实了在针对特定属性进行情感分类时将属性信息纳入考虑对分类性能的提升是有帮助的；

最后，可以看到本发明提出的Hierarchical Bi-LSTM方法优于前面提到的所有方法, 这突出了使用子句信息的优越性。

综上所述，本实施例提出的一种利用高维表示提高特定属性情感分类准确率方法：结合属性信息对评论文本进行情感分类，该方法从单词、子句及句子三个不同的维度，利用评论文本及其特定属性信息构建多层次、高维度的深度神经网络模型，以达到更优的分类性能。

Claims

1.一种利用高维表示提高特定属性情感分类准确率方法，其特征在于：包括训练阶段和测试阶段：具体步骤为：

训练阶段：

S1)利用子句切分算法将句子切分为若干子句，将子句中各单词以词向量的形式表示，以单词的词向量与属性词向量拼接后的整体作为深度神经网络模型的输入，所有的未登录词均是在均匀分布U(-0.01，0.01)中进行随机采样初始化的，词向量以及双向长短期记忆神经网络的维度均设置为300，其他超参则根据开发数据集进行相应的调整，得到训练好的深度神经网络模型；

测试阶段：

2.根据权利要求1所述的利用高维表示提高特定属性情感分类准确率方法，其特征在于：子句切分算法具体为通过标点符号和连接词(统称为分隔符)来切分句子：定义了minnum参数来限制子句中至少应该包含的单词数，当且仅当minnum大于指定值的时候才将该部分句子划分为子句；

3.根据权利要求2所述的利用高维表示提高特定属性情感分类准确率方法，其特征在于：其他超参则根据开发数据集进行相应的调整，具体来说，学习率的初始值设置为0.1，参数的正则化权重设置为10^-5，Dropout Rate设置为0.25。

4.根据权利要求3所述的利用高维表示提高特定属性情感分类准确率方法，其特征在于：子句切分算法中将参数minnum设置为3，参数maxnum设置为4，以便从句子中挖掘所有可能的子句，从而使模型在开发数据集上达到最佳性能。

5.根据权利要求4所述的利用高维表示提高特定属性情感分类准确率方法，其特征在于：由单词编码层、子句编码层和softmax层组成的基于高维表示的双向长短期记忆神经网络模型，其具体过程如下：

第一单词编码层，假设评论文本共包含C个子句，其中用c_i来表示第i个子句并且每个子句中共包含N_i个单词，I_ij则表示出现在第i个子句中的第j个位置的单词，其中j∈[1，N_i]；

子句c_i中出现的单词用来表示，其中j∈[1，N]，这些单词w_ij＝E_w·I_ij均被存储在词向量(word embedding)矩阵中，其中这里的d代表的是词向量的维度，V则代表的是词汇；

具体地，假设实体字符串e₁的长度为L₁，将其表示为其中表示的是实体字符串中第n个单词的d′维向量表示；

相应的，将特征字符串表示为

o＝W_l·s+b_l

表示输出，W_l表示权重矩阵，b_l表示偏移量；

计算给定句子属于各个类别k∈[1，K]的概率的方法如下：