CN113869065A

CN113869065A - 一种基于“单词-短语”注意力机制的情感分类方法和***

Info

Publication number: CN113869065A
Application number: CN202111202671.2A
Authority: CN
Inventors: 庞光垚; 彭子真; 陆科达; 玉振明; 朱肖颖; 黄宏本; 莫智懿; 冀肖榆; 农健
Original assignee: Wuzhou University
Current assignee: Wuzhou University
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2021-12-31
Anticipated expiration: 2041-10-15
Also published as: CN113869065B

Abstract

本发明提供一种基于“单词‑短语”注意力机制的情感分类***和方法，所述方法在TCN的基础上，提出的基于单词注意力机制的浅层特征提取模型和基于短语注意力机制的深层提取模型，能够有效挖掘单词、短语和整体评论所蕴含的辅助信息以及不同贡献程度，以更低的计算资源实现了更精准的情感分类性能。实验表明本文所提的SC‑WPAtt方法性能优于传统方法。

Description

一种基于“单词-短语”注意力机制的情感分类方法和***

技术领域

本发明涉及情感分类技术领域，具体涉及一种基于“单词-短语”注意力机制的情感分类方法和***。

背景技术

COVID-19疫情严重威胁了各个国家的生命安全和社会发展。世界各国为了防止疫情的蔓延，采取了严格的社交距离控制措施。由于政府等公共部门投入大量资源应对疫情的防控以及疫情发展过于迅猛，导致信息传播出现延迟；同时，被隔离的人群大量使用互联网等平台进行交流和信息获取，产生了大量的虚假信息，这些都引发了民众由于获取疫情信息不及时或者不全面，从而容易造成恐慌情绪。因此，在疫情防控大量挤压其他公共资源的背景下，如何利用有限的资源引导社会舆论显得尤为重要。即如何自动从互联网大量的交流文本中有效识别用户的情感，可以为政府等相关部门健康引导舆论提供了基础。

传统的情感分类方法主要以基于语义的情感词典方法为主，该方法首先通过现有的电子词典构造出相应的情感词典，然后将句子进行分词并判断组成句子的词的情感倾向，以及计算整句的加权情感倾向来判断整句所带的情感。其研究主要有两个主流方向：一个是基于词典的方法(Lexicon-based approaches)，此类方法将标注了情感极性和情感强度的情感词作为词典，且常通过强调和否定等词语规则完成对句子的情感极性的聚合；二是基于语料库的方法(Corpus-basedmethods)，其主要根据标注了情感极性的句子构建情感分类器，此类方法标注数据的方式包括人工标注，也包括根据微博等表情符号来自动标注。

基于语义的情感词典方法直接使用情感词进行分类，非常直观，结构简单、计算量小、计算速度快和可解释，然而，情感词典难以覆盖所有情感，难以处理网络上大量的口语情感表达，以及难以识别社交软件如微信、Twitter中大量使用缩写、缩写和连词的用户情绪，此外，人工标注的方式难以处理大规模评论数据，使得维护情感词极为困难；以及根据标签符号完成自动标注的方式也难以得到高准确率的情感词汇。

近年来研究者们设计的神经网络模型，可以从目标和上下文中自动学习有用的低维表示，可以有效解决上述基于语义的情感词典方法该方法存在的问题。例如Bahdanau等利用递归神经网络构建语言模型，在低维空间表达单词向量，能够更好地度量单词与单词之间的相关性；Grave等人提出了使用循环卷积神经网络进行文本分类，它使用双向循环结构对文本进行建模；Tai等人在长短期记忆网络(LSTM，Long Short-Term Memory)的基础上引入树状结构来提高句子的语义表达。然而，这些神经网络模型在处理情感分类任务方面仍处于起步阶段，而且，这些模型不能区分每个单词对整个句子的不同贡献。受机器翻译引入注意力机制的启发，研究者们在情感分类领域引入注意力机制对与目标语义关系更密切的上下文词给予更多的注意。已经有一些研究使用注意力生成特定于目标的句子表征或根据目标词转换句子表示。然而，这些研究依赖于复杂的循环神经网络(RNNs)作为序列编码器来计算文本的隐藏语义，很难并行化，并需要大量的内存和计算。CNN(卷积神经网络,Convolutional Neural Networks)可以提取更高精度的特征，但是无法处理序贯数据；虽然LSTM可以在一定程度上缓解消失梯度问题，从而保持较长的距离信息，但这通常需要大量的训练数据。此外，现有注意力机制虽然考虑了不同单词的影响，但是较少考虑短语(不同组合的单词)和整体评论的影响。

针对以上问题，本发明在TCN的基础上，提出了一种基于“单词-短语”注意力机制的情感分析方法和***，一方面引入TCN以更低的计算资源对序贯数据进行更高精度的提取，另一方面，提出的“单词-短语”注意力机制同时考虑了单词、短语和整体句子的不同影响。

发明内容

为解决上述问题，本发明所采用的技术方案如下：

在情感分类过程中，已知用户的评论文本C包含了多个短语，每一个短语里面包括了多个单词。假设s_m为评论C中的第m个句子，则有C＝{s₁,s₂,s₃,···,s_m}；假设w_n为第m个句子s_m的第n个单词，则有s_m＝{w₁,w₂,w₃,···,w_n}。而在COVID-19疫情中的情感分类求解问题，本质上就是从用户的评论文本C中挖掘出用户的情感类别。

由于不仅评论文本中的单词以及短语蕴含了丰富的辅助信息，而且不同组合方式的词组所蕴含的意义也不相同；另一方面，考虑到CNN具有很高的特征提取精度单缺乏序贯特征分析能力，而LSTM能够提取序贯特征但特征提取精度不如CNN，本发明提出一种基于“单词-短语”注意力机制的情感分类方法和***，具体如下：

一种基于“单词-短语”注意力机制的情感分类***，其包括文本数据预处理模型、基于单词注意力机制的浅层特征提取模型、基于短语注意力机制的深层特征提取模型和情感分类预测器；

所述文本数据预处理模型用于实现对文本数据的预处理，将每一个单词映射为词向量；

所述基于单词注意力机制的浅层特征提取模型包括构建Bi-GRU网络结构及构建单词注意力机制，提取单词不同的贡献程度，所述Bi-GRU网络结构用于得到文本的前向隐藏状态以及后向隐藏状态，使用串联的方式计算得到当前时刻总的状态，从而提取到细粒度的辅助信息以及尽可能多的核心词汇；

所述基于短语注意力机制的深层特征提取模型，用于从深层次挖掘核心词汇形成的短语级词向量蕴含的辅助信息，以及获取短语之间的序贯特征，即所述评论文本对应的表达特征；

所述情感分类预测器用于根据所述评论文本对应的表达特征预测其对应的情感分类。

作为优选，所述文本数据预处理模型采用Word2vec模型，具体用于：将每一个单词w映射为词向量e，其中，将第m个句子的第n个单词w_mn映射为了e_mn，且e_mn∈E_m，其中E_m为句子s_m的词向量。

作为优选，所述基于单词注意力机制的浅层特征提取模型用于是构建Bi-GRU和构建单词注意力机制、提取单词不同的贡献程度；所述构建Bi-GRU具体包括：GRU由更新门z和重置门r组成，更新门z表示以前的状态信息

是否需要更新，重置门r表示以前的状态信息

是否需要重置，其原理如下公式所示：

z_t＝σ(W_zE_m+U_zh_t-1) (1)

r_t＝σ(W_tE_m+U_th_t-1) (2)

其中，

为向量元素乘积，σ(·)为logistic函数，

为当前时刻的候选状态，z_t为当前时刻的更新门，r_t为当前时刻的重置门，W_z、U_z、W_t、U_t、W和U为可学习的网络参数，Bi-GRU包含从句子s_m的第1个单词w_m1到最后1个单词w_mN前向

以及从句子s_m的最后1个单词w_mN到第1个单词w_i1的

经过公式(5)和公式(6)运算之后得到前向隐藏状态

以及后向隐藏状态

那么使用串联的方式计算得到当前时刻总的状态

所述构建单词注意力机制、提取单词不同的贡献程度具体包括：

u_mm＝tanh(W_wh_mn+b_w) (7)

其中，u_mn为打分权重，α_mn为选择h_mn的注意力分布，

表示h_mn被选中的概率。

作为优选，所述基于短语注意力机制的深层特征提取模型采用时间卷积网络，具体用法为：已知

是浅层特征模型提取到的第m个句子的浅层特征，其中M为评论C中短语数量的最大值。对于评论C则有输入序列

与之对应的输出序列为

即TCN中输入序列和输出序列相同；此外，假设每一层对应的卷积核为f：{0，…，k-1}→R，那么第r层膨胀卷积如下所示：

其中，l_r为膨胀因子，可以大到(k-1)^r-1从而获取更大的感受野；

公式(10)为一层时间卷积层，而时间卷积网络是由多个时间卷积层叠加构造而成的，使用残差的方式对层间进行连接，如下所示：

F^s＝Activ_ation(F^w+F(F^w)) (11)

其中，

最后为了进一步挖掘评论C中不同短语

的深层隐藏特征以及所蕴含的辅助信息，使用公式(1)-(2)所示的注意力机制对

进行分析：

作为优选，所述情感分类预测器具体用于：使用softmax函数作为预测器，先使用线性模型对F_m进行数据归一化，如下所示：

F′_m＝w′F_m+b′ (15)

其中，w′和b′为可学习的参数。紧接着，使用softmax函数对F′_m进行分析，得到最终的预测分类Y′_m，如下所示：

Y′_m＝tanh(w″F′_m+b″) (16)

其中，w″和b″为可学习的参数。

作为优选，所述基于“单词-短语”注意力机制的情感分类***还包括定义损失函数以及迭代训练优化模块，具体包括：采用交叉熵作为损失函数，该函数可有效优化分类问题，所述交叉熵函数如下所示：

其中，Y_m为与历史数据集对应的真实情感分类。

一种基于“单词-短语”注意力机制的情感分类方法，其包括以下步骤：

S1、对文本数据进行预处理，将每一个单词映射为词向量；

S2、构建Bi-GRU网络结构及构建单词注意力机制，提取单词不同的贡献程度，所述Bi-GRU网络结构用于得到文本的前向隐藏状态以及后向隐藏状态，使用串联的方式计算得到当前时刻总的状态，从而提取到细粒度的辅助信息以及尽可能多的核心词汇；

S3、从深层次挖掘核心词汇形成的短语级词向量蕴含的辅助信息，以及获取短语之间的序贯特征，即所述评论文本对应的表达特征；

S4、根据所述评论文本对应的表达特征预测其对应的情感分类。

作为优选，所述S1采用Word2vec模型，将每一个单词w映射为词向量e，其中，将第m个句子的第n个单词w_mn映射为了e_mn，且e_mn∈E_m，其中E_m为句子s_m的词向量。

作为优选，所述S2包括构建Bi-GRU和构建单词注意力机制、提取单词不同的贡献程度；所述构建Bi-GRU具体包括：GRU由更新门z和重置门r组成，更新门z表示以前的状态信息

是否需要更新，重置门r表示以前的状态信息

是否需要重置，其原理如下公式所示：

z_t＝σ(W_zE_m+U₂h_t-1) (1)

r_t＝σ(W_tE_m+U_th_t-1) (2)

其中，

为向量元素乘积，σ(·)为logistic函数，

以及从句子s_m的最后1个单词w_mN到第1个单词w_i1的

经过公式(5)和公式(6)运算之后得到前向隐藏状态

以及后向隐藏状态

那么使用串联的方式计算得到当前时刻总的状态

u_mn＝tabh(W_wh_mn+b_w) (7)

其中，u_mn为打分权重，α_mn为选择h_mn的注意力分布，

表示h_mn被选中的概率。

作为优选，所述S3采用时间卷积网络，具体为：已知

是浅层特征模型提取到的第m个句子的浅层特征，其中M为评论C中短语数量的最大值。对于评论文本C则有输入序列

与之对应的输出序列为

F^s＝Activation(F^w+F(F^w)) (11)

其中，

最后为了进一步挖掘评论C中不同短语

进行分析：

。

作为优选，所述S4使用softmax函数作为预测器，先使用线性模型对F_m进行数据归一化，如下所示：

F′_m＝w′F_m+b′ (15)

Y′_m＝tanh(w″F′_m+b″) (16)

其中，w″和b″为可学习的参数。

作为优选，所述基于“单词-短语”注意力机制的情感分类方法还包括定义损失函数以及迭代训练优化，具体包括：采用交叉熵作为损失函数，该函数可有效优化分类问题，所述交叉熵函数如下所示：

其中，Y_m为与历史数据集对应的真实情感分类。

相比现有技术，本发明的有益效果在于：

本发明提供的基于TCN构建的基础神经网络，能够以更简单的网络结构和更低的资源占用率，实现更高精度的序列数据的读取，以便从非结构化文本数据中挖掘更多辅助信息；针对已有注意力机制虽容易忽略短语和整体评论的影响，本发明提出了“单词-短语”注意力机制，该机制从不同的角度挖掘了单词、短语(组合单词)和整体句子蕴含的辅助信息以及对情感分类的贡献度；本发明在Yelp平台的AG’s News数据集中构建了评测实验，实验结果显示，本发明提出的基于“单词-短语”注意力机制的情感分类方法准确度较高，且训练时间更低，具有更优的情感分类性能。

附图说明：

下面结合附图和具体实施方式对本发明作进一步详细说明。

图1为本发明情感分类***的结构示意图；

图2为本发明之方法的准确率评测实验结果示意图，图中，横轴epochs被定义为向前和向后传播中所有批次的单次训练迭代，纵轴accuracy代表精确度；

图3为本发明之方法的训练时长评测实验，图中，横轴epochs被定义为向前和向后传播中所有批次的单次训练迭代，纵轴time(s)为时间，单位为秒。

具体实施方式

实施例一：

本实施例提供一种基于“单词-短语”注意力机制的情感分类***，如图1所示，其包括文本数据预处理模型、基于单词注意力机制的浅层特征提取模型、基于短语注意力机制的深层特征提取模型和情感分类预测器；

具体的，所述文本数据预处理模型采用Word2vec模型，具体用于：将每一个单词w映射为词向量e，其中，将第m个句子的第n个单词w_mn映射为了e_mn，且e_mn∈E_m，其中E_m为句子s_m的词向量。

具体的，所述基于单词注意力机制的浅层特征提取模型用于是构建Bi-GRU和构建单词注意力机制、提取单词不同的贡献程度；所述构建Bi-GRU具体包括：GRU(gatedrecurrentunit，门控循环单元)由更新门z和重置门r组成，更新门z表示以前的状态信息

是否需要更新，重置门r表示以前的状态信息

是否需要重置，其原理如下公式所示：

z_t＝σ(W_zE_m+U_zh_t-1) (1)

r_t＝σ(W_tE_m+U_th_t-1) (2)

其中，

为向量元素乘积，σ(·)为logistic函数，

以及从句子s_m的最后1个单词w_mN到第1个单词w_i1的

经过公式(5)和公式(6)运算之后得到前向隐藏状态

以及后向隐藏状态

那么使用串联的方式计算得到当前时刻总的状态

u_mn＝tanh(W_wh_mn+b_w) (7)

其中，u_mn为打分权重，α_mn为选择h_mn的注意力分布，

表示h_mn被选中的概率。

浅层特征提取模型提取了细粒度的辅助信息，所获取的特征也尽可能包括了更多的核心词汇。这些核心词汇形成的短语级词向量蕴含了丰富的辅助信息，不同组合

的词汇以及整体词汇也蕴含了不同的含义。考虑到TCN(Temporal ConvolutionalNetworks，时域卷积网络)网络是改进CNN的一种方法，它使用卷积可以捕获局部信息，也可以灵活调整感受野的尺寸，更主要的可以捕获时序上的依赖关系，是一种同时具备CNN和RNN的网络模型，此外其更为简单的结构不仅有效降低计算资源的占用，而且具备更快的运行速度。为了从深层次挖掘它们的隐藏辅助信息，以及获取短语之间的序贯特征，本发明在TCN网络的基础上，提出了基于短语注意力机制的深层特征提取模型。传统能够有效处理序列问题的改进型CNN，主要通过线性堆叠多层卷积延长对时间序列的建模。TCN延续使用一维卷积来实现对序贯数据的处理，并通过使用因果卷积来实现一维卷积的方式延长了对时间序列的处理能力。其通式可以总结为：TCN＝1D FCN+causal convolutions。然而，单纯的因果卷积对时间的建模长度受限于卷积核大小。因此，TCN通过采用扩张卷积(也称空洞卷积)增大每层感受野的范围可抓取更长的依赖关系，同时达到减少卷积层数量的目的。和传统卷积不同的是，膨胀卷积允许卷积时的输入存在间隔采样。

本实施例中，所述基于短语注意力机制的深层特征提取模型采用时间卷积网络，具体用法为：已知

是浅层特征模型提取到的第m个句子的浅层特征，其中M为评论C中短语数量的最大值。对于评论C则有输入序列与之对应的输出序列为

F^s＝Activation(F^w+F(F^w)) (11)

其中，_，

最后为了进一步挖掘评论C中不同短语

进行分析：

经过上述浅层特征提取模型以及深层特征提取模型运算之后，得到的是蕴含丰富辅助信息的隐藏特征，也是评论文本C对应的表达特征Fm。最后一步是根据Fm预测其对应的情感分类。本发明使用softmax函数作为预测器，该函数可以将Fm数值映射到分类当中，且可以计算每一个分类所占的比例，且所有比例之和为1。

所述情感分类预测器具体用于：使用softmax函数作为预测器，先使用线性模型对F_m进行数据归一化，如下所示：

F′_m＝w′F_m+b′ (15)

Y′_m＝tanh(w″F′_m+b″) (16)

其中，w″和b″为可学习的参数。

其中，Y_m为与历史数据集对应的真实情感分类。

实施例二：

本实施例提供一种基于实施例一所述的情感分类***的方法，其包括：

S1、对文本数据进行预处理，将每一个单词映射为词向量；

具体的，所述S1采用Word2vec模型，将每一个单词w映射为词向量e，其中，将第m个句子的第n个单词w_mn映射为了e_mn，且e_mn∈E_m，其中E_m为句子s_m的词向量。

具体的，所述S2包括构建Bi-GRU和构建单词注意力机制、提取单词不同的贡献程度；所述构建Bi-GRU具体包括：GRU由更新门z和重置门r组成，更新门z表示以前的状态信息

是否需要更新，重置门r表示以前的状态信息

是否需要重置，其原理如下公式所示：

z_t＝σ(W_zE_m+U_zh_t-1) (1)

r_t＝σ(W_tE_m+U_th_t-1) (2)

其中，

为向量元素乘积，σ(·)为logistic函数，

以及从句子s_m的最后1个单词w_mN到第1个单词w_i1的

经过公式(5)和公式(6)运算之后得到前向隐藏状态

以及后向隐藏状态

那么使用串联的方式计算得到当前时刻总的状态

u_mn＝tanh(W_wh_mn+b_w) (7)

其中，u_mn为打分权重，α_mn为选择h_mn的注意力分布，

表示h_mn被选中的概率。

具体的，所述S3采用时间卷积网络，具体为：已知

与之对应的输出序列为

其中，l_r为膨胀因子，可以大到(k-1)^r-¹从而获取更大的感受野；

F^s＝Activation(F^w+F(F^w)) (11)

其中，

最后为了进一步挖掘评论C中不同短语

进行分析：

具体的，所述S4使用softmax函数作为预测器，先使用线性模型对F_m进行数据归一化，如下所示：

F′_m＝ω′F_m+b′ (15)

Y′_m＝tanh(w″F′_m+b″) (16)

其中，w″和b″为可学习的参数。

另外，所述基于“单词-短语”注意力机制的情感分类方法还包括定义损失函数以及迭代训练优化，具体包括：采用交叉熵作为损失函数，该函数可有效优化分类问题，所述交叉熵函数如下所示：

其中，Y_m为与历史数据集对应的真实情感分类。

为了验证本实施例所述的基于“单词-短语”注意力机制的情感分类方法(简称“SC-WPAtt方法”)的有效性，本发明在AG’s News数据集以及谷歌公布的50维的word2vec向量集合1上构建了系列评测实验。AG’s News数据集从2000多个新闻网站收集了超过100万篇新闻文章，并且映射到了4个分类当中，符合基于文本的情感分类的要求。实验环境细节为：操作***使用CentOS 7.5，硬件环境使用NVIDIA’s K80计算卡，软件平台为PyTorch0.4.0。此外，模型核心参数设置为：批次数量为128、学习率为0.001、SGD的动量因子为0.9。

本发明使用HN-Att(层次注意网络，Hierarchical-Attention-Network)作为对比方法，该方法是一种基于深度学习的情感分析方法，优势在于提出一种层次注意力机制，在构建文档表示时能够区别地关注更多和不那么重要的内容，以便从文档中挖掘更多辅助信息完成分档分类。此外，本发明使用正确率作为评价分类算法的评价指标，其运算公式为：Accuracy＝(TP+TN)/(TP+FP+TN+FN)。其中TP表示将正样本预测为正类别的数量，TN表示将负样本预测为负类别的数量，FP表示将负样本错误地预测为正类别的数量，FN表示将正样本预测为负类别的数量。

本发明从正确率和训练时长2个角度，对SC-WPAtt方法和HN-Att方法进行评测。每个实验在分别对迭代次数为20，25，30，35的情况进行了评测。如图2所示，本发明所提出的SC-WPAtt方法准确率高于HN-Att方法，说明本发明所提出的基于单词注意力机制的浅层特征提取模型和基于短语注意力机制的深层提取模型是有效的。说明它们考虑了单词、短语(组合单词)和整体评论所蕴含的辅助信息以及不同贡献程度，能够有效提升特征提取精度。如图3所示，本发明所提出的SC-WPAtt方法所用的训练时间低于HN-Att方法，说明引入TCN不仅能保持对序列特征提取的精度，还能简化网络结构占用更少的计算资源。

为了快速有效识别民众的情绪，为政府部门在COVID-19疫情期间有效引导舆论提供有效参考。本发明首先引入基于TCN构建了基础神经网络，在保持CNN较高特征提取精度的情况下，以更低的计算资源实现了对序列数据的处理。其次，提出基于单词注意力机制的浅层特征提取模型从单词级别提取细粒度的特征，最后提出基于短语注意力机制的深层特征提取模型，从粗粒度读取了短语以及整体评论的特征。实验表明，本发明所提的SC-WPAtt方法无论在正确率或者训练时长上都优于HN-Att方法。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种基于“单词-短语”注意力机制的情感分类***，其特征在于：其包括文本数据预处理模型、基于单词注意力机制的浅层特征提取模型、基于短语注意力机制的深层特征提取模型和情感分类预测器；

2.根据权利要求1所述的***，其特征在于，所述文本数据预处理模型采用Word2vec模型，具体用于：将每一个单词w映射为词向量e，其中，将第m个句子的第n个单词w_mn映射为了e_mn，且e_mn∈E_m，其中E_m为句子s_m的词向量。

3.根据权利要求2所述的***，其特征在于，所述基于单词注意力机制的浅层特征提取模型用于是构建Bi-GRU和构建单词注意力机制、提取单词不同的贡献程度；所述构建Bi-GRU具体包括：GRU由更新门z和重置门r组成，更新门z表示以前的状态信息

是否需要更新，重置门r表示以前的状态信息

是否需要重置，其原理如下公式所示：

z_t＝σ(W_zE_m+U_zh_t-1) (1)

r_t＝σ(W_tE_m+U_th_t-1) (2)

其中，

为向量元素乘积，σ(·)为logistic函数，

以及从句子s_m的最后1个单词w_mN到第1个单词w_i1的

经过公式(5)和公式(6)运算之后得到前向隐藏状态

以及后向隐藏状态

那么使用串联的方式计算得到当前时刻总的状态

u_mn＝tanh(W_wh_mn+b_w) (7)

其中，u_mn为打分权重，α_mn为选择h_mn的注意力分布，

表示h_mn被选中的概率。

4.根据权利要求3所述的***，其特征在于，所述基于短语注意力机制的深层特征提取模型采用时间卷积网络，具体用法为：已知

是浅层特征模型提取到的第m个句子的浅层特征，其中M为文本C中短语数量的最大值，对于评

论C则有输入序列与之对应的输出序列为

F^s＝Activation(F^w+F(F^w)) (11)

其中，

最后为了进一步挖掘评论C中不同短语

进行分析：

5.根据权利要求4所述的***，其特征在于，所述情感分类预测器具体用于：使用softmax函数作为预测器，先使用线性模型对F_m进行数据归一化，如下所示：

F′_m＝w′F_m+b′ (15)

Y′_m＝tanh(w″F′_m+b″) (16)

其中，w″和b″为可学习的参数。

6.根据权利要求1至5任一所述的***，其特征在于，所述基于“单词-短语”注意力机制的情感分类***还包括定义损失函数以及迭代训练优化模块，具体包括：采用交叉熵作为损失函数，该函数可有效优化分类问题，所述交叉熵函数如下所示：

其中，Y_m为与历史数据集对应的真实情感分类。

7.一种基于“单词-短语”注意力机制的情感分类方法，其特征在于，其包括以下步骤：

S1、对文本数据进行预处理，将每一个单词映射为词向量；

8.根据权利要求7所述的方法，其特征在于，所述S1采用Word2vec模型，将每一个单词w映射为词向量e，其中，将第m个句子的第n个单词w_mn映射为了e_mn，且e_mn∈E_m，其中E_m为句子s_m的词向量。

9.根据权利要求8所述的方法，其特征在于，所述S2包括构建Bi-GRU和构建单词注意力机制、提取单词不同的贡献程度；所述构建Bi-GRU具体包括：GRU由更新门z和重置门r组成，更新门z表示以前的状态信息

是否需要更新，重置门r表示以前的状态信息

是否需要重置，其原理如下公式所示：

z_t＝σ(W_zE_m+U_zh_t-1) (1)

r_t＝σ(W_tE_m+U_th_t-1) (2)

其中，

为向量元素乘积，σ(·)为logistic函数，

以及从句子s_m的最后1个单词w_mN到第1个单词w_i1的

经过公式(5)和公式(6)运算之后得到前向隐藏状态

以及后向隐藏状态

那么使用串联的方式计算得到当前时刻总的状态

u_mn＝tanh(W_wu_mn+b_w) (7)

其中，u_mn为打分权重，α_mn为选择h_mn的注意力分布，

表示h_mn被选中的概率。

10.根据权利要求9所述的方法，其特征在于，所述S3采用时间卷积网络，具体为：已知

与之对应的输出序列为

F^s＝Activation(F^w+F(F^w)) (11)

其中，

最后为了进一步挖掘评论C中不同短语

进行分析：

11.根据权利要求10所述的方法，其特征在于，所述S4使用softmax函数作为预测器，先使用线性模型对F_m进行数据归一化，如下所示：

F′_m＝w′F_m+b′ (15)

Y′_m＝tanh(w″F′_m+b″) (16)

其中，w″和b″为可学习的参数。

12.根据权利要求7至11任一所述的方法，其特征在于，，所述基于“单词-短语”注意力机制的情感分类方法还包括定义损失函数以及迭代训练优化，具体包括：采用交叉熵作为损失函数，该函数可有效优化分类问题，所述交叉熵函数如下所示：

其中，Y_m为与历史数据集对应的真实情感分类。