CN108763204A

CN108763204A - 一种多层次的文本情感特征提取方法和模型

Info

Publication number: CN108763204A
Application number: CN201810489647.3A
Authority: CN
Inventors: 沈海斌; 刘蕊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2018-11-06

Abstract

本发明公开了一种多层次的文本情感特征提取方法和模型，将文本中的词进行实数化向量表示。通过利用word2vec工具训练出分布式词向量，在分布式词向量中增加词的情感信息和词性信息形成新的词向量，并引入Bi‑LSTM网络提取词的上下文信息，形成融合词的语义信息、情感信息、词性信息和上下文信息的特征向量，将获得的特征向量输入到注意力机制中，通过训练注意力权重参数，自适应的选择出与当前输出相关的显著信息，累加求和生成句子向量，将句子向量并行的输入到CNN网络中，利用其高度位移不变性的优势，提取句子的结构信息。本发明实现了同时提取词序列和句子间信息，有效的减少文本信息的丢失，实现了多层次提取文本特征，提高了文本情感分类的准确率。

Description

一种多层次的文本情感特征提取方法和模型

技术领域

本发明涉及自然语言理解领域，具体而言，涉及一种多层次的文本情感特征提取方法和模型。

背景技术

文本分类技术是自然语言处理(Natural Language Processing，NLP)领域中一种研究文本表达信息的识别和量化技术，能够快速准确的筛选出有效信息。在中文文本情感分类中，文本特征不仅包括词的语义信息、情感信息、词性信息以及上下文信息，还包括句子间的结构信息。分布式词向量仅包含词的语义信息，而情感词典表示的向量具有语义鸿沟。同时目前常见的文本情感特征提取方法不能同时提取词序列和句子间信息。对这些不足之处进行改进，成为本发明的主要内容。

发明内容

本发明针对分布式词向量缺乏词的情感信息和词性信息，以及现有文本情感特征提取方法不能同时提取词序列和句子间信息，提出一种多层次的文本情感特征提取模型，实现多层次提取文本信息，提高分类准确性。

本发明的一种多层次的文本情感特征提取方法，包括如下步骤：

1)将经过预处理后的词序列表示为特征向量；

利用word2vec工具中的Skip-gram模型训练出包含词的语义信息的低维实数向量W；

利用词性标注工具标注词的词性信息

利用情感词典(5)标注词的情感倾向，并用0/1值抽象化表示为特征向量P；

2)将W和P进行拼接操作，形成包含词的语义信息、情感信息以及词性信息的词向量(8)，

3)将该词向量(8)输入到Bi-LSTM网络中，提取词的上下文信息，从而使词序列层输出融合词的语义信息、情感信息、词性信息和上下文信息的特征向量；

4)将步骤3)获得的特征向量输入到注意力机制中，通过训练注意力权重参数，自适应的选择出与当前输出相关的显著信息，累加求和生成句子向量，将句子向量并行的输入到CNN网络中，利用其高度位移不变性的优势，提取句子的结构信息。

优选的，所述的词的词性信息包括否定词、动词、名词、形容词、转折词以及程度副词。

优选的，所述的预处理包括消除文本格式、分词处理和去噪声词。

本发明有益效果：本发明的一种多层次的文本情感特征提取模型通过词序列层提取文本中词的语义信息、情感信息、词性信息和上下文信息，并利用句子结构层降低数据维度同时提取文本的空间结构信息，从而实现了多层次提取文本特征，完成对文本情感特征提取方法的优化，提高了文本情感分类的准确率。

附图说明

图1为本发明一种多层次的文本情感特征提取模型的原理结构图。

具体实施方式

下面根据说明书附图，对本发明进一步说明：

由于文本中存在大量的噪声，因此在文本情感分类前，需要对文本数据进行预处理。中文文本预处理一般包括(1)消除文本格式，由于获取的文本训练数据带有文档格式，而且存在格式不统一的问题，为尽可能提高文本情感分类的效果，减少无关因素的干扰，需要对文本数据去除格式；(2)分词处理，词作为文本情感数据中最小的独立单元，按照一定的语法结构和规则构成文本，因此词所蕴含的情感色彩决定着整个文本的情感倾向。英文文本中，词与词中间书写是有空格的，但中文文本中没有，因此需对中文文本进行分词；(3)去噪声词，主要是去除文本数据中没有实际意义的功能词，如语气助词“啦”、“啊”，代词“这个”、“那个”等，这些噪声词在文本数据中出现频率很高，但是并不能传达文本情感的信息，此外，文本数据中的标点符号及一些数字字符均为文本数据噪音。为了降低文本数据的噪音，提高文本情感分类的准确性，需要去除文本数据中无意义的噪声词；通过文本预处理工作可以减少文本分类训练过程中耗时，提升训练速度。

多层次的文本情感特征提取方法包括如下步骤：

1)将经过预处理后的词序列表示为特征向量；

利用词性标注工具标注词的词性信息

参照图1，一种多层次的文本情感特征提取模型，利用word2vec工具、情感词典、词性标注工具以及神经网络实现多层次提取文本特征，对文本情感特征提取方法进行优化，主要包括词序列层(1)和句子结构层(2)。

词序列层将文本中的词进行实数化向量表示。通过利用word2vec工具训练出分布式词向量，在分布式词向量中增加词的情感信息和词性信息形成新的词向量，并引入Bi-LSTM网络提取词的上下文信息，形成融合词的语义信息、情感信息、词性信息和上下文信息的特征向量。

在本发明的一个具体实施例中，词序列层(1)将经过预处理后的词序列表示为特征向量。利用word2vec工具(3)中的Skip-gram模型训练出包含词的语义信息的低维实数向量W(6)；利用词性标注工具(4)标注词的词性信息，包括否定词、动词、名词、形容词、转折词以及程度副词，从而解决一词多义的问题，同时利用情感词典(5)标注词的情感倾向，并用0/1值抽象化表示为P(7)。将W(6)和P(7)进行拼接操作，形成包含词的语义信息、情感信息以及词性信息的词向量(8)，将该词向量(8)输入到Bi-LSTM网络中，来提取词的上下文信息，从而使词序列层(1)输出融合词的语义信息、情感信息、词性信息和上下文信息的特征向量。

句子结构层通过区分词序列层输出的特征向量信息的主次地位，有侧重的筛选与当前输出相关的显著信息，求和生成句子向量，并发挥CNN网络权重共享和高度位移不变性的优势，并行处理句子向量，提取文本的空间结构信息。

在本发明的一个具体实施例中，句子结构层(2)在词序列层(1)的基础上提取句子间结构特征，实现多层次提取文本信息。将词序列层(1)的特征向量输入到注意力机制中，通过训练注意力权重参数，自适应的选择出与当前输出相关的显著信息，累加求和生成句子向量(9)，将句子向量(9)并行的输入到CNN网络中，利用其高度位移不变性的优势，提取句子的结构信息。

本发明的注意力机制具有以下优势：(1)减轻计算的复杂度；通过有侧重的选取输入的特征向量，降低向量数据的维度，进而减轻计算量；(2)去冗余；将注意力机制应用到深度神经网络中，让神经网络自适应的筛选出输入向量中与当前输出显著相关的特征，从而摒弃冗余信息。

e_i＝tanh(W_hh_i+b_h)，e_i∈[-1,1] (2.10)

其中，W_h，b_h为注意力机制中的参数，在训练过程中不断更新。h_i为注意力机制输入的向量。

将注意力机制与Bi-LSTM网络相结合，在训练过程中，注意力机制层可以自适应的选择出与当前输出相关的显著信息，训练出词向量的注意力权重参数α_t，且权重参数满足∑α_t＝1的条件，将词序列向量求和计算出句子的特征向量r，实现摒弃冗余信息的目的。

本发明采用中文文本情感语料集——酒店评论语料(ChnSentiCrop)，包含积极和消极评论共计10000条，训练测试一种多层次的文本情感特征提取模型，并采用F1-measure、准确率以及单次Epoch训练所用时间多角度评价本发明提出的模型。利用整个语料集训练三种词向量维度(128、256、512维)的word2vec模型，采用子集ChnSentiCrop-Htl-ba-6000(包含积极文本3000和消极文本3000)训练本发明的对一种多层次的文本情感特征提取模型，并利用ChnSentiCrop-Htl-ba-2000(包含积极文本1000和消极文本1000)测试验证本发明所提出模型的有效性，其实验数据结果如下。

上表格中TP为true positives，表示文本情感分类实验中积极的文本被正确判定为积极的文本；FP为false positives，表示文本情感份分类实验中消极的文本被错误判定为积极的文本；FN为false negatives，表示文本情感分类实验中积极的文本被错误判定为消极的文本；TN为true negatives，表示文本情感分类实验中消极的文本被正确判定为消极的文本。

根据模型评价指标F1-measure，在三种词向量维度下，本发明的模型分类效果都有了很大提升，不仅能够利用Bi-LSTM网络学习词序列的上下文信息，而且利用CNN网络提取句子间的结构信息，实现多层次提取文本信息，有效减少了文本信息的丢失，提升了分类效果。且在词向量维度为256和512时，本发明所提出的准确率和F1-measure基本相同，说明注意力机制能自适应的选取文本的显著特征，达到降低数据维度实现去冗余的效果；而在词向量维度为128时，本发明所提出模型的单次Epoch所用时间是最短，但其分类准确率和F1-measure略低些。综上所述，本发明提出的一种多层次的文本情感特征提取模型可以实现从词序列、句子结构的多层次提取文本特征，减少文本信息的丢失，提高分类的效果。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种多层次的文本情感特征提取方法，其特征在于包括如下步骤：

1)将经过预处理后的词序列表示为特征向量；

利用词性标注工具标注词的词性信息

2.根据权利要求1所述的多层次的文本情感特征提取方法，其特征在于所述的词的词性信息包括否定词、动词、名词、形容词、转折词以及程度副词。

3.根据权利要求1所述的多层次的文本情感特征提取方法，其特征在于所述的预处理包括消除文本格式、分词处理和去噪声词。

4.一种多层次的文本情感特征提取模型，其特征在于包括词序列层(1)和句子结构层(2)；

所述的词序列层(1)将经过预处理后的词序列表示为特征向量，利用word2vec工具(3)中的Skip-gram模型训练出包含词的语义信息的低维实数向量W(6)；利用词性标注工具(4)标注词的词性信息，，同时利用情感词典(5)标注词的情感倾向，并用0/1值抽象化表示为P(7)；将W(6)和P(7)进行拼接操作，形成包含词的语义信息、情感信息以及词性信息的词向量(8)，将该词向量(8)输入到Bi-LSTM网络中，来提取词的上下文信息，从而使词序列层(1)输出融合词的语义信息、情感信息、词性信息和上下文信息的特征向量；

所述的句子结构层(2)在词序列层(1)的基础上提取句子间结构特征，实现多层次提取文本信息，句子结构层(2)将词序列层(1)的特征向量输入到注意力机制中，通过训练注意力权重参数，自适应的选择出与当前输出相关的显著信息，累加求和生成句子向量(9)，将句子向量(9)并行的输入到CNN网络中，利用其高度位移不变性的优势，提取句子的结构信息。