CN110263165A

CN110263165A - 一种基于半监督学习的用户评论情感分析方法

Info

Publication number: CN110263165A
Application number: CN201910517475.0A
Authority: CN
Inventors: 黄礼潇; 常会友
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-09-20

Abstract

本发明提供一种基于半监督学习的用户评论情感分析方法，该方法采用预训练词嵌入层、双向LSTM层以及最大池化层，能有效提取语料的上下文语义特征。在无标注数据上训练被限制部分信息的辅助模块，使其输出尽可能接近有完全信息输入的主模块。由于主模块与辅助模块共享由Encoder网络输出的中间表征，对辅助模块的训练可增强Encoder网络的上下文语义特征提取能力。相比于现有的深度学习技术，能有效利用现实环境中大量存在的无标注数据，降低模型训练对标注数据的依赖，降低人工标注数据的成本。

Description

一种基于半监督学习的用户评论情感分析方法

技术领域

本发明涉及自然语言处理领域，更具体地，涉及一种基于半监督学习的用户评论情感分析方法。

背景技术

用户评论是企业竞争情报分析重要的数据源，这些评论中包含用户对产品各个方面的情感倾向，充分挖掘消费者的喜好偏爱对商家具有重要的意义。但是目前互联网上的信息量增长迅速,迫切需要借助自动化工具，在海量文本数据中迅速获取真正需要的情感信息,从而应对信息***带来的挑战。

情感分析,就是利用计算机学科的自然语言处理技术，对这些信息进行有效的分析和挖掘,识别出其情感趋向。传统的情感分析方法分为两种类型：无监督的文本情感分析和有监督的文本情感分析。无监督的文本情感分析主要是运用情感词的相关信息进行文本情感倾向判别,有监督的文本情感分析主要是运用朴素贝叶斯、支持向量机等有监督学习算法进行情感分类,一般是将文本集合划分为训练集和测试集,再对文本分词处理、删除停用词、选取特征,将文本表示成为文本向量的形式,最后训练分类器并进行分析。近年来深度学习的兴起为情感分析提供了新方法，大大提升情感分析的准确性。深度学习本质上是构建含有多隐层的机器学习架构模型，通过大规模数据进行训练，得到大量更具代表性的特征信息。从而对样本进行分类和预测，提高分类和预测的精度。

深度学习模型具有很强的表达能力，然而训练深度学习模型需要大量的标注数据，否则会出现过拟合现象。在现实应用中往往能容易地收集到大量无标注数据，而获取标注却需耗费人力、物力。“标注数据少，无标注数据多”的现象，使深度学习在用户评价情感分析问题的应用受到限制。

发明内容

本发明提供一种准确率较高基于半监督学习的用户评论情感分析方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于半监督学习的用户评论情感分析方法，其特征在于，包括以下步骤：

S1：搭建用于特征提取的神经网络Encoder；

S2：搭建用于情感分类的主模块C1；

S3：搭建用于辅助训练的辅助模块C2、C3、C4；辅助模块只在训练阶段使用；辅助模块从主模块预测中学习的过程，改善Encoder网络的特征提取能力；

S4:对收集到的数据集进行预处理；

S5:模型在小批量标注数据和无标注数据上交替训练；在标注数据上训练主模块C1和Encoder网络，在无标注数据上训练辅助模块C2、C3、C4和Encoder网络；

S6：使用训练完成的Encoder网络和主模块C1进行情感分析。

进一步地，所述步骤S1的具体过程是：

S11：搭建Encoder网络的第一层词嵌入层，并使用fastTest预训练词嵌入矩阵初始化词嵌入层的参数，将单词序列(w₁,w₂,……,w_T)作为该层输入，将词嵌入后的词向量(v₁,v₂,……,v_T)作为该层输出；

S12：搭建Encoder网络的第二层双向LSTM层，将词嵌入层的输出作为该层的输入，在每个时间步t，前向LSTM输出表示为后向LSTM输出表示为t∈[1,T]；

S13：搭建Encoder网络的第三层最大池化层，将每个时间步的前向LSTM输出和后向LSTM输出连接起来，表示为t∈[1,T]，将h_t序列作为最大池化层的输入，获得单词序列的特征表示h^l。

进一步地，所述步骤S2的具体过程是：

主模块C1包括一个全连接层与一个softmax层，将Encoder网络中最大池化层的输出h^l作为主模块C1的输入，softmax层的输出为主模块C1计算出的情感类别概率分布，在训练阶段，该概率分布用于计算损失函数，在实际预测阶段，将概率最大的情感类别作为情感分类结果。

进一步地，所述步骤S3的具体过程是：

S31：辅助模块C2包括一个全连接层与一个softmax层，将T时刻Encoder网络中前向LSTM的输出作为辅助模块C2的输入，softmax层的输出为辅助模块C2计算出的情感类别概率分布，该概率分布仅用于在训练阶段计算损失函数；

S32：辅助模块C3包括一个全连接层与一个softmax层，将T时刻Encoder网络中后向LSTM的输出作为辅助模块C3的输入，softmax层的输出为辅助模块C3计算出的情感类别概率分布，该概率分布仅用于在训练阶段计算损失函数；

S33:辅助模块C4包括一个全连接层与一个softmax层，将T时刻Encoder网络中前向LSTM的输出和后向LSTM的输出连接起来，表示为作为辅助模块C4的输入，softmax层的输出为辅助模块C4计算出的情感类别概率分布，该概率分布仅用于在训练阶段计算损失函数。

进一步地，所述步骤S4的具体过程是：所使用的语料包括标注数据和无标注数据；无标注数据全部作为训练集，标注数据划分为训练集和测试集，对语料进行分词、去停用词和标点符号处理，并填充或截断成相同长度。

进一步地，所述步骤S5的具体过程是：

S51：使用标注数据在主模块C1上进行标准监督学习，将文本输入Encoder网络，得到中间表征，主模块C1利用中间表征进行预测，计算主模块预测结果与标注之间的交叉熵损失，并使用梯度下降算法更新主模块参数和Encoder网络参数；

S52：使用无标注数据训练模型，先将文本输入Encoder网络，得到中间表征，主模块C1和辅助模块分别利用中间表征和中间表征的子集进行预测，得出主模块C1和辅助模块的预测结果，将主模块预测结果作为伪标注，计算辅助模块预测结果与伪标注之间的交叉熵损失，并使用梯度下降算法更新辅助模块参数和Encoder网络参数，由于主模块与辅助模块共享Encoder网络，因此主模块的预测效果得到提升。

与现有技术相比，本发明技术方案的有益效果是：

本发明采用预训练词嵌入层、双向LSTM层以及最大池化层，能有效提取语料的上下文语义特征。在无标注数据上训练被限制部分信息的辅助模块，使其输出尽可能接近有完全信息输入的主模块。由于主模块与辅助模块共享由Encoder网络输出的中间表征，对辅助模块的训练可增强Encoder网络的上下文语义特征提取能力。相比于现有的深度学习技术，能有效利用现实环境中大量存在的无标注数据，降低模型训练对标注数据的依赖，降低人工标注数据的成本。

附图说明

图1为本发明流程示意图；

图2为本发明的Encoder网络结构示意图；

图3为本发明的预测模块结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施所采用的数据集是斯坦福大学提供的IMDB电影评论数据集，包含25000条训练数据和25000条测试数据，另外包含约50000条没有标注的辅助数据。训练集和测试集又分别包含12500条正例(正向评价pos)和12500负例(负向评价neg)

如图1所示，本发明具体方法步骤如下：

第一步，根据图2搭建用于特征提取的神经网络Encoder，使用fastTest预训练词嵌入矩阵初始化词嵌入层的参数。Encoder网络对文本数据的处理过程为：将单词序列(w₁,w₂,……,w_T)输入Encoder网络。词嵌入层可将单词序列映射到稠密维度空间，得到词向量(v₁,v₂,……,v_T)。将词向量(v₁,v₂,……,v_T)输入双向LSTM层。每个时间步t，将前向LSTM输出表示为将后向LSTM输出表示为t∈[1,T]。将每个时间步的前向LSTM输出和后向LSTM输出连接起来，表示为t∈[1,T]。将h_t序列输入最大池化层，输出上下文语义表征h^l。

第二步，根据图3搭建用于分类的主模块C1。主模块C1包括一个全连接层与一个softmax层，将Encoder网络中最大池化层的输出h^l作为主模块C1的输入。softmax层的输出为主模块C1计算出的情感类别概率分布。计算公式如式(1)：

其中，n为输出层神经元的个数，z是一个n维的向量，表示的是全连接层的输出(softmax层的输入)。P(i)表示是第i类的概率。

第三步，根据图3搭建用于辅助训练的辅助模块C2、C3、C4。

辅助模块C2包括一个全连接层与一个softmax层，将Encoder网络中T时刻前向LSTM的输出作为辅助模块C2的输入。softmax层的输出为辅助模块C2计算出的情感类别概率分布。计算公式如式(1)。

辅助模块C3包括一个全连接层与一个softmax层，将Encoder网络中T时刻后向LSTM的输出作为辅助模块C3的输入。softmax层的输出为辅助模块C3计算出的情感类别概率分布。计算公式如式(1)。

辅助模块C4包括一个全连接层与一个softmax层。将Encoder网络中T时刻前向LSTM的输出和后向LSTM的输出连接起来，表示为作为辅助模块C4的输入。softmax层的输出为辅助模块C4计算出的情感类别概率分布。计算公式如式(1)。

第四步，对收集到的数据集进行预处理。对原始文本语料做分词、去停用词和标点符号等预处理操作。根据文本语料中的词，制作词表，将语料的词序列转为索引序列。

第五步，使用预处理后的数据集对模型进行训练。

使用标注数据训练模型。将第四步得到的训练集索引序列输入Encoder网络，得到中间表征。主模块C1利用中间表征进行预测。计算主模块预测结果与标注之间的交叉熵损失，并使用梯度下降算法更新主模块参数和Encoder网络参数。交叉熵损失函数计算公式如式(2)：

其中，指的是预测值(softmax层的输出)。y指的是真实值，是一个One-Hot编码后的n维向量。

使用无标注数据训练模型。将第四步得到的无标注数据索引序列输入Encoder网络，得到中间表征。主模块C1和辅助模块分别利用中间表征和中间表征的子集进行预测，得出主模块C1和辅助模块的预测结果。将主模块预测结果作为伪标注，计算辅助模块预测结果与伪标注之间的交叉熵损失，并使用梯度下降算法更新辅助模块参数和Encoder网络参数。交叉熵损失函数计算公式如式(3)：

其中，指的是辅助模块预测值(辅助模块softmax层的输出)。y指的是伪标签，即主模块预测值(主模块softmax层的输出)。

模型在标注数据和无标注数据上进行交替训练。

第六步，训练完成的模型可用于情感分类。将待分类语句输入模型，主模块的输出即为情感类别概率分布。选择概率最大值对应下标，即可得到对该语句的分类结果。

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于半监督学习的用户评论情感分析方法，其特征在于，包括以下步骤：

S1：搭建用于特征提取的神经网络Encoder；

S2：搭建用于情感分类的主模块C1；

S4：对收集到的数据集进行预处理；

S5：模型在小批量标注数据和无标注数据上交替训练；在标注数据上训练主模块C1和Encoder网络，在无标注数据上训练辅助模块C2、C3、C4和Encoder网络；

S6：使用训练完成的Encoder网络和主模块C1进行情感分析。

2.根据权利要求1所述的基于半监督学习的用户评论情感分析方法，其特征在于，所述步骤S1的具体过程是：

S11：搭建Encoder网络的第一层词嵌入层，并使用fastTest预训练词嵌入矩阵初始化词嵌入层的参数，将单词序列(w₁，w₂，......，w_T)作为该层输入，将词嵌入后的词向量(v₁，v₂，......，v_T)作为该层输出；

S12：搭建Encoder网络的第二层双向LSTM层，将词嵌入层的输出作为该层的输入，在每个时间步t，前向LSTM输出表示为后向LSTM输出表示为

S13：搭建Encoder网络的第三层最大池化层，将每个时间步的前向LSTM输出和后向LSTM输出连接起来，表示为将h_t序列作为最大池化层的输入，获得单词序列的特征表示h^l。

3.根据权利要求2所述的基于半监督学习的用户评论情感分析方法，其特征在于，所述步骤S2的具体过程是：

4.根据权利要求3所述的基于半监督学习的用户评论情感分析方法，其特征在于，所述步骤S3的具体过程是：

S33：辅助模块C4包括一个全连接层与一个softmax层，将T时刻Encoder网络中前向LSTM的输出和后向LSTM的输出连接起来，表示为作为辅助模块C4的输入，softmax层的输出为辅助模块C4计算出的情感类别概率分布，该概率分布仅用于在训练阶段计算损失函数。

5.根据权利要求4所述的基于半监督学习的用户评论情感分析方法，其特征在于，所述步骤S4的具体过程是：所使用的语料包括标注数据和无标注数据；无标注数据全部作为训练集，标注数据划分为训练集和测试集，对语料进行分词、去停用词和标点符号处理，并填充或截断成相同长度。

6.根据权利要求5所述的基于半监督学习的用户评论情感分析方法，其特征在于，所述步骤S5的具体过程是：