CN110427458A

CN110427458A - 基于双门lstm的社交网络双语的五分类情感分析方法

Info

Publication number: CN110427458A
Application number: CN201910596187.9A
Authority: CN
Inventors: 王永利; 彭姿容; 雷吉成; 杨辉; 刘森淼; 卜凡; 郭相威; 朱亚涛; 朱根伟; 张伟; 罗靖杰
Original assignee: Division Big Data Research Institute Co Ltd; Nanjing Tech University
Current assignee: Division Big Data Research Institute Co Ltd; Nanjing Tech University
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-11-08
Anticipated expiration: 2039-07-03
Also published as: CN110427458B

Abstract

本发明公开了一种基于双门LSTM的社交网络双语的五分类情感分析方法。该方法为：使用人工标注好的数据集作为初始训练数据集，对测试数据集进行数据清洗以及分词处理；构建双门LSTM网络模型，训练已标注好的五分类训练数据集，并构建英汉双语情感词词典，对数据集进行向量化处理，进而训练双门LSTM网络模型，对分词处理过的测试数据集进行情感特征分类，使用分类器选出情感置信度高的数据加入已标注的测试数据集中，作为新的训练数据集用于训练分类器，循环迭代，直至对所有未标注的测试数据集完成文本情感分类；使用训练好的网络模型，对输入文本进行感情特征分析。本发明能够对社交网络上用户的中英文评论信息进行准确的情感信息抽取和分析。

Description

基于双门LSTM的社交网络双语的五分类情感分析方法

技术领域

本发明涉及文本情感分类技术领域，特别是一种基于双门LSTM的社交网络双语的五分类情感分析方法。

背景技术

情感分析又称倾向性分析，是一种基于深度学习的分类方法。文本情感分析作为NLP的常见任务，具有很高的实际应用价值。一般的文本情感分析采用LSTM模型，对社交网络的用户评论训练一个二分类情感的分类器，来识别文本是积极的还是消极的。LSTM即Long Short Term Memory网络，是一种特殊的RNN类型，可以学习长期依赖信息。神经网络包含输入层、隐层和输出层，通过激活函数控制输出，层与层之间通过权值连接。激活函数是提前确定好的，神经网络模型通过训练“学”到的东西就蕴含在“权值”中。基础的神经网络只在层与层之间建立了权连接，RNN最大的不同之处就是在层之间的神经元之间也建立的权连接。

在社交网络上，现有的二分类方法只对文本的情感进行积极或者消极的判断，显而易见，这样的二分类方法对文本的感情分析不够全面，许多种类的情感难以得到剖析。虽然LSTM有很好的利用长距离历史信息的能力，但是它只能够利用一类数据，不能对多类数据进行很好的利用。

发明内容

本发明的目的在于提供一种能够准确、全面地对文本文档进行五种情感分析的基于双门LSTM的社交网络双语的五分类情感分析方法。

实现本发明目的的技术解决方案为：一种基于双门LSTM的社交网络双语的五分类情感分析方法，包括以下步骤：

步骤1、数据集的准备和预处理：准备一个训练数据集和一个测试数据集，对训练数据集进行五种情感happiness、sad、anger、fear、surprise的人工标注得到已标注的训练数据集，再对训练数据集进行数据清洗以及分词处理，并对分词处理后的数据进行去停用词处理，得到五分类训练数据集；

步骤2、网络模型构建：构建双门LSTM网络模型，包括2个输入门、2个遗忘门和1个输出门，能够同时接收处理两种数据，对中文文本和英文文本进行同时分析；

步骤3、网络模型训练：根据构建的双门LSTM网络模型，训练由步骤1得到的已做好人工标注的五分类训练数据集，用作训练初始的分类器，然后通过利用语料、已有知识库和词汇相似性计算模型，构建英汉双语情感词词典，对训练好的五分类数据集进行向量化处理，得到训练好的双门LSTM网络模型；

步骤4、网络模型测试：根据训练好的双门LSTM网络模型，对测试数据集进行分词处理，再对预处理过的测试数据集进行情感特征分析，将测试数据集中已分类的数据做好标记；首先利用半监督学习的self-training方法，将经过预处理的训练数据集作为初始训练集训练初始分类器，使用该分类器对测试数据集中未分类的数据进行情感预测，选出情感置信度高于设定值的数据加入已标记的测试数据集中，作为新的训练数据集，重新用新的训练数据集训练分类器，循环迭代，直至所有未标注过的测试数据集完成文本情感分类；

步骤5、情感特征分析：使用训练好的双门LSTM网络模型，对新的输入文本进行感情特征分析，判断该输入文本所属的类别，并输出分类结果。

进一步地，步骤1所述的数据集的准备和预处理，具体如下：

步骤1.1、将原始数据集人工标注成代表happiness、sad、anger、fear、surprise五种情感的初始训练数据集；

步骤1.2、根据人工标注好的初始训练数据集，对待训练数据集进行分词处理，中文数据使用jieba进行分词，英文数据根据空格进行词汇识别；

步骤1.3、对每一条分词处理后的数据进行去停用词处理，然后得到已经被正确切分的，能够用作模型训练的数据。

进一步地，步骤2所述的网络模型构建，具体如下：

构建双门LSTM网络模型，包括2个输入门、2个遗忘门和1个输出门，包含输入层、隐层和输出层，其中输入门的计算如式(1)(2)，遗忘门的计算如式(3)(4)，输出门的计算如式(5)：

i_tx＝σ(W_xix_t+U_hi ^xh_t-1 ^x+V_ci ^xc_t-1 ^x+b_i ^x) (1)

i_ty＝σ(W_yiy_t+U_hi ^yh_t-1 ^y+V_ci ^yc_t-1 ^y+b_i ^y) (2)

f_tx＝σ(W_xfx_t+U_hf ^xo_t-1 ^x+V_cf ^xc_t-1 ^x+b_f ^x) (3)

f_ty＝σ(W_yfy_t+U_hf ^yo_t-1 ^y+V_cf ^yc_t-1 ^y+b_f ^y) (4)

o_t＝σ(W_xox_t++W_yoy_t+U_ho ^xo_t-1 ^x+U_ho ^yo_t-1 ^y+V_coc_t-1+b_o) (5)

其中，t表示当前时刻，t-1为上一时刻，i_tx、i_ty分别代表两个输入门的计算方法，f_tx、f_ty分别代表两个遗忘门的计算方法，o_t表示输出门的计算方法；σ()为sigmoid函数，x_t、y_t分别对应这一时刻x、y方向上的输入，o_t-1 ^x为上一时刻x方向的输出门计算，o_t-1 ^y为上一时刻y方向的输出门计算，h_t-1 ^x、h_t-1 ^y分别为上一时刻输出在x、y方向的分量，c_t-1 ^x、c_t-1 ^y分别为记忆单元上一时刻在x、y方向分量的值；为x方向输入门的偏置向量、为y方向输入门的偏置向量、为x方向遗忘门的偏置向量，为y 方向遗忘门的偏置向量，b_o为输出门的偏置向量，W_xi为x方向连接输入门的权重、 W_yi为x方向连接输入门的权重、W_xf为x方向连接遗忘门的权重、W_yf为y方向连接遗忘门的权重、W_xo为x方向连接输出门的权重、W_yo为y方向连接输出门的权重；输入门计算后在x方向上的权重、为输入门计算后在y方向上的权重、为遗忘门计算后在x方向上的权重、为遗忘门计算后在y方向上的权重、U_ho ^x为输出门计算后在x方向上的权重、为输出门计算后在y方向上的权重；输入门x方向连接记忆单元的权重、输入门y方向连接记忆单元的权重、遗忘门x方向连接记忆单元的权重、遗忘门y方向连接记忆单元的权重、V_co输出门连接记忆单元的权重；c_t-1表示t-1时刻记忆单元的计算方法。

进一步地，步骤3所述通过利用语料、已有知识库和词汇相似性计算模型，构建英汉双语情感词词典，对训练好的五分类数据集进行向量化处理，所用工具为gensim里的Word2vec以及Dictionary，具体如下：

设D＝{d1，d2，...，dn}是做过预处理操作的全部训练数据集数据的集合，其中di是训练数据集中的第i条数据的向量表示，则对于训练数据集中的任一条文本数据 di＝{w1，w2，w3，w4，w5}，其中w1，w2，w3，w4，w5表示该条文本数据中对应的 happiness、sad、anger、fear、surprise五类情感词的个数，因此每条数据均以5维向量表示。

进一步地，步骤4所述的网络模型测试，具体如下：

步骤4.1、根据训练好的双门LSTM网络模型，对步骤1中分词处理后的测试数据集进行情感特征分析，判断出每条数据所属的类别，将数据分为已标注五分类测试集的数据和未标注的测试集数据；

步骤4.2、使用半监督学习的self-trainning方法，将经过预处理的训练数据集作为初始训练集训练初始分类器，使用该分类器对测试数据集中未分类的数据进行情感预测，选出情感置信度高于设定值的数据加入已标注的测试数据集中，作为新的训练数据集；

步骤4.3、用新的训练数据集继续训练分类器，然后进行循环迭代，直至未标注的测试数据集完成文本情感分类。

进一步地，步骤5所述的情感特征分析，具体如下：

步骤5.1、根据训练好的双门LSTM网络模型，对输入文本进行情感特征分析，首先提取出输入文本的内容，并将输入文本的每条内容转换为列表；

步骤5.2、每行对应列表里的一个元素，对列表的每个元素都判断该元素所属的类别，情感分类评价标准使用准确率precision、召回率recall、和F值F-measure来评价分类结果，计算公式如下：

precision＝TP/(TP+FP) (6)

recall＝TP/(TP+FN) (7)

F＝2*recall*precision/(recall+precision) (8)

其中，TP为将正类预测为正类数目，FN为将正类预测为负类的数目，FP为将负类预测位正类的数目；

步骤5.3、输出分类结果。

本发明与现有技术相比，其显著优点在于：(1)构建双门LSTM网络模型，并构建英汉双语情感词词典，进而训练双门LSTM网络模型，对分词处理过的测试数据集进行情感特征分类，能够对社交网络上用户的中英文评论信息进行情感信息的全面、准确的抽取和分析；(2)将情感分析的文本分为happiness、sad、anger、fear、surprise五类，实现了多分类，且方法简单、实用性强。

附图说明

图1是本发明基于双门LSTM的社交网络双语的五分类情感分析方法的流程图。

图2是本发明中双门LSTM网络模型的结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

结合图1，本发明基于双门LSTM的社交网络双语的五分类情感分析方法，步骤为：

步骤1、数据集的准备和预处理，准备一个训练数据集和一个测试数据集，对训练数据集进行五种情感happiness、sad、anger、fear、surprise的人工标注得到已标注的训练数据集，再对训练数据集进行数据清洗以及分词处理，并对分词处理后的数据进行去停用词处理，得到五分类训练数据集，具体如下：

步骤1.1、将原始数据集划分成代表happiness、sad、anger、fear、surprise五种情感的训练数据集；

进一步地，针对目前社交网络中存在大量的中英文混合的文本数据，原始数据集为包含中文和英文双语的情感词文本；

步骤1.2、根据人工标注好的代表五种情感的训练数据集，对测试数据集进行分词处理，中文数据使用jieba进行分词，英文数据根据空格进行词汇识别；

步骤1.3、对每一条分词处理后的数据进行去停用词处理，如：“的”、“a”、“t he”等，然后得到已经被正确切分的，可用作模型训练的数据。

步骤2、网络模型构建：构建双门LSTM网络模型，包括2个输入门、2个遗忘门和1个输出门，能够同时接收处理两种数据，对中文文本和英文文本进行同时分析，具体如下：

构建双门LSTM网络模型，如图2所示，双门LSTM网络模型包括2个输入门、2 个遗忘门和1个输出门，包含输入层、隐层和输出层，其中输入门的计算如式(1)(2)，遗忘门的计算如式(3)(4)，输出门的计算如式(5)：

i_tx＝σ(W_xix_t+U_hi ^xh_t-1 ^x+V_ci ^xc_t-1 ^x+b_i ^x) (1)

i_ty＝σ(W_yiy_t+U_hi ^yh_t-1 ^y+V_ci ^yc_t-1 ^y+b_i ^y) (2)

f_tx＝σ(W_xfx_t+U_hf ^xo_t-1 ^x+V_cf ^xc_t-1 ^x+b_f ^x) (3)

f_ty＝σ(W_yfy_t+U_hf ^yo_t-1 ^y+V_cf ^yc_t-1 ^y+b_f ^y) (4)

o_t＝σ(W_xox_t++W_yoy_t+U_ho ^xo_t-1 ^x+U_ho ^yo_t-1 ^y+V_coc_t-1+b_o) (5)

构建的双门LSTM网络模型包含两个输入门和两个遗忘门可以同时接收处理两种数据，可以同时对中文文本和英文文本进行分析，提升了社交网络中存在的大量中英文混合文本的情感分析的准确性。

步骤3、网络模型训练，根据构建的双门LSTM网络模型，训练由步骤1得到的已做好人工标注的五分类训练数据集，用作训练初始的分类器，然后通过利用语料、已有知识库和词汇相似性计算模型，构建英汉双语情感词词典，对训练好的五分类数据集进行向量化处理，得到训练好的双门LSTM网络模型，具体如下：

步骤3.1、使用构建的双门LSTM网络模型，训练已标注好的五分类训练数据集，作为初始的训练分类器；

为了防止模型过度拟合，训练的样本不能太小；

步骤3.2、通过利用大量语料、已有知识库、词汇相似性计算模型，构建英汉双语情感词词典，进而对训练数据集进行向量化处理，得到训练好的双门LSTM网络模型；进一步地，向量化处理用到的工具为gensim里的Word2vec以及Dictionary，具体如下：设D＝{d1，d2，...，dn}是做过预处理操作的训练数据集的集合，其中di是训练数据集中的第i条数据的向量表示，则对于训练数据集中的任一条文本数据di＝{w1，w2，w3， w4，w5}，其中w1，w2，w3，w4，w5表示该条文本数据中对应的happiness、sad、anger、fear、surprise五类情感词的个数，因此每条数据均以5维向量表示。。

步骤5、情感特征分析：使用训练好的双门LSTM网络模型，对新的输入文本进行感情特征分析，判断该输入文本所属的类别，并输出分类结果，具体如下：

precision＝TP/(TP+FP) (6)

recall＝TP/(TP+FN) (7)

F＝2*recall*precision/(recall+precision) (8)

其中，TP为将正类预测为正类数目，FN为将正类预测为负类的数目，FP为将负类预测位正类的数目。

步骤5.3、输出分类结果。

本发明通过构建双门LSTM网络模型，并构建英汉双语情感词词典，进而训练双门LSTM网络模型，对分词处理过的测试数据集进行情感特征分类，能够对社交网络上用户的中英文评论信息进行情感信息的全面、准确的抽取和分析。

Claims

1.一种基于双门LSTM的社交网络双语的五分类情感分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法，其特征在于，步骤1所述的数据集的准备和预处理，具体如下：

3.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法，其特征在于，步骤2所述的网络模型构建，具体如下：

i_tx＝σ(W_xix_t+U_hi ^xh_t-1 ^x+V_ci ^xc_t-1 ^x+b_i ^x) (1)

i_ty＝σ(W_yiy_t+U_hi ^yh_t-1 ^y+V_ci ^yc_t-1 ^y+b_i ^y) (2)

f_tx＝σ(W_xfx_t+U_hf ^xo_t-1 ^x+V_cf ^xc_t-1 ^x+b_f ^x) (3)

f_ty＝σ(W_yfy_t+U_hf ^yo_t-1 ^y+V_cf ^yc_t-1 ^y+b_f ^y) (4)

o_t＝σ(W_xox_t++W_yoy_t+U_ho ^xo_t-1 ^x+U_ho ^yo_t-1 ^y+V_coc_t-1+b_o) (5)

其中，t表示当前时刻，t-1为上一时刻，i_tx、i_ty分别代表两个输入门的计算方法，f_tx、f_ty分别代表两个遗忘门的计算方法，o_t表示输出门的计算方法；σ()为sigmoid函数，x_t、y_t分别对应这一时刻x、y方向上的输入，o_t-1 ^x为上一时刻x方向的输出门计算，o_t-1 ^y为上一时刻y方向的输出门计算，h_t-1 ^x、h_t-1 ^y分别为上一时刻输出在x、y方向的分量，c_t-1 ^x、c_t-1 ^y分别为记忆单元上一时刻在x、y方向分量的值；为x方向输入门的偏置向量、为y方向输入门的偏置向量、为x方向遗忘门的偏置向量，为y方向遗忘门的偏置向量，b_o为输出门的偏置向量，W_xi为x方向连接输入门的权重、W_yi为x方向连接输入门的权重、W_xf为x方向连接遗忘门的权重、W_yf为y方向连接遗忘门的权重、W_xo为x方向连接输出门的权重、W_yo为y方向连接输出门的权重；输入门计算后在x方向上的权重、为输入门计算后在y方向上的权重、为遗忘门计算后在x方向上的权重、为遗忘门计算后在y方向上的权重、U_ho ^x为输出门计算后在x方向上的权重、为输出门计算后在y方向上的权重；输入门在x方向连接记忆单元的权重、输入门在y方向连接记忆单元的权重、遗忘门在x方向连接记忆单元的权重、遗忘门在y方向连接记忆单元的权重、V_co输出门连接记忆单元的权重；c_t-1表示t-1时刻记忆单元的计算方法。

4.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法，其特征在于，步骤3所述通过利用语料、已有知识库和词汇相似性计算模型，构建英汉双语情感词词典，对训练好的五分类数据集进行向量化处理，所用工具为gensim里的Word2vec以及Dictionary，具体如下：

设D＝{d1，d2，...，dn}是做过预处理操作的全部训练数据集数据的集合，其中di是训练数据集中的第i条数据的向量表示，则对于训练数据集中的任一条文本数据di＝{w1，w2，w3，w4，w5}，其中w1，w2，w3，w4，w5表示该条文本数据中对应的happiness、sad、anger、fear、surprise五类情感词的个数，因此每条数据均以5维向量表示。

5.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法，其特征在于，步骤4所述的网络模型测试，具体如下：

6.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法，其特征在于，步骤5所述的情感特征分析，具体如下：

precision＝TP/(TP+FP) (6)

recall＝TP/(TP+FN) (7)

F＝2*recall*precision/(recall+precision) (8)

步骤5.3、输出分类结果。