CN108108351B

CN108108351B - 一种基于深度学习组合模型的文本情感分类方法

Info

Publication number: CN108108351B
Application number: CN201711268380.7A
Authority: CN
Inventors: 邓辉舫; 何远生
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2020-05-22
Anticipated expiration: 2037-12-05
Also published as: CN108108351A

Abstract

本发明公开了一种基于深度学习组合模型的文本情感分类方法，包括步骤：1)训练词向量和字向量；2)将标注文本的每个句子进行分词并填充到固定长度得到训练数据集一,将标注文本的每个句子进行字切分并填充到固定长度得到训练数据集二；3)将两个训练数据集的字和词赋予相应的词向量和字向量；4)将两个训练数据集再用textCNN和改进的DynamicCNN模型训练得到四个基分类器，训练方法采用递进学习方法，损失函数采用焦点损失函数；5)将四个基分类器线性组合得到组合模型的文本情感分类方法。本发明实现的文本情感分类方法，不需依赖于特定的情感词典，不限于特定的领域，具有较强的通用性和可扩展性。

Description

一种基于深度学习组合模型的文本情感分类方法

技术领域

本发明涉及深度学习、自然语言处理领域，尤其是指一种基于深度学习组合模型的文本情感分类方法。

背景技术

文本情感分类技术，其形式化表达为：对于特定的文本x，模型预测得到属于各个情感类别的概率向量为P，其所属类别为：

传统的文本情感分类研究主要的比较主流的方法是基于情感词典的分类方法，通常先建立一个包含各种情感色彩情感词词典，然后基于所建立的情感词典给文本语义信息进行加权，然后采用传统的机器学习方法来进行情感分类。比较常用的情感词典包括HowNet、NTUSD和大连理工大学整理的中文情感词汇本体库。基于情感词典的情感分类方法比较简单，分类速度快，但准确率不高。这些情感词典基本上缺少带有明显情感色彩的网络新词，因此，很多基于情感词典的情感分类方法都选择了扩展情感词典的方法。分词工具往往很难识别网络新词，文献提出了一种基于统计信息的新词发现方法，以提高分词准确率。此外，上下文关系也对句子级情感分析提供有价值的信息。Zhao等人考虑上下文之间的情感影响，使用CRF模型来处理句子级的情感分类任务。

在文本情感分析任务中使用的比较常见的机器学习方法包括支持向量机、最大熵模型和朴素贝叶斯等，这些都归类于浅层学习，计算方法也都比较简单，容易实现而且计算量较小，在有限的样本和计算单元的条件下导致其对复杂函数的表达能力受到限制，同时对于复杂的分类问题这些方法的泛化能力也在一定程度上受到制约。目前，情感分类算法中效果比较好的是基于情感词典的分类方法，这种方法构建起来比较简单，速度快，但有时准确率比较低。社交网络中存在大量网络新词，很多网络新词具有明显的情感色彩，基于情感词典的分类方法就需要将添加这些新词，动态更新情感词典，情感词典的建立和更新费时费力。传统的机器学习方法无法准确获取文本语义方面的信息，并且人为设计特征需要一定的语言学的背景知识，这成为文本情感分析研究的一道门槛。深度学习是一种深层次的非线性网络结构，它可以逼近十分复杂的函数，自动总结归纳特征，省去了人为设计特征的麻烦。

深度学习过程中模型训练往往很容易陷入局部最优或者遇到鞍点难题，并且层数越多，神经网络存在越多的局部最优值和鞍点，目前大部分方案是从改变权重初始化着手，提出用Xavier、MSRA等方法来初始化权重，但是作用仍然十分有限，并且训练时间较长。

发明内容

本发明针对现有技术存在的上述问题，提出了一种基于深度学习组合模型的文本情感分类方法，可以减少人工设计特征的麻烦，并加快网络训练的速度，提升模型性能，并且实现端到端的训练方式，模型更具有通用性和可移植性。

为实现上述目的，本发明所提供的技术方案为：一种基于深度学习组合模型的文本情感分类方法，该方法以实现准确识别文本情感为第一目标，快速建立特定应用的文本情感分类器为第二目标，通过改进网络结构、模型损失函数、模型训练方法和模型组合，以确保加快训练速度的同时，并训练得到高准确率分类器；其包括以下步骤：

1)训练词向量和字向量；

2)将标注文本的每个句子进行分词并填充到固定长度得到训练数据集一,将标注文本的每个句子进行字切分并填充到固定长度得到训练数据集二；

3)将两个训练数据集的字和词赋予相应的词向量和字向量；

4)将两个训练数据集再用textCNN和改进的DynamicCNN模型训练得到四个基分类器，训练方法采用递进学习方法，损失函数采用焦点损失函数；其中，改进的DynamicCNN模型是利用三组并行卷积方式，每组卷积有两层卷积，textCNN和改进的DynamicCNN都采用一维卷积；

5)将四个基分类器线性组合。

在步骤1)中，确定词向量的长度，对特定文本数据进行分词，得到相应的训练语料库，利用词向量训练工具训练得到词语的词向量；另外对该文本数据的中文进行按字划分，训练得到字的字向量；所定义的分词是对文本按词语进行切分，所定义的字切分是指对中文句子按字切分，英语单词和数字保持独立不切分为字符。

在步骤2)中，分词是对文本按词语进行切分，字切分是指对中文句子按字切分，英语单词和数字保持独立不切分为字符。

在步骤3)中，训练数据集一的词和训练数据集二的字赋予相应的词向量和字向量，词向量和字向量在模型训练中根据反向传播进行更新。

所述步骤4)包括以下步骤：

4.1)利用焦点损失函数替换原有的softmax分类器的交叉熵损失函数，对于样本真实标签y∈{1,-1}，和模型预测的概率p，焦点损失函数公式定义如下：

FL(p_t,y)＝-(1-p_t)^γlog(p_t)

其中γ为大于零的常数，定义p_t如下：

4.2)根据递进学习方法，先用容易分类的样本进行训练，也就是在模型前期训练过程中，对于每批量数据X，数据放入深度学习模型，计算得到每个样本x_i的损失loss(x_i)，此时不进行反向传播更新模型参数，然后对训练数据X按损失从小到大排序，选取前k个样本X'＝{x_i|x_i∈X,rank₁(loss(x_i))≤k}用于训练模型；后期用难分类的样本进行训练，也就是在模型后期训练过程中，对于每批量数据X，数据放入深度学习模型，计算得到每个样本x_i的损失loss(x_i)，此时不进行反向传播更新模型参数，然后对训练数据X按损失从大到小排序，选取前k个样本X'＝{x_i|x_i∈X,rank₂(loss(x_i))≤k}用于训练模型，其中rank₁(s)和rank₂(s)分别为返回数据按从小到大排序和从大到小排序的下标；模型训练方法描述如下：

a)获取一批量的数据X；

b)数据输入模型，预先计算每个样本x_i的损失loss(x_i)，此时不进行反向传播；

c)训练次数小于设定阈值，则进入步骤d)，否则进入步骤e)；

d)对训练数据X按损失从小到大进行排序，筛选得到前k个样本X'＝{x_i|x_i∈X,rank₁(loss(x_i))≤k}，并进入步骤f)；

e)对训练数据X按损失从大到小进行排序，筛选得到前k个样本X'＝{x_i|x_i∈X,rank₂(loss(x_i))≤k}，并进入步骤f)；

f)利用筛选得到的训练数据X'进行训练模型，反向传播更新模型参数，若训练未结束，则返回步骤a)，否则进入步骤g)；

g)退出。

在步骤5)中，将四个基分类器线性组合得到组合模型的文本情感分类方法，各基分类器的权重以该基分类器自身的训练测试得到的准确率为权重，对特定样本x,四个基分类器自身的准确率为acc_i(i＝1,2,3,4)，对样本预测的结果为p_i(i＝1,2,3,4)，则模型组合预测的结果为：

其中，α_i为第i个基分类器的权重：

本发明与现有技术相比，具有如下优点与有益效果：

1、基于深度学习的方法可以减少人工设计特征的麻烦，该模型实现端到端的训练方式，简化了特征工程和模型训练的难度。

2、利用预先训练的词向量和字向量分别初始化训练数据的词向量和字向量，提高模型的准确率，同时也可以加快模型收敛速度。

3、焦点损失函数改变不容易分类样本对模型训练的影响，利用焦点损失函数替换原有的softmax分类器的交叉熵损失函数，提高模型的准确率。

4、改进的DynamicCNN模型采用三组并行卷积方式，提升了原先DynamicCNN的性能。

5、递进学习方法加快模型收敛，避免陷入局部最优或者鞍点，同时提高模型的准确率。

6、组合4个基分类器，利用基于字的分类模型弥补分词错误给模型造成的影响，这种组合模型的效果更稳定，效果更好。

附图说明

图1为本发明方法的TextCNN网络结构图。

图2为本发明方法改进的DynamicCNN网络结构图。

图3为本发明方法的组合模型结构图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所提供的基于深度学习组合模型的文本情感分类方法，包括以下步骤：

1)对一定量的微博数据进行分词或字切分，英文单词和数字不进行划分，借助词向量训练工具Word2Vec训练得到词语或字对应的词向量；

3)将两个训练数据集的字和词赋予相应的词向量和字向量；

4)两个模型用tensorflow实现，将两个训练数据集再用TextCNN(如图1所示)模型训练得到两个基分类器，同时将该两个训练数据集再用改进的DynamicCNN(如图2所示)模型训练得到两个基分类器，由此得到4个基分类器；改进的DynamicCNN三组并行卷积方式，每组卷积有两层卷积，卷积采用一维卷积方式，padding方式为SAME，卷积不会改变特征图大小，第一组卷积的两层卷积尺寸分别为7和5，第一组卷积的两层卷积尺寸分别为5和3，第一组卷积的两层卷积尺寸分别为3和2；损失函数采用焦点损失函数，焦点损失函数公式定义如下：

FL(p_t,y)＝-(1-p_t)^γlog(p_t)

其中γ取值为1，定义p_t如下：

训练方法采用递进学习方法，每批有120个样本，对于每批量数据X，数据放入深度学习模型，计算得到每个样本x_i的损失loss(x_i)，此时不进行反向传播更新模型参数，然后对训练数据X按损失从小到大排序，选取前k个样本X'＝{x_i|x_i∈X,rank₁(loss(x_i))≤k}用于训练模型；后期用难分类的样本进行训练，也就是在模型前期训练过程中，对于每批量数据X，数据输入模型，计算得到每个样本x_i的损失loss(x_i)，此时不进行反向传播更新模型参数，然后对训练数据X按损失从大到小排序，选取前k个样本X'＝{x_i|x_i∈X,rank₂(loss(x_i))≤k}用于训练模型。其中rank₁(s)和rank₂(s)分别为返回数据按从小到大排序和从大到小排序的下标，k＝80，阈值s＝3000，训练35代。模型训练方法大致描述如下：

a)获取一批量的数据X；

c)训练次数小于设定阈值，则进入步骤d)，否则进入步骤e)

g)退出。

5)如图3所示，以各个分类器的准确率为权重，线性组合这四个基分类器得到文本情感分类器，各基分类器的权重以该基分类器自身的准确率为权重，对特定样本x,四个基分类器自身的准确率为acc_i(i＝1,2,3,4)，对样本预测的结果为p_i(i＝1,2,3,4)，则模型组合预测的结果为：

其中α_i为第i个基分类器的权重：

6)对于待分类的文本，分别进行分词和字切分，得到两个子句，输入组合模型识别出该文本的情感。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于深度学习组合模型的文本情感分类方法，其特征在于：该方法以实现准确识别文本情感为第一目标，快速建立特定应用的文本情感分类器为第二目标，通过改进网络结构、模型损失函数、模型训练方法和模型组合，以确保加快训练速度的同时，并训练得到高准确率分类器；其包括以下步骤：

1)训练词向量和字向量；

3)将两个训练数据集的字和词赋予相应的词向量和字向量；

5)将四个基分类器线性组合。

2.根据权利要求1所述的一种基于深度学习组合模型的文本情感分类方法，其特征在于：在步骤1)中，确定词向量的长度，对特定文本数据进行分词，得到相应的训练语料库，利用词向量训练工具训练得到词语的词向量；另外对该文本数据的中文进行按字划分，训练得到字的字向量；所定义的分词是对文本按词语进行切分，所定义的字切分是指对中文句子按字切分，英语单词和数字保持独立不切分为字符。

3.根据权利要求1所述的一种基于深度学习组合模型的文本情感分类方法，其特征在于：在步骤2)中，分词是对文本按词语进行切分，字切分是指对中文句子按字切分，英语单词和数字保持独立不切分为字符。

4.根据权利要求1所述的一种基于深度学习组合模型的文本情感分类方法，其特征在于：在步骤3)中，训练数据集一的词和训练数据集二的字赋予相应的词向量和字向量，词向量和字向量在模型训练中根据反向传播进行更新。

5.根据权利要求1所述的一种基于深度学习组合模型的文本情感分类方法，其特征在于，所述步骤4)包括以下步骤：

FL(p_t,y)＝-(1-p_t)^γlog(p_t)

其中γ为大于零的常数，定义p_t如下：

a)获取一批量的数据X；

c)训练次数小于设定阈值，则进入步骤d)，否则进入步骤e)；

g)退出。

6.根据权利要求1所述的一种基于深度学习组合模型的文本情感分类方法，其特征在于：在步骤5)中，将四个基分类器线性组合得到组合模型的文本情感分类方法，各基分类器的权重以该基分类器自身的训练测试得到的准确率为权重，对特定样本x,四个基分类器自身的准确率为acc_i，i＝1,2,3,4；对样本预测的结果为p_i，i＝1,2,3,4；则模型组合预测的结果为：

其中α_i为第i个基分类器的权重：