CN109840279A

CN109840279A - 基于卷积循环神经网络的文本分类方法

Info

Publication number: CN109840279A
Application number: CN201910025175.0A
Authority: CN
Inventors: 李钊; 王瑞霜; 曹建; 陈通; 王磊
Original assignee: Shandong Yi Yun Information Technology Co Ltd; Shandong Computer Science Center
Current assignee: Shandong Yi Yun Information Technology Co Ltd; Shandong Computer Science Center National Super Computing Center in Jinan; Shandong Computer Science Center
Priority date: 2019-01-10
Filing date: 2019-01-10
Publication date: 2019-06-04

Abstract

本发明公开一种基于卷积循环神经网络的文本分类方法，充分利用卷积神经网络提取局部特征的优势对文本进行特征提取，同时利用LSTM具有记忆的优势将提取的上下文特征联系起来更好地表示文本的语义信息。该方法不仅在英文数据集上取得较好的分类效果同时在中文数据集上也取得较高的分类准确率。

Description

基于卷积循环神经网络的文本分类方法

技术领域

本发明涉及一种文本分类方法，具体的说，是一种基于卷积循环神经网络的文本分类方法。

背景技术

随着深度学习技术的快速发展，卷积神经网络和循环神经网络已经在各种机器学习任务中取得了巨大的成功。例如，卷积神经网络已经广泛应用于计算机视觉领域，在处理计算机视觉任务上已经比较成熟，如图像分类、物体检测、图像分割、语音识别等。循环神经网络是深度学习中另外一个重要的分支，它主要用来处理序列问题。长短时记忆网络(LSTM)是循环神经网络的一种特殊类型，它能捕获序列的上下文信息，被广泛应用于时间序列问题，如语音识别、机器翻译等。

近年来，在处理序列数据问题上，越来越多的研究者将卷积神经网络与循环神经网络结合起来一起使用。该混合模型被称为卷积循环神经网络(CRNN)，CRNN可以简单地描述为在卷积神经网络后跟随循环神经网络。该模型中卷积神经网络主要是用来提取特征，循环神经网络主要是将上下文特征信息联系起来。目前，该模型已经被应用于音乐分类、高光谱数据分类、鸟音频检测等。

卷积循环神经网络模型同样适用于文本分类。在文本分类中，使用卷积神经网络可以灵活地对文本的特征进行提取，由于文本分类过程中分类结果受整个文本内容的影响，因此，使用长短时记忆网络将提取的特征联系起来能够更好地表示文本进而更好地实现文本分类。因此，本文使用卷积循环神经网络对文本进行分类并使用中文数据集和英文数据集作为实验数据与其他分类方法进行比对。

发明内容

本发明要解决的技术问题是提供一种基于卷积循环神经网络的文本分类方法，首先使用卷积网络对输入的文本信息进行多组特征提取并分别对其进行池化以提取文本中重要的特征，然后将提取出的特征进行融合送入LSTM神经网络并经过全连接层输出分类结果。

为了解决所述技术问题，本发明采用的技术问题是：基于卷积循环神经网络的文本分类方法，其特征在于：包括以下步骤：

S01)、将文本序列的样本数据转化为词向量矩阵作为卷积层的输入；

S02)、使用多尺度的卷积核对输入数据进行卷积操作，卷积后特征图的高度使用公式1计算。卷积操作过程中，首先使用单个卷积核分别对输入的每个局部特征进行计算，计算公式如公式2，然后使用公式3将计算出的特征纵向相连，最后再使用激活函数对计算结果进行非线性计算得到最终卷积特征，计算公式如公式4，

h_1F(i)＝f(W_F·X(i:i+F-1)+b)(2)，

公式中，H₂表示卷积后特征图的高度，H₁表示卷积前输入的高度，F表示卷积核的高度，P表示Padding的大小，S表示步长，表示向下取整，W_F表示高度为F的卷积核，X(i：i+F-1)表示样本输入向量中从第i个特征到第i+F-1个特征的局部特征向量，b表示偏置值；

S03)、使用最大池化层MaxPooling1D对卷积后的结果进行池化以提取文本的重要特征，然后将池化后的结果使用Concatenate函数连接起来作为LSTM层的输入，计算公式分别如公式5、6所示，

S04)、将经过不同卷积核处理后的文本特征序列作为LSTM网络的输入，利用LSTM网络能够更准确的表示文本的语义信息，进而更好地实现文本的分类，LSTM网络每个时刻的计算公式如下：

f_t＝σ(W_f·[h_t-1，h_1t]+b_f) (7)，

h_t＝o_tοtanh(c_t) (12)，

f_t表示遗忘门，σ表示sigmoid函数，W_f表示遗忘门的权重矩阵，表示把两个向量合为一个更长的向量，h_t-1代表LSTM网络上个时刻的输出，h_1t表示经卷积池化后的输出h₁在t时刻的输入，b_f是遗忘门的偏置值，i_t表示输入门，W_i表示输入门的权重矩阵，b_i表示输入门的偏置值，表示当前输入的单元状态，它是根据上一次的输出和当前的输入计算得来的，W_c表示当前输入的单元状态的权重矩阵，b_c表示当前输入的单元状态的偏置值，c_t表示当前时刻的单元状态，它是由遗忘门f_t乘以上一时刻的单元状态c_t-1，再加上输入门i_t乘以当前输入的单元状态的和计算得来，这样就把LSTM长期的记忆c_t-1与当前的记忆结合在一起形成新的单元状态c_t，o_t表示输出门，W_o代表输出门的权重居中，b_o代表输出门的偏置值，h_t表示最终的输出，它是由单元状态c_t和输出门o_t共同确定。

进一步的，本方法还包括步骤S05)、增加全连接层，全连接层输出维度为训练集中的类别数目并且通过Softmax函数计算样本属于各个类别的概率，计算公式为式中，y(i)代表输出层第i个神经元的值，y(k)代表输出层中第k个神经元的值，exp代表以e为底的指数函数。

3、根据权利要求1所述的基于卷积神经网络的文本分类方法，其特征在于：步骤S01中还包括以下具体的步骤：(1)对中文训练数据集进行分词操作，(2)建立词典并建立词典与索引的映射，(3)将文本序列映射为索引序列，(4)将所有样本的序列长度处理成一样的长度，可通过补0或截断实现，(5)使用预训练好的词向量进行词嵌入，设样本序列长度为M，预训练好的词向量维度为N，则词嵌入后，每个样本数据转化为M*N的词向量矩阵并将其作为卷积层的输入。

进一步的，步骤S02中，使用一维卷积层对输入进行卷积操作，卷积核的高度分别取2和3两个尺度，卷积核的数目为256，激活函数为Relu函数。

进一步的，步骤S02和S03之间加入了Batch Normalization层对数据进行归一化处理，加快模型的收敛速度。

进一步的，步骤S04和S05之间加入了Dropout层，随机断开指定比例的神经元连接，防止过拟合。

本发明的有益效果：本发明基于卷积神经网络和循环神经网络LSTM提出一种基于卷积循环神经网络的文本分类方法。该方法充分利用卷积神经网络提取局部特征的优势对文本进行特征提取，同时利用LSTM具有记忆的优势将提取的上下文特征联系起来更好地表示文本的语义信息。该方法不仅在英文数据集上取得较好的分类效果同时在中文数据集上也取得较高的分类准确率。

附图说明

图1为卷积循环神经网络模型结构图；

图2为卷积神经网络结构图；

图3为LSTM网络结构图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

实施例1

本实施例公开一种基于卷积循环神经网络的文本分类方法，本方法基于卷积循环神经网络模型，如图1所示，该模型包括输入层、词嵌入层、卷积层、池化层、长短时记忆LSTM网络层、全连接层，该模型首先使用卷积网络对输入的文本信息进行多组特征提取并分别对其进行池化以提取文本中重要的特征，然后将提取出的特征进行融合送入LSTM神经网络并经过全连接层输出分类结果。

本方法的具体步骤为：

文本分类中，样本数据通常是一个文本序列，因此在将其送入神经网络前，需将其表示为词向量矩阵。由于文本分类时每个样本的长度不一致，因此在词嵌入前需将样本的长度处理成一样的长度，样本长度的大小根据数据集的大小而定(设样本长度为M)。本文使用预训练好的词向量进行词嵌入且词向量维度用N表示，因此每个样本可表示为M*N的词向量矩阵并将其作为卷积层的输入。

S02)、为了更准确的表示文本的语义特征，本实施例使用多尺度的卷积核对输入数据进行卷积操作，用最大池化操作对卷积后的结果进行池化以提取文本的重要特征，随后将池化后的结果连接起来作为LSTM层的输入，卷积神经网络结构如图2所示。

本实施例中，使用一维卷积层(Conv1D)对输入进行卷积操作，卷积核的高度分别取2和3两个尺度，卷积核的数目为256，激活函数为Relu函数。文中文本长度通常取100，因此卷积后特征图的高度分别为99和98(计算公式如式1)，因此经卷积后特征图维度分别为(99,256)和(98,256)。

公式(1)中H2表示卷积后特征图的高度，H₁表示卷积前输入的高度，F表示卷积核的高度，P表示Padding的大小(文中padding大小为0)，S表示步长(文中步长为1)，表示向下取整。

卷积特征提取过程中，首先使用单个卷积核分别对输入的每个局部特征进行计算(计算公式如式2)，然后再将计算出的特征纵向相连(如式3)，最后再使用激活函数对计算结果进行非线性计算得到最终卷积特征(如式4)。

h_1F(i)＝f(W_F·X(i:i+F-1)+b)(2)

其中，W_F表示高度为F的卷积核，X(i:i+F-1)表示样本输入向量中从第i个特征到第i+F-1个特征的局部特征向量，b表示偏置值。

S04)、利用长短期记忆网络(LSTM)能够捕获上下文信息的优点，将经过不同卷积核处理后的文本特征序列作为LSTM网络的输入，能够更准确地对文本的语义进行表示，进而更好地实现文本的分类。LSTM网络结构如图3所示。

LSTM网络每个时刻的计算公式如下：

f_t＝σ(W_f·[h_t-1，h_1t]+b_f) (7)，

h_t＝o_tοtanh(c_t) (12)，

f_t表示遗忘门，σ表示sigmoid函数，W_f表示遗忘门的权重矩阵，表示把两个向量合为一个更长的向量，h_t-1代表LSTM网络上个时刻的输出，表示经卷积池化后的输出h₁在t时刻的输入，b_f是遗忘门的偏置值，i_t表示输入门，W_i表示输入门的权重矩阵，b_i表示输入门的偏置值，表示当前输入的单元状态，它是根据上一次的输出和当前的输入计算得来的，W_c表示当前输入的单元状态的权重矩阵，b_c表示当前输入的单元状态的偏置值，c_t表示当前时刻的单元状态，它是由遗忘门f_t乘以上一时刻的单元状态c_t-1，再加上输入门i_t乘以当前输入的单元状态的和计算得来，这样就把LSTM长期的记忆c_t-1与当前的记忆结合在一起形成新的单元状态c_t，o_t表示输出门，Wo代表输出门的权重居中，b_o代表输出门的偏置值，h_t表示最终的输出，它是由单元状态c_t和输出门o_t共同确定。

S05)、为了防止过拟合，模型中加入了多个Dropout层，rate为0.5。模型中最后为全连接层，最后一个全连接层输出维度为数据集中分类数目且通过softmax函数计算样本属于各个类别的概率，其计算公式如下式(13)

式中，y(i)代表输出层第i个神经元的值，y(k)代表输出层中第k个神经元的值，exp代表以e为底的指数函数。

实施例2

本实施例选取2组中文数据集和5组常用的英文文本分类数据集对提出的卷积循环神经网络模型进行评估。中文数据集源于自己搜集的知网论文数据，5组英文数据集来源于Zhang等一文中，数据集涵盖了不同的分类任务如情感分析、主题分类、新闻分类。训练样本的大小从120K到1.4M不等，分类任务中类别的数量介于4和14之间。具体的数据集信息如下表所示。

表1文本分类数据集信息表

数据集	训练数据	测试数据	类别	分类任务	语言
						Paper Data Set 1	160000	40000	5	文献分类	CH
Paper Data Set2	320000	80000	10	文献分类	CH
						AG's news	120000	7600	4	新闻分类	EN
Sogou news	450000	60000	5	新闻分类	EN
						<u>DBPedia</u>	560000	70000	14	本体分类	EN
Yelp Review Full	650000	50000	5	情感分析	EN
						<u>Yahoo！Answers</u>	1400000	60000	10	主题分类	EN

Paper Data Set：学术论文数据集来源于自己搜集的知网上的学术论文，数据集1中包含5个文献类别，分别为临床医学、数学、电力工业、生物学、职业教育。每个类别选取40000条数据作为实验数据，其中80％的数据集作为训练数据，20％的数据集作为测试数据。数据集2中包含10个文献类别，分别为化学、轻工业手工业、畜牧与动物医学、药学、新闻与传媒、铁路运输、儿科学、体育、物理学、农业经济，每个类别同样选取40000条数据作为实验数据，80％的数据集作为训练数据，20％的数据集作为测试数据。

AG’s news corpus：AG是一个超过100万新闻文章的集合，是ComeToMyHead在几年前的活动中收集的来自2000多个新闻来源的新闻文章。数据集主要用于数据挖掘(分类、聚类)、信息检索(排名、搜索)等任何非商业活动中。AG的新闻主题分类数据集是由Zhang、等从上面的数据集中构建出来用于字符级卷积神经网络文本分类实验中。该数据集从原始语料库中选择4个最大的类包括World、Sports、Business、Sci/Tech，每个类选择30000个训练样本和1900个测试样本。每个样本中都包含3列，分别为类索引(1到4)、标题、描述信息。

Sogou news corpus：搜狗新闻主题分类数据集是由Zhang等从SogouCA和SogouCS中选择出来用于字符级卷积神经网络文本分类实验中。该数据集从原始语料库中选择5个最大的类别包括Sports、finance、entertainment、automobile、technology，每个类选择90000个样本用于训练，12000个样本用于测试。该数据集原本是中文数据集，但Zhang等使用pypinyin库结合结巴分词***将中文数据转换成拼音文本。每个样本中同样包含3列，分别为类索引(1到5)、标题和内容。

DBPedia ontology dataset：DBpedia是一个众包社区，旨在从***中提取结构化的内容[24]。DBpedia本体数据集是通过从DBpedia 2014中挑选14个非重叠类来构建的，类别包括Company、EducationalInstitution、Artist、Athlete、OfficeHolder、MeanOfTransportation、Building、NaturalPlace、Village、Animal、Plant、Album、Film、WrittenWork。从这14个本体类中的每一个类中，随机选择40000个训练样本和5000个测试样本。数据集的字段包含类索引(1到14)、每篇***文章的标题和摘要。

Yelp Review Full：Yelp评论数据集是从2015年的Yelp Dataset Challenge中获得的。原始评论数据集共包含5个星级评论即1-5。Yelp评论数据集是通过从每个星级评论中随机抽取130000个训练样本和10000个测试样本构建而来。每个样本中包含星级评论索引(1到5)和评论内容。

Yahoo！Answers dataset：Yahoo！Answers dataset来源于Yahoo！Webscope数据集。Yahoo！Webscope语料库中包含4483032个问题和它们答案。Yahoo！Answers主题分类数据集是从原始语料库中选取10个最大的类别构建而来，主题类别包括社会与文化、科学与数学、健康、教育与参考书、计算机与网络、体育、商业与金融、娱乐与音乐、家庭与关系以及政治与政府。每个类别中包含140000个训练样本和6000个测试样本。每个样本中包含类别索引(1到10)、问题标题、问题内容和最佳答案。

4.2基准模型

选取近几年比较经典的分类模型作为基准模型与提出的卷积循环神经网络分类模型进行对比。在自制的2组中文学术论文数据集上文中选取经典的fastText以及HAN分类模型作为基准模型。在通用的5组英文数据集上文本选取的基准模型包括传统的分类模型和基于神经网络的模型。传统的模型主要是线性方法，其结果在Zhang等一文中给出。基于神经网络的模型包括char-CNN、fastText以及VDCNN，它们的结果分别在Zhang等、Joulin等、Conneau等引文中给出，以上基准模型使用了相同的实验数据集，因此为了对提出的模型做进一步的评估，文中同样使用上述数据集对提出的模型进行实验。

4.3模型参数设置

使用预训练好的词向量对输入文本进行词嵌入并且在模型训练的过程中可微调；词向量维度大小为100；每个样本的最大句子长度因文本的长度而定；词典的大小根据数据集的不同而不同，通常设置为20000；选取比例为0.1的数据集作为交叉验证数据集；dropout比例为0.5；卷积核大小为2和3且卷积核个数均为256个；LSTM网络层的神经元个数为70；使用Adam优化方法且学习率设置为1e-4；批次大小设为256。

4.4实验结果与分析

本文使用以上数据分别对提出的卷积循环神经网络文本分类模型进行实验并与基准模型进行对比。此外，为了使提出的卷积循环神经网络分类模型能够取得更好地文本分类效果，文中针对不同的卷积核个数分别进行了实验，实验中卷积核个数分别取64、128、256、512。具体实验结果分别如表2和表3所示。

表2不同卷积核个数实验结果表

表3文本分类实验结果表

从表2中的实验结果可以看出，在一定范围内，随着卷积核个数的增加，文本分类的准确率不断提高，当卷积核个数为256时，文本分类效果最好。此外，从表3中的实验结果可以看出，文中提出的模型不仅在中文数据集上取得了较好的分类效果同时在AG’s newscorpus和DBPedia ontology dataset上的分类准确率也高于其他基准模型。综上可知，提出的模型不仅适用于中文数据集的分类，同样适用于英文数据集的分类。

本发明将卷积神经网络能够提取局部特征的优势与循环神经网络LSTM具有记忆的优势结合起来提出了一种基于卷积循环神经网络的文本分类方法，同时选取2组中文数据集和5组常用的英文数据集对提出的模型进行实验。实验结果表明，提出的模型不仅在中文数据集上具有较高的分类准确率，在其他英文数据集上也具有很好的分类效果。

以上描述的仅是本发明的基本原理和优选实施例，本领域技术人员根据本发明做出的改进和替换，属于本发明的保护范围。

Claims

1.基于卷积循环神经网络的文本分类方法，其特征在于：包括以下步骤：

S02)、使用多尺度的卷积核对输入数据进行卷积操作，卷积后特征图的高度使用公式1计算，卷积操作过程中，首先使用单个卷积核分别对输入的每个局部特征进行计算，计算公式如公式2，然后使用公式3将计算出的特征纵向相连，最后再使用激活函数对计算结果进行非线性计算得到最终卷积特征，计算公式如公式4，

h_1F(i)＝f(W_F·X(i:i+F-1)+b) (2)，

h_1F＝[h_1F(1)；h_1F(2)；...；h_1F(H₂)] (3)，

hr_1F＝relu(h_1F) (4)，

公式中，H₂表示卷积后特征图的高度，H₁表示卷积前输入的高度，F表示卷积核的高度，P表示Padding的大小，S表示步长，表示向下取整，W_F表示高度为F的卷积核，X(i:i+F-1)表示样本输入向量中从第i个特征到第i+F-1个特征的局部特征向量，b表示偏置值；

hrp1_F＝max(hr1_F) (5)，

f_t＝σ(W_f·[h_t-1，h_1t]+b_f) (7)，

i_t＝σ(W_i·[h_t-1，h_1t]+b_i) (8)，

o_t＝σ(W_o·[h_t-1，h_1t]+b_o) (11)，

h_t＝o_t·tanh(c_t) (12)，

f_t表示遗忘门，σ表示sigmoid函数，W_f表示遗忘门的权重矩阵，[h_t-1，h_1t]表示把两个向量合为一个更长的向量，h_t-1代表LSTM网络上个时刻的输出，h_1t表示经卷积池化后的输出h₁在t时刻的输入，b_f是遗忘门的偏置值，i_t表示输入门，W_i表示输入门的权重矩阵，b_i表示输入门的偏置值，表示当前输入的单元状态，它是根据上一次的输出和当前的输入计算得来的，W_c表示当前输入的单元状态的权重矩阵，b_c表示当前输入的单元状态的偏置值，c_t表示当前时刻的单元状态，它是由遗忘门f_t乘以上一时刻的单元状态c_t-1，再加上输入门i_t乘以当前输入的单元状态的和计算得来，这样就把LSTM长期的记忆c_t-1与当前的记忆结合在一起形成新的单元状态c_t，o_t表示输出门，W_o代表输出门的权重居中，b_o代表输出门的偏置值，h_t表示最终的输出，它是由单元状态c_t和输出门o_t共同确定。

2.根据权利要求1所述的基于卷积循环神经网络的文本分类方法，其特征在于：还包括步骤S05)、增加全连接层，全连接层的输出维度为训练集中的类别数目并且通过Softmax函数计算样本属于各个类别的概率，计算公式为式中，y(i)代表输出层第i个神经元的值，y(k)代表输出层中第k个神经元的值，exp代表以e为底的指数函数。

3.根据权利要求1所述的基于卷积循环神经网络的文本分类方法，其特征在于：步骤S01中还包括以下具体的步骤：(1)对中文训练数据集进行分词操作，(2)建立词典并建立词典与索引的映射，(3)将文本序列映射为索引序列，(4)将所有样本的序列长度处理成一样的长度，(5)使用预训练好的词向量进行词嵌入，设样本序列长度为M，预训练好的词向量维度为N，则词嵌入后，每个样本数据转化为M*N的词向量矩阵并将其作为卷积层的输入。

4.根据权利要求1所述的基于卷积循环神经网络的文本分类方法，其特征在于：步骤S02中使用一维卷积层对输入进行卷积操作，卷积核的高度分别取2和3两个尺度，卷积核的数目为256，激活函数为Relu函数。

5.根据权利要求1所述的基于卷积循环神经网络的文本分类方法，其特征在于：步骤S02和S03之间加入了Batch Normalization层对数据进行归一化处理，加快模型的收敛速度。

6.根据权利要求1所述的基于卷积循环神经网络的文本分类方法，其特征在于：步骤S04和S05之间加入了Dropout层，随机断开指定比例的神经元连接，防止过拟合。