CN109582794A

CN109582794A - 基于深度学习的长文分类方法

Info

Publication number: CN109582794A
Application number: CN201811440171.0A
Authority: CN
Inventors: 冯姣; 姜恬静; 何军; 李鹏; 刘�文; 于正威
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-04-05

Abstract

本发明公开了一种基于深度学习的长文分类方法，通过对文本进行预处理然后生成词向量进行随机提取，将得到的数据集输入到卷积神经网络加长短期记忆网络的模型结构中反复训练到训练次数，不断降低损失函数，最后得到训练好的深度学习模型。本方法通过随机提取有效句子和搭建卷积神经网络加长短期记忆网络的模型结构，能够全面提取长文的特征，保证分类的正确率，又可以加快训练速度，提高分类的效率。本方法能快速和准确地取得分类结果，特别对于超过7000字的长篇文本，并且文本内容很相近、类别细致复杂的文章，取得的效果更加明显。

Description

基于深度学习的长文分类方法

技术领域

本发明涉及一种长文分类方法，特别是涉及一种基于深度学习的长文分类方法。

背景技术

随着互联网和电子技术的不断发展，大量的论文文献以电子文档的形式保存在互联网上，互联网成为了人们传播信息的主要平台，人们希望可以根据关键词在海量的文档数据中快速获取想要的信息。这就要求论文文献有明确的分类和标签。

在传统的分类问题中，人们普遍选择提取关键词或关键语句的形式，对文本进行分类，对于具有明确特征的分类问题，比如垃圾邮件识别，机器自动问答等已经有了良好的应用。而对于论文文献，尤其是方向相近的科技论文，提取关键语句可能区分度不高，在进行分类的时候容易使得文章标签不够明确，所以要提取更准确的特征，通过分析全文，长短期记忆网络(Long-Short Term Memory，简称LSTM)能够根据之前存储的状态推出后续的状态。但对于超过万字的文章，由于数据维度过大，只利用LSTM对全文进行分析记忆，很容易耗尽资源，使训练变得十分缓慢，导致分析结果出现偏差。卷积神经网络(ConvolutionalNeural Networks,简称CNN)具有稀疏连接，权值共享，多特征图的优点，大大降低了计算复杂度，减少了训练时间和资源，但是卷积神经网络在学习长序列数据前后的依赖关系上具有局限性，对于长文本训练数据，卷积神经网络可以做到局部特征提取，但没办法记忆较长的文本，无法关联长文前后的句子。不能全面的提取分析特征，所以不能保证长文分类的准确度。单一的卷积神经网络很难满足长文本分类的需求。因此，在长文分析领域，寻找一种既能学习全文特征以保证正确率，又能克服资源限制提高运算速度的训练方法变得尤为重要。

发明内容

发明目的：本发明要解决的技术问题是提供一种基于深度学习的长文分类方法，在长文分析领域克服了局部特征提取不够全面以及记忆整篇文章维度太大的问题，既能够学习全文特征以保证分类的正确率，又能够有效地减少运算复杂度，减少训练地时间，提高分类的效率。

技术方案：本发明所述的基于深度学习的长文分类方法，包括以下步骤：

(1)选取文章并获取文本数据，并对数据进行预处理，为每个词随机生成一个词向量并为词向量编号，将文内的词转化成相应的词向量，得到纯数字的词向量数组文件；

(2)判断文章每句话平均长度的大小，按照每L个词为一个有效句子的方法将长文分割，随机选取K个有效句子形成数组X，重复执行上述的随机抽取过程N次，得到数据集

(3)将上述数据集输入到二维卷积神经网络中进行特征提取，对卷积后的数据通过最大池化方法获取最大池化数据y_i，重复执行N次，得到长文N个局部特征值

(4)将上述局部特征值输入到LSTM神经网络中，LSTM隐藏层数量为N个，每一层的输入为局部特征值y_i，得到文本全部的特征参数；

(5)将上述特征参数进行dropout，按照一定的比例丢弃部分特征值；

(6)将dropout后的数据采用softmax算法得出预测值计算真实标签y和预测值之间的损失函数H，采用Adam bp算法反向更新梯度，降低H的值；

(7)重复步骤(3)至步骤(6)进行训练，不断降低H的值，达到设定的训练次数后保存1次深度学习模型，反复执行，直到全部文章达到遍历次数后结束训练；

(8)得到训练好的深度学习模型。

进一步的，步骤(6)中损失函数H为交叉熵函数，其表达式为：

其中，y是输入文档的真实标签，是模型输出的预测值。

采用不同尺寸的卷积核能更加有效地提取文本特征，步骤(3)中的二维卷积神经网络卷积层包括3个尺寸的过滤器，分别为3*3、4*4、5*5，过滤器深度均为64，步长为1。

为了有效删除文章内无用信息，步骤(1)中的预处理过程包括将所获取的文本数据删除文档格式、标点符号、特殊符号和数字。

为了避免过拟合，步骤(5)中的比例为0.5。

为了在完整提取特征值的同时也能够兼顾优化效率，步骤(7)中的遍历次数为5次。

有益效果：本方法通过随机提取有效句子和搭建卷积神经网络加长短期记忆网络的模型结构，能够全面提取长文的特征，保证分类的正确率，又可以并且加快训练速度，提高分类的效率。本方法能快速和准确地取得分类结果，特别对于超过7000字的长篇文本，并且文本内容很相近、类别细致复杂的文章，取得的效果更加明显。在实际应用中，本方法只需要保存训练好的模型，输入一篇长文文档后，***就会快速自动的给出文档精确的标签。

附图说明

图1是本实施例整体流程图；

图2是卷积神经网络与长短期记忆网络整体构架图；

图3是不同模型的正确率对比图。

具体实施方式

本方法既可用于英文文本分类，也可以用于其他语言文本分类。实施例以4个标签的英文文章为例，首先从美国康奈尔大学管理的电子预印本文献库下载用于训练的4类不同的论文文献数据，分别为数学(量子代数)、数学(度量几何学)、数学(代数几何)、数学(几何学)共38309篇。

如图1所示，实施例的方法包括一下步骤：

(1)对所下载的PDF格式的英文论文进行预处理。预处理过程为删除文本内没有用的信息，包括文档中的格式，标点符号，特殊符号，数字等非常规英文单词。

(2)根据数据中的英文单词建立字典，即为每个单词生成一个随机词向量并为词向量编号，最终生成由词向量编号组成的纯数字的数组文件。每一个数组文件存放一篇文章，同一类标签的文章存放在以该标签命名的文件下。

(3)对全部文本做随机提取。根据数据的统计结果，按照平均每20个单词为一句话，即L＝20，将一篇文章的1万个英文单词分成500句有效句。长文未满1万字的部分以零补充，根据数据集内文章的真实长度，随机选取20个有效句，即K＝20，卷积层将同时捕获这20个句子的特征。对同一篇长文档中的句子重复采样25次，即N＝25，如图3随机抽取过程，输入文本被分为N组，表示为

(4)按照9:1的比例分割训练集数据及验证集数据。训练集的34479篇文章用于模型的训练优化，验证集的3830篇文章用来验证优化后模型的实际分类效果。

(5)将训练集的数据输入到深度学习模型。如图2所示，卷积神经网络首先对输入文章的25组有效句做局部特征提取，本实施例设定了3种不同尺寸的过滤器分别是 3*3，4*4,5*5，过滤器深度均为64，步长为1。采用不同尺寸的卷积核能更加有效地提取文本特征，然后通过最大池化的方法对卷积后的数据做池化，y_i代表不同尺寸的卷积核的最大池化数据，整合各组池化数据，每篇文章将得到25组局部特征值表示为

(6)将这些局部特征量输入给LSTM神经网络，以便记忆全文前后关系，获取更高层次的抽象特征。LSTM每一层的输入为CNN局部特征值yi，LSTM隐藏层的数量和上文的N值保持一致即25，经过LSTM，得到文本全部的特征参数，输入到全连接层，设置 0.5的dropout比例随机剔除部分数据避免过拟合，这样随机提取遍历全文的方法，保证了有效提取文章的全部内容，提高了神经网络分析记忆全文的能力。

(7)最后将dropout后的数据采用softmax算法得出预测值跟输入文本真实类别标签y进行对比。计算其交叉熵函数定义H为损失函数，其中，y是输入文档真实的标签类别，是模型输出的预测值，y是数字。专利中实验用了四类文档：数学(量子代数)、数学(度量几何学)、数学(代数几何)、数学(几何学)。实验数学(量子代数)标签类别为1，数学(度量几何学)标签类别为2，数学(代数几何)为3，数学(几何学)为4。实验中，直接按顺序编号，把文字转化成数字，以便计算机读取计算。采用Adam bp算法反向更新梯度降低H的值，以缩小标签y和预测值之间的差距，提高正确率。训练集数据每训练100次保存一次深度学习模型，包括保存卷积神经网络和LSTM网络内的多个权重参数w、偏置参数b，以及计算第100次的损失函数及正确率。本实施例选择全部文章遍历5次后结束训练，即重复以上步骤172395次。观察所有已保存网络的损失函数及文本分类的正确率，选取正确率最高的网络最为最优模型，得到训练好的深度学习模型。

最后进行验证，将上述验证集数据输入到该网络中，得到验证集文章的预测类别，跟文章标签做比对，得到分类正确率并保存，评估模型的分类能力。图3所示为不同参数以及不同模型分类正确率的对比，将训练集文本的正确率展示成趋势图，并与其它经典分类方法的结果作对比，可以看出，一方面全文分析的正确率要比局部关键词分析更有效。另一方面可以看出，相同的训练次数下，单一的CNN和LSTM模型的分类正确率要比本专利深度学习模型低很多。本方法训练集文本的正确率在99％左右，验证集文本的准确率到达了94％。实验证明本方法能快速精确的获得长文的分类标签。

在实际应用之中，将待分类的文本输入到上述已经训练好的深度学习模型中，通过本模型就可以自动快速地得到文本精确的分类标签。

Claims

1.一种基于深度学习的长文分类方法，其特征在于包括以下步骤：

(8)得到训练好的深度学习模型。

2.根据权利要求1所述的基于深度学习的长文分类方法，其特征在于：步骤(6)中损失函数H为交叉熵函数，其表达式为：

其中，y是输入文档的真实标签，是模型输出的预测值。

3.根据权利要求1所述的基于深度学习的长文分类方法，其特征在于：步骤(3)中的二维卷积神经网络卷积层包括3个尺寸的过滤器，分别为3*3、4*4、5*5，过滤器深度均为64，步长为1。

4.根据权利要求1所述的基于深度学习的长文分类方法，其特征在于：步骤(1)中的预处理过程包括将所获取的文本数据删除文档格式、标点符号、特殊符号和数字。

5.根据权利要求1所述的基于深度学习的长文分类方法，其特征在于：步骤(5)中的比例为0.5。

6.根据权利要求1所述的基于深度学习的长文分类方法，其特征在于：步骤(7)中的遍历次数为5次。