CN109582794A - 基于深度学习的长文分类方法 - Google Patents

基于深度学习的长文分类方法 Download PDF

Info

Publication number
CN109582794A
CN109582794A CN201811440171.0A CN201811440171A CN109582794A CN 109582794 A CN109582794 A CN 109582794A CN 201811440171 A CN201811440171 A CN 201811440171A CN 109582794 A CN109582794 A CN 109582794A
Authority
CN
China
Prior art keywords
deep learning
text
long article
classification
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811440171.0A
Other languages
English (en)
Inventor
冯姣
姜恬静
何军
李鹏
刘�文
于正威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201811440171.0A priority Critical patent/CN109582794A/zh
Publication of CN109582794A publication Critical patent/CN109582794A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的长文分类方法,通过对文本进行预处理然后生成词向量进行随机提取,将得到的数据集输入到卷积神经网络加长短期记忆网络的模型结构中反复训练到训练次数,不断降低损失函数,最后得到训练好的深度学习模型。本方法通过随机提取有效句子和搭建卷积神经网络加长短期记忆网络的模型结构,能够全面提取长文的特征,保证分类的正确率,又可以加快训练速度,提高分类的效率。本方法能快速和准确地取得分类结果,特别对于超过7000字的长篇文本,并且文本内容很相近、类别细致复杂的文章,取得的效果更加明显。

Description

基于深度学习的长文分类方法
技术领域
本发明涉及一种长文分类方法,特别是涉及一种基于深度学习的长文分类方法。
背景技术
随着互联网和电子技术的不断发展,大量的论文文献以电子文档的形式保存在互联网上,互联网成为了人们传播信息的主要平台,人们希望可以根据关键词在海量的文档数据中快速获取想要的信息。这就要求论文文献有明确的分类和标签。
在传统的分类问题中,人们普遍选择提取关键词或关键语句的形式,对文本进行分类,对于具有明确特征的分类问题,比如垃圾邮件识别,机器自动问答等已经有了良好的应用。而对于论文文献,尤其是方向相近的科技论文,提取关键语句可能区分度不高,在进行分类的时候容易使得文章标签不够明确,所以要提取更准确的特征,通过分析全文,长短期记忆网络(Long-Short Term Memory,简称LSTM)能够根据之前存储的状态推出后续的状态。但对于超过万字的文章,由于数据维度过大,只利用LSTM对全文进行分析记忆,很容易耗尽资源,使训练变得十分缓慢,导致分析结果出现偏差。卷积神经网络(ConvolutionalNeural Networks,简称CNN)具有稀疏连接,权值共享,多特征图的优点,大大降低了计算复杂度,减少了训练时间和资源,但是卷积神经网络在学习长序列数据前后的依赖关系上具有局限性,对于长文本训练数据,卷积神经网络可以做到局部特征提取,但没办法记忆较长的文本,无法关联长文前后的句子。不能全面的提取分析特征,所以不能保证长文分类的准确度。单一的卷积神经网络很难满足长文本分类的需求。因此,在长文分析领域,寻找一种既能学习全文特征以保证正确率,又能克服资源限制提高运算速度的训练方法变得尤为重要。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于深度学习的长文分类方法,在长文分析领域克服了局部特征提取不够全面以及记忆整篇文章维度太大的问题,既能够学习全文特征以保证分类的正确率,又能够有效地减少运算复杂度,减少训练地时间,提高分类的效率。
技术方案:本发明所述的基于深度学习的长文分类方法,包括以下步骤:
(1)选取文章并获取文本数据,并对数据进行预处理,为每个词随机生成一个词向量并为词向量编号,将文内的词转化成相应的词向量,得到纯数字的词向量数组文件;
(2)判断文章每句话平均长度的大小,按照每L个词为一个有效句子的方法将长文分割,随机选取K个有效句子形成数组X,重复执行上述的随机抽取过程N次,得到数据集
(3)将上述数据集输入到二维卷积神经网络中进行特征提取,对卷积后的数据通过最大池化方法获取最大池化数据yi,重复执行N次,得到长文N个局部特征值
(4)将上述局部特征值输入到LSTM神经网络中,LSTM隐藏层数量为N个,每一层的输入为局部特征值yi,得到文本全部的特征参数;
(5)将上述特征参数进行dropout,按照一定的比例丢弃部分特征值;
(6)将dropout后的数据采用softmax算法得出预测值计算真实标签y和预测值之间的损失函数H,采用Adam bp算法反向更新梯度,降低H的值;
(7)重复步骤(3)至步骤(6)进行训练,不断降低H的值,达到设定的训练次数后保存1次深度学习模型,反复执行,直到全部文章达到遍历次数后结束训练;
(8)得到训练好的深度学习模型。
进一步的,步骤(6)中损失函数H为交叉熵函数,其表达式为:
其中,y是输入文档的真实标签,是模型输出的预测值。
采用不同尺寸的卷积核能更加有效地提取文本特征,步骤(3)中的二维卷积神经网络卷积层包括3个尺寸的过滤器,分别为3*3、4*4、5*5,过滤器深度均为64,步长为1。
为了有效删除文章内无用信息,步骤(1)中的预处理过程包括将所获取的文本数据删除文档格式、标点符号、特殊符号和数字。
为了避免过拟合,步骤(5)中的比例为0.5。
为了在完整提取特征值的同时也能够兼顾优化效率,步骤(7)中的遍历次数为5次。
有益效果:本方法通过随机提取有效句子和搭建卷积神经网络加长短期记忆网络的模型结构,能够全面提取长文的特征,保证分类的正确率,又可以并且加快训练速度,提高分类的效率。本方法能快速和准确地取得分类结果,特别对于超过7000字的长篇文本,并且文本内容很相近、类别细致复杂的文章,取得的效果更加明显。在实际应用中,本方法只需要保存训练好的模型,输入一篇长文文档后,***就会快速自动的给出文档精确的标签。
附图说明
图1是本实施例整体流程图;
图2是卷积神经网络与长短期记忆网络整体构架图;
图3是不同模型的正确率对比图。
具体实施方式
本方法既可用于英文文本分类,也可以用于其他语言文本分类。实施例以4个标签的英文文章为例,首先从美国康奈尔大学管理的电子预印本文献库下载用于训练的4类不同的论文文献数据,分别为数学(量子代数)、数学(度量几何学)、数学(代数几何)、数学(几何学)共38309篇。
如图1所示,实施例的方法包括一下步骤:
(1)对所下载的PDF格式的英文论文进行预处理。预处理过程为删除文本内没有用的信息,包括文档中的格式,标点符号,特殊符号,数字等非常规英文单词。
(2)根据数据中的英文单词建立字典,即为每个单词生成一个随机词向量并为词向量编号,最终生成由词向量编号组成的纯数字的数组文件。每一个数组文件存放一篇文章,同一类标签的文章存放在以该标签命名的文件下。
(3)对全部文本做随机提取。根据数据的统计结果,按照平均每20个单词为一句话,即L=20,将一篇文章的1万个英文单词分成500句有效句。长文未满1万字的部分以零补充,根据数据集内文章的真实长度,随机选取20个有效句,即K=20,卷积层将同时捕获这20个句子的特征。对同一篇长文档中的句子重复采样25次,即N=25,如图3随机抽取过程,输入文本被分为N组,表示为
(4)按照9:1的比例分割训练集数据及验证集数据。训练集的34479篇文章用于模型的训练优化,验证集的3830篇文章用来验证优化后模型的实际分类效果。
(5)将训练集的数据输入到深度学习模型。如图2所示,卷积神经网络首先对输入文章的25组有效句做局部特征提取,本实施例设定了3种不同尺寸的过滤器分别是 3*3,4*4,5*5,过滤器深度均为64,步长为1。采用不同尺寸的卷积核能更加有效地提取文本特征,然后通过最大池化的方法对卷积后的数据做池化,yi代表不同尺寸的卷积核的最大池化数据,整合各组池化数据,每篇文章将得到25组局部特征值表示为
(6)将这些局部特征量输入给LSTM神经网络,以便记忆全文前后关系,获取更高层次的抽象特征。LSTM每一层的输入为CNN局部特征值yi,LSTM隐藏层的数量和上文的N值保持一致即25,经过LSTM,得到文本全部的特征参数,输入到全连接层,设置 0.5的dropout比例随机剔除部分数据避免过拟合,这样随机提取遍历全文的方法,保证了有效提取文章的全部内容,提高了神经网络分析记忆全文的能力。
(7)最后将dropout后的数据采用softmax算法得出预测值跟输入文本真实类别标签y进行对比。计算其交叉熵函数定义H为损失函数,其中,y是输入文档真实的标签类别,是模型输出的预测值,y是数字。专利中实验用了四类文档:数学(量子代数)、数学(度量几何学)、数学(代数几何)、数学(几何学)。实验数学(量子代数)标签类别为1,数学(度量几何学)标签类别为2,数学(代数几何)为3,数学(几何学)为4。实验中,直接按顺序编号,把文字转化成数字,以便计算机读取计算。采用Adam bp算法反向更新梯度降低H的值,以缩小标签y和预测值之间的差距,提高正确率。训练集数据每训练100次保存一次深度学习模型,包括保存卷积神经网络和LSTM网络内的多个权重参数w、偏置参数b,以及计算第100次的损失函数及正确率。本实施例选择全部文章遍历5次后结束训练,即重复以上步骤172395次。观察所有已保存网络的损失函数及文本分类的正确率,选取正确率最高的网络最为最优模型,得到训练好的深度学习模型。
最后进行验证,将上述验证集数据输入到该网络中,得到验证集文章的预测类别,跟文章标签做比对,得到分类正确率并保存,评估模型的分类能力。图3所示为不同参数以及不同模型分类正确率的对比,将训练集文本的正确率展示成趋势图,并与其它经典分类方法的结果作对比,可以看出,一方面全文分析的正确率要比局部关键词分析更有效。另一方面可以看出,相同的训练次数下,单一的CNN和LSTM模型的分类正确率要比本专利深度学习模型低很多。本方法训练集文本的正确率在99%左右,验证集文本的准确率到达了94%。实验证明本方法能快速精确的获得长文的分类标签。
在实际应用之中,将待分类的文本输入到上述已经训练好的深度学习模型中,通过本模型就可以自动快速地得到文本精确的分类标签。

Claims (6)

1.一种基于深度学习的长文分类方法,其特征在于包括以下步骤:
(1)选取文章并获取文本数据,并对数据进行预处理,为每个词随机生成一个词向量并为词向量编号,将文内的词转化成相应的词向量,得到纯数字的词向量数组文件;
(2)判断文章每句话平均长度的大小,按照每L个词为一个有效句子的方法将长文分割,随机选取K个有效句子形成数组X,重复执行上述的随机抽取过程N次,得到数据集
(3)将上述数据集输入到二维卷积神经网络中进行特征提取,对卷积后的数据通过最大池化方法获取最大池化数据yi,重复执行N次,得到长文N个局部特征值
(4)将上述局部特征值输入到LSTM神经网络中,LSTM隐藏层数量为N个,每一层的输入为局部特征值yi,得到文本全部的特征参数;
(5)将上述特征参数进行dropout,按照一定的比例丢弃部分特征值;
(6)将dropout后的数据采用softmax算法得出预测值计算真实标签y和预测值之间的损失函数H,采用Adam bp算法反向更新梯度,降低H的值;
(7)重复步骤(3)至步骤(6)进行训练,不断降低H的值,达到设定的训练次数后保存1次深度学习模型,反复执行,直到全部文章达到遍历次数后结束训练;
(8)得到训练好的深度学习模型。
2.根据权利要求1所述的基于深度学习的长文分类方法,其特征在于:步骤(6)中损失函数H为交叉熵函数,其表达式为:
其中,y是输入文档的真实标签,是模型输出的预测值。
3.根据权利要求1所述的基于深度学习的长文分类方法,其特征在于:步骤(3)中的二维卷积神经网络卷积层包括3个尺寸的过滤器,分别为3*3、4*4、5*5,过滤器深度均为64,步长为1。
4.根据权利要求1所述的基于深度学习的长文分类方法,其特征在于:步骤(1)中的预处理过程包括将所获取的文本数据删除文档格式、标点符号、特殊符号和数字。
5.根据权利要求1所述的基于深度学习的长文分类方法,其特征在于:步骤(5)中的比例为0.5。
6.根据权利要求1所述的基于深度学习的长文分类方法,其特征在于:步骤(7)中的遍历次数为5次。
CN201811440171.0A 2018-11-29 2018-11-29 基于深度学习的长文分类方法 Pending CN109582794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811440171.0A CN109582794A (zh) 2018-11-29 2018-11-29 基于深度学习的长文分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811440171.0A CN109582794A (zh) 2018-11-29 2018-11-29 基于深度学习的长文分类方法

Publications (1)

Publication Number Publication Date
CN109582794A true CN109582794A (zh) 2019-04-05

Family

ID=65925069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811440171.0A Pending CN109582794A (zh) 2018-11-29 2018-11-29 基于深度学习的长文分类方法

Country Status (1)

Country Link
CN (1) CN109582794A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457469A (zh) * 2019-07-05 2019-11-15 中国平安财产保险股份有限公司 基于长短期记忆网络的信息分类方法、装置、计算机设备
CN110532448A (zh) * 2019-07-04 2019-12-03 平安科技(深圳)有限公司 基于神经网络的文档分类方法、装置、设备及存储介质
CN110609898A (zh) * 2019-08-19 2019-12-24 中国科学院重庆绿色智能技术研究院 一种面向不平衡文本数据的自分类方法
CN110633470A (zh) * 2019-09-17 2019-12-31 北京小米智能科技有限公司 命名实体识别方法、装置及存储介质
CN110879934A (zh) * 2019-10-31 2020-03-13 杭州电子科技大学 一种高效的Wide & Deep深度学习模型
CN111538840A (zh) * 2020-06-23 2020-08-14 基建通(三亚)国际科技有限公司 一种文本分类方法及装置
CN112069379A (zh) * 2020-07-03 2020-12-11 中山大学 一种基于lstm-cnn的高效舆情监测***
CN112133441A (zh) * 2020-08-21 2020-12-25 广东省人民医院 一种mh术后裂孔状态预测模型的建立方法和终端
CN112418354A (zh) * 2020-12-15 2021-02-26 江苏满运物流信息有限公司 货源信息分类方法、装置、电子设备、存储介质
CN113239190A (zh) * 2021-04-27 2021-08-10 天九共享网络科技集团有限公司 文档分类方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
US20170308790A1 (en) * 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks
CN108875021A (zh) * 2017-11-10 2018-11-23 云南大学 一种基于区域cnn-lstm的情感分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308790A1 (en) * 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN108875021A (zh) * 2017-11-10 2018-11-23 云南大学 一种基于区域cnn-lstm的情感分析方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021000411A1 (zh) * 2019-07-04 2021-01-07 平安科技(深圳)有限公司 基于神经网络的文档分类方法、装置、设备及存储介质
CN110532448A (zh) * 2019-07-04 2019-12-03 平安科技(深圳)有限公司 基于神经网络的文档分类方法、装置、设备及存储介质
CN110457469A (zh) * 2019-07-05 2019-11-15 中国平安财产保险股份有限公司 基于长短期记忆网络的信息分类方法、装置、计算机设备
CN110609898A (zh) * 2019-08-19 2019-12-24 中国科学院重庆绿色智能技术研究院 一种面向不平衡文本数据的自分类方法
CN110633470A (zh) * 2019-09-17 2019-12-31 北京小米智能科技有限公司 命名实体识别方法、装置及存储介质
CN110879934A (zh) * 2019-10-31 2020-03-13 杭州电子科技大学 一种高效的Wide & Deep深度学习模型
CN110879934B (zh) * 2019-10-31 2023-05-23 杭州电子科技大学 一种基于Wide&Deep深度学习模型的文本预测方法
CN111538840A (zh) * 2020-06-23 2020-08-14 基建通(三亚)国际科技有限公司 一种文本分类方法及装置
CN112069379A (zh) * 2020-07-03 2020-12-11 中山大学 一种基于lstm-cnn的高效舆情监测***
CN112133441A (zh) * 2020-08-21 2020-12-25 广东省人民医院 一种mh术后裂孔状态预测模型的建立方法和终端
CN112133441B (zh) * 2020-08-21 2024-05-03 广东省人民医院 一种mh术后裂孔状态预测模型的建立方法和终端
CN112418354A (zh) * 2020-12-15 2021-02-26 江苏满运物流信息有限公司 货源信息分类方法、装置、电子设备、存储介质
CN112418354B (zh) * 2020-12-15 2022-07-15 江苏满运物流信息有限公司 货源信息分类方法、装置、电子设备、存储介质
CN113239190A (zh) * 2021-04-27 2021-08-10 天九共享网络科技集团有限公司 文档分类方法、装置、存储介质及电子设备
CN113239190B (zh) * 2021-04-27 2024-02-20 天九共享网络科技集团有限公司 文档分类方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN109582794A (zh) 基于深度学习的长文分类方法
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
Song et al. Research on text classification based on convolutional neural network
CN109886020A (zh) 基于深度神经网络的软件漏洞自动分类方法
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN109376242A (zh) 基于循环神经网络变体和卷积神经网络的文本分类算法
CN106815369A (zh) 一种基于Xgboost分类算法的文本分类方法
CN110502753A (zh) 一种基于语义增强的深度学习情感分析模型及其分析方法
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别***
CN112231562A (zh) 一种网络谣言识别方法及***
CN107832458A (zh) 一种字符级的基于嵌套深度网络的文本分类方法
CN108664512B (zh) 文本对象分类方法及装置
CN110069627A (zh) 短文本的分类方法、装置、电子设备和存储介质
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN111046183A (zh) 用于文本分类的神经网络模型的构建方法和装置
CN105787121B (zh) 一种基于多故事线的微博事件摘要提取方法
CN110826298B (zh) 一种智能辅助定密***中使用的语句编码方法
CN109918507B (zh) 一种基于TextCNN改进的文本分类方法
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN112070139A (zh) 基于bert与改进lstm的文本分类方法
CN113590764A (zh) 训练样本构建方法、装置、电子设备和存储介质
CN112148868A (zh) 一种基于法条共现的法条推荐方法
CN114996467A (zh) 基于语义相似度的知识图谱实体属性对齐算法
Huang A CNN model for SMS spam detection
CN111046177A (zh) 一种仲裁案件自动预判方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210044 No. 219 Ningliu Road, Jiangbei New District, Nanjing City, Jiangsu Province

Applicant after: Nanjing University of Information Science and Technology

Address before: 211500 Yuting Square, 59 Wangqiao Road, Liuhe District, Nanjing City, Jiangsu Province

Applicant before: Nanjing University of Information Science and Technology

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190405

RJ01 Rejection of invention patent application after publication