CN111078833B - 一种基于神经网络的文本分类方法 - Google Patents

一种基于神经网络的文本分类方法 Download PDF

Info

Publication number
CN111078833B
CN111078833B CN201911223541.XA CN201911223541A CN111078833B CN 111078833 B CN111078833 B CN 111078833B CN 201911223541 A CN201911223541 A CN 201911223541A CN 111078833 B CN111078833 B CN 111078833B
Authority
CN
China
Prior art keywords
word
text
information
level
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911223541.XA
Other languages
English (en)
Other versions
CN111078833A (zh
Inventor
黄少滨
吴汉瑜
李熔盛
申林山
姜梦奇
范贺添
谷虹润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201911223541.XA priority Critical patent/CN111078833B/zh
Publication of CN111078833A publication Critical patent/CN111078833A/zh
Application granted granted Critical
Publication of CN111078833B publication Critical patent/CN111078833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于文本分类技术领域,具体涉及一种基于神经网络的文本分类方法。了解决传统文本分类方法不能同时有效的利用文本的语义信息和结构信息的问题,本发明可以提取文本的不同层次的语义信息和结构信息,包括单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息。为了得到文本的最终表示,本发明又提出两种融合方法来融合四种信息,分别是静态融合和基于注意力机制的动态融合。本发明基于神经网络,综合利用文本不同层次的语义信息和结构信息,提高了文本分类的准确率。

Description

一种基于神经网络的文本分类方法
技术领域
本发明属于文本分类技术领域,具体涉及一种基于神经网络的文本分类方法。
背景技术
文本分类是许多自然语言处理任务的重要组成部分,它可以被应用在情感分类、问题分类、网页检索上,而文本表示在文本分类中扮演着重要的角色。早期的文本分类技术大多是基于传统机器学习算法,例如朴素贝叶斯、支持向量机等。而这种方法往往需要领域专家手工设计和抽取文本中的特征,费时又费力。近年来,基于深度学习的神经网络的模型在自然语言处理领域的许多任务中展现了强大的性能,比如机器翻译、情感分析、文本分类。大部分神经网络模型都是基于CNN、RNN或者注意力机制。
卷积神经网络(CNN)可以对文本进行建模,它可以通过滑动窗口提取到文本的ngram信息,可以通过最大池化技术挑选出文本中最具判别力的单词或短语,但是如何选择窗口的大小是一个重要的问题,窗口太小会造成结构信息丢失,窗口太大会造成参数太多,给训练带来麻烦。
递归神经网络(Recurisive NN)通过树结构对文本进行建模,可以有效的捕获到文本的结构信息,并且已经被证明在构造文本表示方面是有效的。然而递归神经网络的性能在很大程度上取决于文本树构造的性能,并且构造文本树是非常耗时的,而且文本中句子的关系很难通过树结构来建模,因此它也不能很好的利用语义信息和结构信息。
与递归神经网络不同,循环神经网络(Recurrent NN)是一种序列模型,天生适合对文本进行建模,它可以捕获文本的结构信息,但是它是一个有偏模型,文本中靠后的单词比靠前的单词更占优势。
注意力(Attention)机制被应用在许多自然语言处理任务中并获得了巨大的成功,并且已经被证明在捕获文本语义的方面是有效的。它可以通过少量的参数学习到文本中每一部分信息对文本整体语义信息的贡献比例,重要的单词或短语会被分配较高的权重,但是它忽略了词序信息,这也就造成了它不能很好的利用文本的结构信息。
近年来,基于深度学习的神经网络的模型在自然语言处理领域的许多任务中展现了强大的性能,比如机器翻译、情感分析、文本分类。大部分神经网络模型都是基于卷积神经网络(CNN)、循环神经网络(RNN)或者注意力(Attention)机制。
基于CNN的模型
卷积神经网络(CNN)被一些研究者从计算机视觉领域引入到自然语言处理领域,并获得了巨大的成功。Kim提出用多个不同大小的卷积核提取文本的特征来进行句子分类,Kalchbrenner等人把一种动态k-max池化机制与CNN结合,应用在句子建模中并取得了不错的效果。Zhang等人提出一种字符级卷积神经网络模型应用在文本分类中。由于浅层CNN不能很好的处理句子中的长距离依赖,一些深层CNN模型被提出,例如Conneau等人提出的very deep CNN(VDCNN)和Johnson等人提出的deep pyramid CNN。
基于RNN的模型
循环神经网络(Recurrent NN)是一种序列模型,在自然语言处理领域中广泛使用。Tang等人使用门控循环神经网络来进行情感分类。一些研究者试图对RNN的结构进行改造,Wang提出使用Disconnected RNN来进行文本分类,与之类似,Yu等人提出用Sliced RNN对句子进行建模,并且取得了不错的效果。
基于注意力机制的模型
Bahdanau等人首先把注意力机制应用在机器翻译中。Yang等人使用层级注意力网络和双向GRU对文档进行建模和分类。Vaswani等人提出Transformer,一种完全基于selfattention机制的模型,在机器翻译中取得了重大的成功。Lin等人提出一种结构化自注意力句子嵌入。
文本分类是许多自然语言处理任务的基础,文本表示则是文本分类的关键。文本表示可以理解成文本的高层次特征,文本表示的好坏直接影响了文本分类的性能。传统的文本表示方法不能很好的表示文本,例如词袋模型,它把每个词表示成一个高维稀疏向量,但是它忽略了文本中单词的顺序信息和单词的语义信息。近年来,随着深度学习的发展,现在大部分性能好的文本分类模型都是基于神经网络,它们把文本表示成低维实值向量,然后把向量送入到softmax函数中预测每个类别的概率,然而它们不能很好的利用文本的语义信息和结构信息。
发明内容
本发明的目的在于针对传统的神经网络模型不能有效的利用文本的语义信息和结构信息问题,提供一种基于神经网络的文本分类方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:输入待分类的文本,对文本进行预处理,得到文本中每个词对应的词向量xi
步骤2:根据每个词对应的词向量xi,使用注意力机制直接作用于词向量xi上,得到单词级语义信息Iwse;使用双向LSTM网络直接作用于词向量xi,获得单词级结构信息Iwst
步骤3:使用卷积神经网络作用于词向量xi,得到短语信息D;
步骤4:使用注意力机制作用于短语信息D,得到短语级语义信息Ipse;使用双向LSTM网络作用于短语信息D,得到短语级结构信息Ipst
步骤5:融合单词级语义信息Iwse、单词级结构信息Iwst、短语级语义信息Ipse和短语级结构信息Ipst,得到最终文本的向量表示IT
步骤6:将最终文本的向量表示IT输入到softmax分类器,得到每个类别对应的概率:取概率最高的类别即为文本所属的类别;
p=softmax(WcIT+bc)
其中Wc是softmax分类器的权重,bc是对应的偏置。
本发明还可以包括:所述的步骤1中对文本进行预处理具体为:
步骤1.1:检测输入文本的长度;若输入文本的长度大于指定长度,则对文本进行截断;若输入文本的长度小于指定长度,则对文本进行填充;
步骤1.2:对文本进行分词处理,按照词频对单词进行索引,把文本转换成对应的索引序列;
步骤1.3:将索引序列中每个索引转换成与之对应单词的词向量,完成对文本的预处理。
所述的步骤2中获取单词级语义信息Iwse的方法具体为:设长度为s的输入句子为w1,w2,w3,...,ws,所对应的词向量分别为x1,x2,x3,...,xs;由于句子中的每个单词对句子的整体语义贡献不同,使用注意力机制直接作用于词向量上,来学习每个单词对单词级语义信息贡献的比例αi;把每个单词的词向量xi与其对应的贡献比例α相乘并累加得到单词级语义信息Iwse
Figure BDA0002301522370000031
其中,
Figure BDA0002301522370000038
是单词wi的词向量,d为向量的维度;
Figure BDA0002301522370000032
ui=tanh(Wwxi+bw)
其中,tanh为激活函数,
Figure BDA0002301522370000039
为ui的转置,Ww,bw,uw是注意力机制的参数;
所述的步骤2中获取单词级结构信息Iwst的方法具体为:所述的单词级结构信息Iwst是由前向LSTM的最终状态
Figure BDA0002301522370000033
与反向LSTM的最终状态
Figure BDA0002301522370000034
连接而成;
Figure BDA0002301522370000035
Figure BDA0002301522370000036
Figure BDA0002301522370000037
所述的步骤5中融合单词级语义信息Iwse、单词级结构信息Iwst、短语级语义信息Ipse和短语级结构信息Ipst,得到最终文本的向量表示IT的方法具体为:采取静态融合,即文本表示由单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息的加权平均;
IT=(Iwse+Iwst+Ipse+Ipst)/4。
所述的步骤5中融合单词级语义信息Iwse、单词级结构信息Iwst、短语级语义信息Ipse和短语级结构信息Ipst,得到最终文本的向量表示IT的方法具体为:采用基于注意力机制的动态融合,把注意力机制应用在四种不同的信息上来自动学习每一部分信息对最终文本的向量表示IT的贡献比例γ,此处设Iwse,Iwst,Ipse,Ipst分别为I1,I2,I3,I4
Figure BDA0002301522370000041
Figure BDA0002301522370000042
ui=tanh(WtIi+bt)
其中,tanh为激活函数,
Figure BDA0002301522370000043
为ui的转置,Wt,bt,ut是注意力机制的参数。
本发明的有益效果在于:
本发明提供了一种基于神经网络的文本分类方法,为了解决传统文本分类方法不能同时有效的利用文本的语义信息和结构信息的问题,本发明可以提取文本的不同层次的语义信息和结构信息,包括单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息。为了得到文本的最终表示,本发明又提出两种融合方法来融合四种信息,分别是静态融合和基于注意力机制的动态融合。本发明基于神经网络,综合利用文本不同层次的语义信息和结构信息,提高了文本分类的准确率。
附图说明
图1为本发明的整体架构图。
图2为本发明的静态融合示意图。
图3为本发明的动态融合示意图。
图4为使用注意力机制得到单词级语义信息Iwse的可视化实验结果图。
图5为使用注意力机制得到短语级语义信息Ipse的可视化实验结果图。
图6为本发明的总体流程图。
图7为本发明实施例中实验数据表。
图8为本发明实施例中样本分析表。
具体实施方式
下面结合附图对本发明做进一步描述。
文本分类是许多自然语言处理任务的基础,文本表示则是文本分类的关键。文本表示可以理解成文本的高层次特征,文本表示的好坏直接影响了文本分类的性能。传统的文本表示方法不能很好的表示文本,例如词袋模型,它把每个词表示成一个高维稀疏向量,但是它忽略了文本中单词的顺序信息和单词的语义信息。近年来,随着深度学习的发展,现在大部分性能好的文本分类模型都是基于神经网络,它们把文本表示成低维实值向量,然后把向量送入到softmax函数中预测每个类别的概率,然而它们不能很好的利用文本的语义信息和结构信息。本发明提出的模型同样是基于神经网络,但是却能够综合利用文本不同层次的语义信息和结构信息,提高了文本分类的准确率。
针对于传统的神经网络模型不能有效的利用文本的语义信息和结构信息,本发明目的在于设计一种新型的基于神经网络的文本分类模型,该模型可以提取文本不同层次的语义信息和结构信息,包括单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息,然后使用本发明提出的融合方法把这四部分信息融合起来形成文本的表示,最终文本的表示输入到softmax函数中进行分类。
一种基于神经网络的文本分类方法,包括以下步骤:
步骤1:输入待分类的文本,对文本进行预处理,得到文本中每个词对应的词向量xi
步骤2:根据每个词对应的词向量xi,使用注意力机制直接作用于词向量xi上,得到单词级语义信息Iwse;使用双向LSTM网络直接作用于词向量xi,获得单词级结构信息Iwst
步骤3:使用卷积神经网络作用于词向量xi,得到短语信息D;
步骤4:使用注意力机制作用于短语信息D,得到短语级语义信息Ipse;使用双向LSTM网络作用于短语信息D,得到短语级结构信息Ipst
步骤5:融合单词级语义信息Iwse、单词级结构信息Iwst、短语级语义信息Ipse和短语级结构信息Ipst,得到最终文本的向量表示IT
步骤6:将最终文本的向量表示IT输入到softmax分类器,得到每个类别对应的概率:取概率最高的类别即为文本所属的类别;
p=softmax(WcIT+bc)
其中Wc是softmax分类器的权重,bc是对应的偏置。
步骤1中对文本进行预处理具体为:
步骤1.1:检测输入文本的长度;若输入文本的长度大于指定长度,则对文本进行截断;若输入文本的长度小于指定长度,则对文本进行填充;
步骤1.2:对文本进行分词处理,按照词频对单词进行索引,把文本转换成对应的索引序列;
步骤1.3:将索引序列中每个索引转换成与之对应单词的词向量,完成对文本的预处理。
步骤2中获取单词级语义信息Iwse的方法具体为:设长度为s的输入句子为w1,w2,w3,...,ws,所对应的词向量分别为x1,x2,x3,...,xs;由于句子中的每个单词对句子的整体语义贡献不同,使用注意力机制直接作用于词向量上,来学习每个单词对单词级语义信息贡献的比例αi;把每个单词的词向量xi与其对应的贡献比例α相乘并累加得到单词级语义信息Iwse
Figure BDA0002301522370000061
其中,
Figure BDA0002301522370000062
是单词wi的词向量,d为向量的维度;
Figure BDA0002301522370000063
ui=tanh(Wwxi+bw)
其中,tanh为激活函数,
Figure BDA0002301522370000064
为ui的转置,Ww,bw,uw是注意力机制的参数;
所述的步骤2中获取单词级结构信息Iwst的方法具体为:所述的单词级结构信息Iwst是由前向LSTM的最终状态
Figure BDA0002301522370000065
与反向LSTM的最终状态
Figure BDA0002301522370000066
连接而成;
Figure BDA0002301522370000067
Figure BDA0002301522370000068
Figure BDA0002301522370000069
步骤5中融合单词级语义信息Iwse、单词级结构信息Iwst、短语级语义信息Ipse和短语级结构信息Ipst,得到最终文本的向量表示IT的方法具体为:采取静态融合,即文本表示由单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息的加权平均;
IT=(Iwse+Iwst+Ipse+Ipst)/4。
步骤5中融合单词级语义信息Iwse、单词级结构信息Iwst、短语级语义信息Ipse和短语级结构信息Ipst,得到最终文本的向量表示IT的方法具体为:采用基于注意力机制的动态融合,把注意力机制应用在四种不同的信息上来自动学习每一部分信息对最终文本的向量表示IT的贡献比例γ,此处设Iwse,Iwst,Ipse,Ipst分别为I1,I2,I3,I4
Figure BDA0002301522370000071
Figure BDA0002301522370000072
ui=tanh(WtIi+bt)
其中,tanh为激活函数,
Figure BDA0002301522370000073
为ui的转置,Wt,bt,ut是注意力机制的参数。
本发明可以归纳为:
1)对文本语料库进行预处理,并获取到单词级语义信息和单词级结构信息。
2)短语级语义信息和短语级结构信息的获取。
3)对单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息进行融合,融合得到最终文本的向量表示进行文本分类。
对于单词级语义信息的获取,本发明使用注意力机制直接作用于输入词向量得到每个单词对单词级语义信息的贡献比例,然后把贡献比例与对应的词向量相乘并累加得到单词级语义信息;对于单词级结构信息的获取,本发明使用双向LSTM网络直接作用于词向量,单词级结构信息是由前向LSTM的最终状态与反向LSTM的最终状态连接而成。
对于短语级语义信息的获取,本发明首先使用卷积神经网络作用于词向量,得到短语信息,然后使用注意力机制作用于短语信息,得到短语级语义信息;对于短语级结构信息的获取,本发明使用双向LSTM作用于短语信息,短语级结构信息是由前向LSTM的最终状态与反向LSTM的最终状态连接而成。
对于单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息的融合方式,本发明提出两种融合方式:静态融合(即对四种信息进行加权平均)和基于注意力机制的动态融合(即使用注意力机制来学习这四部分信息对总体文本表示的贡献比例,然后相乘并累加)
实施例1:
(1)本发明的输入是一段文本,它由一系列单词组成,通过查找300维GloVe预训练词向量,得到输入文本中每个单词对应的词向量作为神经网络的输入。
(2)使用注意力机制作用于词向量,得到每个单词对单词级语义信息的贡献比例,然后把每个单词的贡献比例与其对应的词向量相乘并累加得到单词级语义信息;使用双向LSTM作用于词向量,把前向LSTM的最终状态与反向LSTM的最终状态拼接起来得到单词级结构信息。
(3)使用卷积神经网络作用于词向量得到短语的隐藏表示,使用自注意力作用于短语的隐藏表示,得到每个短语对短语级语义信息的贡献比例,然后把每个短语的贡献比例与其对应的短语隐藏表示相乘并累加得到短语级级语义信息;使用双向LSTM作用于短语的隐藏表示,得到短语级结构信息。
(4)对单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息使用本发明所提出的静态融合方法或基于注意力机制的动态融合方法得到最终的文本表示,然后把文本表示当做文本的高层次特征送入softmax函数预测文本所属的类别。
1.对文本进行预处理
首先对文本进行分词处理,分词工具采用的是NLTK分词器。然后按照词频对单词进行索引,索引从1开始,并把文本转换成对应的索引序列。由于预定义的模型需要有固定长度的输入,所以对输入文本进行处理,如果输入文本的长度大于指定长度,则对文本进行截断,如果输入文本的长度小于指定长度,则对文本进行填充,填充的方式为在前面补0。在把输入文本转换成索引序列后,通过查找300维GloVe预训练词向量,把每个索引转换成与之对应单词的词向量,对于不在GloVe中的单词,对其词向量采用随机均匀分布进行初始化,转换后的词向量作为神经网络的输入。
2.单词级信息的获取
设长度为s的输入句子为w1,w2,w3,...,ws,所对应的词向量分别为x1,x2,x3,...,xs,其中
Figure BDA0002301522370000081
是单词wi的词向量,d为向量的维度。由于句子中的每个单词对句子的整体语义贡献不同,使用注意力机制直接作用于词向量上,来学习每个单词对单词级语义信息贡献的比例α,然后把每个单词的词向量x与其对应的贡献比例α相乘并累加得到单词级语义信息Iwse,即:
ui=tanh(Wwxi+bw)
Figure BDA0002301522370000082
Figure BDA0002301522370000083
这里tanh为激活函数,
Figure BDA0002301522370000084
为ui的转置,Ww,bw,uw是注意力机制的参数。
对于单词级结构信息Iwst,使用双向LSTM来获得,即:
Figure BDA0002301522370000091
Figure BDA0002301522370000092
Figure BDA0002301522370000093
单词级结构信息Iwst是由前向LSTM的最终状态
Figure BDA0002301522370000094
与反向LSTM的最终状态
Figure BDA0002301522370000095
连接而成。
此处词向量为300维,单词级语义信息也为300维,前向LSTM和反向LSTM的隐藏状态的维度都是150维,单词级结构信息为两个状态的拼接,所以为300维。
3.短语级信息的获取
由于卷积神经网络可以提取句子的n-gram特征,因此设置卷积神经网络的窗口大小为n,来提取句子中长度为n的短语信息。使用窗口大小分别为3、4、5的卷积核各100个,来提取输入文本中长度为3、4、5的短语信息,然后把它们拼接起来,得到短语信息。设卷积后的输出为d1,d2,d3,...,ds。由于句子中的每个短语对句子的整体语义贡献不同,使用注意力机制作用于短语级表示上,来学习每个短语对短语级语义信息贡献的比例β,然后把每个短语的隐藏表示向量d与其贡献比例β相乘并累加得到单词级语义信息Ipse,方法与单词级语义信息的获取类似。
对于短语级结构信息Ipst,使用双向LSTM来获得,方法与单词级结构信息的获取类似。
对于短语信息,由于使用了窗口大小分别为3、4、5的卷积核各100个,所以拼接后的短语信息的维度为300维。因此经过注意力机制抽取后的短语级语义信息的维度也是300维。对于短语级结构信息,此处使用了与提取单词级结构信息相同的双向LSTM结构,其中前向LSTM和反向LSTM的维度都为150维,短语级结构信息为它们最终状态的拼接,所以维度为300维。
4.融合方法和分类
对于得到的单词级语义信息Iwse、单词级结构信息Iwst、短语级语义信息Ipse、短语级结构信息Ipst,本发明提出两种不同的融合策略来把它们融合起来得到最终的文本表示:静态融合和基于注意力机制的动态融合。
对于静态融合,如图2所示,即文本表示由单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息的加权平均,即文本T的表示
IT=(Iwse+Iwst+Ipse+Ipst)/4
对于动态融合,如图3所示,把注意力机制应用在四种不同的信息上来自动学习每一部分信息对最终文本表示的贡献比例γ。此处设Iwse,Iwst,Ipse,Ipst分别为I1,I2,I3,I4,文本T的表示计算公式如下:
ui=tanh(WtIi+bt)
Figure BDA0002301522370000101
Figure BDA0002301522370000102
这样就得到了文本表示IT,由于单词级语义信息Iwse、单词级结构信息Iwst、短语级语义信息Ipse、短语级结构信息Ipst的维度都为300维,所以最终文本的表示也为300维,最终文本的表示也即是文本的高层次特征。
接着把文本表示向量IT送给softmax分类器,来得到每个类别对应的概率:
p=softmax(WcIT+bc)
其中Wc是softmax分类器的权重,bc是对应的偏置。
为了得到模型的参数,最小化交叉熵损失函数如下:
Figure BDA0002301522370000103
其中,N是数据集中样本的数量,C是类别的数量,yij是第i个样本在第j个类别上的真实值,pij是第i个样本在第j个类别上神经网络的预测概率值。对于模型参数的训练,使用Adam优化器,它结合了AdaGrad和RMSProp两种优化算法的优点,对梯度的一阶矩估计和二阶矩估计进行综合考虑,计算出更新步长。它能够自动调整学习率,具有简单有效的特点。
在训练好模型参数以后,把模型保存起来。有语料库之外的文本需要对其分类时,可以首先对文本进行预处理,然后加载模型,分别计算单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息,之后使用静态融合方法或者基于注意力机制的动态融合方法对四种信息进行融合,得到最终文本的表示。最后把文本表示向量送入到softmax函数计算每个类别的概率,取概率最高的类别即为文本所属的类别。
5.实验
为了证明本发明所提出的模型效果优于其它模型,本模型与其它的一些基线模型在几个公开的文本分类数据集上进行了比较,评估指标为分类准确率。
实验所使用的数据集介绍:
MR数据集是Pang等人发布的一个二分类的电影评论数据集,它由5331个积极样本和5331个消极样本组成。
SUBJ数据集是Pang等人发布的一个二分类数据集,数据集中所有的句子都被分为objective和subjective两类。
TREC数据集是Li等人发布的一个六分类的问题分类数据集,数据集中的样本标签分别为abbreviation、entity、description、location、numeric、human。
CR数据集是Hu等人发布的一个包含顾客评论的二分类数据集,它的标签分别为积极的和消极的。
Stanford Sentiment Treebank数据集是Socher等人发布的一个五分类电影评论数据集,它的标签由非常消极的、消极的、中性的、积极的、非常积极的组成。
AGNews数据集是Zhang等人发布的一个新闻分类数据集,它的标签分别为World、Sports、Business、Sci/Tech。
实验的设置如下:
所有的实验都是Windows***上使用深度学习框架Keras实现的。对于词向量的初始化,使用300维GloVe词向量来初始化神经网络的输入,对于不在GloVe中的单词,使用均匀分布对其词向量进行初始化。模型的其他权重的初始化采用Xavier uniform分布,偏置的初始化为0,双向LSTM的隐藏状态维度都是150,我们使用窗口大小分别为3,4,5的卷积核各100个。对于激活函数,线性修正单元(Rectified Linear Units)ReLU激活函数被应用在卷积层,全连接层的激活函数为tanh。对于正则化,使用dropout分别应用在Embedding层之后、卷积层之后、全连接层之后。除此之外,不引入别的正则化项。对于模型的优化,使用Adam优化器来最小化损失,学习率设置为1e-4。对于模型的训练,设置每个batch的大小为32,epoch(总轮次)为20,使用EarlyStoping当验证集上的准确率开始下降。
实验结果如图7所示:
所有的模型被分为6部分,第一部分是基于CNN的模型,第二部分是基于RNN的模型,第三部分是基于强化学习的模型,第四部分是基于胶囊神经网络的模型,第五部分是基于注意力机制的模型,最后一部分是本发明提出的模型。
通过与其它模型比较可以发现,本发明提出的动态模型在六个公开文本分类数据集中的四个数据集上达到了最高的性能,其中MR数据集(准确率为83.4)和CR数据集(准确率为87.0)较其他模型有较大的提升。与其它模型相比,本发明提出的静态模型也获得了具有竞争性的结果。与基于CNN的模型和基于RNN的模型以及基于Attention的模型相比,动态模型完全超越了它们在六个数据集上。基于强化学习的模型和基于胶囊网络的模型分别在SST5和AGNews数据集上达到了最高的准确率,但是在这两个数据集上该模型也取得了可以比拟的结果。这展示出该模型能够有效的提取出文本的特征,并且具有很强的泛化能力。
与其它模型相比,最关键的不同是该模型能够提取不同层次的语义信息和结构信息并把它们融合起来得到文本的表示,而其它模型要么只学习到少量的语义信息,要么只学习到少量的结构信息,不能把它们结合起来。该模型可以取得最好的性能的主要原因是该模型可以提取到文本的单词级语义信息和结构信息、短语级语义信息和结构信息,并且基于Attention机制的动态组合方法可以动态调整这四部分信息的权重,形成最终的文本表示。
为了证明本发明所提出的模型可以提取到单词级语义信息和短语级语义信息,我们对一些样本进行了可视化实验。对于单词级语义信息,注意力机制可以学习到每个单词对于单词级语义的贡献比例。如图4所示,样本”a pleasant enough movie held togetherby skilled emsemble actors”取自MR数据集,类别标签为Positive。可以看到关键单词”pleasant”、”skilled”被注意力机制分配较高的权重,单词级语义信息被学习到。
短语级语义信息与单词级语义信息类似,如图5所示,样本”it′s not difficultto spot the culprit early-on in this predictable thriller”取自MR数据集,类别标签为Negative。从句子中很难找到具有Negative情感的单词,但是短语级语义信息依然学习到了”this predictable thriller”这样的关键短语,并且分配较高的权重。
为了研究为什么本发明提出的动态模型可以在六个数据集中的四个上实现最好的性能,我们选取了一些样本进行分析,如图8所示。其中,Attwse表示单词级语义信息的注意力值,Attpse表示短语级语义信息的注意力值,Attwst表示单词级结构信息的注意力值,Attpst表示短语级结构信息的注意力值。
对于电影评论MR数据集中”a thoughtful,provocative,insistentlyhumanizing film”,该模型可以提取到”thoughtful”,”provocative”,“humanizing”这样单词的语义信息,对单词级语义信息分配的权重较高,所以分类为positive。
对于电影评论MR数据集中”i didn′t laugh,i didn′t smile,i survived”,尽管注意力机制会关注”didn’t”这样的词,但是句子中同样包含许多如”laugh”和”smile”,如果仅仅考虑单词级语义信息可能会造成误分类,此时该模型可以提取到”didn’t laugh”和”didn’t smile”这样短语的语义信息,注意力机制对短语级语义信息分配的权重较高,所以分类为negative。
对于CR数据集中”nice machines,but i consider their quality pretty lownow”,单词级结构信息”nice……but……low”被学习到,所以被正确分类为negative。
对于TREC问题分类数据集中”What type ofcurrency is used inAustralia?”,如果仅仅关注语义信息可能会造成分类错误,因为单词”Australia”可能会使模型给location类较高的权重,而该模型能够学习到”what type of……”这样的短语级结构信息,所以分类为entity
本发明提出了一种新的神经网络模型来进行文本分类。为了解决传统文本分类方法不能同时有效的利用文本的语义信息和结构信息,本发明所提出的模型可以提取文本的不同层次的语义信息和结构信息,包括单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息。该模型以文本作为输入,输出为模型预测的该文本所属的类别。为了得到文本的最终表示,本发明又提出两种融合方法来融合四种信息,分别是静态融合和基于注意力机制的动态融合。相比于传统方法,本发明所提出的文本分类模型能够利用更多的文本信息,实验证明本方法在几个公开的文本分类数据集上比传统的文本分类模型具有更高的性能。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于神经网络的文本分类方法,其特征在于,包括以下步骤:
步骤1:输入待分类的文本,对文本进行预处理,得到文本中每个词对应的词向量xi
步骤2:根据每个词对应的词向量xi,使用注意力机制直接作用于词向量xi上,得到单词级语义信息Iwse;使用双向LSTM网络直接作用于词向量xi,获得单词级结构信息Iwst
步骤3:使用卷积神经网络作用于词向量xi,得到短语信息D;
步骤4:使用注意力机制作用于短语信息D,得到短语级语义信息Ipse;使用双向LSTM网络作用于短语信息D,得到短语级结构信息Ipst
步骤5:融合单词级语义信息Iwse、单词级结构信息Iwst、短语级语义信息Ipse和短语级结构信息Ipst,得到最终文本的向量表示IT
步骤6:将最终文本的向量表示IT输入到softmax分类器,得到每个类别对应的概率:取概率最高的类别即为文本所属的类别;
p=softmax(WcIT+bc)
其中Wc是softmax分类器的权重,bc是对应的偏置。
2.根据权利要求1所述的一种基于神经网络的文本分类方法,其特征在于:所述的步骤1中对文本进行预处理具体为:
步骤1.1:检测输入文本的长度;若输入文本的长度大于指定长度,则对文本进行截断;若输入文本的长度小于指定长度,则对文本进行填充;
步骤1.2:对文本进行分词处理,按照词频对单词进行索引,把文本转换成对应的索引序列;
步骤1.3:将索引序列中每个索引转换成与之对应单词的词向量,完成对文本的预处理。
3.根据权利要求1或2所述的一种基于神经网络的文本分类方法,其特征在于:所述的步骤2中获取单词级语义信息Iwse的方法具体为:设长度为s的输入句子为w1,w2,w3,…,ws,所对应的词向量分别为x1,x2,x3,…,xs;由于句子中的每个单词对句子的整体语义贡献不同,使用注意力机制直接作用于词向量上,来学习每个单词对单词级语义信息贡献的比例αi;把每个单词的词向量xi与其对应的贡献比例α相乘并累加得到单词级语义信息Iwse
Figure FDA0002301522360000011
其中,
Figure FDA0002301522360000012
是单词wi的词向量,d为向量的维度;
Figure FDA0002301522360000013
ui=tanh(Wwxi+bw)
其中,tanh为激活函数,
Figure FDA0002301522360000021
为ui的转置,Ww,bw,uw是注意力机制的参数;
所述的步骤2中获取单词级结构信息Iwst的方法具体为:所述的单词级结构信息Iwst是由前向LSTM的最终状态
Figure FDA0002301522360000022
与反向LSTM的最终状态
Figure FDA0002301522360000023
连接而成;
Figure FDA0002301522360000024
Figure FDA0002301522360000025
Figure FDA0002301522360000026
4.根据权利要求1或2所述的一种基于神经网络的文本分类方法,其特征在于:所述的步骤5中融合单词级语义信息Iwst、单词级结构信息Iwst、短语级语义信息Ipse和短语级结构信息Ipse,得到最终文本的向量表示IT的方法具体为:采取静态融合,即文本表示由单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息的加权平均;
IT=(Iwse+Iwst+Ipse+Ipst)/4。
5.根据权利要求3所述的一种基于神经网络的文本分类方法,其特征在于:所述的步骤5中融合单词级语义信息Iwse、单词级结构信息Iwst、短语级语义信息Ipse和短语级结构信息Ipst,得到最终文本的向量表示IT的方法具体为:采取静态融合,即文本表示由单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息的加权平均;
IT=(Iwse+Iwst+Ipse+Ipst)/4。
6.根据权利要求1或2所述的一种基于神经网络的文本分类方法,其特征在于:所述的步骤5中融合单词级语义信息Iwse、单词级结构信息Iwst、短语级语义信息Ipse和短语级结构信息Ipst,得到最终文本的向量表示IT的方法具体为:采用基于注意力机制的动态融合,把注意力机制应用在四种不同的信息上来自动学习每一部分信息对最终文本的向量表示IT的贡献比例γ,此处设Iwse,Iwst,Ipse,Ipst分别为I1,I2,I3,I4
Figure FDA0002301522360000027
Figure FDA0002301522360000028
ui=tanh(WtIi+bt)
其中,tanh为激活函数,
Figure FDA0002301522360000031
为ui的转置,Wt,bt,ut是注意力机制的参数。
7.根据权利要求3所述的一种基于神经网络的文本分类方法,其特征在于:所述的步骤5中融合单词级语义信息Iwse、单词级结构信息Iwst、短语级语义信息Ipse和短语级结构信息Ipst,得到最终文本的向量表示IT的方法具体为:采用基于注意力机制的动态融合,把注意力机制应用在四种不同的信息上来自动学习每一部分信息对最终文本的向量表示IT的贡献比例γ,此处设Iwse,Iwst,Ipse,Ipst分别为I1,I2,I3,I4
Figure FDA0002301522360000032
Figure FDA0002301522360000033
ui=tanh(WtIi+bt)
其中,tanh为激活函数,
Figure FDA0002301522360000034
为ui的转置,Wt,bt,ut是注意力机制的参数。
CN201911223541.XA 2019-12-03 2019-12-03 一种基于神经网络的文本分类方法 Active CN111078833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911223541.XA CN111078833B (zh) 2019-12-03 2019-12-03 一种基于神经网络的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911223541.XA CN111078833B (zh) 2019-12-03 2019-12-03 一种基于神经网络的文本分类方法

Publications (2)

Publication Number Publication Date
CN111078833A CN111078833A (zh) 2020-04-28
CN111078833B true CN111078833B (zh) 2022-05-20

Family

ID=70312658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911223541.XA Active CN111078833B (zh) 2019-12-03 2019-12-03 一种基于神经网络的文本分类方法

Country Status (1)

Country Link
CN (1) CN111078833B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231477B (zh) * 2020-10-20 2023-09-22 淮阴工学院 一种基于改进胶囊网络的文本分类方法
CN112131391B (zh) * 2020-11-25 2021-09-17 江苏电力信息技术有限公司 一种基于胶囊网络的供电服务客户诉求文本分类方法
CN113157919B (zh) * 2021-04-07 2023-04-25 山东师范大学 语句文本方面级情感分类方法及***
CN113033218B (zh) * 2021-04-16 2023-08-15 沈阳雅译网络技术有限公司 一种基于神经网络结构搜索的机器翻译译文质量评估方法
CN113297364B (zh) * 2021-06-07 2023-06-09 吉林大学 一种面向对话***中的自然语言理解方法及装置
CN113779192A (zh) * 2021-08-23 2021-12-10 河海大学 一种基于带标签约束的双向动态路由的文本分类算法
CN113869065B (zh) * 2021-10-15 2024-04-12 梧州学院 一种基于“单词-短语”注意力机制的情感分类方法和***
CN114579712B (zh) * 2022-05-05 2022-07-15 中科雨辰科技有限公司 基于动态模型的文本属性提取匹配方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN107491541A (zh) * 2017-08-24 2017-12-19 北京丁牛科技有限公司 文本分类方法及装置
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108446275A (zh) * 2018-03-21 2018-08-24 北京理工大学 基于注意力双层lstm的长文本情感倾向性分析方法
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN108717439A (zh) * 2018-05-16 2018-10-30 哈尔滨理工大学 一种基于注意力机制和特征强化融合的中文文本分类方法
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109299268A (zh) * 2018-10-24 2019-02-01 河南理工大学 一种基于双通道模型的文本情感分析方法
CN109492108A (zh) * 2018-11-22 2019-03-19 上海唯识律简信息科技有限公司 基于深度学习的多级融合文档分类方法和***
CN109840279A (zh) * 2019-01-10 2019-06-04 山东亿云信息技术有限公司 基于卷积循环神经网络的文本分类方法
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10936862B2 (en) * 2016-11-14 2021-03-02 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN107491541A (zh) * 2017-08-24 2017-12-19 北京丁牛科技有限公司 文本分类方法及装置
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108446275A (zh) * 2018-03-21 2018-08-24 北京理工大学 基于注意力双层lstm的长文本情感倾向性分析方法
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN108717439A (zh) * 2018-05-16 2018-10-30 哈尔滨理工大学 一种基于注意力机制和特征强化融合的中文文本分类方法
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109299268A (zh) * 2018-10-24 2019-02-01 河南理工大学 一种基于双通道模型的文本情感分析方法
CN109492108A (zh) * 2018-11-22 2019-03-19 上海唯识律简信息科技有限公司 基于深度学习的多级融合文档分类方法和***
CN109840279A (zh) * 2019-01-10 2019-06-04 山东亿云信息技术有限公司 基于卷积循环神经网络的文本分类方法
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Bidirectional LSTM with attention mechanism and convolutional layer for text classification;GangLiu;《Neurocomputing》;20190414;第337卷;325-338 *
基于Attention机制的卷积神经网络文本分类模型;赵云山;《应用科学学报》;20190730;第37卷(第4期);541-510 *
基于Bi-LSTM和CNN并包含注意力机制的社区问答问句分类方法;史梦飞等;《计算机***应用》;20180915(第09期);159-164 *
基于卷积记忆网络的视角级微博情感分类;廖祥文等;《模式识别与人工智能》;20180315(第03期);25-35 *
基于混合神经网络的中文短文本分类模型;陈巧红;《浙江理工大学学报(自然科学版)》;20190331;第41卷(第4期);509-516 *
基于短语注意机制的文本分类;江伟等;《中文信息学报》;20180215(第02期);106-113+123 *

Also Published As

Publication number Publication date
CN111078833A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111078833B (zh) 一种基于神经网络的文本分类方法
CN110609897B (zh) 一种融合全局和局部特征的多类别中文文本分类方法
Zulqarnain et al. Efficient processing of GRU based on word embedding for text classification
Zhang et al. A text sentiment classification modeling method based on coordinated CNN‐LSTM‐attention model
CN109325231B (zh) 一种多任务模型生成词向量的方法
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN109977413A (zh) 一种基于改进cnn-lda的情感分析方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN110263325B (zh) 中文分词***
CN111027595B (zh) 双阶段语义词向量生成方法
CN112364638B (zh) 一种基于社交文本的人格识别方法
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111368088A (zh) 一种基于深度学习的文本情感分类方法
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN110046223B (zh) 基于改进型卷积神经网络模型的影评情感分析方法
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及***
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及***
CN112199503B (zh) 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
Liu et al. A multi-label text classification model based on ELMo and attention
CN114462420A (zh) 一种基于特征融合模型的虚假新闻检测方法
Chen et al. Deep neural networks for multi-class sentiment classification
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant