CN111078833B

CN111078833B - 一种基于神经网络的文本分类方法

Info

Publication number: CN111078833B
Application number: CN201911223541.XA
Authority: CN
Inventors: 黄少滨; 吴汉瑜; 李熔盛; 申林山; 姜梦奇; 范贺添; 谷虹润
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2022-05-20
Anticipated expiration: 2039-12-03
Also published as: CN111078833A

Abstract

本发明属于文本分类技术领域，具体涉及一种基于神经网络的文本分类方法。了解决传统文本分类方法不能同时有效的利用文本的语义信息和结构信息的问题，本发明可以提取文本的不同层次的语义信息和结构信息，包括单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息。为了得到文本的最终表示，本发明又提出两种融合方法来融合四种信息，分别是静态融合和基于注意力机制的动态融合。本发明基于神经网络，综合利用文本不同层次的语义信息和结构信息，提高了文本分类的准确率。

Description

一种基于神经网络的文本分类方法

技术领域

本发明属于文本分类技术领域，具体涉及一种基于神经网络的文本分类方法。

背景技术

文本分类是许多自然语言处理任务的重要组成部分，它可以被应用在情感分类、问题分类、网页检索上，而文本表示在文本分类中扮演着重要的角色。早期的文本分类技术大多是基于传统机器学习算法，例如朴素贝叶斯、支持向量机等。而这种方法往往需要领域专家手工设计和抽取文本中的特征，费时又费力。近年来，基于深度学习的神经网络的模型在自然语言处理领域的许多任务中展现了强大的性能，比如机器翻译、情感分析、文本分类。大部分神经网络模型都是基于CNN、RNN或者注意力机制。

卷积神经网络(CNN)可以对文本进行建模，它可以通过滑动窗口提取到文本的ngram信息，可以通过最大池化技术挑选出文本中最具判别力的单词或短语，但是如何选择窗口的大小是一个重要的问题，窗口太小会造成结构信息丢失，窗口太大会造成参数太多，给训练带来麻烦。

递归神经网络(Recurisive NN)通过树结构对文本进行建模，可以有效的捕获到文本的结构信息，并且已经被证明在构造文本表示方面是有效的。然而递归神经网络的性能在很大程度上取决于文本树构造的性能，并且构造文本树是非常耗时的，而且文本中句子的关系很难通过树结构来建模，因此它也不能很好的利用语义信息和结构信息。

与递归神经网络不同，循环神经网络(Recurrent NN)是一种序列模型，天生适合对文本进行建模，它可以捕获文本的结构信息，但是它是一个有偏模型，文本中靠后的单词比靠前的单词更占优势。

注意力(Attention)机制被应用在许多自然语言处理任务中并获得了巨大的成功，并且已经被证明在捕获文本语义的方面是有效的。它可以通过少量的参数学习到文本中每一部分信息对文本整体语义信息的贡献比例，重要的单词或短语会被分配较高的权重，但是它忽略了词序信息，这也就造成了它不能很好的利用文本的结构信息。

近年来，基于深度学习的神经网络的模型在自然语言处理领域的许多任务中展现了强大的性能，比如机器翻译、情感分析、文本分类。大部分神经网络模型都是基于卷积神经网络(CNN)、循环神经网络(RNN)或者注意力(Attention)机制。

基于CNN的模型

卷积神经网络(CNN)被一些研究者从计算机视觉领域引入到自然语言处理领域，并获得了巨大的成功。Kim提出用多个不同大小的卷积核提取文本的特征来进行句子分类，Kalchbrenner等人把一种动态k-max池化机制与CNN结合，应用在句子建模中并取得了不错的效果。Zhang等人提出一种字符级卷积神经网络模型应用在文本分类中。由于浅层CNN不能很好的处理句子中的长距离依赖，一些深层CNN模型被提出，例如Conneau等人提出的very deep CNN(VDCNN)和Johnson等人提出的deep pyramid CNN。

基于RNN的模型

循环神经网络(Recurrent NN)是一种序列模型，在自然语言处理领域中广泛使用。Tang等人使用门控循环神经网络来进行情感分类。一些研究者试图对RNN的结构进行改造，Wang提出使用Disconnected RNN来进行文本分类，与之类似，Yu等人提出用Sliced RNN对句子进行建模，并且取得了不错的效果。

基于注意力机制的模型

Bahdanau等人首先把注意力机制应用在机器翻译中。Yang等人使用层级注意力网络和双向GRU对文档进行建模和分类。Vaswani等人提出Transformer，一种完全基于selfattention机制的模型，在机器翻译中取得了重大的成功。Lin等人提出一种结构化自注意力句子嵌入。

文本分类是许多自然语言处理任务的基础，文本表示则是文本分类的关键。文本表示可以理解成文本的高层次特征，文本表示的好坏直接影响了文本分类的性能。传统的文本表示方法不能很好的表示文本，例如词袋模型，它把每个词表示成一个高维稀疏向量，但是它忽略了文本中单词的顺序信息和单词的语义信息。近年来，随着深度学习的发展，现在大部分性能好的文本分类模型都是基于神经网络，它们把文本表示成低维实值向量，然后把向量送入到softmax函数中预测每个类别的概率，然而它们不能很好的利用文本的语义信息和结构信息。

发明内容

本发明的目的在于针对传统的神经网络模型不能有效的利用文本的语义信息和结构信息问题，提供一种基于神经网络的文本分类方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：输入待分类的文本，对文本进行预处理，得到文本中每个词对应的词向量x_i；

步骤2：根据每个词对应的词向量x_i，使用注意力机制直接作用于词向量x_i上，得到单词级语义信息I_wse；使用双向LSTM网络直接作用于词向量x_i，获得单词级结构信息I_wst；

步骤3：使用卷积神经网络作用于词向量x_i，得到短语信息D；

步骤4：使用注意力机制作用于短语信息D，得到短语级语义信息I_pse；使用双向LSTM网络作用于短语信息D，得到短语级结构信息I_pst；

步骤5：融合单词级语义信息I_wse、单词级结构信息I_wst、短语级语义信息I_pse和短语级结构信息I_pst，得到最终文本的向量表示I_T；

步骤6：将最终文本的向量表示I_T输入到softmax分类器，得到每个类别对应的概率：取概率最高的类别即为文本所属的类别；

p＝softmax(W_cI_T+b_c)

其中W_c是softmax分类器的权重，b_c是对应的偏置。

本发明还可以包括：所述的步骤1中对文本进行预处理具体为：

步骤1.1：检测输入文本的长度；若输入文本的长度大于指定长度，则对文本进行截断；若输入文本的长度小于指定长度，则对文本进行填充；

步骤1.2：对文本进行分词处理，按照词频对单词进行索引，把文本转换成对应的索引序列；

步骤1.3：将索引序列中每个索引转换成与之对应单词的词向量，完成对文本的预处理。

所述的步骤2中获取单词级语义信息I_wse的方法具体为：设长度为s的输入句子为w₁，w₂，w₃，...，w_s，所对应的词向量分别为x₁，x₂，x₃，...，x_s；由于句子中的每个单词对句子的整体语义贡献不同，使用注意力机制直接作用于词向量上，来学习每个单词对单词级语义信息贡献的比例α_i；把每个单词的词向量x_i与其对应的贡献比例α相乘并累加得到单词级语义信息I_wse；

其中，

是单词w_i的词向量，d为向量的维度；

u_i＝tanh(W_wx_i+b_w)

其中，tanh为激活函数，

为u_i的转置，W_w，b_w，u_w是注意力机制的参数；

所述的步骤2中获取单词级结构信息I_wst的方法具体为：所述的单词级结构信息I_wst是由前向LSTM的最终状态

与反向LSTM的最终状态

连接而成；

所述的步骤5中融合单词级语义信息I_wse、单词级结构信息I_wst、短语级语义信息I_pse和短语级结构信息I_pst，得到最终文本的向量表示I_T的方法具体为：采取静态融合，即文本表示由单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息的加权平均；

I_T＝(I_wse+I_wst+I_pse+I_pst)/4。

所述的步骤5中融合单词级语义信息I_wse、单词级结构信息I_wst、短语级语义信息I_pse和短语级结构信息I_pst，得到最终文本的向量表示I_T的方法具体为：采用基于注意力机制的动态融合，把注意力机制应用在四种不同的信息上来自动学习每一部分信息对最终文本的向量表示I_T的贡献比例γ，此处设I_wse，I_wst，I_pse，I_pst分别为I₁，I₂，I₃，I₄；

u_i＝tanh(W_tI_i+b_t)

其中，tanh为激活函数，

为u_i的转置，W_t，b_t，u_t是注意力机制的参数。

本发明的有益效果在于：

本发明提供了一种基于神经网络的文本分类方法，为了解决传统文本分类方法不能同时有效的利用文本的语义信息和结构信息的问题，本发明可以提取文本的不同层次的语义信息和结构信息，包括单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息。为了得到文本的最终表示，本发明又提出两种融合方法来融合四种信息，分别是静态融合和基于注意力机制的动态融合。本发明基于神经网络，综合利用文本不同层次的语义信息和结构信息，提高了文本分类的准确率。

附图说明

图1为本发明的整体架构图。

图2为本发明的静态融合示意图。

图3为本发明的动态融合示意图。

图4为使用注意力机制得到单词级语义信息I_wse的可视化实验结果图。

图5为使用注意力机制得到短语级语义信息I_pse的可视化实验结果图。

图6为本发明的总体流程图。

图7为本发明实施例中实验数据表。

图8为本发明实施例中样本分析表。

具体实施方式

下面结合附图对本发明做进一步描述。

文本分类是许多自然语言处理任务的基础，文本表示则是文本分类的关键。文本表示可以理解成文本的高层次特征，文本表示的好坏直接影响了文本分类的性能。传统的文本表示方法不能很好的表示文本，例如词袋模型，它把每个词表示成一个高维稀疏向量，但是它忽略了文本中单词的顺序信息和单词的语义信息。近年来，随着深度学习的发展，现在大部分性能好的文本分类模型都是基于神经网络，它们把文本表示成低维实值向量，然后把向量送入到softmax函数中预测每个类别的概率，然而它们不能很好的利用文本的语义信息和结构信息。本发明提出的模型同样是基于神经网络，但是却能够综合利用文本不同层次的语义信息和结构信息，提高了文本分类的准确率。

针对于传统的神经网络模型不能有效的利用文本的语义信息和结构信息，本发明目的在于设计一种新型的基于神经网络的文本分类模型，该模型可以提取文本不同层次的语义信息和结构信息，包括单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息，然后使用本发明提出的融合方法把这四部分信息融合起来形成文本的表示，最终文本的表示输入到softmax函数中进行分类。

一种基于神经网络的文本分类方法，包括以下步骤：

p＝softmax(W_cI_T+b_c)

其中W_c是softmax分类器的权重，b_c是对应的偏置。

步骤1中对文本进行预处理具体为：

步骤2中获取单词级语义信息I_wse的方法具体为：设长度为s的输入句子为w₁，w₂，w₃，...，w_s，所对应的词向量分别为x₁，x₂，x₃，...，x_s；由于句子中的每个单词对句子的整体语义贡献不同，使用注意力机制直接作用于词向量上，来学习每个单词对单词级语义信息贡献的比例α_i；把每个单词的词向量x_i与其对应的贡献比例α相乘并累加得到单词级语义信息I_wse；

其中，

是单词w_i的词向量，d为向量的维度；

u_i＝tanh(W_wx_i+b_w)

其中，tanh为激活函数，

为u_i的转置，W_w，b_w，u_w是注意力机制的参数；

与反向LSTM的最终状态

连接而成；

步骤5中融合单词级语义信息I_wse、单词级结构信息I_wst、短语级语义信息I_pse和短语级结构信息I_pst，得到最终文本的向量表示I_T的方法具体为：采取静态融合，即文本表示由单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息的加权平均；

I_T＝(I_wse+I_wst+I_pse+I_pst)/4。

步骤5中融合单词级语义信息I_wse、单词级结构信息I_wst、短语级语义信息I_pse和短语级结构信息I_pst，得到最终文本的向量表示I_T的方法具体为：采用基于注意力机制的动态融合，把注意力机制应用在四种不同的信息上来自动学习每一部分信息对最终文本的向量表示I_T的贡献比例γ，此处设I_wse，I_wst，I_pse，I_pst分别为I₁，I₂，I₃，I₄；

u_i＝tanh(W_tI_i+b_t)

其中，tanh为激活函数，

为u_i的转置，W_t，b_t，u_t是注意力机制的参数。

本发明可以归纳为：

1)对文本语料库进行预处理，并获取到单词级语义信息和单词级结构信息。

2)短语级语义信息和短语级结构信息的获取。

3)对单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息进行融合，融合得到最终文本的向量表示进行文本分类。

对于单词级语义信息的获取，本发明使用注意力机制直接作用于输入词向量得到每个单词对单词级语义信息的贡献比例，然后把贡献比例与对应的词向量相乘并累加得到单词级语义信息；对于单词级结构信息的获取，本发明使用双向LSTM网络直接作用于词向量，单词级结构信息是由前向LSTM的最终状态与反向LSTM的最终状态连接而成。

对于短语级语义信息的获取，本发明首先使用卷积神经网络作用于词向量，得到短语信息，然后使用注意力机制作用于短语信息，得到短语级语义信息；对于短语级结构信息的获取，本发明使用双向LSTM作用于短语信息，短语级结构信息是由前向LSTM的最终状态与反向LSTM的最终状态连接而成。

对于单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息的融合方式，本发明提出两种融合方式：静态融合(即对四种信息进行加权平均)和基于注意力机制的动态融合(即使用注意力机制来学习这四部分信息对总体文本表示的贡献比例，然后相乘并累加)

实施例1：

(1)本发明的输入是一段文本，它由一系列单词组成，通过查找300维GloVe预训练词向量，得到输入文本中每个单词对应的词向量作为神经网络的输入。

(2)使用注意力机制作用于词向量，得到每个单词对单词级语义信息的贡献比例，然后把每个单词的贡献比例与其对应的词向量相乘并累加得到单词级语义信息；使用双向LSTM作用于词向量，把前向LSTM的最终状态与反向LSTM的最终状态拼接起来得到单词级结构信息。

(3)使用卷积神经网络作用于词向量得到短语的隐藏表示，使用自注意力作用于短语的隐藏表示，得到每个短语对短语级语义信息的贡献比例，然后把每个短语的贡献比例与其对应的短语隐藏表示相乘并累加得到短语级级语义信息；使用双向LSTM作用于短语的隐藏表示，得到短语级结构信息。

(4)对单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息使用本发明所提出的静态融合方法或基于注意力机制的动态融合方法得到最终的文本表示，然后把文本表示当做文本的高层次特征送入softmax函数预测文本所属的类别。

1.对文本进行预处理

首先对文本进行分词处理，分词工具采用的是NLTK分词器。然后按照词频对单词进行索引，索引从1开始，并把文本转换成对应的索引序列。由于预定义的模型需要有固定长度的输入，所以对输入文本进行处理，如果输入文本的长度大于指定长度，则对文本进行截断，如果输入文本的长度小于指定长度，则对文本进行填充，填充的方式为在前面补0。在把输入文本转换成索引序列后，通过查找300维GloVe预训练词向量，把每个索引转换成与之对应单词的词向量，对于不在GloVe中的单词，对其词向量采用随机均匀分布进行初始化，转换后的词向量作为神经网络的输入。

2.单词级信息的获取

设长度为s的输入句子为w₁，w₂，w₃，...，w_s，所对应的词向量分别为x₁，x₂，x₃，...，x_s，其中

是单词w_i的词向量，d为向量的维度。由于句子中的每个单词对句子的整体语义贡献不同，使用注意力机制直接作用于词向量上，来学习每个单词对单词级语义信息贡献的比例α，然后把每个单词的词向量x与其对应的贡献比例α相乘并累加得到单词级语义信息I_wse，即：

u_i＝tanh(W_wx_i+b_w)

这里tanh为激活函数，

为u_i的转置，W_w，b_w，u_w是注意力机制的参数。

对于单词级结构信息I_wst，使用双向LSTM来获得，即：

单词级结构信息I_wst是由前向LSTM的最终状态

与反向LSTM的最终状态

连接而成。

此处词向量为300维，单词级语义信息也为300维，前向LSTM和反向LSTM的隐藏状态的维度都是150维，单词级结构信息为两个状态的拼接，所以为300维。

3.短语级信息的获取

由于卷积神经网络可以提取句子的n-gram特征，因此设置卷积神经网络的窗口大小为n，来提取句子中长度为n的短语信息。使用窗口大小分别为3、4、5的卷积核各100个，来提取输入文本中长度为3、4、5的短语信息，然后把它们拼接起来，得到短语信息。设卷积后的输出为d₁，d₂，d₃，...，d_s。由于句子中的每个短语对句子的整体语义贡献不同，使用注意力机制作用于短语级表示上，来学习每个短语对短语级语义信息贡献的比例β，然后把每个短语的隐藏表示向量d与其贡献比例β相乘并累加得到单词级语义信息I_pse，方法与单词级语义信息的获取类似。

对于短语级结构信息I_pst，使用双向LSTM来获得，方法与单词级结构信息的获取类似。

对于短语信息，由于使用了窗口大小分别为3、4、5的卷积核各100个，所以拼接后的短语信息的维度为300维。因此经过注意力机制抽取后的短语级语义信息的维度也是300维。对于短语级结构信息，此处使用了与提取单词级结构信息相同的双向LSTM结构，其中前向LSTM和反向LSTM的维度都为150维，短语级结构信息为它们最终状态的拼接，所以维度为300维。

4.融合方法和分类

对于得到的单词级语义信息I_wse、单词级结构信息I_wst、短语级语义信息I_pse、短语级结构信息I_pst，本发明提出两种不同的融合策略来把它们融合起来得到最终的文本表示：静态融合和基于注意力机制的动态融合。

对于静态融合，如图2所示，即文本表示由单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息的加权平均，即文本T的表示

I_T＝(I_wse+I_wst+I_pse+I_pst)/4

对于动态融合，如图3所示，把注意力机制应用在四种不同的信息上来自动学习每一部分信息对最终文本表示的贡献比例γ。此处设I_wse，I_wst，I_pse，I_pst分别为I₁，I₂，I₃，I₄，文本T的表示计算公式如下：

u_i＝tanh(W_tI_i+b_t)

这样就得到了文本表示I_T，由于单词级语义信息I_wse、单词级结构信息I_wst、短语级语义信息I_pse、短语级结构信息I_pst的维度都为300维，所以最终文本的表示也为300维，最终文本的表示也即是文本的高层次特征。

接着把文本表示向量I_T送给softmax分类器，来得到每个类别对应的概率：

p＝softmax(W_cI_T+b_c)

其中W_c是softmax分类器的权重，b_c是对应的偏置。

为了得到模型的参数，最小化交叉熵损失函数如下：

其中，N是数据集中样本的数量，C是类别的数量，y_ij是第i个样本在第j个类别上的真实值，p_ij是第i个样本在第j个类别上神经网络的预测概率值。对于模型参数的训练，使用Adam优化器，它结合了AdaGrad和RMSProp两种优化算法的优点，对梯度的一阶矩估计和二阶矩估计进行综合考虑，计算出更新步长。它能够自动调整学习率，具有简单有效的特点。

在训练好模型参数以后，把模型保存起来。有语料库之外的文本需要对其分类时，可以首先对文本进行预处理，然后加载模型，分别计算单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息，之后使用静态融合方法或者基于注意力机制的动态融合方法对四种信息进行融合，得到最终文本的表示。最后把文本表示向量送入到softmax函数计算每个类别的概率，取概率最高的类别即为文本所属的类别。

5.实验

为了证明本发明所提出的模型效果优于其它模型，本模型与其它的一些基线模型在几个公开的文本分类数据集上进行了比较，评估指标为分类准确率。

实验所使用的数据集介绍：

MR数据集是Pang等人发布的一个二分类的电影评论数据集，它由5331个积极样本和5331个消极样本组成。

SUBJ数据集是Pang等人发布的一个二分类数据集，数据集中所有的句子都被分为objective和subjective两类。

TREC数据集是Li等人发布的一个六分类的问题分类数据集，数据集中的样本标签分别为abbreviation、entity、description、location、numeric、human。

CR数据集是Hu等人发布的一个包含顾客评论的二分类数据集，它的标签分别为积极的和消极的。

Stanford Sentiment Treebank数据集是Socher等人发布的一个五分类电影评论数据集，它的标签由非常消极的、消极的、中性的、积极的、非常积极的组成。

AGNews数据集是Zhang等人发布的一个新闻分类数据集，它的标签分别为World、Sports、Business、Sci/Tech。

实验的设置如下：

所有的实验都是Windows***上使用深度学习框架Keras实现的。对于词向量的初始化，使用300维GloVe词向量来初始化神经网络的输入，对于不在GloVe中的单词，使用均匀分布对其词向量进行初始化。模型的其他权重的初始化采用Xavier uniform分布，偏置的初始化为0，双向LSTM的隐藏状态维度都是150，我们使用窗口大小分别为3，4，5的卷积核各100个。对于激活函数，线性修正单元(Rectified Linear Units)ReLU激活函数被应用在卷积层，全连接层的激活函数为tanh。对于正则化，使用dropout分别应用在Embedding层之后、卷积层之后、全连接层之后。除此之外，不引入别的正则化项。对于模型的优化，使用Adam优化器来最小化损失，学习率设置为1e-4。对于模型的训练，设置每个batch的大小为32，epoch(总轮次)为20，使用EarlyStoping当验证集上的准确率开始下降。

实验结果如图7所示：

所有的模型被分为6部分，第一部分是基于CNN的模型，第二部分是基于RNN的模型，第三部分是基于强化学习的模型，第四部分是基于胶囊神经网络的模型，第五部分是基于注意力机制的模型，最后一部分是本发明提出的模型。

通过与其它模型比较可以发现，本发明提出的动态模型在六个公开文本分类数据集中的四个数据集上达到了最高的性能，其中MR数据集(准确率为83.4)和CR数据集(准确率为87.0)较其他模型有较大的提升。与其它模型相比，本发明提出的静态模型也获得了具有竞争性的结果。与基于CNN的模型和基于RNN的模型以及基于Attention的模型相比，动态模型完全超越了它们在六个数据集上。基于强化学习的模型和基于胶囊网络的模型分别在SST5和AGNews数据集上达到了最高的准确率，但是在这两个数据集上该模型也取得了可以比拟的结果。这展示出该模型能够有效的提取出文本的特征，并且具有很强的泛化能力。

与其它模型相比，最关键的不同是该模型能够提取不同层次的语义信息和结构信息并把它们融合起来得到文本的表示，而其它模型要么只学习到少量的语义信息，要么只学习到少量的结构信息，不能把它们结合起来。该模型可以取得最好的性能的主要原因是该模型可以提取到文本的单词级语义信息和结构信息、短语级语义信息和结构信息，并且基于Attention机制的动态组合方法可以动态调整这四部分信息的权重，形成最终的文本表示。

为了证明本发明所提出的模型可以提取到单词级语义信息和短语级语义信息，我们对一些样本进行了可视化实验。对于单词级语义信息，注意力机制可以学习到每个单词对于单词级语义的贡献比例。如图4所示，样本”a pleasant enough movie held togetherby skilled emsemble actors”取自MR数据集，类别标签为Positive。可以看到关键单词”pleasant”、”skilled”被注意力机制分配较高的权重，单词级语义信息被学习到。

短语级语义信息与单词级语义信息类似，如图5所示，样本”it′s not difficultto spot the culprit early-on in this predictable thriller”取自MR数据集，类别标签为Negative。从句子中很难找到具有Negative情感的单词，但是短语级语义信息依然学习到了”this predictable thriller”这样的关键短语，并且分配较高的权重。

为了研究为什么本发明提出的动态模型可以在六个数据集中的四个上实现最好的性能，我们选取了一些样本进行分析，如图8所示。其中，Att_wse表示单词级语义信息的注意力值，Att_pse表示短语级语义信息的注意力值，Att_wst表示单词级结构信息的注意力值，Att_pst表示短语级结构信息的注意力值。

对于电影评论MR数据集中”a thoughtful，provocative，insistentlyhumanizing film”，该模型可以提取到”thoughtful”，”provocative”，“humanizing”这样单词的语义信息，对单词级语义信息分配的权重较高，所以分类为positive。

对于电影评论MR数据集中”i didn′t laugh，i didn′t smile，i survived”，尽管注意力机制会关注”didn’t”这样的词，但是句子中同样包含许多如”laugh”和”smile”，如果仅仅考虑单词级语义信息可能会造成误分类，此时该模型可以提取到”didn’t laugh”和”didn’t smile”这样短语的语义信息，注意力机制对短语级语义信息分配的权重较高，所以分类为negative。

对于CR数据集中”nice machines，but i consider their quality pretty lownow”，单词级结构信息”nice……but……low”被学习到，所以被正确分类为negative。

对于TREC问题分类数据集中”What type ofcurrency is used inAustralia？”，如果仅仅关注语义信息可能会造成分类错误，因为单词”Australia”可能会使模型给location类较高的权重，而该模型能够学习到”what type of……”这样的短语级结构信息，所以分类为entity

本发明提出了一种新的神经网络模型来进行文本分类。为了解决传统文本分类方法不能同时有效的利用文本的语义信息和结构信息，本发明所提出的模型可以提取文本的不同层次的语义信息和结构信息，包括单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息。该模型以文本作为输入，输出为模型预测的该文本所属的类别。为了得到文本的最终表示，本发明又提出两种融合方法来融合四种信息，分别是静态融合和基于注意力机制的动态融合。相比于传统方法，本发明所提出的文本分类模型能够利用更多的文本信息，实验证明本方法在几个公开的文本分类数据集上比传统的文本分类模型具有更高的性能。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的文本分类方法，其特征在于，包括以下步骤：

p＝softmax(W_cI_T+b_c)

其中W_c是softmax分类器的权重，b_c是对应的偏置。

2.根据权利要求1所述的一种基于神经网络的文本分类方法，其特征在于：所述的步骤1中对文本进行预处理具体为：

3.根据权利要求1或2所述的一种基于神经网络的文本分类方法，其特征在于：所述的步骤2中获取单词级语义信息I_wse的方法具体为：设长度为s的输入句子为w₁,w₂,w₃,…,w_s，所对应的词向量分别为x₁,x₂,x₃,…,x_s；由于句子中的每个单词对句子的整体语义贡献不同，使用注意力机制直接作用于词向量上，来学习每个单词对单词级语义信息贡献的比例α_i；把每个单词的词向量x_i与其对应的贡献比例α相乘并累加得到单词级语义信息I_wse；

其中，

是单词w_i的词向量，d为向量的维度；

u_i＝tanh(W_wx_i+b_w)

其中，tanh为激活函数，

为u_i的转置，W_w,b_w,u_w是注意力机制的参数；

与反向LSTM的最终状态

连接而成；

4.根据权利要求1或2所述的一种基于神经网络的文本分类方法，其特征在于：所述的步骤5中融合单词级语义信息I_wst、单词级结构信息I_wst、短语级语义信息I_pse和短语级结构信息I_pse，得到最终文本的向量表示I_T的方法具体为：采取静态融合，即文本表示由单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息的加权平均；

I_T＝(I_wse+I_wst+I_pse+I_pst)/4。

5.根据权利要求3所述的一种基于神经网络的文本分类方法，其特征在于：所述的步骤5中融合单词级语义信息I_wse、单词级结构信息I_wst、短语级语义信息I_pse和短语级结构信息I_pst，得到最终文本的向量表示I_T的方法具体为：采取静态融合，即文本表示由单词级语义信息、单词级结构信息、短语级语义信息、短语级结构信息的加权平均；

I_T＝(I_wse+I_wst+I_pse+I_pst)/4。

6.根据权利要求1或2所述的一种基于神经网络的文本分类方法，其特征在于：所述的步骤5中融合单词级语义信息I_wse、单词级结构信息I_wst、短语级语义信息I_pse和短语级结构信息I_pst，得到最终文本的向量表示I_T的方法具体为：采用基于注意力机制的动态融合，把注意力机制应用在四种不同的信息上来自动学习每一部分信息对最终文本的向量表示I_T的贡献比例γ，此处设I_wse,I_wst,I_pse,I_pst分别为I₁,I₂,I₃,I₄；

u_i＝tanh(W_tI_i+b_t)

其中，tanh为激活函数，

为u_i的转置，W_t,b_t,u_t是注意力机制的参数。

7.根据权利要求3所述的一种基于神经网络的文本分类方法，其特征在于：所述的步骤5中融合单词级语义信息I_wse、单词级结构信息I_wst、短语级语义信息I_pse和短语级结构信息I_pst，得到最终文本的向量表示I_T的方法具体为：采用基于注意力机制的动态融合，把注意力机制应用在四种不同的信息上来自动学习每一部分信息对最终文本的向量表示I_T的贡献比例γ，此处设I_wse,I_wst,I_pse,I_pst分别为I₁,I₂,I₃,I₄；

u_i＝tanh(W_tI_i+b_t)

其中，tanh为激活函数，

为u_i的转置，W_t,b_t,u_t是注意力机制的参数。