CN109857860A

CN109857860A - 文本分类方法、装置、计算机设备及存储介质

Info

Publication number: CN109857860A
Application number: CN201910007705.9A
Authority: CN
Inventors: 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2019-06-07
Also published as: WO2020140403A1

Abstract

本申请实施例提供了一种文本分类方法、装置、计算机设备及计算机可读存储介质。本申请实施例属于文本分类技术领域，本申请实施例在实现文本分类时，通过获取进行文本分类的语料，并将所述语料通过预设方式进行分词以得到中文分词，将所述中文分词进行词嵌入以将所述中文分词转化为词向量，使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征，通过全连接的方式连接所述词向量特征以得到输出数据；经分类器对所述输出数据进行分类以得到文本分类结果，从而在基于卷积神经网络的文本分类模型中加入了注意力，以聚焦文本处理的针对性，能够有效提升文本分类模型的训练效率和文本分类效率。

Description

文本分类方法、装置、计算机设备及存储介质

技术领域

本申请涉及文本分类技术领域，尤其涉及一种文本分类方法、装置、计算机设备及计算机可读存储介质。

背景技术

传统基于卷积神经网络的文本分类模型，也就是TextCNN，英文为TextConvolutional Neural Network，一般包括输入层、词嵌入层、卷积层、池化层、连接层及输出层，通过各层对文本语料进行逐层处理以实现对文本分类。但有时由于进行文本分类的语料数据比较大而使得TextCNN模型进行文本分类效率较低。

发明内容

本申请实施例提供了一种文本分类方法、装置、计算机设备及计算机可读存储介质，能够解决传统技术中文本分类效率比较低的问题。

第一方面，本申请实施例提供了一种文本分类方法，所述方法包括：获取进行文本分类的语料，并将所述语料通过预设方式进行分词以得到中文分词；将所述中文分词进行词嵌入以将所述中文分词转化为词向量；使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征；通过全连接的方式连接所述词向量特征以得到输出数据；经分类器对所述输出数据进行分类以得到文本分类结果。

第二方面，本申请实施例还提供了一种文本分类装置，包括：获取单元，用于获取进行文本分类的语料，并将所述语料通过预设方式进行分词以得到中文分词；转化单元，用于将所述中文分词进行词嵌入以将所述中文分词转化为词向量；提取单元，用于使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征；连接单元，用于通过全连接的方式连接所述词向量特征以得到输出数据；分类单元，用于经分类器对所述输出数据进行分类以得到文本分类结果。

第三方面，本申请实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现所述文本分类方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行所述文本分类方法。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的文本分类方法的应用场景示意图；

图2为本申请实施例提供的文本分类方法的流程示意图；

图3为本申请实施例提供的文本分类方法中词向量示意图；

图4为本申请实施例提供的文本分类方法的另一个流程示意图；

图5为图4中的文本分类方法对应的模型示意图；

图6为本申请实施例提供的文本分类方法对应的另一个模型示意图；

图7为本申请实施例提供的文本分类方法对应的第三个模型示意图；

图8为本申请实施例提供的文本分类装置的示意性框图；

图9为本申请实施例提供的文本分类装置的另一个示意性框图；以及

图10为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本申请实施例提供的文本分类方法的应用场景示意图。

所述应用场景包括：

(1)终端。图1所示终端上安装有应用程序，研发人员通过终端实现执行文本分类方法的步骤，所述终端可以为笔记本电脑、平板电脑或者台式电脑等电子设备，图1中所示的终端应用环境也可以更换为服务器等计算机设备。若图1中的应用环境为服务器，服务器可以为服务器集群或者云服务器。服务器集群又可以采用分布式***，分布式***的服务器又可以包括主服务器和从服务器，以使主服务器使用获得的语料执行文本分类方法的步骤。

图1中的各个主体工作过程如下：终端获取进行文本分类的语料，并将所述语料通过预设方式进行分词以得到中文分词，将所述中文分词进行词嵌入以将所述中文分词转化为词向量，使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征，通过全连接的方式连接所述词向量特征以得到输出数据；经分类器对所述输出数据进行分类以得到文本分类结果。

需要说明的是，图1中仅仅示意出台式电脑作为终端，在实际操作过程中，终端的类型不限于图1中所示，所述终端还可以为手机、笔记本电脑或者平板电脑等电子设备，上述文本分类方法的应用场景仅仅用于说明本申请技术方案，并不用于限定本申请技术方案。

图2为本申请实施例提供的文本分类方法的示意性流程图。该文本分类方法应用于图1中的终端中以完成文本分类方法的全部或者部分功能。

请参阅图2，图2是本申请实施例提供的文本分类方法的流程示意图。如图2所示，该方法包括以下步骤S210-S250：

S210、获取进行文本分类的语料，并将所述语料通过预设方式进行分词以得到中文分词。

其中，本申请实施例中的文本分类是指基于卷积神经网络分类模型对文本进行的分类。基于卷积神经网络的文本分类模型，英文为Text Convolutional Neural Network，简写为TextCNN，称为TextCNN网络结构或者TextCNN网络模型，TextCNN是用来做文本分类的卷积神经网络，也就是利用卷积神经网络对文本进行分类。

分词，是指对中文文本进行分词，英文为Chinese Word Segmentation，指的是将一个汉字序列切分成一个个单独的词，分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。对中文文本分类需要先对中文文本分词，对中文文本分词，有很多开源的中文分词工具，例如最常用的Jieba分词，还有word分词及盘古分词等。等。分词还包括做进一步的处理，去除掉一些高频词汇和低频词汇，去掉一些无意义的符号等。具体地，在使用TextCNN模型将文本进行分类前，需要将待分类文本进行预处理以将获得的待分类语料进行分词，从而获得中文分词，将获得的中文分词进一步转化为词向量。

具体地，终端获取进行文本分类的语料，并将所述语料通过预设方式进行分词以得到中文分词，所述语料可以是通过爬取网络上指定网站上的预设语料，爬取规则可以根据实际需要预先设置，比如，爬取规则为某一网页的语料，也可以是爬取的某一主体的相关语料。所述语料还可以是通过语料数据库提供的语料，比如某一网站积累的用户数据等。本申请实施例的应用场景为文本分类，比如文本还可以包括新闻标题分类，模型输入为文本词向量信息，输出为文本分类结果。

S220、将所述中文分词进行词嵌入以将所述中文分词转化为词向量。

其中，词嵌入，英文为Word Embedding，是一种词的类型表示，具有相似意义的词具有相似的表示，是将词汇映射到实数向量的方法总称，词嵌入所在的结构层称为词嵌入层，或者简称为嵌入层，英文为Embedding layer。词嵌入是一类技术，是指单个词在预定义的向量空间中被表示为实数向量，每个单词都映射到一个向量。请参阅图3，图3为本申请实施例提供的文本分类方法中词向量示意图。如图3所示，假如在一个文本中包含“猫”“狗”及“爱情”等若干单词，而这若干单词映射到向量空间中，“猫”对应的向量为(0.1，0.2，0.3)，“狗”对应的向量为(0.2，0.2，0.4)，“爱情”对应的映射为(-0.4，-0.5，-0.2)(本数据仅为示意)。像这种将文本X{x1,x2,x3,x4,x5……xn}映射到多维向量空间Y{y1,y2,y3,y4,y5……yn}，这个映射过程就叫做词嵌入。之所以希望把每个单词都变成一个向量，目的还是为了方便计算，比如“猫”，“狗”，“爱情”三个词。对于我们人而言，可以知道“猫”和“狗”表示的都是动物，而“爱情”是表示的一种情感，但是对于机器而言，这三个词都是用0和1表示成二进制的字符串而已，无法对其进行计算。而通过词嵌入这种方式将单词转变为词向量，机器便可对单词进行计算，通过计算不同词向量之间夹角余弦值cos而得出单词之间的相似性，比如，在图3中，由于cosα＜cosβ，可“猫”与“狗”更相似，猫与“爱情”差异较大。其中，两个向量之间的夹角可以通过如下方式计算：，向量夹角的公式是cosθ＝向量a·向量b/|向量a|×|向量b|，其中,注意是点乘，比如，在Python中可以使用Python.numpy来计算向量的夹角。

具体地，将文本语料通过分词得到中文分词后进而转化为预训练的词向量，也就是将输入的自然语言经过分词后编码成词向量，为预训练词向量准备。具体实施时，可以使用预训练好的词向量，也可以直接在训练TextCNN的过程中训练出一套词向量，不过使用预训练好的词向量比在训练TextCNN的过程中训练出一套词向量快100倍不止。如果使用预训练好的词向量，又分为Static方法和No-static方法，Static方法是指在训练TextCNN过程中不再调节词向量的参数，No-static方法在训练过程中调节词向量的参数，所以No-static方法的结果比Static方法的结果要好。

进一步地，还可以不在每一个Batch(批)中都调节Embedding层(嵌入层)，而是每个100个Batch调节一次，这样可以减少训练的时间，又可以微调词向量。

更进一步地，可以使用训练好的预设词向量字典将所述第一语料进行词嵌入以将所述第一语料转化为词向量。在一个实施例中，词向量可以采用Word2Vec预训练词向量，即每个词汇都有对应的向量表示，此类向量表示能够以数据形式表达词汇信息，词向量维度可以为300。其中，Word2vec，英文为Word to vector，是一款用于训练词向量的软件工具，用来产生词向量的相关模型，词向量的自动训练可以通过Python中的Gensim库实现。

S230、使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征。

其中，卷积神经网络，英文为Convolutional Neural Networks，简称为CNN，是一类包含卷积或者相关计算且具有深度结构的前馈神经网络(Feedforward NeuralNetworks)，是深度学***移不变分类(英文为Shift-Invariant Classification)，因此也被称为“平移不变人工神经网络(英文为Shift-Invariant Artificial Neural Networks，简称为SIANN)。

注意力，又称为注意力结构或者注意力机制，英文为Attention Mechanism，卷积神经网络中的注意力主要用于决定卷积神经网络需要关注输入的哪部分并分配有限的信息处理资源给重要的部分以聚焦卷积神经网络处理输入数据的针对性，提高卷积神经网络对输入数据的处理效率。

具体地，终端在TextCNN模型中加入了注意力结构，通过改善TextCNN模型对数据的处理针对性，提升TextCNN模型的训练效率和文本分类效率，从而实现使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征。比如，对于TextCNN模型加入两种注意力机制，一类为Word-wise注意力结构，也就是词注意力结构，Word-wise注意力结构作用于词嵌入层，根据词向量输入，训练得到相应注意力值，针对词嵌入层输出的词向量添加注意力以提高卷积神经网络对词向量处理的针对性，一类为Filter-wise注意力结构，也就是通道注意力结构，Filter-wise注意力结构则作用于卷积层之后，根据卷积通道输出，训练得到相应注意力值，以使池化后的输出数据在进行全连接时，提高全连接过程中对全连接对象的针对性，通过提高文本分类过程中的针对性从而提高整个文本分类的效率。

S240、通过全连接的方式连接所述词向量特征以得到输出数据。

其中，全连接是指连接所有的特征，将输出数据送给分类器，比如Softmax分类器，在TextCNN模型中，全连接是指输出层的神经元和输入层的每个神经元都连接，也就是卷积神经网络中的全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。全连接层，英文为Fully connected layer，是TextCNN模型中的一个层。

具体地，在TextCNN结构中，经过全连接层之前的逐层处理，比如经过多个卷积层和池化层后，一般会连接着1个或1个以上的全连接层，全连接层中的每个神经元与其前一层的所有神经元进行全连接，全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息，进而全连接层将前面经过多次卷积后或者池化后的高度抽象化的特征进行整合，然后进行归一化以对各种特征的分类情况输出一个概率，发送至全连接层之后的分类器，以使分类器(Classifier)可以根据全连接得到的概率进行分类。并且，实际中为了提高网络的学习能力，可以拼接多个全连接层。

S250、经分类器对所述输出数据进行分类以得到文本分类结果。

具体地，终端上的TextCNN模型中的分类器接收全连接层发送的经全连接之后的输出数据，将所述输出数据经分类器进行分类以最终得到对文本的分类结果，其中，分类器可以采用softmax分类器。

本申请实施例在实现文本分类时，通过获取进行文本分类的语料，并将所述语料通过预设方式进行分词以得到中文分词，将所述中文分词进行词嵌入以将所述中文分词转化为词向量，使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征，通过全连接的方式连接所述词向量特征以得到输出数据；经分类器对所述输出数据进行分类以得到文本分类结果，从而在基于卷积神经网络的文本分类模型中加入了注意力，以聚焦文本处理的针对性，能够有效提升文本分类模型的训练效率和文本分类效率。

请参阅图4和图5，图4为本申请实施例提供的文本分类方法的另一个流程示意图，图5为图4中的文本分类方法对应的模型示意图。如图4和图5所示，该方法包括以下步骤S410-S490：

S410、获取进行文本分类的语料，并将所述语料通过预设方式进行分词以得到中文分词；

S420、将所述中文分词进行词嵌入以将所述中文分词转化为词向量。

具体地，步骤S410和图2中的步骤S210相同，步骤S420和图2中的步骤S220相同，将图2中的步骤S210和S420均通过应用的方式包含于此，在此不再赘述。其中，图5中的输入层就是用于获取进行分类的文本语料，比如对新闻标题分类，图5所示的文本分类模型输入为文本词向量信息，输出为文本分类结果。图5中的词嵌入层就是用于将输入的自然语言语料进行词嵌入以将所述自然语言的语料编码成词向量。

S430、使用第一注意力函数对所述词向量分配注意力权重以得到调整后的词向量。

其中，注意力，又称为注意力机制，或者注意力模型，或者注意力结构，英文为Attention Model。自然语言处理中的注意力模型，借鉴了人类的注意力概念，一般来说，视觉注意力是人类视觉所特有的大脑信号处理机制，人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息，人类视觉注意力极大地提高了视觉信息处理的效率与准确性，本申请实施例中的注意力从本质上讲和人类的选择性视觉注意力类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。

进一步地，注意力模型可以表现为一种函数，比如y＝f(x)，y＝f(x)可以为线性关系，比如，y＝wx+b，其中，y表示输出，x表示输入，w和b分别表示x和y线性关系的参数，w和b可以分别在训练过程中得到调整。

具体地，在卷积神经网络基础上添加第一注意力函数，使用第一注意力函数对所述词向量分配注意力权重以得到调整后的词向量，所述第一注意力函数主要是用于对词向量的权重进行分配，对各词向量分配注意力权重，以重点突出需要关注的词向量。由于第一注意力函数是用于对词向量的权重进行分配，第一注意力函数又可以称为词注意力，英文为Word-wise，又可以称为Word-wise注意力或者Word-wise机制，Word-wise注意力用于提炼词注意力信息，即根据输入词汇分配注意力权重，并进行自动学习的过程，在自动学习中确定词的注意力权重，并输出至下一步运算。

Word-wise注意力所在的层称为Word-wise注意力结构层，或者称为Word-wise注意力层，或者Word-wise注意力结构层，Word-wise注意力层用于根据输入词汇分配注意力权重，并输出分配权重后的词向量至下一步运算。

进一步地，请参阅图5，如图5所示，Word-wise注意力结构层添加于词嵌入层与卷积层之间，Word-wise注意力结构层的输入来自于词嵌入层，Word-wise注意力结构层可以建立两层全连接层并以Softmax函数输出注意力权重，该输出用于调整词嵌入层的输出，并将注意力权重调整后的词嵌入层输出的数据输入至卷积层。比如，针对“我喜欢吃苹果”这样的描述，针对“我”、“喜欢”、“苹果”通过神经网络的自学习分配不同的权重，权重如何调整，也是神经网络在训练的过程中进行自适应和自学习从而实现动态调整。卷积神经网络以及注意力结构的建立均通过Python中的Tensorflow库实现。

在一实施例中，可将Word-wise注意力结构层添加于首层卷积层前方，以将Word-wise结构层的提炼信息输入至卷积层。比如，Word-wise注意力根据词嵌入层的词向量输入，通过建立一层或者两层的全连接隐层，并通过Softmax函数输出。进一步地，词注意力结构层的输出为注意力权重，需要将词嵌入层输出的词向量与注意力结构层的输出进行点乘，以完成所述词向量的注意力权重调整，并将调整后的词向量输出输入至卷积层以完成后续运算。其中，Softmax函数，或称归一化指数函数，是逻辑函数的一种推广，它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0，1)之间，并且所有元素的和为1，Softmax函数实际上是有限项离散概率分布的梯度对数归一化。点乘，也叫向量的内积、数量积，点乘的结果是一个数，比如，向量a·向量b＝|a||b|cos<a,b>，cos<a,b>表示向量a和向量b夹角的余弦值，将向量用坐标表示(三维向量)，若向量a＝(a1,b1,c1)，向量b＝(a2,b2,c2)，则向量a·向量b＝a1a2+b1b2+c1c2。

S440、使用卷积神经网络对所述调整后的词向量进行特征提取以得到词向量特征。

其中，卷积层，英文为Convolutional layer，主要是用一个采样器从输入数据中采集关键数据内容，卷积层最大的特点是局部感知和权重共享，从而实现通过卷积提取文本的不同特征，一般来说，卷积层、池化层及全连接层都属于卷积神经网络，并且是三种不同类型的隐藏层。

具体地，首先建立词嵌入层实现训练文本向词向量的转化，随后建立卷积神经网络以形成卷积层，通过卷积层进行文本特征提取，其中，卷积层可以包括多层卷积核。比如，卷积层含有高度为1、3、5的卷积核各128通道，也就是高度为1行、3行、5行的卷积核各128通道。在本实施例中，卷积层的输出将输入至后续激活层与池化层。

请继续参阅图5，卷积层主要是通过卷积以提取不同的N-gram特征。输入的语句或者文本，通过词嵌入层后，会转变成一个二维矩阵，假设文本的长度为|T|，词向量的大小为|d|，则该二维矩阵的大小为|T|*|d|，卷积的工作就是对这一个|T|*|d|的二维矩阵进行的。卷积核的大小一般设定为n*|d|，n是卷积核的长度，|d|是卷积核的宽度，这个宽度和词向量的维度是相同的，也就是卷积只是沿着文本序列进行的，n可以有多种选择，比如2、3、4、5等。对于一个|T|*|d|的文本，如果选择卷积核kernel的大小为2*|d|，则卷积后得到的结果是|T-2+1|*1的一个向量。在TextCNN网络中，需要同时使用多个不同类型的kernel，同时每个size的kernel又可以有多个。如果我们使用的kernel size大小为2、3、4、5*|d|，每个种类的size又有128个kernel，则卷积网络一共有4*128个卷积核。其中N-Gram是一种基于统计语言模型的算法，它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成长度是N的字节片段序列，每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。

更进一步地，在在训练卷积神经网络的过程中，卷积神经网络的损失函数为交叉熵，训练方法为ADAM，学习率为0.001，其中，ADAM，英文为Adaptive Moment Estimation，是自适应矩估计。同时，在训练神经网络时，需要设置学习率控制参数更新的速度，其中，学习率，英文为Learing rate，又称为学习速率，用于控制模型的学习进度。神经网络的训练通过Python中的Tensorflow库实现。

S450、使用激活函数对所述词向量特征进行激活。

其中，激活函数是用来加入非线性因素的。其中，常用的激活函数包括：Sigmoid函数、Tanh函数及ReLU函数等。目前大部分的卷积神经网络中，基本上都是采用了ReLU函数。使用激活函数来加入非线性因素的层在TextCNN模型中称为激活层。

具体地，由于线性模型的表达力不够，在神经网络中，对于图像，主要采用了卷积的方式来处理，也就是对每个像素点赋予一个权值，这个操作是线性的。但是对于使用的训练样本来说，不一定是线性可分的，为了解决这个问题，可以进行线性变化或者引入非线性因素，解决线性模型所不能解决的问题，因此，TextCNN模型中使用激活函数对所述词向量特征进行激活，也就是使用激活函数对所述调整后的词向量的词向量特征进行调整以在卷积层提取的词向量特征中加入非线性因素，从而提高词向量处理的准确性。

S460、对激活后的词向量特征进行池化。

其中，池化，英文为Pooling，是指使用卷积神经网络对输入的特征进行压缩以提取主要特征并将数据量变小，池化操作通常被用在卷积神经网络中。用于进行池化的层在在TextCNN模型中称为池化层，英文为Pooling layer。池化层用于降低卷积层输出的特征向量，同时改善结果以有效控制过拟合。

具体地，在卷积神经网络中，池化层往往在卷积层后面，通过池化来降低卷积层输出的特征向量，同时改善结果以有效控制过拟合。最常见的池化操作为平均池化MeanPooling和最大池化Max Pooling。池化层的形式可以为Max Pooling，也就是最大池化层，最大池化即取局部接收域中值最大的点，Max Pooling能减小卷积层参数误差造成估计均值的偏移误差，更多的保留纹理信息。一个最大池化层从一块特征中选取最大值。和卷积层一样，池化层也是通过窗口(块)大小和步幅尺寸进行参数化，比如，在一个10×10特征矩阵上以2的步幅滑动一个2×2的窗口，然后选取每个窗口的4个值中的最大值，得到一个5×5特征矩阵。池化层通过只保留最突出的信息来减少表征的维度。池化层的输出将接入全连接层实现全局特征提取，并以Softmax函数完成最终输出。

S470、使用第二注意力函数对所述词向量特征分配注意力权重以得到第一词向量特征。

其中，第二注意力函数用于调整各通道的池化层输出，对各通道分配注意力权重，并将权重调整后的池化层输出的数据输入全连接层进行后续计算。由于第二注意力函数用于调整各通道的池化层输出，因此也称为通道注意力，英文为Filter-wise，也可以称为Filter-wise注意力，或者Filter-wise注意力结构层。使用通道注意力调整各通道的池化层输出的层在TextCNN模型中称为通道注意力层，也可以称为Filter-wise注意力层。Filter-wise注意力层用于卷积通道输出，训练得到相应注意力值，Filter-wise注意力层添加与卷积层之后，可以添加于池化层与全连接层之间，该部分的输出来自于池化层输出，并可以通过建立两层全连接层以Softmax函数输出注意力权重。卷积神经网络以及注意力的建立均可以通过Python中的Tensorflow库实现。

具体地，Filter-wise机制与Word-wise机制具有类似的结构，但是作用于模型的不同部分，对不同的对象分配权重，起不同的作用。Filter-wise机制提炼通道注意力信息。由于卷积神经网络含有多个通道，因此Filter-wise机制能够显著提升模型训练效率。具体实施中，可将Filter-wise机制添加于通道最终输出，通过全连接隐层以及Softmax函数计算注意力权重，并将计算结果与通道输出进行点乘计算，以得到权重调整后的通道输出，以实现此处使用第二注意力函数对池化后的词向量特征分配注意力权重以得到第一词向量特征，并进行后续计算。

S480、通过全连接的方式连接所述第一词向量特征以得到输出数据。

具体地，通过全连接的方式连接所述第一词向量特征以得到输出数据，在TextCNN模型中，也就是通过全连接层将前面经过多次卷积后高度抽象化的特征进行整合，然后可以进行归一化，对各种分类情况都输出一个概率，之后的分类器可以根据全连接得到的概率进行分类，分类器可以为Classifier分类器。比如，Fully-connected layer在Max-pooling layer后再拼接一层，将该层的输出作为输出结果。实际中为了提高网络的学习能力，可以拼接多个全连接层。

S490、经分类器对所述输出数据进行分类以得到文本分类结果。

具体地，步骤S490和图2中的步骤S250相同，将图2中的步骤S250通过应用的方式包含于此，在此不再赘述。经分类器对所述输出数据进行分类以得到文本分类结果，文本分类结果经过输出层输出，输出层用于输出文本分类结果。

本申请实施例中对于TextCNN网络结构加入了两种注意力，一类为Word-wise注意力，一类为Filter-wise注意力。其中，Word-wise注意力作用于词嵌入层输出的词向量，根据词嵌入层的词向量输入，训练得到词向量相应的注意力值。而Filter-wise注意力则作用于卷积层的输出，根据卷积通道的输出数据，训练得到输出数据的相应注意力值，Word-wise注意力和Filter-wise注意力与TextCNN模型的其他部分共同进行训练，而不需要进行额外训练计算。实际操作中，以TextCNN分类结果交叉熵为损失函数，以ADAM为优化方法，进行训练。本申请实施例通过在TextCNN模型中加入了针对词的词注意力与针对通道的通道注意力，能够有效提升TextCNN模型的训练效率。本申请实施例的TextCNN模型应用于文本分类，如新闻标题分类，TextCNN模型输入为文本词向量信息，输出为文本分类结果，实践中，Word-wise与Filter-wise机制的加入能够提升TextCNN模型训练效率，尤其是Filter-wise机制具有显著效果。

在一个实施例中，所述使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征的步骤包括：

使用卷积神经网络对所述词向量进行特征提取以得到所述词向量的第二词向量特征；

使用第二注意力函数对所述第二词向量特征分配注意力权重以得到所述词向量的词向量特征。

具体地，请参阅图6，图6为该实施例提供的文本分类方法对应的模型示意图。如图6所示，在进行文本分类的过程中，通过输入层获取进行文本分类的语料，并将所述语料通过预设方式进行分词以得到中文分词，将所述中文分词通过词嵌入层进行词嵌入以将所述中文分词转化为词向量，通过卷积层使用卷积神经网络对所述词向量进行特征提取以得到所述词向量的第二词向量特征，通过Filter-wise注意力结构层使用第二注意力函数对所述第二词向量特征分配注意力权重以得到所述词向量的词向量特征，然后通过全连接层使用全连接的方式连接所述词向量特征以得到输出数据，最后通过输出层经分类器对所述输出数据进行分类以得到文本分类结果。其中，第二注意力函数是用于调整各通道的池化层输出，因此也称为通道注意力，英文为Filter-wise，也可以称为Filter-wise注意力。使用通道注意力调整各通道的池化层输出的层在TextCNN模型中称为通道注意力层，也可以称为Filter-wise注意力层，或者Filter-wise注意力结构层。

在一个实施例中，所述使用第二注意力函数对所述第二词向量特征分配注意力权重以得到所述词向量的词向量特征的步骤之前，还包括：

使用激活函数对所述第二词向量特征进行激活；

对激活后的所述第二词向量特征进行池化。

具体地，请参阅图7，图7为本实施例提供的文本分类方法对应的模型示意图。如图7所示，在进行文本分类的过程中，通过输入层获取进行文本分类的语料，并将所述语料通过预设方式进行分词以得到中文分词，将所述中文分词通过词嵌入层进行词嵌入以将所述中文分词转化为词向量，通过卷积层使用卷积神经网络对所述词向量进行特征提取以得到所述词向量的第二词向量特征，通过激活层使用激活函数对卷积层输出的所述第二词向量特征加入非线性进行调整，从而提高词向量处理的准确性，然后通过池化层降低激活层输出的经过非线性调整的第二词特征向量，再通过Filter-wise注意力结构层使用第二注意力函数对所述第二词向量特征分配注意力权重以得到所述词向量的词向量特征，然后通过全连接层使用全连接的方式连接所述词向量特征以得到输出数据，最后通过输出层经分类器对所述输出数据进行分类以得到文本分类结果。其中，第二注意力函数是用于调整各通道的池化层输出，因此也称为通道注意力，英文为Filter-wise，也可以称为Filter-wise注意力。使用通道注意力调整各通道的池化层输出的层在TextCNN模型中称为通道注意力层，也可以称为Filter-wise注意力层，或者Filter-wise注意力结构层。

需要说明的是，上述各个实施例所述的文本分类方法，可以根据需要将不同实施例中包含的技术特征重新进行组合，以获取组合后的实施方案，但都在本申请要求的保护范围之内。

请参阅图8，图8为本申请实施例提供的文本分类装置的示意性框图。对应于上述文本分类方法，本申请实施例还提供一种文本分类装置。如图8所示，该文本分类装置包括用于执行上述文本分类方法的单元，该装置可以被配置于终端或者服务器等计算机设备中。具体地，请参阅图8，该文本分类装置800包括获取单元801、转化单元802、提取单元803、连接单元804及分类单元805。

其中，获取单元801，用于获取进行文本分类的语料，并将所述语料通过预设方式进行分词以得到中文分词；

转化单元802，用于将所述中文分词进行词嵌入以将所述中文分词转化为词向量；

提取单元803，用于使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征；

连接单元804，用于通过全连接的方式连接所述词向量特征以得到输出数据；

分类单元805，用于经分类器对所述输出数据进行分类以得到文本分类结果。

请参阅图9，图9为本申请实施例提供的文本分类装置的另一个示意性框图。如图9所示，在该实施例中，所述提取单元803包括：

第一分配子单元9031，用于使用第一注意力函数对所述词向量分配注意力权重以得到调整后的词向量；

提取子单元8032，用于使用卷积神经网络对所述调整后的词向量进行特征提取以得到词向量特征；

激活子单元8033，用于使用激活函数对所述词向量特征进行激活；

池化子单元8034，用于对激活后的词向量特征进行池化。

第二分配子单元8035，用于使用第二注意力函数对所述词向量特征分配注意力权重以得到第一词向量特征；

所述连接单元804，用于通过全连接的方式连接所述第一词向量特征以得到输出数据。

请继续参阅图9，如图9所示，在另一个实施例中，所述提取单元803包括：

提取子单元8032，用于使用卷积神经网络对所述词向量进行特征提取以得到所述词向量的第二词向量特征；

激活子单元8033，用于使用激活函数对所述第二词向量特征进行激活；

池化子单元8034，用于对激活后的所述第二词向量特征进行池化。

第二分配子单元8035，用于使用第二注意力函数对所述第二词向量特征分配注意力权重以得到所述词向量的词向量特征。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述文本分类装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

同时，上述文本分类装置中各个单元的划分和连接方式仅用于举例说明，在其他实施例中，可将文本分类装置按照需要划分为不同的单元，也可将文本分类装置中各单元采取不同的连接顺序和方式，以完成上述文本分类装置的全部或部分功能。

上述文本分类装置可以实现为一种计算机程序的形式，该计算机程序可以在如图10所示的计算机设备上运行。

请参阅图10，图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备1000可以是台式机电脑或者服务器等计算机设备，也可以是其他设备中的组件或者部件。

参阅图10，该计算机设备1000包括通过***总线1001连接的处理器1002、存储器和网络接口1005，其中，存储器可以包括非易失性存储介质1003和内存储器1004。

该非易失性存储介质1003可存储操作***10031和计算机程序10032。该计算机程序10032被执行时，可使得处理器1002执行一种上述文本分类方法。

该处理器1002用于提供计算和控制能力，以支撑整个计算机设备1000的运行。

该内存储器1004为非易失性存储介质1003中的计算机程序10032的运行提供环境，该计算机程序10032被处理器1002执行时，可使得处理器1002执行一种上述文本分类方法。

该网络接口1005用于与其它设备进行网络通信。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备1000的限定，具体的计算机设备1000可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图10所示实施例一致，在此不再赘述。

其中，所述处理器1002用于运行存储在存储器中的计算机程序10032，以实现如下步骤：获取进行文本分类的语料，并将所述语料通过预设方式进行分词以得到中文分词；将所述中文分词进行词嵌入以将所述中文分词转化为词向量；使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征；通过全连接的方式连接所述词向量特征以得到输出数据；经分类器对所述输出数据进行分类以得到文本分类结果。

在一实施例中，所述处理器1002在实现所述使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征的步骤时，具体实现以下步骤：

使用第一注意力函数对所述词向量分配注意力权重以得到调整后的词向量；

使用卷积神经网络对所述调整后的词向量进行特征提取以得到词向量特征。

在一实施例中，所述处理器1002在实现所述使用卷积神经网络对所述调整后的词向量进行特征提取以得到词向量特征的步骤之后，还实现以下步骤：

使用第二注意力函数对所述词向量特征分配注意力权重以得到第一词向量特征；

所述处理器1002在实现所述通过全连接的方式连接所述词向量特征以得到输出数据的步骤时，具体实现以下步骤：

通过全连接的方式连接所述第一词向量特征以得到输出数据。

在一实施例中，所述处理器1002在实现所述使用第二注意力函数对所述词向量特征分配注意力权重以得到第一词向量特征的步骤之前，还实现以下步骤：

使用激活函数对所述词向量特征进行激活。

在一实施例中，所述处理器1002在实现所述使用激活函数对所述词向量特征进行激活的步骤之后，还实现以下步骤：

对激活后的词向量特征进行池化。

在一实施例中，所述处理器1002在实现所述使用第二注意力函数对所述第二词向量特征分配注意力权重以得到所述词向量的词向量特征的步骤之前，还实现以下步骤：

使用激活函数对所述第二词向量特征进行激活；

对激活后的所述第二词向量特征进行池化。

应当理解，在本申请实施例中，处理器1002可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器1002还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来完成，该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机***中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行如下步骤：

一种计算机程序产品，当其在计算机上运行时，使得计算机执行以上各实施例中所描述的文本分类方法的步骤。

所述计算机可读存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述计算机可读存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

获取进行文本分类的语料，并将所述语料通过预设方式进行分词以得到中文分词；

将所述中文分词进行词嵌入以将所述中文分词转化为词向量；

使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征；

通过全连接的方式连接所述词向量特征以得到输出数据；

经分类器对所述输出数据进行分类以得到文本分类结果。

2.根据权利要求1所述文本分类方法，其特征在于，所述使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征的步骤包括：

3.根据权利要求2所述文本分类方法，其特征在于，所述使用卷积神经网络对所述调整后的词向量进行特征提取以得到词向量特征的步骤之后，还包括：

所述通过全连接的方式连接所述词向量特征以得到输出数据的步骤包括：

4.根据权利要求3所述文本分类方法，其特征在于，所述使用第二注意力函数对所述词向量特征分配注意力权重以得到第一词向量特征的步骤之前，还包括：

使用激活函数对所述词向量特征进行激活。

5.根据权利要求4所述文本分类方法，其特征在于，所述使用激活函数对所述词向量特征进行激活的步骤之后，还包括：

对激活后的词向量特征进行池化。

6.根据权利要求1所述文本分类方法，其特征在于，所述使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征的步骤包括：

7.根据权利要求6所述文本分类方法，其特征在于，所述使用第二注意力函数对所述第二词向量特征分配注意力权重以得到所述词向量的词向量特征的步骤之前，还包括：

使用激活函数对所述第二词向量特征进行激活；

对激活后的所述第二词向量特征进行池化。

8.一种文本分类装置，其特征在于，包括：

获取单元，用于获取进行文本分类的语料，并将所述语料通过预设方式进行分词以得到中文分词；

转化单元，用于将所述中文分词进行词嵌入以将所述中文分词转化为词向量；

提取单元，用于使用卷积神经网络结合注意力函数对所述词向量进行特征提取以得到所述词向量的词向量特征；

连接单元，用于通过全连接的方式连接所述词向量特征以得到输出数据；

分类单元，用于经分类器对所述输出数据进行分类以得到文本分类结果。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器以及与所述存储器相连的处理器；所述存储器用于存储计算机程序；所述处理器用于运行所述存储器中存储的计算机程序，以执行如权利要求1-7任一项所述文本分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行如权利要求1-7中任一项所述文本分类方法的步骤。