CN111046179A

CN111046179A - 一种面向特定领域开放网络问句的文本分类方法

Info

Publication number: CN111046179A
Application number: CN201911222868.5A
Authority: CN
Inventors: 黄少滨; 余日昌; 刘汪洋; 杨辉; 李熔盛; 申林山; 李轶; 张柏嘉
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-04-21
Anticipated expiration: 2039-12-03
Also published as: CN111046179B

Abstract

本发明属于文本分类处理技术领域，具体涉及一种面向特定领域开放网络问句的文本分类方法。本发明克服了在执行一些特定领域的网络开放文本分类任务的情况下，缺乏足够可用的带类别标记的语料集，且网络文本信息量低、噪音大的问题，并为该领域的开放网络问句的层次分类提供了新方法。本发明利用了特定领域的开放网络问句及书面文本使领域的词嵌入表示更符合领域知识特征，同时，使用半监督方法加速分类模型训练并减少所需的标记样本。此外，还结合了条件概率实现了在多粒度层级的类别划分。本发明可以在问答***、情感分析、领域知识库等领域辅助数据的提取、判别和构建。

Description

一种面向特定领域开放网络问句的文本分类方法

技术领域

本发明属于文本分类处理技术领域，具体涉及一种面向特定领域开放网络问句的文本分类方法。

背景技术

人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式，人类的绝大部分知识也是以语言文字的形式记载和流传下来的。因而，它也是人工智能的一个重要，甚至核心部分。从人工智能的研究初始，人们就在寻找让机器理解世界的方法。其中文本分类(Text Classification)在自然语言处理领域里是一个应用很广的课题。文本分类任务的具体描述是用计算机对文本集按照一定的分类体系或标准进行自动分类标记。自上世纪九十年代因特网以惊人的速度发展，如今网络中已经容纳了结构多样、内容丰富的海量数据信息，包括文本、声音、图像等。与声音和图像数据相比，文本数据占用的网络资源更少，使得其更容易在网络中传播，这使得网络资源中有很大一部分是以文本形式出现的。如何从这些浩瀚的文本中发现有价值的信息是信息处理的一大目标。基于机器学习的文本分类***能够在给定的分类模型下，根据文本的内容自动对文本分门别类，从而更好地帮助人们组织文本、挖掘文本信息，因此文本作为描述人类世界和传递信息的重要工具之一，使得自然语言处理技术成为计算机科学领域与人工智能领域中的一个重要方向。由于神经网络的兴起，文本分类作为自然语言处理的基础技术之一，到目前为止对该领域的研究已经取得了很多进展。但是当前的大多数神经网络模型的文本分类的方法存在以下几个问题：1)神经网络模型分类器进行学习所需的数据量大，而且需要大量带标记训练样本，成本较高。；2)训练时间长，计算量大。在众多神经网络模型中，卷积神经网络它不仅能够减少要训练的参数数量，还能够并行计算以加快训练速度；3)大多数分类任务面对的文本是书面化和规范化的文本，文本长度也相对较长，使得文本蕴含的信息较为丰富，特征较为明显，任务难度相对更低。

出于标记训练样本成较高，未标记样本较容易获得的现状，半监督学习利用未标记的训练样本优化学习了少量标记样本的分类模型，使得分类模型能够应用于更广泛的场景。

文本分类的研究可以追溯到上世纪六十年代，早期的文本分类主要是基于知识工程(Knowledge Engineering)，通过手工定义一些规则来对文本进行分类，这种方法费时费力，且必须对某一领域有足够的了解，才能写出合适的规则。

智能文本分类技术经过几十年的发展已经越来越成熟。Marcin和

对当前先进的众多文本分类研究工作进行了评估，从文本分类任务的六个要素进行了调查，即数据收集，标记数据分析，特征构建和加权，特征选择和投影，分类模型训练和解决方案评估。发现文本分类器则可以分为监督，半监督，集成，主动，转移和多视图学习分类器。并且大多数的研究工作都是采用有监督学习的方法，同时大部分使用简单的数据实例，多标签实例相当罕见。其中，文本表示能够显著影响分类的质量。

因此，通过改善文本表示性能来优化分类器的性能成为文本分类研究中的一个重要分支。当前词嵌入由于其优秀的表示能力已经成为主流的文本表示方法。Wang等人认为对于文本分类的任务，标签在最终性能中起着核心作用，通过将单词和类标签联合嵌入到潜在空间的方法来进一步强化文本表示。其中标签充当类的锚点，以影响单词的嵌入。利用额外信息加强文本表示来优化分类是很好的思路，该方法仅使用全连接网络模型在DBpedia 2014数据集上取得了99.02％的准确度。此外Kim也通过从加强文本表示能力来优化分类性能。不同的是，考虑到虽然大多数的研究工作对多种不同的分类任务进行了实验，但是采用的是通用的预训练好的词嵌入模型。于是提出在进行文本分类任务时，用预训练的词向量的表示形式将同一个文本在输入层同时输入2次，作为两个训练通道，其中一个通道的文本表示是可以通过神经网络的反向传播调整的，而另一个则是固定的。从而允许同时利用特定于任务的动态向量和预训练的静态向量来获得更好的句子分类准确度。Rie和Zhang提出了另一种通过改善卷积神经网络输入样本的表示质量来优化卷积神经网络(CNN)的方法。该方法从无标签数据学习文本区域的嵌入，然后将学习到的嵌入集成到监督训练中。因此需要一个输入无标签数据的神经网络，一个输入带标签数据的神经网络以及其上层的一个卷积神经网络(CNN)，导致计算开销相对较大。Wang等人为了克服短文本分类的挑战，认为需要从短文本中捕获更多的语义和语法信息，而实现这一目标的关键步骤是使用更先进的文本表示模型。该方法首先在显式的知识库的帮助下丰富短文本的信息，即将每个短文本与知识库中的相关概念进行关联，接下来，将短文本的单词和相关概念结合起来，使用预训练来生成嵌入。然后将这个词-概念嵌入输入卷积神经网络(CNN)中。因此该方法结合了与短文本相关的知识库以及文本概念抽取的方法。Agnihotri等人考虑分类器性能的另一个重要性能：即在保证分类器预测能力的前提下，训练分类器的速度。他们从改进分类器的特征选择入手，为单词进行信息度评分，然后选择前b个评分最高的n-gram(n取1-3之间)词集作为SVM分类器的特征集。由于他们采用的不是当前火热的神经网络模型分类器，因此在将文本输入分类器之前，对文本执行了特征抽取步骤。

将文本嵌入到潜在空间时，时常会面临语料标记实例不足的问题。Zhang和Xiao等人提出了通过多任务学习利用相关任务之间的潜在相关性来提取共同特征，并产生性能收益。该文提出了一个包含四种递归神经层的多任务学习架构来融合多个相关任务的信息。因为深度神经网络(DNN)的一个强大的约束条件是，由于需要训练大量的参数，它们对大量带注释的语料库有很强的依赖性。而在有限数据上训练的神经网络容易过度拟合，不能很好地推广。然而，构建大规模高质量的标记数据集是需非常大的劳动成本的。多任务学习可以利用相关任务之间的潜在相关性来提取共同特征，隐式地增加语料库大小，从而改进分类。因此有多个类似的任务及其语料时，可以考虑利用多任务学习来提升分类的效果。除此之外，Lease和Zhang等人提出了一种卷积神经网路的主动学习方法。该方法将主动学习策略集中于选择最能影响嵌入空间的实例(即，产生有区分度的词表示)，而并非以最终分类结果为目标。它通过提升输入样本的表示质量来获得更优的分类结果，并将AL策略限制在词嵌入阶段以减少运算开销，因此该AL策略可以用于任意的神经网络模型。通过主动学习，我们仅需标注模型选出的部分语料即可实现良好的分类性能。

当我们将采用适当方法的文本表示输入分类模型时，还会面临各实例的文本长度不一致的情况。通常的研究工作采用的处理方法是设定一个固定长度，对多余的文本进行截断。He等人提出的SPP-NET是为了解决当不同尺寸图像输入卷积网络时，不用预先对输入样本进行裁剪就能进行分类的方法。该方法将卷积神经网络的最后一层池化层替换为空间金字塔池化层，即固定池化窗口的数量而窗口的大小为可变的，使得输入N路softmax层的特征为固定大小。同时并行采用多尺度池化并融合各尺度特征映射以获得更优的分类结果。在文本分类任务中，输入样本更经常是不同长度的，通过在softmax层前执行维度统一也是可行的思路。

文本分类作为问答***的组成技术之一，在众多研究人员的工作下，也呈现出一些独特的分类方法。Yao等人提出了一种在问答***中问句的分类方法。它是通过在问句中提取主题词、动词和命名实体作为分类特征来确定问句需求的关系类型。例如提取到提问词“who”，则可确定问句需求属性为person。这种基于信息提取的方法能够快速获得问句的分类。类似的，Dodiya和Jain[20]提到了在对问答***中的问句进行分类时，不仅仅需要针对问句的所属领域知识类别进行分类，而且需要区分问句的问询请求以助于找到或构建合适的答案，例如who、when等。该文基于规则的方法对问句首先进行了停用词移除和词干提取的预处理，然后提取出其中的关键词序列并映射到对应的问题分类中。该方法需要人工编写规则来构建关键词序列和分类的映射关系，同时分类的准确率较差(低于66％)，而且应用于中文时的契合度不如英文好。同样Silva等人也将问题分类视为是问答的一个子任务，他们也采用类似的规则方法对问句执行匹配，并通过WordNet追溯中心词的属类，如：花-->植物。然后将问题的中心词的实体类别作为文本分类的特征之一来增强分类器的性能。此方法相对于纯规则匹配的分类方式有所改进，使得当规则无法成功匹配问句时，依然可以通过中心词的信息来做出问句类别的判断。

除了上述方法之外，有许多研究工作将卷积神经网络(CNN)应用于文本分类任务。于是T.LE和Denies等人面对各种不同卷积神经网络分类模型，着重讨论了在文本分类任务中是否需要“深度”的卷积网络模型。分别研究了在字符和单词级输入时，卷积模型中深度对于文本分类的重要性。T.LE和Denies等人的主要结论是，对于文本分类任务，深度模型还没有被证明比浅层模型更有效。而且，在其他数据集、自然语言处理任务和模型上，还需要进一步的研究来证实或证实这一观察结果。的确，深度卷积模型源于最初为图像处理而开发的深度模型，但是用于文本处理的新的深度架构在不久的将来可能会挑战这一结论。因此，我们可以在建立卷积模型时。不需要使用很深的网络结构，而采用浅且宽网络模型依然可以保证得到不错的结果，同时减少模型所需计算参数数量。Chen等人提出了带孔卷积，在卷积核中添加了采样率的概念，使得卷积层的覆盖视域更广，能够很好地应用于大型数据。同时该方法结合了空间金字塔池化的想法，使用不同采样率的多个并行带孔卷积层提取特征，然后对特征进一步融合处理来产生结果。最后将深度卷积神经网络(DCNN)与全连接的条件随机场(CRF)结合，得到准确的语义分割结果和对象边界。带孔的卷积方法是否能够适用于文本还有待验证。Johnson和Zhang认为由于随着网络的深化，CNN就能够有效地发现文本中的远程关联(以及更多的全局信息)。因此开发了一种简单的网络体系结构(DPCNN)，通过增加网络深度可以获得最佳精度，同时不会大幅增加计算成本。DPCNN首先执行文本区域嵌入，即采用区域词嵌入作为卷积网络的输入，然后在卷积网络的每层卷积层保持相同的特征映射数量且在每2层卷积后执行固定窗口且步幅为2个最大池化层，使得每次池化后，计算量减半。该方法对于CNN的结构并无大的改进，仅仅对其中一些超参数进行了限定，分类精度的提升来源于更好的词嵌入表示以及更深的网络结构。

还有一些研究者试图将卷积神经网络(CNN)与另一种在文本领域成功应用的循环神经网络(RNN)相结合以实现更好的性能。Lai等人在用以捕获上下文信息的双向循环网络(Bi-directional RNN)的上层添加一个池化层。利用卷积池化层对循环神经网络的所有时间步结果执行最大池化操作，来解决RNN长距离记忆时的梯度消散问题。该方法结合了RNN和CNN的部分特点，并专注于利用上下文信息改善分类结果。Wang同样提出了一种将RNN和CNN相结合的方法，但它是用长度为k的RNN网络替代卷积核作为大小为k的窗口在输入文本中滑动，且该窗口RNN仅产生一个最终结果并非k个结果。同时由于窗口内k个神经元共享参数，因此当窗口增大时，并不会增加需要学习的参数的个数。每个窗口生成的上下文向量可被看作是一个文本片段的表示。然后将上下文向量传入多层感知器(MLP)来提取高级别的特征，然后传入最大池化层提取最显著特征和位置不变性特征。最后应用线性整流函数和softmax函数预测每个类别的概率。该方法很好地利用了RNN序列表示的优势，并保留了CNN的并行运算和提取特征不变性的优势。

由于很多知识的结构是具有许多抽象层次的，在不同的层次中的进行分类也会呈现不同的难度。Kowsari等人提出了一种适用于各类神经网络的通用层次分类架构。该架构为一个树状神经网络，根节点为一个父神经网络，其输出结果为最上层级的分类结果，然后将每个分类结果各输入到一个子神经网络以输出次一级的分类，以此类推最终形成层次分类。因此，该方法模型由多个神经网络组成，需要人为设定好的分类领域和分类层级以设计对应的网络模型。Zhu和Bain也提出了类似的分支卷积神经网络(B-CNN)的结构。不同的是其认为CNN每一层都包含了网络中不同层次性的特征，因此可以将分类到最细粒度的卷积神经网络作为主干网路，同时把主干网路的多个中间层的特征输入到各层级进行分类预测的分支网络，最终的损失函数为各粒度预测损失的加权和。该结构更加简洁。Fu等人同样对利用CNN实现层次分类进行了研究，它将贝叶斯技术用于层次分类，使得仅需修改CNN网络最上层的分类层即可实现层次分类。该方法不再需要对应层次分类的各子网络，只需额外的一些神经元来学得样本在分为粗粒度类别条件下，继而被分为细粒度子类别的条件概率。该方法大大减少了CNN层次分类的计算成本。

发明内容

本发明的目的在于提供一种面向特定领域开放网络问句的文本分类方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：输入待分类的文本，判断该文本所属的领域；

步骤2：设定分类层次和分类类别；

在粗粒度层级上，依据分类任务的目标及待分类文本所属领域的边界，将该领域分为a+1类，其中a为任务所需的类别数，额外的1个类别代表领域之外；

在细粒度层级上，依照分类任务的目标及待分类文本所属领域的知识体系结构将每个粗粒度类别细分为b+1个子类，额外的1个类别代表父类与其b个子类的并集的差集；

步骤3：根据待分类文本所属领域，载入该领域开放网络问答文本集和书面文本集；

步骤4：将开放网络问答文本集分割成问答对；将书面文本集分割成书面篇章；

步骤5：基于句法特征，将所有问答对和书面篇章分割为各个句子，得到句子数据集；

步骤6：基于jieba分词模块，建立词典并利用隐马尔可夫模型和Viterbi算法对句子数据集执行分词，得到待分类文本所属领域的词向量数据集；

步骤7：清理待分类文本所属领域的词向量数据集中无效文本和符号；

步骤8：根据CBOW算法预训练待分类文本所属领域的词向量数据集，得到词向量形式的问句训练集；

步骤9：构建半监督的结合贝叶斯的卷积神经网络；

步骤10：将词向量形式的问句训练集输入半监督的结合贝叶斯的卷积神经网络中进行训练，得到待分类文本所属领域的开放网络问句文本分类器

步骤11：将待分类文本输入开放网络问句文本分类器中，得到分类结果。

本发明还可以包括：

所述的步骤10中将词向量形式的问句训练集输入半监督的结合贝叶斯的卷积神经网络中进行训练的具体步骤为：

步骤2.1：将词向量形式的问句训练集输入半监督的结合贝叶斯的卷积神经网络的输入层；

步骤2.2：在半监督的结合贝叶斯的卷积神经网络的输入层之后建立两层卷积隐藏层；两层卷积隐藏层执行卷积运算，它们各有r个随机初始化的P×K维的卷积核，其中卷积层通道数为r，卷积窗口大小P分别为P₁、P₂，分别获取细节特征和区域特征，词向量维度为K；

步骤2.3：在两层卷积隐藏层后各建立一层池化层，采用窗口大小同样为P的最大池化，然后将两个池化层的结果首尾拼接；

步骤2.4：重复执行卷积和最大池化的结构s次，得到特征矩阵M；将结果输入全局最大池化层，得到特征向量F；

步骤2.5：在池化层后再建立并行的卷积层C1和全连接的softmax层D1；

步骤2.6：将特征向量F输入全连接的softmax层D1，得到的C_粗维特征向量即为粗粒度分类的概率分布，其中C_粗为粗粒度类别数；

步骤2.7：将特征矩阵M输入卷积层C1，得到由(C_粗×C_细)个特征向量组成的权值矩阵；将权值矩阵输入全局最大池化层，得到表示粗粒度到细粒度的条件概率分布的(C_粗×C_细)维向量，其中C_细为细粒度的类别数；

步骤2.8：将C_粗维特征向量与(C_粗×C_细)维向量首尾拼接得到(C_粗×C_细)+C_粗维的向量V1；

步骤2.9：将向量V1输入到全连接的softmax层D1，得到预测细粒度分类的概率分布；

全连接的softmax层D1分类的卷积神经网络模型的最终损失是粗分类和细分类损失的加权和，以及一个无需标签的互斥性损失项使得预测概率尽可能地趋近只有一个元素为1，其余元素为0的形式；

loss＝λ^粗loss^粗+λ^细loss^细+λ^无loss^无

其中，f_j(x_i)为第8步中生成的预测概率向量的第j维元素；λ^粗和λ^细均为设定的权值；loss^粗和loss^细均为softmax层交叉熵损失函数。

本发明的有益效果在于：

本发明提供了一种面向特定领域开放网络问句的文本分类方法，克服了在执行一些特定领域的网络开放文本分类任务的情况下，缺乏足够可用的带类别标记的语料集，且网络文本信息量低、噪音大的问题，并为该领域的开放网络问句的层次分类提供了新方法。本发明利用了特定领域的开放网络问句及书面文本使领域的词嵌入表示更符合领域知识特征，同时，使用半监督方法加速分类模型训练并减少所需的标记样本。此外，还结合了条件概率实现了在多粒度层级的类别划分。本发明可以在问答***、情感分析、领域知识库等领域辅助数据的提取、判别和构建。

附图说明

图1为本发明的整体流程图。

图2为分类器结构示意图。

图3为本发明实施例中别类划分和标签的设置表。

具体实施方式

下面结合附图对本发明做进一步描述。

本方法属于文本分类处理领域，更进一步涉及到短本文分类领域中利用半监督学习和层次分类的某种特定知识领域的开放网络问句的文本分类方法。该方法可以在问答***、情感分析、领域知识库等领域辅助数据的提取、判别和构建。

本发明提供了一种面向特定领域开放网络问句的文本分类方法，克服了在执行一些特定领域的网络开放文本分类任务的情况下，缺乏足够可用的带类别标记的语料集，且网络文本信息量低、噪音大的问题，并为该领域的开放网络问句的层次分类提供了新方法。本发明包括：(1)收集领域相关文本(2)设定分类层次和类别(3)预处理开放网络文本和书面文本(4)选取部分开放网络问句样本并标记类别(5)输入问句进行半监督层次分类器训练(6)分类器执行文本分类。本发明利用了特定领域的开放网络问句及书面文本使领域的词嵌入表示更符合领域知识特征，同时，使用半监督方法加速分类模型训练并减少所需的标记样本。此外，还结合了条件概率实现了在多粒度层级的类别划分。

一种面向特定领域开放网络问句的文本分类方法，包括以下步骤：

步骤1：输入待分类的文本，判断该文本所属的领域；

步骤2：设定分类层次和分类类别；

步骤9：构建半监督的结合贝叶斯的卷积神经网络；

loss＝λ^粗loss^粗+λ^细loss^细+λ^无loss^无

实施例1：

本发明的目的在于面向特定领域的开放网络问句文本，提出了一种半监督的层次分类方法，同时弥补上述已有技术问题的不足，在标记样本很少的情况下也能利用额外知识训练分类模型并保持不错的分类精度。

本发明实现上述目的的具体思路是：

1.考虑各种类别之间分类难度不同，设定粗粒度和细粒度的分类层次，并设定各层次中的类别；

2.预处理任务面向的特定领域网络问句、问答文本和领域的书面文本；

3.通过表示学习生成特定领域语料的词嵌入表示；

4.划分一少部分平衡的训练样本集进行标注；

5.建立半监督的层次卷积神经网络模型；

6.输入训练数据集训练文本分类模型得到最终的开发网络问句文本分类器。

本方法的整体流程图如图1所示，具体步骤如下：

(1)输入待分类的文本，判断该文本所属的领域；设定分类层次和分类类别。

(1a)在粗粒度层级上，依照分类任务的目标及待分类文本所属领域的边界分为a+1类，其中a为任务所需的类别数，额外的1个类别代表领域之外。

(1b)在细粒度层级上，依照分类任务的目标及待分类文本所属领域的知识体系结构将每个粗粒度类别细分为b+1个子类，额外的1个类别代表父类与其b个子类的并集的差集。

(2)预处理开放网络问答文本和书面文本数据。

(2a)载入开放网络问答文本和书面文本。

(2b)将开放网络问答文本集分割成问答对；将书面文本集分割成书面篇章。

(2c)基于句法特征，将所有问答对和书面篇章分割为各个句子，得到句子数据集。

(2d)基于jieba分词模块，建立词典并利用隐马尔可夫模型和Viterbi算法对句子数据集执行分词。

(2e)清理数据集中无效文本和符号。

(2f)根据CBOW算法预训练待分类文本所属领域的词向量数据集，得到词向量形式的问句训练集，在该步骤不仅利用了任务相关的处理好的开放网络问句文本，还利用了处理好的回答和书面文本。

(3)进行半监督的层次文本分类器训练。

(3a)设置半监督的结合贝叶斯的卷积神经网络。

(3b)将词向量形式的问句训练集输入上述卷积神经网络模型中对模型进行训练。

(3c)将训练结束后得到的卷积神经网络模型保存得到某特定领域的开放网络问句文本分类器。

(4)将待分类文本输入开放网络问句文本分类器中，得到分类结果。

步骤2中所述的针对特定领域的词向量的训练不仅使用任务相关问句语料还使用了半口语化的回答语料和书面化的文本语料。

步骤2f具体步骤如下：

第1步，CBOW是一个神经网络模型，首先，它将文本中目标词上下文中的各词分别映射为K维的one-hot词向量w₁,w₂,...,w_T，作为网络模型的输入。

第2步，将这些向量分别乘以权重矩阵W_K×N并传入网络的下一层并对它们相加求平均得到N维向量H。

第3步，将N维向量H乘以权重矩阵H_N×K得到K维向量

第4步，该神经网络的最后一层为预测概率层，可以通过softmax函数来实现：

其中，z为神经网络中softmax层的前一层隐藏层得到的向量，K为z向量的维数也是语料库词汇表的大小，σ_j为目标词被预测为词汇表中第j个词的概率。

第5步，当给定一组词语序列w₁,w₂,...,w_T，那么CBOW模型的目标为最大化对数似然函数，表示为：

即通过目标词的上下文来预测文本中的目标词。

最后，得到的权重矩阵W_K×N为得到的嵌入潜在空间的变换矩阵，N为词嵌入的维度。

步骤3具体步骤如下:

第1步，文本分类模型是一个神经网络模型，它首先将步骤2中得到的向量化训练集输入该神经网络的输入层。

第2步，建立卷积隐藏层。在输入层之后为两层并行卷积层以执行卷积运算，它们各有r个随机初始化的P×K维的卷积核(卷积层通道数为r，卷积窗口大小P分别为Γ₁、Γ₂，分别获取细节特征和区域特征，词向量维度为K)。

第3步，在两层卷积层后各建立一层池化层，采用窗口大小同样为P的最大池化，然后将两个池化层的结果首尾拼接。

第4步，重复执行卷积和最大池化的结构s次，得到特征矩阵M，然后将结果输入全局最大池化层以得到特征向量F。

第5步，在池化层后再建立并行的卷积层C1和全连接层D1。

第6步，F输入全连接的softmax层D1得到的C_粗维特征向量即为粗粒度分类的概率分布，其中C_粗为粗粒度类别数。

第7步，M输入卷积层C1得到由(C_粗×C_细)个特征向量组成的权值矩阵，将该特征矩阵输入全局最大池化层得到表示粗粒度到细粒度的条件概率分布的(C_粗×C_细)维向量，其中C_细为细粒度的类别数。

第8步，将第6步中softmax层D1的输出向量与第7步中全局最大池化层的输出向量首尾拼接得到(C_粗×C_细)+C_粗维的向量V1。

第9步，将向量V1输入到一个全连接softmax层得到预测细粒度分类的概率分布。

第10步，该层次分类的卷积神经网络模型的最终损失是粗分类和细分类损失的加权和，以及一个无需标签的互斥性损失项使得预测概率尽可能地趋近只有一个元素为1，其余元素为0的形式。

loss＝λ^粗loss^粗+λ^细loss^细+λ^无loss^无

其中，

f_j(x_i)为第8步中生成的预测概率向量的第j维元素。λ^粗和λ^细均为设定的权值；loss^粗和loss^细均为softmax层交叉熵损失函数。

下面将结合具体例子来描述本发明，

(1)设定分类层次和分类类别(如图3所示)。

(1a)在粗粒度层级上，依照国家政策法规分为养老保险以及综合/其他共2类。

(1b)在细粒度层级上，依照国家政策法规细节内容分为参保/参加、缴费、账户、权利/待遇、综合/其他共5类。

(2)预处理开放网络问句、问答文本和政策法规文本数据。

(2a)载入开放网络问句、回答文本和政策法规文本。

(2b)基于jieba模块，建立词典并利用隐马尔可夫模型和Viterbi算法对读取的数据集执行分词。

(2c)清理数据集中无效文本和符号。

(2d)根据CBOW算法对处理好的文本进行词嵌入预训练以得到养老保险领域的词向量。

(3)在各粒度上对分类样本标记。

(3a)随机抽取A条问句样本，并其中随机抽取A/5条问句样本作为测试集。

(3b)依照之前步骤得到的层次分类的类别对选取的A个样本进行标记。

(4)转换开放网络问句数据的文本表示。

(4a)通过之前训练得到的词向量，把问句文本数据集转换为向量列表的形式。

(4b)将问句文本数据集中除测试集之外的标记过的4/5×A条问句样本作为训练集、验证集。

(4c)从4/5×A条问句文本数据集中随机抽取80％问句样本作为训练集，剩下20％作为验证集。

(5)进行半监督的层次文本分类。

(5a)设置半监督的结合贝叶斯的卷积神经网络(如图2所示)。该模型首先以词向量形式的语料作为输入，经过卷积层提取特征，然后用层次分类结构得到分类结果。该层次分类结构的特征在于，在细粒度通道中池化层之后得到的是P(细粒度|粗粒度)的条件概率评分，然后与粗粒度分类结果进行拼接，最后得到细粒度的分类结果。该层次分类结构不仅可以用于二粒度层次的分类，也可以容易地扩展到更多粒度分类的场景中。

(5b)将词向量形式的问句训练集输入上述卷积神经网络模型中对模型进行训练。

(5c)将训练结束后得到的卷积神经网络模型保存，得到养老保险领域的开放网络问句文本分类器。

(5d)使用文本分类器对文本进行分类。

本发明的有益效果在于：

第1，由于本方法没有采用通用的已预训练好的词向量，也没有仅采用了任务目标所针对问句文本训练领域知识词向量，而是在采用了网络开放问句文本语料的基础上还在词向量训练中加入了更具有知识性的半口语化回答文本和蕴含领域知识的书面化文本以使得在用词向量表示该领域的问句文本时获得更好的效果。

第2，由于本方法设计的层次分类模型，在保证不会明显增加计算量的同时，实现了在多粒度层级下的类别分类，可以为其他进一步的数据处理提供更多信息。此外，该层级分类结构能够与任意神经网路相结合，以实现多层级分类。

第3，由于本方法将半监督学习方法与层级分类模型结合，加速训练过程，克服了现有情况下一些领域标记样本少、标记成本高的问题，同时在类别数量较多时保证了各类别在特征空间中的区分度。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向特定领域开放网络问句的文本分类方法，其特征在于，包括以下步骤：

步骤1：输入待分类的文本，判断该文本所属的领域；

步骤2：设定分类层次和分类类别；

步骤9：构建半监督的结合贝叶斯的卷积神经网络；

2.根据权利要求1所述的一种面向特定领域开放网络问句的文本分类方法，其特征在于：所述的步骤10中将词向量形式的问句训练集输入半监督的结合贝叶斯的卷积神经网络中进行训练的具体步骤为：

loss＝λ^粗loss^粗+λ^细loss^细+λ^无loss^无