CN108595602A

CN108595602A - 基于浅层模型与深度模型结合的问句文本分类方法

Info

Publication number: CN108595602A
Application number: CN201810357603.5A
Authority: CN
Inventors: 黄青松; 余慧; 郭勃; 刘利军; 冯旭鹏
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2018-09-28

Abstract

本发明涉及基于浅层模型与深度模型结合的问句文本分类方法，属计算机自然语言处理技术领域。本发明首先提取问句文本的特征词集合，向量化后使用归一化的词向量值得到对应特征词权重，将其作为浅层线性模型的一部分输入。卷积网络使用多种不同窗口大小的卷积核对问句文本进行卷积，将拥有相同长度卷积窗口的不同卷积核提取的特征向量进行重新排列，再分别输入到对应循环神经网络之中，最终将多个循环神经网络的输出链接到一起得到问句的句法语义特征向量，作为浅层线性模型的另一部分输入。最终浅层模型根据由特征词向量与深度模型的输出拼接构成的输入得到问句的分类结果。本发明克服单一深度模型的不足，有效提升了问句分类的准确率。

Description

基于浅层模型与深度模型结合的问句文本分类方法

技术领域

本发明涉及基于浅层模型与深度模型结合的问句文本分类方法，属于计算机自然语言处理技术领域。

背景技术

问句文本分类属于短文本分类，在自动问答***中具有重要的作用。问句文本分类主要通过分析问句的内容来对问句进行分类。早期有基于规则的方法，利用问句的关键词或语法模式和问句类型的对应关系，对问句进行分类。这种方法对拥有明显疑问词或者问句类别特征词的问句分类效果很好，但对于较复杂的问句或者问句文本中并没有明显的类别特征词则不然，而且方法的灵活度不高，工作量较大，问句分类的主观性强。随着机器学习的发展，基于机器学习的问句分类方法成为主流，Zhang(<第二十六届ACM年度国际学术会议>，2003)等人利用支持向量机(SVM)，抽取句子的句法特征对问题进行分类，该方法相对以前的方法准确率得到了较大的提升。除此外还有将基于规则和机器学习的方法相结合，Li(<Chinese Journal of information>，2008)等将疑问词和中心词规则与SVM方法相结合，使问句分类的准确度进一步提高。分类精度主要依赖于句法分析等技术的效果，但中文文本的形式多变性和句式复杂性导致中文的句法分析难度较高，目前的句法分析技术相对不够成熟，影响了问句文本分类的准确程度。

近年来随着深度学***衡的问题，单一深度模型对数据量较少的类别很难学习到有效的特征表示。

发明内容

本发明提供了基于浅层模型与深度模型结合的问句文本分类方法，针对单一深度模型面对不平衡训练数据时存在的问题，利用传统浅层模型对特征具有较强记忆性的特点，有效地提升了问句分类的准确率。

本发明的技术方案是：基于浅层模型与深度模型结合的问句文本分类方法，所述方法的具体步骤如下：

Step1、爬取经济金融、法律法规、体育运动、医疗卫生、电子数码5个类别的问句语料，其次对语料文本进行预处理；

Step2、利用开方检验CHI的方法提取问句语料中问句文本的特征词集合，将每个特征词转化为词向量的形式，并使用特征词对应的归一化词向量值作为其权重值，由此得到浅层线性模型的一部分输入Input1；

Step3、增加问句关键词词向量权重，然后将词向量矩阵组成的问句文本向量输入到深度模型的第一部分卷积网络中；其中使用多种不同窗口大小的卷积核分别对问句文本进行卷积操作，抽取出句子的局部短语特征，将拥有相同长度卷积窗口的不同卷积核提取的特征向量进行重新排列；

Step4、将Step3中生成的特征向量分别输入到对应的循环神经网络之中；循环神经网络通过其链式结构能够捕捉到句子的历史信息，学习到序列数据的长期依赖特征，其最后一个时间步的输出包含了整个句子的特征信息，将多个循环神经网络的输出链接到一起作为问句的最终特征，由此得到浅层线性模型的另一部分输入Input2；

Step5、将Step2中得到的Input1和Step4中深度模型的最终输出Input2拼接构成浅层模型的输入，浅层模型部分使用多元线性回归结构，最终得到问句的分类结果。

所述步骤Step1的具体步骤如下：

Step1.1、首先人工编写爬虫程序，在百度知道上爬取经济金融、法律法规、体育运动、医疗卫生、电子数码5个类别的问句语料；

Step1.2、把已爬取的语料，经过过滤、去重得到不重复的问句语料，并把其存放到数据库中；

Step1.3、对数据库中的问句语料进行分词、去停用词预处理。

所述步骤Step2的具体步骤如下：

Step2.1、采用开方检验CHI的方法提取问句文本的特征词集合；

Step2.2、将Step2.1中的每个特征词转化为词向量的形式，采用分布式的词向量表示方法；

Step2.3、采用特征词对应的归一化词向量值作为其权重值，最终得到问句文本的非句法特征表示，作为浅层模型的一部分输入Input1。

所述步骤Step3的具体步骤如下：

Step3.1、使用python中的jieba工具包提供的基于tf-idf的方法抽取问句关键字，当问句中每个词被表示为词向量之后，将问句关键词的词向量在其左右分别重复一次，此时关键词在句子中所占权重就会增大，由此得到一个词向量矩阵；

Step3.2、将Step3.1中得到的用词向量矩阵表示的问句文本向量输入到深度模型的第一部分卷积网络中，其中矩阵的行数为句子中词的个数，列数为词向量的维度；这里使用2，3，4三种不同长度卷积窗口的卷积核各两个对问句进行从前到后的卷积操作，提取出句子中不同位置的局部特征，由此得到若干组特征向量；

Step3.3、将拥有相同卷积窗口大小的不同卷积核提取的特征向量按时间序列位置信息进行重新排列组合，使得不同卷积核在句子同一位置卷积得到的特征向量拼接在一起。

所述步骤Step4的具体步骤如下：

Step4.1、将Step3.3中三种不同长度卷积窗口得到的重新排列的特征分别按照句子顺序输入到对应的三个循环神经网络之中；这里使用LSTM循环神经网络，用于更好捕捉到句子较早的历史信息，学习到序列数据的长期依赖特征，其最后一个时间步的输出包含了整个问句的特征信息；

Step4.2、将Step4.1中三个循环神经网络的输出链接到一起作为问句的最终特征表示，由此得到浅层线性模型的另一部分输入Input2。

所述步骤Step5的具体步骤如下：

Step5.1、将Step2.3中得到的Input1和Step4.2的最终输出Input2拼接构成浅层模型的输入，这里浅层模型使用多元线性回归结构，即一个全连接的最后一层加有softmax函数的普通神经网络；

Step5.2、将Step5.1得到的输入层内容经过一层隐藏层，再将隐藏层的输出输入到sotfmax函数中得到最终的问句分类结果。

所述深度模型部分由卷积网络层和循环神经网络层组成；卷积层中第k个卷积窗口长度为h的卷积核卷积得到的文本特征表示为w_kh＝[c_ki,…,c_k(l-h+1)]，其中c_ki表示第k个卷积核在问句文本中第i个位置的卷积特征；c_ki＝Relu(o_ki+b)，o_ki表示卷积计算得到的值；o_ki＝[x_i,x_i+1,…,x_i+h-1]*f_kh，其中x_i代表句子中第i个词的词向量，h代表卷积核窗口长度，[x_i,x_i+1,…,x_i+h-1]代表了句子中从第i个词到第i-h+1个词，共h个词组成的词向量矩阵；f_kh表示第k个卷积窗口长度为h的卷积核，*代表两个矩阵中对应元素相乘求和操作；将卷积层得到的特征向量重新排列组合然后分别输入三个不同的LSTM循环神经网络层，形成最终特征向量表示为V＝[v₂,v₃,v₄]，其中v₂,v₃,v₄分别表示卷积窗口长度2，3，4；整个模型的输入层由浅层部分的特征词向量与深度模型的输出V拼接构成，形成一个m维的向量表示，X＝[wf₁…wf_n,V]。

所述浅层模型最终分类方法为softmax函数。

本发明的有益效果是：

1、本发明利用gensim的word2vec模块进行词向量训练，由于词的向量是由词的邻近词计算出来的，所以向量里会隐含语义信息，适合用于语义的信息提取。将词向量表示的文本作为模型的输入有效地提升了模型的性能。

2、在数据的预处理过程中，对于深度模型输入部分，增加问句关键词词向量的权重。问句中的关键词对判断句子的类别往往具有更大的作用，因此当问句中的每个词被表示为词向量之后，将训练语料中问句关键词的词向量在其左右分别重复一次，此时关键词在句子中所占权重就会增大，这样可以进一步提高模型的分类性能。

3、本发明基于浅层模型与深度模型结合的问句文本分类模型，结合了深度模型与传统机器学***衡与平衡的情况下，问句分类的准确率均取得了提升，尤其在训练数据不平衡时，相比其它模型性能有较大提升。

综上，这种基于浅层模型与深度模型结合的问句文本分类方法通过由卷积神经网络和循环神经网络组合而成深度模型，对问句的句法语义特征做更好地学***衡的情况下，克服了单一深度模型的不足。最终统一模型有效地提升了问题分类的准确率。

附图说明

图1为本发明的问句分类模型结构图；

图2为本发明中深度模型部分结构图；

图3为本发明中不同卷积网络输出处理的问句分类准确率对比图；

图4为不同神经网络模型随着训练迭代次数增加的性能变化对比图。

具体实施方式

实施例1：如图1-4所示，基于浅层模型与深度模型结合的问句文本分类方法，所述方法的具体步骤如下：

进一步的，所述步骤Step1的具体步骤如下：

本发明通过爬虫程序在百度知道上爬取了经济金融、法律法规、体育运动、医疗卫生、电子数码5个类别的问题各5000条语料，作为第一个预备语料集合，即平衡语料库。另外将医疗卫生和电子数码各去掉3000条语料，保留2000条语料，其它三个种类语料数不变，作为第二个预备语料集，即不平衡语料库。每个语料结合取其中的十分之一作为测试集，剩余的作为训练集。考虑到爬取的问句语料可能存在重复，这些语料增加了工作量，而没有太大意义，所以在预备语料基础上经过过滤、去重，得到不重复的问句文本语料。存放在数据库是为了能方便数据的管理和使用。

Step1.3、对数据库中的问句语料进行分词、去停用词预处理。

本发明考虑到直接将文本切分为多个字符组成的字符串形式，会造成原文本中字、词之间语言学信息的丢失。所以对问句语料进行预处理工作，其中包括用jieba工具进行中文分词、去停用词等，方便后续工作的进行。

进一步的，所述步骤Step2的具体步骤如下：

Step2.1、采用开方检验CHI的方法提取问句文本的特征词集合；

本发明在多元线性结构部分的特征选取方面，使用词作为其基本特征项，不使用句法语法特征，采用效果较好并且比较常用的特征选择方法开方检验来提取问句文本的特征词，并以特征词集合来表示问句文本。

Step2.2、将Step2.1中的每个特征词转化为词向量的形式，采用分布式(distributed representation)的词向量表示方法；

文本向量化过程中，本发明考虑到传统one-hot表示方法的局限，选择distributed representation，这种词向量的表示方法不仅解决了one-hot维度稀疏的问题，而且相似词的词向量表示之间距离靠近，带有了一定的语义信息。这样将词向量表示的文本作为模型的输入对模型性能的提升很有帮助。本发明利用gensim的word2vec模块进行词向量训练。

为不同的特征词赋予不同权值，本发明采用最简单有效的归一化词向量值作为特征词向量权重值，问句文本的非句法特征表示即特征词向量表示作为浅层线性模型的一部分输入。

进一步的，所述步骤Step3的具体步骤如下：

在深度模型的输入部分，因为问句中的一些词对判断句子的类别往往具有更大作用，比如在问句“篮球运动是什么时候发明的？”中，名词‘篮球’对于判别问句类型为体育类起到了关键作用。因此当问句中的每个词被表示为词向量之后，将训练语料中问句关键词的词向量在其左右分别重复一次，原句子就变成了“篮球篮球篮球运动是什么时候发明的？”此时关键词在问句中所占权重就会增大。为了验证增加问句中关键词权重可以进一步增加模型的分类性能，关键词对问句分类的结果起到了关键的作用，做了一组对比实验，如表1所示：

表1

	不增加关键词权重	增加关键词权重
			准确率	0.9219	0.9226

如图2所示，为了更好地学习得到问句文本的句法语义特征，在卷积网络部分使用2，3，4三种不同长度卷积窗口的卷积核各两个对问题文本进行卷积操作。卷积窗口长度指每次卷积操作覆盖句子中词数量的多少。将卷积核在句子上进行滑动，提取出句子中不同位置的局部特征，由此得到一组特征向量。

为了验证本发明对卷积网络输出处理以及选择不同卷积窗口的有效性，比较了另外一种处理卷积网络输出并输入循环神经网络的策略和不同卷积窗口大小选择策略的分类效果差异。作比较第二种链接方法如下所述，对卷积重排后的特征，按照最大长度卷积窗口卷积重排得到的特征长度为准，切去另外两种长度卷积窗口卷积重排后得到的特征与之相比较超出的部分，将句子中同一位置的特征链接在一起，输入到一个LSTM循环网络中去。将这种结构记作M2:cl2,3,4。本发明浅层深度结合模型中深度部分采用的链接策略记为M1:cl2,3,4,另外还对单个不同长度窗口的模型进行了对比，分别记作S:cl2，S:cl3，S:cl4，表示窗口大小为2，3，4。在语料库1中进行实验，结果如图3所示。明显看出本发明的M1:cl2,3,4策略效果最好，而M2:cl2,3,4的分类效果相比单一窗口长度的模型和M1:cl2,3,4，其分类准确率出现了下降，其原因可能是切除掉的特征对最终的特征序列造成了影响，致使LSTM没能捕捉到高质量的序列信息。另外在单窗口长度中，窗口长度为3时，分类准确率最高。

进一步的，所述步骤Step4的具体步骤如下：

本发明考虑到能够更好学习句子的句法语义特征，在深度模型的第二部分循环神经网络选择长短期记忆(LSTM)网络，因为基本的循环神经网络模型在句子较长时会丢失句子中靠前部分的信息，为了克服上述缺点，人们发明了LSTM循环神经网络模型，它相对传统神经网络可以更好的记忆较早的历史信息。

将三个LSTM的输出拼接到一起，形成问句最终的特征向量，即V＝[v₂,v₃,v₄]，其中v₂,v₃,v₄分别表示卷积窗口长度分别为2，3，4。多窗口卷积循环网络组合深度模型如图2所示。

进一步的，所述步骤Step5的具体步骤如下：

进一步的，所述深度模型部分由卷积网络层和循环神经网络层组成；卷积层中第k个卷积窗口长度为h的卷积核卷积得到的文本特征表示为w_kh＝[c_ki,…,c_k(l-h+1)]，其中c_ki表示第k个卷积核在问句文本中第i个位置的卷积特征；c_ki＝Relu(o_ki+b)，o_ki表示卷积计算得到的值；o_ki＝[x_i,x_i+1,…,x_i+h-1]*f_kh，其中x_i代表句子中第i个词的词向量，h代表卷积核窗口长度，[x_i,x_i+1,…,x_i+h-1]代表了句子中从第i个词到第i-h+1个词，共h个词组成的词向量矩阵；f_kh表示第k个卷积窗口长度为h的卷积核，*代表两个矩阵中对应元素相乘求和操作；将卷积层得到的特征向量重新排列组合然后分别输入三个不同的LSTM循环神经网络层，形成最终特征向量表示为V＝[v₂,v₃,v₄]，其中v₂,v₃,v₄分别表示卷积窗口长度2，3，4；整个模型的输入层由浅层部分的特征词向量与深度模型的输出V拼接构成，形成一个m维的向量表示，X＝[wf₁…wf_n,V]。

进一步的，所述浅层模型最终分类方法为softmax函数。

为了比较浅层深度结合模型与传统机器学***衡语料库1与不平衡语料库2的准确率进行对比，结果如表2、表3所示。

表2

表3

由表2可以明显看出，WD模型在语料平衡的语料库中准确率相比其它传统机器学***衡语料中虽然准确率有所下降，但下降幅度相比其它模型来说较低。

由表3可以看出，深度模型的整体表现仍优于传统模型，但深度模型在不均衡语料库中准确率下降幅度相对较大，其原因在于面对某一类特征语料较少的情况下，深度模型过强的学习能力会加大有效分类特征的学习难度。

为了进一步比较一般深度模型与本发明浅层深度结合模型，图4展示了在不平衡语料库2中，随着训练迭代次数的增加，各自分类准确率的变化。从图中可以看出，随着模型训练迭代次数的增加，4种模型的问句分类准确度都在稳步增加，迭代次数在200次左右的时候准确率基本不再变化。浅层深度结合模型在最终的分类性能上优于其它三种模型。从图中还可以看出在短文本上卷积网络略优于循环神经网络。

本发明中，基于浅层模型与深度模型结合的问句文本分类模型由浅层模型部分与深度模型部分组成，整体结构如图1所示。

输入层

输入层由浅层部分的特征词向量与深度模型的输出V拼接构成，形成一个m维的向量表示，记作X＝[wf₁…wf_n,V]。

Softmax层

Softmax层相当于拥有一层隐藏层的全连接的普通神经网络。将输入层的内容经过一层隐藏层，再将隐藏层的输出输入到sotfmax函数中得到最终的分类结果。隐藏层为k个普通神经元，输入层与隐藏层的神经元是全连接的。其计算公式：O＝X*W，其中W为m行k列的矩阵，矩阵初始元素随机生产非零值，随后在训练中不断跟新。O为拥有k个值的一维向量。每个值代表第k类的输出值，再将其传入softmax函数。softmax函数的公式：O_k表示神经网络第k类的输出值，s_k代表文本属于k类别的概率值。

为了对整个模型进行训练，需要定义一个合适的损失函数，使用Adam(<ComputerScience>,2014)优化方法最小化或者最大化损失函数来训练整个模型。对于分类问题，一般采用交叉熵(cross-entropy)作为其损失函数。其公式为：H_y′(y)＝-∑_iy_i′logy_i，其中y_i′为是真实的概率分布(即训练语料的类别标签)，y_i为模型预测的概率分布。這里通过最小化H_y′(y)的值来训练整个模型。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于浅层模型与深度模型结合的问句文本分类方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述的基于浅层模型与深度模型结合的问句文本分类方法，其特征在于：所述步骤Step1的具体步骤如下：

Step1.3、对数据库中的问句语料进行分词、去停用词预处理。

3.根据权利要求1所述的基于浅层模型与深度模型结合的问句文本分类方法，其特征在于：所述步骤Step2的具体步骤如下：

Step2.1、采用开方检验CHI的方法提取问句文本的特征词集合；

4.根据权利要求1所述的基于浅层模型与深度模型结合的问句文本分类方法，其特征在于：所述步骤Step3的具体步骤如下：

5.根据权利要求1所述的基于浅层模型与深度模型结合的问句文本分类方法，其特征在于：所述步骤Step4的具体步骤如下：

6.根据权利要求1所述的基于浅层模型与深度模型结合的问句文本分类方法，其特征在于：所述步骤Step5的具体步骤如下：

7.根据权利要求1所述的基于浅层模型与深度模型结合的问句文本分类方法，其特征在于：所述深度模型部分由卷积网络层和循环神经网络层组成；卷积层中第k个卷积窗口长度为h的卷积核卷积得到的文本特征表示为w_kh＝[c_ki,…,c_k(l-h+1)]，其中c_ki表示第k个卷积核在问句文本中第i个位置的卷积特征；c_ki＝Relu(o_ki+b)，o_ki表示卷积计算得到的值；o_ki＝[x_i,x_i+1,…,x_i+h-1]*f_kh，其中x_i代表句子中第i个词的词向量，h代表卷积核窗口长度，[x_i,x_i+1,…,x_i+h-1]代表了句子中从第i个词到第i-h+1个词，共h个词组成的词向量矩阵；f_kh表示第k个卷积窗口长度为h的卷积核，*代表两个矩阵中对应元素相乘求和操作；将卷积层得到的特征向量重新排列组合然后分别输入三个不同的LSTM循环神经网络层，形成最终特征向量表示为V＝[v₂,v₃,v₄]，其中v₂,v₃,v₄分别表示卷积窗口长度2，3，4；整个模型的输入层由浅层部分的特征词向量与深度模型的输出V拼接构成，形成一个m维的向量表示，X＝[wf₁…wf_n,V]。

8.根据权利要求6所述的基于浅层模型与深度模型结合的问句文本分类方法，其特征在于：所述浅层模型最终分类方法为softmax函数。