CN108595602A - 基于浅层模型与深度模型结合的问句文本分类方法 - Google Patents
基于浅层模型与深度模型结合的问句文本分类方法 Download PDFInfo
- Publication number
- CN108595602A CN108595602A CN201810357603.5A CN201810357603A CN108595602A CN 108595602 A CN108595602 A CN 108595602A CN 201810357603 A CN201810357603 A CN 201810357603A CN 108595602 A CN108595602 A CN 108595602A
- Authority
- CN
- China
- Prior art keywords
- question sentence
- model
- feature
- convolution
- shallow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013528 artificial neural network Methods 0.000 claims abstract description 37
- 230000000306 recurrent effect Effects 0.000 claims abstract description 31
- 239000000284 extract Substances 0.000 claims abstract 4
- 239000000463 material Substances 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 7
- 230000036541 health Effects 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000007689 inspection Methods 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 8
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000003134 recirculating effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于浅层模型与深度模型结合的问句文本分类方法,属计算机自然语言处理技术领域。本发明首先提取问句文本的特征词集合,向量化后使用归一化的词向量值得到对应特征词权重,将其作为浅层线性模型的一部分输入。卷积网络使用多种不同窗口大小的卷积核对问句文本进行卷积,将拥有相同长度卷积窗口的不同卷积核提取的特征向量进行重新排列,再分别输入到对应循环神经网络之中,最终将多个循环神经网络的输出链接到一起得到问句的句法语义特征向量,作为浅层线性模型的另一部分输入。最终浅层模型根据由特征词向量与深度模型的输出拼接构成的输入得到问句的分类结果。本发明克服单一深度模型的不足,有效提升了问句分类的准确率。
Description
技术领域
本发明涉及基于浅层模型与深度模型结合的问句文本分类方法,属于计算机自然语言处理技术领域。
背景技术
问句文本分类属于短文本分类,在自动问答***中具有重要的作用。问句文本分类主要通过分析问句的内容来对问句进行分类。早期有基于规则的方法,利用问句的关键词或语法模式和问句类型的对应关系,对问句进行分类。这种方法对拥有明显疑问词或者问句类别特征词的问句分类效果很好,但对于较复杂的问句或者问句文本中并没有明显的类别特征词则不然,而且方法的灵活度不高,工作量较大,问句分类的主观性强。随着机器学习的发展,基于机器学习的问句分类方法成为主流,Zhang(<第二十六届ACM年度国际学术会议>,2003)等人利用支持向量机(SVM),抽取句子的句法特征对问题进行分类,该方法相对以前的方法准确率得到了较大的提升。除此外还有将基于规则和机器学习的方法相结合,Li(<Chinese Journal of information>,2008)等将疑问词和中心词规则与SVM方法相结合,使问句分类的准确度进一步提高。分类精度主要依赖于句法分析等技术的效果,但中文文本的形式多变性和句式复杂性导致中文的句法分析难度较高,目前的句法分析技术相对不够成熟,影响了问句文本分类的准确程度。
近年来随着深度学***衡的问题,单一深度模型对数据量较少的类别很难学习到有效的特征表示。
发明内容
本发明提供了基于浅层模型与深度模型结合的问句文本分类方法,针对单一深度模型面对不平衡训练数据时存在的问题,利用传统浅层模型对特征具有较强记忆性的特点,有效地提升了问句分类的准确率。
本发明的技术方案是:基于浅层模型与深度模型结合的问句文本分类方法,所述方法的具体步骤如下:
Step1、爬取经济金融、法律法规、体育运动、医疗卫生、电子数码5个类别的问句语料,其次对语料文本进行预处理;
Step2、利用开方检验CHI的方法提取问句语料中问句文本的特征词集合,将每个特征词转化为词向量的形式,并使用特征词对应的归一化词向量值作为其权重值,由此得到浅层线性模型的一部分输入Input1;
Step3、增加问句关键词词向量权重,然后将词向量矩阵组成的问句文本向量输入到深度模型的第一部分卷积网络中;其中使用多种不同窗口大小的卷积核分别对问句文本进行卷积操作,抽取出句子的局部短语特征,将拥有相同长度卷积窗口的不同卷积核提取的特征向量进行重新排列;
Step4、将Step3中生成的特征向量分别输入到对应的循环神经网络之中;循环神经网络通过其链式结构能够捕捉到句子的历史信息,学习到序列数据的长期依赖特征,其最后一个时间步的输出包含了整个句子的特征信息,将多个循环神经网络的输出链接到一起作为问句的最终特征,由此得到浅层线性模型的另一部分输入Input2;
Step5、将Step2中得到的Input1和Step4中深度模型的最终输出Input2拼接构成浅层模型的输入,浅层模型部分使用多元线性回归结构,最终得到问句的分类结果。
所述步骤Step1的具体步骤如下:
Step1.1、首先人工编写爬虫程序,在百度知道上爬取经济金融、法律法规、体育运动、医疗卫生、电子数码5个类别的问句语料;
Step1.2、把已爬取的语料,经过过滤、去重得到不重复的问句语料,并把其存放到数据库中;
Step1.3、对数据库中的问句语料进行分词、去停用词预处理。
所述步骤Step2的具体步骤如下:
Step2.1、采用开方检验CHI的方法提取问句文本的特征词集合;
Step2.2、将Step2.1中的每个特征词转化为词向量的形式,采用分布式的词向量表示方法;
Step2.3、采用特征词对应的归一化词向量值作为其权重值,最终得到问句文本的非句法特征表示,作为浅层模型的一部分输入Input1。
所述步骤Step3的具体步骤如下:
Step3.1、使用python中的jieba工具包提供的基于tf-idf的方法抽取问句关键字,当问句中每个词被表示为词向量之后,将问句关键词的词向量在其左右分别重复一次,此时关键词在句子中所占权重就会增大,由此得到一个词向量矩阵;
Step3.2、将Step3.1中得到的用词向量矩阵表示的问句文本向量输入到深度模型的第一部分卷积网络中,其中矩阵的行数为句子中词的个数,列数为词向量的维度;这里使用2,3,4三种不同长度卷积窗口的卷积核各两个对问句进行从前到后的卷积操作,提取出句子中不同位置的局部特征,由此得到若干组特征向量;
Step3.3、将拥有相同卷积窗口大小的不同卷积核提取的特征向量按时间序列位置信息进行重新排列组合,使得不同卷积核在句子同一位置卷积得到的特征向量拼接在一起。
所述步骤Step4的具体步骤如下:
Step4.1、将Step3.3中三种不同长度卷积窗口得到的重新排列的特征分别按照句子顺序输入到对应的三个循环神经网络之中;这里使用LSTM循环神经网络,用于更好捕捉到句子较早的历史信息,学习到序列数据的长期依赖特征,其最后一个时间步的输出包含了整个问句的特征信息;
Step4.2、将Step4.1中三个循环神经网络的输出链接到一起作为问句的最终特征表示,由此得到浅层线性模型的另一部分输入Input2。
所述步骤Step5的具体步骤如下:
Step5.1、将Step2.3中得到的Input1和Step4.2的最终输出Input2拼接构成浅层模型的输入,这里浅层模型使用多元线性回归结构,即一个全连接的最后一层加有softmax函数的普通神经网络;
Step5.2、将Step5.1得到的输入层内容经过一层隐藏层,再将隐藏层的输出输入到sotfmax函数中得到最终的问句分类结果。
所述深度模型部分由卷积网络层和循环神经网络层组成;卷积层中第k个卷积窗口长度为h的卷积核卷积得到的文本特征表示为wkh=[cki,…,ck(l-h+1)],其中cki表示第k个卷积核在问句文本中第i个位置的卷积特征;cki=Relu(oki+b),oki表示卷积计算得到的值;oki=[xi,xi+1,…,xi+h-1]*fkh,其中xi代表句子中第i个词的词向量,h代表卷积核窗口长度,[xi,xi+1,…,xi+h-1]代表了句子中从第i个词到第i-h+1个词,共h个词组成的词向量矩阵;fkh表示第k个卷积窗口长度为h的卷积核,*代表两个矩阵中对应元素相乘求和操作;将卷积层得到的特征向量重新排列组合然后分别输入三个不同的LSTM循环神经网络层,形成最终特征向量表示为V=[v2,v3,v4],其中v2,v3,v4分别表示卷积窗口长度2,3,4;整个模型的输入层由浅层部分的特征词向量与深度模型的输出V拼接构成,形成一个m维的向量表示,X=[wf1…wfn,V]。
所述浅层模型最终分类方法为softmax函数。
本发明的有益效果是:
1、本发明利用gensim的word2vec模块进行词向量训练,由于词的向量是由词的邻近词计算出来的,所以向量里会隐含语义信息,适合用于语义的信息提取。将词向量表示的文本作为模型的输入有效地提升了模型的性能。
2、在数据的预处理过程中,对于深度模型输入部分,增加问句关键词词向量的权重。问句中的关键词对判断句子的类别往往具有更大的作用,因此当问句中的每个词被表示为词向量之后,将训练语料中问句关键词的词向量在其左右分别重复一次,此时关键词在句子中所占权重就会增大,这样可以进一步提高模型的分类性能。
3、本发明基于浅层模型与深度模型结合的问句文本分类模型,结合了深度模型与传统机器学***衡与平衡的情况下,问句分类的准确率均取得了提升,尤其在训练数据不平衡时,相比其它模型性能有较大提升。
综上,这种基于浅层模型与深度模型结合的问句文本分类方法通过由卷积神经网络和循环神经网络组合而成深度模型,对问句的句法语义特征做更好地学***衡的情况下,克服了单一深度模型的不足。最终统一模型有效地提升了问题分类的准确率。
附图说明
图1为本发明的问句分类模型结构图;
图2为本发明中深度模型部分结构图;
图3为本发明中不同卷积网络输出处理的问句分类准确率对比图;
图4为不同神经网络模型随着训练迭代次数增加的性能变化对比图。
具体实施方式
实施例1:如图1-4所示,基于浅层模型与深度模型结合的问句文本分类方法,所述方法的具体步骤如下:
Step1、爬取经济金融、法律法规、体育运动、医疗卫生、电子数码5个类别的问句语料,其次对语料文本进行预处理;
进一步的,所述步骤Step1的具体步骤如下:
Step1.1、首先人工编写爬虫程序,在百度知道上爬取经济金融、法律法规、体育运动、医疗卫生、电子数码5个类别的问句语料;
Step1.2、把已爬取的语料,经过过滤、去重得到不重复的问句语料,并把其存放到数据库中;
本发明通过爬虫程序在百度知道上爬取了经济金融、法律法规、体育运动、医疗卫生、电子数码5个类别的问题各5000条语料,作为第一个预备语料集合,即平衡语料库。另外将医疗卫生和电子数码各去掉3000条语料,保留2000条语料,其它三个种类语料数不变,作为第二个预备语料集,即不平衡语料库。每个语料结合取其中的十分之一作为测试集,剩余的作为训练集。考虑到爬取的问句语料可能存在重复,这些语料增加了工作量,而没有太大意义,所以在预备语料基础上经过过滤、去重,得到不重复的问句文本语料。存放在数据库是为了能方便数据的管理和使用。
Step1.3、对数据库中的问句语料进行分词、去停用词预处理。
本发明考虑到直接将文本切分为多个字符组成的字符串形式,会造成原文本中字、词之间语言学信息的丢失。所以对问句语料进行预处理工作,其中包括用jieba工具进行中文分词、去停用词等,方便后续工作的进行。
Step2、利用开方检验CHI的方法提取问句语料中问句文本的特征词集合,将每个特征词转化为词向量的形式,并使用特征词对应的归一化词向量值作为其权重值,由此得到浅层线性模型的一部分输入Input1;
进一步的,所述步骤Step2的具体步骤如下:
Step2.1、采用开方检验CHI的方法提取问句文本的特征词集合;
本发明在多元线性结构部分的特征选取方面,使用词作为其基本特征项,不使用句法语法特征,采用效果较好并且比较常用的特征选择方法开方检验来提取问句文本的特征词,并以特征词集合来表示问句文本。
Step2.2、将Step2.1中的每个特征词转化为词向量的形式,采用分布式(distributed representation)的词向量表示方法;
文本向量化过程中,本发明考虑到传统one-hot表示方法的局限,选择distributed representation,这种词向量的表示方法不仅解决了one-hot维度稀疏的问题,而且相似词的词向量表示之间距离靠近,带有了一定的语义信息。这样将词向量表示的文本作为模型的输入对模型性能的提升很有帮助。本发明利用gensim的word2vec模块进行词向量训练。
Step2.3、采用特征词对应的归一化词向量值作为其权重值,最终得到问句文本的非句法特征表示,作为浅层模型的一部分输入Input1。
为不同的特征词赋予不同权值,本发明采用最简单有效的归一化词向量值作为特征词向量权重值,问句文本的非句法特征表示即特征词向量表示作为浅层线性模型的一部分输入。
Step3、增加问句关键词词向量权重,然后将词向量矩阵组成的问句文本向量输入到深度模型的第一部分卷积网络中;其中使用多种不同窗口大小的卷积核分别对问句文本进行卷积操作,抽取出句子的局部短语特征,将拥有相同长度卷积窗口的不同卷积核提取的特征向量进行重新排列;
进一步的,所述步骤Step3的具体步骤如下:
Step3.1、使用python中的jieba工具包提供的基于tf-idf的方法抽取问句关键字,当问句中每个词被表示为词向量之后,将问句关键词的词向量在其左右分别重复一次,此时关键词在句子中所占权重就会增大,由此得到一个词向量矩阵;
在深度模型的输入部分,因为问句中的一些词对判断句子的类别往往具有更大作用,比如在问句“篮球运动是什么时候发明的?”中,名词‘篮球’对于判别问句类型为体育类起到了关键作用。因此当问句中的每个词被表示为词向量之后,将训练语料中问句关键词的词向量在其左右分别重复一次,原句子就变成了“篮球篮球篮球运动是什么时候发明的?”此时关键词在问句中所占权重就会增大。为了验证增加问句中关键词权重可以进一步增加模型的分类性能,关键词对问句分类的结果起到了关键的作用,做了一组对比实验,如表1所示:
表1
不增加关键词权重 | 增加关键词权重 | |
准确率 | 0.9219 | 0.9226 |
Step3.2、将Step3.1中得到的用词向量矩阵表示的问句文本向量输入到深度模型的第一部分卷积网络中,其中矩阵的行数为句子中词的个数,列数为词向量的维度;这里使用2,3,4三种不同长度卷积窗口的卷积核各两个对问句进行从前到后的卷积操作,提取出句子中不同位置的局部特征,由此得到若干组特征向量;
如图2所示,为了更好地学习得到问句文本的句法语义特征,在卷积网络部分使用2,3,4三种不同长度卷积窗口的卷积核各两个对问题文本进行卷积操作。卷积窗口长度指每次卷积操作覆盖句子中词数量的多少。将卷积核在句子上进行滑动,提取出句子中不同位置的局部特征,由此得到一组特征向量。
Step3.3、将拥有相同卷积窗口大小的不同卷积核提取的特征向量按时间序列位置信息进行重新排列组合,使得不同卷积核在句子同一位置卷积得到的特征向量拼接在一起。
为了验证本发明对卷积网络输出处理以及选择不同卷积窗口的有效性,比较了另外一种处理卷积网络输出并输入循环神经网络的策略和不同卷积窗口大小选择策略的分类效果差异。作比较第二种链接方法如下所述,对卷积重排后的特征,按照最大长度卷积窗口卷积重排得到的特征长度为准,切去另外两种长度卷积窗口卷积重排后得到的特征与之相比较超出的部分,将句子中同一位置的特征链接在一起,输入到一个LSTM循环网络中去。将这种结构记作M2:cl2,3,4。本发明浅层深度结合模型中深度部分采用的链接策略记为M1:cl2,3,4,另外还对单个不同长度窗口的模型进行了对比,分别记作S:cl2,S:cl3,S:cl4,表示窗口大小为2,3,4。在语料库1中进行实验,结果如图3所示。明显看出本发明的M1:cl2,3,4策略效果最好,而M2:cl2,3,4的分类效果相比单一窗口长度的模型和M1:cl2,3,4,其分类准确率出现了下降,其原因可能是切除掉的特征对最终的特征序列造成了影响,致使LSTM没能捕捉到高质量的序列信息。另外在单窗口长度中,窗口长度为3时,分类准确率最高。
Step4、将Step3中生成的特征向量分别输入到对应的循环神经网络之中;循环神经网络通过其链式结构能够捕捉到句子的历史信息,学习到序列数据的长期依赖特征,其最后一个时间步的输出包含了整个句子的特征信息,将多个循环神经网络的输出链接到一起作为问句的最终特征,由此得到浅层线性模型的另一部分输入Input2;
进一步的,所述步骤Step4的具体步骤如下:
Step4.1、将Step3.3中三种不同长度卷积窗口得到的重新排列的特征分别按照句子顺序输入到对应的三个循环神经网络之中;这里使用LSTM循环神经网络,用于更好捕捉到句子较早的历史信息,学习到序列数据的长期依赖特征,其最后一个时间步的输出包含了整个问句的特征信息;
本发明考虑到能够更好学习句子的句法语义特征,在深度模型的第二部分循环神经网络选择长短期记忆(LSTM)网络,因为基本的循环神经网络模型在句子较长时会丢失句子中靠前部分的信息,为了克服上述缺点,人们发明了LSTM循环神经网络模型,它相对传统神经网络可以更好的记忆较早的历史信息。
Step4.2、将Step4.1中三个循环神经网络的输出链接到一起作为问句的最终特征表示,由此得到浅层线性模型的另一部分输入Input2。
将三个LSTM的输出拼接到一起,形成问句最终的特征向量,即V=[v2,v3,v4],其中v2,v3,v4分别表示卷积窗口长度分别为2,3,4。多窗口卷积循环网络组合深度模型如图2所示。
Step5、将Step2中得到的Input1和Step4中深度模型的最终输出Input2拼接构成浅层模型的输入,浅层模型部分使用多元线性回归结构,最终得到问句的分类结果。
进一步的,所述步骤Step5的具体步骤如下:
Step5.1、将Step2.3中得到的Input1和Step4.2的最终输出Input2拼接构成浅层模型的输入,这里浅层模型使用多元线性回归结构,即一个全连接的最后一层加有softmax函数的普通神经网络;
Step5.2、将Step5.1得到的输入层内容经过一层隐藏层,再将隐藏层的输出输入到sotfmax函数中得到最终的问句分类结果。
进一步的,所述深度模型部分由卷积网络层和循环神经网络层组成;卷积层中第k个卷积窗口长度为h的卷积核卷积得到的文本特征表示为wkh=[cki,…,ck(l-h+1)],其中cki表示第k个卷积核在问句文本中第i个位置的卷积特征;cki=Relu(oki+b),oki表示卷积计算得到的值;oki=[xi,xi+1,…,xi+h-1]*fkh,其中xi代表句子中第i个词的词向量,h代表卷积核窗口长度,[xi,xi+1,…,xi+h-1]代表了句子中从第i个词到第i-h+1个词,共h个词组成的词向量矩阵;fkh表示第k个卷积窗口长度为h的卷积核,*代表两个矩阵中对应元素相乘求和操作;将卷积层得到的特征向量重新排列组合然后分别输入三个不同的LSTM循环神经网络层,形成最终特征向量表示为V=[v2,v3,v4],其中v2,v3,v4分别表示卷积窗口长度2,3,4;整个模型的输入层由浅层部分的特征词向量与深度模型的输出V拼接构成,形成一个m维的向量表示,X=[wf1…wfn,V]。
进一步的,所述浅层模型最终分类方法为softmax函数。
为了比较浅层深度结合模型与传统机器学***衡语料库1与不平衡语料库2的准确率进行对比,结果如表2、表3所示。
表2
表3
由表2可以明显看出,WD模型在语料平衡的语料库中准确率相比其它传统机器学***衡语料中虽然准确率有所下降,但下降幅度相比其它模型来说较低。
由表3可以看出,深度模型的整体表现仍优于传统模型,但深度模型在不均衡语料库中准确率下降幅度相对较大,其原因在于面对某一类特征语料较少的情况下,深度模型过强的学习能力会加大有效分类特征的学习难度。
为了进一步比较一般深度模型与本发明浅层深度结合模型,图4展示了在不平衡语料库2中,随着训练迭代次数的增加,各自分类准确率的变化。从图中可以看出,随着模型训练迭代次数的增加,4种模型的问句分类准确度都在稳步增加,迭代次数在200次左右的时候准确率基本不再变化。浅层深度结合模型在最终的分类性能上优于其它三种模型。从图中还可以看出在短文本上卷积网络略优于循环神经网络。
本发明中,基于浅层模型与深度模型结合的问句文本分类模型由浅层模型部分与深度模型部分组成,整体结构如图1所示。
输入层
输入层由浅层部分的特征词向量与深度模型的输出V拼接构成,形成一个m维的向量表示,记作X=[wf1…wfn,V]。
Softmax层
Softmax层相当于拥有一层隐藏层的全连接的普通神经网络。将输入层的内容经过一层隐藏层,再将隐藏层的输出输入到sotfmax函数中得到最终的分类结果。隐藏层为k个普通神经元,输入层与隐藏层的神经元是全连接的。其计算公式:O=X*W,其中W为m行k列的矩阵,矩阵初始元素随机生产非零值,随后在训练中不断跟新。O为拥有k个值的一维向量。每个值代表第k类的输出值,再将其传入softmax函数。softmax函数的公式:Ok表示神经网络第k类的输出值,sk代表文本属于k类别的概率值。
为了对整个模型进行训练,需要定义一个合适的损失函数,使用Adam(<ComputerScience>,2014)优化方法最小化或者最大化损失函数来训练整个模型。对于分类问题,一般采用交叉熵(cross-entropy)作为其损失函数。其公式为:Hy′(y)=-∑iyi′logyi,其中yi′为是真实的概率分布(即训练语料的类别标签),yi为模型预测的概率分布。這里通过最小化Hy′(y)的值来训练整个模型。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (8)
1.基于浅层模型与深度模型结合的问句文本分类方法,其特征在于:所述方法的具体步骤如下:
Step1、爬取经济金融、法律法规、体育运动、医疗卫生、电子数码5个类别的问句语料,其次对语料文本进行预处理;
Step2、利用开方检验CHI的方法提取问句语料中问句文本的特征词集合,将每个特征词转化为词向量的形式,并使用特征词对应的归一化词向量值作为其权重值,由此得到浅层线性模型的一部分输入Input1;
Step3、增加问句关键词词向量权重,然后将词向量矩阵组成的问句文本向量输入到深度模型的第一部分卷积网络中;其中使用多种不同窗口大小的卷积核分别对问句文本进行卷积操作,抽取出句子的局部短语特征,将拥有相同长度卷积窗口的不同卷积核提取的特征向量进行重新排列;
Step4、将Step3中生成的特征向量分别输入到对应的循环神经网络之中;循环神经网络通过其链式结构能够捕捉到句子的历史信息,学习到序列数据的长期依赖特征,其最后一个时间步的输出包含了整个句子的特征信息,将多个循环神经网络的输出链接到一起作为问句的最终特征,由此得到浅层线性模型的另一部分输入Input2;
Step5、将Step2中得到的Input1和Step4中深度模型的最终输出Input2拼接构成浅层模型的输入,浅层模型部分使用多元线性回归结构,最终得到问句的分类结果。
2.根据权利要求1所述的基于浅层模型与深度模型结合的问句文本分类方法,其特征在于:所述步骤Step1的具体步骤如下:
Step1.1、首先人工编写爬虫程序,在百度知道上爬取经济金融、法律法规、体育运动、医疗卫生、电子数码5个类别的问句语料;
Step1.2、把已爬取的语料,经过过滤、去重得到不重复的问句语料,并把其存放到数据库中;
Step1.3、对数据库中的问句语料进行分词、去停用词预处理。
3.根据权利要求1所述的基于浅层模型与深度模型结合的问句文本分类方法,其特征在于:所述步骤Step2的具体步骤如下:
Step2.1、采用开方检验CHI的方法提取问句文本的特征词集合;
Step2.2、将Step2.1中的每个特征词转化为词向量的形式,采用分布式的词向量表示方法;
Step2.3、采用特征词对应的归一化词向量值作为其权重值,最终得到问句文本的非句法特征表示,作为浅层模型的一部分输入Input1。
4.根据权利要求1所述的基于浅层模型与深度模型结合的问句文本分类方法,其特征在于:所述步骤Step3的具体步骤如下:
Step3.1、使用python中的jieba工具包提供的基于tf-idf的方法抽取问句关键字,当问句中每个词被表示为词向量之后,将问句关键词的词向量在其左右分别重复一次,此时关键词在句子中所占权重就会增大,由此得到一个词向量矩阵;
Step3.2、将Step3.1中得到的用词向量矩阵表示的问句文本向量输入到深度模型的第一部分卷积网络中,其中矩阵的行数为句子中词的个数,列数为词向量的维度;这里使用2,3,4三种不同长度卷积窗口的卷积核各两个对问句进行从前到后的卷积操作,提取出句子中不同位置的局部特征,由此得到若干组特征向量;
Step3.3、将拥有相同卷积窗口大小的不同卷积核提取的特征向量按时间序列位置信息进行重新排列组合,使得不同卷积核在句子同一位置卷积得到的特征向量拼接在一起。
5.根据权利要求1所述的基于浅层模型与深度模型结合的问句文本分类方法,其特征在于:所述步骤Step4的具体步骤如下:
Step4.1、将Step3.3中三种不同长度卷积窗口得到的重新排列的特征分别按照句子顺序输入到对应的三个循环神经网络之中;这里使用LSTM循环神经网络,用于更好捕捉到句子较早的历史信息,学习到序列数据的长期依赖特征,其最后一个时间步的输出包含了整个问句的特征信息;
Step4.2、将Step4.1中三个循环神经网络的输出链接到一起作为问句的最终特征表示,由此得到浅层线性模型的另一部分输入Input2。
6.根据权利要求1所述的基于浅层模型与深度模型结合的问句文本分类方法,其特征在于:所述步骤Step5的具体步骤如下:
Step5.1、将Step2.3中得到的Input1和Step4.2的最终输出Input2拼接构成浅层模型的输入,这里浅层模型使用多元线性回归结构,即一个全连接的最后一层加有softmax函数的普通神经网络;
Step5.2、将Step5.1得到的输入层内容经过一层隐藏层,再将隐藏层的输出输入到sotfmax函数中得到最终的问句分类结果。
7.根据权利要求1所述的基于浅层模型与深度模型结合的问句文本分类方法,其特征在于:所述深度模型部分由卷积网络层和循环神经网络层组成;卷积层中第k个卷积窗口长度为h的卷积核卷积得到的文本特征表示为wkh=[cki,…,ck(l-h+1)],其中cki表示第k个卷积核在问句文本中第i个位置的卷积特征;cki=Relu(oki+b),oki表示卷积计算得到的值;oki=[xi,xi+1,…,xi+h-1]*fkh,其中xi代表句子中第i个词的词向量,h代表卷积核窗口长度,[xi,xi+1,…,xi+h-1]代表了句子中从第i个词到第i-h+1个词,共h个词组成的词向量矩阵;fkh表示第k个卷积窗口长度为h的卷积核,*代表两个矩阵中对应元素相乘求和操作;将卷积层得到的特征向量重新排列组合然后分别输入三个不同的LSTM循环神经网络层,形成最终特征向量表示为V=[v2,v3,v4],其中v2,v3,v4分别表示卷积窗口长度2,3,4;整个模型的输入层由浅层部分的特征词向量与深度模型的输出V拼接构成,形成一个m维的向量表示,X=[wf1…wfn,V]。
8.根据权利要求6所述的基于浅层模型与深度模型结合的问句文本分类方法,其特征在于:所述浅层模型最终分类方法为softmax函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810357603.5A CN108595602A (zh) | 2018-04-20 | 2018-04-20 | 基于浅层模型与深度模型结合的问句文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810357603.5A CN108595602A (zh) | 2018-04-20 | 2018-04-20 | 基于浅层模型与深度模型结合的问句文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108595602A true CN108595602A (zh) | 2018-09-28 |
Family
ID=63613629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810357603.5A Pending CN108595602A (zh) | 2018-04-20 | 2018-04-20 | 基于浅层模型与深度模型结合的问句文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595602A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271493A (zh) * | 2018-11-26 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 一种语言文本处理方法、装置和存储介质 |
CN109739956A (zh) * | 2018-11-08 | 2019-05-10 | 第四范式(北京)技术有限公司 | 语料清洗方法、装置、设备及介质 |
CN109857852A (zh) * | 2019-01-24 | 2019-06-07 | 安徽商贸职业技术学院 | 一种电商在线评论训练集特征的筛选判断方法及*** |
CN109871904A (zh) * | 2019-03-11 | 2019-06-11 | 广东工业大学 | 甲骨文字识别模型及训练方法、***、设备、计算机介质 |
CN109918507A (zh) * | 2019-03-08 | 2019-06-21 | 北京工业大学 | 一种基于TextCNN改进的文本分类方法 |
CN110009027A (zh) * | 2019-03-28 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 图像的比对方法、装置、存储介质及电子装置 |
CN110046233A (zh) * | 2019-02-12 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 问题派发方法及装置 |
CN110110372A (zh) * | 2019-04-09 | 2019-08-09 | 华东师范大学 | 一种用户时序行为自动切分预测方法 |
CN110245353A (zh) * | 2019-06-20 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 自然语言表示方法、装置、设备及存储介质 |
CN110298036A (zh) * | 2019-06-06 | 2019-10-01 | 昆明理工大学 | 一种基于词性增量迭代的在线医疗文本症状识别方法 |
CN110309860A (zh) * | 2019-06-06 | 2019-10-08 | 昆明理工大学 | 基于卷积神经网络对肺结节的恶性程度进行分类的方法 |
CN110442720A (zh) * | 2019-08-09 | 2019-11-12 | 中国电子技术标准化研究院 | 一种基于lstm卷积神经网络的多标签文本分类方法 |
CN110516070A (zh) * | 2019-08-28 | 2019-11-29 | 上海海事大学 | 一种基于文本纠错与神经网络的中文问句分类方法 |
CN110991161A (zh) * | 2018-09-30 | 2020-04-10 | 北京国双科技有限公司 | 相似文本确定方法、神经网络模型获得方法及相关装置 |
CN111382244A (zh) * | 2018-12-29 | 2020-07-07 | 深圳市优必选科技有限公司 | 一种深度检索匹配分类方法、装置及终端设备 |
TWI717826B (zh) * | 2019-02-13 | 2021-02-01 | 開曼群島商創新先進技術有限公司 | 通過強化學習提取主幹詞的方法及裝置 |
CN112992356A (zh) * | 2021-03-30 | 2021-06-18 | 太原理工大学 | 一种基于卷积层特征重排和svm的心力衰竭预测方法及装置 |
CN112989052A (zh) * | 2021-04-19 | 2021-06-18 | 北京建筑大学 | 一种基于组合-卷积神经网络的中文新闻文本分类方法 |
CN113553844A (zh) * | 2021-08-11 | 2021-10-26 | 四川长虹电器股份有限公司 | 一种基于前缀树特征与卷积神经网络的领域识别方法 |
WO2024045247A1 (zh) * | 2022-08-31 | 2024-03-07 | 福建天甫电子材料有限公司 | 用于氟化铵生产的生产管理控制***及其控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320374A (zh) * | 2008-07-10 | 2008-12-10 | 昆明理工大学 | 结合句法结构关系和领域特征的领域问题分类方法 |
CN105912528A (zh) * | 2016-04-18 | 2016-08-31 | 深圳大学 | 一种问句分类方法及*** |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
CN107608999A (zh) * | 2017-07-17 | 2018-01-19 | 南京邮电大学 | 一种适用于自动问答***的问句分类方法 |
CN107832312A (zh) * | 2017-01-03 | 2018-03-23 | 北京工业大学 | 一种基于深度语义辨析的文本推荐方法 |
-
2018
- 2018-04-20 CN CN201810357603.5A patent/CN108595602A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320374A (zh) * | 2008-07-10 | 2008-12-10 | 昆明理工大学 | 结合句法结构关系和领域特征的领域问题分类方法 |
CN105912528A (zh) * | 2016-04-18 | 2016-08-31 | 深圳大学 | 一种问句分类方法及*** |
CN107832312A (zh) * | 2017-01-03 | 2018-03-23 | 北京工业大学 | 一种基于深度语义辨析的文本推荐方法 |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
CN107608999A (zh) * | 2017-07-17 | 2018-01-19 | 南京邮电大学 | 一种适用于自动问答***的问句分类方法 |
Non-Patent Citations (2)
Title |
---|
CHUHAN WU 等: ""THU NGN at NAACL-2018 Metaphor Shared Task: Neural Metaphor Detecting with CNN-LSTM Model"", 《HTTPS://WWW.RESEARCHGATE.NET》 * |
RONG ZHANG 等: ""Deep and Shallow Model for Insurance Churn Prediction Service"", 《2017 IEEE 14TH INTERNATIONAL CONFERENCE ON SERVICES COMPUTING》 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991161A (zh) * | 2018-09-30 | 2020-04-10 | 北京国双科技有限公司 | 相似文本确定方法、神经网络模型获得方法及相关装置 |
CN110991161B (zh) * | 2018-09-30 | 2023-04-18 | 北京国双科技有限公司 | 相似文本确定方法、神经网络模型获得方法及相关装置 |
CN109739956A (zh) * | 2018-11-08 | 2019-05-10 | 第四范式(北京)技术有限公司 | 语料清洗方法、装置、设备及介质 |
CN109739956B (zh) * | 2018-11-08 | 2020-04-10 | 第四范式(北京)技术有限公司 | 语料清洗方法、装置、设备及介质 |
CN109271493A (zh) * | 2018-11-26 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 一种语言文本处理方法、装置和存储介质 |
CN111382244B (zh) * | 2018-12-29 | 2023-04-14 | 深圳市优必选科技有限公司 | 一种深度检索匹配分类方法、装置及终端设备 |
CN111382244A (zh) * | 2018-12-29 | 2020-07-07 | 深圳市优必选科技有限公司 | 一种深度检索匹配分类方法、装置及终端设备 |
CN109857852A (zh) * | 2019-01-24 | 2019-06-07 | 安徽商贸职业技术学院 | 一种电商在线评论训练集特征的筛选判断方法及*** |
CN109857852B (zh) * | 2019-01-24 | 2021-02-23 | 安徽商贸职业技术学院 | 一种电商在线评论训练集特征的筛选判断方法及*** |
CN110046233A (zh) * | 2019-02-12 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 问题派发方法及装置 |
TWI717826B (zh) * | 2019-02-13 | 2021-02-01 | 開曼群島商創新先進技術有限公司 | 通過強化學習提取主幹詞的方法及裝置 |
CN109918507A (zh) * | 2019-03-08 | 2019-06-21 | 北京工业大学 | 一种基于TextCNN改进的文本分类方法 |
CN109871904A (zh) * | 2019-03-11 | 2019-06-11 | 广东工业大学 | 甲骨文字识别模型及训练方法、***、设备、计算机介质 |
CN110009027A (zh) * | 2019-03-28 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 图像的比对方法、装置、存储介质及电子装置 |
CN110110372A (zh) * | 2019-04-09 | 2019-08-09 | 华东师范大学 | 一种用户时序行为自动切分预测方法 |
CN110110372B (zh) * | 2019-04-09 | 2023-04-18 | 华东师范大学 | 一种用户时序行为自动切分预测方法 |
CN110298036B (zh) * | 2019-06-06 | 2022-07-22 | 昆明理工大学 | 一种基于词性增量迭代的在线医疗文本症状识别方法 |
CN110309860A (zh) * | 2019-06-06 | 2019-10-08 | 昆明理工大学 | 基于卷积神经网络对肺结节的恶性程度进行分类的方法 |
CN110298036A (zh) * | 2019-06-06 | 2019-10-01 | 昆明理工大学 | 一种基于词性增量迭代的在线医疗文本症状识别方法 |
CN110245353A (zh) * | 2019-06-20 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 自然语言表示方法、装置、设备及存储介质 |
CN110245353B (zh) * | 2019-06-20 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 自然语言表示方法、装置、设备及存储介质 |
CN110442720A (zh) * | 2019-08-09 | 2019-11-12 | 中国电子技术标准化研究院 | 一种基于lstm卷积神经网络的多标签文本分类方法 |
CN110516070A (zh) * | 2019-08-28 | 2019-11-29 | 上海海事大学 | 一种基于文本纠错与神经网络的中文问句分类方法 |
CN112992356A (zh) * | 2021-03-30 | 2021-06-18 | 太原理工大学 | 一种基于卷积层特征重排和svm的心力衰竭预测方法及装置 |
CN112992356B (zh) * | 2021-03-30 | 2022-04-26 | 太原理工大学 | 基于卷积层特征重排和svm的心力衰竭预测方法及装置 |
CN112989052B (zh) * | 2021-04-19 | 2022-03-08 | 北京建筑大学 | 一种基于组合-卷积神经网络的中文新闻长文本分类方法 |
CN112989052A (zh) * | 2021-04-19 | 2021-06-18 | 北京建筑大学 | 一种基于组合-卷积神经网络的中文新闻文本分类方法 |
CN113553844A (zh) * | 2021-08-11 | 2021-10-26 | 四川长虹电器股份有限公司 | 一种基于前缀树特征与卷积神经网络的领域识别方法 |
CN113553844B (zh) * | 2021-08-11 | 2023-07-25 | 四川长虹电器股份有限公司 | 一种基于前缀树特征与卷积神经网络的领域识别方法 |
WO2024045247A1 (zh) * | 2022-08-31 | 2024-03-07 | 福建天甫电子材料有限公司 | 用于氟化铵生产的生产管理控制***及其控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595602A (zh) | 基于浅层模型与深度模型结合的问句文本分类方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
Rajayogi et al. | Indian food image classification with transfer learning | |
CN107169035B (zh) | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 | |
CN106503055B (zh) | 一种从结构化文本到图像描述的生成方法 | |
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN105975573B (zh) | 一种基于knn的文本分类方法 | |
CN108829818A (zh) | 一种文本分类方法 | |
CN110442684A (zh) | 一种基于文本内容的类案推荐方法 | |
CN108334605A (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN107239529A (zh) | 一种基于深度学习的舆情热点类别划分方法 | |
CN107516110A (zh) | 一种基于集成卷积编码的医疗问答语义聚类方法 | |
CN110502753A (zh) | 一种基于语义增强的深度学习情感分析模型及其分析方法 | |
CN109670177A (zh) | 一种基于lstm实现医学语义归一化的控制方法及控制装置 | |
CN107291822A (zh) | 基于深度学习的问题分类模型训练方法、分类方法及装置 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及*** | |
CN108804677A (zh) | 结合多层级注意力机制的深度学习问题分类方法及*** | |
CN109635108A (zh) | 一种基于人机交互的远程监督实体关系抽取方法 | |
CN108121702A (zh) | 数学主观题评阅方法及*** | |
CN107895000A (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN109101584A (zh) | 一种将深度学习与数学分析相结合的句子分类改进方法 | |
CN108052504A (zh) | 数学主观题解答结果的结构分析方法及*** | |
CN110413791A (zh) | 基于cnn-svm-knn组合模型的文本分类方法 | |
CN110298036A (zh) | 一种基于词性增量迭代的在线医疗文本症状识别方法 | |
CN110188195A (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180928 |