CN107066553B - 一种基于卷积神经网络与随机森林的短文本分类方法 - Google Patents

一种基于卷积神经网络与随机森林的短文本分类方法 Download PDF

Info

Publication number
CN107066553B
CN107066553B CN201710181062.0A CN201710181062A CN107066553B CN 107066553 B CN107066553 B CN 107066553B CN 201710181062 A CN201710181062 A CN 201710181062A CN 107066553 B CN107066553 B CN 107066553B
Authority
CN
China
Prior art keywords
training
random forest
feature
cnn
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710181062.0A
Other languages
English (en)
Other versions
CN107066553A (zh
Inventor
刘泽锦
王洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710181062.0A priority Critical patent/CN107066553B/zh
Publication of CN107066553A publication Critical patent/CN107066553A/zh
Application granted granted Critical
Publication of CN107066553B publication Critical patent/CN107066553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于卷积神经网络与随机森林的短文本分类方法,属于文本分类与深度学习领域。针对采用Softmax作为卷积神经网络分类器导致泛化能力不足的问题,提出了一种结合卷积神经网络与随机森林的短文本分类算法(CNN‑RF)。本方法首先提出一种双重词向量卷积神经网络用来充分提取短文本高阶特征,然后采用随机森林作为高阶特征分类器,从而提高短文本分类效果。在三个公开实验数据集上的结果表明,与其他算法相比CNN‑RF在多个评价指标上均有明显优势。

Description

一种基于卷积神经网络与随机森林的短文本分类方法
技术领域
本发明属于文本分类与深度学习领域,涉及一种基于积神经网络与随机森林的短文本分类方法,可用于针对微博,短信息,用户Query等海量短文本数据的分类或者情感分类等任务。且能够为搜索引擎、信息检索等***服务使用。
背景技术
随着近年来互联网的飞速发展,各种信息交互平台会产生大量的短文本(ShortText),这些短文本涉及到人们生活的各个领域,逐渐成为人们使用频繁且公认的沟通方式。比如电子商务评论、网页信息检索、智能问答***等均是海量短文本的产生源。如何从海量短文本中挖掘有效信息,是近年来诸多学者广泛研究的课题。文本分类是一种文本挖掘的有效方法,但由于短文本长度短、词项特征稀疏等特点,致使传统的长文本分类方法变得不再适用。短文本分类技术(Short Text Classification)在一定程度上可以解决上述短文本应用中面临的挑战,该技术是近年来国内外众多学者的研究热点之一,也是自然语言处理(NLP)领域中一项至关重要的任务。现如今,文本分类方法主要是基于统计学习方法或者机器学习的方法,采用统计或机器学习的方法在经过人工标注的语料库上进行训练得到分类器,随后对待分类数据集进行分类。其中比较主流的机器学习方法有朴素贝叶斯(Naive Bayes,NB)、支持向量机(Support Vector Machine,SVM)、逻辑回归(LogisticRegression,LR)多类逻辑回归(Softmax Regression,SR)、随机森林(Random Forest,RF)、深度神经网络(Deep Neural Network,DNN)等。在文本分类领域中取得较成功的长文本分类方法难以直接应用到短文本分类中,因此,针对短文本的分类算法已经成为目前研究者亟待解决的一个研究难题,短文本分类面临的挑战主要为:
1)短文本关键词特征稀疏,与一般词项丰富的长文本相比,短文本往往仅有几个有效关键字,且使用向量空间模型表示文本时,难以充分挖掘特征之间的关联性;
2)在开放领域(比如微博,搜索引擎)中,信息更新快,单篇短文本信息量小,但总体文本信息量极大,信息之间的交叉部分少;
3)新词、新用语、口语化的大量出现,这些词语对于己有分类***来说通常是很难难处理的。
国内外学者已经针对短文本分类问题进行了一些有意义的研究与探索,第一类是基于短文本特征扩展的方法:Bouaziz等人利用潜在狄利克雷分配(Latent DirichletAllocation,LDA)模型学习***数据上的主题及词语在主题上的分布,然后用同主题下的高频词语来扩展短文本,再使用随机语义森林对扩展词语进行特征选择,然后进行分类;还有一些学者通过关联规则挖掘(FP-Growth)得到词语共现模式集合,将其作为文本特征扩展的依据,而词语关系置信度作为持征扩展时的权重来完成短文本的特征扩展与分类;XH Phan等人通过抓取互联网海量数据来构建全局语料库,之后使用LDA主题模型的方法得到全局语料库的主题模型,最后使用全局的LDA主题模型对待分类的短文本语料库进行主题推断(Model Estimation),得到待分类短文本的主题分布,使用该主题分布对短文本进行特征扩展,最后进行分类。第一类方法在做短文本扩展特征时会不可避免的引入噪音,造成分类效果差。
第二类是基于深度学习的方法:Socher等人采用递归神经网络模型(RecursiveNeural Network,RNN),用于句子级别的情感分析任务,在SST等多个数据集的分类任务中均取得了一定的效果提升;Kalchbrenner等人[8]利用卷积神经网络(ConvolutionalNeural Network,CNN)来处理语句级别的短文本分类任务,并提出动态卷积网络模型(Dynimic Convolutional Neural Network,DCNN),该模型在多个数据集上都取得很好的效果,进一步验证了卷积神经网络在短文本分类研究中的潜力。基于神经网络方法的输入通常采用随机初始化或者使用预训练词向量。通常词向量的训练方式多种多样,语料、模型、预处理不同会产生不同含义的词向量,不同的词向量从不同的方面(角度)来刻画词语语义。由于短文本特征稀疏,为了充分提取特征,可以考虑利用结合多种词向量来充分提取特征,提高卷积神经网络的特征提取能力;此外Softmax做为卷积网络分类器时,一般采用BP算法进行训练,该过程只考虑极小化训练误差,由于局部极小值以及梯度消失、过拟合等现象的存在难以使神经网络达到最佳的泛化能力。随机森林是一种基于BoostrapAggregation(Bagging)的集成学习方法,通过组合多棵决策树使得模型对异常值和噪声具有很强的容忍性与鲁棒性,能克服单个决策树泛化能力不足的问题。随机森林有许多优点,比如:
1)需要较少的参数调整,训练速度快;
2)训练过程中基本不会产生过拟合问题;
3)对噪音扰动的鲁棒性高。
发明内容
本发明的目的在于提出了一种结合双重词向量卷积神经网络与随机森林的短文本分类算法(CNN-RF),双重词向量卷积神经网络使用两种预训练词向量作为输入,可充分提取短文本特征,克服短文本特征稀疏的不足;之后采用随机森林进行分类,增强模型的泛化能力。CNN-RF模型的训练分为两个阶段:1)预训练阶段:使用Softmax作为分类器的双重词向量卷积网络训练,保存模型参数;2)分类器训练阶段:保持预训练阶段模型参数不变,将全连接层接入随机森林,使用高阶特征训练随机森林,保存参数。实验过程中发现,仅需要很少的epoch来进行预训练,便能使分类器训练阶段的模型收敛,且能达到较好的分类效果。
为实现上述目的,本发明采用的计数方案为一种基于卷积神经网络与随机森林的短文本分类方法,该方法包括以下步骤:
步骤1:对待分类语料库中所有中文文本进行分词,分别使用word2vec和glove词向量训练工具得到语料库的两组词向量,将文本表示为两个维度相等的矩阵;分别对两个矩阵进行二维卷积操作,得到两个卷基层特征图。
步骤2:卷积操作之后,分别对两个卷基层特征图进行池化操作,得到两个池化层特征矩阵;对该池化层特征矩阵进行非线性sigmod变换,得到两个池化层特征图。
步骤3:对步骤2的得到的两个池化层特征图进行卷积操作,得到最终的单个全连接层特征图。
步骤4:将步骤3得到的全连接特征图作为随机森林层的输入数据集,对该集合进行Boostrap采样,Bootstrap采样是一种统计学上的抽样方法,对于有m个样本的数据集D,进行m次有放回采样得到新数据集D′,明显D与D′大小相同,而且放回采样使得D′中有重复出现的样本,也有样本没有出现。
步骤5:对多个Boostrap样本集分别使用Gini系数法建立分类与回归树CART,Gini系数用于特征选择,用该特征将特征空间进行划分,划分之后从特征集合中去除此特征,对左右子树分别递归执行特征选取与特征划分操作直到满足停止条件。此外为防止决策树过拟合现象的发生,本方法采用预剪枝操作。将多个决策树组合起来,共同为样本的类别进行决策,通常采用投票法。
与现有技术相比,本发明具有如下的有益效果。
采用随机森林(Random Forest)来取代卷积神经网络的全连接Softmax层,增强了整体分类方法得鲁棒性,减小了模型的过拟合,增强了模型泛化能力;采用双重词向量卷积神经网络,可以提取更为丰富的特征;不依赖于复杂的句法分析树,只需要通过卷积与最大值池化(Max Pooling Over Time)进行特征提取,将得到的高层抽象结构特征送入随机森林层进行分类,从偏差-方差(bias-variance)角度来看,集成多个模型会降低分类模型的方差,提高模型的稳定性。本方法也无需复杂的特征扩展过程,特征扩展算法通常会引入噪音,且费时费力,该方法充分利用短文本自身信息,较之于传统的单通道词向量输入卷积网络,充分的缓解了短文本数据的稀疏性,可以充分提取特征。max-pooling-over-time操作也解决了可变长度的短文本输入问题,可见基于双重预训练词向量卷积网络也可有效的提高短文本分类的准确度。实验过程中发现,仅需要很少的epoch来进行预训练,便能使本方法达到很好的效果。
附图说明
图1为预训练词向量生成模型,skip-gram模型示意图
图2为卷积神经网络与随机森林相结合的分类模型
图3为在三个数据集上分别与NB CART RF CNN在精确率(ACC)上的对比
图4为在Fudan数据集上分别与NB CART RF CNN在准确率(Pr)、召回率(Re)、F1值得对比
图5为在MR数据集上分别与NB CART RF CNN在准确率(Pr)、召回率(Re)、F1值得对比
图6为在Weibo数据集上分别与NB CART RF CNN在准确率(Pr)、召回率(Re)、F1值得对比
图7.1RF算法在Fudan数据集上随着决策树的变化三个评价指标的变化
图7.2本方法在Fudan数据集上随着决策树的变化三个评价指标的变化
具体实施方式
为了使本发明的目的、技术方案和特点更加清楚明白,以下结合具体实施例子,并参照附图,对本发明进行进一步的细化说明。
本发明采用随机森林(Random Forest)来取代卷积神经网络的全连接Softmax层,增强了整体分类方法得鲁棒性,防止模型过拟合,增强了模型泛华能力;进一步采用双重词向量卷积神经网络,适用于提取更丰富的高阶特征。本发明具体的的改进可以归纳为以下几个方面:1)使用两组预训练词向量代替随机初始化的词向量,该方法相对于以往方法或者词袋模型,会减小特征维度,提取充分特征;2)随机初始化词向量还需对词向量矩阵进行参数更新,本方法则无需这种操作,提高了模型的效率;3)无需特征扩展,或者引入句法分析树等复杂操作,避免为模型后续的特征提取与分类引入噪音;4)首先类似于传统的神经网络,使用卷积-池化-softmax层来提取特征,经过一定的epoch之后,全连接层的输出特征变为高阶结构特征;5)使用随机森林代替softmax来做分类,随机森林可以有效提高模型的泛化能力,防止模型的过拟合,增强分类效果。实验证明,本发明所提出的方法在三个公开实验数据集(Fudan,Weibo,MR)上的结果表明,与其他方法相比CNN-RF在多个评价指标上均有明显优势。
图1为本发明采用的word2vec词向量模型中的skip-gram,图2为基于卷积神经网络与随机森林的短文本分类方法采用的结构,对两组预训练词向量,首先将语料库中的短文本分别构造为两个词向量矩阵,进行2维卷积运算与max-pooling-over-time运算,然后使用卷积操作结合两个通道的特征,进行预训练,最后使用随机森林构建分类模型,具体的实施过程分为以预训练阶段与分类器训练阶段:
一:预训练阶段
步骤1:得到两组词向量后,对于语料库D,用x表示一篇文本,则
Figure GDA0002607411940000041
代表文本中第i个词语的词向量,一个长度为n的句子表示成如下形式:
Figure GDA0002607411940000042
这里
Figure GDA0002607411940000043
变为向量拼接操作,n为训练语料中最长的句子的长度。对于长度不足n的文本则用特殊符号<PAD>进行补齐,使用(-0.25,0.25)之间的均匀分布生成的向量表示<PAD>。假设词向量长度为k,则现在每篇文本x均以表示为两个
Figure GDA0002607411940000044
的单通道(Channel)二维矩阵,即为两个输入层。
步骤2:分别对两个输入层进行卷积操作,使用
Figure GDA0002607411940000045
的过滤器作用于词向量序列xi:i+h-1={xi,xi+1,…,xi+h-1}上:
Ci=f(W·xi:i+h-1+b)
其中h即为过滤器在词语窗口上的尺寸,
Figure GDA0002607411940000046
为一个偏置项,f为非线性激活函数。过滤器W会作用于整个词向量序列{x1:h,x2:h+1,…,xn-h+1:n}上,来产生卷积层特征图
Figure GDA0002607411940000047
Cconv=[Cconv,1,Cconv,2,…,Cconv,n-h+1]
为充分提取特征,训练过程中设置不同跨度的过滤器m个,用{W1,W2,…Wm}表示,每种过滤器分别设置
Figure GDA00026074119400000411
个,通常令
Figure GDA00026074119400000412
即会产生m×s个特征图,之后便使用最大值池化(Max-pooling-over-time)操作作用于单个特征图Cconv之上,来得到特征图中最重要的特征
Figure GDA0002607411940000048
Figure GDA0002607411940000049
步骤3:步骤2将会产生m×s个池化层特征,将其拼接起来便得到池化层特征
Figure GDA00026074119400000410
其中l=1,2分别代表两组词向量的池化层特征。
步骤4:对两个池化层特征进行卷积操作,得到最终的全连接层特征Cfinal,Cfinal,i代表Cfinal的分量:
Figure GDA0002607411940000051
步骤5:全连接层特征之后接入Softmax分类器,整个预训练阶段的模型使用Adam批量梯度下降(Mini-batch Gradient Descent)算法训练即可,用BP算法对各层参数调整,待收敛后记录下整个CNN的参数θ。训练时采用Dropout与L2正则防止过拟合。
二:分类器训练阶段
步骤6:读取步骤5中的参数θ,采用随机森林模型替换Softmax模型,将全连接层特征Cfinal送入随机森林进行训练。首先设置森林中决策树N的大小,进行Bootstrap抽样得到N个数据集,接下来学习N颗树中每颗树的参数θn,由于森林中各个树之间的训练过程相互没有影响,因此试验中采用并行训练的方式来加快速度。
步骤7:单个决策树训练完成后,最后以投票的方法得到CNN-RF模型的输出:
Figure GDA0002607411940000052
Ti(x)是树i对样本x的分类结果,即投票法,c*即为样本对应最终类别,N为随机森林中决策树的数目。由于随机森林的全连接层特征Cfinal通常维度不大,一般数据集种均有m×s<103,所以建立随机森林的开销非常小。
本方法结合了CNN的特征提取能力与随机森林的泛化能力,泛化能力可以从以下三个方面分析:1)从统计角度来看,由于学习任务的假设空间往往很大,可能有多个假设在训练集上达到同等水准的性能,此时若使用单一决策树可能因为误选而导致泛化能力不佳;2)从特征提取角度分析,双重词向量分别从两个角度刻画词语的含义,丰富了短文本信息,相对于单一词向量来说扩充了特征信息;3)从表示方面来看,某些学习任务的真实假设可能不在当前决策树算法所处的假设空间之内,此时若使用单一分类方法,会导致搜索不到既定的假设空间,并且随机森林采用Bootstrap抽样,可以降低机器学习模型对数据的依赖能力,降低模型的的方差,使得模型拥有更好的泛化能力。
实验设备与所需环境
Win7 32位操作***,Intel Xeon E5处理器,CPU主频3.30Ghz,内存16G。实验代码采用python,深度学习环境为tensorflow结合Scikit learn框架。
实验结果与说明
本方法分别在Fudan中文数据集、NLPIR提供的Weibo数据集和MR评论情感分类数据集上进行实验。Fudan中文数据集中包含训练语料9804篇文档,测试语料共9833篇文档,共计20个类别,本发明使用Fudan中文数据集中的新闻标题作为短文本分类语料,且只选取了其中的5个类别分别为C3-Art、C32-Agriculture、C34-Economy、C7-History、C38-Politics,共计7120篇标题文档;WeiBo数据集中共计21个类别,本发明使用除“人文艺术”、“广告公共”、“校园”之外的所有类别,共计18个类别36412篇微博文本。对于没有划分训练集与测试集的WeiBo与MR数据集在实验中进行了10折交叉验证,实验结果有较强的说服力。
预处理及参数设置
实验中,采用两组词向量,第一组由word2vec中的skip-gram训练得到,第二组由glove模型得到,训练词向量的语料均采用各数据集自身训练得到,只对于复旦数据集,采用新闻内容和新闻标题共同作为词向量的训练语料。预处理过程中对中文采用Hanlp进行分词,去除停用词操作。两组词向量的维度都设置为100,卷积神经网络中过滤器尺寸分别为2,3,4,每种过滤器均设置100个,Dropout参数设置为0.5,L2正则参数为0.001。由于预处理方式和词向量语料与方法选择的差异,导致不同作者的实验结果在相同数据集上存在一定偏差。本文为了验证CNN-RF的分类性能,需要在相同预处理机制上,自行实现多种分类模型与本文的分类方法进行分类性能的比较实验。
实验设置与评价指标
本发明分别与朴素贝叶斯(NB)、分类与回归树(CART)、随机森林(RF)和Kim提出的CNN网络四种算法进行对比。其中NB、CART、RF中用做分类的特征向量均为其文本对应的词向量相加的形式。试验采取了精确率(accuracy)、准确率(precision)、召回率(recall)、F1值(F1-measure)作为评价标准,计算如下:
1)精确率(accuracy):
Figure GDA0002607411940000061
2)准确率(precision):
Figure GDA0002607411940000062
3)召回率(recall):
Figure GDA0002607411940000063
4)F1值(F1-measure):
Figure GDA0002607411940000064
其中TP表示正样本预测为正样本数目,TN表示负样本预测为负样本数量,FN表示正样本预测为负样本的数量,FP表示负数据预测为正样本的数量,N表示样本总数。之后实验分析了随着决策树个数的增加对RF与CNN-RF方法的影响,最后对比了CNN-RF方法与CNN算法的收敛速度分析对比。
实验结果分析
首先,对五种算法在3个数据集上进行精确率对比分析。由图3可见,本发明所提出的CNN-RF方法在3个数据集上精确率均为最高的,在Fudan数据集上相对于CNN提升了1.7%,在Weibo数据集上相对于CNN提升了1.6%,在MR数据集上提升了0.8%。基于深度学习的CNN方法得到的结果仅次于CNN-RF,且好于其他三种方法,NB、CART的精确率均低于集成学习方法RF,从实验结果分析可得,集成学习方法组合多个模型泛化能力较单模型有所提升,但弱于深度学习CNN方法。CNN通过提取抽象结构特征,所以会得到较优的精确率。CNN-RF结合了两者优势,所以取得较好结果。
五种算法在Fudan中文数据集上的结果如图4所示。由实验数据可见RF算法在准确率,召回率,F1值三个指标均超过CART与NB算法,可见基于集成学习的方法的确增加了对噪音的扰动能力,增强了分类器的泛化能力。且在准确率方面,RF算法比CNN高1.0%,但是在召回率上,CNN比RF算法高出6.1%,因此综合起来,在F1值上,CNN超过RF了2.5%,并且CNN在几种方法中达到了最优的召回率92.8%,比CNN-RF算法高出0.6%。除了在召回率不足CNN之外,CNN-RF算法进一步增强了模型泛化能力,准确率较之CNN提高了4.1%,F1值提高了1.9%,CNN-RF算法在精确率与F1值上取得了最优的结果。
五种算法在MR数据集上的结果如图5所示,MR数据集为二分类情感数据集。CNN-RF在三个评价指标上均是最高的,在F1测度上比CNN高出1.2%左右,比RF高出4.4%,且不同与其他两个数据集,CNN-RF在MR数据集上准确率、召回率、F1值均超过CNN,分别超过了1.5%,1.1%与1.3%。
五种算法在Weibo数据集上的结果如图6所示,由数据可见,RF的召回率仍表现不佳,但准确率比CNN算法高7.6%,相对来说CNN算法取得了最高的召回率,分别高出RF和CNN-RF算法15.6%与9.2%,导致RF的F1值比CNN算法低5.1%。但CNN由于准确率表现不佳,所以其F1值低于CNN-RF。CNN-RF在准确率与F1值上均得到了最佳的结果,在准确率上CNN-RF比CNN高出了11%,达到了最优的F1值,分别比RF与CNN高出6%与0.9%。
综上可知,CNN-RF方法对短文本数据集长度不敏感,双重词向量卷积神经网络可以充分提取特征,且模型泛化能力均好于其他四种算法。相比之下,CART算法与NB算法的效果最差,使用RF这种集成学习方式使得泛化能力有一定提升,但由于仅仅使用初始的word2vec提取的词向量并将词向量特征相加,导致分类效果差于CNN-RF。CNN-RF方法首先利用了双重词向量CNN提取的抽象高阶特征,而且组合多颗决策树增强了模型的泛化能力,在几个数据集上综合表现要好于CNN与RF。相对于CNN,在3个数据集上F1值分别提高了1.9%,0.9%与1.3%,实验结果验证了本发明方法的有效性。
关于随机森林中决策树数目参数的影响问题,在Fudan中文数据集上做了实验,结果见图7.1与图7.2,图中决策树数目的数量分别以10为增量由10增加到200,共20次。图7.1代表了RF算法,图7.2代表本文方法。可见初始时随着决策树数目n的增加,CNN-RF与RF的三个评价指标均在上升,在RF中当决策树数目达到80后,三个评测指标的结果便趋于稳定。而在CNN-RF中,数目达到50后,三个评测指标基本趋于稳定。

Claims (2)

1.一种基于卷积神经网络与随机森林的短文本分类方法,其特征在于:该方法包括以下步骤:
步骤1:对待分类语料库中所有中文文本进行分词,分别使用word2vec和glove词向量训练工具得到语料库的两组词向量,将文本表示为两个维度相等的矩阵;分别对两个矩阵进行二维卷积操作,得到两个卷基层特征图;
步骤2:卷积操作之后,分别对两个卷基层特征图进行池化操作,得到两个池化层特征矩阵;对该池化层特征矩阵进行非线性sigmoid变换,得到两个池化层特征图;
步骤3:对步骤2得到的两个池化层特征图进行卷积操作,得到最终的单个全连接层特征图;
步骤4:将步骤3得到的全连接特征图作为随机森林层的输入数据集,对该数据集进行Boostrap采样,对于有m个样本的数据集D,进行m次有放回采样得到新数据集D′,明显D与D′大小相同,而且放回采样使得D′中有重复出现的样本,也有样本没有出现;
步骤5:对多个Boostrap样本集分别使用Gini系数法建立分类与回归树CART,Gini系数用于特征选择,用该特征将特征空间进行划分,划分之后从特征集合中去除此特征,对左右子树分别递归执行特征选取与特征划分操作直到满足停止条件;此外为防止决策树过拟合现象的发生,采用预剪枝操作;将多个决策树组合起来,共同为样本的类别进行决策,采用投票法。
2.根据权利要求1所述的一种基于卷积神经网络与随机森林的短文本分类方法,其特征在于:
该方法的具体实施过程分为以预训练阶段与分类器训练阶段:
一:预训练阶段
步骤1:得到两组词向量后,对于数据集D,用x表示一篇文本,则
Figure FDA0002607411930000011
代表文本中第i个词语的词向量,一个长度为n的句子表示成如下形式:
Figure FDA0002607411930000012
这里
Figure FDA0002607411930000013
变为向量拼接操作,n为训练语料中最长的句子的长度;对于长度不足n的文本则用特殊符号<PAD>进行补齐,使用(-0.25,0.25)之间的均匀分布生成的向量表示<PAD>;对于维度为k的词向量,每篇文本x表示为两个
Figure FDA0002607411930000014
的单通道(Channel)二维矩阵,即为两个输入层;
步骤2:分别对两个输入层进行卷积操作,使用
Figure FDA0002607411930000015
的过滤器作用于词向量序列xi:i+h-1={xi,xi+1,...,xi+h-1}上:
ci=f(W·xi:i+h-1+b)
其中h即为过滤器在词语窗口上的尺寸,
Figure FDA0002607411930000016
为一个偏置项,f为非线性激活函数;过滤器W会作用于整个词向量序列{x1:h,x2:h+1,...,xn-h+1:n}上,来产生卷积层特征图
Figure FDA0002607411930000017
Cconv=[Cconv,1,Cconv,2,...,Cconv,n-h+1]
为充分提取特征,训练过程中设置不同跨度的过滤器m个,用{W1,W2,...Wm}表示,每种过滤器分别设置
Figure FDA0002607411930000018
个,令
Figure FDA0002607411930000019
即会产生m×s个特征图,之后便使用最大值池化(Max-pooling-over-time)操作作用于单个特征图Cconv之上,来得到特征图中最重要的特征
Figure FDA00026074119300000110
Figure FDA0002607411930000021
步骤3:步骤2将会产生m×s个池化层特征,将其拼接起来便得到池化层特征
Figure FDA0002607411930000022
其中l=1,2分别代表两组词向量的池化层特征;
步骤4:对两个池化层特征进行卷积操作,得到最终的全连接层特征Cfinal,Cfinal,i代表Cfinal的分量:
Figure FDA0002607411930000023
步骤5:全连接层特征之后接入Softmax分类器,整个预训练阶段的模型使用Adam批量梯度下降算法训练即可,用BP算法对各层参数调整,待收敛后记录下整个CNN的参数θ;训练时采用Dropout与L2正则防止过拟合;
二:分类器训练阶段
步骤6:读取步骤5中的参数θ,采用随机森林模型替换Softmax模型,将全连接层特征Cfinal送入随机森林进行训练;首先设置森林中决策树N的大小,进行Bootstrap抽样得到N个数据集,接下来学习N颗树中每颗树的参数θ0,由于森林中各个树之间的训练过程相互没有影响,因此试验中采用并行训练的方式来加快速度;
步骤7:单个决策树训练完成后,最后以投票的方法得到CNN-RF模型的输出:
Figure FDA0002607411930000024
Ti(x)是树i对样本x的分类结果,即投票法,c*即为样本对应最终类别,N为随机森林中决策树的数目;由于随机森林的全连接层特征Cfinal维度不大,数据集中均有m×s<103,所以建立随机森林的开销非常小。
CN201710181062.0A 2017-03-24 2017-03-24 一种基于卷积神经网络与随机森林的短文本分类方法 Active CN107066553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710181062.0A CN107066553B (zh) 2017-03-24 2017-03-24 一种基于卷积神经网络与随机森林的短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710181062.0A CN107066553B (zh) 2017-03-24 2017-03-24 一种基于卷积神经网络与随机森林的短文本分类方法

Publications (2)

Publication Number Publication Date
CN107066553A CN107066553A (zh) 2017-08-18
CN107066553B true CN107066553B (zh) 2021-01-01

Family

ID=59618101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710181062.0A Active CN107066553B (zh) 2017-03-24 2017-03-24 一种基于卷积神经网络与随机森林的短文本分类方法

Country Status (1)

Country Link
CN (1) CN107066553B (zh)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368613B (zh) * 2017-09-05 2020-02-28 中国科学院自动化研究所 短文本情感分析方法及装置
CN107798331B (zh) * 2017-09-05 2021-11-26 赵彦明 离变焦图像序列特征提取方法和装置
CN110019787A (zh) * 2017-09-30 2019-07-16 北京国双科技有限公司 神经网络模型生成方法、文本情感分析方法、及相关装置
WO2019075632A1 (zh) * 2017-10-17 2019-04-25 腾讯科技(深圳)有限公司 一种ai对象行为模型优化方法以及装置
CN109711528A (zh) * 2017-10-26 2019-05-03 北京深鉴智能科技有限公司 基于特征图变化对卷积神经网络剪枝的方法
CN107767378B (zh) * 2017-11-13 2020-08-04 浙江中医药大学 基于深度神经网络的gbm多模态磁共振图像分割方法
CN107886474B (zh) * 2017-11-22 2019-04-23 北京达佳互联信息技术有限公司 图像处理方法、装置及服务器
CN108108351B (zh) * 2017-12-05 2020-05-22 华南理工大学 一种基于深度学习组合模型的文本情感分类方法
CN108108751B (zh) * 2017-12-08 2021-11-12 浙江师范大学 一种基于卷积多特征和深度随机森林的场景识别方法
CN107957993B (zh) * 2017-12-13 2020-09-25 北京邮电大学 英文句子相似度的计算方法及装置
CN108231067A (zh) * 2018-01-13 2018-06-29 福州大学 基于卷积神经网络与随机森林分类的声音场景识别方法
CN108122562A (zh) * 2018-01-16 2018-06-05 四川大学 一种基于卷积神经网络和随机森林的音频分类方法
CN108509508A (zh) * 2018-02-11 2018-09-07 北京原点时空信息技术有限公司 基于Java技术的短信大数据查询和分析***及其方法
CN108776805A (zh) * 2018-05-03 2018-11-09 北斗导航位置服务(北京)有限公司 一种建立图像分类模型、图像特征分类的方法及装置
CN108875808A (zh) * 2018-05-17 2018-11-23 延安职业技术学院 一种基于人工智能的图书分类方法
CN108733801B (zh) * 2018-05-17 2020-06-09 武汉大学 一种面向数字人文的移动视觉检索方法
CN108829671B (zh) * 2018-06-04 2021-08-20 北京百度网讯科技有限公司 基于调查数据的决策的方法、装置、存储介质和终端设备
CN108959924A (zh) * 2018-06-12 2018-12-07 浙江工业大学 一种基于词向量和深度神经网络的Android恶意代码检测方法
CN108920586A (zh) * 2018-06-26 2018-11-30 北京工业大学 一种基于深度神经映射支持向量机的短文本分类方法
CN109002532A (zh) * 2018-07-17 2018-12-14 电子科技大学 基于学生数据的行为趋势挖掘分析方法和***
CN109214298B (zh) * 2018-08-09 2021-06-08 盈盈(杭州)网络技术有限公司 一种基于深度卷积网络的亚洲女性颜值评分模型方法
CN109165294B (zh) * 2018-08-21 2021-09-24 安徽讯飞智能科技有限公司 一种基于贝叶斯分类的短文本分类方法
CN109543084B (zh) * 2018-11-09 2021-01-19 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN109493886A (zh) * 2018-12-13 2019-03-19 西安电子科技大学 基于特征选择和优化的语音情感识别方法
CN111353512B (zh) * 2018-12-20 2023-07-28 长沙智能驾驶研究院有限公司 障碍物分类方法、装置、存储介质和计算机设备
CN111352926B (zh) * 2018-12-20 2024-03-08 北京沃东天骏信息技术有限公司 数据处理的方法、装置、设备及可读存储介质
CN109670182B (zh) * 2018-12-21 2023-03-24 合肥工业大学 一种基于文本哈希向量化表示的海量极短文本分类方法
CN109739986A (zh) * 2018-12-28 2019-05-10 合肥工业大学 一种基于深度集成学习的投诉短文本分类方法
CN110020431B (zh) * 2019-03-06 2023-07-18 平安科技(深圳)有限公司 文本信息的特征提取方法、装置、计算机设备及存储介质
US11494615B2 (en) * 2019-03-28 2022-11-08 Baidu Usa Llc Systems and methods for deep skip-gram network based text classification
CN110069634A (zh) * 2019-04-24 2019-07-30 北京泰迪熊移动科技有限公司 一种生成分类模板的方法、装置及计算机可读存储介质
CN110134786B (zh) * 2019-05-14 2021-09-10 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110222173B (zh) * 2019-05-16 2022-11-04 吉林大学 基于神经网络的短文本情感分类方法及装置
CN110222260A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 一种搜索方法、装置及存储介质
CN110309304A (zh) * 2019-06-04 2019-10-08 平安科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
CN110263344B (zh) * 2019-06-25 2022-04-19 创优数字科技(广东)有限公司 一种基于混合模型的文本情感分析方法、装置和设备
CN110781333A (zh) * 2019-06-26 2020-02-11 杭州鲁尔物联科技有限公司 一种基于机器学习的斜拉桥非结构化监测数据处理方法
CN110377915B (zh) * 2019-07-25 2022-11-29 腾讯科技(深圳)有限公司 文本的情感分析方法、装置、存储介质及设备
CN111144546B (zh) * 2019-10-31 2024-01-02 平安创科科技(北京)有限公司 评分方法、装置、电子设备及存储介质
CN111401063B (zh) * 2020-06-03 2020-09-11 腾讯科技(深圳)有限公司 一种基于多池化网络的文本处理方法、装置和相关设备
CN111813939A (zh) * 2020-07-13 2020-10-23 南京睿晖数据技术有限公司 一种基于表征增强与融合的文本分类方法
CN111897921A (zh) * 2020-08-04 2020-11-06 广西财经学院 基于词向量学习和模式挖掘融合扩展的文本检索方法
CN112182219A (zh) * 2020-10-09 2021-01-05 杭州电子科技大学 一种基于日志语义分析的在线服务异常检测方法
CN112487811B (zh) * 2020-10-21 2021-07-06 上海旻浦科技有限公司 基于强化学习的级联信息提取***及方法
CN112347247B (zh) * 2020-10-29 2023-10-13 南京大学 基于LDA和Bert的特定类别文本标题二分类方法
CN112329877A (zh) * 2020-11-16 2021-02-05 山西三友和智慧信息技术股份有限公司 一种基于投票机制的web服务分类方法及***
CN113342970B (zh) * 2020-11-24 2023-01-03 中电万维信息技术有限责任公司 一种多标签复杂文本分类方法
CN112418354B (zh) * 2020-12-15 2022-07-15 江苏满运物流信息有限公司 货源信息分类方法、装置、电子设备、存储介质
CN114154561B (zh) * 2021-11-15 2024-02-27 国家电网有限公司 一种基于自然语言处理和随机森林的电力数据治理方法
CN114511330B (zh) * 2022-04-18 2022-12-13 山东省计算中心(国家超级计算济南中心) 一种基于改进的cnn-rf的以太坊庞氏骗局检测方法及***
CN115064184A (zh) * 2022-06-28 2022-09-16 镁佳(北京)科技有限公司 一种音频文件乐器含量识别向量表示方法及装置
CN116226702B (zh) * 2022-09-09 2024-04-26 武汉中数医疗科技有限公司 一种基于生物电阻抗的甲状腺采样数据识别方法
CN117473095B (zh) * 2023-12-27 2024-03-29 合肥工业大学 基于主题增强词表示的短文本分类方法和***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160034788A1 (en) * 2014-07-30 2016-02-04 Adobe Systems Incorporated Learning image categorization using related attributes
CN106156781A (zh) * 2016-07-12 2016-11-23 北京航空航天大学 排序卷积神经网络构建方法及其图像处理方法与装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160034788A1 (en) * 2014-07-30 2016-02-04 Adobe Systems Incorporated Learning image categorization using related attributes
CN106156781A (zh) * 2016-07-12 2016-11-23 北京航空航天大学 排序卷积神经网络构建方法及其图像处理方法与装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Convolutional Neural Networks for Sentence Classification;Yoon Kim;《https://arxiv.org/abs/1408.5882》;20140903;全文 *
基于事件卷积特征的新闻文本分类;夏从零;《计算机应用研究》;20170430;全文 *

Also Published As

Publication number Publication date
CN107066553A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
CN107066553B (zh) 一种基于卷积神经网络与随机森林的短文本分类方法
Priyadarshini et al. A novel LSTM–CNN–grid search-based deep neural network for sentiment analysis
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与***
Abbas et al. Multinomial Naive Bayes classification model for sentiment analysis
Meng et al. Semi-supervised heterogeneous fusion for multimedia data co-clustering
CN112417863B (zh) 基于预训练词向量模型与随机森林算法的中文文本分类方法
Ju et al. An efficient method for document categorization based on word2vec and latent semantic analysis
Rezaei et al. Multi-document extractive text summarization via deep learning approach
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN110297888A (zh) 一种基于前缀树与循环神经网络的领域分类方法
Shi et al. High performance genetic algorithm based text clustering using parts of speech and outlier elimination
Ayral et al. An automated domain specific stop word generation method for natural language text classification
Jayaram et al. A review: Information extraction techniques from research papers
CN111651602A (zh) 一种文本分类方法及***
CN114997288A (zh) 一种设计资源关联方法
CN116304063A (zh) 一种简单的情感知识增强提示调优的方面级情感分类方法
Gourru et al. Document network projection in pretrained word embedding space
Ding et al. The research of text mining based on self-organizing maps
Niu Music Emotion Recognition Model Using Gated Recurrent Unit Networks and Multi‐Feature Extraction
Li et al. Web page classification method based on semantics and structure
Jiang et al. Understanding a bag of words by conceptual labeling with prior weights
Xu et al. Research on topic discovery technology for Web news
Pita et al. Strategies for short text representation in the word vector space
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱
Lin et al. Text classification feature extraction method based on deep learning for unbalanced data sets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant