CN104035996B

CN104035996B - 基于Deep Learning的领域概念抽取方法

Info

Publication number: CN104035996B
Application number: CN201410259300.1A
Authority: CN
Inventors: 吕钊; 张青
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2014-06-11
Filing date: 2014-06-11
Publication date: 2017-06-16
Anticipated expiration: 2034-06-11
Also published as: CN104035996A

Abstract

本发明公开了一种基于Deep Learning的领域概念抽取方法，首先对训练语料库进行样本提取，选取词频、文档频率、反文档频率、词语长度、词频方差和领域一致度作为特征向量，其次基于Deep Learning技术，训练出深度网络模型，该模型能够有效表示单词型领域概念多维度的特征向量和类别标记之间的复杂映射关系，最后在测试阶段将基于Deep Learning技术构建的深度网络模型与改进的BP神经网络模型及主流的KNN、SVM模型进行对比，实验表明利用Deep Learning技术训练得到的深度网络模型取得了最佳的实验效果。

Description

基于Deep Learning的领域概念抽取方法

技术领域

本发明涉及领域概念、领域概念自动抽取、人工神经网络、Deep Learning及深度信念网技术领域，具体地说是一种基于Deep Learning提出了适合单词型领域概念特点的特征抽取方法。

背景技术

领域概念是一种领域知识的表现形式，人们使用领域概念来描述领域内某种对象，传播领域信息。例如：“短信”、“彩铃”属于移动通信领域的概念，“数据结构”、“计算机网络”则属于计算机领域的概念。从某种意义上讲，领域概念是人类在认知过程中对于事物的抽象，是领域知识在文本中的一种表现形式，并在一定程度上反映出该领域的发展变化。领域概念通常在特定的领域中使用较为频繁，而在其他领域则使用较少。

按照是否由两个以上词语构成，可以将领域概念分为单词型和复合型两类。现有的研究大多针对复合型领域概念，而很少有研究单独针对单词型领域概念。然而，现有的单词型领域概念抽取方法普遍存在着准确率不高、特征选择单一的问题，研究者们往往只采取了一到两种少量的特征就完成了对于领域概念和非领域概念的筛选，对于噪音的鉴别能力较弱。同时，在特征权重和阈值的设置上不够科学，一般需要根据多次试验的结果来挑选较为合适的值，人工的干预较大，并且在更改语料规模的情况下，权重和阈值也需要做出相应的修改，可移植性差。所以，单词型领域概念的抽取效果亟待提高。

神经网络是一类成熟的机器学习方法，它提供了一种实用而有效的方法从输入数据中学习出实数值或者向量值的函数，并且对于数据中的噪音具有很好的健壮性。因此，神经网络非常适合用来学习单词型领域概念多维特征向量和对应类别之间的映射关系。具备多个隐含层的神经网络拥有更强的表达能力，Deep Learning主要就是用来解决多隐含层的神经网络的学习问题。

发明内容

本发明的目的是针对传统无监督的方法学习能力弱、领域概念抽取效果不佳的问题而提供的一种基于Deep Learning的领域概念抽取方法，将领域概念抽取问题转化为二分类问题，采用了更为丰富的统计特征，利用Deep Learning的领域概念抽取算法，将DeepLearning和领域概念抽取任务相结合，通过构建深度信念网进行无监督的预训练，然后配合传统神经网络模型进行有监督的调整，最终训练出的深度网络模型和KNN、SVM模型相比，在测试数据集上取得了最高的F值。

实现本发明目的的具体技术方案是：

一种基于Deep Learning的领域概念抽取方法，该方法包括以下具体步骤：

a）训练阶段

首先提取训练语料库中的正负样本，并进行标记；然后结合训练语料库和背景语料库，对正负样本进行特征提取，构造特征向量集；最后利用特征向量集和对应的标记在matlab的深度学习工具箱的环境下训练得到深度网络DN模型；

b）测试阶段

目标是利用训练阶段得到的深度网络DN模型来检验对测试语料库的分类效果；首先依次对测试语料库进行候选项提取、特征提取，构造特征向量集；然后将特征向量集输入深度网络DN模型，利用深度网络DN模型对特征向量进行自动地判定和识别，实现对测试语料库的候选项的分类；最后根据分类的结果和人工审核得到正确的领域概念集。

所述构造特征向量集，是以下述特征构成：

1)词频（TF）；

2)文档频率（DF）；

3)逆文档频率（IDF）；

4)词语长度（LEN）；

5)词频方差（TV）；

6)领域一致度（DC）。

所述步骤a）中训练得到深度网络模型DN，具体包括：

ⅰ）仅利用训练数据的特征向量进行无监督地学习来构造深度信念网（DeepBelief Nets, DBN）；

将一个特征向量传入输入层，训练第一层的限制玻尔兹曼机（RestrictedBoltzmann Machine, RBM）；接着固定第一层RBM参数，将第一层RBM的输出作为第二层RBM的输入，训练第二层RBM；类似地固定前两层RBM的参数，利用第二层RBM的输出完成第三层RBM的训练；当学习了全部的特征向量后，整个DBN的训练过程也结束；

ⅱ）利用深度信念网DBN的参数初始化深度网络DN，然后采用反向传播算法，根据训练样本的类别标记进行有监督地微调深度网络DN参数，当经过若干次数的迭代或者误差减小至0.001~0.005范围内，第二部分的参数调整结束；至此，深度网络DN模型的训练阶段也就完成。

所述步骤b）中对测试语料库的候选项的分类是将领域概念的抽取作为二元分类，即“领域概念”与“非领域概念”；根据DN模型的输出值，得到候选特征x和类别y的共现概率p(x,y)，用它来衡量一个候选概念在特征为x的情况下属于类别y的置信度；x表示候选概念的特征向量，而类别y表示“领域概念”、“非领域概念”两类之一；通过训练语料库得到的分类器，在测试数据集上利用分类器自动判别候选概念的类别。

本发明提供了一种基于Deep Learning的领域概念抽取方法，包括领域概念抽取中的分类问题和提出的Deep Learning的领域概念抽取算法，对于单词型领域概念的抽取，该方法比传统的神经网络模型、经典的KNN模型和SVM模型在相同实验数据集上对领域词有更好的识别效果。

本发明将Deep Learning和领域概念抽取任务相结合，通过构建深度信念网进行无监督的预训练，然后配合传统神经网络模型进行有监督的调整，最终训练出深度网络模型在测试数据集上获得较高的准确率，同时也保证了一定的召回率，整体的识别性能最好。

利用本发明，能够基于Deep Learning技术有效获取单词型领域概念的抽取结果，对于信息检索、机器翻译、本体学习等研究具有积极意义。

附图说明

图1为本发明的流程图；

图2为本发明的训练流程图；

图3为本发明的测试流程图；

图4为本发明的深度网络模型结构图；

图5为不同分类模型实验指标对比图。

具体实施方式

本发明是一种基于Deep Learning的领域概念抽取方法，该方法包括领域概念抽取中的分类和Deep Learning的领域概念抽取，其中：所述领域概念抽取中的分类，将领域概念抽取作为二元分类，即“领域概念”与“非领域概念”两类。采用机器学习的思想，通过训练样本采集特征，构造分类器，在测试数据集上利用分类器自动判别候选概念的类别。具体而言，分类是估计候选概念特征x和类别y的共现概率p(x,y)，用它来衡量一个候选概念在特征为x的情况下属于类别y的置信度。这里的x表示候选概念的特征向量，而类别y表示“领域概念”、“非领域概念”两类之一。

所述Deep Learning的领域概念抽取（Deep Learning based Domain ConceptExtraction Algorithm，DLDoC）总体上分为训练和测试两个阶段，如图1所示，首先通过训练模块利用训练数据学习得到深度网络（Deep Nets，DN）模型，然后在测试模块中利用上一步训练得到的DN模型对测试数据进行自动分类识别。对于分类结果，通过人工审核的方式，最终获取正确的领域概念集，具体步骤如下：

ⅰ）训练阶段：训练阶段完成深度网络模型的构建。如图2所示，首先提取训练语料库中的正负样本，并进行标记；然后结合训练语料库和背景语料库，对获得的正负样本进行特征提取，构造特征向量集；最后利用特征向量集和对应的标记数据训练模型。整个训练过程可以理解成从训练语料库到模型的映射，其中依次经过样本空间、特征空间的转换。

ⅱ）测试阶段：测试阶段是利用上一步训练过程得到的DN模型来检验对测试数据集的识别效果。如图3所示，与训练过程类似，首先依次对测试语料库进行候选项提取、特征提取，构造特征向量集；然后将特征向量集输入DN模型，它会对特征向量进行自动地判定和识别，从而实现对候选项的分类；最后根据分类的结果和人工的标记进行比较，从而计算出整体的识别效果。

所述构造特征向量集：

针对大多数研究者采用的TF-IDF的方法，本发明选取以下几种特征：

1）词频（TF）；

2）文档频率（DF）；

3）逆文档频率（IDF）；

4）词语长度（LEN）；

5）词频方差（TV）；

6）领域一致度（DC）。

所述深度网络DN模型的构建，如图4所示：

ⅰ）仅利用训练数据的特征向量进行无监督地学习来构造深度信念网（DeepBelief Nets, DBN）。将一个特征向量传入输入层，训练第一层的RBM；接着固定第一层RBM参数，将第一层RBM的输出作为第二层RBM的输入，训练第二层RBM；类似地固定前两层RBM的参数，利用第二层RBM的输出完成第三层RBM的训练。当学习了全部的特征向量后，整个DBN的训练过程也结束了。

ⅱ）利用DBN的参数初始化DN，然后采用反向传播算法，根据训练样本的类别标记进行有监督地微调，当经过若干次数的迭代或者误差减小至0.001~0.005范围内，第二部分的参数调整就结束了。至此，DN模型的训练也就完成了，可以用来对未知样本的类别进行预测。

实施例

下面以军事领域素材为例，结合附图对本发明进一步说明。

参阅图1，首先从训练语料库中进行样本提取，从样本中进行特征提取，选择特征向量，得到训练模型—DN模型，得到的DN模型对测试数据进行自动分类识别。对于分类结果，可以通过人工审核的方式，最终获取正确的领域概念集。

在本实施例中，如图2所示，实现训练语料库到样本空间的转换，本发明选取以上几种特征构造特征向量，表1列出了本发明在军事领域素材中提取的部分训练样本的特征值。

表 1 军事领域部分训练样本特征

模型训练利用前两步提取得到的正负样本集合和对应的特征向量集合，学习特征向量和样本标记数据之间的关系，训练出深度网络模型（DN），该模型对于每一个样本都完成了从特征向量到标记的映射，也就是得到DN模型的参数。

在本实施例中，如图3所示，选用测试样本，“司令”特征向量：29 6 4.8078 2208.9667 1.4144 ，经过测试后，此特征向量被判别为正例，说明DN模型对样本集合具有较好的识别能力。

本发明同时将构建的DN模型与神经网络结合并且与传统的KNN模型和SVM模型，进行对比，如图5所示，采用DBN预训练过的DBN+NN模型则可以取得相对不错且稳定的准确率，分别超过了KNN模型和SVM模型13.05个百分点和23.09个百分点。在反映整体性能的F值指标上，本发明构建的DBN+NN模型获得了最高值，超过SVM模型2.53个百分点，基本的NN2模型和KNN模型的F值相差不大。

Claims

1.一种基于Deep Learning的领域概念抽取方法，其特征在于该方法包括以下具体步骤：

a)训练阶段

首先提取训练语料库中的正负样本，并进行标记；然后结合训练语料库和背景语料库，对正负样本进行特征提取，构造特征向量集；最后利用特征向量集和对应的标记在matlab的深度学习工具箱的环境下训练得到深度网络DN模型，其中，深度网络DN模型根据如下步骤训练：

i)仅利用训练数据的特征向量进行无监督地学习来构造深度信念网DBN；

将一个特征向量传入输入层，训练第一层的限制玻尔兹曼机RBM；接着固定第一层RBM参数，将第一层RBM的输出作为第二层RBM的输入，训练第二层RBM；类似地固定前两层RBM的参数，利用第二层RBM的输出完成第三层RBM的训练；当学习了全部的特征向量后，整个深度信念网DBN的训练过程也结束；

ii)利用深度信念网DBN的参数初始化深度网络DN，然后采用反向传播算法，根据训练样本的类别标记进行有监督地微调深度网络DN参数，当经过若干次数的迭代或者误差减小至0.001～0.005范围内，第二部分的参数调整结束，以完成深度网络DN模型的训练阶段；

b)测试阶段

首先依次对测试语料进行候选项提取、特征提取，构造特征向量集；然后将特征向量集输入深度网络DN模型，利用深度网络DN模型对特征向量进行自动地判定和识别，实现对测试语料库的候选项的分类；最后根据分类的结果和人工审核得到正确的领域概念集。

2.根据权利要求1所述的方法，其特征在于所述构造特征向量集，是以下述特征构成：

词频(TF)；

文档频率(DF)；

逆文档频率(IDF)；

词语长度(LEN)；

词频方差(TV)；

领域一致度(DC)。

3.根据权利要求1所述的方法，其特征在于所述步骤b)中对测试语料的候选项的分类是将领域概念的抽取作为二元分类，以将候选概念分为领域概念及非领域概念两类；根据DN模型的输出值，得到候选特征x和类别y的共现概率p(x,y)，用共现概率p(x,y)来衡量一个候选概念在特征为x的情况下属于类别y的置信度；x表示候选概念的特征向量，而类别y表示领域概念、非领域概念两类之一；通过训练语料库得到的分类器，在测试数据集上利用分类器自动判别候选概念的类别。