CN104035996B - 基于Deep Learning的领域概念抽取方法 - Google Patents

基于Deep Learning的领域概念抽取方法 Download PDF

Info

Publication number
CN104035996B
CN104035996B CN201410259300.1A CN201410259300A CN104035996B CN 104035996 B CN104035996 B CN 104035996B CN 201410259300 A CN201410259300 A CN 201410259300A CN 104035996 B CN104035996 B CN 104035996B
Authority
CN
China
Prior art keywords
training
classification
field concept
models
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410259300.1A
Other languages
English (en)
Other versions
CN104035996A (zh
Inventor
吕钊
张青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201410259300.1A priority Critical patent/CN104035996B/zh
Publication of CN104035996A publication Critical patent/CN104035996A/zh
Application granted granted Critical
Publication of CN104035996B publication Critical patent/CN104035996B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Deep Learning的领域概念抽取方法,首先对训练语料库进行样本提取,选取词频、文档频率、反文档频率、词语长度、词频方差和领域一致度作为特征向量,其次基于Deep Learning技术,训练出深度网络模型,该模型能够有效表示单词型领域概念多维度的特征向量和类别标记之间的复杂映射关系,最后在测试阶段将基于Deep Learning技术构建的深度网络模型与改进的BP神经网络模型及主流的KNN、SVM模型进行对比,实验表明利用Deep Learning技术训练得到的深度网络模型取得了最佳的实验效果。

Description

基于Deep Learning的领域概念抽取方法
技术领域
本发明涉及领域概念、领域概念自动抽取、人工神经网络、Deep Learning及深度信念网技术领域,具体地说是一种基于Deep Learning提出了适合单词型领域概念特点的特征抽取方法。
背景技术
领域概念是一种领域知识的表现形式,人们使用领域概念来描述领域内某种对象,传播领域信息。例如:“短信”、“彩铃”属于移动通信领域的概念,“数据结构”、“计算机网络”则属于计算机领域的概念。从某种意义上讲,领域概念是人类在认知过程中对于事物的抽象,是领域知识在文本中的一种表现形式,并在一定程度上反映出该领域的发展变化。领域概念通常在特定的领域中使用较为频繁,而在其他领域则使用较少。
按照是否由两个以上词语构成,可以将领域概念分为单词型和复合型两类。现有的研究大多针对复合型领域概念,而很少有研究单独针对单词型领域概念。然而,现有的单词型领域概念抽取方法普遍存在着准确率不高、特征选择单一的问题,研究者们往往只采取了一到两种少量的特征就完成了对于领域概念和非领域概念的筛选,对于噪音的鉴别能力较弱。同时,在特征权重和阈值的设置上不够科学,一般需要根据多次试验的结果来挑选较为合适的值,人工的干预较大,并且在更改语料规模的情况下,权重和阈值也需要做出相应的修改,可移植性差。所以,单词型领域概念的抽取效果亟待提高。
神经网络是一类成熟的机器学习方法,它提供了一种实用而有效的方法从输入数据中学习出实数值或者向量值的函数,并且对于数据中的噪音具有很好的健壮性。因此,神经网络非常适合用来学习单词型领域概念多维特征向量和对应类别之间的映射关系。具备多个隐含层的神经网络拥有更强的表达能力,Deep Learning主要就是用来解决多隐含层的神经网络的学习问题。
发明内容
本发明的目的是针对传统无监督的方法学习能力弱、领域概念抽取效果不佳的问题而提供的一种基于Deep Learning的领域概念抽取方法,将领域概念抽取问题转化为二分类问题,采用了更为丰富的统计特征,利用Deep Learning的领域概念抽取算法,将DeepLearning和领域概念抽取任务相结合,通过构建深度信念网进行无监督的预训练,然后配合传统神经网络模型进行有监督的调整,最终训练出的深度网络模型和KNN、SVM模型相比,在测试数据集上取得了最高的F值。
实现本发明目的的具体技术方案是:
一种基于Deep Learning的领域概念抽取方法,该方法包括以下具体步骤:
a)训练阶段
首先提取训练语料库中的正负样本,并进行标记;然后结合训练语料库和背景语料库,对正负样本进行特征提取,构造特征向量集;最后利用特征向量集和对应的标记在matlab的深度学习工具箱的环境下训练得到深度网络DN模型;
b)测试阶段
目标是利用训练阶段得到的深度网络DN模型来检验对测试语料库的分类效果;首先依次对测试语料库进行候选项提取、特征提取,构造特征向量集;然后将特征向量集输入深度网络DN模型,利用深度网络DN模型对特征向量进行自动地判定和识别,实现对测试语料库的候选项的分类;最后根据分类的结果和人工审核得到正确的领域概念集。
所述构造特征向量集,是以下述特征构成:
1)词频(TF);
2)文档频率(DF);
3)逆文档频率(IDF);
4)词语长度(LEN);
5)词频方差(TV);
6)领域一致度(DC)。
所述步骤a)中训练得到深度网络模型DN,具体包括:
ⅰ)仅利用训练数据的特征向量进行无监督地学习来构造深度信念网(DeepBelief Nets, DBN);
将一个特征向量传入输入层,训练第一层的限制玻尔兹曼机(RestrictedBoltzmann Machine, RBM);接着固定第一层RBM参数,将第一层RBM的输出作为第二层RBM的输入,训练第二层RBM;类似地固定前两层RBM的参数,利用第二层RBM的输出完成第三层RBM的训练;当学习了全部的特征向量后,整个DBN的训练过程也结束;
ⅱ)利用深度信念网DBN的参数初始化深度网络DN,然后采用反向传播算法,根据训练样本的类别标记进行有监督地微调深度网络DN参数,当经过若干次数的迭代或者误差减小至0.001~0.005范围内,第二部分的参数调整结束;至此,深度网络DN模型的训练阶段也就完成。
所述步骤b)中对测试语料库的候选项的分类是将领域概念的抽取作为二元分类,即“领域概念”与“非领域概念”;根据DN模型的输出值,得到候选特征x和类别y的共现概率p(x,y),用它来衡量一个候选概念在特征为x的情况下属于类别y的置信度;x表示候选概念的特征向量,而类别y表示“领域概念”、“非领域概念”两类之一;通过训练语料库得到的分类器,在测试数据集上利用分类器自动判别候选概念的类别。
本发明提供了一种基于Deep Learning的领域概念抽取方法,包括领域概念抽取中的分类问题和提出的Deep Learning的领域概念抽取算法,对于单词型领域概念的抽取,该方法比传统的神经网络模型、经典的KNN模型和SVM模型在相同实验数据集上对领域词有更好的识别效果。
本发明将Deep Learning和领域概念抽取任务相结合,通过构建深度信念网进行无监督的预训练,然后配合传统神经网络模型进行有监督的调整,最终训练出深度网络模型在测试数据集上获得较高的准确率,同时也保证了一定的召回率,整体的识别性能最好。
利用本发明,能够基于Deep Learning技术有效获取单词型领域概念的抽取结果,对于信息检索、机器翻译、本体学习等研究具有积极意义。
附图说明
图1为本发明的流程图;
图2为本发明的训练流程图;
图3为本发明的测试流程图;
图4为本发明的深度网络模型结构图;
图5为不同分类模型实验指标对比图。
具体实施方式
本发明是一种基于Deep Learning的领域概念抽取方法,该方法包括领域概念抽取中的分类和Deep Learning的领域概念抽取,其中:所述领域概念抽取中的分类,将领域概念抽取作为二元分类,即“领域概念”与“非领域概念”两类。采用机器学习的思想,通过训练样本采集特征,构造分类器,在测试数据集上利用分类器自动判别候选概念的类别。具体而言,分类是估计候选概念特征x和类别y的共现概率p(x,y),用它来衡量一个候选概念在特征为x的情况下属于类别y的置信度。这里的x表示候选概念的特征向量,而类别y表示“领域概念”、“非领域概念”两类之一。
所述Deep Learning的领域概念抽取(Deep Learning based Domain ConceptExtraction Algorithm,DLDoC)总体上分为训练和测试两个阶段,如图1所示,首先通过训练模块利用训练数据学习得到深度网络(Deep Nets,DN)模型,然后在测试模块中利用上一步训练得到的DN模型对测试数据进行自动分类识别。对于分类结果,通过人工审核的方式,最终获取正确的领域概念集,具体步骤如下:
ⅰ)训练阶段:训练阶段完成深度网络模型的构建。如图2所示,首先提取训练语料库中的正负样本,并进行标记;然后结合训练语料库和背景语料库,对获得的正负样本进行特征提取,构造特征向量集;最后利用特征向量集和对应的标记数据训练模型。整个训练过程可以理解成从训练语料库到模型的映射,其中依次经过样本空间、特征空间的转换。
ⅱ)测试阶段:测试阶段是利用上一步训练过程得到的DN模型来检验对测试数据集的识别效果。如图3所示,与训练过程类似,首先依次对测试语料库进行候选项提取、特征提取,构造特征向量集;然后将特征向量集输入DN模型,它会对特征向量进行自动地判定和识别,从而实现对候选项的分类;最后根据分类的结果和人工的标记进行比较,从而计算出整体的识别效果。
所述构造特征向量集:
针对大多数研究者采用的TF-IDF的方法,本发明选取以下几种特征:
1)词频(TF);
2)文档频率(DF);
3)逆文档频率(IDF);
4)词语长度(LEN);
5)词频方差(TV);
6)领域一致度(DC)。
所述深度网络DN模型的构建,如图4所示:
ⅰ)仅利用训练数据的特征向量进行无监督地学习来构造深度信念网(DeepBelief Nets, DBN)。将一个特征向量传入输入层,训练第一层的RBM;接着固定第一层RBM参数,将第一层RBM的输出作为第二层RBM的输入,训练第二层RBM;类似地固定前两层RBM的参数,利用第二层RBM的输出完成第三层RBM的训练。当学习了全部的特征向量后,整个DBN的训练过程也结束了。
ⅱ)利用DBN的参数初始化DN,然后采用反向传播算法,根据训练样本的类别标记进行有监督地微调,当经过若干次数的迭代或者误差减小至0.001~0.005范围内,第二部分的参数调整就结束了。至此,DN模型的训练也就完成了,可以用来对未知样本的类别进行预测。
实施例
下面以军事领域素材为例,结合附图对本发明进一步说明。
参阅图1,首先从训练语料库中进行样本提取,从样本中进行特征提取,选择特征向量,得到训练模型—DN模型,得到的DN模型对测试数据进行自动分类识别。对于分类结果,可以通过人工审核的方式,最终获取正确的领域概念集。
在本实施例中,如图2所示,实现训练语料库到样本空间的转换,本发明选取以上几种特征构造特征向量,表1列出了本发明在军事领域素材中提取的部分训练样本的特征值。
表 1 军事领域部分训练样本特征
模型训练利用前两步提取得到的正负样本集合和对应的特征向量集合,学习特征向量和样本标记数据之间的关系,训练出深度网络模型(DN),该模型对于每一个样本都完成了从特征向量到标记的映射,也就是得到DN模型的参数。
在本实施例中,如图3所示,选用测试样本,“司令”特征向量:29 6 4.8078 2208.9667 1.4144 ,经过测试后,此特征向量被判别为正例,说明DN模型对样本集合具有较好的识别能力。
本发明同时将构建的DN模型与神经网络结合并且与传统的KNN模型和SVM模型,进行对比,如图5所示,采用DBN预训练过的DBN+NN模型则可以取得相对不错且稳定的准确率,分别超过了KNN模型和SVM模型13.05个百分点和23.09个百分点。在反映整体性能的F值指标上,本发明构建的DBN+NN模型获得了最高值,超过SVM模型2.53个百分点,基本的NN2模型和KNN模型的F值相差不大。

Claims (3)

1.一种基于Deep Learning的领域概念抽取方法,其特征在于该方法包括以下具体步骤:
a)训练阶段
首先提取训练语料库中的正负样本,并进行标记;然后结合训练语料库和背景语料库,对正负样本进行特征提取,构造特征向量集;最后利用特征向量集和对应的标记在matlab的深度学习工具箱的环境下训练得到深度网络DN模型,其中,深度网络DN模型根据如下步骤训练:
i)仅利用训练数据的特征向量进行无监督地学习来构造深度信念网DBN;
将一个特征向量传入输入层,训练第一层的限制玻尔兹曼机RBM;接着固定第一层RBM参数,将第一层RBM的输出作为第二层RBM的输入,训练第二层RBM;类似地固定前两层RBM的参数,利用第二层RBM的输出完成第三层RBM的训练;当学习了全部的特征向量后,整个深度信念网DBN的训练过程也结束;
ii)利用深度信念网DBN的参数初始化深度网络DN,然后采用反向传播算法,根据训练样本的类别标记进行有监督地微调深度网络DN参数,当经过若干次数的迭代或者误差减小至0.001~0.005范围内,第二部分的参数调整结束,以完成深度网络DN模型的训练阶段;
b)测试阶段
首先依次对测试语料进行候选项提取、特征提取,构造特征向量集;然后将特征向量集输入深度网络DN模型,利用深度网络DN模型对特征向量进行自动地判定和识别,实现对测试语料库的候选项的分类;最后根据分类的结果和人工审核得到正确的领域概念集。
2.根据权利要求1所述的方法,其特征在于所述构造特征向量集,是以下述特征构成:
词频(TF);
文档频率(DF);
逆文档频率(IDF);
词语长度(LEN);
词频方差(TV);
领域一致度(DC)。
3.根据权利要求1所述的方法,其特征在于所述步骤b)中对测试语料的候选项的分类是将领域概念的抽取作为二元分类,以将候选概念分为领域概念及非领域概念两类;根据DN模型的输出值,得到候选特征x和类别y的共现概率p(x,y),用共现概率p(x,y)来衡量一个候选概念在特征为x的情况下属于类别y的置信度;x表示候选概念的特征向量,而类别y表示领域概念、非领域概念两类之一;通过训练语料库得到的分类器,在测试数据集上利用分类器自动判别候选概念的类别。
CN201410259300.1A 2014-06-11 2014-06-11 基于Deep Learning的领域概念抽取方法 Expired - Fee Related CN104035996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410259300.1A CN104035996B (zh) 2014-06-11 2014-06-11 基于Deep Learning的领域概念抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410259300.1A CN104035996B (zh) 2014-06-11 2014-06-11 基于Deep Learning的领域概念抽取方法

Publications (2)

Publication Number Publication Date
CN104035996A CN104035996A (zh) 2014-09-10
CN104035996B true CN104035996B (zh) 2017-06-16

Family

ID=51466766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410259300.1A Expired - Fee Related CN104035996B (zh) 2014-06-11 2014-06-11 基于Deep Learning的领域概念抽取方法

Country Status (1)

Country Link
CN (1) CN104035996B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055560A (zh) * 2016-05-18 2016-10-26 上海申腾信息技术有限公司 一种基于统计机器学习方法的分词字典数据采集方法
CN106228980B (zh) * 2016-07-21 2019-07-05 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN106686403B (zh) * 2016-12-07 2019-03-08 腾讯科技(深圳)有限公司 一种视频预览图生成方法、装置、服务器以及***
CN106599577A (zh) * 2016-12-13 2017-04-26 重庆邮电大学 一种结合rbm和特征选择的列表级排序学习方法
CN106650806B (zh) * 2016-12-16 2019-07-26 北京大学深圳研究生院 一种用于行人检测的协同式深度网络模型方法
CN106980873B (zh) * 2017-03-09 2020-07-07 南京理工大学 基于深度学习的锦鲤筛选方法及装置
CN107679859B (zh) * 2017-07-18 2020-08-25 ***股份有限公司 一种基于迁移深度学习的风险识别方法以及***
CN108959375A (zh) * 2018-05-24 2018-12-07 南京网感至察信息科技有限公司 一种基于规则与深度学习的知识抽取方法
CN109543046A (zh) * 2018-11-16 2019-03-29 重庆邮电大学 一种基于深度学习的机器人数据互操作领域本体构建方法
CN109597946B (zh) * 2018-12-05 2022-04-12 国网江西省电力有限公司信息通信分公司 一种基于深度信念网络算法的不良网页智能检测方法
CN109871896B (zh) * 2019-02-26 2022-03-25 北京达佳互联信息技术有限公司 数据分类方法、装置、电子设备及存储介质
CN114626520B (zh) * 2022-03-01 2024-05-10 腾讯科技(深圳)有限公司 训练模型的方法、装置、设备以及存储介质
CN115357691B (zh) * 2022-10-21 2023-04-07 成都数之联科技股份有限公司 一种语义检索方法及***、设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101739430A (zh) * 2008-11-21 2010-06-16 中国科学院计算技术研究所 一种基于关键词的文本情感分类器的训练方法和分类方法
CN103365997A (zh) * 2013-07-12 2013-10-23 华东师范大学 一种基于集成学习的观点挖掘方法
CN103793510A (zh) * 2014-01-29 2014-05-14 苏州融希信息科技有限公司 一种基于主动学习的分类器构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101739430A (zh) * 2008-11-21 2010-06-16 中国科学院计算技术研究所 一种基于关键词的文本情感分类器的训练方法和分类方法
CN103365997A (zh) * 2013-07-12 2013-10-23 华东师范大学 一种基于集成学习的观点挖掘方法
CN103793510A (zh) * 2014-01-29 2014-05-14 苏州融希信息科技有限公司 一种基于主动学习的分类器构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于证据理论的多分类器中文微博观点句识别;郭云龙 等;《计 算 机 工 程》;20140430;第40卷(第4期);第159-163、169页 *

Also Published As

Publication number Publication date
CN104035996A (zh) 2014-09-10

Similar Documents

Publication Publication Date Title
CN104035996B (zh) 基于Deep Learning的领域概念抽取方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
Bruni et al. Multimodal distributional semantics
Wang et al. Research on Web text classification algorithm based on improved CNN and SVM
CN110704624B (zh) 一种地理信息服务元数据文本多层级多标签分类方法
CN107818164A (zh) 一种智能问答方法及其***
CN103955702A (zh) 基于深度rbf网络的sar图像地物分类方法
CN106095872A (zh) 用于智能问答***的答案排序方法及装置
CN106779087A (zh) 一种通用机器学***台
CN110942091B (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN104462066A (zh) 语义角色标注方法及装置
CN111046179A (zh) 一种面向特定领域开放网络问句的文本分类方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN102662931A (zh) 一种基于协同神经网络的语义角色标注方法
CN106294344A (zh) 视频检索方法和装置
CN107832458A (zh) 一种字符级的基于嵌套深度网络的文本分类方法
CN104484682A (zh) 一种基于主动深度学习的遥感图像分类方法
CN106570521A (zh) 多语言场景字符识别方法及识别***
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN105260746B (zh) 一种可扩展的多层集成多标记学习***
CN104091181A (zh) 基于深度受限玻尔兹曼机的害虫图像自动识别方法及***
CN103020167A (zh) 一种计算机中文文本分类方法
CN104318271A (zh) 一种基于适应性编码和几何平滑汇合的图像分类方法
CN104036021A (zh) 混合生成式和判别式学习模型的图像语义标注方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170616

Termination date: 20210611

CF01 Termination of patent right due to non-payment of annual fee