CN104965820A - 一种基于异构数据库的耦合词性标注方法 - Google Patents

一种基于异构数据库的耦合词性标注方法 Download PDF

Info

Publication number
CN104965820A
CN104965820A CN201510422718.4A CN201510422718A CN104965820A CN 104965820 A CN104965820 A CN 104965820A CN 201510422718 A CN201510422718 A CN 201510422718A CN 104965820 A CN104965820 A CN 104965820A
Authority
CN
China
Prior art keywords
speech tagging
speech
theta
coupling part
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510422718.4A
Other languages
English (en)
Inventor
李正华
张民
陈文亮
巢佳媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangjiagang Institute of Industrial Technologies Soochow University
Original Assignee
Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangjiagang Institute of Industrial Technologies Soochow University filed Critical Zhangjiagang Institute of Industrial Technologies Soochow University
Priority to CN201510422718.4A priority Critical patent/CN104965820A/zh
Publication of CN104965820A publication Critical patent/CN104965820A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于异构数据库的耦合词性标注方法。该方法根据预设映射规则对异构数据库的词性标注集进行映射处理,建立耦合词性标注集。进而,利用该耦合词性标注集对训练数据进行转换,并采用耦合词性标注集标注的训练数据对CRF词性标注模型进行训练,以使训练后的CRF词性标注模型能够自动挖掘识别异构数据中不同的词性标记间的映射关系。与现有技术相比,本发明通过一次建模过程即可完成异构数据库之间词性标注的识别和转换过程,提高了词性标注的鲁棒性和准确率。

Description

一种基于异构数据库的耦合词性标注方法
技术领域
本发明涉及语料标注领域,更具体的说是涉及一种基于异构数据库的耦合词性标注方法。
背景技术
异构数据库的存在对缓解数据稀疏提供了新的契机。例如:宾州中文树库(CTB)包含了2万个标注句子,包含词边界、词性和句法结构,被广泛用于中文分词和词性标注研究。***语料(PD)是一个大规模标注了分词和词性的语料。两数据资源构建目的不同,CTB是为句法分析而设计,PD则是用于支持信息提取***。如何利用这两个资源进行研究,其主要挑战是两数据词性标注集不同,且相互之间不能用启发式规则实现转化。
当前,主要基于指导特征的方法实现不同标注数据之间的转化,其基本思想是从一个数据上获取指导特征用于另一个数据。具体为:将第一数据作为源端数据训练一个源端词性标注模型,基于该源端词性标注模型对第二数据的词性进行标注,作为第二数据的指导特征。基于该指导特征,将第二数据作为目标端数据训练一个目标端词性标注模型。在实际应用中,该方法需要两次建立词性标注模型,词性标注的工作效率低。
发明内容
有鉴于此,本发明提供一种基于异构数据库的耦合词性标注方法,以提高词性标注的工作效率。
为实现上述目的,本发明提供如下技术方案:
一种基于异构数据库的耦合词性标注方法,包括:
获取两种异构标注数据库各自的词性标记集;
根据预设映射规则,建立两个词性标记集之间的耦合词性标注集;
利用所述耦合词性标注集对训练数据进行转换;
根据已转换的所述训练数据对预设的CRF词性标注模型进行训练;
采用训练后的CRF词性标注模型对样本数据进行词性标注。
优选的,所述根据已转换的所述训练数据对预设的CRF词性标注模型进行训练,包括:
获取所述训练数据的特征向量,所述特征向量包括联合特征向量和独立特征向量;
根据所述训练数据的特征向量,确定预设的所述CRF词性标注模型的目标函数;
其中所述目标函数为:
P ( t | x ; θ ) = exp ( ( S c o r e ( x , t ; θ ) ) Σ exp ( ( S c o r e ( x , t ; θ ) ) ,
S c o r e ( x , [ t a , t b ] ; θ ) = Σ 1 ≤ i ≤ n θ . f ( x , i , [ t i - 1 a , t i - 1 b ] , [ t i a , t i b ] ) f ( x , i , t i - 1 a , t i a ) f ( x , i , t i - 1 b , t i b ) ;
X表示训练数据中的词语,i表示焦点词的位置,t表示词语词性,a和b表示异构标注数据库,f表示特征向量,θ表示特征权重向量;
按照预设算法对所述目标函数进行处理,计算所述特征向量对应的权重向量,以实现对所述CRF词性标注模型的训练。
优选的,所述按照预设算法对所述目标函数进行处理,计算所述特征向量对应的权重向量,包括:
获取已转换的训练数据的似然函数其中V表示词语x的耦合词性标注集;
其中求导方程为: δ L ( D ; θ ) δ θ = Σ i N ( E t ∈ V i [ f ( x i , t ) ] - E t [ f ( x i , t ) ] ) ;
f(xi,t)是将xi标记为t的联合特征向量;是模型在受限空间Vi上的特征期望;Et[ ]是在非受限空间上的模型期望。
优选的,对转换注的训练数据的似然函数进行求导计算,得到所述特征向量对应的权重向量,之后还包括:
利用随机梯度下降算法,对所述权重向量进行优化处理。
经由上述的技术方案可知,本发明公开了一种基于异构数据库的耦合词性标注方法。该方法根据预设映射规则对异构数据库的词性标注集进行映射处理,建立耦合词性标注集。进而,利用该耦合词性标注集对训练数据进行转换,并采用耦合词性标注集标注的训练数据对CRF词性标注模型进行训练,以使训练后的CRF词性标注模型能够自动挖掘识别异构数据中不同的词性标记间的映射关系。与现有技术相比,本发明通过一次建模过程即可完成异构数据库之间词性标注的识别和转换过程,提高了词性标注的鲁棒性和准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明一个实施例公开的一种基于异构数据库的耦合词性标注方法的流程示意图;
图2示出了本发明一个实施例公开的耦合词性标注集建立示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1示出了本发明一个实施例公开的一种基于异构数据库的耦合词性标注方法。
由图1可知,该方法包括:
101:获取两种异构标注数据库各自的词性标记集。
102:根据预设映射规则,建立两个词性标记集之间的耦合词性标注集。
下面以CTB和PD两种异构数据库为列,介绍如何建立耦合词性标注集。
我们定义CTB词性集为Ta,PD词性集为Tb,耦合词性集为Ta&b。完整的笛卡尔积Ta×Tb会形成一个大规模的耦合词性集,导致模型变慢。鉴于此问题,我们基于两数据集的标记规范的语言信息构建了一个规模小一点的耦合词性集
为了得到合适的Ta&b,我们引入了两词性集之间的映射函数m,一个映射函数m对应一个Ta&b。映射函数越宽松,|Ta&b|的标记集合则越大。以图2中的句子举例。单词“发展4”在CTB词性集里标注为“NN”,假设映射函数m:“NN”可以和PD词性集中的三个标记映射,例如,“n”、“Ng”、“vn”。因此,以该词构建耦合词性集可以得到:“[NN,n]”、“[NN,Ng]”、“[NN,vn]”,用于训练阶段参照。在训练实例中可以有多个不同规范的词性。在此基础上,我们为CTB和PD所有数据建立了耦合词性,实现耦合转化之后,这两词性集处在同一词性标记空间中。
103:利用所述耦合词性标注集对训练数据进行标注。
这里只给出了“发展”多个耦合词性标记,其他词只是列举一个耦合标记
104:根据已标的所述训练数据对预设的CRF词性标注模型进行训练。
不同于传统模型的,我们的耦合的CRF词性标注模型的目标函数表示为:
P ( t | x ; θ ) = exp ( ( S c o r e ( x , t ; θ ) ) Σ exp ( ( S c o r e ( x , t ; θ ) ) ,
S c o r e ( x , [ t a , t b ] ; θ ) = Σ 1 ≤ i ≤ n θ . f ( x , i , [ t i - 1 a , t i - 1 b ] , [ t i a , t i b ] ) f ( x , i , t i - 1 a , t i a ) f ( x , i , t i - 1 b , t i b )
其中,第一项扩展的特征向量为联合特征,第二和第三项为独立特征,基于单个词性集。X表示训练数据中的词语,i表示焦点词的位置,t表示词语词性,a和b表示异构标注数据库,f表示特征向量,θ表示特征权重向量。
需要说明的是,在转换训练数据时,由于一个词语有多个词性,因而会组成一个耦合标注序列。
将耦合标记序列记为V(例如,“发展”的耦合标记序列V为{[NN,v][NN,Ng][NN,vn]})。V的概率是在V中所有词性标记序列的概率之和,即 p ( V | x ; θ ) = Σ t ∈ V p ( t | x ; θ ) .
假设训练数据D={(xi,Vi)}N i=1,则似然函数为:
经求导,该似然函数的梯度为: δ L ( D ; θ ) δ θ = Σ i N ( E t ∈ V i [ f ( x i , t ) ] - E t [ f ( x i , t ) ] )
其中,f(xi,t)是将xi标记为t的联合特征向量;是模型在受限空间Vi上的特征期望;Et[ ]是在非受限空间上的模型期望。
根据上述公式可计算出CRF词性标注模型中权利向量θ,即完成对CRF词性标注模型的训练。
可选的,为了保证词性标注的准确性,本发明的其他实施例中,在上述得到权重向量θ后还需要对该权重向量进行优化处理。如可采用随机梯度下降算法,对所述权重向量进行优化处理。
105:采用训练后的CRF词性标注模型对样本数据进行词性标注。
本发明公开了一种基于异构数据库的耦合词性标注方法。该方法根据预设映射规则对异构数据库的词性标注集进行映射处理,建立耦合词性标注集。进而,利用该耦合词性标注集对训练数据进行转换,并采用耦合词性标注集标注的训练数据对CRF词性标注模型进行训练,以使训练后的CRF词性标注模型能够自动挖掘识别异构数据中不同的词性标记间的映射关系。与现有技术相比,本发明通过一次建模过程即可完成异构数据库之间词性标注的识别和转换过程,提高了词性标注的鲁棒性和准确率。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种基于异构数据库的耦合词性标注方法,其特征在于,包括:
获取两种异构标注数据库各自的词性标记集;
根据预设映射规则,建立两个词性标记集之间的耦合词性标注集;
利用所述耦合词性标注集对训练数据进行转换;
根据已转换的所述训练数据对预设的CRF词性标注模型进行训练;
采用训练后的CRF词性标注模型对样本数据进行词性标注。
2.根据权利要求1所述的方法,其特征在于,所述根据已转换的所述训练数据对预设的CRF词性标注模型进行训练,包括:
获取所述训练数据的特征向量,所述特征向量包括联合特征向量和独立特征向量;
根据所述训练数据的特征向量,确定预设的所述CRF词性标注模型的目标函数;
其中所述目标函数为:
P ( t | x ; θ ) = exp ( ( S c o r e ( x , t ; θ ) ) Σ exp ( ( S c o r e ( x , t ; θ ) ) ,
S c o r e ( x , [ t a , t b ] ; θ ) = Σ 1 ≤ i ≤ n θ . f ( x , i , [ t t - 1 a , t i - 1 b ] , [ t i a , t i b ] ) f ( x , i , t i - 1 a , t i a ) f ( x , i , t i - 1 b , t i b ) ;
X表示训练数据中的词语,i表示焦点词的位置,t表示词语词性,a和b表示异构标注数据库,f表示特征向量,θ表示特征权重向量;
按照预设算法对所述目标函数进行处理,计算所述特征向量对应的权重向量,以实现对所述CRF词性标注模型的训练。
3.根据权利要求2所述的方法,其特征在于,所述按照预设算法对所述目标函数进行处理,计算所述特征向量对应的权重向量,包括:
获取已转换的训练数据的似然函数其中 p ( V | x ; θ ) = Σ t ∈ V p ( t | x ; θ ) , V表示词语x的耦合词性标注集;
其中求导方程为: δ L ( D ; θ ) δ θ = Σ i N ( E t ∈ V i [ f ( x i , t ) ] - E t [ f ( x i , t ) ] ) ;
f(xi,t)是将xi标记为t的联合特征向量;[]是模型在受限空间Vi上的特征期望;Et[]是在非受限空间上的模型期望。
4.根据权利要求3所述的方法,其特征在于,对已转换的训练数据的似然函数进行求导计算,得到所述特征向量对应的权重向量,之后还包括:
利用随机梯度下降算法,对所述权重向量进行优化处理。
CN201510422718.4A 2015-07-17 2015-07-17 一种基于异构数据库的耦合词性标注方法 Pending CN104965820A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510422718.4A CN104965820A (zh) 2015-07-17 2015-07-17 一种基于异构数据库的耦合词性标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510422718.4A CN104965820A (zh) 2015-07-17 2015-07-17 一种基于异构数据库的耦合词性标注方法

Publications (1)

Publication Number Publication Date
CN104965820A true CN104965820A (zh) 2015-10-07

Family

ID=54219856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510422718.4A Pending CN104965820A (zh) 2015-07-17 2015-07-17 一种基于异构数据库的耦合词性标注方法

Country Status (1)

Country Link
CN (1) CN104965820A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105872855A (zh) * 2016-05-26 2016-08-17 广州酷狗计算机科技有限公司 视频文件的标注方法及装置
CN106202030A (zh) * 2016-06-23 2016-12-07 苏州大学 一种基于异构标注数据的快速序列标注方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注***及其方法
KR20100069120A (ko) * 2008-12-16 2010-06-24 한국전자통신연구원 운율 모델을 이용한 형태소 품사 태깅 방법 및 그 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注***及其方法
KR20100069120A (ko) * 2008-12-16 2010-06-24 한국전자통신연구원 운율 모델을 이용한 형태소 품사 태깅 방법 및 그 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHENGHUA LI等: "Joint Optimization for Chinese POS Tagging and Dependency Parsing", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
孟凡东等: "异种语料融合方法:基于统计的中文词法分析应用", 《中文信息学报》 *
高恩婷等: "面向词性标注的多资源转化研究", 《北京大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105872855A (zh) * 2016-05-26 2016-08-17 广州酷狗计算机科技有限公司 视频文件的标注方法及装置
CN106202030A (zh) * 2016-06-23 2016-12-07 苏州大学 一种基于异构标注数据的快速序列标注方法及装置
CN106202030B (zh) * 2016-06-23 2020-05-22 苏州大学 一种基于异构标注数据的快速序列标注方法及装置

Similar Documents

Publication Publication Date Title
CN106777275B (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN106055675B (zh) 一种基于卷积神经网络和距离监督的关系抽取方法
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN109033374A (zh) 基于贝叶斯分类器的知识图谱检索方法
CN104881401A (zh) 一种专利文献聚类方法
CN107153640A (zh) 一种面向初等数学领域的分词方法
CN110059196A (zh) 一种医学健康领域知识图谱的关系抽取方法及***
CN106485271A (zh) 一种基于多模态字典学习的零样本分类方法
CN104517106A (zh) 一种列表识别方法与***
CN107992476B (zh) 面向句子级生物关系网络抽取的语料库生成方法及***
CN106202030A (zh) 一种基于异构标注数据的快速序列标注方法及装置
CN110866125A (zh) 基于bert算法模型的知识图谱构建***
CN111710428B (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN104598510A (zh) 一种事件触发词识别方法及装置
CN111523420A (zh) 基于多任务深度神经网络的表头分类与表头列语义识别方法
CN109299281A (zh) 知识点标签的标注方法
CN109684645A (zh) 中文分词方法及装置
CN111221976A (zh) 基于bert算法模型的知识图谱构建方法
CN109388805A (zh) 一种基于实体抽取的工商变更分析方法
CN109446523A (zh) 基于BiLSTM和条件随机场的实体属性抽取模型
CN104965820A (zh) 一种基于异构数据库的耦合词性标注方法
Zhang et al. SVM based extraction of spatial relations in text
CN103699568B (zh) 一种从维基中抽取领域术语间上下位关系的方法
CN102799667A (zh) 一种基于非对称距离下的层次聚类方法
CN110362693A (zh) 一种业扩工程图纸知识图谱构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151007

RJ01 Rejection of invention patent application after publication