CN104965820A

CN104965820A - 一种基于异构数据库的耦合词性标注方法

Info

Publication number: CN104965820A
Application number: CN201510422718.4A
Authority: CN
Inventors: 李正华; 张民; 陈文亮; 巢佳媛
Original assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Current assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date: 2015-07-17
Filing date: 2015-07-17
Publication date: 2015-10-07

Abstract

本发明公开了一种基于异构数据库的耦合词性标注方法。该方法根据预设映射规则对异构数据库的词性标注集进行映射处理，建立耦合词性标注集。进而，利用该耦合词性标注集对训练数据进行转换，并采用耦合词性标注集标注的训练数据对CRF词性标注模型进行训练，以使训练后的CRF词性标注模型能够自动挖掘识别异构数据中不同的词性标记间的映射关系。与现有技术相比，本发明通过一次建模过程即可完成异构数据库之间词性标注的识别和转换过程，提高了词性标注的鲁棒性和准确率。

Description

一种基于异构数据库的耦合词性标注方法

技术领域

本发明涉及语料标注领域，更具体的说是涉及一种基于异构数据库的耦合词性标注方法。

背景技术

异构数据库的存在对缓解数据稀疏提供了新的契机。例如：宾州中文树库(CTB)包含了2万个标注句子，包含词边界、词性和句法结构，被广泛用于中文分词和词性标注研究。***语料(PD)是一个大规模标注了分词和词性的语料。两数据资源构建目的不同，CTB是为句法分析而设计，PD则是用于支持信息提取***。如何利用这两个资源进行研究，其主要挑战是两数据词性标注集不同，且相互之间不能用启发式规则实现转化。

当前，主要基于指导特征的方法实现不同标注数据之间的转化，其基本思想是从一个数据上获取指导特征用于另一个数据。具体为：将第一数据作为源端数据训练一个源端词性标注模型，基于该源端词性标注模型对第二数据的词性进行标注，作为第二数据的指导特征。基于该指导特征，将第二数据作为目标端数据训练一个目标端词性标注模型。在实际应用中，该方法需要两次建立词性标注模型，词性标注的工作效率低。

发明内容

有鉴于此，本发明提供一种基于异构数据库的耦合词性标注方法，以提高词性标注的工作效率。

为实现上述目的，本发明提供如下技术方案：

一种基于异构数据库的耦合词性标注方法，包括：

获取两种异构标注数据库各自的词性标记集；

根据预设映射规则，建立两个词性标记集之间的耦合词性标注集；

利用所述耦合词性标注集对训练数据进行转换；

根据已转换的所述训练数据对预设的CRF词性标注模型进行训练；

采用训练后的CRF词性标注模型对样本数据进行词性标注。

优选的，所述根据已转换的所述训练数据对预设的CRF词性标注模型进行训练，包括：

获取所述训练数据的特征向量，所述特征向量包括联合特征向量和独立特征向量；

根据所述训练数据的特征向量，确定预设的所述CRF词性标注模型的目标函数；

其中所述目标函数为：

P (t | x; θ) = \frac{\exp ((S c o r e (x, t; θ))}{Σ \exp ((S c o r e (x, t; θ))},

S c o r e (x, [t^{a}, t^{b}]; θ) = \underset{1 \leq i \leq n}{Σ} θ . [\begin{matrix} f (x, i, [{t_{i - 1}}^{a}, {t_{i - 1}}^{b}], [{t_{i}}^{a}, {t_{i}}^{b}]) \\ f (x, i, t_{i - 1}^{a}, t_{i}^{a}) \\ f (x, i, t_{i - 1}^{b}, t_{i}^{b}) \end{matrix}];

X表示训练数据中的词语，i表示焦点词的位置，t表示词语词性，a和b表示异构标注数据库，f表示特征向量，θ表示特征权重向量；

按照预设算法对所述目标函数进行处理，计算所述特征向量对应的权重向量，以实现对所述CRF词性标注模型的训练。

优选的，所述按照预设算法对所述目标函数进行处理，计算所述特征向量对应的权重向量，包括：

获取已转换的训练数据的似然函数其中V表示词语x的耦合词性标注集；

其中求导方程为：

\frac{δ L (D; θ)}{δ θ} = Σ_{i}^{N} (E_{t &Element; V_{i}} [f (x_{i}, t)] - E_{t} [f (x_{i}, t)]);

f(x_i,t)是将x_i标记为t的联合特征向量；是模型在受限空间V_i上的特征期望；E_t[ ]是在非受限空间上的模型期望。

优选的，对转换注的训练数据的似然函数进行求导计算，得到所述特征向量对应的权重向量，之后还包括：

利用随机梯度下降算法，对所述权重向量进行优化处理。

经由上述的技术方案可知，本发明公开了一种基于异构数据库的耦合词性标注方法。该方法根据预设映射规则对异构数据库的词性标注集进行映射处理，建立耦合词性标注集。进而，利用该耦合词性标注集对训练数据进行转换，并采用耦合词性标注集标注的训练数据对CRF词性标注模型进行训练，以使训练后的CRF词性标注模型能够自动挖掘识别异构数据中不同的词性标记间的映射关系。与现有技术相比，本发明通过一次建模过程即可完成异构数据库之间词性标注的识别和转换过程，提高了词性标注的鲁棒性和准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明一个实施例公开的一种基于异构数据库的耦合词性标注方法的流程示意图；

图2示出了本发明一个实施例公开的耦合词性标注集建立示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1示出了本发明一个实施例公开的一种基于异构数据库的耦合词性标注方法。

由图1可知，该方法包括：

101：获取两种异构标注数据库各自的词性标记集。

102：根据预设映射规则，建立两个词性标记集之间的耦合词性标注集。

下面以CTB和PD两种异构数据库为列，介绍如何建立耦合词性标注集。

我们定义CTB词性集为T^a,PD词性集为T^b，耦合词性集为T^a&b。完整的笛卡尔积T^a×T^b会形成一个大规模的耦合词性集，导致模型变慢。鉴于此问题，我们基于两数据集的标记规范的语言信息构建了一个规模小一点的耦合词性集

为了得到合适的T^a&b，我们引入了两词性集之间的映射函数m，一个映射函数m对应一个T^a&b。映射函数越宽松，|T^a&b|的标记集合则越大。以图2中的句子举例。单词“发展4”在CTB词性集里标注为“NN”，假设映射函数m:“NN”可以和PD词性集中的三个标记映射，例如，“n”、“Ng”、“vn”。因此，以该词构建耦合词性集可以得到：“[NN,n]”、“[NN,Ng]”、“[NN,vn]”，用于训练阶段参照。在训练实例中可以有多个不同规范的词性。在此基础上，我们为CTB和PD所有数据建立了耦合词性，实现耦合转化之后，这两词性集处在同一词性标记空间中。

103：利用所述耦合词性标注集对训练数据进行标注。

这里只给出了“发展”多个耦合词性标记，其他词只是列举一个耦合标记

104：根据已标的所述训练数据对预设的CRF词性标注模型进行训练。

不同于传统模型的，我们的耦合的CRF词性标注模型的目标函数表示为：

P (t | x; θ) = \frac{\exp ((S c o r e (x, t; θ))}{Σ \exp ((S c o r e (x, t; θ))},

S c o r e (x, [t^{a}, t^{b}]; θ) = \underset{1 \leq i \leq n}{Σ} θ . [\begin{matrix} f (x, i, [{t_{i - 1}}^{a}, {t_{i - 1}}^{b}], [{t_{i}}^{a}, {t_{i}}^{b}]) \\ f (x, i, t_{i - 1}^{a}, t_{i}^{a}) \\ f (x, i, t_{i - 1}^{b}, t_{i}^{b}) \end{matrix}]

其中，第一项扩展的特征向量为联合特征，第二和第三项为独立特征，基于单个词性集。X表示训练数据中的词语，i表示焦点词的位置，t表示词语词性，a和b表示异构标注数据库，f表示特征向量，θ表示特征权重向量。

需要说明的是，在转换训练数据时，由于一个词语有多个词性，因而会组成一个耦合标注序列。

将耦合标记序列记为V(例如，“发展”的耦合标记序列V为{[NN,v][NN,Ng][NN,vn]})。V的概率是在V中所有词性标记序列的概率之和，即

p (V | x; θ) = \underset{t &Element; V}{Σ} p (t | x; θ) .

假设训练数据D＝{(x_i,V_i)}^N _i＝1，则似然函数为：

经求导，该似然函数的梯度为：

\frac{δ L (D; θ)}{δ θ} = Σ_{i}^{N} (E_{t &Element; V_{i}} [f (x_{i}, t)] - E_{t} [f (x_{i}, t)])

其中，f(x_i,t)是将x_i标记为t的联合特征向量；是模型在受限空间V_i上的特征期望；E_t[ ]是在非受限空间上的模型期望。

根据上述公式可计算出CRF词性标注模型中权利向量θ，即完成对CRF词性标注模型的训练。

可选的，为了保证词性标注的准确性，本发明的其他实施例中，在上述得到权重向量θ后还需要对该权重向量进行优化处理。如可采用随机梯度下降算法，对所述权重向量进行优化处理。

105：采用训练后的CRF词性标注模型对样本数据进行词性标注。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于异构数据库的耦合词性标注方法，其特征在于，包括：

获取两种异构标注数据库各自的词性标记集；

利用所述耦合词性标注集对训练数据进行转换；

采用训练后的CRF词性标注模型对样本数据进行词性标注。

2.根据权利要求1所述的方法，其特征在于，所述根据已转换的所述训练数据对预设的CRF词性标注模型进行训练，包括：

其中所述目标函数为：

P (t | x; θ) = \frac{\exp ((S c o r e (x, t; θ))}{Σ \exp ((S c o r e (x, t; θ))},

S c o r e (x, [t^{a}, t^{b}]; θ) = \underset{1 \leq i \leq n}{Σ} θ . [\begin{matrix} f (x, i, [{t_{t - 1}}^{a}, {t_{i - 1}}^{b}], [{t_{i}}^{a}, {t_{i}}^{b}]) \\ f (x, i, t_{i - 1}^{a}, t_{i}^{a}) \\ f (x, i, t_{i - 1}^{b}, t_{i}^{b}) \end{matrix}];

3.根据权利要求2所述的方法，其特征在于，所述按照预设算法对所述目标函数进行处理，计算所述特征向量对应的权重向量，包括：

获取已转换的训练数据的似然函数其中

p (V | x; θ) = \underset{t &Element; V}{Σ} p (t | x; θ),

V表示词语x的耦合词性标注集；

其中求导方程为：

\frac{δ L (D; θ)}{δ θ} = Σ_{i}^{N} (E_{t &Element; V_{i}} [f (x_{i}, t)] - E_{t} [f (x_{i}, t)]);

f(x_i,t)是将x_i标记为t的联合特征向量；[]是模型在受限空间V_i上的特征期望；E_t[]是在非受限空间上的模型期望。

4.根据权利要求3所述的方法，其特征在于，对已转换的训练数据的似然函数进行求导计算，得到所述特征向量对应的权重向量，之后还包括：

利用随机梯度下降算法，对所述权重向量进行优化处理。