CN103116573A

CN103116573A - 一种基于词汇注释的领域词典自动扩充方法

Info

Publication number: CN103116573A
Application number: CN2013100466473A
Authority: CN
Inventors: 黄河燕; 史树敏; 朱朝勇
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-02-06
Filing date: 2013-02-06
Publication date: 2013-05-22
Anticipated expiration: 2033-02-06
Also published as: CN103116573B

Abstract

本发明涉及到一种基于词汇注释的领域词典自动扩充方法，属于自然语言处理技术领域。其步骤为：①通过分析领域词典所属领域间的相关度，生成一棵领域分类树。②为每一个待扩充的领域词典获取一个训练集。③对训练集进行预处理，得到语料特征集。④统计每个节点对应的语料特征集中每个词汇在该语料特征集中出现的次数以及其子节点对应的语料特征集中包含某一词汇的语料特征集的个数。⑤计算各语料特征集中每个词汇的置信度。⑥将新词汇加入到待扩充的领域词典中。本发明提出的基于词汇注释的领域词典自动扩充方法不需要人工搜集领域语料库，因此避免了受领域语料库的质量和规模的局限以及领域语料库非平衡性的影响。

Description

一种基于词汇注释的领域词典自动扩充方法

技术领域

本发明涉及到一种领域词典的自动扩充方法，特别涉及一种基于词汇注释的领域词典自动扩充方法，属于自然语言处理技术领域。

背景技术

领域词典(Domain Dictionary)是指特定领域特有的术语或表达方式的集合。领域词典是自然语言处理的基本资源，领域知识被广泛应用于机器翻译、信息检索、数据挖掘以及文本分类等多种任务的词义消歧、句法分析等环节，领域词典的规模及质量直接关系到相关应用的性能。

领域词典的构建和扩充方法按照自动化程度可以分为三类：基于专家知识的人工构建和扩充方法，半自动生成和扩充方法和全自动生成和扩充方法。人工构建和扩充方法准确率高，但是需要大量的领域专家长时间参与，人工成本和时间成本太高，且缺乏实时性。全自动生成和扩充方法通过分析词汇在不同领域语料库中统计特性的差异，判定词汇的领域属性，该方法无需领域专家的参与，节省了大量的人工成本，但是词典收录的准确率不高。半自动的生成和扩充方法介于人工编撰和全自动生成方法之间，通过领域专家指定少量的领域知识，实现领域词典的自动扩充。现有的半自动和全自动的领域词典方法大多需要领域语料库的支持，所生成的领域词典的质量依赖于所采用的领域语料库的质量，领域词典的完备性受到领域语料库规模的限制，同时，考虑到语料库非平衡性的影响，词语的领域标注更容易向语料库规模大的领域偏斜。上述两种方法都未能有效地利用已有的词典资源，并且未考虑领域之间的相关性。

发明内容

本发明的目的是针对目前已有领域词典自动扩充方法存在的不足，提出一种基于词汇注释的领域词典自动扩充方法。

本发明的目的是通过如下技术方案实现的。

一种基于词汇注释的领域词典自动扩充方法，其具体操作步骤为：

步骤一、通过分析领域词典所属领域间的相关度，生成一棵领域分类树。具体为：

步骤1.1：用符号D表示待处理节点集合，并设定待处理节点集合的初始状态为空；

步骤1.2：将每个待扩充的领域词典分别作为一个节点放入到待处理节点集合中。节点名称为该领域词典的名称，节点内容为该领域词典中的全部词条；所述词条包括词汇及该词汇的解释信息。

步骤1.3：通过公式（1）分别计算待处理节点集合中的任意两个节点所代表的领域词典所属领域间的相关度，用符号R(d₁,d₂)表示。

R (d_{1}, d_{2}) = \frac{| d_{1} \cap d_{2} |}{\min (| d_{1}, d_{2} |)} - - - (1)

其中，R(d₁,d₂)表示待处理节点集合中某一领域词典（用符号D₁表示）的所属领域（用符号d₁表示）和另一领域词典（用符号D₂表示）的所属领域（用符号d₂表示）的相关度；|d₁∩d₂|表示领域词典D₁和领域词典D₂所包含的相同词汇的个数；min(|d₁,d₂|)表示领域词典D₁和领域词典D₂中数量较少的领域词典所包含的词汇个数。

步骤1.4：从步骤1.3中得到的待处理节点集合中的任意两个节点所代表的领域词典间的相关度R(d₁,d₂)中找出最大值，用符号R_max表示；该最大值R_max对应的两个领域词典分别用符号D₁′和D₂′表示，领域词典D₁′和D₂′的所属领域分别用符号d₁′和d₂′表示，领域词典D₁′和D₂′的中的内容分别用符号c₁和c₂表示。

步骤1.5：将领域词典D₁′和D₂′中的词条和并，并给和并后的词典定义一个新的名称，用D_new表示；该和并后的词典D_new的内容用符号c_new表示，c_new＝c₁∪c₂。然后建立一个新节点，新节点的名称为D_new，新节点的内容为c_new。领域词典D₁′和D₂′作为节点D_new的子节点。

步骤1.6：将新节点D_new加入到待处理节点集合中，并将节点D₁′和D₂′从待处理节点集合中删除。

步骤1.7：统计待处理节点集合中节点的个数，用符号N表示。如果N≥2，则返回到步骤1.3；否则，结束操作。

经过上述步骤的操作，即得到一棵领域分类树。

步骤二、为每一个待扩充的领域词典获取一个训练集。

此步骤可以与步骤一同步操作：确定一个带注释的通用电子词典，然后对于每个待扩充的领域词典中的词汇，分别做如下操作：依次从带注释的通用电子词典中查找该领域词典中的每个词汇，然后将每个词汇对应的注释作为一条训练数据放入该领域对应的训练集中，即可得到该领域的训练集。

经过步骤二的操作，对应一个待扩充的领域词典，可得到一个待扩充的领域词典所属领域对应的训练集。

步骤三、对训练集进行预处理，得到语料特征集。

在步骤二操作的基础上，依次对每个待扩充的领域词典的训练集中的训练语料进行预处理，得到该领域的训练集对应的语料特征集，具体为：对某一个领域的训练集中的每条训练数据进行分词、短语抽取、词形还原以及去停用词等预处理，获得该条训练数据对应的一组词汇，称为语料特征子集。该领域的训练集中的全部训练数据对应的语料特征子集的集合称为该领域词典对应的语料特征集。

步骤四、在步骤一和步骤三的基础上，对于步骤一得到的领域分类树上的叶子节点，统计每个叶子节点对应的语料特征集中每个词汇在该语料特征集中出现的次数。对于非叶子节点，首先将每个非叶子节点的子节点的语料特征集进行和并，将合并的结果作为该非叶子节点的语料特征集，然后统计以下数据：①该非叶子节点的语料特征集中每个词汇在该非叶子节点的语料特征集中出现的次数；②对于该非叶子节点的语料特征集中每个词汇，该非叶子节点的子节点对应的语料特征集中包含该词汇的语料特征集的个数。

步骤五、在步骤四操作的基础上，根据公式（2）计算各语料特征集中每个词汇的置信度。

wdc = \frac{wd}{Σwd} \times \log (\frac{wd}{dt} + 1) - - - (2)

其中，wdc表示某一领域（用符号d表示）对应的语料特征集中的某一个词汇（用符号w表示）的置信度；wd表示词汇w在领域d中出现的次数；Σwd表示词汇w所在的语料特征集的对应节点的父节点对应的语料特征集中出现的总次数；dt表示词汇w所在的语料特征集的对应节点的兄弟节点对应的语料特征集中包含该词汇w的语料特征集的个数。

步骤六、将新词汇加入到待扩充的领域词典中。

在步骤五操作的基础上，将步骤二中所述带注释的通用电子词典中新收录的词汇作为新词汇，添加到待扩充的领域词典中，具体操作步骤为：

步骤6.1：对新词汇的注释进行分词、短语抽取、词形还原以及去停用词等预处理，获得该词汇注释对应的一组词汇，用n表示该组词汇的数量。

步骤6.2：将领域分类树中的根节点作为当前节点。

步骤6.3：根据公式（3）依次计算新词汇与领域分类树中的当前节点的每一个子节点对应的领域之间的归属度，并找出其中的最大值，用符号sdc_max表示。

{sdc}_{k} = m_{k} \times Π_{j = 1}^{n} {wdc}_{jk} - - - (3)

其中，sdc_k表示新词汇与领域分类树中当前节点的每个子节点对应的领域（用符号k表示）之间的归属度；wdc_jk表示新词汇注释对应的一组词汇中第j个词汇与领域k的置信度；m_k表示新词汇注释对应的n个词汇中，在领域k的置信度最高的个数。

步骤6.4：如果步骤6.3得到的归属度的最大值sdc_max大于预先指定的阈值，则进一步判断该最大值sdc_max对应的节点是否为叶子节点，如果是叶子节点，则将新词汇添加到该节点对应的领域词典中；如果不是叶子节点，则将该最大值sdc_max对应的节点作为当前节点，然后返回到步骤6.3。如果步骤6.3得到的归属度的最大值sdc_max不大于预先指定的阈值，则将新词汇作为普通词汇，不添加到任何一个待扩充的领域词典中，结束操作。

经过上述步骤的操作，即可实现对领域词典的自动扩充。

有益效果

本发明提出基于词汇注释的领域词典自动扩充方法与已有的领域词典自动扩充方法相比较，其优点是不需要人工搜集领域语料库，因此避免了受领域语料库的质量和规模的局限以及领域语料库非平衡性的影响。

附图说明

图1为本发明具体实施方式中的领域分类树。

具体实施方式

下面结合附图和具体实施例，对本发明做进一步的详细描述。

华建机器翻译词典中通信、航空、机械和计算机四个领域词典的词汇信息及词典间的交集如表1所示。表1中，通信、航空、机械和计算机四个领域的领域词典中分别包含12626个词汇、7592个词汇、19250个词汇、5156个词汇。通信和航空领域词典的交集数量为4432个；通信和机械领域词典的交集数量为6210个；通信和计算机的交集数量为2705个；航空和机械领域词典的交集数量为4908个；航空和计算机领域词典的交集数量为2064个；机械和计算机的交集数量为2383个。

表1四个领域词典的词汇信息及词典间的交集情况表

	通信	航空	机械	计算机
					通信	12626	4432	6210	2705
航空	4432	7592	4908	2064
					机械	6210	4908	19250	2383
计算机	2705	2064	2383	5156

使用本发明提出的基于词汇注释的领域词典自动扩充方法对华建机器翻译词典中通信、航空、机械和计算机四个领域词典自动扩充，其具体操作步骤为：

步骤1.1：设定待处理节点集合D的初始状态为空；

步骤1.2：将“通信”、“航空”、“机械”和“计算机”四个领域词典分别作为一个节点放入到待处理节点集合中。节点名称为该领域词典的名称，节点内容为该领域词典中的全部词条；所述词条包括词汇及该词汇的解释信息。

步骤1.3：通过公式（1）分别计算待处理节点集合中的任意两个节点所代表的领域词典所属领域间的相关度R(d₁,d₂)。

步骤1.4：通过计算可知相关度最高的两个领域为航空和机械。

步骤1.5：将航空和机械合并成一个节点，计算新的节点“航空&机械”分别同计算机和通信的相关度

步骤1.6：将新节点“航空&机械”加入到待处理节点集合中，并将“航空”和“机械”从待处理节点集合中删除。

步骤1.7：待处理节点集合中节点的个数为3，然后重复步骤1.3至1.7。直到待处理节点集合中只有一个节点，即可得到一棵领域分类树，如图1所示。领域分类树的根节点Root有两个子节点，分别是“航空&机械”和“通信&计算机”；节点“航空&机械”下有两个子节点，分别是“航空”和“机械”；节点“通信&计算机”下有两个子节点，分别是“通信”和“计算机”。

步骤二、为每一个待扩充的领域词典获取一个训练集。

步骤三、对训练集进行预处理，得到语料特征集。

步骤六、将新词汇加入到待扩充的领域词典中。

步骤6.2：将领域分类树中的根节点作为当前节点。

步骤6.3：根据公式（3）依次计算新词汇与领域分类树中的当前节点的每一个子节点对应的领域之间的归属度，并找出其中的最大值sdc_max。

步骤6.4：如果步骤6.3得到的归属度的最大值sdc_max大于预先指定的阈值0.7，则进一步判断该最大值sdc_max对应的节点是否为叶子节点，如果是叶子节点，则将新词汇添加到该节点对应的领域词典中；如果不是叶子节点，则将该最大值sdc_max对应的节点作为当前节点，然后返回到步骤6.3。如果步骤6.3得到的归属度的最大值sdc_max不大于预先指定的阈值，则将新词汇作为普通词汇，不添加到任何一个待扩充的领域词典中，结束操作。

经过上述步骤的操作，即可实现对领域词典的自动扩充。

Claims

1.一种基于词汇注释的领域词典自动扩充方法，其特征在于：其具体操作步骤为：

步骤一、通过分析领域词典所属领域间的相关度，生成一棵领域分类树；具体为：

步骤1.2：将每个待扩充的领域词典分别作为一个节点放入到待处理节点集合中；节点名称为该领域词典的名称，节点内容为该领域词典中的全部词条；所述词条包括词汇及该词汇的解释信息；

步骤1.3：通过公式（1）分别计算待处理节点集合中的任意两个节点所代表的领域词典所属领域间的相关度；

R (d_{1}, d_{2}) = \frac{| d_{1} \cap d_{2} |}{\min (| d_{1}, d_{2} |)} - - - (1)

其中，R(d₁,d₂)表示待处理节点集合中某一领域词典D₁的所属领域d₁和另一领域词典D₂的所属领域d₂的相关度；|d₁∩d₂|表示领域词典D₁和领域词典D₂所包含的相同词汇的个数；min(|d₁,d₂|)表示领域词典D₁和领域词典D₂中数量较少的领域词典所包含的词汇个数；

步骤1.4：从步骤1.3中得到的待处理节点集合中的任意两个节点所代表的领域词典间的相关度R(d₁,d₂)中找出最大值，用符号R_max表示；该最大值R_max对应的两个领域词典分别用符号D₁′和D₂′表示，领域词典D₁′和D₂′的所属领域分别用符号d₁′和d₂′表示，领域词典D₁′和D₂′的中的内容分别用符号c₁和c₂表示；

步骤1.5：将领域词典D₁′和D₂′中的词条和并，并给和并后的词典定义一个新的名称，用D_new表示；该和并后的词典D_new的内容用符号c_new表示，c_new＝c₁∪c₂；然后建立一个新节点，新节点的名称为D_new，新节点的内容为c_new；领域词典D₁′和D₂′作为节点D_new的子节点；

步骤1.6：将新节点D_new加入到待处理节点集合中，并将节点D₁′和D₂′从待处理节点集合中删除；

步骤1.7：统计待处理节点集合中节点的个数，用符号N表示；如果N≥2，则返回到步骤1.3；否则，结束操作；

经过上述步骤的操作，即得到一棵领域分类树；

步骤二、为每一个待扩充的领域词典获取一个训练集；

此步骤可以与步骤一同步操作：确定一个带注释的通用电子词典，然后对于每个待扩充的领域词典中的词汇，分别做如下操作：依次从带注释的通用电子词典中查找该领域词典中的每个词汇，然后将每个词汇对应的注释作为一条训练数据放入该领域对应的训练集中，即可得到该领域的训练集；

经过步骤二的操作，对应一个待扩充的领域词典，可得到一个待扩充的领域词典所属领域对应的训练集；

步骤三、对训练集进行预处理，得到语料特征集；

在步骤二操作的基础上，依次对每个待扩充的领域词典的训练集中的训练语料进行预处理，得到该领域的训练集对应的语料特征集，具体为：对某一个领域的训练集中的每条训练数据进行预处理，获得该条训练数据对应的一组词汇，称为语料特征子集；该领域的训练集中的全部训练数据对应的语料特征子集的集合称为该领域词典对应的语料特征集；

所述预处理包括分词、短语抽取、词形还原和去停用词；

步骤四、在步骤一和步骤三的基础上，对于步骤一得到的领域分类树上的叶子节点，统计每个叶子节点对应的语料特征集中每个词汇在该语料特征集中出现的次数；对于非叶子节点，首先将每个非叶子节点的子节点的语料特征集进行和并，将合并的结果作为该非叶子节点的语料特征集，然后统计以下数据：①该非叶子节点的语料特征集中每个词汇在该非叶子节点的语料特征集中出现的次数；②对于该非叶子节点的语料特征集中每个词汇，该非叶子节点的子节点对应的语料特征集中包含该词汇的语料特征集的个数；

步骤五、在步骤四操作的基础上，根据公式（2）计算各语料特征集中每个词汇的置信度；

wdc = \frac{wd}{Σwd} \times \log (\frac{wd}{dt} + 1) - - - (2)

其中，wdc表示某一领域d对应的语料特征集中的某一个词汇w的置信度；wd表示词汇w在领域d中出现的次数；Σwd表示词汇w所在的语料特征集的对应节点的父节点对应的语料特征集中出现的总次数；dt表示词汇w所在的语料特征集的对应节点的兄弟节点对应的语料特征集中包含该词汇w的语料特征集的个数；

步骤六、将新词汇加入到待扩充的领域词典中；

步骤6.1：对新词汇的注释进行预处理，获得该词汇注释对应的一组词汇，用n表示该组词汇的数量；

所述预处理包括分词、短语抽取、词形还原和去停用词；

步骤6.2：将领域分类树中的根节点作为当前节点；

步骤6.3：根据公式（3）依次计算新词汇与领域分类树中的当前节点的每一个子节点对应的领域之间的归属度，并找出其中的最大值，用符号sdc_max表示；

{sdc}_{k} = m_{k} \times Π_{j = 1}^{n} {wdc}_{jk} - - - (3)

其中，sdc_k表示新词汇与领域分类树中当前节点的每个子节点对应的领域k之间的归属度；wdc_jk表示新词汇注释对应的一组词汇中第j个词汇与领域k的置信度；m_k表示新词汇注释对应的n个词汇中，在领域k的置信度最高的个数；

步骤6.4：如果步骤6.3得到的归属度的最大值sdc_max大于预先指定的阈值，则进一步判断该最大值sdc_max对应的节点是否为叶子节点，如果是叶子节点，则将新词汇添加到该节点对应的领域词典中；如果不是叶子节点，则将该最大值sdc_max对应的节点作为当前节点，然后返回到步骤6.3；如果步骤6.3得到的归属度的最大值sdc_max不大于预先指定的阈值，则将新词汇作为普通词汇，不添加到任何一个待扩充的领域词典中，结束操作；

经过上述步骤的操作，即可实现对领域词典的自动扩充。