CN106445917B

CN106445917B - 一种基于模式的自举中文实体抽取方法

Info

Publication number: CN106445917B
Application number: CN201610848425.7A
Authority: CN
Inventors: 姜晓夏; 葛唯益; 杨岩; 贺成龙; 宗士强; 徐琳; 王羽
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2016-09-23
Filing date: 2016-09-23
Publication date: 2019-02-19
Anticipated expiration: 2036-09-23
Also published as: CN106445917A

Abstract

本发明公开了一种基于模式的自举中文实体抽取方法，从少量种子实体、实体内部模式、实体外部模式出发，迭代式的从语料中学习出更多的实体和模式。本发明是一种统计与模式相结合的方法，优点在于无需依赖大量的人工标注语料或领域模式库，与现有的模式自举的方法相比，本发明基于对特定领域实体类型模式的观察，将实体内部模式和特征用于对候选模式及无法准确标注的实体进行分数评估，进而提升模式和实体评分的精确程度，适用于特定领域实体抽取和知识库构建。

Description

一种基于模式的自举中文实体抽取方法

技术领域

本发明涉及中文自然语言处理技术，特别是涉及一种基于模式的自举中文实体抽取方法。

背景技术

命名实体识别(又称为实体抽取)是自然语言处理的一个基础任务，广泛应用于信息抽取、问答、机器翻译等应用中，于1996年举办的第六届MUC会议被首次提出。最初，其目的在于识别语料中人名、地名、组织机构名等命名实体，随着应用领域的扩展，实体类别的定义和扩展带来了很大的挑战。命名实体识别的主要技术方法分为：基于模式的方法、基于统计的方法、两者结合的方法。基于统计的方法在学术界被广泛研究，通常用于领域无关的实体抽取；基于模式的方法是产业界应用的主流，但通常需要大量人工构建的规则，且在领域间的可移植性差；自举实体抽取是一种从少量人工标注的实体出发，从未标注文本中迭代式学习更多的实体和规则的方法，它仅需要少量的人工参与，且具备较好的领域间迁移能力。自举实体抽取的核心在于模式与实体的评分，在特定的领域，同属一个类型的实体通常满足某些约束，且内部遵从某种模式。然而，现有技术中的自举中文实体抽取方法无法利用实体内部模式进行评分，且对无法标注实体进行评分时所提取的特征没有充分考虑中文分词的特性。

发明内容

发明目的：本发明的目的是提供一种能够克服现有技术在实体内部模式利用和实体特征选择上存在的不足的基于模式的自举中文实体抽取方法。

技术方案：本发明所述的基于模式的自举中文实体抽取方法，对于每种实体类型进行实体识别和规则库构建，包括以下步骤：

S1：用户给定如下输入：a.正向种子实体和反向种子实体；b.正向种子实体和反向种子实体各自的内部约束、内部模式及置信程度；c.正向种子实体和反向种子实体各自的外部约束，即正向种子实体和反向种子实体各自出现的上下文信息；d.原始未标注文本；在以上四类输入信息中，a、d不可为空，b、c可以为空；

S2：对原始文本进行领域无关的分词、词性标注、句法解析和实体识别，生成基础语料；将正向种子实体加入最终实体库；

S3：依据最终实体库中的正向实体，在基础语料中进行标注，并对被标注的正向实体抽取其上下文信息，形成待选外部模式，加入待选外部模式库；

S4：对待选外部模式库进行评分：将待选外部模式对原文进行重新标注，依据最终实体库，统计每个待选外部模式抽取出的正向实体、反向实体和无法确定实体类型的实体，对待选外部模式库中的每个待选外部模式进行评分，并按照分数从高到低排序，从待选外部模式库中选择前K个待选外部模式加入最终外部模式库；

S5：用新生成的最终外部模式库对原文进行实体抽取，生成待选实体库，对待选实体库中的每个待选实体进行评分，并按照分数从高到低排序，从待选实体库中选择前K个待选实体加入最终实体库；

S6：对S5中生成的K个待选实体抽取内部模式，形成待选内部模式库；

S7：对待选内部模式库中的每个待选内部模式进行评分，并按照分数从高到低排序，从待选内部模式库中选择前K个待选内部模式加入最终内部模式库；

S8：如果迭代次数已经到达上限，或者没有新的实体被发现，则迭代结束，否则返回步骤S3；

S9：输出生成的最终实体库、最终外部模式库和最终内部模式库。

进一步，所述步骤S1中，正向种子实体和反向种子实体各自的内部约束包括：正向种子实体和反向种子实体各自的长度范围、是否只包含汉字、是否允许出现特殊符号、是否允许出现字母和数字以及已知的实体中心词。

进一步，所述步骤S1中，正向种子实体和反向种子实体各自的内部模式为正向种子实体和反向种子实体各自遵从的模式，用基础的实体类型进行泛化。

进一步，所述步骤S3中，形成待选外部模式库的方法为：对正向种子实体本身的词性和实体类型，以及特定窗口内元素的实体类型进行统计，并形成待选外部模式；对于窗口内的每一个元素，如果具有实体类型，则采用实体类型作为该元素的特征标签，否则将词表含义作为特征标签。

进一步，所述步骤S4中，对待选外部模式进行评分按照以下步骤来进行：

S4.1：用待选外部模式在基础语料中进行抽取：如果该待选外部模式无法获取更多实体，则将该待选外部模式从待选外部模式库中删除，且该待选外部模式不再参与评分，过程结束；否则，继续进行步骤S4.2；

S4.2：如果该待选外部模式抽取出的实体存在于正向实体库中，则判断该实体为正向实体，该实体得分为1；如果该待选外部模式抽取出的实体存在于反向实体库中，则判断该实体为反向实体，该实体得分为0；如果该待选外部模式抽取出的实体的实体类型无法判断，则进行步骤S4.3；

S4.3：对于无法确定实体类型的实体e，通过如下步骤来计算实体e的得分score(e)：

S4.31：计算内部模式匹配程度innerPat(e)；

将现有的内部模式应用于实体e，如果实体e符合内部模式，则将模式的置信概率作为innerPat(e)的得分：如果模式置信概率为1，则实体e最终得分为1，不再计算其他特征，直接跳至步骤S4.4；如果实体e符合多项内部模式，则将置信概率进行累加，最多不超过1；如果实体e不符合任何内部模式，则innerPat(e)＝0；

S4.32：计算语义距离sem(e)；

计算实体e与现有实体库中正向实体的距离，以及实体e与现有实体库中反向实体的距离：如果实体e与现有实体库中正向实体的距离较大且高于阈值，则sem(e)＝1，否则，sem(e)＝0；如语义距离无法计算，则抽取实体e的中心词，计算实体e的中心词与已有中心词集合的word2vec距离：如果高于阈值，则sem(e)＝1，否则，sem(e)＝0；

S4.33：计算编辑距离editDist(e)：计算实体e与正向实体的编辑距离，以及实体e和反向实体的编辑距离：如果实体e与某个正向实体的距离小于阈值，且与所有反向实体的编辑距离均大于阈值，则editDist(e)＝1，否则，editDist(e)＝0；

S4.34：计算成词概率phraseProb(e)：为实体e内部凝固度与邻字信息熵分别设立阈值，如果实体e同时满足内部凝固度的阈值和邻字信息熵的阈值，则phraseProb(e)＝1，否则，phraseProb(e)＝0；其中，内部凝固度通过式(1)进行计算：

式(1)中，TS(t)为构成实体e的所有可能的划分token的集合，TS(t)中的每一个元素称为S(t)，P(t)为S(t)中的第t个token在文件中出现的概率，NumTokens为基础语料中所有token的数量；freq(e)为实体e在基础语料中出现的个数；

S4.35：计算领域特殊性度量tfidf(e)；

首先，计算原始领域特殊性度量TFIDF_e，由以下公式计算得到：

式(2)中，tf_e为实体e在基础语料中出现的频次，N为领域无关的海量新闻语料中文档的数量，df_e为包含实体e的文档的个数；

然后，将原始领域特殊性度量TFIDF_e归一化到0～1之间，得到领域特殊性度量tfidf(e)；

S4.36：取内部模式匹配程度innerPat(e)、语义距离sem(e)、编辑距离editDist(e)、成词概率phraseProb(e)和领域特殊性度量tfidf(e)的平均值，作为实体e的得分score(e)；

S4.4：根据式(3)计算待选外部模式的得分：

式(3)中，P_r为待选外部模式抽取出的正向种子实体的集合，N_r为待选外部模式抽取出反向种子实体的集合，|.|为集合中元素的个数，U_r为无法确定实体类型的实体的集合，score(e)为无法确定实体类型的实体e的得分。

进一步，所述步骤S5中，对每个待选实体进行评分的规则如下：

E.如果待选实体不满足内部约束条件，则将待选实体从待选实体库中删除；

F.如果待选实体属于常见词或停止词，则将待选实体从待选实体库中删除；

G.如果待选实体满足置信度为1的内部模式，则将待选实体加入最终实体库；

H.如果待选实体不属于以上三种情况，首先计算待选实体的内部模式匹配程度innerPat(e)、语义距离sem(e)、编辑距离editDist(e)、成词概率phraseProb(e)和领域特殊性度量tfidf(e)这五项特征值；然后将抽取出待选实体的所有模式得分进行累加，归一化到0～1之间，将归一化后的数值作为第六项特征值；最后对这六项特征值加权平均，得到待选实体的最终得分。

进一步，所述步骤S6中，对最终实体库中的实体抽取内部模式的规则如下：如果实体内部包含连续的字母串、数字、汉语数字、日期、地名、人名和中心词，则抽取泛化的内部模式。

进一步，所述步骤S7中，对待选内部模式NP进行评分的公式为：

式(4)中PN_r为符合待选内部模式NP的最终正向实体的集合，NN_r为符合待选内部模式NP的反向实体的集合，|.|表示集合中元素的个数，score(e)为对待选内部模式NP进行评分得到的分数。

有益效果：与现有技术相比，本发明具有如下的有益效果：

1)无需大量的人工标注语料或人工编写规则，只需提供少量种子实体和规则，即可自动完成更多实体和规则库构建过程，且***在领域间的可移植性强，具有较好的可迁移性；

2)使实体的内部模式和约束参与模式评分，从多维度提取实体特征，可显著提升实体识别的效果。

附图说明

图1为本发明具体实施方式方法的流程示意图。

具体实施方式

下面结合附图和具体实施方式，对本发明的技术方案作进一步的介绍。

本发明公开了一种基于模式的自举中文实体抽取方法，对于每种实体类型进行实体识别和规则库构建，包括以下步骤：

本发明是一种统计与模式相结合的方式，优点在于无需依赖大量的人工标注语料或领域模式库，与现有的模式自举的方法相比，本发明基于对特定领域实体类型模式的观察，将实体内部模式和特征用于对候选模式及无法准确标注的实体进行分数评估，进而提升模式和实体评分的精确程度，适用于特定领域实体抽取和知识库构建。

本具体实施方式的流程图如图1所示：

步骤S1中，对于“飞机”类的实体，用户给定种子实体：歼-20。

用户给定实体约束见表1：

表1用户给定的实体约束

约束项	约束值
		Length	{2,10}
NumAllowed	true
		Alphabetallowed	true
SpecialSymbolAllowed	true
		Headwords	飞机,战斗机,机,巡逻机,加油机

用户给定内部模式见表2：

表2用户给定的内部模式

用户给定外部模式见表3：

表3用户给定的外部模式

步骤S2中，对原始文本进行分词、词性标注、实体识别等预处理采用开源的工具，方案如下：分词和词性标注采用Ansj工具，实体识别采用Stanford NER自带的中文分类器来识别GPE、PERSON、ORGANIZATION、LOCATION，并用Stanford Tokensregex工具撰写中文的日期(DATE)、时间(TIME)、数量(NUMBER)识别规则。最终，实体识别可提供GPE、PERSON、LOCATION、ORGANIZATION、DATE、TIME、NUMBER七种类型的标注。

步骤S3中，首先用已有的正向实体对经过预处理的原始语料进行标注，并且提取上下文窗口内的外部模式。如对于“歼-20战斗机代号威龙，F-22战斗机代号猛禽。歼-20由中国研发，F-22由美国研发，苹果手机由美国研发”，用种子实体“歼-20”在文中匹配，在窗口为2～3的情况下，可抽取出以下外部模式：

1.(？$term[]{1,3})[{word:/战斗机/}][{word:/代号/}]

2.(？$term[]{1,3})[{word:/战斗机/}][{word:/代号/}][{word:/威龙/}]

3.(？$term[]{1,3})[{word:/由/}][{ner:/GPE/}]

4.(？$term[]{1,3})[{word:/由/}][{ner:/GPE/}][{word:/研发/}]

步骤S4中，对每一个候选模式进行评分，以模式1为例，应用于原始语料中，可以抽取出F-22。对F-22进行评价：检查F-22是否满足内部约束。预先由海量无标注军事语料训练word2vec模型。将F-22输入word2vec，计算与歼-20之间的距离，如距离高于某阈值(如0.6)，则认为两者语义相近，sem(e)＝1；用内部模式对F-22进行匹配，发现F-22符合内部模式3，置信度为0.8，则innerPat(e)＝0.8；计算编辑距离，对数字进行泛化后可以计算出两者编辑距离为33％，editDist(e)＝1；计算成词概率，假定内部凝固度和临字信息熵不满足阈值要求，则得到phraseProb(e)＝0(此处计算过程较为复杂，不再具体展现)。基于海量领域无关的新闻语料计算的ngram，计算领域特殊性度量，假设tfidf(e)归一化的结果为0.8，则该实体最终得分0.74。

根据以下公式，获得模式的最终得分3.84。

根据以上步骤，对每一个候选的外部模式都进行分数计算，模式2由于无法识别出更多的实体而被丢弃。在分数相同时，选择较为复杂的规则。排序后选择top2模式加入最终规则库，假设最终选择模式1和模式4。

步骤S5中，用外部模式1和外部模式4进行抽取，形成待选实体库{F-22，苹果手机}，对两个实体进行评分，“F-22”评分结果优于“苹果手机”，选择top1加入最终实体库，目前最终实体库中有{歼-20，F-22}。

步骤S6中，对新添加的实体库提取模式，然而由于F-22已经满足其中的一个内部模式，无法再生成新的内部模式。因此，跳过步骤S7，直接进行步骤S8。

步骤S8中，返回步骤S3，用{歼-20，F-22}为种子实体重新对原始语料进行标注，生成外部模式库，重新执行步骤S4～步骤S7。

步骤S9中，由于没有新的模式生成，则迭代结束，输出最终实体库、最终外部模式库和最终内部模式库。

最终实体库：{歼-20，F-22}

最终外部模式库：

(？$term[]{1,3})[{word:/战斗机/}][{word:/代号/}]

(？$term[]{1,3})[{word:/由/}][{ner:/GPE/}][{word:/研发/}]

(？$term[]{2,3}[word:$PLANETYPE])[{word:/在|于/}][{ner:DATE}][{word:/降落|起飞/}]

最终内部模式库：

$PLANETYPE＝"/战机|飞机|直升机|教练机|巡逻机|加油机|航测机|巡逻机|教练机|轰炸机|侦察机|研究机|战斗机|喷气机/"

([{word:/歼|苏|伊尔|美|波音|米格|米|空客/}])([{word:"-"}]{0,1})([{ner:NUMBER}]))

(([({word:/\d+/}&{ner:NUMBER})|{word:/[a-zA-Z]+/}]+)(([{word:"-"}])([({word:/\d+/}&{ner:NUMBER})|{word:/[a-zA-Z]+/}]+))+[word:$PLANETYPE]*)。

Claims

1.一种基于模式的自举中文实体抽取方法，其特征在于：对于每种实体类型进行实体识别和规则库构建，包括以下步骤：

2.根据权利要求1所述的基于模式的自举中文实体抽取方法，其特征在于：所述步骤S1中，正向种子实体和反向种子实体各自的内部约束包括：正向种子实体和反向种子实体各自的长度范围、是否只包含汉字、是否允许出现特殊符号、是否允许出现字母和数字以及已知的实体中心词。

3.根据权利要求1所述的基于模式的自举中文实体抽取方法，其特征在于：所述步骤S1中，正向种子实体和反向种子实体各自的内部模式为正向种子实体和反向种子实体各自遵从的模式，用基础的实体类型进行泛化。

4.根据权利要求1所述的基于模式的自举中文实体抽取方法，其特征在于：所述步骤S3中，形成待选外部模式库的方法为：对正向种子实体本身的词性和实体类型，以及特定窗口内元素的实体类型进行统计，并形成待选外部模式；对于窗口内的每一个元素，如果具有实体类型，则采用实体类型作为该元素的特征标签，否则将词表含义作为特征标签。

5.根据权利要求1所述的基于模式的自举中文实体抽取方法，其特征在于：所述步骤S4中，对待选外部模式进行评分按照以下步骤来进行：

S4.31：计算内部模式匹配程度innerPat(e)；

S4.32：计算语义距离sem(e)；

计算实体e与现有实体库中正向实体的距离，以及实体e与现有实体库中反向实体的距离：如果实体e与现有实体库中正向实体的距离高于阈值，则sem(e)＝1，否则，sem(e)＝0；如语义距离无法计算，则抽取实体e的中心词，计算实体e的中心词与已有中心词集合的word2vec距离：如果高于阈值，则sem(e)＝1，否则，sem(e)＝0；

S4.35：计算领域特殊性度量tfidf(e)；

S4.4：根据式(3)计算待选外部模式的得分：

6.根据权利要求1所述的基于模式的自举中文实体抽取方法，其特征在于：所述步骤S5中，对每个待选实体进行评分的规则如下：

A.如果待选实体不满足内部约束条件，则将待选实体从待选实体库中删除；

B.如果待选实体属于常见词或停止词，则将待选实体从待选实体库中删除；

C.如果待选实体满足置信度为1的内部模式，则将待选实体加入最终实体库；

D.如果待选实体不属于以上三种情况，首先计算待选实体的内部模式匹配程度innerPat(e)、语义距离sem(e)、编辑距离editDist(e)、成词概率phraseProb(e)和领域特殊性度量tfidf(e)这五项特征值；然后将抽取出待选实体的所有模式得分进行累加，归一化到0～1之间，将归一化后的数值作为第六项特征值；最后对这六项特征值加权平均，得到待选实体的最终得分。

7.根据权利要求1所述的基于模式的自举中文实体抽取方法，其特征在于：所述步骤S6中，对最终实体库中的实体抽取内部模式的规则如下：如果实体内部包含连续的字母串、数字、汉语数字、日期、地名、人名和中心词，则抽取泛化的内部模式。

8.根据权利要求1所述的基于模式的自举中文实体抽取方法，其特征在于：所述步骤S7中，对待选内部模式NP进行评分的公式为：

式(4)中PN_r为符合待选内部模式NP的最终正向实体的集合，NN_r为符合待选内部模式NP的反向实体的集合，|.|表示集合中元素的个数，score(e)为无法确定实体类型的实体e的得分。