CN110390099B

CN110390099B - 一种基于模板库的对象关系抽取***和抽取方法

Info

Publication number: CN110390099B
Application number: CN201910583405.5A
Authority: CN
Inventors: 冯钧; 柳菁铧
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2023-01-31
Anticipated expiration: 2039-06-28
Also published as: CN110390099A

Abstract

本发明公开了一种基于模板库的对象关系抽取***和抽取方法,该***包括信息框抽取模块，属性名合并模块和对象关系抽取模块。其中，信息框抽取模块实现各语料库信息框的三元组抽取；然后属性名合并模块利用同义词表合并相似属性名以解决属性名的一义多词现象；最后对象关系抽取模块根据信息框抽取得到的三元组构建模板库实现在文本中抽取对象关系三元组。本发明通过已经过处理的信息框三元组作为关系种子，并且通过特征聚类和编辑距离对模板进行泛化，最终构建得到关系模板库，提高了关系抽取的效果。

Description

一种基于模板库的对象关系抽取***和抽取方法

技术领域

本发明涉及一种信息技术处理技术，特别是一种基于模板库的对象关系抽取***和抽取方法。

背景技术

近年来，我国水利行业不断蓬勃发展，各种监测工具与通信技术的应用带来了大量的水利数据，海量的数据成为推动水利信息化的重要基础。另一方面，互联网的迅速发展也积攒下了大量的信息，这些信息中蕴含了宝贵的水利知识，但是这些水利知识来源广、结构复杂，很难直接有效地在实际当中得到应用。只有依靠科学有效的方法，才能将这些水利数据组织起来，然后加以利用。而现有的水利领域知识图谱是利用已有的水利数据库，通过映射构建得到的，还存在以下问题：(1)受限于数据库的库表设计，映射得到的实体间关系单一。(2)知识具有深度但缺乏广度。(3)知识更新相对较慢。因此需要从互联网中抽取知识以丰富本地知识库。

通过进一步分析各语料库的内容和本地知识库的结构，在关系抽取和实体链接的过程中存在以下问题：首先，如果用常规的半结构化方法抽取各语料库的信息框信息，会出现一义多词、属性值不规整的问题。所谓的一义多词是指在编写条目页面时，由于不同的编写人员有不同的表达方式，同一个属性会有不同的属性名称，如对于同一个属性“位置”，可能存在“地方”、“位于”等属性名。属性值不规整是指，有一些属性值是由文本或多个值组成。这些初步得到的抽取结果质量并不高，无法将它们添加到本地知识库中。其次，各语料库信息框中的信息是分布不平衡的，有的条目页面的信息框有大量信息，有的条目页面的信息框信息匮乏，甚至有的条目页面根本没有信息框。如果仅仅采用半结构化的抽取方法抽取信息框中的信息，将无法最大化地获取各语料库中的知识。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种基于模板库的对象关系抽取***和抽取方法。该抽取***通过信息框抽取模块和属性名合并模块得到较高质量三元组；通过对象关系抽取模块构建关系模板库，实现新关系实例的抽取；该抽取方法能够建立关系模板，从而较为准确的提取出关系实例。

技术方案：本发明公开了一种基于模板库的对象关系抽取***，包括信息框抽取模块、属性名合并模块、对象关系抽取模块；所述信息框抽取模块用于条目语料库信息框的关系三元组抽取；所述属性名合并模块用于合并所述信息框抽取模块关系三元组中的相似属性名得到种子关系三元组；所述对象关系抽取模块根据种子关系三元组构建模板库实现在文本中抽取对象关系三元组。

具体的，信息框抽取模块从语料库信息框中抽取条目的关系三元组；所述语料库信息框是对条目的概要描述，从语料库信息框中可以抽取出该条目的关系三元组。

具体的，属性名合并模块合并信息框抽取模块得到的关系三元组中的相似属性名得到种子关系三元组；属性名合并模块首先通过句法分析得到属性名的核心词，然后利用同义词表计算属性名间的相似性，从而合并相似属性名。

具体的，对象关系抽取模块用以实现构建模板库并抽取对象关系三元组；对象关系抽取模块预处理条目对应的正文文本得到训练语料和测试语料，然后通过种子关系三元组在训练语料中抽取句子实例，并构建特征向量；最后通过特征聚类和编辑距离对所有句子实例进行泛化构建出关系模板库；通过关系模板库可以在测试语料中抽取出新关系实例。

本发明还公开了一种利用上述基于模板库的对象关系抽取***的对象关系抽取方法，包括以下步骤：

步骤1)信息框抽取模块从语料库信息框中抽取所需条目的关系三元组；

步骤11)若关系三元组属性值为多词组成的短语，不是数值或可识别的命名实体，对属性值进行修剪，提取出其中可识别的命名实体作为属性值；

步骤12)若属性值中是并列的同类实体，以“-”、“，”等特殊符号连接多个并列的同类实体，根据属性值内的特殊符号对属性值进行切分，切分的每一个结果都与该条目构成一个关系三元组。

步骤2)属性名合并模块合并信息框抽取模块得到的关系三元组中的相似属性名，得到种子关系三元组；

步骤21)借助句法分析得到属性名的描述部分，删除描述部分；

步骤22)利用同义词表计算属性名间相似性；如果两个属性名的八位编码完全相同，说明它们是同义词，可以将它们合并为同一个属性名；

如果两个属性名八位编码不完全相同，根据它们的八位编码计算两个属性名间的同义程度；对于两个属性名wordl，word2，找出它们在同义词表中的八位编码code1，code2；取八位编码的前七位，按照五层结构对前七位码进行分层，得到word1，word2的五层编码t1，t2；求得t1，t2的公共串t，计算方法如式(1)所示：

其中level是公共串t的最大层数，如果level为0，说明两个编码完全不同，则相似性为0，或者两个八位编码是以“@”结尾，说明这个词在同义词表中是独立的，对应的词之间的相似性也为0；如果level为5，说明两个词的五层结构完全相同，累加五个层级的赋权并加上f(t)；f(t)则看八位编码的末位，计算方法如式(2)所示，如果末位是“＝”，说明两个词完全相等，它们的相似性为1；如果末位为“#”，说明两个词相似，它们的相似性为0.5；如果level为1～4则从上往下累加相同层级的赋权直至层级不同处，停止累加此时f(t)＝0；五层结构从上往下对五个层级赋权为：0.65，0.8，0.9，0.96，1；

计算出两个属性名之间的总的相似性值后判断是否将其合并，合并结束后跳至步骤3)。

步骤3)对象关系抽取模块抽取信息框抽取模块中所有条目的正文文本；首先对抽取出来的正文文本进行降噪处理，去除文本中多余的超链接和标签；然后对文本进行分句；最后对单句子进行分词、词性识别和命名实体识别；

步骤4)在步骤3)中抽取出种子关系三元组中两个实体共现的句子作为该类关系的句子实例；

步骤5)抽取句子实例的n-gram词语特征、n-gram词性特征、以及距离特征，构建特征向量；

步骤6)替换句子实例中的实体名，得到关系模板；

步骤7)通过步骤5)中的特征对关系模板进行聚类，并根据编辑距离对簇内模板进行泛化；

步骤71)对所需求的关系的关系模板进行k-means聚类，特征来自步骤5)；经过聚类得到具有相似句法结构的模板簇

P＝{cluster₁，cluster₂，...，cluster_m}；

步骤72)从P中选一个簇cluster_i，计算簇内两两关系模板的编辑距离；

步骤73)根据公式(3)初始化关系模板p_n，p_m的编辑距离矩阵Edit：

其中i取值范围为(1，|p_n|)，|p_n|表示p_n的长度，即p_n词的总数量；j取值范围为(1，|p_m|)，|p_m|表示p_m的长度，即p_m词的总数量；

步骤74)根据公式(4)填充Edit矩阵：

Edit(i，j)＝min(1+Edit(i-1，j)，1+Edit(i，j-1)，Edit(i-1，j-1)+d(i，j)) (4)

其中d(i，j)用于表示p_n[i]和p_m[j]是否相同，p_n[i]和p_m[j]分别表示模板p_n的第i个词和模板p_m的第.j个词；d(i，j)计算方法如公式(5)所示；

等式(4)表示，将p_n[i]转换成p_m[j]有三种选择：

(1)执行替换操作：将p_n[i]替换成p_m[j]，此时公式(4)Edit[i，j]最小值为：Edit[i，j]＝Edit[i-1，j-1]+d(i，j)，当p_n[i]和p_m[j]相同时，d(i，j)取0；否则取1；

(2)执行删除操作：将p_n[i]删除，此时公式(4)Edit[i，j]最小值：E[i，j]＝E[i-1，j]+1；

(3)执行删除操作：将p_m[j]删除，此时公式(4)Edit[i，j]最小值：E[i，j]＝E[i，j-1]+1；

步骤75)在计算编辑矩阵Edit[i，j]的同时，用矩阵D来记录使得当前编辑距离Edit[i，j]最小的操作；根据公式(4)中Edit矩阵不同的取值情况，矩阵D记录不同取值对应的操作；D中取值为：I：表示***操作；R：表示删除操作；E：表示等价，不做任何操作；U：表示替换操作；

步骤76)从cluster_i中选取编辑距离最小的两个模板；若两个模板之间的编辑距离大于阈值，停止计算cluster_i内的模板，返回步骤72)计算下一个簇；否则跳至步骤77)；

步骤77)令P_g为空，首先从矩阵D的右下角开始，直至D[0，0]，根据两个编辑距离最小的关系模板求得的操作矩阵D来进行关系模板泛化，得到泛化后的模板P_g；

步骤78)从cluster_i中删除两个选取的编辑距离最小的模板，加入泛化模板P_g，跳至步骤73)。

步骤8)结束。

有益效果：本发明公开的一种基于模板库的对象关系抽取***和抽取方法，该抽取***通过信息框抽取模块和属性名合并模块得到较高质量三元组；通过对象关系抽取模块构建关系模板库，实现新关系实例的抽取；该抽取方法通过建立关系模板库，使得对象关系抽取时更加精准，且效率更高，能够针对互联网上的语料库信息，抽取和更新知本地知识库，其知识更新较快，知识广度较高。

附图说明

图1本发明基于模板库的对象关系抽取***模块关系示意图；

图2本发明基于模板库的对象关系抽取方法流程图。

具体实施方式

本发明公开了一种基于模板库的对象关系抽取***，包括信息框抽取模块、属性名合并模块、对象关系抽取模块；信息框抽取模块用于条目语料库信息框的关系三元组抽取；所述属性名合并模块用于合并所述信息框抽取模块关系三元组中的相似属性名得到种子关系三元组；所述对象关系抽取模块根据种子关系三元组构建模板库实现在文本中抽取对象关系三元组。

通过分析***的内容和本地知识库的结构，在关系抽取和实体链接的过程中存在以下问题：首先，如果用常规的半结构化方法抽取***的信息框信息，会出现一义多词、属性值不规整的问题。所谓的一义多词是指在编写条目页面时，由于不同的编写人员有不同的表达方式，同一个属性会有不同的属性名称，如对于同一个属性“位置”，可能存在“地方”、“位于”等属性名。属性值不规整是指，有一些属性值是由文本或多个值组成。这些初步得到的抽取结果质量并不高，无法将它们添加到本地知识库中。其次，***信息框中的信息是分布不平衡的，有的条目页面的信息框有大量信息，有的条目页面的信息框信息匮乏，甚至有的条目页面根本没有信息框。如果仅仅采用半结构化的抽取方法抽取信息框中的信息，将无法最大化地获取***中的知识。

故以***作为语料库，使用上述一种基于模板库的对象关系抽取***进行对象关系抽取方法，包括以下步骤：

我们要操作的一个条目比如三峡大坝，其在***大类目录信息中有相关链接，对三峡大坝这个条目相应链接进入的页面内容内的信息框抽取关系三元组；

具体步骤如下：

属性值是指信息框中的属性值，如在三峡大坝的信息框有这样的属性键值对：(地址，位于武汉市东南方向15KM处)，直接抽取的话得到的关系三元组是(三峡大坝，地址，位于武汉市东南方向15KM处)，是不规范的，需要对“位于武汉市东南方向15KM处”这个属性值进行修剪处理，简化为“武汉市”，则最后得到的关系三元组是(三峡大坝，地址，武汉市)，此时武汉市即为可识别的命名实体。

如果两个属性名八位编码不完全相同，根据它们的八位编码计算两个属性名间的同义程度；对于两个属性名wordl，word2，找出它们在同义词表中的八位编码codel，code2；取八位编码的前七位，按照五层结构对前七位码进行分层，得到word1，word2的五层编码t1，t2；求得t1，t2的公共串t，计算方法如式(1)所示：

相似性具体计算实例如下：

如“位置”的编码为“Cb01B01”，“方位”的编码为“Cb01A01”，对应的五层编码是“Cb 01 B 01”、“C b 01 A 01”，它们的level是3，那么就是0.65+0.8+0.9＝2.35；假如level＝4，取值是0.65+0.8+0.9+0.96＝3.31，这时候的公式2取值为0。假如level＝5，取值是0.65+0.8+0.9+0.96＝3.31，考虑公式2，这时候看两个编码的末位(这个末位就是“#”、“＝”和“@”，没有在五层编码中)，“@”已经在公式1中考虑；“#”、“＝”的最终计算结果分别是3.31+0.5＝3.81，3.31+1＝4.31。

步骤6)替换句子实例中的实体名，得到关系模板；

P＝{cluster₁，cluster₂，...，cluster_m}；

步骤74)根据公式(4)填充Edit矩阵：

其中d(i，j)用于表示p_n[i]和p_m[j]是否相同，p_n[i]和p_m[j]分别表示模板p_n的第i个词和模板p_m的第j个词；d(i，j)计算方法如公式(5)所示；

等式(4)表示，将p_n[i]转换成p_m[j]有三种选择：

步骤8)结束。

Claims

1.一种基于模板库的对象关系抽取***，包括信息框抽取模块、属性名合并模块、对象关系抽取模块；其特征在于：所述信息框抽取模块用于条目语料库信息框的关系三元组抽取；所述属性名合并模块用于合并所述信息框抽取模块关系三元组中的相似属性名得到种子关系三元组；所述对象关系抽取模块根据种子关系三元组构建模板库实现在文本中抽取对象关系三元组；

所述信息框抽取模块从语料库信息框中抽取条目的关系三元组；所述语料库信息框是对条目的概要描述，从语料库信息框中可以抽取出该条目的关系三元组；

所述属性名合并模块合并信息框抽取模块得到的关系三元组中的相似属性名得到种子关系三元组；属性名合并模块首先通过句法分析得到属性名的核心词，然后利用同义词表计算属性名间的相似性，从而合并相似属性名；

所述对象关系抽取模块用以实现构建模板库并抽取对象关系三元组；对象关系抽取模块预处理条目对应的正文文本得到训练语料和测试语料，然后通过种子关系三元组在训练语料中抽取句子实例，并构建特征向量；最后通过特征聚类和编辑距离对所有句子实例进行泛化构建出关系模板库；通过关系模板库可以在测试语料中抽取出新关系实例。

2.一种利用权利要求1所述的基于模板库的对象关系抽取***的基于模板库的对象关系抽取方法，其特征在于：包括以下步骤：

步骤5)抽取句子实例的n-gram词语特征、n-gram词性特征、以及距离特征,构建特征向量；

步骤6)替换句子实例中的实体名，得到关系模板；

步骤8)结束。

3.根据权利要求2所述的基于模板库的对象关系抽取方法，其特征在于：

步骤1)中抽取信息框关系三元组具体步骤如下：

步骤12)若属性值中是并列的同类实体，以特殊符号连接多个并列的同类实体，根据属性值内的特殊符号对属性值进行切分，切分的每一个结果都与该条目构成一个关系三元组。

4.根据权利要求2或3所述的基于模板库的对象关系抽取方法，其特征在于，步骤2)中合并相似属性名具体步骤如下：

如果两个属性名八位编码不完全相同，根据它们的八位编码计算两个属性名间的同义程度；对于两个属性名word1，word2，找出它们在同义词表中的八位编码code1，code2；取八位编码的前七位，按照五层结构对前七位码进行分层，得到word1，word2的五层编码t1，t2；求得t1，t2的公共串t，计算方法如式(1)所示：

其中level是公共串t的最大层数，如果level为0，说明两个编码完全不同，则相似性为0，或者两个八位编码是以“@”结尾，说明这个词在同义词表中是独立的，对应的词之间的相似性也为0；如果level为5，说明两个词的五层结构完全相同，累加五个层级的赋权并加上f(t)；f(t)则看八位编码的末位，计算方法如式(2)所示，如果末位是“＝”，说明两个词完全相等，它们的相似性为1；如果末位为“#”，说明两个词相似，它们的相似性为0.5；如果level为1～4则从上往下累加相同层级的赋权直至层级不同处，停止累加此时f(t)＝0；

5.根据权利要求4所述的基于模板库的对象关系抽取方法，其特征在于：所述步骤22)的五层结构从上往下对五个层级赋权λ_i为：

0.65,0.8,0.9,0.96,1。

6.根据权利要求4所述的基于模板库的对象关系抽取方法，其特征在于，步骤7)中模板泛化具体步骤如下：

步骤71)对所需求的关系模板进行k-means聚类，特征来自步骤5)；经过聚类得到具有相似句法结构的模板簇P＝{cluster₁,cluster₂,...,cluster_m}；

步骤74)根据公式(4)填充Edit矩阵：

Edit(i,j)＝min(1+Edit(i-1,j),1+Edit(i,j-1),Edit(i-1,j-1)+d(i,j)) (4)

其中d(i,j)用于表示p_n[i]和p_m[j]是否相同，p_n[i]和p_m[j]分别表示模板p_n的第i个词和模板p_m的第j个词；d(i,j)计算方法如公式(5)所示；

公式(4)表示，将p_n[i]转换成p_m[j]有三种选择：

(1)执行替换操作：将p_n[i]替换成p_m[j]，此时公式(4)Edit[i,j]最小值为：Edit[i,j]＝Edit[i-1,j-1]+d(i,j)，当p_n[i]和p_m[j]相同时，d(i,j)取0；否则取1；

(2)执行删除操作：将p_n[i]删除，此时公式(4)Edit[i,j]最小值：E[i,j]＝E[i-1,j]+1

(3)执行删除操作：将p_m[j]删除，此时公式(4)Edit[i,j]最小值：E[i,j]＝E[i,j-1]+1

步骤75)在计算编辑矩阵Edit[i,j]的同时，用矩阵D来记录使得当前编辑距离Edit[i,j]最小的操作；根据公式(4)中Edit矩阵不同的取值情况，矩阵D记录不同取值对应的操作；D中取值为：I：表示***操作；R：表示删除操作；E：表示等价，不做任何操作；U：表示替换操作；

步骤77)令P_g为空，首先从矩阵D的右下角开始，直至D[0,0]，根据两个编辑距离最小的模板求得的操作矩阵D来进行模板泛化；