CN110390099B - 一种基于模板库的对象关系抽取***和抽取方法 - Google Patents
一种基于模板库的对象关系抽取***和抽取方法 Download PDFInfo
- Publication number
- CN110390099B CN110390099B CN201910583405.5A CN201910583405A CN110390099B CN 110390099 B CN110390099 B CN 110390099B CN 201910583405 A CN201910583405 A CN 201910583405A CN 110390099 B CN110390099 B CN 110390099B
- Authority
- CN
- China
- Prior art keywords
- relation
- edit
- attribute
- information frame
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于模板库的对象关系抽取***和抽取方法,该***包括信息框抽取模块,属性名合并模块和对象关系抽取模块。其中,信息框抽取模块实现各语料库信息框的三元组抽取;然后属性名合并模块利用同义词表合并相似属性名以解决属性名的一义多词现象;最后对象关系抽取模块根据信息框抽取得到的三元组构建模板库实现在文本中抽取对象关系三元组。本发明通过已经过处理的信息框三元组作为关系种子,并且通过特征聚类和编辑距离对模板进行泛化,最终构建得到关系模板库,提高了关系抽取的效果。
Description
技术领域
本发明涉及一种信息技术处理技术,特别是一种基于模板库的对象关系抽取***和抽取方法。
背景技术
近年来,我国水利行业不断蓬勃发展,各种监测工具与通信技术的应用带来了大量的水利数据,海量的数据成为推动水利信息化的重要基础。另一方面,互联网的迅速发展也积攒下了大量的信息,这些信息中蕴含了宝贵的水利知识,但是这些水利知识来源广、结构复杂,很难直接有效地在实际当中得到应用。只有依靠科学有效的方法,才能将这些水利数据组织起来,然后加以利用。而现有的水利领域知识图谱是利用已有的水利数据库,通过映射构建得到的,还存在以下问题:(1)受限于数据库的库表设计,映射得到的实体间关系单一。(2)知识具有深度但缺乏广度。(3)知识更新相对较慢。因此需要从互联网中抽取知识以丰富本地知识库。
通过进一步分析各语料库的内容和本地知识库的结构,在关系抽取和实体链接的过程中存在以下问题:首先,如果用常规的半结构化方法抽取各语料库的信息框信息,会出现一义多词、属性值不规整的问题。所谓的一义多词是指在编写条目页面时,由于不同的编写人员有不同的表达方式,同一个属性会有不同的属性名称,如对于同一个属性“位置”,可能存在“地方”、“位于”等属性名。属性值不规整是指,有一些属性值是由文本或多个值组成。这些初步得到的抽取结果质量并不高,无法将它们添加到本地知识库中。其次,各语料库信息框中的信息是分布不平衡的,有的条目页面的信息框有大量信息,有的条目页面的信息框信息匮乏,甚至有的条目页面根本没有信息框。如果仅仅采用半结构化的抽取方法抽取信息框中的信息,将无法最大化地获取各语料库中的知识。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于模板库的对象关系抽取***和抽取方法。该抽取***通过信息框抽取模块和属性名合并模块得到较高质量三元组;通过对象关系抽取模块构建关系模板库,实现新关系实例的抽取;该抽取方法能够建立关系模板,从而较为准确的提取出关系实例。
技术方案:本发明公开了一种基于模板库的对象关系抽取***,包括信息框抽取模块、属性名合并模块、对象关系抽取模块;所述信息框抽取模块用于条目语料库信息框的关系三元组抽取;所述属性名合并模块用于合并所述信息框抽取模块关系三元组中的相似属性名得到种子关系三元组;所述对象关系抽取模块根据种子关系三元组构建模板库实现在文本中抽取对象关系三元组。
具体的,信息框抽取模块从语料库信息框中抽取条目的关系三元组;所述语料库信息框是对条目的概要描述,从语料库信息框中可以抽取出该条目的关系三元组。
具体的,属性名合并模块合并信息框抽取模块得到的关系三元组中的相似属性名得到种子关系三元组;属性名合并模块首先通过句法分析得到属性名的核心词,然后利用同义词表计算属性名间的相似性,从而合并相似属性名。
具体的,对象关系抽取模块用以实现构建模板库并抽取对象关系三元组;对象关系抽取模块预处理条目对应的正文文本得到训练语料和测试语料,然后通过种子关系三元组在训练语料中抽取句子实例,并构建特征向量;最后通过特征聚类和编辑距离对所有句子实例进行泛化构建出关系模板库;通过关系模板库可以在测试语料中抽取出新关系实例。
本发明还公开了一种利用上述基于模板库的对象关系抽取***的对象关系抽取方法,包括以下步骤:
步骤1)信息框抽取模块从语料库信息框中抽取所需条目的关系三元组;
步骤11)若关系三元组属性值为多词组成的短语,不是数值或可识别的命名实体,对属性值进行修剪,提取出其中可识别的命名实体作为属性值;
步骤12)若属性值中是并列的同类实体,以“-”、“,”等特殊符号连接多个并列的同类实体,根据属性值内的特殊符号对属性值进行切分,切分的每一个结果都与该条目构成一个关系三元组。
步骤2)属性名合并模块合并信息框抽取模块得到的关系三元组中的相似属性名,得到种子关系三元组;
步骤21)借助句法分析得到属性名的描述部分,删除描述部分;
步骤22)利用同义词表计算属性名间相似性;如果两个属性名的八位编码完全相同,说明它们是同义词,可以将它们合并为同一个属性名;
如果两个属性名八位编码不完全相同,根据它们的八位编码计算两个属性名间的同义程度;对于两个属性名wordl,word2,找出它们在同义词表中的八位编码code1,code2;取八位编码的前七位,按照五层结构对前七位码进行分层,得到word1,word2的五层编码t1,t2;求得t1,t2的公共串t,计算方法如式(1)所示:
其中level是公共串t的最大层数,如果level为0,说明两个编码完全不同,则相似性为0,或者两个八位编码是以“@”结尾,说明这个词在同义词表中是独立的,对应的词之间的相似性也为0;如果level为5,说明两个词的五层结构完全相同,累加五个层级的赋权并加上f(t);f(t)则看八位编码的末位,计算方法如式(2)所示,如果末位是“=”,说明两个词完全相等,它们的相似性为1;如果末位为“#”,说明两个词相似,它们的相似性为0.5;如果level为1~4则从上往下累加相同层级的赋权直至层级不同处,停止累加此时f(t)=0;五层结构从上往下对五个层级赋权为:0.65,0.8,0.9,0.96,1;
计算出两个属性名之间的总的相似性值后判断是否将其合并,合并结束后跳至步骤3)。
步骤3)对象关系抽取模块抽取信息框抽取模块中所有条目的正文文本;首先对抽取出来的正文文本进行降噪处理,去除文本中多余的超链接和标签;然后对文本进行分句;最后对单句子进行分词、词性识别和命名实体识别;
步骤4)在步骤3)中抽取出种子关系三元组中两个实体共现的句子作为该类关系的句子实例;
步骤5)抽取句子实例的n-gram词语特征、n-gram词性特征、以及距离特征,构建特征向量;
步骤6)替换句子实例中的实体名,得到关系模板;
步骤7)通过步骤5)中的特征对关系模板进行聚类,并根据编辑距离对簇内模板进行泛化;
步骤71)对所需求的关系的关系模板进行k-means聚类,特征来自步骤5);经过聚类得到具有相似句法结构的模板簇
P={cluster1,cluster2,...,clusterm};
步骤72)从P中选一个簇clusteri,计算簇内两两关系模板的编辑距离;
步骤73)根据公式(3)初始化关系模板pn,pm的编辑距离矩阵Edit:
其中i取值范围为(1,|pn|),|pn|表示pn的长度,即pn词的总数量;j取值范围为(1,|pm|),|pm|表示pm的长度,即pm词的总数量;
步骤74)根据公式(4)填充Edit矩阵:
Edit(i,j)=min(1+Edit(i-1,j),1+Edit(i,j-1),Edit(i-1,j-1)+d(i,j)) (4)
其中d(i,j)用于表示pn[i]和pm[j]是否相同,pn[i]和pm[j]分别表示模板pn的第i个词和模板pm的第.j个词;d(i,j)计算方法如公式(5)所示;
等式(4)表示,将pn[i]转换成pm[j]有三种选择:
(1)执行替换操作:将pn[i]替换成pm[j],此时公式(4)Edit[i,j]最小值为:Edit[i,j]=Edit[i-1,j-1]+d(i,j),当pn[i]和pm[j]相同时,d(i,j)取0;否则取1;
(2)执行删除操作:将pn[i]删除,此时公式(4)Edit[i,j]最小值:E[i,j]=E[i-1,j]+1;
(3)执行删除操作:将pm[j]删除,此时公式(4)Edit[i,j]最小值:E[i,j]=E[i,j-1]+1;
步骤75)在计算编辑矩阵Edit[i,j]的同时,用矩阵D来记录使得当前编辑距离Edit[i,j]最小的操作;根据公式(4)中Edit矩阵不同的取值情况,矩阵D记录不同取值对应的操作;D中取值为:I:表示***操作;R:表示删除操作;E:表示等价,不做任何操作;U:表示替换操作;
步骤76)从clusteri中选取编辑距离最小的两个模板;若两个模板之间的编辑距离大于阈值,停止计算clusteri内的模板,返回步骤72)计算下一个簇;否则跳至步骤77);
步骤77)令Pg为空,首先从矩阵D的右下角开始,直至D[0,0],根据两个编辑距离最小的关系模板求得的操作矩阵D来进行关系模板泛化,得到泛化后的模板Pg;
步骤78)从clusteri中删除两个选取的编辑距离最小的模板,加入泛化模板Pg,跳至步骤73)。
步骤8)结束。
有益效果:本发明公开的一种基于模板库的对象关系抽取***和抽取方法,该抽取***通过信息框抽取模块和属性名合并模块得到较高质量三元组;通过对象关系抽取模块构建关系模板库,实现新关系实例的抽取;该抽取方法通过建立关系模板库,使得对象关系抽取时更加精准,且效率更高,能够针对互联网上的语料库信息,抽取和更新知本地知识库,其知识更新较快,知识广度较高。
附图说明
图1本发明基于模板库的对象关系抽取***模块关系示意图;
图2本发明基于模板库的对象关系抽取方法流程图。
具体实施方式
本发明公开了一种基于模板库的对象关系抽取***,包括信息框抽取模块、属性名合并模块、对象关系抽取模块;信息框抽取模块用于条目语料库信息框的关系三元组抽取;所述属性名合并模块用于合并所述信息框抽取模块关系三元组中的相似属性名得到种子关系三元组;所述对象关系抽取模块根据种子关系三元组构建模板库实现在文本中抽取对象关系三元组。
具体的,信息框抽取模块从语料库信息框中抽取条目的关系三元组;所述语料库信息框是对条目的概要描述,从语料库信息框中可以抽取出该条目的关系三元组。
具体的,属性名合并模块合并信息框抽取模块得到的关系三元组中的相似属性名得到种子关系三元组;属性名合并模块首先通过句法分析得到属性名的核心词,然后利用同义词表计算属性名间的相似性,从而合并相似属性名。
具体的,对象关系抽取模块用以实现构建模板库并抽取对象关系三元组;对象关系抽取模块预处理条目对应的正文文本得到训练语料和测试语料,然后通过种子关系三元组在训练语料中抽取句子实例,并构建特征向量;最后通过特征聚类和编辑距离对所有句子实例进行泛化构建出关系模板库;通过关系模板库可以在测试语料中抽取出新关系实例。
通过分析***的内容和本地知识库的结构,在关系抽取和实体链接的过程中存在以下问题:首先,如果用常规的半结构化方法抽取***的信息框信息,会出现一义多词、属性值不规整的问题。所谓的一义多词是指在编写条目页面时,由于不同的编写人员有不同的表达方式,同一个属性会有不同的属性名称,如对于同一个属性“位置”,可能存在“地方”、“位于”等属性名。属性值不规整是指,有一些属性值是由文本或多个值组成。这些初步得到的抽取结果质量并不高,无法将它们添加到本地知识库中。其次,***信息框中的信息是分布不平衡的,有的条目页面的信息框有大量信息,有的条目页面的信息框信息匮乏,甚至有的条目页面根本没有信息框。如果仅仅采用半结构化的抽取方法抽取信息框中的信息,将无法最大化地获取***中的知识。
故以***作为语料库,使用上述一种基于模板库的对象关系抽取***进行对象关系抽取方法,包括以下步骤:
步骤1)信息框抽取模块从语料库信息框中抽取所需条目的关系三元组;
我们要操作的一个条目比如三峡大坝,其在***大类目录信息中有相关链接,对三峡大坝这个条目相应链接进入的页面内容内的信息框抽取关系三元组;
具体步骤如下:
步骤11)若关系三元组属性值为多词组成的短语,不是数值或可识别的命名实体,对属性值进行修剪,提取出其中可识别的命名实体作为属性值;
步骤12)若属性值中是并列的同类实体,以“-”、“,”等特殊符号连接多个并列的同类实体,根据属性值内的特殊符号对属性值进行切分,切分的每一个结果都与该条目构成一个关系三元组。
属性值是指信息框中的属性值,如在三峡大坝的信息框有这样的属性键值对:(地址,位于武汉市东南方向15KM处),直接抽取的话得到的关系三元组是(三峡大坝,地址,位于武汉市东南方向15KM处),是不规范的,需要对“位于武汉市东南方向15KM处”这个属性值进行修剪处理,简化为“武汉市”,则最后得到的关系三元组是(三峡大坝,地址,武汉市),此时武汉市即为可识别的命名实体。
步骤2)属性名合并模块合并信息框抽取模块得到的关系三元组中的相似属性名,得到种子关系三元组;
步骤21)借助句法分析得到属性名的描述部分,删除描述部分;
步骤22)利用同义词表计算属性名间相似性;如果两个属性名的八位编码完全相同,说明它们是同义词,可以将它们合并为同一个属性名;
如果两个属性名八位编码不完全相同,根据它们的八位编码计算两个属性名间的同义程度;对于两个属性名wordl,word2,找出它们在同义词表中的八位编码codel,code2;取八位编码的前七位,按照五层结构对前七位码进行分层,得到word1,word2的五层编码t1,t2;求得t1,t2的公共串t,计算方法如式(1)所示:
其中level是公共串t的最大层数,如果level为0,说明两个编码完全不同,则相似性为0,或者两个八位编码是以“@”结尾,说明这个词在同义词表中是独立的,对应的词之间的相似性也为0;如果level为5,说明两个词的五层结构完全相同,累加五个层级的赋权并加上f(t);f(t)则看八位编码的末位,计算方法如式(2)所示,如果末位是“=”,说明两个词完全相等,它们的相似性为1;如果末位为“#”,说明两个词相似,它们的相似性为0.5;如果level为1~4则从上往下累加相同层级的赋权直至层级不同处,停止累加此时f(t)=0;五层结构从上往下对五个层级赋权为:0.65,0.8,0.9,0.96,1;
计算出两个属性名之间的总的相似性值后判断是否将其合并,合并结束后跳至步骤3)。
相似性具体计算实例如下:
如“位置”的编码为“Cb01B01”,“方位”的编码为“Cb01A01”,对应的五层编码是“Cb 01 B 01”、“C b 01 A 01”,它们的level是3,那么就是0.65+0.8+0.9=2.35;假如level=4,取值是0.65+0.8+0.9+0.96=3.31,这时候的公式2取值为0。假如level=5,取值是0.65+0.8+0.9+0.96=3.31,考虑公式2,这时候看两个编码的末位(这个末位就是“#”、“=”和“@”,没有在五层编码中),“@”已经在公式1中考虑;“#”、“=”的最终计算结果分别是3.31+0.5=3.81,3.31+1=4.31。
步骤3)对象关系抽取模块抽取信息框抽取模块中所有条目的正文文本;首先对抽取出来的正文文本进行降噪处理,去除文本中多余的超链接和标签;然后对文本进行分句;最后对单句子进行分词、词性识别和命名实体识别;
步骤4)在步骤3)中抽取出种子关系三元组中两个实体共现的句子作为该类关系的句子实例;
步骤5)抽取句子实例的n-gram词语特征、n-gram词性特征、以及距离特征,构建特征向量;
步骤6)替换句子实例中的实体名,得到关系模板;
步骤7)通过步骤5)中的特征对关系模板进行聚类,并根据编辑距离对簇内模板进行泛化;
步骤71)对所需求的关系的关系模板进行k-means聚类,特征来自步骤5);经过聚类得到具有相似句法结构的模板簇
P={cluster1,cluster2,...,clusterm};
步骤72)从P中选一个簇clusteri,计算簇内两两关系模板的编辑距离;
步骤73)根据公式(3)初始化关系模板pn,pm的编辑距离矩阵Edit:
其中i取值范围为(1,|pn|),|pn|表示pn的长度,即pn词的总数量;j取值范围为(1,|pm|),|pm|表示pm的长度,即pm词的总数量;
步骤74)根据公式(4)填充Edit矩阵:
Edit(i,j)=min(1+Edit(i-1,j),1+Edit(i,j-1),Edit(i-1,j-1)+d(i,j)) (4)
其中d(i,j)用于表示pn[i]和pm[j]是否相同,pn[i]和pm[j]分别表示模板pn的第i个词和模板pm的第j个词;d(i,j)计算方法如公式(5)所示;
等式(4)表示,将pn[i]转换成pm[j]有三种选择:
(1)执行替换操作:将pn[i]替换成pm[j],此时公式(4)Edit[i,j]最小值为:Edit[i,j]=Edit[i-1,j-1]+d(i,j),当pn[i]和pm[j]相同时,d(i,j)取0;否则取1;
(2)执行删除操作:将pn[i]删除,此时公式(4)Edit[i,j]最小值:E[i,j]=E[i-1,j]+1;
(3)执行删除操作:将pm[j]删除,此时公式(4)Edit[i,j]最小值:E[i,j]=E[i,j-1]+1;
步骤75)在计算编辑矩阵Edit[i,j]的同时,用矩阵D来记录使得当前编辑距离Edit[i,j]最小的操作;根据公式(4)中Edit矩阵不同的取值情况,矩阵D记录不同取值对应的操作;D中取值为:I:表示***操作;R:表示删除操作;E:表示等价,不做任何操作;U:表示替换操作;
步骤76)从clusteri中选取编辑距离最小的两个模板;若两个模板之间的编辑距离大于阈值,停止计算clusteri内的模板,返回步骤72)计算下一个簇;否则跳至步骤77);
步骤77)令Pg为空,首先从矩阵D的右下角开始,直至D[0,0],根据两个编辑距离最小的关系模板求得的操作矩阵D来进行关系模板泛化,得到泛化后的模板Pg;
步骤78)从clusteri中删除两个选取的编辑距离最小的模板,加入泛化模板Pg,跳至步骤73)。
步骤8)结束。
Claims (6)
1.一种基于模板库的对象关系抽取***,包括信息框抽取模块、属性名合并模块、对象关系抽取模块;其特征在于:所述信息框抽取模块用于条目语料库信息框的关系三元组抽取;所述属性名合并模块用于合并所述信息框抽取模块关系三元组中的相似属性名得到种子关系三元组;所述对象关系抽取模块根据种子关系三元组构建模板库实现在文本中抽取对象关系三元组;
所述信息框抽取模块从语料库信息框中抽取条目的关系三元组;所述语料库信息框是对条目的概要描述,从语料库信息框中可以抽取出该条目的关系三元组;
所述属性名合并模块合并信息框抽取模块得到的关系三元组中的相似属性名得到种子关系三元组;属性名合并模块首先通过句法分析得到属性名的核心词,然后利用同义词表计算属性名间的相似性,从而合并相似属性名;
所述对象关系抽取模块用以实现构建模板库并抽取对象关系三元组;对象关系抽取模块预处理条目对应的正文文本得到训练语料和测试语料,然后通过种子关系三元组在训练语料中抽取句子实例,并构建特征向量;最后通过特征聚类和编辑距离对所有句子实例进行泛化构建出关系模板库;通过关系模板库可以在测试语料中抽取出新关系实例。
2.一种利用权利要求1所述的基于模板库的对象关系抽取***的基于模板库的对象关系抽取方法,其特征在于:包括以下步骤:
步骤1)信息框抽取模块从语料库信息框中抽取所需条目的关系三元组;
步骤2)属性名合并模块合并信息框抽取模块得到的关系三元组中的相似属性名,得到种子关系三元组;
步骤3)对象关系抽取模块抽取信息框抽取模块中所有条目的正文文本;首先对抽取出来的正文文本进行降噪处理,去除文本中多余的超链接和标签;然后对文本进行分句;最后对单句子进行分词、词性识别和命名实体识别;
步骤4)在步骤3)中抽取出种子关系三元组中两个实体共现的句子作为该类关系的句子实例;
步骤5)抽取句子实例的n-gram词语特征、n-gram词性特征、以及距离特征,构建特征向量;
步骤6)替换句子实例中的实体名,得到关系模板;
步骤7)通过步骤5)中的特征对关系模板进行聚类,并根据编辑距离对簇内模板进行泛化;
步骤8)结束。
3.根据权利要求2所述的基于模板库的对象关系抽取方法,其特征在于:
步骤1)中抽取信息框关系三元组具体步骤如下:
步骤11)若关系三元组属性值为多词组成的短语,不是数值或可识别的命名实体,对属性值进行修剪,提取出其中可识别的命名实体作为属性值;
步骤12)若属性值中是并列的同类实体,以特殊符号连接多个并列的同类实体,根据属性值内的特殊符号对属性值进行切分,切分的每一个结果都与该条目构成一个关系三元组。
4.根据权利要求2或3所述的基于模板库的对象关系抽取方法,其特征在于,步骤2)中合并相似属性名具体步骤如下:
步骤21)借助句法分析得到属性名的描述部分,删除描述部分;
步骤22)利用同义词表计算属性名间相似性;如果两个属性名的八位编码完全相同,说明它们是同义词,可以将它们合并为同一个属性名;
如果两个属性名八位编码不完全相同,根据它们的八位编码计算两个属性名间的同义程度;对于两个属性名word1,word2,找出它们在同义词表中的八位编码code1,code2;取八位编码的前七位,按照五层结构对前七位码进行分层,得到word1,word2的五层编码t1,t2;求得t1,t2的公共串t,计算方法如式(1)所示:
其中level是公共串t的最大层数,如果level为0,说明两个编码完全不同,则相似性为0,或者两个八位编码是以“@”结尾,说明这个词在同义词表中是独立的,对应的词之间的相似性也为0;如果level为5,说明两个词的五层结构完全相同,累加五个层级的赋权并加上f(t);f(t)则看八位编码的末位,计算方法如式(2)所示,如果末位是“=”,说明两个词完全相等,它们的相似性为1;如果末位为“#”,说明两个词相似,它们的相似性为0.5;如果level为1~4则从上往下累加相同层级的赋权直至层级不同处,停止累加此时f(t)=0;
计算出两个属性名之间的总的相似性值后判断是否将其合并,合并结束后跳至步骤3)。
5.根据权利要求4所述的基于模板库的对象关系抽取方法,其特征在于:所述步骤22)的五层结构从上往下对五个层级赋权λi为:
0.65,0.8,0.9,0.96,1。
6.根据权利要求4所述的基于模板库的对象关系抽取方法,其特征在于,步骤7)中模板泛化具体步骤如下:
步骤71)对所需求的关系模板进行k-means聚类,特征来自步骤5);经过聚类得到具有相似句法结构的模板簇P={cluster1,cluster2,...,clusterm};
步骤72)从P中选一个簇clusteri,计算簇内两两关系模板的编辑距离;
步骤73)根据公式(3)初始化关系模板pn,pm的编辑距离矩阵Edit:
其中i取值范围为(1,|pn|),|pn|表示pn的长度,即pn词的总数量;j取值范围为(1,|pm|),|pm|表示pm的长度,即pm词的总数量;
步骤74)根据公式(4)填充Edit矩阵:
Edit(i,j)=min(1+Edit(i-1,j),1+Edit(i,j-1),Edit(i-1,j-1)+d(i,j)) (4)
其中d(i,j)用于表示pn[i]和pm[j]是否相同,pn[i]和pm[j]分别表示模板pn的第i个词和模板pm的第j个词;d(i,j)计算方法如公式(5)所示;
公式(4)表示,将pn[i]转换成pm[j]有三种选择:
(1)执行替换操作:将pn[i]替换成pm[j],此时公式(4)Edit[i,j]最小值为:Edit[i,j]=Edit[i-1,j-1]+d(i,j),当pn[i]和pm[j]相同时,d(i,j)取0;否则取1;
(2)执行删除操作:将pn[i]删除,此时公式(4)Edit[i,j]最小值:E[i,j]=E[i-1,j]+1
(3)执行删除操作:将pm[j]删除,此时公式(4)Edit[i,j]最小值:E[i,j]=E[i,j-1]+1
步骤75)在计算编辑矩阵Edit[i,j]的同时,用矩阵D来记录使得当前编辑距离Edit[i,j]最小的操作;根据公式(4)中Edit矩阵不同的取值情况,矩阵D记录不同取值对应的操作;D中取值为:I:表示***操作;R:表示删除操作;E:表示等价,不做任何操作;U:表示替换操作;
步骤76)从clusteri中选取编辑距离最小的两个模板;若两个模板之间的编辑距离大于阈值,停止计算clusteri内的模板,返回步骤72)计算下一个簇;否则跳至步骤77);
步骤77)令Pg为空,首先从矩阵D的右下角开始,直至D[0,0],根据两个编辑距离最小的模板求得的操作矩阵D来进行模板泛化;
步骤78)从clusteri中删除两个选取的编辑距离最小的模板,加入泛化模板Pg,跳至步骤73)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910583405.5A CN110390099B (zh) | 2019-06-28 | 2019-06-28 | 一种基于模板库的对象关系抽取***和抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910583405.5A CN110390099B (zh) | 2019-06-28 | 2019-06-28 | 一种基于模板库的对象关系抽取***和抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110390099A CN110390099A (zh) | 2019-10-29 |
CN110390099B true CN110390099B (zh) | 2023-01-31 |
Family
ID=68286017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910583405.5A Active CN110390099B (zh) | 2019-06-28 | 2019-06-28 | 一种基于模板库的对象关系抽取***和抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110390099B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969008B (zh) * | 2019-12-03 | 2020-08-28 | 北京中科院软件中心有限公司 | 一种将加工过程描述语句转换为三元组结构的方法及*** |
CN111611799B (zh) * | 2020-05-07 | 2023-06-02 | 北京智通云联科技有限公司 | 基于字典和序列标注模型实体属性抽取方法、***及设备 |
CN111651559B (zh) * | 2020-05-29 | 2023-05-26 | 辽宁工程技术大学 | 一种基于事件抽取的社交网络用户关系抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550336A (zh) * | 2015-12-22 | 2016-05-04 | 北京搜狗科技发展有限公司 | 单一实体实例的挖掘方法和装置 |
CN108763353A (zh) * | 2018-05-14 | 2018-11-06 | 中山大学 | 基于规则和远程监督的百度百科关系三元组抽取方法 |
CN109408642A (zh) * | 2018-08-30 | 2019-03-01 | 昆明理工大学 | 一种基于距离监督的领域实体属性关系抽取方法 |
CN110188207A (zh) * | 2019-05-15 | 2019-08-30 | 出门问问信息科技有限公司 | 知识图谱构建方法及装置、可读存储介质、电子设备 |
-
2019
- 2019-06-28 CN CN201910583405.5A patent/CN110390099B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550336A (zh) * | 2015-12-22 | 2016-05-04 | 北京搜狗科技发展有限公司 | 单一实体实例的挖掘方法和装置 |
CN108763353A (zh) * | 2018-05-14 | 2018-11-06 | 中山大学 | 基于规则和远程监督的百度百科关系三元组抽取方法 |
CN109408642A (zh) * | 2018-08-30 | 2019-03-01 | 昆明理工大学 | 一种基于距离监督的领域实体属性关系抽取方法 |
CN110188207A (zh) * | 2019-05-15 | 2019-08-30 | 出门问问信息科技有限公司 | 知识图谱构建方法及装置、可读存储介质、电子设备 |
Non-Patent Citations (1)
Title |
---|
面向水利信息资源目录服务的分布式语义检索方法研究;冯钧等;《计算机与现代化》;20150309;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110390099A (zh) | 2019-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与*** | |
CN111090461B (zh) | 一种基于机器翻译模型的代码注释生成方法 | |
CN105718586B (zh) | 分词的方法及装置 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN104408173B (zh) | 一种基于b2b平台的核心关键词自动提取方法 | |
CN110727880B (zh) | 一种基于词库与词向量模型的敏感语料检测方法 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN110390099B (zh) | 一种基于模板库的对象关系抽取***和抽取方法 | |
CN105975625A (zh) | 一种面向英文搜索引擎的中式英文查询纠错方法和*** | |
CN109117472A (zh) | 一种基于深度学习的维吾尔文命名实体识别方法 | |
CN106776562A (zh) | 一种关键词提取方法和提取*** | |
CN104199972A (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN102662936B (zh) | 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法 | |
CN110502744B (zh) | 一种针对历史公园评价的文本情感识别方法及装置 | |
CN101950284A (zh) | 中文分词方法及*** | |
CN111178051B (zh) | 建筑信息模型自适应的中文分词方法及装置 | |
CN113033183B (zh) | 一种基于统计量与相似性的网络新词发现方法及*** | |
CN112417891B (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
CN112559656A (zh) | 基于水文事件的事理图谱构建方法 | |
CN116050397B (zh) | 一种长文本摘要生成方法、***、设备及存储介质 | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN113157918A (zh) | 一种基于注意力机制的商品名称短文本分类方法和*** | |
CN111382333B (zh) | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 | |
CN110888944B (zh) | 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |