CN104636466B - 一种面向开放网页的实体属性抽取方法和*** - Google Patents

一种面向开放网页的实体属性抽取方法和*** Download PDF

Info

Publication number
CN104636466B
CN104636466B CN201510071993.6A CN201510071993A CN104636466B CN 104636466 B CN104636466 B CN 104636466B CN 201510071993 A CN201510071993 A CN 201510071993A CN 104636466 B CN104636466 B CN 104636466B
Authority
CN
China
Prior art keywords
training
text set
target entity
attribute
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510071993.6A
Other languages
English (en)
Other versions
CN104636466A (zh
Inventor
程学旗
贾岩涛
赵泽亚
王元卓
靳小龙
熊锦华
李曼玲
林海伦
许洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201510071993.6A priority Critical patent/CN104636466B/zh
Publication of CN104636466A publication Critical patent/CN104636466A/zh
Application granted granted Critical
Publication of CN104636466B publication Critical patent/CN104636466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向开放网页的实体属性抽取方法和***。其中,所述方法包括:提取开放网页的文本,从中获得目标实体的候选文本集合;以及,根据目标实体属性在训练文本集合中出现的频率,选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。本发明能够提高开放网页实体属性抽取的准确率和召回率,并且不依赖于网页结构,能够适应开放网页类型的变化。

Description

一种面向开放网页的实体属性抽取方法和***
技术领域
本发明涉及数据挖掘技术领域,特别地,涉及一种面向开放网页的实体属性抽取方法和***。
背景技术
开放网页是指数据源不固定、包含多种网络数据的非结构化互联网网页,如博客、论坛、新闻、聊天记录、电子邮件等,其信息的性质和量值出现的位置不固定,所有内容都是不可预知的。随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,开放网页以其结构灵活的自身特点,在数量快速增大的同时,也为其文本理解带来困难:
1、文本结构不固定,没有特定的上下文语法;
2、关键词范围不固定,涉及的学科领域多样;
3、文本长度不固定,上下文信息量差距较大;
4、数据源不固定,语言现象复杂。
实体是指客观存在并可相互区别的事物,可以是具体的客观对象,也可以是抽象的事件。实体属性是指实体本身的性质,实体属性抽取通过将不同信息源对于某一实体的属性集中起来,从不同的角度反映这个实体的相关情况,完善对该实体的认识,在信息抽取、事件跟踪、人名消歧等研究中有着重要作用,并且已成为文本理解的关键技术。
针对开放网页的特点,传统的实体属性抽取方法在以下方面存在限制:
第一、开放网页的文本结构不固定,实体及其描述没有固定规律可循,且多数在自由文本中,不易抽取分析;
第二、传统的面向规则的属性抽取方法,规则定义死板,过于依赖上下文语法,且匹配效率低下;
第三、开放网页的数据源不固定,语言现象复杂,普通规则难以涵盖,传统的基于规则的属性抽取不支持规则的嵌套匹配;
第四、传统的基于统计的实体属性抽取方法,训练数据的准备过于依赖人工,效率不高,且准确率和召回率较低;
第五、传统的属性抽取多局限在某个领域或学科里面进行,不能将***直接移植到其他领域或学科进行使用,缺乏具有通用性的关联特征,不易移植和扩展。
发明内容
为解决上述问题,根据本发明的一个实施例,提供一种面向开放网页的实体属性抽取方法,包括:
步骤1)、提取开放网页的文本,从中获得目标实体的候选文本集合;
步骤2)、根据目标实体属性在训练文本集合中出现的频率,选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。
上述方法中,步骤1)包括:
步骤11)、从开放网页中提取出非结构化文本,对该非结构化文本进行分词,得到词与所述非结构化文本之间的相关度;
步骤12)、获得目标实体的上下文中距离该目标实体最近的一个或多个初始查询扩展词,将与目标实体及所述一个或多个初始查询扩展词相关度最高的一个或多个非结构化文本作为第一文本集合;
步骤13)、从所述第一文本集合中选择词频最高的一个或多个二次查询扩展词,将与目标实体及所述一个或多个二次查询扩展词相关度最高的一个或多个非结构化文本作为第二文本集合;
步骤14)、将所述第一文本集合和所述第二文本集合的并集作为目标实体的候选文本集合。
上述方法中,多个词与非结构化文本的相关度为所述多个词中的每个词与该非结构化文本的相关度之和。
上述方法中,步骤2)包括:计算目标实体属性在训练文本集合中出现的频率,如果该频率超过预定的阈值,则根据构造的统计模型来抽取目标实体属性的值,否则根据构造的层叠有穷状态自动机来抽取目标实体属性的值;其中,所述训练文本集合用于训练所述统计模型。
上述方法中,根据以下步骤构造层叠有穷状态自动机:
步骤a)、在所述候选文本集合中进行实体识别并生成概念文件;其中,所述概念文件包括指示实体类型和属于该类型的、从所述候选文本集合中识别出的实体的基本概念;指示待抽取变量的正则表达式;以及,指示实体与属性之间的关系的标志词;
步骤b)、生成包括所述概念文件和关联规则的规则文件;其中,关联规则包括单个规则或者嵌套了多个子规则的规则,用于指示所述概念文件中基本概念、正则表达式以及标志词之间的关系;
步骤c)、根据所述规则文件中的关联规则,构造层叠有穷状态自动机;其中,所述层叠有穷状态自动机的初始状态为基本概念、正则表达式或者标志词;其他状态包括关联规则以及关联规则中的子规则。
上述方法中,根据构造的层叠有穷状态自动机来抽取目标实体属性的值包括:
将所述候选文本集合与所述层叠有穷状态自动机从初始状态开始匹配,对每个状态在所述候选文本集合中匹配到的内容建立倒排索引;
匹配完成后,从建立的倒排索引中得到目标实体属性的值。
上述方法中,根据以下步骤构造统计模型:
步骤A)、从在线百科中获得训练实体和相应的训练属性;
步骤B)、从训练开放网页中获得所述训练实体的训练文本集合;
步骤C)、在所述训练文本集合中提取特征,将所述训练属性的特征进行回标得到各属性的训练数据;
步骤D)、根据所述训练数据,生成与每个属性相对应的统计模型。
上述方法中,步骤B)包括:
步骤B1)、从训练开放网页中提取出非结构化文本,对该非结构化文本进行分词,得到词与非结构化文本之间的相关度;
步骤B2)、根据训练实体在训练开放网页中的上下文信息获得距离该训练实体最近的n个初始查询扩展词,将与训练实体及初始查询扩展词相关度最高的K个非结构化文本作为第三文本集合;其中,n和K为正整数;
步骤B3)、从所述第三文本集合中选择词频最高的m个二次查询扩展词,将与训练实体及二次查询扩展词相关度最高的L个非结构化文本作为第四文本集合;其中,m和L为正整数;
步骤B4)、取所述第三文本集合和所述第四文本集合的并集,作为训练文本集合。
上述方法中,步骤C)还包括:去除所述训练数据中的杂质,以及控制所述训练数据中的正例与反例的比例。
上述方法中,所述特征包括词语、词语之间的依存关系、词语的词频及词性。
上述方法中,根据构造的统计模型来抽取目标实体属性的值包括:
按照在构造所述统计模型时提取特征的方式来提取所述候选文本集合的特征;
将提取出的特征输入目标实体属性对应的统计模型,得到目标实体属性的值。
上述方法中,还包括:
步骤3)、根据目标实体属性的类型、词性或者取值范围,校正抽取出的目标实体属性的值。
根据本发明的一个实施例,还提供一种面向开放网页的实体属性抽取***,包括:
网页预处理模块,用于提取开放网页的文本;
查询扩展模块,用于从提取出的文本中获得目标实体的候选文本集合;
属性抽取模块,用于根据目标实体属性在训练文本集合中出现的频率,选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。
本发明具有如下的有益效果:
1、提出一种基于层叠有穷状态自动机的实体属性抽取方法,实现了复杂嵌套规则的抽取;
2、在基于层叠有穷状态自动机的抽取过程中,对该自动机每个状态抽取的内容建立倒排索引,大大提升了规则匹配效率;
3、制定了一套无关文法的概念定义和规则定义语言,使得实体属性抽取脱离上下文语言环境,实现声明式信息抽取,提升了***的兼容性;
4、对CRF模型训练提出了一套句级的文本特征,能够提升属性抽取中机器学习的效果;
5、提出了根据在线百科属性框(Infobox)的已有属性信息回标,自动生成CRF训练数据的方法,并针对回标效果提出需人工校验的部分,提升了训练数据的效率和准确性;
6、提供一种迭代查询扩展的方法,经验证能够提高开放网页的实体属性抽取的准确率和召回率;
7、根据属性的出现频率自适应地采用基于规则或基于统计的抽取方法,实现对开放网页的实体属性抽取。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1是根据本发明一个实施例的面向开放网页的实体属性抽取方法的流程图;
图2是根据本发明一个实施例的迭代查询扩展方法的流程图;
图3是根据本发明一个实施例的自适应实体属性抽取方法的流程图;
图4是根据本发明一个实施例的构建层叠有穷状态自动机以及基于层叠有穷状态自动机的关联规则进行属性抽取的方法的流程图;
图5是根据本发明一个实施例的层叠有穷状态自动机的示意图;
图6是根据本发明一个实施例的初始倒排索引的示意图;
图7是根据本发明一个实施例的层叠有穷状态自动机与候选文本集合匹配的示意图;
图8是根据本发明一个实施例的匹配完成时的倒排索引的示意图;
图9是根据本发明一个实施例的构建条件随机场模型以及基于条件随机场模型的属性抽取方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
根据本发明的一个实施例,提供一种面向开放网页的实体属性抽取方法。
概括而言,该方法包括:提取开放网页的文本,从中获得目标实体的候选文本集合;根据目标实体属性在训练文本集合中出现的频率,选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。
在描述该面向开放网页的实体属性抽取方法之前,首先对实体属性、规则和统计模型进行说明。其中,实体属性包括目标实体、属性名和属性值三个部分;规则包括规则类型、目标名称及参数、以及规则体,统计模型使用的特征的文本来源包括属性名前的文本、属性名和属性值之间的文本以及属性值后的文本。
现结合图1对该面向开放网页的实体属性抽取方法的各步骤进行详细描述。需要说明的是,说明书中描述的方法的各个步骤并非一定是必须的,而是可以根据实际情形来省略或替换其中的一个或多个步骤,另外,各个步骤之间的顺序也是可以调整的。
步骤S101:开放网页预处理
根据本发明的一个实施例,开放网页的预处理过程包括:
1、获得待抽取的开放网页集合,抽取网页内容,得到待抽取的非结构化文本。
2、将待抽取的非结构化文本进行分词,计算词与每个非结构化文本的相关度,得到与每个词对应的最高相关度(或称匹配度)非结构化文本集合,并根据以上信息建立倒排索引。
在一个实施例中,根据词频等特征来计算词与非结构化文本之间的相关度。例如,可利用TF-IDF方法得到一个词与所有非结构化文本的相关度,接着将相关度最高的k(k为正整数)个非结构化文本作为该词的最高相关度非结构化文本集合。
步骤S102:通过迭代查询扩展得到候选文本集合
根据步骤S101中建立的倒排索引,通过两次查询扩展并融合目标实体的上下文信息和词频信息,生成候选文本集合。图2描述了迭代查询扩展方法的步骤的一个实施例,包括:
步骤S201、根据目标实体E的上下文信息,获取上下文中距离E最近的n(n为正整数)个实体(词),称作查询扩展词。
在一个实施例中,选取n=1,即将目标实体E的前后词语E1和E2作为查询扩展词。
步骤S202、初始查询扩展。
在步骤S101中建立的倒排索引中查询目标实体和查询扩展词,得到与目标实体和查询扩展词相关度最高的非结构化文本的文本集合U1
在一个实施例中,将目标实体、查询扩展词与某个非结构化文本的相关度之和作为该目标实体和查询扩展词与该非结构化文本的相关度并排序,从而得到文本集合U1(如包括50篇文本)。在另一个实施例中,分别找到目标实体和查询扩展词的最高相关度非结构化文本集合,取交集得到文本集合U1。通过实验发现,初始查询扩展过程可提升实体属性抽取的准确率。
步骤S203、从U1中选出词频最高的m(m为正整数)个词。
在一个实施例中,选取m=2,即选取U1中词频最高的两个实体E3和E4进行第二次查询扩展。
步骤S204、二次查询扩展。
将词频最高的m个词与目标实体E一起再次在倒排索引中查询,得到与它们相关度最高的文本集合U2。例如,采用步骤S202中的方法来得到U2。通过实验发现,该步骤能有效提升实体属性抽取的召回率和准确率。
步骤S205、将两次查询扩展的结果取并集,作为目标实体E的实体属性抽取的候选文本集合U(简称候选文本集合U)。
步骤S103:自适应实体属性抽取
概括而言,自适应实体属性抽取过程包括:根据目标实体属性(或称目标属性)在训练文本集合中出现的频率,自适应地选择不同的实体属性抽取方法。其中,训练文本集合是用于训练统计模型(该模型用于基于统计的实体属性抽取方法,并将在下文中描述)的文本集合,可根据下文的标志词在训练文本集合中出现的频率来得到目标属性在训练文本集合中出现的频率。这里,如果出现频率高于预定阈值,则采用基于统计的实体属性抽取方法,否则采用基于规则的实体属性抽取方法。这样做的原因在于:对于出现频率较低的实体属性,采用基于规则的方法的精度和执行效率更好;而对于出现频率较高的属性,选择基于统计的方法更全面。
其中,基于规则的实体属性抽取方法可通过构造层叠有穷状态自动机,实现规则嵌套,并对层叠有穷状态自动机每个状态(或称节点)匹配到的文本内容建立倒排索引,快速实现复杂文本模式的匹配,得到实体属性值;基于统计的实体属性抽取方法可根据条件随机场原理进行有监督的机器学习,选取文本特征,训练统计模型(如条件随机场模型)来抽取实体属性。如图3所示,自适应实体属性抽取过程可包括以下子步骤:
步骤S301、构建层叠有穷状态自动机。
对候选文本集合U进行实体识别,制定一套无关文法的声明式语言规范,其中定义概念集合和关联规则集合,根据规则的嵌套依赖关系,构造出层叠有穷状态自动机。
步骤S302、训练统计模型。
选择文本特征,生成训练数据,通过训练得到统计模型,如CRF模型MCRF
步骤S303、计算目标实体属性在训练文本集合中出现的频率,判断是否超过预定阈值。
步骤S304、若步骤S303的判断结果为否,则采用基于层叠有穷状态自动机的关联规则进行属性抽取(即基于规则的实体属性抽取方法)。
步骤S305、若步骤S303的判断结果为是,则采用基于条件随机场的机器学习进行属性抽取(即基于统计的实体属性抽取方法)。对候选文本集U进行句子级的特征抽取,生成特征向量,输入步骤S302中生成的统计模型,抽取出目标属性值。
应理解,上述子步骤的顺序是可以调换的,例如,训练统计模型的子步骤可以在构建层叠有穷状态自动机之前的任何时候进行或者与构建层叠有穷状态自动机同时进行。
上文对自适应实体属性抽取过程进行了概括描述,下面将分别对构建层叠有穷状态自动机,基于层叠有穷状态自动机进行属性抽取;训练统计模型,基于统计模型(尤其是条件随机场模型MCRF)进行属性抽取的过程进行详细描述。
图4描述了构建层叠有穷状态自动机以及基于层叠有穷状态自动机的关联规则进行属性抽取的方法,以下是该方法的各个子步骤:
步骤S401、实体识别。
在候选文本集合U中进行命名实体识别,得到实体集合,并确定实体的类型,如人、地点、机构等。
步骤S402、生成概念文件。
概念文件是所有概念的集合,包括CONCEPT基本概念、REGEX正则表达式和CONCEPT标志词。使用与上下文文法无关的语言,进行声明式定义:
(1)CONCEPT基本概念即待抽取的类型变量,如人物、地点、组织等(一种类型定义为一个概念对象)。定义格式为CONCEPT:[概念名称]:[实例取值],其中,概念名称即类型变量,实例取值即该类型的实体集合,可认为是<类型变量-类型变量取值范围>的概念对。其中,基本概念由步骤S401生成的实体集合得到。例如:将文中所有“组织”类型的实体归为一个概念,概念名为ORG,其取值范围是文中类型为组织的实例,例如含中国科学技术大学研究生院、北京大学、中科院计算所等,该ORG概念定义如表1所示。
表1
Figure BDA0000670711360000091
(2)REGEX正则表达式即为待抽取的变量的正则表达式,格式为REGEX:[概念名称]:[正则表达式内容],表2给出了REGEX正则表达式的一个例子。
表2
REGEX:DATE:([\d]{4}年){0,1}([\d]{1,2}月){0,1}([\d]{1,2}日){0,1}
其中,DATE为该正则表达式的名称,([\d]{4}年){0,1}([\d]{1,2}月){0,1}([\d]{1,2}日){0,1}为DATE所指代的正则表达式。
(3)CONCEPT标志词是与待抽取属性相关的标识词,即实体与属性的关系标志词,用于关联规则的制定,格式为CONCEPT:[概念名称]:[标志词取值]。例如,要抽取人的属性“出生日期”时,所需用到的标志词可如表3所示。
表3
Figure BDA0000670711360000092
将以上CONCEPT和REGEX的集合合并,成为总的概念集合,即生成概念文件,如表4所示。
表4
Figure BDA0000670711360000093
Figure BDA0000670711360000101
步骤S403、生成规则文件。
规则文件由关联规则MCONCEPT_RULE集合和步骤S402生成的概念文件合并生成。关联规则MCONCEPT_RULE表征概念之间的关系,是通过对概念进行布尔逻辑约束和上下文约束得到的,格式为MCONCEPT_RULE:[规则名称]([待输出变量]):([约束],[“_待输出变量{概念}”],[标志词])。待输出变量即匹配到的概念的实例(包括实体实例,以及属性实例,即属性值),其中约束包括但不限于:
(1)AND:所有子句都出现的字符串才会被匹配;
(2)OR:只要有一个子句出现,该字符串就会被匹配;
(3)SENT:所有子句都出现在同一个句子,该字符串才会被匹配;
(4)ORD:所有子句按规则定义的顺序同时出现,该字符串才会被匹配;
(5)DIST_n:所有子句同时出现在字符串,且相邻子句实例距离(间隔距离)不超过n个词时,该字符串会被匹配。
MCONCEPT_RULE通过定义概念之间的关系,将满足该关系的概念的实例抽取出来。步骤S402中生成的CONCEPT和REGEX都是待抽取的概念,其匹配到的文本即该概念的实例,如表5示出了NAME_BIRTHDAY规则,其抽取人的“出生日期。”
表5
MCONCEPT_RULE:NAME_BIRTHDAY(person,birthday):(DIST_20,
"_person{NAME}","BIRTH_OR","_birthday{DATE}")
其中,NAME_BIRTHDAY为规则名称,(person,birthday)表示输出person和birthday两个变量,其中person是NAME概念的实例,birthday是DATE变量的实例。NAME_BIRTHDAY的含义是:若NAME、BIRTH_OR、DATE概念的实例同时出现且距离不超过20个词,则将NAME匹配的子句(即NAME的实例)作为person输出,DATE匹配的子句作为birthday输出。
特别地,本发明支持规则的嵌套。根据规则之间的依赖关系,形成复杂嵌套规则。例如,表6示出了NAME_COLLEGE规则,抽取人的“毕业院校及毕业时间”。
表6
Figure BDA0000670711360000111
表6表示如下:首先,必须匹配成功(ORD,"DEGREE_GET_OR","DE GREE")子规则,即存在"DEGREE_GET_OR"后出现"DEGREE"的子句;其次,子规则匹配成功后,若该子句所在的句子中,同时出现了NAME、DATE、ORG概念的实例,则将NAME匹配的子句(即NAME的实例)作为person输出,DATE匹配的子句作为graduatetime输出,ORGANIZATI ON匹配的子句作为college输出。
规则文件由所有MCONCEPT_RULE和所有概念集合生成,以“#”开头代表该行被注释,表7示出了抽取人的属性“出生日期”、“毕业院校”、“联系方式”的规则文件。
表7
Figure BDA0000670711360000112
Figure BDA0000670711360000121
Figure BDA0000670711360000131
步骤S404、构建层叠有穷状态自动机。
根据规则之间的嵌套依赖关系,将规则转移为一组彼此有依赖关系的有穷状态自动机,每个概念是初始状态,通过概念之间的约束关系和规则嵌套依赖关系,逐步生成层叠的有穷状态自动机。该层叠有穷状态自动机呈树状,底层为初始状态,其可转移成的状态可以看作其父状态;初始状态为概念,其父状态为规则或子规则,转移函数即为规则或子规则的约束条件。通过规则的约束条件和嵌套关系,从初始状态开始,逐步向上转移为规则或子规则状态,构成层叠有穷状态自动机,如图5所示。
步骤S405、将候选文本集合U与层叠有穷状态自动机的初始状态匹配,建立初始倒排索引。
本步骤将候选文本集合U与初始状态匹配,即匹配各个概念,并对初始状态匹配到的文本建立倒排索引。其中,每个状态作为词项,该状态匹配到的文本作为该词项的倒排记录表,每个词项有一个指针指向其倒排记录表,如图6所示。
步骤S406、根据层叠有穷状态机进行状态转移,得到实体属性。
以初始状态为起点,自底向上判断层叠有穷状态自动机中的每一个状态可否进行状态转移。状态转移函数为父状态代表的规则或子规则的约束条件,通过判断规则或子规则所需的其他状态是否在倒排索引中存在,可以得出是否能够进行状态转移。若可以转移到该状态,则对该状态匹配的文本建立倒排索引,并追加在步骤S405中生成的倒排索引后,继续向上判断是否可以状态转移;若不能转移,则该状态是匹配成功的最复杂规则,终止向上匹配,并根据倒排索引将该规则包含的概念的实例输出,获取该规则所代表的属性值。其中,在匹配的过程中,动态维护一个各状态所匹配的文本内容的倒排索引。
例如,输入步骤S403得到的规则文件得到层叠有穷状态自动机,与候选文本集合U进行匹配,得到属性值,如表8所示。
表8
Figure BDA0000670711360000141
Figure BDA0000670711360000151
在该示例中,输入上述3条规则NAME_COLLEGE1、NAME_COLLE GE2和NAME_BIRTHDAY,对该段文本匹配时,首先根据规则的依赖关系构建层叠有穷状态自动机,如图5所示。
根据构建的层叠有穷状态自动机,将初始状态与候选文本进行匹配,对NAME、DATE、BIRTH_OR、GRADUATE、ORG、DEGREE_GET_OR、DEGREE匹配到的内容建立倒排索引,如图6所示。
根据层叠有穷状态自动机,进行状态转移(即S406)。从第一个匹配到的初始状态NAME开始,能够转移的状态有NAME_BIRTHDAY、NAME_COLLEGE1规则、NAME_COLLEGE2规则,依次查看转移所需的其余状态是否满足,例如:NAME_BIRTHDAY还需在间距20以内有DATE、BIRTH_OR,因其满足,已为终止状态,停止匹配,将NAME变量的实例“李国杰”作为person输出,将DATE变量的实例“1943年5月”作为birthday输出,同时对NAME_BIRTHDAY建立倒排索引,方便后续作为嵌套规则的一部分进行查找;NAME_COLLEGE1规则还需NAME_COLLEGE1子规则,在倒排索引中没有,则终止匹配,NAME_COLLEGE2规则同理终止匹配。NAME状态终止后,从下一个匹配到的初始状态DATE状态开始继续向上匹配,可转移NAME_COLLEGE1子规则、NAME_COLLEGE2规则,依次查看是否满足转移条件,NAME_COLLEGE1子规则还需GRADUTE和ORG在间距10以内,在倒排索引中存在且满足,NAME_COLLEGE1子规则匹配成功,建立倒排索引,并向上继续匹配NAME_COLLEGE1规则,NAME_COLLEGE1规则还需NAME同时出现在该子句中,满足,NAME_COLLEGE1规则匹配成功,建立倒排索引,已为终止状态,停止匹配,输出NAME实例“person:李国杰”、DATE实例“graduatetime:1968年”、ORG实例“college:北京大学”。继续查看可以转移的状态,自底向上实现复杂嵌套规则的匹配,如图7所示。
其中,在匹配过程中动态维护各状态匹配文本的倒排索引,最终生成的倒排索引如图8所示。
以上子步骤通过对所有规则生成统一的层叠有穷状态自动机,自底向上遍历,避免了相同子规则的重复匹配,并在匹配过程中,自底向上建立倒排索引,加快了匹配的速度。
参考图9,描述了构建统计模型(具体地,条件随机场模型)以及基于该统计模型的属性抽取方法。
概括而言,该方法测试不同文本特征对条件随机场模型的效果,选取最佳文本特征(即下文的词语、依存关系、词性、词频),设置模板文件参数。提取在线百科页面属性框中已有的实体属性关系,回标以自动生成训练数据,对每个属性分别训练条件随机场模型MCRF,并对得到的文本候选集U进行属性抽取。
详细来说,该方法包括以下子步骤:
步骤S501、获取训练实体及训练属性。
获取在线百科的属性框(Infobox)的内容,生成已知的<实体-属性>集合,从而得到训练实体和训练属性。
其中,Infobox是在线百科词条页面中结构化描述词条属性的一个表格性区域。
步骤S502、将训练实体在训练用开放网页集合中分别按照步骤S102中描述的方法进行迭代查询扩展,从而得到用于训练的文本集合(或称训练文本集合)。
步骤S503-S507是提取训练数据特征的步骤。其中:
步骤S503、对训练文本集合中的文本进行句子切分,以句子为单位进行模型训练;
步骤S504、对句子进行分词,得到句子中含有的词语;
步骤S505、对每个词标注词性,如名词、代词、动词、形容词等;
步骤S506、对每个词进行依存关系分析,处理词语之间的支配关系,例如可使用依存关系树完成该过程;
步骤S507、计算每个词的词频,即每个词在文本中出现的次数。
将句子的词语、依存关系、词性、词频作为特征提取出来,作为机器学习的特征。
步骤S508、生成训练数据。
将步骤S501生成的每个已知<实体-属性>对,对其特征数据进行回标(其中,“回标”是指标出各句子特征是该属性的正例还是反例,将回标完成的特征数据作为训练数据),从而生成各属性的训练数据。
其中,生成训练数据包括正例的生成和反例的生成,具体的实现过程如下:已知“李国杰”的工作单位是“中科院计算所”,则将实体“李国杰”的候选文本集合中,所有含有“中科院计算所”的句子的特征数据回标为正例;而对剩余句子进行命名实体识别,将含有组织的句子的特征数据回标为反例。
步骤S509、人工校正。
人工校正子步骤S508中生成的训练数据,包括但不限于:
(1)去除杂质。例如,已知某实体的工作单位是中科院计算所,在自动生成的训练数据中,会把“中科院计算所”全部标注为正例,如“在中科院计算所工作”,标注为正例,而“中科院计算所位于中科院路”,会被错误地标注成了正例,需人工校正,去除错误的标注;
(2)控制正例、反例比例。若正例过多,抽取结果会引入较多杂质;若反例过多,抽取结果召回率会过低,因此需控制正例、反例的比例(如1:3)。
步骤S510、制定模板文件,据上下文信息,确定行、列、条件概率的窗口大小。
步骤S511、输入步骤S509生成的训练数据,通过有监督的机器学习,为每个属性生成CRF模型MCRF
步骤S512、根据生成的CRF模型抽取属性值。
其中,抽取步骤S102中得到的候选文本集合U的特征,该特征抽取过程同上述子步骤S503、步骤S504、步骤S505、步骤S506和步骤S507。
按目标属性选择相应的MCRF,根据抽取的特征及相应的MCRF对目标实体的目标属性进行抽取,得到属性值。
步骤S104:属性校正
根据属性本身的词性、类型、范围等限制,对抽取出的属性值进行校正,剔除不符合要求的属性。例如,人的儿女、配偶、父母等属性,类型也应为人;再例如,描述年龄的属性,通常为1-120之间的数字。
在一个实施例中,属性的校正规则包括但不限于:
1)、属性类型校验:通过某属性对类型的限制,判断抽取的属性值的正误,剔除与类型不匹配的属性值;
2)、取值范围校验:根据某属性的词性(如名词、数量词、日期等)及数据范围,剔除超出词性范围的属性值。
根据本发明的一个实施例,还提供一种面向开放网页的实体属性抽取***,包括网页预处理模块、查询扩展模块、属性抽取模块和属性校正模块。
其中,网页预处理模块用于提取开放网页的文本,建立倒排索引;查询扩展模块用于从提取出的文本中获得目标实体的候选文本集合;属性抽取模块用于根据目标实体属性在训练文本集合中出现的频率,选择基于规则的方式或者基于统计的方式从候选文本集合中抽取目标实体属性的值;以及,属性校正模块用于对抽取出的属性值进行校正。
为验证本发明提供的面向开放网页的实体属性抽取方法和***的有效性,发明人使用2014年TAC KBP的Slot Filling评测的数据进行了实验,实验参数如下:
实验数据集包括100个实体(其中“人”类型50个,“组织”类型50个),要抽取的属性共41个(其中“人”类型目标属性25个,“组织”类型目标属性16个)。其中,有30种属性出现频率高,具有充足的训练数据,选用CRF的方法训练模型进行属性抽取,剩下的11种属性出现频率较低,采用基于CFT制定规则的方法对属性进行抽取。该实验数据集中,包含的属性值共计1001个。
在实验过程中,发现了最佳参数配置。其中,查询扩展时选取扩展窗口为1,每次扩展选取前50篇文本;CRF训练选取4个文本特征:句子包含的词、各词的词性、各词的词频、各词之间的依存关系。在生成CRF模型的训练数据时,采用的正例、反例的比例为1:3,通过验证发现该配置能够达到最高的召回率和准确率。
经过实验,得出如下结果:
共抽取结果为412个,命中243个,准确率为58.98%。而现有抽取技术中,Stanford大学的自然语言处理组的通过对实体对之间关系词的机器学习方法表现最好,准确率达到58.54%;Rensselaer Polytechnic Institute的RPI BLENDER团队多策略综合搜索的方法表现较好,准确率达到47.80%。本发明的准确率均高于现有抽取技术,因此,本发明比现有属性抽取技术更为精确。
应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
以上所述仅为本发明示意性的具体实施方式,并非用以限定本发明的范围。任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合,均应属于本发明保护的范围。

Claims (12)

1.一种面向开放网页的实体属性抽取方法,包括:
步骤1)、提取开放网页的文本,从中获得目标实体的候选文本集合;
步骤2)、根据目标实体属性在训练文本集合中出现的频率,选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值,包括:
计算目标实体属性在训练文本集合中出现的频率,如果该频率超过预定的阈值,则根据构造的统计模型来抽取目标实体属性的值,否则根据构造的层叠有穷状态自动机从其初始状态针对所述候选文本集合所匹配到的文本以倒排索引的方式来抽取目标实体属性的值;其中,所述训练文本集合用于训练所述统计模型,所述统计模型为条件随机场模型。
2.根据权利要求1所述的方法,其中,步骤1)包括:
步骤11)、从开放网页中提取出非结构化文本,对该非结构化文本进行分词,得到词与所述非结构化文本之间的相关度;
步骤12)、获得目标实体的上下文中距离该目标实体最近的一个或多个初始查询扩展词,将与目标实体及所述一个或多个初始查询扩展词相关度最高的一个或多个非结构化文本作为第一文本集合;
步骤13)、从所述第一文本集合中选择词频最高的一个或多个二次查询扩展词,将与目标实体及所述一个或多个二次查询扩展词相关度最高的一个或多个非结构化文本作为第二文本集合;
步骤14)、将所述第一文本集合和所述第二文本集合的并集作为目标实体的候选文本集合。
3.根据权利要求2所述的方法,其中,多个词与非结构化文本的相关度为所述多个词中的每个词与该非结构化文本的相关度之和。
4.根据权利要求1所述的方法,其中,根据以下步骤构造层叠有穷状态自动机:
步骤a)、在所述候选文本集合中进行实体识别并生成概念文件;其中,所述概念文件包括指示实体类型和属于该类型的、从所述候选文本集合中识别出的实体的基本概念;指示待抽取变量的正则表达式;以及,指示实体与属性之间的关系的标志词;
步骤b)、生成包括所述概念文件和关联规则的规则文件;其中,关联规则包括单个规则或者嵌套了多个子规则的规则,用于指示所述概念文件中基本概念、正则表达式以及标志词之间的关系;
步骤c)、根据所述规则文件中的关联规则,构造层叠有穷状态自动机;其中,所述层叠有穷状态自动机的初始状态为基本概念、正则表达式或者标志词;其他状态包括关联规则以及关联规则中的子规则。
5.根据权利要求4所述的方法,其中,根据构造的层叠有穷状态自动机来抽取目标实体属性的值包括:
将所述候选文本集合与所述层叠有穷状态自动机从初始状态开始匹配,对每个状态在所述候选文本集合中匹配到的内容建立倒排索引;
匹配完成后,从建立的倒排索引中得到目标实体属性的值。
6.根据权利要求1所述的方法,其中,根据以下步骤构造统计模型:
步骤A)、从在线百科中获得训练实体和相应的训练属性;
步骤B)、从训练开放网页中获得所述训练实体的训练文本集合;
步骤C)、在所述训练文本集合中提取特征,将所述训练属性的特征进行回标得到各属性的训练数据;
步骤D)、根据所述训练数据,生成与每个属性相对应的统计模型。
7.根据权利要求6所述的方法,其中,步骤B)包括:
步骤B1)、从训练开放网页中提取出非结构化文本,对该非结构化文本进行分词,得到词与非结构化文本之间的相关度;
步骤B2)、根据训练实体在训练开放网页中的上下文信息获得距离该训练实体最近的n个初始查询扩展词,将与训练实体及初始查询扩展词相关度最高的K个非结构化文本作为第三文本集合;其中,n和K为正整数;
步骤B3)、从所述第三文本集合中选择词频最高的m个二次查询扩展词,将与训练实体及二次查询扩展词相关度最高的L个非结构化文本作为第四文本集合;其中,m和L为正整数;
步骤B4)、取所述第三文本集合和所述第四文本集合的并集,作为训练文本集合。
8.根据权利要求6所述的方法,其中,步骤C)还包括:
去除所述训练数据中的杂质,以及控制所述训练数据中的正例与反例的比例。
9.根据权利要求6所述的方法,其中,所述特征包括词语、词语之间的依存关系、词语的词频及词性。
10.根据权利要求6-9中任何一个所述的方法,其中,根据构造的统计模型来抽取目标实体属性的值包括:
按照在构造所述统计模型时提取特征的方式来提取所述候选文本集合的特征;
将提取出的特征输入目标实体属性对应的统计模型,得到目标实体属性的值。
11.根据权利要求1-3中任何一个所述的方法,还包括:
步骤3)、根据目标实体属性的类型、词性或者取值范围,校正抽取出的目标实体属性的值。
12.一种面向开放网页的实体属性抽取***,包括:
网页预处理模块,用于提取开放网页的文本;
查询扩展模块,用于从提取出的文本中获得目标实体的候选文本集合;
属性抽取模块,用于根据目标实体属性在训练文本集合中出现的频率,选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值,包括用于计算目标实体属性在训练文本集合中出现的频率,如果该频率超过预定的阈值,则根据构造的统计模型来抽取目标实体属性的值,否则根据构造的层叠有穷状态自动机从其初始状态针对所述候选文本集合所匹配到的文本以倒排索引的方式来抽取目标实体属性的值;其中,所述训练文本集合用于训练所述统计模型,所述统计模型为条件随机场模型。
CN201510071993.6A 2015-02-11 2015-02-11 一种面向开放网页的实体属性抽取方法和*** Active CN104636466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510071993.6A CN104636466B (zh) 2015-02-11 2015-02-11 一种面向开放网页的实体属性抽取方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510071993.6A CN104636466B (zh) 2015-02-11 2015-02-11 一种面向开放网页的实体属性抽取方法和***

Publications (2)

Publication Number Publication Date
CN104636466A CN104636466A (zh) 2015-05-20
CN104636466B true CN104636466B (zh) 2020-07-31

Family

ID=53215212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510071993.6A Active CN104636466B (zh) 2015-02-11 2015-02-11 一种面向开放网页的实体属性抽取方法和***

Country Status (1)

Country Link
CN (1) CN104636466B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10803391B2 (en) 2015-07-29 2020-10-13 Google Llc Modeling personal entities on a mobile device using embeddings
CN106547753B (zh) * 2015-09-16 2021-12-10 腾讯科技(深圳)有限公司 一种信息分析方法及电子设备
CN107402933A (zh) * 2016-05-20 2017-11-28 富士通株式会社 实体多音字消歧方法和实体多音字消歧设备
CN106776866A (zh) * 2016-11-29 2017-05-31 首都师范大学 一种对高校网站上的会议稿进行知识抽取的方法
CN108614828B (zh) * 2016-12-12 2020-12-29 北大方正集团有限公司 基于规则模板的语料分析方法及语料分析装置
CN107045529B (zh) * 2017-01-16 2021-01-22 阿里巴巴(中国)有限公司 网络内容获取方法、装置及服务终端
CN107368525B (zh) * 2017-06-07 2020-03-03 广州视源电子科技股份有限公司 搜索相关词的方法及装置、存储介质和终端设备
CN110709828A (zh) * 2017-06-08 2020-01-17 北京嘀嘀无限科技发展有限公司 使用条件随机域模型确定文本属性的***及方法
CN110019829B (zh) * 2017-09-19 2021-05-07 绿湾网络科技有限公司 数据属性确定方法、装置
CN107729319B (zh) * 2017-10-18 2021-03-09 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN107992597B (zh) * 2017-12-13 2020-08-18 国网山东省电力公司电力科学研究院 一种面向电网故障案例的文本结构化方法
CN108363701B (zh) * 2018-04-13 2022-06-28 达而观信息科技(上海)有限公司 命名实体识别方法及***
TWI705338B (zh) * 2018-06-14 2020-09-21 大陸商北京嘀嘀無限科技發展有限公司 使用條件隨機域模型確定文本屬性的系統及方法
CN109783651B (zh) * 2019-01-29 2022-03-04 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质
CN110399433A (zh) * 2019-07-23 2019-11-01 福建奇点时空数字科技有限公司 一种基于深度学习的数据实体关系抽取方法
CN112434530A (zh) * 2019-08-06 2021-03-02 富士通株式会社 信息处理装置和信息处理方法
CN111027318B (zh) * 2019-10-12 2023-04-07 中国平安财产保险股份有限公司 基于大数据的行业分类方法、装置、设备及存储介质
CN111125438B (zh) * 2019-12-25 2023-06-27 北京百度网讯科技有限公司 实体信息提取方法、装置、电子设备及存储介质
CN113609838B (zh) * 2021-07-14 2024-05-24 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 文档信息抽取及图谱化方法和***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298588A (zh) * 2010-06-25 2011-12-28 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
CN102831251A (zh) * 2012-09-20 2012-12-19 北京理工大学 基于动态学习框架的全自动网页结构化数据抽取方法
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和***
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082962A (ja) * 2000-09-08 2002-03-22 Hitachi Ltd エンジニアリングポータルサイトにおける情報提供方法
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN103268339B (zh) * 2013-05-17 2016-06-01 中国科学院计算技术研究所 微博消息中命名实体识别方法及***
CN103324700B (zh) * 2013-06-08 2017-02-01 同济大学 一种基于Web信息的本体概念属性学习方法
CN103500208B (zh) * 2013-09-30 2016-08-17 中国科学院自动化研究所 结合知识库的深层数据处理方法和***
CN103824115B (zh) * 2014-02-28 2017-07-21 中国科学院计算技术研究所 面向开放网络知识库的实体间关系推断方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298588A (zh) * 2010-06-25 2011-12-28 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
CN102831251A (zh) * 2012-09-20 2012-12-19 北京理工大学 基于动态学习框架的全自动网页结构化数据抽取方法
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和***

Also Published As

Publication number Publication date
CN104636466A (zh) 2015-05-20

Similar Documents

Publication Publication Date Title
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和***
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
JP6309644B2 (ja) スマート質問回答の実現方法、システム、および記憶媒体
CN104933027B (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN105095204B (zh) 同义词的获取方法及装置
US11080295B2 (en) Collecting, organizing, and searching knowledge about a dataset
TWI662425B (zh) 一種自動生成語義相近句子樣本的方法
US9183274B1 (en) System, methods, and data structure for representing object and properties associations
JP6466952B2 (ja) 文章生成システム
CN110502642B (zh) 一种基于依存句法分析与规则的实体关系抽取方法
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
WO2021146831A1 (zh) 实体识别的方法和装置、建立词典的方法、设备、介质
CN103324621B (zh) 一种泰语文本拼写纠正方法及装置
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN111177591A (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN108319583B (zh) 从中文语料库提取知识的方法与***
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及***
CN109213998A (zh) 中文错字检测方法及***
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
Sembok et al. Arabic word stemming algorithms and retrieval effectiveness
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置
JP2019083040A (ja) 文章生成のためのデータを生成するシステム及び方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Cheng Xueqi

Inventor after: Jia Yantao

Inventor after: Zhao Zeya

Inventor after: Wang Yuanzhuo

Inventor after: Jin Xiaolong

Inventor after: Xiong Jinhua

Inventor after: Li Manling

Inventor after: Lin Hailun

Inventor after: Xu Hongbo

Inventor before: Cheng Xueqi

Inventor before: Jia Yantao

Inventor before: Zhao Zeya

Inventor before: Wang Yuanzhuo

Inventor before: Xiong Jinhua

Inventor before: Li Manling

Inventor before: Lin Hailun

Inventor before: Xu Hongbo

GR01 Patent grant
GR01 Patent grant