CN104636466B

CN104636466B - 一种面向开放网页的实体属性抽取方法和***

Info

Publication number: CN104636466B
Application number: CN201510071993.6A
Authority: CN
Inventors: 程学旗; 贾岩涛; 赵泽亚; 王元卓; 靳小龙; 熊锦华; 李曼玲; 林海伦; 许洪波
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2015-02-11
Filing date: 2015-02-11
Publication date: 2020-07-31
Anticipated expiration: 2035-02-11
Also published as: CN104636466A

Abstract

本发明提供一种面向开放网页的实体属性抽取方法和***。其中，所述方法包括：提取开放网页的文本，从中获得目标实体的候选文本集合；以及，根据目标实体属性在训练文本集合中出现的频率，选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。本发明能够提高开放网页实体属性抽取的准确率和召回率，并且不依赖于网页结构，能够适应开放网页类型的变化。

Description

一种面向开放网页的实体属性抽取方法和***

技术领域

本发明涉及数据挖掘技术领域，特别地，涉及一种面向开放网页的实体属性抽取方法和***。

背景技术

开放网页是指数据源不固定、包含多种网络数据的非结构化互联网网页，如博客、论坛、新闻、聊天记录、电子邮件等，其信息的性质和量值出现的位置不固定，所有内容都是不可预知的。随着网络技术的发展，特别是Internet和Intranet技术的飞快发展，开放网页以其结构灵活的自身特点，在数量快速增大的同时，也为其文本理解带来困难：

1、文本结构不固定，没有特定的上下文语法；

2、关键词范围不固定，涉及的学科领域多样；

3、文本长度不固定，上下文信息量差距较大；

4、数据源不固定，语言现象复杂。

实体是指客观存在并可相互区别的事物，可以是具体的客观对象，也可以是抽象的事件。实体属性是指实体本身的性质，实体属性抽取通过将不同信息源对于某一实体的属性集中起来，从不同的角度反映这个实体的相关情况，完善对该实体的认识，在信息抽取、事件跟踪、人名消歧等研究中有着重要作用，并且已成为文本理解的关键技术。

针对开放网页的特点，传统的实体属性抽取方法在以下方面存在限制：

第一、开放网页的文本结构不固定，实体及其描述没有固定规律可循，且多数在自由文本中，不易抽取分析；

第二、传统的面向规则的属性抽取方法，规则定义死板，过于依赖上下文语法，且匹配效率低下；

第三、开放网页的数据源不固定，语言现象复杂，普通规则难以涵盖，传统的基于规则的属性抽取不支持规则的嵌套匹配；

第四、传统的基于统计的实体属性抽取方法，训练数据的准备过于依赖人工，效率不高，且准确率和召回率较低；

第五、传统的属性抽取多局限在某个领域或学科里面进行，不能将***直接移植到其他领域或学科进行使用，缺乏具有通用性的关联特征，不易移植和扩展。

发明内容

为解决上述问题，根据本发明的一个实施例，提供一种面向开放网页的实体属性抽取方法，包括：

步骤1)、提取开放网页的文本，从中获得目标实体的候选文本集合；

步骤2)、根据目标实体属性在训练文本集合中出现的频率，选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。

上述方法中，步骤1)包括：

步骤11)、从开放网页中提取出非结构化文本，对该非结构化文本进行分词，得到词与所述非结构化文本之间的相关度；

步骤12)、获得目标实体的上下文中距离该目标实体最近的一个或多个初始查询扩展词，将与目标实体及所述一个或多个初始查询扩展词相关度最高的一个或多个非结构化文本作为第一文本集合；

步骤13)、从所述第一文本集合中选择词频最高的一个或多个二次查询扩展词，将与目标实体及所述一个或多个二次查询扩展词相关度最高的一个或多个非结构化文本作为第二文本集合；

步骤14)、将所述第一文本集合和所述第二文本集合的并集作为目标实体的候选文本集合。

上述方法中，多个词与非结构化文本的相关度为所述多个词中的每个词与该非结构化文本的相关度之和。

上述方法中，步骤2)包括：计算目标实体属性在训练文本集合中出现的频率，如果该频率超过预定的阈值，则根据构造的统计模型来抽取目标实体属性的值，否则根据构造的层叠有穷状态自动机来抽取目标实体属性的值；其中，所述训练文本集合用于训练所述统计模型。

上述方法中，根据以下步骤构造层叠有穷状态自动机：

步骤a)、在所述候选文本集合中进行实体识别并生成概念文件；其中，所述概念文件包括指示实体类型和属于该类型的、从所述候选文本集合中识别出的实体的基本概念；指示待抽取变量的正则表达式；以及，指示实体与属性之间的关系的标志词；

步骤b)、生成包括所述概念文件和关联规则的规则文件；其中，关联规则包括单个规则或者嵌套了多个子规则的规则，用于指示所述概念文件中基本概念、正则表达式以及标志词之间的关系；

步骤c)、根据所述规则文件中的关联规则，构造层叠有穷状态自动机；其中，所述层叠有穷状态自动机的初始状态为基本概念、正则表达式或者标志词；其他状态包括关联规则以及关联规则中的子规则。

上述方法中，根据构造的层叠有穷状态自动机来抽取目标实体属性的值包括：

将所述候选文本集合与所述层叠有穷状态自动机从初始状态开始匹配，对每个状态在所述候选文本集合中匹配到的内容建立倒排索引；

匹配完成后，从建立的倒排索引中得到目标实体属性的值。

上述方法中，根据以下步骤构造统计模型：

步骤A)、从在线百科中获得训练实体和相应的训练属性；

步骤B)、从训练开放网页中获得所述训练实体的训练文本集合；

步骤C)、在所述训练文本集合中提取特征，将所述训练属性的特征进行回标得到各属性的训练数据；

步骤D)、根据所述训练数据，生成与每个属性相对应的统计模型。

上述方法中，步骤B)包括：

步骤B1)、从训练开放网页中提取出非结构化文本，对该非结构化文本进行分词，得到词与非结构化文本之间的相关度；

步骤B2)、根据训练实体在训练开放网页中的上下文信息获得距离该训练实体最近的n个初始查询扩展词，将与训练实体及初始查询扩展词相关度最高的K个非结构化文本作为第三文本集合；其中，n和K为正整数；

步骤B3)、从所述第三文本集合中选择词频最高的m个二次查询扩展词，将与训练实体及二次查询扩展词相关度最高的L个非结构化文本作为第四文本集合；其中，m和L为正整数；

步骤B4)、取所述第三文本集合和所述第四文本集合的并集，作为训练文本集合。

上述方法中，步骤C)还包括：去除所述训练数据中的杂质，以及控制所述训练数据中的正例与反例的比例。

上述方法中，所述特征包括词语、词语之间的依存关系、词语的词频及词性。

上述方法中，根据构造的统计模型来抽取目标实体属性的值包括：

按照在构造所述统计模型时提取特征的方式来提取所述候选文本集合的特征；

将提取出的特征输入目标实体属性对应的统计模型，得到目标实体属性的值。

上述方法中，还包括：

步骤3)、根据目标实体属性的类型、词性或者取值范围，校正抽取出的目标实体属性的值。

根据本发明的一个实施例，还提供一种面向开放网页的实体属性抽取***，包括：

网页预处理模块，用于提取开放网页的文本；

查询扩展模块，用于从提取出的文本中获得目标实体的候选文本集合；

属性抽取模块，用于根据目标实体属性在训练文本集合中出现的频率，选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。

本发明具有如下的有益效果：

1、提出一种基于层叠有穷状态自动机的实体属性抽取方法，实现了复杂嵌套规则的抽取；

2、在基于层叠有穷状态自动机的抽取过程中，对该自动机每个状态抽取的内容建立倒排索引，大大提升了规则匹配效率；

3、制定了一套无关文法的概念定义和规则定义语言，使得实体属性抽取脱离上下文语言环境，实现声明式信息抽取，提升了***的兼容性；

4、对CRF模型训练提出了一套句级的文本特征，能够提升属性抽取中机器学习的效果；

5、提出了根据在线百科属性框(Infobox)的已有属性信息回标，自动生成CRF训练数据的方法，并针对回标效果提出需人工校验的部分，提升了训练数据的效率和准确性；

6、提供一种迭代查询扩展的方法，经验证能够提高开放网页的实体属性抽取的准确率和召回率；

7、根据属性的出现频率自适应地采用基于规则或基于统计的抽取方法，实现对开放网页的实体属性抽取。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1是根据本发明一个实施例的面向开放网页的实体属性抽取方法的流程图；

图2是根据本发明一个实施例的迭代查询扩展方法的流程图；

图3是根据本发明一个实施例的自适应实体属性抽取方法的流程图；

图4是根据本发明一个实施例的构建层叠有穷状态自动机以及基于层叠有穷状态自动机的关联规则进行属性抽取的方法的流程图；

图5是根据本发明一个实施例的层叠有穷状态自动机的示意图；

图6是根据本发明一个实施例的初始倒排索引的示意图；

图7是根据本发明一个实施例的层叠有穷状态自动机与候选文本集合匹配的示意图；

图8是根据本发明一个实施例的匹配完成时的倒排索引的示意图；

图9是根据本发明一个实施例的构建条件随机场模型以及基于条件随机场模型的属性抽取方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

根据本发明的一个实施例，提供一种面向开放网页的实体属性抽取方法。

概括而言，该方法包括：提取开放网页的文本，从中获得目标实体的候选文本集合；根据目标实体属性在训练文本集合中出现的频率，选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。

在描述该面向开放网页的实体属性抽取方法之前，首先对实体属性、规则和统计模型进行说明。其中，实体属性包括目标实体、属性名和属性值三个部分；规则包括规则类型、目标名称及参数、以及规则体，统计模型使用的特征的文本来源包括属性名前的文本、属性名和属性值之间的文本以及属性值后的文本。

现结合图1对该面向开放网页的实体属性抽取方法的各步骤进行详细描述。需要说明的是，说明书中描述的方法的各个步骤并非一定是必须的，而是可以根据实际情形来省略或替换其中的一个或多个步骤，另外，各个步骤之间的顺序也是可以调整的。

步骤S101：开放网页预处理

根据本发明的一个实施例，开放网页的预处理过程包括：

1、获得待抽取的开放网页集合，抽取网页内容，得到待抽取的非结构化文本。

2、将待抽取的非结构化文本进行分词，计算词与每个非结构化文本的相关度，得到与每个词对应的最高相关度(或称匹配度)非结构化文本集合，并根据以上信息建立倒排索引。

在一个实施例中，根据词频等特征来计算词与非结构化文本之间的相关度。例如，可利用TF-IDF方法得到一个词与所有非结构化文本的相关度，接着将相关度最高的k(k为正整数)个非结构化文本作为该词的最高相关度非结构化文本集合。

步骤S102：通过迭代查询扩展得到候选文本集合

根据步骤S101中建立的倒排索引，通过两次查询扩展并融合目标实体的上下文信息和词频信息，生成候选文本集合。图2描述了迭代查询扩展方法的步骤的一个实施例，包括：

步骤S201、根据目标实体E的上下文信息，获取上下文中距离E最近的n(n为正整数)个实体(词)，称作查询扩展词。

在一个实施例中，选取n＝1，即将目标实体E的前后词语E1和E2作为查询扩展词。

步骤S202、初始查询扩展。

在步骤S101中建立的倒排索引中查询目标实体和查询扩展词，得到与目标实体和查询扩展词相关度最高的非结构化文本的文本集合U₁。

在一个实施例中，将目标实体、查询扩展词与某个非结构化文本的相关度之和作为该目标实体和查询扩展词与该非结构化文本的相关度并排序，从而得到文本集合U₁(如包括50篇文本)。在另一个实施例中，分别找到目标实体和查询扩展词的最高相关度非结构化文本集合，取交集得到文本集合U₁。通过实验发现，初始查询扩展过程可提升实体属性抽取的准确率。

步骤S203、从U₁中选出词频最高的m(m为正整数)个词。

在一个实施例中，选取m＝2，即选取U₁中词频最高的两个实体E3和E4进行第二次查询扩展。

步骤S204、二次查询扩展。

将词频最高的m个词与目标实体E一起再次在倒排索引中查询，得到与它们相关度最高的文本集合U₂。例如，采用步骤S202中的方法来得到U₂。通过实验发现，该步骤能有效提升实体属性抽取的召回率和准确率。

步骤S205、将两次查询扩展的结果取并集，作为目标实体E的实体属性抽取的候选文本集合U(简称候选文本集合U)。

步骤S103：自适应实体属性抽取

概括而言，自适应实体属性抽取过程包括：根据目标实体属性(或称目标属性)在训练文本集合中出现的频率，自适应地选择不同的实体属性抽取方法。其中，训练文本集合是用于训练统计模型(该模型用于基于统计的实体属性抽取方法，并将在下文中描述)的文本集合，可根据下文的标志词在训练文本集合中出现的频率来得到目标属性在训练文本集合中出现的频率。这里，如果出现频率高于预定阈值，则采用基于统计的实体属性抽取方法，否则采用基于规则的实体属性抽取方法。这样做的原因在于：对于出现频率较低的实体属性，采用基于规则的方法的精度和执行效率更好；而对于出现频率较高的属性，选择基于统计的方法更全面。

其中，基于规则的实体属性抽取方法可通过构造层叠有穷状态自动机，实现规则嵌套，并对层叠有穷状态自动机每个状态(或称节点)匹配到的文本内容建立倒排索引，快速实现复杂文本模式的匹配，得到实体属性值；基于统计的实体属性抽取方法可根据条件随机场原理进行有监督的机器学习，选取文本特征，训练统计模型(如条件随机场模型)来抽取实体属性。如图3所示，自适应实体属性抽取过程可包括以下子步骤：

步骤S301、构建层叠有穷状态自动机。

对候选文本集合U进行实体识别，制定一套无关文法的声明式语言规范，其中定义概念集合和关联规则集合，根据规则的嵌套依赖关系，构造出层叠有穷状态自动机。

步骤S302、训练统计模型。

选择文本特征，生成训练数据，通过训练得到统计模型，如CRF模型M_CRF。

步骤S303、计算目标实体属性在训练文本集合中出现的频率，判断是否超过预定阈值。

步骤S304、若步骤S303的判断结果为否，则采用基于层叠有穷状态自动机的关联规则进行属性抽取(即基于规则的实体属性抽取方法)。

步骤S305、若步骤S303的判断结果为是，则采用基于条件随机场的机器学习进行属性抽取(即基于统计的实体属性抽取方法)。对候选文本集U进行句子级的特征抽取，生成特征向量，输入步骤S302中生成的统计模型，抽取出目标属性值。

应理解，上述子步骤的顺序是可以调换的，例如，训练统计模型的子步骤可以在构建层叠有穷状态自动机之前的任何时候进行或者与构建层叠有穷状态自动机同时进行。

上文对自适应实体属性抽取过程进行了概括描述，下面将分别对构建层叠有穷状态自动机，基于层叠有穷状态自动机进行属性抽取；训练统计模型，基于统计模型(尤其是条件随机场模型M_CRF)进行属性抽取的过程进行详细描述。

图4描述了构建层叠有穷状态自动机以及基于层叠有穷状态自动机的关联规则进行属性抽取的方法，以下是该方法的各个子步骤：

步骤S401、实体识别。

在候选文本集合U中进行命名实体识别，得到实体集合，并确定实体的类型，如人、地点、机构等。

步骤S402、生成概念文件。

概念文件是所有概念的集合，包括CONCEPT基本概念、REGEX正则表达式和CONCEPT标志词。使用与上下文文法无关的语言，进行声明式定义：

(1)CONCEPT基本概念即待抽取的类型变量，如人物、地点、组织等(一种类型定义为一个概念对象)。定义格式为CONCEPT:[概念名称]:[实例取值]，其中，概念名称即类型变量，实例取值即该类型的实体集合，可认为是<类型变量-类型变量取值范围>的概念对。其中，基本概念由步骤S401生成的实体集合得到。例如：将文中所有“组织”类型的实体归为一个概念，概念名为ORG，其取值范围是文中类型为组织的实例，例如含中国科学技术大学研究生院、北京大学、中科院计算所等，该ORG概念定义如表1所示。

表1

(2)REGEX正则表达式即为待抽取的变量的正则表达式，格式为REGEX:[概念名称]:[正则表达式内容]，表2给出了REGEX正则表达式的一个例子。

表2

REGEX:DATE:([\d]{4}年){0,1}([\d]{1,2}月){0,1}([\d]{1,2}日){0,1}

其中，DATE为该正则表达式的名称，([\d]{4}年){0,1}([\d]{1,2}月){0,1}([\d]{1,2}日){0,1}为DATE所指代的正则表达式。

(3)CONCEPT标志词是与待抽取属性相关的标识词，即实体与属性的关系标志词，用于关联规则的制定，格式为CONCEPT:[概念名称]:[标志词取值]。例如，要抽取人的属性“出生日期”时，所需用到的标志词可如表3所示。

表3

将以上CONCEPT和REGEX的集合合并，成为总的概念集合，即生成概念文件，如表4所示。

表4

步骤S403、生成规则文件。

规则文件由关联规则MCONCEPT_RULE集合和步骤S402生成的概念文件合并生成。关联规则MCONCEPT_RULE表征概念之间的关系，是通过对概念进行布尔逻辑约束和上下文约束得到的，格式为MCONCEPT_RULE:[规则名称]([待输出变量])：([约束],[“_待输出变量{概念}”],[标志词])。待输出变量即匹配到的概念的实例(包括实体实例，以及属性实例，即属性值)，其中约束包括但不限于：

(1)AND：所有子句都出现的字符串才会被匹配；

(2)OR：只要有一个子句出现，该字符串就会被匹配；

(3)SENT：所有子句都出现在同一个句子，该字符串才会被匹配；

(4)ORD：所有子句按规则定义的顺序同时出现，该字符串才会被匹配；

(5)DIST_n：所有子句同时出现在字符串，且相邻子句实例距离(间隔距离)不超过n个词时，该字符串会被匹配。

MCONCEPT_RULE通过定义概念之间的关系，将满足该关系的概念的实例抽取出来。步骤S402中生成的CONCEPT和REGEX都是待抽取的概念，其匹配到的文本即该概念的实例，如表5示出了NAME_BIRTHDAY规则，其抽取人的“出生日期。”

表5

MCONCEPT_RULE:NAME_BIRTHDAY(person,birthday):(DIST_20,

"_person{NAME}","BIRTH_OR","_birthday{DATE}")

其中，NAME_BIRTHDAY为规则名称，(person,birthday)表示输出person和birthday两个变量，其中person是NAME概念的实例，birthday是DATE变量的实例。NAME_BIRTHDAY的含义是：若NAME、BIRTH_OR、DATE概念的实例同时出现且距离不超过20个词，则将NAME匹配的子句(即NAME的实例)作为person输出，DATE匹配的子句作为birthday输出。

特别地，本发明支持规则的嵌套。根据规则之间的依赖关系，形成复杂嵌套规则。例如，表6示出了NAME_COLLEGE规则，抽取人的“毕业院校及毕业时间”。

表6

表6表示如下：首先，必须匹配成功(ORD,"DEGREE_GET_OR","DE GREE")子规则，即存在"DEGREE_GET_OR"后出现"DEGREE"的子句；其次，子规则匹配成功后，若该子句所在的句子中，同时出现了NAME、DATE、ORG概念的实例，则将NAME匹配的子句(即NAME的实例)作为person输出，DATE匹配的子句作为graduatetime输出，ORGANIZATI ON匹配的子句作为college输出。

规则文件由所有MCONCEPT_RULE和所有概念集合生成，以“#”开头代表该行被注释，表7示出了抽取人的属性“出生日期”、“毕业院校”、“联系方式”的规则文件。

表7

步骤S404、构建层叠有穷状态自动机。

根据规则之间的嵌套依赖关系，将规则转移为一组彼此有依赖关系的有穷状态自动机，每个概念是初始状态，通过概念之间的约束关系和规则嵌套依赖关系，逐步生成层叠的有穷状态自动机。该层叠有穷状态自动机呈树状，底层为初始状态，其可转移成的状态可以看作其父状态；初始状态为概念，其父状态为规则或子规则，转移函数即为规则或子规则的约束条件。通过规则的约束条件和嵌套关系，从初始状态开始，逐步向上转移为规则或子规则状态，构成层叠有穷状态自动机，如图5所示。

步骤S405、将候选文本集合U与层叠有穷状态自动机的初始状态匹配，建立初始倒排索引。

本步骤将候选文本集合U与初始状态匹配，即匹配各个概念，并对初始状态匹配到的文本建立倒排索引。其中，每个状态作为词项，该状态匹配到的文本作为该词项的倒排记录表，每个词项有一个指针指向其倒排记录表，如图6所示。

步骤S406、根据层叠有穷状态机进行状态转移，得到实体属性。

以初始状态为起点，自底向上判断层叠有穷状态自动机中的每一个状态可否进行状态转移。状态转移函数为父状态代表的规则或子规则的约束条件，通过判断规则或子规则所需的其他状态是否在倒排索引中存在，可以得出是否能够进行状态转移。若可以转移到该状态，则对该状态匹配的文本建立倒排索引，并追加在步骤S405中生成的倒排索引后，继续向上判断是否可以状态转移；若不能转移，则该状态是匹配成功的最复杂规则，终止向上匹配，并根据倒排索引将该规则包含的概念的实例输出，获取该规则所代表的属性值。其中，在匹配的过程中，动态维护一个各状态所匹配的文本内容的倒排索引。

例如，输入步骤S403得到的规则文件得到层叠有穷状态自动机，与候选文本集合U进行匹配，得到属性值，如表8所示。

表8

在该示例中，输入上述3条规则NAME_COLLEGE1、NAME_COLLE GE2和NAME_BIRTHDAY，对该段文本匹配时，首先根据规则的依赖关系构建层叠有穷状态自动机，如图5所示。

根据构建的层叠有穷状态自动机，将初始状态与候选文本进行匹配，对NAME、DATE、BIRTH_OR、GRADUATE、ORG、DEGREE_GET_OR、DEGREE匹配到的内容建立倒排索引，如图6所示。

根据层叠有穷状态自动机，进行状态转移(即S406)。从第一个匹配到的初始状态NAME开始，能够转移的状态有NAME_BIRTHDAY、NAME_COLLEGE1规则、NAME_COLLEGE2规则，依次查看转移所需的其余状态是否满足，例如：NAME_BIRTHDAY还需在间距20以内有DATE、BIRTH_OR，因其满足，已为终止状态，停止匹配，将NAME变量的实例“李国杰”作为person输出，将DATE变量的实例“1943年5月”作为birthday输出，同时对NAME_BIRTHDAY建立倒排索引，方便后续作为嵌套规则的一部分进行查找；NAME_COLLEGE1规则还需NAME_COLLEGE1子规则，在倒排索引中没有，则终止匹配，NAME_COLLEGE2规则同理终止匹配。NAME状态终止后，从下一个匹配到的初始状态DATE状态开始继续向上匹配，可转移NAME_COLLEGE1子规则、NAME_COLLEGE2规则，依次查看是否满足转移条件，NAME_COLLEGE1子规则还需GRADUTE和ORG在间距10以内，在倒排索引中存在且满足，NAME_COLLEGE1子规则匹配成功，建立倒排索引，并向上继续匹配NAME_COLLEGE1规则，NAME_COLLEGE1规则还需NAME同时出现在该子句中，满足，NAME_COLLEGE1规则匹配成功，建立倒排索引，已为终止状态，停止匹配，输出NAME实例“person:李国杰”、DATE实例“graduatetime:1968年”、ORG实例“college：北京大学”。继续查看可以转移的状态，自底向上实现复杂嵌套规则的匹配，如图7所示。

其中，在匹配过程中动态维护各状态匹配文本的倒排索引，最终生成的倒排索引如图8所示。

以上子步骤通过对所有规则生成统一的层叠有穷状态自动机，自底向上遍历，避免了相同子规则的重复匹配，并在匹配过程中，自底向上建立倒排索引，加快了匹配的速度。

参考图9，描述了构建统计模型(具体地，条件随机场模型)以及基于该统计模型的属性抽取方法。

概括而言，该方法测试不同文本特征对条件随机场模型的效果，选取最佳文本特征(即下文的词语、依存关系、词性、词频)，设置模板文件参数。提取在线百科页面属性框中已有的实体属性关系，回标以自动生成训练数据，对每个属性分别训练条件随机场模型M_CRF，并对得到的文本候选集U进行属性抽取。

详细来说，该方法包括以下子步骤：

步骤S501、获取训练实体及训练属性。

获取在线百科的属性框(Infobox)的内容，生成已知的<实体-属性>集合，从而得到训练实体和训练属性。

其中，Infobox是在线百科词条页面中结构化描述词条属性的一个表格性区域。

步骤S502、将训练实体在训练用开放网页集合中分别按照步骤S102中描述的方法进行迭代查询扩展，从而得到用于训练的文本集合(或称训练文本集合)。

步骤S503-S507是提取训练数据特征的步骤。其中：

步骤S503、对训练文本集合中的文本进行句子切分，以句子为单位进行模型训练；

步骤S504、对句子进行分词，得到句子中含有的词语；

步骤S505、对每个词标注词性，如名词、代词、动词、形容词等；

步骤S506、对每个词进行依存关系分析，处理词语之间的支配关系，例如可使用依存关系树完成该过程；

步骤S507、计算每个词的词频，即每个词在文本中出现的次数。

将句子的词语、依存关系、词性、词频作为特征提取出来，作为机器学习的特征。

步骤S508、生成训练数据。

将步骤S501生成的每个已知<实体-属性>对，对其特征数据进行回标(其中，“回标”是指标出各句子特征是该属性的正例还是反例，将回标完成的特征数据作为训练数据)，从而生成各属性的训练数据。

其中，生成训练数据包括正例的生成和反例的生成，具体的实现过程如下：已知“李国杰”的工作单位是“中科院计算所”，则将实体“李国杰”的候选文本集合中，所有含有“中科院计算所”的句子的特征数据回标为正例；而对剩余句子进行命名实体识别，将含有组织的句子的特征数据回标为反例。

步骤S509、人工校正。

人工校正子步骤S508中生成的训练数据，包括但不限于：

(1)去除杂质。例如，已知某实体的工作单位是中科院计算所，在自动生成的训练数据中，会把“中科院计算所”全部标注为正例，如“在中科院计算所工作”，标注为正例，而“中科院计算所位于中科院路”，会被错误地标注成了正例，需人工校正，去除错误的标注；

(2)控制正例、反例比例。若正例过多，抽取结果会引入较多杂质；若反例过多，抽取结果召回率会过低，因此需控制正例、反例的比例(如1：3)。

步骤S510、制定模板文件，据上下文信息，确定行、列、条件概率的窗口大小。

步骤S511、输入步骤S509生成的训练数据，通过有监督的机器学习，为每个属性生成CRF模型M_CRF。

步骤S512、根据生成的CRF模型抽取属性值。

其中，抽取步骤S102中得到的候选文本集合U的特征，该特征抽取过程同上述子步骤S503、步骤S504、步骤S505、步骤S506和步骤S507。

按目标属性选择相应的M_CRF，根据抽取的特征及相应的M_CRF对目标实体的目标属性进行抽取，得到属性值。

步骤S104：属性校正

根据属性本身的词性、类型、范围等限制，对抽取出的属性值进行校正，剔除不符合要求的属性。例如，人的儿女、配偶、父母等属性，类型也应为人；再例如，描述年龄的属性，通常为1-120之间的数字。

在一个实施例中，属性的校正规则包括但不限于：

1)、属性类型校验：通过某属性对类型的限制，判断抽取的属性值的正误，剔除与类型不匹配的属性值；

2)、取值范围校验：根据某属性的词性(如名词、数量词、日期等)及数据范围，剔除超出词性范围的属性值。

根据本发明的一个实施例，还提供一种面向开放网页的实体属性抽取***，包括网页预处理模块、查询扩展模块、属性抽取模块和属性校正模块。

其中，网页预处理模块用于提取开放网页的文本，建立倒排索引；查询扩展模块用于从提取出的文本中获得目标实体的候选文本集合；属性抽取模块用于根据目标实体属性在训练文本集合中出现的频率，选择基于规则的方式或者基于统计的方式从候选文本集合中抽取目标实体属性的值；以及，属性校正模块用于对抽取出的属性值进行校正。

为验证本发明提供的面向开放网页的实体属性抽取方法和***的有效性，发明人使用2014年TAC KBP的Slot Filling评测的数据进行了实验，实验参数如下：

实验数据集包括100个实体(其中“人”类型50个，“组织”类型50个)，要抽取的属性共41个(其中“人”类型目标属性25个，“组织”类型目标属性16个)。其中，有30种属性出现频率高，具有充足的训练数据，选用CRF的方法训练模型进行属性抽取，剩下的11种属性出现频率较低，采用基于CFT制定规则的方法对属性进行抽取。该实验数据集中，包含的属性值共计1001个。

在实验过程中，发现了最佳参数配置。其中，查询扩展时选取扩展窗口为1，每次扩展选取前50篇文本；CRF训练选取4个文本特征：句子包含的词、各词的词性、各词的词频、各词之间的依存关系。在生成CRF模型的训练数据时，采用的正例、反例的比例为1：3，通过验证发现该配置能够达到最高的召回率和准确率。

经过实验，得出如下结果：

共抽取结果为412个，命中243个，准确率为58.98％。而现有抽取技术中，Stanford大学的自然语言处理组的通过对实体对之间关系词的机器学习方法表现最好，准确率达到58.54％；Rensselaer Polytechnic Institute的RPI BLENDER团队多策略综合搜索的方法表现较好，准确率达到47.80％。本发明的准确率均高于现有抽取技术，因此，本发明比现有属性抽取技术更为精确。

应当理解，虽然本说明书是按照各个实施例描述的，但并非每个实施例仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

以上所述仅为本发明示意性的具体实施方式，并非用以限定本发明的范围。任何本领域的技术人员，在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合，均应属于本发明保护的范围。

Claims

1.一种面向开放网页的实体属性抽取方法，包括：

步骤2)、根据目标实体属性在训练文本集合中出现的频率，选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值，包括：

计算目标实体属性在训练文本集合中出现的频率，如果该频率超过预定的阈值，则根据构造的统计模型来抽取目标实体属性的值，否则根据构造的层叠有穷状态自动机从其初始状态针对所述候选文本集合所匹配到的文本以倒排索引的方式来抽取目标实体属性的值；其中，所述训练文本集合用于训练所述统计模型，所述统计模型为条件随机场模型。

2.根据权利要求1所述的方法，其中，步骤1)包括：

3.根据权利要求2所述的方法，其中，多个词与非结构化文本的相关度为所述多个词中的每个词与该非结构化文本的相关度之和。

4.根据权利要求1所述的方法，其中，根据以下步骤构造层叠有穷状态自动机：

5.根据权利要求4所述的方法，其中，根据构造的层叠有穷状态自动机来抽取目标实体属性的值包括：

匹配完成后，从建立的倒排索引中得到目标实体属性的值。

6.根据权利要求1所述的方法，其中，根据以下步骤构造统计模型：

步骤A)、从在线百科中获得训练实体和相应的训练属性；

7.根据权利要求6所述的方法，其中，步骤B)包括：

8.根据权利要求6所述的方法，其中，步骤C)还包括：

去除所述训练数据中的杂质，以及控制所述训练数据中的正例与反例的比例。

9.根据权利要求6所述的方法，其中，所述特征包括词语、词语之间的依存关系、词语的词频及词性。

10.根据权利要求6-9中任何一个所述的方法，其中，根据构造的统计模型来抽取目标实体属性的值包括：

11.根据权利要求1-3中任何一个所述的方法，还包括：

12.一种面向开放网页的实体属性抽取***，包括：

网页预处理模块，用于提取开放网页的文本；

属性抽取模块，用于根据目标实体属性在训练文本集合中出现的频率，选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值，包括用于计算目标实体属性在训练文本集合中出现的频率，如果该频率超过预定的阈值，则根据构造的统计模型来抽取目标实体属性的值，否则根据构造的层叠有穷状态自动机从其初始状态针对所述候选文本集合所匹配到的文本以倒排索引的方式来抽取目标实体属性的值；其中，所述训练文本集合用于训练所述统计模型，所述统计模型为条件随机场模型。