CN104915420A

CN104915420A - 知识库数据处理方法及***

Info

Publication number: CN104915420A
Application number: CN201510315695.7A
Authority: CN
Inventors: 张志明; 李羽; 李�浩; 王波; 颜俊伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-06-10
Filing date: 2015-06-10
Publication date: 2015-09-16
Anticipated expiration: 2035-06-10
Also published as: CN104915420B

Abstract

本发明公开了一种知识库数据处理方法，所述方法包括：从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息，根据选取的所述关系信息，训练得到与所述关系信息对应的模板，以所述模板作为输入特征，训练得到机器学习模型，在对所述机器学习模型评估达标后提取所述关系信息；将提取的所述关系信息加入所述知识库中，通过搜索引擎查询请求数据，并对查询到的数据进行模板匹配，再由所述机器学习模型进行预测处理。通过采用本发明，可更加准确高效地对知识库数据进行补充。

Description

知识库数据处理方法及***

技术领域

本发明涉及数据处理领域，更为具体而言，涉及一种知识库数据处理方法和***。

背景技术

当今各类信息的数字化应用已经越来越普及，人们在工作生活的方方面面都在应用各类知识库信息。然而，在知识库不断完善的过程中，需要对数据中不完整的数据进行补充。

特别是知识库的SPO三元组(Subject Predicate Object Triples)数据的补充，在工业界和学术界一直是一个待解决的问题。在大众应用知识库中，大概有94％的人物没有父母信息，大概有99％的人物没有种族信息。在中文知识库中这种情况尤为明显。尽管当前具有两种知识库三元组的数据补充方法。一种是从文本中提取，如从***，一般的网页提取三元组数据。另一种是构造查询，从搜索引擎返回的结果中提取三元组信息。但是第一种从文本中提取三元组数据存在的问题是需要对海量的网页进行解析，提取出三元组结果，这种召回比较高，但是抽取的三元组的准确度较低，受噪音的影响比较大。第二种从搜索引擎的结果中提取三元组的准确度比较高，但当前也只能利用搜索引擎对页面的评分进行了线性融合，导致得到的三元组数据的评分的可信度仍然有待提高。

为解决现有技术中知识库中三元组数据补充准确度低、受噪音影响大，亟需一种全新的知识库数据补充方式。

发明内容

为了解决现有技术中知识库中三元组数据补充准确度低、受噪音影响大的问题，本发明的实施方式提供了一种知识库数据补充方法和***。

一方面，本发明实施方式提供了一种知识库数据处理方法，所述方法包括：

从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息，根据选取的所述关系信息，训练得到与所述关系信息对应的模板，以所述模板作为输入特征，训练得到机器学习模型，在对所述机器学习模型评估达标后提取所述关系信息；

将提取的所述关系信息加入所述知识库中，通过搜索引擎查询请求数据，并对查询到的数据进行模板匹配，再由所述机器学习模型进行预测处理。

相应的，本发明实施方式还提供了一种知识库数据处理***，所述***包括：

训练模块，用于从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息，根据选取的所述关系信息，训练得到与所述关系信息对应的模板，以所述模板作为输入特征，训练得到机器学习模型，在对所述机器学习模型评估达标后提取所述关系信息；

处理模块，用于将提取的所述关系信息加入所述知识库中，通过搜索引擎查询请求数据，并对查询到的数据进行模板匹配，再由所述机器学习模型进行预测处理。

实施本发明的各种实施方式具有以下有益效果：可更加准确高效地对知识库数据进行补充。

附图说明

图1是根据本发明实施方式的知识库数据处理方法的流程图；

图2示出了图1所示方法的步骤S1的具体流程图；

图3是根据本发明实施方式的知识库数据处理***的架构图；

图4示出了图4所示的训练模块100的框图。

具体实施方式

以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中，众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且，所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解，下述的各种实施方式只用于举例说明，而非用于限制本发明的保护范围。还可以容易理解，本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。

图1是根据本发明实施方式的知识库数据处理方法的流程图；参见图1，所述方法包括如下步骤：

S1，从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息，根据选取的所述关系信息，训练得到与所述关系信息对应的模板，以所述模板作为输入特征，训练得到机器学习模型，在对所述机器学习模型评估达标后提取所述关系信息；

S2，将提取的所述关系信息加入所述知识库中，在对所述机器学习模型评估达标后提取所述关系信息作为抽取器；将提取的抽取器加入所述的知识库数据处理流程中，在所述的知识库数据处理流程中，通过搜索引擎查询请求数据，并对查询到的数据进行模板匹配，再由所述机器学习模型进行预测处理。

在本发明的实施方式中，知识库数据处理方法可包括：执行步骤S1，从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息，根据选取的所述关系信息，训练得到与所述关系信息对应的模板，以所述模板作为输入特征，训练得到机器学习模型，在对所述机器学习模型评估达标后提取所述关系信息。其中，所述三元组数据包括：主体信息、客体信息和所述主体信息与所述客体信息之间的关系信息，其形式可表示为<主体，谓词，客体>。

接下来，执行步骤S2，其中，所述对查询到的数据进行模板匹配包括：对所述查询到的数据进行分词处理得到若干文本片段(例如，一个以上文本片段)，将各个所述文本片段进行预处理后(包括名词或语法的检测)与所述模板进行匹配。例如，给定“卫夫子”和“儿子”分别作为主体信息和客体信息,我们的目标是抽取对应的“刘据”。首先针对<卫夫子,儿子>,构造相应的查询向搜索引擎查询；将搜索结果进行数据预处理，包括对其进行分句或分词处理，从而得到若干的文本片段，每个文本片段和训练好的模板进行匹配，输出潜在包含“刘据”的文本片段。然后对潜在包含“刘据”的文本片段进行过滤(包括但不限于：通过人名分词过滤的关系过滤方式，以及时间过滤和字典过滤等过来方式)。过滤完成后得到“刘据”这个候选列表。将“刘据”命中的模板集合训练机器学习模型，作为特征输入到机器学习模型中，输出“刘据”是“卫夫子儿子”成立的评分。最终根据评分由高至低进行排列，优选并输出待补充的知识库数据。过滤完成后得到“刘据”这个候选命中模板集合，将“刘据”命中的模板集合，作为特征输入到机器学习模型中，输出“刘据”是“卫夫子儿子”成立的评分。

通过采用本发明的实施方式，可更加准确高效地对知识库数据进行补充。

图2示出了图1所示方法的步骤S1的具体流程图。参见图2，所述步骤S1包括：

S11，从知识库中提取所述标记的三元组数据，挑选出所述三元组数据的主体信息和客体信息的文本片段，保留关系信息作为所述模板。主体替换成统一的“主体”标签(subject),客体替换成统一的“客体”标签(object),并保留描述主体和客体之间的词语，一起作为统一的模板。模板示例：“主体，儿子，客体”；“主体，儿子，是，客体”等，例如：从知识库中提取出已有的标记数据三元组<卫夫子，儿子，刘据>，构造查询向搜索引擎请求数据，将搜索结果中同时包含“卫夫子”和“刘据”的文本片段挑选出来，并将“卫夫子”替换成相应的标签，得到了相应的模板<主体，儿子，客体>。

S12，标记所述关系信息的标记样本作为正例，其他关系的标记样本作为负例，将所述正例和所述负例命中所述模板的集合作为输入特征，训练得到所述机器学习模型。

另外，S1步骤中所述在对所述机器学习模型评估达标后提取所述关系包括：对所述机器学习模型进行准确率和召回率的评估，当所述三元组数据达到预设标注值时，提取所述三元组数据中的关系信息(提取所述关系信息作为抽取器)。例如：在训练一种关系信息为“儿子”的时候，选择该关系“儿子”的标记样本作为正例(如<卫夫子，儿子，刘据>)，其他关系的标记样本作为负例(<刘德华,女儿，刘向蕙>)。候选“刘据”在模板匹配的过程中会记录命中的模板集合(“主体，儿子，客体”；“主体，儿子，是，客体”等)，作为正例特征；候选“刘向蕙”在模板匹配的过程中会记录命中的模板集合(“主体，女儿，客体”；“主体，女儿，是，客体”等)，作为负例特征。我们将正例负例命中的模板集合作为特征输入，训练模型，并对训练好的模型进行准确率和召回率的评估，例如，可设置三元组达到一定的准确率(80％)后供后续抽取使用。

图3是根据本发明实施方式的知识库数据处理***的架构图。参见图3，所述***1包括：

训练模块100，用于从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息，根据选取的所述关系信息，训练得到与所述关系信息对应的模板，以所述模板作为输入特征，训练得到机器学习模型，在对所述机器学习模型评估达标后提取所述关系信息；

处理模块200，用于将提取的所述关系信息加入所述知识库中，在对所述机器学习模型评估达标后提取所述关系信息作为抽取器；将提取的抽取器加入所述的知识库数据处理流程中，在所述的知识库数据处理流程中，通过搜索引擎查询请求数据，并对查询到的数据进行模板匹配，再由所述机器学习模型进行预测处理。

在本发明的实施方式中，知识库数据处理***可包括：训练模块100，用于从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息(提取所述关系信息作为抽取器)，根据选取的所述关系信息，训练得到与所述关系信息对应的模板，以所述模板作为输入特征，训练得到机器学习模型，在对所述机器学习模型评估达标后提取所述关系信息。其中，所述三元组数据包括：主体信息、客体信息和所述主体信息与所述客体信息之间的关系信息，其形式可表示为<主体，谓词，客体>。

处理模块200，用于将提取的所述关系信息加入所述知识库中，通过搜索引擎查询请求数据，并对查询到的数据进行模板匹配，再由所述机器学习模型进行预测处理，其中，所述对查询到的数据进行模板匹配包括：对所述查询到的数据进行分词处理得到若干文本片段，将各个所述文本片段进行预处理后(包括名词或语法的检测)与所述模板进行匹配。例如，给定“卫夫子”和“儿子”分别作为主体信息和客体信息,我们的目标是抽取对应的“刘据”。首先针对<卫夫子,儿子>,构造相应的查询向搜索引擎查询；将搜索结果进行数据预处理，包括对其进行分句或分词处理，从而得到若干的文本片段，每个文本片段和训练好的模板进行匹配，输出潜在包含“刘据”的文本片段。然后对潜在包含“刘据”的文本片段进行过滤(包括但不限于：通过人名分词过滤的关系过滤方式，以及时间过滤和字典过滤等过来方式)。过滤完成后得到“刘据”这个候选列表。将“刘据”命中的模板集合训练机器学习模型)，作为特征输入到机器学习模型中，输出“刘据”是“卫夫子儿子”成立的评分。最终根据评分由高至低进行排列，优选并输出待补充的知识库数据。过滤完成后得到“刘据”这个候选命中模板集合，将“刘据”命中的模板集合，作为特征输入到机器学习模型中，输出“刘据”是“卫夫子儿子”成立的评分。

图4示出了图4所示的训练模块100的框图。参见图4，所述训练模块100包括：

标记单元110，用于从知识库中提取所述标记的三元组数据，挑选出所述三元组数据的主体信息和客体信息的文本片段，保留关系信息作为所述模板。主体替换成统一的“主体”标签(subject),客体替换成统一的“客体”标签(object),并保留描述主体和客体之间的词语，一起作为统一的模板。模板示例：“主体，儿子，客体”；“主体，儿子，是，客体”等，例如：从知识库中提取出已有的标记数据三元组<卫夫子，儿子，刘据>，构造查询向搜索引擎请求数据，将搜索结果中同时包含“卫夫子”和“刘据”的文本片段挑选出来，并将“卫夫子”替换成相应的标签，得到了相应的模板<主体，儿子，客体>。

训练单元120，用于标记所述关系信息的标记样本作为正例，其他关系的标记样本作为负例，将所述正例和所述负例命中所述模板的集合作为输入特征，训练得到所述机器学习模型。

例如：在训练一种关系信息为“儿子”的时候，选择该关系“儿子”的标记样本作为正例(如<卫夫子，儿子，刘据>)，其他关系的标记样本作为负例(<刘德华,女儿，刘向蕙>)。候选“刘据”在模板匹配的过程中会记录命中的模板集合(“主体，儿子，客体”；“主体，儿子，是，客体”等)，作为正例特征；候选“刘向蕙”在模板匹配的过程中会记录命中的模板集合(“主体，女儿，客体”；“主体，女儿，是，客体”等)，作为负例特征。我们将正例负例命中的模板集合作为特征输入，训练模型，并对训练好的模型进行准确率和召回率的评估，例如，可设置三元组达到一定的准确率(80％)后供后续抽取使用。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明说明书中使用的术语和措辞仅仅为了举例说明，并不意味构成限定。本领域技术人员应当理解，在不脱离所公开的实施方式的基本原理的前提下，对上述实施方式中的各细节可进行各种变化。因此，本发明的范围只由权利要求确定，在权利要求中，除非另有说明，所有的术语应按最宽泛合理的意思进行理解。

Claims

1.一种知识库数据处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述三元组数据包括：主体信息、客体信息和所述主体信息与所述客体信息之间的关系信息。

3.如权利要求2所述的方法，其特征在于，从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息，根据选取的所述关系信息，训练得到与所述关系信息对应的模板，以所述模板作为输入特征，训练得到机器学习模型，包括：

从知识库中提取所述标记的三元组数据，挑选出所述三元组数据的主体信息和客体信息的文本片段，保留关系信息作为所述模板；

标记所述关系信息的标记样本作为正例，其他关系的标记样本作为负例，将所述正例和所述负例命中所述模板的集合作为输入特征，训练得到所述机器学习模型。

4.如权利要求1所述的方法，其特征在于，所述在对所述机器学习模型评估达标后提取所述关系包括：

对所述机器学习模型进行准确率和召回率的评估，当所述三元组数据达到预设标注值时，提取所述三元组数据中的关系信息。

5.如权利要求1所述的方法，其特征在于，所述对查询到的数据进行模板匹配包括：

对所述查询到的数据进行分词处理得到一个以上文本片段，将各个所述文本片段进行预处理后与所述模板进行匹配。

6.一种知识库数据处理***，其特征在于，所述***包括：

7.如权利要求6所述的***，其特征在于，所述三元组数据包括主体信息、客体信息和所述主体信息与所述客体信息之间的关系信息。

8.如权利要求7所述的***，其特征在于，所述训练模块包括：

标记单元，用于从知识库中提取所述标记的三元组数据，挑选出所述三元组数据的主体信息和客体信息的文本片段，保留关系信息作为所述模板；

训练单元，用于标记所述关系信息的标记样本作为正例，其他关系的标记样本作为负例，将所述正例和所述负例命中所述模板的集合作为输入特征，训练得到所述机器学习模型。

9.如权利要求8所述的***，其特征在于，所述训练模块对所述机器学习模型评估达标后提取所述关系包括：

10.如权利要求6所述的***，其特征在于，所述处理模块中所述对查询到的数据进行模板匹配包括：