CN109582799B

CN109582799B - 知识样本数据集的确定方法、装置及电子设备

Info

Publication number: CN109582799B
Application number: CN201810713344.5A
Authority: CN
Inventors: 李双婕; 史亚冰; 梁海金; 张扬; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-09-22
Anticipated expiration: 2038-06-29
Also published as: US11151179B2; US20200004766A1; CN109582799A; EP3508989A3; EP3508989A2

Abstract

本发明实施例公开了一种知识样本数据集的确定方法、装置及电子设备，所述方法包括：获取预设数量个主谓宾SPO三元组格式和源文本；根据各SPO三元组格式，从预设知识库中获取各SPO三元组格式对应的n个SPO条目；在各源文本中查找与n个SPO条目匹配的m个第一文本，生成第一知识样本数据集；根据m个第一文本，确定符合各SPO三元组格式的k个第二文本，生成第二知识样本数据集；根据第一知识样本数据集和第二知识样本数据集，生成目标知识样本数据集。即本实施例，实现对知识样本数据集的自动生成，使生成速度快，成本低，可以产出的数据规模大，可以满足训练需求。

Description

知识样本数据集的确定方法、装置及电子设备

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种知识样本数据集的确定方法、装置及电子设备。

背景技术

知识图谱，是指以实体、概念作为节点，以语义关系作为边的语义网络。知识图谱使得知识获取更直接，因此能够为阅读提供语义关联的知识，从而实现阅读的便捷化、智能化和人性化。SPO三元组是知识图谱的关键组成部分，SPO三元组为实体关系和实体属性，从知识图谱构建角度来看，实体属性可以丰富知识图谱中的实体信息，实体关系可以丰富知识图谱中的边关系，提升知识图谱的连通度。

在构建知识图谱时，需要对知识图谱对应知识抽取任务的算法进行训练、算法验证，这时需要获取知识样本数据集。已有的方法，通过众包的方式进行纯人工标注，具体是，要求众包用户在给出的自然语言文本中，罗列出所有符合认知的SPO三元组。

但是，这种众包标注的方式标注难度较大，众包用户标注速度较低，标注人力成本高，从而产出的数据规模小，无法满足当前学界和业界常用的深度学习模型的训练需求。

发明内容

本发明实施例提供一种知识样本数据集的确定方法、装置及电子设备。

第一方面，本发明实施例提供一种知识样本数据集的确定方法，包括：

获取预设数量个主谓宾SPO三元组格式和源文本；

根据各所述SPO三元组格式，从预设知识库中获取各所述SPO三元组格式对应的n个SPO条目；

在各所述源文本中查找与所述n个SPO条目匹配的m个第一文本，生成第一知识样本数据集，其中，所述第一知识样本数据集中的每个样本包括S、P、O和第一文本构成的四元组；

根据所述m个第一文本，确定符合各所述SPO三元组格式的k个第二文本，生成第二知识样本数据集，其中，所述第二知识样本数据集中的每个样本包括S、P、O和第二文本构成的四元组；

根据所述第一知识样本数据集和所述第二知识样本数据集，生成目标知识样本数据集。

在第一方面的一种可能的实现方式中，所述根据所述第一知识样本数据集和所述第二知识样本数据集，生成目标知识样本数据集之前，所述方法还包括：

将所述第一知识样本数据集和所述第二知识样本数据集的各样本中P相同，并且S或O相同的样本作为一组样本；

获取各组样本中元素值不同的元素的并列词汇；

将各所述并列词汇补充至对应的一组样本的SPO三元素中，生成第三知识样本数据集；

所述根据所述第一知识样本数据集和所述第二知识样本数据集，生成目标知识样本数据集，包括：

根据所述第一知识样本数据集、所述第二知识样本数据集和所述第三知识样本数据集，生成目标知识样本数据集。

在第一方面的一种可能的实现方式中，所述在各所述源文本中查找与所述n个SPO条目匹配的m个第一文本之前，所述方法包括：

针对每个源文件，对所述源文本进行划分，生成第一候选句子文本集合；

对所述第一候选句子文本集合进行筛选处理，生成第二候选句子文本集合；

所述在各所述源文本中查找与所述n个SPO条目匹配的m个第一文本，包括：

针对每个源文件，在所述第二候选句子文本集合中查找与所述n个SPO条目匹配的第一文本。

在第一方面的一种可能的实现方式中，所述对所述第一候选句子文本集合进行筛选处理，生成第二候选句子文本集合，包括：

筛选出所述第一候选句子文本集合中长度满足预设范围的各第一候选句子文本，生成第二候选句子文本集合。

在第一方面的一种可能的实现方式中，所述生成目标知识样本数据集之后，所述方法还包括：

对所述目标知识样本数据集中各样本进行正误检查，从所述目标知识样本数据集中删除掉错误的样本。

在第一方面的一种可能的实现方式中，所述对所述目标知识样本数据集中各样本进行正误检查，包括：

将所述目标知识样本数据集中的各样本转换成预设格式，在所述预设格式下，对所述目标知识样本数据集中的各样本进行正误检查，从所述目标知识样本数据集中删除掉错误的样本。

第二方面，本发明实施例提供一种知识样本数据集的确定装置，包括：

第一获取模块，用于获取预设数量个主谓宾SPO三元组格式和源文本；

第二获取模块，用于根据各所述SPO三元组格式，从预设知识库中获取各所述SPO三元组格式对应的n个SPO条目；

第一生成模块，用于在各所述源文本中查找与所述n个SPO条目匹配的m个第一文本，生成第一知识样本数据集，其中，所述第一知识样本数据集中的每个样本包括S、P、O和第一文本构成的四元组；

第二生成模块，用于根据所述m个第一文本，确定符合各所述SPO三元组格式的k个第二文本，生成第二知识样本数据集，其中，所述第二知识样本数据集中的每个样本包括S、P、O和第二文本构成的四元组；

第三生成模块，用于根据所述第一知识样本数据集和所述第二知识样本数据集，生成目标知识样本数据集。

在第二方面的一种可能的实现方式中，所述装置还包括：

第一确定模块，用于将所述第一知识样本数据集和所述第二知识样本数据集的各样本中P相同，并且S或O相同的样本作为一组样本；

第三获取模块，用于获取各组样本中元素值不同的元素的并列词汇；

第四生成模块，用于将各所述并列词汇补充至对应的一组样本的SPO三元素中，生成第三知识样本数据集；

第三生成模块，具体用于根据所述第一知识样本数据集、所述第二知识样本数据集和所述第三知识样本数据集，生成目标知识样本数据集。

在第二方面的另一种可能的实现方式中，所述装置包括：

划分模块，用于针对每个源文件，对所述源文本进行划分，生成第一候选句子文本集合；

筛选模块，用于对所述第一候选句子文本集合进行筛选处理，生成第二候选句子文本集合；

所述第一生成模块，具体用于针对每个源文件，在所述第二候选句子文本集合中查找与所述n个SPO条目匹配的第一文本。

在第二方面的另一种可能的实现方式中，

筛选模块，具体用于筛选出所述第一候选句子文本集合中长度满足预设范围的各第一候选句子文本，生成第二候选句子文本集合。

在第二方面的另一种可能的实现方式中，所述装置还包括：

检查模块，用于对所述目标知识样本数据集中各样本进行正误检查，从所述目标知识样本数据集中删除掉错误的样本。

第三方面，本发明实施例提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现第一方面所述的知识样本数据集的确定方法。

第四方面，本发明实施例提供一种计算机存储介质，所述存储介质中存储计算机程序，所述计算机程序用于执行第一方面所述的知识样本数据集的确定方法。

本发明实施例提供的知识样本数据集的确定方法、装置及电子设备，通过获取预设数量个主谓宾SPO三元组格式和源文本；根据各所述SPO三元组格式，从预设知识库中获取各所述SPO三元组格式对应的n个SPO条目；在各所述源文本中查找与所述n个SPO条目匹配的m个第一文本，生成第一知识样本数据集，其中，所述第一知识样本数据集中的每个样本包括S、P、O和第一文本构成的四元组；根据所述m个第一文本，确定符合各所述SPO三元组格式的k个第二文本，生成第二知识样本数据集，其中，所述第二知识样本数据集中的每个样本包括S、P、O和第二文本构成的四元组；根据所述第一知识样本数据集和所述第二知识样本数据集，生成目标知识样本数据集。即本实施例，实现对知识样本数据集的自动生成，使生成速度快，成本低，可以产出的数据规模大，可以满足训练需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的知识样本数据集的确定方法的流程示意图；

图2为本发明实施例一涉及的检索示意图；

图3为本发明实施例一涉及的推荐示意图；

图4为本发明实施例二提供的知识样本数据集的确定方法的流程示例图；

图5为本发明实施例一提供的知识样本数据集的确定装置的结构示意图；

图6为本发明实施例二提供的知识样本数据集的确定装置的结构示意图；

图7为本发明实施例三提供的知识样本数据集的确定装置的结构示意图；

图8为本发明实施例四提供的知识样本数据集的确定装置的结构示意图；

图9为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

SPO(Subject-Predicate-Object，主谓宾)三元组数据，是指实体S、关系P、实体O，或者实体S、属性P和属性值O构成的三元组，其中S是P的主体，O是P的客体。Schema，是指关系/属性P，以及该P的主体(S)类型以及客体(O)类型。

知识样本数据集中每一条样本，可以表示为(S-P-O-文本)四元组。

已有的技术，通过众标的方式生成知识样本数据集，其标注难度较大，注速度较低，标注人力成本高，产出的数据规模小，无法满足训练需求。

为了解决上述技术问题，本发明实施例提供的技术方案，通过获取预设数量个SPO三元组格式和源文本；根据各所述SPO三元组格式，从预设知识库中获取各所述SPO三元组格式对应的SPO条目，在所述源文本中查找与各所述SPO条目匹配的第一文本，进而生成第一知识样本数据集；根据各所述第一文本，确定符合各所述SPO三元组格式的第二文本，生成第二知识样本数据集，并根据第一知识样本数据集和第二知识样本数据集，生成目标知识样本数据集，进而实现对知识样本数据集的自动生成，使成速度快，成本低，可以产出的数据规模大，可以满足训练需求。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例一提供的知识样本数据集的确定方法的流程示意图。该如图1所示，本实施例的方法可以包括：

S101、获取预设数量个SPO三元组格式和源文本。

本实施例的执行主体可以是具有知识样本数据集确定功能的知识样本数据集的确定装置，本实施例的知识样本数据集的确定装置可以是电子设备的一部分，例如为电子设备的处理器。可选的本实施例的知识样本数据集的确定装置还可以是单独的电子设备。

本实施例的电子设备可以是智能手机、台式电脑、笔记本电脑或智能手环等电子设备。

本实施例以执行主体为电子设备为例进行说明。

Schema约束下的知识抽取，指的是在给定Schema集合的情况下，在自由文本中，抽取符合Schema要求的实体关系数据和实体属性数据，也就是SPO三元组。

实体关系和实体属性是知识图谱的关键组成部分，从知识图谱构建角度来看，实体属性可以丰富知识图谱中的实体信息，实体关系可以丰富知识图谱中的边关系，提升知识图谱的连通度。

从产品应用角度，实体关系和实体属性一方面可以直接满足用户对于知识类的搜索需求，例如如图2所示，搜索“刘德华身高”时，可以通过实体关系和实体属性数据直接给出答案。另外一方面还可以基于实体关系为用户推荐关联的知识，为用户提供信息扩展的阅读体验，例如如图3所示，搜索“王菲”时，可以通过实体关系为用户推荐王菲相关的其他实体。

由此可知，要实现搜索和推荐的准确性，则需要对知识抽取任务的算法进行训练、算法进行验证等。但是，已有技术获得的知识样本数据集难度较大，注速度较低，标注人力成本高，产出的数据规模小，无法满足训练需求。

因此，为了解决上述技术问题，本实施例使用Schema约束下知识抽取数据集。

具体是，根据覆盖SPO知识数量足够多、用户需求热度足够大等原则，在知识库中圈定一定数量的P集合，并标注各P对应的S类别和O类别，其中，S类别覆盖了一些常见的实体概念，例如人物、组织、地区等。O的类别除了实体概念外，还包含一些基础数据类型，例如日期、数字、文本等。

本实施例的SPO三元组格式可以是：人物、夫妻、人物；电影、主演、人物；国家、面积、数字等。

根据上述方式，可以确定预设数量个SPO三元组格式。

同时，获取源文本，例如，从百度百科或新闻正文等中，获取多个源文本。

S102、根据各所述SPO三元组格式，从预设知识库中获取各所述SPO三元组格式对应的n个SPO条目。

具体的，根据上述步骤，获得预设数量个SPO三元组格式，从已有的知识库中获取满足SPO三元组格式的n个SPO条目。

例如，SPO三元组格式为国家、面积、数值，这样可以从已有的知识库中获取满足该SPO三元组格式的SPO条目，例如，可以获得中国的面积为960万平方公里。

根据上述方法，可以获得各所述SPO三元组格式对应的n个SPO条目。

S103、在各所述源文本中查找与所述n个SPO条目匹配的m个第一文本，生成第一知识样本数据集，其中，所述第一知识样本数据集中的每个样本包括S、P、O和第一文本构成的四元组。

具体的，根据上述步骤可以获得各源文本和n个SPO条目，在各源文本中查找与各SPO条目匹配的m个第一文本。

例如，通过多模匹配的方式，在各源文本中查找与各SPO条目匹配的第一文本，该匹配过程中，对S和O进行匹配，匹配过程中依赖了以下两个假设：第一个假设是对于一对S和O来说，他们之间可能存在的关系/属性只有一个，而且当他们共同在文本中出现时，默认这段文本就描述了这个关系/属性。

例如，在文本1中，若出现了第一SPO条目中的S和O，则认为该文本1与该第一SPO条目匹配，生成一条知识样本为(S-P-O-文本1)。

参照上述方式，在各所述源文本中查找与n个SPO条目匹配的m个第一文本，生成第一知识样本数据集。

其中，第一知识样本数据集中的每个样本包括S、P、O和第一文本构成的四元组。

可选的，对日期、时间、地点类型的O做模糊匹配识别，对其他类型的S和O做名字或者别名的精确匹配识别。

可选的，在本实施例的一种可能的实现方式中，在所述源文本中查找与各所述SPO条目匹配的第一文本之前，所述方法包括：

S102a、针对每个源文件，对所述源文本进行划分，生成第一候选句子文本集合。

具体是按照标点符号，将源文本切分成句子粒度，生成第一候选句子文本集合。

S102b、对所述第一候选句子文本集合进行筛选处理，生成第二候选句子文本集合。

例如，筛选出所述第一候选句子文本集合中长度满足预设范围的各第一候选句子文本，生成第二候选句子文本集合。

即过滤掉第一候选句子文本集合过短和过长的句子。

可选的，还可以删除无意义的句子，例如删除标点符合或者语气词等没有意义的句子。

S102c、针对每个源文件，在所述第二候选句子文本集合中查找与所述n个SPO条目匹配的第一文本。

具体将第二候选句子文本集合的每个第二候选句子与每个SPO条目进行匹配，将匹配的第二候选句子作为第一文本。

S104、根据所述m个第一文本，确定符合各所述SPO三元组格式的第二文本，生成第二知识样本数据集，其中，所述第二知识样本数据集中的每个样本包括S、P、O和第二文本构成的四元组。

本实施例中，根据上述步骤，对各源文本进行过滤，保留下n个SPO条目匹配的m个第一文本。

本实施例中，由于第一知识样本数据集是基于第一SPO条目生成的，而第一SPO条目是基于已有的知识库生成的，而已有的知识库包括的数据有限，进而使得第一知识样本数据集不够全面。

为了解决该问题，本实施例，需要对第一文本中满足SPO三元组格式的文本进行再次筛选。

具体是，根据所述m个第一文本，确定符合各所述SPO三元组格式的第二文本。

例如，SPO三元组格式为电影、主演、人物，根据上述步骤，生成的SPO条目可能是电影A的主演是人物B，但是，电影A的主演不是一个人，该SPO条目生成的第一知识样本数据集中数据可能不全。

因此，根据上述m个第一文本，获取符合SPO三元组格式的第二文本，例如，获得第二文本1为电影A的主演是人物C，这样，可以确定一条知识样本为(电影A、主演、人物C，第二文本1)。

根据本步骤，根据所述m个第一文本，确定符合各所述SPO三元组格式的k个第二文本，从k个第二文本中抽取各自的SPO，生成第二知识样本数据集，该第二知识样本数据集中的每个样本包括S、P、O和第二文本构成的四元组。

本实施例的第二知识样本数据集，是根据SPO三元组格式确定的，其可以确定出第一知识样本数据集中没有的样本，进而实现对知识样本数据集的补充。

S105、根据所述第一知识样本数据集和所述第二知识样本数据集，生成目标知识样本数据集。

具体的，上述获得第一知识样本数据集和第二知识样本数据集中包括的样本部分样本可以相同，也可以不同，本实施例对此不做限制，只要第一知识样本数据集和第二知识样本数据集中的各样本均符合SPO三元组格式即可。

第一知识样本数据集和第二知识样本数据集互补，生成目标知识样本数据集包括的样本较全面，这样使用全面的样本训练或验证知识模型或算法时，可以提高了训练或校验的准确性。

本发明实施例提供的知识样本数据集的确定方法，通过获取预设数量个主谓宾SPO三元组格式和源文本；根据各所述SPO三元组格式，从预设知识库中获取各所述SPO三元组格式对应的n个SPO条目；在各所述源文本中查找与所述n个SPO条目匹配的m个第一文本，生成第一知识样本数据集，其中，所述第一知识样本数据集中的每个样本包括S、P、O和第一文本构成的四元组；根据所述m个第一文本，确定符合各所述SPO三元组格式的k个第二文本，生成第二知识样本数据集，其中，所述第二知识样本数据集中的每个样本包括S、P、O和第二文本构成的四元组；根据所述第一知识样本数据集和所述第二知识样本数据集，生成目标知识样本数据集。即本实施例，实现对知识样本数据集的自动生成，使生成速度快，成本低，可以产出的数据规模大，可以满足训练需求。

图4为本发明实施例二提供的知识样本数据集的确定方法的流程示例图。在上述实施例的基础上，本实施例涉及的是，对知识样本数据集进行并列扩展，生成第三知识样本数据集的具体过程。如图4所示，上述S105之后，本实施例的方法还包括：

S201、将所述第一知识样本数据集和所述第二知识样本数据集的各样本中P相同，并且S或O相同的样本作为一组样本。

本步骤，生成的第一知识样本数据集和第二知识样本数据集的各样本中的S或O可能具有并列关系。

这样，需要获得第一知识样本数据集和第二知识样本数据集的各样本中P相同，并且S或O相同的样本，将这些样本记为一组样本，这样可以生成不同组样本。

例如，第一知识样本数据集中样本1为电影A的主演是人物B，而第二知识样本数据集的样本2为电影A的主演是人物C，由此可知，人物B与人物C为并列词汇，将样本1和样本2记为一组样本。

S202、获取各组样本中元素值不同的元素的并列词汇。

参照上述例子，例如，样本1为电影A的主演是人物B，而样本2为电影A的主演是人物C，可以确定样本1和样本2的主演的人物不同，即O不同，这样，可以获取样本1和样本2中O具有并列词，即人物B与人物C为并列词汇。

S203、将各所述并列词汇补充至对应的一组样本的SPO三元素中，生成第三知识样本数据集。

继续参照上述例子，并列词汇人物B与人物C补充到样本1和/或样本2中，生成新的样本3为电影A的主演是人物B和人物C，进而实现对样本的补充。

根据上述方法，可以查找第一知识样本数据集和所述第二知识样本数据集的各样本中S或O具有并列关系的样本，并获得这些样本对应的S或O的并列词汇，将并列词汇补充至对应的样本中，生成信息较全面的样本。接着，基于这些信息较全面的样本，生成第三知识样本数据集。

本实施例第三知识样本数据集中的各样本包括的信息全面，进而提升及其算法产出样本的召回率，进一步提高了知识样本数据集的准确性。

S204、根据所述第一知识样本数据集、所述第二知识样本数据集和所述第三知识样本数据集，生成目标知识样本数据集。

本实施例中，由于第一知识样本数据集是基于已有的知识库生成的，而已有的知识库包括的数据有限，进而使得第一知识样本数据集不够全面。第二知识样本数据集是对第一知识样本数据集的补充，而生成第一知识样本数据集和第二知识样本数据集时，可能对基于一个S或O进行匹配的，例如默认电影的主演为一个人，或者在不同的文本中记载的电影的主演的人物不一致，这样使得第一知识样本数据集和第二知识样本数据集生成的样本不全面。

为了解决该技术问题，本步骤，获取第一知识样本数据集和第二知识样本数据集中S或O的并列词汇，将并列词汇补充到对应的样本中，进而生成较全面的第三知识样本数据集。

接着，根据第一知识样本数据集、第二知识样本数据集和第三知识样本数据集，生成目标知识样本数据集，例如，将第一知识样本数据集、第二知识样本数据集和第三知识样本数据集合并，生成目标知识样本数据集。

可选的，删除第一知识样本数据集、第二知识样本数据集和第三知识样本数据集中重复的样本，生成目标知识样本数据集。

该目标知识样本数据集的数据量全面，基于该目标知识样本数据集可以实现对模型的准确、全面训练。

本发明实施例提供的知识样本数据集的确定方法，通过将所述第一知识样本数据集和所述第二知识样本数据集的各样本中P相同、S或O相同的样本作为一组样本；获取各组样本中元素值不同的元素的并列词汇；将各所述并列词汇补充至对应的一组样本的SPO三元素中，生成第三知识样本数据集；根据所述第一知识样本数据集、所述第二知识样本数据集和所述第三知识样本数据集，生成目标知识样本数据集，进一步提高了目标知识样本数据集的准确性和全面性。

在本实施例的一种可能的实现方式中，为了进一步提高目标知识样本数据集的准确性，则在上述生成目标知识样本数据集之后，本实施例方法还包括：

S106、对所述目标知识样本数据集中各样本进行正误检查，从所述目标知识样本数据集中删除掉错误的样本。

具体的，为了降低目标知识样本数据集中各样本的错误率，对目标知识样本数据集中各样本进行正确性检查，删除掉错误的样本，以提高了目标知识样本数据集的准确率。

例如，根据目标知识样本数据集中各样本的SPO格式，将不符合SPO格式的样本删除，例如，样本的SPO格式为人物国籍国家，但是该样本的文本表示为李四的国籍为华人，因此，可以确定该样本错误，删除。

可选的，本实施例还可以根据其他的方式判断目标知识样本数据集中各样本的正确性，本实施例对此不做限制。

在一种示例中，上述S106可以是：将所述目标知识样本数据集中的各样本转换成预设格式，在所述预设格式下，对所述目标知识样本数据集中的各样本进行正误检查，从所述目标知识样本数据集中删除掉错误的样本

具体是，为了便于对样本进行判断，将样本转化成统一的格式，及预设格式，本实施例对预设格式不做限制，具体根据实际需要确定。

可选的，预设格式为判断句，例如，样本中包括的文本为：张三(1913-1992)，中国著名地理学家，转化成预设格式为：张三的国籍是中国，或张三是地理学家等判断句。

可选的，本实施例中，对目标知识样本数据集中的各样本进行判断时，可以参照如下标准：

1、SPO三元组符合句子中表达的意思即可，不需要判断是否在现实中真的成立。

2、如果O是不完整的日期/精度较低的数字等，只要不和句中信息冲突，则判断为正确。例如，根据句子「百度成立于2000年1月1日」，判断得出：百度(公司)的成立时间是2000年(日期)，判断正确。

3、SPO三元组中的P不需要显式出现在句子中，只要意思符合即可判断为正确。例如，根据句子「翠花嫁给铁柱」，判断得出：翠花(人物)的丈夫是铁柱(人物)，是正确的。

4、如果S或O与要求的类型不符，则判断错误。例如，李四(人物)的国籍是华人(国家)，是错误的，原因是「华人」不是国家。

本发明实施例，通过对目标知识样本数据集中的各样本的正确性进行检查，提高了样本的准确性，保证了最终产出的样本的效果。

图5为本发明实施例一提供的知识样本数据集的确定装置的结构示意图。如图5所示，本实施例的知识样本数据集的确定装置100可以包括：

第一获取模块11，用于获取预设数量个主谓宾SPO三元组格式和源文本；

第二获取模块12，用于根据各所述SPO三元组格式，从预设知识库中获取各所述SPO三元组格式对应的n个SPO条目；

第一生成模块13，用于在各所述源文本中查找与所述n个SPO条目匹配的m个第一文本，生成第一知识样本数据集，其中，所述第一知识样本数据集中的每个样本包括S、P、O和第一文本构成的四元组；

第二生成模块14，用于根据所述m个第一文本，确定符合各所述SPO三元组格式的k个第二文本，生成第二知识样本数据集，其中，所述第二知识样本数据集中的每个样本包括S、P、O和第二文本构成的四元组；

第三生成模块15，用于根据所述第一知识样本数据集和所述第二知识样本数据集，生成目标知识样本数据集。

本发明实施例的知识样本数据集的确定装置，可以用于执行上述所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图6为本发明实施例二提供的知识样本数据集的确定装置的结构示意图。如图6所示，所述知识样本数据集的确定装置100还包括：

第一确定模块16，用于将所述第一知识样本数据集和所述第二知识样本数据集的各样本中P相同，并且S或O相同的样本作为一组样本；

第三获取模块17，用于获取各组样本中元素值不同的元素的并列词汇；

第四生成模块18，用于将各所述并列词汇补充至对应的一组样本的SPO三元素中，生成第三知识样本数据集；

第三生成模块15，具体用于根据所述第一知识样本数据集、所述第二知识样本数据集和所述第三知识样本数据集，生成目标知识样本数据集。

图7为本发明实施例三提供的知识样本数据集的确定装置的结构示意图。在上述实施例的基础上，所述知识样本数据集的确定装置100还包括：

划分模块19，用于针对每个源文件，对所述源文本进行划分，生成第一候选句子文本集合；

筛选模块20，用于对所述第一候选句子文本集合进行筛选处理，生成第二候选句子文本集合；

所述第一生成模块13，具体用于针对每个源文件，在所述第二候选句子文本集合中查找与所述n个SPO条目匹配的第一文本。

在本实施例的一种可能的实现方式中，筛选模块20，具体用于筛选出所述第一候选句子文本集合中长度满足预设范围的各第一候选句子文本，生成第二候选句子文本集合。

图8为本发明实施例四提供的知识样本数据集的确定装置的结构示意图。在上述实施例的基础上，所述知识样本数据集的确定装置100还包括：

检查模块21，用于对所述目标知识样本数据集中各样本进行正误检查，从所述目标知识样本数据集中删除掉错误的样本。

在本实施例的一种可能的实现方式中，检查模块21，具体用于将所述目标知识样本数据集中的各样本转换成预设格式，在所述预设格式下，对所述目标知识样本数据集中的各样本进行正误检查，从所述目标知识样本数据集中删除掉错误的样本。

图9为本发明实施例提供的电子设备的结构示意图，如图9所示，本实施例的电子设备200包括：

存储器220，用于存储计算机程序；

处理器230，用于执行所述计算机程序，以实现上述知识样本数据集的确定方法，其实现原理和技术效果类似，此处不再赘述。

进一步的，当本发明实施例中知识样本数据集的确定方法的至少一部分功能通过软件实现时，本发明实施例还提供一种计算机存储介质，计算机存储介质用于储存为上述对知识样本数据集的确定的计算机软件指令，当其在计算机上运行时，使得计算机可以执行上述方法实施例中各种可能的知识样本数据集的确定方法。在计算机上加载和执行所述计算机执行指令时，可全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机指令可以存储在计算机存储介质中，或者从一个计算机存储介质向另一个计算机存储介质传输，所述传输可以通过无线(例如蜂窝通信、红外、短距离无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD)等。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种知识样本数据集的确定方法，其特征在于，包括：

获取预设数量个主谓宾SPO三元组格式和源文本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一知识样本数据集和所述第二知识样本数据集，生成目标知识样本数据集之前，所述方法还包括：

获取各组样本中元素值不同的元素的并列词汇；

3.根据权利要求1或2所述的方法，其特征在于，所述在各所述源文本中查找与所述n个SPO条目匹配的m个第一文本之前，所述方法包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述第一候选句子文本集合进行筛选处理，生成第二候选句子文本集合，包括：

5.根据权利要求1所述的方法，其特征在于，所述生成目标知识样本数据集之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述目标知识样本数据集中各样本进行正误检查，包括：

7.一种知识样本数据集的确定装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求7或8所述的装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

12.根据权利要求11所述的装置，其特征在于，

检查模块，具体用于将所述目标知识样本数据集中的各样本转换成预设格式，在所述预设格式下，对所述目标知识样本数据集中的各样本进行正误检查，从所述目标知识样本数据集中删除掉错误的样本。

13.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1-6中任一项所述的知识样本数据集的确定方法。

14.一种计算机存储介质，其特征在于，所述存储介质中存储计算机程序，所述计算机程序在执行时实现如权利要求1-6中任一项所述的知识样本数据集的确定方法。