CN112579770A

CN112579770A - 知识图谱的生成方法，装置，存储介质及设备

Info

Publication number: CN112579770A
Application number: CN201910945150.2A
Authority: CN
Inventors: 葛婷
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-03-30

Abstract

本公开涉及一种知识图谱的生成方法，装置，存储介质及设备。该方法包括：从数据源中获取得到多个结构化数据；对所述结构化数据进行分组，得到多个数据集合；针对至少包含两个所述结构化数据的任一所述集合，计算该集合中的任意两个数据的相似度；若所述相似度小于预设阈值，则在所述集合中保留所述两个被选中的结构化数据中的一个，以得到对应的新的数据集合；并针对所述新的数据集合，执行上述计算该集合中的任意两个数据的相似度，以及上述得到对应的新的数据集合的步骤，直到所述新的数据集合中的所述结构化数据之间的相似度均超过所述预设阈值时，得到目标数据集合；根据所有所述目标数据集合中的所述结构化数据，构建所述知识图谱。

Description

知识图谱的生成方法，装置，存储介质及设备

技术领域

本公开涉及数据处理领域，具体地，涉及一种知识图谱的生成方法，装置，存储介质及设备。

背景技术

知识图谱(Knowledge Graph)又称为科学知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形。知识图谱通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法和计量学引文分析及共现分析等方法结合，利用可视化的图谱形象地展示学科的核心结构、发展历史、前言领域以及整体知识架构达到多学科融合的目的的现代理论。知识图谱可以把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而直观地显示出来，从而揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。因此，在工业生产领域中，构建知识图谱有利于工业生产的管理和发展。例如，在油气领域中应用知识图谱，有利于对油气产业的发展进行管理，具体地，可以管理油气领域的油田探测、地质、投产等相关信息。

而在构建知识图谱之前，需要从多个数据源中获取实体数据，并对所获取的实体数据进行实体对齐。相关技术中，实体对齐可以采用基于同一实体描述方式对不同开放连接数据集的实体进行对齐的方法，或者，采用基于百科中的结构化数据，用SVM(SupportVector Machine)分类器对不同百科中的实体进行对齐的方法，又或者，采用基于语言学模式和开放同义关系抽取模型对非结构化数据中的实体进行对齐的方法。但是，采用这些实体对齐方法，通过倒排索引选出候选实体样本，再利用SVM分类算法进行实体对齐，会使最终筛选出的实体中具有较多的相似实体。那么在实际的工业生产领域中，若采用这些方法来构建知识图谱，会导致知识图谱中的数据重复冗余。

发明内容

本公开的目的是提供一种知识图谱的生成方法，装置，存储介质及设备，以解决相关技术中存在的问题。

为了实现上述目的，根据本公开实施例的第一方面，提供一种知识图谱的生成方法，所述方法包括：

从数据源中获取得到多个结构化数据；

对所述结构化数据进行分组，得到多个数据集合，任一所述数据集合中的各结构化数据具有相同的一个或多个元素；

针对至少包含两个所述结构化数据的任一所述集合，计算该集合中的任意两个数据的相似度；

若所述相似度小于预设阈值，则在所述集合中保留所述两个被选中的结构化数据中的一个，以得到对应的新的数据集合；并

针对所述新的数据集合，执行上述计算该集合中的任意两个数据的相似度，以及上述得到对应的新的数据集合的步骤，直到所述新的数据集合中的所述结构化数据之间的相似度均超过所述预设阈值时，得到目标数据集合；

根据所有所述目标数据集合中的所述结构化数据，构建所述知识图谱。

可选地，所述结构化数据包括预设的固定结构的元组数据，或不限制结构的实体节点；其中，所述预设的固定结构的元组数据中包括用于表征实体名称或实体属性的label元素，以及所述label元素的value值；所述不限制结构的实体节点中包括表征实体名称的label元素以及其对应的name值，以及至少一组属性及属性值。

可选地，所述对所述结构化数据进行分组，得到多个数据集合，包括：

若所述结构化数据为所述预设的固定结构的元组数据，则根据所述元组数据中的label元素，将所述元组数据分为多个元组数据集合，其中同一元组数据集合中的元组数据的label元素均相同；

若所述结构化数据为所述不限制结构的实体节点，则根据所述实体节点的label元素以及其对应的name值，将所述实体节点分为多个实体集合，其中同一所述集合中的所述实体节点的label元素以及其对应的name值相同。

可选地，若所述结构化数据为所述预设的固定结构的元组数据，则针对至少包含两个所述结构化数据的任一所述集合，计算该集合中的任意两个数据的相似度，包括：

针对被选中的两个所述元组数据中，表征实体属性的label元素的包含数字量词的value值，对所述两个元组数据的该label元素的value值进行单位统一，根据单位统一之后的所述value值，计算所述被选中的两个元组数据的该label元素的value值的数值相似度；和/或，

针对被选中的两个所述元组数据中，表征实体名称的label元素的value值，或表征实体属性的label元素所对应的不为量词的value值，根据预设字典，分别对所述两个元组数据的该label元素的value值进行简称统一，并根据简称统一之后的所述value值，计算所述两个元组数据的该label元素的value值的编辑距离，集合相似度，以及余弦相似度中的至少一者。

可选地，所述两个元组数据的相似度为所述数值相似度、所述编辑距离对应的距离相似度、所述集合相似度、所述余弦相似度中的至少一者；或者，

所述两个元组数据的相似度是根据所述数值相似度、所述编辑距离对应的距离相似度、所述集合相似度、所述余弦相似度中的多者计算得到的。

可选地，若所述结构化数据为所述不限制结构的实体节点，则针对至少包含两个所述结构化数据的任一所述集合，计算该集合中的任意两个数据的相似度，包括：

针对被选中的两个所述实体节点中具有相同唯一标识的属性，计算唯一标识属性的属性值的字符串相似度；和/或，

针对被选中的两个所述实体节点中的非唯一标识的属性，分别计算所述两个实体的相同属性的属性值的编辑距离、集合相似度、以及余弦相似度中的至少一者；和/或，

若被选中的两个所述实体节点中的属性个数不一致，则对所述两个被选中的所述实体节点分别进行文本拼接，并计算两者的文本相似度。

可选地，所述计算唯一标识属性的属性值的字符串相似度，包括：

判断被选中的两个所述实体节点中相同唯一标识的属性的属性值是否为包含数字的量词；

若该属性值均为包含数字的量词，则对其进行单位统一；

根据单位统一之后的所述属性值，计算被选中的两个所述实体节点的该唯一标识属性的属性值的字符串相似度。

可选地，两个所述实体节点的相似度为所述字符串相似度、所述编辑距离对应的距离相似度、所述集合相似度、所述余弦相似度以及所述文本相似度中的至少一者；或者

两个所述实体节点的相似度是根据所述字符串相似度、所述编辑距离对应的距离相似度、所述集合相似度、所述余弦相似度以及所述文本相似度中的多者计算得到的。

可选地，所述若所述相似度小于预设阈值，则在所述集合中保留所述两个被选中的结构化数据中的一个，以得到对应的新的数据集合，包括：

若所述两个被选中的实体节点中的属性个数不相同，且所述两个实体的所述相似度小于所述预设阈值，则保留所述两个实体节点中的相同属性和属性值以及不相同的属性及其属性值，得到新的实体节点，并在所述集合中保留所述新的实体节点。

根据本公开实施例的第二方面，提供一种知识图谱的生成装置，所述装置包括：

获取模块，用于从数据源中获取得到多个结构化数据；

分组模块，用于对所述结构化数据进行分组，得到多个数据集合，任一所述数据集合中的各结构化数据具有相同的一个或多个元素；

计算模块，用于针对至少包含两个所述结构化数据的任一所述集合，计算该集合中的任意两个数据的相似度；

保留模块，用于若所述相似度小于预设阈值，则在所述集合中保留所述两个被选中的结构化数据中的一个，以得到对应的新的数据集合；

执行模块，用于针对所述新的数据集合，执行上述计算该集合中的任意两个数据的相似度，以及上述得到对应的新的数据集合的步骤，直到所述新的数据集合中的所述结构化数据之间的相似度均超过所述预设阈值时，得到目标数据集合；

构建模块，用于根据所有所述目标数据集合中的所述结构化数据，构建所述知识图谱。

可选地，所述分组模块包括：

第一分组子模块，用于若所述结构化数据为所述预设的固定结构的元组数据，则根据所述元组数据中的label元素，将所述元组数据分为多个元组数据集合，其中同一元组数据集合中的元组数据的label元素均相同；

第二分组子模块，用于若所述结构化数据为所述不限制结构的实体节点，则根据所述实体节点的label元素以及其对应的name值，将所述实体节点分为多个实体集合，其中同一所述集合中的所述实体节点的label元素以及其对应的name值相同。

可选地，若所述结构化数据为所述预设的固定结构的元组数据，则所述计算模块包括：

第一计算子模块用于，针对被选中的两个所述元组数据中，表征实体属性的label元素的包含数字量词的value值，对所述两个元组数据的该label元素的value值进行单位统一，根据单位统一之后的所述value值，计算所述被选中的两个元组数据的该label元素的value值的数值相似度；和/或，

用于针对被选中的两个所述元组数据中，表征实体名称的label元素的value值，或表征实体属性的label元素所对应的不为量词的value值，根据预设字典，分别对所述两个元组数据的该label元素的value值进行简称统一，并根据简称统一之后的所述value值，计算所述两个元组数据的该label元素的value值的编辑距离，集合相似度，以及余弦相似度中的至少一者。

可选地，所述两个元组数据的相似度为所述数值相似度、所述编辑距离对应的距离相似度、所述集合相似度、所述余弦相似度中的至少一者；或者，所述两个元组数据的相似度是根据所述数值相似度、所述编辑距离对应的距离相似度、所述集合相似度、所述余弦相似度中的多者计算得到的。

可选地，若所述结构化数据为所述不限制结构的实体节点，则所述计算模块包括：

第二计算子模块用于，针对被选中的两个所述实体节点中具有相同唯一标识的属性，计算唯一标识属性的属性值的字符串相似度；和/或，

可选地，所述第二计算子模块包括：

执行子模块，用于判断被选中的两个所述实体节点中相同唯一标识的属性的属性值是否为包含数字的量词；若该属性值均为包含数字的量词，则对其进行单位统一；根据单位统一之后的所述属性值，计算被选中的两个所述实体节点的该唯一标识属性的属性值的字符串相似度。

可选地，所述保留模块包括：

保留子模块，用于若所述两个被选中的实体节点中的属性个数不相同，且所述两个实体的所述相似度小于所述预设阈值，则保留所述两个实体节点中的相同属性和属性值以及不相同的属性及其属性值，得到新的实体节点，并在所述集合中保留所述新的实体节点。

根据本公开实施例的第三方面，提供一种存储介质，其上存储有程序，该程序被处理器执行时实现上述第一方面任一所述方法的步骤。

根据本公开实施例的第四方面，提供一种设备，所述设备包括：

至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；

其中，所述处理器、所述存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行上述第一方面任一所述方法的步骤。

采用本公开提供的技术方案，至少能达到如下技术效果：

通过从数据源中获取得到多个结构化数据；对所述结构化数据进行分组，得到多个数据集合，其中，任一所述数据集合中的各结构化数据具有相同的一个或多个元素，例如，使任一集合中的所有结构化数据中描述实体名称的元素均相同，如此，可以使该数据集合中的所有结构化数据均为描述同一类实体的数据，或者，可以使该数据集合中的所有结构化数据均在描述相同类的多个实体之间的关系；针对至少包含两个所述结构化数据的任一所述集合，计算该集合中的任意两个数据的相似度，而若数据集合中只含有一个结构化数据，则说明没有与该类结构化数据相同或相似的其他数据；若所述相似度小于预设阈值，则在所述集合中保留所述两个被选中的结构化数据中的一个，以得到对应的新的数据集合；并针对所述新的数据集合，执行上述计算该集合中的任意两个数据的相似度，以及上述得到对应的新的数据集合的步骤，直到所述新的数据集合中的所述结构化数据之间的相似度均超过所述预设阈值时，得到目标数据集合，如此，可以使得到的任一目标数据集合中的结构化数据均是不相同的数据；因此，采用这种方法，可以使生成的知识图谱中的数据均是不相同的数据，如此可以解决相关技术中知识图谱中的数据重复冗余的问题。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的一种知识图谱的生成方法的流程图。

图2是根据本公开一示例性实施例示出的一种知识图谱的生成装置的框图。

图3是根据本公开一示例性实施例示出的一种设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是根据本公开一示例性实施例示出的一种知识图谱的生成方法的流程图，参照图1，所述方法包括：

步骤101、从数据源中获取得到多个结构化数据。

其中，数据源可以是数据库，文本文档，网络百科页面，百科知识库等，对此，本公开不做限定。

结构化数据是指，具有固定格式或有限长度的数据，如数据库，元数据，元组数据，数组，列表等。其中，元组(tuple)是关系数据库中的基本概念，关系是一张表，表中的每行(即数据库中的每条记录)就是一个元组，每列就是一个属性。例如，(d1，d2，…，dn)，叫作一个n元组，d1至dn是元组中的元素。

步骤102、对所述结构化数据进行分组，得到多个数据集合，任一所述数据集合中的各结构化数据具有相同的一个或多个元素。

将从数据源中提取得到的多个结构化数据进行分组，得到多个数据集合，同一数据集合中的结构化数据具有相同的一个或多个属性。示例地，若同一集合中的两个结构化数据分别为数据A(a，b，c，d)和数据B(a，e，f，g)，可见数据A和数据B中具有相同的元素a。再示例地，若同一集合中的两个结构化数据分别为数据C(a，b，c，d)和数据D(a，e，c，f)，可见数据C和数据D具有相同的两个元素a和c。

不难理解的是，在上述同一数据集合中的结构化数据具有相同的一个或多个元素时，那么该集合中的所有结构化数据才有可能是描述同一对象的数据。而若两个结构化数据中的所有元素均不相同，则明显该两个数据是完全不相同的数据，那么，该两个数据也不可能是描述同一对象的数据。

值得说明的是，对从数据源中提取得到的多个结构化数据进行分组得到多个数据集合，然后分别对同一集合中的数据进行相似度计算。这种方式与直接对从数据源中提取得到的多个结构化数据进行相似度计算的方法相比，减少了数据的计算量，以及降低了算法实现时的复杂度。

步骤103、针对至少包含两个所述结构化数据的任一所述集合，计算该集合中的任意两个数据的相似度。

在得到的任一数据集合中，若该集合中只有一个结构型数据，则认为，该集合中的该数据是唯一的。换句话说，该集合中的该数据与其他从数据源中获取的数据均是不相同的。

若任一数据集合中存在两个及两个以上的结构化数据，则认为该集合中的多个数据中，可能具有相同的一个或多个数据，那么，可以通过计算该集合中的结构化数据之间的相似度，来确定该集合中是否存在多个相同数据。

值得说明的是，计算任一数据集合中的结构化数据之间的相似度时，可以是将该数据集合中的结构化数据分成两两一组，然后并行计算各组中两个结构化数据的相似度。也可以是，先从该数据集合中选择出两个结构化数据，计算该两个结构化数据的相似度，然后再与该集合中的其他结构化数据分别进行相似度计算。

步骤104、若所述相似度小于预设阈值，则在所述集合中保留所述两个被选中的结构化数据中的一个，以得到对应的新的数据集合。

在同一数据集合中，对任意两个结构化数据进行相似度计算，若计算得到的相似度满足预设阈值条件，则认为该两个结构化数据是完全相同的数据，那么在该数据集合中，保留其中的一个结构化数据，将另一个重复数据删除，进而得到新的数据集合。

步骤105、针对所述新的数据集合，执行上述计算该集合中的任意两个数据的相似度，以及上述得到对应的新的数据集合的步骤，直到所述新的数据集合中的所述结构化数据之间的相似度均超过所述预设阈值时，得到目标数据集合。

在一种可能的情况下，针对上述步骤104中得到的新的数据集合，重复执行上述步骤103和步骤104，直到新的数据集合中的结构化数据之间的相似度均超过预设阈值时，得到目标数据集合。即是说，当集合中的所有结构化数据均为不相同的数据时，将该集合作为目标数据集合。

步骤106、根据所有所述目标数据集合中的所述结构化数据，构建所述知识图谱。

根据所有的目标集合中的所有结构化数据，构建知识图谱。在一种可能的情况下，若在步骤102中的对从数据源中获取的结构化数据进行分组得到的多个数据集合中存在只含有一个数据的集合，则将该只含有一个结构化数据的集合作为目标数据集合。在另一种可能的情况下，若上述步骤102中得到的多个数据集合中存在只含有两个结构化数据的集合，则经过步骤103和步骤104便能得出目标数据集合。但是，本领域技术人员不难理解的是，从大量的数据源中获取的数据中存在上述两种情况的概率可以忽略不计。

采用上述方法，通过从数据源中获取得到多个结构化数据；对所述结构化数据进行分组，得到多个数据集合，其中，任一所述数据集合中的各结构化数据具有相同的一个或多个元素，例如，使任一集合中的所有结构化数据中描述实体名称的元素均相同，如此，可以使该数据集合中的所有结构化数据均为描述同一类实体的数据，或者，可以使该数据集合中的所有结构化数据均在描述相同类的多个实体之间的关系，又或者使同一集合中的结构化均在描述同一对象的相同或不相同的属性；针对至少包含两个所述结构化数据的任一所述集合，计算该集合中的任意两个数据的相似度，而若数据集合中只含有一个结构化数据，则说明没有与该类结构化数据相同或相似的其他数据；若所述相似度小于预设阈值，则在所述集合中保留所述两个被选中的结构化数据中的一个，以得到对应的新的数据集合；并针对所述新的数据集合，执行上述计算该集合中的任意两个数据的相似度，以及上述得到对应的新的数据集合的步骤，直到所述新的数据集合中的所述结构化数据之间的相似度均超过所述预设阈值时，得到目标数据集合，如此，可以使得到的任一目标数据集合中的结构化数据均是不相同的数据；因此，采用这种方法，根据目标数据集合中的结构化数据生成知识图谱，可以使生成的知识图谱中的数据均是不相同的数据，如此可以解决相关技术中知识图谱中的数据重复冗余的问题。

在本公开中，结构化数据包括预设的固定结构的元组数据，或不限制结构的实体节点，此外，结构化数据还可以是列表，数组等。对此，本公开不做限定。

在一种可实现的实施方式中，所述预设的固定结构的元组数据中包括用于表征实体名称或实体属性的label元素，以及所述label元素的value值。示例地，若预设的固定结构的元组数据为五元组数据，则该五元组数据的结构具体可以是(label1，value1，label2，value2，relationship)，其中，relationship用于表征label1与label2之间的关系。例如，假设五元组数据A为(区域，亚太地区，国家，中国，包含)，那么五元组数据A中的relationship的值为包含，表征区域为亚太地区时，包含的国家有中国。再例如，假设五元组数据B为(油田，东京路70号油田，地址，东一段，含油层系)，那么，五元组数据B中的relationship的值为含油层系，表征东京路70号油田的含油层系在东一段。

在另一种可实现的实施方式中，所述不限制结构的实体节点中包括表征实体名称的label元素以及其对应的name值，以及至少一组属性及属性值。示例地，实体节点具体可以是(label，name，{属性1：属性值，属性2：属性值，…，属性n：属性值})。实体节点中的label用于描述该实体节点的类别名称，name用于描述该实体节点的具体名称。具体地，例如，实体节点C(油田，25号油田，{发现时间：2008年，开采时间：2009年，年开采油量：200.5吨})。再例如，实体节点D(油田，75号油田，{发现时间：2008年，开采时间：2009年，已开采油量：20.5亿吨，已开采油量的比率：23％})。

采用本公开的这种方法，对结构化数据的具体元素组成不做限制，如此，在面对不同的数据源中的各种类型的结构数据时，本公开的方法均适用。

若所述结构化数据为所述预设的固定结构的元组数据，则根据所述元组数据中的label元素，将所述元组数据分为多个元组数据集合，其中同一元组数据集合中的元组数据的label元素均相同。

具体地，若元组数据为上述的五元组数据(label1，value1，label2，value2，relationship)，那么通过比较各个五元组数据中的label1以及label2是否相同，可以将label1以及label2相同的五元组放在同一数据集合中。示例地，五元组A为(区域，亚太地区，国家，中国，包含)，五元组E为(区域，亚太地区，国家，美国，包含)。那么，五元组A中的label1以及label2分别为区域，国家；五元组E中的label1以及label2分别为区域，国家；可见五元组A和E中的label1以及label2均相同，因此，将五元组A和五元组E放入同一数据集合中；

另一个例子，若五元组A为(区域，亚太地区，国家，中国，包含)，五元组B为(油田，东京路70号油田，地址，东一段，含油层系)。那么，五元组A中的label1以及label2分别为区域，国家；五元组B中的label1以及label2分别为油田，地址；可见，五元组A和B中的label1以及label2均不相同，因此，将五元组A和五元组B分别放入两个集合中。

在一种可实现的实施方式中，若所述结构化数据为所述不限制结构的实体节点，则根据所述实体节点的label元素以及其对应的name值，将所述得到的多个实体节点分为多个实体集合，其中同一所述集合中的所述实体节点的label元素以及其对应的name值相同。

示例地，实体节点C(油田，25号油田，{发现时间：2008年，开采时间：2009年，年开采油量：200.5吨})。实体节点D(油田，75号油田，{发现时间：2008年，开采时间：2009年，已开采油量：20.5亿吨，已开采油量的比率：23％})。可见，实体节点C中的label元素的值为油田，name值为25号油田；实体节点D中的label元素的值为油田，name值为75号油田。因此，将实体节点C和实体节点D分别放入两个数据集合中。

采用上述方法，对从数据源中提取得到的多个结构化数据进行分组得到多个数据集合，使得每一个集合中的结构化数据具有相同的一个或多个元素，不难理解的是，在两个结构化数据中存在相同的一个或多个元素时，该两个结构化数据才有可能是相同的数据。因此，对结构化数据进行分组之后，再分别对同一集合中的数据进行相似度计算。这种方式与直接对从数据源中提取得到的多个结构化数据进行相似度计算的方法相比，减少了数据的计算量，以及降低了算法实现时的复杂度。

可选地，若所述结构化数据为所述预设的固定结构的元组数据，则针对至少包含两个所述结构化数据的任一所述集合，计算该集合中的任意两个数据的相似度，可以包括以下步骤：

针对被选中的两个所述元组数据中，表征实体属性的label元素的包含数字量词value值，对所述两个元组数据的该label元素的value值进行单位统一，根据单位统一之后的所述value值，计算所述被选中的两个元组数据的该label元素的value值的数值相似度；和/或，

由于在上述步骤中，对从数据源中提取得到的多个结构化数据进行了分类，那么，每一个集合中可能存在多个相同的结构化数据。因此，可以通过计算同一集合中的任意两个数据的相似度，以确定该两个数据是否为相同数据。

其中，包含数字的量词是指包含数字的计量名量词，例如公斤、尺、亩、摄氏度，毫升、吨、千克等，值得说明的是，本公开中所述的数字是指1、2、3等***数字以及一、二、三、壹、贰、叁等中文的数字。

具体地，若被选中的两个元组数据中存在表征实体属性的label元素对应的value值为包含数字的量词，则在一种可实现的实施方式中，对该两个元组数据的该label元素的value值进行单位统一，根据单位统一之后的两个value值，计算被选中的两个元组数据的该label元素的value值的数值相似度。示例地，若计算元组数据M(油田，第27号油田，开采量，200.5吨，包括)和元组数据N(油田，27号油田，开采量，200505千克，包括)的相似度，可见元组数据M和元组数据N中的表征实体属性的label元素为开采量，其分别对应的value值为200.5吨和200505千克，该两个value值均为包含数字的量词，因此，对该两个value值200.5吨和200505千克进行单位统一。例如，将该两个value值200.5吨和200505千克统一为200.5吨和200.505吨；或者将该两个value值200.5吨和200505千克统一为200500千克和200505千克；在对该两个value值进行单位统一之后，计算两个value值的数值相似度。例如，计算得出200500千克和200505千克相差5千克。

针对被选中的两个元组数据中，表征实体名称的label元素的value值，或表征实体属性的label元素所对应的不为量词的value值，根据预设字典，分别对被选中的两个元组数据的该label元素的value值进行简称统一，并根据简称统一之后的两个元组的该value值，计算两个元组数据的该label元素的value值的编辑距离，集合相似度，以及余弦相似度中的至少一者。

示例地，若被选中的两个元组数据为m(油田，第27号油田，所在国家，中国，包括)和元组数据n(油田，28号油田，所在国家，中华人民共和国，包括)，元组m中表征实体名称的label元素的value值为“第27号油田”，元组n中表征实体名称的label元素的value值为“28号油田”。分别对value值“第27号油田”和value值“28号油田”进行简称统一，具体子，通过将value值“第27号油田”和value值“28号油田”分别与预设字典中的数据进行对比，分别得到简称27#和28#。根据简称统一之后的value值27#和28#计算两者之间的编辑距离，集合相似度，以及余弦相似度中的至少一者。其中，编辑距离可以采用现有的算法LevenshteinDistance来计算，集合相似度可以采用Jaccard相似度算法来计算，余弦相似度可以采用Cosine算法来计算。

再示例地，上述元组m中表征实体属性的label元素所对应的不为量词的value值为“中国”；元组n中表征实体属性的label元素所对应的不为量词的value值为“中华人民共和国”；分别将value值“中国”和value值“中华人民共和国”与预设字典中的数据对比，找到对应的简称“中国”。对元组数据m和元组数据n进行简称统一之后，得到元组数据为m(油田，27#，所在国家，中国，包括)和元组数据为n(油田，28#，所在国家，中国，包括)。根据简称统一之后的m的value值“中国”和n的value值“中国”计算两者之间的编辑距离，集合相似度，以及余弦相似度中的至少一者。

采用这种方法，若被选中的两个元组数据中存在表征实体属性的label元素对应的value值为包含数字的量词，则对量词进行单位的统一换算，如此，才能对该两个元组数据中的该两个量词进行数值相似度计算，若不进行单位统一换算，则计算出的数值相似度是无效的。针对表征实体名称的label元素的value值进行简称统一，然后再计算两者的相似度，这种方式与相关技术中的语义比较的方法相比，得到的相似度数据更加准确。同理，针对表征实体属性的label元素所对应的不为量词的value值进行简称统一，也可以提高计算出的相似度数据的准确率。

在一种可能的情况下，被选中的两个元组数据中的所有label元素的value值均不是包含数字的量词，则无需对该两个元组数据进行数值相似度计算。因此，该两个元组数据的相似度可以是编辑距离对应的距离相似度、集合相似度、余弦相似度中的至少一者。其中，需说明的是，编辑距离可以转换为距离相似度，本领域技术人员不难理解的是，编辑距离越小，两者的相似度越大。

还需说明的是，在两个元组数据的相似度为数值相似度、编辑距离对应的距离相似度、集合相似度、余弦相似度中的一者时，本公开所述的预设阈值是指分别对应上述各相似度的预设阈值。

在另一种可能的情况下，被选中的两个元组数据中包括含有数字的量词的value值，以及包括不含量词的value值，则该两个元组数据的相似度是根据数值相似度、编辑距离对应的距离相似度、集合相似度、余弦相似度中的多者计算得到的。例如，可以是数值相似度、距离相似度、集合相似度、余弦相似度按照不同的权重进行求和以得到两个元组数据的相似度。

采用这种方法，根据两个元组数据的数值相似度、编辑距离对应的距离相似度、集合相似度、余弦相似度中的至少一者确定该两个元组数据的相似度；或者，根据两个元组数据的数值相似度、编辑距离对应的距离相似度、集合相似度、余弦相似度中的多者计算该两个元组数据的相似度。这种方式适用于含有不同类型的元素的元组数据，并可以保障得出的相似度数据的准确率。

不难理解的是，在专业领域中，会对某类实体的属性设置唯一标识。具体地，根据业务的含义，限定实体的一个或多个属性。例如，东京油气田，可以定义油气田的唯一标识为“区域”、“国家”、“油气田类型”这三种属性的组合。

针对被选中的两个实体节点中具有的相同唯一标识的属性，计算唯一标识属性的属性值的字符串相似度。其中，计算字符串相似度可以采用Edit Distance算法来计算。

针对被选中的两个实体节点中的非唯一标识的属性，分别计算两个实体的相同属性的属性值的编辑距离、集合相似度、以及余弦相似度中的至少一者。具体地，与上述针对元组数据计算编辑距离、集合相似度、以及余弦相似度的实施例相似，此处不再赘述。

在一种可能的情况下，若被选中的两个实体节点中的属性个数不一致，则对该两个被选中的实体节点分别进行文本拼接，然后计算两者的文本相似度。其中，文本相似度可以采用N-gram相似度算法，或者采用基于深度学习的Siamese LSTM算法来计算。

值得说明的是，在一种可能的情况下，即便被选中的两个实体节点中的属性个数不一致，但是，若两个实体节点的字符串相似度、编辑距离、集合相似度、以及余弦相似度都远小于对应的预设阀值，则认为该两个实体节点是在描述同一实体对象，此种情况下，也可以不计算文本相似度。

判断被选中的两个所述实体节点中相同唯一标识的属性的属性值是否为包含数字的量词；若该属性值均为包含数字的量词，则对其进行单位统一；根据单位统一之后的所述属性值，计算被选中的两个所述实体节点的该唯一标识属性的属性值的字符串相似度。

该方式的具体实施方法与上述针对元组数据中的包含数值的量词进行单位统一的实施方法相似。此处不再赘述。

在一种可能的情况下，若两个被选中的实体节点中的属性个数不相同，但是该两个实体节点的相似度小于预设阈值，则保留该两个实体节点中的相同属性和属性值以及不相同的属性及其属性值，以及两个实体的label元素及其对应的name值，从而得到一个新的实体节点。该新的实体节点包含了该两个被选中的实体节点中的所有属性。

采用这种方法，在两个被选中的实体节点中的属性个数不相同，并且两者的相似度满足预设的阀值条件，则会保留两个被选中的实体节点中的所有属性。如此，新的实体节点中包括了该两个被选中的实体节点的所有属性，使生成的知识图谱中的数据是完整的、全面的。并且将被选中的两个实体节点中的相同属性存在了一个新的实体节点中，将原来的两个被选中的实体节点删除，如此可以避免相关技术中知识图谱中的数据重复冗余的问题。

基于同一发明构思，本公开实施例还提供一种知识图谱的生成装置，参照图2，该装置200包括：

获取模块201，用于从数据源中获取得到多个结构化数据；

分组模块202，用于对所述结构化数据进行分组，得到多个数据集合，任一所述数据集合中的各结构化数据具有相同的一个或多个元素；

计算模块203，用于针对至少包含两个所述结构化数据的任一所述集合，计算该集合中的任意两个数据的相似度；

保留模块204，用于若所述相似度小于预设阈值，则在所述集合中保留所述两个被选中的结构化数据中的一个，以得到对应的新的数据集合；

执行模块205，用于针对所述新的数据集合，执行上述计算该集合中的任意两个数据的相似度，以及上述得到对应的新的数据集合的步骤，直到所述新的数据集合中的所述结构化数据之间的相似度均超过所述预设阈值时，得到目标数据集合；

构建模块206，用于根据所有所述目标数据集合中的所述结构化数据，构建所述知识图谱。

采用这种装置，通过从数据源中获取得到多个结构化数据；对所述结构化数据进行分组，得到多个数据集合，其中，任一所述数据集合中的各结构化数据具有相同的一个或多个元素，例如，使任一集合中的所有结构化数据中描述实体名称的元素均相同，如此，可以使该数据集合中的所有结构化数据均为描述同一类实体的数据，或者，可以使该数据集合中的所有结构化数据均在描述相同类的多个实体之间的关系，又或者使同一集合中的结构化均在描述同一对象的相同或不相同的属性；针对至少包含两个所述结构化数据的任一所述集合，计算该集合中的任意两个数据的相似度，而若数据集合中只含有一个结构化数据，则说明没有与该类结构化数据相同或相似的其他数据；若所述相似度小于预设阈值，则在所述集合中保留所述两个被选中的结构化数据中的一个，以得到对应的新的数据集合；并针对所述新的数据集合，执行上述计算该集合中的任意两个数据的相似度，以及上述得到对应的新的数据集合的步骤，直到所述新的数据集合中的所述结构化数据之间的相似度均超过所述预设阈值时，得到目标数据集合，如此，可以使得到的任一目标数据集合中的结构化数据均是不相同的数据；因此，采用这种装置，根据目标数据集合中的结构化数据生成知识图谱，可以使生成的知识图谱中的数据均是不相同的数据，如此可以解决相关技术中知识图谱中的数据重复冗余的问题。

可选地，所述分组模块202包括：

第二分组子模块，用于若所述结构化数据为所述不限制结构的实体节点数据，则根据所述实体节点的label元素以及其对应的name值，将所述实体节点数据分为多个实体集合，其中同一所述集合中的所述实体节点的label元素以及其对应的name值相同。

可选地，若所述结构化数据为所述预设的固定结构的元组数据，则所述计算模块203包括：

可选地，若所述结构化数据为所述不限制结构的实体节点，则所述计算模块203包括：

可选地，所述第二计算子模块包括：

可选地，所述保留模块204包括：

所述知识图谱的生成装置包括处理器和存储器，上述获取模块、分组模块、计算模块、保留模块、执行模块和构建模块等均作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序模块。内核可以设置一个或一个以上，通过调整内核参数来实现上述知识图谱的生成方法的步骤。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述知识图谱的生成方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述知识图谱的生成方法。

本发明实施例提供了一种设备，设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，以执行上述的知识图谱的生成方法。本文中的设备可以是服务器、PC、PAD、手机等。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种知识图谱的生成方法，其特征在于，所述方法包括：

从数据源中获取得到多个结构化数据；

2.根据权利要求1所述的方法，其特征在于，所述结构化数据包括预设的固定结构的元组数据，或不限制结构的实体节点；其中，所述预设的固定结构的元组数据中包括用于表征实体名称或实体属性的label元素，以及所述label元素的value值；所述不限制结构的实体节点中包括表征实体名称的label元素以及其对应的name值，以及至少一组属性及属性值。

3.根据权利要求2所述的方法，其特征在于，所述对所述结构化数据进行分组，得到多个数据集合，包括：

4.根据权利要求3所述的方法，其特征在于，若所述结构化数据为所述预设的固定结构的元组数据，则针对至少包含两个所述结构化数据的任一所述集合，计算该集合中的任意两个数据的相似度，包括：

5.根据权利要求4所述的方法，其特征在于，所述两个元组数据的相似度为所述数值相似度、所述编辑距离对应的距离相似度、所述集合相似度、所述余弦相似度中的至少一者；或者，

6.根据权利要求3所述的方法，其特征在于，若所述结构化数据为所述不限制结构的实体节点，则针对至少包含两个所述结构化数据的任一所述集合，计算该集合中的任意两个数据的相似度，包括：

7.根据权利要求6所述的方法，其特征在于，所述若所述相似度小于预设阈值，则在所述集合中保留所述两个被选中的结构化数据中的一个，以得到对应的新的数据集合，包括：

8.一种知识图谱的生成装置，其特征在于，所述装置包括：

获取模块，用于从数据源中获取得到多个结构化数据；

9.一种存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种设备，其特征在于，所述设备包括：

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1-7中任一项所述方法的步骤。