CN113127645B

CN113127645B - 大规模知识图谱本体自动抽取方法、终端设备及存储介质

Info

Publication number: CN113127645B
Application number: CN202110380611.3A
Authority: CN
Inventors: 洪万福; 张林娜
Original assignee: Xiamen Yuanting Information Technology Co ltd
Current assignee: Xiamen Yuanting Information Technology Co ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2022-09-13
Anticipated expiration: 2041-04-09
Also published as: CN113127645A

Abstract

本发明涉及大规模知识图谱本体自动抽取方法、终端设备及存储介质，该方法中包括：S1：从知识图谱中获取实体；S2：采用规则匹配算法对提取的实体进行初步分类；S3：采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别，并确认识别到的命名实体的类型；S4：针对步骤S3中命名实体识别后的剩余实体，采用聚类算法进行分类；S5：将步骤S2、S3和S4的分类结果进行合并与调整，得到最终的分类结果。本发明创新性地融合多种技术手段，有效的实现了工业界大规模知识图谱的本体自动抽取工作，在无任何人工标注数据的情况下，仍可实现对复杂、量级大、脏数据多的知识图谱进行实体的本体抽取。

Description

大规模知识图谱本体自动抽取方法、终端设备及存储介质

技术领域

本发明涉及知识图谱领域，尤其涉及一种大规模知识图谱本体自动抽取方法、终端设备及存储介质。

背景技术

知识图谱(Knowledge Graph)的概念由谷歌2012年正式提出，旨在实现更智能的搜索引擎，并且于2013年以后开始在学术界和业界普及。目前，随着智能信息服务应用的不断发展，知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、情报分析、反欺诈等领域。

知识图谱有自顶向下和自底向上两种构建方式。所述自顶向下构建为：先定义好本体，再将实体加入到知识库中；所述自底向上构建，则是借助一定的技术手段，从公开采集的数据中提取出实体，选择其中置信度较高的，加入到知识库中。目前，主流方式是采用自底向上构建的方式，这就需要在图谱构建后进行本体的抽取构建工作。本体构建方法按照人工介入的程度，可分为手动构建、半自动构建、自动构建，但目前尚未有成熟的技术体系。

发明内容

为了解决上述问题，本发明提出了一种大规模知识图谱本体自动抽取方法、终端设备及存储介质。

具体方案如下：

一种大规模知识图谱本体自动抽取方法，包括以下步骤：

S1：从知识图谱中获取实体；

S2：采用规则匹配算法对提取的实体进行初步分类；

S3：采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别，并确认识别到的命名实体的类型；

S4：针对步骤S3中命名实体识别后的剩余实体，采用聚类算法进行分类；

S5：将步骤S2、S3和S4的分类结果进行合并与调整，得到最终的分类结果。

进一步的，步骤S1还包括对获取的实体进行预处理，预处理包括标点符号清洗、异常长度实体过滤和大写字母转换为小写字母。

进一步的，步骤S4聚类算法采用Kmeans聚类算法。

进一步的，步骤S4采用聚类算法进行分类的具体过程如下：

S401：针对每个待分类实体，从知识图谱中提取其属性、标签和关系中的一种或多种后，与实体名称进行拼接，使用自然语言处理词向量技术，获取拼接后的字符串中的每个字的向量表示，将所有字的向量表示的平均值作为待分类实体的词向量；

S402：将待分类实体的词向量，输入到Kmeans模型中，使用手肘法确认聚类个数k；

S403：将待分类实体的词向量表示与聚类个数k同时输入到Kmeans模型中，得到聚类结果。

进一步的，步骤S401中采用的自然语言处理词向量技术为在102种语言的语料上进行训练的bert-base-multilingual-uncased模型。

进一步的，如果最终的分类结果中某种类别的实体数量大于预设的数量阈值，则对该种类别的实体重新执行步骤S2～S5进行进一步分类。

一种大规模知识图谱本体自动抽取终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，并具有以下有益效果：

1.适用性强：不同领域的知识图谱都可以使用本发明。

2.效果好：创新地进行多技术手段融合，保证了本体抽取的效果；使用规则匹配，进行初步分类，分类质量高；接着使用命名实体识别模型，可选地使用开源命名实体识别模型或自训练命名实体识别模型，无论是开源命名实体识别模型还是自训练命名实体识别模型，都基于大规模带标注的文本语料训练生成，具有很好的文本识别分类效果；创新地使用实体名称拼接实体属性、标签、关系，使用自然语言处理词向量技术获得文本向量表示，比单一使用实体名称提取到更多的特征，大大提升了后续Kmeans模型的学习效果。

3.速度快：其一，使用规则匹配分类和命名实体识别模型识别分类，处理速度快。其二由于先行使用规则匹配分类和命名实体识别模型识别分类，减少了待分类样本数，从而大大减少了后续转换词向量的时间和Kmeans模型训练、预测的时间。

4.实施快：命名实体识别模型和自然语言处理词向量模型均可选，可以使用开源模型，初版项目实施快，可快速看到效果。

5.扩展性强：根据预期可循环迭代操作，结果具有极强的扩展性。

附图说明

图1所示为本发明实施例一的流程图。

图2所示为该实施例中折线图的示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种大规模知识图谱本体自动抽取方法，如图1所示，其为本发明实施例所述的大规模知识图谱本体自动抽取方法的流程图，所述方法包括以下步骤：

S1：从知识图谱中获取实体。

该实施例中使用cypher查询语句，从知识图谱中获得40W实体。

进一步的，由于获取的实体格式不统一，且有一些无用数据，因此还需要对其进行预处理，该实施例中预处理包括标点符号清洗、异常长度实体过滤和大写字母转换为小写字母等，在其他实施例中也可以采用其他处理方式，在此不做限制。

S2：采用规则匹配算法对提取的实体进行初步分类。

该实施例中采用了以下规则：

a.以“舰”、“艇”、“炮”、“雷达”、“坦克”等为结尾的实体，类别为“装备”；

b.以“军”、“旅”、“团”、“师”、“战区”等为结尾的实体，类别为“组织”。

上述仅为该实施例中采用的示例规则，在其他实施例中本领域技术人员可以根据需求设定其他规则，在此不做限制。

经过本步骤，可以完成部分实体的分类，且分类的质量很高。

S3：采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别，并确认识别到的命名实体的类型。

命名实体识别模型可以为开源模型，如Hanlp、Ltp等，也可以为自训练模型。其中开源的Hanlp或Ltp可以识别的类别有：人名、地名、机构名等。自训练命名实体识别模型可识别的类别，为在训练命名实体识别模型的时候自定义。命名实体识别模型的训练不在本发明的保护范围之内，在此不再赘述。在本实施例中，使用的是自训练的命名实体识别模型，将步骤S2的未分类的实体输入到命名实体识别模型中，部分实体被识别并得到分类结果。如：“德怀特艾森豪威尔”输入到命名实体识别模型，识别分类为“人物”。

S4：针对步骤S3中命名实体识别后的剩余实体，采用聚类算法进行分类。

该实施例中采用Kmeans聚类算法进行分类，具体分类过程如下：

S401：针对每个待分类实体，从知识图谱中提取其属性、标签和关系中的一种或多种后，与实体名称进行拼接，使用自然语言处理词向量技术，获取拼接后的字符串中的每个字的向量表示，将所有字的向量表示的平均值作为待分类实体的词向量。

自然语言处理词向量技术有Bert(Bidirectional Encoder Representationsfrom Transformers)，Fasttext，Word2vec等。

由于知识图谱中可能含有外文实体，因此该实施例中优选采用在102种语言的语料上进行训练的bert-base-multilingual-uncased模型来获取拼接字符串中每个字的向量表示。

S402：将待分类实体的词向量，输入到Kmeans模型中，使用手肘法确认聚类个数k。

手肘法的具体过程为：k值预设一个起止范围与间隔数，将待分类实体的词向量输入到Kmeans模型后，将不同k值下的SSE保存起来，绘制折线图，取折线图中的拐点作为最后的聚类个数k。

在本实施例中，k值的起始与终止数值设为2与20，间隔2，绘制的折线图如图2所示，折线图中拐点为4，则聚类个数k值为4。

该实施例中，得到的聚类结果为：“装备”、“组织”、“文献”、“地点”、“人物”。

该实施例中，本轮最终分类结果为：“装备”、“组织”、“人物”、“地点”、“文献”。

进一步的，如果最终的分类结果中某种类别的实体数量大于预设的数量阈值时，若希望本体类别区分的更细，则可以对该种类别的实体重新执行步骤S2～S5进行进一步分类。

该实施例中，属于装备类别的实体数量为15W，属于组织类别的实体数量为4W，属于人物类别的实体数量为7W，属于地点类别的实体数量为6W，属于文献类别的实体数量为8W。装备类别数量大于数量阈值，因此需要进一步细分。

对属于装备类别的15W实体，实施步骤S4的Kmeans聚类算法进行分类，聚类分类结果为“陆上装备”，“水上装备”，“空中装备”。对分类结果进行合并与调整，本轮最终分类结果为：“陆上装备”(实体数量7W)、“水上装备”(实体数量4W)、“空中装备”(实体数量4W)、“组织”(实体数量4W)，“人物”(实体数量7W)、“地点”(实体数量6W)、“文献”(实体数量8W)。进一步的分类后的数量小于数量阈值，因此满足工程项目需求，无需进一步细分，本体抽取结束。

数量阈值本领域技术人员可以根据实际需求进行设定，在此不做限制。

本发明实施例一创新性地融合使用了规则匹配、命名实体识别、自然语言处理词向量技术、Kmeans聚类多种技术手段，有效的实现了工业界大规模知识图谱的本体自动抽取工作，在无任何人工标注数据的情况下，仍可实现对复杂、量级大、脏数据多的知识图谱进行实体的本体抽取；若有部分实体标注数据，则本发明可以起到更好的效果。

单独使用实体名称，其蕴含的特征不足，Kmeans学习的过于简单，容易欠拟合。知识图谱的实体节点不仅有实体名称，一般还有实体属性、实体标签、实体关系。本实施例创新性地将实体属性、实体标签、实体关系从图谱中提取出来，与实体名称进行字符串拼接，有利于Kmeans学习到实体更丰富的特征。

实施例二：

本发明还提供一种大规模知识图谱本体自动抽取终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述大规模知识图谱本体自动抽取终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述大规模知识图谱本体自动抽取终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述大规模知识图谱本体自动抽取终端设备的组成结构仅仅是大规模知识图谱本体自动抽取终端设备的示例，并不构成对大规模知识图谱本体自动抽取终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述大规模知识图谱本体自动抽取终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述大规模知识图谱本体自动抽取终端设备的控制中心，利用各种接口和线路连接整个大规模知识图谱本体自动抽取终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述大规模知识图谱本体自动抽取终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述大规模知识图谱本体自动抽取终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种大规模知识图谱本体自动抽取方法，其特征在于，包括以下步骤：

S1：从知识图谱中获取实体；

S2：采用规则匹配算法对提取的实体进行初步分类；

S3：采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别，并确认识别到的命名实体的类型；所述类型包括：人名、地名或机构名；

S4：针对步骤S3中命名实体识别后的剩余实体，采用聚类算法进行分类；聚类算法采用Kmeans聚类算法；采用聚类算法进行分类的具体过程如下：

S403：将待分类实体的词向量表示与聚类个数k同时输入到Kmeans模型中，得到聚类结果；

2.根据权利要求1所述的大规模知识图谱本体自动抽取方法，其特征在于：步骤S1还包括对获取的实体进行预处理，预处理包括标点符号清洗、异常长度实体过滤和大写字母转换为小写字母。

3.根据权利要求1所述的大规模知识图谱本体自动抽取方法，其特征在于：步骤S401中采用的自然语言处理词向量技术为在102种语言的语料上进行训练的bert-base-multilingual-uncased 模型。

4.根据权利要求1所述的大规模知识图谱本体自动抽取方法，其特征在于：如果最终的分类结果中某种类别的实体数量大于预设的数量阈值，则对该种类别的实体重新执行步骤S2~S5进行进一步分类。

5.一种大规模知识图谱本体自动抽取终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1~4中任一所述方法的步骤。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1~4中任一所述方法的步骤。