CN116108194A

CN116108194A - 基于知识图谱的搜索引擎方法、***、存储介质和电子设备

Info

Publication number: CN116108194A
Application number: CN202211478848.6A
Authority: CN
Inventors: 王懋; 李璇; 黄宏斌; 刘丽华; 李坤玮; 韩翠红; 武彦明
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-05-12

Abstract

本发明提供一种基于知识图谱的搜索引擎方法、***、存储介质和电子设备，涉及搜索引擎技术领域。本发明中，知识图谱能够用图模型来对知识进行描述和构建，通过对知识建模、关系的抽取、关系推理、存储过程，形成一组三元组网格，能够在国际军事领域上构建重大事件的知识库，通过该知识库提供实体与实体之间的复杂的语义关系，并将三元组“实体‑关系‑实体”作为知识库存储；用户在输入一段文本时，能够快速识别用户意图，提取语句中主实体和客实体及两个实体之间的关系，与已建立好的知识库做匹配，匹配度由高到底排序，将匹配度高的信息反馈给用户，弥补现有搜索引擎搜索效率不高的问题。

Description

基于知识图谱的搜索引擎方法、***、存储介质和电子设备

技术领域

本发明涉及搜索引擎技术领域，具体涉及一种基于知识图谱的搜索引擎方法、***、存储介质和电子设备。

背景技术

随着大数据技术、物联网技术、互联网技术的日新月异的快速发展，每天产生数以亿计的数据，数据量急速膨胀，数据间的关联性缺失，用户在获取信息时，常常使用信息检索的方法。

传统的搜索引擎技术通过关键词检索实现从信息集合中查找所需信息，搜索引擎通过对信息条目的全文关键词匹配从信息集合中确定出相关信息的条目，并反馈给对方，用户想要获得所需信息，需要点击多重菜单，做各种查询，同时要求用户熟悉底层的数据结构，数据缺失统一的访问渠道，极大的阻碍了数据资产价值的发现。即传统的搜索引擎技术是通过构建索引库并存储数据，用户通过关键词进行搜索，返回包含输入关键词的文档数据，搜索效率低下，搜索结果不准确，无法满足用户日益增长的搜索需求；同时在数据量巨大的情况下，传统的搜索引擎传效率低且耗时长。

针对上述现存的缺陷和不足，有必要提供一种高效准确的搜索引擎的方法。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于知识图谱的搜索引擎方法、***、存储介质和电子设备，解决了现有搜索引擎搜索效率低的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于知识图谱的搜索引擎方法，构建一个搜索***，所述搜索***包括知识体系模型、三元组抽取模型、知识库和搜索引擎；

S1、根据所述知识体系模型，完成应用领域中的实体定义、关系定义和属性定义；

S2、将预先获取的训练集作为三元组抽取模型的输入，获取三元组数据；其中，所述三元组数据包括主实体subjects、客实体objects以及实体关系predictions；

S3、将所述三元组数据存储在知识库中；

S4、根据所述搜索引擎，索引完成知识库中的实体数据到索引数据的转换；并根据输入文本，从所述索引数据中匹配关键词进行数据搜索。

优选的，所述S2中基于Bert编码器，利用半指针半标注的方式，先抽取subjects，再同时抽取objects和predictions。

优选的，SubjectModel建立流程如下：

利用Bert等编码器将输入文本编码成词向量，将词向量经过一个dense层变化成两维的向量，将得到的2维向量分别过一个sigmoid激活函数，分别代表是否是subject的起始，是否是subject的结束；最终得到若干subjects。

优选的，ObjectModel建立流程如下：

将得到的subjects过一个dense层转化成词向量维度与last_hidden_status768*1的词向量相加，最后输出每一个可能的objects标识。

优选的，所述S3中通过Cypher语句将三元组数据批量存储在Neo4j的图数据库中。

优选的，所述搜索引擎采用Solr搜索引擎。

优选的，该搜索引擎方法应用领域包括国际军事事件搜索。

一种基于知识图谱的搜索引擎***，包括知识体系模型、三元组抽取模型、知识库和搜索引擎；

所述知识体系模型，用于完成应用领域中的实体定义、关系定义和属性定义；

所述三元组抽取模型用于根据预先获取的训练集，获取三元组数据；其中，所述三元组数据包括主体subjects、客体objects以及实体关系predictions；

所述知识库，用于存储所述三元组数据；

所述搜索引擎，用于索引完成知识库中的实体数据到索引数据的转换；并根据输入文本，从所述索引数据中匹配关键词进行数据搜索。

一种存储介质，其存储有用于基于知识图谱的搜索引擎的计算机程序，其中，所述计算机程序使得计算机执行如上所述的基于知识图谱的搜索引擎方法。

一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的基于知识图谱的搜索引擎方法。

(三)有益效果

本发明提供了一种基于知识图谱的搜索引擎方法、***、存储介质和电子设备。与现有技术相比，具备以下有益效果：

本发明中，知识图谱能够用图模型来对知识进行描述和构建，通过对知识建模、关系的抽取、关系推理、存储过程，形成一组三元组网格，能够在国际军事领域上构建重大事件的知识库，通过该知识库提供实体与实体之间的复杂的语义关系，并将三元组“实体-关系-实体”作为知识库存储；用户在输入一段文本时，能够快速识别用户意图，提取语句中主实体和客实体及两个实体之间的关系，与已建立好的知识库做匹配，匹配度由高到底排序，将匹配度高的信息反馈给用户，弥补现有搜索引擎搜索效率不高的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于知识图谱的搜索引擎方法的方框图；

图2为本发明实施例提供的一种SubjectModel建立流程图；

图3为本发明实施例提供的一种ObjectModel建立流程图；

图4为本发明实施例提供的一种三元组抽取模型训练流程图；

图5为本发明实施例提供的一种基于知识图谱的图数据库存储示例图；

图6为本发明实施例提供的一种基于Neo4j的知识图谱搭建示意图；

图7为本发明实施例提供的一种数据索引及搜索流程意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于知识图谱的搜索引擎方法，解决了现有搜索引擎搜索效率低的技术问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例中，知识图谱能够用图模型来对知识进行描述和构建，通过对知识建模、关系的抽取、关系推理、存储过程，形成一组三元组网格，能够在国际军事领域上构建重大事件的知识库，通过该知识库提供实体与实体之间的复杂的语义关系，并将三元组“实体-关系-实体”作为知识库存储；用户在输入一段文本时，能够快速识别用户意图，提取语句中主实体和客实体及两个实体之间的关系，与已建立好的知识库做匹配，匹配度由高到底排序，将匹配度高的信息反馈给用户，弥补现有搜索引擎搜索效率不高的问题。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例：

如图1所示，本发明实施例提供了一种基于知识图谱的搜索引擎方法，构建一个搜索***，所述搜索***包括知识体系模型、三元组抽取模型、知识库和搜索引擎；

S3、将所述三元组数据存储在知识库中；

通过上述提供的技术方案，用户在输入一段文本时，能够快速识别用户意图，提取语句中主实体和客实体及两个实体之间的关系，与已建立好的知识库做匹配，匹配度由高到底排序，将匹配度高的信息反馈给用户，弥补现有搜索引擎搜索效率不高的问题。

接下来将详细介绍上述技术方案的各个步骤：

在步骤S1中，根据所述知识体系模型，完成应用领域中的实体定义、关系定义和属性定义。

本发明实施例采用手工建模的方式构建所述知识体系模型，明确领域本体及任务、模型复用、列出本体涉及领域中的元素、明确分类体系、定义属性及关系、定义约束条件。

例如，将本发明实施例提供的搜索引擎方法应用在为国际军事事件搜索领域中。相应的，其实体为各国重要人物和各国主要机构及其之间的关系。

在步骤S2中，将预先获取的训练集作为三元组抽取模型的输入，获取三元组数据；其中，所述三元组数据包括主实体subjects、客实体objects以及实体关系predictions

示例的，所述预先获取的训练集的数据来源是互联网爬虫所得。并且三元组抽取模型训练采用的是基于Bert编码器，利用半指针半标注的方式，先抽取subjects，再同时抽取objects和predictions。其中：

如图2所示，SubjectModel建立流程如下：

如图3所示，ObjectModel建立流程如下：

如图4所示，把事先准备好的数据集输入模型中进行训练，得到三元组抽取模型。

此外，解码过程包括：

对于验证集，先输入input_ids，attention_mask得到subject_output，设定两个阈值(比如0.5，0.6)决定subject的起始和结尾，进而得到subject。再将subject_output，input_ids,attention_mask再导入objectModel得到obejct_output，同理设定两个阈值(比如0.2，0.3)得到objects和predicate。

在步骤S3中，将所述三元组数据存储在知识库中。

本步骤将在网络上爬虫的军事事件领域原始数据输入至由步骤S2训练的三元组模型中，得到三元组数据，通过Cypher语句将三元组数据批量存储在Neo4j的图数据库中，存储形式如图5所示。

其中，图数据库存储，一般将原始数据类型分为三种，一是结构化数据，二是非结构化数据，比如图片、音频和视频；三是半结构化数据，比如xml、json等，把这些原始数据进行三元组信息抽取存储在图数据库中

作为主题域知识库，对于知识库的更新采用知识图谱引擎进行更新，并对实体知识库创建索引库，共上层应用使用。其技术架构如图6所示。

通过三元组抽取模型输出的实体信息以及语义关系通过Neo4j提供的数据存储框架进行存储。数据及关系的新增、删除和修改通过Python算法进行维护。

在步骤S4中，根据所述搜索引擎，索引完成知识库中的实体数据到索引数据的转换；并根据输入文本，从所述索引数据中匹配关键词进行数据搜索。

本步骤中搜索引擎采用的是Solr搜索引擎，实现分为两部分，第一部分实现数据导入，索引完成实体数据到索引数据的转换；第二部分实现数据搜索，通过从索引文件中匹配关键词进行数据搜索。搜索引擎流程如图7所示。

本发明实施例提供了一种基于知识图谱的搜索引擎***，包括知识体系模型、三元组抽取模型、知识库和搜索引擎；

所述知识库，用于存储所述三元组数据；

本发明实施例提供了一种存储介质，其存储有用于基于知识图谱的搜索引擎的计算机程序，其中，所述计算机程序使得计算机执行如上所述的基于知识图谱的搜索引擎方法。

本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储器；以及

可理解的是，本发明实施例提供的基于知识图谱的搜索引擎***、存储介质和电子设备与本发明实施例提供的基于知识图谱的搜索引擎方法相对应，其有关内容的解释、举例和有益效果等部分可以参考基于知识图谱的搜索引擎方法中的相应部分，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于知识图谱的搜索引擎方法，其特征在于，构建一个搜索***，所述搜索***包括知识体系模型、三元组抽取模型、知识库和搜索引擎；

S3、将所述三元组数据存储在知识库中；

2.如权利要求1所述的基于知识图谱的搜索引擎方法，其特征在于，所述S2中基于Bert编码器，利用半指针半标注的方式，先抽取subjects，再同时抽取objects和predictions。

3.如权利要求2所述的基于知识图谱的搜索引擎方法，其特征在于，SubjectModel建立流程如下：

4.如权利要求3所述的基于知识图谱的搜索引擎方法，其特征在于，ObjectModel建立流程如下：

5.如权利要求1所述的基于知识图谱的搜索引擎方法，其特征在于，所述S3中通过Cypher语句将三元组数据批量存储在Neo4j的图数据库中。

6.如权利要求1所述的基于知识图谱的搜索引擎方法，其特征在于，所述搜索引擎采用Solr搜索引擎。

7.如权利要求1～6任一项所述的基于知识图谱的搜索引擎方法，其特征在于，该搜索引擎方法应用领域包括国际军事事件搜索。

8.一种基于知识图谱的搜索引擎***，其特征在于，包括知识体系模型、三元组抽取模型、知识库和搜索引擎；

所述知识库，用于存储所述三元组数据；

9.一种存储介质，其特征在于，其存储有用于基于知识图谱的搜索引擎的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1～7任一项所述的基于知识图谱的搜索引擎方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1～7任一项所述的基于知识图谱的搜索引擎方法。