CN117371534B

CN117371534B - 一种基于bert的知识图谱构建方法及***

Info

Publication number: CN117371534B
Application number: CN202311669625.2A
Authority: CN
Inventors: 雷雨寒; 朱雅都; 张迪勇; 黄尚强; 郑佳勇; 方卫洪; 魏明欣; 席力凡; 陈曦; 范红霞; 李丹
Original assignee: Same Side Seville Information Technology Co ltd
Current assignee: Same Side Seville Information Technology Co ltd
Priority date: 2023-12-07
Filing date: 2023-12-07
Publication date: 2024-02-27
Anticipated expiration: 2043-12-07
Also published as: CN117371534A

Abstract

本发明公开了一种基于BERT的知识图谱构建方法及***，所述方法包括以下步骤：S1.从非结构化文本数据中进行实体的定位与抽取，完成实体识别；S2.根据文本内容抽取实体间的关系；S3.定位实体名称及其代词，并把同一实体的指代聚类到一起，将同一实体的多个关系连接到一个实体节点上，完成指代消解；S4.计算实体指称与实体的相似度，将实体指称与知识图谱中的实体对应起来；S5.预测并补全知识图谱中缺失的三元组，并利用得到的三元组构建知识图谱。本发明有助于提高知识图谱的构建质量以及知识图谱的完整度。

Description

一种基于BERT的知识图谱构建方法及***

技术领域

本发明涉及知识抽取、知识融合、知识图谱补全，特别是涉及一种基于BERT的知识图谱构建方法及***。

背景技术

知识抽取、知识融合、知识图谱补全是用于利用非结构化数据构建知识图谱的关键步骤，这些步骤常常需要用到自然语言处理。近年来，经过大量数据训练、拥有巨大参数量的大模型在自然语言处理等领域取得了显著的成果。利用非结构化文本数据构建知识图谱是一项极具挑战性的任务，将大模型与知识图谱构建相结合，能够提升知识图谱的构建质量。利用非结构化文本数据构建知识图谱的过程中，知识抽取部分需要精准地识别并提取出文本中的目标实体以及实体与实体之间可能的关系，然而由于中文句式多变，同一种事物往往有着多种不同的说法，且一些句子包含的信息不仅仅局限于其表面语义。一些传统的抽取手段（如基于规则的提取方法）已不能够很有效地提取出目标实体及关系。而自然语言处理领域的大模型，在经过大量数据的预训练并经过下游任务的微调后，能够精确地提取并表示词句的特征，其知识抽取的准确率和召回率远超其他手段；在知识融合过程中，常常包含指代消解以及实体消歧两种主要技术手段。指代消解是指将实体的代词与实体本身联系起来的技术，实现这项技术有两大难点：如何定位代词以及如何将代词指向正确的实体。代词及其指称常常有相近的特征，通过大模型得到句子的特征表示，可以准确地定位代词并将它与原本实体联系起来，简单来说就是将“你”、“我”、“他”这类代词与它们的本体关联到一起，例如“小明说：长大后我要当太空人”这句话中，指代消解的目的就是将“我”这个代词与“小明”联系到依次。；实体消歧是指同一实体的指称实际上可能代表不同的实体，如“小米”可以指一种食物，也可以指一家手机公司，而两者的区别就在与它们所处于的上下文语境往往不同，食物的“小米”一般和餐饮相关的词出现在一起，而另一个则常常出现在科技、电子设备相关的语境中。通过大模型我们能很好地得到它们所在句子的特征表示，通过计算它们上下文的相似度，以达到区分两者的目的；在知识图谱补全过程中，需要依据现有的实体关系，预测知识图谱中不存在的实体关系，如“A是B的爸爸，他的妻子叫C”，通过之前的知识抽取过程，我们能够从上述句子中提取出两个关系对（A，B，父子），（他，C，夫妻），通过知识融合过程，我们可以得到“他”指代的是A，最终得到两个关系对（A，B，父子），（A，C，夫妻），但句中还有个隐含的关系对（B，C，母子）。将关系三元组拼接成文本序列，作为训练数据对大模型进行微调，用于预测新的三元组的合理性。基于词语上下文的特征表示，进行知识图谱补全。相较于传统的基于空间的知识表示方法（如TransE，RotatE等），能够包含更多的语义信息，能更好地区分空间表示上相似的实体。

对于传统基于特征的词嵌入生成方法而言，Word2Vec和GloVe只能将句子转化成词语间相对独立的表示向量，词语的表示无法包含上下文信息，难以处理一词多义的情况；后续的ELMo模型虽然能编码一定的上下文信息，但其表现受限于LSTM的特征提取能力以及其双向拼接的策略。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于BERT的知识图谱构建方法及***，有助于提高知识图谱的构建质量以及知识图谱的完整度。

本发明的目的是通过以下技术方案来实现的：一种基于BERT的知识图谱构建方法，包括以下步骤：

S1.从非结构化文本数据中进行实体E的定位与抽取，完成实体识别；

所述步骤S1包括：

S101.对实体E进行建模：给定需要采集的实体种类，并设置每一个实体种类需要采集的属性；（如以人作为实体时，可将姓名、性别等信息设置为需要采集的相关属性）

S102.针对实体种类准备对应的数据集，每一条训练数据中应包含源文本、该文本包含的实体及实体在源文本中的位置，每一条训练数据中，源文本作为训练样本，对应的实体及实体在源文本中的位置作为样本标签；

构建实体识别模型：所述实体识别模型包括由BERT模型和神经网络NER，所述BERT模型的输入即为实体识别模型的输入，BERT模型的输出作为神经网络NER的输入，神经网络NER的输出作为实体识别模型的输出；

利用数据集对实体识别模型进行训练，将训练完成的模型参数进行保存，在对文本进行实体识别时，直接加载该模型参数；

在本申请的实施例中，在任意数据输入BERT模型时，还可以利用tokenizer将输入文本转换成编码。tokenizer为分词器，[CLS]为tokenizer输入的起始符。[SEP]为tokenizer输入的分隔符/终止符，步骤S2~S5中同理。

S103.输入需要进行实体识别的文本，通过判断长度是否超过预先设置好的最大长度L来确定是否需要对文本进行截断，如果超过则进行步骤S104，否则直接将文本内容作为实际进行实体识别的文本片段，进入步骤S105；

S104.对文本进行截断，首先按照预先设置好的最大长度L从文本开头对文本进行初步截断，再从初步截断得到的文本结果末尾向前开始寻找第一个语义终止符号，将该符号出现的位置作为二次截断的实际位置Pos，以保证一次截断过程中句子语义的完整性；文本经过如两次截断处理，长度不超过最大长度L，且在语义上的完整性，将完成截断的文本作为实际进行实体识别的文本片段，并记录当前截断文本在原始文本中的起始位置offset，进入步骤S105；

S105.将实际进行实体识别的文本片段，输入实体识别模型中，得到实体识别结果，识别结果中包含不同类型的实体以及它们在当前截断文本中的位置pos；根据当前截断文本在原始文本中的起始位置offset，计算得到实体在文本中的实际位置为pos+offset；

S106.去除从Pos位置开始向前的所有文本，将剩余文本作为输入，返回步骤S103，直到源文本中的所有实体识别结束，收集所有截断文本的实体识别结果，合并成完整的实体识别结果。

S2.根据文本内容抽取实体间的关系R，并利用关系抽取结果完成知识图谱的初步构建；

S201.预先设置的需要抽取的关系R，其中R表示为{h, r, t}，h表示头实体类型，r表示关系类型，t表示尾实体类型,然后并为每一个需要抽取的关系进行编号，得到表征关系与编号一一映射关系的列表L_R，表示为[R₁, R₂, R₃, ......]

S202.根据预先设置好的抽取关系，准备对应的数据集,其中每一条训练数据应包含头实体，尾实体，源文本和表征关系类型的一维向量;

每一条训练数据中，源文本、头实体和尾实体作为训练样本，标签为表征关系类型的一维向量，该一维向量中每个维度所对应的值即：该训练数据中头实体尾实体关系与预设关系列表L_R中各个序号关系的相似度；

构建关系抽取模型：所述关系抽取模型包括由BERT模型和神经网络NRE，所述BERT模型的输入即为关系抽取模型的输入，BERT模型的输出作为神经网络NRE的输入，神经网络NRE的输出作为关系抽取模型的输出；

利用数据集对关系抽取模型进行训练，将训练完成的模型参数进行保存，在对关系进行抽取时，直接加载该模型参数；

S203.从输入文本开头开始，按照语义终止符将输入文本分割成一个个完整的句子得到句子列表，并确定好每个句子在输入文本中的起始位置和结束位置；

依次选取每个句子作为进行关系抽取的句子，再将实体识别的结果按照实体出现在源文本中的位置从小到大顺序排列，排除掉出现位置小于文本起始位置或大于文本结束位置的实体，从剩余实体中任意选两个实体a、b；

S204.依据实体识别结果中a和b的实体类型，对照关系R的头实体类型h和尾实体类型t；确定候选关系R，再取得所有R在关系列表L_R中对应的下标作为序号，得到候选关系序号列表L；

S205.将两个实体a、b的名称和所在的句子T拼接，得到“[CLS]a[SEP]b[SEP]T[SEP]”；

S206.将“[CLS]a[SEP]b[SEP]T[SEP]”输入关系抽取模型中，得到一个一维向量，取向量中对应候选关系序号列表L所对应的所有值，取其中的最大值，判断其是否超过设定阈值lim，如果大于该阈值，则说明该关系就是两个实体a、b间的关系，直接输出该关系；如果相似度小于该阈值，则输出a、b间关系为未知关系；如果输出关系r非未知关系，则将{a,r, b}记录到关系抽取结果中；

S207.返回步骤S203，直到输入文本的所有句子包含的实体已完成关系抽取，然后执行S208；

S208.对关系抽取结果中的每一条数据{a, r, b}，以a，b为实体节点，r为边，对知识图谱进行初步的构建，得到G₀。

S3.定位实体指称M及实体代词P，并把同一实体的指代（M/P）聚类到一起，将同一实体E的多个关系连接到知识图谱中的一个实体节点N_E上，完成指代消解；

S301.准备指代消解数据集，其中每一条数据应包含源文本以及文本中的实体指代聚类结果；聚类结果中包含多个聚类，格式为[[Pos₁₁, Pos₁₂, Pos₁₃, ...... ], [Pos₂₁,Pos₂₂, Pos₂₃, ......], [Pos₃₁, Pos₃₂, Pos₃₃, ......], ......]；

构建指代消解模型：所述指代消解模型包括由BERT模型和神经网络CR，所述BERT模型的输入即为指代消解模型的输入，BERT模型的输出作为神经网络CR的输入，神经网络CR的输出作为指代消解模型的输出；

利用数据集对指代消解模型进行训练，将训练完成的模型参数进行保存，在进行指代消解时，直接加载该模型参数；

S302.通过判断输入文本长度是否超过预先设定的最大文本长度来确定文本是否需要截断，如果需要截断则执行步骤S303，否则将输入文本作为处理目标，执行步骤S304；

S303.对输入文本进行截断，如果为初次截断，直接以文本开头作为向前截取的起始位置P_s；如果非初次截断，则从上一次的指代消解结果R中，从每一行实体的指代词列表中选取起始位置序号最大的，将第i行中的选取结果记为Pos_i,max，得到[Pos_1,max, Pos_2,max,Pos_3,max, .......],记为Lmax，再从L_max里选取最小的作为当前截断文本起始位置P_s，保证新的一次截断结果中能够包含上一次消解结果中的所有实体；从该起始位置开始截取定长文本，再从该文本末尾向前开始寻找第一个终止符号，将该符号出现的位置作为文本截断的终止位置P_e，以保证一次截断过程中句子语义的完整性；截取源文本中位置P_s到位置P_e的文本片段T，以T作为处理目标，执行步骤S304；

S304.将处理目标输入指代消解模型中，得到一个二维列表，每一行代表属于同一个实体的指代词列表，即聚类结果，格式为[[Pos₁₁, Pos₁₂, Pos₁₃, ......], [Pos₂₁,Pos₂₂, Pos₂₃, ......], [Pos₃₁, Pos₃₂, Pos₃₃, ......], ......]，记为指代消解结果R;

S305.将截断后剩余的文本作为输入，返回步骤S302，直到剩余文本为空，合并所有文本片段T的指代消解结果R，去除其中位置重复的指代词；

S306.结合指代消解结果R，将步骤S2中构建的知识图谱G₀中属于同一聚类的顶点合并，得到知识图谱G₁。

S4.计算实体指称M与实体E的相似度，将实体指称M与知识图谱中的实体对应起来；

S401.建立一个空的实体字典作为知识库KB，以实体E的名称为键，实体语境为值，所述实体语境用实体名称所出现的句子表示；

S402.准备句子相似度数据集，其中每一条数据应该含两个句子及它们的相似度，将每一条数据中的两个句子作为样本，将相似度作为样本标签；

构建相似度识别模型：所述相似度识别模型包括由BERT模型和神经网络NED，所述BERT模型的输入即为相似度识别模型的输入，BERT模型的输出作为神经网络NED的输入，神经网络NED的输出作为相似度识别模型的输出；

利用相似度数据集对相似度识别进行训练，将训练完成的模型参数进行保存，在进行相似度识别时，直接加载该模型参数；

S403.对于实体识别结果中的实体指称M，判断当前实体字典中是否包含相同名称的实体键值,如果不包含，则执行步骤S404，否则执行步骤S405；

S404.将该实体指称M作为新的实体E加入知识库KB中作为键，用该实体指称M所处的句子即该实体出现的“语境”作为对应的值；

S405.依次取实体字典中所有与当前实体指称M相同的实体名称E键值，将M所在的上下文T_M与实体字典中实体名称E所对应的上下文T_E进行拼接，得到“[CLS]T_M[SEP]T_E[SEP]”，进入步骤S406；

S406.将[CLS]T_M[SEP]T_E[SEP]输入相似度识别模型中，得到两段上下文T_M和T_E的相似度，如果相似度超过设定阈值，则将实体字典中的实体名称E加入候选实体名称列表L；取候选实体名称列表L中相似度最高的实体名称E₀作为消歧结果，并将当前实体指称M所对应的实体语境T_M合并到E₀的实体语境T_E0中；

若L中所有的实体名称对应的实体语境与当前实体名称对应的实体语境相似度均不满足要求，则在当前实体指称后加上“_x”后作为新的实体E_x加入知识库KB，其中x代表当前实体E是第x个具有该相同名称的不同实体；

S407.结合步骤S3中构建得到的知识图谱G₁以及知识库KB，将G₁中名称为当前指称M的节点替换成其在知识库中对应的实体E的名称，得到知识图谱G₂。

S5.预测并补全知识图谱中缺失的三元组，并利用得到的三元组构建知识图谱；根据预测对象的不同，分为头实体预测，尾实体预测，关系预测。

S501.取步骤S4中构建的知识图谱G₂，对G₂中的每一条边，取它所链接的两个实体，与它本身组成三元组，所述三元组包括头实体、关系和尾实体，格式为{h, r, t}，取G₂所有边的三元组构成现有关系三元组列表L；

S502.对现有关系三元组列表L中的三元组，将三元组的头实体、关系、尾实体按顺序拼接，得到“[CLS]h[SEP]r[SEP]t[SEP]”，作为训练样本，并标记其合理性为1，作为样本标签，从而得到训练数据，关系三元组列表L中所有三元组对应的训练数据构成了合理性数据集，并在训练过程中进行随机负采样作为不合理样本进行训练。

构建用于合理性神经网络模型：包括由BERT模型和神经网络KC，所述BERT模型的输入即为的合理性神经网络模型输入，BERT模型的输出作为神经网络KC的输入，神经网络KC的输出作为合理性神经网络模型的输出；

利用合理性数据集对合理性神经网络模型进行训练，将训练完成的模型参数进行保存，在进行合理性判断时，直接加载该模型参数；

S503.依次选择实体识别结果中的两个实体作为头实体h、尾实体t，根据实体类型，确定候选关系列表后，选择其中一个关系r，进入步骤S504，如果候选关系列表为空，则重新执行步骤S503；

S504.判断当前三元组（h，r，t）是否包含在现有三元组列表中,如果不包含，则将其作为输入，执行步骤S505；如果包含，则舍弃该三元组，执行步骤S503；

S505.将头实体h、关系r、尾实体t按顺序拼接，最终得到“[CLS]h[SEP]r[SEP]t[SEP]”；

S506.将[CLS]h[SEP]r[SEP]t[SEP]输入训练好的合理性神经网络模型进行处理，输出值即是该三元组的合理性,如果合理，则执行步骤S507，否则舍弃该三元组；

S507.将三元组添加到知识图谱现有三元组列表中；

S508.完成所有三元组的合理性计算后，利用现有三元组对步骤S4中得到知识图谱G₂进行补全，即补充知识图谱中缺失的边，得到最终构建出来的知识图谱G。

一种基于BERT的知识图谱构建***，包括：

实体识别模块，用于从非结构化文本数据中进行实体的定位与抽取，完成实体识别，为关系抽取模块提供实体来源；实体识别的类型可增量微调，并具备一定的zero-shot能力。

关系抽取模块，用于抽取实体间的关系，即根据输入文本内容以及输入的两个目标实体，预测目标实体间的关系；

指代消解模块，用于定位实体名称及其代词，并把同一实体的指代聚类到一起，以将同一实体的多个关系连接到一个实体节点上；

实体消歧模块，用于计算实体指称与实体的相似度，将实体指称与知识图谱中的实体对应起来；

知识图谱补全模块，用于预测并补全知识图谱中缺失的三元组，根据预测对象的不同，分为头实体预测，尾实体预测，关系预测。

本发明的有益效果是：（1）本发明利用了大模型进行各知识图谱构建过程中的自然语言处理工具，相较于传统模型具有较高的准确率的优势。

（2）本发明提供了一种利用实体上下文作为实体语境替代实体描述文本的实体消歧方法，该方法完全不依赖外部知识库，支持从零开始自动构建知识库，适用于没有外部知识库能够用于实体消歧的情况。

（3）本发明提出了一种利用实体识别结果中的实体类型，确定候选关系组成候选三元组，再利用BERT模型计算三元组的合理性，进而补全知识图谱的方法。该方法相较于其他方法能编码更多的语义信息，且由于实体关系类型的约束，拥有较高的准确率。

（4）本发明将知识图谱构建的所有任务整合到同一BERT基础模型上，不同方法的区别在于对输入文本数据的处理以及BERT模型处理得到的特征向量的加工上，无需同时加载多BERT基本模型即可执行多种任务，降低了性能需求。

附图说明

图1为本发明知识图谱构建的总流程图；

图2为本发明的实体识别流程图；

图3为本发明的关系抽取流程图；

图4为本发明的指代消解流程图；

图5为本发明的实体消歧流程图；

图6为本发明的知识图谱补全流程图；

图7为本发明的***架构图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于BERT的知识图谱构建方法，包括以下步骤：

S1.从非结构化文本数据中进行实体的定位与抽取，完成实体识别，具体过程如图2所示：

对于一条输入文本，需要先判断其是否超过实体识别限制的最大文本长度，如果超出了最大长度，则需要将文本截断。（为保证语义完整性，根据长度截断文本后，还需从后往前寻找“。”等语义终止符，以该位置作为最终的截断位置对文本进行截断。）将满足要求的文本输入tokenizer进行编码，再将编码结果输入到BERT模型中进行处理，得到特征向量，通过神经网络NER处理特征向量得到目标实体的位置，最终按照位置抽取实体即可得到实体识别结果。如果前面发生文本截断，则需要所有剩余文本都完成上述处理最后再将实体识别结果合并，才是对一整段文本进行实体识别得到的实体识别结果。

使用transformer的BERT模型能够更好地提取上下文中的语义模式，进而能更好地将文本编码成特征向量。BERT（Bidirectional Encoder Representations fromTransformers）模型是一种语言表示模型，本发明中所有过程采用的自然语言处理大模型均属于BERT模型，并在其基础上添加不同的自定义的神经网络层以达成不同任务效果。

S2.根据文本内容抽取实体间的关系，具体过程如图3所示；

首先根据现有关系列表，获取序号与关系间的映射关系。然后从实体识别结果中选取同一句话中的实体两两配对，根据实体识别结果中的实体类型确定候选关系列表，将实体对和它们所在的句子拼接，输入tokenizer进行编码，再将编码结果输入BERT模型处理得到特征向量，最后通过一个神经网络NRE对特征向量进行进一步处理，即可得到表示当前实体对的关系和预训练的一系列关系的相似度的一维向量，取其中包含在候选关系列表中的最大值，判断其是否超过设定的关系相似判定阈值，如果超过该值，则将该对应序号的关系输出，否则输出关系为未知关系。

S3.定位实体名称及其代词，并把同一实体的指代聚类到一起，将同一实体的多个关系连接到一个实体节点上，完成指代消解，具体过程如图4所示；

首先，判断输入文本长度是否超过指代消解可接受的最大文本长度，如果长度超过最大可接受长度，则需要对输入文本进行截断。（如果为初次截断，直接从0位置开始截取定长文本即可；如果非初次截断，从上一次指代消解的结果中，获取至少包含了所有类别的一个实体指代的最大位置编号，从该位置开始截取定长文本。）对于满足长度要求的文本，首先放入tokenizer进行编码，然后再将编码结果输入到BERT模型中进行处理，得到特征向量，再通过神经网络CR对该特征向量进行处理，得到聚类结果。如果还有未被包含的输入文本，则从新位置重新截断文本，进行上述处理。对输入文本完整地进行一遍指代消解后，需要对多次进行指代消解的聚类结果进行去重合并处理，得到最终的指代消解结果。

S4.计算实体指称与实体的相似度，将实体指称与知识图谱中的实体对应起来，具体过程如图5所示；

首先，建立以实体名称为键，以实体名称所在的句子为值，建立实体字典。对实体识别结果中的实体名称，判断当前字典中是否已经包含了相同的键，如果没有对于键，则该实体名称是新的实体名称，直接将该实体名称和它所处的句子***到实体字典中即可；如果实体字典中已经有了一个或多个相应键，则从实体字典中取出对应的值，将当前句子和该值拼接后放入tokenizer进行编码，将编码结果放入BERT模型处理得到特征向量，再利用神经网络NED处理特征向量得到的数值即为两个句子相似度，通过判断相似度是否大于一定阈值，来判定当前实体名称是否和实体字典中的键指向同一实体，如果是同一实体，则将当前实体名称所在句子添加到实体字典中对应键的值后更新实体字典；如果不是同一实体，则为当前实体名称后添加“_x”的后缀，再***到实体字典中。（x表示该实体名称是第几个相同的实体名称，且该后缀不影响判定实体名称是否相同，即消歧过程中 A = A_x。）

S5.预测并补全知识图谱中缺失的三元组，并利用得到的三元组构建知识图谱；根据预测对象的不同，分为头实体预测，尾实体预测，关系预测，具体过程如图6所示。

首先，根据实体识别结果、关系抽取结果、指代消解结果和实体消歧结果建立三元组列表。然后将实体两两对应构建实体对列表，选择实体对列表中的实体对，得到头实体h,和尾实体t，根据h、t的类型，确定h与t之间可能的候选关系列表R，若该列表为空，则重新选择实体对；若该列表不为空，则取其中一个关系r,与h、t组成三元组，将该三元组的文本拼接后放入tokenizer进行编码，再将编码结果放入BERT模型处理得到特征向量，通过神经网络KC对特征向量的处理，可以得到当前三元组的合理性值，通过判断该值是否大于设定的合理阈值来判断该三元组是否合理。如果合理，则将该三元组加入三元组列表；否则，丢弃该三元组。遍历所有实体对，重复上述过程。

在本实例的基于大模型的知识图谱构建***中，首先会对输入的文本源数据进行实体识别；第二步，在实体识别结果的基础上进行关系抽取；第三步则会对源文本数据进行指代消解，以匹配实体和相应的指代词；第四步会根据实体识别结果进行实体消歧，以区分具有相同指称的不同实体；第五步则根据实体识别结果和关系抽取结果，利用知识图谱补全服务，补全缺失的三元组；最后，利用得到的三元组构建知识图谱。

如图7所示，一种基于BERT的知识图谱构建***，包括：

实体识别模块，用于从非结构化文本数据中进行实体的定位与抽取，完成实体识别，为关系抽取模块提供实体来源；

上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于BERT的知识图谱构建方法，其特征在于：包括以下步骤：

S3.定位实体指称M及实体代词P，并把同一实体的指代聚类到一起，将同一实体E的多个关系连接到知识图谱中的一个实体节点N_E上，完成指代消解；

S5.预测并补全知识图谱中缺失的三元组，并利用得到的三元组构建知识图谱；

所述步骤S1包括：

S101.对实体E进行建模：给定需要采集的实体种类，并设置每一个实体种类需要采集的属性；

S106.去除从Pos位置开始向前的所有文本，将剩余文本作为输入，返回步骤S103，直到源文本中的所有实体识别结束，收集所有截断文本的实体识别结果，合并成完整的实体识别结果；

所述步骤S2包括：

S201.预先设置的需要抽取的关系R，其中R表示为{h, r, t}，h表示头实体类型，r表示关系类型，t表示尾实体类型,然后并为每一个需要抽取的关系进行编号，得到表征关系与编号一一映射关系的列表L_R，表示为[R₁, R₂, R₃, ......]；

S202.根据预先设置好的抽取关系，准备对应的数据集,其中每一条训练数据应包含头实体，尾实体，源文本和表征关系类型的一维向量；

S205.将两个实体a、b的名称和所在的句子T拼接，得到[CLS]a[SEP]b[SEP]T[SEP]；

S206.将[CLS]a[SEP]b[SEP]T[SEP]输入关系抽取模型中，得到一个一维向量，取向量中对应候选关系序号列表L所对应的所有值，取其中的最大值，判断其是否超过设定阈值lim，如果大于该阈值，则说明该关系就是两个实体a、b间的关系，直接输出该关系；如果相似度小于该阈值，则输出a、b间关系为未知关系；如果输出关系r非未知关系，则将{a, r,b}记录到关系抽取结果中；

S208.对关系抽取结果中的每一条数据{a, r, b}，以a，b为实体节点，r为边，对知识图谱进行初步的构建，得到G₀；

所述步骤S3包括：

S304.将处理目标输入指代消解模型中，得到一个二维列表，每一行代表属于同一个实体的指代词列表，即聚类结果，格式为[[Pos₁₁, Pos₁₂, Pos₁₃, ......], [Pos₂₁, Pos₂₂,Pos₂₃, ......], [Pos₃₁, Pos₃₂, Pos₃₃, ......], ......]，记为指代消解结果R;

S306.结合指代消解结果R，将步骤S2中构建的知识图谱G₀中属于同一聚类的顶点合并，得到知识图谱G₁；

所述步骤S4包括：

S404.将该实体指称M作为新的实体E加入知识库KB中作为键，用该实体指称M所处的句子即该实体出现的语境作为对应的值；

S405.依次取实体字典中所有与当前实体指称M相同的实体名称E键值，将M所在的上下文T_M与实体字典中实体名称E所对应的上下文T_E进行拼接，得到[CLS]T_M[SEP]T_E[SEP]，进入步骤S406；

若L中所有的实体名称对应的实体语境与当前实体名称对应的实体语境相似度均不满足要求，则在当前实体指称后加上_x后作为新的实体E_x加入知识库KB，其中x代表当前实体E是第x个具有该相同名称的不同实体；

S407.结合步骤S3中构建得到的知识图谱G₁以及知识库KB，将G₁中名称为当前指称M的节点替换成其在知识库中对应的实体E的名称，得到知识图谱G₂；

所述步骤S5包括：

S502.对现有关系三元组列表L中的三元组，将三元组的头实体、关系、尾实体按顺序拼接，得到 [CLS]h[SEP]r[SEP]t[SEP]，作为训练样本，并标记其合理性为1，作为样本标签，从而得到训练数据，关系三元组列表L中所有三元组对应的训练数据构成了合理性数据集，并在训练过程中进行随机负采样作为不合理样本进行训练；

S505.将头实体h、关系r、尾实体t按顺序拼接，最终得到[CLS]h[SEP]r[SEP]t[SEP]；

S507.将三元组添加到知识图谱现有三元组列表中；

2.一种基于BERT的知识图谱构建***，基于权利要求1所述的方法，其特征在于：