CN117408247B

CN117408247B - 一种基于关系指针网络的智能制造三元组抽取方法

Info

Publication number: CN117408247B
Application number: CN202311726555.XA
Authority: CN
Inventors: 亓晋; 刘晨雅; 孙雁飞; 郭宇锋; 胡筱旋; 董振江
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-03-29
Anticipated expiration: 2043-12-15
Also published as: CN117408247A

Abstract

本发明属于智能制造三元组抽取领域，公开了一种基于关系指针网络的智能制造三元组抽取方法，包括上下文预训练模型编码模块、潜在关系预测模块、头实体解码模块、头尾实体对齐模块，以BERT预训练模型代替现行的word2vec词向量生成模型，以双向门控循环神经元为网络结构，利用平均池化网络和全连接神经网络预测出数据中存在的潜在关系，解决后续实体识别的过程中智能制造关系计算冗余的问题，再利用两个基于跨度的双层指针网络计算实***置，解决实体嵌套与关系重叠问题，提高智能制造实体标注的准确率，最后通过关系指针网络基于潜在关系匹配实体对，从而正确抽取出智能制造三元组，提高三元组抽取任务的效率和质量。

Description

一种基于关系指针网络的智能制造三元组抽取方法

技术领域

本发明属于智能制造三元组抽取领域，具体的说是涉及一种基于关系指针网络的智能制造三元组抽取方法。

背景技术

随着新一代信息技术的迅猛发展，信息的数量和复杂性急剧增加。人们需要更有效的方式来组织、检索和理解大量的信息，而传统的关系型数据库和搜索引擎在这方面存在局限性。知识图谱是一种有向图结构的语义知识库，可以从冗余的数据与知识文本中抽取有用信息，有效表达数据之间的内在关联。知识图谱允许将来自不同领域的知识集成到一个统一的结构中。这对于涉及多个领域的复杂问题求解和知识发现非常有效。在大规模领域知识图谱构建过程中，三元组抽取是其中的关键技术之一，用于从海量文本中抽取实体与关系。

在知识图谱中，三元组是形如（头实体，关系，尾实体）这样的数据结构，目前三元组抽取分为管道式抽取和联合式抽取，管道式抽取将三元组抽取分为两个独立任务：即先进行实体识别，再进行关系分类，两个任务没有交互，因此实体识别产生的误差会传递到关系分类中；联合式抽取将实体识别与关系抽取两个子模型统一建模，相对于管道式抽取，进一步利用了两个任务中的内在联系与依赖关系，一定程度上缓解误差累积的缺点。

中国专利申请号CN2021111821736公开了一种基于Transformers的双向编码表示的中文三元组抽取方法，能够充分描述字符级，词级，句子级间的特征关系。但是该技术通过管道式抽取先识别实体再识别关系，不能充分利用两个任务之间的内在联系和依赖关系，并且识别不存在关系的实体对会提升错误率、浪费计算量，带来额外的冗余信息，不能对关系重叠、共享头部的实体等复杂场景进行相应处理。

中国专利申请号CN202111658767X提供一种基于级联二进制标注框架的关系三元组抽取方法，将关系建模为将头实体映射到句子中的尾实体，即f_关系(头实体)＝尾实体，解决了关系重叠问题，而且抛弃了单标签标注模型将关系分配给实体对的离散标签，采用多标签二进制标注框架标注实体的Start和End位置，解决了样本不均衡问题。但是此技术中出现关系冗余问题，浪费计算量，带来额外的冗余信息，并且不能对复杂的关系重叠、共享头部的实体等场景进行相应处理。例如关系集中有上百种关系，但关系出现的密度很低，平均每句文本出现一种关系，那么对于每个头实体该方法都需要预测上百种关系对应的尾实体信息，产生了很多冗余关系的判断。

综上所述，文本中存在一对实体对应多种关系即“一对多”的实体对重叠问题、多种关系对应一个实体即“多对一”的单实体重叠问题以及实体自身的嵌套情况，因此三元组抽取任务面临巨大的挑战。

发明内容

针对上述技术问题以及需求，本发明提供了一种基于关系指针网络的智能制造三元组抽取方法，该方法利用平均池化网络和全连接神经网络预测出数据中存在的潜在关系，解决后续实体识别的过程中智能制造关系计算冗余的问题，再利用两个基于跨度的双层指针网络计算实***置，解决实体嵌套与关系重叠问题，提高智能制造实体标注的准确率，最后通过关系指针网络基于潜在关系匹配实体对，从而正确抽取出智能制造三元组，提高三元组抽取任务的效率和质量。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种基于关系指针网络的智能制造三元组抽取方法，所述抽取方法包括上下文预训练模型编码模块、潜在关系预测模块、头实体解码模块、头尾实体对齐模块，所述上下文预训练模型编码模块用于获取智文本数据的语义特征表示，使用上下文预训练模型学习文本中每个字的上下文信息，得到文本的语义向量；所述潜在关系预测模块用于构建智能制造关系候选集，预测出智能制造文本中存在的潜在关系；所述头实体解码模块用于实现实体跨度提取，确定实体的开始与结束位置；所述头尾实体对齐模块用于实现智能制造三元组的匹配，对每一个头实体遍历关系候选集中的潜在关系，查看是否存在与头实体相关的尾实体，如果存在该尾实体，则存在输出{头实体，关系，尾实体}三元组。

具体的三元组抽取方法包括如下步骤：

步骤1、准备文本数据，并定义所述文本数据中存在的关系集，其中，输入为一段文本句子；

步骤2、采用上下文预训练模型编码模块，对步骤1中的文本数据进行编码；

步骤3、利用潜在关系预测模块，预测出文本数据中候选关系集合，/>为步骤1中定义的关系集/>的子集，得到/>；

步骤4、设定关系阈值，当步骤3中的/>大于/>时，视为包含此三元组中的关系，将对应的关系标记为1，其余标记为0，并将该关系记入候选关系集合/>，候选关系集合/>小于关系集/>；

步骤5、利用头实体解码模块，预测出头实体的起始位置与结束位置，根据头实体跨度的自然连续性确定文本中存在的头实体，输入序列中第/>个token作为头实体/>的开始与结束位置表示为/>和/>；

步骤6、如果步骤5中得到的、/>的值大于预设定的阈值时，分别将其对应的token标记为1 ，视为头实体的开始或结束位置；

步骤7、利用头尾实体对齐模块，遍历关系候选集中的关系，计算是否存在与头实体/>相关的尾实体/>，第/>个token作为头实体开始位置的概率/>与结束位置的概率/>分别为/>，；

步骤8、如果步骤7中得到的值大于预设定的值时，将对应的token标记为1 ，视为尾实体的开始位置，如果/>的值大于预设定的值时，将对应的token标记为1 ，视为尾实体的结束位置，此时，匹配成功输出{头实体，关系，尾实体}三元组。

本发明的进一步改进在于：步骤2具体包括如下步骤：

步骤2.1、首先将输入文本句子的每一个子词转化为词向量与位置向量，将词向量与位置向量输入到12个双层的Transformer块中抽取特征，

步骤2.2、所述Transformer块通过多头自注意力机制来学习信息，每个Transformer块通过一层全连接网络来传递学习到的信息，最终输出语义向量：，/>代表BERT模型最后一层隐藏层的维数。

本发明的进一步改进在于：步骤3具体为：

步骤3.1、所述潜在关系预测模块将上下文预训练模型编码模块输出的文本的语义向量推入全局平均池化层；

步骤3.2、输入全连接神经网络；

步骤3.3、最后通过激活函数来计算每种关系的概率，得到。

本发明的进一步改进在于：步骤5具体包括如下步骤：

步骤5.1、所述头实体解码模块将上下文预训练模型编码模块输出的语义向量输入GRU，得到/>；

步骤5.2、输入两个相同的双层指针网络，用来标记实体的开始位置和结束位置，其中两层指针网络中间使用ReLU激活函数加强网络的非线性；

步骤5.3、计算得到概率：，，/>和/>分别代表输入序列中第/>个token作为头实体的开始与结束位置，/>为可学习的权重，/>表示偏置，/>表示激活函数。

本发明的进一步改进在于：模型训练时采用共享参数的方式共同训练模型，在训练期间优化组合的目标函数，总损失分为三个部分：，，，总损失是以上三部分的总和：/>。

本发明的有益效果是：

（1）本发明利用基于关系指针网络实现三元组抽取模型，提高三元组抽取质量，为知识图谱的全面落地提供新动能，加速企业实现资源聚集与优化。

（2）本发明利用神经网络对文本数据中的潜在关系进行预测，通过基于关系的指针网络进行实体对匹配，有效缓解了关系冗余问题，构建候选关系集极大的减少了头尾实体对齐过程中的计算量。

（3）本发明采用GRU配合双层指针网络计算智能制造实***置，提高智能制造实体标注的准确率，通过两层全连接神经网络层升维再降维的操作将特征进行组合，提高模型地分辨能力，再去除区分度低的组合特征，更有效学习实体的表征。

附图说明

图1是本发明基于潜在关系和指针网络的智能制造三元组抽取方法的流程图。

图2是本发明基于潜在关系和指针网络的智能制造三元组抽取方法的框架图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

本发明是一种基于关系指针网络的智能制造三元组抽取方法，以BERT预训练模型代替现行的word2vec （Word Representations in Vector Space）词向量生成模型，从而克服传统三元组抽取方法缺陷，并通过BERT模型获取的字向量具有更强的泛化能力，能够充分描述字符级，词级，句子级间的特征关系，以双向门控循环神经元（Bi-directionalGated recurrent units，Bi-GRU）为网络结构，结合注意力机制进行关系抽取，不仅能够使关系抽取的准确率得到提升，还使BERT预训练模型的应用范围得到扩展。本发明还将抽取的句子经过BERT预训练模型处理后获得句子中的语义特征表示编码向量；解码输出的编码向量，识别出头实体的Start和End位置标签，从而获取句子中所有可能的头实体及其对应的Token的特征向量矩阵；将特征向量矩阵的Token对应的向量取平均得到头实体特征向量，融合输出的解码向量，获得融合的向量。根据融合的向量/>，结合一组特定的关系集合，识别出对应关系的尾实体的Start和End位置标签，从而识别出所有和头实体相关的关系和尾实体，最终抽取出关系三元组。

针对文本数据中存在的实体重叠、关系冗余问题，引入一种基于关系指针网络的三元组抽取方法，包括上下文预训练模型编码模块、潜在关系预测模块、头实体解码模块、头尾实体对齐模块，其整体框架如图1所示。

所述上下文预训练模型编码模块用于获取智文本数据的语义特征表示，使用上下文预训练模型学习文本中每个字的上下文信息，得到文本的语义向量。将文本中的字映射成对应的字向量，输入BERT预训练模型。通过BERT预训练模型获取的嵌入向量具有更强的泛化能力，能够充分描述文本中的特征关系，具有更好的全局表达效果，预训练模型编码模块输出的文本语义向量作为下一模块的输入。

所述潜在关系预测模块用于构建智能制造关系候选集，预测出智能制造文本中存在的潜在关系。潜在关系的数量是远小于预定义关系集中的关系数量的，因此在头尾实体对齐模块中只对关系候选集中的关系进行实体对齐，而不是对所有关系进行计算，可以减少多余的关系判断，降低关系计算的冗余量。将上下文预训练模型编码模块输出的文本语义向量，/>，输入全局平均池化层（Global Average Pooling, GAP），去除冗余信息的同时对特征进行压缩，减少参数数量和计算量，同时有效地抑制过拟合。然后使用softmax二分类器得到概率/>，当/>大于预设定的阈值时，视为包含此关系，将对应的关系标记为1，将该关系放入智能制造关系候选集中，其余标记为0。

所述头实体解码模块用于实现实体跨度提取，确定实体的开始与结束位置。将预训练模型编码模块输出的文本的语义向量，/>输入门控循环神经单元（GateRecurrent Unit，GRU），通过重置门捕捉序列里短期地依赖关系，通过更新门捕捉序列里长期地依赖关系，得到/>，然后使用基于跨度的双层指针网络，计算实体的开始和结束位置：/>，，/>和/>分别代表输入序列中第/>个token作为头实体的开始与结束位置，如果/>的值大于预设定的值时，将对应的token标记为1 ，视为头实体的开始位置；如果/>的值大于预设定的值时，将对应的token标记为1 ，视为头实体的结束位置。

所述头尾实体对齐模块用于实现智能制造三元组的匹配，对每一个头实体遍历关系候选集中的潜在关系，查看是否存在与头实体相关的尾实体，存在则输出{头实体，关系，尾实体}三元组，即根据头实体和关系去寻找尾实体，如果存在该尾实体，就输出这个头实体、关系、尾实体三元组。利用关系指针网络基于潜在关系进行头尾实体的对齐，为进一步利用文本中上下文的全局信息，解码识别尾实体时不仅仅考虑经过GRU处理的，还需要考虑头实体解码模块中得到的头实体的特征，因此计算头实体对应的尾实体时加入该头实体所有词向量的平均/>，利用融合特征向量来计算每个尾实体的位置。计算得到概率，，/>和分别代表输入序列中第/>个token作为头实体的开始与结束位置，如果/>的值大于预设定的值时，将对应的token标记为1 ，视为尾实体的开始位置；如果/>的值大于预设定的值时，将对应的token标记为1 ，视为尾实体的结束位置。

具体的，本发明的基于关系指针网络的智能制造三元组抽取方法包括如下步骤：

步骤1、准备好足够多的文本数据，并定义所述文本数据中存在的关系集，其中，输入为一段文本句子，其中可能存在多个三元组，实体与关系均可能存在重叠情况。

步骤2、采用上下文预训练模型编码模块，对步骤1中的文本数据进行编码。首先将输入句子的每一个子词转化为词向量与位置向量/>，将其输入12个双层的Transformer块中抽取特征， Transformer块通过多头自注意力机制来学习信息，每个Transformer块通过一层全连接网络来传递学习到的信息，最终输出语义向量/>：，/>代表BERT模型最后一层隐藏层的维数。

步骤3、利用潜在关系预测模块，预测出文本中候选关系集合，/>是步骤一中定义的关系集/>的子集。该模块将上下文预训练模型编码模块输出的文本的语义向量/>推入全局平均池化层，紧接着输入全连接神经网络，最后通过激活函数来计算每种关系的概率，得到/>。

步骤4、设定关系阈值，当步骤3中的/>大于/>时，视为包含此关系，将对应的关系标记为1，其余标记为0，并将该关系记入候选关系集合/>，候选关系集合/>小于关系集/>；

步骤5、利用头实体解码模块，预测出头实体的起始位置与结束位置，根据头实体跨度的自然连续性确定文本中存在的头实体，该模块将上下文预训练模型编码模块输出的语义向量/>输入GRU，得到/>，然后输入两个相同的双层指针网络，用来标记实体的开始位置和结束位置，其中两层指针网络中间使用ReLU激活函数加强网络的非线性，最终计算得到概率：/>，，/>和/>分别代表输入序列中第/>个token作为头实体的开始与结束位置，/>为可学习的权重，/>表示偏置，/>表示激活函数。

步骤7、利用头尾实体对齐模块，遍历关系候选集中的关系，计算是否存在与头实体/>相关的尾实体/>。利用基于关系的指针网络进行实体对的匹配，为进一步利用文本中的全局信息，解码识别尾实体时同时考虑经过GRU的输出/>和该头实体所有词向量的平均/>。第/>个token作为头实体开始位置的概率/>与结束位置的概率/>分别为/>，

；

步骤8、如果步骤7中得到的值大于预设定的值时，将对应的token标记为1，视为尾实体的开始位置，如果/>的值大于预设定的值时，将对应的token标记为1 ，视为尾实体的结束位置，此时，匹配成功输出{头实体，关系，尾实体}三元组。

实施例

本发明是一种基于关系指针网络的智能制造三元组抽取方法具体流程为：采用预训练语言模型BERT对智能制造文本进行字符向量表征，智能制造文本作为字符序列输入BERT，利用Transformer编码器中的自注意力机制、残差和层归一化、前馈神经网络对每个字符/>进行字符向量表示：，其中{Q，K，V}为输入矩阵，/>为输入向量维度，最终得到输出向量/>。

将输入平均池化层，再利用全连接神经网络和激活函数sigmoid计算出每种关系的概率/>。预测出该语句中存在的潜在关系，计入候选关系集，设该语句中包含的潜在关系有三种，则在进行实体匹配时只计算这三种潜在关系对应的实体对，而不是计算关系集中所有关系所对应的尾实体。

利用头实体解码模块，对进行解码，将预训练模型编码模块输出的智能制造文本的语义向量/>，/>输入GRU，/>，使用双层标注方式预测出头实体的起始位置与结束位置，形成候选头实体集合。设该语句输出的起始位置解码向量为 [1,0,0,0,0,0,1,0,1,0] ，结束位置解码向量为[0,1,1,0,0,0,0,1,0,1] ，则头实体为/>。

对候选头实体集合中的每一个实体遍历关系候选集中的关系，类似地，使用GRU结合双层指针网络标注方式计算出头实体相关的尾实体，确定相应关系下的尾实体，匹配成功则输出{头实体，关系，尾实体}三元组。

模型训练时采用共享参数的方式共同训练模型，在训练期间优化组合的目标函数，总损失可以分为三个部分：，，，总损失是以上三部分的总和：，这里分配相等的权重。

为了验证本发明的效果，本发明进行了实验，实验采用精确率(Precision，P)、召回率(Recall，R)和F1值对模型进行评估。精确率、召回率和F1值的计算方法如下所示。

。

实验使用WebNLG数据集，该数据集包含246种关系，其中训练集包含三元组5019个，测试集包含三元组703个。该数据集拥有丰富的关系种类以及复杂的实体与关系匹配场景。WebNLG数据集三元组分布统计如表1所示，实验结果如表2所示。

表1

表2

实验结果表明，本发明在WebNLG数据集上的三元组抽取精确率90.5%、召回率92.2%、F1值91.4%，相较于其他三个对比模型都有一定的提升。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于关系指针网络的智能制造三元组抽取方法，其特征在于：所述智能制造三元组抽取方法具体包括如下步骤：

步骤1、准备文本数据，并定义所述文本数据中存在的关系集R，其中，输入为一段文本句子；

步骤3、利用潜在关系预测模块，预测出文本数据中候选关系集合R'，R'为步骤1中定义的关系集R的子集，得到p_rel；

步骤4、设定关系阈值p′_rel，当步骤3中的p_rel大于p′_rel时，视为包含三元组中的关系，将对应的关系标记为1，其余标记为0，并将该关系记入候选关系集合R′，候选关系集合R'小于关系集R；

步骤5、利用头实体解码模块，预测出头实体的起始位置与结束位置，根据头实体跨度的自然连续性确定文本中存在的头实体s，输入序列中第i个token作为头实体s的开始与结束位置表示为和/>

步骤6、如果步骤5中得到的的值大于预设定的阈值时，分别将其对应的token标记为1，视为头实体的开始或结束位置；

步骤7、利用头尾实体对齐模块，遍历关系候选集R'中的关系，计算是否存在与头实体s相关的尾实体o，第i个token作为尾实体开始位置的概率与结束位置的概率/>分别为

h_avg为该头实体所有词向量的平均；

步骤8、如果步骤7中得到的值大于预设定的值时，将对应的token标记为1，视为尾实体的开始位置，如果/>的值大于预设定的值时，将对应的token标记为1，视为尾实体的结束位置，此时，匹配成功输出三元组；

其中，所述步骤5具体包括如下步骤：

步骤5.1、所述头实体解码模块将上下文预训练模型编码模块输出的语义向量h输入GRU，得到h′＝GRU(h)；

步骤5.3、计算得到概率：和/>分别代表输入序列中第i个token作为头实体的开始与结束位置，W_(·)为可学习的权重，b_(·)表示偏置，σ表示激活函数；

所述步骤2具体包括如下步骤：

步骤2.1、首先将输入文本句子S的每一个子词转化为词向量与位置向量E＝{E₁,E₂，...，E_n}，将词向量与位置向量输入到12个双层的Transformer块中抽取特征；

步骤2.2、所述Transformer块通过多头自注意力机制来学习信息，每个Transformer块通过一层全连接网络来传递学习到的信息，最终输出语义向量h：h＝{h₀,h₁,h₂,...,h_m,h_m+1|h_i∈R^d×1}，d代表BERT模型最后一层隐藏层的维数；

所述步骤3具体为：

步骤3.1、所述潜在关系预测模块将上下文预训练模型编码模块输出的文本的语义向量h推入全局平均池化层；

步骤3.2、输入全连接神经网络；

步骤3.3、最后通过激活函数来计算每种关系的概率，得到p_rel＝σ(w(Pooling(h))+b)。

2.根据权利要求1所述的一种基于关系指针网络的智能制造三元组抽取方法，其特征在于：模型训练时采用共享参数的方式共同训练模型，在训练期间优化组合的目标函数，总损失分为三个部分：，总损失是以上三个部分的总和：L_total＝αL_rel+βL_s+γL_o。

3.根据权利要求1所述的一种基于关系指针网络的智能制造三元组抽取方法，其特征在于：所述抽取方法包括上下文预训练模型编码模块、潜在关系预测模块、头实体解码模块、头尾实体对齐模块，

所述上下文预训练模型编码模块用于获取智能制造文本数据的语义特征表示，使用上下文预训练模型学习文本中每个字的上下文信息，得到文本的语义向量；

所述潜在关系预测模块用于构建智能制造关系候选集，预测出智能制造文本中存在的潜在关系；

所述头实体解码模块用于实现实体跨度提取，确定实体的开始与结束位置；

所述头尾实体对齐模块用于实现智能制造三元组的匹配，对每一个头实体遍历关系候选集中的潜在关系，查看是否存在与头实体相关的尾实体，如果存在尾实体,则输出三元组。