CN114896415A

CN114896415A - 基于轻量级自注意力机制的实体关系联合抽取方法及装置

Info

Publication number: CN114896415A
Application number: CN202210499603.5A
Authority: CN
Inventors: 王艺轩; 吴正洋; 汤庸
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-08-12

Abstract

本发明公开了基于轻量级自注意力机制的实体关系联合抽取方法及装置，方法包括获取目标句子数据，并将所述目标句子数据输入实体分类模型；通过所述实体分类模型对所述目标句子数据的所有子序列进行分类，得到实体序列和无实体序列；获取所述实体序列中的任意对实体对，并将所述实体对以及所述实体对之间的各个词组合后输入关系分类模型中；通过实体关系联合抽取模型生成实体关系联合的分类结果；其中，所述实体关系联合抽取模型包括Bert编码器、实体分类模型和关系分类模型。本发明复杂度低，能够提升实体关系模型的性能，可广泛应用于人工智能技术领域。

Description

基于轻量级自注意力机制的实体关系联合抽取方法及装置

技术领域

本发明涉及人工智能技术领域，尤其是基于轻量级自注意力机制的实体关系联合抽取方法及装置。

背景技术

命名实体识别：Named Entity Recognition，简称NER。又称作专名识别、命名实体，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等，以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物，一个命名实体一般代表唯一一个具体事物个体，包括人名、地名等。NER属于从非结构化文本中分类和定位命名实体感情的子任务，其过程是从是非结构化文本表达式中产生专有名词标注信息的命名实体表达式。

关系抽取：关系抽取就是从一段文本中抽取出(主体，关系，客体)这样的三元组，用英文表示就是(subject,relation,object)这样的三元组。所以关系抽取，有时也叫作三元组抽取。从关系抽取的定义也可以看出，关系抽取主要做两件事：识别文本中的subject和object(实体识别任务)和判断这两个实体属于哪种关系(关系分类)。

自注意力机制：一种机器学习技术，自注意力可以自然地认知属性，同时也称为内部注意力，是一种将单个序列的不同位置关联起来的注意力机制，以便计算同一序列的表示。它已被证明在机器阅读、抽象摘要或图像描述生成中非常有用。

实体识别和关系提取是从自然语言文本作为数据源构建知识图谱的关键技术。随着社交网络的发展，自然语言文本数据量和生产速度与日俱增，新知识也在不断产生。同时，知识图谱的更新也需要新知识的补充。对于应用于假新闻检测的知识图谱，知识的更新速度尤为重要。然而，为了提高从快速增长的自然语言文本数据中获取知识的速度，需要一种能够从存在于不同网络平台上的自然语言文本数据中快速识别实体和关系的方法。这样有助于提高知识图谱的更新速度。当前的实体和关系提取任务通常使用多头自注意力模型。然而，经典的多头自注意力模型包括三个变换矩阵，参数量很大，导致复杂度高，训练效率低，需要大量的训练数据集。尤其是基于预训练模型的自然语言处理模型，在实体和关系抽取任务中取得了很好的效果。但由于预训练模型的训练成本高，模型复杂，难以在边缘设备上部署和应用，无法适应使用网络自然语言文本快速更新知识图谱的任务数据。

发明内容

有鉴于此，本发明实施例提供一种复杂度低的，基于轻量级自注意力机制的实体关系联合抽取方法及装置，并提升实体关系模型的性能。

本发明的第一方面提供了基于轻量级自注意力机制的实体关系联合抽取方法，包括：

获取目标句子数据，并将所述目标句子数据输入实体分类模型；

通过所述实体分类模型对所述目标句子数据的所有子序列进行分类，得到实体序列和无实体序列；

获取所述实体序列中的任意对实体对，并将所述实体对以及所述实体对之间的各个词组合后输入关系分类模型中；

通过实体关系联合抽取模型生成实体关系联合的分类结果；

其中，所述实体关系联合抽取模型包括Bert编码器、实体分类模型和关系分类模型。

可选地，所述获取目标句子数据，并将所述目标句子数据输入实体分类模型，包括：

将目标句子输入到所述Bert编码器机型编码，得到编码结果；

将所述编码结果拆分成多个子序列，构建所述目标句子数据；

将所述目标句子数据输入实体分类模型。

可选地，所述实体分类模型和所述关系分类模型通过单层感知机实现。

可选地，所述Bert编码器为轻注意编码器，所述轻注意编码器包括多个编码器块和一个由全连接的网络层组成的文本编码器模块；

当所述轻注意编码器的输入为文本向量时，同步获取文本向量的一维位置编码信息后，进行句子编码；

在句子编码后，添加一个额外的一维向量作为全局信息，补充句子的整体信息；

将句子编码后的向量序列输入跨度分类器进行实体检测，将所有检测到的子序列划分为实体类型和非实体类型；

将实体对和它们之间的跨度组合成一个长向量；

将所述长向量输入到关系分类器，提取长向量中的关系。

可选地，所述跨度分类器包括一个全连接的映射层；所述关系分类器包括一个全连接映射层；

所述轻注意编码器中的编码器块包括两个子模块，其中一个子模块采用轻自注意力机制，该子模块进行残余连接后进行输出，并将输出标准化；另一个子模块是投影层模块，该投影层模块包括一个三层的全连接层，其中第一层全连接层的维度与输入维度保持一致，第二层全连接层的维度是输入维度的四倍，第三层全连接层的维度与输入维度保持一致。

可选地，所述轻注意编码器中编码器块的数量根据内存大小动态更新。

可选地，所述轻注意编码器的处理过程包括：

将输入的特征矩阵跟两个变换矩阵进行点乘，得到Query和Key，同时将所述输入的特征矩阵本身当作Value；

然后将Query的值和Key的值进行余弦相似度计算，获得相似度分数；

将相似度分数进行点乘变为矩阵，然后再通过一个sotfmax归一将得到的对角矩阵转为无规则矩阵，从而作用到Value的值上；

最后输出的Value的值为自注意力层的输出，将输出做一个残差链接并且做层标准化处理。

本发明实施例的另一方面还提供了一种基于轻量级自注意力机制的实体关系联合抽取装置，包括：

第一模块，用于获取目标句子数据，并将所述目标句子数据输入实体分类模型；

第二模块，用于通过所述实体分类模型对所述目标句子数据的所有子序列进行分类，得到实体序列和无实体序列；

第三模块，用于获取所述实体序列中的任意对实体对，并将所述实体对以及所述实体对之间的各个词组合后输入关系分类模型中；

第四模块，用于通过实体关系联合抽取模型生成实体关系联合的分类结果；

本发明实施例的另一方面还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例获取目标句子数据，并将所述目标句子数据输入实体分类模型；通过所述实体分类模型对所述目标句子数据的所有子序列进行分类，得到实体序列和无实体序列；获取所述实体序列中的任意对实体对，并将所述实体对以及所述实体对之间的各个词组合后输入关系分类模型中；通过实体关系联合抽取模型生成实体关系联合的分类结果；其中，所述实体关系联合抽取模型包括Bert编码器、实体分类模型和关系分类模型。本发明复杂度低，能够提升实体关系模型的性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的整体步骤流程图；

图2为本发明实施例提供的实体关系抽取模型的结构示意图；

图3为本发明实施例提供的轻自注意模块的运算过程的流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的问题，本发明实施例提供了一种基于轻量级自注意力机制的实体关系联合抽取方法，包括：

通过实体关系联合抽取模型生成实体关系联合的分类结果；

将目标句子输入到所述Bert编码器机型编码，得到编码结果；

将所述目标句子数据输入实体分类模型。

将实体对和它们之间的跨度组合成一个长向量；

将所述长向量输入到关系分类器，提取长向量中的关系。

可选地，所述轻注意编码器的处理过程包括：

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

下面结合说明书附图，对本发明的具体实现过程进行详细描述：

当前主流的实体抽取模型存在模型参数量较大，并且方便部署在边缘设备以处理一些需要快速收集数据并更新的知识图谱类任务。为了解决现有技术存在的问题，本发明提出了一种新颖的基于跨度的联合实体和关系提取方法，带有轻注意力编码器(模型名称为SpELA)。为了降低模型复杂度，更好地将相关模型应用到小数据集上，并部署到边缘设备上，本文提出了一种基于多头注意力机制的轻自注意力机制。其中V变换矩阵在上面进行了约简，K和Q变换矩阵通过学习各自的参数得到约简变换矩阵中学习到的信息，余弦相似度投影矩阵用于将输入映射到K和Q的特征空间。本发明提出一种新颖的基于跨度的联合实体关系方法的轻注意力编码器，提升了实体关系模型性能的同时降低了模型的复杂度，使得其可以被运用在内存较小的边缘设备上。

如图1所示，本发明的整体实施步骤包括：获取目标句子数据，并将所述目标句子数据输入实体分类模型；通过所述实体分类模型对所述目标句子数据的所有子序列进行分类，得到实体序列和无实体序列；获取所述实体序列中的任意对实体对，并将所述实体对以及所述实体对之间的各个词组合后输入关系分类模型中；通过实体关系联合抽取模型生成实体关系联合的分类结果；其中，所述实体关系联合抽取模型包括Bert编码器、实体分类模型和关系分类模型。

需要说明的是，本实施例的实体分类模型和关系分类模型两个模型是实体关系联合抽取模型的组成模块。而实体关系联合抽取模型是由Bert编码器、实体分类模型和关系分类模型共同构成的。

其中，参考图1，整个流程可描述如下：首先一个句子输入到Bert编码器里面进行编码，然后模型将一个句子的编码结果拆分成多个子序列，然后通过一个实体神经网络分类模型将每个子序列进行分类，将概率低的类别分类为none类，然后将所有的非none类的子序列取出来，并且将这两个子序列之间的词和两个子序列拼接起来，然后这个句子就变成一个联合实体，然后再将这个句子通过另一个关系神经网络分类模型将他们之间的关系进行分类，没有关系则分类为none类，有关系就输出实体之间的关系，以此来确定实体之间的关系。

下面以“七里香是周杰伦的歌”这个句子进行输入为例，详细说明本发明的具体实现过程：首先是一个句子“七里香是周杰伦的歌”其中七里香和周杰伦是提前打好标签的两个实体类，然后将句子通过Bert编码器进行编码，为了便于理解，编码后的句子仍是：七里香是周杰伦的歌，然后将这句话分割成n个子序列，如：七里香，七里香是，周杰伦，周杰伦的歌.....然后把他们都取出来，通过实体分类器进行分类，将分类结果为实体的序列单独提出来，不是的则丢弃，如：七里香是实体，提出，周杰伦的歌不是实体，丢弃，周杰伦是实体，提出。最后实体分类模型得到了七里香，周杰伦这两个实体，然后再将他们之间的词和他们拼接在一起变成，如：七里香是周杰伦，则这句是一个联合实体，最后把它通过关系分类模型，将输出这句话所属的关系，如，作者关系。若没有关系则输出none。

其中，实体神经网络分类模型和关系神经网络分类模型都是由单层感知机实现。

图2为我们所提出的基于跨度的实体关系抽取模型，其中，轻注意编码器是由n个编码器块和一个全连接的网络层组成的文本编码器模块。当输入文本向量(如底部的矩形)时，将一维位置编码信息添加到组中，以确保模型能够学习句子的上下文信息。在句子编码后，添加一个额外的一维向量CLS作为全局信息，以补充所学习句子的整体信息。跨度分类器是一个基于跨度的实体关系分类模块，它是一个全连接的映射层。当编码的向量序列进入它时，它将对向量子序列进行实体检测。然后，它将所有检测到的子序列划分为实体类型，并过滤非实体。在此之后，剩余的实体对和它们之间的跨度被组合成一个长向量。长向量输入到关系分类器，关系分类器使用全连接映射层从长向量中提取关系。

轻注意编码器中的编码器块由两个模块组成。第一个模块是自注意力机制的一个变体，称为轻自注意力机制。让其输出标准化，并进行残余连接形成输出。第二个模块是一个投影层模块。它的具体结构是一个三层的全连接层。第一层与输入维度一致，第二层的维度是输入层的四倍，最后一层被投影回输入层的维度。然后对输出进行归一化，并执行剩余连接以形成输出。上述两个模块组成一个编码器块，然后可以根据设备的视频内存的大小动态地选择块的数量。

如图3所示，当特征矩阵输入时，首先会跟两个变换矩阵点乘得到Query和Key，同时将特征矩阵本身当作Value,公式如下：

Q＝W^q(I)，K＝W^k(I)，V＝I

其中：Q代表Query,K代表Key,V代表Value,I代表Input。

然后，将Q值和K值进行余弦相似度计算，从而获得相似度分数，公式如下：

其中：α_i代表相似度分数。

由于得到的相似度分数是列向量，而V值是矩阵，想要将相似度分数作用到矩阵上，要将相似度分数进行点乘变为矩阵，然后再通过一个sotfmax归一将得到的对角矩阵转为无规则矩阵，从而作用到V值上，公式如下：

P＝α·α^T，attn＝softmax(P)，output＝attn·V

其中：output代表输出矩阵

最后输出的V值为自注意力层的输出，为了较少梯度弥散等问题，将输出做一个残差链接并且做层标准化，公式如下：

X＝Norm(output+I)

其中：X代表下一层模块的输入矩阵

发明的应用场景：

对于应用于假新闻检测和舆论检测的知识图时，知识的更新速度尤为重要。然而，为了提高从快速增长的自然语言文本数据中获取知识的速度，需要一种能够从存在于不同网络平台上的自然语言文本数据中快速识别实体和关系的方法。这样有助于提高知识图谱的更新速度。并且在如今互联网上舆论发酵速度过快，需要有一个能够快速对舆论情况进行建模的模型，而原来的模型参数量过大，而我们提出的模型可以减少参数量，并且能够快速对舆论进行建模，从而引导舆论的正确走向。

综上所述，本发明可以大幅减少模型的参数量，从而使得模型能够部署咋边缘设备上，并且改变了相似度计算方式，更加适合于语言数据的任务上，使得模型的性能更加的突出。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于轻量级自注意力机制的实体关系联合抽取方法，其特征在于，包括：

通过实体关系联合抽取模型生成实体关系联合的分类结果；

2.根据权利要求1所述的基于轻量级自注意力机制的实体关系联合抽取方法，其特征在于，所述获取目标句子数据，并将所述目标句子数据输入实体分类模型，包括：

将目标句子输入到所述Bert编码器机型编码，得到编码结果；

将所述目标句子数据输入实体分类模型。

3.根据权利要求1所述的基于轻量级自注意力机制的实体关系联合抽取方法，其特征在于，所述实体分类模型和所述关系分类模型通过单层感知机实现。

4.根据权利要求1所述的基于轻量级自注意力机制的实体关系联合抽取方法，其特征在于，所述Bert编码器为轻注意编码器，所述轻注意编码器包括多个编码器块和一个由全连接的网络层组成的文本编码器模块；

将实体对和它们之间的跨度组合成一个长向量；

将所述长向量输入到关系分类器，提取长向量中的关系。

5.根据权利要求4所述的基于轻量级自注意力机制的实体关系联合抽取方法，其特征在于，所述跨度分类器包括一个全连接的映射层；所述关系分类器包括一个全连接映射层；

6.根据权利要求5所述的基于轻量级自注意力机制的实体关系联合抽取方法，其特征在于，所述轻注意编码器中编码器块的数量根据内存大小动态更新。

7.根据权利要求6所述的基于轻量级自注意力机制的实体关系联合抽取方法，其特征在于，所述轻注意编码器的处理过程包括：

8.基于轻量级自注意力机制的实体关系联合抽取装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。