CN114398489A

CN114398489A - 一种基于Transformer的实体关系联合抽取方法、介质及***

Info

Publication number: CN114398489A
Application number: CN202111480107.7A
Authority: CN
Inventors: 张正; 常光辉; 黄海辉; 胡新庭; 陈浪
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-04-26

Abstract

本发明请求保护一种基于Transformer的实体关系联合抽取方法、介质及***，该方法的步骤包括：将训练数据中标注的实体关系的三元组与训练数据使用特殊的标识符连接；将处理过后的训练数据中的词进行向量化映射；将映射过后的训练数据输入到基于注意力机制的实体关系联合抽取模型当中，并通过反向传播算法进行模型的训练，得到实体关系预测模型；再将需要进行实体关系联合抽取的句子输入到训练好的模型中，预测出句子中的三元组关系。本发明通过将三元组抽取任务视为序列到序列的任务，通过参数共享的方法实现模型的联合抽取。

Description

一种基于Transformer的实体关系联合抽取方法、介质及***

技术领域

本发明属于深度学习与自然语言处理技术，具体涉及一种基于Transformer 的实体关系联合抽取方法和***。

背景技术

随着大数据时代的到来，互联网上的数据量急速攀升，其中主要包含大量的自然语言文本，如此大量的自然语言文本中蕴含了大量的隐藏知识，如何快速高效地从开放领域的文本中抽取出隐藏的知识，成为了摆在人们面前的重要问题。为了解决这个问题，信息抽取在1998年的MUC-7会议上被首次提出，实体关系抽取是文本挖掘、信息抽取的核心任务，其通过对文本信息建模，自动抽取出实体之间的语义关系，提取出有效的语义知识。

因此，为了从海量的非结构化数据中抽取出隐藏的知识，知识图谱的概念被提出。在知识图谱中，把海量数据中的人名、地点等专有名词表示为实体，并将任意两个实体之间的联系表示为关系，通过三元组的形式(主实体,关系,副实体)构建出知识图谱。因此，为了自动化的抽取出结构化文本中的三元组，研究者们提出了信息抽取的方法，其中基于流水线和联合学习的方法为现在主要的两种方法。

目前，实体关系根据抽取方法分为流水线的方法和联合学习的方法。流水线的方法将实体关系抽取视为两个子任务，先对文本进行命名实体识别，再对命名实体之间的关系进行识别，称为关系抽取。联合抽取的方法是将命名实体识别和关系抽取视为一个子任务，通过联合学习的方法直接抽取出数据中的三元组。避免了命名实体识别的准确率问题带来的误差累计问题，提高了实体关系抽取的准确率，本专利所做的工作也是基于联合学习的方法。提出了一种新的实体关系联合抽取的思路。

经过检索，申请公开号CN111666427A，一种实体关系联合抽取方法、装置、设备及介质，包括：获取训练样本数据；利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练，得到训练后模型；其中，所述实体关系抽取模型中包括自注意力层；所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算；当获取到待进行实体关系抽取的目标文本，利用所述训练后模型输出对应的实体关系抽取结果。这样，对包括自注意力层的实体关系抽取模型进行训练，能够在实体关系的抽取过程中考虑其他三元组对当前预测关系的影响，从而提升实体关系抽取的准确度。

公开号CN111666427A中提出基于Bert+cnn模型进行实体关系联合抽取存在的问题如下:

1.其存在较高的复杂度，不利于模型的落地，

2.同时，其使用的字级别矩阵难以解决三元组重叠问题，

3.最后，其依赖于CNN模型，该模型在解决长时序问题上也存在诸多弊端，其无法捕获长距离信息。

本发明专利针对其的改进方法如下：

1.首先，本发明专利引入了半标记半指针网络，相较于公开号CN111666427A 有更好的解决三元组重叠问题的能力，

2.其次，本发明专利使用了transformer模型作为特征提取器，其在解决长时序问题上优于CN111666427A所提出的模型。

3.最后，本发明模型减低模型复杂度的同时能够获得优于CN111666427A中所提出的模型三元组抽取的效果。

申请公开号CN113157936A，一种实体关系联合抽取方法、装置、电子设备和存储介质，该方法包括：获取标记序列；根据所述标记序列确定语义表示；根据标记序列和所述语义表示确定特征图矩阵；根据特征图矩阵预测实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵；将三元组相关的字级别矩阵合并得到目标三元组。本申请实施例中实体信息相关的的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵是分阶段确定的，通过基于图像语义分割的多阶段实体关系抽取联合方法，使用语义分割框架进行目标三元组抽取，避免了实体重叠和误差累积的问题，并通过多阶段渐进式的方式，提升了抽取效果。

公开号CN113157936A中同样提出了一种基于Bert+CRF的实体关系联合抽取模型，其采用新的标注方案，其存在的问题是：

1.难以解决三元组重叠问题，在实体关系联合抽取问题中，实体与实体之间可能存在多个关系，然而，目前的分类器会出现分类混淆的情况，该发明专利同样存在如上情况。

2.其同样基于Bert模型，其模型复杂度较高，同时依赖于CRF模型，该模型为时序模型，容易出现梯度消失或者梯度***的情况，难以捕获长距离信息。

我们的解决方法如下：

1.我们采用半指针半标记的方案，避免了分类器的混淆情况，进而避免了三元组的重叠问题。

2.我们的模型基于transformer模型，模型复杂度相对较低，同时避免了时序模型的缺点，相较于CN113157936A中提出的模型有更好的解决长时序问题的能力。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种抽取出非结构化数据中的隐藏信息，构建出知识图谱，同时提高实体关系抽取的性能的基于Transformer 的实体关系联合抽取方法及***。本发明的技术方案如下：

一种基于Transformer的实体关系联合抽取方法，其包括以下步骤：

获取互联网数据集，并对互联网数据集进行预处理，将数据集中的句子与对应的三元组用预设的标识符连接起来，并标注主实体、关系和副实体的开始位置和结束位置，并且涉及到多个三元组时需要预设的分隔符，同时训练数据需要开始和结束标识符，处理后的数据如下；特殊分隔符和特殊的开始和结束标识符分别指：

[SOS]h⁽¹⁾,r⁽¹⁾,t⁽¹⁾[S2S_SEQ]

h⁽²⁾,r⁽²⁾,t⁽²⁾[S2S_SEQ]

...

h⁽ⁿ⁾,r⁽ⁿ⁾,t⁽ⁿ⁾[EOS]

将处理过后的数据集中的每个字进行向量化映射，同时通过每个字在句中的位置计算出位置向量，输入到基于Transformer的神经网络模型中，再通过反向传播算法进行训练，得到基于注意力机制的实体关系联合抽取模型；

将需要进行实体关系抽取的句子输入到训练完成的基于Transformer的实体关系联合抽取模型中，预测出每个句子中的三元组。

进一步的，所述基于Transformer的神经网络模型的训练过程包括：

1)将输入句子中的每个词或字映射成对应的字向量；

2)在编码层，把训练样例中的每个字对应的字向量作为输入，采用 Transformer编码器学习句子中每个字的上下文信息,同时得到表示向量H_l；

3)在通过分类器预测出训练样例中的主实体，其中通过二进制分类器，分别预测出训练样例中每个主实体的开始位置p^start和结束位置p^end，以及主实体的向量表示

4)在解码层中，将编码器输出的表示向量H_l与二进制分类器预测出的主实体

通过预设的方式处理或者简单相加，得到新的上下文表示向量M_l，在对M_l进行解码，通过二进制分类器分类出副实体；

5)根据得到的标签的向量表示进行计算，得到主实体、关系和副实体分别所在的开始位置和结束位置；

6)选取所有样本的最大似然函数作为模型的目标函数；

7)通过反向传播算法训练模型，更新模型中所有的参数，最终得到收敛的实体关系联合抽取模型。

进一步的，所述根据训练集中的训练样例和三元组信息，使用特殊的标识符处理，其中，训练样例需要至少两种标识符，分别是开始标识符和结束标识符；该样例的三元组信息需要至少三种标识符，分别是开始标识符、分隔符和结束标识符；其中，三元组处理后的数据如下：

[SOS]h⁽¹⁾,r⁽¹⁾,t⁽¹⁾[S2S_SEQ]

h⁽²⁾,r⁽²⁾,t⁽²⁾[S2S_SEQ]

...

h⁽ⁿ⁾,r⁽ⁿ⁾,t⁽ⁿ⁾[EOS]

其中h,r,t分别代表主实体，关系和副实体，[SOS],[S2S_SEQ],[EOS]分别表示三元组的开始标识符，三元组分隔符和三元组结束标识符。

进一步的，所述1)将输入句子中的每个词或字映射成对应的字向量，具体包括：

利用通过word2vec训练得到训练集的字向量表示，将输入训练样例中的每个字映射成对应的字向量，选取训练样例中长度最长的值为max_len,当句子长度小于max_len用特殊的占位符补充。

进一步的，所述3)通过二进制分类器，分别预测出训练样例中每个主实体的开始位置p^start和结束位置p^end，以及主实体的向量表示

具体包括：

p^start＝σ(W_startx_i+b_start)

p^end＝σ(W_endx_j+b_end)

其中，p^start代表主实体的开始位置，p^end代表副实体的结束位置，W_start,W_end,b_start和 b_end分别是训练参数，主实体标记通过优化下面的似然函数，获得更好的性能：

其中，x_j表示训练集中第j个句子，i表示句子中字的下标，N表示句子长度，t表示句子中的主实体下标，s表示句子的主实体，p_θ(s|x_j)表示x_j句子中主实体 s的概率，I{z}是指示函数，当z为真时I{z}＝1，否则为0，

和

分别为第i个字的标签，当值为1时，表示其为主实体开始位置，否则为结束位置。。

进一步的，所述6)选取所有样本的最大似然函数作为模型的目标函数，具体包括：

对所有训练样本，通过最大化样本的最大似然函数来训练模型，更新模型中的参数直至收敛，训练的目标函数Loss定义如下：

其中x表示训练集中的句子，s表示主实体，r表示关系，o表示副实体，T表示三元组的集合。

一种计算机可读存储介质，其该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如任一项所述的基于Transformer的实体关系联合抽取方法。

一种基于Transformer的实体关系联合抽取***，其包括：

数据预处理模块，用于将训练数据中的主实体、关系和副实体的开始位置标识出来；

模型训练模块，用于将训练数据的句子中的每个字映射成对应的词向量，输入基于Transformer的神经网络模型中，并通过反向传播算法进行训练，得到实体关系抽取模型；

结果处理模块，用于将需要进行实体关系抽取的句子输入到训练完成的实体关系抽取模型中，抽取出句子中可能的三元组信息。

本发明的优点及有益效果如下：

本发明提出一种基于Transformer的实体关系联合抽取模型，同时引入半指针半标记网络，将实体关系联合抽取任务视为序列到序列的任务，先抽取出主实体，然后再抽取出副实体和关系。在主实体预测阶段，通过半指针半标记网络，分别预测出句子中主实体的开头位置和结束位置，该过程可以同时预测多个主实体，在副实体预测阶段，每个半指针半标记网络对应一个三元组关系，同时预测出副实体的开始位置和结束位置。本发明也针对该模型提出了对应的优化函数。相对于传统的流水线的抽取方法，本发明不存在错误传播问题，同时考虑到命名实体识别和关系抽取的相关性。

附图说明

图1是本发明提供优选实施例提供的一种可能的***框架流程图；

图2为本发明实施例提供的一种基于Transformer的神经网络结构图；

图3为本发明实施例提供的一种transformer的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明提出了一种基于Transformer的实体关系联合抽取方法、介质及***，包括：

一种基于Transformer的实体关系联合抽取方法，包括：

首先，将训练数据中的训练样例进行数据处理，将训练样例与三元组用预设的分隔符分隔开，同时训练样例需要开始标识符和结束标识符，多个三元组之间也需要连接标识符，并标注主实体、关系和副实体的开始位置和结束位置。将处理过后的训练样例进行字向量化，字向量相较于词向量可以一定程度上避免OOV问题，但存在切分边界的问题，这里也可以采用词向量化的方法，具体采用哪种向量化方法，根据不同应用场景进行选择。

将处理后的训练样例中的字向量，输入到基于Transformer的神经网络模型中，并通过反向传播算法进行模型训练，得到模型所需参数。

将需要进行实体关系抽取的句子输入训练完成的基于Transformer的实体关系联合抽取模型中，预测出句子中可能的实体关系三元组。。

具体的，如图1所示，图1为本实施例中基于Transformer的实体关系联合抽取方法流程图，如图所示，该方法主要包括三个阶段：训练数据预处理阶段，模型训练阶段和模型预测阶段。

步骤101根据训练集中的训练样例和三元组信息，使用预设的标识符处理。其中，训练样例需要至少两种标识符，分别是开始标识符和结束标识符。该样例的三元组信息需要至少三种标识符，分别是开始标识符、分隔符和结束标识符。其中，三元组处理后的数据如下：

[SOS]h⁽¹⁾,r⁽¹⁾,t⁽¹⁾[S2S_SEQ]

h⁽²⁾,r⁽²⁾,t⁽²⁾[S2S_SEQ]

...

h⁽ⁿ⁾,r⁽ⁿ⁾,t⁽ⁿ⁾[EOS]

步骤102，用无标注的语料，通过word2vec训练得到具有语义信息的字向量表示，提供给模型使用。

步骤103，结合图2，基于Transformer的实体关系联合抽取模型包括以下具体步骤：

步骤1，利用通过word2vec训练得到训练集的字向量表示，将输入训练样例中的每个字映射成对应的字向量，选取训练样例中长度最长的值为max_len,当句子长度小于max_len用特殊的占位符补充。

步骤2，在将字向量与位置向量进行特殊处理，赋予输入向量位置信息，将其作为模型输入，采用多层的Transformer编码器学习输入句子中每个字的上下文信息，得到对应的向量表示H_l。

步骤3，得到向量表示H_l后，再采用二进制分类器分别预测出主实体的开始位置p^start和结束位置p^end，该过程可以预测出多个主实体，解决了三元组的重叠问题。该过程的详细过程如下：

p^start＝σ(W_startx_i+b_start)

p^end＝σ(W_endx_j+b_end)

其中，p^start代表主实体的开始位置，p^end代表副实体的结束位置，W_start,W_end,b_start和 b_end分别是训练参数。主实体标记通过优化下面的似然函数，获得更好的性能：

其中，I{z}是指示函数，当z为真时I{z}＝1，否则为0，x_j表示训练集中第j个句子，i表示句子中字的下标，N表示句子长度，t表示句子中的主实体下标，s表示句子的主实体，p_θ(s|x_j)表示x_j句子中主实体s的概率，。

和

分别为第i个字的标签，当值为1时，表示其为主实体开始位置，否则为结束位置。

步骤4，得到主实体后，将主实体与transformer编码器得到的表示向量H_l进行特殊处理，得到包含主实体信息的上下文表示向量，再将其输入到解码器当中，达到解码后的上下文信息，将其再通过二进制分类器分别预测出副实体的开始位置

和副实体的结束位置

该过程的详细过程如下：

其中

代表第i个位置是实体开始位置的概率，

代表第j个位置是实体结束位置的概率。W_start,W_end,b_start和b_end分别是训练参数。主实体和关系的似然函数如下：

其中解码器如图3所示，包含多头自注意力机制等。

步骤5，对所有训练样本，通过最大化样本的最大似然函数来训练模型，更新模型中的参数直至收敛，训练的目标函数Loss定义如下：

步骤6，通过反向传播算法训练模型，更新模型中所有的参数，并最终得到实体关系联合抽取模型。

步骤104，把需要进行实体关系联合抽取的句子，输入到上面得到的实体关系联合抽取模型中，预测于句子中可能的三元组。

由上述方案可以看出，本方案针对实体关系联合抽取模型中，对整个句子关系信息利用不足的问题，引入Transformer编码器进行深度特征的提取，可以提高模型的预测性能，具有良好的实用性。

本发明另一实施例提供一种基于Transformer的实体关系联合抽取***，其包括：

数据预处理模块，负责将训练数据中的主实体、关系和副实体的开始位置标识出来。

模型训练模块，负责将训练数据的句子中的每个字映射成对应的词向量，输入基于Transformer的神经网络模型中，并通过反向传播算法进行训练看，得到实体关系抽取模型。

结果处理模块，负责将需要进行实体关系抽取的句子输入到训练完成的实体关系抽取模型中，抽取出句子中可能的三元组信息。

本发明中，编码层和解码层的Transformer网络可以替换为其他的神经网络结构。

优选，另一实施例为：一种基于Transformer的实体关系联合抽取***，其包括：

输入层：输入层利用了与transformer相同的模型输入，将字嵌入、位置嵌入进行特殊处理得到相应的文本表示输入到模型中。

编码层：我们使用多层transformer编码器对句子进行编码，根据之前的研究表明，深度学习模型的层次越深越能提取到句子深层次的语义表示，编码层设计了12层的Transformer，Transformer中多头注意力机制也能起到类似于多通道卷积神经网络的效果。

解码层：在预测主实体后将其与句子向量表示相加过程会对副实体与关系的预测产生影响，多层解码器可以克服这个问题，输出层会输出副实体的开始位置和结束位置。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于Transformer的实体关系联合抽取方法，其特征在于，包括以下步骤：

获取互联网数据集，并对互联网数据集进行如下预处理，将数据集中的句子与对应的三元组用预设的标识符连接起来，并标注主实体、关系和副实体的开始位置和结束位置，并且涉及到多个三元组时需要预设的分隔符，同时训练数据需要预设的开始和结束标识符，处理后的数据如下；

将处理过后的数据集中的每个字进行向量化映射，同时通过每个字在句中的位置计算出位置向量，输入到基于Transformer的神经网络模型中，再通过反向传播算法进行训练，得到基于Transformer的实体关系联合抽取模型；

将需要进行实体关系抽取的句子输入到训练完成的基于Transformer的实体关系联合抽取模型中，预测出句子中的三元组。

2.根据权利要求1所述的一种基于Transformer的实体关系联合抽取方法，其特征在于，所述基于Transformer的神经网络模型的训练过程包括：

1)将输入句子中的每个词或字映射成对应的字向量；

2)在编码层，把训练样例中的每个字对应的字向量作为输入，采用Transformer编码器学习句子中每个字的上下文信息,同时得到表示向量H_l；

通过预设的方式拼接或者简单相加，得到新的上下文表示向量M_l，在对M_l进行解码，通过二进制分类器分类出副实体；

6)选取所有样本的最大似然函数作为模型的目标函数；

3.根据权利要求1或2所述的一种基于Transformer的实体关系联合抽取方法，其特征在于，所述根据训练集中的训练样例和三元组信息，使用特殊的标识符处理，其中，训练样例需要至少两种标识符，分别是开始标识符和结束标识符；该样例的三元组信息需要至少三种标识符，分别是开始标识符、分隔符和结束标识符；其中，三元组处理后的数据如下：

[SOS]h⁽¹⁾,r⁽¹⁾,t⁽¹⁾[S2S_SEQ]

h⁽²⁾,r⁽²⁾,t⁽²⁾[S2S_SEQ]

...

h⁽ⁿ⁾,r⁽ⁿ⁾,t⁽ⁿ⁾[EOS]

4.根据权利要求2所述的一种基于Transformer的实体关系联合抽取方法，其特征在于，所述1)将输入句子中的每个词或字映射成对应的字向量，具体包括：

5.根据权利要求2所述的一种基于Transformer的实体关系联合抽取方法，其特征在于，所述3)通过二进制分类器，分别预测出训练样例中每个主实体的开始位置p^start和结束位置p^end，以及主实体的向量表示

具体包括：

p^start＝σ(W_startx_i+b_start)

p^end＝σ(W_endx_j+b_end)

其中，p^start代表主实体的开始位置，p^end代表副实体的结束位置，W_start,W_end,b_start和b_end分别是训练参数，主实体标记通过优化下面的似然函数，获得更好的性能：

其中，x_j表示训练集中第j个句子，i表示句子中字的下标，N表示句子长度，t表示句子中的主实体下标，s表示句子的主实体，p_θ(s|x_j)表示x_j句子中主实体s的概率，I{z}表示指示函数，当z为真时I{z}＝1，否则为0，

和

6.根据权利要求2所述的一种基于Transformer的实体关系联合抽取方法，其特征在于，所述6)选取所有样本的最大似然函数作为模型的目标函数，具体包括：

7.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1-6任一项所述的基于Transformer的实体关系联合抽取方法。

8.一种基于Transformer的实体关系联合抽取***，其特征在于，包括：

模型训练模块，用于将训练数据的句子中的每个字映射成对应的词向量，输入基于Transformer的神经网络模型中，并通过反向传播算法进行训练，得到基于Transformer的实体关系抽取模型；