CN111985245A

CN111985245A - 基于注意力循环门控图卷积网络的关系提取方法及***

Info

Publication number: CN111985245A
Application number: CN202010850462.8A
Authority: CN
Inventors: 钱雪忠; 王晓霞
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-11-24
Anticipated expiration: 2040-08-21
Also published as: CN111985245B

Abstract

本发明涉及一种基于注意力循环门控图卷积网络的关系提取方法及***，包括对语句进行语义依存分析，将单词嵌入与位置特征相连接，得到最终的单词嵌入表示；构建BLSTM网络层，提取单词上下文特征向量；对所述依赖树应用注意力机制，得到带有权重信息的全连通图的软邻接矩阵；将所述单词上下文特征向量和软邻接矩阵传入门控图卷积网络中，提取高阶语义依赖特征，得到语句的向量表示；将两个标记实体的向量表示抽取出来并与所述语句的向量表示拼接，传入所述门控图卷积网络的全连接层中，计算每个关系类型的概率以及预测关系类别，最终得到语句的关系类别。本发明避免了关键信息丢失，实现对关系提取性能的提升实现对关系提取性能的提升。

Description

基于注意力循环门控图卷积网络的关系提取方法及***

技术领域

本发明涉及自然语言处理关系提取的技术领域，尤其是指一种基于注意力循环门控图卷积网络(Attention Recurrent Gating Graph Convolutional Network，简称Att-RGate-GCN)的关系提取方法及***。

背景技术

关系提取是自然语言处理领域的一项重要子任务，是对非结构化文本进行大规模关系理解应用的基石，它在信息抽取、问答***和知识图谱等领域有着广泛应用。随着大数据时代的到来，处理***性数据的能力要求越来越高，正确理解句子中存在的关系越来越重要。关系提取是根据预先定义的关系类型来识别文本中俩实体之间的语义关系。例如，″The train＜e1＞crash＜/e1＞was caused by terrorist＜e₂＞attack＜/e₂＞.″，根据给定的句子以及标记的两个实体判定‘crash’与‘attack’之间的关系为Cause-Effect(e₁，e₂)。

最初的关系提取方法主要是基于特征和基于核函数的方法，分别基于选择合适的特征集和设计合适的核函数。随着神经网络被广泛应用于各项研究，卷积神经网络(Convolutional Neural Network，简称CNN)以及循环神经网络(Recurrent NeuralNetwork，简称RNN)也被广泛应用于关系提取任务中，通过CNN提取局部n-gram特征，RNN提取句子中的长距离依赖特征，从而实现句子的特征向量表示，并通过全连接层softmax分类器得到最终提取的关系类型。为了充分理解句子语义结构，引入句子依存分析的依赖树结构，通过依赖树提取更有效的句子高阶语义信息。

随着图网络在各领域的发展，图卷积网络被越来越多研究者应用于自然语言处理任务中。图卷积网络通过对图进行建模，利用词的共现信息建立词节点之间的边缘，捕获高阶邻域信息。在图卷积过程中，对转换成图结构的依赖树进行建模，将每个节点的邻域信息编码为特征向量，在图中所有位置共享滤波器参数。GCN中的卷积运算与CNN中的相似之处在于模型在输入结构中共享参数。在每一层中，每个节点从其邻接节点汇聚特征信息。

但是，如果单纯利用图卷积网络提取依赖树中的特征，会导致忽视句子中的非局部长距离依赖特征。一是因为依赖树没有得到充分利用，二是因为图卷积网络在网络层数较深的时候会导致关键信息的丢失。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中依赖树没有得到充分利用，且关键信息会丢失的问题，从而提供一种充分利用依赖树并充分提取依赖树中的特征，避免关键信息丢失的基于注意力循环门控图卷积网络的关系提取方法及***。

为解决上述技术问题，本发明的一种基于注意力循环门控图卷积网络的关系提取方法，包括：对语句进行语义依存分析，为每个输入语句构建一个唯一的依赖树，使用预训练的词向量获得单词嵌入表示，将单词嵌入与位置特征相连接，得到最终的单词嵌入表示；构建BLSTM网络层，设置BLSTM网络结构的各项超参数数值，将所述最终的单词嵌入表示输入到所述BLSTM网络中，提取单词上下文特征向量；对所述依赖树应用注意力机制，将所述依赖树转化为全连通图，得到带有权重信息的全连通图的软邻接矩阵；将所述单词上下文特征向量和软邻接矩阵传入门控图卷积网络中，提取高阶语义依赖特征，得到语句的向量表示；将两个标记实体的向量表示抽取出来并与所述语句的向量表示拼接，传入所述门控图卷积网络的全连接层中，计算每个关系类型的概率以及预测关系类别，得到所有训练示例，通过所述门控图卷积网络不断训练得到最优的网络模型，最终得到语句的关系类别。

在本发明的一个实施例中，使用预训练的词向量获得单词嵌入向量表示：w_i＝W*v_i其中，W为Glove词向量矩阵，v_i表示单词的one-hot向量表示，w_i表示第i个单词的词嵌入向量。

在本发明的一个实施例中，所述最终的单词嵌入表示为：x_i＝[w_i，p₁，p₂]，其中第i个单词相对于预先标记的第一实体和第二实体的位置特征分别表示为p₁和p₂，w_i表示第i个单词的词嵌入向量。

在本发明的一个实施例中，所述BLSTM网络层包括两层LSTM，在两层LSTM上分别对前向句子序列和反向句子序列进行编码。

在本发明的一个实施例中，在两层LSTM上分别对前向句子序列和反向句子序列进行编码时，编码的过程为：i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)；f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)；g_t＝tanh(W_xgx_t+W_hgh_t-1+W_cgc_t-1+b_g)；

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)；

其中，σ代表sigmoid激活函数；

代表向量元素相乘；x_t表示时间t时刻的输入向量；h_t表示隐藏状态；W_xi、W_xf、W_xg、W_xo表示x_t在不同门机制上的权重矩阵；W_hi、W_hf、W_hg、W_ho表示h_t在不同门机制上的权重矩阵；b代表偏差参数，在第t时刻，BLSTM的前向输出为

反向输出为

将两个方向的输出拼接得到最终t时刻的输出h_t：

在本发明的一个实施例中，对所述依赖树应用注意力机制，将所述依赖树转化为全连通图的方法为：将依赖树的表示邻接矩阵加上一个单位矩阵，然后通过多头自注意力学习依赖树中每两个节点之间的相关性，将所述依赖树转化为全连通图。

在本发明的一个实施例中，所述软邻接矩阵为：

且中head_i＝Attention(W_i ^QQ，W_i ^KK)，MultiHead(Q，K)＝W^M[head₁；head₂；...；head_r]，W_i ^Q、W_i ^K和W^M为模型可训练变量，’；’表示向量的拼接操作，head_i表示第i个头的注意力输出。

在本发明的一个实施例中，将所述单词上下文特征向量和软邻接矩阵传入门控图卷积网络中的方法分为：对转换成全连通图结构的依赖树进行建模，将每个节点的邻域信息与非局部长距离依赖特征编码为特征向量，使用门控机制过滤信息。

在本发明的一个实施例中，计算每个关系类型的概率以及预测关系类别的方法为：通过softmax分类器计算每个关系类型的概率，再通过argmax函数得到预测关系类别。

本发明还提供了一种基于注意力循环门控图卷积网络的关系提取***，其特征在于，包括：语义依存分析模块，用于对语句进行语义依存分析，为每个输入语句构建一个唯一的依赖树，使用预训练的词向量获得单词嵌入表示，将单词嵌入与位置特征相连接，得到最终的单词嵌入表示；构建网络模块，用于构建BLSTM网络层，设置BLSTM网络结构的各项超参数数值，将所述最终的单词嵌入表示输入到所述BLSTM网络中，提取单词上下文特征向量；注意力机制模块，用于对所述依赖树应用注意力机制，将所述依赖树转化为全连通图，得到带有权重信息的全连通图的软邻接矩阵；门控图卷积网络提取特征模块，用于将所述单词上下文特征向量和软邻接矩阵传入门控图卷积网络中，提取高阶语义依赖特征，得到语句的向量表示；关系预测模块，用于将两个标记实体的向量表示抽取出来并与所述语句的向量表示拼接，传入所述门控图卷积网络的全连接层中，计算每个关系类型的概率以及预测关系类别，得到所有训练示例，通过所述门控图卷积网络不断训练得到最优的网络模型，最终得到语句的关系类别。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的基于注意力循环门控图卷积网络的关系提取方法及***，能够更充分地学习到句子的高阶语义信息，为有效提取到句子依赖树中的依赖特征，使用多头自注意力机制为依赖树的信息分配权重，以此来突出有效特征，同时减少冗余特征的影响，最终将依赖树转化为完全连通图的形式；将循环神经网络与门控图卷积网络搭配使用，其中利用循环神经网络提取字符上下文信息，获取细粒度特征，然后将其与完全依赖图的邻接矩阵传入门控图卷积网络，通过门控机制增加特征感知能力，学习隐藏层抽取到的序列特征中的高阶语义信息，最终充分学习到句子序列特征以及局部与非局部依赖特征，从而避免了关键信息丢失，实现对关系提取性能的提升。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明基于注意力循环门控图卷积网络的关系提取方法的流程图；

图2是本发明基于注意力循环门控图卷积网络的流程图。

具体实施方式

实施例一

如图1和图2所示，本实施例提供一种基于注意力循环门控图卷积网络的关系提取方法，包括如下步骤：步骤S1：对语句进行语义依存分析，为每个输入语句构建一个唯一的依赖树，使用预训练的词向量获得单词嵌入表示，将单词嵌入与位置特征相连接，得到最终的单词嵌入表示；步骤S2：构建BLSTM网络层，设置BLSTM网络结构的各项超参数数值，将所述最终的单词嵌入表示输入到所述BLSTM网络中，提取单词上下文特征向量；步骤S3：对所述依赖树应用注意力机制，将所述依赖树转化为全连通图，得到带有权重信息的全连通图的软邻接矩阵；步骤S4：将所述单词上下文特征向量和软邻接矩阵传入门控图卷积网络中，提取高阶语义依赖特征，得到语句的向量表示；步骤S5：将两个标记实体的向量表示抽取出来并与所述语句的向量表示拼接，传入所述门控图卷积网络的全连接层中，计算每个关系类型的概率以及预测关系类别，得到所有训练示例，通过所述门控图卷积网络不断训练得到最优的网络模型，最终得到语句的关系类别。

本实施例所述基于注意力循环门控图卷积网络的关系提取方法，所述步骤S1中，对语句进行语义依存分析，为每个输入语句构建一个唯一的依赖树，语义依存刻画句子语义，优点在于不用去抽象单词本身，而是通过单词所承受的语义框架来刻画单词，而且语义依存分析跨越句子表层句法结构的束缚，表达深层次的语义信息，使用预训练的词向量获得单词嵌入表示，考虑到实***置特征对于识别句子关键特征有重要作用，因此将单词嵌入与位置特征相连接，得到最终的单词嵌入表示；所述步骤S2中，构建BLSTM网络层，设置BLSTM网络结构的各项超参数数值，由于预训练的单词嵌入只允许对每个单词进行单独的上下文无关的表示，因此在多义词上具有挑战性，因此将所述最终的单词嵌入表示输入到所述BLSTM网络中，提取单词上下文特征向量，有利于弥补词嵌入向量的不足；所述步骤S3中，对所述依赖树应用注意力机制，有利于充分利用依赖树中的有效信息，将所述依赖树转化为全连通图，得到带有权重信息的全连通图的软邻接矩阵，以此学习每个节点之间的依赖关系，同时将关键特征赋予高的相关性权重，可以更充分学习相关特征同时减少无关信息的干扰；所述步骤S4中，将所述单词上下文特征向量和软邻接矩阵传入门控图卷积网络中，提取高阶语义依赖特征，得到语句的向量表示，由于在图卷积网络中加入了门控机制，通过门控机制有利于增加特征感知能力，在保留有效记忆信息的同时减少冗余信息的干扰，学习隐藏层抽取到的序列特征中的高阶语义信息，充分学习到句子局部依赖特征与非局部长距离依赖特征；所述步骤S5中，将两个标记实体的向量表示抽取出来并与所述语句的向量表示拼接，传入所述门控图卷积网络的全连接层中，计算每个关系类型的概率以及预测关系类别，得到所有训练示例，通过所述门控图卷积网络不断训练得到最优的网络模型，最终得到语句的关系类别，本发明不但能够更充分地学习到句子的高阶语义信息，而且避免了关键信息丢失，实现对关系提取性能的提升。

如图2所示，所述步骤S1中，对数据集中的语句进行语义依存分析，为每个输入语句构建一个唯一的依赖树时，其中每个节点代表句子中的单词，每条边代表词与词之间的依赖特征，语义依存刻画句子语义，优点在于不用去抽象单词本身，而是通过单词所承受的语义框架来刻画单词，而且语义依存分析跨越句子表层句法结构的束缚，表达深层次的语义信息。

使用预训练的词向量获得单词嵌入向量表示的方法为：使用预训练的Glove词向量获得单词嵌入向量表示：w_i＝W*v_i其中，W为Glove词向量矩阵，v_i表示单词的one-hot向量表示，w_i表示第i个单词的词嵌入向量。

所述最终的单词嵌入表示为：x_i＝[w_i，p₁，p₂]，其中第i个单词相对于预先标记的第一实体和第二实体的位置特征分别表示为p₁和p₂，w_i表示第i个单词的词嵌入向量。

具体地，依赖特征即依赖的表示采用随机初始化的方法获得嵌入向量。此外，考虑到实***置特征对于识别句子关键特征有重要作用，将每个单词相对于实体对的位置信息通过随机初始化编码为位置嵌入向量表示，第i个单词想对于第一实体1和第二实体的位置特征分别表示为p₁和p₂，将单词嵌入与位置特征相连接，得到最终单词嵌入表示x_i＝[w_i，p₁，p₂]。

所述步骤S2中，提取单词上下文特征向量的方法为利用循环神经网络实现。

所述BLSTM网络层包括两层LSTM，在两层LSTM上分别对前向句子序列和反向句子序列进行编码。

具体地，在两层LSTM上分别对前向句子序列和反向句子序列进行编码时，编码的过程为：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)；

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)；

g_t＝tanh(W_xgx_t+W_hgh_t-1+W_cgc_t-1+b_g)；

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)；

其中，σ代表sigmoid激活函数；

反向输出为

将两个方向的输出拼接得到最终t时刻的输出h_t：

所述步骤S3中，对所述依赖树应用注意力机制，将所述依赖树转化为全连通图的方法为：将依赖树的表示邻接矩阵加上一个单位矩阵，然后通过多头自注意力学习依赖树中每两个节点之间的相关性，将所述依赖树转化为全连通图。

所述软邻接矩阵为：

其中head_i＝Attention(W_i ^QQ，W_i ^KK)，MultiHead(Q，K)＝W^M[head₁；head₂；...；head_r]，W_i ^Q、W_i ^K和W^M为模型可训练变量，’；’表示向量的拼接操作，head_i表示第i个头的注意力输出。

具体地，将依赖树的结构信息通过邻接矩阵A来表示，其中如果节点i与节点j之间存在关系，则设置A_ij＝1，由此句子依赖特征已全部表示为向量。

由于所述依赖树的表示邻接矩阵A无法学习到节点自身特征表示，因此将邻接矩阵A加上一个单位矩阵l；然后通过多头自注意力学习依赖树中每两个节点之间的相关性，由此将依赖树转化为全连通图，以此学习每个节点之间的依赖关系，同时将关键特征赋予高的相关性权重，可以更充分学习相关特征同时减少无关信息的干扰。

多头自注意机制首先通过缩放点击注意力机制利用线性函数将输入的依赖特征映射到两个相似序列中，然后利用点乘计算每个节点特征与与其他节点之间的相关性，缩放点积注意力机制计算：

自注意力机制为了从多方面捕捉节点之间的相关性，采用多头机制，使用单独的规范化参数在相同的输入上多次应用自注意力机制，并将结果结合起来作为注意力层的输出，使得模型能够共同关注来自不同表示子空间中的信息，计算如下：

MultiHead(Q，K)＝W^M[head₁；head₂；...；head_r]

head_i＝Attention(W_i ^QQ，W_i ^KK)

其中W_i ^Q、W_i ^K和W^M为模型可训练变量，’；’表示向量的拼接操作，head_i表示第i个头的注意力输出。对于邻接矩阵实施多头自注意力机制，进一步得到带有权重信息的全连通图的软邻接矩阵

所述步骤S4中，将所述单词上下文特征向量和软邻接矩阵传入门控图卷积网络中的方法分为：对转换成全连通图结构的依赖树进行建模，将每个节点的邻域信息与非局部长距离依赖特征编码为特征向量，使用门控机制过滤信息。

具体地，所述上下文特征向量和软邻接矩阵传入门控图卷积结构，从而有利于提取高阶语义依赖特征。另外，在图卷积过程中，对转换成图结构的依赖树进行建模，将每个节点的邻域信息与非局部长距离依赖特征编码为特征向量，其中每个节点的邻域信息编码为特征向量，在图中所有位置共享滤波器参数；在每一层网络，每个节点从其邻接节点汇聚特征信息，但是随着图卷积网络深度的加深，汇聚更多依赖特征的同时会造成对先前信息的丢失，从而导致无法学习图中的远距离依赖特征，而使用门控机制过滤信息，通过门控机制增加特征的感知能，在保留有效记忆信息的同时可以减少冗余信息的干扰，门控图卷积计算如下：

其中，GCN₁和GCN₂分别是具有残差连接结构的深层图卷积网络结构，这两个图卷积结构权重不共享，其中GCN₁为2层结构提取相邻距离为2的邻域节点的语义依赖特征，GCN₂为4层残差连接的图卷积网络来设置门限值，控制冗余信息，其中GCN为基于注意力的图卷积运算，如式：

其中，

表示第I层GCN的输出特征，

表示软邻接矩阵中的节点i与节点i之间的权重信息，

表示节点j在I-1层上的输出特征，b^l表示I层上的偏差项。

所述步骤S5中，计算每个关系类型的概率以及预测关系类别的方法为：通过softmax分类器计算每个关系类型的概率，再通过argmax函数得到预测关系类别。

具体地，在经过门控图卷积结构之后，得到句子的向量表示S_sent：

S_sent＝f(h^(L))＝f(GateGCN(h⁽⁰⁾))

考虑到实体附近的信息的有效性，将两个标记实体的向量表示抽取出来与语句向量拼接，传入所述门控图卷积网络的全连接层中：

h_final＝FCNN([S_sent；S_e1；S_e2])

将h_final通过softmax分类器计算每个关系类型的概率p(y|x，θ)，最终通过argmax函数得到预测关系类别

得到所有训练示例

利用带L₂正则项的交叉熵损失函数作为代价函数，并采用随机梯度下降算法训练模型参数，如下式：

其中，y_i表示关系类别标签，λ是正则化参数，θ表示网络模型的训练参数。

使用本发明提出的关系提取方法对关系提取数据集进行预测，使用标准数据集进行验证，数据集包含10717个句子实例，其包括8000个训练实例和2717个测试实例。关系类型包括9类关系和一个other类。

以下是预测实例：

The play reflects，among other things，questions about the nature ofpolitical power and the dilemmas facing royal families.

第一实体：play

第二实体：question

关系：Message-Topic(e1，e2)

根据标记的第一实体与第二实体，模型能够正确预测句子中两实体的关系类型，最终F1值(数据集的官方评价指标，其中数据集用的是标准数据集SemEval2010-Task8数据集)达到了85.9％，证明了模型的性能。

预测结果表明基于注意力循环门控图卷积网络模型的关系提取方法比其它方法学习到更充分的关系特征，实现更好的关系提取效果。因此，本发明提出的方法可以有效对句子中存在的关系进行有效识别，实现高效的智能化处理。

实施例二

基于同一发明构思，本实施例提供了一种基于注意力循环门控图卷积网络的关系提取***，其解决问题的原理与所述基于注意力循环门控图卷积网络的关系提取方法类似，重复之处不再赘述。

本实施例提供一种基于注意力循环门控图卷积网络的关系提取***，包括：

语义依存分析模块，用于对语句进行语义依存分析，为每个输入语句构建一个唯一的依赖树，使用预训练的词向量获得单词嵌入表示，将单词嵌入与位置特征相连接，得到最终的单词嵌入表示；

构建网络模块，用于构建BLSTM网络层，设置BLSTM网络结构的各项超参数数值，将所述最终的单词嵌入表示输入到所述BLSTM网络中，提取单词上下文特征向量；

注意力机制模块，用于对所述依赖树应用注意力机制，将所述依赖树转化为全连通图，得到带有权重信息的全连通图的软邻接矩阵；

门控图卷积网络提取特征模块，用于将所述单词上下文特征向量和软邻接矩阵传入门控图卷积网络中，提取高阶语义依赖特征，得到语句的向量表示；

关系预测模块，用于将两个标记实体的向量表示抽取出来并与所述语句的向量表示拼接，传入所述门控图卷积网络的全连接层中，计算每个关系类型的概率以及预测关系类别，得到所有训练示例，通过所述门控图卷积网络不断训练得到最优的网络模型，最终得到语句的关系类别。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于注意力循环门控图卷积网络的关系提取方法，其特征在于，包括如下步骤：

步骤S1：对语句进行语义依存分析，为每个输入语句构建一个唯一的依赖树，使用预训练的词向量获得单词嵌入表示，将单词嵌入与位置特征相连接，得到最终的单词嵌入表示；

步骤S2：构建BLSTM网络层，设置BLSTM网络结构的各项超参数数值，将所述最终的单词嵌入表示输入到所述BLSTM网络中，提取单词上下文特征向量；

步骤S3：对所述依赖树应用注意力机制，将所述依赖树转化为全连通图，得到带有权重信息的全连通图的软邻接矩阵；

步骤S4：将所述单词上下文特征向量和软邻接矩阵传入门控图卷积网络中，提取高阶语义依赖特征，得到语句的向量表示；

步骤S5：将两个标记实体的向量表示抽取出来并与所述语句的向量表示拼接，传入所述门控图卷积网络的全连接层中，计算每个关系类型的概率以及预测关系类别，得到所有训练示例，通过所述门控图卷积网络不断训练得到最优的网络模型，最终得到语句的关系类别。

2.根据权利要求1所述的基于注意力循环门控图卷积网络的关系提取方法，其特征在于：使用预训练的词向量获得单词嵌入向量表示：w_i＝W*v_i其中，W为Glove词向量矩阵，v_i表示单词的one-hot向量表示，w_i表示第i个单词的词嵌入向量。

3.根据权利要求1所述的基于注意力循环门控图卷积网络的关系提取方法，其特征在于：所述最终的单词嵌入表示为：x_i＝[w_i，p₁，p₂]，其中第i个单词相对于预先标记的第一实体和第二实体的位置特征分别表示为p₁和p₂，w_i表示第i个单词的词嵌入向量。

4.根据权利要求1所述的基于注意力循环门控图卷积网络的关系提取方法，其特征在于：所述BLSTM网络层包括两层LSTM，在两层LSTM上分别对前向句子序列和反向句子序列进行编码。

5.根据权利要求4所述的基于注意力循环门控图卷积网络的关系提取方法，其特征在于：在两层LSTM上分别对前向句子序列和反向句子序列进行编码时，编码的过程为：i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)；f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)；g_t＝tanh(W_xgx_t+W_hgh_t-1+W_cgc_t-1+b_g)；

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)；

其中，σ代表sigmoid激活函数；

反向输出为

将两个方向的输出拼接得到最终t时刻的输出h_t：

6.根据权利要求1所述的基于注意力循环门控图卷积网络的关系提取方法，其特征在于：对所述依赖树应用注意力机制，将所述依赖树转化为全连通图的方法为：将依赖树的表示邻接矩阵加上一个单位矩阵，然后通过多头自注意力学习依赖树中每两个节点之间的相关性，将所述依赖树转化为全连通图。

7.根据权利要求1所述的基于注意力循环门控图卷积网络的关系提取方法，其特征在于：所述软邻接矩阵为：

8.根据权利要求1所述的基于注意力循环门控图卷积网络的关系提取方法，其特征在于：将所述单词上下文特征向量和软邻接矩阵传入门控图卷积网络中的方法分为：对转换成全连通图结构的依赖树进行建模，将每个节点的邻域信息与非局部长距离依赖特征编码为特征向量，使用门控机制过滤信息。

9.根据权利要求1所述的基于注意力循环门控图卷积网络的关系提取方法，其特征在于：计算每个关系类型的概率以及预测关系类别的方法为：通过softmax分类器计算每个关系类型的概率，再通过argmax函数得到预测关系类别。

10.一种基于注意力循环门控图卷积网络的关系提取***，其特征在于，包括：