CN112860904A

CN112860904A - 一种融入外部知识的生物医疗关系抽取方法

Info

Publication number: CN112860904A
Application number: CN202110367973.9A
Authority: CN
Inventors: 王春宇; 张�浩; 梁天铭; 刘晓燕; 刘国军; 郭茂祖
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-05-28
Anticipated expiration: 2041-04-06
Also published as: CN112860904B

Abstract

一种融入外部知识的生物医疗关系抽取方法，涉及自然语言处理技术领域，针对远程监督技术的训练数据存在噪声干扰的问题，本申请提出的生物医疗实体关系抽取方法，更为充分的利用句子间和句子内部丰富的语义信息和结构信息以及生物医疗实体在外部知识库中的信息，降低数据集中存在的噪声干扰，使得模型更为稳定，能得到更为准确的关系预测。

Description

一种融入外部知识的生物医疗关系抽取方法

技术领域

本发明涉及自然语言处理技术领域，具体为一种融入外部知识的生物医疗关系抽取方法。

背景技术

随着社会飞速发展，目前已经进入信息***时代，在生物医疗领域中，每天都有数以千计的生物医疗文献公开发表，这些文献中含有海量的生物医疗实体关系，医生、专家们对其中的有效信息筛选与归纳的需求日益迫切，如何从海量数据提取有效信息成为一个难题。

目前，在关系抽取技术中常常采用基于监督学习的关系抽取技术，这个技术需要大量的人工标注训练数据，非常的耗时费力。因此，自动、高效地抽取隐含在文献中的生物医疗实体关系能够有效节省人力和资源。

随着深度学习理论的发展，研究人员开始使用神经网络模型从生物医疗文献中自动地抽取实体关系。其中，最常用的方法就是使用远程监督技术，自动产生大量的训练数据以供人们使用，然而远程监督技术存在的严重问题之一是其产生的训练数据存在大量的噪声，这种情况在生物医疗数据上更为突出。神经网络模型在处理远程监督生物医疗数据产生的噪音上还没有十分有效的方法，因此，如何使用神经网络的方法应用于处理远程监督生物医疗数据噪声，是一个十分有意义的研究方向

发明内容

本发明的目的是：针对远程监督技术的训练数据存在噪声干扰的问题，提出一种融入外部知识的生物医疗关系抽取方法。

本发明为了解决上述技术问题采取的技术方案是：

一种融入外部知识的生物医疗关系抽取方法，包括以下步骤：

步骤一、对生物医疗数据集中每个句子中的每个单词进行词嵌入和位置嵌入操作，得到词向量和位置向量，然后将得到的词向量和位置向量进行拼接得到每个单词的向量表示，最后将句子中所有单词的向量表示进行拼接，得到每个句子的矩阵表示；

步骤二、将步骤一得到的每个句子的矩阵表示输入到PCNN神经网络中得到生物医疗数据集中每个句子的向量表示；

步骤三、获取生物医疗数据集中每个句子的头实体和尾实体，并在外部知识图谱中分别抽取与头实体有关系的实体以及与尾实体有关系的实体，得到以头实体为中心的关系图和以尾实体为中心的关系图，将得到的两个关系图输入到图编码器中构建头尾实体的外部知识图谱的综合向量表示；

步骤四、将生物医疗数据集中每个句子的向量表示和头尾实体的外部知识图谱的综合向量进行结合，得到包含外部信息的句子向量；

步骤五、对于每个实体对，选择包含该实体对的所有句子构成一个集合，根据包含外部信息的句子向量表示，采用句子级别注意力机制计算该集合中每个句子的注意力权重，然后以该集合中所有包含外部信息的句子表示的注意力加权和作为该集合的向量表示，并对该集合的向量表示进行预测，得到该实体对的预测关系。

进一步的，所述步骤三中图编码器采用KG-Transformer。

进一步的，所述KG-Transformer的编码过程为：

KG-Transformer将输入的两个关系图中的结点序列的向量表示X＝{x₁,x₂,...,x_N}输入到Muti-head Attention Layer与Add&Norm Layer：

所述Muti-head Attention Layer进行如下计算：

其中，

表示这一层H个注意头的拼接，x'_i表示输出的节点表示，A为邻接矩阵，i表示第i行，j表示第j列，d为结点嵌入的维度，

均为权重矩阵，N表示结点序列的长度，Masking(X,A)表示按照矩阵A中值为1的位置对矩阵X的相应位置的值进行掩码操作；

所述Add&Norm Layer进行如下计算：

O＝LayerNorm(X+X')

其中，X＝{x₁,x₂,......,x_N}，X为结点序列的向量表示，X'＝{x'₁,x'₂,......x'_N}，X'为Muti-head Attention Layer计算的输出，LayerNorm(·)为层归一化函数，该输出结果O将作为下一层Muti-head Attention Layer的输入；

上述计算过程重复L次，L为任意整数，得到所有结点的向量表示，最后分别将头实体和尾实体的关系图的所有结点的向量表示求和，得到头尾实体的综合向量表示。

进一步的，所述L取8、12、16或24。

进一步的，所述步骤二中PCNN神经网络通过卷积、池化和非线性操作得到生物医疗数据集中每个句子的向量表示。

进一步的，所述步骤二中PCNN神经网络具体执行如下步骤：

首先，采用滑动窗口大小为3的卷积核从句子的矩阵表示中提取局部特征，然后，通过最大池操作结合所有的局部特征，得到句子的矩阵表示的向量；

然后将得到的句子的矩阵表示的向量根据头实体和尾实体的位置分为三段，然后分别对每一段进行池化后得到三维向量：

将所有卷积核所对应的三维向量进行拼接，并利用激活函数进行非线性化，得到句子的最终向量表示。

进一步的，所述激活函数为tanh函数。

进一步的，所述关系图中的结点序列的向量表示为：

(e,r₁,e₁,r₂,e₂,...,r_n,e_n)

其中，实体e与实体e₁,e₂,...,e_n相关联，实体e与实体e₁,e₂,...,e_n的对应关系分别为r₁,r₂,...,r_n。

进一步的，所述步骤四中将生物医疗数据集中每个句子的向量表示和头尾实体的外部知识图谱的综合向量进行结合表示为：

MutiHead(Q,K,V)＝Concat(head₁,...,head_h)W_o

上式中Q表示每个句子的矩阵表示，K，V表示每个句子的向量表示，K和V是相等的；

W_o代表神经网络内部的权重矩阵，head_i代表计算的某一个头，不同的头表示对生物医疗语句的不同的表达，Concat(head₁,...,head_h)代表对不同的头进行连接后所得的向量。

进一步的，所述步骤五的具体步骤为：

采用句子级别的注意力机制计算句子集合中每个句子的注意力权重，以所有句子表示的注意力加权和作为该句子集合的向量表示，即

e_i＝x_iAr

α_i是句子向量x_i的权重，x_i是第i个句子的向量表示，A是对角权重矩阵，r是关系r的向量表示，s表示句子集合的向量表示；

最后根据该句子集合的向量表示s，使用softmax分类器计算该句子集合属于关系r的概率为：

P(r|S；θ)＝softmax(Ws+b)

其中W表示权重矩阵，s表示句子向量，b表示偏置项，θ为模型参数，S表示该句子集合。

本发明的有益效果是：

本申请提出的生物医疗实体关系抽取方法，更为充分的利用句子间和句子内部丰富的语义信息和结构信息以及生物医疗实体在外部知识库中的信息，降低数据集中存在的噪声干扰，使得模型更为稳定，能得到更为准确的关系预测。

附图说明

图1为本申请的整体流程图；

图2为本申请对单个句子包进行关系抽取时的模型示意图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的一种融入外部知识的生物医疗关系抽取方法，其特征在于包括以下步骤：

具体实施方式二：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述步骤三中图编码器采用KG-Transformer。

具体实施方式三：本实施方式是对具体实施方式二的进一步说明，本实施方式与具体实施方式二的区别是所述KG-Transformer的编码过程为：

所述Muti-head Attention Layer进行如下计算：

其中，

所述Add&Norm Layer进行如下计算：

O＝LayerNorm(X+X')

上述计算过程重复L次，L为超参数，L为任意整数，一般8，12，16，24，得到所有结点的向量表示，最后分别将头实体和尾实体的关系图的所有结点的向量表示求和，得到头尾实体的综合向量表示。

具体实施方式四：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述L取8、12、16或24。

具体实施方式五：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述步骤二中PCNN神经网络通过卷积、池化和非线性操作得到生物医疗数据集中每个句子的向量表示。

具体实施方式六：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述步骤二中PCNN神经网络具体执行如下步骤：

具体实施方式七：本实施方式是对具体实施方式六的进一步说明，本实施方式与具体实施方式六的区别是所述激活函数为tanh函数。

具体实施方式八：本实施方式是对具体实施方式六的进一步说明，本实施方式与具体实施方式六的区别是所述关系图中的结点序列的向量表示为：

(e,r₁,e₁,r₂,e₂,...,r_n,e_n)

具体实施方式九：本实施方式是对具体实施方式八的进一步说明，本实施方式与具体实施方式八的区别是所述步骤四中将生物医疗数据集中每个句子的向量表示和头尾实体的外部知识图谱的综合向量进行结合表示为：

MutiHead(Q,K,V)＝Concat(head₁,...,head_h)W_o

具体实施方式十：本实施方式是对具体实施方式九的进一步说明，本实施方式与具体实施方式九的区别是所述步骤五的具体步骤为：

e_i＝x_iAr

P(r|S；θ)＝softmax(Ws+b)

实施例：一种融入外部知识的生物医疗关系抽取方法，包括：

步骤一、将句子包中每个句子的单词进行嵌入操作，每个单词的词嵌入向量和位置嵌入向量拼接得到每个词对应的向量表示，再将每个句子中的所有词向量拼接，得到句子的矩阵表示。

将句子的矩阵表示输入到CNN层及piece-Max_pooling层，通过卷积，池化和非线性操作得到每个句子的向量表示。

CNN层即卷积层，卷积层首先提取句子上方滑动窗口长度为3的局部特征。然后，它通过最大池操作结合所有的局部特征，为输入句子获得一个固定大小的向量。这里，卷积被定义为向量序列w与卷积矩阵W之间的运算，

d^c是句子的嵌入维度，卷积操作可以通过一个长度为l的滑动窗口对局部特征进行提取。

在本发明中，考虑了两个实体的位置，池化操作可以进一步改进为分段池化，将卷积得到的每一维特征p_i从头实体和尾实体分为三段(p_i1,p_i2,p_i3)，然后分别对每一段进行池化：

[x_ij]＝max(p_ij)

然后[x_i]定义为[x_ij]的拼接。

在本步骤中的最后，对向量x进行如tanh函数的非线性化，得到句子的最终向量表示。

步骤二、生物医疗数据集中的每个句子都包含其头、尾实体，头实体、尾实体在外部知识库中会与其他实体存在关系，这些关系以三元组的形式表达，即<实体1，关系，实体2>。采用图的方式表示多个三元组，图中两个实体结点之间存在相应的关系结点与之相连接，这样头、尾实体分别与多个外部知识库中的实体相关联。将图中的实体结点、关系结点转化为序列的形式(e,r1,e₁,r₂,e₂,...,r_n,e_n)，其中实体e与实体e₁,e₂,...,e_n相关联，其对应关系分别为r₁,r₂,...,r_n。

将得到的头尾实体关系序列

与

进行结点嵌入，输入到KG-Transformer模型中进行特征提取，得到头实体与尾实体的KG表示。

其中KG-Transformer模型将输入的结点序列的综合向量表示X＝{x₁,x₂,...,x_n}输入到Muti-head Attention Layer与Add&Norm Layer：

其中，

表示这一层H个注意头的连接，

和

分别表示第h个注意力头结点x_j和结点嵌入X_j的线性变换的权重。

上述Transformer块堆叠L次，最终得到了头尾实体的KG表示。

步骤三、对上述两步得到的结果进行Knowledge-Attention操作，使用多头注意力机制，捕捉生物医疗文本中的数据和特征的内部相关性，此时得到的特征向量已融合外部知识。计算过程如公式如下：

MutiHead(Q,K,V)＝Concat(head₁,...,head_h)W_o

上式中Q是步骤一得到的综合向量表示，K，V是步骤二所描述的综合向量表示，K，V是相等的；

W_o代表神经网络内部的权重矩阵，head_i代表计算的某一个头，不同的头可以理解为对生物医疗语句的不同的表达，Concat(head₁,...,head_h)代表对不同的头进行连接后所得的向量。

步骤四、采用设置的句子级别注意力机制定义每一个句子向量表示的权重；

在本步骤中，采用一个基于查询的函数来衡量每个句子的向量表示x_i，与最终要预测的所述实体对的关系r之间的关联程度。

由于考虑了最终要预测的所述对实体间的关系r的信息，采用设置的句子级别注意力机制，通过分配给噪声句子更小的权重来降低噪声的影响。

最后将给定所有句子的集合和所述对实体，定义预测关系r的概率为：

其中n_r为所有关系种类的个数，o为最终神经网络的输入，o＝M_s+d，其中d为偏置向量，M为所有关系向量表示矩阵。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。