CN112860904A - 一种融入外部知识的生物医疗关系抽取方法 - Google Patents

一种融入外部知识的生物医疗关系抽取方法 Download PDF

Info

Publication number
CN112860904A
CN112860904A CN202110367973.9A CN202110367973A CN112860904A CN 112860904 A CN112860904 A CN 112860904A CN 202110367973 A CN202110367973 A CN 202110367973A CN 112860904 A CN112860904 A CN 112860904A
Authority
CN
China
Prior art keywords
sentence
vector
entity
head
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110367973.9A
Other languages
English (en)
Other versions
CN112860904B (zh
Inventor
王春宇
张�浩
梁天铭
刘晓燕
刘国军
郭茂祖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110367973.9A priority Critical patent/CN112860904B/zh
Publication of CN112860904A publication Critical patent/CN112860904A/zh
Application granted granted Critical
Publication of CN112860904B publication Critical patent/CN112860904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

一种融入外部知识的生物医疗关系抽取方法,涉及自然语言处理技术领域,针对远程监督技术的训练数据存在噪声干扰的问题,本申请提出的生物医疗实体关系抽取方法,更为充分的利用句子间和句子内部丰富的语义信息和结构信息以及生物医疗实体在外部知识库中的信息,降低数据集中存在的噪声干扰,使得模型更为稳定,能得到更为准确的关系预测。

Description

一种融入外部知识的生物医疗关系抽取方法
技术领域
本发明涉及自然语言处理技术领域,具体为一种融入外部知识的生物医疗关系抽取方法。
背景技术
随着社会飞速发展,目前已经进入信息***时代,在生物医疗领域中,每天都有数以千计的生物医疗文献公开发表,这些文献中含有海量的生物医疗实体关系,医生、专家们对其中的有效信息筛选与归纳的需求日益迫切,如何从海量数据提取有效信息成为一个难题。
目前,在关系抽取技术中常常采用基于监督学习的关系抽取技术,这个技术需要大量的人工标注训练数据,非常的耗时费力。因此,自动、高效地抽取隐含在文献中的生物医疗实体关系能够有效节省人力和资源。
随着深度学习理论的发展,研究人员开始使用神经网络模型从生物医疗文献中自动地抽取实体关系。其中,最常用的方法就是使用远程监督技术,自动产生大量的训练数据以供人们使用,然而远程监督技术存在的严重问题之一是其产生的训练数据存在大量的噪声,这种情况在生物医疗数据上更为突出。神经网络模型在处理远程监督生物医疗数据产生的噪音上还没有十分有效的方法,因此,如何使用神经网络的方法应用于处理远程监督生物医疗数据噪声,是一个十分有意义的研究方向
发明内容
本发明的目的是:针对远程监督技术的训练数据存在噪声干扰的问题,提出一种融入外部知识的生物医疗关系抽取方法。
本发明为了解决上述技术问题采取的技术方案是:
一种融入外部知识的生物医疗关系抽取方法,包括以下步骤:
步骤一、对生物医疗数据集中每个句子中的每个单词进行词嵌入和位置嵌入操作,得到词向量和位置向量,然后将得到的词向量和位置向量进行拼接得到每个单词的向量表示,最后将句子中所有单词的向量表示进行拼接,得到每个句子的矩阵表示;
步骤二、将步骤一得到的每个句子的矩阵表示输入到PCNN神经网络中得到生物医疗数据集中每个句子的向量表示;
步骤三、获取生物医疗数据集中每个句子的头实体和尾实体,并在外部知识图谱中分别抽取与头实体有关系的实体以及与尾实体有关系的实体,得到以头实体为中心的关系图和以尾实体为中心的关系图,将得到的两个关系图输入到图编码器中构建头尾实体的外部知识图谱的综合向量表示;
步骤四、将生物医疗数据集中每个句子的向量表示和头尾实体的外部知识图谱的综合向量进行结合,得到包含外部信息的句子向量;
步骤五、对于每个实体对,选择包含该实体对的所有句子构成一个集合,根据包含外部信息的句子向量表示,采用句子级别注意力机制计算该集合中每个句子的注意力权重,然后以该集合中所有包含外部信息的句子表示的注意力加权和作为该集合的向量表示,并对该集合的向量表示进行预测,得到该实体对的预测关系。
进一步的,所述步骤三中图编码器采用KG-Transformer。
进一步的,所述KG-Transformer的编码过程为:
KG-Transformer将输入的两个关系图中的结点序列的向量表示X={x1,x2,...,xN}输入到Muti-head Attention Layer与Add&Norm Layer:
所述Muti-head Attention Layer进行如下计算:
Figure BDA0003008193450000021
Figure BDA0003008193450000022
Figure BDA0003008193450000023
其中,
Figure BDA0003008193450000024
表示这一层H个注意头的拼接,x'i表示输出的节点表示,A为邻接矩阵,i表示第i行,j表示第j列,d为结点嵌入的维度,
Figure BDA0003008193450000025
均为权重矩阵,N表示结点序列的长度,Masking(X,A)表示按照矩阵A中值为1的位置对矩阵X的相应位置的值进行掩码操作;
所述Add&Norm Layer进行如下计算:
O=LayerNorm(X+X')
其中,X={x1,x2,......,xN},X为结点序列的向量表示,X'={x'1,x'2,......x'N},X'为Muti-head Attention Layer计算的输出,LayerNorm(·)为层归一化函数,该输出结果O将作为下一层Muti-head Attention Layer的输入;
上述计算过程重复L次,L为任意整数,得到所有结点的向量表示,最后分别将头实体和尾实体的关系图的所有结点的向量表示求和,得到头尾实体的综合向量表示。
进一步的,所述L取8、12、16或24。
进一步的,所述步骤二中PCNN神经网络通过卷积、池化和非线性操作得到生物医疗数据集中每个句子的向量表示。
进一步的,所述步骤二中PCNN神经网络具体执行如下步骤:
首先,采用滑动窗口大小为3的卷积核从句子的矩阵表示中提取局部特征,然后,通过最大池操作结合所有的局部特征,得到句子的矩阵表示的向量;
然后将得到的句子的矩阵表示的向量根据头实体和尾实体的位置分为三段,然后分别对每一段进行池化后得到三维向量:
将所有卷积核所对应的三维向量进行拼接,并利用激活函数进行非线性化,得到句子的最终向量表示。
进一步的,所述激活函数为tanh函数。
进一步的,所述关系图中的结点序列的向量表示为:
(e,r1,e1,r2,e2,...,rn,en)
其中,实体e与实体e1,e2,...,en相关联,实体e与实体e1,e2,...,en的对应关系分别为r1,r2,...,rn
进一步的,所述步骤四中将生物医疗数据集中每个句子的向量表示和头尾实体的外部知识图谱的综合向量进行结合表示为:
Figure BDA0003008193450000031
MutiHead(Q,K,V)=Concat(head1,...,headh)Wo
上式中Q表示每个句子的矩阵表示,K,V表示每个句子的向量表示,K和V是相等的;
Figure BDA0003008193450000032
Wo代表神经网络内部的权重矩阵,headi代表计算的某一个头,不同的头表示对生物医疗语句的不同的表达,Concat(head1,...,headh)代表对不同的头进行连接后所得的向量。
进一步的,所述步骤五的具体步骤为:
采用句子级别的注意力机制计算句子集合中每个句子的注意力权重,以所有句子表示的注意力加权和作为该句子集合的向量表示,即
Figure BDA0003008193450000041
Figure BDA0003008193450000042
ei=xiAr
αi是句子向量xi的权重,xi是第i个句子的向量表示,A是对角权重矩阵,r是关系r的向量表示,s表示句子集合的向量表示;
最后根据该句子集合的向量表示s,使用softmax分类器计算该句子集合属于关系r的概率为:
P(r|S;θ)=softmax(Ws+b)
其中W表示权重矩阵,s表示句子向量,b表示偏置项,θ为模型参数,S表示该句子集合。
本发明的有益效果是:
本申请提出的生物医疗实体关系抽取方法,更为充分的利用句子间和句子内部丰富的语义信息和结构信息以及生物医疗实体在外部知识库中的信息,降低数据集中存在的噪声干扰,使得模型更为稳定,能得到更为准确的关系预测。
附图说明
图1为本申请的整体流程图;
图2为本申请对单个句子包进行关系抽取时的模型示意图。
具体实施方式
需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于包括以下步骤:
步骤一、对生物医疗数据集中每个句子中的每个单词进行词嵌入和位置嵌入操作,得到词向量和位置向量,然后将得到的词向量和位置向量进行拼接得到每个单词的向量表示,最后将句子中所有单词的向量表示进行拼接,得到每个句子的矩阵表示;
步骤二、将步骤一得到的每个句子的矩阵表示输入到PCNN神经网络中得到生物医疗数据集中每个句子的向量表示;
步骤三、获取生物医疗数据集中每个句子的头实体和尾实体,并在外部知识图谱中分别抽取与头实体有关系的实体以及与尾实体有关系的实体,得到以头实体为中心的关系图和以尾实体为中心的关系图,将得到的两个关系图输入到图编码器中构建头尾实体的外部知识图谱的综合向量表示;
步骤四、将生物医疗数据集中每个句子的向量表示和头尾实体的外部知识图谱的综合向量进行结合,得到包含外部信息的句子向量;
步骤五、对于每个实体对,选择包含该实体对的所有句子构成一个集合,根据包含外部信息的句子向量表示,采用句子级别注意力机制计算该集合中每个句子的注意力权重,然后以该集合中所有包含外部信息的句子表示的注意力加权和作为该集合的向量表示,并对该集合的向量表示进行预测,得到该实体对的预测关系。
具体实施方式二:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述步骤三中图编码器采用KG-Transformer。
具体实施方式三:本实施方式是对具体实施方式二的进一步说明,本实施方式与具体实施方式二的区别是所述KG-Transformer的编码过程为:
KG-Transformer将输入的两个关系图中的结点序列的向量表示X={x1,x2,...,xN}输入到Muti-head Attention Layer与Add&Norm Layer:
所述Muti-head Attention Layer进行如下计算:
Figure BDA0003008193450000051
Figure BDA0003008193450000052
Figure BDA0003008193450000053
其中,
Figure BDA0003008193450000054
表示这一层H个注意头的拼接,x'i表示输出的节点表示,A为邻接矩阵,i表示第i行,j表示第j列,d为结点嵌入的维度,
Figure BDA0003008193450000055
均为权重矩阵,N表示结点序列的长度,Masking(X,A)表示按照矩阵A中值为1的位置对矩阵X的相应位置的值进行掩码操作;
所述Add&Norm Layer进行如下计算:
O=LayerNorm(X+X')
其中,X={x1,x2,......,xN},X为结点序列的向量表示,X'={x'1,x'2,......x'N},X'为Muti-head Attention Layer计算的输出,LayerNorm(·)为层归一化函数,该输出结果O将作为下一层Muti-head Attention Layer的输入;
上述计算过程重复L次,L为超参数,L为任意整数,一般8,12,16,24,得到所有结点的向量表示,最后分别将头实体和尾实体的关系图的所有结点的向量表示求和,得到头尾实体的综合向量表示。
具体实施方式四:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述L取8、12、16或24。
具体实施方式五:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述步骤二中PCNN神经网络通过卷积、池化和非线性操作得到生物医疗数据集中每个句子的向量表示。
具体实施方式六:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述步骤二中PCNN神经网络具体执行如下步骤:
首先,采用滑动窗口大小为3的卷积核从句子的矩阵表示中提取局部特征,然后,通过最大池操作结合所有的局部特征,得到句子的矩阵表示的向量;
然后将得到的句子的矩阵表示的向量根据头实体和尾实体的位置分为三段,然后分别对每一段进行池化后得到三维向量:
将所有卷积核所对应的三维向量进行拼接,并利用激活函数进行非线性化,得到句子的最终向量表示。
具体实施方式七:本实施方式是对具体实施方式六的进一步说明,本实施方式与具体实施方式六的区别是所述激活函数为tanh函数。
具体实施方式八:本实施方式是对具体实施方式六的进一步说明,本实施方式与具体实施方式六的区别是所述关系图中的结点序列的向量表示为:
(e,r1,e1,r2,e2,...,rn,en)
其中,实体e与实体e1,e2,...,en相关联,实体e与实体e1,e2,...,en的对应关系分别为r1,r2,...,rn
具体实施方式九:本实施方式是对具体实施方式八的进一步说明,本实施方式与具体实施方式八的区别是所述步骤四中将生物医疗数据集中每个句子的向量表示和头尾实体的外部知识图谱的综合向量进行结合表示为:
Figure BDA0003008193450000071
MutiHead(Q,K,V)=Concat(head1,...,headh)Wo
上式中Q表示每个句子的矩阵表示,K,V表示每个句子的向量表示,K和V是相等的;
Figure BDA0003008193450000072
Wo代表神经网络内部的权重矩阵,headi代表计算的某一个头,不同的头表示对生物医疗语句的不同的表达,Concat(head1,...,headh)代表对不同的头进行连接后所得的向量。
具体实施方式十:本实施方式是对具体实施方式九的进一步说明,本实施方式与具体实施方式九的区别是所述步骤五的具体步骤为:
采用句子级别的注意力机制计算句子集合中每个句子的注意力权重,以所有句子表示的注意力加权和作为该句子集合的向量表示,即
Figure BDA0003008193450000073
Figure BDA0003008193450000074
ei=xiAr
αi是句子向量xi的权重,xi是第i个句子的向量表示,A是对角权重矩阵,r是关系r的向量表示,s表示句子集合的向量表示;
最后根据该句子集合的向量表示s,使用softmax分类器计算该句子集合属于关系r的概率为:
P(r|S;θ)=softmax(Ws+b)
其中W表示权重矩阵,s表示句子向量,b表示偏置项,θ为模型参数,S表示该句子集合。
实施例:一种融入外部知识的生物医疗关系抽取方法,包括:
步骤一、将句子包中每个句子的单词进行嵌入操作,每个单词的词嵌入向量和位置嵌入向量拼接得到每个词对应的向量表示,再将每个句子中的所有词向量拼接,得到句子的矩阵表示。
将句子的矩阵表示输入到CNN层及piece-Max_pooling层,通过卷积,池化和非线性操作得到每个句子的向量表示。
CNN层即卷积层,卷积层首先提取句子上方滑动窗口长度为3的局部特征。然后,它通过最大池操作结合所有的局部特征,为输入句子获得一个固定大小的向量。这里,卷积被定义为向量序列w与卷积矩阵W之间的运算,
Figure BDA0003008193450000081
dc是句子的嵌入维度,卷积操作可以通过一个长度为l的滑动窗口对局部特征进行提取。
在本发明中,考虑了两个实体的位置,池化操作可以进一步改进为分段池化,将卷积得到的每一维特征pi从头实体和尾实体分为三段(pi1,pi2,pi3),然后分别对每一段进行池化:
[xij]=max(pij)
然后[xi]定义为[xij]的拼接。
在本步骤中的最后,对向量x进行如tanh函数的非线性化,得到句子的最终向量表示。
步骤二、生物医疗数据集中的每个句子都包含其头、尾实体,头实体、尾实体在外部知识库中会与其他实体存在关系,这些关系以三元组的形式表达,即<实体1,关系,实体2>。采用图的方式表示多个三元组,图中两个实体结点之间存在相应的关系结点与之相连接,这样头、尾实体分别与多个外部知识库中的实体相关联。将图中的实体结点、关系结点转化为序列的形式(e,r1,e1,r2,e2,...,rn,en),其中实体e与实体e1,e2,...,en相关联,其对应关系分别为r1,r2,...,rn
将得到的头尾实体关系序列
Figure BDA0003008193450000082
Figure BDA0003008193450000083
进行结点嵌入,输入到KG-Transformer模型中进行特征提取,得到头实体与尾实体的KG表示。
其中KG-Transformer模型将输入的结点序列的综合向量表示X={x1,x2,...,xn}输入到Muti-head Attention Layer与Add&Norm Layer:
Figure BDA0003008193450000084
Figure BDA0003008193450000085
Figure BDA0003008193450000086
其中,
Figure BDA0003008193450000091
表示这一层H个注意头的连接,
Figure BDA0003008193450000092
Figure BDA0003008193450000093
分别表示第h个注意力头结点xj和结点嵌入Xj的线性变换的权重。
上述Transformer块堆叠L次,最终得到了头尾实体的KG表示。
步骤三、对上述两步得到的结果进行Knowledge-Attention操作,使用多头注意力机制,捕捉生物医疗文本中的数据和特征的内部相关性,此时得到的特征向量已融合外部知识。计算过程如公式如下:
Figure BDA0003008193450000094
MutiHead(Q,K,V)=Concat(head1,...,headh)Wo
上式中Q是步骤一得到的综合向量表示,K,V是步骤二所描述的综合向量表示,K,V是相等的;
Figure BDA0003008193450000095
Wo代表神经网络内部的权重矩阵,headi代表计算的某一个头,不同的头可以理解为对生物医疗语句的不同的表达,Concat(head1,...,headh)代表对不同的头进行连接后所得的向量。
步骤四、采用设置的句子级别注意力机制定义每一个句子向量表示的权重;
在本步骤中,采用一个基于查询的函数来衡量每个句子的向量表示xi,与最终要预测的所述实体对的关系r之间的关联程度。
由于考虑了最终要预测的所述对实体间的关系r的信息,采用设置的句子级别注意力机制,通过分配给噪声句子更小的权重来降低噪声的影响。
最后将给定所有句子的集合和所述对实体,定义预测关系r的概率为:
Figure BDA0003008193450000096
其中nr为所有关系种类的个数,o为最终神经网络的输入,o=Ms+d,其中d为偏置向量,M为所有关系向量表示矩阵。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (10)

1.一种融入外部知识的生物医疗关系抽取方法,其特征在于包括以下步骤:
步骤一、对生物医疗数据集中每个句子中的每个单词进行词嵌入和位置嵌入操作,得到词向量和位置向量,然后将得到的词向量和位置向量进行拼接得到每个单词的向量表示,最后将句子中所有单词的向量表示进行拼接,得到每个句子的矩阵表示;
步骤二、将步骤一得到的每个句子的矩阵表示输入到PCNN神经网络中得到生物医疗数据集中每个句子的向量表示;
步骤三、获取生物医疗数据集中每个句子的头实体和尾实体,并在外部知识图谱中分别抽取与头实体有关系的实体以及与尾实体有关系的实体,得到以头实体为中心的关系图和以尾实体为中心的关系图,将得到的两个关系图输入到图编码器中构建头尾实体的外部知识图谱的综合向量表示;
步骤四、将生物医疗数据集中每个句子的向量表示和头尾实体的外部知识图谱的综合向量进行结合,得到包含外部信息的句子向量;
步骤五、对于每个实体对,选择包含该实体对的所有句子构成一个集合,根据包含外部信息的句子向量表示,采用句子级别注意力机制计算该集合中每个句子的注意力权重,然后以该集合中所有包含外部信息的句子表示的注意力加权和作为该集合的向量表示,并对该集合的向量表示进行预测,得到该实体对的预测关系。
2.根据权利要求1所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述步骤三中图编码器采用KG-Transformer。
3.根据权利要求2所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述KG-Transformer的编码过程为:
KG-Transformer将输入的两个关系图中的结点序列的向量表示X={x1,x2,...,xN}输入到Muti-head Attention Layer与Add&Norm Layer:
所述Muti-head Attention Layer进行如下计算:
Figure FDA0003008193440000011
Figure FDA0003008193440000012
Figure FDA0003008193440000013
其中,
Figure FDA0003008193440000021
表示这一层H个注意头的拼接,x'i表示输出的节点表示,A为邻接矩阵,i表示第i行,j表示第j列,d为结点嵌入的维度,
Figure FDA0003008193440000022
均为权重矩阵,N表示结点序列的长度,Masking(X,A)表示按照矩阵A中值为1的位置对矩阵X的相应位置的值进行掩码操作;
所述Add&Norm Layer进行如下计算:
O=LayerNorm(X+X')
其中,X={x1,x2,......,xN},X为结点序列的向量表示,X'={x'1,x'2,......x'N},X'为Muti-head Attention Layer计算的输出,LayerNorm(·)为层归一化函数,该输出结果O将作为下一层Muti-head Attention Layer的输入;
上述计算过程重复L次,L为任意整数,得到所有结点的向量表示,最后分别将头实体和尾实体的关系图的所有结点的向量表示求和,得到头尾实体的综合向量表示。
4.根据权利要求3所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述L取8、12、16或24。
5.根据权利要求1所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述步骤二中PCNN神经网络通过卷积、池化和非线性操作得到生物医疗数据集中每个句子的向量表示。
6.根据权利要求1所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述步骤二中PCNN神经网络具体执行如下步骤:
首先,采用滑动窗口大小为3的卷积核从句子的矩阵表示中提取局部特征,然后,通过最大池操作结合所有的局部特征,得到句子的矩阵表示的向量;
然后将得到的句子的矩阵表示的向量根据头实体和尾实体的位置分为三段,然后分别对每一段进行池化后得到三维向量:
将所有卷积核所对应的三维向量进行拼接,并利用激活函数进行非线性化,得到句子的最终向量表示。
7.根据权利要求6所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述激活函数为tanh函数。
8.根据权利要求6所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述关系图中的结点序列的向量表示为:
(e,r1,e1,r2,e2,...,rn,en)
其中,实体e与实体e1,e2,...,en相关联,实体e与实体e1,e2,...,en的对应关系分别为r1,r2,...,rn
9.根据权利要求8所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述步骤四中将生物医疗数据集中每个句子的向量表示和头尾实体的外部知识图谱的综合向量进行结合表示为:
Figure FDA0003008193440000031
MutiHead(Q,K,V)=Concat(head1,...,headh)Wo
上式中Q表示每个句子的矩阵表示,K,V表示每个句子的向量表示,K和V是相等的;
Figure FDA0003008193440000032
Wo代表神经网络内部的权重矩阵,headi代表计算的某一个头,不同的头表示对生物医疗语句的不同的表达,Concat(head1,...,headh)代表对不同的头进行连接后所得的向量。
10.根据权利要求9所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述步骤五的具体步骤为:
采用句子级别的注意力机制计算句子集合中每个句子的注意力权重,以所有句子表示的注意力加权和作为该句子集合的向量表示,即
Figure FDA0003008193440000033
Figure FDA0003008193440000034
ei=xiAr
αi是句子向量xi的权重,xi是第i个句子的向量表示,A是对角权重矩阵,r是关系r的向量表示,s表示句子集合的向量表示;
最后根据该句子集合的向量表示s,使用softmax分类器计算该句子集合属于关系r的概率为:
P(r|S;θ)=softmax(Ws+b)
其中W表示权重矩阵,s表示句子向量,b表示偏置项,θ为模型参数,S表示该句子集合。
CN202110367973.9A 2021-04-06 2021-04-06 一种融入外部知识的生物医疗关系抽取方法 Active CN112860904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110367973.9A CN112860904B (zh) 2021-04-06 2021-04-06 一种融入外部知识的生物医疗关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110367973.9A CN112860904B (zh) 2021-04-06 2021-04-06 一种融入外部知识的生物医疗关系抽取方法

Publications (2)

Publication Number Publication Date
CN112860904A true CN112860904A (zh) 2021-05-28
CN112860904B CN112860904B (zh) 2022-02-22

Family

ID=75992228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110367973.9A Active CN112860904B (zh) 2021-04-06 2021-04-06 一种融入外部知识的生物医疗关系抽取方法

Country Status (1)

Country Link
CN (1) CN112860904B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536795A (zh) * 2021-07-05 2021-10-22 杭州远传新业科技有限公司 实体关系抽取的方法、***、电子装置和存储介质
CN114064938A (zh) * 2022-01-17 2022-02-18 中国人民解放军总医院 医学文献的关系抽取方法、装置、电子设备及存储介质
CN114579755A (zh) * 2022-01-26 2022-06-03 北京博瑞彤芸科技股份有限公司 构建中医知识图谱的方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391623A (zh) * 2017-07-07 2017-11-24 中国人民大学 一种融合多背景知识的知识图谱嵌入方法
CN108959328A (zh) * 2017-05-27 2018-12-07 株式会社理光 知识图谱的处理方法、装置及电子设备
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109635124A (zh) * 2018-11-30 2019-04-16 北京大学 一种结合背景知识的远程监督关系抽取方法
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及***
CN111260064A (zh) * 2020-04-15 2020-06-09 中国人民解放军国防科技大学 基于元知识的知识图谱的知识推理方法、***以及介质
CN111291139A (zh) * 2020-03-17 2020-06-16 中国科学院自动化研究所 基于注意力机制的知识图谱长尾关系补全方法
US20200302340A1 (en) * 2019-03-22 2020-09-24 Royal Bank Of Canada Systems and methods for learning user representations for open vocabulary data sets
CN111931506A (zh) * 2020-05-22 2020-11-13 北京理工大学 一种基于图信息增强的实体关系抽取方法
CN112148892A (zh) * 2020-09-25 2020-12-29 中国人民解放军国防科技大学 动态知识图谱的知识补全方法、装置和计算机设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959328A (zh) * 2017-05-27 2018-12-07 株式会社理光 知识图谱的处理方法、装置及电子设备
CN107391623A (zh) * 2017-07-07 2017-11-24 中国人民大学 一种融合多背景知识的知识图谱嵌入方法
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109635124A (zh) * 2018-11-30 2019-04-16 北京大学 一种结合背景知识的远程监督关系抽取方法
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及***
US20200302340A1 (en) * 2019-03-22 2020-09-24 Royal Bank Of Canada Systems and methods for learning user representations for open vocabulary data sets
CN111291139A (zh) * 2020-03-17 2020-06-16 中国科学院自动化研究所 基于注意力机制的知识图谱长尾关系补全方法
CN111260064A (zh) * 2020-04-15 2020-06-09 中国人民解放军国防科技大学 基于元知识的知识图谱的知识推理方法、***以及介质
CN111931506A (zh) * 2020-05-22 2020-11-13 北京理工大学 一种基于图信息增强的实体关系抽取方法
CN112148892A (zh) * 2020-09-25 2020-12-29 中国人民解放军国防科技大学 动态知识图谱的知识补全方法、装置和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李艳娟等: "结合注意力机制和本体的远程监督关系抽取", 《计算机科学与探索》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536795A (zh) * 2021-07-05 2021-10-22 杭州远传新业科技有限公司 实体关系抽取的方法、***、电子装置和存储介质
CN114064938A (zh) * 2022-01-17 2022-02-18 中国人民解放军总医院 医学文献的关系抽取方法、装置、电子设备及存储介质
CN114064938B (zh) * 2022-01-17 2022-04-22 中国人民解放军总医院 医学文献的关系抽取方法、装置、电子设备及存储介质
CN114579755A (zh) * 2022-01-26 2022-06-03 北京博瑞彤芸科技股份有限公司 构建中医知识图谱的方法及装置

Also Published As

Publication number Publication date
CN112860904B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
CN112860904B (zh) 一种融入外部知识的生物医疗关系抽取方法
CN106886543B (zh) 结合实体描述的知识图谱表示学习方法和***
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN109063021B (zh) 一种能够编码关系语义多样性结构的知识图谱分布式表示方法
CN111681718A (zh) 一种基于深度学习多源异构网络的药物重定位方法
CN111460097B (zh) 一种基于tpn的小样本文本分类方法
CN116386899A (zh) 基于图学习的药物疾病关联关系预测方法及相关设备
CN115204171A (zh) 基于超图神经网络的文档级事件抽取方法及***
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN117421595A (zh) 一种基于深度学习技术的***日志异常检测方法及***
CN117540035B (zh) 一种基于实体类型信息融合的rpa知识图谱构建方法
CN110889505A (zh) 一种图文序列匹配的跨媒体综合推理方法和***
CN112559741B (zh) 核电设备缺陷记录文本分类方法、***、介质及电子设备
CN114510576A (zh) 一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法
CN117436950A (zh) 广告投放效果监控***及其方法
CN113076391A (zh) 一种基于多层注意力机制的远程监督关系抽取方法
CN114997360B (zh) 神经架构搜索算法的演化参数优化方法、***及存储介质
CN111259106A (zh) 一种结合神经网络和特征演算的关系抽取方法
CN113705241B (zh) 面向高考咨询基于多视角注意力的智能语义匹配方法与装置
CN113988083B (zh) 一种用于航运新闻摘要生成的事实性信息编码与评估方法
CN108762523A (zh) 基于capsule网络的输入法输出字符预测方法
CN113901758A (zh) 一种面向知识图谱自动构建***的关系抽取方法
CN111858682A (zh) 一种基于深度学习的裁判文书逻辑评估方法及***
Liu et al. Sentiment analysis of MOOC reviews based on capsule network
CN112256838B (zh) 相似域名查找方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant