CN114021584A - 基于图卷积网络和翻译模型的知识表示学习方法 - Google Patents

基于图卷积网络和翻译模型的知识表示学习方法 Download PDF

Info

Publication number
CN114021584A
CN114021584A CN202111240396.3A CN202111240396A CN114021584A CN 114021584 A CN114021584 A CN 114021584A CN 202111240396 A CN202111240396 A CN 202111240396A CN 114021584 A CN114021584 A CN 114021584A
Authority
CN
China
Prior art keywords
representation
entity
entities
knowledge
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111240396.3A
Other languages
English (en)
Other versions
CN114021584B (zh
Inventor
周惠巍
李雪菲
徐奕斌
姜海斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202111240396.3A priority Critical patent/CN114021584B/zh
Publication of CN114021584A publication Critical patent/CN114021584A/zh
Application granted granted Critical
Publication of CN114021584B publication Critical patent/CN114021584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种基于图卷积网络和翻译模型的知识表示学习方法,首先,基于知识库,采用翻译模型学习知识库中的实体和关系表示。然后,以知识库为指导,采用远程监督获得生物医学文本的实体及其关系标注。再采用GCGCN学习文本中的实体表示。最后对齐知识库和文本中的实体表示,使得基于知识库和远程监督文本学习的实体表示共存于同一向量空间。本发明基于翻译模型和图卷积网络,有效融合知识库和大规模远程监督文本信息,实现多源信息融合,获取高质量知识表示,提高了生物医学关系抽取模型的性能。基于翻译模型学习知识库中的结构化知识,同时基于图卷积网络学习大规模远程监督文本中的上下文知识,最后通过实体对齐融合多源知识,获得高质量的知识表示。

Description

基于图卷积网络和翻译模型的知识表示学习方法
技术领域
本发明基于图卷积网络(Graph Convolutional Networks,GCN)和翻译模型,融合知识图谱中的三元组和大规模远程监督文本中的上下文,进行知识表示学习。首先基于翻译模型,利用知识库三元组学习知识表示。再采用图卷积网络,对远程监督学习获得的大规模生物医学文本中实体进行学习。最后对齐知识库和生物医学文本中的实体,实现基于知识库和大规模远程监督文本信息的实体融合。本发明主要用于自然语言处理领域的生物医学关系抽取任务。
背景技术
随着计算机技术和生物技术得高速发展,生物医学领域的文献正在以指数方式增长。研究人员迫切渴望揭示蕴含于海量的生物医学文献中的生物医学知识,推动生物医学的发展,提高人们的生活质量。这一需求推动了生物医学信息抽取技术的产生和发展。
海量的生物医学文献中蕴含着丰富的、有价值的知识。同时,生物医学领域的研究人员花费大量精力研究构建大规模、高质量的生物医学知识库。生物医学知识库为生物医学信息抽取提供了有力的实体语义和实体关系知识资源支持,是推动智能医学发展的重要知识资源。近年来,面向知识库中的实体和关系的表示学习技术受到了广泛关注。
以往基于知识库的知识表示学习方法单纯基于知识库利用翻译模型等学习实体和关系表示。单纯基于知识库的知识表示学习缺乏大规模生物医学文本中蕴含的实体和关系信息。
于是,研究人员融合知识库和文本信息,提高知识表示能力,即利用翻译模型等学习知识库中的实体和关系表示,同时利用卷积神经网络学习描述两个实体关系的句子表示。最后,对齐知识库和文本的实体及其关系表示,实现基于知识库和文本信息融合的知识表示。
然而,生物医学文本中的实体关系表述较为复杂,包含句内实体关系和跨句实体关系。因此,在融合知识库和文本信息的知识表示学习中,需要考虑文档级别文本的实体关系。
而且,生物医学领域的实体关系标注语料缺乏,为获得大规模的实体关系标注语料,通常采用远程监督对大规模生物医学领域未标注语料进行标注。但是,模型无法判断关系实例对应的句子集(bag)中哪个句子是与关系相关的,在建模时可能将不是表达某种关系的句子当做表达这种关系的句子,或者将表达某种关系的句子当做不表达这种关系的句子。为避免引入噪声数据,针对一对实体,采用注意力机制,学习获得文档中每个句子的权重。再对全部句子进行加权求和,得到对于这对实体的文档表示。这种方法,未能将一个文档中的全部句子和实体作为一个整体,学习实体、实体关系和句子的语义表示。
近年来,研究人员将图卷积网络应用于文档级关系抽取任务,取得了较好的实体关系抽取性能。因此,需要探索如何利用图卷积网络,挖掘文档级别实体、实体关系和句子的语义信息,同时融入生物医学知识库中的实体及其关系信息,实现基于知识库和文本信息融合的高质量知识表示。
发明内容
鉴于现有方法存在的问题,本发明提出利用图卷积网络和翻译模型相结合的方法(GCGCN-TransE)进行知识表示学习,获得基于知识库和文本信息融合的知识表示。
首先,基于知识库,采用翻译模型,学习知识库中的实体和关系表示。然后,以知识库为指导,采用远程监督,获得生物医学文本的实体及其关系标注。接下来,采用GCGCN(zhou等,Global Context-enhanced Graph Convolutional Networks for Document-level Relation Extraction//COLING2020)学习文本中的实体表示。最后对齐知识库和文本中的实体表示,使得基于知识库和文本学习的实体表示共存于同一向量空间。
本发明能够在生物医学知识表示学习中,融合知识库和大规模文本中关于实体的信息,实现基于多源信息的知识表示学习,提高知识表示能力。
本发明的技术方案:
基于图卷积网络和翻译模型的知识表示学习,步骤如下:
步骤一:基于远程监督的生物医学文本实体关系标注
采用实体识别器对大规模未标注语料中的生物医学实体进行自动识别;以生物医学知识库为指导,采用远程监督,对大规模未标注语料中实体关系进行标注。
步骤二:特征序列构建
使用BioBERT预训练语言模型编码词向量。
步骤三:基于翻译模型学习知识库的知识表示
采用翻译模型,学习生物医学知识库三元组(h,r,t)中的实体和关系表示。
步骤四:基于GCGCN学习大规模远程监督语料的知识表示
多层图卷积能够解决文档级别关系抽取中大量的跨句多跳推理问题。为了收集到丰富的全局信息,使用多层图卷积操作,学习节点和边的表示。
步骤五:基于知识库和生物医学文本信息的实体融合
对齐知识库和文本中的实体表示,实现多源异质信息融合的知识表示。使知识库和文本中学习的实体表示共存于同一向量空间。
本发明的有益效果:本发明基于翻译模型和图卷积网络,有效融合知识库和大规模远程监督文本信息,实现多源信息融合,获取高质量知识表示,提高了生物医学关系抽取模型的性能。基于翻译模型学习知识库中的结构化知识,同时基于图卷积网络学习大规模远程监督文本中的上下文知识,最后通过实体对齐融合多源知识,获得高质量的知识表示。
附图说明
图1是***的基本流程图。
图2是文档级实体交互图构建示例。
图3是知识库和文本中的实体对齐示例。
图3中:
Figure BDA0003319263800000041
具体实施方式
本发明的知识库采用比较毒理基因组学数据库(Comparative ToxicogenomicsDatabase,CTD),CTD是一个包含药物与基因关系、药物与疾病关系、基因与疾病关系等知识的知识库。实验采用CTD知识库,获得大规模未标注语料中的疾病和药物实体间关系,重点研究药物诱导疾病关系。
下面结合附图1和技术方案,进一步描述本发明的具体步骤:
步骤一:利用文本挖掘工具PubTator(Wei C H,Kao H Y,Lu Z.PubTator:aweb-based text mining tool for assisting biocuration[J].Nucleic acids research,2013,41(W1):W518-W522.)标注出PubMed摘要中所有的药物实体和疾病实体及其对应的MeSH ID;以比较毒理基因组学数据库(Comparative Toxicogenomics Database,CTD)为指导,采用远程监督,对大规模未标注语料中实体关系进行标注。对于一个文档中的全部实体对,若某对实体在知识库中存在某种关系,则认为文档中的该对实体存在关系,并对该对实体的关系进行标注。
步骤二:利用BioBERT预训练语言模型编码词向量,需要将输入的文本处理成BioBERT的输入形式,即在文本的首端添加特殊标识符[CLS],在各个句子末尾添加特殊分隔符[SEP],对输入序列进行分词处理。最后将分词后的输入序列通过BioBERT预训练语言模型进行学习,抽取最后一层网络输出的隐层表示作为词向量,第i个分词的词向量为
Figure BDA0003319263800000051
通过随机初始化的方法构建实体类型矩阵Etype和共指矩阵Ecorf,对文本序列中的每个词进行标签映射,得到对应的类型特征向量
Figure BDA0003319263800000052
和共指特征向量
Figure BDA0003319263800000053
其中ti和ci为第i个词的类别标签和共指标签。
将得到的词向量、类型特征向量和共指特征向量拼接,构建最终输入到上下文语义编码器的特征,公式如下:
Figure BDA0003319263800000054
其中,“;”为向量拼接操作,最终特征的维度为d=dw+dt+dc
步骤三:基于翻译模型学习知识库的知识表示
利用翻译模型学习知识库三元组(h,r,t)的知识表示。eh、et、er分别为头、尾实体和关系的表示。翻译模型定义了能量函数d(·),该函数能够衡量实体和关系表示之间满足设定关系的程度,损失函数Lk表示为:
Figure BDA0003319263800000055
其中γ>0为边界,S为知识库的三元组集合,S′为实体关系的负例集合。学习获得基于知识库的头、尾实体和关系的表示eh、et、er
步骤四:基于GCGCN学习大规模远程监督语料的知识表示
对每个文档级别输入样例构建图结构的输入数据。由于每个输入样例标注了实体集合
Figure BDA0003319263800000056
其中N为实体的数量。通过以下两个规则构建实体交互图:实体集合中每个实体为图中的一个节点,即图的节点数为N;如果两个实体的提及出现在一个句子中,则使用无向边连接图中代表这两个实体的节点。
将构建的实体交互图记为G(A,E),其中A为邻接矩阵,若图中节点i和节点j之间有边连接,则Aij=1,否则Aij=0。
GCGCN包含四层:嵌入层、上下文感知注意力引导的图卷积(Context-awareAttention Guided Graph Convolution,CAGGC)模块、多头注意力引导的图卷积(Multi-head Attention Guided Graph Convolution,MAGGC)模块和关系分类层。
·嵌入层
利用BioBERT预训练语言模型编码词向量。给定一个文档
Figure BDA0003319263800000061
编码出的词向量序列为:
Figure BDA0003319263800000062
Figure BDA0003319263800000063
是第i个句子中第j个词的词向量,dw为向量维度。
拼接词向量qi,j、实体类型向量
Figure BDA0003319263800000064
和共指向量
Figure BDA0003319263800000065
获得最终的词向量序列
Figure BDA0003319263800000066
如公式所示:
Figure BDA0003319263800000067
由于实体可能包含多个提及,提及有可能含有多个词,因此采用平均的操作计算实体表示,并将计算出的实体表示记为P(0),实体计算过程如下:
Figure BDA0003319263800000068
Figure BDA0003319263800000069
其中,
Figure BDA00033192638000000610
是实体ev的表示,J是其提及的数量,mq是ev的第q个提及,s和t为其开始和结束位置。
·上下文感知注意力引导的图卷积(Context-aware Attention Guided GraphConvolution,CAGGC)模块
利用注意力机制和门控机制计算含有丰富上下文信息的实体感知的边表示。然后利用计算出的边的表示指导加权邻接矩阵的生成,最后在多个稠密连接的图卷积子层上更新节点表示。
因为一条边可能与多个上下文句子相关,为了计算节点u和节点v之间的边的表示,首先利用了词级别的注意力机制获得单个句子的表示,然后利用门机制融合多个句子的信息获得实体感知的边表示。
首先利用每个词的词向量和其到给定实体的相对距离计算边uv上第i个句子的表示hi,如公式所示:
Figure BDA0003319263800000071
Figure BDA0003319263800000072
其中c∈{u,v},表示两个实体中的任意一个,
Figure BDA0003319263800000073
是当前词与实体c的相对距离向量,
Figure BDA0003319263800000074
是由实体c感知的第i个句子中第j个词的注意力权重,m是第i个句子中词的数量,W1、W2、z和b1都是可训练参数。
分别利用实体u和v对第i个句子进行词级别注意力的计算,获得两个句子表示
Figure BDA0003319263800000075
Figure BDA0003319263800000076
将这两个句子表示拼接,并输入到一个全连接层中获得同时感知了实体u和v的句子表示,如公式所示:
Figure BDA0003319263800000077
为了使模型考虑到边uv上所有句子的信息,采用实体感知的门机制。对于实体c∈{u,v},采用其初始表示
Figure BDA0003319263800000078
计算各个句子的权重,并将所有句子加权求和作为边的表示。计算过程如公式所示:
Figure BDA0003319263800000079
Figure BDA00033192638000000710
其中,σ(·)是sigmoid或ReLU激活函数,W3、W4、W5和b2都是可训练参数,S表示句子总数。
将计算得到的实体u和v分别感知的边表示
Figure BDA0003319263800000081
Figure BDA0003319263800000082
拼接,并输入到一个全连接层中获得同时感知了实体u和v的边表示,如公式所示。
Figure BDA0003319263800000083
其中,“;”表示拼接操作,Wsg和bsg是可训练的参数。
经过上面的计算过程,得到了CAGGC网络初始边表示矩阵
Figure BDA0003319263800000084
提出的实体感知的门机制有两个特性。首先,引入两个实体的表示来计算门控值,给与两个实体相关的句子赋予了更大的权重;其次,使用激活函数计算各个句子的权重,即使只有一个句子在待计算的边上,模型也可以有效地控制信息流。
传统的图卷积网络中使用的邻接矩阵由0和1组成,表示节点之间是否有边存在,不能区分邻接的节点与当前节点更细粒度的相关性,不能有效地控制实体之间的信息传播。综合考虑节点信息和边信息的加权邻接矩阵的计算方法。将节点u和v之间的权重表示为
Figure BDA0003319263800000085
它可以由公式计算得到:
Figure BDA0003319263800000086
其中,W、Wu、Wv和We是可训练的参数,exp表示以e为底的指数函数。
GCGCN模型也将边表示融入图卷积操作中,利用丰富的上下文信息更新节点表示。GCGCN的两个层次图卷积推理模块(CAGGC、MAGGC)各包含K个稠密连接的子层,节点v经过第k个子层的计算结果如下:
Figure BDA0003319263800000087
其中,
Figure BDA0003319263800000088
和bk是第k个子层的可训练参数。
采用稠密连接的方法融合初始节点表示和前k-1个子层的输出作为当前子层的输入,如公式所示:
Figure BDA0003319263800000091
·多头注意力引导的图卷积(MAGGC)模块
利用多头注意收集所有节点之间的交互,特别是通过多跳路径连接的节点。
由于引入了多头注意力机制,MAGGC将前一个模块中使用的部分联通的图扩展为加权的全连通图。首先计算边的表示,MAGGC模块将CAGGC模块中的P(0)替换为P(1),以相同的计算方式计算出实体感知的边表示矩阵
Figure BDA0003319263800000092
如果实体u和v没有出现在任意一个句子中,则边
Figure BDA0003319263800000093
为零向量。
不像CAGGC模块那样考虑上下文信息的影响,MAGGC直接利用自注意力机制(self-attentionmechanism)计算邻接矩阵,如公式所示:
Figure BDA0003319263800000094
其中,WQ和WK是可训练的参数,d表示向量维度。
由于多头注意力包含了多个自注意力,因此利用上面的公式计算出t个不同的邻接矩阵
Figure BDA0003319263800000095
将计算出的t个输出表示{P1 (2);P2 (2);...;Pt (2)}先降维再拼接,得到MAGGC模块的输出P(2)
·关系分类层
将编码层获得的初始节点表示和两个图卷积推理模块计算出的节点表示拼接,输入到全连接层,利用激活函数得到最终的节点表示,如公式所示:
P=tanh(Wp[P(0);P(1);P(2)]+bp)
其中,P(0)为初始节点表示,P(1)和P(2)分别是CAGGC和MAGGC模块输出的节点表示,Wp和bp为可训练参数。
将实体表示和相对距离向量拼接,并利用双线性函数和全连接层获得实体对关系特征,用于关系分类,计算过程如下:
Pu′=[Pu;E(du,v)]
Pv′=[Pv;E(dv,u)]
P(r|u,v)=sigmoid(PuTWrPv′+Wt[Pu′;Pv′]+br)
其中,“;”表示拼接操作,du,v和dv,u是两个实体第一个提及的相对距离,E为相对距离向量的映射矩阵。
由于远程监督语料包含多种关系,因此在训练过程中采用多分类任务用的二元交叉熵损失函数计算损失值:
Figure BDA0003319263800000101
其中,S表示整个训练集,Ⅱ(·)是指示器函数,R是预先定义的关系类型的集合。
步骤五:基于知识库和生物医学文本信息的实体融合
对齐基于文本的实体表示与基于翻译模型的实体表示,得到实体对齐损失LA,也即最小化:
Figure BDA0003319263800000102
其中,D(Pi,ej)为文本的实体表示Pi与基于翻译模型的实体表示ei的距离。采用矩阵M将文本的实体表示Pi映射到翻译模型的实体表示ei的空间:
D(Pi,ei)=||MPi-ei||
根据知识库和文本信息的可信性和一致性,研究知识库损失LK、文本损失LT和对齐损失LA之间的相互关系,获得融合生物医学知识库和文本信息的最优知识表示。
将基于本专利获得的知识表示用于生物医学领域的实体关系抽取。不利用BioCreative V CDR的训练数据,在BioCreative V CDR测试数据上直接进行测试。对于测试数据中一个文档中的一对候选实体,我们计算其头尾实体表示的差值与各个关系表示的余弦相似度,确定实体对的关系。参考CDR语料的说明,CDR语料中的药物诱导疾病关系(Chemical-induced diseases,CID)指的是CTD中的“marker/mechanism”关系。我们认为最大相似度为“marker/mechanism”关系的实体对,具有CID关系。实验结果如下表所示:
知识表示 P(%) R(%) F(%)
TransE(余弦相似度) 47.51 11.63 18.69
GCGCN-TransE(余弦相似度) 51.02 67.82 58.24
实验结果表明,我们提出的仅利用实体表示的GCGCN-TransE(余弦相似度)方法比传统的TransE(余弦相似度)方法最终F值提高了38.41%,说明我们提出的基于图卷积网络和翻译模型的知识表示学习方法GCGCN-TransE能够有效捕获融合生物医学知识库和远程监督文本信息的知识,获得高质量的知识表示。
我们进一步将知识表示用于深度神经网络模型GCGCN,抽取生物医学实体关系。首先,基于GCGCN利用BioCreative V CDR的训练数据,训练获得实体关系抽取模型,在BioCreative V CDR测试数据上直接进行测试。然后,分别在GCGCN的分类层拼接基于TransE和GCGCN-TransE学习的两个实体表示,训练获得两个模型TransE(神经网络)和GCGCN-TransE(神经网络)。在BioCreative V CDR测试数据上的结果如下表所示:
***名 P(%) R(%) F(%)
TransE(神经网络) 54.79 15.57 24.25
Zhou等GCGCN 54.95 67.73 60.67
GCGCN-TransE(神经网络) 59.83 64.26 61.96
实验结果表明,我们提出的GCGCN-TransE方法比现有的Zhou等GCGCN的方法最终F值提高了1.29%,说明我们提出的基于图卷积网络和翻译模型的知识表示学习的生物医学关系抽取***GCGCN-TransE能够有效捕获融合生物医学知识库和文本信息的最优知识表示信息,在生物医学关系抽取中取得更好的结果。

Claims (1)

1.一种基于图卷积网络和翻译模型的知识表示学习方法,其特征在于,步骤如下:
步骤一:利用文本挖掘工具PubTator标注出PubMed摘要中所有的药物实体和疾病实体及其对应的MeSH ID;以比较毒理基因组学数据库为指导,采用远程监督,对文档的未标注语料中实体关系进行标注;对于一个文档中的全部实体对,若某对实体在知识库中存在某种关系,则认为文档中的该对实体存在关系,并对该对实体的关系进行标注;
步骤二:利用BioBERT预训练语言模型编码词向量,将输入的文本处理成BioBERT的输入形式,即在文本的首端添加特殊标识符[CLS],在各个句子末尾添加特殊分隔符[SEP],对输入序列进行分词处理;最后将分词后的输入序列通过BioBERT预训练语言模型进行学习,抽取最后一层网络输出的隐层表示作为词向量,第i个分词的词向量为
Figure FDA0003319263790000011
通过随机初始化的方法构建实体类型矩阵Etype和共指矩阵Ecorf,对文本序列中的每个词进行标签映射,得到对应的类型特征向量
Figure FDA0003319263790000012
和共指特征向量
Figure FDA0003319263790000013
其中ti和ci为第i个词的类别标签和共指标签;
将得到的词向量、类型特征向量和共指特征向量拼接,构建最终输入到上下文语义编码器的特征,公式如下:
Figure FDA0003319263790000014
其中,“;”为向量拼接操作,最终特征的维度为d=dw+dt+dc
步骤三:基于翻译模型学习知识库的知识表示
利用翻译模型学习知识库三元组(h,r,t)的知识表示;eh、et、er分别为头、尾实体和关系的表示;翻译模型定义了能量函数d(·),该能量函数能够衡量实体和关系表示之间满足设定关系的程度,损失函数Lk表示为:
Figure FDA0003319263790000015
其中,γ>0为边界,S为知识库的三元组集合,S′为实体关系的负例集合;学习获得基于知识库的头、尾实体和关系的表示eh、et、er
步骤四:基于GCGCN学习大规模远程监督语料的知识表示
对每个文档级别输入样例构建图结构的输入数据;由于每个输入样例标注了实体集合
Figure FDA0003319263790000021
其中N为实体的数量;通过以下两个规则构建实体交互图:实体集合中每个实体为图中的一个节点,即图的节点数为N;如果两个实体的提及出现在一个句子中,则使用无向边连接图中代表这两个实体的节点;
将构建的实体交互图记为G(A,E),其中A为邻接矩阵,若图中节点i和节点j之间有边连接,则Aij=1,否则Aij=0;
GCGCN包含四层:嵌入层、上下文感知注意力引导的图卷积模块、多头注意力引导的图卷积模块和关系分类层;
(1)嵌入层
利用BioBERT预训练语言模型编码词向量;给定一个文档
Figure FDA0003319263790000022
编码出的词向量序列为:
Figure FDA0003319263790000023
其中,
Figure FDA0003319263790000024
是第i个句子中第j个词的词向量,dw为向量维度;
拼接词向量qi,j、实体类型向量
Figure FDA0003319263790000025
和共指向量
Figure FDA0003319263790000026
获得最终的词向量序列
Figure FDA0003319263790000027
如公式所示:
Figure FDA0003319263790000028
由于实体可能包含多个提及,提及有可能含有多个词,因此采用平均的操作计算实体表示,并将计算出的实体表示记为P(0),实体计算过程如下:
Figure FDA0003319263790000029
Figure FDA00033192637900000210
其中,
Figure FDA0003319263790000031
是实体ev的表示,J是其提及的数量;mq是ev的第q个提及,s和t为其开始和结束位置;
(2)上下文感知注意力引导的图卷积模块
利用注意力机制和门控机制计算含有丰富上下文信息的实体感知的边表示;然后利用计算出的边的表示指导加权邻接矩阵的生成,最后在多个稠密连接的图卷积子层上更新节点表示;
因为一条边可能与多个上下文句子相关,为了计算节点u和节点v之间的边的表示,首先利用了词级别的注意力机制获得单个句子的表示,然后利用门机制融合多个句子的信息获得实体感知的边表示;
首先利用每个词的词向量和其到给定实体的相对距离计算边uv上第i个句子的表示hi,如公式所示:
Figure FDA0003319263790000039
Figure FDA0003319263790000032
其中,c∈{u,v},表示两个实体中的任意一个,
Figure FDA0003319263790000033
是当前词与实体c的相对距离向量,
Figure FDA0003319263790000034
是由实体c感知的第i个句子中第j个词的注意力权重,m是第i个句子中词的数量,W1、W2、z和b1都是可训练参数;
分别利用实体u和v对第i个句子进行词级别注意力的计算,获得两个句子表示
Figure FDA0003319263790000035
Figure FDA0003319263790000036
将这两个句子表示拼接,并输入到一个全连接层中获得同时感知了实体u和v的句子表示,如公式所示:
Figure FDA0003319263790000037
为了使模型考虑到边uv上所有句子的信息,采用实体感知的门机制;对于实体c∈{u,v},采用其初始表示
Figure FDA0003319263790000038
计算各个句子的权重,并将所有句子加权求和作为边的表示;计算过程如公式所示:
Figure FDA0003319263790000041
Figure FDA0003319263790000042
其中,σ(·)是sigmoid或ReLU激活函数,W3、W4、W5和b2都是可训练参数,S表示句子总数;
将计算得到的实体u和v分别感知的边表示
Figure FDA0003319263790000043
Figure FDA0003319263790000044
拼接,并输入到一个全连接层中获得同时感知了实体u和v的边表示,如公式所示:
Figure FDA0003319263790000045
其中,“;”表示拼接操作,Wsg和bsg是可训练的参数;
经过上面的计算过程,得到了CAGGC网络初始边表示矩阵
Figure FDA0003319263790000046
综合考虑节点信息和边信息的加权邻接矩阵的计算方法;将节点u和v之间的权重表示为
Figure FDA0003319263790000047
它由公式计算得到:
Figure FDA0003319263790000048
其中,W、Wu、Wv和We是可训练的参数,exp表示以e为底的指数函数;
GCGCN模型也将边表示融入图卷积操作中,利用丰富的上下文信息更新节点表示;GCGCN的两个层次图卷积推理模块各包含K个稠密连接的子层,节点v经过第k个子层的计算结果如下:
Figure FDA0003319263790000049
其中,
Figure FDA00033192637900000410
和bk是第k个子层的可训练参数;
采用稠密连接的方法融合初始节点表示和前k-1个子层的输出作为当前子层的输入,如公式所示:
Figure FDA00033192637900000411
(3)多头注意力引导的图卷积模块
利用多头注意收集所有节点之间的交互,特别是通过多跳路径连接的节点;
由于引入了多头注意力机制,MAGGC将前一个模块中使用的部分联通的图扩展为加权的全连通图;首先计算边的表示,MAGGC模块将CAGGC模块中的P(0)替换为P(1),以相同的计算方式计算出实体感知的边表示矩阵
Figure FDA0003319263790000051
如果实体u和v没有出现在任意一个句子中,则边
Figure FDA0003319263790000052
为零向量;
MAGGC直接利用自注意力机制计算邻接矩阵,如公式所示:
Figure FDA0003319263790000053
其中,WQ和WK是可训练的参数,d表示向量维度;
由于多头注意力包含了多个自注意力,因此利用上面的公式计算出t个不同的邻接矩阵
Figure FDA0003319263790000054
将计算出的t个输出表示
Figure FDA0003319263790000055
先降维再拼接,得到MAGGC模块的输出P(2)
(4)关系分类层
将编码层获得的初始节点表示和两个图卷积推理模块计算出的节点表示拼接,输入到全连接层,利用激活函数得到最终的节点表示,如公式所示:
P=tanh(Wp[P(0);P(1);P(2)]+bp)
其中,P(0)为初始节点表示,P(1)和P(2)分别是CAGGC和MAGGC模块输出的节点表示,Wp和bp为可训练参数;
将实体表示和相对距离向量拼接,并利用双线性函数和全连接层获得实体对关系特征,用于关系分类,计算过程如下:
Pu′=[Pu;E(du,v)]
Pv′=[Pv;E(dv,u)]
P(r|u,v)=sigmoid(PuTWrPv′+Wt[Pu′;Pv′]+br)
其中,“;”表示拼接操作,du,v和dv,u是两个实体第一个提及的相对距离,E为相对距离向量的映射矩阵;
由于远程监督语料包含多种关系,因此在训练过程中采用多分类任务用的二元交叉熵损失函数计算损失值:
Figure FDA0003319263790000061
其中,S表示整个训练集,Ⅱ(·)是指示器函数,R是预先定义的关系类型的集合;
步骤五:基于知识库和生物医学文本信息的实体融合
对齐基于文本的实体表示与基于翻译模型的实体表示,得到实体对齐损失LA,也即最小化:
Figure FDA0003319263790000062
其中,D(Pi,ej)为文本的实体表示Pi与基于翻译模型的实体表示ei的距离;采用矩阵M将文本的实体表示Pi映射到翻译模型的实体表示ei的空间:
D(Pi,ei)=||MPi-ei||
根据知识库和文本信息的可信性和一致性,研究知识库损失LK、文本损失LT和对齐损失LA之间的相互关系,获得融合生物医学知识库和文本信息的最优知识表示。
CN202111240396.3A 2021-10-25 2021-10-25 基于图卷积网络和翻译模型的知识表示学习方法 Active CN114021584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111240396.3A CN114021584B (zh) 2021-10-25 2021-10-25 基于图卷积网络和翻译模型的知识表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111240396.3A CN114021584B (zh) 2021-10-25 2021-10-25 基于图卷积网络和翻译模型的知识表示学习方法

Publications (2)

Publication Number Publication Date
CN114021584A true CN114021584A (zh) 2022-02-08
CN114021584B CN114021584B (zh) 2024-05-10

Family

ID=80057414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111240396.3A Active CN114021584B (zh) 2021-10-25 2021-10-25 基于图卷积网络和翻译模型的知识表示学习方法

Country Status (1)

Country Link
CN (1) CN114021584B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254655A (zh) * 2022-02-28 2022-03-29 南京众智维信息科技有限公司 一种基于提示自监督学习网络安全溯源语义识别方法
CN116756596A (zh) * 2023-08-17 2023-09-15 智慧眼科技股份有限公司 文本聚类模型训练方法、文本聚类方法、装置及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074301A1 (en) * 2018-09-04 2020-03-05 Beijing Jingdong Shangke Information Technology Co., Ltd. End-to-end structure-aware convolutional networks for knowledge base completion
CN111538848A (zh) * 2020-04-29 2020-08-14 华中科技大学 一种融合多源信息的知识表示学习方法
CN112507699A (zh) * 2020-09-16 2021-03-16 东南大学 一种基于图卷积网络的远程监督关系抽取方法
US20210192364A1 (en) * 2019-12-17 2021-06-24 Beijing Baidu Netcom Science Technology Co., Ltd. Representation learning method and device based on natural language and knowledge graph
CN113254663A (zh) * 2021-04-21 2021-08-13 浙江工业大学 一种融合图卷积与翻译模型的知识图谱联合表示学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074301A1 (en) * 2018-09-04 2020-03-05 Beijing Jingdong Shangke Information Technology Co., Ltd. End-to-end structure-aware convolutional networks for knowledge base completion
US20210192364A1 (en) * 2019-12-17 2021-06-24 Beijing Baidu Netcom Science Technology Co., Ltd. Representation learning method and device based on natural language and knowledge graph
CN111538848A (zh) * 2020-04-29 2020-08-14 华中科技大学 一种融合多源信息的知识表示学习方法
CN112507699A (zh) * 2020-09-16 2021-03-16 东南大学 一种基于图卷积网络的远程监督关系抽取方法
CN113254663A (zh) * 2021-04-21 2021-08-13 浙江工业大学 一种融合图卷积与翻译模型的知识图谱联合表示学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HUIWEI ZHOU等: "Global Context-enhanced Graph Convolutional Networks for Document-level Relation Extraction", 《PROCEEDINGS OF THE 28TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS》, 13 December 2020 (2020-12-13), pages 5259 - 5270 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254655A (zh) * 2022-02-28 2022-03-29 南京众智维信息科技有限公司 一种基于提示自监督学习网络安全溯源语义识别方法
CN114254655B (zh) * 2022-02-28 2022-05-10 南京众智维信息科技有限公司 一种基于提示自监督学习网络安全溯源语义识别方法
CN116756596A (zh) * 2023-08-17 2023-09-15 智慧眼科技股份有限公司 文本聚类模型训练方法、文本聚类方法、装置及相关设备
CN116756596B (zh) * 2023-08-17 2023-11-14 智慧眼科技股份有限公司 文本聚类模型训练方法、文本聚类方法、装置及相关设备

Also Published As

Publication number Publication date
CN114021584B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN112163426B (zh) 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN111192680B (zh) 一种基于深度学习和集成分类的智能辅助诊断方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN110110324B (zh) 一种基于知识表示的生物医学实体链接方法
CN111160008A (zh) 一种实体关系联合抽取方法及***
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN105512209A (zh) 一种基于特征自动学习的生物医学事件触发词识别方法
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及***
CN111027595B (zh) 双阶段语义词向量生成方法
CN108182295A (zh) 一种企业知识图谱属性抽取方法及***
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及***
CN111382565A (zh) 基于多标签的情绪-原因对抽取方法及***
CN111554360A (zh) 基于生物医学文献和领域知识数据的药物重定位预测方法
CN105404632A (zh) 基于深度神经网络对生物医学文本序列化标注的***和方法
CN108875809A (zh) 联合attention机制与神经网络的生物医学实体关系分类方法
CN113553440B (zh) 一种基于层次推理的医学实体关系抽取方法
CN113707339B (zh) 一种多源异质数据库间概念对齐与内容互译方法及***
CN114021584A (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN111428481A (zh) 一种基于深度学习的实体关系抽取方法
CN115688752A (zh) 一种基于多语义特征的知识抽取方法
CN114254645A (zh) 一种人工智能辅助写作***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant