CN111078889A - 一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法 - Google Patents

一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法 Download PDF

Info

Publication number
CN111078889A
CN111078889A CN201911330114.1A CN201911330114A CN111078889A CN 111078889 A CN111078889 A CN 111078889A CN 201911330114 A CN201911330114 A CN 201911330114A CN 111078889 A CN111078889 A CN 111078889A
Authority
CN
China
Prior art keywords
drug
sentence
attention
entity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911330114.1A
Other languages
English (en)
Other versions
CN111078889B (zh
Inventor
李丽双
朱燏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201911330114.1A priority Critical patent/CN111078889B/zh
Publication of CN111078889A publication Critical patent/CN111078889A/zh
Application granted granted Critical
Publication of CN111078889B publication Critical patent/CN111078889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Medicinal Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明属于计算机自然语言处理技术领域,提供了一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法。在神经网络之中利用多种不同的实体注意力机制,来增强神经网络对复杂药物名的理解,其中实体注意力机制包括:实体标记注意力、两实体标记差注意力和基于实体描述文档的注意力机制,同时对预训练语言模型的输入进行改进,使得其输出能够更好的适用于药物间关系抽取任务。本发明的益处是解决了在处理药物关系描述文档时,药物名过于复杂而导致深度学***。

Description

一种基于多种实体注意力和改进预训练语言模型的药物间关 系抽取方法
技术领域
本发明属于计算机自然语言处理技术领域,涉及一种从生物医学文本中抽取药物间关系的方法,具体是一种基于改进的预训练语言模型和多种实体注意力机制的药物间关系抽取方法。
背景技术
药物间相互作用(drug-drug interactions,DDIs)是指同时或在一定时间内服用两种或两种以上药物所产生的综合效应。随着医学工作者对药物间相互作用研究的不断深入,大量有价值的信息被埋在了成指数增长的非结构化生物医学文献中。目前,在药物相关的开放数据库如Drugbank(Wishart,D.S.et al.DrugBank5.0:A major update to theDrugBank database for 2018.NucleicAcidsRes.2017,46,1074-1082),PharmGKB(Thorn,C.F.et al.PharmGKB:Thepharmacogenomicsknowledgebase.InPharmacogenomics;Springer:Berlin,Germany,2013;pp.311–320),Drug Interaction database(Hachad,H.et al.A useful tool for drug interaction evaluation:The UniversityofWashingtonMetabolismandTransportDrugInteractionDatabase.Hum.Genom.2010,5,61–72)中都可以找到许多药物间相互作用信息。如何从海量的非结构化生物医学文献中自动提取结构化的药物间关系是研究者迫切需要解决的问题。
关系抽取是自然语言处理中常见的任务之一,它能够通过机器学习模型挖掘出文本中两个特定实体之间的关系。药物间关系抽取则是一个十分典型的关系抽取类任务,也是生物医学领域十分受关注的任务之一。近年来,DDI Extraction2011(Segura Bedmar,I.et al.,The 1st DDIExtraction-2011challenge task:Extraction of Drug-DrugInteractions from biomedical texts.In Proceedings of the 1st Challenge Taskon Drug-Drug Interaction Extraction2011,Huelva,Spain,7September 2011)和DDIExtraction 2013(Segura-Bedmar,I.et al.SemEval-2013Task9:Extraction ofDrug-Drug Interactions from Biomedical Texts(DDI Extraction 2013).InProceedings of the 7th International Workshop on Semantic Evaluation,SemEval@NAACL-HLT 2013,Atlanta,GA,USA,14–15June 2013;Diab,M.T.,Baldwin,T.,Baroni,M.,Eds.;The Association for Computer Linguistics:Stroudsburg,PA,USA,2013;pp.341–350.)评测任务的成功举办,为各种DDI提取方法的性能评价提供了一个公认的基准语料库。
目前研究者主要采用DDI Extraction 2013任务的语料来评测DDI抽取模型的性能。该任务的难点在于将生物医学文本中描述的药物间关系分为5类,包括Mechanism类型,Effect类型,Advice类型,Int类型和Negative类型。Mechanism类型用来描述两个药物的药物代谢动力学关系。Effect类型用来表示两个药物在药效上存相互的影响。Advise类型用来描述两个药物在使用时存在推荐或建议的关系。Int类型用来描述两个药物存在特定关系但是在文献中没有说明。Negative类型表示两个药物不存在相关性。如在例句“Pantoprazole has a much weaker effect on clopidogrel’s pharmacokinetics andon platelet reactivity during concomitant use.”中,其中药物“Pantoprazole”和“clopidogrel”存在关系mechanism。而在例句“Codeine in combination with othernarcotic analgesics,general anesthetics,phenothiazines,tranquilizers,sedative-hypnotics,or other cns depressants(including alcohol)has additivedepressant effects.”中,药物codeine和narcotic analgesics存在关系effect。通过第二个例句我们还能发现,在该句中除了存在关系的两个药物,还提到了其他多种药物,如“anesthetics”、“phenothiazines”和“alcohol”。这些在句子中不存在关系的药物对当前药物关系的判别会起到干扰作用,提高了模型判别的难度。另外,药物名称往往十分复杂,这也让模型很难通过药物名称来理解句子中药物实体的含义。
目前此类任务主要采用两类方法,第一类是传统的机器学习方法,第二类是深度学习(LeCun Y et al.,Deep learning[J].nature,2015,521(7553):436)方法。传统机器学习方法需要从原始文本中抽取大量的词汇、语法等特征并送到SVM或随机森林等判别器中。Chowdhury等人(Chowdhury M et al.,FBK-irst:A multi-phase kernel basedapproach for Drug-Drug interaction detection and classification that exploitslinguistic information[C].In:7th International Workshop on SemanticEvaluation,Atlanta,Georgia,USA,2013:351–355)使用一种两阶段模型来进行判别,首先在第一阶段用浅层语言学核、特征核、和闭包树核作为组合特征进行二分类,然后在第二阶段根据不同的DDI类型构建多个组合核分类器进行多分类,在2013年相关评测任务中取得了最好结果。J.
Figure BDA0002329340670000031
等人(
Figure BDA0002329340670000032
J,Kaewphan S,Salakoski T.UTurku:drug namedentity recognition and drug-drug interaction extraction using SVMclassification and domain knowledge[C]//Second Joint Conference on Lexicaland Computational Semantics(*SEM),Volume 2:Proceedings of the SeventhInternational Workshop on Semantic Evaluation(SemEval 2013).2013:651-659)采用最短依存路径信息作为SVM模型的输入,并融合了相关领域的知识。Thomas等人(Thomas P,Neves M,
Figure BDA0002329340670000033
T,et al.WBI-DDI:drug-drug interaction extraction usingmajority voting[C]//Second Joint Conference on Lexical and ComputationalSemantics(*SEM),Volume 2:Proceedings of the Seventh International Workshop onSemantic Evaluation(SemEval 2013).2013:628-635)采用了基于投票的核函数方法来进行分类。总的来说,基于传统机器学习的方法需要设计大量复杂的特征集来提升模型的性能,但是设计并提取这些特征集需要较多的人力。
近年来,越来越多的深度模型被运用到了自然语言处理任务中,并起到了很好的效果。Quan等人(Quan C,Hua L,Sun X,et al.Multichannel convolutional neuralnetwork for biological relation extraction[J].BioMed research international,2016,2016:1-10)提出了一个多通道的CNN模型,采用了多种预训练方式得到的词向量作为输入。Asada等人(Asada M,Miwa M,Sasaki Y.Enhancing Drug-Drug InteractionExtraction from Texts by Molecular Structure Information[J].Proceedings ofthe 56th Annual Meeting of the ACL,2018:680-685)提出了一种将分子信息融合到CNN和图卷积神经网络(GCNN)中提取DDI的方法。循环神经网络(RNN)比CNN更适合处理时间序列数据,更擅长捕捉句子的序列特征。Zhang等人(Zhang Y,Zheng W,Lin H,et al.Drug–drug interaction extraction via hierarchical RNNs on sequence and shortestdependency paths[J].Bioinformatics,2017,34(5):828-835)提出了一种分层次的RNN的方法,将最短依赖路径(SDPs)和句子序列结合起来进行DDI提取。一些研究人员还将两种模型结合起来提取DDIs。Sun等人(Sun X,Dong K,Ma L,et al.Drug-Drug InteractionExtraction via Recurrent Hybrid Convolutional Neural Networks with anImproved Focal Loss[J].Entropy,2019,21(1):37)提出了一种新的递归混合卷积神经网络(RHCNN)用于DDI的提取。
虽然已经提出了各种方法,但仍然有很大的空间来提高DDI提取模型的性能。为了避免复杂的药物名对模型性能的影响,以往的工作往往用特定的词来替换句中的药物名,这会导致一部分有用信息的丢失。而且以前的工作多依赖于依存路径这个句法特征来提升模型的性能,这些句法特征依赖于特定的工具生成,这导致了模型的性能也受到这些工具的制约。
发明内容
本发明不依赖任何词法句法信息,通过改进的BioBERT预训练词向量和多种实体注意力机制,简化了模型的输入,较好的利用了药物名信息,且性能达到了当前领先的水平。
本发明的技术方案:
一种基于多实体注意力和改进的预训练语言模型的药物间关系抽取方法,步骤如下:
(一)文本预处理
对语料进行预处理:(1)首先将文本全部转换为小写,然后再将标点符号和非英文字符去除;(2)由于药物间关系抽取不涉及定量的分析,本发明将文本中的数字全部用单词“num”替换;(3)一个句子内可能包含多个药物实体,对于每一对药物实体生成一个实例,一共生成
Figure BDA0002329340670000051
个实例,其中n为句子中药物实体的个数;(4)使用“drug1”和“drug2”替换每个实例中的目标实体,对于实例中的非目标实体使用“drug0”替换;(5)设定模型能够处理句子的最大长度,如果实例中的句子达不到最大长度,则用字符“0”进行填充。
(二)利用改进的BioBERT模型得到句子初步编码
采用改进的BioBERT作为词向量的编码方式,使得其具有更好的泛化性能。如图2所示,BioBERT模型同BERT模型一样由12层Transformer结构组成,每一层Transformer的输出都送到下一层的Transformer;BioBERT模型中将最后四层的Transformer的输出向量做平均,用平均向量替换BioBERT原来的输出;对于预处理后得到的句子X={x1,x2,...,xm}(m为句子长度),通过上述改进的BioBEET编码后,得到句子的向量表示V=BioBERT(X);
(三)利用双向门控递归单元得到句子的语义表示
为了将上下文信息融入句子编码中,采用Bi-GRU来对句子进行进一步的编码;对于V中的每一个单词vi,通过正向和反向的GRU编码得到其表示
Figure BDA0002329340670000061
Figure BDA0002329340670000062
再将正反向的结果进行拼接,得到每个单词的最终表示
Figure BDA0002329340670000063
其中dh为GRU单元输出的维度;此时句子编码向量为H={h1,h2,...,hm};
(四)利用多种实体注意力机制增强实体在句子中的权重
将句子编码向量H通过三种不同的实体注意力机制,来增强模型对药物实体的理解;这三种注意力机制都采用原始的注意力模型,但是输入的药物实体信息各不相同,使得神经网络模型从不同的角度来利用药物实体信息;
下面分别描述这三种注意力机制;
(4.1)药物描述文档注意力
选取***和DrugBank共同作为药物实体描述文档的获取途径,对于语料中所有药物实体的集合E={e1,e2,...,ek}(k为语料中所有药物实体的总数),将其药物描述文档通过Doc2Vec模型转换为药物描述文档向量集K=Doc2Vec(E),
Figure BDA0002329340670000064
其中de为文档向量的长度;
(4.2)药物实体注意力
药物实体词向量作为一种特征送到注意力机制中;药物实体信息为句子编码向量H中两个存在关系的药物实体对应的向量he1,he2
(4.3)药物实体间注意力
采用两个药物实体的差作为两个药物间的互信息送到注意力机制中;药物间信息为两个药物实体向量的差,即he12=he1-he2
将上述三种实体信息分别与句子编码向量H一同送入注意力机制中,得到实体信息加权的句子表示;注意力机制如公式(1-3)所示:
M=tanh([HWs,RWp]+b) (1)
α=softmax(M) (2)
r=HαT (3)
其中,
Figure BDA0002329340670000071
是将三种特征扩张到与句子同等长度而得到得序列;
Figure BDA0002329340670000072
为注意力机制的参数矩阵,其中da为矩阵维度;
Figure BDA0002329340670000073
为偏置;注意力机制的输出为
Figure BDA0002329340670000074
通过上述的注意力机制,得到基于三种特征的实体加权的句子向量表示,如公式(4-8)所示:
Figure BDA0002329340670000075
Figure BDA0002329340670000076
re1=attention(H,he1) (6)
re2=attention(H,he2) (7)
re12=attention(H,he12) (8)
其中,k1和k2是来自药物描述文档向量集K的两个药物描述文档向量,rk1与rk2为通过两个药物实体文档描述向量得到的注意力结果,re1与re2为通过两个药物实体得到的注意力结果,re12为通过两个药物实体差得到的注意力结果;通过将这些注意力结果和句子编码向量H的最后一个元素hm进行拼接,得到最终的句子表示向量O,如公式(9)所示:
Figure BDA0002329340670000081
(五)利用Softmax分类器得到最后的药物关系类别
得到实体信息加权后的句子表示后,将其通过一层前馈神经网络压缩句子表示向量的维度,最后送到Softmax层得到最后的分类结果;
模型输出层将多实体注意力层的输出O作为最后的分类特征送入全连接层进行分类,候选药物-药物关系对y属于第c(c∈C)种DDI类型的概率P(y=c)如公式(10)所示:
P(yi)=Softmax(OWO+b) (10)
其中,WO和b为权重矩阵和偏置,全连接层的激活函数为Softmax,C为DDI类型标签的集合。最后,使用公式(11)计算概率最大的类别标签
Figure BDA0002329340670000082
即为候选药物-药物对的关系类型。
Figure BDA0002329340670000083
本发明的有益效果:本发明的抽取方法与其他DDI抽取方法的对比如表1所示,表中所有方法均是在DDIExtraction2013语料上进行的测试。本发明的F1值为80.9%,比之前的最好结果提高了5.4%。此外,***在准确率和召回率上也达到了最高,分别提升到81.0%和80.9%。
表1.本发明的效果与其他DDI抽取方法的对比
Figure BDA0002329340670000084
Figure BDA0002329340670000091
附图说明
图1是本发明所采用的神经网络模型结构。
图2是本发明对BioBERT模型做的改进示意图。
具体实施方式
以下结合本发明的构建的神经网络模型详细叙述本发明的具体实施方式。
本发明总体模型结构如图1所示。首先将待处理的DDI语料进行预处理,然后从DrugBank和Wikipedia中查出文本中涉及到的药物的名词解释,通过Doc2Vec工具将这些药物描述转换成向量。对于DDI语料中的句子,本发明通过修改的BioBERT模型和双向GRU网络得到其向量表示。再通过多种实体注意力机制得到实体增强句子向量表示,最后通过一个前馈神经网络和一个softmax层得到最终的判别结果。下面介绍具体的实施流程。
一、语料预处理
预处理工作包括如下几个步骤:
(1)去除语料中的标点符号以及非英文字符,每个单词之间用空格分开;
(2)将文本统一转换成为小写字符;
(3)将语料中有关的数字统一替换成为“num”;
(4)对于语料中一个句子内包含多个药物实体的情况,将所有药物实体两两组合,若句子中包含n个药物实体,则一共生成
Figure BDA0002329340670000092
个实例。除此之外本发明使用“drug1”和“drug2”替换每个实例中的存在关系的药物实体,对于实例中的其他药物使则用“drug0”替换。
(5)设定模型能够处理句子的最大长度,如果实例中的句子达不到最大长度,则用字符“0”进行填充。
二、句子的编码
句子编码分为如下两个步骤:
(1)通过改进的BioBERT对句子进行初步编码
本发明通过改进的BioBERT将句子中的每个单词编码为词向量。对于预处理后得到的句子X={x1,x2,...,xn}(n为句子长度),得到句子的向量表示V=BioBERT(X)。BioBERT采用PMC和PubMed两种生物医学资料库进行训练。
(2)通过Bi-GRU对句子进行上下文语义的编码
对于V中的每一个单词vi,本发明通过正向和反向的GRU编码得到其表示
Figure BDA0002329340670000101
Figure BDA0002329340670000102
再将正反向的结果进行拼接,得到每个单词的最终表示
Figure BDA0002329340670000103
其中dh为GRU单元输出的维度。此时句子编码为H={h1,h2,...,hn}。GRU单元的输出维度和BioBERT模型输出的维度一致。
三、药物描述文档的编码
本发明采用浏览器自动化测试框架selenium作为爬虫动态爬取每一个实体在***和DrugBank中的摘要。在爬取摘要的过程中并非所有实体都能找到实体对应的明确摘要,例如‘neuroleptic drugs’(抗惊厥类药物)并非很明确的某一种药物而是一类药物的统称,所以不能找到该实体词条,因此对于这类实体则使用其大类的名称代替整个实体,即使用‘neuroleptic’作为关键词的摘要作为整个实体的摘要。经过上述处理仍有少量的词语没有对应的摘要,则就以实体本身作为对应摘要进行补充。
对于语料中所有药物实体的集合E={e1,e2,...,ek}(k为语料中所有药物实体的总数),将其药物描述文档通过Doc2Vec模型,转换为药物描述文档向量集K=Doc2Vec(E),
Figure BDA0002329340670000104
其中de为文档向量的长度。
四、多种实体注意力机制
本发采用的三种实体信息分别是药物描述信息、药物实体信息和药物间信息。其中药物描述信息为药物描述文档向量集K,药物实体信息为句子序列编码H中两个存在关系的药物实体对应的向量he1,he2,药物间信息为两个药物实体向量的差,即he12=he1-he2。三种实体信息的维度同GRU单元的输出维度。
将上述三种实体信息分别与句子的向量表示H一同送入注意力机制(公式1-3)之中,得到实体信息加权的句子表示,如公式(4-8)所示。其中rk1与rk2为通过两个药物实体文档描述向量得到的注意力结果,re1与re2为通过两个药物实体得到的注意力结果,re12为通过两个药物实体差得到的注意力结果。通过将这些注意力结果和句子向量序列H的最后一个元素hfinal进行拼接,得到最终的句子表示向量O,如公式(9)所示。注意力机制输出的维度同GRU单元的输出维度。
五、输出
模型输出层将多实体注意力层的输出O作为最后的分类特征送入全连接层进行分类,候选药物-药物关系对y属于第c(c∈C)种DDI类型的概率P(y=c)如公式(10)所示。
其中,WO和b为权重矩阵和偏置,全连接层的激活函数为Softmax,C为DDI类型标签的集合C={negative,effect,mechanism,advice,int}。最后,使用公式(11)计算概率最大的类别标签
Figure BDA0002329340670000111
即为候选药物-药物对的关系类型。
通过上述五个步骤实现了模型之后,本发明在DDIExtraction2013语料上进行模型的训练和性能测试实验。训练集和测试集的划分为9:1。DDI 2013语料的概况如表2所示,DDI语料由来自DrugBank数据库的792篇文本和来自MedLine数据库的233篇摘要共同组成,药物间关系一共分为5种,分别为Negative、Effect、Mechanism、Advice和Int。
表2.DDIExtraction2013语料中各种关系的数量
类型 DDI-DrugBank DDI-MedLine 总计
Effect 1855(39.4%) 214(65.4%) 2069(41.1%)
Mechanism 1539(32.7%) 86(26.3%) 1625(32.3%)
Advice 1035(22%) 15(4.6%) 1050(20.9%)
Int 272(5.8%) 12(3.7%) 765(5.6%)
总计 4701 327 5028
本发明通过将药物中的语料进行两两匹配的方式进行额外实例的生成。但通过此方法得到的训练实例中,Negative类型实例的数量特别多,这种类别的不均衡将会很大程度的影响到模型的性能。为了解决语料中各种药物关系实例数不均衡的问题,本发明依照如下三个规则进行了清除负例的工作:
1.如果一个药物对中的两个药物出现在相同的关系中,则过滤掉对应的实例。
2.如果一个药物对中的两个药物有相同的名字,或者其中一个是另一个的缩写,则过滤掉对应的实例。
3.如果一个药物对中的一个药物是另一种药物的特例,则过滤掉对应的实例。
通过删除负例后的语料实例信息如表3所示。通过采用基于规则的负例删除方法,在一定程度上缓解了实例间不平衡的问题。
表3.通过实例生成和负例删除后得到的数据集
Figure BDA0002329340670000121
本发明采用的评价指标为F1值,如公式(12)所示:
Figure BDA0002329340670000131
其中P代表精确率,R代表召回率,精确率和召回率的计算公式(13-14)如下所示:
Figure BDA0002329340670000132
Figure BDA0002329340670000133
其中TP表示的是预测为正例且实际为正例的个数,FP表示预测正例且实际为负例的个数,FN表示预测为负例而实际为正例的个数,TN表示预测为负例且实际为负例的个数。
本发明采用基于Tensorflow底层的Keras库实现了具体的模型。模型设置参数如表4所示。
表4.本发明模型的参数设置
参数名称 参数值
Doc2Vec向量维度 200
BioBERT向量维度 768
BiGRU层输出维度 1536
最大句子长度 250
Attention层输出维度 1536
多层感知机输出维度 256
在训练阶段,本发明使用了早停法。当经过10轮连续训练后,如果模型在验证集的表现没有提高时,训练就会停止并选择在验证集表现最佳模型作为最终模型来预测测试集的结果。通过网格搜索在验证集上对所有超参数进行调优。训练时模型的学习率设置为0.001,每一次模型处理128个实例。

Claims (1)

1.一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法,其特征在于,步骤如下:
(一)文本预处理
对语料进行预处理:(1)首先将文本全部转换为小写,然后再将标点符号和非英文字符去除;(2)将文本中的数字全部用单词“num”替换;(3)一个句子内可能包含多个药物实体,对于每一对药物实体生成一个实例,一共生成
Figure FDA0002329340660000014
个实例,其中,n为句子中药物实体的个数;(4)使用“drug1”和“drug2”替换每个实例中的目标实体,对于实例中的非目标实体使用“drug0”替换;(5)设定模型能处理句子的最大长度,如果实例中的句子达不到最大长度,则用字符“0”进行填充;
(二)利用改进的BioBERT模型得到句子初步编码
采用改进的BioBERT作为词向量的编码方式,BioBERT模型同BERT模型一样由12层Transformer结构组成,每一层Transformer的输出都送到下一层的Transformer;BioBERT模型中,将最后四层的Transformer的输出向量做平均,用平均向量替换BioBERT原来的输出;对于预处理后得到的句子X={x1,x2,...,xm},其中,m为句子长度,通过上述改进的BioBEET编码后,得到句子的向量表示V=BioBERT(X);
(三)利用双向门控递归单元得到句子的语义表示
为了将上下文信息融入句子编码中,采用Bi-GRU来对句子进行进一步的编码;对于V中的每一个单词vi,通过正向和反向的GRU编码得到其表示
Figure FDA0002329340660000011
Figure FDA0002329340660000012
再将正反向的结果进行拼接,得到每个单词的最终表示
Figure FDA0002329340660000013
其中dh为GRU单元输出的维度;此时句子编码向量为H={h1,h2,...,hm};
(四)利用多种实体注意力机制增强实体在句子中的权重
将句子编码向量H通过三种不同的实体注意力机制,来增强模型对药物实体的理解;
(4.1)药物描述文档注意力
选取***和DrugBank共同作为药物实体描述文档的获取途径,对于语料中所有药物实体的集合E={e1,e2,...,ek},其中,k为语料中所有药物实体的总数,将其药物描述文档通过Doc2Vec模型转换为药物描述文档向量集K=Doc2Vec(E),
Figure FDA0002329340660000021
其中de为文档向量的长度;
(4.2)药物实体注意力
药物实体词向量作为一种特征送到注意力机制中;药物实体信息为句子编码向量H中两个存在关系的药物实体对应的向量he1,he2
(4.3)药物实体间注意力
采用两个药物实体的差作为两个药物间的互信息送到注意力机制中;药物间信息为两个药物实体向量的差,即he12=he1-he2
将上述三种实体信息分别与句子编码向量H一同送入注意力机制中,得到实体信息加权的句子表示;注意力机制如公式(1-3)所示:
M=tanh([HWs,RWp]+b) (1)
α=softmax(M) (2)
r=HαT (3)
其中,
Figure FDA0002329340660000022
是将三种特征扩张到与句子同等长度而得到得序列;
Figure FDA0002329340660000023
为注意力机制的参数矩阵,其中,da为矩阵维度;
Figure FDA0002329340660000024
为偏置;注意力机制的输出为
Figure FDA0002329340660000025
通过上述的注意力机制,得到基于三种特征的实体加权的句子向量表示,如公式(4-8)所示:
Figure FDA0002329340660000026
Figure FDA0002329340660000031
re1=attention(H,he1) (6)
re2=attention(H,he2) (7)
re12=attention(H,he12) (8)
其中,k1和k2是来自药物描述文档向量集K的两个药物描述文档向量,rk1与rk2为通过两个药物实体文档描述向量得到的注意力结果,re1与re2为通过两个药物实体得到的注意力结果,re12为通过两个药物实体差得到的注意力结果;通过将这些注意力结果和句子编码向量H的最后一个元素hm进行拼接,得到最终的句子表示向量O,如公式(9)所示:
Figure FDA0002329340660000032
(五)利用Softmax分类器得到最后的药物关系类别
得到实体信息加权后的句子表示后,将其通过一层前馈神经网络压缩句子表示向量的维度,最后送到Softmax层得到最后的分类结果;
模型输出层将多实体注意力层的输出O作为最后的分类特征送入全连接层进行分类,候选药物-药物关系对y属于第c(c∈C)种DDI类型的概率P(y=c)如公式(10)所示:
P(yi)=Soft max(OWO+b) (10)
其中,WO和b为权重矩阵和偏置,全连接层的激活函数为Softmax,C为DDI类型标签的集合;最后,使用公式(11)计算概率最大的类别标签
Figure FDA0002329340660000034
即为候选药物-药物对的关系类型;
Figure FDA0002329340660000033
CN201911330114.1A 2019-12-20 2019-12-20 一种基于多种注意力和改进预训练的药物间关系抽取方法 Active CN111078889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911330114.1A CN111078889B (zh) 2019-12-20 2019-12-20 一种基于多种注意力和改进预训练的药物间关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911330114.1A CN111078889B (zh) 2019-12-20 2019-12-20 一种基于多种注意力和改进预训练的药物间关系抽取方法

Publications (2)

Publication Number Publication Date
CN111078889A true CN111078889A (zh) 2020-04-28
CN111078889B CN111078889B (zh) 2021-01-05

Family

ID=70316460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911330114.1A Active CN111078889B (zh) 2019-12-20 2019-12-20 一种基于多种注意力和改进预训练的药物间关系抽取方法

Country Status (1)

Country Link
CN (1) CN111078889B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798954A (zh) * 2020-06-11 2020-10-20 西北工业大学 基于时间注意力机制和图卷积网络的药物组合推荐方法
CN111814460A (zh) * 2020-07-06 2020-10-23 四川大学 基于外部知识的药物相互作用关系抽取方法及***
CN111949792A (zh) * 2020-08-13 2020-11-17 电子科技大学 一种基于深度学习的药物关系抽取方法
CN112256939A (zh) * 2020-09-17 2021-01-22 青岛科技大学 一种针对化工领域的文本实体关系抽取方法
CN112528621A (zh) * 2021-02-10 2021-03-19 腾讯科技(深圳)有限公司 文本处理、文本处理模型训练方法、装置和存储介质
CN112667808A (zh) * 2020-12-23 2021-04-16 沈阳新松机器人自动化股份有限公司 一种基于bert模型的关系抽取方法及其***
CN112820375A (zh) * 2021-02-04 2021-05-18 闽江学院 基于多图卷积神经网络的中药推荐方法
CN112860816A (zh) * 2021-03-01 2021-05-28 三维通信股份有限公司 药物实体对的相互作用关系检测模型构建方法和检测方法
CN113241128A (zh) * 2021-04-29 2021-08-10 天津大学 基于分子空间位置编码注意力神经网络模型的分子性质预测方法
CN113642319A (zh) * 2021-07-29 2021-11-12 北京百度网讯科技有限公司 文本处理方法、装置、电子设备及存储介质
CN113806531A (zh) * 2021-08-26 2021-12-17 西北大学 药物关系分类模型构建方法、药物关系分类方法及***
CN114048727A (zh) * 2021-11-22 2022-02-15 北京富通东方科技有限公司 一种面向医学领域的关系抽取方法
CN114925678A (zh) * 2022-04-21 2022-08-19 电子科技大学 一种基于高层交互机制的药物实体和关系联合抽取方法
CN117408247A (zh) * 2023-12-15 2024-01-16 南京邮电大学 一种基于关系指针网络的智能制造三元组抽取方法
CN118072980A (zh) * 2024-04-18 2024-05-24 首都医科大学附属北京儿童医院 在体鼻腔黏膜黏液纤毛清除功能的评估方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275250A1 (en) * 2015-03-17 2016-09-22 Biopolicy Innovations Inc. Drug formulary document parsing and comparison system and method
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及***
CN110580340A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种基于多注意力机制的神经网络关系抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275250A1 (en) * 2015-03-17 2016-09-22 Biopolicy Innovations Inc. Drug formulary document parsing and comparison system and method
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及***
CN110580340A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种基于多注意力机制的神经网络关系抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LING LUO等: "An attention-based BiLSTM-CRF approach to document-level chemical named entity recognition", 《DATA AND TEXT MINING》 *
李丽双等: "融合依存信息Attention机制的药物关系抽取研究", 《中文信息学报》 *
蒋振超: "基于词表示和深度学习的生物医学关系抽取", 《万方数据》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798954A (zh) * 2020-06-11 2020-10-20 西北工业大学 基于时间注意力机制和图卷积网络的药物组合推荐方法
CN111814460A (zh) * 2020-07-06 2020-10-23 四川大学 基于外部知识的药物相互作用关系抽取方法及***
CN111949792A (zh) * 2020-08-13 2020-11-17 电子科技大学 一种基于深度学习的药物关系抽取方法
CN111949792B (zh) * 2020-08-13 2022-05-31 电子科技大学 一种基于深度学习的药物关系抽取方法
CN112256939A (zh) * 2020-09-17 2021-01-22 青岛科技大学 一种针对化工领域的文本实体关系抽取方法
CN112256939B (zh) * 2020-09-17 2022-09-16 青岛科技大学 一种针对化工领域的文本实体关系抽取方法
CN112667808A (zh) * 2020-12-23 2021-04-16 沈阳新松机器人自动化股份有限公司 一种基于bert模型的关系抽取方法及其***
CN112820375A (zh) * 2021-02-04 2021-05-18 闽江学院 基于多图卷积神经网络的中药推荐方法
CN112528621A (zh) * 2021-02-10 2021-03-19 腾讯科技(深圳)有限公司 文本处理、文本处理模型训练方法、装置和存储介质
CN112860816A (zh) * 2021-03-01 2021-05-28 三维通信股份有限公司 药物实体对的相互作用关系检测模型构建方法和检测方法
CN113241128A (zh) * 2021-04-29 2021-08-10 天津大学 基于分子空间位置编码注意力神经网络模型的分子性质预测方法
CN113241128B (zh) * 2021-04-29 2022-05-13 天津大学 基于分子空间位置编码注意力神经网络模型的分子性质预测方法
CN113642319A (zh) * 2021-07-29 2021-11-12 北京百度网讯科技有限公司 文本处理方法、装置、电子设备及存储介质
CN113806531A (zh) * 2021-08-26 2021-12-17 西北大学 药物关系分类模型构建方法、药物关系分类方法及***
CN113806531B (zh) * 2021-08-26 2024-02-27 西北大学 药物关系分类模型构建方法、药物关系分类方法及***
CN114048727B (zh) * 2021-11-22 2022-07-29 北京富通东方科技有限公司 一种面向医学领域的关系抽取方法
CN114048727A (zh) * 2021-11-22 2022-02-15 北京富通东方科技有限公司 一种面向医学领域的关系抽取方法
CN114925678A (zh) * 2022-04-21 2022-08-19 电子科技大学 一种基于高层交互机制的药物实体和关系联合抽取方法
CN114925678B (zh) * 2022-04-21 2023-05-26 电子科技大学 一种基于高层交互机制的药物实体和关系联合抽取方法
CN117408247A (zh) * 2023-12-15 2024-01-16 南京邮电大学 一种基于关系指针网络的智能制造三元组抽取方法
CN117408247B (zh) * 2023-12-15 2024-03-29 南京邮电大学 一种基于关系指针网络的智能制造三元组抽取方法
CN118072980A (zh) * 2024-04-18 2024-05-24 首都医科大学附属北京儿童医院 在体鼻腔黏膜黏液纤毛清除功能的评估方法及相关设备

Also Published As

Publication number Publication date
CN111078889B (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN111078889B (zh) 一种基于多种注意力和改进预训练的药物间关系抽取方法
Onan et al. A term weighted neural language model and stacked bidirectional LSTM based framework for sarcasm identification
CN110210037B (zh) 面向循证医学领域的类别检测方法
CN109446338B (zh) 基于神经网络的药物疾病关系分类方法
CN110825721B (zh) 大数据环境下高血压知识库构建与***集成方法
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN111625659B (zh) 知识图谱处理方法、装置、服务器及存储介质
CN110032648A (zh) 一种基于医学领域实体的病历结构化解析方法
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN110532328B (zh) 一种文本概念图构造方法
CN106844658A (zh) 一种中文文本知识图谱自动构建方法及***
CN110287323B (zh) 一种面向目标的情感分类方法
CN105512209A (zh) 一种基于特征自动学习的生物医学事件触发词识别方法
CN110189831A (zh) 一种基于动态图序列的病历知识图谱构建方法及***
WO2020074017A1 (zh) 基于深度学习的医学文献中关键词筛选方法及装置
CN113707339B (zh) 一种多源异质数据库间概念对齐与内容互译方法及***
CN111324691A (zh) 一种基于知识图谱的少数民族领域智能问答方法
CN115019906B (zh) 多任务序列标注的药物实体和相互作用联合抽取方法
CN113988075A (zh) 基于多任务学习的网络安全领域文本数据实体关系抽取法
CN113742493A (zh) 一种病理知识图谱的构建方法及装置
CN116244448A (zh) 基于多源数据信息的知识图谱构建方法、设备及***
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及***
CN112149411A (zh) 一种抗生素临床使用领域本体构建方法
Frisoni et al. Unsupervised descriptive text mining for knowledge graph learning
Tianxiong et al. Identifying chinese event factuality with convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant