CN111078889A

CN111078889A - 一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法

Info

Publication number: CN111078889A
Application number: CN201911330114.1A
Authority: CN
Inventors: 李丽双; 朱燏
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-04-28
Anticipated expiration: 2039-12-20
Also published as: CN111078889B

Abstract

本发明属于计算机自然语言处理技术领域，提供了一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法。在神经网络之中利用多种不同的实体注意力机制，来增强神经网络对复杂药物名的理解，其中实体注意力机制包括：实体标记注意力、两实体标记差注意力和基于实体描述文档的注意力机制，同时对预训练语言模型的输入进行改进，使得其输出能够更好的适用于药物间关系抽取任务。本发明的益处是解决了在处理药物关系描述文档时，药物名过于复杂而导致深度学***。

Description

一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法

技术领域

本发明属于计算机自然语言处理技术领域，涉及一种从生物医学文本中抽取药物间关系的方法，具体是一种基于改进的预训练语言模型和多种实体注意力机制的药物间关系抽取方法。

背景技术

药物间相互作用(drug-drug interactions，DDIs)是指同时或在一定时间内服用两种或两种以上药物所产生的综合效应。随着医学工作者对药物间相互作用研究的不断深入，大量有价值的信息被埋在了成指数增长的非结构化生物医学文献中。目前，在药物相关的开放数据库如Drugbank(Wishart,D.S.et al.DrugBank5.0:A major update to theDrugBank database for 2018.NucleicAcidsRes.2017,46,1074-1082)，PharmGKB(Thorn,C.F.et al.PharmGKB:Thepharmacogenomicsknowledgebase.InPharmacogenomics；Springer:Berlin,Germany,2013；pp.311–320)，Drug Interaction database(Hachad,H.et al.A useful tool for drug interaction evaluation:The UniversityofWashingtonMetabolismandTransportDrugInteractionDatabase.Hum.Genom.2010,5,61–72)中都可以找到许多药物间相互作用信息。如何从海量的非结构化生物医学文献中自动提取结构化的药物间关系是研究者迫切需要解决的问题。

关系抽取是自然语言处理中常见的任务之一，它能够通过机器学习模型挖掘出文本中两个特定实体之间的关系。药物间关系抽取则是一个十分典型的关系抽取类任务，也是生物医学领域十分受关注的任务之一。近年来，DDI Extraction2011(Segura Bedmar,I.et al.,The 1st DDIExtraction-2011challenge task:Extraction of Drug-DrugInteractions from biomedical texts.In Proceedings of the 1st Challenge Taskon Drug-Drug Interaction Extraction2011,Huelva,Spain,7September 2011)和DDIExtraction 2013(Segura-Bedmar,I.et al.SemEval-2013Task9:Extraction ofDrug-Drug Interactions from Biomedical Texts(DDI Extraction 2013).InProceedings of the 7th International Workshop on Semantic Evaluation,SemEval@NAACL-HLT 2013,Atlanta,GA,USA,14–15June 2013；Diab,M.T.,Baldwin,T.,Baroni,M.,Eds.；The Association for Computer Linguistics:Stroudsburg,PA,USA,2013；pp.341–350.)评测任务的成功举办，为各种DDI提取方法的性能评价提供了一个公认的基准语料库。

目前研究者主要采用DDI Extraction 2013任务的语料来评测DDI抽取模型的性能。该任务的难点在于将生物医学文本中描述的药物间关系分为5类，包括Mechanism类型,Effect类型,Advice类型,Int类型和Negative类型。Mechanism类型用来描述两个药物的药物代谢动力学关系。Effect类型用来表示两个药物在药效上存相互的影响。Advise类型用来描述两个药物在使用时存在推荐或建议的关系。Int类型用来描述两个药物存在特定关系但是在文献中没有说明。Negative类型表示两个药物不存在相关性。如在例句“Pantoprazole has a much weaker effect on clopidogrel’s pharmacokinetics andon platelet reactivity during concomitant use.”中，其中药物“Pantoprazole”和“clopidogrel”存在关系mechanism。而在例句“Codeine in combination with othernarcotic analgesics,general anesthetics,phenothiazines,tranquilizers,sedative-hypnotics,or other cns depressants(including alcohol)has additivedepressant effects.”中，药物codeine和narcotic analgesics存在关系effect。通过第二个例句我们还能发现，在该句中除了存在关系的两个药物，还提到了其他多种药物，如“anesthetics”、“phenothiazines”和“alcohol”。这些在句子中不存在关系的药物对当前药物关系的判别会起到干扰作用，提高了模型判别的难度。另外，药物名称往往十分复杂，这也让模型很难通过药物名称来理解句子中药物实体的含义。

目前此类任务主要采用两类方法，第一类是传统的机器学习方法，第二类是深度学习(LeCun Y et al.,Deep learning[J].nature,2015,521(7553):436)方法。传统机器学习方法需要从原始文本中抽取大量的词汇、语法等特征并送到SVM或随机森林等判别器中。Chowdhury等人(Chowdhury M et al.,FBK-irst:A multi-phase kernel basedapproach for Drug-Drug interaction detection and classification that exploitslinguistic information[C].In:7th International Workshop on SemanticEvaluation,Atlanta,Georgia,USA,2013:351–355)使用一种两阶段模型来进行判别，首先在第一阶段用浅层语言学核、特征核、和闭包树核作为组合特征进行二分类，然后在第二阶段根据不同的DDI类型构建多个组合核分类器进行多分类，在2013年相关评测任务中取得了最好结果。J.

等人(

J,Kaewphan S,Salakoski T.UTurku:drug namedentity recognition and drug-drug interaction extraction using SVMclassification and domain knowledge[C]//Second Joint Conference on Lexicaland Computational Semantics(*SEM),Volume 2:Proceedings of the SeventhInternational Workshop on Semantic Evaluation(SemEval 2013).2013:651-659)采用最短依存路径信息作为SVM模型的输入，并融合了相关领域的知识。Thomas等人(Thomas P,Neves M,

T,et al.WBI-DDI:drug-drug interaction extraction usingmajority voting[C]//Second Joint Conference on Lexical and ComputationalSemantics(*SEM),Volume 2:Proceedings of the Seventh International Workshop onSemantic Evaluation(SemEval 2013).2013:628-635)采用了基于投票的核函数方法来进行分类。总的来说，基于传统机器学习的方法需要设计大量复杂的特征集来提升模型的性能，但是设计并提取这些特征集需要较多的人力。

近年来，越来越多的深度模型被运用到了自然语言处理任务中，并起到了很好的效果。Quan等人(Quan C,Hua L,Sun X,et al.Multichannel convolutional neuralnetwork for biological relation extraction[J].BioMed research international,2016,2016:1-10)提出了一个多通道的CNN模型，采用了多种预训练方式得到的词向量作为输入。Asada等人(Asada M,Miwa M,Sasaki Y.Enhancing Drug-Drug InteractionExtraction from Texts by Molecular Structure Information[J].Proceedings ofthe 56th Annual Meeting of the ACL,2018:680-685)提出了一种将分子信息融合到CNN和图卷积神经网络(GCNN)中提取DDI的方法。循环神经网络(RNN)比CNN更适合处理时间序列数据，更擅长捕捉句子的序列特征。Zhang等人(Zhang Y,Zheng W,Lin H,et al.Drug–drug interaction extraction via hierarchical RNNs on sequence and shortestdependency paths[J].Bioinformatics,2017,34(5):828-835)提出了一种分层次的RNN的方法，将最短依赖路径(SDPs)和句子序列结合起来进行DDI提取。一些研究人员还将两种模型结合起来提取DDIs。Sun等人(Sun X,Dong K,Ma L,et al.Drug-Drug InteractionExtraction via Recurrent Hybrid Convolutional Neural Networks with anImproved Focal Loss[J].Entropy,2019,21(1):37)提出了一种新的递归混合卷积神经网络(RHCNN)用于DDI的提取。

虽然已经提出了各种方法，但仍然有很大的空间来提高DDI提取模型的性能。为了避免复杂的药物名对模型性能的影响，以往的工作往往用特定的词来替换句中的药物名，这会导致一部分有用信息的丢失。而且以前的工作多依赖于依存路径这个句法特征来提升模型的性能，这些句法特征依赖于特定的工具生成，这导致了模型的性能也受到这些工具的制约。

发明内容

本发明不依赖任何词法句法信息，通过改进的BioBERT预训练词向量和多种实体注意力机制，简化了模型的输入，较好的利用了药物名信息，且性能达到了当前领先的水平。

本发明的技术方案：

一种基于多实体注意力和改进的预训练语言模型的药物间关系抽取方法，步骤如下：

(一)文本预处理

对语料进行预处理：(1)首先将文本全部转换为小写，然后再将标点符号和非英文字符去除；(2)由于药物间关系抽取不涉及定量的分析，本发明将文本中的数字全部用单词“num”替换；(3)一个句子内可能包含多个药物实体，对于每一对药物实体生成一个实例，一共生成

个实例，其中n为句子中药物实体的个数；(4)使用“drug1”和“drug2”替换每个实例中的目标实体，对于实例中的非目标实体使用“drug0”替换；(5)设定模型能够处理句子的最大长度，如果实例中的句子达不到最大长度，则用字符“0”进行填充。

(二)利用改进的BioBERT模型得到句子初步编码

采用改进的BioBERT作为词向量的编码方式，使得其具有更好的泛化性能。如图2所示，BioBERT模型同BERT模型一样由12层Transformer结构组成，每一层Transformer的输出都送到下一层的Transformer；BioBERT模型中将最后四层的Transformer的输出向量做平均，用平均向量替换BioBERT原来的输出；对于预处理后得到的句子X＝{x₁,x₂,...,x_m}(m为句子长度)，通过上述改进的BioBEET编码后，得到句子的向量表示V＝BioBERT(X)；

(三)利用双向门控递归单元得到句子的语义表示

为了将上下文信息融入句子编码中，采用Bi-GRU来对句子进行进一步的编码；对于V中的每一个单词v_i，通过正向和反向的GRU编码得到其表示

和

再将正反向的结果进行拼接，得到每个单词的最终表示

其中d_h为GRU单元输出的维度；此时句子编码向量为H＝{h₁,h₂,...,h_m}；

(四)利用多种实体注意力机制增强实体在句子中的权重

将句子编码向量H通过三种不同的实体注意力机制，来增强模型对药物实体的理解；这三种注意力机制都采用原始的注意力模型，但是输入的药物实体信息各不相同，使得神经网络模型从不同的角度来利用药物实体信息；

下面分别描述这三种注意力机制；

(4.1)药物描述文档注意力

选取***和DrugBank共同作为药物实体描述文档的获取途径，对于语料中所有药物实体的集合E＝{e₁,e₂,...,e_k}(k为语料中所有药物实体的总数)，将其药物描述文档通过Doc2Vec模型转换为药物描述文档向量集K＝Doc2Vec(E)，

其中d_e为文档向量的长度；

(4.2)药物实体注意力

药物实体词向量作为一种特征送到注意力机制中；药物实体信息为句子编码向量H中两个存在关系的药物实体对应的向量h_e1,h_e2；

(4.3)药物实体间注意力

采用两个药物实体的差作为两个药物间的互信息送到注意力机制中；药物间信息为两个药物实体向量的差，即h_e12＝h_e1-h_e2；

将上述三种实体信息分别与句子编码向量H一同送入注意力机制中，得到实体信息加权的句子表示；注意力机制如公式(1-3)所示：

M＝tanh([HW_s,RW_p]+b) (1)

α＝softmax(M) (2)

r＝Hα^T (3)

其中，

是将三种特征扩张到与句子同等长度而得到得序列；

为注意力机制的参数矩阵，其中d_a为矩阵维度；

为偏置；注意力机制的输出为

通过上述的注意力机制，得到基于三种特征的实体加权的句子向量表示，如公式(4-8)所示：

r_e1＝attention(H,h_e1) (6)

r_e2＝attention(H,h_e2) (7)

r_e12＝attention(H,h_e12) (8)

其中，k₁和k₂是来自药物描述文档向量集K的两个药物描述文档向量，r_k1与r_k2为通过两个药物实体文档描述向量得到的注意力结果，r_e1与r_e2为通过两个药物实体得到的注意力结果，r_e12为通过两个药物实体差得到的注意力结果；通过将这些注意力结果和句子编码向量H的最后一个元素h_m进行拼接，得到最终的句子表示向量O，如公式(9)所示：

(五)利用Softmax分类器得到最后的药物关系类别

得到实体信息加权后的句子表示后，将其通过一层前馈神经网络压缩句子表示向量的维度，最后送到Softmax层得到最后的分类结果；

模型输出层将多实体注意力层的输出O作为最后的分类特征送入全连接层进行分类，候选药物-药物关系对y属于第c(c∈C)种DDI类型的概率P(y＝c)如公式(10)所示：

P(y_i)＝Softmax(OW_O+b) (10)

其中，W_O和b为权重矩阵和偏置，全连接层的激活函数为Softmax，C为DDI类型标签的集合。最后，使用公式(11)计算概率最大的类别标签

即为候选药物-药物对的关系类型。

本发明的有益效果：本发明的抽取方法与其他DDI抽取方法的对比如表1所示，表中所有方法均是在DDIExtraction2013语料上进行的测试。本发明的F1值为80.9％，比之前的最好结果提高了5.4％。此外，***在准确率和召回率上也达到了最高，分别提升到81.0％和80.9％。

表1.本发明的效果与其他DDI抽取方法的对比

附图说明

图1是本发明所采用的神经网络模型结构。

图2是本发明对BioBERT模型做的改进示意图。

具体实施方式

以下结合本发明的构建的神经网络模型详细叙述本发明的具体实施方式。

本发明总体模型结构如图1所示。首先将待处理的DDI语料进行预处理，然后从DrugBank和Wikipedia中查出文本中涉及到的药物的名词解释，通过Doc2Vec工具将这些药物描述转换成向量。对于DDI语料中的句子，本发明通过修改的BioBERT模型和双向GRU网络得到其向量表示。再通过多种实体注意力机制得到实体增强句子向量表示，最后通过一个前馈神经网络和一个softmax层得到最终的判别结果。下面介绍具体的实施流程。

一、语料预处理

预处理工作包括如下几个步骤：

(1)去除语料中的标点符号以及非英文字符，每个单词之间用空格分开；

(2)将文本统一转换成为小写字符；

(3)将语料中有关的数字统一替换成为“num”；

(4)对于语料中一个句子内包含多个药物实体的情况，将所有药物实体两两组合，若句子中包含n个药物实体，则一共生成

个实例。除此之外本发明使用“drug1”和“drug2”替换每个实例中的存在关系的药物实体，对于实例中的其他药物使则用“drug0”替换。

(5)设定模型能够处理句子的最大长度，如果实例中的句子达不到最大长度，则用字符“0”进行填充。

二、句子的编码

句子编码分为如下两个步骤：

(1)通过改进的BioBERT对句子进行初步编码

本发明通过改进的BioBERT将句子中的每个单词编码为词向量。对于预处理后得到的句子X＝{x₁,x₂,...,x_n}(n为句子长度)，得到句子的向量表示V＝BioBERT(X)。BioBERT采用PMC和PubMed两种生物医学资料库进行训练。

(2)通过Bi-GRU对句子进行上下文语义的编码

对于V中的每一个单词v_i，本发明通过正向和反向的GRU编码得到其表示

和

再将正反向的结果进行拼接，得到每个单词的最终表示

其中d_h为GRU单元输出的维度。此时句子编码为H＝{h₁,h₂,...,h_n}。GRU单元的输出维度和BioBERT模型输出的维度一致。

三、药物描述文档的编码

本发明采用浏览器自动化测试框架selenium作为爬虫动态爬取每一个实体在***和DrugBank中的摘要。在爬取摘要的过程中并非所有实体都能找到实体对应的明确摘要，例如‘neuroleptic drugs’(抗惊厥类药物)并非很明确的某一种药物而是一类药物的统称，所以不能找到该实体词条，因此对于这类实体则使用其大类的名称代替整个实体，即使用‘neuroleptic’作为关键词的摘要作为整个实体的摘要。经过上述处理仍有少量的词语没有对应的摘要，则就以实体本身作为对应摘要进行补充。

对于语料中所有药物实体的集合E＝{e₁,e₂,...,e_k}(k为语料中所有药物实体的总数)，将其药物描述文档通过Doc2Vec模型，转换为药物描述文档向量集K＝Doc2Vec(E)，

其中d_e为文档向量的长度。

四、多种实体注意力机制

本发采用的三种实体信息分别是药物描述信息、药物实体信息和药物间信息。其中药物描述信息为药物描述文档向量集K，药物实体信息为句子序列编码H中两个存在关系的药物实体对应的向量h_e1,h_e2，药物间信息为两个药物实体向量的差，即h_e12＝h_e1-h_e2。三种实体信息的维度同GRU单元的输出维度。

将上述三种实体信息分别与句子的向量表示H一同送入注意力机制(公式1-3)之中，得到实体信息加权的句子表示，如公式(4-8)所示。其中rk1与rk2为通过两个药物实体文档描述向量得到的注意力结果，re1与re2为通过两个药物实体得到的注意力结果，re12为通过两个药物实体差得到的注意力结果。通过将这些注意力结果和句子向量序列H的最后一个元素h_final进行拼接，得到最终的句子表示向量O，如公式(9)所示。注意力机制输出的维度同GRU单元的输出维度。

五、输出

模型输出层将多实体注意力层的输出O作为最后的分类特征送入全连接层进行分类，候选药物-药物关系对y属于第c(c∈C)种DDI类型的概率P(y＝c)如公式(10)所示。

其中，W_O和b为权重矩阵和偏置，全连接层的激活函数为Softmax，C为DDI类型标签的集合C＝{negative，effect，mechanism，advice，int}。最后，使用公式(11)计算概率最大的类别标签

即为候选药物-药物对的关系类型。

通过上述五个步骤实现了模型之后，本发明在DDIExtraction2013语料上进行模型的训练和性能测试实验。训练集和测试集的划分为9:1。DDI 2013语料的概况如表2所示，DDI语料由来自DrugBank数据库的792篇文本和来自MedLine数据库的233篇摘要共同组成，药物间关系一共分为5种，分别为Negative、Effect、Mechanism、Advice和Int。

表2.DDIExtraction2013语料中各种关系的数量

类型	DDI-DrugBank	DDI-MedLine	总计
				Effect	1855(39.4％)	214(65.4％)	2069(41.1％)
Mechanism	1539(32.7％)	86(26.3％)	1625(32.3％)
				Advice	1035(22％)	15(4.6％)	1050(20.9％)
Int	272(5.8％)	12(3.7％)	765(5.6％)
				总计	4701	327	5028

本发明通过将药物中的语料进行两两匹配的方式进行额外实例的生成。但通过此方法得到的训练实例中，Negative类型实例的数量特别多，这种类别的不均衡将会很大程度的影响到模型的性能。为了解决语料中各种药物关系实例数不均衡的问题，本发明依照如下三个规则进行了清除负例的工作：

1.如果一个药物对中的两个药物出现在相同的关系中，则过滤掉对应的实例。

2.如果一个药物对中的两个药物有相同的名字，或者其中一个是另一个的缩写，则过滤掉对应的实例。

3.如果一个药物对中的一个药物是另一种药物的特例，则过滤掉对应的实例。

通过删除负例后的语料实例信息如表3所示。通过采用基于规则的负例删除方法，在一定程度上缓解了实例间不平衡的问题。

表3.通过实例生成和负例删除后得到的数据集

本发明采用的评价指标为F1值，如公式(12)所示：

其中P代表精确率，R代表召回率，精确率和召回率的计算公式(13-14)如下所示：

其中TP表示的是预测为正例且实际为正例的个数，FP表示预测正例且实际为负例的个数，FN表示预测为负例而实际为正例的个数，TN表示预测为负例且实际为负例的个数。

本发明采用基于Tensorflow底层的Keras库实现了具体的模型。模型设置参数如表4所示。

表4.本发明模型的参数设置

参数名称	参数值
		Doc2Vec向量维度	200
BioBERT向量维度	768
		BiGRU层输出维度	1536
最大句子长度	250
		Attention层输出维度	1536
多层感知机输出维度	256

在训练阶段，本发明使用了早停法。当经过10轮连续训练后，如果模型在验证集的表现没有提高时，训练就会停止并选择在验证集表现最佳模型作为最终模型来预测测试集的结果。通过网格搜索在验证集上对所有超参数进行调优。训练时模型的学习率设置为0.001，每一次模型处理128个实例。

Claims

1.一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法，其特征在于，步骤如下：

(一)文本预处理

对语料进行预处理：(1)首先将文本全部转换为小写，然后再将标点符号和非英文字符去除；(2)将文本中的数字全部用单词“num”替换；(3)一个句子内可能包含多个药物实体，对于每一对药物实体生成一个实例，一共生成

个实例，其中，n为句子中药物实体的个数；(4)使用“drug1”和“drug2”替换每个实例中的目标实体，对于实例中的非目标实体使用“drug0”替换；(5)设定模型能处理句子的最大长度，如果实例中的句子达不到最大长度，则用字符“0”进行填充；

(二)利用改进的BioBERT模型得到句子初步编码

采用改进的BioBERT作为词向量的编码方式，BioBERT模型同BERT模型一样由12层Transformer结构组成，每一层Transformer的输出都送到下一层的Transformer；BioBERT模型中，将最后四层的Transformer的输出向量做平均，用平均向量替换BioBERT原来的输出；对于预处理后得到的句子X＝{x₁,x₂,...,x_m}，其中，m为句子长度，通过上述改进的BioBEET编码后，得到句子的向量表示V＝BioBERT(X)；

(三)利用双向门控递归单元得到句子的语义表示