CN109446326B - 基于复制机制的生物医学事件联合抽取方法 - Google Patents

基于复制机制的生物医学事件联合抽取方法 Download PDF

Info

Publication number
CN109446326B
CN109446326B CN201811291947.7A CN201811291947A CN109446326B CN 109446326 B CN109446326 B CN 109446326B CN 201811291947 A CN201811291947 A CN 201811291947A CN 109446326 B CN109446326 B CN 109446326B
Authority
CN
China
Prior art keywords
word
trigger
sentence
vector
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811291947.7A
Other languages
English (en)
Other versions
CN109446326A (zh
Inventor
李丽双
叶沛言
王子维
周安桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201811291947.7A priority Critical patent/CN109446326B/zh
Publication of CN109446326A publication Critical patent/CN109446326A/zh
Application granted granted Critical
Publication of CN109446326B publication Critical patent/CN109446326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于复制机制的生物医学事件抽取方法,属于自然语言处理技术领域。基于复制机制的生物医学事件抽取方法步骤如下:构造模型输入向量;构造使用双向LSTM模型的Encoder模块;构造基于Attention机制和复制机制的同时识别触发词和要素的Decoder模块。使用本发明可以有效避免分阶段方法带来的级联错误和子任务之间相互独立的缺点,以及联合模型中单纯使用共享参数而导致的误差传递,提高生物医学事件抽取的性能。

Description

基于复制机制的生物医学事件联合抽取方法
技术领域
本发明属于自然语言处理技术领域,涉及一种基于生物医学文本的事件联合抽取方法。具体是指通过复制机制,使用联合抽取的方法,同时抽取生物事件中的触发词和要素构成生物事件候选。再通过支持向量机(SVM)学习到的事件结构特征对生物事件候选进行分类,去掉无效的组合对,从而得到完整的生物医学事件。
背景技术
目前实现生物事件抽取的方法主要有两类。一类是分阶段的方法(也称为流水线方法,Pipelined method),即将生物事件抽取分为两个主要步骤:触发词识别和要素识别,再通过事件后处理构成完整的生物医学事件。另一类是联合抽取的方法,即采用某种技术同时识别触发词和要素构成生物事件。分阶段的方法是目前主流的生物事件抽取方法。
采用分阶段的方法进行生物事件抽取主要有以下几种方式:基于规则的方法、基于统计机器学习的方法以及基于神经网络和词向量的方法。
触发词识别是指抽取生物文本中存在的触发词(表征生物事件发生的词或短语)。对于触发词识别任务而言,基于规则的方法是指利用触发词本身的特征和上下文信息,人工地或启发式地制定相应的规则。若当前词与预定义的规则匹配,则判定其为触发词。若未找到与当前词匹配的规则,则判定当前词为非触发词。由于基于规则的方法针对性强,因此生物事件抽取结果精确率较高,但召回率较低。比如Cohen(Cohen,K.Bretonnel,et al."High-precision biological event extraction with a concept recognizer.",Association for Computational Linguistics,2009)等通过基于规则的方法抽取生物事件,在BioNLP’09 Shared Task的数据集上获得了最高的准确率,但F值却比较低。
基于统计机器学习的触发词识别方法通常将触发词识别作为分类问题,采用统计机器学习模型进行分类。常用的统计机器学习模型有支持向量机(SVM)、在线算法(PA)、条件随机场(CRF)等。此外,为了提高模型的分类效果,往往还需要人工设计添加特征。比如
Figure BDA0001850179150000011
(
Figure BDA0001850179150000012
Jari,et al."Extracting complex biological events with richgraph-based feature sets.",Association for Computational Linguistics,2009)使用SVM作为分类器,抽取了触发词的形态学特征、句子特征、词性词干特征以及依存链上的信息等,在BioNLP’09 Shared Task取得了最好的结果。
基于神经网络和词向量的触发词识别方法可以减少人工设计复杂特征的代价,同时很好的解决了词与词之间缺乏语义信息的问题。该类方法主要通过神经网络中复杂的非线性结构自动学习一些抽象的特征,捕捉词之间的语义信息。如Wang(Wang,Jian,et al."Biomedical event trigger detection by dependency-based word embedding.",BMCmedical genomics,2016)等通过神经网络自动学习词之间的词法和语义特征,然后将生成的特征向量送到神经网络中进行分类。常用的深度神经网络模型包括RNN、CNN、LSTM、GRU等。实验结果显示,基于神经网络和词向量的方法在触发词识别任务中的效果大多优于基于规则和基于统计机器学习的方法。
要素识别是指抽取触发词和生物实体间的关系或触发词和触发词间的关系(嵌套事件)。类似触发词识别,要素识别的方法通常也分为基于规则、基于统计机器学习和基于神经网络的方法。基于规则的要素识别方法通常需要根据依存解析树中的依存信息和句法信息设计对应的规则候选,然后通过模式匹配的方式识别要素。由于要素结构的复杂性和多样性,制定规则时往往需要更详尽地利用上下文信息和语料中的信息以及更多的专家知识。基于规则的方法虽然能够提高***的抽取性能,但对未知语料的识别效果较差。
基于统计机器学习的要素识别方法,类似于触发词识别,将要素识别作为一个关系分类任务,使用传统的机器学习模型对要素进行分类。相对于基于规则的方法,基于统计机器学习的方法更加稳定,抽取性能也更好。但由于要素识别本身的复杂性,往往需要利用解析图上的信息,尽可能多地抽取相关特征。从而导致抽取性能对特征的设计具有一定的依赖性,降低了***的泛化能力。
基于神经网络和词向量的要素识别方法可以避免复杂的特征设计,通过神经网络自动学习触发词和实体间的关系或触发词之间的关系。如Wang使用卷积神经网络(CNN)对生物医学文本进行触发词识别和要素识别。(Wang,Anran,et al."A multipledistributed representation method based on neural network for biomedicalevent extraction.",BMC medical informatics and decision making,2017)。
分阶段的方法使得生物事件抽取任务更加层次分明,但也存在一些问题:(1)错误传播。触发词识别阶段的错误会一直贯穿整个生物事件抽取任务。由于要素识别阶段需要使用触发词识别阶段预测的触发词,因此,如果触发词识别效果不好,则触发词阶段的错误会一直传播到要素识别阶段,进而产生级联错误。(2)忽视了两个子任务之间的关系。触发词识别和要素识别这两个任务并不是完全独立的。要素识别的结果有助于识别触发词,而触发词的识别也将影响要素的识别效果。(3)产生多余信息。由于要素识别需要将预测的触发词和已标注生物实体分别组合作为要素识别网络的输入,因此会产生很多没有关系的触发词-触发词对和触发词-实体对,从而导致识别的错误率提高。
针对分阶段生物事件抽取方法存在的以上缺点,很多学者开始研究用联合抽取的方法同时抽取触发词和要素。2010年,Poon和Vanderwende首次采用了联合抽取的方法。他们使用马尔科夫逻辑网络抽取生物事件,在BioNLP'09Shared Task测试集取得50%的F值,其事件抽取精度比2009年成绩最好的UTurku***还高(Poon,Hoifung,Lucy Vanderwende,et al."Joint inference for knowledge extraction from biomedical literature.",Association for Computational Linguistics,2010)。2011年,Rediel等采用联合模型构建了一个生物事件抽取***UMASS,该***在BioNLP’11Shared Task的任务评测中取得了第二名的成绩,而第一名的事件抽取***也是基于UMASS联合模型的变体(Riedel,Sebastian,Andrew McCallum,et al."Robust biomedical event extraction with dualdecomposition and minimal domain adaptation.",Association for ComputationalLinguistics,2011)。从以上事件抽取效果可以看出,联合抽取模型在一定程度上优于分阶段抽取的模型。
以往用于事件抽取的联合模型大多采用共享参数的方法,以消除分阶段的方法中两个子任务相互独立的问题。但这个方法仍然存在一些缺点:(1)使用联合抽取的方法进行生物事件抽取时,抽取的特征依赖于NLP预处理工具,可能会产生误差。(2)使用共享参数的方法进行联合抽取,即通过使用简单的模型对两个子任务进行各自抽取,然后将第一个子任务的抽取结果作为第二个子任务的输入。这种方式可以减少两个子任务之间的独立性,但还是存在误差传递的问题。
针对目前分阶段方法和联合抽取方法中存在的问题,本发明提出一种使用复制机制的生物医学事件联合抽取方法。具体来说,是指按要素、触发词1、触发词2的识别顺序,通过将前一步预测的要素或触发词向量作为当前时间步的输入,获取它们与将要预测的触发词的内在联系,进而实现同时抽取触发词和要素,避免分阶段方法带来的级联错误和子任务之间相互独立的缺点。此外,这种方法将每一对触发词和要素作为一个整体进行预测,可以避免联合模型中单纯使用共享参数带来的误差传递。
发明内容
本发明提供了一种基于复制机制的生物医学事件联合抽取方法。该方法可以有效避免分阶段方法带来的级联错误和子任务之间相互独立的缺点,以及联合模型中单纯使用共享参数而带来的误差传递,将触发词和要素作为整体识别,通过将前一步预测的要素或触发词对应的词向量作为当前时间步的输入,获取它们与将要预测的触发词的内在联系,实现联合抽取。
本发明的技术方案:
基于复制机制的生物医学事件联合抽取方法,步骤如下:
(一)构建输入向量
主要针对生物医学文本进行生物事件联合抽取;
首先,需要对生物医学文本进行预处理,构成框架的输入;预处理包括以下步骤:
(1)将获取到的语料库以及大规模生物医学背景语料共同送入word2vec中,训练得到每个词的词向量;
(2)通过查找词表,获取语料中每个词的词向量,构成模型的输入;
(二)使用的框架概述
基于Attention机制的Encoder-Decoder模型;Encoder模块负责对输入的句子进行编码,Decoder模块处理句子的编码向量和注意力向量,生成预测的触发词-要素对;
(三)Encoder模块
由于BiLSTM模型中的双向传播机制可以获得句子中该词对应的上下文信息,从而得到更加全面和准确的语义表示,因此本模型中的Encoder模块采用BiLSTM模型来获得词语和句子对应的编码信息;
具体公式如下:
Encoder模块的输入:
X代表输入模型的一个句子,xt代表句子中的第t个词,n代表句子的长度;
X=(x1,x2,…,xn)(1)
Encoder模块第t步的输出为
Figure BDA0001850179150000041
由正向LSTM第t步的输出
Figure BDA0001850179150000042
和反向LSTM第t步的输出
Figure BDA0001850179150000043
拼接而成;
Figure BDA0001850179150000044
代表正向LSTM第t步输出;WO、WC、Wi、Wf分别代表对应的权重;bo、bC、bi、bf代表对应的偏置;
Figure BDA0001850179150000045
是正向LSTM第t步的隐层状态,
Figure BDA0001850179150000046
为随机初始化的参数,σ为激活函数;
具体推导:
Figure BDA0001850179150000047
Figure BDA0001850179150000048
Figure BDA0001850179150000049
Figure BDA00018501791500000410
Figure BDA00018501791500000411
Figure BDA0001850179150000051
Figure BDA0001850179150000052
的推导跟
Figure BDA0001850179150000053
的推导相同,将输入X=(x1,x2,…,xn)反向,即X1=(xn,xn-1,…,x1)作为Encoder模块的输入;再经过(2)-(7)的公式推导,即可得到
Figure BDA0001850179150000054
Figure BDA0001850179150000055
(四)Decoder模块
要素是指触发词之间的关系或触发词和实体之间的关系,然而由于联合抽取可以同时抽取触发词和要素,因此这里不需要单独进行触发词识别,因此,本发明不区分预测的要素是触发词和触发词之间的关系还是触发词和实体之间的关系,统一默认为是触发词之间的关系。
Decoder模块的输入是s、ct、vt;s为Encoder模块得到的句子编码向量,ct为第t步的注意力向量,vt是t-1步预测的要素或触发词的词向量,
Figure BDA0001850179150000056
Figure BDA0001850179150000057
分别是Encoder模块第n步正向输出的隐层状态和反向输出的隐层状态,
Figure BDA0001850179150000058
是Decoder模块第t步的隐层状态,其中
Figure BDA0001850179150000059
是Encoder模块第t步的输出,
Figure BDA00018501791500000510
是Decoder模块第t步的输出;fa、fh、fk为激活函数,Wh、Wk、Wa、Ua、Uh为对应的权重,ba、bh、bk为对应的偏置;
s表示为:
Figure BDA00018501791500000511
ct的公式推导如下:
Figure BDA00018501791500000512
Figure BDA00018501791500000513
Figure BDA00018501791500000514
Figure BDA00018501791500000515
Decoder模块每一步的输出:
ut=[ct;vt](14)
Figure BDA00018501791500000516
Figure BDA00018501791500000517
对于
Figure BDA00018501791500000518
当t%3=1(t=1,4,7,…)时表示第t步识别出来的是要素;当t%3=2(t=2,5,8,…)时,表示识别出来的是第一个触发词。当t%3=0(t=3,6,9,…)时,表示识别出来的是第二个触发词;即每3步识别出来一个触发词和要素对,表示为:
<要素,触发词1,触发词2>。
(1)识别要素:
由于不能提前预知一个句子中一共包含多少个要素,因此识别要素时需要设置一个结束标志,一旦识别要素的过程中识别出该结束标志,则当前句子的识别结束。Wqr,UqNA为权重,bqr,bqNA为偏置,fqr、fqNA为激活函数;
Figure BDA0001850179150000061
进行(16-19)的变换:
Figure BDA0001850179150000062
Figure BDA0001850179150000063
q=[qr;qNA](18)
qa=softmax(q)(19)
qa中概率最大的维度对应的类别即为此次的触发词-要素对中的要素类别。其中q的维度为语料对应的要素类别数目加1;qNA是停止关系判别的标志,一旦识别出qNA,则不再继续识别当前句中的触发词-要素对。
(2)识别触发词1
从句子的n个词中选出候选触发词作为触发词1;由于触发词1与输入的词向量相关,因此需要加入输入的语义信息
Figure BDA0001850179150000064
fp,fpNA为激活函数。Wp,UpNA为权重,bp,bpNA为偏置。
Figure BDA0001850179150000065
Figure BDA0001850179150000066
进行如下处理:
Figure BDA0001850179150000067
Figure BDA0001850179150000068
Figure BDA0001850179150000069
p=[pe;pNA](23)
pa=softmax(p)(24)
pa的维度为n+1,其中前n个维度分别代表句子中的n个词,pNA为识别触发词的停止符。对p进行归一化后得到pa,选出pa中概率最大的维度对应的词作为触发词1。
(3)识别触发词2
选取句子中的词作为候选触发词2时,需要删掉已识别的触发词1。由于要素针对的是不同的触发词,为此,可以设置一个数组记录上一个步骤识别出的触发词位置i。完成(2)中公式(20)-(24)步骤后,对结果p进行归一化处理得到pa,使pa中第i个位置的数值置为0。然后选出pa中概率最大的维度对应的词作为触发词2。
本发明的有益效果:本发明的方法可以有效避免分阶段方法带来的级联错误和子任务之间相互独立的缺点,以及联合模型中单纯使用共享参数而带来的误差传递,将触发词和要素作为整体识别,通过将前一步预测的要素或触发词对应的词向量作为当前时间步的输入,获取它们与将要预测的触发词的内在联系,实现联合抽取。
附图说明
图1是使用Attention机制的Seq2Seq模型。
图2是双向LSTM模型。
图3是Decoder框架。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明的模型首先对生物医学文本进行编码,将文本转换成包含语义信息的向量序列。然后通过联合模型对句子进行触发词和要素识别,最后将预测的触发词-要素对作为SVM层的输入。SVM层通过学习到的生物事件的结构特征,对触发词-要素对进行分类,去掉无效的组合对,最后构成生物事件输出。生物事件抽取模型分为嵌入层,Seq2Seq层,SVM层,输出层。模型结构如表1所示。
表1:生物事件抽取模型
Figure BDA0001850179150000071
1.嵌入层
用户输入生物医学文本以后,***先对生物医学文本进行分句,分词。再通过查找词表获得相应的词向量。
2.Seq2Seq层
每次训练将文本中的一个句子作为Seq2Seq模型的序列输入。模型的每个时间步将句中一个词语作为输入,同时根据上述列出的公式计算Encoder模块的输出和该词语的注意力向量,将两者同时作为Decoder模块的输入,最后将Decoder模块的输出做相应变换,按预测的顺序分别得到要素、触发词1、触发词2,构成预测的触发词-要素对,即<要素,触发词1,触发词2>。
3.SVM层
***从原始语料中学习每种事件类型的合法结构,包括每种事件类型对应的触发词,允许的要素数目、类型等。再根据学习到的特征对Seq2Seq层预测的触发词-要素对进行分类,去除无效的组合对。
4.输出层
***输出为:用户输入的生物医学文本中所包含的所有生物医学事件信息,包括事件类型以及事件所对应的触发词和要素。例如若用户输入句子:This cellularinteraction was tumor-specific,although isolated granules could enhancefibroblast proliferation.则***应识别出其中事件结果为:
Event E1(Type:Cell_proliferation,Trigger:proliferation,Theme:fibroblast);
Event E2(Type:Positive_regulation,Trigger:enhance,Theme:E1)。

Claims (1)

1.一种基于复制机制的生物医学事件联合抽取方法,其特征在于,步骤如下:
(一)构建输入向量
主要针对生物医学文本进行生物事件联合抽取;
首先,需要对生物医学文本进行预处理,构成框架的输入;预处理包括以下步骤:
(1)将获取到的语料库以及大规模生物医学背景语料共同送入word2vec中,训练得到每个词的词向量;
(2)通过查找词表,获取语料中每个词的词向量,构成模型的输入;
(二)使用的框架概述
基于Attention机制的Encoder-Decoder模型;Encoder模块负责对输入的句子进行编码,Decoder模块处理句子的编码向量和注意力向量,生成预测的触发词-要素对;
(三)Encoder模块
利用BiLSTM模型中的双向传播机制获得句子中该词对应的上下文信息,从而得到更加全面和准确的语义表示,本模型中的Encoder模块采用BiLSTM模型来获得词语和句子对应的编码信息;
具体公式如下:
Encoder模块的输入:
X代表输入模型的一个句子,xt代表句子中的第t个词,n代表句子的长度;
X=(x1,x2,…,xn)(1)
Encoder模块第t步的输出为
Figure FDA0002771361430000011
由正向LSTM第t步的输出
Figure FDA0002771361430000012
和反向LSTM第t步的输出
Figure FDA0002771361430000013
拼接而成;
Figure FDA0002771361430000014
代表正向LSTM第t步输出,其中t≥1;WO、WC、Wi、Wf分别代表对应的权重;
bo、bC、bi、bf代表对应的偏置;
Figure FDA0002771361430000015
是正向LSTM第t步的隐层状态,其中t≥1,
Figure FDA0002771361430000016
为随机初始化的参数,σ为激活函数;
具体推导:
Figure FDA0002771361430000017
Figure FDA0002771361430000018
Figure FDA0002771361430000019
Figure FDA00027713614300000110
Figure FDA0002771361430000021
Figure FDA0002771361430000022
Figure FDA0002771361430000023
的推导跟
Figure FDA0002771361430000024
的推导相同,将输入X=(x1,x2,…,xn)反向,即X1=(xn,xn-1,…,x1)作为Encoder模块的输入;再经过(2)-(7)的公式推导,即得到
Figure FDA0002771361430000025
Figure FDA0002771361430000026
(四)Decoder模块
本方法不区分预测的要素是触发词和触发词之间的关系还是触发词和实体之间的关系,统一默认为是触发词之间的关系;
Decoder模块的输入是s、ct、vt;s为Encoder模块得到的句子编码向量,ct为第t步的注意力向量,vt是t-1步预测的要素或触发词的词向量,
Figure FDA0002771361430000027
Figure FDA0002771361430000028
分别是Encoder模块第n步正向输出的隐层状态和反向输出的隐层状态,
Figure FDA0002771361430000029
是Decoder模块第t步的隐层状态,其中,t≥1,
Figure FDA00027713614300000210
Figure FDA00027713614300000211
是Encoder模块第t步的输出,
Figure FDA00027713614300000212
是Decoder模块第t步的输出;fa、fh、fk为激活函数,Wh、Wk、Wa、Ua、Uh为对应的权重,ba、bh、bk为对应的偏置;
s表示为:
Figure FDA00027713614300000213
ct的公式推导如下:
Figure FDA00027713614300000214
Figure FDA00027713614300000215
Figure FDA00027713614300000216
Figure FDA00027713614300000217
Decoder模块每一步的输出:
ut=[ct;vt](14)
Figure FDA00027713614300000218
Figure FDA00027713614300000219
对于
Figure FDA00027713614300000220
当t%3=1时表示第t步识别出来的是要素,其中t=1,4,7,…;当t%3=2时,表示识别出来的是第一个触发词,其中t=2,5,8,…;当t%3=0时,表示识别出来的是第二个触发词,其中t=3,6,9,…;即每3步识别出来一个触发词和要素对,表示为:
<要素,触发词1,触发词2>;
(1)识别要素:
设置一个结束标志,识别要素的过程中识别出该结束标志,则当前句子的识别结束;Wqr,UqNA为权重,bqr,bqNA为偏置,fqr、fqNA为激活函数;
Figure FDA0002771361430000031
进行公式 (16)-(19) 的变换:
Figure FDA0002771361430000032
Figure FDA0002771361430000033
q=[qr;qNA](18)
qa=softmax(q)(19)
qa中概率最大的维度对应的类别即为此次的触发词-要素对中的要素类别;其中,q的维度为语料对应的要素类别数目加1;qNA是停止关系判别的标志,一旦识别出qNA,则不再继续识别当前句中的触发词-要素对;
(2)识别触发词1
从句子的n个词中选出候选触发词作为触发词1;由于触发词1与输入的词向量相关,因此需加入输入的语义信息
Figure FDA0002771361430000034
fp,fpNA为激活函数;Wp,UpNA为权重,bp,bpNA为偏置;
Figure FDA0002771361430000035
Figure FDA0002771361430000036
进行如下处理:
Figure FDA0002771361430000037
Figure FDA0002771361430000038
Figure FDA0002771361430000039
p=[pe;pNA](23)
pa=softmax(p)(24)
pa的维度为n+1,其中前n个维度分别代表句子中的n个词,pNA为识别触发词的停止符;对p进行归一化后得到pa,选出pa中概率最大的维度对应的词作为触发词1;
(3)识别触发词2
选取句子中的词作为候选触发词2时,需要删掉已识别的触发词1;由于要素针对的是不同的触发词,为此,设置一个数组记录上一个步骤识别出的触发词位置i;完成步骤(2)中公式(20)-(24)步骤后,对结果p进行归一化处理得到pa,使pa中第i个位置的数值置为0;然后选出pa中概率最大的维度对应的词作为触发词2。
CN201811291947.7A 2018-11-01 2018-11-01 基于复制机制的生物医学事件联合抽取方法 Active CN109446326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811291947.7A CN109446326B (zh) 2018-11-01 2018-11-01 基于复制机制的生物医学事件联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811291947.7A CN109446326B (zh) 2018-11-01 2018-11-01 基于复制机制的生物医学事件联合抽取方法

Publications (2)

Publication Number Publication Date
CN109446326A CN109446326A (zh) 2019-03-08
CN109446326B true CN109446326B (zh) 2021-04-20

Family

ID=65550533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811291947.7A Active CN109446326B (zh) 2018-11-01 2018-11-01 基于复制机制的生物医学事件联合抽取方法

Country Status (1)

Country Link
CN (1) CN109446326B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377753B (zh) * 2019-07-01 2022-10-21 吉林大学 基于关系触发词与gru模型的关系抽取方法及装置
WO2021142630A1 (en) * 2020-01-14 2021-07-22 Siemens Ltd., China Method and apparatus for nlp based diagnostics
CN111859935B (zh) * 2020-07-03 2022-09-20 大连理工大学 基于文献的癌症相关生物医学事件数据库构建方法
CN113704481B (zh) * 2021-03-11 2024-05-17 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239445A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及***
CN108628970A (zh) * 2018-04-17 2018-10-09 大连理工大学 一种基于新标记模式的生物医学事件联合抽取方法
CN108628828A (zh) * 2018-04-18 2018-10-09 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558750B2 (en) * 2016-11-18 2020-02-11 Salesforce.Com, Inc. Spatial attention model for image captioning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239445A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及***
CN108628970A (zh) * 2018-04-17 2018-10-09 大连理工大学 一种基于新标记模式的生物医学事件联合抽取方法
CN108628828A (zh) * 2018-04-18 2018-10-09 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Drug–drug interaction extraction from biomedical literature using support vector machine and long short term memory networks;Degen Huang等;《Information Sciences》;20171231;第100-109页 *
基于注意力机制的LSTM的语义关系抽取;王红等;《计算机应用研究》;20180531;第1417-1420页 *

Also Published As

Publication number Publication date
CN109446326A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN112800776B (zh) 双向gru关系抽取数据处理方法、***、终端、介质
CN109446326B (zh) 基于复制机制的生物医学事件联合抽取方法
WO2020244073A1 (zh) 基于语音的用户分类方法、装置、计算机设备及存储介质
Gasmi et al. LSTM recurrent neural networks for cybersecurity named entity recognition
CN110263325B (zh) 中文分词***
CN110705296A (zh) 一种基于机器学习和深度学习的中文自然语言处理工具***
CN110674252A (zh) 一种面向司法领域的高精度语义搜索***
CN113806547B (zh) 一种基于图模型的深度学习多标签文本分类方法
CN111753058B (zh) 一种文本观点挖掘方法及***
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
Ma et al. Tagging the web: Building a robust web tagger with neural network
CN113268974A (zh) 多音字发音标注方法、装置、设备及存储介质
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
Anandika et al. A study on machine learning approaches for named entity recognition
CN114626367A (zh) 基于新闻文章内容的情感分析方法、***、设备及介质
CN114756678A (zh) 一种未知意图文本的识别方法及装置
CN114048314A (zh) 一种自然语言隐写分析方法
Chan et al. Applying and optimizing NLP model with CARU
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
CN112231476A (zh) 一种改进的图神经网络科技文献大数据分类方法
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
Berrimi et al. A Comparative Study of Effective Approaches for Arabic Text Classification
CN114510569A (zh) 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法
Phat et al. Vietnamese text classification algorithm using long short term memory and Word2Vec

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant