CN108875809A - 联合attention机制与神经网络的生物医学实体关系分类方法 - Google Patents
联合attention机制与神经网络的生物医学实体关系分类方法 Download PDFInfo
- Publication number
- CN108875809A CN108875809A CN201810554915.5A CN201810554915A CN108875809A CN 108875809 A CN108875809 A CN 108875809A CN 201810554915 A CN201810554915 A CN 201810554915A CN 108875809 A CN108875809 A CN 108875809A
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- vector
- entity
- biomedical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
一种联合attention机制与神经网络的生物医学实体关系分类方法,属于生物医学和数据挖掘技术领域,用以解决生物医学实体关系分类问题,要点是包括S1、基于指代解析的文本处理;S2、构建基于attention机制的模型输入向量;S3、构建基于双向LSTM的生物医学实体关系分类模型;S4、利用关系分类模型进行生物医学实体关系分类。本发明针对生物文献中的句子设计了基于following的指代解析,然后从构成句子的基本单位单词出发,利用attention机制加权于单词的嵌入向量,突出对生物医学实体关系分类有重要影响的关键词的权重,使候选实体间的关系更清晰明了,进行生物医学实体关系分类。
Description
技术领域
本发明涉及生物医学和数据挖掘技术领域,尤其是一种联合attention机制与神经网络的生物医学实体关系分类方法。
背景技术
随着数据驱动的生物信息学的发展,通过计算方法发现和预测生物医学实体间的关系成为一种趋势。基于计算的文本挖掘方法能从大量可用的生物数据库和非结构化文本中发现模式和知识。目前,海量的最新的非结构化数据隐藏在专业数据库或科学文献里。于是,利用文本挖掘技术从文献和数据库中检测和预测生物医学实体关系是一条有效且可行的途径。此外,这也能自动化实现由手工完成的数据库标注过程,还有助于生物医学图谱的构建。
传统的从文本中挖掘生物医学实体关系研究主要利用统计机器学习理论中的机器学习方法如支持向量机SVM。这些方法依赖于精心设计的核或者仔细设计的特征。特征的设计需要领域专家,而且还是一个以反复实验为基础的劳动密集型的技巧性工作。此外,这些方法对未遇见词的泛化能力有限。当前,基于神经网络的方法能够通过构建简单的非线性模型自动地学习非结构化文本的多级别表示,在自然语言处理领域的各项任务里已经显示了它的潜力。目前有两个主要的神经网络架构即卷积神经网络和循环神经网络。前者更适用于学习连续的局部模式。后者虽然可学习不连续的全局模式,但其具有偏置特性,即后输入的信息对目标更占优势。
然而,由于生物医学文献文本一般长句且复杂丛句居多,而且具有科学语言的特性。而且,对最终关系重要的词却并不一定出现在句子的后部。虽然上述的不同文本挖掘方法探索了各种方法分类生物医学实体间的交互关系,但是在长复杂句居多的生物医学实体交互分类性能上还不是很令人满意。
发明内容
本发明的目的是提供一种基于attention机制的神经网络架构对生物医学文献中已标注实体间的关系进行更为准确且有效地关系分类方法。
本发明解决现有技术问题所采用的技术方案:一种联合attention机制与神经网络的生物医学实体关系分类方法,包括以下步骤:
S1、基于指代解析的文本处理:采集公开已标注的数据集,利用文本处理技术、指代解析和剪枝技术对句子进行处理,其处理方法如下:
A1、初始处理:一个特殊的符号代替不属于生物医学实体子串的数字子串。删除不包含候选实体的括号;为了方法的泛化,所有的生物医学实体用entity*代替,其中*表示0,1,2,…;删除仅仅包含一个实体的句子或者两个实体具有同样符号的句子;
A2、基于following的指代处理解析:对于生物文献文本中带有冒号“:”的包含“following[指代词]”的句子模式,如果候选对中的两个实体分别位于冒号“:”的两边,利用如下的规则进行替换,其中[w]*表示一个或多个单词符号:
句型1:entity1[w]*following[cataphora word]:[w]*entity2[w]*.
规则1:entity1[w]*following entity2.
句型2:[w]*following[cataphora word][w]*entity2:[w]*entity1[w]*.
规则2:[w]*following entity1[w]*entity2.
A3、句子剪枝:将语料中的每个句子修剪到固定的输入长度:计算所有候选实体间的最大间距后,选择比这个间距大的文本长度n作为句子的输入长度。为了达到这个固定的输入长度n,对于长度大于n的句子,除了保留两个实体及之间所有文本,并且保留实体前后相同个数的单词,基于这个策略,删除句子中多余的词;对于长度小于n的句子,用一个特殊的符号在句子后面补丁不够此长度的每个输入句子。
S2、构建基于attention机制的模型输入向量:所述模型输入向量包括输入特征向量、输入attention向量和句子向量,其处理方法如下:
B1、输入特征向量的构建:给定一个剪枝的句子S={w1,w2,…,wi,…,wn},每个词wi被表示成三个特征:词自身word,词的PoS标记和位置;位置特征反映当前词wi和被提及的两个候选实体的相对距离;分别用当前词在句子中的位序减去实体1和实体2的位序,即可得到词wi相对于实体1和实体2的距离d1和d2;联合一个词和它的PoS标记区分一个词在不同句子中的语义;通过斯坦福解析器解析上面处理过的句子可以获得每个词在句子中的PoS标签;每个特征组有一个嵌入字典;假设是第k个特征组的嵌入字典,这里mk是一个超参数,表示特征嵌入向量的维数,lk是字典Vk.包含的特征数目;每个嵌入字典中的词可以被随机初始化,或者用预先训练的词嵌入向量初始化;对一个单词wi来说,通过查相应的嵌入字典可以映射每个特征在字典中的索引符号为一个实值行向量,从而得到单词wi的word、PoS和位置对应的嵌入向量,分别表示为以及和
B2、输入attention向量的构建:应用attention机制到B1中的初始word嵌入向量生成面向候选实体的word嵌入向量;利用两个长度等于句子最大长度n的行向量αj来量化一个句子中每个单词wi与第j个候选实体ej的相关程度因子,其中j∈{1,2};αj的定义如下公式所示:
其中,和分别是单词wi与第j个候选实体ej的词嵌入向量,score函数看作面向候选实体的函数,其定义如下:
其中,符号dot表示两个向量和上的点积操作。m1是词嵌入向量的维数。相关程度因子和作用在单词wi的最初词嵌入向量上;二者的联合作用αi表示为αi作用到最初词嵌入向量上看作是面向候选实体的词嵌入向量其定义可表示为其中符号*表示按位计算的乘法;
B3、句子向量的构建:
构建向量用以表示单词wi的语义,其中xi∈Rm,m=m1+m2+2m3,m2和m3分别是PoS和位置嵌入向量的维数;“||”表示连接操作。然后,句子S可以表示成一个实值向量数组Semb=[x1,x2,…,xi,...,xn]。
S3、构建基于双向LSTM的生物医学实体关系分类模型:利用双向带有长短术语存储单元LSTM的循环神经网络进行有监督学习建模;其中的嵌入层可实现步骤S2里B1中获取各特征的向量表示;输入attention层实现步骤S2里B2中输入attention向量的构建;合并层实现步骤S2里B3中句子向量的构建;双向LSTM层采用双向LSTM网络,它由一个前向LSTM和一个后向LSTM组成。对于单词wi来说,两个LSTM分别由前向后和由后向前收集可利用的上下文信息;双向LSTM层在时刻n的输出是两个方向上LSTM输出向量的连接hn表示整个句子的高层语义;利用带有softmax函数的逻辑斯谛回归分类器(logisticregression)作为候选实体的分类器;softmax函数以双向LSTM层的输出hn作为输入,其输出y表示候选实例在每个不同的关系类别标签上的概率分布;第j类标签的概率分布表示为p(y=j|S)=softmax(hnWs+bs),S表示句子,Ws是需要学习的权重矩阵,bs是需要学习的偏置向量;概率最大的类别对应的标签为候选实例的关系类型,表示为其中C是生物语料中分类可能有的标签的集合;设定用于预测误差的损失函数为交叉熵损失函数l是训练集中标注的样本数,上标k表示第k个被分类的句子,θ为模型中的所有参数,采用RMSprop优化算法(Resilient mean squarepropagation)来更新损失函数的参数,其训练方法如下:
e1:设置RMSprop优化算法中的参数学习率η、动量项参数β、初始速率v、梯度累计量衰减速率ρ、梯度累计量r以及最大迭代次数maxIter和最小批m。
e2:初始化梯度累计量r=0,迭代次数iterCount=0,初始化当前误差和上一次误差为无穷大,即currError=lastError=0,随机初始化参数θ;
e3:按照如下方法更新模型中的参数θ:
θ←θ+v
其中⊙表示按位计算的乘法。
e4:迭代次数iterCount加1,按照步骤S3中的损失函数计算出当前误差,若当前误差大于上一次误差即currError>lastError,或者迭代次数等于最大迭代次数即iterCount=maxIter,则满足收敛条件转到步骤e5;否则,lastError=currError,继续e3;
e5:保存模型中的所有参数θ到文件中。
S4、预测生物医学实体关系:读取步骤e5训练得到的参数值θ传递给S3中的网络模型;提取生物医学文献中包括至少两个生物医学实体的句子,按照实体两两匹配原则构建关系实例;利用步骤S1中的方法对文本进行初始处理、指代解析和剪枝;然后利用步骤S2中B1的方法,分别获取句子中的单词、每个单词的PoS标签以及当前单词与两个实体的相对距离,查相应向量字典得到这些特征的索引符号;基于输入,模型会输出每对关系实例在各个类别上的概率值,其中概率值最大的那一类即为候选实例对应的类别标签,从而得到候选实体间的关系类型。
本发明的有益效果在于:本发明通过引入输入attention机制,创新性地提出了一种联合attention机制与神经网络的生物医学实体关系分类方法。本方法在一定程度上克服了循环神经网络LSTM的偏置缺陷,这种缺陷使LSTM在处理生物医学文本长句时忽略掉一些对最终分类结果重要的句子前面的信息。而且,本方法能有效地识别长复杂句子中单词间的近距离模式和远距离模式,从而实现自动和高效地对生物文献中的实体进行关系分类。在实施例DDIExtraction 2013评测语料中DrugBank、Medline及Overall三个数据集上的的主要评价指标F-score上提高幅度分别为3.3%、21.7%和6.2%,验证了本发明方法对生物医学文献中实体关系分类的有效性。
附图说明
图1为本发明关系分类方法的流程示意图;
图2为本发明联合attention机制与神经网络的生物医学实体关系分类模型示意图;
图3为本发明实施例输入attention的可视化。
具体实施方式
以下结合附图及具体实施方式对本发明进行说明:
实施例:
根据上述针对于本发明所涉及方法和***具体实施方式的描述,结合具体实施例进行说明。
本实施例使用DDIExtraction 2013评测任务中的DrugBank和Medline数据集,其中又分为训练集和测试集。DrugBank训练集和测试集分别包含31270和1221个句子,也分别代表了生物医学数据库中的句子和生物医学文章中的句子。实验过程中,对两个数据集上的训练数据集进行合并作为训练集,测试时采用两个测试集均不变以及两个测试集的并集Overall。
一种联合attention机制与神经网络的生物医学实体关系分类方法具体步骤如下:
1、基于指代解析的文本处理:采集上述已标注的数据集,利用文本处理技术、指代解析进行处理后,将语料中的每个句子修剪到固定的输入长度。计算所有候选实体间的最大间距后,分别保持两个候选实体前后各5个单词。于是,被剪枝的句子长度n设置为85。
2、构建基于attention机制的模型输入向量:所述模型输入向量包括输入特征向量、输入attention向量和句子向量,步骤如下:
对于输入特征词向量,词表示的预训练语料包含两部分,总计大约2.5G字节。一部分是通过在PubMed中查询关键字“drug”而获得的2016年前的Medline中相关文章的摘要。另一部分是DDIExtraction 2013评测任务中的语料。PoS向量使用了已标记PoS标签的DDIExtraction 2013评测任务语料中的句子作为训练语料。两种类型的嵌入向量都通过开源工具word2vec工具训练,采用Skip-Gram模型和负采样方法。位置嵌入向量使用随机初始化赋值,所有向量被初始化为符合正态标准分布的随机值。词嵌入向量的维数设置为m1=200,PoS和位置嵌入向量的维数m2、m3分别设置为10。
构建输入attention向量时,应用attention机制到B1中的输入word嵌入向量;利用两个长度等于句子最大长度85的行向量来量化一个句子中每个单词wi与第j个候选实体ej的相关程度因子,其中j∈{1,2}。score函数为其中i≤85。然后,相关程度因子和作用在单词wi的最初词嵌入向量上;二者的联合作用αi表示为对于句子语料中的句子如“Synergism was also noted when entity0 was combined with entity1andentity2.”,利用上面的公式αi计算出来的词级attention的结果如图3所示。从图中可以发现,单词“synergism”、“combined”和“when”相对于其他词有更高的attention权值。由于两个候选实体entity0和entity1之间的真正关系是“effect”,因此,这些计算出来的attention值是合理的。接下来,αi作用到最初词嵌入向量上得到面向候选实体的词嵌入向量其中符号*表示按位计算的乘法。
最后,包括词嵌入向量PoS嵌入向量及位置嵌入向量和在内的所有的向量连接成一个新的向量表示单词wi的语义,其中xi∈Rm,m=230。然后,句子S可以表示成一个实值向量数组Semb=[x1,x2,...,xi,...,x85]。
3、利用基于双向LSTM的架构对生物医学实体关系分类进行有监督学习建模:把前述步骤处理过的训练集数据传递到如附图2所示的双向LSTM循环神经网络进行有监督学习建模;采用的双向LSTM网络,它由一个前向LSTM和一个后向LSTM组成。对于单词wi来说,两个LSTM分别由前向后和由后向前收集可利用的上下文信息。LSTM的三个自适应门的计算依靠以前的状态ht-1和当前的输入状态xt,其公式如下所示:
it=σ(Wi·xt+Ui·ht-1+bi)
ft=σ(Wf·xt+Uf·ht-1+bf)
ot=σ(Wo·xt+Uo·ht-1+bo)
其中σ表示sigmoid函数,三个门的取值范围是[0,1]。有了三个门之后,通过以前的细胞状态Ct-1和候选状态的联合作用确定当前细胞状态Ct。LSTM单元的输出ht是由输出门限定的细胞状态,其更新如下公式所示:
BLSTM在时刻n=85的输出是两个方向上LSTM输出向量的连接其中,LSTM隐含单元数设置为与LSTM输入相同的维数230,hn的维数为460。
利用带有softmax函数的逻辑斯谛回归分类器作为候选实体的分类器;softmax函数以双向LSTM层的输出hn作为输入,其输出y表示候选实例在每个不同的关系类别标签上的概率分布;第j类标签的概率分布表示为p(y=j|S)=softmax(hnWs+bs),S表示句子,Ws是需要学习的权重矩阵,bs是需要学习的偏置向量;概率最大的类别对应的标签为候选实例的关系类型,表示为符号C=5。接下来用来预测误差的损失函数为交叉熵损失函数l是训练集中标注的样本数,上标k表示第k个被分类的句子。
4、训练实体关系分类模型的参数:用RMSprop优化算法来更新损失函数的参数,其中参数学习率η=0.001、动量项参数β=0.9。在训练集上使用句子级的5倍交叉验证调整参数以优化***的性能,保存获得的参数到文件中。
5、预测生物医学实体关系:读取4中文件训练得到的参数值θ传递给图2所示的网络模型;提取测试集中包括至少两个生物医学的句子,按照实体两两匹配原则构建关系实例;利用步骤S1和S2中B1的方法对文本进行处理,分别获取句子中的单词、每个单词的PoS标签和与两个实体的相对距离,查相应向量字典得到这些特征的索引符号并传递给图2模型中的嵌入层;基于输入,模型输出每对关系实例在各个类别上的概率值,其中概率值最大的那一类即为候选实例对应的类别标签,从而得到实体间的关系类型。
为了验证方法的有效性,实验选择了三种对比方法:
(1)基于SVM的方法RAIHANI:***RAIHANI设计了很多的规则和特征,如chunk,触发词,否定句过滤和SAME_BLOK等等。这个方法针对每个子类型的分类器还单独设计了许多不同的特征。
(2)基于LSTM的方法jointAB-LSTM:jointAB-LSTM联合了两个LSTM网络,其中一个在pooling层使用了attention技术,是DDIExtraction 2013语料上基于神经网络架构方法中现有最好的LSTM方法之一。
(3)基于卷积神经网络的方法MCCNN:MCCNN使用了多通道词嵌入向量,是DDIExtraction 2013语料上基于网络架构方法中现有最好的CNN方法之一。
此外,(2)和(3)除采用了常用的文本处理技术,还利用过滤技术排除掉不相关的负实例。
表1给出了包括本发明方法和3个对比方法在内的4种方法在前文所述实验语料上Overall测试集上关系分类的F-score评价指标测试结果,这里的F-score指多分类中经常使用的微平均Micro_F。F-score是文本领域关系提取经常采用的标准的评价指标,它的定义如下:
其中Micro_P表示精度,Micro_R表示召回率,TPi(true positives,真正正例)代表分类器预测为第i类关系的正例实例中实际也为正例的个数,FPi(false positives,虚假正例)代表分类器预测为第i类关系的正例实例中实际为负例的个数,FNi(falsenegatives,虚假负例)代表分类器预测为负例的实例中实际为第i类关系正例的个数。精度Micro_P和召回率Micro_R分别考虑了算法的查准性和查全性。但这两个指标不能较全面地体现一个分类***的性能,因此,通常用在精度Micro_P和召回率Micro_R间起到一个平衡作用的Micro_F值来评价一个算法的整体性能。
表1中带有粗体的值为相应数据集上各关系分类的最高值,符号“-”表示没有相应的值(下同)。“DEC”表示仅仅进行二元的关系检测,即有没有关系。“CLA”表示关系分类。“MEC”、“EFF”、“ADV”和“INT”表示分别“mechanism”、“effect”、“advice”和“int”类型。
表1不同***在OVERALL测试集上关系分类的性能比较
表2给出了包括本发明方法和其中2个对比方法在内的3种方法在前文所述实验语料上三个测试集上关系分类(CLA)的F-score评价指标测试结果,其中joint AB-LSTM方法没有提供实验相应的实验结果。
表2不同***在三个数据集上的性能比较
从上述两表中所列的实验结果可以看出本发明所提出的方法在实验数据集上获得了好的检测(DEC)和分类(CLA)性能。这也说明本方法中通过基于指代解析的文本处理、attention机制构建的输入向量和合适的模型对生物文献实体关系分类来说,的确有很高的性能提升。在DDIExtraction 2013评测语料中DrugBank、Medline及Overall三个数据集上的的主要评价指标F-score上提高幅度分别为3.3%、21.7%和6.2%,验证了本发明方法对生物医学文献中实体关系分类的有效性。
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (6)
1.一种联合attention机制与神经网络的生物医学实体关系分类方法,其特征在于,包括以下步骤:S1、基于指代解析的文本处理;S2、构建基于attention机制的模型输入向量;S3、构建基于双向LSTM的生物医学实体关系分类模型;S4、利用关系分类模型进行生物医学实体关系分类。
2.根据权利要求1所述的一种联合attention机制与神经网络的生物医学实体关系分类方法,其特征在于,所述的步骤:
S1、基于指代解析的文本处理:采集公开已标注的数据集,利用文本处理技术对文本进行初始化处理,利用基于following的指代解析处理和剪枝技术对句子进行处理;
S2、构建基于attention机制的模型输入向量:所述模型输入向量包括输入特征向量、输入attention向量和句子向量,其处理方法如下:
B1、输入特征向量的构建:给定一个剪枝的句子S={w1,w2,…,wi,…,wn},每个词wi被表示成三个特征向量:词自身word、词的PoS标记和位置,分别表示为以及和
B2、输入attention向量的构建:应用attention机制到B1中的初始word嵌入向量以生成面向候选实体的word嵌入向量;利用两个长度等于句子最大长度n的行向量αj来量化一个句子中每个单词wi与第j个候选实体的相关程度因子,αj的定义如下公式所示:
其中,j∈{1,2},和分别是单词wi与第j个候选实体ej的词嵌入向量,score函数被看作面向候选实体的函数,其定义如下:
其中,符号dot表示两个向量和上的点积操作;m1是词嵌入向量的维数;相关程度因子和作用在单词wi的最初词嵌入向量上,二者的联合作用αi表示为αi作用到最初词嵌入向量上看作是面向候选实体的词嵌入向量其定义表示为其中符号*表示按位计算的乘法;
B3、句子向量的构建:
构建向量用以表示单词wi的语义,其中xi∈Rm,m=m1+m2+2m3,m2和m3分别是PoS和位置嵌入向量的维数;“||”表示连接操作;句子S表示成一个实值向量数组Semb=[x1,x2,…,xi,...,xn];
S3、构建基于双向LSTM的生物医学实体关系分类模型:利用双向带有长短术语存储单元的循环神经网络进行有监督学习建模;包括:嵌入层,输入attention层,合并层,双向LSTM层;利用带有softmax函数的逻辑斯谛回归分类器作为候选实例的分类器;softmax函数以双向LSTM层的输出hn作为输入,其输出y表示候选实例在每个不同的关系类别标签上的概率分布;第j类标签的概率分布表示为p(y=j|S)=softmax(hnWs+bs),S表示句子,Ws是需要学习的权重矩阵,bs是需要学习的偏置向量;概率最大的类别对应的标签为候选实例的关系类型,表示为其中C是生物语料中分类可能有的标签的集合;设定用于预测误差的损失函数为交叉熵损失函数l是训练集中标注的样本数,上标k表示第k个被分类的句子,θ为模型中的所有参数;
S4、预测生物医学实体关系:利用步骤S1中的方法对文本进行初始处理、指代解析和剪枝;然后利用步骤S2中B1的方法,分别获取句子中的单词、每个单词的PoS标签以及当前单词与两个实体的相对距离,查相应向量字典得到这些特征的索引符号;基于输入,模型会输出每对关系实例在各个类别上的概率值,其中概率值最大的那一类即为候选实例对应的类别标签,从而得到实体间的关系类型。
3.根据权利要求2所述的一种联合attention机制与神经网络的生物医学实体关系分类方法,其特征在于步骤S1中,所述的初始处理基于following的指代处理和句子剪枝,表示为:
A1、初始处理:一个特殊的符号代替不属于生物医学实体子串的数字子串;删除不包含候选实体的括号;为了方法的泛化,所有的生物医学实体用entity*代替,*表示0,1,2,…;删除仅仅包含一个实体的句子或者两个实体具有同样符号的句子;
A2、基于following的指代处理解析:对于生物文献文本中带有“:”的包含“following[指代词]”的句子模式,如果候选对中的两个实体分别位于“:”的两边,利用如下的规则进行替换,其中[w]*表示一个或多个单词符号:
句型1:entity1[w]*following[cataphoraword]:[w]*entity2[w]*.
规则1:entity1[w]*following entity2.
句型2:[w]*following[cataphora word][w]*entity2:[w]*entity1[w]*.
规则2:[w]*following entity1[w]*entity2.
A3、句子剪枝:将语料中的每个句子修剪到固定的输入长度:计算所有候选实体间的最大间距后,选择比这个间距大的文本长度n作为句子的输入长度;为了达到这个固定的输入长度n,对于长度大于n的句子,除了保留两个实体及之间所有文本,并且保留实体前后相同个数的单词,基于这个策略,删除句子中多余的词;对于长度小于n的句子,用一个特殊的符号在句子后面补丁不够此长度的每个输入句子。
4.根据权利要求2所述的一种联合attention机制与神经网络的生物医学实体关系分类方法,其特征在于,步骤S2中,步骤B2所述的以及和获取方法如下:
分别用当前词wi在句子中的位序减去实体1和实体2的位序,即可得到词wi相对于实体1和实体2的距离d1和d2;联合一个词和它的PoS标记区分一个词在不同句子中的语义;通过斯坦福解析器解析上面处理过的句子获得每个词在句子中的PoS标签;每个特征组有一个嵌入字典;假设是第k个特征组的嵌入字典,其中mk是一个特征嵌入向量的维数,lk是字典Vk包含的特征数目;每个嵌入字典中的词可以被随机初始化,或者用预先训练的词嵌入向量初始化;对一个单词wi来说,通过查相应的嵌入字典可以映射每个特征在字典中的索引符号为一个实值行向量,从而得到单词wi的word、PoS和位置对应的嵌入向量,以及和
5.根据权利要求2所述的一种联合attention机制与神经网络的生物医学实体关系分类方法,其特征在于,在步骤S3中,双向LSTM层采用双向LSTM网络,它由一个前向LSTM和一个后向LSTM组成;双向LSTM层在时刻n的输出是两个方向上LSTM输出向量的连接hn表示整个句子的高层语义。
6.根据权利要求2所述的一种联合attention机制与神经网络的生物医学实体关系分类方法,其特征在于,在步骤S3中,采用RMSprop优化算法来更新损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810554915.5A CN108875809A (zh) | 2018-06-01 | 2018-06-01 | 联合attention机制与神经网络的生物医学实体关系分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810554915.5A CN108875809A (zh) | 2018-06-01 | 2018-06-01 | 联合attention机制与神经网络的生物医学实体关系分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108875809A true CN108875809A (zh) | 2018-11-23 |
Family
ID=64336156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810554915.5A Pending CN108875809A (zh) | 2018-06-01 | 2018-06-01 | 联合attention机制与神经网络的生物医学实体关系分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108875809A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710930A (zh) * | 2018-12-20 | 2019-05-03 | 重庆邮电大学 | 一种基于深度神经网络的中文简历解析方法 |
CN109754012A (zh) * | 2018-12-29 | 2019-05-14 | 新华三大数据技术有限公司 | 实体语义关系分类方法、模型训练方法、装置及电子设备 |
CN109871414A (zh) * | 2019-01-15 | 2019-06-11 | 大连交通大学 | 基于上下文向量图核的生物医学实体关系分类方法 |
CN110060773A (zh) * | 2019-04-22 | 2019-07-26 | 东华大学 | 基于双向lstm的阿尔茨海默症病情发展预测*** |
CN110377912A (zh) * | 2019-07-24 | 2019-10-25 | 贵州大学 | 一种基于多通道深度神经网络的关系识别方法 |
CN110688486A (zh) * | 2019-09-26 | 2020-01-14 | 北京明略软件***有限公司 | 一种关系分类的方法和模型 |
CN111222338A (zh) * | 2020-01-08 | 2020-06-02 | 大连理工大学 | 基于预训练模型和自注意力机制的生物医学关系抽取方法 |
CN111353306A (zh) * | 2020-02-22 | 2020-06-30 | 杭州电子科技大学 | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 |
CN111859967A (zh) * | 2020-06-12 | 2020-10-30 | 北京三快在线科技有限公司 | 实体识别方法、装置,电子设备 |
CN111950279A (zh) * | 2019-05-17 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 实体关系的处理方法、装置、设备及计算机可读存储介质 |
CN112036181A (zh) * | 2019-05-14 | 2020-12-04 | 上海晶赞融宣科技有限公司 | 实体关系识别方法、装置及计算机可读存储介质 |
CN113032618A (zh) * | 2021-03-26 | 2021-06-25 | 齐鲁工业大学 | 基于知识图谱的音乐推荐方法及*** |
WO2022028692A1 (en) * | 2020-08-05 | 2022-02-10 | Siemens Aktiengesellschaft | Enhancement of bootstrapping for information extraction |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354710A (zh) * | 2016-08-18 | 2017-01-25 | 清华大学 | 一种神经网络关系抽取方法 |
US20170229071A1 (en) * | 2016-02-05 | 2017-08-10 | Hand Held Products, Inc. | Dynamic identification badge |
CN107818141A (zh) * | 2017-10-10 | 2018-03-20 | 大连理工大学 | 融入结构化要素识别的生物医学事件抽取方法 |
-
2018
- 2018-06-01 CN CN201810554915.5A patent/CN108875809A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170229071A1 (en) * | 2016-02-05 | 2017-08-10 | Hand Held Products, Inc. | Dynamic identification badge |
CN106354710A (zh) * | 2016-08-18 | 2017-01-25 | 清华大学 | 一种神经网络关系抽取方法 |
CN107818141A (zh) * | 2017-10-10 | 2018-03-20 | 大连理工大学 | 融入结构化要素识别的生物医学事件抽取方法 |
Non-Patent Citations (4)
Title |
---|
ZENG DJ ET AL: "《Relation Classification Via Convolutional Deep Neural Network》", 《COLING 2014》 * |
ZHENG WEI ET AL: "《An attention-based effective neural model for drug-drug interactions extraction》", 《BMC BIOINFORMATICS 18》 * |
伊恩•古德费洛著: "《深度学习》", 31 July 2017, 人民邮电出版社 * |
***等: "《生物医用多孔金属材料的制备及表面改性》", 30 August 2016, 冶金工业出版社 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710930A (zh) * | 2018-12-20 | 2019-05-03 | 重庆邮电大学 | 一种基于深度神经网络的中文简历解析方法 |
CN109754012A (zh) * | 2018-12-29 | 2019-05-14 | 新华三大数据技术有限公司 | 实体语义关系分类方法、模型训练方法、装置及电子设备 |
CN109871414A (zh) * | 2019-01-15 | 2019-06-11 | 大连交通大学 | 基于上下文向量图核的生物医学实体关系分类方法 |
CN110060773A (zh) * | 2019-04-22 | 2019-07-26 | 东华大学 | 基于双向lstm的阿尔茨海默症病情发展预测*** |
CN110060773B (zh) * | 2019-04-22 | 2023-10-27 | 东华大学 | 基于双向lstm的阿尔茨海默症病情发展预测*** |
CN112036181A (zh) * | 2019-05-14 | 2020-12-04 | 上海晶赞融宣科技有限公司 | 实体关系识别方法、装置及计算机可读存储介质 |
CN111950279A (zh) * | 2019-05-17 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 实体关系的处理方法、装置、设备及计算机可读存储介质 |
CN110377912A (zh) * | 2019-07-24 | 2019-10-25 | 贵州大学 | 一种基于多通道深度神经网络的关系识别方法 |
CN110688486A (zh) * | 2019-09-26 | 2020-01-14 | 北京明略软件***有限公司 | 一种关系分类的方法和模型 |
CN111222338A (zh) * | 2020-01-08 | 2020-06-02 | 大连理工大学 | 基于预训练模型和自注意力机制的生物医学关系抽取方法 |
CN111353306A (zh) * | 2020-02-22 | 2020-06-30 | 杭州电子科技大学 | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 |
CN111859967A (zh) * | 2020-06-12 | 2020-10-30 | 北京三快在线科技有限公司 | 实体识别方法、装置,电子设备 |
CN111859967B (zh) * | 2020-06-12 | 2024-04-09 | 北京三快在线科技有限公司 | 实体识别方法、装置,电子设备 |
WO2022028692A1 (en) * | 2020-08-05 | 2022-02-10 | Siemens Aktiengesellschaft | Enhancement of bootstrapping for information extraction |
CN113032618A (zh) * | 2021-03-26 | 2021-06-25 | 齐鲁工业大学 | 基于知识图谱的音乐推荐方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875809A (zh) | 联合attention机制与神经网络的生物医学实体关系分类方法 | |
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
CN107992597B (zh) | 一种面向电网故障案例的文本结构化方法 | |
CN109446338B (zh) | 基于神经网络的药物疾病关系分类方法 | |
CN112001185B (zh) | 一种结合中文句法和图卷积神经网络的情感分类方法 | |
CN110287481B (zh) | 命名实体语料标注训练*** | |
Chang et al. | Chinese named entity recognition method based on BERT | |
CN108984526A (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN108460089A (zh) | 基于Attention神经网络的多元特征融合中文文本分类方法 | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
CN111554360A (zh) | 基于生物医学文献和领域知识数据的药物重定位预测方法 | |
CN111222318B (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN110750645A (zh) | 基于对抗训练的跨领域虚假评论识别方法 | |
CN110083836A (zh) | 一种文本预测结果的关键证据抽取方法 | |
CN111476024A (zh) | 一种文本分词方法、装置及模型训练方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
Lim et al. | Bibliographic analysis on research publications using authors, categorical labels and the citation network | |
CN112836051A (zh) | 一种在线自学习的法院电子卷宗文本分类方法 | |
CN116245107A (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN110245234A (zh) | 一种基于本体和语义相似度的多源数据样本关联方法 | |
Kang et al. | A research toward Chinese named entity recognition based on transfer learning | |
CN116070700A (zh) | 融合迭代式主动学习的生物医学关系抽取方法及*** | |
Kim | Research on Text Classification Based on Deep Neural Network | |
Mudigonda et al. | IDEAL: an inventive optimized deep ensemble augmented learning framework for opinion mining and sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181123 |
|
RJ01 | Rejection of invention patent application after publication |