CN112541356A

CN112541356A - 一种生物医学命名实体识别的方法和***

Info

Publication number: CN112541356A
Application number: CN202011519249.5A
Authority: CN
Inventors: 徐卫志; 范胜玉; 曹洋; 于惠
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-23
Anticipated expiration: 2040-12-21
Also published as: CN112541356B

Abstract

本公开提供了一种生物医学命名实体识别的方法和***，包括：对于字符、词利用注意力机制进行特征采样分别得到单词嵌入的拓展，然后使用最大池化层来提取单词嵌入；采用注意机制将不同层次的单词嵌入进行融合，得到多层次的单词嵌入；将所述多层次的单词嵌入输入命名实体识别神经网络模型中进行训练，获得训练好的命名实体识别神经网络模型；将待识别的生物医学命名实体输入训练好的命名实体识别神经网络模型，得到实体识别结果。

Description

一种生物医学命名实体识别的方法和***

技术领域

本公开属于自然语言处理和深度学习的技术领域，具体涉及一种生物医学命名实体识别的方法和***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

自然语言处理(NLP)是人工智能和语言学领域的一个分支学科，是人工智能中最为困难的问题之一。NLP是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。它对计算机和人类的交互方式有许多重要的影响。其基本任务有语音识别、信息检索、问答***，机器翻译等等，像循环神经网络、朴素贝叶斯就是NLP经常用到的模型。自然语言处理的语言处理一词是指能够处理口语和书面语的计算机技术。使用相关技术，能将海量的数据进行高效快捷的检索和存储。随着深度学习技术在众多领域的发展，自然语言处理也有了很大突破。

注意力机制(Attention Mechanism)是近年来在自然语言处理领域中提升任务性能的重要工具。通过句子内部的嵌入向量进行多次乘法计算再进行注意力分数计算，最后对句子的词嵌入向量的各维度数值依据注意力分数进行加权，最后得到经过注意力计算的词嵌入向量。在命名实体识别领域中使用注意力机制对句子中的词嵌入信息进行注意力探索已经成为一种成熟的技术。

命名实体识别(Named Entity Recognition，NER)，是NLP领域中的基础任务，也是问答***、机器翻译、句法分析等多数NLP任务的重要基础工具。以前的方法主要是基于词典和基于规则的。基于词典的方法是通过字符串模糊查找或者完全匹配的方法，但是随着新的实体名称不断涌现，词典的质量与大小有局限性；基于规则的方法是通过实体名成自身的特征和短语的常见搭配，来人为的指定一些规则，扩充规则集合，但是需要耗费巨大的人力资源和时间成本，规则一般只在某个特定的领域内有效，进行人工迁移的代价高，且规则移植性不强。进行命名实体识别，多采用机器学习的方法，通过不断地优化模型训练，是训练的模型在测试评估时表现出较好的性能。目前应用较多的模型有隐马尔可夫模型(Hidden Markov Model，HMM)、支持向量机(Support Vector Machine，SVM)、最大熵马尔可夫模型(Maximum Entropy Markov Model，MEMM)、条件随机场(Conditional RandomField，CRF)等。条件随机场模型能对邻近标签对预测序列的影响问题进行有效地处理，所以在实体识别中应用较多，且效果不错。目前，针对序列标注问题，一般采用深度学习算法。与传统算法相比，深度学习算法去掉了手工提取特征这一步，能有效的提取判别特征。

近年来，随着互联网的高速运转，信息也有了各式各样的存储形式。在生物医学领域，文献资源每年都在数以千倍的增加，这些信息的构成多以非结构化文本的形式存储，生物医学命名实体识别的任务是将非结构化文本转为结构化文本，将生物医学文本中的特定实体名称如基因、蛋白质、疾病等进行识别和分类。目前，从庞大的数据中如何快速高效的检索相关信息是一项巨大的挑战。

发明内容

本公开为了解决上述问题，提出了一种生物医学命名实体识别的方法和***，本公开主要分为两个部分，即多层次的注意力嵌入向量计算和交叉注意力融合；多层次注意力嵌入向量计算主要有，基于字符的局部注意力计算、基于字符的全局注意力计算以及基于词的局部注意力计算。

根据一些实施例，本公开采用如下技术方案：

第一方面，本公开提供了一种生物医学命名实体识别的方法；

一种生物医学命名实体识别的方法，包括：

对于字符、词利用注意力机制进行特征采样分别得到单词嵌入的拓展，然后使用最大池化层来提取单词嵌入；

采用注意机制将不同层次的单词嵌入进行融合，得到多层次的单词嵌入；

将所述多层次的单词嵌入输入命名实体识别神经网络模型中进行训练，获得训练好的命名实体识别神经网络模型；

将待识别的生物医学命名实体输入训练好的命名实体识别神经网络模型，得到实体识别结果。

第二方面，本公开提供了一种生物医学命名实体识别的***；

一种生物医学命名实体识别的***，包括：

词嵌入模块，被配置为：对于字符、词利用注意力机制进行特征采样分别得到单词嵌入的拓展，然后使用最大池化层来提取单词嵌入；

特征融合模块，被配置为：采用注意机制将不同层次的单词嵌入进行融合，得到多层次的单词嵌入；

模型训练模块，被配置为：将所述多层次的单词嵌入输入命名实体识别神经网络模型中进行训练，获得训练好的命名实体识别神经网络模型；

输出模块，被配置为：将待识别的生物医学命名实体输入训练好的命名实体识别神经网络模型，得到实体识别结果。

第三方面，本公开提供了一种计算机可读存储介质；

本公开提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成如第一方面所述的生物医学命名实体识别的方法。

与现有技术相比，本公开的有益效果为：

1、本公开处理生物医学命名实体识别时，采用命名实体识别神经网络模型，将多层次的注意力嵌入向量计算和交叉注意力融合等算法相结合，提高了命名实体识别的准确率。

2、本公开在进行命名实体识别任务时，经过条件随机场(CRF)对序列结构数据进行标记和划分，可以实现较为准确的最终序列标注效果。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开的生物医学命名实体识别的方法流程图；

图2是本公开实施例中基于字符的局部注意力机制原理图；

图3是本公开的实施例中基于字符的全局注意力机制原理图；

图4是本公开的实施例中基于字符的局部注意力实验效果；

图5是本公开的实施例中交叉注意力融合方法针在字符局部注意力实验效果；

图6是本公开的实施例中基于字符的全局注意力实验效果；

图7是本公开的实施例中交叉注意力融合方法针在字符全局注意力实验效果；

图8是本公开的实施例中基于词的局部注意力实验效果。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释：

命名实体识别(Named Entity Recognition，NER)，是NLP领域中的基础任务，也是问答***、机器翻译、句法分析等多数NLP任务的重要基础工具。

真如背景技术中所介绍的，随着科技的发展，非结构化的生物医学数据不断涌现，目前生物医学命名实体识别面临着很多困难：实体名称带有多个修饰词，辨别实体边界难度加大；多个实体名称共享一个单词；缺乏严格的命名标准；缩写词存在歧义等等。为了解决这些难题，采用多过滤器的卷积神经网络可以大大提升***的性能，提高识别准确率。

实施例一

图1是本实施例提供的生物医学命名实体识别的方法流程图，如图1所示，本实施例提供了一种生物医学命名实体识别的方法，包括：

具体的，对句子中的词嵌入使用注意力机制对句子内部的词嵌入进行特征提取；

作为另一种实施方式，所述对于字符、词利用注意力机制进行特征采样分别得到单词嵌入的拓展，包括：采用多层次的注意力嵌入向量计算分别在局部字符、全局字符以及局部词中进行注意力探索，在不同的层次提取单词嵌入信息。

多层次的注意力嵌入向量计算，包括：基于字符的局部注意力计算、基于字符的全局注意力计算以及基于词的局部注意力计算。

其中，基于字符的局部注意力计算主要对单词内部的字符使用单热(ont-hot)编码的形式进行建模，然后分别对建模的字符嵌入矩阵进行注意力计算，最后输出的对计算的注意力字符嵌入使用池化层采样选择合适维度信息。

基于字符的全局注意力计算主要对建模的字符嵌入矩阵先使用Bi-GRU在句子字符上进行上下文信息探索，然后在进行注意力计算，最后同样使用池化层进行采样形成对应的单词嵌入。

基于词的局部注意力计算主要对单词嵌入进行注意力分布计算，提取单词嵌入之间的注意分布。

值得注意的是我们需要在计算注意力分布之前，先在句子内部对词嵌入进行上下文探索，提取上下文信息；这样需要进行注意力计算的词嵌入向量蕴含了句子内部的嵌入信息。

作为另一种实施方式，所述采用注意机制将不同层次的单词嵌入进行融合，得到多层次的单词嵌入，包括：采用交叉注意力融合将两个不同层次的注意力加权到相应的嵌入信息之中进行融合，得到多层次的单词嵌入。

交叉注意力融合算法指的是，传统针对不同采样方法得到的嵌入信息通常使用直接拼接的方式然后进入下一步的处理，在本实施例中采用了双方注意力计算，并将相互之间的注意力加权到相应的嵌入信息之中，最后再进行拼接进行下一步处理。

作为另一种实施方式，对于字符、词利用注意力机制进行特征采样分别得到单词嵌入的拓展之前，还包括采用条件随机场对所述生物医学命名实体进行标记和划分。

具体的，本实施例还提供了更细化的实施方式：生物医学命名实体识别的方法也可以划分为如下几个过程：

(1)词嵌入。在进行命名实体识别任务时，文本中的句子可以从字符级和词级两方面去考虑其识别性能，在本实施例中，使用多层次注意力的形式分别在局部字符、全局字符以及局部词中进行注意力探索，所以使用注意力机制在不同的维度提取词嵌入信息，最后使用注意力融合方式，对不同维度的词嵌入进行融合生成的下游任务需要的嵌入向量，使用此方案可以稳定的提升模型的训练性能。在众多NLP的过程中，通过词嵌入信息进行特征提取的功能已经被证明是有效的，如近期的句子相似度计算，词性标注问题，文本的词嵌入方式令他们的***的性能得到了提升，词级表示可以极大地提升我们的模型所能处理的词汇量。

(2)多层次注意力特征提取。在医学文本中，通常使用预训练的词嵌入向量进行下一步的模型训练，然而在常用的预训练词嵌入中，对于专门词汇的支持性存在局限性，即存在大量的OOV形式的词嵌入向量。因此，本实施例中使用了多维度的注意力计算来探索词嵌入信息，进而弥补专业词汇的词嵌入信息。

(3)上下文信息提取。在生物医学文本中，想要提取高效有利的实体名称，就需要考虑句子中单词所处的位置和邻近单词的语义信息，也就是说上下文信息对NER任务非常有益，所以本实施例主要采用了双向长短期记忆网络(BLSTM)，BiLSTM由前向LSTM和后向LSTM组成，它有效地解决了梯度消失和梯度***问题。

(4)标记和划分标签。进行命名实体识别任务时，经过条件随机场(CRF)对序列结构数据进行标记和划分，可以实现较为准确的最终序列标注效果。CRF是马尔可夫随机场的变体，是在BiLSTM上构建的，一般是对于给定的输出识别标签和观测序列，通过条件概率来表示模型，对全部的特征做全局归一化处理，相比较其他机器学习方法更有优势。

近年来，双向长短期记忆(BiLSTM)和条件随机场(CRF)相结合的神经网络方法在各种NER数据集上取得了较好的效果。虽然BiLSTM探索了大量的上下文信息，但在现有的训练词嵌入中，医学专业词汇出现的频率较少，不能获得更准确的词义，并且不能保证每次获得的单词标签都被正确预测。以BioBERT和SciBERT为代表的预训练模型使用BERT模型通过训练特定的专业医学语料库来获取更高级的嵌入信息，从而提高下游任务的性能。

虽然预先训练的模型可以获得更快的收敛速度和稳定的模型性能，但它使用了大量的计算资源，训练一个优秀的模型的成本是巨大的。所以，使用多层次注意力机制这种不需要预先训练的简单、低成本的方法使得字符级和词级别编码器对特定的单词信息更有意义。

在NER任务中，梯度消失或梯度***问题是我们经常遇到的，但是通过使用双向长短期记忆网络(BLSTM)，本实施例的命名实体识别神经网络模型可以在任何生物医学文本语句的两侧获取上下文信息，消除了前馈神经网络中的有限环境问题。CRF作为马尔可夫随机场的变体，有效的处理了标记和划分序列结构数据的概率问题。

实施例二

本公开的目的是为了提高生物学命名实体识别的准确率。为了使本发明更加清楚，下面将结合附图和具体实例对本发明进行详细描述。

在之前的研究中，我们可以了解到，通过卷积神经网络对字符进行特征采样作为单词嵌入的扩展，可以提高命名实体识别任务的性能。在本实施例中，介绍了两种基于字符的技术：局部注意机制、全局注意机制以及基于单词的单词嵌入注意机制；最后介绍了一种多层次交叉注意力信息融合机制，称之为多维融合技术。

基于字符的局部注意机制(LAM)如图2所示。采用注意机制来挖掘局部字符的关键成分，以便将字符嵌入到单词中，然后使用最大池化来提取单词嵌入。作为原生词嵌入的扩展，它增加了嵌入词的信息量。LAM的细节如下：

实施例三

基于字符的全局注意机制(GAM)如图3所示。在训练过程中，对每一批中所有句子的字符进行合并，然后利用注意机制在全局字符级提取单词嵌入。直接在全局字符集上使用注意机制可能会丢失上下文信息。在以往的工作中，首先利用BiLSTM提取字符上下文信息，然后利用注意力机制进行计算。在我们的实验中，我们发现使用BiGRU不仅可以获得更好的上下文信息，而且可以获得更好的计算效率。GAM描述的具体算法如下：

词汇水平的局部注意机制在以往的研究中被多次使用。单词注意机制可以准确地提取单词嵌入之间的注意分布。另外，已有研究表明，在计算注意机制后，使用BiLSTM进行特征提取的效果并不理想。因此，本实施例使用BiGRU来提取上下文信息。

NER任务的多层次特征融合是一种强大而有效的策略，可以利用最重要的功能来获得更好的结果。本实施例并不是简单地将多维特征信息直接连接起来。在连接两种不同维度的特征时，首次引入了交叉注意机制。对于这两个层次的特征，采用注意机制来计算双方的注意分数，然后对它们进行融合，得到多层次的单词嵌入。值得注意的是，为了使这两个层次的特征能够计算注意力，BiLSTM或BiGRU被用来标准化维度。具体计算过程如下：

f₁＝BiRNN[f₁]

f₂＝BiRNN[f₂]

n₁＝softmax[m1]

n₂＝softmax[m2]

a₁＝o₁⊙f₁

a₂＝o₂⊙f₂

Att＝[a₁,a₂]

在双向长短期记忆(BiLSTM)这一层，有输入、忘记和输出三个控制门，来保护和控制细胞状态，捕捉更好的双向语义依赖，通过调整上下文中相关信息的权重，来掌握该信息对预测对象的影响程度。隐藏层使用一个sigmod函数。单个的LSTM单元，其控制结构为：

i_t＝σ(W_ih_t-1+U_iXt+b_i)

f_t＝σ(W_fh_t-1+U_fXt+b_f)

o_t＝σ(W_oh_t-1+U_oX1+b_o)

h_t＝o_t⊙tanh(c_t)

在生物医学领域，对基因、疾病、蛋白质进行命名时，一般采用{B,I,O}、{B,I,O,E,S}等标签方式对实体进行标注，B指实体的起始，I指实体的内部，E指实体的结尾，O指非实体的组成部分。例如，“B-GENE”是指基因结构的起始位置标签。BiLSTM输出的是标签分值，如果从中挑选分值最高的最为该单元的标签，这种方法是不准确的，需要借助CRF层来确保标签的合法性。

实施例四

本实施例提供了一种生物医学命名实体识别的***；

一种生物医学命名实体识别的***，包括：

此处需要说明的是，上述词嵌入模块、特征融合模块、模型训练模块以及输出模块，对应于实施例一中的具体步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。

实施例五

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成如上述实施例中所述的生物医学命名实体识别的方法。

实施例六

图4是本公开的实施例中基于字符的局部注意力实验效果图，如图4所示，在字符级别上面的数据对不同的注意力头数目的影响，也就是指的是通过增加头的数目探索，一个效果最好的参数；

实施例七

图5是本公开的实施例中交叉注意力融合方法针在字符局部注意力实验效果图，如图5所示，在得到字符注意力的情况下，对比了直接拼接输入步骤三，利用注意力交叉融合的方式拼接输入步骤三，再进行交叉融合人以后的词嵌入再与原始嵌入做拼接。

实施例八

图6是本公开的实施例中基于字符的全局注意力实验效果图，如图6所示，测试了在不同的word级别的注意力头数对于性能影响。

实施例九

图7是本公开的实施例中交叉注意力融合方法针在字符全局注意力实验效果图，如图7所示，对比了词级别的数据影响。

实施例十

图8是本公开的实施例中基于词的局部注意力实验效果图，如图8所示，对比了词级信息，对于直接利用注意力嵌入、利用b i l stm以后再注意力提取、利用交叉注意力增加字符信息影响以后的区分效果对比。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种生物医学命名实体识别的方法，其特征在于，包括：

2.根据权利要求1所述的生物医学命名实体识别的方法，其特征在于，对于字符、词利用注意力机制进行特征采样分别得到单词嵌入的拓展，包括：采用多层次的注意力嵌入向量计算分别在局部字符、全局字符以及局部词中进行注意力探索，在不同的层次提取单词嵌入信息。

3.根据权利要求2所述的生物医学命名实体识别的方法，其特征在于，所述多层次的注意力嵌入向量计算，包括：基于字符的局部注意力计算，所述基于字符的局部注意力计算对单词内部的字符使用单热编码的形式进行建模，然后分别对建模的字符嵌入矩阵进行注意力计算，最后输出的对计算的注意力字符嵌入使用最大池化层采样选择合适维度信息。

4.根据权利要求3所述的生物医学命名实体识别的方法，其特征在于，所述多层次的注意力嵌入向量计算，包括：基于字符的全局注意力计算，所述基于字符的全局注意力计算对建模的字符嵌入矩阵先使用Bi-GRU在句子字符上进行上下文信息探索，然后在进行注意力计算，最后使用最大池化层进行采样形成对应的单词嵌入。

5.根据权利要求2所述的生物医学命名实体识别的方法，其特征在于，所述多层次的注意力嵌入向量计算，还包括：基于词的局部注意力计算，所述基于词的局部注意力计算对单词嵌入进行注意力分布计算，提取单词嵌入之间的注意分布。

6.根据权利要求4或5所述的生物医学命名实体识别的方法，其特征在于，在计算注意力分布之前，先在句子内部对单词嵌入进行上下文探索，提取上下文信息。

7.根据权利要求1所述的生物医学命名实体识别的方法，其特征在于，所述采用注意机制将不同层次的单词嵌入进行融合，得到多层次的单词嵌入，包括：采用交叉注意力融合将两个不同层次的注意力加权到相应的嵌入信息之中进行融合，得到多层次的单词嵌入。

8.根据权利要求1所述的生物医学命名实体识别的方法，其特征在于，在所述对字符进行特征采样作为单词嵌入的扩展之前，还包括采用条件随机场对所述生物医学命名实体进行标记和划分。

9.一种生物医学命名实体识别的***，其特征在于，包括：

10.一种计算机可读存储介质，用于存储计算机指令，其特征在于，所述计算机指令被处理器执行时，完成如权利要求1-8任一所述的生物医学命名实体识别的方法。