CN112115721A

CN112115721A - 一种命名实体识别方法及装置

Info

Publication number: CN112115721A
Application number: CN202011039983.1A
Authority: CN
Inventors: 于腾; 葛通; 李晓雨; 孙凯; 徐文权; 潘汉祺; 胡永利; 申彦明; 陈维强; 孙永良; 于涛; 王玮
Original assignee: Hisense TransTech Co Ltd
Current assignee: Hisense TransTech Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2020-12-22
Anticipated expiration: 2040-09-28
Also published as: CN112115721B

Abstract

本发明实施例提供一种命名实体识别方法及装置，该方法包括：将待识别文本的第一字序列矩阵输入第一训练模型获取所述待识别文本的第一字特征矩阵；将所述待识别文本的第一词序列矩阵输入第二训练模型获取所述待识别文本的第一词特征矩阵；所述第一字特征矩阵的维度和所述第一词特征矩阵的维度相同；将所述第一字特征矩阵和所述第一词特征矩阵进行处理，得到第一字词融合特征矩阵；通过第三训练模型对所述第一字词融合特征矩阵进行处理获取所述待识别文本的命名实体识别结果。上述方法中，将字特征矩阵和词特征矩阵进行融合处理，且对字词融合特征矩阵进行处理，进一步提高待识别文本的识别结果的准确性。

Description

一种命名实体识别方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种命名实体识别方法及装置。

背景技术

命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。NER技术是指从一段自然语言文本中标记相关的实体的位置和类型，将需要的实体抽取出来，例如在医疗领域的一些机构名，人名，疾病以及症状等实体的识别等。其在知识图谱构建、信息抽取、信息检索、机器翻译、自动问答以及舆情监测等任务都有广泛应用，是自然语言处理的基础。

NER通常利用序列标注方式联合实体边界和确定实体类型。但是由于NER的第一步就是确定词的边界，即分词，而汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符；和除了英语中定义的实体，还存在外国人名译名和地名译名等汉语中的特殊实体类型；以及汉语词语的多意性等原因；使得目前的中文命名实体识别方法仍具有一定的局限性。

现有技术中，将字、字根或词映射转为单一向量，通过相应卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(LSTM，Long Short-TermMemory)等训练模型实现NER技术。但此过程中为了加强字与字或词与词之间的相关性，需要大量的人工干预以构建字或词的特征，这种方式十分费时费力。且上述方法在实践过程中很难保证命名实体识别的准确性。尤其对于长实体的句子来说，更加难以识别实体的边界，造成命名实体识别的准确率越低。

因此，现在亟需一种命名实体识别方法及装置，能够提高命名实体识别的准确率。

发明内容

本发明实施例提供一种命名实体识别方法及装置，能够提高命名实体识别的准确率。

第一方面，本发明实施例提供一种命名实体识别方法，该方法包括：

将待识别文本的第一字序列矩阵输入第一训练模型获取所述待识别文本的第一字特征矩阵；将所述待识别文本的第一词序列矩阵输入第二训练模型获取所述待识别文本的第一词特征矩阵；所述第一字特征矩阵的维度和所述第一词特征矩阵的维度相同；将所述第一字特征矩阵和所述第一词特征矩阵进行处理，得到第一字词融合特征矩阵；通过第三训练模型对所述第一字词融合特征矩阵进行处理获取所述待识别文本的命名实体识别结果。

上述方法中，使用第一训练模型、第二训练模型获取字特征矩阵和词特征矩阵。由于字特征矩阵的维度和词特征矩阵的维度相同，如此，将字特征矩阵和词特征矩阵进行融合处理，一方面可以提高待识别文本的识别结果的准确性；另一方面可以防止将字特征矩阵和词特征矩阵拼接等计算方式造成的维度过高，进而发生梯度***的现象，而导致的降低模型运行效率。且通过第三训练模型，对字词融合特征矩阵进行处理，进一步提高待识别文本的识别结果的准确性。

可选的，将待识别文本的第一字序列矩阵输入第一训练模型获取所述待识别文本的第一字特征矩阵之前，还包括：设置所述第一训练模型的第一参数，所述第一参数用于获取预设维度的所述第一字特征矩阵；将待识别文本的第一词序列矩阵输入第二训练模型获取所述待识别文本的第一词特征矩阵之前，还包括：设置所述第二训练模型的第二参数，所述第二参数用于获取所述预设维度的所述第一词特征矩阵。

上述方法中，通过分别为第一训练模型设置第一参数，以及为第二训练模型设置第二参数，使得获得的字特征矩阵和词特征矩阵维度相同，便于做将第一字特征矩阵和第一词特征矩阵的融合处理，进一步便于提高命名实体识别的准确率。

可选的，将待识别文本的第一词序列矩阵输入第二训练模型获取所述待识别文本的第一词特征矩阵之前，还包括：通过第一方式确定所述待识别文本的各字对应的第一字向量；所述各字的第一字向量组成所述第一字序列矩阵；通过第二方式确定所述待识别文本的各字对应的第二字向量；所述第一方式与所述第二方式不同；对所述待识别文本进行分词，得到所述待识别文本的各分词；对每个分词内各字的第二字向量进行同维度处理，确定各分词的词向量，从而得到所述第一词序列矩阵。

上述方法中，分别通过第一方式和第二方式确定待识别文本的第一字向量和第二字向量，进一步，根据待识别文本的各分词，以及各分词对应的第二字向量，将每个分词的多个字的第二字向量进行同维度处理，确定各分词的词向量，进一步，得到第一词序列矩阵。如此，该第一词序列矩阵中即包含了待识别文本的分词信息，又包含了待识别文本的各字的语义信息，保留字的全局信息性。如此，提高待识别文本的命名实体识别结果的准确性。

可选的，所述第一训练模型为BERT模型(变换器的双向编码器表征量模型，Bidirectional Encoder Representations from Transformers)；所述第二训练模型为CNN模型(卷积神经网络，Convolutional Neural Networks)。

可选的，所述第三训练模型包括双向长短期记忆网络BiLSTM模型(Bi-directional Long Short-Term Memory，双向长短期记忆网络)和自注意力机制模型；通过第三训练模型对所述第一字词融合特征矩阵进行处理获取所述待识别文本的命名实体识别结果，包括：通过所述BiLSTM模型对所述第一字词融合特征矩阵进行处理，以增加所述第一字词融合特征矩阵对应的所述待识别文本的语义信息，获得第一字词特征矩阵；通过所述自注意力机制模型对所述第一字词特征矩阵进行处理，以增加所述第一字词特征矩阵中对应命名实体的权重，获得第二字词特征矩阵；根据所述第二字特征矩阵获取所述待识别文本的命名实体识别结果。

上述方法中，通过BiLSTM模型增加待识别文本对应的第一字词融合特征矩阵中所包含的语义信息，提高该第一字词融合特征矩阵中所包含的语义信息的可靠性和准确性。进一步，通过自注意力机制模型增加第一字词特征矩阵中对应命名实体的权重，使得第二字特征矩阵中的命名实体地位突出，使得根据该第二字特征矩阵获取待识别文本的命名实体时，对命名实体的识别更加明确，增加命名实体识别结果的准确度。

可选的，所述第三训练模型还包括CRF模型(条件随机场，conditional randomfield)；通过所述自注意力机制对所述第一字词特征矩阵进行处理，以增加所述第一字词特征矩阵中对应命名实体的权重，获得第二字词特征矩阵之后，还包括：通过所述CRF模型对所述第二字词特征矩阵进行序列优化，获得第三字词特征矩阵；根据所述第三字特征矩阵获取所述待识别文本的最优排列顺序的命名实体识别结果。

上述方法中，通过所述CRF模型对第二字词特征矩阵进行序列优化，如此，在提高命名实体识别结果的准确率的前提下，使得识别该待识别文本得到的命名实体的顺序为最优序列。

可选的，还包括：将样本文本的第二字序列矩阵输入第一训练模型获取所述样本文本的第二字特征矩阵，所述第一训练模型为已训练模型；将所述样本文本的第二词序列矩阵输入初始的第二训练模型获取所述样本文本的第二词特征矩阵；所述第二字特征矩阵的维度与所述第二词特征矩阵的维度相同；将所述第二字特征矩阵和所述第二词特征矩阵进行处理，得到第二字词融合特征矩阵；通过初始的第三训练模型对所述第二字词融合特征矩阵进行处理获取所述样本文本的第二命名实体识别结果；若所述第二命名实体识别结果不满足设定条件，则根据所述第二命名实体识别结果调整第二训练模型和第三训练模型。

上述方法中，使用已训练成熟的第一训练模型对未训练的第二训练模型和第三训练模型进行训练，增加第二训练模型和第三训练模型的各项相关参数的准确性，且增加第一训练模型、第二训练模型和第三训练模型的配合度。如此，使得待识别文本的识别结果更加准确。

第二方面，本发明实施例提供一种命名实体识别装置，所述装置包括：

获取模块，用于将待识别文本的第一字序列矩阵输入第一训练模型获取所述待识别文本的第一字特征矩阵；将所述待识别文本的第一词序列矩阵输入第二训练模型获取所述待识别文本的第一词特征矩阵；所述第一字特征矩阵的维度和所述第一词特征矩阵的维度相同；

处理模块，用于将所述第一字特征矩阵和所述第一词特征矩阵进行处理，得到第一字词融合特征矩阵；通过第三训练模型对所述第一字词融合特征矩阵进行处理获取所述待识别文本的命名实体识别结果。

第三方面，本申请实施例还提供一种计算设备，包括：存储器，用于存储程序；处理器，用于调用所述存储器中存储的程序，按照获得的程序执行如第一方面的各种可能的设计中所述的方法。

第四方面，本申请实施例还提供一种计算机可读非易失性存储介质，包括计算机可读程序，当计算机读取并执行所述计算机可读程序时，使得计算机执行如第一方面的各种可能的设计中所述的方法。

本申请的这些实现方式或其他实现方式在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种命名实体识别的架构示意图；

图2为本发明实施例提供的一种命名实体识别方法的流程示意图；

图3为本发明实施例提供的一种BiLSTM模型的结构示意图；

图4为本发明实施例提供的一种BiLSTM模型的结构示意图；

图5为本发明实施例提供的一种命名实体识别方法的流程示意图；

图6为本发明实施例提供的一种命名实体识别装置示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种命名实体识别的***架构，将待识别文本输入字特征训练模型101，字特征训练模型101根据待识别文本中的第一字特征矩阵，并将该第一字特征矩阵输入字词特征融合模型103；词特征训练模型102根据待识别文本中的第一词特征矩阵，并将该第一词特征矩阵输入字词特征融合模型103；字词特征融合模型103将维度相同的第一字特征矩阵和第一词特征矩阵做融合处理获取第一字词融合特征矩阵，并将第一字词融合特征矩阵输入全局语义训练模型104；通过全局语义训练模型104对第一字词融合特征矩阵进行训练，以增加第一字词融合特征矩阵对于待识别文本全局的语义信息，得到第一字词特征矩阵；全局语义训练模型104将得到的第一字词特征矩阵输入到命名实体权重训练模型105；命名实体识别权重模型105对第一字词特征矩阵进行训练，以增加第一字词特征矩阵对应的待识别文本中的命名实体的权重，得到第二字词特征矩阵；命名实体权重训练模型105将得到的第二字词特征矩阵输入到命名实体序列训练模型106；命名实体序列训练模型106对第二字词特征矩阵进行训练，以优化第二字词特征矩阵对应的待识别文本中各命名实体的排列顺序，得到第三字词特征矩阵，并根据第三字词特征矩阵获取命名实体识别结果。

基于此，本申请实施例提供了一种命名实体识别方法的流程，如图2所示，包括：

步骤201、将待识别文本的第一字序列矩阵输入第一训练模型获取所述待识别文本的第一字特征矩阵；

步骤202、将所述待识别文本的第一词序列矩阵输入第二训练模型获取所述待识别文本的第一词特征矩阵；所述第一字特征矩阵的维度和所述第一词特征矩阵的维度相同；

步骤203、将所述第一字特征矩阵和所述第一词特征矩阵进行处理，得到第一字词融合特征矩阵；

步骤204、通过第三训练模型对所述第一字词融合特征矩阵进行处理获取所述待识别文本的命名实体识别结果。

本申请实施例还提供了一种维度获取方法，将待识别文本的第一字序列矩阵输入第一训练模型获取所述待识别文本的第一字特征矩阵之前，还包括：

设置所述第一训练模型的第一参数，所述第一参数用于获取预设维度的所述第一字特征矩阵；将待识别文本的第一词序列矩阵输入第二训练模型获取所述待识别文本的第一词特征矩阵之前，还包括：设置所述第二训练模型的第二参数，所述第二参数用于获取所述预设维度的所述第一词特征矩阵。也就是说，可以通过设置第一训练模型的第一参数和第二训练模型的第二参数，使得第一训练模型和第二训练模型输出的矩阵维度相同。即，第一训练模型输出的第一字特征矩阵和第二训练模型输出的第一词特征矩阵的维度相同。

本申请实施例还提供了一种第一字序列矩阵和第一词序列矩阵的获取方法，将待识别文本的第一词序列矩阵输入第二训练模型获取所述待识别文本的第一词特征矩阵之前，还包括：通过第一方式确定所述待识别文本的各字对应的第一字向量；所述各字的第一字向量组成所述第一字序列矩阵；通过第二方式确定所述待识别文本的各字对应的第二字向量；所述第一方式与所述第二方式不同；对所述待识别文本进行分词，得到所述待识别文本的各分词；对每个分词内各字的第二字向量进行同维度处理，确定各分词的词向量，从而得到所述第一词序列矩阵。也即，通过第一方式获取第一字向量，根据该待识别文本的各第一字向量得到第一字序列矩阵：

Cⁱ表示第i个句子的各第一字向量的集合，

表示第i个句子第n个字的第一字向量。通过第二方式获取第二字向量，

对该待识别文本进行分词，得到该待识别文本的各分词

Sⁱ表示第i个句子的各词向量的集合，

表示第i个句子第m个词的词向量。若词向量

对应第二字向量

则

或

这里通过第二字向量得到词向量的方式可以是相加或相减以外的方式，对通过第二字向量得到词向量的方式具体不做限定。如此，根据第二字向量得到词向量，使得根据词向量获得的第一词序列矩阵中，即包含了待识别文本的分词信息，又包含了待识别文本的各字的语义信息，保留字的全局信息性。如此，提高待识别文本的命名实体识别结果的准确性。

这里举个例子，设待识别文本为“江苏苏州疾控中心”，通过第一方式获得各字对应的第一字向量分别为：江(159)、苏(357)、苏(357)、州(489)、疾(621)、控(741)、中(963)、心(452)；则第一字向量组成第一字序列矩阵可以为：

通过第二方式获得各字对应的第二字向量分别为：江(321)、苏(355)、苏(557)、州(499)、疾(622)、控(451)、中(564)、心(877)；对所述待识别文本进行分词获得各分词：“江苏、苏州、疾控、中心”，通过将每个分词的各第二字向量相加取平均对应获得个分词的词向量：“江苏

苏州

疾控中心

”，则第二字向量组成第一词序列矩阵可以为：

这里的待识别文本只是一种示例，还可以是日期、符号等；这里对待识别文本具体不做限定。这里的将第二字向量相加取平均，只是一种同维度处理，确定各分词的词向量的示例，还可以是相减等维度不变的处理。这里对维度不变处理的方式具体不做限定。

本申请实施例提供了一种命名实体识别方法，所述第一训练模型为BERT模型(变换器的双向编码器表征量模型，Bidirectional Encoder Representations fromTransformers)；所述第二训练模型为CNN模型(卷积神经网络，Convolutional NeuralNetworks)。

此处，第一训练模型为BERT模型，BERT模型的训练过程主要是通过双向Transformer作为编码器对输入向量进行编码。具体的，BERT模型对第一字序列矩阵

依照字来划分，若超过max_length第一字序列矩阵，则将超出的数据截断，对长度达不到max_length的值，则采用[PAD]进行填充。这里的max_length可以是指第一字序列矩阵行长度或列长度，根据具体需要设置。之后，对第一字序列矩阵进行标签标记，通过为句首、句中、句尾以及字或词等进行标签，以记忆待识别文本的结构。进一步，为了训练一个深度双向表征，可以通过完型填空任务(Cloze task)，即，通过对待识别文本的x％进行简单的随机遮挡确定样本，得到样本发生遮挡的第一字序列矩阵、将原遮挡位置通过随机的单词替换的第一字序列矩阵、以及原第一字序列矩阵作为样本喂给一个输出softmax(逻辑回归模型)，然后预测那些被遮挡掉的内容。例如，假设原句子是“my dog ishairy”,随机选择句子中15％的tokens位置进行遮挡，假设这里随机选到了第四个token位置要被遮挡掉，也就是对hairy进行遮挡，那么遮挡的过程可以描述如下，其中，假设整个预测过程需要经过一段时间来使得每个样本在多个epochs过程中重复输入到模型中，则输入的矩阵所对应的文本为：

·80％的时间：用[MASK]替换目标单词，例如：my dog is hairy-->my dog is[MASK]。

·10％的时间：用随机的单词替换目标单词，例如：my dog is hairy-->my dogis apple。

·10％的时间：不改变目标单词，例如：my dog is hairy-->my dog is hairy。

如此，BERT模型中的Transformer encoder模型不得不保持每个输入token的一个上下文的表征分布(a distributional contextual representation)。也就是说如果Transformer encoder模型学习到了要预测的单词是什么，那么就会丢失对上下文信息的学习，而如果模型训练过程中Transformer encoder模型无法学习到哪个单词会被预测，那么就必须通过学习token上下文的信息来判断出需要预测的单词，这样的模型才具有对句子的特征表示能力。

上述方法中的样本的时序信息以及位置信息可以由BERT模型中的如下公式表征：

其中，pos表示词语在矩阵的位置索引，i表示dimension(规模)，2i代表其中的偶数位，2i+1代表其中的奇数位，偶数位置，使用正弦编码，在奇数位置，使用余弦编码。

其中，softmax(逻辑回归模型)通过将输入的矩阵分别乘以Wq、Wv、Wk三个参数，来将矩阵变换获得query、key和values。通过Transformer encoder将输入矩阵分别根据Wq、Wk,进行线性变换得到Query对应的矩阵Q、Key对应的矩阵K；通过Transformer Decoder将输入矩阵根据Wv进行线性变换得到Values对应的矩阵V。进一步通过以下公式进行softmax归一化处理，将数据处理为0—1之间。利用这些相互关系来调整每个词的重要性，以获得每个词新的表达：

其中，

是调节因子。

之后，为了增加输出的第一字特征矩阵的语义信息，采用Transformal“多头”模式，公式如下：

MultiHead(Q，K，V)＝Concat(head_1,head_2,…,head_k)W^o (1)

如公式(5)中，通过改变W参数(Wq、Wv、Wk三个参数)获得不同的Q、K、V的attention结果，将每次获得的结果，作为一个头head。在如公式(1)中，将k个head进行拼接，再根据参数W^o进行一次线性变换得到的值作为多头attention的结果，也即，MultiHead(Q，K，V)。最后，通过全连接前馈网络对MultiHead(Q，K，V)做拟合计算，应用公式如下所示：

FFN(X)＝max(0，ZW₁+b₁)W₂+b₂

其中，输出表示为X，也即，第一字特征向量；b为偏置向量；Z为输入的MultiHead(Q，K，V)；W为全连接前馈网络的参数。第二训练模型为CNN模型，则CNN模型进一步提取第一词序列矩阵

的特征表示，通过如下公式：

获得经过CNN模型处理后的第一词特征向量，

最后，可以根据BERT模型输出的Cⁱ和CNN模型输出的Mⁱ做和得到第一字词融合特征矩阵Rⁱ。

本申请实施例提供了一种命名实体识别方法，所述第三训练模型包括双向长短期记忆网络BiLSTM模型(Bi-directional Long Short-Term Memory，双向长短期记忆网络)和自注意力机制模型；通过第三训练模型对所述第一字词融合特征矩阵进行处理获取所述待识别文本的命名实体识别结果，包括：通过所述BiLSTM模型对所述第一字词融合特征矩阵进行处理，以增加所述第一字词融合特征矩阵对应的所述待识别文本的语义信息，获得第一字词特征矩阵；

此处，通过BiLSTM模型对所述第一字词融合特征矩阵Rⁱ进行处理，如图3所示，为BiLSTM模型内部结构图，BiLSTM模型主要由三个门控组成，分别是遗忘门(Forget gate)、输入门(Input gate)和输出门(Output gate)，中间的Cell称为记忆细胞，用来存储当前的记忆状态。

(1)遗忘门：遗忘门的作用是用于决定记忆细胞中丢弃的信息。采用的是sigmod激活函数，对数值进行归一化，将权值设置为0到1之间的值，其数据来源于当前的输入、上一时刻的隐藏层状态以及上一时刻的记忆细胞，前向传播的公式为：

f_t＝sigmoid(W_f.[h_t-1+x_t]+b_f

f_t值取值为0或1，0表示完全丢弃，1表示完全保留。f_t为t时刻的遗忘门层的输出,h_t-1表示t-1时刻的隐藏层输出向量,x_t表示t时刻的输入,W_f表示在f状态下对于输入x_t的权重矩阵，b_f表示偏置向量。

(2)输入门：输入门决定了需要新增的内容。采用的是sigmod激活函数进行归一化，然后再通过tanh函数创建一个新的候选值向量C前向传播公式为：

i_t＝σ(W_f.[h_t-1,x_t]+b_i)

C_t＝Tanh(W_c.[h_t-1,x_t]+b_c

i_t的值为0或1，0表示不添加当前的内容，1表示新增当前的内容。i_t为t时刻的输出门层的输出，W_i表示在i状态下对于输入x_t的权重矩阵，b_i表示i状态下的偏置向量。W_c表示在C状态下对于输入x_t的权重矩阵,bc表示偏置向量,C_t为t时刻生成的候选向量。这里需要说明的是，遗忘门与输入门的计算公式中输入的数据都是一模一样的，区别两者功能的便是相应的权重矩阵和偏向。

(3)记忆细胞：记忆细胞内存储着已经记住的内容，当确定当前时刻是否保留过去的记忆(即f_t的取值)和是否记住新的内容(即i_t的取值)，于是更新记忆细胞，也就是说，在确定候选向量之后，根据之前得到的遗忘门和输入门的输出，进行状态更新，其中，C_t-1为t-1时刻的状态向量，C_t为t时刻的状态向量。公式为：

C_t＝f_tC_t-1+C_t

其中，更新细胞的公式可以这么理解：C_t-1表示t-1时刻LSTM模型记住的内容，当在t时刻时将面临两个问题，是否继续记住之前(t-1时刻)的内容？以及是否需要记住当前新的内容？因此将有四种情况：

Ⅰ、当f_t＝0且i_t＝0时，C_t＝0，即忘记过去全部内容且不记住新的内容；

Ⅱ、当f_t＝0且i_t＝1时，C_t＝Z_t，即忘记过去全部内容，但记住新的内容；

Ⅲ、当f_t＝1且i_t＝0时，C_t＝C_t-1，即保留之前的内容，对新的内容不予理睬；

Ⅳ、当f_t＝1且i_t＝1时，C_t＝C_t-1+Z_t，即既保留之前的内容，又记住新的内容。

其中，因为sigmod函数并不是二值的(即其是在0-1之间的一个值)，因此对于f_t和i_t实际上是分别决定了保留记忆过去内容和选择记住新的内容的多少，例如f_t＝1则表示保留全部过去内容，f_t＝0.5则表示忘记过去的一半内容，或表示为淡化过去的记忆。

(4)输出门：输出门则是决定输出什么内容，即对于当前时刻t，若O_t＝0则表示不输出，若O_t＝1则表示输出，通过第三个Sigmoid函数确定那个部分信息需要输出。然后通过一个tanh函数进行处理得到一个在-1到1之间的值并将它和Sigmoid函数的输出相乘，最终得到输出：

O_t＝σ(W_o.[h_t-1,x_t]+b_o

h_t＝O_t*Tanh(C_t)

其中，Tanh(C_t)是对当前时刻记忆细胞内记住的内容进行处理使其值范围在-1至1之间。O_t为t时刻的输出，W_o表示在o状态下对于输入x_t的权重矩阵，b_o表示偏置向量，h_t为t时刻隐藏层的向量。因为这三个门控机制，LSTM可以有效的处理长期依赖关系问题，从一定程度上解决了梯度消失和梯度***问题。

因此总结LSTM模型的原理：在第t时刻时，首先判断是否保留过去的记忆内容，其次判断是否需要新增内容，更新记忆细胞之后再判断是否需要将当前时刻的内容输出。

最后，通过上述方法，如图4所示，设置前向和后向两个方向相反的LSTM层，前向LSTM层表示顺序序列，后向LSTM层表示逆序序列。通过前向LSTM输出，表示得到过去信息；通过后向LSTM输出，表示得到未来信息。将前向和后向通过组合得到BiLSTM层的输出，得到第一字词特征矩阵。上述方法，通过BiLSTM模型增加待识别文本对应的第一字词融合特征矩阵中所包含的语义信息，提高该第一字词融合特征矩阵中所包含的语义信息的可靠性和准确性。

之后，继续通过所述自注意力机制模型对所述第一字词特征矩阵进行处理，以增加所述第一字词特征矩阵中对应命名实体的权重，获得第二字词特征矩阵；

即，将第一字词特征矩阵Gⁱ输入公式

得到输出的第二字词特征矩阵Xⁱ。最后，根据所述第二字特征矩阵Xⁱ获取所述待识别文本的命名实体识别结果。如此，通过自注意力机制模型增加第一字词特征矩阵Gⁱ中对应命名实体的权重，使得第二字特征矩阵Xⁱ中的命名实体地位突出，使得根据该第二字特征矩阵Xⁱ获取待识别文本的命名实体时，对命名实体的识别更加明确，增加命名实体识别结果的准确度。

本申请实施例还提供了一种属于第二字词特征矩阵Xⁱ进行序列优化的方法，所述第三训练模型还包括CRF模型(条件随机场，conditional random field)；

通过所述自注意力机制对所述第一字词特征矩阵进行处理，以增加所述第一字词特征矩阵中对应命名实体的的权重，获得第二字词特征矩阵之后，还包括：通过所述CRF模型对所述第二字词特征矩阵进行序列优化，获得第三字词特征矩阵；根据所述第三字特征矩阵获取所述待识别文本的最优排列顺序的命名实体识别结果。此处对于第二字词特征矩阵X，假设K是经过自注意力机制的输出得分矩阵，K的大小是n*k,n为词的个数，k为标签的个数，K_ij表示第i个词第j个标签的分数，对于预测序列

而言，得到它的得分函数：

其中A表示转移分数矩阵，A代表标签i转移为标签j的分数，预测序列Y产生的概率为：

两头取对数得到预测序列的似然函数：

式中，

表示真实的标签序列，Y_X表示所有可能的标签序列，最后输出的最优序列为：

如此，通过所述CRF模型对第二字词特征矩阵进行序列优化，在提高命名实体识别结果的准确率的前提下，使得识别该待识别文本得到的命名实体的顺序为最优序列Y^*。

本申请实施例还提供了一种模型训练方法：将样本文本的第二字序列矩阵输入第一训练模型获取所述样本文本的第二字特征矩阵，所述第一训练模型为已训练模型；将所述样本文本的第二词序列矩阵输入初始的第二训练模型获取所述样本文本的第二词特征矩阵；所述第二字特征矩阵的维度与所述第二词特征矩阵的维度相同；将所述第二字特征矩阵和所述第二词特征矩阵进行处理，得到第二字词融合特征矩阵；通过初始的第三训练模型对所述第二字词融合特征矩阵进行处理获取所述样本文本的第二命名实体识别结果；若所述第二命名实体识别结果不满足设定条件，则根据所述第二命名实体识别结果调整第二训练模型和第三训练模型。也就是说，若通过第一训练模型、第二训练模型、第三训练模型的组合模型来识别待识别文本，则可以先通过已经训练成熟的第一训练模型与未训练过的第二训练模型、第三训练模型识别样本文本，通过第一训练模型、第二训练模型、第三训练模型识别样本文本的过程中，不断调整第二训练模型、第三训练模型的相关参数；完成对第一训练模型、第二训练模型、第三训练模型形成的组合模型的训练。

基于上述方法的流程，本申请实施例提供了一种命名实体识别方法的流程，如图5所示，包括：

步骤501、获取已训练过的第一训练模型，将样本文本的第二字序列矩阵输入第一训练模型，获取该样本文本的第二字特征矩阵，其中，第一训练模型中用于调整维度的第一参数设置为可获取预设维度的参数值。

步骤502、获取未训练过的第二训练模型，将样本文本的第二词序列矩阵输入初始的第二训练模型，获取该样本文本的第二词特征矩阵，其中，第二训练模型中用于调整维度的第二参数设置为可获取预设维度的参数值。

步骤503、根据维度相同的第二字特征矩阵和第二词特征矩阵获取第二字词融合特征矩阵。

步骤504、将第二字词融合特征矩阵输入到未训练过的第三训练模型，获取该样本文本的第二命名实体识别结果。

步骤505、根据第二命名实体识别结果调整第二训练模型和第三训练模型的相关参数，重新执行步骤501至步骤505，直到获取的第二命名实体识别结果达到预设的准确率。

步骤506、通过第一方式获取待识别文本的各字的第一字向量，通过待识别文本的第一字向量获取第一字序列矩阵，将待识别文本的第一字序列矩阵输入第一训练模型，获取该待识别文本的第一字特征矩阵。

步骤507、通过第二方式获取待识别文本的各字的第二字向量，并对待识别文本进行分词，以得到该待识别文本的各分词；根据待识别文本的分词，将每个分词内各字的第二字向量进行同维度处理，确定各分词的词向量，从而得到第一词序列矩阵。将该第一词序列矩阵输入第二训练模型获取第一词特征矩阵。

步骤508、将第一字特征矩阵和第一词特征矩阵做同维度处理获取第一字词融合特征矩阵。

步骤509、将第一字词融合特征矩阵输入第三训练模型，获取命名实体识别结果。

这里需要说明的是，上述流程中步骤501至步骤504为通过已训练的第一训练模型训练第二训练模型和第三训练模型，以获得成熟的第一训练模型、第二训练模型、第三训练模型的组合模型。上述流程中步骤501至步骤504可以循环执行直至确定当前第一训练模型、第二训练模型、第三训练模型的组合模型的识别准确率达到需要的准确率。根据上述步骤501至步骤505得到的模型，执行步骤506至步骤509，获取待识别文本的命名实体识别结果。

这里提供了关于上述方法的几类命名实体的识别结果的准确度，包括活动名称(activity_name)、地址(address)、指标数据(data)、组织机构(orginzation_name)、时间(time)。本申请评价指标使用准确率(P),召回率(R),以及F1值的方法。具体公式如下：

其中P为上述方法正确标注的命名实体占待识别文本中识别到的实体总量的比值；correct为正确标注的实体数；missing为识别错误的实体数；spurious为未被识别到的正确实体数；R为正确标注的命名实体占测试集实体总量的比值；F1为P和R的加权几何平均值。本申请还提供了一种政务报告中命名实体识别的上述各个类的F1值的准确率(P),召回率(R),以及F值；如下表所示：

基于同样的构思，本发明实施例提供一种命名实体识别装置，图6为本申请实施例提供的一种命名实体识别装置示意图，如图6示，包括：

获取模块601，用于将待识别文本的第一字序列矩阵输入第一训练模型获取所述待识别文本的第一字特征矩阵；将所述待识别文本的第一词序列矩阵输入第二训练模型获取所述待识别文本的第一词特征矩阵；所述第一字特征矩阵的维度和所述第一词特征矩阵的维度相同；

处理模块602，用于将所述第一字特征矩阵和所述第一词特征矩阵进行处理，得到第一字词融合特征矩阵；通过第三训练模型对所述第一字词融合特征矩阵进行处理获取所述待识别文本的命名实体识别结果。

可选的，所述处理模块602还用于：设置所述第一训练模型的第一参数，所述第一参数用于获取预设维度的所述第一字特征矩阵；将待识别文本的第一词序列矩阵输入第二训练模型获取所述待识别文本的第一词特征矩阵之前，还包括：设置所述第二训练模型的第二参数，所述第二参数用于获取所述预设维度的所述第一词特征矩阵。

可选的，所述处理模块602还用于：通过第一方式确定所述待识别文本的各字对应的第一字向量；所述各字的第一字向量组成所述第一字序列矩阵；通过第二方式确定所述待识别文本的各字对应的第二字向量；所述第一方式与所述第二方式不同；对所述待识别文本进行分词，得到所述待识别文本的各分词；对每个分词内各字的第二字向量进行同维度处理，确定各分词的词向量，从而得到所述第一词序列矩阵。

可选的，所述第三训练模型包括双向长短期记忆网络BiLSTM模型(Bi-directional Long Short-Term Memory，双向长短期记忆网络)和自注意力机制模型；可选的，所述处理模块602具体用于：通过所述BiLSTM模型对所述第一字词融合特征矩阵进行处理，以增加所述第一字词融合特征矩阵对应的所述待识别文本的语义信息，获得第一字词特征矩阵；通过所述自注意力机制模型对所述第一字词特征矩阵进行处理，以增加所述第一字词特征矩阵中对应命名实体的权重，获得第二字词特征矩阵；根据所述第二字特征矩阵获取所述待识别文本的命名实体识别结果。

可选的，所述第三训练模型还包括CRF模型(条件随机场，conditional randomfield)；所述处理模块602还用于：通过所述CRF模型对所述第二字词特征矩阵进行序列优化，获得第三字词特征矩阵；根据所述第三字特征矩阵获取所述待识别文本的最优排列顺序的命名实体识别结果。

可选的，所述处理模块602还用于：将样本文本的第二字序列矩阵输入第一训练模型获取所述样本文本的第二字特征矩阵，所述第一训练模型为已训练模型；将所述样本文本的第二词序列矩阵输入初始的第二训练模型获取所述样本文本的第二词特征矩阵；所述第二字特征矩阵的维度与所述第二词特征矩阵的维度相同；将所述第二字特征矩阵和所述第二词特征矩阵进行处理，得到第二字词融合特征矩阵；通过初始的第三训练模型对所述第二字词融合特征矩阵进行处理获取所述样本文本的第二命名实体识别结果；若所述第二命名实体识别结果不满足设定条件，则根据所述第二命名实体识别结果调整第二训练模型和第三训练模型。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种命名实体识别方法，其特征在于，所述方法包括：

将待识别文本的第一字序列矩阵输入第一训练模型获取所述待识别文本的第一字特征矩阵；

将所述待识别文本的第一词序列矩阵输入第二训练模型获取所述待识别文本的第一词特征矩阵；所述第一字特征矩阵的维度和所述第一词特征矩阵的维度相同；

将所述第一字特征矩阵和所述第一词特征矩阵进行处理，得到第一字词融合特征矩阵；

通过第三训练模型对所述第一字词融合特征矩阵进行处理获取所述待识别文本的命名实体识别结果。

2.如权利要求1所述的方法，其特征在于，将待识别文本的第一字序列矩阵输入第一训练模型获取所述待识别文本的第一字特征矩阵之前，还包括：

设置所述第一训练模型的第一参数，所述第一参数用于获取预设维度的所述第一字特征矩阵；

将待识别文本的第一词序列矩阵输入第二训练模型获取所述待识别文本的第一词特征矩阵之前，还包括：

设置所述第二训练模型的第二参数，所述第二参数用于获取所述预设维度的所述第一词特征矩阵。

3.如权利要求1所述的方法，其特征在于，将待识别文本的第一词序列矩阵输入第二训练模型获取所述待识别文本的第一词特征矩阵之前，还包括：

通过第一方式确定所述待识别文本的各字对应的第一字向量；所述各字的第一字向量组成所述第一字序列矩阵；

通过第二方式确定所述待识别文本的各字对应的第二字向量；所述第一方式与所述第二方式不同；

对所述待识别文本进行分词，得到所述待识别文本的各分词；

对每个分词内各字的第二字向量进行同维度处理，确定各分词的词向量，从而得到所述第一词序列矩阵。

4.如权利要求1所述的方法，其特征在于，所述第一训练模型为BERT模型(变换器的双向编码器表征量模型，Bidirectional Encoder Representations from Transformers)；所述第二训练模型为CNN模型(卷积神经网络，Convolutional Neural Networks)。

5.如权利要求1至4任一项所述的方法，其特征在于，所述第三训练模型包括双向长短期记忆网络BiLSTM模型(Bi-directional Long Short-Term Memory，双向长短期记忆网络)和自注意力机制模型；

通过第三训练模型对所述第一字词融合特征矩阵进行处理获取所述待识别文本的命名实体识别结果，包括：

通过所述BiLSTM模型对所述第一字词融合特征矩阵进行处理，以增加所述第一字词融合特征矩阵对应的所述待识别文本的语义信息，获得第一字词特征矩阵；

通过所述自注意力机制模型对所述第一字词特征矩阵进行处理，以增加所述第一字词特征矩阵中对应命名实体的权重，获得第二字词特征矩阵；

根据所述第二字特征矩阵获取所述待识别文本的命名实体识别结果。

6.如权利要求5所述的方法，其特征在于，所述第三训练模型还包括CRF模型(条件随机场，conditional random field)；

通过所述自注意力机制对所述第一字词特征矩阵进行处理，以增加所述第一字词特征矩阵中对应命名实体的权重，获得第二字词特征矩阵之后，还包括：

通过所述CRF模型对所述第二字词特征矩阵进行序列优化，获得第三字词特征矩阵；

根据所述第三字特征矩阵获取所述待识别文本的最优排列顺序的命名实体识别结果。

7.如权利要求1-6所述的任一方法，其特征在于，还包括：

将样本文本的第二字序列矩阵输入第一训练模型获取所述样本文本的第二字特征矩阵，所述第一训练模型为已训练模型；

将所述样本文本的第二词序列矩阵输入初始的第二训练模型获取所述样本文本的第二词特征矩阵；所述第二字特征矩阵的维度与所述第二词特征矩阵的维度相同；

将所述第二字特征矩阵和所述第二词特征矩阵进行处理，得到第二字词融合特征矩阵；

通过初始的第三训练模型对所述第二字词融合特征矩阵进行处理获取所述样本文本的第二命名实体识别结果；

若所述第二命名实体识别结果不满足设定条件，则根据所述第二命名实体识别结果调整第二训练模型和第三训练模型。

8.一种命名实体识别装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，当所述程序在计算机上运行时，使得计算机实现执行权利要求1至7中任一项所述的方法。

10.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行如权利要求1至7任一权利要求所述的方法。