CN108536679B

CN108536679B - 命名实体识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN108536679B
Application number: CN201810332490.3A
Authority: CN
Inventors: 晁阳; 李东; 陆遥
Original assignee: Tencent Technology Chengdu Co Ltd
Current assignee: Tencent Technology Chengdu Co Ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2022-05-20
Anticipated expiration: 2038-04-13
Also published as: CN108536679A

Abstract

本发明实施例公开了一种命名实体识别方法、装置、设备及计算机可读存储介质。方法包括：获取待识别文本的字符向量和词向量，对字符向量和词向量进行加权求和，得到加权求和结果；将加权求和结果输入至目标双向LSTM模型中进行处理，得到文本特征序列；将文本特征序列输入至目标CRF模型中进行处理，得到待识别文本的命名实体识别结果。获取待识别文本的字符向量和词向量之后，通过对字符向量和词向量进行加权求和，更好的利用了动态的权重信息，通过采用双向LSTM模型更充分的考虑了上下文词与词的关系，充分利用了双向信息，再结合CRF模型进行处理，从而提高了命名实体识别的准确率。

Description

命名实体识别方法、装置、设备及计算机可读存储介质

技术领域

本发明实施例涉及互联网技术领域，特别涉及一种命名实体识别方法、装置、设备及计算机可读存储介质。

背景技术

在信息抽取、实体链接等自然语言处理任务的场景中，常常需要进行NER(NamedEntity Recognition，命名实体识别)。其中，NER是指在文档集合中识别出特定类型的事物名称或符号的过程。

相关技术在进行命名实体识别时，一般采用CRF(Conditional Random Field，条件随机场算法)或单向RNN(Recurrent neural Network、循环神经网络)等模型对待识别文本进行识别。

然而，由于无论采用CRF还是采用单向RNN进行识别，得到的语义信息比较有限，因此，识别的准确率不高。

发明内容

本发明实施例提供了一种命名实体识别方法、装置、设备及计算机可读存储介质，可用于解决相关技术中的问题。所述技术方案如下：

一方面，本发明实施例提供一种命名实体识别方法，所述方法包括：

获取待识别文本的字符向量和词向量，对所述字符向量和词向量进行加权求和，得到加权求和结果；

将所述加权求和结果输入至目标Bi-LSTM(Bi-directional Long Short-TermMemory，双向长短期记忆)模型中进行处理，得到文本特征序列；

将所述文本特征序列输入至目标CRF(Conditional Random Field，条件随机场)模型中进行处理，得到所述待识别文本的命名实体识别结果。

一方面，提供了一种命名实体识别装置，所述装置包括：预处理层、双向LSTM层和CRF层；

所述预处理层，用于获取待识别文本的字符向量和词向量，对所述字符向量和词向量进行加权求和，得到加权求和结果，将所述加权求和结果输入至所述双向LSTM层；

所述双向LSTM层，用于对所述加权求和结果进行处理，得到文本特征序列，将所述文本特征序列输入至所述CRF层；

所述CRF层，用于对所述文本特征序列进行处理，得到所述待识别文本的命名实体识别结果。

一方面，提供了一种命名实体识别装置，所述装置包括：

预处理模块，用于获取待识别文本的字符向量和词向量，对所述字符向量和词向量进行加权求和，得到加权求和结果；

第一处理模块，用于将所述加权求和结果输入至目标双向LSTM模型中进行处理，得到文本特征序列；

第二处理模块，用于将所述文本特征序列输入至目标CRF模型中进行处理，得到所述待识别文本的命名实体识别结果。

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被所述处理器执行时实现上述的命名实体识别方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被执行时实现上述的命名实体识别方法。

本发明实施例提供的技术方案可以带来如下有益效果：

获取待识别文本的字符向量和词向量之后，通过对字符向量和词向量进行加权求和，更好的利用了动态的权重信息，通过采用双向LSTM模型更充分的考虑了上下文词与词的关系，充分利用了双向信息，再结合CRF模型进行处理，从而提高了命名实体识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境的示意图；

图2是本发明实施例提供的一种命名实体识别方法流程图；

图3是本发明实施例提供的一种双向LSTM模型结构示意图；

图4是本发明实施例提供的一种CRF模型结构示意图；

图5是本发明实施例提供的一种命名实体识别的装置结构示意图；

图6是本发明实施例提供的一种命名实体识别的交互示意图；

图7是本发明实施例提供的一种命名实体识别的效果示意图；

图8是本发明实施例提供的一种命名实体识别装置的结构示意图；

图9是本发明实施例提供的一种命名实体识别装置的结构示意图；

图10是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

随着互联网技术的发展，在信息抽取、实体链接等场景中，常常需要进行NER。命名实体识别是信息抽取、实体链接等NLP(Natural Language Processing，自然语言处理)任务的基础，它主要有如下3个作用：

1、根据词性标注，确定场景的人名，地名，机构名等；

2、有了命名实体识别，才可以做实体与实体之间的关联抽取；

3、为策划美术在海量的文档中，提供有效的信息识别和抽取；

为此，本发明实施例提供了一种命名实体识别方法，该方法通过结合CNN(Convolutional Neural Network，卷积神经网络)、双向LSTM、Attention(注意力)、CRF等多种模型来实现命名实体识别，从而提高命名实体识别的准确率。

为了便于理解，在对本发明实施例提供的技术方案进行详细介绍之前，先对本申请涉及的一些词语进行介绍，具体如下：

NER：是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。NER是信息提取、问答***、句法分析、机器翻译等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。

机器学习模型：是一种运算模型，由大量的节点(或称神经元)之间相互联接构成，每个节点对应一个策略函数，每两个节点间的连接代表一个对于通过该连接信号的加权值，称之为权重。样本输入机器学习模型的节点后，通过每个节点输出一个输出结果，该输出结果作为下一个节点的输入样本，机器学习模型通过样本最终输出结果对每个节点的策略函数和权重进行调整，该过程被称为训练。

CNN：是一种机器学习模型，包括至少两层级联的卷积层、顶端的全连接层(FullyConnected Layers，FC)和软最大化函数(Softmax)组成，可选的，每一层卷积层后包括一层池化层。其通过共享参数降低模型的参数量，使之在图像和语音识别方面得到广泛应用。

CRF：是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。

LSTM(Long Short-Term Memory，长短期记忆)：是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，其可有效解决传统循环神经网络长路径依赖的问题。

Bi-LSTM：即双向LSTM，可以充分考虑上下文词与词之间的关系，充分利用了双向信息。

Word2vec：是一种分布式空间向量表示方法，是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量的用在NLP中。实际应用中，Word2vec是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Word2vec中包含embedding(嵌入)层，该embedding其实是一个映射，将单词从原所属的空间映射到新的多维空间中，即是将单词所在原空间嵌入到一个新的空间中去。

Glove：是一种考虑全局信息的向量表示方法。

注意力模型(Attention Model)：模拟的是人脑的注意力模型，例如，当人们在读一篇文章时，其实眼睛聚焦的就只有当前看到的文字，这个时候人的大脑主要关注在这一部分文字上。也就是说，这个时候人脑对整篇文章的关注并不是均衡的，是有一定的权重区分的。有鉴于此，注意力机制在序列学习任务上具有巨大的提升作用，在模型的编解码器框架内，通过在编码阶段加入注意力模型，对源数据序列进行数据加权变换，可以有效提高序列对序列的自然方式下的***表现。因此，注意力模型被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中。

请参考图1，其示出了本发明实施例提供的实施环境的示意图。该实施环境可以包括：终端11和服务器12。

终端11安装有应用程序客户端，例如，命名实体识别类应用程序客户端等。当该应用程序客户端启动后，可通过终端11向服务器12请求进行命名实体识别，将待识别文本发送至服务器12。此外，除了发送待识别文本，还可以发送用户账号，以便于服务器12返回命名实体识别结果。

服务器12用于对终端11请求识别的待识别文本进行处理，得到命名实体识别结果后，将其发送给终端11，如通过用户账号将命名实体识别结果发送给对应的终端11。

其中，终端11可以是诸如手机、平板电脑、个人计算机等电子设备。

服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。

终端11与服务器12通过有线或无线网络建立通信连接。

本发明实施例提供了一种命名实体识别方法，请参考图2，其示出了本发明实施例提供的命名实体识别方法流程图，该方法可应用于图1所示实施环境的服务器12中。如图2所示，本发明实施例提供的方法可以包括如下几个步骤：

在步骤201中，获取待识别文本的字符向量和词向量。

当有命名实体识别需求时，用户可以开启命名实体识别的应用程序客户端，通过该客户端获取待识别文本。例如，可以针对某小说文本进行命名实体识别，根据用户的选择操作，当用户选择小说文本中的一段内容后，获取命名实体识别指令，根据该命名实体识别指令触发将小说文本中被选择的一段内容作为获取到的待识别文本。

当终端获取到待识别文本后，将其发送至服务器，服务器由此获取到待识别文本。

进一步地，由于深度学习模型接受数字的输入，而不是字符串，因而在获取到待识别文本后，需要将其转换成向量的形式。而常见的向量训练表示方法有word2vec和glove，可通过word2vec模型或glove模型获取待识别文本的词向量。具体选择word2vec模型还是glove模型，可根据场景来定。

例如，在对比了word2vec和glove的特点之后，在策划文案和小说集的各类信息抽取场景下，本发明实施例提供的方法选择word2vec的向量训练表示方法。word2vec是一个常见的分布式向量表示方法，可将相似的词的距离拉的很近。

为此，在一种实现方式中，本发明实施例提供的方法在获取待识别文本的词向量时，包括但不限于：通过word2vec模型获取待识别文本的词向量。

为了能够采用word2vec模型得到更准确的词向量，本发明实施例提供的方法在训练word2vec模型时，利用公开的中文语料，用word2vec训练得到预设维度的词向量，并按照预设迭代次数进行迭代。例如，用word2vec训练得到了500维的词向量，预设迭代次数选择了200次。其中，500维是为了保证可以得到更长的有效的信息表示。当然，实际应用中，还可以训练得到不止500维的词向量，也可以选择设置其他数量的迭代次数，具体可依据实际情况进行调整，本发明实施例对此不加以限定。

此外，在训练得到目标word2vec的时候，对初始word2vec模型中的wordembedding(嵌入)层初始化后，前期的神经网络损失太大，反向传播时梯度较大，造成神经网络初期内部参数变化明显。因此，为保证有效利用初始化值，在训练初期，训练目标word2vec模型时，本发明实施例提供的方法对初始word2vec模型中的word embedding(词嵌入)层初始化后，将word embedding层的参数设置为不可训练状态，直至迭代到达预设时间后，对word embedding层的参数进行训练，得到目标word2vec模型。例如，迭代3、4轮之后达到预设时间，在后续的训练过程中，将word embedding层的参数设置为可训练状态，对word embedding层的参数进行训练，得到目标word2vec模型。其中，预设时间可以根据经验设置，也可以后续再根据命名实体识别的识别效果进行调整。

进一步地，由于CNN模型对字符char级别的向量有着很好的识别效果，利用CNN可训练得到字符char的向量。为此，本发明实施例提供的方法在获取待识别文本的字符向量时，包括但不限于将待识别文本输入至CNN模型中，得到待识别文本的字符向量。

为了能够采用CNN模型识别更准确的字符向量，本发明实施例提供的方法在训练CNN模型时，针对每个char(字符)，选择了68个char字符向量，通过二层CNN网络训练得到。当然，实际应用中，选择的字符数量可以不仅仅局限于68个，本发明实施例对此不加以限定。

需要说明的是，在获取待识别文本的字符向量和词向量时，本发明实施例不对具体的获取顺序进行限定。具体实施时，既可以先获取待识别文本的字符向量，再获取待识别文本的词向量；也可以先获取待识别文本的词向量，再获取待识别文本的字符向量；当然，也可以同时获取待识别文本的字符向量和词向量。

在步骤202中，对字符向量和词向量进行加权求和，得到加权求和结果。

由于单纯的直接拼接字符向量和词向量，是一个固定维度的向量，无法更好的利用动态权重信息，因此，本发明实施例提供的方法采用对字符向量和词向量进行加权求和的方式。

在一种实现方式中，可以为字符向量和词向量设置有各自对应的权重，将字符向量按照其对应的权重进行处理，得到处理后的字符向量，将词向量按照其对应的权重进行处理，得到处理后的词向量。之后，将处理后的字符向量与处理后的词向量进行求和，得到加权求和结果。

在一种实现方式中，本发明实施例提供的方法引入了attention机制。具体实施时，采用attention模型可动态地训练向量的权重，对词向量和字符向量进行数据加权变换。此外，在本发明实施例中，例如，选取了attention模型中的Soft-Attention，使得CNN训练得到的原始的字符向量和词向量拼接变成了权重求和，使用了两层传统神经网络隐层学习attention的值。

在步骤203中，将加权求和结果输入至目标双向LSTM模型中进行处理，得到文本特征序列。

由于LSTM模型在处理自然语言语句时，因为是序列输入，处理这一时刻的输入数据时只收到当前输入词和此时刻前输入词的影响，而日常生活中人们所说的语句中存在前后关联，并不只是受到前面词语的影响。

因此，本发明实施例提供的方法使用Bi-LSTM即双向LSTM对sentence(句子)进行处理，是指LSTM处理语句时有两个方向不同的LSTM对数据进行处理，分别从前后两个不同的方向进行传播，避免了在处理序列数据时只收到前时刻数据的影响。

如图3所示，本发明实施例采用了Bi-LSTM，双向的LSTM对比单向的LSTM有所区别，本实施例中定义了一个前向的LSTM_CELL和一个后向的LSTM_CELL，分别得到隐层的状态，最后拼接成为了一个长度为2倍的隐含层节点数的向量作为Bi-LSTM的输出，并将其作为CRF的输入。其中，图3中的x代表输入层，h代表隐含层，y代表输出层。

在步骤204中，将文本特征序列输入至目标CRF模型中进行处理，得到待识别文本的命名实体识别结果。

在传统的机器学习任务中，CRF是根据海量的特征工程提取足够的不同维度的特征，然后根据这些特征做序列标注。实际应用中，CRF模型是一种无向图模型，它是在给定需要标记的观察序列(词、句子数值等)的条件下，计算整个标记序列的联合概率分布。

在本发明实施例中，如图4所示，CRF模型是一个端到端的，所有特征提取的工作交给深度学习模型来做，根据双向LSTM得到的X(如X₁、X₂…X_i…X_n)，可以利用立足于局部最优解，算出可能的序列Y(如Y₁、Y₂…Y_i…Y_n)的概率分布，也就是最终的tag标记，即命名实体识别结果。

基于上述过程，本发明实施例提供的命名实体识别的装置结构可如图5所示，不难看出，本发明实施例提供的装置结构结合了几个模型的特点：CNN对字符char级别的向量有着很好的识别效果，利用CNN训练得到字符char的向量，和word2vec训练出的词向量，利用attention进行动态的叠加拼接，即加权求和，然后输入到双向LSTM中，动态的利用词向量和字符char向量，更有效的利用深度网络的隐层信息。根据CNN+Bi-LSTM+Attention的模型输出，再利用CRF层，给输入序列求预测输出序列最大化的最优序列，然后去预测输出每个词的标签，即得到命名实体识别结果。

进一步地，为了实现上述装置中各个层的功能，本发明实施例提供的方法还包括：获取数据集，将数据集划分为训练集、验证集和测试集，其中，数据集包括目标文本资源、已标注的目标命名实体及词向量；根据训练集对初始双向LSTM模型及初始CRF模型进行训练，得到训练后的双向LSTM模型及CRF模型；根据验证集对训练后的双向LSTM模型及CRF模型进行验证；当验证通过后，采用测试集对训练后的双向LSTM模型及CRF模型进行测试，得到目标双向LSTM模型及目标CRF模型。

其中，获取数据集，包括但不限于：获取初始文本资源，对初始文本资源进行预处理，得到语句序列；对语句序列进行分词处理，得到至少一个词序列；按照词频对词序列中的词进行排序，确定每个词对应的标签信息，得到多个词与标签信息的组合，将词与标签信息的组合作为目标文本资源。得到目标文本资源之后，可通过对其进行向量转换，得到词向量和字符向量。对于目标文本资源中已标注的目标命名实体所对应的词，其对应的标签即为标注的命名实体信息，而对于未知的词，可将其标签标注为未知。

可选地，在获取目标文本资源时，对初始文本资源进行预处理，可以进一步减少干扰，提高识别的准确性。在一种实施方式中，对初始文本资源进行预处理，得到语句序列，包括但不限于：对初始文本资源进行词过滤及特殊字符过滤，得到语句序列。其中，词过滤可以是过滤一些停用词、词频小于一定值的词等等，特殊字符包括但不限于停用字符、无意义字符等。

对语句序列进行分词处理时，可以采用基于字符串匹配的分词处理方式，也可以采用基于统计以及机器学习的分词方式，如基于人工标注的词性和统计特征，对文本进行建模，即根据观测到的数据(标注好的语料)对模型参数进行估计，即训练。在分词阶段再通过模型计算各种分词出现的概率，将概率最大的分词结果作为最终结果。当然，也可以采用其他分词方式，本发明实施例不对具体的分词方式进行限定。

按照词频对词序列中的词进行排序时，可以采用词频由大到小的顺序进行排序，也可以采用词频由小到大的顺序进行排序，具体排序方式不加以限定。

进一步地，获取到数据集之后，考虑到在模型训练的时候，通常会将数据集分成三部分。分别是training set(训练集)，dev set(也称validation set，验证集)和test set(测试集)，它们分别起着不同的作用。training set用来训练模型，dev set用来统计单一评估指标，调节参数,选择算法。test set则用来在最后整体评估模型的性能，最终得到的目标模型用于命名实体识别。在本发明实施例中，上述提及的模型均可采用这三个数据集进行训练、验证和测试，得到目标模型。

实际应用中，上述方法的交互过程可如图6所示：

1、各个需求方客户端向中心服务端发起请求，服务端做分布式调度，然后向本接口发送请求，请求包含最重要的用户text(文本)和ID(标识)。

2、服务器端程序收到用户text和ID后，去调用深度学习模块，解析答案。

3、服务端接口处理完毕，以json的形式返回中心服务端，然后发送给业务方，得到对应的答案，即命名实体识别结果。

具体实施时，本发明实施例提供的上述深度学习模块程序部署在服务器上，服务器配置为Intel(R)Xeon(R)CPU E5-2620v3，40G内存；深度学习模块基于以python，调用tensorflow检测模块，服务器配置为Intel(R)Xeon(R)CPU E5-2620v3，60G内存，512SSD。

此外，本发明实施例提供的装置提供七大类别的实体，如：时间，地点，人名，组织名，公司名，国家名和游戏专用名词，提供http post的接口方式，内部做了token的校验，http请求body是json格式需要做命名实体识别检测的文本或者文本列表和ID。另外考虑到服务器的负载，本接口限制了一次传入的文章不能超过预设数量，如50篇。http返回的body是json格式的结果：

key type 说明

word list 分词结果

tag list 命名实体结果

例如，基于上述本发明实施例提供的方法，识别效果可如图7所示。如图7中的(1)所示，针对待识别文本“天气很好，小明去爬泰山了”，应用本发明实施例提供的命名实体识别方法进行识别后，得到的识别结果为PERSON(人名)小明，LOCATION(地名)泰山。

除了如图7中(1)所示的将命名实体识别结果单独显示之外，本发明实施例提供的方法还包括在原待识别文本基础上显示识别结果的方式。例如，如图7中的(2)所示，对于待识别文本“小明，你不是喜欢爬山吗？这周六天气不错，咱们一起去爬泰山吧，约上其他几个好朋友一起出发。”，应用本发明实施例提供的方法进行命名实体识别后，识别出的命名实体“小明”、“周六”、“泰山”被标注显示出来。

由于本发明实施例通过整合了各类模型，在应用过程中，通过统计，识别率由机器学习的80％和旧的深度学习模型提高了将近十个百分点，而且该命名实体识别作为信息抽取的重要组成部分，为游戏策划和美术资源抽取提高了效率和准确率，有效的提高了整个工作流程的效率。

此外，本发明实施例提供的方法目前可以采用离线模型训练，作为接口组件提供服务，当然，也可以采用在线方式，本发明实施例对此不加以限定。

本发明实施例提供的方法，获取待识别文本的字符向量和词向量之后，通过对字符向量和词向量进行加权求和，更好的利用了动态的权重信息，通过采用双向LSTM模型更充分的考虑了上下文词与词的关系，充分利用了双向信息，再结合CRF模型进行处理，从而提高了命名实体识别的准确率。

基于与方法同样的构思，参见图8，本发明实施例提供了一种命名实体识别装置，用于执行上述命名实体识别方法，该装置包括：

预处理模块801，用于获取待识别文本的字符向量和词向量，对所述字符向量和词向量进行加权求和，得到加权求和结果；

第一处理模块802，用于将所述加权求和结果输入至目标双向LSTM模型中进行处理，得到文本特征序列；

第二处理模块803，用于将所述文本特征序列输入至目标条件随机场CRF模型中进行处理，得到所述待识别文本的命名实体识别结果。

在一种实现方式中，预处理模块801，用于将所述待识别文本输入至目标卷积神经网络CNN模型中，得到所述待识别文本的字符向量；通过目标word2vec模型或目标glove模型获取所述待识别文本的词向量。

在一种实现方式中，预处理模块801，还用于对初始word2vec模型中的嵌入层初始化后，将所述嵌入层的参数设置为不可训练状态，直至迭代到达预设时间后，对所述嵌入层的参数进行训练，得到所述目标word2vec模型。

在一种实现方式中，参见图9，该装置还包括：

获取模块804，用于获取数据集，将数据集划分为训练集、验证集和测试集，其中，数据集包括目标文本资源、已标注的目标命名实体及词向量；

训练模块805，用于根据训练集对初始双向LSTM模型及初始CRF模型进行训练，得到训练后的双向LSTM模型及CRF模型；

验证模块806，用于根据验证集对训练后的双向LSTM模型及CRF模型进行验证；

测试模块807，用于当验证通过后，采用测试集对训练后的双向LSTM模型及CRF模型进行测试，得到目标双向LSTM模型及目标CRF模型。

本发明实施例提供的装置，获取待识别文本的字符向量和词向量之后，通过对字符向量和词向量进行加权求和，更好的利用了动态的权重信息，通过采用双向LSTM模型更充分的考虑了上下文词与词的关系，充分利用了双向信息，再结合CRF模型进行处理，从而提高了命名实体识别的准确率。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10是本发明实施例提供的一种命名实体识别的设备结构示意图，该设备可以为服务器，服务器可以是单独的服务器或集群服务器。具体来讲：

服务器包括中央处理单元(CPU)1001、随机存取存储器(RAM)1002和只读存储器(ROM)1003的***存储器1004，以及连接***存储器1004和中央处理单元1001的***总线1005。服务器还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)1006，和用于存储操作***1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

基本输入/输出***1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到***总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出***1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1007通过连接到***总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为服务器提供非易失性存储。也就是说，大容量存储设备1007可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器1004和大容量存储设备1007可以统称为存储器。

根据本发明的各种实施例，服务器还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器可以通过连接在***总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机***(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行本发明实施例提供的命名实体识别方法的指令。

在示例中实施例中，还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集。所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述命名实体识别方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述命名实体识别方法。

可选地，上述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的示例性实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种命名实体识别方法，其特征在于，所述方法包括：

对初始word2vec模型中的嵌入层初始化后，将所述嵌入层的参数设置为不可训练状态，直至迭代到达预设时间后，对所述嵌入层的参数进行训练，得到目标word2vec模型；获取待识别文本的字符向量；通过目标word2vec模型获取所述待识别文本的词向量；采用注意力模型中的Soft-Attention动态地训练所述字符向量和所述词向量的权重，对所述词向量和所述字符向量进行数据加权变换，对数据加权变换后的词向量和数据加权变换后的字符向量进行求和，得到加权求和结果，所述Soft-Attention使用两层神经网络隐层学习attention的值；

将所述加权求和结果输入至目标双向长短期记忆LSTM模型中进行处理，得到文本特征序列；

将所述文本特征序列输入至目标条件随机场CRF模型中进行处理，得到所述待识别文本的命名实体识别结果。

2.根据权利要求1所述的方法，其特征在于，所述获取待识别文本的字符向量，包括：

将所述待识别文本输入至目标卷积神经网络CNN模型中，得到所述待识别文本的字符向量。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

获取数据集，将所述数据集划分为训练集、验证集和测试集，其中，所述数据集包括目标文本资源、已标注的目标命名实体及词向量；

根据所述训练集对初始双向LSTM模型及初始CRF模型进行训练，得到训练后的双向LSTM模型及CRF模型；

根据所述验证集对所述训练后的双向LSTM模型及CRF模型进行验证；

当验证通过后，采用所述测试集对所述训练后的双向LSTM模型及CRF模型进行测试，得到目标双向LSTM模型及目标CRF模型。

4.根据权利要求3所述的方法，其特征在于，所述获取数据集，包括：

获取初始文本资源，对所述初始文本资源进行预处理，得到语句序列；

对所述语句序列进行分词处理，得到至少一个词序列；

按照词频对所述词序列中的词进行排序，确定每个词对应的标签信息，得到多个词与标签信息的组合，将所述词与标签信息的组合作为目标文本资源。

5.根据权利要求4所述的方法，其特征在于，所述对所述初始文本资源进行预处理，得到语句序列，包括：

对所述初始文本资源进行词过滤及特殊字符过滤，得到语句序列。

6.一种命名实体识别装置，其特征在于，所述装置包括：预处理层、双向长短期记忆LSTM层和条件随机场CRF层；

所述预处理层，用于对初始word2vec模型中的嵌入层初始化后，将所述嵌入层的参数设置为不可训练状态，直至迭代到达预设时间后，对所述嵌入层的参数进行训练，得到目标word2vec模型；获取待识别文本的字符向量；通过目标word2vec模型获取所述待识别文本的词向量；采用注意力模型中的Soft-Attention动态地训练所述字符向量和所述词向量的权重，对所述词向量和所述字符向量进行数据加权变换，对数据加权变换后的词向量和数据加权变换后的字符向量进行求和，得到加权求和结果；将所述加权求和结果输入至所述双向LSTM层，所述Soft-Attention使用两层神经网络隐层学习attention的值；

7.一种命名实体识别装置，其特征在于，所述装置包括：

预处理模块，用于对初始word2vec模型中的嵌入层初始化后，将所述嵌入层的参数设置为不可训练状态，直至迭代到达预设时间后，对所述嵌入层的参数进行训练，得到目标word2vec模型；获取待识别文本的字符向量；通过目标word2vec模型获取所述待识别文本的词向量；采用注意力模型中的Soft-Attention动态地训练所述字符向量和所述词向量的权重，对所述词向量和所述字符向量进行数据加权变换，对数据加权变换后的词向量和数据加权变换后的字符向量进行求和，得到加权求和结果，所述Soft-Attention使用两层神经网络隐层学习attention的值；

第一处理模块，用于将所述加权求和结果输入至目标双向长短期记忆LSTM模型中进行处理，得到文本特征序列；

第二处理模块，用于将所述文本特征序列输入至目标条件随机场CRF模型中进行处理，得到所述待识别文本的命名实体识别结果。

8.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被所述处理器执行时实现如权利要求1至5任一项所述的命名实体识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被执行时实现如权利要求1至5任一项所述的命名实体识别方法。