CN104615589A

CN104615589A - 训练命名实体识别模型的方法、命名实体识别方法及装置

Info

Publication number: CN104615589A
Application number: CN201510082318.3A
Authority: CN
Inventors: 张军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-02-15
Filing date: 2015-02-15
Publication date: 2015-05-13

Abstract

本发明实施例提供了一种训练命名实体识别模型的方法、命名实体识别方法及装置。其中，用于训练循环神经网络命名实体识别模型的方法包括：获取多个标注的样本数据，每个所述样本数据包括文本串及其多个分词标注数据，所述分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志；将所述多个标注的样本数据中的分词映射为词向量，以所述样本数据作为训练样本，对RNN命名实体识别模型进行训练，以学习所述RNN命名实体识别模型的参数。本发明实施例的训练命名实体识别模型的方法、命名实体识别方法和装置，经训练的模型具有更好的泛化能力，能够快速识别出自然语言文本中的命名实体，且提高了命名实体的识别精度。

Description

训练命名实体识别模型的方法、命名实体识别方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种训练命名实体识别模型的方法、命名实体识别方法和装置。

背景技术

命名实体(例如人名，地名，组织机构名称，特定意义的网络词汇等)识别是自然语言理解的一个重要组成部分，因此，建立并维护命名实体库是众多自然语言处理(Natural Language Processing，NLP)领域应用(例如搜索***，机器翻译***等)的核心之一。例如，如果搜索引擎能够借助命名实体库，识别出用户的搜索词“万万没想到”是一个网络影视剧的名称，那就可以给用户返回更精确的搜索结果。

在现有技术中，一般采用以下两种命名实体识别方法。一种方法是从搜索引擎的查询日志当中用基于规则的方法来挖掘命名实体。具体的，将近期用户输入的搜索词与以往用户的搜索词进行比较。如果发现是新的搜索词，则通过所设计的基于搜索词的增长量以及与以往搜索词的相似度概率公式来给出新的搜索词是命名实体的概率，并将概率超过一定阈值的搜索词识别为命名实体。这种方法虽然能够准确的识别出互联网上新出现的命名实体，但是所述方法的实现依赖于查询日志的数据，且自用户使用搜索词进行搜索到所述搜索词被识别为命名实体延迟，影响用户的查询体验。

另一种方法是从预先标注过的训练语料(人工标注出一组文本数据中的命名实体)中，用统计的方法建立隐马尔科夫假设，然后利用该模型来从大量的文本数据中标注出新的命名实体。此方法虽然在小规模数据上能够取得不错的效果，但因其依赖于马尔科夫假设(当前词是否为某个命名实体的一部分，依赖于其前面的固定数量(一般为2)的词)，导致该模型缺少泛化能力，在大规模数据上的识别精度不高。

发明内容

本发明实施例的目的在于，提供一种训练命名实体识别模型的方法、命名实体识别方法和装置，能够快速、自动地识别出自然语言文本中的命名实体，且提高命名实体的识别精确度。

为了实现上述发明目的，本发明的实施例提供了一种用于训练循环神经网络(RNN)命名实体识别模型的方法，包括：获取多个标注的样本数据，每个所述样本数据包括文本串及其多个分词标注数据，所述分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志；将所述多个标注的样本数据中的分词映射为词向量，以所述样本数据作为训练样本，对RNN命名实体识别模型进行训练，以学习所述RNN命名实体识别模型的参数。

本发明实施例还提供了一种用于训练循环神经网络(RNN)命名实体识别模型的装置，包括：样本数据获取模块，用于获取多个标注的样本数据，每个所述样本数据包括文本串及其多个分词标注数据，所述分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志；参数学习模块，用于将所述多个标注的样本数据中的分词映射为词向量，以所述样本数据作为训练样本，对RNN命名实体识别模型进行训练，以学习所述RNN命名实体识别模型的参数。

本发明实施例还提供了一种命名实体的识别方法，包括：获取文本串；对所述文本串进行分词处理得到多个分词；通过根据权利要求5所述的方法训练得到的RNN命名实体识别模型分别获取所述分词对应的概率最大的命名实体属性标志；根据所述分词对应的概率最大的命名实体属性标志对所述文本串进行识别得到命名实体。

本发明实施例还提供了一种命名实体的识别装置，包括：文本串获取模块，用于获取文本串；文本串分词模块，用于对所述文本串进行分词处理得到多个分词；命名实体属性标志获取模块，用于通过根据权利要求17所述的装置训练得到的RNN命名实体识别模型分别获取所述分词对应的概率最大的命名实体属性标志；命名实体识别模块，用于根据所述分词对应的概率最大的命名实体属性标志对所述文本串进行识别得到命名实体。

本发明实施例提供的训练命名实体识别模型的方法、命名实体识别方法和装置，通过获取多个标注的样本数据，并将多个标注的样本数据中的分词映射为词向量，以所述样本数据作为训练样本，对RNN命名实体识别模型进行训练，以学习所述RNN命名实体识别模型的参数。与现有技术相比，无需依赖于查询日志和隐马尔科夫假设，该模型具有更好的泛化能力，能够自动、快速地识别出自然语言文本中的命名实体，提高了命名实体的识别精确度。

附图说明

图1是示出本发明实施例的基本原理框图；

图2是示出本发明实施例一的用于训练RNN命名实体识别模型的方法的流程图；

图3是示出本发明实施例一的RNN命名实体识别模型的示例性示意图；

图4是示出本发明实施例二的命名实体的识别方法的流程图；

图5是示出本发明实施例三的用于训练RNN命名实体识别模型的装置的逻辑框图；

图6是示出本发明实施例四的命名实体的识别装置的逻辑框图。

具体实施方式

本发明的基本构思是，获取多个标注的样本数据，并将所述多个标注的样本数据中的分词映射为词向量，以所述样本数据作为训练样本，对RNN命名实体识别模型进行训练，以学习所述RNN命名实体识别模型的参数。另一方面，以获取到的文本串中每个分词作为输入，通过经过训练的命名实体识别模型获取所述分词对应的命名实体属性标志，最终能够根据所述分词对应的命名实体属性标志，对文本串进行识别得到命名实体，该模型具有更好的泛化能力，使得命名实体的识别速度更快，且提高了命名实体的识别精确度。

图1为本发明实施例的基本原理框图。参照图1，本发明中，首先需获取训练样本，具体的，可通过启发式规则对文本串进行处理得到弱标注的样本数据(预先标注了命名实体的文本)作为训练样本，从而可自动地获取样本数据，当然也可通过例如手工标注的方式获取训练样本。其次，利用该训练样本对RNN命名实体识别模型进行训练，以学习出RNN命名实体识别模型的参数，也就是利用所设计的训练算法对建立的RNN命名实体识别模型进行训练，得到RNN命名实体识别模型的参数。最后，获取待识别的文本串，利用这些参数可以获取所述待识别的文本串当中的分词对应的概率最大的命名实体属性标志，由分词对应的概率最大的命名实体属性标志就可对文本串进行识别，最终得到命名实体。

通过上述过程可以从大规模的自然语言文本内容(例如VIP网页库，论坛帖子等)当中，标注出大量的命名实体，为了能够保证命名实体的准确性，也可通过简单的统计被标注为命名实体的短语(一个或多个词组成)的数量，然后设定一个阈值，如果某个被标注为命名实体的词的词频(词频是指某一个给定的词语在所处文件中出现的次数)超过该阈值，则将被作为新的命名实体，从而得到自动挖掘出的命名实体库，主要用于例如搜索引擎，机器翻译等NLP领域的应用。

下面结合附图对本发明实施例一种用于训练循环神经网络命名实体识别模型的方法、命名实体识别方法和装置进行详细描述。

实施例一

图2是示出本发明实施例一的用于训练RNN命名实体识别模型的方法的流程图。所述RNN命名实体识别模型用于识别文本中的命名实体。

参照图2，在步骤S110，获取多个标注的样本数据，每个所述样本数据包括文本串及其多个分词标注数据，所述分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志。

具体的，根据本发明的构思，所述分词在所述文本串中的命名实体属性标志包括所述分词是否属于命名实体的信息。

此外，所述分词在所述文本串中的命名实体属性标志可还包括所述分词在其所属命名实体中的位置标注。

例如，所述分词在所述文本串中的命名实体属性标志可包括命名实体的起始标志、命名实体的延续标志和非命名实体标志。例如，分词在所述文本串中的命名实体属性标志为是否某个命名实体的起始(例B)，是否某个命名实体的一部分(例I)，或者这个词不是任何的命名实体(例O)，从而能够得到一个文本串当中的所有的实体词的命名实体属性标志。需要说明的是，标志B含义是Begin，表示某种类型的命名实体的开始，标志I含义是In，表示为某个命名实体的延续，标志O含义为Out，表示该词不是命名实体词。

优选地，所述分词在所述文本串中的命名实体属性标志还可包括所述分词所属的命名实体的类型。这里，命名实体的类型可包括，但不限于，人名、地名、组织结构名、影视剧名、书名或特定意义的网络词汇。例如，分词在所述文本串中的命名实体属性标志为是否某个命名实体的起始(例B-DRAMA)，是否某个命名实体的一部分(例I-DRAMA)，或者这个词不是任何的命名实体(例O)，DRAMA可以被其他预先定义的命名实体的类型所替换(如PERSON，代表人名；ADDR代表地址)。表1示出了一个标注的样本数据，如表1所示，一个标注的样本数据中包括了文本串“万万没想到为什么这么火？”及其多个分词标注数据，其中，分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志，例如，分词“万万”及“B-DRAMA”。

表1

根据本发明的构思，所述训练样本包括例如M组<文本串,多个分词标注数据>样本数据。这里，M的取值一般要足够大，通常会超过千万量级。前述表1中的内容就是一个具体的样本数据示例。很显然，纯粹依靠人力来标注这M组样本数据将会是非常耗时耗力的。因此，进一步地，所述方法还可包括：根据启发式规则从自然语言文本中获取多个标注的样本数据。例如，如果所述自然语言文本中含有成对的书名号，则将含有所述成对的书名号的文本串作为样本数据，并标注所述文本串中每个分词对应的命名实体属性标志；再例如，如果所述自然语言文本中某个文本串含有与预定名称完全匹配上的分词，则将含有所述分词的文本串作为样本数据，并标注所述文本串中每个分词对应的命名实体属性标志。通过前述启发式规则对文本串进行标注，可自动地获得弱标注的样本数据，提高处理效率。

在步骤S120，将所述多个标注的样本数据中的分词映射为词向量，以所述样本数据作为训练样本，对RNN命名实体识别模型进行训练，以学习所述RNN命名实体识别模型的参数。

根据本发明的可选实施例，步骤S120可包括，由所述训练样本中文本串的分词生成所述RNN命名实体识别模型的输入层，从预先定义的词表中查找所述输入层中每个分词对应的词向量，由所述词向量生成所述RNN命名实体识别模型的词向量层，对所述词向量层进行矩阵映射，得到所述RNN命名实体识别模型的隐藏层，以每个所述分词的词向量作为条件，在所述条件下分别计算与每个所述分词对应的多个命名实体属性标志的概率，作为所述RNN命名实体识别模型的输出层，利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练，得到所述RNN命名实体识别模型的参数。

具体的，图3是示出本发明实施例一的RNN命名实体识别模型的示例性示意图。参照图3，对所述训练样本中文本串进行分词，例如，假设一个文本串包括T个分词，记为：Text＝(w₁,…,w_T)，将分词处理得到的每个分词输入，即可生成所述RNN命名实体识别模型的输入层；文本串中的每个分词w_i都属于预先定义的词表中的一个词，词表的大小为|V|(其中包括用以标识不在词典当中的OOV的特殊词<OOV>)；每个分词都可通过查字典的方式找到所对应的词向量，该向量层称为所述RNN命名实体识别模型的词向量层。

这里需要说明的是，所述词向量是用来将语言中的词进行数学化的一种方式，顾名思义，词向量就是把一个词表示成一个向量，最简单的词向量方式是用一个很长的向量来表示一个词，向量的长度为词表的大小，向量的分量只有一个“1”，其他全为“0”，“1”的位置对应该词在词表中的位置，举例来说，“话筒”表示为[0 0 0 1 00 0 0 0 0 0 0 0 0 0 0 ...]，但这种方式不能很好地刻画词与词之间的相似性，在此基础之上，又出现了一种词向量表示，克服了前述缺点。其基本原理是直接用一个普通的向量表示一个词，例如[0.792,0.177,0.107,0.109,0.542,...]，也就是普通的向量表示形式。

在实际应用中，网络的词向量表示每个输入词w_i所对应的词向量，它是一个长度为EMBEDDING_SIZE的列向量C(w_i)；网络的隐藏层表示所设计的RNN命名实体识别模型在每个时间点i时的状态，是一个长度为HIDDEN_SIZE的列向量h_i，这里的EMBEDDING_SIZE的常见取值范围为50到1000，HIDDEN_SIZE的常见取值是EMBEDDING_SIZE的1到4倍。

在词向量层之上的是RNN命名实体识别模型的隐藏层。RNN网络的特点在于在计算当前的隐藏层的值时，使用了词向量层的值与前一步的隐藏层的节点的向量值。在隐藏之上是输出层，每个节点代表某个分词词所可能的命名实体属性标志(例如B、I或者O)。输出层也可称为SoftMax层，会计算出每个分词属于某个命名实体属性标志的概率。由上述生成的输入层、词向量层、隐藏层和输出层就建立起了RNN命名实体识别模型。本实施例的出发点是从前述标注的样本数据当中，用所建立起的RNN命名实体识别模型，来学习出RNN命名实体识别模型的参数，从而能泛化到其它无法依靠规则来识别出命名实体的文本(例如，省略了书名号的文本)当中。

优选地，可通过以下公式执行所述对所述词向量层进行矩阵映射，得到所述RNN命名实体识别模型的隐藏层的处理：

[h_i]_j＝sigmoid([WC(w_i)]_j+[Uh_i-1)]_j

其中，[h_i]_j为所述隐藏层的第i个向量中第j个元素，W、U均为所述RNN命名实体识别模型的变换矩阵参数，C(w_i)为所述词向量层的第i个词向量，h_i-1为所述隐藏层的第i-1个向量。这里，W是行数为HIDDEN_SIZE，列数为EMBEDDING_SIZE的矩阵；U，则是行数为HIDDEN_SIZE，列数也为HIDDEN_SIZE的矩阵。sigmoid是非线性变换的函数。

进一步地，可通过以下公式执行以每个所述分词的词向量作为条件，在所述条件下分别计算与每个所述分词对应的多个命名实体属性标志的概率，作为所述RNN命名实体识别模型的输出层的处理：

P (label = L_{i} | w_{i}) = \frac{e^{O_{L} \cdot h_{i}}}{Σ_{k = 1}^{K} e^{O_{k} \cdot h_{i}}}

其中，L_i为第i个命名实体属性标志，w_i为第i个分词，h_i为所述隐藏层的第i个向量，O为所述RNN命名实体识别模型的变换矩阵参数，K为所述变换矩阵参数O的行数。这里O是一个行为K，列为HIDDEN_SIZE的矩阵。

优选地，利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练，得到所述RNN命名实体识别模型的参数的处理可以包括：获取每个所述分词对应的多个命名实体属性标志的条件概率，根据所述多个命名实体属性标志的条件概率建立损失函数，利用所述多个标注的样本数据对所述损失函数进行训练，获取使得所述损失函数最小的所述RNN命名实体识别模型的参数集合，其中，所述参数集合包括词向量和变换矩阵参数。

具体地，可通过以下公式执行利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练，得到所述RNN命名实体识别模型的参数的处理：

其中，所有＜Text,Label＞对为所有标注的样本数据，θ为使得J(θ)最小的所述RNN命名实体识别模型的参数集合，所述参数集合包括词向量和变换矩阵参数，L_i为第i个命名实体属性标志，w_i为第i个分词。这里，需要说明的是所述RNN命名实体识别模型的参数有：词表当中的每个词w的词向量C(w)、以及变换矩阵参数W,U,O，将这一组参数集合记为θ。

这里需要说明的是，上述公式为损失函数，用随机梯度下降法来训练所述RNN命名实体识别模型。具体的，就是利用随机梯度下降法(Stochastic Gradient Descen，SGD)与反向传播算法(Back PropagationThrough Time，BPTT)，可以得到最优的参数θ。SGD算法的思想是通过计算某一组训练样本的梯度(参数的偏导数)，来迭代更新随机初始化过的参数，更新的方法是每次让参数减去所设置的一个学习率(learningrate)乘以计算出的梯度，从而在多次迭代之后可以让RNN命名实体识别模型根据参数所计算出的值，与实际值之间的差在所定义的loss函数上最小化。另外，BPTT算法是在RNN网络中的一种有效的计算参数的梯度的方法。

通过该用于训练RNN命名实体识别模型的方法，获取多个标注的样本数据，并将所述多个标注的样本数据中的分词映射为词向量，以所述样本数据作为训练样本，对RNN命名实体识别模型进行训练，以学习所述RNN命名实体识别模型的参数，与现有技术相比，无需依赖于查询日志和隐马尔科夫假设，具有更好的泛化能力，能够应用于识别自然语言文本中的命名实体，且命名实体的识别速度快，精确度更高。

实施例二

图4是示出本发明实施例二的命名实体的识别方法的流程图。可在例如搜索引擎服务器上执行所述方法。

参照图4，在步骤S210，获取文本串。

所述文本串可以是从客户端发送的搜索词。例如，用户在浏览器搜索引擎界面上输入“万万没想到为什么这么火？”进行搜索，浏览器应用将所述搜索词发送给搜索引擎服务器。

在步骤S220，对所述文本串进行分词处理得到多个分词。

例如，搜索引擎服务器可利用现有的分词技术，对获取到的文本串进行分词处理得到多个分词。

在步骤S230，通过根据实施例一所述的方法训练得到的RNN命名实体识别模型分别获取所述分词对应的概率最大的命名实体属性标志。在前述的实施例一中已描述了所述用于训练RNN命名实体识别模型的方法。

在步骤S240，根据所述分词对应的概率最大的命名实体属性标志对所述文本串进行识别得到命名实体。

在步骤S230，获取所述分词对应的命名实体属性标志之后，就可以根据所述分词对应的命名实体属性标志，对文本串进行识别，最终识别出文本串中的命名实体。

进一步地，如前所述，所述分词对应的概率最大的命名实体属性标志可还包括所述分词所属的命名实体的类型，因此，所述方法可还包括：根据所述分词对应的概率最大的命名实体属性标志获取所述命名实体的类型。

通过该命名实体的识别方法，对获取的文本串进行分词处理得到多个分词，并通过经过训练的RNN命名实体识别模型获取所述分词对应的概率最大的命名实体属性标志，最终能够根据所述分词对应的概率最大的命名实体属性标志，对文本串进行识别得到命名实体，与现有技术相比，能够快速识别出自然语言文本中的命名实体，且提高了命名实体的识别精确度，还能够获取被识别出的命名实体的类型。

实施例三

图5是示出本发明实施例三的用于训练RNN命名实体识别模型的装置的逻辑框图。

参照图5，所述RNN命名实体识别模型用于识别文本中的命名实体，所述用于训练RNN命名实体识别模型的装置包括样本数据获取模块310和参数学习模块320。

样本数据获取模块310用于获取多个标注的样本数据，每个所述样本数据包括文本串及其多个分词标注数据，所述分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志。

可选地，所述分词在所述文本串中的命名实体属性标志包括所述分词是否属于命名实体的信息。进一步地，所述分词在所述文本串中的命名实体属性标志可还包括所述分词在其所属命名实体中的位置标注。

优选地，所述分词在所述文本串中的命名实体属性标志包括：命名实体的起始标志、命名实体的延续标志和非命名实体标志。

进一步地，所述分词在所述文本串中的命名实体属性标志还包括所述分词所属的命名实体的类型。

可选地，样本数据获取模块310还用于根据启发式规则从自然语言文本中获取多个标注的样本数据，其中，如果所述自然语言文本中含有成对的书名号，则所述样本数据获取模块310将含有所述成对的书名号的文本串作为样本数据，并标注所述文本串中每个分词对应的命名实体属性标志，或者如果所述自然语言文本中某个文本串含有与预定名称完全匹配上的分词，则所述样本数据获取模块310将含有所述分词的文本串作为样本数据，并标注所述文本串中每个分词对应的命名实体属性标志。

参数学习模块320用于将所述多个标注的样本数据中的分词映射为词向量，以所述样本数据作为训练样本，对RNN命名实体识别模型进行训练，以学习所述RNN命名实体识别模型的参数。

优选地，所述参数学习模块320可包括：

输入层生成单元，用于由所述训练样本中文本串的分词生成所述RNN命名实体识别模型的输入层。

词向量层生成单元，用于从预先定义的词表中查找所述输入层中每个分词对应的词向量，由所述词向量生成所述RNN命名实体识别模型的词向量层。

隐藏层生成单元，用于对所述词向量层进行矩阵映射，得到所述RNN命名实体识别模型的隐藏层。

输出层生成单元，用于以每个所述分词的词向量作为条件，在所述条件下分别计算与每个所述分词对应的多个命名实体属性标志的概率，作为所述RNN命名实体识别模型的输出层。

参数学习单元，用于利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练，得到所述RNN命名实体识别模型的参数。

进一步地，所述隐藏层生成单元用于通过以下公式对所述词向量层进行矩阵映射，得到隐藏层：

[h_i]_j＝sigmoid([WC(w_i)]_j+[Uh_i-1)]_j

其中，[h_i]_j为所述隐藏层的第i个向量中第j个元素，W、U均为所述RNN命名实体识别模型的变换矩阵参数，C(w_i)为所述词向量层的第i个词向量，h_i-1为所述隐藏层的第i-1个向量。

可选地，所述输出层生成单元用于通过以下公式分别计算与每个所述分词对应的多个命名实体属性标志的概率，作为所述RNN命名实体识别模型的输出层：

P (label = L_{i} | w_{i}) = \frac{e^{O_{L} \cdot h_{i}}}{Σ_{k = 1}^{K} e^{O_{k} \cdot h_{i}}}

其中，L_i为第i个命名实体属性标志，w_i为第i个分词，h_i为所述隐藏层的第i个向量，O为所述RNN命名实体识别模型的变换矩阵参数，K为所述变换矩阵参数O的行数。

优选地，所述参数学习单元用于获取每个所述分词对应的多个命名实体属性标志的条件概率，根据所述多个命名实体属性标志的条件概率建立损失函数，利用所述多个标注的样本数据对所述损失函数进行训练，获取使得损失函数的值最小的所述RNN命名实体识别模型的参数集合，其中，所述参数集合包括词向量和变换矩阵参数。

具体的，通过以下公式利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练，得到所述RNN命名实体识别模型的参数：

其中，所有＜Text,Label＞对为所有标注的样本数据，θ为使得J(θ)最小的所述RNN命名实体识别模型的参数集合，所述参数集合包括词向量和变换矩阵参数，L_i为第i个命名实体属性标志，w_i为第i个分词。

通过该用于训练RNN命名实体识别模型的装置，获取多个标注的样本数据，并将所述多个标注的样本数据中的分词映射为词向量，以所述样本数据作为训练样本，对RNN命名实体识别模型进行训练，以学习所述RNN命名实体识别模型的参数，与现有技术相比，无需依赖于查询日志和隐马尔科夫假设，具有更好的泛化能力，能够应用于识别自然语言文本中的命名实体，且命名实体的识别速度快，精确度更高。

实施例四

参照图6，所述命名实体的识别装置包括文本串获取模块410、文本串分词模块420、命名实体属性标志获取模块430和命名实体识别模块440。

文本串获取模块410用于获取文本串。

文本串分词模块420用于对所述文本串进行分词处理得到多个分词。

命名实体属性标志获取模块430用于通过根据实施例三所述的装置训练得到的RNN命名实体识别模型分别获取所述分词对应的概率最大的命名实体属性标志。在前述的实施例三中已描述了所述用于训练RNN命名实体识别模型的装置。

命名实体识别模块440用于根据所述分词对应的概率最大的命名实体属性标志对所述文本串进行识别得到命名实体。

进一步地，所述识别装置还可以包括：命名实体的类型获取模块(未示出)，用于根据所述分词对应的概率最大的命名实体属性标志获取所述命名实体的类型。

通过该命名实体的识别装置，对获取的文本串进行分词处理得到多个分词，并通过经过训练的RNN命名实体识别模型获取所述分词对应的概率最大的命名实体属性标志，最终能够根据所述分词对应的概率最大的命名实体属性标志，对文本串进行识别得到命名实体，与现有技术相比，能够快速识别出自然语言文本中的命名实体，且提高了命名实体的识别精确度，还能够获取被识别出的命名实体的类型。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于训练循环神经网络(RNN)命名实体识别模型的方法，所述RNN命名实体识别模型用于识别文本中的命名实体，其特征在于，所述方法包括：

获取多个标注的样本数据，每个所述样本数据包括文本串及其多个分词标注数据，所述分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志；

将所述多个标注的样本数据中的分词映射为词向量，以所述样本数据作为训练样本，对RNN命名实体识别模型进行训练，以学习所述RNN命名实体识别模型的参数。

2.根据权利要求1所述的方法，其特征在于，所述分词在所述文本串中的命名实体属性标志包括所述分词是否属于命名实体的信息。

3.根据权利要求2所述的方法，其特征在于，所述分词在所述文本串中的命名实体属性标志还包括所述分词在其所属命名实体中的位置标注。

4.根据权利要求1所述的方法，其特征在于，所述分词在所述文本串中的命名实体属性标志包括：命名实体的起始标志、命名实体的延续标志和非命名实体标志。

5.根据权利要求1～4中任一项所述的方法，其特征在于，所述分词在所述文本串中的命名实体属性标志还包括所述分词所属的命名实体的类型。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据启发式规则从自然语言文本中获取多个标注的样本数据，其中，

如果所述自然语言文本中含有成对的书名号，则将含有所述成对的书名号的文本串作为样本数据，并标注所述文本串中每个分词对应的命名实体属性标志，或者

如果所述自然语言文本中某个文本串含有与预定名称完全匹配上的分词，则将含有所述分词的文本串作为样本数据，并标注所述文本串中每个分词对应的命名实体属性标志。

7.根据权利要求5所述的方法，其特征在于，所述以所述样本数据作为训练样本，对RNN命名实体识别模型进行训练，以学习所述RNN命名实体识别模型的参数的处理包括：

由所述训练样本中文本串的分词生成所述RNN命名实体识别模型的输入层，

从预先定义的词表中查找所述输入层中每个分词对应的词向量，由所述词向量生成所述RNN命名实体识别模型的词向量层，

对所述词向量层进行矩阵映射，得到所述RNN命名实体识别模型的隐藏层，

以每个所述分词的词向量作为条件，在所述条件下分别计算与每个所述分词对应的多个命名实体属性标志的概率，作为所述RNN命名实体识别模型的输出层，

利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练，得到所述RNN命名实体识别模型的参数。

8.根据权利要求7所述的方法，其特征在于，所述利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练，得到所述RNN命名实体识别模型的参数的处理包括：

获取每个所述分词对应的多个命名实体属性标志的条件概率，

根据所述多个命名实体属性标志的条件概率建立损失函数，

利用所述多个标注的样本数据对所述损失函数进行训练，获取使得所述损失函数最小的所述RNN命名实体识别模型的参数集合，其中，所述参数集合包括词向量和变换矩阵参数。

9.一种命名实体的识别方法，其特征在于，所述识别方法包括：

获取文本串；

对所述文本串进行分词处理得到多个分词；

通过根据权利要求5所述的方法训练得到的RNN命名实体识别模型分别获取所述分词对应的概率最大的命名实体属性标志；

根据所述分词对应的概率最大的命名实体属性标志对所述文本串进行识别得到命名实体。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：根据所述分词对应的概率最大的命名实体属性标志获取所述命名实体的类型。

11.一种用于训练循环神经网络(RNN)命名实体识别模型的装置，所述RNN命名实体识别模型用于识别文本中的命名实体，其特征在于，所述装置包括：

样本数据获取模块，用于获取多个标注的样本数据，每个所述样本数据包括文本串及其多个分词标注数据，所述分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志；

参数学习模块，用于将所述多个标注的样本数据中的分词映射为词向量，以所述样本数据作为训练样本，对RNN命名实体识别模型进行训练，以学习所述RNN命名实体识别模型的参数。

12.根据权利要求11所述的装置，其特征在于，所述分词在所述文本串中的命名实体属性标志包括所述分词是否属于命名实体的信息。

13.根据权利要求12所述的装置，其特征在于，所述分词在所述文本串中的命名实体属性标志还包括所述分词在其所属命名实体中的位置标注。

14.根据权利要求11所述的装置，其特征在于，所述分词在所述文本串中的命名实体属性标志包括：命名实体的起始标志、命名实体的延续标志和非命名实体标志。

15.根据权利要求11～14中任一项所述的装置，其特征在于，所述分词在所述文本串中的命名实体属性标志还包括所述分词所属的命名实体的类型。

16.根据权利要求15所述的装置，其特征在于，所述样本数据获取模块还用于根据启发式规则从自然语言文本中获取多个标注的样本数据，其中，

如果所述自然语言文本中含有成对的书名号，则所述样本数据获取模块将含有所述成对的书名号的文本串作为样本数据，并标注所述文本串中每个分词对应的命名实体属性标志，或者

如果所述自然语言文本中某个文本串含有与预定名称完全匹配上的分词，则所述样本数据获取模块将含有所述分词的文本串作为样本数据，并标注所述文本串中每个分词对应的命名实体属性标志。

17.根据权利要求15所述的装置，其特征在于，所述参数学习模块包括：

输入层生成单元，用于由所述训练样本中文本串的分词生成所述RNN命名实体识别模型的输入层，

词向量层生成单元，用于从预先定义的词表中查找所述输入层中每个分词对应的词向量，由所述词向量生成所述RNN命名实体识别模型的词向量层，

隐藏层生成单元，用于对所述词向量层进行矩阵映射，得到所述RNN命名实体识别模型的隐藏层，

输出层生成单元，用于以每个所述分词的词向量作为条件，在所述条件下分别计算与每个所述分词对应的多个命名实体属性标志的概率，作为所述RNN命名实体识别模型的输出层，

18.根据权利要求17所述的装置，其特征在于，所述参数学习单元用于获取每个所述分词对应的多个命名实体属性标志的条件概率，根据所述多个命名实体属性标志的条件概率建立损失函数，利用所述多个标注的样本数据对所述损失函数进行训练，获取使得所述损失函数最小的所述RNN命名实体识别模型的参数集合，其中，所述参数集合包括词向量和变换矩阵参数。

19.一种命名实体的识别装置，其特征在于，所述识别装置包括：

文本串获取模块，用于获取文本串；

文本串分词模块，用于对所述文本串进行分词处理得到多个分词；

命名实体属性标志获取模块，用于通过根据权利要求17所述的装置训练得到的RNN命名实体识别模型分别获取所述分词对应的概率最大的命名实体属性标志；

命名实体识别模块，用于根据所述分词对应的概率最大的命名实体属性标志对所述文本串进行识别得到命名实体。

20.根据权利要求19所述的装置，其特征在于，所述识别装置还包括：命名实体的类型获取模块，用于根据所述分词对应的概率最大的命名实体属性标志获取所述命名实体的类型。