CN104615589A - 训练命名实体识别模型的方法、命名实体识别方法及装置 - Google Patents
训练命名实体识别模型的方法、命名实体识别方法及装置 Download PDFInfo
- Publication number
- CN104615589A CN104615589A CN201510082318.3A CN201510082318A CN104615589A CN 104615589 A CN104615589 A CN 104615589A CN 201510082318 A CN201510082318 A CN 201510082318A CN 104615589 A CN104615589 A CN 104615589A
- Authority
- CN
- China
- Prior art keywords
- named entity
- participle
- rnn
- mark
- text string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种训练命名实体识别模型的方法、命名实体识别方法及装置。其中,用于训练循环神经网络命名实体识别模型的方法包括:获取多个标注的样本数据,每个所述样本数据包括文本串及其多个分词标注数据,所述分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志;将所述多个标注的样本数据中的分词映射为词向量,以所述样本数据作为训练样本,对RNN命名实体识别模型进行训练,以学习所述RNN命名实体识别模型的参数。本发明实施例的训练命名实体识别模型的方法、命名实体识别方法和装置,经训练的模型具有更好的泛化能力,能够快速识别出自然语言文本中的命名实体,且提高了命名实体的识别精度。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种训练命名实体识别模型的方法、命名实体识别方法和装置。
背景技术
命名实体(例如人名,地名,组织机构名称,特定意义的网络词汇等)识别是自然语言理解的一个重要组成部分,因此,建立并维护命名实体库是众多自然语言处理(Natural Language Processing,NLP)领域应用(例如搜索***,机器翻译***等)的核心之一。例如,如果搜索引擎能够借助命名实体库,识别出用户的搜索词“万万没想到”是一个网络影视剧的名称,那就可以给用户返回更精确的搜索结果。
在现有技术中,一般采用以下两种命名实体识别方法。一种方法是从搜索引擎的查询日志当中用基于规则的方法来挖掘命名实体。具体的,将近期用户输入的搜索词与以往用户的搜索词进行比较。如果发现是新的搜索词,则通过所设计的基于搜索词的增长量以及与以往搜索词的相似度概率公式来给出新的搜索词是命名实体的概率,并将概率超过一定阈值的搜索词识别为命名实体。这种方法虽然能够准确的识别出互联网上新出现的命名实体,但是所述方法的实现依赖于查询日志的数据,且自用户使用搜索词进行搜索到所述搜索词被识别为命名实体延迟,影响用户的查询体验。
另一种方法是从预先标注过的训练语料(人工标注出一组文本数据中的命名实体)中,用统计的方法建立隐马尔科夫假设,然后利用该模型来从大量的文本数据中标注出新的命名实体。此方法虽然在小规模数据上能够取得不错的效果,但因其依赖于马尔科夫假设(当前词是否为某个命名实体的一部分,依赖于其前面的固定数量(一般为2)的词),导致该模型缺少泛化能力,在大规模数据上的识别精度不高。
发明内容
本发明实施例的目的在于,提供一种训练命名实体识别模型的方法、命名实体识别方法和装置,能够快速、自动地识别出自然语言文本中的命名实体,且提高命名实体的识别精确度。
为了实现上述发明目的,本发明的实施例提供了一种用于训练循环神经网络(RNN)命名实体识别模型的方法,包括:获取多个标注的样本数据,每个所述样本数据包括文本串及其多个分词标注数据,所述分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志;将所述多个标注的样本数据中的分词映射为词向量,以所述样本数据作为训练样本,对RNN命名实体识别模型进行训练,以学习所述RNN命名实体识别模型的参数。
本发明实施例还提供了一种用于训练循环神经网络(RNN)命名实体识别模型的装置,包括:样本数据获取模块,用于获取多个标注的样本数据,每个所述样本数据包括文本串及其多个分词标注数据,所述分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志;参数学习模块,用于将所述多个标注的样本数据中的分词映射为词向量,以所述样本数据作为训练样本,对RNN命名实体识别模型进行训练,以学习所述RNN命名实体识别模型的参数。
本发明实施例还提供了一种命名实体的识别方法,包括:获取文本串;对所述文本串进行分词处理得到多个分词;通过根据权利要求5所述的方法训练得到的RNN命名实体识别模型分别获取所述分词对应的概率最大的命名实体属性标志;根据所述分词对应的概率最大的命名实体属性标志对所述文本串进行识别得到命名实体。
本发明实施例还提供了一种命名实体的识别装置,包括:文本串获取模块,用于获取文本串;文本串分词模块,用于对所述文本串进行分词处理得到多个分词;命名实体属性标志获取模块,用于通过根据权利要求17所述的装置训练得到的RNN命名实体识别模型分别获取所述分词对应的概率最大的命名实体属性标志;命名实体识别模块,用于根据所述分词对应的概率最大的命名实体属性标志对所述文本串进行识别得到命名实体。
本发明实施例提供的训练命名实体识别模型的方法、命名实体识别方法和装置,通过获取多个标注的样本数据,并将多个标注的样本数据中的分词映射为词向量,以所述样本数据作为训练样本,对RNN命名实体识别模型进行训练,以学习所述RNN命名实体识别模型的参数。与现有技术相比,无需依赖于查询日志和隐马尔科夫假设,该模型具有更好的泛化能力,能够自动、快速地识别出自然语言文本中的命名实体,提高了命名实体的识别精确度。
附图说明
图1是示出本发明实施例的基本原理框图;
图2是示出本发明实施例一的用于训练RNN命名实体识别模型的方法的流程图;
图3是示出本发明实施例一的RNN命名实体识别模型的示例性示意图;
图4是示出本发明实施例二的命名实体的识别方法的流程图;
图5是示出本发明实施例三的用于训练RNN命名实体识别模型的装置的逻辑框图;
图6是示出本发明实施例四的命名实体的识别装置的逻辑框图。
具体实施方式
本发明的基本构思是,获取多个标注的样本数据,并将所述多个标注的样本数据中的分词映射为词向量,以所述样本数据作为训练样本,对RNN命名实体识别模型进行训练,以学习所述RNN命名实体识别模型的参数。另一方面,以获取到的文本串中每个分词作为输入,通过经过训练的命名实体识别模型获取所述分词对应的命名实体属性标志,最终能够根据所述分词对应的命名实体属性标志,对文本串进行识别得到命名实体,该模型具有更好的泛化能力,使得命名实体的识别速度更快,且提高了命名实体的识别精确度。
图1为本发明实施例的基本原理框图。参照图1,本发明中,首先需获取训练样本,具体的,可通过启发式规则对文本串进行处理得到弱标注的样本数据(预先标注了命名实体的文本)作为训练样本,从而可自动地获取样本数据,当然也可通过例如手工标注的方式获取训练样本。其次,利用该训练样本对RNN命名实体识别模型进行训练,以学习出RNN命名实体识别模型的参数,也就是利用所设计的训练算法对建立的RNN命名实体识别模型进行训练,得到RNN命名实体识别模型的参数。最后,获取待识别的文本串,利用这些参数可以获取所述待识别的文本串当中的分词对应的概率最大的命名实体属性标志,由分词对应的概率最大的命名实体属性标志就可对文本串进行识别,最终得到命名实体。
通过上述过程可以从大规模的自然语言文本内容(例如VIP网页库,论坛帖子等)当中,标注出大量的命名实体,为了能够保证命名实体的准确性,也可通过简单的统计被标注为命名实体的短语(一个或多个词组成)的数量,然后设定一个阈值,如果某个被标注为命名实体的词的词频(词频是指某一个给定的词语在所处文件中出现的次数)超过该阈值,则将被作为新的命名实体,从而得到自动挖掘出的命名实体库,主要用于例如搜索引擎,机器翻译等NLP领域的应用。
下面结合附图对本发明实施例一种用于训练循环神经网络命名实体识别模型的方法、命名实体识别方法和装置进行详细描述。
实施例一
图2是示出本发明实施例一的用于训练RNN命名实体识别模型的方法的流程图。所述RNN命名实体识别模型用于识别文本中的命名实体。
参照图2,在步骤S110,获取多个标注的样本数据,每个所述样本数据包括文本串及其多个分词标注数据,所述分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志。
具体的,根据本发明的构思,所述分词在所述文本串中的命名实体属性标志包括所述分词是否属于命名实体的信息。
此外,所述分词在所述文本串中的命名实体属性标志可还包括所述分词在其所属命名实体中的位置标注。
例如,所述分词在所述文本串中的命名实体属性标志可包括命名实体的起始标志、命名实体的延续标志和非命名实体标志。例如,分词在所述文本串中的命名实体属性标志为是否某个命名实体的起始(例B),是否某个命名实体的一部分(例I),或者这个词不是任何的命名实体(例O),从而能够得到一个文本串当中的所有的实体词的命名实体属性标志。需要说明的是,标志B含义是Begin,表示某种类型的命名实体的开始,标志I含义是In,表示为某个命名实体的延续,标志O含义为Out,表示该词不是命名实体词。
优选地,所述分词在所述文本串中的命名实体属性标志还可包括所述分词所属的命名实体的类型。这里,命名实体的类型可包括,但不限于,人名、地名、组织结构名、影视剧名、书名或特定意义的网络词汇。例如,分词在所述文本串中的命名实体属性标志为是否某个命名实体的起始(例B-DRAMA),是否某个命名实体的一部分(例I-DRAMA),或者这个词不是任何的命名实体(例O),DRAMA可以被其他预先定义的命名实体的类型所替换(如PERSON,代表人名;ADDR代表地址)。表1示出了一个标注的样本数据,如表1所示,一个标注的样本数据中包括了文本串“万万没想到为什么这么火?”及其多个分词标注数据,其中,分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志,例如,分词“万万”及“B-DRAMA”。
表1
根据本发明的构思,所述训练样本包括例如M组<文本串,多个分词标注数据>样本数据。这里,M的取值一般要足够大,通常会超过千万量级。前述表1中的内容就是一个具体的样本数据示例。很显然,纯粹依靠人力来标注这M组样本数据将会是非常耗时耗力的。因此,进一步地,所述方法还可包括:根据启发式规则从自然语言文本中获取多个标注的样本数据。例如,如果所述自然语言文本中含有成对的书名号,则将含有所述成对的书名号的文本串作为样本数据,并标注所述文本串中每个分词对应的命名实体属性标志;再例如,如果所述自然语言文本中某个文本串含有与预定名称完全匹配上的分词,则将含有所述分词的文本串作为样本数据,并标注所述文本串中每个分词对应的命名实体属性标志。通过前述启发式规则对文本串进行标注,可自动地获得弱标注的样本数据,提高处理效率。
在步骤S120,将所述多个标注的样本数据中的分词映射为词向量,以所述样本数据作为训练样本,对RNN命名实体识别模型进行训练,以学习所述RNN命名实体识别模型的参数。
根据本发明的可选实施例,步骤S120可包括,由所述训练样本中文本串的分词生成所述RNN命名实体识别模型的输入层,从预先定义的词表中查找所述输入层中每个分词对应的词向量,由所述词向量生成所述RNN命名实体识别模型的词向量层,对所述词向量层进行矩阵映射,得到所述RNN命名实体识别模型的隐藏层,以每个所述分词的词向量作为条件,在所述条件下分别计算与每个所述分词对应的多个命名实体属性标志的概率,作为所述RNN命名实体识别模型的输出层,利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练,得到所述RNN命名实体识别模型的参数。
具体的,图3是示出本发明实施例一的RNN命名实体识别模型的示例性示意图。参照图3,对所述训练样本中文本串进行分词,例如,假设一个文本串包括T个分词,记为:Text=(w1,…,wT),将分词处理得到的每个分词输入,即可生成所述RNN命名实体识别模型的输入层;文本串中的每个分词wi都属于预先定义的词表中的一个词,词表的大小为|V|(其中包括用以标识不在词典当中的OOV的特殊词<OOV>);每个分词都可通过查字典的方式找到所对应的词向量,该向量层称为所述RNN命名实体识别模型的词向量层。
这里需要说明的是,所述词向量是用来将语言中的词进行数学化的一种方式,顾名思义,词向量就是把一个词表示成一个向量,最简单的词向量方式是用一个很长的向量来表示一个词,向量的长度为词表的大小,向量的分量只有一个“1”,其他全为“0”,“1”的位置对应该词在词表中的位置,举例来说,“话筒”表示为[0 0 0 1 00 0 0 0 0 0 0 0 0 0 0 ...],但这种方式不能很好地刻画词与词之间的相似性,在此基础之上,又出现了一种词向量表示,克服了前述缺点。其基本原理是直接用一个普通的向量表示一个词,例如[0.792,0.177,0.107,0.109,0.542,...],也就是普通的向量表示形式。
在实际应用中,网络的词向量表示每个输入词wi所对应的词向量,它是一个长度为EMBEDDING_SIZE的列向量C(wi);网络的隐藏层表示所设计的RNN命名实体识别模型在每个时间点i时的状态,是一个长度为HIDDEN_SIZE的列向量hi,这里的EMBEDDING_SIZE的常见取值范围为50到1000,HIDDEN_SIZE的常见取值是EMBEDDING_SIZE的1到4倍。
在词向量层之上的是RNN命名实体识别模型的隐藏层。RNN网络的特点在于在计算当前的隐藏层的值时,使用了词向量层的值与前一步的隐藏层的节点的向量值。在隐藏之上是输出层,每个节点代表某个分词词所可能的命名实体属性标志(例如B、I或者O)。输出层也可称为SoftMax层,会计算出每个分词属于某个命名实体属性标志的概率。由上述生成的输入层、词向量层、隐藏层和输出层就建立起了RNN命名实体识别模型。本实施例的出发点是从前述标注的样本数据当中,用所建立起的RNN命名实体识别模型,来学习出RNN命名实体识别模型的参数,从而能泛化到其它无法依靠规则来识别出命名实体的文本(例如,省略了书名号的文本)当中。
优选地,可通过以下公式执行所述对所述词向量层进行矩阵映射,得到所述RNN命名实体识别模型的隐藏层的处理:
[hi]j=sigmoid([WC(wi)]j+[Uhi-1)]j
其中,[hi]j为所述隐藏层的第i个向量中第j个元素,W、U均为所述RNN命名实体识别模型的变换矩阵参数,C(wi)为所述词向量层的第i个词向量,hi-1为所述隐藏层的第i-1个向量。这里,W是行数为HIDDEN_SIZE,列数为EMBEDDING_SIZE的矩阵;U,则是行数为HIDDEN_SIZE,列数也为HIDDEN_SIZE的矩阵。sigmoid是非线性变换的函数。
进一步地,可通过以下公式执行以每个所述分词的词向量作为条件,在所述条件下分别计算与每个所述分词对应的多个命名实体属性标志的概率,作为所述RNN命名实体识别模型的输出层的处理:
其中,Li为第i个命名实体属性标志,wi为第i个分词,hi为所述隐藏层的第i个向量,O为所述RNN命名实体识别模型的变换矩阵参数,K为所述变换矩阵参数O的行数。这里O是一个行为K,列为HIDDEN_SIZE的矩阵。
优选地,利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练,得到所述RNN命名实体识别模型的参数的处理可以包括:获取每个所述分词对应的多个命名实体属性标志的条件概率,根据所述多个命名实体属性标志的条件概率建立损失函数,利用所述多个标注的样本数据对所述损失函数进行训练,获取使得所述损失函数最小的所述RNN命名实体识别模型的参数集合,其中,所述参数集合包括词向量和变换矩阵参数。
具体地,可通过以下公式执行利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练,得到所述RNN命名实体识别模型的参数的处理:
其中,所有<Text,Label>对为所有标注的样本数据,θ为使得J(θ)最小的所述RNN命名实体识别模型的参数集合,所述参数集合包括词向量和变换矩阵参数,Li为第i个命名实体属性标志,wi为第i个分词。这里,需要说明的是所述RNN命名实体识别模型的参数有:词表当中的每个词w的词向量C(w)、以及变换矩阵参数W,U,O,将这一组参数集合记为θ。
这里需要说明的是,上述公式为损失函数,用随机梯度下降法来训练所述RNN命名实体识别模型。具体的,就是利用随机梯度下降法(Stochastic Gradient Descen,SGD)与反向传播算法(Back PropagationThrough Time,BPTT),可以得到最优的参数θ。SGD算法的思想是通过计算某一组训练样本的梯度(参数的偏导数),来迭代更新随机初始化过的参数,更新的方法是每次让参数减去所设置的一个学习率(learningrate)乘以计算出的梯度,从而在多次迭代之后可以让RNN命名实体识别模型根据参数所计算出的值,与实际值之间的差在所定义的loss函数上最小化。另外,BPTT算法是在RNN网络中的一种有效的计算参数的梯度的方法。
通过该用于训练RNN命名实体识别模型的方法,获取多个标注的样本数据,并将所述多个标注的样本数据中的分词映射为词向量,以所述样本数据作为训练样本,对RNN命名实体识别模型进行训练,以学习所述RNN命名实体识别模型的参数,与现有技术相比,无需依赖于查询日志和隐马尔科夫假设,具有更好的泛化能力,能够应用于识别自然语言文本中的命名实体,且命名实体的识别速度快,精确度更高。
实施例二
图4是示出本发明实施例二的命名实体的识别方法的流程图。可在例如搜索引擎服务器上执行所述方法。
参照图4,在步骤S210,获取文本串。
所述文本串可以是从客户端发送的搜索词。例如,用户在浏览器搜索引擎界面上输入“万万没想到为什么这么火?”进行搜索,浏览器应用将所述搜索词发送给搜索引擎服务器。
在步骤S220,对所述文本串进行分词处理得到多个分词。
例如,搜索引擎服务器可利用现有的分词技术,对获取到的文本串进行分词处理得到多个分词。
在步骤S230,通过根据实施例一所述的方法训练得到的RNN命名实体识别模型分别获取所述分词对应的概率最大的命名实体属性标志。在前述的实施例一中已描述了所述用于训练RNN命名实体识别模型的方法。
在步骤S240,根据所述分词对应的概率最大的命名实体属性标志对所述文本串进行识别得到命名实体。
在步骤S230,获取所述分词对应的命名实体属性标志之后,就可以根据所述分词对应的命名实体属性标志,对文本串进行识别,最终识别出文本串中的命名实体。
进一步地,如前所述,所述分词对应的概率最大的命名实体属性标志可还包括所述分词所属的命名实体的类型,因此,所述方法可还包括:根据所述分词对应的概率最大的命名实体属性标志获取所述命名实体的类型。
通过该命名实体的识别方法,对获取的文本串进行分词处理得到多个分词,并通过经过训练的RNN命名实体识别模型获取所述分词对应的概率最大的命名实体属性标志,最终能够根据所述分词对应的概率最大的命名实体属性标志,对文本串进行识别得到命名实体,与现有技术相比,能够快速识别出自然语言文本中的命名实体,且提高了命名实体的识别精确度,还能够获取被识别出的命名实体的类型。
实施例三
图5是示出本发明实施例三的用于训练RNN命名实体识别模型的装置的逻辑框图。
参照图5,所述RNN命名实体识别模型用于识别文本中的命名实体,所述用于训练RNN命名实体识别模型的装置包括样本数据获取模块310和参数学习模块320。
样本数据获取模块310用于获取多个标注的样本数据,每个所述样本数据包括文本串及其多个分词标注数据,所述分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志。
可选地,所述分词在所述文本串中的命名实体属性标志包括所述分词是否属于命名实体的信息。进一步地,所述分词在所述文本串中的命名实体属性标志可还包括所述分词在其所属命名实体中的位置标注。
优选地,所述分词在所述文本串中的命名实体属性标志包括:命名实体的起始标志、命名实体的延续标志和非命名实体标志。
进一步地,所述分词在所述文本串中的命名实体属性标志还包括所述分词所属的命名实体的类型。
可选地,样本数据获取模块310还用于根据启发式规则从自然语言文本中获取多个标注的样本数据,其中,如果所述自然语言文本中含有成对的书名号,则所述样本数据获取模块310将含有所述成对的书名号的文本串作为样本数据,并标注所述文本串中每个分词对应的命名实体属性标志,或者如果所述自然语言文本中某个文本串含有与预定名称完全匹配上的分词,则所述样本数据获取模块310将含有所述分词的文本串作为样本数据,并标注所述文本串中每个分词对应的命名实体属性标志。
参数学习模块320用于将所述多个标注的样本数据中的分词映射为词向量,以所述样本数据作为训练样本,对RNN命名实体识别模型进行训练,以学习所述RNN命名实体识别模型的参数。
优选地,所述参数学习模块320可包括:
输入层生成单元,用于由所述训练样本中文本串的分词生成所述RNN命名实体识别模型的输入层。
词向量层生成单元,用于从预先定义的词表中查找所述输入层中每个分词对应的词向量,由所述词向量生成所述RNN命名实体识别模型的词向量层。
隐藏层生成单元,用于对所述词向量层进行矩阵映射,得到所述RNN命名实体识别模型的隐藏层。
输出层生成单元,用于以每个所述分词的词向量作为条件,在所述条件下分别计算与每个所述分词对应的多个命名实体属性标志的概率,作为所述RNN命名实体识别模型的输出层。
参数学习单元,用于利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练,得到所述RNN命名实体识别模型的参数。
进一步地,所述隐藏层生成单元用于通过以下公式对所述词向量层进行矩阵映射,得到隐藏层:
[hi]j=sigmoid([WC(wi)]j+[Uhi-1)]j
其中,[hi]j为所述隐藏层的第i个向量中第j个元素,W、U均为所述RNN命名实体识别模型的变换矩阵参数,C(wi)为所述词向量层的第i个词向量,hi-1为所述隐藏层的第i-1个向量。
可选地,所述输出层生成单元用于通过以下公式分别计算与每个所述分词对应的多个命名实体属性标志的概率,作为所述RNN命名实体识别模型的输出层:
其中,Li为第i个命名实体属性标志,wi为第i个分词,hi为所述隐藏层的第i个向量,O为所述RNN命名实体识别模型的变换矩阵参数,K为所述变换矩阵参数O的行数。
优选地,所述参数学习单元用于获取每个所述分词对应的多个命名实体属性标志的条件概率,根据所述多个命名实体属性标志的条件概率建立损失函数,利用所述多个标注的样本数据对所述损失函数进行训练,获取使得损失函数的值最小的所述RNN命名实体识别模型的参数集合,其中,所述参数集合包括词向量和变换矩阵参数。
具体的,通过以下公式利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练,得到所述RNN命名实体识别模型的参数:
其中,所有<Text,Label>对为所有标注的样本数据,θ为使得J(θ)最小的所述RNN命名实体识别模型的参数集合,所述参数集合包括词向量和变换矩阵参数,Li为第i个命名实体属性标志,wi为第i个分词。
通过该用于训练RNN命名实体识别模型的装置,获取多个标注的样本数据,并将所述多个标注的样本数据中的分词映射为词向量,以所述样本数据作为训练样本,对RNN命名实体识别模型进行训练,以学习所述RNN命名实体识别模型的参数,与现有技术相比,无需依赖于查询日志和隐马尔科夫假设,具有更好的泛化能力,能够应用于识别自然语言文本中的命名实体,且命名实体的识别速度快,精确度更高。
实施例四
图6是示出本发明实施例四的命名实体的识别装置的逻辑框图。
参照图6,所述命名实体的识别装置包括文本串获取模块410、文本串分词模块420、命名实体属性标志获取模块430和命名实体识别模块440。
文本串获取模块410用于获取文本串。
文本串分词模块420用于对所述文本串进行分词处理得到多个分词。
命名实体属性标志获取模块430用于通过根据实施例三所述的装置训练得到的RNN命名实体识别模型分别获取所述分词对应的概率最大的命名实体属性标志。在前述的实施例三中已描述了所述用于训练RNN命名实体识别模型的装置。
命名实体识别模块440用于根据所述分词对应的概率最大的命名实体属性标志对所述文本串进行识别得到命名实体。
进一步地,所述识别装置还可以包括:命名实体的类型获取模块(未示出),用于根据所述分词对应的概率最大的命名实体属性标志获取所述命名实体的类型。
通过该命名实体的识别装置,对获取的文本串进行分词处理得到多个分词,并通过经过训练的RNN命名实体识别模型获取所述分词对应的概率最大的命名实体属性标志,最终能够根据所述分词对应的概率最大的命名实体属性标志,对文本串进行识别得到命名实体,与现有技术相比,能够快速识别出自然语言文本中的命名实体,且提高了命名实体的识别精确度,还能够获取被识别出的命名实体的类型。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (20)
1.一种用于训练循环神经网络(RNN)命名实体识别模型的方法,所述RNN命名实体识别模型用于识别文本中的命名实体,其特征在于,所述方法包括:
获取多个标注的样本数据,每个所述样本数据包括文本串及其多个分词标注数据,所述分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志;
将所述多个标注的样本数据中的分词映射为词向量,以所述样本数据作为训练样本,对RNN命名实体识别模型进行训练,以学习所述RNN命名实体识别模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述分词在所述文本串中的命名实体属性标志包括所述分词是否属于命名实体的信息。
3.根据权利要求2所述的方法,其特征在于,所述分词在所述文本串中的命名实体属性标志还包括所述分词在其所属命名实体中的位置标注。
4.根据权利要求1所述的方法,其特征在于,所述分词在所述文本串中的命名实体属性标志包括:命名实体的起始标志、命名实体的延续标志和非命名实体标志。
5.根据权利要求1~4中任一项所述的方法,其特征在于,所述分词在所述文本串中的命名实体属性标志还包括所述分词所属的命名实体的类型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据启发式规则从自然语言文本中获取多个标注的样本数据,其中,
如果所述自然语言文本中含有成对的书名号,则将含有所述成对的书名号的文本串作为样本数据,并标注所述文本串中每个分词对应的命名实体属性标志,或者
如果所述自然语言文本中某个文本串含有与预定名称完全匹配上的分词,则将含有所述分词的文本串作为样本数据,并标注所述文本串中每个分词对应的命名实体属性标志。
7.根据权利要求5所述的方法,其特征在于,所述以所述样本数据作为训练样本,对RNN命名实体识别模型进行训练,以学习所述RNN命名实体识别模型的参数的处理包括:
由所述训练样本中文本串的分词生成所述RNN命名实体识别模型的输入层,
从预先定义的词表中查找所述输入层中每个分词对应的词向量,由所述词向量生成所述RNN命名实体识别模型的词向量层,
对所述词向量层进行矩阵映射,得到所述RNN命名实体识别模型的隐藏层,
以每个所述分词的词向量作为条件,在所述条件下分别计算与每个所述分词对应的多个命名实体属性标志的概率,作为所述RNN命名实体识别模型的输出层,
利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练,得到所述RNN命名实体识别模型的参数。
8.根据权利要求7所述的方法,其特征在于,所述利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练,得到所述RNN命名实体识别模型的参数的处理包括:
获取每个所述分词对应的多个命名实体属性标志的条件概率,
根据所述多个命名实体属性标志的条件概率建立损失函数,
利用所述多个标注的样本数据对所述损失函数进行训练,获取使得所述损失函数最小的所述RNN命名实体识别模型的参数集合,其中,所述参数集合包括词向量和变换矩阵参数。
9.一种命名实体的识别方法,其特征在于,所述识别方法包括:
获取文本串;
对所述文本串进行分词处理得到多个分词;
通过根据权利要求5所述的方法训练得到的RNN命名实体识别模型分别获取所述分词对应的概率最大的命名实体属性标志;
根据所述分词对应的概率最大的命名实体属性标志对所述文本串进行识别得到命名实体。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:根据所述分词对应的概率最大的命名实体属性标志获取所述命名实体的类型。
11.一种用于训练循环神经网络(RNN)命名实体识别模型的装置,所述RNN命名实体识别模型用于识别文本中的命名实体,其特征在于,所述装置包括:
样本数据获取模块,用于获取多个标注的样本数据,每个所述样本数据包括文本串及其多个分词标注数据,所述分词标注数据包括从所述文本串中分出的分词及其在所述文本串中的命名实体属性标志;
参数学习模块,用于将所述多个标注的样本数据中的分词映射为词向量,以所述样本数据作为训练样本,对RNN命名实体识别模型进行训练,以学习所述RNN命名实体识别模型的参数。
12.根据权利要求11所述的装置,其特征在于,所述分词在所述文本串中的命名实体属性标志包括所述分词是否属于命名实体的信息。
13.根据权利要求12所述的装置,其特征在于,所述分词在所述文本串中的命名实体属性标志还包括所述分词在其所属命名实体中的位置标注。
14.根据权利要求11所述的装置,其特征在于,所述分词在所述文本串中的命名实体属性标志包括:命名实体的起始标志、命名实体的延续标志和非命名实体标志。
15.根据权利要求11~14中任一项所述的装置,其特征在于,所述分词在所述文本串中的命名实体属性标志还包括所述分词所属的命名实体的类型。
16.根据权利要求15所述的装置,其特征在于,所述样本数据获取模块还用于根据启发式规则从自然语言文本中获取多个标注的样本数据,其中,
如果所述自然语言文本中含有成对的书名号,则所述样本数据获取模块将含有所述成对的书名号的文本串作为样本数据,并标注所述文本串中每个分词对应的命名实体属性标志,或者
如果所述自然语言文本中某个文本串含有与预定名称完全匹配上的分词,则所述样本数据获取模块将含有所述分词的文本串作为样本数据,并标注所述文本串中每个分词对应的命名实体属性标志。
17.根据权利要求15所述的装置,其特征在于,所述参数学习模块包括:
输入层生成单元,用于由所述训练样本中文本串的分词生成所述RNN命名实体识别模型的输入层,
词向量层生成单元,用于从预先定义的词表中查找所述输入层中每个分词对应的词向量,由所述词向量生成所述RNN命名实体识别模型的词向量层,
隐藏层生成单元,用于对所述词向量层进行矩阵映射,得到所述RNN命名实体识别模型的隐藏层,
输出层生成单元,用于以每个所述分词的词向量作为条件,在所述条件下分别计算与每个所述分词对应的多个命名实体属性标志的概率,作为所述RNN命名实体识别模型的输出层,
参数学习单元,用于利用所述多个标注的样本数据对所述RNN命名实体识别模型进行训练,得到所述RNN命名实体识别模型的参数。
18.根据权利要求17所述的装置,其特征在于,所述参数学习单元用于获取每个所述分词对应的多个命名实体属性标志的条件概率,根据所述多个命名实体属性标志的条件概率建立损失函数,利用所述多个标注的样本数据对所述损失函数进行训练,获取使得所述损失函数最小的所述RNN命名实体识别模型的参数集合,其中,所述参数集合包括词向量和变换矩阵参数。
19.一种命名实体的识别装置,其特征在于,所述识别装置包括:
文本串获取模块,用于获取文本串;
文本串分词模块,用于对所述文本串进行分词处理得到多个分词;
命名实体属性标志获取模块,用于通过根据权利要求17所述的装置训练得到的RNN命名实体识别模型分别获取所述分词对应的概率最大的命名实体属性标志;
命名实体识别模块,用于根据所述分词对应的概率最大的命名实体属性标志对所述文本串进行识别得到命名实体。
20.根据权利要求19所述的装置,其特征在于,所述识别装置还包括:命名实体的类型获取模块,用于根据所述分词对应的概率最大的命名实体属性标志获取所述命名实体的类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510082318.3A CN104615589A (zh) | 2015-02-15 | 2015-02-15 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510082318.3A CN104615589A (zh) | 2015-02-15 | 2015-02-15 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104615589A true CN104615589A (zh) | 2015-05-13 |
Family
ID=53150041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510082318.3A Pending CN104615589A (zh) | 2015-02-15 | 2015-02-15 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104615589A (zh) |
Cited By (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899304A (zh) * | 2015-06-12 | 2015-09-09 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
CN105183720A (zh) * | 2015-08-05 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 基于rnn模型的机器翻译方法和装置 |
CN105320645A (zh) * | 2015-09-24 | 2016-02-10 | 天津海量信息技术有限公司 | 中文企业名称的识别方法 |
CN105786782A (zh) * | 2016-03-25 | 2016-07-20 | 北京搜狗科技发展有限公司 | 一种词向量的训练方法和装置 |
CN105808523A (zh) * | 2016-03-08 | 2016-07-27 | 浪潮软件股份有限公司 | 一种识别文档的方法及装置 |
CN105868184A (zh) * | 2016-05-10 | 2016-08-17 | 大连理工大学 | 一种基于循环神经网络的中文人名识别方法 |
CN105893354A (zh) * | 2016-05-03 | 2016-08-24 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的分词方法 |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取***及方法 |
CN105930413A (zh) * | 2016-04-18 | 2016-09-07 | 北京百度网讯科技有限公司 | 相似度模型参数的训练方法、搜索处理方法及对应装置 |
CN105955954A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的新企业名称发现方法 |
CN105955953A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种分词*** |
CN105955952A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的信息提取方法 |
CN105975455A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向递归神经网络的信息分析*** |
CN105975456A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种企业实体名称分析识别*** |
CN106095749A (zh) * | 2016-06-03 | 2016-11-09 | 杭州量知数据科技有限公司 | 一种基于深度学习的文本关键词提取方法 |
CN106202574A (zh) * | 2016-08-19 | 2016-12-07 | 清华大学 | 面向微博平台话题推荐的评估方法及装置 |
CN106383816A (zh) * | 2016-09-26 | 2017-02-08 | 大连民族大学 | 基于深度学习的中文少数民族地区地名的识别方法 |
CN106407183A (zh) * | 2016-09-28 | 2017-02-15 | 医渡云(北京)技术有限公司 | 医疗命名实体识别***生成方法及装置 |
CN106557563A (zh) * | 2016-11-15 | 2017-04-05 | 北京百度网讯科技有限公司 | 基于人工智能的查询语句推荐方法及装置 |
CN106557462A (zh) * | 2016-11-02 | 2017-04-05 | 数库(上海)科技有限公司 | 命名实体识别方法和*** |
CN106570170A (zh) * | 2016-11-09 | 2017-04-19 | 武汉泰迪智慧科技有限公司 | 基于深度循环神经网络的文本分类和命名实体识别一体化方法及*** |
CN106708804A (zh) * | 2016-12-27 | 2017-05-24 | 努比亚技术有限公司 | 一种词向量的生成方法和装置 |
CN106776562A (zh) * | 2016-12-20 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种关键词提取方法和提取*** |
CN106815193A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和错别字识别方法及装置 |
CN106815194A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和关键词识别方法及装置 |
CN106844788A (zh) * | 2017-03-17 | 2017-06-13 | 重庆文理学院 | 一种图书馆智能搜索排序方法及*** |
CN106970902A (zh) * | 2016-01-13 | 2017-07-21 | 北京国双科技有限公司 | 一种中文分词方法及装置 |
CN107704454A (zh) * | 2017-10-25 | 2018-02-16 | 古联(北京)数字传媒科技有限公司 | 古籍专名识别方法以及装置 |
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
CN107797987A (zh) * | 2017-10-12 | 2018-03-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法 |
CN107818080A (zh) * | 2017-09-22 | 2018-03-20 | 新译信息科技(北京)有限公司 | 术语识别方法及装置 |
CN107832303A (zh) * | 2017-11-22 | 2018-03-23 | 古联(北京)数字传媒科技有限公司 | 古籍书名识别方法以及装置 |
WO2018059302A1 (zh) * | 2016-09-29 | 2018-04-05 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置及存储介质 |
CN108074565A (zh) * | 2016-11-11 | 2018-05-25 | 上海诺悦智能科技有限公司 | 语音指令跳转与详细指令执行的方法和*** |
CN108090044A (zh) * | 2017-12-05 | 2018-05-29 | 五八有限公司 | 联系方式的识别方法和装置 |
CN108205524A (zh) * | 2016-12-20 | 2018-06-26 | 北京京东尚科信息技术有限公司 | 文本数据处理方法和装置 |
CN108363701A (zh) * | 2018-04-13 | 2018-08-03 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及*** |
CN108509423A (zh) * | 2018-04-04 | 2018-09-07 | 福州大学 | 一种基于二阶hmm的中标网页命名实体抽取方法 |
CN108536733A (zh) * | 2017-03-02 | 2018-09-14 | 埃森哲环球解决方案有限公司 | 人工智能数字代理 |
CN108595430A (zh) * | 2018-04-26 | 2018-09-28 | 携程旅游网络技术(上海)有限公司 | 航变信息提取方法及*** |
CN108920460A (zh) * | 2018-06-26 | 2018-11-30 | 武大吉奥信息技术有限公司 | 一种多类型实体识别的多任务深度学习模型的训练方法及装置 |
CN109033427A (zh) * | 2018-08-10 | 2018-12-18 | 北京字节跳动网络技术有限公司 | 股票的筛选方法及装置、计算机设备及可读存储介质 |
CN109710925A (zh) * | 2018-12-12 | 2019-05-03 | 新华三大数据技术有限公司 | 命名实体识别方法及装置 |
CN109726398A (zh) * | 2018-12-27 | 2019-05-07 | 北京奇安信科技有限公司 | 一种实体识别及属性判断方法、***、设备及介质 |
CN109740150A (zh) * | 2018-12-20 | 2019-05-10 | 出门问问信息科技有限公司 | 地址解析方法、装置、计算机设备及计算机可读存储介质 |
CN110222340A (zh) * | 2019-06-06 | 2019-09-10 | 掌阅科技股份有限公司 | 书籍人物姓名识别模型的训练方法、电子设备及存储介质 |
CN110275953A (zh) * | 2019-06-21 | 2019-09-24 | 四川大学 | 人格分类方法及装置 |
CN110402445A (zh) * | 2017-04-20 | 2019-11-01 | 谷歌有限责任公司 | 使用递归神经网络处理序列数据 |
CN110516228A (zh) * | 2019-07-04 | 2019-11-29 | 湖南星汉数智科技有限公司 | 命名实体识别方法、装置、计算机装置及计算机可读存储介质 |
CN110598210A (zh) * | 2019-08-29 | 2019-12-20 | 深圳市优必选科技股份有限公司 | 实体识别模型训练、实体识别方法、装置、设备及介质 |
CN110728147A (zh) * | 2018-06-28 | 2020-01-24 | 阿里巴巴集团控股有限公司 | 一种模型训练方法及命名实体识别方法 |
CN110889287A (zh) * | 2019-11-08 | 2020-03-17 | 创新工场(广州)人工智能研究有限公司 | 一种用于命名实体识别的方法与装置 |
CN110929875A (zh) * | 2019-10-12 | 2020-03-27 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的智能语言学习方法、***、装置及介质 |
CN111105458A (zh) * | 2018-10-25 | 2020-05-05 | 深圳市深蓝牙医疗科技有限公司 | 口腔种植体定位方法、口腔组织识别模型建立方法、装置、设备和存储介质 |
CN111191107A (zh) * | 2018-10-25 | 2020-05-22 | 北京嘀嘀无限科技发展有限公司 | 使用标注模型召回兴趣点的***和方法 |
WO2020132985A1 (zh) * | 2018-12-26 | 2020-07-02 | 深圳市优必选科技有限公司 | 模型的自训练方法、装置、计算机设备及存储介质 |
CN111368036A (zh) * | 2020-03-05 | 2020-07-03 | 百度在线网络技术(北京)有限公司 | 用于搜索信息的方法和装置 |
CN111523314A (zh) * | 2020-07-03 | 2020-08-11 | 支付宝(杭州)信息技术有限公司 | 模型对抗训练、命名实体识别方法及装置 |
CN111563380A (zh) * | 2019-01-25 | 2020-08-21 | 浙江大学 | 一种命名实体识别方法及其装置 |
US11113608B2 (en) | 2017-10-30 | 2021-09-07 | Accenture Global Solutions Limited | Hybrid bot framework for enterprises |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075228A (zh) * | 2006-05-15 | 2007-11-21 | 松下电器产业株式会社 | 识别自然语言中的命名实体的方法和装置 |
CN102314417A (zh) * | 2011-09-22 | 2012-01-11 | 西安电子科技大学 | 基于统计模型的Web命名实体识别方法 |
US20120265521A1 (en) * | 2005-05-05 | 2012-10-18 | Scott Miller | Methods and systems relating to information extraction |
-
2015
- 2015-02-15 CN CN201510082318.3A patent/CN104615589A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120265521A1 (en) * | 2005-05-05 | 2012-10-18 | Scott Miller | Methods and systems relating to information extraction |
CN101075228A (zh) * | 2006-05-15 | 2007-11-21 | 松下电器产业株式会社 | 识别自然语言中的命名实体的方法和装置 |
CN102314417A (zh) * | 2011-09-22 | 2012-01-11 | 西安电子科技大学 | 基于统计模型的Web命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
GUOYU WANG等: "using hybrid neural network to address Chinese named entity recognition", 《PROCEEDINGS OF CCIS2014》 * |
Cited By (87)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899304A (zh) * | 2015-06-12 | 2015-09-09 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
CN104899304B (zh) * | 2015-06-12 | 2018-02-16 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
CN105183720A (zh) * | 2015-08-05 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 基于rnn模型的机器翻译方法和装置 |
CN105183720B (zh) * | 2015-08-05 | 2019-07-09 | 百度在线网络技术(北京)有限公司 | 基于rnn模型的机器翻译方法和装置 |
CN105320645B (zh) * | 2015-09-24 | 2019-07-12 | 天津海量信息技术股份有限公司 | 中文企业名称的识别方法 |
CN105320645A (zh) * | 2015-09-24 | 2016-02-10 | 天津海量信息技术有限公司 | 中文企业名称的识别方法 |
CN106815193A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和错别字识别方法及装置 |
CN106815194A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和关键词识别方法及装置 |
CN106970902A (zh) * | 2016-01-13 | 2017-07-21 | 北京国双科技有限公司 | 一种中文分词方法及装置 |
CN105808523A (zh) * | 2016-03-08 | 2016-07-27 | 浪潮软件股份有限公司 | 一种识别文档的方法及装置 |
CN105786782A (zh) * | 2016-03-25 | 2016-07-20 | 北京搜狗科技发展有限公司 | 一种词向量的训练方法和装置 |
CN105786782B (zh) * | 2016-03-25 | 2018-10-19 | 北京搜狗信息服务有限公司 | 一种词向量的训练方法和装置 |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取***及方法 |
CN105894088B (zh) * | 2016-03-25 | 2018-06-29 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取***及方法 |
CN105930413A (zh) * | 2016-04-18 | 2016-09-07 | 北京百度网讯科技有限公司 | 相似度模型参数的训练方法、搜索处理方法及对应装置 |
CN105955953A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种分词*** |
CN105975456A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种企业实体名称分析识别*** |
CN105975455A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向递归神经网络的信息分析*** |
CN105955954A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的新企业名称发现方法 |
CN105893354A (zh) * | 2016-05-03 | 2016-08-24 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的分词方法 |
CN105955952A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的信息提取方法 |
CN105868184A (zh) * | 2016-05-10 | 2016-08-17 | 大连理工大学 | 一种基于循环神经网络的中文人名识别方法 |
CN105868184B (zh) * | 2016-05-10 | 2018-06-08 | 大连理工大学 | 一种基于循环神经网络的中文人名识别方法 |
CN106095749A (zh) * | 2016-06-03 | 2016-11-09 | 杭州量知数据科技有限公司 | 一种基于深度学习的文本关键词提取方法 |
CN106202574A (zh) * | 2016-08-19 | 2016-12-07 | 清华大学 | 面向微博平台话题推荐的评估方法及装置 |
CN106383816A (zh) * | 2016-09-26 | 2017-02-08 | 大连民族大学 | 基于深度学习的中文少数民族地区地名的识别方法 |
CN106383816B (zh) * | 2016-09-26 | 2018-11-30 | 大连民族大学 | 基于深度学习的中文少数民族地区地名的识别方法 |
CN106407183B (zh) * | 2016-09-28 | 2019-06-28 | 医渡云(北京)技术有限公司 | 医疗命名实体识别***生成方法及装置 |
CN106407183A (zh) * | 2016-09-28 | 2017-02-15 | 医渡云(北京)技术有限公司 | 医疗命名实体识别***生成方法及装置 |
CN107885716A (zh) * | 2016-09-29 | 2018-04-06 | 腾讯科技(深圳)有限公司 | 文本识别方法及装置 |
CN107885716B (zh) * | 2016-09-29 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 文本识别方法及装置 |
US11068655B2 (en) | 2016-09-29 | 2021-07-20 | Tencent Technology (Shenzhen) Company Limited | Text recognition based on training of models at a plurality of training nodes |
WO2018059302A1 (zh) * | 2016-09-29 | 2018-04-05 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置及存储介质 |
CN106557462A (zh) * | 2016-11-02 | 2017-04-05 | 数库(上海)科技有限公司 | 命名实体识别方法和*** |
CN106570170A (zh) * | 2016-11-09 | 2017-04-19 | 武汉泰迪智慧科技有限公司 | 基于深度循环神经网络的文本分类和命名实体识别一体化方法及*** |
CN108074565A (zh) * | 2016-11-11 | 2018-05-25 | 上海诺悦智能科技有限公司 | 语音指令跳转与详细指令执行的方法和*** |
CN106557563B (zh) * | 2016-11-15 | 2020-09-25 | 北京百度网讯科技有限公司 | 基于人工智能的查询语句推荐方法及装置 |
CN106557563A (zh) * | 2016-11-15 | 2017-04-05 | 北京百度网讯科技有限公司 | 基于人工智能的查询语句推荐方法及装置 |
CN108205524B (zh) * | 2016-12-20 | 2022-01-07 | 北京京东尚科信息技术有限公司 | 文本数据处理方法和装置 |
CN108205524A (zh) * | 2016-12-20 | 2018-06-26 | 北京京东尚科信息技术有限公司 | 文本数据处理方法和装置 |
CN106776562A (zh) * | 2016-12-20 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种关键词提取方法和提取*** |
CN106776562B (zh) * | 2016-12-20 | 2020-07-28 | 上海智臻智能网络科技股份有限公司 | 一种关键词提取方法和提取*** |
CN106708804A (zh) * | 2016-12-27 | 2017-05-24 | 努比亚技术有限公司 | 一种词向量的生成方法和装置 |
CN108536733A (zh) * | 2017-03-02 | 2018-09-14 | 埃森哲环球解决方案有限公司 | 人工智能数字代理 |
CN106844788B (zh) * | 2017-03-17 | 2020-02-18 | 重庆文理学院 | 一种图书馆智能搜索排序方法及*** |
CN106844788A (zh) * | 2017-03-17 | 2017-06-13 | 重庆文理学院 | 一种图书馆智能搜索排序方法及*** |
CN110402445B (zh) * | 2017-04-20 | 2023-07-11 | 谷歌有限责任公司 | 使用递归神经网络浏览序列数据的方法和*** |
CN110402445A (zh) * | 2017-04-20 | 2019-11-01 | 谷歌有限责任公司 | 使用递归神经网络处理序列数据 |
CN107818080A (zh) * | 2017-09-22 | 2018-03-20 | 新译信息科技(北京)有限公司 | 术语识别方法及装置 |
CN107797987A (zh) * | 2017-10-12 | 2018-03-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法 |
CN107797987B (zh) * | 2017-10-12 | 2021-02-09 | 北京知道未来信息技术有限公司 | 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 |
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
US11288593B2 (en) | 2017-10-23 | 2022-03-29 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for extracting information |
CN107704454A (zh) * | 2017-10-25 | 2018-02-16 | 古联(北京)数字传媒科技有限公司 | 古籍专名识别方法以及装置 |
US11113608B2 (en) | 2017-10-30 | 2021-09-07 | Accenture Global Solutions Limited | Hybrid bot framework for enterprises |
CN107832303A (zh) * | 2017-11-22 | 2018-03-23 | 古联(北京)数字传媒科技有限公司 | 古籍书名识别方法以及装置 |
CN108090044A (zh) * | 2017-12-05 | 2018-05-29 | 五八有限公司 | 联系方式的识别方法和装置 |
CN108090044B (zh) * | 2017-12-05 | 2022-03-15 | 五八有限公司 | 联系方式的识别方法和装置 |
CN108509423A (zh) * | 2018-04-04 | 2018-09-07 | 福州大学 | 一种基于二阶hmm的中标网页命名实体抽取方法 |
CN108363701A (zh) * | 2018-04-13 | 2018-08-03 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及*** |
CN108595430B (zh) * | 2018-04-26 | 2022-02-22 | 携程旅游网络技术(上海)有限公司 | 航变信息提取方法及*** |
CN108595430A (zh) * | 2018-04-26 | 2018-09-28 | 携程旅游网络技术(上海)有限公司 | 航变信息提取方法及*** |
CN108920460A (zh) * | 2018-06-26 | 2018-11-30 | 武大吉奥信息技术有限公司 | 一种多类型实体识别的多任务深度学习模型的训练方法及装置 |
CN108920460B (zh) * | 2018-06-26 | 2022-03-11 | 武大吉奥信息技术有限公司 | 一种多类型实体识别的多任务深度学习模型的训练方法 |
CN110728147B (zh) * | 2018-06-28 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 一种模型训练方法及命名实体识别方法 |
CN110728147A (zh) * | 2018-06-28 | 2020-01-24 | 阿里巴巴集团控股有限公司 | 一种模型训练方法及命名实体识别方法 |
CN109033427A (zh) * | 2018-08-10 | 2018-12-18 | 北京字节跳动网络技术有限公司 | 股票的筛选方法及装置、计算机设备及可读存储介质 |
CN111191107A (zh) * | 2018-10-25 | 2020-05-22 | 北京嘀嘀无限科技发展有限公司 | 使用标注模型召回兴趣点的***和方法 |
CN111105458A (zh) * | 2018-10-25 | 2020-05-05 | 深圳市深蓝牙医疗科技有限公司 | 口腔种植体定位方法、口腔组织识别模型建立方法、装置、设备和存储介质 |
US11093531B2 (en) | 2018-10-25 | 2021-08-17 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for recalling points of interest using a tagging model |
CN111191107B (zh) * | 2018-10-25 | 2023-06-30 | 北京嘀嘀无限科技发展有限公司 | 使用标注模型召回兴趣点的***和方法 |
CN109710925A (zh) * | 2018-12-12 | 2019-05-03 | 新华三大数据技术有限公司 | 命名实体识别方法及装置 |
CN109740150A (zh) * | 2018-12-20 | 2019-05-10 | 出门问问信息科技有限公司 | 地址解析方法、装置、计算机设备及计算机可读存储介质 |
WO2020132985A1 (zh) * | 2018-12-26 | 2020-07-02 | 深圳市优必选科技有限公司 | 模型的自训练方法、装置、计算机设备及存储介质 |
CN109726398A (zh) * | 2018-12-27 | 2019-05-07 | 北京奇安信科技有限公司 | 一种实体识别及属性判断方法、***、设备及介质 |
CN109726398B (zh) * | 2018-12-27 | 2023-07-07 | 奇安信科技集团股份有限公司 | 一种实体识别及属性判断方法、***、设备及介质 |
CN111563380A (zh) * | 2019-01-25 | 2020-08-21 | 浙江大学 | 一种命名实体识别方法及其装置 |
CN110222340A (zh) * | 2019-06-06 | 2019-09-10 | 掌阅科技股份有限公司 | 书籍人物姓名识别模型的训练方法、电子设备及存储介质 |
CN110275953A (zh) * | 2019-06-21 | 2019-09-24 | 四川大学 | 人格分类方法及装置 |
CN110516228A (zh) * | 2019-07-04 | 2019-11-29 | 湖南星汉数智科技有限公司 | 命名实体识别方法、装置、计算机装置及计算机可读存储介质 |
CN110598210B (zh) * | 2019-08-29 | 2023-08-04 | 深圳市优必选科技股份有限公司 | 实体识别模型训练、实体识别方法、装置、设备及介质 |
CN110598210A (zh) * | 2019-08-29 | 2019-12-20 | 深圳市优必选科技股份有限公司 | 实体识别模型训练、实体识别方法、装置、设备及介质 |
CN110929875A (zh) * | 2019-10-12 | 2020-03-27 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的智能语言学习方法、***、装置及介质 |
CN110889287A (zh) * | 2019-11-08 | 2020-03-17 | 创新工场(广州)人工智能研究有限公司 | 一种用于命名实体识别的方法与装置 |
CN111368036A (zh) * | 2020-03-05 | 2020-07-03 | 百度在线网络技术(北京)有限公司 | 用于搜索信息的方法和装置 |
CN111368036B (zh) * | 2020-03-05 | 2023-09-26 | 百度在线网络技术(北京)有限公司 | 用于搜索信息的方法和装置 |
CN111523314A (zh) * | 2020-07-03 | 2020-08-11 | 支付宝(杭州)信息技术有限公司 | 模型对抗训练、命名实体识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104615589A (zh) | 训练命名实体识别模型的方法、命名实体识别方法及装置 | |
CN109145153B (zh) | 意图类别的识别方法和装置 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
Nguyen et al. | Relation extraction: Perspective from convolutional neural networks | |
US20230169270A1 (en) | Entity linking method and apparatus | |
CN108962224B (zh) | 口语理解和语言模型联合建模方法、对话方法及*** | |
CN104615767A (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN110795911B (zh) | 在线文本标签的实时添加方法、装置及相关设备 | |
CN111125331A (zh) | 语义识别方法、装置、电子设备及计算机可读存储介质 | |
US20180053107A1 (en) | Aspect-based sentiment analysis | |
CN109284397A (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
Chrupała | Text segmentation with character-level text embeddings | |
CN112711948A (zh) | 一种中文句子的命名实体识别方法及装置 | |
CN111611452B (zh) | 搜索文本的歧义识别方法、***、设备及存储介质 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
CN103823857A (zh) | 基于自然语言处理的空间信息检索方法 | |
KR20220120545A (ko) | Poi 상태 정보를 획득하는 방법 및 장치 | |
CN107656921A (zh) | 一种基于深度学习的短文本依存分析方法 | |
CN112507337A (zh) | 基于语义分析的恶意JavaScript代码检测模型的实现方法 | |
CN111291565A (zh) | 一种用于命名实体识别的方法与装置 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、***及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150513 |