CN108038104A

CN108038104A - 一种实体识别的方法及装置

Info

Publication number: CN108038104A
Application number: CN201711401358.5A
Authority: CN
Inventors: 赵知纬
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-05-15

Abstract

本发明公开一种实体识别的方法及装置，对需要进行实体识别的句子进行分词得到一个词语序列，将所述句子包含的每个字符分别映射为一个第二实数向量，将每个词语包含的字符对应的第二实数向量经过第一卷积神经网络的处理，得到每个词语的字符级特征向量，将所述句子包含的每个词语的扩展词语向量经过第二卷积神经网络的处理，得到每个词语的序列级特征向量。使用层叠CNN的结构在加快实体识别速度的同时，也能保持对序列整体或大部分区域建模的能力。

Description

一种实体识别的方法及装置

技术领域

本发明涉及数据处理领域，更具体地说，涉及一种实体识别的方法及装置。

背景技术

实体识别是指识别文本中具有特定意义的实体名称，如：人名、地名、机构名、影视剧名、书名等。实体识别是自然语言处理中非常重要的基础性人物，对于信息检索、问答***、语义化搜索、知识库构建、语音识别等应用领域有着至关重要的作用。

在传统的实体识别任务里，基于CRF(conditional random field，条件随机场)模型的序列标注方法是最为常用的方法。这类方法首先根据输入文本的字词序列创建一种或多种特征序列；然后，定义一系列的特征模板用于规范在这一种或多种特征序列里的要抽取的特征以及特征组合；最后，将抽取到的序列的特征输入到CRF中得到序列标签。

随着NN(Neural Networks，神经网络)的再次兴起，实体识别借由NN而达到了更好的效果。目前，基于NN的实体识别方法是基于RNN(Recurrent neural Network，循环神经网络)的方法。即首先通过CNN(Convolutional Neural Network，卷积神经网络)学习字符级别的特征，然后利用RNN学习序列级别的特征，最后通过CRF寻找最优的输出标签序列。采用RNN的缺点在于对序列每个时刻的输入进行都依赖上一时刻的输入，所以很难做并行化计算以达到加速的目的。

发明内容

有鉴于此，本发明提出一种实体识别的方法及装置，欲实现加快实体识别目的。

为了实现上述目的，现提出的方案如下：

一种实体识别的方法，包括：

获取需要进行实体识别的句子，经过分词得到一个词语序列；

将所述词语序列包含的每个词语分别映射为一个第一实数向量；

将所述句子包含的每个字符分别映射为一个第二实数向量；

将每个词语包含的字符对应的第二实数向量经过第一卷积神经网络的处理，得到每个词语的字符级特征向量；

将每个词语的字符级特征向量和第一实数向量进行组合，得到每个词语的扩展词语向量；

将所述句子包含的每个词语的扩展词语向量经过第二卷积神经网络的处理，得到每个词语的序列级特征向量；

将所述句子包含的每个词语的序列级特征向量经过概率图模型的处理，得到每个词语的实体标签。

一种实体识别的装置，包括：

第一获取单元，用于获取需要进行实体识别的句子，经过分词得到一个词语序列；

第一处理单元，用于将所述词语序列包含的每个词语分别映射为一个第一实数向量；

第二处理单元，用于将所述句子包含的每个字符分别映射为一个第二实数向量；

第三处理单元，用于将每个词语包含的字符对应的第二实数向量经过第一卷积神经网络的处理，得到每个词语的字符级特征向量；

第四处理单元，用于将每个词语的字符级特征向量和第一实数向量进行组合，得到每个词语的扩展词语向量；

第五处理单元，用于将所述句子包含的每个词语的扩展词语向量经过第二卷积神经网络的处理，得到每个词语的序列级特征向量；

第六处理单元，用于将所述句子包含的每个词语的序列级特征向量经过概率图模型的处理，得到每个词语的实体标签。

与现有技术相比，本发明的技术方案具有以下优点：

上述技术方案提供的一种实体识别的方法及装置，对需要进行实体识别的句子进行分词得到一个词语序列，将每个词语包含的字符对应的第二实数向量经过第一卷积神经网络的处理，得到每个词语的字符级特征向量，将所述句子包含的每个词语的扩展词语向量经过第二卷积神经网络的处理，得到每个词语的序列级特征向量。使用层叠CNN的结构在加快实体识别速度的同时，也能保持对序列整体或大部分区域建模的能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种实体识别的方法的流程图；

图2为本发明实施例提供的另一种实体识别的方法的流程图；

图3为本发明实施例提供的第一卷积神经网络的处理过程原理图；

图4为本发明实施例提供的第二卷积神经网络的处理过程原理图；

图5为本发明实施例提供的一种实体识别的装置的结构示意图；

图6为本发明实施例提供的另一种实体识别的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供一种实体识别的方法，参见图1，该方法包括：

步骤S11：获取需要进行实体识别的句子，经过分词得到一个词语序列；

对句子进行分词处理，得到若干词语的过程为现有技术，本实施例不再赘述。词语序列包括对句子进行分词处理得到的若干词语。

步骤S12：将所述词语序列包含的每个词语分别映射为一个第一实数向量；

预先使用word2cec或者GloVe在对语料进行训练得到词语的向量，并将词语和该词语对应的向量成对保存下来。这样对句子完成分词后，从词语向量对集合中，匹配得到每个词语的向量，即第一实数向量。

步骤S13：将所述句子包含的每个字符分别映射为一个第二实数向量；

预先使用word2cec或者GloVe在对语料进行训练得到字符的向量，并将字符和该字符对应的向量成对保存下来。这样从字符向量对集合中，匹配得到每个字符的向量，即第二实数向量。

步骤S14：将每个词语包含的字符对应的第二实数向量经过第一卷积神经网络的处理，得到每个词语的字符级特征向量；

技术人员可以根据实际需要确定采用一层或多层第一卷积神经网络对第二实数向量进行处理，得到每个词语的字符级特征向量。本实施例对第一卷积神经网络的层数不做限定。卷积神经网络非常容易进行并行化的计算，相比RNN效率高，加快了处理速度。

步骤S15：将每个词语的字符级特征向量和第一实数向量进行组合，得到每个词语的扩展词语向量；

将字符级特征向量和第一实数向量组合，即将这两个向量首尾拼接，进而得到扩展词语向量。

步骤S16：将所述句子包含的每个词语的扩展词语向量经过第二卷积神经网络的处理，得到每个词语的序列级特征向量；

技术人员可以根据实际需要确定采用一层或多层第二卷积神经网络对第二实数向量进行处理，得到每个词语的序列级特征向量。本实施例对第二卷积神经网络的层数不做限定。

步骤S17：将所述句子包含的每个词语的序列级特征向量经过概率图模型的处理，得到每个词语的实体标签。

概率图模型接收序列级特征向量，产生用户输入的句子的实体标签序列，然后输出。概率图模型是用图来表示变量概率依赖关系的理论，结合概率论与图论的知识，利用图来表示与模型有关的变量的联合概率分布。具体的，概率图模型包括但不限于条件随机场、马尔科夫随机场等。

本实施例提供的一种实体识别的方法，对需要进行实体识别的句子进行分词得到一个词语序列，将每个词语包含的字符对应的第二实数向量经过第一卷积神经网络的处理，得到每个词语的字符级特征向量，将所述句子包含的每个词语的扩展词语向量经过第二卷积神经网络的处理，得到每个词语的序列级特征向量。使用层叠CNN的结构在加快实体识别速度的同时，也能保持对序列整体或大部分区域建模的能力。

本实施例提供另一种实体识别的方法，参见图2，该方法包括：

步骤S21：获取需要进行实体识别的句子，经过分词得到一个词语序列；

步骤S22：将所述词语序列包含的每个词语分别映射为一个第一实数向量；

步骤S23：将所述句子包含的每个字符分别映射为一个第二实数向量；

步骤S24：将每个词语包含的字符对应的第二实数向量经过第一卷积神经网络的处理，得到每个词语的字符级特征向量；

步骤S25：获取所述词语序列包含的每个词语对应的特征；

词语对应的特征包括但不限于词性特征、布朗聚类特征和/或领域词典特征。预先利用布朗聚类工具，对语料集进行训练得到词语的布朗类别标签，进而在对用户输入的句子分词后，匹配得到每个词语的布朗聚类特征取值，作为布朗聚类特征。预先保存各类词典，例如明星词典、影片词典等，对用户输入的句子分词后，查找词语在哪个词典中出现，查找出来后，将该词典作为领域词典特征。词语的词性判断为现有技术，本实施例不再赘述。

步骤S26：将每个词语对应的每个特征分别映射为一个特征向量；

针对不同类型的特征，分别进行处理得到特征向量。布朗聚类特征，首选统计所有不同的布朗聚类特征取值，为每一种布朗聚类特征取值分配一个随机的实数向量，保存下来，这样得到词语的布朗聚类特征取值后，从布朗特征向量对中，匹配得到与布朗聚类特征取值对应的特征向量；词语特征和领域词典特征的特征向量获取过程，同布朗聚类特征的一致，本实施例不再赘述。

步骤S27：将每个词语的所有特征向量、第一实数向量、字符级特征向量组合，得到每个词语的扩展词语向量。

如果词语的特征包括词性特征、布朗聚类特征和领域词典特征，则将获取的这三个特征向量、第一实数向量、字符级特征向量依次首尾相连，得到词语扩展特征向量。

步骤S28：将所述句子包含的每个词语的扩展词语向量经过第二卷积神经网络的处理，得到每个词语的序列级特征向量；

步骤S29：将所述句子包含的每个词语的序列级特征向量经过概率图模型的处理，得到每个词语的实体标签。

本实施例提供的实体识别的方法，相对于图1提供的方法，引入了除字、词以外的其它特征，这样针对短文本领域的实体识别，例如视频领域的实体识别，增强了识别的准确性。图1提供的方法，引入的字特征即为字符映射的第二实数向量，引入的词特征即为词语映射的第一实数向量。本实施例提供的实体识别方法引入的除字、词以外的其它特征就是指的执行步骤S25获取的词语对应的词性特征、布朗聚类特征和/或领域词典特征等。

第一卷积神经网络的处理过程原理，参见图3，长方形的框表示向量或者矩阵，框中的点表示数值；仅有一行或一列的框表示向量，包含多行或多列的框表示矩阵。具体运算过程如下：

步骤A11：对词语包含的字符对应的第二实数向量进行卷积运算，得到第一特征表达集合；

假如句子分词后，某个词由四个字组成，对应的四个第二实数向量分别为以卷积宽度为3的卷积运算为例，一次卷积操作即为用一个卷积参数矩阵M_c与窗口大小为3的3个第二实数向量做矩阵乘法，生成一个第一特征表达。卷积运算公式：

其中，表示第一特征表达中的向量；表示将邻接的三个第二实数向量首尾拼接起来；b_c表示偏置项；f是一个非线性激活函数，可以取tanh、sigmoid或者ReLU等；

从第1个字开始，根据滑动窗口的原则，每次选取当前字左右±1窗口内的第二实数向量，并从前往后对所有窗口都进行如上的卷积操作，生成一系列第一特征表达即第一特征表达集合。

步骤A12：获取所述第一特征表达集合中每一维中的最大值，生成词语的字符级特征向量。

取出卷积运算后得到的第一特征表达集合的每一维中的最大值，形成一个新的向量即为词语的字符级特征向量。

第二卷积神经网络的处理过程原理，参见图4，同第一卷积神经网络的处理过程类似。具体运算过程如下：

对所述句子包含的词语的扩展词语向量进行卷积运算，得到词语的序列级特征向量；

以卷积宽度为3的卷积运算为例，一次卷积操作即为用一个卷积参数矩阵M_w与窗口大小为3的3个扩展词向量做矩阵乘法，生成一个第二特征表达。卷积运算公式：

其中，表示第二特征表达中的向量；表示将邻接的三个扩展词语向量首尾拼接起来；b_w表示偏置项；f是一个非线性激活函数，可以取tanh、sigmoid或者ReLU等；

从第1个词语开始，根据滑动窗口的原则，每次选取当前词语左右±1窗口内的扩展词语向量，并从前往后对所有窗口都进行如上的卷积操作，得到词语的序列级特征向量

将序列级特征向量输入条件随机场获得对应的实体标签序列。

条件随机场公式为：

其中，y为输出的标签序列，M_e,M_t,b构成条件随机场层的参数，y_i表示第i个位置词语的实体标签，y_i'表示与y_i的取值可能不同。

预先进行模型训练，得到反映数据规律的模型参数，这些参数包括第一卷积神经网络中的参数M_c和b_c、第二卷积神经网络中的参数M_w和b_w、以及条件随机场中的参数M_e,M_t,b。模型训练的方式是首先将训练文本经过前述步骤的运算得到在当前模型参数下的预测实体标签序列，然后根据预测实体标签序列与正确实体标签序列之间的误差，利用反向传播算法调整上述参数，直至误差在一定范围内为止。

假如句子为视频标题“哈姆雷特2000版伊桑霍克主演”，分词结果为哈姆雷特、2000、版、伊桑霍克、主演。得到各个词语的特征如下表所示：

词语序列	词性	布朗聚类	领域词典
				哈姆雷特	nr	011010100	FILM
2000	m	0111111111010	NA
				版	n	0110010110	NA
伊桑霍克	nr	01100111001	STAR
				主演	v	011001110111010	NA

词性那列，nr表示人，m表示数词，n表示一般名词，v表示动词；领域词典那列，FILM表示词语出现在影视名词典中，STAR表示词语出现在明星词典中，NA表示词语未出现在任何词典中；布朗聚类那列，表示布朗聚类特征取值。

词语映射为第一实数向量的集合为

将各类特征分别映射一个特征向量，词性特征、布朗聚类特征以及领域词典特征映射后得到三组向量集合，分别记为

将第一实数向量、特征向量收尾相连拼接起来w₁＝[v₁；p₁；b₁；d₁]，于是，“哈姆雷特2000版伊桑霍克主演”的所有词可以表示为

字符映射为第二实数向量，例如哈姆雷特的各个字映射为第二实数向量

第二实数向量经过第一卷积神经网络的处理，得到字符级特征向量集合

将词语的所有特征向量、第一实数向量、字符级特征向量组合，得到扩展词语向量“哈姆雷特2000版伊桑霍克主演”的所有词的扩展词语向量集合可以表示为

将扩展词语向量经过第二卷积神经网络处理，得到序列级特征向量

将序列级特征向量经过条件随机场处理，得到“哈姆雷特2000版伊桑霍克主演”中所有词的实体标签。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

本实施例提供一种实体识别的装置，参见图5，该装置包括：

第一获取单元11，用于获取需要进行实体识别的句子，经过分词得到一个词语序列；

第一处理单元12，用于将所述词语序列包含的每个词语分别映射为一个第一实数向量；

第二处理单元13，用于将所述句子包含的每个字符分别映射为一个第二实数向量；

第三处理单元14，用于将每个词语包含的字符对应的第二实数向量经过第一卷积神经网络的处理，得到每个词语的字符级特征向量；

第四处理单元15，用于将每个词语的字符级特征向量和第一实数向量进行组合，得到每个词语的扩展词语向量；

第五处理单元16，用于将所述句子包含的每个词语的扩展词语向量经过第二卷积神经网络的处理，得到每个词语的序列级特征向量；

第六处理单元17，用于将所述句子包含的每个词语的序列级特征向量经过概率图模型的处理，得到每个词语的实体标签。

本实施例提供的一种实体识别的装置，第三处理单元14将每个词语包含的字符对应的第二实数向量经过第一卷积神经网络的处理，得到每个词语的字符级特征向量，第五处理单元16将所述句子包含的每个词语的扩展词语向量经过第二卷积神经网络的处理，得到每个词语的序列级特征向量。使用层叠CNN的结构在加快实体识别速度的同时，也能保持对序列整体或大部分区域建模的能力。

本实施例提供另一种实体识别的装置，参见图6，该装置包括：

第四处理单元15，用于将每个词语的所有特征向量、第一实数向量、字符级特征向量组合，得到每个词语的扩展词语向量；

第二获取单元18，用于获取所述词语序列包含的每个词语对应的特征；

第七处理单元19，用于将每个词语对应的每个特征分别映射为一个特征向量。

引入了除字、词以外的其它特征，这样针对短文本领域的实体识别，例如视频领域的实体识别，增强了识别的准确性。

优选的，所述第三处理单元14包括：

第一卷积运算子单元，用于对词语包含的字符对应的第二实数向量进行卷积运算，得到第一特征表达集合；

第一向量生成子单元，用于获取所述第一特征表达集合中每一维中的最大值，生成词语的字符级特征向量。

优选的，第五处理单元16包括：

第二卷积运算子单元，用于对所述句子包含的词语的扩展词语向量进行卷积运算，得到第二特征表达集合；

第二向量生成子单元，用于获取所述第二特征表达集合中每一维中的最大值，生成词语的序列级特征向量。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对本发明所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种实体识别的方法，其特征在于，包括：

将所述句子包含的每个字符分别映射为一个第二实数向量；

2.根据权利要求1所述的方法，其特征在于，在所述获取句子，经过分词得到一个词语序列后，还包括：

获取所述词语序列包含的每个词语对应的特征；

将每个词语对应的每个特征分别映射为一个特征向量；

所述将每个词语的字符级特征向量和第一实数向量进行组合，得到每个词语的扩展词语向量为：

将每个词语的所有特征向量、第一实数向量、字符级特征向量组合，得到每个词语的扩展词语向量。

3.根据权利要求1或2所述的方法，其特征在于，所述将每个词语包含的字符对应的第二实数向量经过第一卷积神经网络的处理，得到每个词语的字符级特征向量包括：

对词语包含的字符对应的第二实数向量进行卷积运算，得到第一特征表达集合；

获取所述第一特征表达集合中每一维中的最大值，生成词语的字符级特征向量。

4.根据权利要求1或2所述的方法，其特征在于，所述将所述句子包含的每个词语的扩展词语向量经过第二卷积神经网络的处理，得到每个词语的序列级特征向量包括：

对所述句子包含的词语的扩展词语向量进行卷积运算，得到第二特征表达集合；

获取所述第二特征表达集合中每一维中的最大值，生成词语的序列级特征向量。

5.一种实体识别的装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于获取所述词语序列包含的每个词语对应的特征；

第七处理单元，用于将每个词语对应的每个特征分别映射为一个特征向量；

所述第四处理单元，用于将每个词语的所有特征向量、第一实数向量、字符级特征向量组合，得到每个词语的扩展词语向量。

7.根据权利要求5或6所述的装置，其特征在于，所述第三处理单元包括：

8.根据权利要求5或6所述的装置，其特征在于，所述第五处理单元包括：