CN110502738A

CN110502738A - 中文命名实体识别方法、装置、设备和查询***

Info

Publication number: CN110502738A
Application number: CN201810482265.8A
Authority: CN
Inventors: 胡于响; 张帆; 姜飞俊
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2019-11-26

Abstract

本发明实施例提供一种中文命名实体识别方法和设备，该方法包括：获取待识别的语句；对语句中的每个字进行编码处理，以获得每个字对应的编码向量；对每个字对应的编码向量进行分类识别，以确定每个字对应的实体类别，根据每个字对应的实体类别确定语句中包含的中文命名实体。本方案通过对待识别语句进行字级别的分类识别，避免了分词错误对实体类别的分类结果的影响，提高了识别准确性。

Description

中文命名实体识别方法、装置、设备和查询***

技术领域

本发明涉及互联网技术领域，尤其涉及一种中文命名实体识别方法、装置、设备和查询***。

背景技术

中文命名实体识别是自然语言处理领域中的一个基本的问题，属于序列标注问题的范畴。简单来说中文命名实体识别问题就是将一段文本序列中包含的我们感兴趣的实体识别出来并加以归类，例如人名，地名和机构名等。中文命名实体识别技术是信息抽取，信息检索，机器翻译，问答***等多种自然语言处理技术必不可少的组成部分。

以问答***应用为例说明中文命名实体识别的意义：当用户提出一个咨询语句时，先进行用户意图识别，用户意图识别将决定调用哪个服务来响应用户的咨询；之后对该咨询语句进行中文命名实体识别，以识别出其中包含的特定类别的实体，比如时间、地点等，该实体相当于查询关键字，可以用作被调用服务的输入，从而该服务基于该查询关键字做出输出响应。

比如，用户的咨询语句是：明天杭州的天气怎么样，用户意图的识别结果表明用户意图是查询天气。假设天气查询服务对应的预先定义的实体类别包括时间和地点，则通过对该语句进行实体识别得到明天和杭州两个实体，以这两个实体作为查询关键词来调用天气查询服务，可以得到相应的天气查询结果作为输出响应。

目前，进行中文命名实体识别的方法可以分成两大类：基于规则的方法和基于统计的方法。基于规则的方法是要人工建立中文实体识别规则，成本高，且不同用户的表达习惯千差万别，同一实体的表达可能有多种不同的表达，人工定义的规则无法覆盖全面，使得识别结果准确性较差。基于统计的方法一般需要语料库来进行训练，常用的方法有隐马尔科夫模型(Hidden Markov Model，简称HMM)、条件随机场(conditional random field，简称CRF)和神经网络等方法。但是，这些基于统计的方法都是基于分词结果进行识别的，即以分词结果为单位，识别每个分词对应的实体类别，但是，如果分词分错了，尤其是实体词分到了非实体词上，那么识别结果就会出错。

发明内容

有鉴于此，本发明实施例提供一种中文命名实体识别方法、装置、设备和查询***，用以提高中文命名实体识别结果的准确性。

第一方面，本发明实施例提供一种中文命名实体识别方法，应用于服务器，该方法包括：

获取待识别的语句；

对所述语句中的每个字进行编码处理，以获得每个字对应的编码向量；

对所述编码向量进行分类识别，以确定每个字对应的实体类别；

根据所述每个字对应的实体类别确定所述语句中包含的中文命名实体。

第二方面，本发明实施例提供一种中文命名实体识别装置，包括：

获取模块，用于获取待识别的语句；

编码模块，用于对所述语句中的每个字进行编码处理，以获得每个字对应的编码向量；

分类识别模块，用于对所述编码向量进行分类识别，以确定每个字对应的实体类别；

确定模块，用于根据所述每个字对应的实体类别确定所述语句中包含的中文命名实体。

第三方面，本发明实施例提供一种电子设备，包括第一处理器和第一存储器，所述第一存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第一处理器执行时实现上述第一方面中的中文命名实体识别方法。该电子设备还可以包括第一通信接口，用于与其他设备或通信网络通信。

本发明实施例提供了一种计算机存储介质，用于储存存储计算机程序，所述计算机程序使计算机执行时实现上述第一方面中的中文命名实体识别方法。

第四方面，本发明实施例提供一种中文命名实体识别方法，应用于用户终端，该方法包括：

接收用户输入的待识别语句；

将所述待识别语句发送至服务器，以使所述服务器对所述语句中的每个字进行编码处理以及根据对所述编码处理得到的编码向量进行分类识别得到的每个字对应的实体类别确定所述待识别语句中包含的中文命名实体。

第五方面，本发明实施例提供一种中文命名实体识别装置，包括：

接收模块，用于接收用户输入的待识别语句；

发送模块，用于将所述待识别语句发送至服务器，以使所述服务器对所述语句中的每个字进行编码处理以及根据对所述编码处理得到的编码向量进行分类识别得到的每个字对应的实体类别确定所述待识别语句中包含的中文命名实体。

第六方面，本发明实施例提供一种电子设备，包括第二处理器和第二存储器，所述第二存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第二处理器执行时实现上述第四方面中的中文命名实体识别方法。该电子设备还可以包括第二通信接口，用于与其他设备或通信网络通信。

本发明实施例提供了一种计算机存储介质，用于储存存储计算机程序，所述计算机程序使计算机执行时实现上述第四方面中的中文命名实体识别方法。

第七方面，本发明实施例提供了一种中文命名实体识别方法，应用于服务器，该方法包括：

获取待识别的语句；

去除所述语句中的干扰字；

对余下各字进行编码处理，以获得所述余下各字分别对应的编码向量；

对所述编码向量进行分类识别，以确定所述余下各字分别对应的实体类别；

根据所述余下各字分别对应的实体类别确定所述语句中包含的中文命名实体。

第八方面，本发明实施例提供了一种查询***，包括：

用户终端和服务器；

所述用户终端，用于响应于用户输入的查询语句，将所述查询语句发送至所述服务器，以及接收所述服务器发送的查询响应；

所述服务器，用于确定与所述查询语句对应的服务程序；对所述查询语句中的每个字进行编码处理，以获得每个字对应的编码向量，对所述编码向量进行分类识别，以确定每个字对应的实体类别，根据所述每个字对应的实体类别确定所述查询语句中包含的中文命名实体；以所述中文命名实体作为查询关键字查询所述服务程序以获得所述查询响应。

本发明实施例提供的中文命名实体识别方法，服务器接收到待识别的语句后，针对该语句中的每个字进行编码处理，即进行字级别的编码处理，从而得到每个字对应的编码向量，将得到的每个字的编码向量送入预先训练得到的分类器中进行分类识别，得到每个字对应的实体类别，其中，该实体类别即表明了每个字是否对应于预先设定的某种实体类别，以及具体对应于哪种实体类别，从而，将相邻的同一实体类别的字拼接在一起即为该实体类别对应的中文命名实体。本方案通过对待识别语句进行字级别的分类识别，避免了分词错误对实体类别的分类结果的影响，提高了识别准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种中文命名实体识别方法的流程图；

图2为本发明实施例提供的另一种中文命名实体识别方法的流程图；

图3为本发明实施例提供的一种字编码处理过程的示意图；

图4为本发明实施例提供的又一种中文命名实体识别方法的流程图；

图5为本发明实施例提供的一种局部语义信息提取过程的示意图；

图6为本发明实施例提供的一种局部语义信息和全局关联信息提取过程的示意图；

图7为本发明实施例提供的一种中文命名实体的识别过程的局部示意图；

图8为本发明实施例提供的又一种中文命名实体识别方法的流程图；

图9为本发明实施例提供的一种中文命名实体识别方法的交互流程图；

图10为本发明实施例提供的中文命名实体识别装置的结构示意图；

图11为与图10所示实施例提供的中文命名实体识别装置对应的电子设备的结构示意图；

图12为本发明实施例提供的另一中文命名实体识别装置的结构示意图；

图13为与图12所示实施例提供的中文命名实体识别装置对应的电子设备的结构示意图；

图14为本发明实施例提供的一种查询***的组成示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者***中还存在另外的相同要素。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

下面先举例说明传统基于分词进行的中文命名实体识别过程存在的问题：

以查询天气场景为例，在该场景下用户往往需要查询某天某个地方的天气，因此就会涉及两个实体类别——时间和地点，因此，服务器需要主动识别出用户提问的语句中包含的这两类实体类别即识别出对应于这两个实体类别的中文命名实体。实际上，中文命名实体识别的问题即为一种序列标注问题，可以采用BIO标注体系进行中文命名实体类别的标注。具体地，以下表1为例，即为需要进行以下标记：

表1：

请问

明天

乌鲁

木齐

的

天气

如何

O

B-day

B-Place

I-Place

O

其中，该表中第一行是对用户语句进行分词后的结果，第二行是标注结果亦即中文命名实体类别识别结果。

采用BIO标注体系，其中B表示实体开始，I表示实体中部，O无意义，即不属于实体。因此“明天”是一个对应于时间(day)这个类别的中文命名实体，“乌鲁木齐”是一个对应于地点(Place)这个类别的中文命名实体。对该用户语句进行如上标注即进行中文命名实体识别后，就知道了对应于时间和地点这两个类别的中文命名实体：明天和乌鲁木齐，进而，比如可以调用天气查询服务，以这两个中文命名实体作为查询关键字进行查询，从而获得乌鲁木齐明天的天气情况，就可以作出类似如下的回应：

Q、请问明天乌鲁木齐天气如何？

A、明天乌鲁木齐多云转晴，气温12到20度。

如上述表1中所举例的，传统的中文命名实体识别都是基于分词的，即如表1一样在每个分词结果进行类别标注。但如果分词分错了，尤其是实体词分到了非实体词上，就会出现无法召回的现象，例如下面表2示意的场景：

表2：

请

问明天

乌鲁

木齐

的

天气

如何

O

B-Place

I-Place

O

假设分词器把“问明天”分到了一起，这样基于分词中文命名实体识别过程即中文命名实体标注过程是不可能把“明天”标成B-day的，从而无法获得正确的分类结果。

基于此，本发明实施例提供了一种基于字的中文命名实体识别方法，能够克服分词分错的情况对识别结果准确性的影响。下面结合如下的一些实施例对该识别方法进行介绍。

图1为本发明实施例提供的一种中文命名实体识别方法的流程图，本发明实施例提供的该中文命名实体识别方法可以由服务器来执行。如图1所示，该方法包括如下步骤：

101、获取待识别的语句。

102、对语句中的每个字进行编码处理，以获得每个字对应的编码向量。

103、对每个字对应的编码向量进行分类识别，以确定每个字对应的实体类别。

104、根据每个字对应的实体类别确定语句中包含的中文命名实体。

实际生活中，用户可能会有各种各样的查询需求，比如天气查询、路径查询、在线购物时对尺码的查询，等等。从而，用户终端中可以安装有一种或多种类似于语音助手的应用程序，该应用程序可能是作为某种APP中的功能组件，也可能是独立的一个应用程序，比如智能语音搜索引擎。

当用户需要触发某种查询时，用户可以通过手动输入或语音输入或图像识别或扫描二维码等方式触发查询语句的输入，该查询语句即可以视为是上述待识别的语句。

服务器接收到该待识别的语句后，需要识别出该语句中包含的中文命名实体，即对该语句进行中文命名实体标注。结合上述查询场景，相当于是提取出其中包含的查询关键字，以便基于该查询关键字查询相应的服务程序比如提供天气查询功能的服务程序，得到天气查询响应反馈给用户。

可以理解的是，可以基于预先已经训练获得的识别模型对该语句进行中文命名实体识别，该识别模型可以是通过大量的训练样本对神经网络比如卷积神经网络进行监督训练得到的模型。

本发明实施例中，对该语句进行中文命名实体识别是以字级别进行识别的，即通过识别该语句中每个字对应的实体类别来确定该语句中包含的中文命名实体。

因此，当接收到上述语句后，服务器可以使用上述识别模型针对该语句中的每个字进行编码处理，从而得到每个字对应的编码向量，进而对获得的各个字的编码向量进行分类识别，以确定每个字对应的实体类别，最后，可以将相邻的具有同一实体类别的字拼接在一起得到该实体类别对应的中文命名实体。

具体地，该识别模型从功能上可以细分为包括编码器(也称为编码模块)和分类器(也称为分类模块)。编码器输出各字对应的编码向量，进而输入到分类器，从而使用该分类器对输入的各编码向量进行分类识别，以确定每个字对应的分类输出向量，即分类器的输出为每个字对应的分类输出向量，其中，每个分类输出向量中的不同元素对应于预设的不同实体类别的概率值，举例来说，假设某个字对应的输出向量为(0.9,0.1,0)，且假设这三个元素分别对应于实体类别A、B、C，则说明该字对应于实体类别A的概率为0.9，对应于实体类别B的概率为0.1。可选地，可以以最大概率值所对应的实体类别A作为该字的实体类别识别结果。但是，在实际应用中，可选地，为了提高识别结果的准确性，上述各个字的分类输出向量还可以进一步输入到CRF模型，从而根据CRF模型的转移矩阵和每个字对应的分类输出向量确定转移概率得分最高的类别序列，该类别序列即为待识别的语句最终对应的每个字的实体类别识别结果，即类别序列中的第m个类别为语句中第m个字对应的实体类别，m的取值范围为1至语句包含的总字数。其中，该CRF模型是位于分类器后面的功能模块，其转移矩阵等相关参数可以是在训练阶段得到的。CRF考虑了各个字的类别之间的依赖关系。CRF的具体原理不在本发明实施例中赘述，本实施例中仅举例说明得到最高的类别序列的意思：假设待识别的语句中依次包括C1、C2、C3三个字，且依次对应的分类输出向量为(p1,p2,p3)，(p4,p5,p6)，(p7,p8,p9),假设分类输出向量中的元素分别对应于实体类别A、B、C，假设转移概率得分最高的类别序列为p1、p4、p8，那么最终确定C1对应于实体类别A，C2对应于实体类别A，C3对应于实体类别C。

本方案通过对待识别语句进行字级别的分类识别，避免了分词错误对实体类别的分类结果的影响，提高了识别准确性。

图2为本发明实施例提供的另一种中文命名实体识别方法的流程图，如图2所示，可以包括如下步骤：

201、获取待识别的语句。

202、对语句进行分词处理。

203、针对语句中的任一字i，对任一字i进行编码处理得到字向量，对任一字i所属的分词进行编码处理得到词向量，对任一字i在语句中的位置编号进行编码处理得到位置向量，拼接字向量、词向量和位置向量以获得任一字i对应的编码向量。

204、对每个字对应的编码向量进行分类识别，以确定每个字对应的实体类别，根据每个字对应的实体类别确定语句中包含的中文命名实体。

本实施例中，为了进一步提高中文命名实体识别结果的准确性，在对待识别的语句进行字级别的编码处理的过程中，还考虑到了每个字在该语句中的上下文关系。

具体地，当服务器接收到待识别的语句后，可以先对该语句进行分词处理，进而可以将分词处理后的语句输入到识别模型中进行后续处理。其中，首先是对该语句中的每个字进行编码处理。

在针对每个字进行编码处理的过程中，可选地，可以针对每个字进行三个维度的编码处理：字本身、字所属的分词、字在语句中的位置编号。

结合图3对该编码过程进行举例说明，图3中假设的是待识别的语句为“我想去留下”，且假设分词结果为“我/想/去留/下”。并且，假设该语句的理论的中文命名实体识别结果为识别出其中包含的对应于实体类别“endPoint”的实体“留下”即理论上该语句的中文命名实体标注结果应该为：我(O)想(O)去(O)留(B-endPoint)下(I-endPoint)，其中，留是实体类别endPoint对应的起始字，下是实体类别endPoint对应的结束字，即留下是对应于实体类别endPoint的中文命名实体。

由图3可知，基于上述分词结果，“我”字对应的分词即为“我”，因此，其对应的编码向量由分词“我”、字“我”和位置编号“1”的编码结果拼接而成，同理，“想”和“下”的编码过程类似。而对于“去”字来说，其对应的编码向量由分词“去留”、字“去”和位置编号“3”的编码结果拼接而成，同理，对于“留”字来说，其对应的编码向量由分词“去留”、字“留”和位置编号“4”的编码结果拼接而成。图中，分别用三种不同样式的矩形块代表分词编码得到的词向量、字编码得到的字向量和位置编号编码得到的位置向量。

为说明上述拼接过程，假设任一字以char表示，该字对应的编码向量假设表示为embedding(char)，则embedding(char)＝concat(word,char,position)，其中，concat代表拼接处理，word为该字对应的词向量，char代表字向量，position代表位置向量。即假设词向量为N1维、字向量为N2维、位置向量为N3维，则拼接后得到的编码向量为N1+N2+N3维。

其中，对分词、字、位置向量进行编码可以采用诸如word2vec、one-hot等编码模型。

对任一字来说，在对其进行编码处理的过程中，对其所属分词进行编码，可以很好地将词与词之间的相关性建立起来，相关的词更相近，对其位置编号进行编码，可以防止相同的字对识别结果带来的干扰。

从而，在对每个字进行如上的编码处理后，可以将各个字对应的编码向量送入分类器进行分类识别，以确定每个字对应的实体类别。由于字编码处理的过程中，考虑了字的多种维度的相关信息，有助于提高识别结果的准确性。

图4为本发明实施例提供的又一种中文命名实体识别方法的流程图，如图4所示，可以包括如下步骤：

401、获取待识别的语句。

402、对语句进行分词处理。

403、针对语句中的任一字i，对任一字i进行编码处理得到字向量，对任一字i所属的分词进行编码处理得到词向量，对任一字i在语句中的位置编号进行编码处理得到位置向量，拼接字向量、词向量和位置向量以获得任一字i对应的编码向量。

404、使用卷积神经网络模型提取每个字对应的局部语义信息向量，其中，卷积神经网络模型所采用的卷积核的宽度与编码向量的维度相等，卷积核的高度大于或等于2。

本发明实施例中，为了进一步提高中文命名实体识别结果的准确性，还考虑到了每个字的上下文信息对该字对应的类别识别结果的影响。为理解该上下文的影响，举例来说，假设一句话为：请问周杰伦在北京演唱会上都唱了哪些歌曲？另一句话为：查询周杰伦参演过的电视剧。并且假设预先设定有两个类别：歌手、演员。针对周杰伦这个实体来说，歌曲、电视剧对确定其是对应于歌手这个类别还是对应于演员这个类别是有影响的。

因此，在得到每个字对应的编码向量之后，还可以进一步针对每个字，提取其对应的上下文信息，即局部语义信息，该局部语义信息的提取结果称为局部语义信息向量，即该语句语义信息是以向量形式表示的。

具体地，可以使用卷积神经网络模型提取每个字对应的局部语义信息向量，其中，卷积神经网络模型所采用的卷积核的宽度与编码向量的维度即长度相等，卷积核的高度大于或等于2。该局部语义信息向量的提取过程可以参考图5来理解，如图5所示，图中示意了多个卷积核，在卷积神经网络中会包含多个隐含层也可以称为卷积层，每个卷积层可以包含一个或多个卷积核，卷积核的个数可以根据实际场景或经验设定。图中卷积核的宽度为字对应的编码向量的长度，卷积核的高度为3。事实上，该高度理论上大于或等于2即可，但是一般可以取大于或等于3的奇数值，例如3，5，7。这个数值的大小决定了以一个字为中心，左右能够遍历多远。例如当高度值＝3时，左右均只遍历1个字，若高度值＝5时，左右均可遍历2个字。值得说明的是，对于第一个字及最后一个字，由于其左边或者右边没有字了，因此需要补0。卷积运算结束后，每一个字的编码向量经过卷积，会得到该字的更深层次的语义信息，这部分的语义信息主要还是局部的，因此称为局部语义信息，卷积结果称为局部语义信息向量。

在一可选实施例中，在得到每个字对应的局部语义信息向量后，可以针对已经获得的各个字对应的编码向量和局部语义信息向量进行分类识别，以确定每个字对应的实体类别。

405、根据字与字间的注意力权重，确定每个字对应的全局关联信息向量。

406、使用分类器对每个字对应的编码向量、局部语义信息向量和全局关联信息向量进行分类识别，以确定每个字对应的分类输出向量，分类输出向量中的不同元素对应于预设的不同实体类别的概率值。

407、根据CRF模型的转移矩阵和每个字对应的分类输出向量确定转移概率得分最高的类别序列，类别序列中的第m个类别为语句中第m个字对应的实体类别。

其中，m的取值范围为1至语句包含的总字数。

408、根据每个字对应的实体类别确定语句中包含的中文命名实体。

为了进一步提高分类结果的准确性，在得到每个字对应的局部语义信息向量后，还可以进一步提取每个字对应的全局关联信息向量。其中，针对某个字来说，其对应的全局关联信息向量反映了待识别的语句中其他字对该字的类别识别结果的影响程度即权重。仍以上述举例的“周杰伦在北京演唱会上都唱了哪些歌曲”这句话为例，对于周杰伦这个实体所对应的类别的确定，可以理解的是，歌曲这个词相比于其他字来说，对该类别确定结果的影响更大，因此，当在确定周杰伦这个实体对应的类别时，如果能够加大歌曲对该类别识别的权重，那么对于最终的识别结果准确性来说具有积极作用。

基于此，在得到每个字对应的局部语义信息向量后，可选地，根据每个字对应的局部语义信息向量，可以根据字与字间的注意力权重，确定每个字对应的全局关联信息向量。具体地，针对语句中的任一字i，可以先确定任一字i分别与其他字之间的注意力权重；之后对确定出的各注意力权重进行归一化处理；之后根据归一化处理后的各注意力权重对该任一字i的局部语义信息向量进行加权求和处理，加权求和处理的结果为该任一字i对应的全局关联信息向量。

为直观理解上述局关联信息向量的确定过程，结合如下公式来进行具体说明：

具体地，针对语句中的任一字i，根据如下公式确定任一字i对应的全局关联信息向量c_i：

其中，a_ij＝softmax(e_ij),

其中，h_i为任一字i的局部语义信息向量，h_j为语句中的任一字j的局部语义信息向量，e_ij为任一字i与任一字j的间的注意力权重，*为内积运算符，K为语句中包含的总字数，T为向量转置运算符，softmax为归一化运算符。

值得说明的是，j的取值可以为1至K中的任一值，即j可以等于i。

实际应用中，针对任一字i来说，可以根据e_ij的计算公式，得到其他各个字与该字i之间的注意力权重，从而由这些注意力权重构成系数序列，在针对该权重序列进行softmax运算处理，处理后的权重序列用于c_i的计算。

以图3所示的“我想去留下”为例，在计算“下”这个字的全局信息时，经过注意力权重计算，可以发现“下”字受“去”字影响较大，从而将“去”的信息更多的(权重更大)作用到“下”的类别识别过程中。

可以理解的是，上述全局关联信息的提取也是可以基于卷积神经网络实现的，因为上述卷积运算等运算可以方便地基于卷积神经网络中的卷积核结构实现。

但是，实际应用中，卷积神经网络可能会出现反向传播梯度消失的问题，因此，本发明实施例中，为了提高中文命名实体类别识别的效率，可以采用深度残差网络(可以认为是一种特殊的卷积神经网络)来实现上述局部语义信息向量和全局关联信息向量的提取。

可以结合图6来理解该深度残差网络实现局部语义信息向量和全局关联信息向量的提取过程。其中，该深度残差网络主要包括用于提取局部语义信息向量的局部语义信息提取层和用于提取全局关联信息向量的全局关联信息提取层，其中，x代表的是某个字对应的编码向量，f(x)代表的是通过卷积核的卷积运算过程提取局部语义信息向量的过程，g(y)代表的是通过卷积运算过程提取全局关联信息向量的过程。

基于此，通过深度残差网络提取各个字的局部语义信息向量和全局关联信息向量后，相当于是将每个字对应的编码向量、局部语义信息向量和全局关联信息向量组织在了一起，组织的结果体现为深度残差网络的输出向量，即图6中示意的z，进而，可以对深度残差网络的输出向量进行分类识别，以确定每个字对应的实体类别。

对深度残差网络的输出向量进行分类识别的过程可以参考图7所示，图7中假设接收到的待识别的语句为“我想去留下”，在得到每个字的编码向量后(图中假设我想去留下这五个字分别代表各自对应的编码向量)，输入到深度残差网络，深度残差网络的输出向量是每个字对应的图6中的向量z，这些向量进而输入到全连接层，该全连接层即为已经训练得到的分类器，分类器输出每个字对应的分类输出向量，分类输出向量中的不同元素对应于预设的不同实体类别的概率值，进而，各分类输出向量输入到CRF层(即CRF模型)，从而，最终输出转移概率得分最高的类别序列，其中，该类别序列中的第m个类别即为语句中第m个字对应的实体类别，由此得到每个字对应的实体类别，进而将相邻的具有相同的实体类别的字拼接在一起，即得到了该实体类别对应的中文命名实体，从而完成了对该语句的中文命名实体识别，该类别序列即对应于图7中的中文命名实体标注结果。由该标注结果可知，该语句中包含了对应于类别endPoint的一个实体词：留下。

图8为本发明实施例提供的又一种中文命名实体识别方法的流程图，如图8所示，可以包括如下步骤：

801、获取待识别的语句。

802、去除语句中的干扰字。

803、对余下各字进行编码处理，以获得余下各字分别对应的编码向量。

804、对编码向量进行分类识别，以确定余下各字分别对应的实体类别。

805、根据余下各字分别对应的实体类别确定语句中包含的中文命名实体。

与前述实施例中针对待识别语句中的每个字都进行编码处理不同的是，本实施例中，可以仅对待识别的语句中的部分字进行编码处理，从而可以降低编码处理的计算量，提高识别效率。

其中，可以预先设定某些词性的词、字属于干扰字，比如虚词、形容词、数词、代词等。从而，可以通过对待识别语句进行词性识别，去除其中的干扰字，其中，词性识别的过程可以参考现有相关技术实现。

下面结合图9所示实施例，对实际应用中本发明实施例提供的中文命名实体识别方法的执行逻辑进行简要说明。

图9为本发明实施例提供的一种中文命名实体识别方法的交互流程图，如图9所示，该方法包括如下步骤：

901、用户终端接收用户输入的待识别语句。

该待识别语句比如可以是用户触发的用于查询某地某日的天气情况的语句。

902、用户终端将待识别语句发送至服务器。

待识别语句发送至服务器，以使服务器对语句中的每个字进行编码处理以及对编码处理得到的编码向量进行分类识别以确定每个字对应的实体类别。

在一可选实施例中，用户终端设备还可以在接收到待识别语句后，先去除待识别语句中的干扰字，继而将待识别语句中去除干扰字后剩余的各字依次发送至服务器，以使服务器对剩余的各字进行编码处理以及对编码处理得到的编码向量进行分类识别以确定剩余的各字对应的实体类别。其中，干扰字可以是虚词以及实词中的代词、形容词、数词等特定类型的词。

通过对待识别语句进行干扰字的滤除处理，可以降低后续编码处理等过程的计算量。

903、服务器确定与语句对应的服务程序。

服务器比如可以通过从该语句中提取关键词，将提取到的关键字与预先设定的各服务程序对应的关键字数据库中包含的关键词进行匹配，从而确定该语句对应的服务程序，该服务程序比如为天气查询服务程序。

904、服务器对接收到的语句中的每个字进行编码处理，以获得每个字对应的编码向量，对所述编码向量进行分类识别，以确定每个字对应的实体类别，根据每个字对应的实体类别确定语句中包含的中文命名实体。

905、服务器以中文命名实体作为查询关键字查询服务程序以获得查询响应。

假设用户的语句为“明天杭州天气如何”，则识别结果为识别到其中包含的两种类别的实体：时间类别的实体——明天，地点类别的实体——杭州，则查询关键字即为这两个实体，以此输入天气查询服务，得到明天杭州天气的查询结果。

906、服务器将查询响应发送至用户终端。

以下将详细描述本发明的一个或多个实施例的中文命名实体识别装置。本领域技术人员可以理解，这些中文命名实体识别装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图10为本发明实施例提供的中文命名实体识别装置的结构示意图，如图10所示，该装置包括：获取模块11、编码模块12、分类识别模块13、确定模块14。

获取模块11，用于获取待识别的语句。

编码模块12，用于对所述语句中的每个字进行编码处理，以获得每个字对应的编码向量。

分类识别模块13，用于对所述编码向量进行分类识别，以确定每个字对应的实体类别。

确定模块14，用于根据所述每个字对应的实体类别确定所述语句中包含的中文命名实体。

可选地，分类识别模块13可以用于：使用分类器对所述编码向量进行分类识别，以确定每个字对应的分类输出向量，所述分类输出向量中的不同元素对应于预设的不同实体类别的概率值；根据CRF模型的转移矩阵和每个字对应的分类输出向量确定转移概率得分最高的类别序列，所述类别序列中的第m个类别为所述语句中第m个字对应的实体类别，m的取值范围为1至所述语句包含的总字数。

可选地，所述编码模块12可以用于：对所述语句进行分词处理；针对所述语句中的任一字i，对所述任一字i进行编码处理得到字向量，对所述任一字i所属的分词进行编码处理得到词向量，对所述任一字i在所述语句中的位置编号进行编码处理得到位置向量；拼接所述字向量、所述词向量和所述位置向量以获得所述任一字i对应的编码向量。

可选地，所述装置还可以包括：提取模块15。

所述提取模块15可以用于：使用卷积神经网络模型提取所述每个字对应的局部语义信息向量，其中，所述卷积神经网络模型所采用的卷积核的宽度与所述编码向量的维度相等，所述卷积核的高度大于或等于2。

相应地，所述分类识别模块13可以用于：对所述编码向量和所述局部语义信息向量进行分类识别，以确定每个字对应的实体类别。

可选地，所述提取模块15还可以用于：根据字与字间的注意力权重，确定所述每个字对应的全局关联信息向量。

相应地，所述分类识别模块13可以用于：对所述编码向量、所述局部语义信息向量和所述全局关联信息向量进行分类识别，以确定每个字对应的实体类别。

其中，根据字与字间的注意力权重，确定所述每个字对应的全局关联信息向量的过程中，所述提取模块15可以用于：针对所述语句中的任一字i，确定所述任一字i分别与其他字之间的注意力权重；对确定出的各注意力权重进行归一化处理；根据归一化处理后的各注意力权重对所述任一字i的局部语义信息向量进行加权求和处理，所述加权求和处理的结果为所述任一字i对应的全局关联信息向量。

可选地，所述提取模块15可以用于：通过深度残差网络提取所述局部语义信息向量和所述全局关联信息向量。

相应地，所述分类识别模块13可以用于：对所述深度残差网络的输出向量进行分类识别，以确定每个字对应的实体类别。

可选地，所述装置还可以包括：服务处理模块，用于确定与所述语句对应的服务程序；以确定出的所述语句中包含的中文命名实体作为查询关键字查询所述服务程序以获得查询响应。

图10所示装置可以执行图1至图9所示实施例的方法，本实施例未详细描述的部分，可参考对图1至图9所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1至图9所示实施例中的描述，在此不再赘述。

以上描述了中文命名实体识别装置的内部功能和结构，在一个可能的设计中，中文命名实体识别装置的结构可实现为一电子设备，该电子设备可以是服务器，如图11所示，该电子设备可以包括：第一处理器21和第一存储器22。其中，所述第一存储器22用于存储支持电子设备执行上述图1至图9所示实施例中提供的中文命名实体识别方法的程序，所述第一处理器21被配置为用于执行所述第一存储器22中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第一处理器21执行时能够实现如下步骤：

获取待识别的语句；

对所述编码向量进行分类识别，以确定每个字对应的类别。

可选地，所述第一处理器21还用于执行前述图1至图9所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括第一通信接口23，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图1至图9所示方法实施例的中文命名实体识别方法所涉及的程序。

图12为本发明实施例提供的另一中文命名实体识别装置的结构示意图，如图12所示，该装置包括：接收模块31、发送模块32。

接收模块31，用于接收用户输入的待识别语句。

发送模块32，用于将所述待识别语句发送至服务器，以使所述服务器对所述语句中的每个字进行编码处理以及根据对所述编码处理得到的编码向量进行分类识别得到的每个字对应的实体类别确定所述待识别语句中包含的中文命名实体。

可选地，所述装置还包括：过滤模块，用于去除所述待识别语句中的干扰字。相应地，所述发送模块32具体用于：将所述待识别语句中去除所述干扰字后剩余的各字依次发送至所述服务器。

可选地，所述接收模块31还可以用于：接收所述服务器发送的查询响应，所述查询响应是所述服务器以所述中文命名实体作为查询关键字查询所述待识别语句对应的服务程序得到的。

图12所示装置可以执行图9所示实施例的方法，本实施例未详细描述的部分，可参考对图9所示实施例的相关说明。该技术方案的执行过程和技术效果参见图9所示实施例中的描述，在此不再赘述。

以上描述了中文命名实体识别装置的内部功能和结构，在一个可能的设计中，中文命名实体识别装置的结构可实现为一电子设备，该电子设备可以是用户终端，如图13所示，该电子设备可以包括：第二处理器41和第二存储器42。其中，所述第二存储器42用于存储支持电子设备执行上述图9所示实施例中提供的中文命名实体识别方法的程序，所述第二处理器41被配置为用于执行所述第二存储器42中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第二处理器41执行时能够实现如下步骤：

接收用户输入的待识别语句；

将所述待识别语句发送至服务器，以使所述服务器对所述语句中的每个字进行编码处理以及对所述编码处理得到的编码向量进行分类识别以确定每个字对应的类别。

可选地，所述第二处理器41还用于执行前述图9所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括第二通信接口43，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图9所示方法实施例的中文命名实体识别方法所涉及的程序。

图14为本发明实施例提供的一种查询***的组成示意图，如图14所示，该查询***包括：用户终端和服务器。

其中，所述用户终端，用于响应于用户输入的查询语句，将所述查询语句发送至所述服务器，以及接收所述服务器发送的查询响应。

其中，上述查询语句即可以为前述实施例中的待识别语句，用户终端和服务器的执行过程可以参见前述实施例中的相关说明，在此不赘述。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种中文命名实体识别方法，其特征在于，包括：

获取待识别的语句；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述语句进行分词处理；

所述对所述语句中的每个字进行编码处理，以获得每个字对应的编码向量，包括：

针对所述语句中的任一字i，对所述任一字i进行编码处理得到字向量，对所述任一字i所属的分词进行编码处理得到词向量，对所述任一字i在所述语句中的位置编号进行编码处理得到位置向量；

拼接所述字向量、所述词向量和所述位置向量以获得所述任一字i对应的编码向量。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

使用卷积神经网络模型提取所述每个字对应的局部语义信息向量，其中，所述卷积神经网络模型所采用的卷积核的宽度与所述编码向量的维度相等，所述卷积核的高度大于或等于2；

所述对所述编码向量进行分类识别，以确定每个字对应的实体类别，包括：

对所述编码向量和所述局部语义信息向量进行分类识别，以确定每个字对应的实体类别。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据字与字间的注意力权重，确定所述每个字对应的全局关联信息向量；

对所述编码向量、所述局部语义信息向量和所述全局关联信息向量进行分类识别，以确定每个字对应的实体类别。

5.根据权利要求4所述的方法，其特征在于，所述根据字与字间的注意力权重，确定所述每个字对应的全局关联信息向量，包括：

针对所述语句中的任一字i，确定所述任一字i分别与其他字之间的注意力权重；

对确定出的各注意力权重进行归一化处理；

根据归一化处理后的各注意力权重对所述任一字i的局部语义信息向量进行加权求和处理，所述加权求和处理的结果为所述任一字i对应的全局关联信息向量。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

通过深度残差网络提取所述局部语义信息向量和所述全局关联信息向量；

所述对所述编码向量、所述局部语义信息向量和所述全局关联信息向量进行分类识别，以确定每个字对应的实体类别，包括：

对所述深度残差网络的输出向量进行分类识别，以确定每个字对应的实体类别。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述对所述编码向量进行分类识别，以确定每个字对应的实体类别，包括：

使用分类器对所述编码向量进行分类识别，以确定每个字对应的分类输出向量，所述分类输出向量中的不同元素对应于预设的不同实体类别的概率值；

根据CRF模型的转移矩阵和每个字对应的分类输出向量确定转移概率得分最高的类别序列，所述类别序列中的第m个类别为所述语句中第m个字对应的实体类别，m的取值范围为1至所述语句包含的总字数。

8.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：

确定与所述语句对应的服务程序；

以确定出的所述语句中包含的中文命名实体作为查询关键字查询所述服务程序，以获得查询响应。

9.一种中文命名实体识别方法，其特征在于，包括：

获取待识别的语句；

去除所述语句中的干扰字；

10.一种中文命名实体识别装置，其特征在于，包括：

获取模块，用于获取待识别的语句；

11.一种电子设备，其特征在于，包括：存储器、处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至8中任一项所述的中文命名实体识别方法。

12.一种中文命名实体识别方法，其特征在于，包括：

接收用户输入的待识别语句；

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

去除所述待识别语句中的干扰字；

所述将所述待识别语句发送至服务器，包括：

将所述待识别语句中去除所述干扰字后剩余的各字依次发送至所述服务器。

14.根据权利要求12所述的方法，其特征在于，所述方法还包括：

接收所述服务器发送的查询响应，所述查询响应是所述服务器以所述中文命名实体作为查询关键字查询所述待识别语句对应的服务程序得到的。

15.一种中文命名实体识别装置，其特征在于，包括：

接收模块，用于接收用户输入的待识别语句；

16.一种查询***，其特征在于，包括：

用户终端和服务器；