CN111523314A

CN111523314A - 模型对抗训练、命名实体识别方法及装置

Info

Publication number: CN111523314A
Application number: CN202010632209.5A
Authority: CN
Inventors: 李扬名; 李小龙; 姚开盛
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-08-11
Anticipated expiration: 2040-07-03
Also published as: CN111523314B

Abstract

本说明书实施例提供一种模型对抗训练、命名实体识别方法及装置。在模型训练中，将第一样本序列中的第一命名实体替换为其对应的原始标签字符，得到第二样本序列，并从第二样本序列中确定包含替换的原始标签字符的第一文本片段，确定第一文本片段的分类标签值为第一值，用于表示已替换命名实体；采用特征提取网络，确定第二样本序列中多个分词的特征隐向量；基于第二样本序列中多个分词的特征隐向量，确定第一文本片段的第一片段向量，将第一片段向量输入第一判别器，得到第一预测值；基于第一预测值与第一值的差异，确定第一损失值；以最小化第一损失值为目标，更新第一判别器；以最大化第一损失值为目标，更新特征提取网络。

Description

模型对抗训练、命名实体识别方法及装置

技术领域

本说明书一个或多个实施例涉及自然语言处理技术领域，尤其涉及模型对抗训练、命名实体识别方法及装置。

背景技术

在自然语言处理技术领域，对文本序列中的命名实体（Entity）进行分类，是研究的一个重要方向。命名实体，在词性中具有名词性质，包括人名、机构名、地名以及其他所有以名称为标识的实体类别。更广泛的命名实体还包括数字、日期、货币、地址等类别。对命名实体的类别进行准确识别，能够提高自然语言处理的准确性和有效性。

通常，采用训练集训练用于识别命名实体的模型，在模型训练完成后，采用测试集对模型进行测试。命名实体识别中的一大挑战，是对集外词和低频词这些稀有实体的识别。集外词是指测试集中出现，但训练集中没有出现过的命名实体。低频词是指测试集中出现，而训练集中出现次数较低的命名实体。这种训练数据的稀疏性，给模型训练带来巨大挑战。

因此，希望能有改进的方案，可以训练得到有效性更好、准确性更高的模型，使得模型在面临稀有实体时，能更好地对其进行识别。

发明内容

本说明书一个或多个实施例描述了模型对抗训练、命名实体识别方法及装置，以训练得到有效性更好、准确性更高的模型，使得模型在面临稀有实体时，能更好地对其进行识别。具体的技术方案如下。

第一方面，实施例提供了一种用于识别命名实体的模型的对抗训练方法，通过计算机执行，包括：

获取包含多个分词的第一样本序列和其中多个分词的原始标签字符，多个分词包含命名实体和非命名实体；

将所述第一样本序列中的第一命名实体替换为其对应的原始标签字符，得到第二样本序列，并从所述第二样本序列中确定包含替换的原始标签字符的第一文本片段，确定所述第一文本片段的分类标签值为第一值，用于表示已替换命名实体；

采用特征提取网络，确定所述第二样本序列中多个分词的特征隐向量；

基于所述第二样本序列中多个分词的特征隐向量，确定所述第一文本片段的第一片段向量，将所述第一片段向量输入第一判别器，得到第一预测值；

基于所述第一预测值与所述第一值的差异，确定第一损失值；

以最小化所述第一损失值为目标，更新所述第一判别器；以最大化所述第一损失值为目标，更新所述特征提取网络。

在一种实施方式中，该方法还包括：

从第三样本序列中确定包含未被替换的命名实体的第二文本片段，并确定所述第二文本片段的分类标签值为第二值，用于表示未替换命名实体；

采用所述特征提取网络，确定第三样本序列中多个分词的特征隐向量；

基于所述第三样本序列中多个分词的特征隐向量，确定所述第二文本片段的第二片段向量，将所述第二片段向量输入第一判别器，得到第二预测值；

基于所述第二预测值与所述第二值的差异，确定第二损失值；

以最小化所述第二损失值为目标，更新所述第一判别器；以最大化所述第二损失值为目标，更新所述特征提取网络。

在一种实施方式中，所述将所述第一样本序列中的第一命名实体替换为其对应的原始标签字符的步骤，包括：

从所述第一样本序列中的至少一个命名实体中随机确定第一数量个命名实体，作为第一命名实体，将所述第一命名实体替换为其对应的原始标签字符。

在一种实施方式中，所述从所述第二样本序列中确定包含替换的原始标签字符的第一文本片段的步骤，包括：

将所述第二样本序列中，替换的原始标签字符以及与该替换的原始标签字符相邻的命名实体对应的序列，确定为第一文本片段。

在一种实施方式中，确定第一文本片段的第一片段向量的步骤，包括：

从所述第二样本序列中多个分词的特征隐向量中，确定所述第一文本片段中每个分词的特征隐向量，计算所述第一文本片段中每个分词的特征隐向量的平均值或加权平均值，得到所述第一文本片段的第一片段向量。

在一种实施方式中，所述特征提取网络包括双向递归神经网络；所述采用特征提取网络，确定所述第二样本序列中多个分词的特征隐向量的步骤，包括：

采用所述特征提取网络，按照序列的前向顺序，递归地确定所述第二样本序列中多个分词的第一初始隐向量；

采用所述特征提取网络，按照序列的后向顺序，递归地确定所述第二样本序列中多个分词的第二初始隐向量；

针对所述第二样本序列中的每个分词，将该分词的第一初始隐向量和第二初始隐向量进行融合，得到该分词的特征隐向量。

在一种实施方式中，所述第一判别器包括多层感知器MLP。

在一种实施方式中，所述双向递归神经网络包括双向循环神经网络RNN或双向长短期记忆LSTM。

第二方面，实施例提供了一种使用模型对命名实体识别的方法，通过计算机执行，包括：

获取待识别的包含多个分词的第一分词序列，多个分词包含命名实体和非命名实体；

将所述第一分词序列输入训练好的特征提取网络，得到所述第一分词序列中多个分词的特征隐向量；所述特征提取网络采用权利要求1的方法训练得到；

基于所述第一分词序列的多个分词的特征隐向量，确定所述第一分词序列的每个分词在多个预设标签上的分布概率；

基于所述第一分词序列的每个分词的分布概率，确定每个分词对应的预设标签。

第三方面，实施例提供了一种用于识别命名实体的模型的对抗训练装置，部署在计算机中，包括：

第一获取模块，配置为，获取包含多个分词的第一样本序列和其中多个分词的原始标签字符，多个分词包含命名实体和非命名实体；

第一替换模块，配置为，将所述第一样本序列中的第一命名实体替换为其对应的原始标签字符，得到第二样本序列，并从所述第二样本序列中确定包含替换的原始标签字符的第一文本片段，确定所述第一文本片段的分类标签值为第一值，用于表示已替换命名实体；

第一提取模块，配置为，采用特征提取网络，确定所述第二样本序列中多个分词的特征隐向量；

第一预测模块，配置为，基于所述第二样本序列中多个分词的特征隐向量，确定所述第一文本片段的第一片段向量，将所述第一片段向量输入第一判别器，得到第一预测值；

第一确定模块，配置为，基于所述第一预测值与所述第一值的差异，确定第一损失值；

第一更新模块，配置为，以最小化所述第一损失值为目标，更新所述第一判别器；以最大化所述第一损失值为目标，更新所述特征提取网络。

在一种实施方式中，该装置还包括：

第二确定模块，配置为，从第三样本序列中确定包含未被替换的命名实体的第二文本片段，并确定所述第二文本片段的分类标签值为第二值，用于表示未替换命名实体；

第二提取模块，配置为，采用所述特征提取网络，确定所述第三样本序列中多个分词的特征隐向量；

第二预测模块，配置为，基于所述第三样本序列中多个分词的特征隐向量，确定所述第二文本片段的第二片段向量，将所述第二片段向量输入所述第一判别器，得到第二预测值；

第三确定模块，配置为，基于所述第二预测值与所述第二值的差异，确定第二损失值；

第二更新模块，配置为，以最小化所述第二损失值为目标，更新所述第一判别器；以最大化所述第二损失值为目标，更新所述特征提取网络。

在一种实施方式中，所述第一替换模块，将所述第一样本序列中的第一命名实体替换为其对应的原始标签字符时，包括：

在一种实施方式中，所述第一替换模块，从所述第二样本序列中确定包含替换的原始标签字符的第一文本片段时，包括：

在一种实施方式中，所述第一预测模块，确定所述第一文本片段的第一片段向量时，包括：

在一种实施方式中，所述特征提取网络包括双向递归神经网络；所述第一提取模块，具体配置为：

在一种实施方式中，所述第一判别器包括多层感知器MLP。

第四方面，实施例提供了一种使用模型对命名实体识别的装置，部署在计算机中，包括：

第二获取模块，配置为，获取待识别的包含多个分词的第一分词序列，多个分词包含命名实体和非命名实体；

第一输入模块，配置为，将所述第一分词序列输入训练好的特征提取网络，得到所述第一分词序列中多个分词的特征隐向量；所述特征提取网络采用权利要求1的方法训练得到；

第四确定模块，配置为，基于所述第一分词序列的多个分词的特征隐向量，确定所述第一分词序列的每个分词在多个预设标签上的分布概率；

第五确定模块，配置为，基于所述第一分词序列的每个分词的分布概率，确定每个分词对应的预设标签。

第五方面，实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面至第二方面中任一项所述的方法。

第六方面，实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面至第二方面中任一项所述的方法。

本说明书实施例提供的方法和装置，可以将第一样本序列中的第一命名实体假设为稀有实体，通过将其替换为对应的原始标签字符，构建频率不敏感的命名实体，并确定包含替换的原始标签字符的分类标签，构建样本，基于特征提取网络和第二样本序列确定第一文本片段的片段向量，再采用第一判别器对该第一文本片段是否经过替换进行判别。经过不断的训练之后，能够使得具有较高判别能力的第一判别器也无法判别出第一文本片段是否经过替换，而在该对抗训练过程中特征提取网络的特征提取能力也会提高。当特征提取网络的特征提取能力提高时，利用特征提取网络对命名实体的识别也会更加有效、更加准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1本说明书披露的一个实施例的实施场景示意图；

图2为实施例提供的一种用于识别命名实体的模型的对抗训练方法的流程示意图；

图3为一个第一文本片段的示例图；

图4为本实施例提供的一种使用模型对命名实体识别的方法流程示意图；

图5为实施例提供的一种用于识别命名实体的模型的对抗训练装置的示意性框图；

图6为实施例提供的一种使用模型对命名实体识别的装置示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1本说明书披露的一个实施例的实施场景示意图。其中，将包含多个分词的分词序列

输入特征提取网络，特征提取网络可以输出每个分词的特征隐向量

，基于每个特征隐向量可以确定每个分词在各个分类中的分布概率，并基于这些分布概率，得到每个分词的分类结果，即每个分词对应于哪个分类的标签。分类可以采用标签表示。SOS为分词序列的开始符号，EOS为分词序列的结尾符号。

命名实体（Entity），也可以称为实体词，在词性中具有名词性质，包括人名、机构名、地名以及其他所有以名称为标识的实体类别，更广泛的命名实体还包括数字、日期、货币、地址等类别。

针对一个包含多个分词的分词序列，可以预先根据定义的标签对每个分词进行标注。以下表1为一个例子中定义的标签所对应的含义。

表1

标签	含义	标签	含义	标签	含义
						n	普通名词	f	方位名词	s	处所名词
nw	作品名	PER	人名	LOC	地名
						ORG	机构名	TIME	时间	O	其他

在表1中，“O”代表的含义是其他，是指实体名词之外的其他词，比如动词、介词、形容词、副词、连词等。从n到TIME的多个标签，是对实体名词的细化分类。以上分类仅仅是为了便于理解而举的例子，其并不构成对本申请的限制。

分词序列可以是对文本序列进行分词之后得到的序列。例如，对英文文本序列进行分词时，每个单词或符号即为一个分词；对中文文本序列进行分词时，可以基于预设的分词词典进行分词。例如，对于英文文本序列“List flights to Indianapolis with fareson Monday morning，please”，其中的每个单词和逗号都可以作为一个分词。对于中文文本序列“请列出周一早上飞往印第安纳波利斯的航班，并提供票价”进行分词之后，可以得到“请-列出-周一-早上-飞往-印第安纳波利斯-的-航班-，-并-提供-票价”这样的分词序列。本说明书并不限定分词序列的具体形式。

为了更有效、更准确地确定分词序列中每个分词对应的分类，通过可以采用训练集对特征提取网络进行训练。其中，训练集可以包含大量的样本序列以及样本序列中每个分词对应的标签。在对特征提取网络训练完成时，可以采用测试集对其进行测试，以确定模型性能。测试集中也包含大量的分词序列和每个分词的标签。由于自然语言的多样性，测试集中可能包含有稀有实体，例如集外词和低频词。集外词是指测试集中出现，但训练集中没有出现过的命名实体。低频词是指测试集中出现，而训练集中出现次数较低的命名实体。使用上述训练集训练的模型无法很好地对这些稀有实体进行正确有效的分类。

为了训练得到有效性更好、准确性更高的模型，使得模型在面临稀有实体时，能更好地对其进行分类识别，本说明书实施例提供了一种对抗训练方法。将第一样本序列中的命名实体替换为其对应的原始标签字符，得到第二样本序列，并从第二样本序列中确定包含替换的原始标签字符的第一文本片段，确定第一文本片段的分类标签值为表示已替换命名实体的第一值，基于第二样本序列中多个分词的特征隐向量，确定第一文本片段的第一片段向量，将第一片段向量输入第一判别器，得到第一预测值，基于第一预测值与第一值的差异，确定第一损失值，以最小化第一损失值为目标，更新第一判别器，以最大化第一损失值为目标，更新特征提取网络。

通过上述对抗训练，第一判别器逐渐训练得到较高的判别能力，而特征提取网络的特征提取能力也逐渐提高，训练的目标是，特征提取网络的提取能力可以强大到，针对替换过和未替换过命名实体文本片段，第一判别器已经无法基于其特征隐向量来进行区别，从而使得特征提取网络对命名实体的频率不敏感。不管具有替换的原始分类标签的命名实体词在训练集中是高频词还是低频词，特征提取网络对其频率不敏感，都能很好地提取其特征。当特征提取网络的特征提取能力提高时，利用特征提取网络对命名实体的识别也会更加有效、更加准确。

下面详细对本说明书实施例进行说明。

图2为实施例提供的一种用于识别命名实体的模型的对抗训练方法的流程示意图。该方法通过计算机执行，该计算机可以通过任何具有计算、处理能力的设备、平台或设备集群来实现。该方法包括以下步骤S210~S260。

步骤S210，获取包含多个分词的第一样本序列和其中多个分词的原始标签字符，多个分词包含命名实体和非命名实体。

第一样本序列可以是从训练集中获取的任意一个样本序列，训练集中包含第一样本序列的每个分词的原始标签字符，该原始标签字符例如可以表示分词是否属于命名实体，以及属于哪种命名实体。该原始标签字符可以参见表1中列出的标签字符。样本序列与上文提到的分词序列的结构相同，即第一样本序列中包含多个分词，第一样本序列通过对文本序列进行分词得到。例如，第一样本序列可以为英文文本序列“List flights toIndianapolis with fares on Monday morning，please”，其中，“List、flights、to、with、fares、on、please”可以属于非命名实体，“Indianapolis、Monday、morning”属于命名实体。第一样本序列可以采用

表示，

为第一样本序列X中的第N个分词，N为整数。

步骤S220，将第一样本序列中的第一命名实体替换为其对应的原始标签字符，得到第二样本序列，并从第二样本序列中确定包含替换的原始标签字符的第一文本片段，确定第一文本片段的分类标签值为第一值，用于表示已替换命名实体。例如，第一值可以采用1表示，而采用0表示未替换命名实体。也可以将1表示未替换命名实体。为了便于说明，以下以采用1表示已替换命名实体的分类标签值。本实施例中，确定第一文本片段的分类标签值为第一值，即将第一文本片段构建为新的样本数据，以用于在本实施例中对特征提取网络和第一判别器进行训练。

在本步骤中，可以从第一样本序列中的至少一个命名实体中随机确定第一数量个命名实体，作为第一命名实体，将第一命名实体替换为其对应的原始标签字符。第一数量可以为预设的相对于第一样本序列的总分词数N较小的数，比如取值为1或2等。

在一种实施方式中，可以针对第一样本序列中的每个分词，生成对应的随机数

，

取值在0到1之间，当随机数大于预设阈值p，且该随机数

对应的分词为命名实体时，将随机数

对应的命名实体作为第一命名实体。采用公式表示即为

（1）

其中，

表示分词

的标签

不为其他分类，也就是

为命名实体分类。按照公式（1）对第一样本序列中的每个分词处理过之后，得到第二样本序列

。

在步骤S220中，从第二样本序列中确定包含替换的原始标签字符的第一文本片段时，可以将第二样本序列中替换的原始标签字符以及与该替换的原始标签字符相邻的命名实体对应的序列，确定为第一文本片段。其中，与该替换的原始标签字符相邻的命名实体，可能在该替换的原始标签字符的前面，或者后面，该相邻的命名实体数量可以为一个或多个，也可以为0。当替换的原始标签字符不存在相邻的命名实体时，直接将该替换的原始标签字符确定为第一文本片段。

例如，图3为一个第一文本片段的示例图。其中，将“Monday”替换为其对应的原始标签字符“TIME”，其相邻命名实体包括“morning”，因此可以将“Monday morning”确定为第一文本片段。该第一文本片段中分词的序号为从j到k。原始标签字符的含义可以参见表1。

步骤S230，采用特征提取网络，确定第二样本序列中多个分词的特征隐向量。本步骤可以理解为，将第二样本序列输入特征提取网络，特征提取网络输出确定的第二样本序列中多个分词的特征隐向量。特征提取网络可以包括循环神经网络（Recurrent neuralnetwork，RNN）或长短期记忆（Long Short-Term Memory，LSTM）。

该特征提取网络还可以是递归神经网络。特征提取网络在确定第二样本序列中多个分词的特征隐向量时，针对其首分词，基于初始隐向量确定该首分词的特征隐向量，针对首分词之后的各个分词，基于上一分词的特征隐向量确定该分词的特征隐向量。初始隐向量可以为预设向量或随机生成的向量。采用递归的方式确定各个分词的特征隐向量时，后一个分词的特征隐向量中包含前面各个分词的信息。特征隐向量为特征向量的一种表现形式，是用于表示分词特征的向量。

在基于初始隐向量或者上一分词的特征隐向量确定分词的特征隐向量时，可以采用递归神经网络中的f函数进行，f函数中包含待更新参数。例如，可以采用以下公式（2）确定每个分词的特征隐向量：

（2）

其中，

为第二样本序列第i个分词的特征隐向量，

为第i-1个分词的特征隐向量，

为初始隐向量。

特征提取网络也可以不采用递归神经网络。采用特征提取网络，确定第二样本序列中多个分词的特征隐向量的过程，可以理解为采用特征提取网络对分词进行编码的过程。

步骤S240，基于第二样本序列中多个分词的特征隐向量，确定第一文本片段的第一片段向量，将第一片段向量输入第一判别器，得到第一预测值。

本步骤中，确定所述第一文本片段的第一片段向量时，可以从第二样本序列中多个分词的特征隐向量中，确定第一文本片段中每个分词的特征隐向量，计算第一文本片段中每个分词的特征隐向量的平均值或加权平均值，得到第一文本片段的第一片段向量。

例如，针对图3中的第一文本片段，可以从第二样本序列中多个分词的特征隐向量中，确定“Monday”和“morning”的特征隐向量，基于这两个特征隐向量的平均值或加权平均值，得到第一文本片段的第一片段向量。

第一文本片段中每个分词的权重，可以预先设定。例如可以对替换的原始标签字符设置较大的权重，其他的相邻命名实体设置较小的权重。针对相邻命名实体设置权重时，可以根据其与替换的原始标签字符的远近来设置。本说明书对权重的设置方式不做限定。分词的权重即为对应的特征隐向量的权重。

一个例子中，第一片段向量可以采用以下公式（3）确定：

（3）

其中，

表示从j到k的第一文本片段的第一片段向量，

为第一文本片段中第m个分词的特征隐向量，上角标d代表已经过替换，m从j取到k，m、j和k都是整数。

第一判别器可以采用多层感知器（Multi-Layer Perceptron，MLP）或其他类型的判别器。第一判别器基于第一片段向量确定第一预测值时，可以采用以下公式（4）进行：

（4）

其中，

和

是第一判别器中的待更新参数，

为第一片段向量，

为第一预测值，

是Sigmoid函数

。

第一预测值可以为0到1之间的数值。第一预测值可以采用单个数值表示，也可以采用分布概率表示，例如第一预测值为（0.2，0.8）。

步骤S250，基于第一预测值与第一值的差异，确定第一损失值。

当第一预测值和第一值均采用分布概率的形式表示分类时，可以采用交叉熵的方式，基于第一预测值与第一值的差异，确定第一损失值。当第一预测值和第一值采用单个数值形式表示分类标签值时，也可以采用其他的损失函数确定第一损失值。

步骤S260，以最小化第一损失值为目标，更新第一判别器，以最大化第一损失值为目标，更新特征提取网络。以最小化第一损失值为目标，更新第一判别器，能够向提高第一判别器的判别能力的方向进行训练。而最大化第一损失值，则是向提高特征提取网络的特征提取能力方向进行训练，当特征提取网络的特征提取能力比较高时，第一判别器不太容易能够分辨出第一文本片段是否经过替换，也就是第一损失值会较大。

在一种实施方式中，可以先对第一判别器训练迭代训练几次，然后再对特征提取网络迭代训练几次，也可以使两者的训练过程交替进行。

更新第一判别器和更新特征提取网络，可以理解为更新其中的参数，包括上述各个步骤中提到的待更新参数。

上述步骤S210~S260为一次迭代过程。该迭代过程可以重复多次，直至迭代过程收敛。收敛条件可以包括，迭代次数大于预设次数阈值，或者第一损失值小于某个阈值等等。在步骤S210~S260所示的迭代过程中，是基于一个第一样本序列来说明的，在另一实施例中，还可以根据步骤S210~S250包含的过程，对多个第一样本序列进行处理，确定多个第一样本序列对应的总的损失值，向减小总的损失值的方向，更新特征提取网络和第一判别器。这样可以减少更新模型参数的次数，提高训练效率。

在本说明书的另一实施例中，构建的第一文本片段属于正样本，还可以构建负样本，以提高模型的训练效果和准确性。在本实施例中，还可以包括以下步骤1a~5a的训练过程：

步骤1a，从第三样本序列中确定包含未被替换的命名实体的第二文本片段，并确定第二文本片段的分类标签值为第二值，用于表示未替换命名实体，例如第二值可以取0。该第二样本片段为构建的负样本。

其中，第三样本序列可以为训练集中的任意样本序列。当第三样本序列为第一样本序列，可以从第一样本序列中确定与第一文本片段位置相同的第二文本片段。

在另一实施方式中，在从第三样本序列中确定第二文本片段时，可以将第三样本序列中的命名实体确定为第二文本片段。该第二文本片段可以包含一个分词，或者多个分词。

步骤2a，采用特征提取网络，确定第三样本序列中多个分词的特征隐向量。本步骤可以参照步骤S230中的说明进行实施，此处不再赘述。

步骤3a，基于第三样本序列中多个分词的特征隐向量，确定第二文本片段的第二片段向量，将第二片段向量输入第一判别器，得到第二预测值。

本步骤可以参照步骤S240的说明进行实施，将第二文本片段中各个分词的特征隐向量替换第一文本片段中各个分词的特征隐向量即可。将第二片段向量替换第一片段向量，可以得到第二预测值。

步骤4a，基于第二预测值与所述第二值的差异，确定第二损失值。本步骤的实施过程可以参照步骤S250中的说明，此处不再赘述。

步骤5a，以最小化第二损失值为目标，更新第一判别器；以最大化第二损失值为目标，更新特征提取网络。本步骤的实施过程可以参照步骤S260中的说明，此处不再赘述。

本实施例中，模型对抗训练的训练目标可以采用公式（5）表示：

（5）

其中，

为第一损失值或者第二损失值，

为第二预测值，即负样本的预测值，

为第一预测值，即表示正样本的预测值，

表示特征提取网络中的待更新参数，

表示第一判别器中的待更新参数。

为第一样本序列或者其他样本序列，Y为原始标签符号。

在本说明书的另一实施例中，上述特征提取网络可以包括双向递归神经网络，例如双向RNN，或双向LSTM。在步骤230中，采用特征提取网络，确定第二样本序列中多个分词的特征隐向量时，可以按照以下步骤1b~3b进行。

步骤1b，采用特征提取网络，按照序列的前向顺序，递归地确定第二样本序列中多个分词的第一初始隐向量。

步骤2b，采用特征提取网络，按照序列的后向顺序，递归地确定第二样本序列中多个分词的第二初始隐向量。

针对图3所示的第二样本序列，序列的前向顺序为从“List”到“please”的过程，序列的后向顺序为从“please”到“List”的过程。前向训练过程和后向训练过程的实施，可以分别根据上述公式（2）表示的执行过程进行，此处不再赘述。对于特征提取网络，其前向过程和后向过程中的参数共享，前向过程和后向过程的不同之处在于序列的前后顺序不同。

步骤3b，针对第二样本序列中的每个分词，将该分词的第一初始隐向量和第二初始隐向量进行融合，得到该分词的特征隐向量。

在将该分词的第一初始隐向量和第二初始隐向量进行融合时，可以将第一初始隐向量和第二初始隐向量进行向量拼接，得到该分词的特征隐向量。

本实施例中，双向训练神经网络所提取的样本特征会更加丰富，这使得针对样本序列的训练过程会更加充分，也使得对模型的训练更有效、更准确。

图4为本实施例提供的一种使用模型对命名实体识别的方法流程示意图。该方法通过计算机执行，该计算机可以通过任何具有计算、处理能力的设备、平台或设备集群来实现。该方法包括以下步骤S410~S440。

步骤S410，获取待识别的包含多个分词的第一分词序列，多个分词包含命名实体和非命名实体。第一分词序列可以是测试集中的任意一个分词序列，也可以是采用其他方式得到的分词序列。

步骤S420，将所述第一分词序列输入训练好的特征提取网络，得到所述第一分词序列中多个分词的特征隐向量。特征提取网络采用图2所示的方法训练得到。

特征提取网络也可以采用双向递归神经网络，例如双向RNN，或者双向LSTM。在这种实施方式中，可以将第一分词序列输入训练好的特征提取网络，得到按照序列的前向顺序确定的第一分词序列的多个分词的前向隐向量，以及按照序列的后向顺序确定的第一分词序列的多个分词的后向隐向量，针对每个分词，将其前向隐向量和后向隐向量进行向量拼接，可以得到该分词的特征隐向量。

步骤S430，基于第一分词序列的多个分词的特征隐向量，确定所述第一分词序列的每个分词在多个预设标签上的分布概率；

本步骤可以采用条件随机场（Conditional Random Field，CRF）确定第一分词序列的每个分词在多个预设标签上的分布概率。CRF中的参数可以预先根据训练集训练完成。具体的，可以将第一分词序列的每个分词的特征隐向量输入CRF中，得到第一分词序列的每个分词在多个预设标签上的分布概率。多个预设标签可以例如参见表1所示的多个标签。

CRF中的参数可以预先根据训练集训练完成。在训练时，例如可以保持特征提取网络中的参数不变，而根据训练集中的标签得到损失值，基于向减小损失值的方向调整CRF的参数。

步骤S440，基于第一分词序列的每个分词的分布概率，确定每个分词对应的预设标签。具体可以将分布概率中，最大概率值对应的预设标签，确定为对应分词的预设标签，即分类结果。

当采用图2所示实施例对特征提取网络训练完成时，即便是分词序列中遇到了低频的命名实体，特征提取网络也能很好地采用特征隐向量对各个分词进行表征。当模型确定的各个分词的特征隐向量有更高的表征能力时，基于分词的特征隐向量进行的命名实体识别也能够更加有效、更加准确。

上述内容对本说明书的特定实施例进行了描述，其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行，并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的，或者可能是有利的。

图5为实施例提供的一种用于识别命名实体的模型的对抗训练装置的示意性框图。该装置500部署在计算机中，该计算机可以通过任何具有计算、处理能力的设备、平台或设备集群来实现。该装置实施例与图2所示方法实施例相对应。该装置500包括：

第一获取模块510，配置为，获取包含多个分词的第一样本序列和其中多个分词的原始标签字符，多个分词包含命名实体和非命名实体；

第一替换模块520，配置为，将所述第一样本序列中的第一命名实体替换为其对应的原始标签字符，得到第二样本序列，并从所述第二样本序列中确定包含替换的原始标签字符的第一文本片段，确定所述第一文本片段的分类标签值为第一值，用于表示已替换命名实体；

第一提取模块530，配置为，采用特征提取网络，确定所述第二样本序列中多个分词的特征隐向量；

第一预测模块540，配置为，基于所述第二样本序列中多个分词的特征隐向量，确定所述第一文本片段的第一片段向量，将所述第一片段向量输入第一判别器，得到第一预测值；

第一确定模块550，配置为，基于所述第一预测值与所述第一值的差异，确定第一损失值；

第一更新模块560，配置为，以最小化所述第一损失值为目标，更新所述第一判别器；以最大化所述第一损失值为目标，更新所述特征提取网络。

在一种实施方式中，装置还包括：

第二确定模块（图中未示出），配置为，从第三样本序列中确定包含未被替换的命名实体的第二文本片段，并确定所述第二文本片段的分类标签值为第二值，用于表示未替换命名实体；

第二提取模块（图中未示出），配置为，采用所述特征提取网络，确定所述第三样本序列中多个分词的特征隐向量；

第二预测模块（图中未示出），配置为，基于所述第三样本序列中多个分词的特征隐向量，确定所述第二文本片段的第二片段向量，将所述第二片段向量输入所述第一判别器，得到第二预测值；

第三确定模块（图中未示出），配置为，基于所述第二预测值与所述第二值的差异，确定第二损失值；

第二更新模块（图中未示出），配置为，以最小化所述第二损失值为目标，更新所述第一判别器；以最大化所述第二损失值为目标，更新所述特征提取网络。

在一种实施方式中，所述第一替换模块520，将所述第一样本序列中的第一命名实体替换为其对应的原始标签字符时，包括：

在一种实施方式中，所述第一替换模块520，从所述第二样本序列中确定包含替换的原始标签字符的第一文本片段时，包括：

在一种实施方式中，所述第一预测模块540，确定所述第一文本片段的第一片段向量时，包括：

在一种实施方式中，所述特征提取网络包括双向递归神经网络；所述第一提取模块530，具体配置为：

在一种实施方式中，所述第一判别器包括多层感知器MLP。

图6为实施例提供的一种使用模型对命名实体识别的装置示意性框图。该装置600部署在计算机中，该计算机可以通过任何具有计算、处理能力的设备、平台或设备集群来实现。该装置实施例与图4所示方法实施例相对应。该装置600包括：

第二获取模块610，配置为，获取待识别的包含多个分词的第一分词序列，多个分词包含命名实体和非命名实体；

第一输入模块620，配置为，将所述第一分词序列输入训练好的特征提取网络，得到所述第一分词序列中多个分词的特征隐向量；所述特征提取网络采用图2所示的方法训练得到；

第四确定模块630，配置为，基于所述第一分词序列的多个分词的特征隐向量，确定所述第一分词序列的每个分词在多个预设标签上的分布概率；

第五确定模块640，配置为，基于所述第一分词序列的每个分词的分布概率，确定每个分词对应的预设标签。

上述装置实施例与方法实施例相对应，具体说明可以参见方法实施例部分的描述，此处不再赘述。装置实施例是基于对应的方法实施例得到，与对应的方法实施例具有同样的技术效果，具体说明可参见对应的方法实施例。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图1至图4任一项所述的方法。

本说明书实施例还提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图1至图4任一项所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于存储介质和计算设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种用于识别命名实体的模型的对抗训练方法，通过计算机执行，包括：

2.根据权利要求1所述的方法，还包括：

采用所述特征提取网络，确定所述第三样本序列中多个分词的特征隐向量；

基于所述第三样本序列中多个分词的特征隐向量，确定所述第二文本片段的第二片段向量，将所述第二片段向量输入所述第一判别器，得到第二预测值；

3.根据权利要求1所述的方法，所述将所述第一样本序列中的第一命名实体替换为其对应的原始标签字符的步骤，包括：

4.根据权利要求1所述的方法，所述从所述第二样本序列中确定包含替换的原始标签字符的第一文本片段的步骤，包括：

5.根据权利要求1所述的方法，所述确定所述第一文本片段的第一片段向量的步骤，包括：

6.根据权利要求1所述的方法，所述特征提取网络包括双向递归神经网络；所述采用特征提取网络，确定所述第二样本序列中多个分词的特征隐向量的步骤，包括：

7.根据权利要求1所述的方法，所述第一判别器包括多层感知器MLP。

8.根据权利要求6所述的方法，所述双向递归神经网络包括双向循环神经网络RNN或双向长短期记忆LSTM。

9.一种使用模型对命名实体识别的方法，通过计算机执行，包括：

10.一种用于识别命名实体的模型的对抗训练装置，部署在计算机中，包括：

11.根据权利要求10所述的装置，还包括：

12.根据权利要求10所述的装置，所述第一替换模块，将所述第一样本序列中的第一命名实体替换为其对应的原始标签字符时，包括：

13.根据权利要求10所述的装置，所述第一替换模块，从所述第二样本序列中确定包含替换的原始标签字符的第一文本片段时，包括：

14.根据权利要求10所述的装置，所述第一预测模块，确定所述第一文本片段的第一片段向量时，包括：

15.根据权利要求10所述的装置，所述特征提取网络包括双向递归神经网络；所述第一提取模块，具体配置为：

16.根据权利要求10所述的装置，所述第一判别器包括多层感知器MLP。

17.根据权利要求15所述的装置，所述双向递归神经网络包括双向循环神经网络RNN或双向长短期记忆LSTM。

18.一种使用模型对命名实体识别的装置，部署在计算机中，包括：

19.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9中任一项所述的方法。

20.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项所述的方法。