CN113536790A

CN113536790A - 基于自然语言处理的模型训练方法及装置

Info

Publication number: CN113536790A
Application number: CN202010293248.7A
Authority: CN
Inventors: 王潇斌; 徐光伟; 龙定坤; 马春平; 丁瑞雪; 谢朋峻
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2021-10-22

Abstract

本发明公开了一种基于自然语言处理的模型训练方法及装置，涉及自然语言处理技术领域，本发明的主要目的在于提升模型识别的准确率。本发明主要的技术方案为：构建自然语言处理模型，所述自然语言处理模型中包括第一模型和第二模型，其中，所述第一模型用于对命名实体进行识别，所述第二模型用于对命名实体的前导字进行识别；采用多任务学习的方式对所述自然语言处理模型进行训练，得到所述自然语言处理模型的损失函数；根据所述自然语言处理模型的损失函数进行优化，得到优化后的自然语言处理模型。

Description

基于自然语言处理的模型训练方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于自然语言处理的模型训练方法及装置。

背景技术

自然语言处理(NLP，Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，由自然语言理解和自然语言生成两个主要的技术领域构成。NLP技术基于大数据、知识图谱、机器学习、语言学等技术和资源，并可以形成机器翻译、深度问答、对话***的具体应用***，进而服务于各类实际业务和产品。

基于自然语言处理的数学模型如隐马尔科夫模型、最大熵模型、条件随机场等等，在应用于实际场景之前，需要对模型进行训练，以保证模型输出结果的准确率。然而，在训练模型的过程中，由于训练样本中的自然语言存在一词多意的理解，使得模型容易出现过拟合导致准确率下降。例如，在进行命名实体识别时，使用存在多意词的样本进行训练(人民医院，其既可以是组织名，也可以是地名)就容易导致模型这些名词特征出现过拟合，导致模型准确率降低。

发明内容

鉴于上述问题，本发明提出了一种基于自然语言处理的模型训练方法及装置，主要目的在于提升模型识别的准确率。

为达到上述目的，本发明主要提供如下技术方案：

一方面，本发明提供一种基于自然语言处理的模型训练方法，具体包括：

构建自然语言处理模型，所述自然语言处理模型中包括第一模型和第二模型，其中，所述第一模型用于对命名实体进行识别，所述第二模型用于对命名实体的前导字进行识别；

采用多任务学习的方式对所述自然语言处理模型进行训练，得到所述自然语言处理模型的损失函数；

根据所述自然语言处理模型的损失函数进行优化，得到优化后的自然语言处理模型。

优选的，所述第一模型采用BiLSTM-CRF模型，其结构包括：

输入层，用于将输入句子转换为向量序列，所述输入句子包括多个字；

BiLSTM层，用于将所述输入层转换的向量序列结合上下文信息生成对应的特征向量；

全连接层，用于接收所述BiLSTM层生成的特征向量，计算每个字对应的输出标签在所有标签上的分布概率；

CRF层，用于根据所述全连接层输出的分布概率按照预设规则确定所有标签的输出序列。

优选的，所述将输入句子转换为向量序列包括：

将所述输入句子拆分为字序列；

获得每个字的向量表示，得到所述输入句子的向量序列。

优选的，所述BiLSTM层包括多个LSTM单元，每个LSTM单元用于输出所述向量序列中一个字向量所对应的具有固定长度的特征向量，其中，多个LSTM单元之间具有与所述向量序列中的字向量排列顺序相对应的关联关系。

优选的，所述第二模型的结构包括：输入层与分类层；

输入层，用于获取输入句子中每个字的向量表示以及所述BiLSTM层生成的特征向量，将特定字的向量表示以及所述特定字在所述特征向量中的对应向量进行拼接，得到拼接后的向量；

分类层，用于利用全连接神经网络根据所述拼接后的向量确定与所述特定字相邻的下一个字为命名实体的分布概率。

优选的，所述自然语言处理模型的损失函数通过如下方式得到：

为第一模型的损失函数和第二模型的损失函数分别设置权重；

根据设置权重后的第一模型的损失函数和第二模型的损失函数计算所述自然语言处理模型的损失函数。

优选的，所述第一模型的损失函数采用CRF似然函数；和/或，

所述第二模型的损失函数采用交叉熵损失函数，所述交叉熵损失函数为所述第二模型针对命名实体的预测分布概率与实际分布概率的交叉熵。

另一方面，本发明提供一种基于自然语言处理的模型训练装置，具体包括：

设置单元，用于构建自然语言处理模型，所述自然语言处理模型中包括第一模型和第二模型，其中，所述第一模型用于对命名实体进行识别，所述第二模型用于对命名实体的前导字进行识别；

训练单元，用于采用多任务学习的方式对所述设置单元构建的自然语言处理模型进行训练，得到所述自然语言处理模型的损失函数；

优化单元，用于根据所述训练单元得到的自然语言处理模型的损失函数进行优化，得到优化后的自然语言处理模型。

优选的，所述第一模型采用BiLSTM-CRF模型，其结构包括：

优选的，所述输入层具体用于：将所述输入句子拆分为字序列；获得每个字的向量表示，得到所述输入句子的向量序列。

优选的，所述第二模型的结构包括：输入层与分类层；

优选的，所述第一模型的损失函数采用CRF似然函数；和/或，

另一方面，本发明提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的基于自然语言处理的模型训练方法。

借由上述技术方案，本发明提供的一种基于自然语言处理的模型训练方法及装置，通过构建具有第一模型和第二模型的模型结构，使得第二模型能够对命名实体的前导字进行识别，从而为第一模型的对命名实体识别提供参考信息，使得所构建的自然语言处理模型具有更高识别命名实体的准确性，避免过拟合现象的出现，在训练该自然语言处理模型时，该模型的损失函数是利用多任务学习的方式训练得到的，即模型损失函数的最优解是基于第一模型与第二模型的损失函数组合优化得到的，使得经过训练的自然语言处理模型在对命名实体进行识别时，能够基于对命名实体前导字的识别进行综合分析，从而提高模型识别命名实体的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提出的一种基于自然语言处理的模型训练方法的流程图；

图2示出了本发明实施例提出的一种自然语言处理模型的结构框图；

图3示出了本发明实施例提出的一种基于自然语言处理的模型训练装置的组成框图；

图4示出了本发明实施例提出的另一种基于自然语言处理的模型训练装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

自然语言处理，即实现人机间自然语言通信，或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。一个中文文本从形式上看是由汉字(包括标点符号等)组成的一个字符串。由字可组成词，由词可组成词组，由词组可组成句子，进而由一些句子组成段、节、章、篇。无论在上述的各种层次：字(符)、词、词组、句子、段等，还是在下一层次向上一层次转变中都存在着歧义和多义现象，即形式上一样的一段字符串，在不同的场景或不同的语境下，可以理解成不同的词串、词组串等，并有不同的意义。

自然语言处理是研究语言能力和语言应用的模型，通过建立计算机算法框架来实现，并通过训练完善、测评，最终用于各种实用***。自然语言处理的模型所应用的场景包括信息检索、机器翻译、文档分类、信息抽取、文本挖掘等。

本发明实施例提供的一种基于自然语言处理的模型训练方法，该模型的主要应用场景为文本内容分析，特别是对文本中命名实体的识别。本方法具体步骤如图1所示，该方法包括：

步骤101、构建自然语言处理模型，该自然语言处理模型中包括第一模型和第二模型。

其中，第一模型用于对文本中的命名实体进行识别，第二模型用于对命名实体的前导字进行识别。

在本步骤中，对于第二模型所识别的前导字是指在命名实体类分词之前的一个字或一个分词。也就是说，在自然语言的表述中，一个前导字之后所跟随的字或词大概率为命名实体。由此可知，本步骤所构建的自然语言处理模型中，第二模型识别前导字的目的在于为第一模型识别命名实体提供参考信息，该参考信息是基于文本中根据分词关联关系所确定的。

步骤102、采用多任务学习的方式对自然语言处理模型进行训练，得到该自然语言处理模型的损失函数。

模型的训练过程是将带有标注信息的样本输入模型，通过输出的结果与样本实际的标注信息比对，从而调整模型的相关参数，使得模型的输出与实际结果更为接近，即让模型具有准确的预测结果。为此，在构建模型时，会为该模型确定一个损失函数，利用训练样本对该损失函数进行优化，得到其最优解，也就是让模型的输出与实际结果最为接近。

在本步骤中，自然语言处理模型的损失函数可以视为由第一模型的损失函数与第二模型的损失函数组合构成，其具体的组合方式不限定是加权求和、求平均、取最大值等等。本步骤中对自然语言处理模型的损失函数求最优解的过程，就是对第一模型的损失函数与第二模型的损失函数组合的最优解，实现了在输出结果中不仅考虑输入文本内容的特征，还考虑了与该文本内容相关联的文本内容，从而避免模型的过拟合。为此，本步骤采用多任务学习的方式，将第一模型的损失函数与第二模型的损失函数分别设置为两个不同的任务进行组合训练。

步骤103、根据自然语言处理模型的损失函数进行优化，得到优化后的自然语言处理模型。

本步骤中对自然语言处理模型的损失函数进行优化的过程，即为上述步骤中通过多任务学习的方式求取最优解的过程，对此，由于多任务学习已广泛应用于自然语言处理领域中，本步骤对于该求解过程不做详细说明。

通过上述实施例的说明，本发明提供的一种基于自然语言处理的模型训练方法，主要是构建具有第一模型和第二模型的模型结构，使得第二模型能够对命名实体的前导字进行识别，可以为第一模型识别命名实体提供参考信息，在训练该自然语言处理模型时，该模型的损失函数也是由第一模型与第二模型所对应的损失函数组合构成，即模型损失函数的最优解是基于第一模型与第二模型损失函数的组合优化得到，使得经过训练的自然语言处理模型在对文本识别命名实体时，能够基于前导字进行综合分析以确定对应的命名实体，提高模型输出的准确率，避免出现模型过拟合的现象。

进一步的，针对图1中所述的自然语言处理模型，以下详细说明将该模型应用于命名实体识别任务的场景中时，该模型的构建与训练的具体过程：

首先，对于构建命名实体识别模型，命名实体识别任务是自然语言处理中的一项基础任务，就是指从文本中识别出命名性指称项，为关系抽取等任务做铺垫。一般地，命名实体识别主要指识别出文本中的人名、地名和组织结构名这三类命名实体。目前命名实体识别领域比较流行的方法是把命名实体识别问题转换为一个序列标注的问题，然后通过序列标注的方法来解决。而一般序列标注的解决方法有：隐马尔科夫模型HMM或条件随机场CRF或BiLSTM-CRF或BiLSTM-最大熵。其中前两种是统计学习方法，后面两种是神经网络的方法。

本发明实施例中，命名实体识别模型是在BiLSTM-CRF模型的基础上构建的，具体的：将BiLSTM-CRF模型作为第一模型，其结构主要可分为四层，分别为：输入层、BiLSTM层、全连接层、CRF层。

其中，输入层，用于将输入文本中的句子转换为向量序列，即将输入文本中的句子表示为词向量序列或字向量序列。本实施例中，输入层将输入的句子拆分为字序列，然后通过查表获得每个字的向量表示，从而获得整个句子的向量序列。其中，所查的表为预设的字向量对照表，该对照表中记录有字与向量映射关系。

BiLSTM层，用于将输入层转换的向量序列结合上下文信息生成对应的特征向量。其中，BiLSTM层由多个LSTM单元所组成，每个LSTM单元用于输出向量序列中一个字向量所对应的具有固定长度的特征向量，该特征向量是基于该字向量的前一个与后一个字向量的特征综合确定的，即该特征向量可以视为每个字对应融合了上下文信息的特征向量。因此，多个LSTM单元之间具有与向量序列中的字向量的排列顺序相对应的关联关系。

全连接层，用于接收BiLSTM层生成的特征向量，计算每个字对应的输出标签在所有标签上的分布概率。例如，假设有两种实体类型：人物(Person)和机构(Organization)，若采用BIO标注体系，则会得到五中实体标签：B-Person(人物分词的开头)、I-Person(人物分词的中间)、B-Organization(机构分词的开头)、I-Organization(机构分词的中间)、O(不属于任何一类)，全连接层将针对每个字输出其在对应标签的分布概率，如B-Person(1.5)，I-Person(0.9)，B-Organization(0.1)，I-Organization(0.08)，O(0.05)。

CRF层，用于根据所述全连接层输出的分布概率按照预设规则确定所有标签的输出序列。即按照预设规则来分析输出序列的合理性，从而得到合理的预测结果，实现对句子中命名实体分词的标注。也就是说，CRF层根据对各个字的概率分布，搜索全局最优的输出序列，即将字进行组合，并在由字组合的分词上标注命名实体的标签。

以上是对BiLSTM-CRF模型的结构说明，其为目前用于命名实体识别的常用模型，对其具体的实现原理，本实施例中不再做详细说明。而对于本实施例中所需构建命名实体识别模型，除了使用该BiLSTM-CRF模型作为第一模型外，还需构建第二模型，该第二模型用于通过对输入字向量的分析确定与输入字向量相邻的下一个字为命名实体的分布概率，该第二模型的具体的结构包括：输入层与分类层。

其中，输入层用于获取输入文本的句子中各个字的向量，具体的，该输出层的输入数据来源于第一模型输入层与BiLSTM层的输出，即将第一模型中输入层输出的第一向量与BiLSTM层输出的第二向量相拼接，其中，第一向量是输入句子中每个字的向量表示，第二向量为与所述第一向量相对应的特定字在特征向量中对应的向量。比如，输入层输出的第一向量为[1,2]，BiLSTM层输出特征向量中所对应的第二向量为[3,4]，那么第二模型的输入层将这两个向量拼接后得到向量[1,2,3,4]，作为输出结果，输入分类层。

分类层，用于利用全连接神经网络根据输入层输出的拼接后的向量确定与特定字相邻的下一个字为命名实体的分布概率。

在本实施例中，第二模型的目的是要确定文本中的前导字，其中前导字是指在命名实体类分词之前的一个字或词，比如，句子“我去北京”中，“北京”为地名，对应的“去”就是前导字，第二模型通过识别所输入的字为前导字的概率，以此对该字的下一个字为命名实体类的字给出其对应的分布概率，也就是说，第二模型所识别的字为前导字的概率越大，则该字的下一个字为命名实体的概率也就越大。而通过对前导字的识别，相当于增加了对命名实体识别的维度，因而避免出现对一词多意的字在不同场景下有不同应用导致的模型过拟合现象。

经过上述对第一模型与第二模型的结构说明，构建自然语言处理模型还需要为其确定损失函数，在本发明实施例中，该损失函数由第一模型的损失函数和第二模型的损失函数组合构成。具体的，对于上述第一模型的第一模型的损失函数采用CRF似然函数，即在给定标签的情况下，看输出哪个标签的概率分布，并确定其中一个最优的给定标签。对于上述第二模型的损失函数则采用交叉熵损失函数，该交叉熵损失函数为第二模型针对命名实体的预测分布概率与实际分布概率的交叉熵。交叉熵在深度学习中一般用于求目标与预测值之间的差距，根据上述实施例的说明，预测分布概率就是指字是否为前导字的概率，而实际分布概率则是指样本中该字是否为前导字，而在实际应用中，训练样本仅标注命名实体所对应的分词或字，并不标注前导字，对此，需要在处理分词时需要看字的一下个字或词是否为标注的命名实体，若是，则认为该字为前导字，否则，确定该字不是前导字。

进一步的，自然语言处理模型的损失函数，是将第一模型的损失函数与第二模型的损失函数按照预设权重加权求和得到，即当第二模型的损失函数的权重越大，则说明前导字对命名实体分词识别的影响越大。为此，需要预先为第一模型的损失函数和第二模型的损失函数分别设置权重。

根据上述对自然语言处理模型的构建说明，自然语言处理模型的具体结构如图2所示，其中，在第一模型中分别示出了输入层、BiLSTM层以及CRF层，全连接层未显示，第二模型中的包括输入层与分类层，并且，该输入层的输入数据来源与第一模型的输入层与BiLSTM层。而第一模型与第二模型各自的损失函数则共同组成的自然语言处理模型的损失函数。

最后，利用带有标注的训练样本对上述的然语言处理模型进行训练，即通过训练样本对其损失函数求最优解。而在本发明中，由于自然语言处理模型中存在有多个独立模型的存在，而不同的模型所处理的任务不同，因此，在训练时，可以通过多任务学习的方式训练，以同时优化多个模型的损失函数，使得自然语言处理模型的损失函数可以得到最优解。而具体到本实施例中，对损失函数的优化采用随机梯度下降法，随机梯度下降法在机器学习中求解损失函数的一种常用方法，因此，本实施例中对于随机梯度下降法求损失函数求最优解的原理以及过程不再说明。

以上为针对在命名实体识别场景下，应用本发明实施例所提出的自然语言处理模型进行处理说明，通过上述构建的自然语言处理模型可知，其通过第二模型对句子中的前导字进行有效识别，可以帮助第一模型对句子中的命名实体进行更准确的识别，避免出现对多义词的过拟合现象，提高模型的识别准确率。其中，命名实体识别场景具体可以为针对人名、地名、组织名等实体识别的场景，其具体可以应用于如对话、弹幕文字等实时场景中，也可以应用于普通文本的识别场景中。

进一步的，作为对上述图1所示方法的实现，本发明实施例提供了一种基于自然语言处理的模型训练装置，该装置主要目的在于提升自然语言处理模型识别的准确率。为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图3所示，具体包括：

设置单元21，用于构建自然语言处理模型，所述自然语言处理模型中包括第一模型和第二模型，其中，所述第一模型用于对命名实体进行识别，所述第二模型用于对命名实体的前导字进行识别；

训练单元22，用于采用多任务学习的方式对所述设置单元21构建的自然语言处理模型进行训练，得到所述自然语言处理模型的损失函数；

优化单元23，用于根据所述训练单元22得到的自然语言处理模型的损失函数进行优化，得到优化后的自然语言处理模型。

进一步的，所述设置单元21设置的第一模型采用BiLSTM-CRF模型，其结构包括：

进一步的，所述输入层具体用于：将所述输入句子拆分为字序列；获得每个字的向量表示，得到所述输入句子的向量序列。

进一步的，所述BiLSTM层包括多个LSTM单元，每个LSTM单元用于输出所述向量序列中一个字向量所对应的具有固定长度的特征向量，其中，多个LSTM单元之间具有与所述向量序列中的字向量排列顺序相对应的关联关系。

进一步的，所述设置单元21设置的第二模型的结构包括：输入层与分类层；

进一步的，如图4所示，所述训练单元22得到的自然语言处理模型的损失函数通过如下方式得到，其具体包括：

权重设置模块221，用于为第一模型的损失函数和第二模型的损失函数分别设置权重；

确定模块222，用于根据权重设置模块221设置权重后的第一模型的损失函数和第二模型的损失函数计算所述自然语言处理模型的损失函数。

进一步的，所述第一模型的损失函数采用CRF似然函数；和/或，

另外，本发明实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一个实施例提供的基于自然语言处理的模型训练方法。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的较佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于自然语言处理的模型训练方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一模型采用BiLSTM-CRF模型，其结构包括：

3.根据权利要求2所述的方法，其特征在于，所述将输入句子转换为向量序列包括：

将所述输入句子拆分为字序列；

获得每个字的向量表示，得到所述输入句子的向量序列。

4.根据权利要求2所述的方法，其特征在于，所述BiLSTM层包括多个LSTM单元，每个LSTM单元用于输出所述向量序列中一个字向量所对应的具有固定长度的特征向量，其中，多个LSTM单元之间具有与所述向量序列中的字向量排列顺序相对应的关联关系。

5.根据权利要求2-4中任一项所述的方法，其特征在于，所述第二模型的结构包括：输入层与分类层；

6.根据权利要求1所述的方法，其特征在于，所述自然语言处理模型的损失函数通过如下方式得到：

7.根据权利要求6所述的方法，其特征在于，所述第一模型的损失函数采用CRF似然函数；和/或，

8.一种基于自然语言处理的模型训练装置，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第一模型采用BiLSTM-CRF模型，其结构包括：

10.根据权利要求9所述的装置，其特征在于，所述第二模型的结构包括：输入层与分类层；

11.根据权利要求8所述的装置，其特征在于，所述自然语言处理模型的损失函数通过如下方式得到：

12.根据权利要求11所述的装置，其特征在于，所述第一模型的损失函数采用CRF似然函数；和/或，

13.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-7中任意一项权利要求所述的基于自然语言处理的模型训练方法。