CN113011490A

CN113011490A - 模型训练方法、装置及电子设备

Info

Publication number: CN113011490A
Application number: CN202110281160.8A
Authority: CN
Inventors: 李健; 殷硕; 叶超; 宋斌斌; 何洋; 丁斌; 嵇智; 邓涛; 张文; 国智
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-06-22
Anticipated expiration: 2041-03-16
Also published as: CN113011490B

Abstract

本申请公开了模型训练方法、装置及电子设备，涉及机器学习等人工智能技术领域。具体实现方案为：获取多个待训练模型，所述多个待训练模型包括结构不同的第一待训练模型和第二待训练模型；获取所述第二待训练模型输出的第一目标预估信息，所述第一目标预估信息为所述第二待训练模型输出的与所述第一待训练模型输入的特征信息相关的预估信息；将所述第一目标预估信息作为所述第一待训练模型对应的第一标签信息，对所述第一待训练模型进行训练，以更新所述第一待训练模型的参数。根据本申请的技术，解决了对于***链上多个场景加载的相同任务但是结构各异的预估模型的预估结果一致性比较低的问题，提高了多个预估模型的预估结果的一致性。

Description

模型训练方法、装置及电子设备

技术领域

本申请涉及人工智能技术领域，尤其涉及机器学习技术领域，具体涉及一种模型训练方法、装置及电子设备。

背景技术

随着计算机技术的高速发展，模型得到了高速发展，各个***通常都会嵌入模型，以进行任务预估。对于***链上的不同场景，受制于性能约束，对于相同的预估任务而言，通常加载的模型往往也不尽相同。

以搜索广告***为例，从上游广告触发、排序、计费各个环节到最终的展现，本质上是一个包含多级漏斗的复杂***，而受制于性能与优化方式的约束，在***的各级漏斗都会有排序和截断问题，因此，往往会在***的不同环节，有着对于相同任务但是结构各异的预估模型，这些模型的预估因子会作为重要排序依据。

目前，对于***链上多个场景加载的相同任务但是结构各异的预估模型通常都是独立训练，以分别得到各个模型的预估因子。

发明内容

本公开提供了一种模型训练方法、装置及电子设备。

根据本公开的第一方面，提供了一种模型训练方法，包括：

获取多个待训练模型，所述多个待训练模型包括结构不同的第一待训练模型和第二待训练模型；

获取所述第二待训练模型输出的第一目标预估信息，所述第一目标预估信息为所述第二待训练模型输出的与所述第一待训练模型输入的特征信息相关的预估信息；

将所述第一目标预估信息作为所述第一待训练模型对应的第一标签信息，对所述第一待训练模型进行训练，以更新所述第一待训练模型的参数。

根据本公开的第二方面，提供了一种模型训练装置，包括：

第一获取模块，用于获取多个待训练模型，所述多个待训练模型包括结构不同的第一待训练模型和第二待训练模型；

第二获取模块，用于获取所述第二待训练模型输出的第一目标预估信息，所述第一目标预估信息为所述第二待训练模型输出的与所述第一待训练模型输入的特征信息相关的预估信息；

第一训练模块，用于将所述第一目标预估信息作为所述第一待训练模型对应的第一标签信息，对所述第一待训练模型进行训练，以更新所述第一待训练模型的参数。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面中的任一项方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行第一方面中的任一项方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面中的任一项方法。

根据本申请的技术解决了对于***链上多个场景加载的相同任务但是结构各异的预估模型的预估结果一致性比较低的问题，提高了多个预估模型的预估结果的一致性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的模型训练方法的流程示意图；

图2是本申请实施例中多场景异构的模型实例示意图；

图3是多场景异构模型中各个模型独立训练后的预估分布的一致性拟合示意图；

图4是多场景异构模型中各个模型共同训练后的预估分布的一致性拟合示意图；

图5是多场景异构模型的软件架构示意图；

图6是根据本申请第二实施例的模型训练装置的结构示意图；

图7是用来实施本公开的实施例的示例电子设备700的示意性框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

第一实施例

如图1所示，本申请提供一种模型训练方法，包括如下步骤：

步骤S101：获取多个待训练模型，所述多个待训练模型包括结构不同的第一待训练模型和第二待训练模型。

本实施例中，模型训练方法涉及人工智能技术，具体涉及机器学习技术领域，其可以广泛应用于包括预估模型的***中。该方法可以由本申请实施例的模型训练装置执行。而模型训练装置可以配置在任意电子设备中，以执行本申请实施例的模型训练方法，该电子设备可以服务器，也可以为终端，这里不做具体限定。

所述多个待训练模型可以均为预估模型，也可以包括至少两个待训练模型为预估模型。其中，预估模型可以为机器学习模型，其用于针对输入信息进行任务预估，以得到该输入信息对应的预估信息，该输入信息可以为图片、文本或视频等，其预估信息可以为针对相应任务预估出来的参数，如相关性参数或排序参数等。

所述多个待训练模型至少包括结构不同的第一待训练模型和第二待训练模型，其结构不同可以指的是模型的复杂程度、实现方式或输入特征维度等不同。

比如，第一待训练模型可以为神经网络模型，而第二待训练模型可以为逻辑回归模型。又比如，第一待训练模型可以为二分类模型，而第二待训练模型可以为三分类模型。还比如，第一待训练模型可以为大模型，第二待训练模型可以为小模型，其大模型和小模型是针对模型的复杂程度而言的。

所述多个待训练模型可以为多级漏斗的复杂***中的预估模型，该复杂***可以包括多个结构各异的预估模型。所述多个待训练模型中第一待训练模型和第二待训练模型的其中之一可以为***的线上模型，其中另一可以为***的线下模型。在一些应用场景中，虽然大模型的性能比较好，但是由于需要兼顾***的处理能力，大模型在有些***中并不适用，因此，可以将针对相同任务的线下大模型和线下小模型进行同时训练，以兼顾其性能一致性，这样既能够保证***的性能，又能够兼顾***的处理能力。在上述应用场景中，所述多个待训练模型分别应用于不同场景，以针对不同场景分别实现相同的任务预估，即这些待训练模型属于多场景异构的模型。

而多场景异构的模型相对于同场景同构多模型而言，所述多个待训练模型与其存在不同之处，其中，同场景同构多模型可以指的是同一场景下，存在多个模型，且模型的架构是相同的，如架构都是神经网络，而不是一个采用神经网络，另一个用树模型，并且这多个模型是独立的，即分别对同一个学习任务独立训练得到。

具体的，其不同之处包括以下几个方面：

这多个待训练模型的结构不同，以搜索广告***而言，从上游广告触发、排序、计费各个环节到最终的展现，本质上是一个包含多级漏斗的复杂***。受制于性能与优化方式的约束，在***的各级漏斗都会有排序和截断问题，因此，往往会在搜索广告***的不同环节，有着对于相同任务但是结构各异的预估模型。本申请实施例的目的即是保证这些预估模型的预估分布的一致性，以保证***的性能。

以搜索广告***为例，对于用户检索的关键词，其具有相关性匹配、粗排和精排等环节，在这些环节中，通常会在上游环节和下游环节分别嵌入相同任务但是结构各异的预估模型，这些预估模型的预估因子会作为重要排序依据，因此，为保证***的性能，在上游环节和下游环节分别嵌入的相同任务的预估模型，通常需要保证其预估结果的一致性，从而可以保证***排序的准确性。

比如，以相关性匹配为例，在搜索广告***的上游漏斗，主要是广告的拉取触发环节，往往应用于近邻检索的方式对关键词与广告进行相关性匹配，因此，用于相关性匹配的预估模型在该场景下的结构往往是底层隐层拆分，上层交互的架构，方便拆分计算与检索。而在***下游，由于性能的松弛，模型往往可以从输入隐层就进行较为充分的混合交互，模型的架构往往是集中紧密的形式。上游环节和下游环节嵌入的针对相关性匹配任务的预估模型的结构不一致。

另外，这多个待训练模型的特征输入可以相同，也可以不同。以文本相关性场景为例，在性能要求较高的情况下，输入往往以核心词为基本组织形式，而在性能要求不高，但是精度要求较高，输入往往以组件或者篇章为组织形式，亦或者有其他非文本的特征输入作为信息补充。

同时，这多个待训练模型的学习任务可以相同，也可以不同。以触发-剪枝场景为例，在需要近邻检索的场景下，一般的学习任务是适配二分类学习，需要更多关注于极端恶劣情况的过滤。而在***下游，对于高相关性的广告组合扶持也是搜索广告场景的一个重要任务，因此漏斗下游模型也会兼顾高质量的识别任务，其是一个多分类模型。

所述多个待训练模型的获取方式可以根据其应用场景的不同而不同，比如，在所述多个待训练模型应用于多级漏斗的复杂***的场景中，可以获取该复杂***中上游环节和下游环节针对相同任务的预估模型，以对其进行共同训练。又比如，在所述多个待训练模型中有的为***线下模型，有的为***线上模型的场景中，可以分别获取针对相同任务的***线下模型和***线上模型，以对其进行共同训练。

步骤S102：获取所述第二待训练模型输出的第一目标预估信息，所述第一目标预估信息为所述第二待训练模型输出的与所述第一待训练模型输入的特征信息相关的预估信息。

由于所述第一待训练模型和第二待训练模型是针对相同任务的预估模型，因此，针对内容实质相同的输入信息，其输出的预估信息至少部分是相关的。比如，第一待训练模型和第二待训练模型均为二分类模型，针对内容实质相同的输入信息，其输出的预估信息通常是相关的。

又比如，第一待训练模型为二分类模型，第二待训练模型为三分类模型，针对内容实质相同的输入信息，二分类模型输出的预估信息与三分类模型输出的预估信息可以存在部分相关。举个例子来说，输入一张图片，二分类模型可以输出图片中存在动物的概率，三分类模型可以输出图片中存在“猫”、“狗”以及其它的概率，二分类模型输出的图片中存在动物的概率与三分类模型输出的图片中存在“猫”和“狗”的概率相关。

所述第一目标预估信息即为所述第二待训练模型输出的与所述第一待训练模型输入的特征信息相关的预估信息，所述第一待训练模型输入的特征信息可以为所述第一待训练模型在训练时输入样本的标签信息。其中，所述第二待训练模型可以为已经训练完成的模型，也可以为未训练完成的模型，在未训练完成时，可以与第一待训练模型依次进行迭代训练，其具体实现过程将在以下实施方式进行详细说明。

在所述多个待训练模型共同训练过程中，为保证第一待训练模型和第二待训练模型的预估一致性，即保证第一待训练模型和第二待训练模型在进行任务预估时其输出的预估分布一致，可以对第一待训练模型和/或第二待训练模型进行一致性约束。

其中，第一待训练模型训练时，为了使用第二待训练模型输出的第一目标预估信息进行一致性约束，通常第二待训练模型输出的预估信息的维度需要大于或等于第一待训练模型输出的预估信息的维度，以保证第一待训练模型的训练数据完整性。也就是说，低分类任务(如二分类)受到多分类任务(如三分类)的单向一致性约束，而相同分类任务的预估模型可以实现双向的一致性约束。

所述第一待训练模型可以接收所述第二待训练模型输出的预估信息，获取预估信息中相关节点的信息，以得到所述第一目标预估信息。比如，第二待训练模型为三分类模型，输出三个概率值，分别为p0、p1和p2，在进行配置时，可以配置三个节点，分别为强相关节点、弱相关节点和不相关节点，将这三个概率值分别通过这三个节点传输给第一待训练模型，所述第一待训练模型相应获取相关节点(强相关节点和弱相关节点)的预估信息作为第一目标预估信息。

在具体实现过程中，可以对不同学习任务进行规则适配，以使低分类任务(如二分类)受到多分类任务(如三分类)的单向一致性约束。比如，若第一待训练模型为低分类任务，第二待训练模型为多分类任务，可以进行规则适配，以使第二待训练模型输出的预估信息传输至第一待训练模型。

另外，为了保证模型的预估性能，多个待训练模型在共同训练时，通常仅接收一个其他的待训练模型的预估信息，即也可以配置第一待训练模型在训练时其损失函数只借鉴第二待训练模型的预估分布。

步骤S103：将所述第一目标预估信息作为所述第一待训练模型对应的第一标签信息，对所述第一待训练模型进行训练，以更新所述第一待训练模型的参数。

该步骤中，可以将所述第一目标预估信息作为所述第一待训练模型对应的第一标签信息，对所述第一待训练模型进行训练，即借鉴第二待训练模型的预估分布，对所述第一待训练模型进行训练，更新所述第一待训练模型的参数，以使第一待训练模型输出的预估信息满足第二待训练模型的预估分布的一致性约束。

在具体训练过程中，每次迭代时，第一待训练模型获取第二待训练模型输出的第一目标预估信息，并前向传播，以基于所述第一目标预估信息获取第一待训练模型的损失信息，之后，对损失信息进行求导获得下降梯度，并后向回传，以基于下降梯度更新所述第一待训练模型的参数。在第一待训练模型的损失信息达到收敛时，所述第一待训练模型的训练完成。

本实施例中，通过将相同任务下的多个预估模型共同训练，将一待训练模型输出的与另一待训练模型输入的特征信息相关的预估信息作为另一待训练模型对应的标签信息进行预估分布的一致性约束，以解决多场景下异构模型所导致的预估分布不一致问题，保证多个模型的预估分布的一致性，从而让预估分布不受多场景、异构模型和底层特征输入以及不同学习任务的影响，大大提高了***对资源的利用率。

可选的，所述步骤S103具体包括：

获取所述第一待训练模型输出的第一预估信息；

确定所述第一标签信息与所述第一预估信息的第一差异信息；

基于所述第一差异信息，更新所述第一待训练模型的参数。

本实施方式限定第一待训练模型在训练时如何进行预估分布的一致性约束，具体的，每次迭代时，输入与第二待训练模型相同的训练样本数据至第一待训练模型，所述第一待训练模型进行前向传播，输出所述第一待训练模型的第一预估信息。

之后，可以通过计算所述第一标签信息与第一预估信息之间的距离，以确定所述第一标签信息与第一预估信息的第一差异信息，并基于所述第一差异信息，更新所述第一待训练模型的参数，以使所述第一标签信息与第一预估信息越来越接近，即使所述第一待训练模型和第二待训练模型的预估分布越来越一致，最终训练完成时达到第一待训练模型和第二待训练模型的高一致性。

本实施方式中，通过获取所述第一待训练模型输出的第一预估信息；确定所述第一标签信息与所述第一预估信息的第一差异信息；基于所述第一差异信息，更新所述第一待训练模型的参数，从而实现在第二待训练模型的预估分布的约束下，对所述第一待训练模型进行训练。

可选的，所述基于所述第一差异信息，更新所述第一待训练模型的参数之前，所述方法还包括：

获取所述第一待训练模型对应的第二标签信息；

确定所述第二标签信息与所述第一预估信息的第二差异信息；

所述基于所述第一差异信息，更新所述第一待训练模型的参数，包括：

基于所述第一差异信息和第二差异信息，更新所述第一待训练模型的参数。

本实施方式中，为了保证第一待训练模型和第二待训练模型的预估分布一致性的基础上，同时保证第一待训练模型的预估性能，第一待训练模型除了输入训练样本数据之外，还可以输入所述第一待训练模型对应的第二标签信息。所述第二标签信息与第一标签信息不同的是，所述第二标签信息为训练样本数据对应的真实标签，相应的，可以获取输入的所述第二标签信息。

之后，可以通过计算所述第二标签信息与第一预估信息之间的距离，以确定所述第二标签信息与第一预估信息的第二差异信息，并基于所述第一差异信息和第二差异信息，更新所述第一待训练模型的参数。

具体的，可以对第一差异信息和第二差异信息进行加权计算，得到所述第一待训练模型的损失信息，基于该损失信息，更新所述第一待训练模型的参数。

本实施方式中，通过将第一标签信息作为软标签，加上真实标签，对第一待训练模型进行训练，从而可以在保证第一待训练模型和第二待训练模型的预估分布一致性的基础上，同时保证第一待训练模型的预估性能。

可选的，所述多个待训练模型还包括第三待训练模型，所述第三待训练模型输出的预估信息的维度大于或等于所述第二待训练模型输出的预估信息的维度；

所述获取所述第二待训练模型输出的第一目标预估信息，包括：

获取所述第三待训练模型输出的第二目标预估信息，所述第二目标预估信息为所述第三待训练模型输出的与所述第二待训练模型输入的特征信息相关的预估信息；

将所述第二目标预估信息作为所述第二待训练模型对应的第三标签信息，对所述第二待训练模型进行训练，以更新所述第二待训练模型的参数；

基于更新的所述第二待训练模型的参数，确定所述第一目标预估信息。

本实施方式中，所述多个待训练模型还可以包括第三待训练模型，即在进行训练时，需要保证第一待训练模型、第二待训练模型和第三待训练模型的预估分布的一致性。

在该种应用场景下，可以在每次迭代时，可以以低分类任务(如二分类)受到多分类任务(如三分类)的单向一致性约束的原则，通过第三待训练模型，来获取所述第二待训练模型输出的第一目标预估信息。也就是说，通过第三待训练模型输出的与所述第二待训练模型输入的特征信息相关的预估信息即第二目标预估信息，对第二待训练模型训练时进行预估分布的一致性约束，以更新第二待训练模型的参数。

在保证第二待训练模型和第三待训练模型的预估分布的一致性的基础上，基于更新的所述第二待训练模型的参数进行前向传播，以得到所述第一目标预估信息，来对第一待训练模型训练时进行预估分布的一致性约束，以更新第一待训练模型的参数。如此，可以实现第二待训练模型和第三待训练模型的预估分布的一致性，以及第二待训练模型和第一待训练模型的预估分布的一致性，从而可以间接实现多个待训练模型的预估分布的一致性。

另外，若所述第三待训练模型输出的预估信息的维度等于所述第二待训练模型输出的预估信息的维度，所述第二待训练模型和第三待训练模型可以实现双向的一致性约束，即所述第二待训练模型输出的预估信息也可以输入至第三待训练模型，以对所述第三待训练模型进行预估分布的一致性约束，以实现第一待训练模型、第二待训练模型和第三待训练模型的共同训练，达到第一待训练模型、第二待训练模型和第三待训练模型的预估分布的一致性。

可选的，所述第一待训练模型输出的预估信息的维度等于所述第二待训练模型输出的预估信息的维度；

所述步骤S101之后，所述方法还包括：

基于更新的所述第一待训练模型的参数，确定所述第一待训练模型输出的第二预估信息；

将所述第二预估信息作为所述第二待训练模型对应的第四标签信息，对所述第二待训练模型进行训练，以更新所述第二待训练模型的参数。

本实施方式中，在第一待训练模型输出的预估信息的维度等于第二待训练模型输出的预估信息的维度的情况下，如均为三分类模型，所述第一待训练模型和第二待训练模型可以相互进行预估分布的一致性约束，即第一待训练模型和第二待训练模型的预估分布相互对齐，共同训练。

具体的，在所述第一待训练模型的本次迭代完成之后，即在本次迭代的第一待训练模型的参数更新之后，可以基于更新的所述第一待训练模型的参数，确定所述第一待训练模型输出的第二预估信息，将所述第二预估信息作为所述第二待训练模型对应的第四标签信息，对所述第二待训练模型进行预估分布的一致性约束，在一致性约束的基础上，对所述第二待训练模型进行训练，以更新所述第二待训练模型的参数，依次迭代，最终实现第一待训练模型和第二待训练模型的共同训练，达到第一待训练模型和第二待训练模型的预估分布的一致性。

为了更加详细阐述本申请实施例的具体过程，以下以搜索广告***的具体场景为例进行说明。

参见图2，图2是本申请实施例中多场景异构的模型实例示意图，如图2所示，为搜索广告***中实际场景的抽象，包括三个模型，分别为模型A、模型B和模型C，这三个模型的结构不同，模型A是底层编码器分离，上层隐层交互的形式，方便作用在检索场景。而模型B和模型C，虽然都是单编码器的输入形式，在模型B上层还有其他神经网络特征的输入，而模型C则没有，这样的多场景异构模型组合在搜索广告***是比较常见的生产场景。

同时，这三个模型的学习任务也不同，模型A为二分类，模型B和模型C和三分类。另外，多场景异构模型受制于模型结构的不同与性能约束的不同，模型的特征输入是需要针对每个模型进行选择的，如图2所示每个模型从特征池中进行特征的筛选。

对于多场景异构模型，在进行训练时，单个模型的损失函数只借鉴一个模型预估分布，即任务兼容的一致性约束处理时，低分类任务(二分类)受到多分类任务(三分类)的单向一致性约束，并且保证每个模型只受到一个模型的一致性函数约束，这样，可以保证模型的预估性能，即保证模型评估指标不会受到影响。如图2所示，训练时，模型A受到模型B的单向一致性约束，而模型B和模型C可以实现双向的一致性约束。

同时，这三个模型放在一个训练框架里共同学习，模型B预估出来的分布传递给模型A，模型A使用其去拟合模型B的分布，具体将其作为标签信息对模型A进行训练，以使模型A的预估分布与模型B的预估分布一致。

以搜索广告***的检索为例，为了检索出与关键词相关的广告，通常需要进行相关性匹配，针对模型B，在输入关键词和广告数据的二元组之后，由于模型B为三分类模型，其会输出三个概率值，可以分别为p0、p1和p2，将这三个概率值输入至模型A。模型A为二分类模型，可以获取相关节点的概率值，分别为p0和p1，通过1-(p0+p1)即可以换算成所述第一待训练模型对应的第一标签信息，可以记为Pa。

综上，与同构单场景相比，多场景异构模型实现了多种学习任务的兼容，在多种特征输出和不同模型结构导致的诸多偏差下，训练时通过对模型进行预估分布的一致性约束，且通过对模型的损失函数组织形式的更新，从而可以实现多场景异构模型的预估分布的高一致性。

为了定量表示多场景异构模型的一致性，可以采用一致性指标来衡量，可以标记为MAE，一致性指标可以通过两个模型的预估分布的差值绝对值来确定，即MAE＝|Za-Zb|，Za和Zb分别表示两个不同模型的预估分布。差值绝对值越大，一致性指标越大，两个模型的预估分布越不一致，差值绝对值越小，一致性指标越小，两个模型的预估分布越一致。

参见图3，图3是多场景异构模型中各个模型独立训练后的预估分布的一致性拟合示意图，参见图4，图4是多场景异构模型中各个模型共同训练后的预估分布的一致性拟合示意图，如图3所示，左边线表示模型B和模型C的预估分布的一致性曲线，右边线表示模型B和模型A的预估分布的一致性曲线，可以看出，各个模型独立训练后，其各个模型的预估分布无法保证一致性。

而如图4所示，不管是模型B和模型C的一致性曲线，还是模型B和模型A的一致性曲线，其均接近y＝x的曲线，即两个模型的预估分布可以达到比较高的一致性。

从软件实现角度，参见图5，图5是多场景异构模型的软件架构示意图，如图5所示，在进行多场景异构模型的训练时，三个模型可以分别进行前向传播和后向传播，以实现模型的一致性约束以及模型参数的更新。

第二实施例

如图6所示，本申请提供一种模型训练装置600，包括：

第一获取模块601，用于获取多个待训练模型，所述多个待训练模型包括结构不同的第一待训练模型和第二待训练模型；

第二获取模块602，用于获取所述第二待训练模型输出的第一目标预估信息，所述第一目标预估信息为所述第二待训练模型输出的与所述第一待训练模型输入的特征信息相关的预估信息；

第一训练模块603，用于将所述第一目标预估信息作为所述第一待训练模型对应的第一标签信息，对所述第一待训练模型进行训练，以更新所述第一待训练模型的参数。

可选的，其中，所述第一训练模块603包括：

第一获取单元，用于获取所述第一待训练模型输出的第一预估信息；

第一确定单元，用于确定所述第一标签信息与所述第一预估信息的第一差异信息；

更新单元，用于基于所述第一差异信息，更新所述第一待训练模型的参数。

可选的，其中，所述装置还包括：

第三获取模块，用于获取所述第一待训练模型对应的第二标签信息；

第一确定模块，用于确定所述第二标签信息与所述第一预估信息的第二差异信息；

所述更新单元，具体用于基于所述第一差异信息和第二差异信息，更新所述第一待训练模型的参数。

可选的，其中，所述多个待训练模型还包括第三待训练模型，所述第三待训练模型输出的预估信息的维度大于或等于所述第二待训练模型输出的预估信息的维度；

所述第二获取模块602包括：

第二获取单元，用于获取所述第三待训练模型输出的第二目标预估信息，所述第二目标预估信息为所述第三待训练模型输出的与所述第二待训练模型输入的特征信息相关的预估信息；

训练单元，用于将所述第二目标预估信息作为所述第二待训练模型对应的第三标签信息，对所述第二待训练模型进行训练，以更新所述第二待训练模型的参数；

第二确定单元，用于基于更新的所述第二待训练模型的参数，确定所述第一目标预估信息。

可选的，其中，所述第一待训练模型输出的预估信息的维度等于所述第二待训练模型输出的预估信息的维度，所述装置还包括：

第二确定模块，用于基于更新的所述第一待训练模型的参数，确定所述第一待训练模型输出的第二预估信息；

第二训练模块，用于将所述第二预估信息作为所述第二待训练模型对应的第四标签信息，对所述第二待训练模型进行训练，以更新所述第二待训练模型的参数。

本申请提供的模型训练装置600能够实现上述模型训练方法实施例实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM703中，还可以存储设备700操作所需的各种程序和数据。计算单元701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调整解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如模型训练方法。例如，在一些实施例中，模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元701执行时，可以执行上文描述的模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方法(例如，借助于固件)而被配置为执行模型训练方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编辑语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种模型训练方法，包括：

2.根据权利要求1所述的方法，其中，所述将所述第一目标预估信息作为所述第一待训练模型对应的第一标签信息，对所述第一待训练模型进行训练，以更新所述第一待训练模型的参数，包括：

获取所述第一待训练模型输出的第一预估信息；

基于所述第一差异信息，更新所述第一待训练模型的参数。

3.根据权利要求2所述的方法，所述基于所述第一差异信息，更新所述第一待训练模型的参数之前，所述方法还包括：

获取所述第一待训练模型对应的第二标签信息；

4.根据权利要求1所述的方法，其中，所述多个待训练模型还包括第三待训练模型，所述第三待训练模型输出的预估信息的维度大于或等于所述第二待训练模型输出的预估信息的维度；

5.根据权利要求1所述的方法，其中，所述第一待训练模型输出的预估信息的维度等于所述第二待训练模型输出的预估信息的维度；

所述将所述第一目标预估信息作为所述第一待训练模型对应的第一标签信息，对所述第一待训练模型进行训练，以更新所述第一待训练模型的参数之后，所述方法还包括：

6.一种模型训练装置，包括：

7.根据权利要求6所述的装置，其中，所述第一训练模块包括：

8.根据权利要求7所述的装置，其中，所述装置还包括：

9.根据权利要求6所述的装置，其中，所述多个待训练模型还包括第三待训练模型，所述第三待训练模型输出的预估信息的维度大于或等于所述第二待训练模型输出的预估信息的维度；

所述第二获取模块包括：

10.根据权利要求6所述的装置，其中，所述第一待训练模型输出的预估信息的维度等于所述第二待训练模型输出的预估信息的维度，所述装置还包括：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。