CN116363452B

CN116363452B - 任务模型训练方法以及装置

Info

Publication number: CN116363452B
Application number: CN202310239876.0A
Authority: CN
Inventors: 冯玉彤; 龚镖; 蒋建文; 吕逸良; 沈宇军; 赵德丽; 周靖人
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2024-01-09
Anticipated expiration: 2043-03-07
Also published as: CN116363452A

Abstract

本说明书实施例提供任务模型训练方法以及装置，其中所述任务模型训练方法包括：获取基础任务模型，其中，所述基础任务模型基于第一图像样本集训练获得；基于所述基础任务模型和初始任务参数，构建初始参考模型；基于至少一组第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集；根据所述基础任务模型、所述至少一个标准参数集和各个标准参数集对应的权重参数，构建待训练任务模型；根据待训练任务的第三图像样本集，训练所述待训练任务模型，调整所述待训练任务模型中的权重参数，获得所述待训练任务对应的目标任务模型；实现了针对不同的下游任务，构建对应的目标任务模型，提高任务模型的处理效率。

Description

任务模型训练方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种任务模型训练方法。

背景技术

基于“基础模型预训练-微调”已成为深度学习应用领域的重要范式，被广泛应用于计算机视觉的各任务领域，如识别、检测、分割等。基础模型通常由大量参数的模型结构在大规模数据上预训练而来，能够为不同的下游任务提供通用的基础表征。但由于基础模型上游预训练任务设计的区别，其在不同下游任务上直接应用时会出现任务差异导致的模型性能不足；若分别针对不同类型的下游任务，重新对模型进行训练微调，不仅会增加多任务处理的计算和部署规模，还会导致任务模型的处理效率降低。

发明内容

有鉴于此，本说明书实施例提供了一种任务模型训练方法。本说明书一个或者多个实施例同时涉及一种任务模型的模型训练***，一种任务模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种任务模型训练方法，包括：

获取基础任务模型，其中，所述基础任务模型基于第一图像样本集训练获得；

基于所述基础任务模型和初始任务参数，构建初始参考模型；

基于至少一组第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集；

根据所述基础任务模型、所述至少一个标准参数集和各个标准参数集对应的权重参数，构建待训练任务模型；

根据待训练任务的第三图像样本集，训练所述待训练任务模型，调整所述待训练任务模型中的权重参数，获得所述待训练任务对应的目标任务模型。

根据本说明书实施例的第二方面，提供了一种任务模型的模型训练***，包括端侧设备和云侧设备，其中：

所述端侧设备，用于构建样本集，并向所述云侧设备发送样本集，其中，所述样本集包括第一图像样本集、第二图像样本集和第三图像样本集；

所述云侧设备，用于获取基础任务模型，其中，所述基础任务模型基于所述第一图像样本集训练获得；基于所述基础任务模型和初始任务参数，构建初始参考模型；基于至少一组所述第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集；根据所述基础任务模型、所述至少一个标准参数集和各个标准参数集对应的权重参数，构建待训练任务模型；根据待训练任务的所述第三图像样本集，训练所述待训练任务模型，调整所述待训练任务模型中的权重参数，获得所述待训练任务对应的目标任务模型。

根据本说明书实施例的第三方面，提供了一种任务模型训练装置，包括：

获取模块，被配置为获取基础任务模型，其中，所述基础任务模型基于第一图像样本集训练获得；

第一构建模块，被配置为基于所述基础任务模型和初始任务参数，构建初始参考模型；

第一训练模块，被配置为基于至少一组第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集；

第二构建模块，被配置为根据所述基础任务模型、所述至少一个标准参数集和各个标准参数集对应的权重参数，构建待训练任务模型；

第二训练模块，被配置为根据待训练任务的第三图像样本集，训练所述待训练任务模型，调整所述待训练任务模型中的权重参数，获得所述待训练任务对应的目标任务模型。

根据本说明书实施例的第四方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述任务模型训练方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述任务模型训练方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述任务模型训练方法的步骤。

本说明书一个实施例，通过获取基础任务模型，其中，所述基础任务模型基于第一图像样本集训练获得；基于所述基础任务模型和初始任务参数，构建初始参考模型；基于至少一组第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集；根据所述基础任务模型、所述至少一个标准参数集和各个标准参数集对应的权重参数，构建待训练任务模型；根据待训练任务的第三图像样本集，训练所述待训练任务模型，调整所述待训练任务模型中的权重参数，获得所述待训练任务对应的目标任务模型。

具体的，根据基础任务模型和初始任务参数，构建初始参考模型，并利用不同的图像样本集对初始参考模型进行训练，以获取不同的标准参数集；进一步地，再利用基础任务模型和各个标准参数集对应的参数权重，构建待训练任务模型，进而，根据待训练任务的第三图像样本集对待训练任务模型进行训练，以获得待训练任务对应的目标任务模型；该种方式，在基础任务模型的基础上，基于多个第二图像样本集开展各个中游任务训练，并优化得到面向各个任务类型的标准参数集，进而，便于下游应用阶段以第三图像样本集作为训练数据进行驱动，对待训练任务模型进行训练，实现了针对不同的下游任务，构建对应的目标任务模型，提高任务模型的处理效率。

附图说明

图1是本说明书一个实施例提供的一种任务模型训练方法的场景示意图；

图2是本说明书一个实施例提供的一种任务模型训练方法的流程图；

图3是本说明书一个实施例提供的一种任务模型训练方法的处理过程示意图；

图4是本说明书一个实施例提供的一种任务模型的模型训练***的处理流程示意图；

图5是本说明书一个实施例提供的一种任务模型训练装置的结构示意图；

图6是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

需要说明的是，本说明书所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

ViM：VisionMiddleware，本提案所提出的视觉中间件模型，由一系列中游任务训练的中间件模块组成。

上游预训练：基于大规模数据和特定任务，对模型从初始化参数开始进行训练的技术。

下游微调：将预训练模型参数针对具体应用任务进行学习的技术。

Transformer：一种基于自注意力机制的基础网络模型。

Adapter：一种针对Transformer模型设计的、以轻量化参数实现在下游任务上快速迁移的模块。

MoE：Mixture-of-Experts：一种基于路由模块的多子模块融合算法。

CLIP：ContrastiveLanguage-ImagePre-training，OpenAI提出的基于大规模图像文本对进行匹配预训练的基础模型及算法。

近年来基于“基础模型预训练-微调”的范式已成为深度学习应用领域的重要范式，被广泛应用于计算机视觉的各任务领域，如识别、检测、分割等。基础模型通常由大量参数的模型结构在大规模数据上预训练而来，能够为不同的下游任务提供通用的基础表征，因此能够减少下游开发者对于网络模型设计和训练的工作量，使用一个基础模型来服务不同任务。但由于基础模型上游预训练任务设计的区别，其在不同下游任务上直接应用时会出现任务差异导致的性能不足；若分别针对不同类型的下游任务，重新对模型进行训练微调，则又会极大增加多任务服务的计算和部署规模。

为使现有的基础模型能够拥有对不同类型任务的统一迁移能力，本申请实施例提出了基于中游知识分解的统一迁移方案ViM，针对单基础模型开展下游应用时，上下游任务差异导致多任务迁移性能不均衡的问题，通过在基础模型预训练后引入一系列并行中游任务，以轻量化的视觉中间件模块实现对模型知识的任务分解；在下游应用过程中，通过自适应的中间件聚集算法实现对相关任务知识的有效利用。本申请所提出的解决方案能够针对多任务场景及客户定制化AI能力场景，提供统一的基础模型表征能力，实现对不同类型任务需求的高效服务。

在本说明书中，提供了一种任务模型训练方法，本说明书同时涉及一种任务模型的模型训练***，一种任务模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本说明书一个实施例提供的一种任务模型训练方法的场景示意图。

需要说明的是，本申请实施例提出了一种中游知识分解的基础任务模型训练范式，能够将通用的模型能力分解到不同的任务上；同时，还提出了一种自适应聚集中游知识组件的算法，能够继承上游的预训练通用表征和中游的分解能力，实现统一的任务迁移。

具体实施时，以基础任务模型为基础，利用多个图像样本集分别训练带有基础任务模型的初始参考模型，获得每个初始参考模型对应的标准参数集；进而，再利用待训练任务的第三图像样本集，训练带有基础任务模型和各个标准参数集构成的待训练任务模型，获得待训练任务的目标任务模型。

实际应用中，可先获取到由第一图像样本集训练获得的基础任务模型，其中，基础任务模型通常由大量参数的模型结构在大规模数据上预训练而来，能够为不同的下游任务提供通用的基础表征；由于基础任务模型上游预训练任务设计的区别，其在不同下游任务上直接应用时会出现任务差异导致的性能不足，因此可通过构建初始参考模型，并通过中等规模的第二图像样本集对各个初始参考模型分别进行训练，获得各个对应的标准参数集；进一步地，通过设计下游的自适应算法，将各个标准参数集进行聚集，实现将中游各个训练好的初始参考模型中的标准参数作为中游知识，利用到具体的下游任务(待训练任务)，实现基础模型的同一迁移，获得目标任务模型，完成各类待训练任务，提高任务处理效率。

综上，本申请实施例提供的任务模型训练方法，由于初始参考模型的训练过程独立并行，且可自由扩展不同的初始参考模型，以增加对新任务需求的支持，另外，通过获取初始参考模型中的标准参数集，再结合下游聚集的方法实现对不同类型任务的支持，进而，能够训练处下游任务对应的目标任务模型，能够继承上游的预训练通用表征和中游的知识分解能力，实现统一任务的迁移。

参见图2，图2示出了根据本说明书一个实施例提供的一种任务模型训练方法的流程图，具体包括以下步骤。

步骤202：获取基础任务模型，其中，所述基础任务模型基于第一图像样本集训练获得。

其中，基础任务模型为是由大规模数据训练获得，且能够为下游任务提供通用的基础表征，需要说明的是，基础任务模型所处理的任务类型并不做任何限定，可以为任意一类的待处理任务，本申请实施例中任务模型可包括图像分割任务、图像分类任务、图像物体检测任务和视觉问答任务中的至少一项任务。为了便于理解，本申请实施例中以计算机视觉的任务领域为例进行说明。

实际应用中，任务模型训练方法的执行主体，通过大规模数据(第一图像样本集)预训练，得到拥有通用表征的基础任务模型。

步骤204：基于所述基础任务模型和初始任务参数，构建初始参考模型。

其中，初始任务参数可以理解为构建中游阶段的待训练模型的初始模型参数；初始参考模型可以理解为中游阶段用于对模型知识进行任务分解所训练的参考模型，便于在训练下游阶段的任务模型从初始参考模型中学习到不同任务处理的参数。

实际应用中，在对中游阶段的待训练模型进行构建时，可以基础任务模型为基础，通过在基础任务模型预训练后引入一系列并行中游任务，以轻量级的初始任务参数实现对模型知识的任务分解；需要说明的是，初始任务参数可以理解为由一系列中游任务训练的中间件模块组成，其中间件模块中可包括不同任务对应的初始模型处理参数以及参数的执行方法等，本实施例对此不作具体限定。

步骤206：基于至少一组第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集。

其中，标准参数集可以理解为在对初始参考模型进行优化训练后，得到的面向各类任务的中游组件，该组件中包含面向各类任务对应的参数集合；需要说明的是，标准参数集可以理解为标准视觉中间件(ViM，VisionMiddleware)，是基于某个特定的基础任务模型建立，具有能够将模型分解到不同任务表征的能力。

实际应用中，执行主体可根据多组第二图像样本集，分别训练初始参考模型，其中，各组的第二图像样本集中图像样本的数量相较于第一图像样本集数量较少，可理解为中等规则的训练数据集，另外，各组第二图像样本集的训练样本不同，但也可能会有重叠的样本图像，本实施例对此不作限定；进而，根据不同集群的图像样本对初始参考模型并行训练，以获得不同的标准参数集，即标准视觉中间件。

进一步地，本实施例中以目标图像样本集对初始参考模型进行训练为例，进行详细介绍；具体的，所述基于至少一组第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集，包括：

在至少一组第二图像样本集确定目标图像样本集；

基于所述目标图像样本集训练所述初始参考模型，获得目标标准参数集。

实际应用中，在多组第二图像样本集中确定目标图像样本集，比如，该目标图像样本集主要是为了训练图像分类任务的样本集，那么，基于目标图样样本集训练初始参考模型，即训练后的初始参考模型具有图像分类的能力，进而，获得的目标标准参数集也可理解为能够将模型分解到图像分类任务的表征能力。

更进一步地，本实施例中提供的初始参考模型可以理解为在基础任务模型的基础上，进行改进的模型；需要说明的是，所述初始参考模型包括至少一层图像处理单元和输出单元，所述至少一层图像处理单元包括初始任务参数集；其中，图像处理单元是指对目标图像样本集中的样本图像进行处理的模块，输出单元可以理解为根据不同中游任务的需要，所引入额外的算法模块来支持不同的处理任务，比如图像分类任务中，引入的额外算法可为分类的线性分类层；目标检测任务，引入的额外算法可为用于目标检测的RoI-Align和FPN等，本实施例对此不作具体限定。

相应地，所述基于所述目标图像样本集训练所述初始参考模型，获得目标标准参数集，包括：

在所述目标图像样本集中选取目标样本图像和图像标签；

将所述目标样本图像输入所述至少一层图像处理单元，获得所述目标样本图像对应的图像特征信息；

将所述图像特征信息输入至所述输出单元，获得所述输出单元输出的图像预测结果；

基于所述图像预测结果与所述图像标签，计算所述初始参考模型的目标损失值；

基于所述目标损失值，调整所述初始参考模型中的初始任务参数集，直至达到训练停止条件，获得目标参考模型，并确定调整后的初始任务参数集为目标标准参数集。

实际应用中，执行主体在目标图像样本集中选取目标样本图像和图像标签，并将目标样本图像输入至至少一个图像处理单元，需要说明的是，上一层图像处理单元的输出为下一层图像处理单元的输入，进而，获得目标样本图像对应的图像特征信息；进一步地，再将图像特征信息输入至输出单元，以获得针对目标样本图像的图像预测结果，在通过计算目标损失值，对初始参考模型中的初始任务参数集进行调整，直至达到训练停止条件，获得目标参考模型，完成了对初始参考模型的优化训练过程，需要说明的是，训练停止条件可参考损失函数值的范围，也可参考训练迭代次数，不同类型的初始参考模型可通过不同的方式确定，本实施例对此不作具体限定；最后，将调整后的初始任务参数集作为目标标准参数集。

需要说明的是，所述目标标准参数集与所述输出单元中的执行任务相关联。实际应用中，输出单元是训练初始参考模型时，引入的额外的算法模块，用于支持不同的中游任务的，所以经过训练调整后的目标标准参数集中的参数与额外的算法模型执行的任务具有关联关系的，同时，这些额外的算法模块将在中游训练完成后被丢弃，以保持不同中间件形式的同一和参数规模的控制。

实际应用中，各层图像处理单元中包括特征提取层、特征处理层，其中，所述特征处理层包括初始任务参数集；其中，特征提取层可以理解为基础任务模型中对图像进行特征提取的具有基础表征能力的处理层，特征处理层可以理解为在每个特征提取层***的中间件模块，其实现形式可为***transformer模型每层的adapter组件，由一系列基础卷积层组成，能够用较少的参数量将模型适配到具体任务上。

需要说明的是，在中间件模块的训练过程中，基础任务模型的参数量保持冻结不变，以避免任务差异而破坏模型的基础表征能力。

相应地，所述将所述目标样本图像输入所述至少一层图像处理单元，获得所述目标样本图像对应的图像特征信息，包括：

将所述目标样本图像，依次输入各个图像处理单元中的所述特征提取层和所述特征处理层，获得所述目标样本图像对应的图像特征信息；

其中，上一层的特征处理层与下一层的特征提取层相连接，所述图像特征信息为最后一层图像处理单元的特征处理层输出。

实际应用中，目标样本图像可依次输入至各层图像处理单元，每层图像处理单元由特征提取层和特征处理层组成，且上一层的特征处理层与下一层的特征提取层相连接，那么，最后一层图像处理单元的特征处理层输出的，则为目标样本图像对应的图像特征信息；需要说明的是，图像处理单元的层数可根据不同的应用场景而定，本实施例对此不作限定。

步骤208：根据所述基础任务模型、所述至少一个标准参数集和各个标准参数集对应的权重参数，构建待训练任务模型。

其中，待训练任务模型可以理解为，下游阶段为了学习中游阶段的中游知识所训练的模型，用于处理复杂的下游任务；需要说明的是，待训练任务模型可由基础任务模型和学习到的中游知识(各个标准中间件聚合后的参数集)构成的。

实际应用中，执行主体在下游阶段利用标准参数集学习各个任务对应的中游知识，以基础任务模型为基础，构建待训练任务模型；需要说明的是，考虑到下游阶段模型微调过程中对于计算量的需求差异，还可获取到各个标准参数集对应的权重参数，利用权重参数设计了两类策略的自适应聚集方法，具体可参见下述构建待训练任务模型提出的两种实施例的描述，在实践中，并不局限于下述两种方式，还可包括其他对各个标准参数集聚合的方式。

本申请实施例提供的一种构建待训练任务模型的方式为，基于权重参数化策略的方法，先通过特定权重将来自不同标准参数集中参数聚集起来，输出到单个中间件模块中，构建待训练任务模型；具体的，所述根据所述基础任务模型、所述至少一个标准参数集和各个标准参数集对应的权重参数，构建待训练任务模型，包括：

确定各个标准参数集对应的权重参数；

基于各个权重参数，聚集所述至少一个标准参数集，获得目标参数集；

根据所述基础任务模型和所述目标参数集，构建待训练任务模型。

其中，权重参数可以理解为各个标准参数集应用于下游任务时的各个参数比例，目标参数集可以理解为下游阶段对构建的各个标准中间件模块的分解不同任务表征的参数集合。

实际应用中，执行主体可确定各个标准参数集对应的权重参数，利用各个权重参数，将来自不同的标准参数集聚集起来，获得集合后的目标参数集，该目标参数集可为具有适应于下游任务的基本任务表征参数集，也即是说，该目标参数集为学***均化聚集难以满足不同任务的需求，因此可采用MoE稀疏聚集策略，通过一个路由模块输出每个标准中间件模块的聚集权重，筛选出权重最高的top-k个模块后，通过softmax函数进行归一化聚集；该聚集策略仅为示例性表述，本实施例不做具体限定。

本申请另一实施例提供的另一种构建待训练任务模型的方式为，先对初始中间件模块进行推理，再对其输出进行权重聚集，构建待训练任务模型；具体的所述根据所述基础任务模型、所述至少一个标准参数集和各个标准参数集对应的权重参数，构建待训练任务模型，包括：

根据各个标准参数集分别对所述基础任务模型进行训练，获得至少一个子任务模型；

基于各个标准参数集对应的权重参数和所述至少一个子任务模型，构建待训练任务模型。

其中，子任务模型可以理解为下游阶段构建待训练任务模型中间预设推理的子模型。

实际应用中，根据各个标准参数集分别为基础任务模型进行训练，获得至少一个子任务模型，并根据各个标准参数集对应的权重参数，和各个子任务模型，构建待训练任务模型。

步骤210：根据待训练任务的第三图像样本集，训练所述待训练任务模型，调整所述待训练任务模型中的权重参数，获得所述待训练任务对应的目标任务模型。

其中，待训练任务可以理解为下游阶段中的下游任务，在视觉处理领域中，该下游任务可包括图像检测+图像分类等复杂的待处理任务。

实际应用中，根据待训练任务对应的第三图像样本集，训练上述构建的待训练任务模型，并通过调整待训练任务模型中的权重参数，优化从中游阶段学习到的中游任务知识，进而，获得训练后的待训练任务对应的目标任务模型，用于处理特定下游任务，提高模型的处理精度。

具体实施时，上述实施例提及的两种构建待训练任务模型的方式，可分别对应不同的训练待训练任务模型的过程，下述实施例中可分别对两种训练过程进行介绍；本实施例提供的第一种构建待训练任务模型，对应的训练待训练任务模型的方式可参考如下：

所述根据待训练任务的第三图像样本集，训练所述待训练任务模型，调整所述待训练任务模型中的权重参数，包括：

将待训练任务的第三图像样本集中的第三样本图像，输入待训练任务模型，获得所述第三样本图像对应的图像预测结果；

基于所述图像预测结果和所述第三图像样本集中的图像标签，计算所述待训练任务模型的任务损失值；

固定所述待训练任务模型中基础任务模型对应的基础参数，并基于所述任务损失值，调整所述待训练任务模型中的权重参数。

实际应用中，确定待训练任务的第三图像样本集中的第三样本图像，并将第三样本图像输入待训练任务模型，以获得第三样本图像对应的图像预测结果，再利用第三图像样本集中的图像标签与图像预测结果，计算待训练任务模型对应的任务损失值；在调整参数的过程中，需要固定待训练任务模型中基础任务模型对应的基础参数，以调整待训练任务模型中的各个标准参数集对应的权重参数即可，具体的，根据任务损失值，对权重参数进行调整，直至达到训练停止条件，获得所述待训练任务对应的目标任务模型。

本实施例提供的第二种构建待训练任务模型，对应的训练待训练任务模型的方式可参考如下：所述根据待训练任务的第三图像样本集，训练所述待训练任务模型，调整所述待训练任务模型中的权重参数，包括：

将待训练任务的第三图像样本集中的第三样本图像，输入至所述至少一个子任务模型，获得各个子任务模型输出的初始图像向量；

基于各个标准参数集对应的权重参数对各个初始图像向量进行处理，获得目标图像向量；

基于所述目标图像向量和所述第三图像样本集中的图像标签，计算所述待训练任务模型的任务损失值；

实际应用中，将待训练任务的第三图像样本集中的第三样本图像，输入至各个子任务模型中，可获得每个子任务模型输出的初始图像向量，再根据各个标准参数集对应的权重参数对各个初始图像向量进行计算处理，获得目标图像向量，进而，利用第三图像样本集中的图像标签和目标图像向量进行损失值计算，获得待训练任务模型对应的任务损失值，再固定基础任务模型中的基础参数，根据任务损失值调整待训练任务模型中的权重参数，以获得待训练任务对应的目标任务模型。

需要说明的是，虽然上述聚集权重在训练过程中会动态变化，但会将基础任务模型中的参数进行固定，根据聚集后的参数对图像进行处理，实现与单个标准参数集相同的计算性能。

需要强调的是，上述基于集成和重参数化的策略分别考虑了下游应用的效果和效率问题，可以根据实际应用需求进行调整。

综上，本说明书实施例提供的任务模型训练方法，提出了一种基于中游知识分解的基础模型训练范式，能够将通用的视觉能力分解到不同类型的任务上；提出了一种自适应聚集中游知识组件的算法，能够继承上游的预训练通用表征和中游的分解能力，实现统一的任务迁移。

下述结合附图3，图3示出了本说明书一个实施例提供的一种任务模型训练方法的处理过程示意图。

本实施例涉及了三个阶段的基础模型应用范式，包含上游阶段、中游阶段和下游阶段，上游通过大规模数据预训练，得到拥有通用表征的基础模型；在此基础上，中游阶段基于一系列中等规模数据集开展中游任务训练，并优化得到面向各类任务的中游组件；下游应用阶段能够以较小规模的数据驱动，通过自适应聚集中游组件的方式形成针对特定任务的模块，有效利用上中游知识进行基础模型的应用。

步骤一：在上游阶段，本实施例基于任意transformer架构的基础模型开展，对其预训练过程和任务无具体要求(如CLIP基于400M图文对开展的预训练)，但应要求该基础模型拥有较好通用视觉表征能力。

步骤二：在中游阶段，本实施例首先引入一系列基于中等规模数据集的中游任务，这些中游任务的任务形式应尽可能多样化(包括但不限于图示的分类、目标检测、语义分割、视觉问答等)。对于每一个中游任务，我们均针对其训练一个视觉中间件模块，其实现形式为***transformer模型每层的adapter组件，由一系列基础卷积层构成，能够用较少的参数量将模型适配到具体任务上。在视觉中间件的训练过程中，基础模型的参数量保持冻结不变，以避免任务差异而破坏模型的基础表征能力；此外，由于不同中游任务的需要，可能需要引入额外的算法模块来支持不同任务(如用于分类的线性分类层、用于目标检测的RoI-Align和FPN等)，这些额外的算法模块将在中游训练完成后丢弃，以保持不同中间件形式的统一和参数规模的控制。由于单个中间件的参数量很少，所有中游任务生成的中间件参数量也远小于原基础模型的参数量，从而能够以轻量化的方式，生成得到一个中间件模块组成的集合，我们将其称之为视觉中间件(VisionMiddleware,ViM)，它基于某个特定的基础模型建立，有着能够将模型分解到不同任务表征的能力。

步骤三：在下游阶段，基于视觉中间件的所学***均化聚集难以满足不同任务的需求，我们基于MoE稀疏聚集策略，通过一个路由模块输出每个中间件模块的聚集权重，筛选出权重最高的top-k个模块后，通过softmax函数进行归一化聚集。2)基于重参数化策略的方法，首先通过特定权重将来自不同中间件模块的参数聚集起来，输出到单个中间件模块中，再对该模块进行推理；虽然聚集权重在训练过程中会动态变化，但其将在推理阶段保持固定，因此可以预先将其聚集后的参数计算得到，从而实现与单个中间件模块相同的计算性能。上述基于集成和重参数化的策略分别考虑了下游应用的效果和效率问题，可以根据实际应用需求进行调整。

综上，本实施例提供的任务模型训练方法，相较于上游多任务学习技术，本方法有着更强的可扩展性，由于不同中游件的训练是完全独立并行的，且中间件的集合可自由扩展，因此本方案所提出的ViM模块可以动态持续地进行维护，以增加对于新任务需求的支持；相较于中游微调技术，引入了可使用多个中游任务进行同时微调的能力，因此能够结合下游聚集方法实现对不同类型任务的支持；相较于下游的快速适配技术，基于中游较大规模的数据驱动，因而相比下游的数据受限场景有着更强的学习能力。

下述结合附图4，图4示出了本说明书一个实施例提供的一种任务模型的模型训练***的处理流程示意图。

图4中的模型训练***400中包括端侧设备402和云侧设备404，其中，所述端侧设备402，用于构建样本集，并向所述云侧设备发送样本集，其中，所述样本集包括第一图像样本集、第二图像样本集和第三图像样本集；

所述云侧设备404，用于获取基础任务模型，其中，所述基础任务模型基于所述第一图像样本集训练获得；基于所述基础任务模型和初始任务参数，构建初始参考模型；基于至少一组所述第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集；根据所述基础任务模型、所述至少一个标准参数集和各个标准参数集对应的权重参数，构建待训练任务模型；根据待训练任务的所述第三图像样本集，训练所述待训练任务模型，调整所述待训练任务模型中的权重参数，获得所述待训练任务对应的目标任务模型。

实际应用中，端侧设备用于构建第一图像样本集、第二图像样本集和第三图像样本集，并提供给云侧设备进行模型训练，其中，图像样本集的含义可参考上述实施例中的示例，在此不做过多赘述。进而，云侧设备在训练获得待训练任务对应的目标任务模型之后，可将训练好的目标任务模型下发至端侧设备进行应用，具体的应用过程在本实施例中不作任何限定；需要说明的是，云侧设备的模型训练过程可参考上述实施例中的详细描述，在此不做重复赘述。

与上述方法实施例相对应，本说明书还提供了任务模型训练装置实施例，图5示出了本说明书一个实施例提供的一种任务模型训练装置的结构示意图。如图5所示，该装置包括：

获取模块502，被配置为获取基础任务模型，其中，所述基础任务模型基于第一图像样本集训练获得；

第一构建模块504，被配置为基于所述基础任务模型和初始任务参数，构建初始参考模型；

第一训练模块506，被配置为基于至少一组第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集；

第二构建模块508，被配置为根据所述基础任务模型、所述至少一个标准参数集和各个标准参数集对应的权重参数，构建待训练任务模型；

第二训练模块510，被配置为根据待训练任务的第三图像样本集，训练所述待训练任务模型，调整所述待训练任务模型中的权重参数，获得所述待训练任务对应的目标任务模型。

可选地，所述第一训练模块506，进一步被配置为：

在至少一组第二图像样本集确定目标图像样本集；

可选地，所述初始参考模型包括至少一层图像处理单元和输出单元，所述至少一层图像处理单元包括初始任务参数集。

可选地，所述第一训练模块506，进一步被配置为：

在所述目标图像样本集中选取目标样本图像和图像标签；

可选地，所述目标标准参数集与所述输出单元中的执行任务相关联。

可选地，各层图像处理单元中包括特征提取层、特征处理层，其中，所述特征处理层包括初始任务参数集；

可选地，所述第一训练模块506，进一步被配置为：

可选地，所述第二构建模块508，进一步被配置为：

确定各个标准参数集对应的权重参数；

可选地，所述第二训练模块510，进一步被配置为：

可选地，所述第二构建模块508，进一步被配置为：

可选地，所述第二训练模块510，进一步被配置为：

本申请实施例提供的任务模型训练装置，根据基础任务模型和初始任务参数，构建初始参考模型，并利用不同的图像样本集对初始参考模型进行训练，以获取不同的标准参数集；进一步地，再利用基础任务模型和各个标准参数集对应的参数权重，构建待训练任务模型，进而，根据待训练任务的第三图像样本集对待训练任务模型进行训练，以获得待训练任务对应的目标任务模型；该种方式，在基础任务模型的基础上，基于多个第二图像样本集开展各个中游任务训练，并优化得到面向各个任务类型的标准参数集，进而，便于下游应用阶段以第三图像样本集作为训练数据进行驱动，对待训练任务模型进行训练，实现了针对不同的下游任务，构建对应的目标任务模型，提高任务模型的处理效率。

上述为本实施例的一种任务模型训练装置的示意性方案。需要说明的是，该任务模型训练装置的技术方案与上述的任务模型训练方法的技术方案属于同一构思，任务模型训练装置的技术方案未详细描述的细节内容，均可以参见上述任务模型训练方法的技术方案的描述。

图6示出了根据本说明书一个实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述任务模型训练方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的任务模型训练方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述任务模型训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述任务模型训练方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的任务模型训练方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述任务模型训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述任务模型训练方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的任务模型训练方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述任务模型训练方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种任务模型训练方法，包括：

基于至少一组第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集，其中，所述基于至少一组第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集，包括在至少一组第二图像样本集确定目标图像样本集，基于所述目标图像样本集训练所述初始参考模型，获得目标标准参数集；

2.根据权利要求1所述的方法，所述初始参考模型包括至少一层图像处理单元和输出单元，所述至少一层图像处理单元包括初始任务参数集；

在所述目标图像样本集中选取目标样本图像和图像标签；

3.根据权利要求2所述的方法，所述目标标准参数集与所述输出单元中的执行任务相关联。

4.根据权利要求2所述的方法，各层图像处理单元中包括特征提取层、特征处理层，其中，所述特征处理层包括初始任务参数集；

5.根据权利要求1所述的方法，所述根据所述基础任务模型、所述至少一个标准参数集和各个标准参数集对应的权重参数，构建待训练任务模型，包括：

确定各个标准参数集对应的权重参数；

6.根据权利要求1-5任意一项所述的方法，所述根据待训练任务的第三图像样本集，训练所述待训练任务模型，调整所述待训练任务模型中的权重参数，包括：

7.根据权利要求1所述的方法，所述根据所述基础任务模型、所述至少一个标准参数集和各个标准参数集对应的权重参数，构建待训练任务模型，包括：

8.根据权利要求7所述的方法，所述根据待训练任务的第三图像样本集，训练所述待训练任务模型，调整所述待训练任务模型中的权重参数，包括：

9.根据权利要求1所述的方法，所述任务模型可执行图像分割任务、图像分类任务、图像物体检测任务和视觉问答任务中的至少一项任务。

10.一种任务模型的模型训练***，包括端侧设备和云侧设备，其中：

所述云侧设备，用于获取基础任务模型，其中，所述基础任务模型基于所述第一图像样本集训练获得；基于所述基础任务模型和初始任务参数，构建初始参考模型；基于至少一组所述第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集；根据所述基础任务模型、所述至少一个标准参数集和各个标准参数集对应的权重参数，构建待训练任务模型；根据待训练任务的所述第三图像样本集，训练所述待训练任务模型，调整所述待训练任务模型中的权重参数，获得所述待训练任务对应的目标任务模型，其中，所述基于至少一组第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集，包括在至少一组第二图像样本集确定目标图像样本集，基于所述目标图像样本集训练所述初始参考模型，获得目标标准参数集。

11.一种任务模型训练装置，包括：

第一训练模块，被配置为基于至少一组第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集，其中，所述基于至少一组第二图像样本集分别训练所述初始参考模型，获得至少一个标准参数集，包括在至少一组第二图像样本集确定目标图像样本集，基于所述目标图像样本集训练所述初始参考模型，获得目标标准参数集；

12.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至9任意一项所述任务模型训练方法的步骤。

13.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至9任意一项所述任务模型训练方法的步骤。