CN117726889A - 一种模型训练方法、采样策略确定方法、装置及计算设备 - Google Patents

一种模型训练方法、采样策略确定方法、装置及计算设备 Download PDF

Info

Publication number
CN117726889A
CN117726889A CN202211093901.0A CN202211093901A CN117726889A CN 117726889 A CN117726889 A CN 117726889A CN 202211093901 A CN202211093901 A CN 202211093901A CN 117726889 A CN117726889 A CN 117726889A
Authority
CN
China
Prior art keywords
resolution
training
model
data
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211093901.0A
Other languages
English (en)
Inventor
刘天娇
钟钊
王语霖
乐阳
黄高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Huawei Technologies Co Ltd
Original Assignee
Tsinghua University
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Huawei Technologies Co Ltd filed Critical Tsinghua University
Priority to CN202211093901.0A priority Critical patent/CN117726889A/zh
Publication of CN117726889A publication Critical patent/CN117726889A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

一种模型训练方法,包括:获取第一采样策略,第一采样策略中包括N个训练阶段中每个训练阶段所需数据的分辨率,且第(i‑1)个训练阶段所需数据的分辨率小于第i个训练阶段所需数据的分辨率,第一采样策略基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到;利用N个训练阶段中各个训练阶段所需的数据的分辨率,分别对第二数据集进行处理,以得到N个数据集;按照分辨率由小到大的顺序,依次利用N个数据集所包含的数据对第二模型进行训练。这样,先使用低分辨率的数据再逐渐引入高分辨率的数据对模型进行训练,且每个训练阶段均是采用的全部的数据,提升了模型训练的精准度。

Description

一种模型训练方法、采样策略确定方法、装置及计算设备
技术领域
本申请涉及人工智能(artificial intelligence,AI)技术领域,尤其涉及一种模型训练方法、采样策略确定方法、装置及计算设备。
背景技术
近年来,在深度学习背景下,数据集的规模和深度神经网络模型的尺寸呈迅速增长的趋势。这一现象带来了性能的显著提升,在计算机视觉领域,大规模深度学习模型在图像识别、语义分割、目标检测、视频理解、3D场景分析等关键问题上已取得了突破性的进展。但是,由于预训练数据集具有较大的样本规模,加之用于训练的神经网络模型往往具有较大的参数量,因此在完成神经网络模型训练过程通常会引入大量计算和时间开销。因此,如何高效的进行神经网络模型训练,缩小训练开销是一个至关重要的技术痛点。
发明内容
本申请提供了一种模型训练方法、采样策略确定方法、模型训练装置、采样策略确定装置、计算设备、计算设备集群、计算机存储介质及计算机产品,能够高效的进行神经网络模型训练,并缩小训练开销。
第一方面,本申请提供一种模型训练方法,该方法可以包括:获取第一采样策略,第一采样策略中包括N个训练阶段中每个训练阶段所需数据的分辨率,且第(i-1)个训练阶段所需数据的分辨率小于第i个训练阶段所需数据的分辨率,2≤i≤N,其中,第一采样策略基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到,第一数据集中包括至少一个图像;利用N个训练阶段中各个训练阶段所需的数据的分辨率,分别对第二数据集进行处理,以得到N个数据集,其中,N个数据集中的每个数据集中数据的分辨率均与N个训练阶段中相应的训练阶段所需的数据的分辨率相同,第二数据集中包括至少一个图像;按照分辨率由小到大的顺序,依次利用N个数据集所包含的数据对第二模型进行训练。
由此,在模型训练过程中,将模型的训练过程划分为多个阶段,并依据训练阶段划分,先使用低频信息(即分辨率低的数据)再逐渐引入高频信息(即分辨率高的数据)的课程训练模式对模型进行训练,且每个训练阶段所需的数据的分辨率均是以某个数据集和一个神经网络模型为基础,在一个特定的分辨率区间中搜索得到,从而使得各个训练阶段所需数据的分辨率并不一定是线性的,而可能是非线性的,进而使得采样策略更能符合真实的模型训练环境,避免了因人工设定采样策略不适配模型训练环境的情况,提升了模型训练的准确度。另外,由于人工难以评价各个训练阶段的分辨率是否能够在保证训练效果的同时,最大限度的降低训练过程中的计算量,所以通过人工设定采样策略的方式并不能保证高效的进行神经网络模型训练和缩小训练开销。而本申请中以某个数据集为基础,并通过模型在特定的分辨率区间中搜索各个训练阶段的分辨率,可以在每个训练阶段均对多个分辨率进行对比,并从中选取出最优的一个分辨率,由此以在保证训练效果的同时,可以最大限度的降低训练过程中的计算量。
此外,在模型训练过程中,在不同的训练阶段,对业务数据的分辨率进行相应的调整即可,而不用评估业务数据的难易程度,降低了模型训练的开销,且每个训练阶段均是采用的全部的业务数据,只是不同阶段采用的业务数据的分辨率不同,提升了模型训练的精准度。另外,在模型训练过程中,通过对业务数据的分辨率进行调整,可以降低输入至模型中的数据的分辨率,而数据分辨率的降低,则会降低训练过程中的计算量,因此可以实现大规模业务数据的高效训练。
在一种可能的实现方式中,在利用N个训练阶段中各个训练阶段所需的数据的分辨率,分别对第二数据集进行处理之前,方法还包括:确定第一采样策略中第N个训练阶段所需数据的分辨率与第二数据集中数据的分辨率之间的第一比例;根据第一比例,对第一采样策略中各个训练阶段所需数据的分辨率进行调整。由此以避免当第N个训练阶段所需数据的分辨率小于第二数据集中数据的分辨率时,无法使用原始数据对第二模型进行训练的情况,以及,避免当第N个训练阶段所需数据的分辨率大于第二数据集中数据的分辨率时,需增大第二数据集中的数据的分辨率而导致增大对第二模型进行训练的开销的情况。
在一种可能的实现方式中,基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到第一采样策略,具体包括:针对获取N个训练阶段中的任意一个训练阶段所需数据的分辨率,获取任意一个训练阶段所需数据的分辨率的分辨率区间,分辨率区间的上限值为在任意一个训练阶段后的第一个训练阶段所需数据的分辨率,分辨率区间的上限值为第一预设分辨率区间中的一个分辨率值,分辨率区间的下限值为第一预设分辨率区间的下限值;从分辨率区间中选取M个分辨率分别对第一数据集进行处理,以得到M个数据集,M≥1;分别利用M个数据集中的每一个数据集对第一模型进行训练,以得到M个模型;基于M个模型中各个模型的精度和目标精度,从M个模型中筛选出目标模型,模型的精度用于表征模型的性能;目标模型的精度大于或等于目标精度,且距离目标精度最近,其中,目标精度为基于第一数据集对第一模型进行训练得到的模型的精度,或者,目标精度为预设值;将训练目标模型所需的数据集的分辨率作为任意一个训练阶段所需数据的分辨率。由此即实现基于第一数据集并通过第一模型在预设分辨率区间内搜索得到所需的分辨率。另外由于本申请中的采样策略是通过第一模型在预设的分辨率区间内搜索得到,所以N个训练阶段所需的数据的分辨率并不一定是线性的,而可能是非线性的,这使得采样策略更能符合真实的模型训练环境,提升模型的训练效果。
在一种可能的实现方式中,当任意一个训练阶段为第N个训练阶段时,分辨率区间与第一预设分辨率区间相同。
在一种可能的实现方式中,在完成对第二模型的训练之后,方法还包括:获取第二采样策略,第二采样策略中包括P个训练阶段中每个训练阶段所需数据的分辨率,且第(q-1)个训练阶段所需数据的分辨率小于第q个训练阶段所需数据的分辨率,2≤q≤P,其中,第二采样策略基于第三数据集并通过第三模型在第二预设分辨率区间内搜索得到,第三数据集中包括至少一个图像;利用P个训练阶段中各个训练阶段所需的数据的分辨率,分别对第四数据集进行处理,以得到P个数据集,其中,P个数据集中的每个数据集中数据的分辨率均与P个训练阶段中相应的训练阶段所需的数据的分辨率相同,第四数据集中包括与下游任务相关的至少一个图像;按照分辨率由小到大的顺序,依次利用P个数据集所包含的数据再次对第二模型进行训练,以得到与下游任务适配的模型。由此即实现将训练得到的第二模型迁移至下游任务,且在迁移过程中,同样先使用低频信息再逐渐引入高频信息的课程训练模式对模型进行训练。这样,在模型迁移训练过程中,在不同的训练阶段,对业务数据的分辨率进行相应的调整即可,而不用评估业务数据的难易程度,降低了模型训练的开销,且每个训练阶段均是采用的全部的业务数据,只是不同阶段采用的业务数据的分辨率不同,提升了模型训练的精准度。另外,在模型训练过程中,通过对业务数据的分辨率进行调整,可以降低输入至模型中的数据的分辨率,而数据分辨率的降低,则会降低训练过程中的计算量,因此可以实现大规模业务数据的高效训练。
第二方面,本申请提供一种采样策略确定方法,该采样策略用于模型训练。该方法可以包括:将第一模型的训练过程划分为N个训练阶段;按照从第N个训练阶段至第1个训练阶段的顺序,依次基于第一数据集并通过第一模型在每个训练阶段对应的分辨率区间内搜索,以得到每个训练阶段所需数据的分辨率;其中,第N个训练阶段对应的分辨率区间的上限值为第一数据集中数据的分辨率,第(i-1)个训练阶段对应的分辨率区间的上限值为第i个训练阶段所需数据的分辨率,每个训练阶段对应的分辨率区间的下限值均为预设分辨率值。由此即实现基于第一数据集并通过第一模型在预设分辨率区间内搜索得到所需的分辨率。另外由于本申请中的采样策略是通过第一模型在预设的分辨率区间内搜索得到,所以N个训练阶段所需的数据的分辨率并不一定是线性的,而可能是非线性的,这使得采样策略更能符合真实的模型训练环境,提升模型的训练效果。
在一种可能的实现方式中,按照从第N个训练阶段至第1个训练阶段的顺序,依次基于第一数据集并通过第一模型在每个训练阶段对应的分辨率区间内搜索,具体包括:针对N个训练阶段中的任意一个训练阶段,获取任意一个训练阶段对应的第一分辨率区间;从第一分辨率区间中选取M个分辨率分别对第一数据集进行处理,以得到M个数据集,M≥1;分别利用M个数据集中的每一个数据集对第一模型进行训练,以得到M个模型;基于M个模型中各个模型的精度和目标精度,从M个模型中筛选出目标模型,模型的精度用于表征模型的性能;目标模型的精度大于或等于目标精度,且距离目标精度最近,其中,目标精度为基于第一数据集对第一模型进行训练得到的模型的精度,或者,目标精度为预设值;将训练目标模型所需的数据集的分辨率作为任意一个训练阶段所需数据的分辨率。
第三方面,本申请提供一种模型训练装置,该装置包括:获取模块和处理模块。其中,获取模块用于获取第一采样策略,第一采样策略中包括N个训练阶段中每个训练阶段所需数据的分辨率,且第(i-1)个训练阶段所需数据的分辨率小于第i个训练阶段所需数据的分辨率,2≤i≤N,其中,第一采样策略基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到,第一数据集中包括至少一个图像。处理模块用于利用N个训练阶段中各个训练阶段所需的数据的分辨率,分别对第二数据集进行处理,以得到N个数据集,其中,N个数据集中的每个数据集中数据的分辨率均与N个训练阶段中相应的训练阶段所需的数据的分辨率相同,第二数据集中包括至少一个图像。处理模块还用于按照分辨率由小到大的顺序,依次利用N个数据集所包含的数据对第二模型进行训练。
在一种可能的实现方式中,处理模块在利用N个训练阶段中各个训练阶段所需的数据的分辨率,分别对第二数据集进行处理之前,还用于:确定第一采样策略中第N个训练阶段所需数据的分辨率与第二数据集中数据的分辨率之间的第一比例;根据第一比例,对第一采样策略中各个训练阶段所需数据的分辨率进行调整。
在一种可能的实现方式中,在基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到第一采样策略时,处理模块还用于:针对获取N个训练阶段中的任意一个训练阶段所需数据的分辨率,获取任意一个训练阶段所需数据的分辨率的分辨率区间,分辨率区间的上限值为在任意一个训练阶段后的第一个训练阶段所需数据的分辨率,分辨率区间的上限值为第一预设分辨率区间中的一个分辨率值,分辨率区间的下限值为第一预设分辨率区间的下限值;从分辨率区间中选取M个分辨率分别对第一数据集进行处理,以得到M个数据集,M≥1;分别利用M个数据集中的每一个数据集对第一模型进行训练,以得到M个模型;基于M个模型中各个模型的精度和目标精度,从M个模型中筛选出目标模型,模型的精度用于表征模型的性能;目标模型的精度大于或等于目标精度,且距离目标精度最近,其中,目标精度为基于第一数据集对第一模型进行训练得到的模型的精度,或者,目标精度为预设值;将训练目标模型所需的数据集的分辨率作为任意一个训练阶段所需数据的分辨率。
在一种可能的实现方式中,当该任意一个训练阶段为第N个训练阶段时,分辨率区间的上限值为第一数据集中数据的分辨率,分辨率区间的下限值为预设分辨率值,其中,第一预设分辨率区间与第N个训练阶段对应的分辨率区间相同。
在一种可能的实现方式中,在处理模块完成对第二模型的训练之后,获取模块,还用于获取第二采样策略,第二采样策略中包括P个训练阶段中每个训练阶段所需数据的分辨率,且第(q-1)个训练阶段所需数据的分辨率小于第q个训练阶段所需数据的分辨率,2≤q≤P,其中,第二采样策略基于第三数据集并通过第三模型在第二预设分辨率区间内搜索得到,第三数据集中包括至少一个图像。处理模块,还用于利用P个训练阶段中各个训练阶段所需的数据的分辨率,分别对第四数据集进行处理,以得到P个数据集,其中,P个数据集中的每个数据集中数据的分辨率均与P个训练阶段中相应的训练阶段所需的数据的分辨率相同,第四数据集中包括与下游任务相关的至少一个图像。处理模块,还用于按照分辨率由小到大的顺序,依次利用P个数据集所包含的数据再次对第二模型进行训练,以得到与下游任务适配的模型。
第四方面,本申请提供一种采样策略确定装置,该采样策略可以用于模型训练。该装置包括:阶段划分模块和处理模块。其中,阶段划分模块用于将第一模型的训练过程划分为N个训练阶段。处理模块用于按照从第N个训练阶段至第1个训练阶段的顺序,依次基于第一数据集并通过第一模型在每个训练阶段对应的分辨率区间内搜索,以得到每个训练阶段所需数据的分辨率。其中,第N个训练阶段对应的分辨率区间的上限值为第一数据集中数据的分辨率,第(i-1)个训练阶段对应的分辨率区间的上限值为第i个训练阶段所需数据的分辨率,每个训练阶段对应的分辨率区间的下限值均为预设分辨率值。
在一种可能的实现方式中,处理模块在按照从第N个训练阶段至第1个训练阶段的顺序,依次基于第一数据集并通过第一模型在每个训练阶段对应的分辨率区间内搜索时,具体用于:针对N个训练阶段中的任意一个训练阶段,获取任意一个训练阶段对应的第一分辨率区间;从第一分辨率区间中选取M个分辨率分别对第一数据集进行处理,以得到M个数据集,M≥1;分别利用M个数据集中的每一个数据集对第一模型进行训练,以得到M个模型;基于M个模型中各个模型的精度和目标精度,从M个模型中筛选出目标模型,模型的精度用于表征模型的性能;目标模型的精度大于或等于目标精度,且距离目标精度最近,其中,目标精度为基于第一数据集对第一模型进行训练得到的模型的精度,或者,目标精度为预设值;将训练目标模型所需的数据集的分辨率作为任意一个训练阶段所需数据的分辨率。
第五方面,本申请提供一种计算设备,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行存储器存储的程序;其中,当存储器存储的程序被执行时,处理器用于执行第一方面或第一方面的任一种可能的实现方式所描述的方法,或者,执行第二方面或第二方面的任一种可能的实现方式所描述的方法。
第六方面,本申请提供一种计算设备集群,包括至少一个计算设备,每个计算设备均包括处理器和存储器。至少一个计算设备的处理器用于执行至少一个计算设备的存储器中存储的指令,以使得计算设备集群执行第一方面或第一方面的任一种可能的实现方式所描述的方法,或者,执行第二方面或第二方面的任一种可能的实现方式所描述的方法。
第七方面,本申请提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法,或者,执行第二方面或第二方面的任一种可能的实现方式所描述的方法。
第八方面,本申请提供一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法,或者,执行第二方面或第二方面的任一种可能的实现方式所描述的方法。
可以理解的是,上述第三方面至第八方面的有益效果可以参见上述第一方面或第二方面中的相关描述,在此不再赘述。
附图说明
图1是本申请实施例提供的一种采用课程学习对神经网络模型进行训练的过程示意图;
图2是本申请实施例提供的一种模型训练***的架构示意图;
图3是图2中所示的采样策略生成模块得到采样策略的过程示意图;
图4是本申请实施例提供的另一种模型训练***的架构示意图;
图5是本申请实施例提供的一种模型训练方法的流程示意图;
图6是本申请实施例提供的一种采样策略确定方法的流程示意图;
图7是本申请实施例提供的一种将目标模型迁移至下游任务的步骤示意图;
图8是本申请实施例提供的一种模型训练装置的结构示意图;
图9是本申请实施例提供的一种采样策略确定装置的结构示意图;
图10是本申请实施例提供的一种计算设备的结构示意图;
图11是本申请实施例提供的一种计算设备集群的结构示意图。
具体实施方式
本文中术语“和/或”,是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系,例如A/B表示A或者B。
本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一响应消息和第二响应消息等是用于区别不同的响应消息,而不是用于描述响应消息的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或者两个以上,例如,多个处理单元是指两个或者两个以上的处理单元等;多个元件是指两个或者两个以上的元件等。
一般地,为提升神经网络模型的训练效率,可以采用课程学习(curriculumlearning,CL)的方式对神经网络模型进行训练。课程学习是一种模仿人类课程的训练策略,它一开始在较简单的数据子集上训练模型,并逐渐拓展到更大更困难的数据子集,直到在整个数据集上训练。示例性的,图1示出了一种采用课程学习对神经网络模型进行训练的过程。如图1所示,以图像分类为例,训练初始阶段,课程学习算法在一个小且简单(清晰、典型、易识别)的数据子集上训练模型;随着训练的进行,算法逐渐加入了更大更困难(较复杂、难识别)的图像样本到当前训练集中;最后,算法在完整的原始训练集上对模型进行训练。
在采用课程学习算法时,一般是先使用预训练模型或者自动化机器学习(automachine learning,AutoML)方法标定全部训练数据的难易度。而后基于各个训练数据的难易度定义特定的训练数据引入计划,即先使用哪一部分数据,在使用哪一部分数据。最后使用该计划,逐渐引入从易到难的训练数据对模型进行训练。
但这种方式,往往存在以下不足:
1)额外开销大、实现难度高:区分训练样本难易度往往需要训练额外的深度神经网络或专门设计的AutoML算法;
2)泛用性差,模型的超参数调整成本高:将算法拓展至不同的深度神经网络和不同业务数据集时,需要重新调整训练数据难易度评估方式和数据引入计划;
3)训练数据未充分利用:训练大部分阶段没有充分利用完整数据集。
有鉴于此,本申请实施例提供了一种模型训练方法,可以将模型的训练过程划分为多个阶段,并依据训练阶段划分,先使用低频信息(即分辨率较低的数据)再逐渐引入高频信息(即分辨率较高的数据)的课程训练模式对模型进行训练。其中,每个训练阶段所需的数据的分辨率均是以某个数据集和一个神经网络模型为基础,在一个特定的搜索空间中搜索得到,且不同的训练阶段所需的分辨率对应的搜索空间不同。这样,在模型训练过程中,在不同的训练阶段,对业务数据的分辨率进行相应的调整即可,而不用评估业务数据的难易程度,降低了模型训练的开销,且每个训练阶段均是采用的全部的业务数据,只是不同阶段采用的业务数据的分辨率不同,提升了模型训练的精准度。另外,在模型训练过程中,通过对业务数据的分辨率进行调整,可以降低输入至模型中的数据的分辨率,而数据分辨率的降低,则会降低训练过程中的计算量,因此可以实现大规模业务数据的高效训练。
示例性的,图2示出了一种模型训练***的架构。如图2所示,该模型训练***200主要包括:采样策略生成模块210、预处理模块220和模型训练模块230。
其中,采样策略生成模块210主要是用于生成采样策略。该采样策略主要是用于确定出在模型训练过程中所需划分的训练阶段,以及,不同阶段所需的数据的分辨率。本实施例中,在采样策略生成模块210中可以配置有代理模型。在一些实施例中,代理模型的网络结构可以与待训练的模型的网络结构相同,或者至少部分相同,以便提升后续模型训练的准确度。示例性的,代理模型可以但不限于为视觉注意力模型(vision transformer,VIT)。
在一些实施例中,采样策略生成模块210可以但不限于以不损失性能为约束,和尽可能降低训练所需的计算开销为目的,基于数据集A,以及通过代理模型并使用贪心搜索算法在预设的分辨率区间内进行搜索,以得到所需的采样策略。示例性的,如图3所示,采样策略生成模块210得到采样策略的过程,可以包括以下步骤:
S310、获取用户输入的训练参数,训练参数包括用户划分的训练阶段的值N、标准模型精度、搜索步长和各个训练阶段所需数据的分辨率的搜索空间中的至少一项,N≥2。
本实施例中,用户可以在与采样策略生成模块210配套的设备或组件所提供的用户界面上输入训练参数。其中,训练参数里包括用户划分的训练阶段的值N、标准模型精度、搜索步长和搜索空间中的至少一项,N≥2。示例性的,用户在输入训练参数时,可以将模型的训练过程划分为N段,即N个训练阶段,设定标准模型精度,搜索步长,以及,设定各个训练阶段所需数据的分辨率的搜索空间等。其中,搜索步长是指在搜索空间中按照该步长进行分辨率搜索。例如,当搜索步长为2时,是指在搜索空间中按照每间隔2个分辨率的方式进行分辨率搜索。当然,训练参数也可以由***自动生成,具体可根据实际情况而定。
在一些实施例中,搜索空间可以理解为是在利用贪心算法搜索各个训练阶段对应的分辨率时所需的最大的搜索空间。示例性的,第N个训练阶段的搜索空间的上限值可以为用户设定的数据的分辨率的最大值,下限值可以为用户设定的数据的分辨率的最小值;第(N-i)个训练阶段的的搜索空间的上限值可以为确定出的第(N-i+1)个训练阶段对应的数据的分辨率,下限值可以为用户设定的数据的分辨率的最小值,1<i≤N。在一些实施例中,搜索空间也可以称之为分辨率区间。示例性的,第N个训练阶段的搜索空间可以为预先设定的分辨率区间。
举例来说,若N=3,用户设定的的数据的分辨率的最大值为224,最小值为96,则第3个训练阶段的搜索空间为[96,224]。若确定出的第3个训练阶段所需的数据的分辨率为200,则第2个训练阶段的搜索空间为[96,200)。若确定出的第2个训练阶段所需的数据的分辨率为150,则第1个训练阶段的搜索空间为[96,150)。
在一些实施例中,在确定出各个训练阶段所需数据的分辨率对应的搜索空间后,可以执行后续步骤。
S320、按照搜索步长,选取第N个训练阶段所需数据的分辨率对应的搜索空间的上限值或下限值作为初始值,并从该搜索空间中依次选取一个分辨率,对训练数据集进行处理,以及,分别利用处理后的数据对代理模型进行训练,以得到H个训练完毕的代理模型,其中,H的值与选取的分辨率的数量相同。
本实施例中,在获取到训练参数后,可以选取第N个训练阶段所需数据的分辨率对应的搜索空间的上限值或下限值作为初始值,并从该搜索空间中依次选取一个分辨率,对训练数据集进行处理。接着,可以分别利用各个分辨率的数据对代理模型进行训练,以得到H个训练完毕的代理模型(以下简称“目标代理模型”)。其中,H的值与从搜索空间中选取的分辨率的数量相同。示例性的,训练数据集中可以包括图像等数据。其中,训练数据集可以为图2中数据集A中包含的数据。
举例来说,当第N个训练阶段所需数据的分辨率对应的搜索空间为[96,224],且搜索步长为10时,可以先将训练数据集中的数据转换为分辨率为224的数据,并对未经训练的代理模型进行训练,得到一个目标代理模型。然后,在将训练数据集中的数据转换为分辨率为214的数据,对未经训练的代理模型进行训练,得到一个目标代理模型。接着,在将训练数据集中的数据转换为分辨率为204的数据,对未经训练的代理模型进行训练,得到一个目标代理模型,直至达到该搜索空间的下限值,或者,找寻不到适宜的分辨率。
S330、分别确定H个目标代理模型的模型精度,以得到H个模型精度,其中,模型的精度用于表征模型的性能。
本实施例中,可以分别利用各个目标代理模型对测试数据集进行处理,以得到各个目标代理模型的模型精度。其中,模型的精度用于表征模型的性能示例性的,以确定一个目标代理模型的模型精度为例,可以利用该模型对测试数据集进行预测,得到预测结果;接着,可以将该预测结果与测试数据集的样本标签进行比较,以得到该模型的模型精度。例如,当测试数据集中有10个样本,且每个样本均具有一个样本标签,即有10个样本标签时,若目标代理模型对该测试数据集预测的结果中有3个结果能够与10个样本标签中的3个标签相同,则该模型的模型精度可以为0.3。示例性的,测试数据集中可以包括图像等数据。其中,测试数据集可以为图2中数据集A中包含的数据。
应理解的是,对于确定各个目标代理模型的模型精度,可以在获取到一个目标代理模型后,立马就确定该模型的模型精度,也可以在获取到多个目标代理模型后,分别在确定各个模型的模型精度,具体可根据实际情况而定,此处不做限定。
S340、根据标准模型精度,从H个模型精度中选取一个目标精度,该目标精度大于标准模型精度且与该标准模型精度距离最近。
本实施例中,可以将各个模型精度与S310中的标准模型精度进行对比。当模型精度小于标准模型精度时,表明该模型精度对应的目标代理模型的精度较低,因此可以舍弃该模型精度。当模型精度大于或等于标准模型精度时,表明该模型精度对应的目标代理模型的精度不低于预先设定的模型精度(即标准模型精度),因此可以保留该模型精度。接着,可以从保留的模型精度中选取一个与标准模型距离最近的模型精度作为目标精度。
应理解的是,由于本实施例中是以不损失模型精度为约束,且尽可能降低训练过程中输入的数据的分辨率为目的。若所选取的目标精度小于标准模型精度,则会造成模型精度损失。若所选取的目标精度大于标准模型精度,但距离标准模型精度太远,这样虽然不会造成模型精度损失,但会造成训练过程中所需的输入数据的分辨率较大。所以,本实施例中选用的目标精度大于标准模型精度且距离标准模型精度最近。这样,就可以最大化降低模型的训练开销。
S350、将在训练目标精度所对应的目标代理模型的过程中所需的数据的分辨率作为第N个训练阶段所需数据的分辨率。
本实施例中,在确定出目标精度后,可以将在训练目标精度所对应的目标代理模型的过程中所需的数据的分辨率作为第N个训练阶段所需数据的分辨率。由于目标精度是选取的可以最大化降低模型的训练开销的精度,所以通过该目标精度确定出训练过程中所需的数据的分辨率为最大化降低模型的训练开销的分辨率。
在一些实施例中,S340也可以理解为是筛选出精度大于或等于目标精度,且精度距离目标精度最近的一个模型。此时,S350可以理解为是将训练筛选出的模型所需的数据的分辨率作为第N个训练阶段所需数据的分辨率。
S360、N=N-1,并判断(N-1)是否大于或等于1。
本实施例中,当确定出第N个训练阶段所需数据的分辨率后,可以确定第(N-1)个训练阶段所需数据的分辨率。此时可以将N置为(N-1),并判断(N-1)是否大于或等于1。当(N-1)大于或等于1时,则返回执行S320;否则,则表明以确定出所有训练阶段所需数据的分辨率,此时可以结束。
由此即可以确定出N个训练阶段中各个训练阶段所需数据的分辨率,从而得到所需的采样策略。
在一些实施例中,样策略生成模块210获取采样策略的过程可以理解为:先将第一模型的训练过程划分为N个训练阶段。在按照从第N个训练阶段至第1个训练阶段的顺序,依次基于第一数据集并通过第一模型在每个训练阶段对应的分辨率区间内搜索,以得到每个训练阶段所需数据的分辨率。其中,第N个训练阶段对应的分辨率区间的上限值为第一数据集中数据的分辨率,第(i-1)个训练阶段对应的分辨率区间的上限值为第i个训练阶段所需数据的分辨率,每个训练阶段对应的分辨率区间的下限值均为预设分辨率值。示例性的,第一数据集可以但不限于为用户指定的数据集,预设分辨率值可以但不限于为用户设定的分辨率值。另外,对于获取任意一个训练阶段所需数据的分辨率的过程,可以参考前述图3中的描述,此处不再赘述。
在一些实施例中,采样策略生成模块210可以只需执行一次,也可以每次均执行,具体可根据实际情况而定,此处不做限定。
预处理模块220主要是用于基于采样策略生成模块210输出的采样策略,对数据集B中的数据进行处理,以得到各个训练阶段所需的数据。示例性的,预处理模块220可以通过降采样的方式对数据集B中的数据进行处理,以得到每个训练阶段所需的数据。例如,当数据集B中包括图像,且图像的分辨率为224x224时,若某个训练阶段所需的数据的分辨率为112x112,则对于数据集B中的每个图像,均可以但不限于每间隔两个像素点采样一个像素,以得到分辨率为112x112的图像。
在一些实施例中,当采样策略中第N个训练阶段所需数据的分辨率与数据集B中数据的分辨率不同时,还可以先确定这两者之间的比例,然后在通过该比例对采样策略中各个训练阶段所需数据分辨率进行等比例调整,以使得第N个训练阶段所需数据的分辨率与数据集B中数据的分辨率相同,从而避免当第N个训练阶段所需数据的分辨率小于数据集B中数据的分辨率时,无法使用原始数据对待训练模型进行训练的情况,以及,避免当第N个训练阶段所需数据的分辨率大于数据集B中数据的分辨率时,需增大数据集B中的数据的分辨率而导致增大对待训练模型的进行训练的开销的情况。
举例来说,当采样策略中包括3个训练阶段,且第1个训练阶段所需数据的分辨率为100,第2个训练阶段所需数据的分辨率为200,第3个训练阶段所需数据的分辨率为300时,若数据集B中的数据的分辨率为600,则可以确定出采样策略中第3个训练阶段所需数据的分辨率与数据集B中的数据的分辨率间的比例为1/2,此时,可以将采样策略中各个训练阶段所需数据的分辨率均增大2倍。这时得到的采样策略中第1个训练阶段所需数据的分辨率为200,第2个训练阶段所需数据的分辨率为400,第3个训练阶段所需数据的分辨率为600。
模型训练模块230主要是基于预处理模块220处理后的各个训练阶段所需的数据,对待训练模型分阶段进行训练,以得到所需的模型。其中,模型训练模块230在对待训练模型进行训练时,也是划分了N个训练阶段,且每个训练阶段所需的数据均为利用采样策略得到的相应的训练阶段所需的数据。在一些实施例中,可以利用N个训练阶段中各个训练阶段所需的数据的分辨率,分别对第二数据集进行处理,以得到N个数据集,其中,N个数据集中的每个数据集中数据的分辨率均与N个训练阶段中相应的训练阶段所需的数据的分辨率相同,第二数据集中包括至少一个图像。然后,可以按照数据的分辨率由小到大的顺序,依次利用N个数据集所包含的数据对第二模型进行训练,以得到所需的模型。当然,也可以每对第二数据集处理一次,就对第二模型训练一次,具体可根据实际情况而定,此处不做限定。其中,每利用一个分辨率的数据对第二模型训练一次后,均可以基于训练得到的模型的损失更新第二模型中的参数;然后,在利用下一个分辨率的数据对参数更新后的第二模型进行训练,如此往复,直至训练结束。
举例来说,当采样策略中包括3个训练阶段,第1个训练阶段所需数据的分辨率为100,第2个训练阶段所需数据的分辨率为200,第3个训练阶段所需数据的分辨率为300,且训练所需的数据集B中数据的分辨率为300时,可以先将数据集B中的数据的分辨率降低至100,然后,利用该分辨率的数据对待训练的模型进行第1个训练阶段的训练,以及在训练完后利用确定出的模型的损失更新模型中的参数;接着,将数据集B中的数据的分辨率降低至200,然后,利用该分辨率的数据对在第1个训练阶段完成后更新参数的模型进行第2个训练阶段的训练,以及在训练完后利用确定出的模型的损失更新模型中的参数;最后,利用数据集B中的数据对在第2个训练阶段完成后更新参数的模型进行第3个训练阶段的训练,以得到所需的模型。
示例性的,图4示出了另一种模型训练***的架构。如图4所示,该模型训练***200主要包括:采样策略生成模块210、预处理模块220、模型训练模块230、采样策略生成模块240、预处理模块250和模型训练模块260。图4所示的***中的上游任务模型训练是指的图2中所示的***的训练过程,即图4中所示的***包括了图2中所示的***。其中,图4所示的***是基于图2中所示的***训练得到的模型,对下游任务所需的模型进行训练,以得到与下游任务适配的模型。本实施例中,图4所示的***主要是描述的将预训练得到的模型(即经模型训练模块230训练得到的模型)迁移至下游任务的过程。示例性的,下游任务可以是用预训练模型或组件的监督学习任务,其是用户所需的任务,比如分类任务、图像处理任务等等。
另外,图4中所示的上游任务模型训练的过程,以及所涉及的各个模块的工作过程和原理,可以参见前述图2中的描述,此处不再赘述。图4中所示的下游任务模型训练的过程,以及所涉及的各个模块的工作过程和原理,与其所示的上游任务模型训练的过程,以及所涉及的各个模块的工作过程和原理类似。具体地,采样策略生成模块240的工作过程和原理,可以参见采样策略生成模块210的工作过程和原理;其中,两者所用的数据集可以相同,也可以不同,两者所划分的训练阶段的数量可以相同,也可以不同。预处理模块250的工作过程和原理,可以参见预处理模块220的工作过程和原理;其中,两者所用的数据集可以不同模型训练模块260的工作过程和原理,可以参见模型训练模块230的工作过程和原理;其中,两者所用的数据集可以不同。另外,模型训练模块230所训练的模型为用户设定的模型,模型训练模块260所训练的模型为经模型训练模块230训练得到的模型。
以上即是对本申请实施例提供的模型训练***的介绍,接下来基于上述所描述的内容,对本申请实施例提供的模型训练方法进行介绍。
示例性的,图5示出了一种模型训练方法。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。另外,该模型训练方法的部分或全部步骤可以参考前述图2或图4中的相关描述。如图5所示,该模型训练方法,包括以下步骤:
S510、获取第一采样策略,第一采样策略中包括N个训练阶段中每个训练阶段所需数据的分辨率,且第(i-1)个训练阶段所需数据的分辨率小于第i个训练阶段所需数据的分辨率,2≤i≤N,其中,第一采样策略基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到,第一数据集中包括至少一个图像。
本实施例中,在进行模型训练时,可以先获取第一采样策略。其中,该第一采样策略中可以包括N个训练阶段中每个训练阶段所需数据的分辨率,且第(i-1)个训练阶段所需数据的分辨率小于第i个训练阶段所需数据的分辨率,2≤i≤N。其中,第一采样策略可以基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到,第一数据集中包括至少一个图像。示例性的,第一预设分辨率区间的上限值可以为第一数据集中数据的分辨率,第一预设分辨率区间的下限值可以但不限于由用户设定。示例性的,第一采样策略可以为前述图2或图4中采样策略生成模块210输出的采样策略。第一数据集可以为前述图2或图4中的数据集A。第一模型可以为前述图2或图4中采样策略生成模块210中配置的代理模型。
在一些实施例中,第一采样策略可以为用户上传的经第一模型在第一预设分辨率区间内搜索得到的采样策略,也可以是自动获取到的经第一模型在第一预设分辨率区间内搜索得到的采样策略。当自动获取到经第一模型在第一预设分辨率区间内搜索得到的采样策略时,可以是从数据库中获得的已经预先存储的策略,也可以是实时基于第一数据集并通过第一模型在第一预设分辨率区间内搜索获得。其中,实时基于第一数据集并通过第一模型在第一预设分辨率区间内搜索获得的方式,也可以称之为采样策略确定方法。如图6所示,该采样策略确定方法,可以包括以下步骤:
S511、将第一模型的训练过程划分为N个训练阶段。
具体地,用户可以先划分第一模型的训练过程,以将该训练过程划分为N个训练阶段。
S512、按照从第N个训练阶段至第1个训练阶段的顺序,依次基于第一数据集并通过第一模型在每个训练阶段对应的分辨率区间内搜索,以得到每个训练阶段所需数据的分辨率,其中,第N个训练阶段对应的分辨率区间的上限值为第一数据集中数据的分辨率,第(i-1)个训练阶段对应的分辨率区间的上限值为第i个训练阶段所需数据的分辨率,每个训练阶段对应的分辨率区间的下限值均为预设分辨率值。
具体地,可以按照从第N个训练阶段至第1个训练阶段的顺序,依次基于第一数据集并通过第一模型在每个训练阶段对应的分辨率区间内搜索,以得到每个训练阶段所需数据的分辨率。其中,第N个训练阶段对应的分辨率区间的上限值为第一数据集中数据的分辨率,第(i-1)个训练阶段对应的分辨率区间的上限值为第i个训练阶段所需数据的分辨率,每个训练阶段对应的分辨率区间的下限值均为预设分辨率值。示例性的,第N个训练阶段对应的分辨率区间可以为第一预设分辨率区间。
对于每个训练阶段,可以按照预设的搜索步长一次从该训练阶段所对应的搜索空间(即分辨率区间)中选取一个分辨率,并将第一数据集中的数据的分辨率转换至该分辨率,然后,用户转换后的训练数据集中的数据对第一模型进行训练,以及基于训练得到的模型的精度,确定出各个训练阶段所需数据的分辨率。例如,针对N个训练阶段中的任意一个训练阶段,可以先获取该训练阶段的分辨率区间,然后可以按照预设的搜索步长从获取到的分辨率区间中选取M个分辨率分别对第一数据集进行处理,例如,降采样等,以得到M个数据集,1≤M。然后,在分别利用M个数据集中的每一个数据集对第一模型进行训练,以得到M个模型。接着,在基于M个模型中各个模型的精度和目标精度,从M个模型中筛选出目标模型。其中,模型的精度用于表征模型的性能,目标模型的精度大于或等于目标精度,且距离目标精度最近。示例性的,目标精度可以为基于第一数据集对第一模型进行训练得到的模型的精度,或者,目标精度为预设值。最后,可以将训练目标模型所需的数据集的分辨率作为任意一个训练阶段所需数据的分辨率。
再获取到第一采样策略后,可以执行S520。
S520、利用N个训练阶段中各个训练阶段所需的数据的分辨率,分别对第二数据集进行处理,以得到N个数据集,其中,N个数据集中的每个数据集中数据的分辨率均与N个训练阶段中相应的训练阶段所需的数据的分辨率相同,第二数据集中包括至少一个图像。
本实施例中,获取到第一采样策略后,可以利用N个训练阶段中各个训练阶段所需的数据的分辨率,分别对包含有至少一个图像的第二数据集进行处理,例如降采样等,以得到N个数据集。其中,N个数据集中的每个数据集中数据的分辨率均与N个训练阶段中相应的训练阶段所需的数据的分辨率相同。例如,N个数据集中的第1个数据集的分辨率可以与N个训练阶段中的第1个训练阶段所需的数据的分辨率相同;N个数据集中的第3个数据集的分辨率可以与N个训练阶段中的第3个训练阶段所需的数据的分辨率相同,等等。
S530、按照分辨率由小到大的顺序,依次利用N个数据集所包含的数据对第二模型进行训练。
本实施例中,获取到各个训练阶段所需的数据集后,可以按照分辨率由小到大的顺序,依次各个数据集中的数据对第二模型进行训练,以得到所需的模型。例如,当N=3时,可以先利用第1个训练阶段所需的数据的集合对第二模型进行训练;然后在训练结束后,基于训练得到的模型损失更新第二模型的参数。接着,可以利用第2个训练阶段所需的数据的集合对在第1个训练阶段后以更新参数的第二模型进行训练;然后在训练结束后,基于训练得到的模型损失更新第二模型的参数。接着,可以利用第3个训练阶段所需的数据的集合对在第2个训练阶段后以更新参数的第二模型进行训练,以得到所需的模型。
由此,在模型训练过程中,将模型的训练过程划分为多个阶段,并依据训练阶段划分,先使用低频信息再逐渐引入高频信息的课程训练模式对模型进行训练,且每个训练阶段所需的数据的分辨率均是以某个数据集和一个神经网络模型为基础,在一个特定的搜索空间(即预设分辨率区间)中搜索得到,且不同的训练阶段所需的分辨率对应的搜索空间不同。,从而使得各个训练阶段所需数据的分辨率并不一定是线性的,而可能是非线性的,进而使得采样策略更能符合真实的模型训练环境,避免了因人工设定采样策略不适配模型训练环境的情况,提升了模型训练的准确度。另外,由于人工难以评价各个训练阶段的分辨率是否能够在保证训练效果的同时,最大限度的降低训练过程中的计算量,所以通过人工设定采样策略的方式并不能保证高效的进行神经网络模型训练和缩小训练开销。而本申请中以某个数据集为基础,并通过模型在特定的分辨率区间中搜索各个训练阶段的分辨率,可以在每个训练阶段均对多个分辨率进行对比,并从中选取出最优的一个分辨率,由此以在保证训练效果的同时,可以最大限度的降低训练过程中的计算量。
此外,在模型训练过程中,在不同的训练阶段,对业务数据的分辨率进行相应的调整即可,而不用评估业务数据的难易程度,降低了模型训练的开销,且每个训练阶段均是采用的全部的业务数据,只是不同阶段采用的业务数据的分辨率不同,提升了模型训练的精准度。另外,在模型训练过程中,通过对业务数据的分辨率进行调整,可以降低输入至模型中的数据的分辨率,而数据分辨率的降低,则会降低训练过程中的计算量,因此可以实现大规模业务数据的高效训练。
在一些实施例中,S520和S530的执行次序并不严格限定,具体可根据实际情况而定。示例性的,可以执行S520中的一部分流程后,在基于这部分执行的流程所获得的数据集执行S530中的部分流程。例如,可以在每通过一个训练阶段所需的数据的分辨率对第二数据集处理,并得到一个数据集后,就利用该数据集对第二模型进行一次训练;也可以在通过多个训练阶段所需的数据的分辨率对第二数据集处理,并得到多个数据集后,在利用该多个数据集分别对第二模型进行训练。其中,这些不同的执行次序均在本申请的保护范围之内。
在一些实施例中,在利用N个训练阶段中各个训练阶段所需的数据的分辨率,分别对第二数据集进行处理之前,可以先判断第一采样策略中第N个训练阶段所需数据的分辨率与第二数据集中数据的分辨率是否相同,或者是否处于预设范围内。当两者的分辨率不同或者未处于预设范围内时,可以先确定两者的比例,然后,在利用该比例,对第一采样策略中各个训练阶段所需数据的分辨率进行调整。从而避免当第N个训练阶段所需数据的分辨率小于数据集B中数据的分辨率时,无法使用原始数据对待训练模型进行训练的情况,以及,避免当第N个训练阶段所需数据的分辨率大于数据集B中数据的分辨率时,需增大数据集B中的数据的分辨率而导致增大对待训练模型进行训练的开销的情况。
在一些实施例中,在S530中训练完第二模型之后,还可以将训练后的第二模型迁移到下游任务。具体地,如图7所示,可以包括以下步骤:
S710、获取第二采样策略,第二采样策略中包括P个训练阶段中每个训练阶段所需数据的分辨率,且第(q-1)个训练阶段所需数据的分辨率小于第q个训练阶段所需数据的分辨率,2≤q≤P,其中,第二采样策略基于第三数据集并通过第三模型在第二预设分辨率区间内搜索得到,第三数据集中包括至少一个图像。
S720、利用P个训练阶段中各个训练阶段所需的数据的分辨率,分别对第四数据集进行处理,以得到P个数据集,其中,P个数据集中的每个数据集中数据的分辨率均与P个训练阶段中相应的训练阶段所需的数据的分辨率相同,第四数据集中包括与下游任务相关的至少一个图像。
S730、按照分辨率由小到大的顺序,依次利用P个数据集所包含的数据再次对第二模型进行训练,以得到与下游任务适配的模型。
其中,S710至S730可以参见前述图5中S510至S530的描述,此处不再赘述。
由此即实现将训练得到的第二模型迁移至下游任务,且在迁移过程中,同样先使用低频信息再逐渐引入高频信息的课程训练模式对模型进行训练。这样,在模型训练过程中,在不同的训练阶段,对业务数据的分辨率进行相应的调整即可,而不用评估业务数据的难易程度,降低了模型训练的开销,且每个训练阶段均是采用的全部的业务数据,只是不同阶段采用的业务数据的分辨率不同,提升了模型训练的精准度。另外,在模型训练过程中,通过对业务数据的分辨率进行调整,可以降低输入至模型中的数据的分辨率,而数据分辨率的降低,则会降低训练过程中的计算量,因此可以实现大规模业务数据的高效训练。
可以理解的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。此外,在一些可能的实现方式中,上述实施例中的各步骤可以根据实际情况选择性执行,可以部分执行,也可以全部执行,此处不做限定。另外,上述实施例中的任意特征的全部或部分在不矛盾的前提下,可以自由地、任何地组合。组合后的技术方案也在本申请的范围之内。
接下来,对本申请实施例提供的一种模型训练装置进行介绍。该模型训练装置主要是基于前述图5中所描述的模型训练方法提出。
示例性的,图8示出了一种模型训练装置。如图8所示,该模型训练装置800可以包括:获取模块810和处理模块820。其中,获取模块810用于获取第一采样策略,第一采样策略中包括N个训练阶段中每个训练阶段所需数据的分辨率,且第(i-1)个训练阶段所需数据的分辨率小于第i个训练阶段所需数据的分辨率,2≤i≤N,其中,第一采样策略基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到,第一数据集中包括至少一个图像。处理模块820用于利用N个训练阶段中各个训练阶段所需的数据的分辨率,分别对第二数据集进行处理,以得到N个数据集,其中,N个数据集中的每个数据集中数据的分辨率均与N个训练阶段中相应的训练阶段所需的数据的分辨率相同,第二数据集中包括至少一个图像。处理模块820还用于按照分辨率由小到大的顺序,依次利用N个数据集所包含的数据对第二模型进行训练。
在一些实施例中,处理模块820在利用N个训练阶段中各个训练阶段所需的数据的分辨率,分别对第二数据集进行处理之前,还用于:确定第一采样策略中第N个训练阶段所需数据的分辨率与第二数据集中数据的分辨率之间的第一比例;根据第一比例,对第一采样策略中各个训练阶段所需数据的分辨率进行调整。
在一些实施例中,在基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到第一采样策略时,处理模块820还用于:针对获取N个训练阶段中的任意一个训练阶段所需数据的分辨率,获取任意一个训练阶段所需数据的分辨率的分辨率区间,分辨率区间的上限值为在任意一个训练阶段后的第一个训练阶段所需数据的分辨率,分辨率区间的下限值为预设分辨率值;从分辨率区间中选取M个分辨率分别对第一数据集进行处理,以得到M个数据集,M≥1;分别利用M个数据集中的每一个数据集对第一模型进行训练,以得到M个模型;基于M个模型中各个模型的精度和目标精度,从M个模型中筛选出目标模型,模型的精度用于表征模型的性能;目标模型的精度大于或等于目标精度,且距离目标精度最近,其中,目标精度为基于第一数据集对第一模型进行训练得到的模型的精度,或者,目标精度为预设值;将训练目标模型所需的数据集的分辨率作为任意一个训练阶段所需数据的分辨率。
在一些实施例中,当该任意一个训练阶段为第N个训练阶段时,分辨率区间与第一预设分辨率区间相同。
在一些实施例中,在处理模块820完成对第二模型的训练之后,获取模块810还用于获取第二采样策略,第二采样策略中包括P个训练阶段中每个训练阶段所需数据的分辨率,且第(q-1)个训练阶段所需数据的分辨率小于第q个训练阶段所需数据的分辨率,2≤q≤P,其中,第二采样策略基于第三数据集并通过第三模型在第二预设分辨率区间内搜索得到,第三数据集中包括至少一个图像。处理模块820还用于利用P个训练阶段中各个训练阶段所需的数据的分辨率,分别对第四数据集进行处理,以得到P个数据集,其中,P个数据集中的每个数据集中数据的分辨率均与P个训练阶段中相应的训练阶段所需的数据的分辨率相同,第四数据集中包括与下游任务相关的至少一个图像。处理模块820还用于按照分辨率由小到大的顺序,依次利用P个数据集所包含的数据再次对第二模型进行训练,以得到与下游任务适配的模型。
应当理解的是,上述装置用于执行上述实施例中的方法,装置中相应的程序模块,其实现原理和技术效果与上述方法中的描述类似,该装置的工作过程可参考上述方法中的对应过程,此处不再赘述。
接下来,对本申请实施例提供的一种采样策略确定装置进行介绍。该采样策略确定装置主要是基于前述图5中所描述的获取第一采样策略的方法提出。
示例性的,图9示出了一种采样策略确定装置。如图9所示,该采样策略确定装置900可以包括:阶段划分模块910和处理模块920。其中,阶段划分模块910用于将第一模型的训练过程划分为N个训练阶段。处理模块920用于按照从第N个训练阶段至第1个训练阶段的顺序,依次基于第一数据集并通过第一模型在每个训练阶段对应的分辨率区间内搜索,以得到每个训练阶段所需数据的分辨率。其中,第N个训练阶段对应的分辨率区间的上限值为第一数据集中数据的分辨率,第(i-1)个训练阶段对应的分辨率区间的上限值为第i个训练阶段所需数据的分辨率,每个训练阶段对应的分辨率区间的下限值均为预设分辨率值。
在一些实施例中,处理模块920在按照从第N个训练阶段至第1个训练阶段的顺序,依次基于第一数据集并通过第一模型在每个训练阶段对应的分辨率区间内搜索时,具体用于:针对N个训练阶段中的任意一个训练阶段,获取任意一个训练阶段对应的第一分辨率区间;从第一分辨率区间中选取M个分辨率分别对第一数据集进行处理,以得到M个数据集,M≥1;分别利用M个数据集中的每一个数据集对第一模型进行训练,以得到M个模型;基于M个模型中各个模型的精度和目标精度,从M个模型中筛选出目标模型,模型的精度用于表征模型的性能;目标模型的精度大于或等于目标精度,且距离目标精度最近,其中,目标精度为基于第一数据集对第一模型进行训练得到的模型的精度,或者,目标精度为预设值;将训练目标模型所需的数据集的分辨率作为任意一个训练阶段所需数据的分辨率。
应当理解的是,上述装置用于执行上述实施例中的方法,装置中相应的程序模块,其实现原理和技术效果与上述方法中的描述类似,该装置的工作过程可参考上述方法中的对应过程,此处不再赘述。
在一些实施例中,图8中所示的获取模块810和处理模块820,以及,图9中所示的阶段划分模块910和处理模块920均可以通过软件实现,或者可以通过硬件实现。示例性的,接下来以图8中所示的获取模块810为例,介绍获取模块获取模块810的实现方式。类似的,图8中所示的处理模块820,以及,图9中所示的阶段划分模块910和处理模块920的实现方式可以参考图8中所示的获取模块810的实现方式。
模块作为软件功能单元的一种举例,处理模块820可以包括运行在计算实例上的代码。其中,计算实例可以包括物理主机(计算设备)、虚拟机、容器中的至少一种。进一步地,上述计算实例可以是一台或者多台。例如,处理模块820可以包括运行在多个主机/虚拟机/容器上的代码。需要说明的是,用于运行该代码的多个主机/虚拟机/容器可以分布在相同的区域(region)中,也可以分布在不同的region中。进一步地,用于运行该代码的多个主机/虚拟机/容器可以分布在相同的可用区(availability zone,AZ)中,也可以分布在不同的AZ中,每个AZ包括一个数据中心或多个地理位置相近的数据中心。其中,通常一个region可以包括多个AZ。
同样,用于运行该代码的多个主机/虚拟机/容器可以分布在同一个虚拟私有云(virtual private cloud,VPC)中,也可以分布在多个VPC中。其中,通常一个VPC设置在一个region内,同一region内两个VPC之间,以及不同region的VPC之间跨区通信需在每个VPC内设置通信网关,经通信网关实现VPC之间的互连。
模块作为硬件功能单元的一种举例,处理模块820可以包括至少一个计算设备,如服务器等。或者,处理模块820也可以是利用专用集成电路(application-specificintegrated circuit,ASIC)实现、或可编程逻辑器件(programmable logic device,PLD)实现的设备等。其中,上述PLD可以是复杂程序逻辑器件(complex programmable logicaldevice,CPLD)、现场可编程门阵列(field-programmable gate array,FPGA)、通用阵列逻辑(generic array logic,GAL)或其任意组合实现。
处理模块820包括的多个计算设备可以分布在相同的region中,也可以分布在不同的region中。处理模块820包括的多个计算设备可以分布在相同的AZ中,也可以分布在不同的AZ中。同样,处理模块820包括的多个计算设备可以分布在同一个VPC中,也可以分布在多个VPC中。其中,所述多个计算设备可以是服务器、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。
需要说明的是,在其他实施例中,处理模块820可以用于执行图5中所示的方法中的任意步骤,图8中所示的处理模块820可以用于执行上述图5中提供的方法中的任意步骤。图8中所示的获取模块810和处理模块820负责实现的步骤可根据需要指定,通过获取模块810和处理模块820分别实现上述图5中提供的方法中不同的步骤来实现模型训练装置800的全部功能。另外,图9中所示的阶段划分模块910或者处理模块920,可以用于执行图6中所示的方法中的任意步骤。图9中所示的阶段划分模块910和处理模块920,负责实现的步骤可根据需要指定,通过阶段划分模块910和处理模块920分别实现上述图6中提供的方法中不同的步骤来实现采样策略确定装置900的全部功能。
本申请还提供一种计算设备1000。如图10所示,计算设备1000包括:总线1002、处理器1004、存储器1006和通信接口1008。处理器1004、存储器1006和通信接口1008之间通过总线1002通信。计算设备1000可以是服务器或终端设备。应理解,本申请不限定计算设备1000中的处理器、存储器的个数。
总线1002可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。总线1004可包括在计算设备1000各个部件(例如,存储器1006、处理器1004、通信接口1008)之间传送信息的通路。
处理器1004可以包括中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、微处理器(micro processor,MP)或者数字信号处理器(digital signal processor,DSP)等处理器中的任意一种或多种。
存储器1006可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,RAM)。处理器104还可以包括非易失性存储器(non-volatilememory),例如只读存储器(read-only memory,ROM),快闪存储器,机械硬盘(hard diskdrive,HDD)或固态硬盘(solid state drive,SSD)。
存储器1006中存储有可执行的程序代码,处理器1004执行该可执行的程序代码以分别实现前述图8中所示的获取模块810和处理模块820的功能,或者,分别实现前述图9中所示的阶段划分模块910和处理模块920的功能,从而实现上述实施例中方法的全部或部分步骤。也即,存储器106上存有用于执行上述实施例方法中全部或部分步骤的指令。
或者,存储器1006中存储有可执行的代码,处理器1004执行该可执行的代码以分别实现前述配置迁移装置1000的功能,从而实现上述实施例方法中全部或部分步骤。也即,存储器1006上存有用于执行上述实施例方法中全部或部分步骤的指令。
通信接口1003使用例如但不限于网络接口卡、收发器一类的收发模块,来实现计算设备100与其他设备或通信网络之间的通信。
本申请实施例还提供了一种计算设备集群。该计算设备集群包括至少一台计算设备。该计算设备可以是服务器,例如是中心服务器、边缘服务器,或者是本地数据中心中的本地服务器。在一些实施例中,计算设备也可以是台式机、笔记本电脑或者智能手机等终端设备。
如图11所示,所述计算设备集群包括至少一个计算设备1000。计算设备集群中的一个或多个计算设备1000中的存储器1006中可以存有相同的用于执行上述实施例方法中全部或部分步骤的指令。
在一些可能的实现方式中,该计算设备集群中的一个或多个计算设备1000的存储器1006中也可以分别存有用于执行上述实施例方法中全部或部分步骤的部分指令。换言之,一个或多个计算设备1000的组合可以共同执行用于执行上述实施例方法中全部或部分步骤的指令。
需要说明的是,计算设备集群中的不同的计算设备1000中的存储器1006可以存储不同的指令,分别用于执行模型训练装置800或采样确定装置900的部分功能。也即,不同的计算设备1000中的存储器1006存储的指令可以实现前述图8中所示的获取模块810和处理模块820中的一个或多个模块的功能,或者,实现前述图9中所示的阶段划分模块910和处理模块920中的一个或多个模块的功能。
在一些可能的实现方式中,计算设备集群中的一个或多个计算设备可以通过网络连接。其中,所述网络可以是广域网或局域网等等。
基于上述实施例中的方法,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行上述实施例中的方法。
基于上述实施例中的方法,本申请实施例提供了一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行上述实施例中的方法。
可以理解的是,本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
本申请的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmable rom,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。

Claims (18)

1.一种模型训练方法,其特征在于,所述方法包括:
获取第一采样策略,所述第一采样策略中包括N个训练阶段中每个训练阶段所需数据的分辨率,且第(i-1)个训练阶段所需数据的分辨率小于第i个训练阶段所需数据的分辨率,2≤i≤N,其中,所述第一采样策略基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到,所述第一数据集中包括至少一个图像;
利用所述N个训练阶段中各个训练阶段所需的数据的分辨率,分别对第二数据集进行处理,以得到N个数据集,其中,所述N个数据集中的每个数据集中数据的分辨率均与所述N个训练阶段中相应的训练阶段所需的数据的分辨率相同,所述第二数据集中包括至少一个图像;
按照分辨率由小到大的顺序,依次利用所述N个数据集所包含的数据对所述第二模型进行训练。
2.根据权利要求1所述的方法,其特征在于,在利用所述N个训练阶段中各个训练阶段所需的数据的分辨率,分别对第二数据集进行处理之前,所述方法还包括:
确定所述第一采样策略中第N个训练阶段所需数据的分辨率与所述第二数据集中数据的分辨率之间的第一比例;
根据所述第一比例,对所述第一采样策略中各个训练阶段所需数据的分辨率进行调整。
3.根据权利要求1或2所述的方法,其特征在于,基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到所述第一采样策略,具体包括:
针对获取所述N个训练阶段中的任意一个训练阶段所需数据的分辨率,获取所述任意一个训练阶段所需数据的分辨率的分辨率区间,所述分辨率区间的上限值为在所述任意一个训练阶段后的第一个训练阶段所需数据的分辨率,所述分辨率区间的上限值为所述第一预设分辨率区间中的一个分辨率值,所述分辨率区间的下限值为所述第一预设分辨率区间的下限值;
从所述分辨率区间中选取M个分辨率分别对所述第一数据集进行处理,以得到M个数据集,M≥1;
分别利用所述M个数据集中的每一个数据集对所述第一模型进行训练,以得到M个模型;
基于所述M个模型中各个模型的精度和目标精度,从所述M个模型中筛选出目标模型,所述模型的精度用于表征所述模型的性能;所述目标模型的精度大于或等于所述目标精度,且距离所述目标精度最近,其中,所述目标精度为基于所述第一数据集对所述第一模型进行训练得到的模型的精度,或者,所述目标精度为预设值;
将训练所述目标模型所需的数据集的分辨率作为所述任意一个训练阶段所需数据的分辨率。
4.根据权利要求3所述的方法,其特征在于,当所述任意一个训练阶段为第N个训练阶段时,所述分辨率区间与所述第一预设分辨率区间相同。
5.根据权利要求1-4任一所述的方法,其特征在于,在完成对所述第二模型的训练之后,所述方法还包括:
获取第二采样策略,所述第二采样策略中包括P个训练阶段中每个训练阶段所需数据的分辨率,且第(q-1)个训练阶段所需数据的分辨率小于第q个训练阶段所需数据的分辨率,2≤q≤P,其中,所述第二采样策略基于第三数据集并通过第三模型在第二预设分辨率区间内搜索得到,所述第三数据集中包括至少一个图像;
利用所述P个训练阶段中各个训练阶段所需的数据的分辨率,分别对第四数据集进行处理,以得到P个数据集,其中,所述P个数据集中的每个数据集中数据的分辨率均与所述P个训练阶段中相应的训练阶段所需的数据的分辨率相同,所述第四数据集中包括与下游任务相关的至少一个图像;
按照分辨率由小到大的顺序,依次利用所述P个数据集所包含的数据再次对所述第二模型进行训练,以得到与所述下游任务适配的模型。
6.一种采样策略确定方法,其特征在于,所述采样策略用于模型训练,所述方法包括:
将第一模型的训练过程划分为N个训练阶段;
按照从第N个训练阶段至第1个训练阶段的顺序,依次基于第一数据集并通过第一模型在每个所述训练阶段对应的分辨率区间内搜索,以得到每个所述训练阶段所需数据的分辨率;
其中,所述第N个训练阶段对应的分辨率区间的上限值为所述第一数据集中数据的分辨率,第(i-1)个训练阶段对应的分辨率区间的上限值为第i个训练阶段所需数据的分辨率,每个所述训练阶段对应的分辨率区间的下限值均为预设分辨率值。
7.根据权利要求6所述的方法,其特征在于,所述按照从第N个训练阶段至第1个训练阶段的顺序,依次基于第一数据集并通过第一模型在每个所述训练阶段对应的分辨率区间内搜索,具体包括:
针对所述N个训练阶段中的任意一个训练阶段,获取所述任意一个训练阶段对应的第一分辨率区间;
从所述第一分辨率区间中选取M个分辨率分别对所述第一数据集进行处理,以得到M个数据集,M≥1;
分别利用所述M个数据集中的每一个数据集对所述第一模型进行训练,以得到M个模型;
基于所述M个模型中各个模型的精度和目标精度,从所述M个模型中筛选出目标模型,所述模型的精度用于表征所述模型的性能;所述目标模型的精度大于或等于所述目标精度,且距离所述目标精度最近,其中,所述目标精度为基于所述第一数据集对所述第一模型进行训练得到的模型的精度,或者,所述目标精度为预设值;
将训练所述目标模型所需的数据集的分辨率作为所述任意一个训练阶段所需数据的分辨率。
8.一种模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取第一采样策略,所述第一采样策略中包括N个训练阶段中每个训练阶段所需数据的分辨率,且第(i-1)个训练阶段所需数据的分辨率小于第i个训练阶段所需数据的分辨率,2≤i≤N,其中,所述第一采样策略基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到,所述第一数据集中包括至少一个图像;
处理模块,用于利用所述N个训练阶段中各个训练阶段所需的数据的分辨率,分别对第二数据集进行处理,以得到N个数据集,其中,所述N个数据集中的每个数据集中数据的分辨率均与所述N个训练阶段中相应的训练阶段所需的数据的分辨率相同,所述第二数据集中包括至少一个图像;
所述处理模块,还用于按照分辨率由小到大的顺序,依次利用所述N个数据集所包含的数据对所述第二模型进行训练。
9.根据权利要求8所述的装置,其特征在于,所述处理模块在利用所述N个训练阶段中各个训练阶段所需的数据的分辨率,分别对第二数据集进行处理之前,还用于:
确定所述第一采样策略中第N个训练阶段所需数据的分辨率与所述第二数据集中数据的分辨率之间的第一比例;
根据所述第一比例,对所述第一采样策略中各个训练阶段所需数据的分辨率进行调整。
10.根据权利要求8或9所述的装置,其特征在于,在基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到所述第一采样策略时,所述处理模块还用于:
针对获取所述N个训练阶段中的任意一个训练阶段所需数据的分辨率,获取所述任意一个训练阶段所需数据的分辨率的分辨率区间,所述分辨率区间的上限值为在所述任意一个训练阶段后的第一个训练阶段所需数据的分辨率,所述分辨率区间的上限值为所述第一预设分辨率区间中的一个分辨率值,所述分辨率区间的下限值为所述第一预设分辨率区间的下限值;
从所述分辨率区间中选取M个分辨率分别对所述第一数据集进行处理,以得到M个数据集,M≥1;
分别利用所述M个数据集中的每一个数据集对所述第一模型进行训练,以得到M个模型;
基于所述M个模型中各个模型的精度和目标精度,从所述M个模型中筛选出目标模型,所述模型的精度用于表征所述模型的性能;所述目标模型的精度大于或等于所述目标精度,且距离所述目标精度最近,其中,所述目标精度为基于所述第一数据集对所述第一模型进行训练得到的模型的精度,或者,所述目标精度为预设值;
将训练所述目标模型所需的数据集的分辨率作为所述任意一个训练阶段所需数据的分辨率。
11.根据权利要求10所述的装置,其特征在于,当所述任意一个训练阶段为第N个训练阶段时,所述分辨率区间与所述第一预设分辨率区间相同。
12.根据权利要求8-11任一所述的装置,其特征在于,在所述处理模块完成对所述第二模型的训练之后,所述获取模块,还用于获取第二采样策略,所述第二采样策略中包括P个训练阶段中每个训练阶段所需数据的分辨率,且第(q-1)个训练阶段所需数据的分辨率小于第q个训练阶段所需数据的分辨率,2≤q≤P,其中,所述第二采样策略基于第三数据集并通过第三模型在第二预设分辨率区间内搜索得到,所述第三数据集中包括至少一个图像;
所述处理模块,还用于利用所述P个训练阶段中各个训练阶段所需的数据的分辨率,分别对第四数据集进行处理,以得到P个数据集,其中,所述P个数据集中的每个数据集中数据的分辨率均与所述P个训练阶段中相应的训练阶段所需的数据的分辨率相同,所述第四数据集中包括与下游任务相关的至少一个图像;
所述处理模块,还用于按照分辨率由小到大的顺序,依次利用所述P个数据集所包含的数据再次对所述第二模型进行训练,以得到与所述下游任务适配的模型。
13.一种采样策略确定装置,其特征在于,所述采样策略用于模型训练,所述装置包括:
阶段划分模块,用于将第一模型的训练过程划分为N个训练阶段;
处理模块,用于按照从第N个训练阶段至第1个训练阶段的顺序,依次基于第一数据集并通过第一模型在每个所述训练阶段对应的分辨率区间内搜索,以得到每个所述训练阶段所需数据的分辨率;
其中,所述第N个训练阶段对应的分辨率区间的上限值为所述第一数据集中数据的分辨率,第(i-1)个训练阶段对应的分辨率区间的上限值为第i个训练阶段所需数据的分辨率,每个所述训练阶段对应的分辨率区间的下限值均为预设分辨率值。
14.根据权利要求13所述的装置,其特征在于,所述处理模块在按照从第N个训练阶段至第1个训练阶段的顺序,依次基于第一数据集并通过第一模型在每个所述训练阶段对应的分辨率区间内搜索时,具体用于:
针对所述N个训练阶段中的任意一个训练阶段,获取所述任意一个训练阶段对应的第一分辨率区间;
从所述第一分辨率区间中选取M个分辨率分别对所述第一数据集进行处理,以得到M个数据集,M≥1;
分别利用所述M个数据集中的每一个数据集对所述第一模型进行训练,以得到M个模型;
基于所述M个模型中各个模型的精度和目标精度,从所述M个模型中筛选出目标模型,所述模型的精度用于表征所述模型的性能;所述目标模型的精度大于或等于所述目标精度,且距离所述目标精度最近,其中,所述目标精度为基于所述第一数据集对所述第一模型进行训练得到的模型的精度,或者,所述目标精度为预设值;
将训练所述目标模型所需的数据集的分辨率作为所述任意一个训练阶段所需数据的分辨率。
15.一种计算设备,其特征在于,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行所述存储器存储的程序;
其中,当所述存储器存储的程序被执行时,所述处理器用于执行如权利要求1-7任一所述的方法。
16.一种计算设备集群,其特征在于,包括至少一个计算设备,每个计算设备均包括处理器和存储器;
所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令,以使得所述计算设备集群执行如权利要求1-7任一所述的方法。
17.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在处理器上运行时,使得所述处理器执行如权利要求1-7任一所述的方法。
18.一种计算机程序产品,其特征在于,当所述计算机程序产品在处理器上运行时,使得所述处理器执行如权利要求1-7任一所述的方法。
CN202211093901.0A 2022-09-08 2022-09-08 一种模型训练方法、采样策略确定方法、装置及计算设备 Pending CN117726889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211093901.0A CN117726889A (zh) 2022-09-08 2022-09-08 一种模型训练方法、采样策略确定方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211093901.0A CN117726889A (zh) 2022-09-08 2022-09-08 一种模型训练方法、采样策略确定方法、装置及计算设备

Publications (1)

Publication Number Publication Date
CN117726889A true CN117726889A (zh) 2024-03-19

Family

ID=90209328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211093901.0A Pending CN117726889A (zh) 2022-09-08 2022-09-08 一种模型训练方法、采样策略确定方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN117726889A (zh)

Similar Documents

Publication Publication Date Title
US10853726B2 (en) Neural architecture search for dense image prediction tasks
CN112434721B (zh) 一种基于小样本学习的图像分类方法、***、存储介质及终端
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
US11348249B2 (en) Training method for image semantic segmentation model and server
US11586664B2 (en) Image retrieval method and apparatus, and electronic device
CN112232293B (zh) 图像处理模型训练、图像处理方法及相关设备
US10242289B2 (en) Method for analysing media content
CN108647732B (zh) 一种基于深度神经网络的病理图像分类方法及装置
CN107392189B (zh) 用于确定无人车的驾驶行为的方法和装置
CN113449859A (zh) 一种数据处理方法及其装置
CN113424199A (zh) 用于神经网络的复合模型缩放
WO2024040941A1 (zh) 神经网络结构搜索方法、装置及存储介质
CN115187530A (zh) 超声自动乳腺全容积图像的识别方法、装置、终端及介质
CN113705276A (zh) 模型构建方法、模型构建装置、计算机设备及介质
CN116415020A (zh) 一种图像检索的方法、装置、电子设备及存储介质
CN116304155A (zh) 基于二维图片的三维构件检索方法、装置、设备及介质
CN117726889A (zh) 一种模型训练方法、采样策略确定方法、装置及计算设备
US11887356B2 (en) System, method and apparatus for training a machine learning model
CN113221662B (zh) 人脸识别模型的训练方法及装置、存储介质、终端
CN116030290A (zh) 在设备上检测数字对象并且生成对象掩膜
CN117010480A (zh) 模型训练方法、装置、设备、存储介质及程序产品
CN114330542A (zh) 一种基于目标检测的样本挖掘方法、装置及存储介质
US20230153250A1 (en) Access friendly memory architecture of graph neural network sampling
CN115220658A (zh) 一种***和计算机实现的方法以及计算机可读存储介质
CN115601174A (zh) 股票行情的预测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication