CN111444958A - 一种模型迁移训练方法、装置、设备及存储介质 - Google Patents
一种模型迁移训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111444958A CN111444958A CN202010219449.2A CN202010219449A CN111444958A CN 111444958 A CN111444958 A CN 111444958A CN 202010219449 A CN202010219449 A CN 202010219449A CN 111444958 A CN111444958 A CN 111444958A
- Authority
- CN
- China
- Prior art keywords
- migration
- model
- layer
- training
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013508 migration Methods 0.000 title claims abstract description 291
- 230000005012 migration Effects 0.000 title claims abstract description 291
- 238000012549 training Methods 0.000 title claims abstract description 156
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000006870 function Effects 0.000 claims description 152
- 230000015654 memory Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 12
- 230000003247 decreasing effect Effects 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 29
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种模型迁移训练方法、装置、设备及存储介质,涉及人工智能领域。具体实现方案为:将源模型中至少两个迁移层的网络参数作为目标模型中关联的迁移层的初始参数;根据所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数;基于所述目标函数,对包括有初始参数的目标模型进行训练。本申请实施例通过在构建目标函数时,引入迁移层的训练参数与初始参数之间的距离,从而在模型训练过程中,兼顾各迁移层的模型迁移和训练情况,实现了对源模型的信息的继承以及目标模型的自适应,避免了模型迁移训练过程中的过拟合现象,提高了目标模型的泛化能力。
Description
技术领域
本申请涉及计算机技术,尤其涉及人工智能领域,具体涉及一种模型迁移训练方法、装置、设备及存储介质。
背景技术
迁移学习可以利用数据、任务或模型之间的相似性,将源领域(也即旧领域)训练好的源模型应用到目标领域(也即新领域)的目标模型中,从而在目标模型训练过程中,降低对海量数据资源的要求并且解决训练任务的高成本问题。
现有技术在进行目标模型的模型训练时,采用源模型的网络参数对目标模型的网络参数进行初始化,替代随机初始化,并对初始化后的目标模型进行再训练。
然而上述方式训练得到的目标模型的泛化能力较差,容易出现过拟合现象。
发明内容
本申请实施例提供了一种模型迁移训练方法、装置、设备及存储介质,以提高目标模型的泛化能力,避免出现过拟合现象。
第一方面,本申请实施例提供了一种模型迁移训练方法,包括:
将源模型中至少两个迁移层的网络参数作为目标模型中关联的迁移层的初始参数;
根据所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数;
基于所述目标函数,对包括有初始参数的目标模型进行训练。
本申请实施例通过将源模型中至少两个迁移层的网络参数作为目标模型中关联的迁移层的初始参数;根据至少两个迁移层关联的训练参数与初始参数之间的距离,构建目标函数;基于目标函数对包括有初始参数的目标模型进行训练。上述技术方案通过在构建目标函数时,引入迁移层的训练参数与初始参数之间的距离,从而在模型训练过程中,兼顾各迁移层的模型迁移和训练情况,实现了对源模型的信息的继承以及目标模型的自适应,避免了模型迁移训练过程中的过拟合现象,提高了目标模型的泛化能力。
可选的,根据所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数,包括:
根据所述至少两个迁移层的权重,以及所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数。
上述申请中的一个可选实施方式,通过在目标函数构建过程中,引入迁移层的权重,从而在网络层次上兼顾不同迁移层的信息保留能力,进而在防止迁移过拟合的前提下,有效提升迁移学习的准确度。
可选的,根据所述至少两个迁移层的权重,以及所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数之前,还包括:
根据所述迁移层在模型中的网络层级信息,确定所述迁移层的权重。
上述申请中的一个可选实施方式,通过在构建目标函数之前,追加根据迁移层在模型中的网络层级信息,确定迁移层的权重,从而完善了迁移层权重的确定机制,避免了训练过程学习过强,导致的对浅层特征信息的破坏,同时避免了训练过程学习过弱而导致深层特征信息丢失的情况。
可选的,根据所述迁移层在模型中的网络层级信息,确定所述迁移层的权重,包括:
确定所述迁移层所属网络块的序号;
根据所述迁移层所属网络块的序号,确定所述迁移层的权重。
上述申请中的一个可选实施方式,通过将迁移层的确定过程,细化为确定迁移层所属网络块的序号;根据迁移层所属网络块的序号,确定迁移层的权重,从而完善了迁移层的权重确定机制,保证了浅层通用信息的提取以及深层语义信息的提取,兼顾了不同层级所提取信息的重要性。
可选的,根据所述迁移层所属网络块的序号,确定所述迁移层的权重,包括:
基于权重函数,根据所述迁移层所属网络块的序号,确定所述迁移层的权重;其中,所述权重函数为所述网络块的序号递减函数。
上述申请中的一个可选实施方式,通过将迁移层的权重确定过程,细化为基于网络块序号的递减函数,根据迁移层所属网络块的序号进行迁移层权重的确定,进一步完善了迁移层的权重确定机制。
可选的,根据所述至少两个迁移层的权重,以及所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数,包括:
根据各所述迁移层的训练参数与所述初始参数之间距离的加权和,确定迁移层的规则化项;
根据所述迁移层的规则化项和损失函数,构建所述目标函数。
上述申请中的一个可选实施方式,将目标函数的构建过程,细化为根据迁移层的规则化项和损失函数,进行目标函数的构建,完善了目标函数的构建机制。
可选的,根据所述迁移层的规则化项和损失函数,构建所述目标函数,包括:
根据全连接层的训练参数,确定所述全连接层的规则化项;
根据所述迁移层的规则化项、所述全连接层的规则化项和损失函数,构建所述目标函数。
上述申请中的一个可选实施方式,通过在目标函数构建过程中,引入全连接层的规则化项,能够保证在目标模型训练过程中,尽可能适配目标领域的目标数据集,避免对全连接层的约束导致目标模型训练结果较差的情况。
可选的,所述迁移层为图像特征提取层。
上述申请中的一个可选实施方式,通过将迁移层细化为图像特征提取层,从而将模型迁移训练方法,应用至包含有图像特征提取类的网络模型的迁移过程,丰富了模型迁移训练方法的应用场景。
第二方面,本申请实施例还提供了一种模型迁移训练装置,包括:
初始参数确定模块,用于将源模型中至少两个迁移层的网络参数作为目标模型中关联的迁移层的初始参数;
目标函数构建模块,用于根据所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数;
目标模型训练模块,用于基于所述目标函数,对包括有初始参数的目标模型进行训练。
第三方面,本申请实施例还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面实施例所提供的一种模型迁移训练方法。
第四方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面实施例所提供的一种模型迁移训练方法。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例一中的一种模型迁移训练方法的流程图;
图2是本申请实施例二中的一种模型迁移训练方法的流程图;
图3A是本申请实施例三中的一种模型迁移训练方法的流程图;
图3B是本申请实施例三中的一种目标函数构建过程示意图;
图4是本申请实施例四中的一种模型迁移训练装置的结构图;
图5是用来实现本申请实施例的模型迁移训练方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
实施例一
图1是本申请实施例一中的一种模型迁移训练方法的流程图,本申请实施例适用于将源领域的源模型迁移至目标领域的目标模型,并对目标模型进行训练的情况。该方法由模型迁移训练装置执行,该装置通过软件和/或硬件实现,并具体配置于电子设备中。
如图1所示的一种模型迁移训练方法,包括:
S101、将源模型中至少两个迁移层的网络参数作为目标模型中关联的迁移层的初始参数。
其中,源模型可以理解为在源领域下通过大量源训练样本训练成功后的稳定的网络模型。目标模型可以理解为与源领域相似的目标领域下的待训练模型,该模型中目标训练样本数量远小于对源模型进行训练时的源训练样本数量。
为了避免对目标模型进行训练时,仅采用数量较小的目标训练样本进行训练,导致的目标模型过拟合现象的发生,可以将已经训练完成的源模型的网络参数,迁移至目标模型中,作为目标模型的初始参数,从而对包含有初始参数的目标模型进行训练。
其中,迁移层可以理解为能够从源模型迁移至目标模型的网络层。其中,迁移层为源模型中的部分或全部网络层。示例性地,迁移层至少包括卷积层。该卷积层可以是特征提取层。示例性地,源模型或目标模型可以是图像分类、图像分割和图像检测类网络中的至少一种,相应的,迁移层可以包括图像特征提取层。
S102、根据所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数。
其中,训练参数为对目标模型进行训练时,各迁移层对应的网络参数。
其中,各迁移层关联的训练参数与初始参数之间的距离,可以通过求范数的方式加以实现。其中,范数的阶数可以由技术人员根据需要或经验值进行确定。示例性地,可以是零范数、一范数或二范数等。
在本申请实施例的一种可选实施方式中,根据所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数,可以是:根据至少两个迁移层的训练参数和初始参数之间的距离,确定迁移层的规则化项;根据迁移层的规则化项和损失函数,构建目标函数。
其中,损失函数用于估量模型的预测值和真实值之间的不一致程度,度量模型的鲁棒性,以减小模型的经验风险。当损失函数越小,表征模型的鲁棒性越好。示例性地,损失函数可以包括铰链损失函数、交叉熵损失函数、平方损失函数、指数损失函数和绝对值损失函数等函数中的至少一种。
其中,规则化项用于估量模型的复杂度,从而减小模型的结构风险。
示例性地,可以采用以下公式,构建目标函数:
可以理解的是,通过引入迁移层的规则化项,能够在目标模型中尽可能保留源模型的特征,从而在对目标模型进行训练的过程中,对目标模型进行约束控制。
全连接层通常为网络模型中的最后一层,由于不同网络模型的作用不同,相应的全连接层的网络参数的差异性也较大,为了使目标模型能够尽可能贴近目标模型对应的目标领域下的目标数据集,迁移层中通常不会包括全连接层。
为了在目标模型的训练过程中,对全连接层的网络参数加以约束,在本申请实施例的一种可选实施方式中,还可以在目标函数中引入全连接层的规则化项。相应的,根据迁移层的规则化项和损失函数,构建目标函数时,根据所述迁移层的规则化项、所述全连接层的规则化项和损失函数,构建所述目标函数。示例性地,可以根据目标模型的全连接层的训练参数,确定全连接层的规则化项。
示例性地,可以采用以下公式,进行目标函数的构建:
其中,β为超参数,ωfc为目标模型的全连接层的训练参数。
由于不同迁移层提取信息的能力不同,所提取信息的含义也不同,例如,浅层迁移层能够提取通用特征信息,而深层迁移层能够提取语义特征信息。为了兼顾不同迁移层的信息提取能力,进而保证目标模型中所提取信息的全面性,在本申请实施例的另一可选实施方式中,根据所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数,可以是:根据所述至少两个迁移层的权重,以及所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数。其中,各迁移层的权重可以有技术人员根据需要或经验值进行确定,还可以通过大量试验反复确定。
S103、基于所述目标函数,对包括有初始参数的目标模型进行训练。
基于目标函数,对包括有初始参数的目标模型进行训练,以使训练好的目标模型满足设定训练条件。
本申请实施例通过将源模型中至少两个迁移层的网络参数作为目标模型中关联的迁移层的初始参数;根据至少两个迁移层关联的训练参数与初始参数之间的距离,构建目标函数;基于目标函数对包括有初始参数的目标模型进行训练。上述技术方案通过在构建目标函数时,引入迁移层的训练参数与初始参数之间的距离,从而在模型训练过程中,兼顾各迁移层的模型迁移和训练情况,实现了对源模型的信息的继承以及目标模型的自适应,避免了模型迁移训练过程中的过拟合现象,提高了目标模型的泛化能力。
实施例二
图2是本申请实施例二中的一种模型迁移训练方法的流程图,本申请实施例在上述各实施例的技术方案的基础上,进行了优化改进。
进一步地,将操作“根据所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数”,细化为“根据所述至少两个迁移层的权重,以及所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数”,以完善目标函数的构建机制。
如图2所示的一种模型迁移训练方法,包括:
S201、将源模型中至少两个迁移层的网络参数作为目标模型中关联的迁移层的初始参数。
S202、根据所述至少两个迁移层的权重,以及所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数。
其中,各迁移层的权重,可以由技术人员根据需要或经验值进行确定,还可以通过大量试验反复确定。
可选的,根据迁移层在模型中的网络层级信息,确定迁移层的权重。例如,可以根据迁移层在源模型和/或目标模型中的网络层级信息,确定迁移层的权重。
示例性地,根据迁移层在模型中的网络层级信息,确定迁移层的权重,可以是在各迁移层顺序编号后,将迁移层的序号作为网络层级信息,从而根据迁移层的序号,确定迁移层的权重。
为了提高目标模型的训练效率,还可以预先将迁移层划分为网络块,其中一个网络块中包括至少一个迁移层。其中,不同网络块中所包含的迁移层的数量相同或不同。相应的,根据迁移层在模型中的网络层级信息,确定迁移层的权重,可以是确定所述迁移层所属网络块的序号;根据所述迁移层所属网络块的序号,确定所述迁移层的权重。
示例性地,基于权重函数,根据迁移层所属网络块的序号,确定迁移层的权重;其中,权重函数为网络块的序号的递减函数。
可以理解的是,通过递减函数的引入,能够对不同网络块中所包含的迁移层分配不同的权重,当网络块序号越小,表明网络块中的迁移层的层级越浅,相应的该迁移层的权重越大,从而避免目标模型训练过程中,对浅层网络层所提取的通用特征信息的破坏。当网络块序号越大,表明网络块中的迁移层的层级越深,相应的该迁移层的权重越小,从而在对目标模型进行训练时,较大幅度的修改深层网络层的网络参数,以适应目标领域的目标数据集中的深层语义特征,避免了深层语义信息丢失,导致目标模型精度较差的情况。
示例性地,可以根据各迁移层的训练参数与初始参数之间距离的加权和,确定迁移层的规则化项;根据迁移层的规则化项和损失函数,构建目标函数。
为了在目标模型的训练过程中,对全连接层的网络参数加以约束,在本申请实施例的一种可选实施方式中,还可以根据全连接层的训练参数,确定所述全连接层的规则化项;根据所述迁移层的规则化项、所述全连接层的规则化项和损失函数,构建所述目标函数。
S203、基于所述目标函数,对包括有初始参数的目标模型进行训练。
可以理解的是,由于目标函数中针对各迁移层差异化的引入权重,一方面,使所有网络参数均需要参与重训,另一方面,又兼顾了不同层次提取特征的信息的重要性,从某种程度上实现了微调和特征提取的折中。其中,微调即将源模型的网络参数对目标模型进行初始化,代替原来的随机初始化;特征提取即将目标模型作为目标任务的特征提取器,冻结前几层,只训练最后的全连接层。
本申请实施例将目标函数的构建过程,细化为根据至少两个迁移层的权重,以及至少两个迁移层关联的训练参数与初始参数之间的距离,构建目标函数,从而在对目标函数训练过程中,区别对待不同层级的迁移层的网络参数,以兼顾不同迁移层的信息保留能力,从而在放置迁移果然拟合的前提下,有效提升迁移学习的准确度。
实施例三
图3A是本申请实施例三中的一种模型迁移训练方法的流程图,本申请实施例在上述各实施例的技术方案的基础上,提供了一种优选实施方式。
如图3A所示的一种模型迁移训练方法,包括:
S301、将源模型中各迁移层的网络参数作为目标模型中对应迁移层的初始参数。其中,迁移层为图像特征提取层。
S302、将迁移层划分为多个网络块。
S303、基于权重函数,根据各迁移层所属网络块的序号,确定迁移层的权重。
具体的,根据以下公式,确定迁移层的权重:
Wi=softmax(N-i);
其中,Wi为第i个网络块中的各迁移层的权重;N为网络块的总数量;softmax()函数为i的递减函数。
S304、根据各迁移层的权重,以及各迁移层的训练参数和初始参数之间的距离,确定迁移层的规则化项。
具体的,根据以下公式,确定迁移层的规则化项:
其中,ωfi为第i个网络块中各迁移层的训练参数组合得到的训练参数矩阵;为第i个网络块中各迁移层的初始参数组合得到的初始参数矩阵;α为超参数,可以由技术人员根据需要或经验值进行确定;||||2为二范数。
S305、根据目标模型中全连接层的训练参数,确定全连接层的规则化项。
具体的,根据以下公式,确定全连接层的规则化项:
其中,ωfc为全连接层的训练参数,β为超参数,可以由技术人员根据需要或经验值进行确定;||||2为二范数。
S306、根据迁移层的规则化项、全连接层的规则化项和损失函数,构建目标函数。
具体的,根据以下公式,构建目标函数:
其中,Loss为损失函数,θ为目标函数。
S307、基于目标函数,对包括有初始参数的目标网络进行训练。
结合图3B所示的目标函数构建过程示意图,以3个网络块(网络块-1、网络块-2和网络块-3)为例进行说明。
其中,源模型采用源领域的源数据集的源训练样本进行训练;目标模型采用目标领域的目标数据集的目标训练样本进行训练。其中,源训练样本的数量远远大于目标训练样本的数量;源领域与目标领域为相似的领域。其中,源模型为已训练好的网络模型,目标模型为待训练的网络模型。
在基于源模型的迁移中,目标模型学习到的网络参数与源模型的网络参数的距离与网络块权重W相乘,得到带权重的距离项,并将各网络块中的距离项叠加,得到迁移层的规则化项。根据目标模型的全连接层的网络参数ωfc的二范数,得到全连接层的规则化项;将迁移层的规则化项和全连接层的规则化项加和,得到最终规则化项;将最终规则化项引入目标模型的损失函数,构建目标函数。
通过上述方式,实现源模型信息的继承和目标模型的自适应。一方面,可以尽可能多的保留源模型浅层通用特征训练信息;另一方面,增加了深层特定特征的权重的差异可能。通过将源模型不同层次信息进行不同程度的保留,并整合到损失函数中,能够防止迁移过拟合的前提下,有效提升迁移学习的准确度。
实施例四
图4是本申请实施例四中的一种模型迁移训练装置的结构图,本申请实施例适用于将源领域的源模型迁移至目标领域的目标模型,并对目标模型进行训练的情况。该装置通过软件和/或硬件实现,并具体配置于电子设备中。
如图4所示的一种模型迁移训练装置400,包括:初始参数确定模块401、目标函数构建模块402和目标模型训练模块403。其中,
初始参数确定模块401,用于将源模型中至少两个迁移层的网络参数作为目标模型中关联的迁移层的初始参数;
目标函数构建模块402,用于根据所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数;
目标模型训练模块403,用于基于所述目标函数,对包括有初始参数的目标模型进行训练。
本申请实施例通过初始参数确定模块将源模型中至少两个迁移层的网络参数作为目标模型中关联的迁移层的初始参数;通过目标函数构建模块根据至少两个迁移层关联的训练参数与初始参数之间的距离,构建目标函数;通过目标模型训练模块基于目标函数对包括有初始参数的目标模型进行训练。上述技术方案通过在构建目标函数时,引入迁移层的训练参数与初始参数之间的距离,从而在模型训练过程中,兼顾各迁移层的模型迁移和训练情况,实现了对源模型的信息的继承以及目标模型的自适应,避免了模型迁移训练过程中的过拟合现象,提高了目标模型的泛化能力。
进一步地,目标函数构建模块402,包括:
目标函数构建单元,用于根据所述至少两个迁移层的权重,以及所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数。
进一步地,该装置还包括,权重确定模块,用于:
在根据所述至少两个迁移层的权重,以及所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数之前,根据所述迁移层在模型中的网络层级信息,确定所述迁移层的权重。
进一步地,权重确定模块,包括:
网络块序号确定单元,用于确定所述迁移层所属网络块的序号;
迁移层权重确定单元,用于根据所述迁移层所属网络块的序号,确定所述迁移层的权重。
进一步地,迁移层权重确定单元,包括:
迁移层权重确定子单元,用于基于权重函数,根据所述迁移层所属网络块的序号,确定所述迁移层的权重;其中,所述权重函数为所述网络块的序号的递减函数。
进一步地,目标函数构建单元,包括:
迁移层规则化项确定子单元,用于根据各所述迁移层的训练参数与所述初始参数之间距离的加权和,确定迁移层的规则化项;
目标函数构建子单元,用于根据所述迁移层的规则化项和损失函数,构建所述目标函数。
进一步地,所述目标函数构建单元,还包括:
全连接层规则化项确定子单元,用于根据全连接层的训练参数,确定所述全连接层的规则化项;
相应的,所述目标函数构建子单元,用于根据所述迁移层的规则化项、所述全连接层的规则化项和损失函数,构建所述目标函数。
进一步地,所述迁移层为图像特征提取层。
上述模型迁移训练装置可执行本申请任意实施例所提供的模型迁移训练方法,具备执行模型迁移训练方法相应的功能模块和有益效果。
实施例五
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是实现本申请实施例的模型迁移训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的模型迁移训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的模型迁移训练方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的模型迁移训练方法对应的程序指令/模块(例如,附图4所示的初始参数确定模块401、目标函数构建模块402和目标模型训练模块403)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的模型迁移训练方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储实现模型迁移训练方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至实现模型迁移训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现模型迁移训练方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与实现模型迁移训练方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本申请实施例通过将源模型中至少两个迁移层的网络参数作为目标模型中关联的迁移层的初始参数;根据至少两个迁移层关联的训练参数与初始参数之间的距离,构建目标函数;基于目标函数对包括有初始参数的目标模型进行训练。上述技术方案通过在构建目标函数时,引入迁移层的训练参数与初始参数之间的距离,从而在模型训练过程中,兼顾各迁移层的模型迁移和训练情况,实现了对源模型的信息的继承以及目标模型的自适应,避免了模型迁移训练过程中的过拟合现象,提高了目标模型的泛化能力。
应该理解,可以使用上面所示的各种形式的流程,重目标排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (18)
1.一种模型迁移训练方法,其特征在于,包括:
将源模型中至少两个迁移层的网络参数作为目标模型中关联的迁移层的初始参数;
根据所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数;
基于所述目标函数,对包括有初始参数的目标模型进行训练。
2.根据权利要求1所述的方法,其特征在于,根据所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数,包括:
根据所述至少两个迁移层的权重,以及所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数。
3.根据权利要求2所述的方法,其特征在于,根据所述至少两个迁移层的权重,以及所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数之前,还包括:
根据所述迁移层在模型中的网络层级信息,确定所述迁移层的权重。
4.根据权利要求3所述的方法,其特征在于,根据所述迁移层在模型中的网络层级信息,确定所述迁移层的权重,包括:
确定所述迁移层所属网络块的序号;
根据所述迁移层所属网络块的序号,确定所述迁移层的权重。
5.根据权利要求4所述的方法,其特征在于,根据所述迁移层所属网络块的序号,确定所述迁移层的权重,包括:
基于权重函数,根据所述迁移层所属网络块的序号,确定所述迁移层的权重;其中,所述权重函数为所述网络块的序号的递减函数。
6.根据权利要求2所述的方法,其特征在于,根据所述至少两个迁移层的权重,以及所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数,包括:
根据各所述迁移层的训练参数与所述初始参数之间距离的加权和,确定迁移层的规则化项;
根据所述迁移层的规则化项和损失函数,构建所述目标函数。
7.根据权利要求6所述的方法,其特征在于,根据所述迁移层的规则化项和损失函数,构建所述目标函数,包括:
根据全连接层的训练参数,确定所述全连接层的规则化项;
根据所述迁移层的规则化项、所述全连接层的规则化项和损失函数,构建所述目标函数。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述迁移层为图像特征提取层。
9.一种模型迁移训练装置,其特征在于,包括:
初始参数确定模块,用于将源模型中至少两个迁移层的网络参数作为目标模型中关联的迁移层的初始参数;
目标函数构建模块,用于根据所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数;
目标模型训练模块,用于基于所述目标函数,对包括有初始参数的目标模型进行训练。
10.根据权利要求9所述的装置,其特征在于,目标函数构建模块,包括:
目标函数构建单元,用于根据所述至少两个迁移层的权重,以及所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
权重确定模块,用于在根据所述至少两个迁移层的权重,以及所述至少两个迁移层关联的训练参数与所述初始参数之间的距离,构建目标函数之前,根据所述迁移层在模型中的网络层级信息,确定所述迁移层的权重。
12.根据权利要求11所述的装置,其特征在于,权重确定模块,包括:
网络块序号确定单元,用于确定所述迁移层所属网络块的序号;
迁移层权重确定单元,用于根据所述迁移层所属网络块的序号,确定所述迁移层的权重。
13.根据权利要求12所述的装置,其特征在于,迁移层权重确定单元,包括:
迁移层权重确定子单元,用于基于权重函数,根据所述迁移层所属网络块的序号,确定所述迁移层的权重;其中,所述权重函数为所述网络块的序号的递减函数。
14.根据权利要求10所述的装置,其特征在于,目标函数构建单元,包括:
迁移层规则化项确定子单元,用于根据各所述迁移层的训练参数与所述初始参数之间距离的加权和,确定迁移层的规则化项;
目标函数构建子单元,用于根据所述迁移层的规则化项和损失函数,构建所述目标函数。
15.根据权利要求14所述的装置,其特征在于,所述目标函数构建单元,还包括:
全连接层规则化项确定子单元,用于根据全连接层的训练参数,确定所述全连接层的规则化项;
相应的,所述目标函数构建子单元,用于根据所述迁移层的规则化项、所述全连接层的规则化项和损失函数,构建所述目标函数。
16.根据权利要求9-15任一项所述的装置,其特征在于,所述迁移层为图像特征提取层。
17.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的一种模型迁移训练方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的一种模型迁移训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010219449.2A CN111444958B (zh) | 2020-03-25 | 2020-03-25 | 一种模型迁移训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010219449.2A CN111444958B (zh) | 2020-03-25 | 2020-03-25 | 一种模型迁移训练方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444958A true CN111444958A (zh) | 2020-07-24 |
CN111444958B CN111444958B (zh) | 2024-02-13 |
Family
ID=71648761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010219449.2A Active CN111444958B (zh) | 2020-03-25 | 2020-03-25 | 一种模型迁移训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444958B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016622A (zh) * | 2020-08-28 | 2020-12-01 | 中移(杭州)信息技术有限公司 | 模型训练的方法、电子设备和计算机可读存储介质 |
CN113222976A (zh) * | 2021-05-31 | 2021-08-06 | 河海大学 | 基于dcnn和迁移学习的时空图像纹理方向检测方法及*** |
CN113283481A (zh) * | 2021-05-14 | 2021-08-20 | 群智未来人工智能科技研究院(无锡)有限公司 | 一种基于知识二型模糊的膜污染智能决策方法 |
CN114005015A (zh) * | 2021-12-28 | 2022-02-01 | 北京的卢深视科技有限公司 | 模型训练方法、电子设备和计算机可读存储介质 |
CN114065903A (zh) * | 2020-08-07 | 2022-02-18 | 深圳先进技术研究院 | 深度学习模型的参数重用方法、装置、终端及存储介质 |
CN115396831A (zh) * | 2021-05-08 | 2022-11-25 | ***通信集团浙江有限公司 | 交互模型生成方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832711A (zh) * | 2017-11-13 | 2018-03-23 | 常州大学 | 一种基于迁移学习的行人重识别方法 |
WO2018227800A1 (zh) * | 2017-06-15 | 2018-12-20 | 北京图森未来科技有限公司 | 一种神经网络训练方法及装置 |
CN109902798A (zh) * | 2018-05-31 | 2019-06-18 | 华为技术有限公司 | 深度神经网络的训练方法和装置 |
CN110580496A (zh) * | 2019-07-11 | 2019-12-17 | 南京邮电大学 | 一种基于熵最小化的深度迁移学习***及方法 |
CN110647920A (zh) * | 2019-08-29 | 2020-01-03 | 北京百度网讯科技有限公司 | 机器学习中的迁移学习方法及装置、设备与可读介质 |
CN110782883A (zh) * | 2019-11-12 | 2020-02-11 | 百度在线网络技术(北京)有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
WO2020035075A1 (zh) * | 2018-08-17 | 2020-02-20 | 第四范式(北京)技术有限公司 | 在数据隐私保护下执行机器学习的方法和*** |
-
2020
- 2020-03-25 CN CN202010219449.2A patent/CN111444958B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018227800A1 (zh) * | 2017-06-15 | 2018-12-20 | 北京图森未来科技有限公司 | 一种神经网络训练方法及装置 |
CN107832711A (zh) * | 2017-11-13 | 2018-03-23 | 常州大学 | 一种基于迁移学习的行人重识别方法 |
CN109902798A (zh) * | 2018-05-31 | 2019-06-18 | 华为技术有限公司 | 深度神经网络的训练方法和装置 |
WO2020035075A1 (zh) * | 2018-08-17 | 2020-02-20 | 第四范式(北京)技术有限公司 | 在数据隐私保护下执行机器学习的方法和*** |
CN110580496A (zh) * | 2019-07-11 | 2019-12-17 | 南京邮电大学 | 一种基于熵最小化的深度迁移学习***及方法 |
CN110647920A (zh) * | 2019-08-29 | 2020-01-03 | 北京百度网讯科技有限公司 | 机器学习中的迁移学习方法及装置、设备与可读介质 |
CN110782883A (zh) * | 2019-11-12 | 2020-02-11 | 百度在线网络技术(北京)有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
"《计算机工程与设计》2009年(第30卷)总目次", 计算机工程与设计, no. 24 * |
杨涵方;周向东;: "基于深度稀疏辨别的跨领域图像分类", 计算机工程, no. 04 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114065903A (zh) * | 2020-08-07 | 2022-02-18 | 深圳先进技术研究院 | 深度学习模型的参数重用方法、装置、终端及存储介质 |
CN112016622A (zh) * | 2020-08-28 | 2020-12-01 | 中移(杭州)信息技术有限公司 | 模型训练的方法、电子设备和计算机可读存储介质 |
CN115396831A (zh) * | 2021-05-08 | 2022-11-25 | ***通信集团浙江有限公司 | 交互模型生成方法、装置、设备及存储介质 |
CN113283481A (zh) * | 2021-05-14 | 2021-08-20 | 群智未来人工智能科技研究院(无锡)有限公司 | 一种基于知识二型模糊的膜污染智能决策方法 |
CN113222976A (zh) * | 2021-05-31 | 2021-08-06 | 河海大学 | 基于dcnn和迁移学习的时空图像纹理方向检测方法及*** |
CN113222976B (zh) * | 2021-05-31 | 2022-08-05 | 河海大学 | 基于dcnn和迁移学习的时空图像纹理方向检测方法及*** |
CN114005015A (zh) * | 2021-12-28 | 2022-02-01 | 北京的卢深视科技有限公司 | 模型训练方法、电子设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111444958B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444958A (zh) | 一种模型迁移训练方法、装置、设备及存储介质 | |
CN111753914B (zh) | 模型优化方法和装置、电子设备及存储介质 | |
CN111507104A (zh) | 建立标签标注模型的方法、装置、电子设备和可读存储介质 | |
US11914964B2 (en) | Method and apparatus for training semantic representation model, device and computer storage medium | |
CN111737994A (zh) | 基于语言模型获取词向量的方法、装置、设备及存储介质 | |
WO2020154830A1 (en) | Techniques to detect fusible operators with machine learning | |
JP2021174516A (ja) | ナレッジグラフ構築方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
JP7342242B2 (ja) | 学習を転移させるための学習のためのフレームワーク | |
CN110675954A (zh) | 信息处理方法及装置、电子设备、存储介质 | |
CN111582452B (zh) | 生成神经网络模型的方法和装置 | |
CN111488740A (zh) | 一种因果关系的判别方法、装置、电子设备及存储介质 | |
CN111461345A (zh) | 深度学习模型训练方法及装置 | |
CN111582477A (zh) | 神经网络模型的训练方法和装置 | |
US11562554B1 (en) | Workload reduction for non-maximum suppression operation | |
CN112529180A (zh) | 模型蒸馏的方法和装置 | |
CN112329453B (zh) | 样本章节的生成方法、装置、设备以及存储介质 | |
JP2021192286A (ja) | モデル訓練、画像処理方法及びデバイス、記憶媒体、プログラム製品 | |
CN114386503A (zh) | 用于训练模型的方法和装置 | |
CN114202074A (zh) | 用于目标检测任务的预训练模型生成方法、装置及设备 | |
CN112529181B (zh) | 用于模型蒸馏的方法和装置 | |
US20220300822A1 (en) | Forgetting data samples from pretrained neural network models | |
Bourrasset et al. | Requirements for an enterprise AI benchmark | |
CN111738325A (zh) | 图像识别方法、装置、设备以及存储介质 | |
Kaim et al. | Ensemble cnn attention-based bilstm deep learning architecture for multivariate cloud workload prediction | |
CN111832291A (zh) | 实体识别模型的生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |