CN111191768A

CN111191768A - 一种深度神经网络的微调方法

Info

Publication number: CN111191768A
Application number: CN201911314756.2A
Authority: CN
Inventors: 张伯政; 吴军; 何彬彬; 张福鑫; 张述睿; 樊昭磊
Original assignee: Shandong Msunhealth Technology Group Co Ltd
Current assignee: Shandong Msunhealth Technology Group Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-22

Abstract

一种深度神经网络的微调方法，在对预训练的模型进行微调时，不再训练预训练后的模型参数，因而不会遗忘模型在预训练中学习到的基础模式。在训练中，针对预训练部分与针对特定任务增加的模型部分的参数分开正则，可以较好的控制模型的微调过程即不会出现严重的偏离，又能保证模型增加部分的充分学习。

Description

一种深度神经网络的微调方法

技术领域

本发明涉及神经网络技术领域，具体涉及一种深度神经网络的微调方法。

背景技术

近年来，在人工智能领域，随着任务的复杂性逐渐提高，在针对特定任务训练之前，使用成熟的同模态的大型数据集对深度神经网络模型进行预训练的方法，扮演者越来越重要的角色。其中图像领域尤以ImageNet、Objects365等大型数据集中的预训练为多，自然语言处理领域各种预训练深度神经网络模型如GPT、Elmo、BERT更是赢得业界交口称赞。

但将预训练好的深度神经网络模型在特定任务上进行微调的时候，由于其模型的参数规模通常较大，而特定任务的数据规模通常较小。这常常会带来一个矛盾之处，即：如果模型在特定任务上训练得越好，模型在原有数据集上学习到的基础模式会遗忘得越严重，模型泛化性能出现下降；但如果要降低模型在预训练中学习到的基础模式的遗忘，则模型往往在特定任务的训练中欠学习，特定任务的表现不佳。

又由于模型预训练部分的参数量巨大，而针对特定任务增补的部分的参数量较小。在使用较小学习率进行微调时，往往会出现，模型预训练部分由于参数量巨大已经过学习，而针对特定任务增补的部分由于参数量较小还欠学习的前后矛盾状态，最终导致模型表现不佳。

发明内容

本发明为了克服以上技术的不足，提供了一种使模型微调过程中不会出现严重的偏离且确保模型增加部分充分学习的深度神经网络的微调方法。

本发明克服其技术问题所采用的技术方案是：

一种深度神经网络的微调方法，包括如下步骤：

a)将深度神经网络模型定义为M_θ，M为模型，θ为模型中的所有参数，利用公式

计算模型M_θ对数据集中输入数据x的预测结果

b)将经过预训练的模型定义为

θ₀为在预训练任务重表现最优的参数；

c)当需要在特定任务上对模型进行微调时，初始化参数集Δ，参数集Δ中的参数个数与θ₀中的参数个数相同，参数集Δ中的参数与θ₀中的参数一一对应，使用0值初始化参数集Δ中的各个参数，使用θ₀+Δ替代步骤a)中的θ，深度神经网络模型变化为

d)使用在模型的特定任务上，使用公式

计算预测结果

式中M'为针对特定任务添加的模型，β为模型M'中的所有参数；

e)通过公式

计算新的损失函数，式中loss为特定任务中的损失函数，r_Δ为模型预训练部分的正则化项系数，∑Δ²为模型训练部分的正则化项，r_β为针对特定任务添加的模型的参数的正则化项系数，∑β²为针对特定任务添加的模型的参数的正则化项；

f)使用新的损失函数loss+r_Δ×∑Δ²+r_β×∑β²对模型

进行微调。

本发明的有益效果是：在对预训练的模型进行微调时，不再训练预训练后的模型参数，因而不会遗忘模型在预训练中学习到的基础模式。在训练中，针对预训练部分与针对特定任务增加的模型部分的参数分开正则，可以较好的控制模型的微调过程即不会出现严重的偏离，又能保证模型增加部分的充分学习。

具体实施方式

下面对本发明做进一步说明。

一种深度神经网络的微调方法，包括如下步骤：

计算模型M_θ对数据集中输入数据x的预测结果

b)将经过预训练的模型定义为

θ₀为在预训练任务重表现最优的参数。

d)使用在模型的特定任务上，使用公式

计算预测结果

式中M'为针对特定任务添加的模型，β为模型M'中的所有参数。

e)在特定任务数据集上对模型

进行微调时，模型中的参数θ₀不在进行训练，只训练参数Δ和参数β，通过公式loss+r_Δ×∑Δ²+r_β×∑β²计算新的损失函数，式中loss为特定任务中的损失函数，r_Δ为模型预训练部分的正则化项系数，∑Δ²为模型训练部分的正则化项，r_β为针对特定任务添加的模型的参数的正则化项系数，∑β²为针对特定任务添加的模型的参数的正则化项。

f)使用新的损失函数loss+r_Δ×∑Δ²+r_β×∑β²对模型

进行微调。

在对预训练的模型进行微调时，不再训练预训练后的模型参数，因而不会遗忘模型在预训练中学习到的基础模式。在训练中，针对预训练部分与针对特定任务增加的模型部分的参数分开正则，可以较好的控制模型的微调过程即不会出现严重的偏离，又能保证模型增加部分的充分学习。