CN111191768A - 一种深度神经网络的微调方法 - Google Patents

一种深度神经网络的微调方法 Download PDF

Info

Publication number
CN111191768A
CN111191768A CN201911314756.2A CN201911314756A CN111191768A CN 111191768 A CN111191768 A CN 111191768A CN 201911314756 A CN201911314756 A CN 201911314756A CN 111191768 A CN111191768 A CN 111191768A
Authority
CN
China
Prior art keywords
model
parameters
training
neural network
theta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911314756.2A
Other languages
English (en)
Inventor
张伯政
吴军
何彬彬
张福鑫
张述睿
樊昭磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Msunhealth Technology Group Co Ltd
Original Assignee
Shandong Msunhealth Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Msunhealth Technology Group Co Ltd filed Critical Shandong Msunhealth Technology Group Co Ltd
Priority to CN201911314756.2A priority Critical patent/CN111191768A/zh
Publication of CN111191768A publication Critical patent/CN111191768A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

一种深度神经网络的微调方法,在对预训练的模型进行微调时,不再训练预训练后的模型参数,因而不会遗忘模型在预训练中学习到的基础模式。在训练中,针对预训练部分与针对特定任务增加的模型部分的参数分开正则,可以较好的控制模型的微调过程即不会出现严重的偏离,又能保证模型增加部分的充分学习。

Description

一种深度神经网络的微调方法
技术领域
本发明涉及神经网络技术领域,具体涉及一种深度神经网络的微调方法。
背景技术
近年来,在人工智能领域,随着任务的复杂性逐渐提高,在针对特定任务训练之前,使用成熟的同模态的大型数据集对深度神经网络模型进行预训练的方法,扮演者越来越重要的角色。其中图像领域尤以ImageNet、Objects365等大型数据集中的预训练为多,自然语言处理领域各种预训练深度神经网络模型如GPT、Elmo、BERT更是赢得业界交口称赞。
但将预训练好的深度神经网络模型在特定任务上进行微调的时候,由于其模型的参数规模通常较大,而特定任务的数据规模通常较小。这常常会带来一个矛盾之处,即:如果模型在特定任务上训练得越好,模型在原有数据集上学习到的基础模式会遗忘得越严重,模型泛化性能出现下降;但如果要降低模型在预训练中学习到的基础模式的遗忘,则模型往往在特定任务的训练中欠学习,特定任务的表现不佳。
又由于模型预训练部分的参数量巨大,而针对特定任务增补的部分的参数量较小。在使用较小学习率进行微调时,往往会出现,模型预训练部分由于参数量巨大已经过学习,而针对特定任务增补的部分由于参数量较小还欠学习的前后矛盾状态,最终导致模型表现不佳。
发明内容
本发明为了克服以上技术的不足,提供了一种使模型微调过程中不会出现严重的偏离且确保模型增加部分充分学习的深度神经网络的微调方法。
本发明克服其技术问题所采用的技术方案是:
一种深度神经网络的微调方法,包括如下步骤:
a)将深度神经网络模型定义为Mθ,M为模型,θ为模型中的所有参数,利用公式
Figure BDA0002323205270000011
计算模型Mθ对数据集中输入数据x的预测结果
Figure BDA0002323205270000012
b)将经过预训练的模型定义为
Figure BDA0002323205270000021
θ0为在预训练任务重表现最优的参数;
c)当需要在特定任务上对模型进行微调时,初始化参数集Δ,参数集Δ中的参数个数与θ0中的参数个数相同,参数集Δ中的参数与θ0中的参数一一对应,使用0值初始化参数集Δ中的各个参数,使用θ0+Δ替代步骤a)中的θ,深度神经网络模型变化为
Figure BDA0002323205270000022
d)使用在模型的特定任务上,使用公式
Figure BDA0002323205270000023
计算预测结果
Figure BDA0002323205270000024
式中M'为针对特定任务添加的模型,β为模型M'中的所有参数;
e)通过公式
Figure BDA0002323205270000025
计算新的损失函数,式中loss为特定任务中的损失函数,rΔ为模型预训练部分的正则化项系数,∑Δ2为模型训练部分的正则化项,rβ为针对特定任务添加的模型的参数的正则化项系数,∑β2为针对特定任务添加的模型的参数的正则化项;
f)使用新的损失函数loss+rΔ×∑Δ2+rβ×∑β2对模型
Figure BDA0002323205270000026
进行微调。
本发明的有益效果是:在对预训练的模型进行微调时,不再训练预训练后的模型参数,因而不会遗忘模型在预训练中学习到的基础模式。在训练中,针对预训练部分与针对特定任务增加的模型部分的参数分开正则,可以较好的控制模型的微调过程即不会出现严重的偏离,又能保证模型增加部分的充分学习。
具体实施方式
下面对本发明做进一步说明。
一种深度神经网络的微调方法,包括如下步骤:
a)将深度神经网络模型定义为Mθ,M为模型,θ为模型中的所有参数,利用公式
Figure BDA0002323205270000027
计算模型Mθ对数据集中输入数据x的预测结果
Figure BDA0002323205270000028
b)将经过预训练的模型定义为
Figure BDA0002323205270000029
θ0为在预训练任务重表现最优的参数。
c)当需要在特定任务上对模型进行微调时,初始化参数集Δ,参数集Δ中的参数个数与θ0中的参数个数相同,参数集Δ中的参数与θ0中的参数一一对应,使用0值初始化参数集Δ中的各个参数,使用θ0+Δ替代步骤a)中的θ,深度神经网络模型变化为
Figure BDA0002323205270000031
d)使用在模型的特定任务上,使用公式
Figure BDA0002323205270000032
计算预测结果
Figure BDA0002323205270000033
式中M'为针对特定任务添加的模型,β为模型M'中的所有参数。
e)在特定任务数据集上对模型
Figure BDA0002323205270000034
进行微调时,模型中的参数θ0不在进行训练,只训练参数Δ和参数β,通过公式loss+rΔ×∑Δ2+rβ×∑β2计算新的损失函数,式中loss为特定任务中的损失函数,rΔ为模型预训练部分的正则化项系数,∑Δ2为模型训练部分的正则化项,rβ为针对特定任务添加的模型的参数的正则化项系数,∑β2为针对特定任务添加的模型的参数的正则化项。
f)使用新的损失函数loss+rΔ×∑Δ2+rβ×∑β2对模型
Figure BDA0002323205270000035
进行微调。
在对预训练的模型进行微调时,不再训练预训练后的模型参数,因而不会遗忘模型在预训练中学习到的基础模式。在训练中,针对预训练部分与针对特定任务增加的模型部分的参数分开正则,可以较好的控制模型的微调过程即不会出现严重的偏离,又能保证模型增加部分的充分学习。

Claims (1)

1.一种深度神经网络的微调方法,其特征在于,包括如下步骤:
a)将深度神经网络模型定义为Mθ,M为模型,θ为模型中的所有参数,利用公式
Figure FDA0002323205260000011
计算模型Mθ对数据集中输入数据x的预测结果
Figure FDA0002323205260000012
b)将经过预训练的模型定义为
Figure FDA0002323205260000013
θ0为在预训练任务重表现最优的参数;
c)当需要在特定任务上对模型进行微调时,初始化参数集Δ,参数集Δ中的参数个数与θ0中的参数个数相同,参数集Δ中的参数与θ0中的参数一一对应,使用0值初始化参数集Δ中的各个参数,使用θ0+Δ替代步骤a)中的θ,深度神经网络模型变化为
Figure FDA0002323205260000014
d)使用在模型的特定任务上,使用公式
Figure FDA0002323205260000015
计算预测结果
Figure FDA0002323205260000016
式中M'为针对特定任务添加的模型,β为模型M'中的所有参数;
e)通过公式loss+rΔ×∑Δ2+rβ×∑β2计算新的损失函数,式中loss为特定任务中的损失函数,rΔ为模型预训练部分的正则化项系数,∑Δ2为模型训练部分的正则化项,rβ为针对特定任务添加的模型的参数的正则化项系数,∑β2为针对特定任务添加的模型的参数的正则化项;
f)使用新的损失函数loss+rΔ×∑Δ2+rβ×∑β2对模型
Figure FDA0002323205260000017
进行微调。
CN201911314756.2A 2019-12-18 2019-12-18 一种深度神经网络的微调方法 Pending CN111191768A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911314756.2A CN111191768A (zh) 2019-12-18 2019-12-18 一种深度神经网络的微调方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911314756.2A CN111191768A (zh) 2019-12-18 2019-12-18 一种深度神经网络的微调方法

Publications (1)

Publication Number Publication Date
CN111191768A true CN111191768A (zh) 2020-05-22

Family

ID=70707358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911314756.2A Pending CN111191768A (zh) 2019-12-18 2019-12-18 一种深度神经网络的微调方法

Country Status (1)

Country Link
CN (1) CN111191768A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
CN107563422A (zh) * 2017-08-23 2018-01-09 西安电子科技大学 一种基于半监督卷积神经网络的极化sar分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
CN107563422A (zh) * 2017-08-23 2018-01-09 西安电子科技大学 一种基于半监督卷积神经网络的极化sar分类方法

Similar Documents

Publication Publication Date Title
CN106919942B (zh) 用于手写汉字识别的深度卷积神经网络的加速压缩方法
US20190095794A1 (en) Methods and apparatus for training a neural network
US10713533B2 (en) Image processing method and apparatus, and computer-readable storage medium
WO2019091020A1 (zh) 权重数据存储方法和基于该方法的神经网络处理器
CN108319988B (zh) 一种用于手写汉字识别的深度神经网络的加速方法
CN110442721A (zh) 神经网络语言模型、训练方法、装置及存储介质
CN117290721A (zh) 数字孪生建模方法、装置、设备及介质
CN114491028A (zh) 基于正则化元学习的小样本文本分类方法
US20230252294A1 (en) Data processing method, apparatus, and device, and computer-readable storage medium
Lopes et al. Deep belief networks (DBNs)
CN113204645A (zh) 一种基于知识引导的方面级情感分析模型训练方法
CN112686383A (zh) 一种通信并行的分布式随机梯度下降的方法、***及装置
CN115578248A (zh) 一种基于风格引导的泛化增强图像分类算法
CN105353618B (zh) 一种批次注塑过程的约束跟踪控制方法
CN109242089B (zh) 递进监督深度学习神经网络训练方法、***、介质和设备
CN111191768A (zh) 一种深度神经网络的微调方法
US20230362416A1 (en) Video processing method and apparatus, device, and storage medium
CN115936108A (zh) 基于知识蒸馏的面向多元时序预测图神经网络压缩方法
CN116177858A (zh) 高纯石英坩埚的制备方法及其***
CN113326832B (zh) 模型训练、图像处理方法、电子设备及存储介质
CN112200275B (zh) 人工神经网络的量化方法及装置
Sun et al. Regularization of deep neural networks using a novel companion objective function
CN116663516B (zh) 表格机器学习模型训练方法、装置、电子设备及存储介质
CN118015287B (zh) 一种基于域纠正适应器的跨域小样本分割方法
CN115994590B (zh) 基于分布式集群的数据处理方法、***、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200522