CN108573287A

CN108573287A - 一种基于深度神经网络的图像编解码器的训练方法

Info

Publication number: CN108573287A
Application number: CN201810446279.4A
Authority: CN
Inventors: 周乾伟; 陶鹏; 陈禹行; 詹琦梁; 胡海根; 李小薪; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2018-09-25
Anticipated expiration: 2038-05-11
Also published as: CN108573287B

Abstract

一种基于深度神经网络的图像编解码器的训练方法，所述训练方法包括以下步骤：第一步、空间解耦：用于解除编解码器和生成模型的耦合，并解除隐变量编码与重建模块的耦合；第二步，时间分治：在训练编解码器的不同阶段优化不同的损失函数并使用不同的学习速率来提高训练的速度与稳定性。本发明提供了一种有效避免多个误差函数相互干扰的基于深度神经网络的图像编解码器的训练方法。

Description

一种基于深度神经网络的图像编解码器的训练方法

技术领域

本发明属于图像编解码器领域，具体涉及基于深度神经网络的图像编解码器的训练方法。

背景技术

对于基于深度神经网络的图像编解码器，在网络的训练中通常需要同时优化多个损失函数，例如重建误差函数，图像生成对抗误差函数。同时，在实际应用中，还会根据具体需要额外优化其他的损失函数。这些不同的损失函数存在显著的耦合关系，在网络训练中会出现严重的冲突问题。如果不同误差函数之间的配比比例不当，则会导致训练的不稳定，影响解码器对图像的重建精度和生成图像的拟真，即，影响编解码后的图像与训练图像集的相似程度。

在目前已有的相关文献中多数只给出了2个误差函数和3个功能模块的稳定性约束方法。然而在复杂的图像编解码器中往往会存在2个以上误差函数以及3个以上功能模块。对于这样复杂的编解码器，如何统筹协调多个误差函数的关系，使得所有误差函数通过训练达到收敛成为一个急需解决的问题。

发明内容

为了克服现有技术在训练编解码器时多个误差函数相互干扰的不足，本发明提供了一种有效避免多个误差函数相互干扰的基于深度神经网络的图像编解码器的训练方法。

本发明解决其技术问题所采用的技术方案是：

一种基于深度神经网络的图像编解码器的训练方法，所述训练方法包括以下步骤：

第一步、空间解耦：用于解除编解码器和生成模型的耦合，并解除隐变量编码与重建模块的耦合；

第二步，时间分治：在训练编解码器的不同阶段优化不同的损失函数并使用不同的学习速率来提高训练的速度与稳定性。

进一步，所述空间解耦对编解码器中相互存在干扰的损失函数聚合成为一个模块，在训练时按模块进行损失函数的优化。

再进一步，根据所述空间解耦方法聚合形成的模块之间是解耦合的，即对某个模块进行优化时，不会对其他模块的优化造成影响或干扰。

更进一步，所述时间分治将完整的编解码器训练过程分为若干个训练阶段，在不同的训练阶段对不同模块内的损失函数进行优化。

在不同的训练阶段对同一模块进行优化时，后期训练阶段所采用的学习速率小于前期训练阶段采用的学习速率。

在某一训练阶段对多个模块进行优化时，不同的模块可以使用不同的学习速率来优化误差函数。

在每一训练阶段，所有模块内的损失函数都需要反复迭代优化若干次。并且通常不同训练阶段需要迭代的次数不尽相同。

本发明的有益效果主要表现在：1.统筹分析各损失函数之间的耦合关系，将损失函数聚合为互不干扰的不同模块，实现了空间上的解耦合。2.将整个训练过程划分为多个训练阶段，每个训练阶段只对部分模块进行训练，避免了所有损失函数同时训练带来的训练不稳定的问题。

附图说明

图1为本发明一种编解码器的训练方法的流程图。

图2为一种编解码器按模块进行空间解耦的实施例。

图3为训练过程分为4个训练阶段的示意图。

原件标号说明，x表示需要编解码的原图像，y表示经过编解码后还原的图像，O表示细节编码器，E_xj表示经细节编码器编码后的隐变量，G表示细节解码器，V表示趋势编码器，E_qs表示经趋势编码器编码后的隐变量，D表示趋势解码器。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于深度神经网络的图像编解码器的训练方法，所述训练方法包括以下步骤：

参照图1，一种基于深度神经网络的图像编解码器的训练方法，包括以下步骤：

S101将编解码器中的各组件按功能和损失函数聚合为若干个模块，使得在训练时模块与模块之间互不干扰。

S102将训练过程分为若干个训练阶段。不同的训练阶段对不同模块内的损失函数进行优化。

S103在每一训练阶段中，需要训练的模块以相同或不同的学习速率迭代循环若干次。

S104完成所有训练阶段的训练，所有损失函数达到稳定收敛。

参照图2，一种编解码器按模块进行空间解耦的实施例。图2所示的图像编解码器包含以下组件：信息筛选器O与细节编码器E_xj提取原图像的细节信息并编码得到细节隐变量，再由细节解码器G将细节隐变量解码为原图像的细节信息；特征提取器V与趋势编码器E_qs提取原图像的趋势信息并编码得到趋势隐变量，再由趋势解码器D解码出原图像的模糊轮廓。最后综合细节解码器G与趋势解码器D两者的输出结果重建出原图像。此外，该编解码器引入了对抗生成网络，使用图像判决器DB来评价最终的重建效果。并且引入隐变量判决器DL来约束隐变量，使编码后的隐变量服从某一预定义的概率分布。

对于本实施例中待训练的编解码器，信息筛选器O、细节编码器E_xj、特征提取器V以及趋势编码器E_qs共同组成了编解码器中的编码部分，输入原始图像，输出编码后的隐变量；细节解码器G与趋势解码器D两者共同组成了编解码器中的解码部分，输入编码后的隐变量，输出原图像的重建结果。

在本实施例中，需要训练编解码器以最小化以下几个误差函数：

1)LYS(V，E_qs，D)，趋势重建损失函数。评价趋势重建结果与原图像的误差。

2)LDB(DB)，图像判决器损失函数。将原图像与重建后的图像输入图像判决器DB，使用该误差函数评价图像判决器DB辨别原图像与重建图像的能力。

3)LDB(O，E_xj，G)，细节生成损失函数。将解码器作为生成模型，图像判决器DB作为判决模型，使用该误差函数评价重建出的图像迷惑图像判决器DB的能力。

4)LDL(DL)，分布判决损失函数。该误差函数用于评价隐变量判决器DL辨别隐变量与预定义概率分布采样样本的能力。

5)LDL(E)，隐变量损失函数。该误差函数用于评价编码后的隐变量迷惑隐变量判决器DL的能力。

6)LR(G，D)，重建损失函数。经细节解码器G与趋势解码器D解码后的重建图像与原图像的误差。

参照图2，一种实施例的编解码器训练方法，包括以下几个步骤：

1)将编解码器的组件划分为互不干扰的两个模块：细节解码模块：包含信息筛选器O、特征提取器V和细节解码器G；趋势编码模块：特征提取器V、趋势编码器E_qs以及趋势解码器D。

2)参照图3，将训练过程分为4个训练阶段，分别为预训练前期，预训练后期，无损精校，无损迁移。

3)每个训练阶段按图2所示顺序以一定学习速率训练，并循环迭代若干次。

4)完成4个训练阶段的训练，编解码器的训练完成。

以上通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点和功效。本发明还可以通过另外不同的具体实例方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互结合。

需要说明的是，以上实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目绘制，其实际实施时各组件的数量及比例可为一种随意的改变。

Claims

1.一种基于深度神经网络的图像编解码器的训练方法，其特征在于，所述训练方法包括以下步骤：

2.如权利要求1所述的基于深度神经网络的图像编解码器的训练方法，其特征在于，所述空间解耦对编解码器中相互存在干扰的损失函数聚合成为一个模块，在训练时按模块进行损失函数的优化。

3.如权利要求2所述的基于深度神经网络的图像编解码器的训练方法，其特征在于，根据所述空间解耦方法聚合形成的模块之间是解耦合的，即对某个模块进行优化时，不会对其他模块的优化造成影响或干扰。

4.如权利要求1～3之一所述的基于深度神经网络的图像编解码器的训练方法，其特征在于，所述时间分治将完整的编解码器训练过程分为若干个训练阶段，在不同的训练阶段对不同模块内的损失函数进行优化。

5.如权利要求4所述的基于深度神经网络的图像编解码器的训练方法，其特征在于，在不同的训练阶段对同一模块进行优化时，后期训练阶段所采用的学习速率小于前期训练阶段采用的学习速率。

6.如权利要求5所述的基于深度神经网络的图像编解码器的训练方法，其特征在于，在某一训练阶段对多个模块进行优化时，不同的模块可以使用不同的学习速率来优化误差函数。

7.如权利要求4所述的基于深度神经网络的图像编解码器的训练方法，其特征在于，在每一训练阶段，所有模块内的损失函数都需要反复迭代优化若干次。并且通常不同训练阶段需要迭代的次数不尽相同。