CN108573287A - 一种基于深度神经网络的图像编解码器的训练方法 - Google Patents
一种基于深度神经网络的图像编解码器的训练方法 Download PDFInfo
- Publication number
- CN108573287A CN108573287A CN201810446279.4A CN201810446279A CN108573287A CN 108573287 A CN108573287 A CN 108573287A CN 201810446279 A CN201810446279 A CN 201810446279A CN 108573287 A CN108573287 A CN 108573287A
- Authority
- CN
- China
- Prior art keywords
- training
- neural network
- deep neural
- different
- codec
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
Abstract
一种基于深度神经网络的图像编解码器的训练方法,所述训练方法包括以下步骤:第一步、空间解耦:用于解除编解码器和生成模型的耦合,并解除隐变量编码与重建模块的耦合;第二步,时间分治:在训练编解码器的不同阶段优化不同的损失函数并使用不同的学习速率来提高训练的速度与稳定性。本发明提供了一种有效避免多个误差函数相互干扰的基于深度神经网络的图像编解码器的训练方法。
Description
技术领域
本发明属于图像编解码器领域,具体涉及基于深度神经网络的图像编解码器的训练方法。
背景技术
对于基于深度神经网络的图像编解码器,在网络的训练中通常需要同时优化多个损失函数,例如重建误差函数,图像生成对抗误差函数。同时,在实际应用中,还会根据具体需要额外优化其他的损失函数。这些不同的损失函数存在显著的耦合关系,在网络训练中会出现严重的冲突问题。如果不同误差函数之间的配比比例不当,则会导致训练的不稳定,影响解码器对图像的重建精度和生成图像的拟真,即,影响编解码后的图像与训练图像集的相似程度。
在目前已有的相关文献中多数只给出了2个误差函数和3个功能模块的稳定性约束方法。然而在复杂的图像编解码器中往往会存在2个以上误差函数以及3个以上功能模块。对于这样复杂的编解码器,如何统筹协调多个误差函数的关系,使得所有误差函数通过训练达到收敛成为一个急需解决的问题。
发明内容
为了克服现有技术在训练编解码器时多个误差函数相互干扰的不足,本发明提供了一种有效避免多个误差函数相互干扰的基于深度神经网络的图像编解码器的训练方法。
本发明解决其技术问题所采用的技术方案是:
一种基于深度神经网络的图像编解码器的训练方法,所述训练方法包括以下步骤:
第一步、空间解耦:用于解除编解码器和生成模型的耦合,并解除隐变量编码与重建模块的耦合;
第二步,时间分治:在训练编解码器的不同阶段优化不同的损失函数并使用不同的学习速率来提高训练的速度与稳定性。
进一步,所述空间解耦对编解码器中相互存在干扰的损失函数聚合成为一个模块,在训练时按模块进行损失函数的优化。
再进一步,根据所述空间解耦方法聚合形成的模块之间是解耦合的,即对某个模块进行优化时,不会对其他模块的优化造成影响或干扰。
更进一步,所述时间分治将完整的编解码器训练过程分为若干个训练阶段,在不同的训练阶段对不同模块内的损失函数进行优化。
在不同的训练阶段对同一模块进行优化时,后期训练阶段所采用的学习速率小于前期训练阶段采用的学习速率。
在某一训练阶段对多个模块进行优化时,不同的模块可以使用不同的学习速率来优化误差函数。
在每一训练阶段,所有模块内的损失函数都需要反复迭代优化若干次。并且通常不同训练阶段需要迭代的次数不尽相同。
本发明的有益效果主要表现在:1.统筹分析各损失函数之间的耦合关系,将损失函数聚合为互不干扰的不同模块,实现了空间上的解耦合。2.将整个训练过程划分为多个训练阶段,每个训练阶段只对部分模块进行训练,避免了所有损失函数同时训练带来的训练不稳定的问题。
附图说明
图1为本发明一种编解码器的训练方法的流程图。
图2为一种编解码器按模块进行空间解耦的实施例。
图3为训练过程分为4个训练阶段的示意图。
原件标号说明,x表示需要编解码的原图像,y表示经过编解码后还原的图像,O表示细节编码器,Exj表示经细节编码器编码后的隐变量,G表示细节解码器,V表示趋势编码器,Eqs表示经趋势编码器编码后的隐变量,D表示趋势解码器。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于深度神经网络的图像编解码器的训练方法,所述训练方法包括以下步骤:
第一步、空间解耦:用于解除编解码器和生成模型的耦合,并解除隐变量编码与重建模块的耦合;
第二步,时间分治:在训练编解码器的不同阶段优化不同的损失函数并使用不同的学习速率来提高训练的速度与稳定性。
进一步,所述空间解耦对编解码器中相互存在干扰的损失函数聚合成为一个模块,在训练时按模块进行损失函数的优化。
再进一步,根据所述空间解耦方法聚合形成的模块之间是解耦合的,即对某个模块进行优化时,不会对其他模块的优化造成影响或干扰。
更进一步,所述时间分治将完整的编解码器训练过程分为若干个训练阶段,在不同的训练阶段对不同模块内的损失函数进行优化。
在不同的训练阶段对同一模块进行优化时,后期训练阶段所采用的学习速率小于前期训练阶段采用的学习速率。
在某一训练阶段对多个模块进行优化时,不同的模块可以使用不同的学习速率来优化误差函数。
在每一训练阶段,所有模块内的损失函数都需要反复迭代优化若干次。并且通常不同训练阶段需要迭代的次数不尽相同。
参照图1,一种基于深度神经网络的图像编解码器的训练方法,包括以下步骤:
S101将编解码器中的各组件按功能和损失函数聚合为若干个模块,使得在训练时模块与模块之间互不干扰。
S102将训练过程分为若干个训练阶段。不同的训练阶段对不同模块内的损失函数进行优化。
S103在每一训练阶段中,需要训练的模块以相同或不同的学习速率迭代循环若干次。
S104完成所有训练阶段的训练,所有损失函数达到稳定收敛。
参照图2,一种编解码器按模块进行空间解耦的实施例。图2所示的图像编解码器包含以下组件:信息筛选器O与细节编码器Exj提取原图像的细节信息并编码得到细节隐变量,再由细节解码器G将细节隐变量解码为原图像的细节信息;特征提取器V与趋势编码器Eqs提取原图像的趋势信息并编码得到趋势隐变量,再由趋势解码器D解码出原图像的模糊轮廓。最后综合细节解码器G与趋势解码器D两者的输出结果重建出原图像。此外,该编解码器引入了对抗生成网络,使用图像判决器DB来评价最终的重建效果。并且引入隐变量判决器DL来约束隐变量,使编码后的隐变量服从某一预定义的概率分布。
对于本实施例中待训练的编解码器,信息筛选器O、细节编码器Exj、特征提取器V以及趋势编码器Eqs共同组成了编解码器中的编码部分,输入原始图像,输出编码后的隐变量;细节解码器G与趋势解码器D两者共同组成了编解码器中的解码部分,输入编码后的隐变量,输出原图像的重建结果。
在本实施例中,需要训练编解码器以最小化以下几个误差函数:
1)LYS(V,Eqs,D),趋势重建损失函数。评价趋势重建结果与原图像的误差。
2)LDB(DB),图像判决器损失函数。将原图像与重建后的图像输入图像判决器DB,使用该误差函数评价图像判决器DB辨别原图像与重建图像的能力。
3)LDB(O,Exj,G),细节生成损失函数。将解码器作为生成模型,图像判决器DB作为判决模型,使用该误差函数评价重建出的图像迷惑图像判决器DB的能力。
4)LDL(DL),分布判决损失函数。该误差函数用于评价隐变量判决器DL辨别隐变量与预定义概率分布采样样本的能力。
5)LDL(E),隐变量损失函数。该误差函数用于评价编码后的隐变量迷惑隐变量判决器DL的能力。
6)LR(G,D),重建损失函数。经细节解码器G与趋势解码器D解码后的重建图像与原图像的误差。
参照图2,一种实施例的编解码器训练方法,包括以下几个步骤:
1)将编解码器的组件划分为互不干扰的两个模块:细节解码模块:包含信息筛选器O、特征提取器V和细节解码器G;趋势编码模块:特征提取器V、趋势编码器Eqs以及趋势解码器D。
2)参照图3,将训练过程分为4个训练阶段,分别为预训练前期,预训练后期,无损精校,无损迁移。
3)每个训练阶段按图2所示顺序以一定学习速率训练,并循环迭代若干次。
4)完成4个训练阶段的训练,编解码器的训练完成。
以上通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点和功效。本发明还可以通过另外不同的具体实例方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互结合。
需要说明的是,以上实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目绘制,其实际实施时各组件的数量及比例可为一种随意的改变。
Claims (7)
1.一种基于深度神经网络的图像编解码器的训练方法,其特征在于,所述训练方法包括以下步骤:
第一步、空间解耦:用于解除编解码器和生成模型的耦合,并解除隐变量编码与重建模块的耦合;
第二步,时间分治:在训练编解码器的不同阶段优化不同的损失函数并使用不同的学习速率来提高训练的速度与稳定性。
2.如权利要求1所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,所述空间解耦对编解码器中相互存在干扰的损失函数聚合成为一个模块,在训练时按模块进行损失函数的优化。
3.如权利要求2所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,根据所述空间解耦方法聚合形成的模块之间是解耦合的,即对某个模块进行优化时,不会对其他模块的优化造成影响或干扰。
4.如权利要求1~3之一所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,所述时间分治将完整的编解码器训练过程分为若干个训练阶段,在不同的训练阶段对不同模块内的损失函数进行优化。
5.如权利要求4所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,在不同的训练阶段对同一模块进行优化时,后期训练阶段所采用的学习速率小于前期训练阶段采用的学习速率。
6.如权利要求5所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,在某一训练阶段对多个模块进行优化时,不同的模块可以使用不同的学习速率来优化误差函数。
7.如权利要求4所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,在每一训练阶段,所有模块内的损失函数都需要反复迭代优化若干次。并且通常不同训练阶段需要迭代的次数不尽相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810446279.4A CN108573287B (zh) | 2018-05-11 | 2018-05-11 | 一种基于深度神经网络的图像编解码器的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810446279.4A CN108573287B (zh) | 2018-05-11 | 2018-05-11 | 一种基于深度神经网络的图像编解码器的训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108573287A true CN108573287A (zh) | 2018-09-25 |
CN108573287B CN108573287B (zh) | 2021-10-29 |
Family
ID=63572595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810446279.4A Active CN108573287B (zh) | 2018-05-11 | 2018-05-11 | 一种基于深度神经网络的图像编解码器的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108573287B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313234A (zh) * | 2020-06-18 | 2021-08-27 | 上海联影智能医疗科技有限公司 | 用于图像分割的神经网络***和方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102595171A (zh) * | 2012-02-03 | 2012-07-18 | 浙江工商大学 | 一种多通道空时编码孔径的动态光场成像方法和成像*** |
CN103686177A (zh) * | 2013-12-19 | 2014-03-26 | 中国科学院深圳先进技术研究院 | 一种图像压缩、解压方法、压缩、解压装置以及*** |
CN103959786A (zh) * | 2011-09-30 | 2014-07-30 | 黑莓有限公司 | 用于使用非均匀重构空间进行数据压缩的方法和设备 |
CN105379268A (zh) * | 2013-01-28 | 2016-03-02 | 微软技术许可有限责任公司 | 在视频编码中适应鲁棒性 |
EP3051486A1 (en) * | 2015-01-30 | 2016-08-03 | Thomson Licensing | Method and apparatus for encoding and decoding high dynamic range (HDR) videos |
EP3051821A1 (en) * | 2015-01-30 | 2016-08-03 | Thomson Licensing | Method and apparatus for encoding and decoding high dynamic range (HDR) videos |
CN106355248A (zh) * | 2016-08-26 | 2017-01-25 | 深圳先进技术研究院 | 一种深度卷积神经网络训练方法及装置 |
CN106462510A (zh) * | 2014-03-06 | 2017-02-22 | 伊姆西公司 | 具有独立直接接入大量固态存储资源的多处理器*** |
CN107077873A (zh) * | 2014-09-25 | 2017-08-18 | 微软技术许可有限责任公司 | 将样本元数据与媒体样本进行耦合 |
CN107909145A (zh) * | 2017-12-05 | 2018-04-13 | 苏州天瞳威视电子科技有限公司 | 一种卷积神经网络模型的训练方法 |
-
2018
- 2018-05-11 CN CN201810446279.4A patent/CN108573287B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103959786A (zh) * | 2011-09-30 | 2014-07-30 | 黑莓有限公司 | 用于使用非均匀重构空间进行数据压缩的方法和设备 |
CN102595171A (zh) * | 2012-02-03 | 2012-07-18 | 浙江工商大学 | 一种多通道空时编码孔径的动态光场成像方法和成像*** |
CN105379268A (zh) * | 2013-01-28 | 2016-03-02 | 微软技术许可有限责任公司 | 在视频编码中适应鲁棒性 |
CN103686177A (zh) * | 2013-12-19 | 2014-03-26 | 中国科学院深圳先进技术研究院 | 一种图像压缩、解压方法、压缩、解压装置以及*** |
CN106462510A (zh) * | 2014-03-06 | 2017-02-22 | 伊姆西公司 | 具有独立直接接入大量固态存储资源的多处理器*** |
CN107077873A (zh) * | 2014-09-25 | 2017-08-18 | 微软技术许可有限责任公司 | 将样本元数据与媒体样本进行耦合 |
EP3051486A1 (en) * | 2015-01-30 | 2016-08-03 | Thomson Licensing | Method and apparatus for encoding and decoding high dynamic range (HDR) videos |
EP3051821A1 (en) * | 2015-01-30 | 2016-08-03 | Thomson Licensing | Method and apparatus for encoding and decoding high dynamic range (HDR) videos |
CN106355248A (zh) * | 2016-08-26 | 2017-01-25 | 深圳先进技术研究院 | 一种深度卷积神经网络训练方法及装置 |
CN107909145A (zh) * | 2017-12-05 | 2018-04-13 | 苏州天瞳威视电子科技有限公司 | 一种卷积神经网络模型的训练方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313234A (zh) * | 2020-06-18 | 2021-08-27 | 上海联影智能医疗科技有限公司 | 用于图像分割的神经网络***和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108573287B (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111932444B (zh) | 基于生成对抗网络的人脸属性编辑方法及信息处理终端 | |
CN111367961B (zh) | 基于图卷积神经网络的时序数据事件预测方法、***及其应用 | |
Wolpert | The stochastic thermodynamics of computation | |
Chen et al. | Tree-to-tree neural networks for program translation | |
CN109271483B (zh) | 基于递进式多判别器的问题生成方法 | |
Laatabi et al. | ODD+ 2D: An ODD based protocol for mapping data to empirical ABMs | |
CN111652357B (zh) | 一种利用基于图的特定目标网络解决视频问答问题的方法及其*** | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN108197087A (zh) | 字符编码识别方法及装置 | |
CN113393370A (zh) | 中国书法文字图像风格迁移的方法、***、智能终端 | |
CN109446221A (zh) | 一种基于语义分析的交互式数据探查方法 | |
CN109753571A (zh) | 一种基于二次主题空间投影的场景图谱低维空间嵌入方法 | |
CN112000772A (zh) | 面向智能问答基于语义特征立方体的句子对语义匹配方法 | |
CN106202395A (zh) | 文本聚类方法和装置 | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN113051399A (zh) | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 | |
CN110033089A (zh) | 基于分布式估计算法的深度神经网络参数优化方法及*** | |
CN115543437A (zh) | 一种代码注释生成方法和*** | |
CN112765317A (zh) | 一种引入类信息的文本生成图像方法及装置 | |
CN108573287A (zh) | 一种基于深度神经网络的图像编解码器的训练方法 | |
CN113298895A (zh) | 一种面向收敛性保障的无监督双向生成自动编码方法及*** | |
CN109977372B (zh) | 中文篇章树的构建方法 | |
CN110264311A (zh) | 一种基于深度学习的商业推广信息精准推荐方法及*** | |
CN113297385B (zh) | 基于改进GraphRNN的多标签文本分类***及分类方法 | |
CN110213239A (zh) | 可疑交易报文生成方法、装置及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |