CN111131834A - 可逆自编码器、编解码方法以及图像压缩方法、装置 - Google Patents

可逆自编码器、编解码方法以及图像压缩方法、装置 Download PDF

Info

Publication number
CN111131834A
CN111131834A CN201911391009.9A CN201911391009A CN111131834A CN 111131834 A CN111131834 A CN 111131834A CN 201911391009 A CN201911391009 A CN 201911391009A CN 111131834 A CN111131834 A CN 111131834A
Authority
CN
China
Prior art keywords
reversible
module
decoding
sub
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911391009.9A
Other languages
English (en)
Other versions
CN111131834B (zh
Inventor
戴文睿
李劭辉
邹君妮
李成林
姚斌
朱照远
李飞飞
熊红凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201911391009.9A priority Critical patent/CN111131834B/zh
Publication of CN111131834A publication Critical patent/CN111131834A/zh
Application granted granted Critical
Publication of CN111131834B publication Critical patent/CN111131834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • H04N19/426Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements using memory downsizing methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种可逆自编码器、编解码方法以及图像压缩方法、装置,其中可逆自编码器包括:编码信号分离模块、级联可逆编码模块、编码信号合成模块、解码信号分离模块、级联可逆解码模块、解码信号合成模块,其中:信号分离模块对输入图像进行分离、并生成两路信号,级联可逆编码模块和级联可逆解码模块对两路信号进行处理,信号合成模块对处理后的两路信号进行合成。本发明涉及了可逆自编码器的同事,还提供了其应用于图像压缩的方法,该方法与基准神经网络相比,在达到相同压缩效果的前提下可以减少一半的参数量与计算量。

Description

可逆自编码器、编解码方法以及图像压缩方法、装置
技术领域
本发明属于数字图像处理领域和图像压缩领域,具体地说,涉及的是一种基于提升结构的可逆自编码器,基于提升结构的可逆自编码方法以及采用可逆自编码方法的图像压缩方法、图像压缩装置。
背景技术
近年来,深度神经网络在图像处理领域大放异彩,在多种图像处理任务上都取得了令人惊异的成果。其中,在图像压缩方向上,一些利用深度神经网络代替传统方法中的变换、量化及熵编码模块,实现了端到端的图像压缩方法。这类方法在图像的主观评价指标下表现较好,达到相同MS-SSIM值的条件下,端到端的图像压缩方法通常可以相对HEVC的帧内编码方法节省30%-50%的码流开销。同时,在峰值信噪比(PSNR)为代表的客观指标下,端到端的图像压缩也可以达到接近HEVC的帧内编码方法相近的码流开销。
现有的自编码器(AutoEncoder)一般包含编码单元和解码单元两部分,虽然端到端的方法带来了性能上的巨大提升,但是这类方法通常包含了大量需要训练的神经网络参数,因此会占用大量的存储和计算资源。以当前领先的某端到端图像压缩方法为例,与HEVC的帧内编码方法相比,需要多占用约667倍的储存空间与约176倍的计算开销来解码相同的图像。因此,对于端到端的图像压缩方法,需要引入新的方法减少其储存空间开销与计算开销。
经过对现有技术的文献检索发现,Fabian Mentzer,EirikurAgustsson,MichaelTschannen,Radu Timofte和Luc Van Gool在2018年的IEEE Conference on ComputerVision and Pattern Recognition会议上发表的"Conditional Probability Models forDeep Image Compression"一文中提出了一种方法,它通过端到端的方式优化神经网络参数,对图像进行压缩,利用了多层连接的残差单元,以达到对图像特征进行非线性特征变换的目的。这种方法相比传统的图像压缩方法实现了端到端的优化,实现了各模块参数之间的联合优化,但参数量也随着性能提升而大量增加。相对传统法,该方法的存储空间增加了上百倍。
发明内容
本发明针对上述问题,提供了一种可逆自编码器、编解码方法以及图像压缩方法、装置,可以替代在端到端图像压缩方法中占据了大量参数的自编码器结构,实现编码器端与解码器端的参数复用,可节省一半的存储开销。
根据本发明的第一方面,提供一种基于提升结构的可逆自编码器的编码单元,包括:
编码信号分离模块,该模块将输入的图像或高维信号分离为双路子信号;
级联可逆编码模块,该模块包括多级基于提升结构的可逆编码子模块,将所述编码信号分离模块分离得到的为双路子信号做分解,前一级所述可逆编码子模块的双路输出作为后一级所述可逆编码子模块的输入;
编码信号合成模块,该模块将通过所述级联可逆编码模块处理后的双路信号重新合成为一路信号。
可选地,所述可逆编码子模块包括:
基于卷积网络的预测算子,该算子利用卷积网络的非线性拟合能力,自适应地对双路输入信号中的一路进行变换,并与另一路输入进行求和操作,获得对应这一路输入的输出,作为新的双路输出信号的一路;
基于卷积网络的更新算子,该算子将上述预测算子和求和操作所生成的一路输出作为输入,利用卷积网络的非线性拟合能力,自适应地进行变换,并与输入信号的另一路输入做求和操作,作为新的双路输出信号的第二路;
可选地,基于提升结构的可逆自编码器的编码单元还包括:
网络调控模块,该模块控制所述级联可逆编码模块的级数和每一个可逆编码子模块的变换属性。
根据本发明的第二方面,提供一种基于提升结构的可逆自编码器的编码方法,包括:
将输入的图像或高维信号分离;
采用级联可逆编码模块将分离得到的信号进行分解,级联可逆编码模块包括多级基于提升结构的可逆编码子模块,其中前一级所述可逆编码子模块的双路输出作为后一级所述可逆编码子模块的输入;
将通过所述级联可逆编码子模块处理后的双路信号重新合成为一路信号。
可选地,可逆自编码方法还包括:控制所述级联可逆编码模块的级数和每一个可逆编码子模块的变换属性。
根据本发明的第三方面,提供一种基于提升结构的可逆自编码器的解码单元,包括:
解码信号分离模块,该模块将输入的信号分离为双路子信号;
级联可逆解码模块,该模块包含多级基于提升结构的可逆解码子模块,对编码分解的信号进行重构,前一级可逆解码子模块的输出作为后一级可逆解码子模块的输入;
解码信号合成模块,该模块将通过所述级联可逆解码模块处理后的双路子信号重新合成为一路信号。
可选地,所述可逆解码子模块包括:
基于卷积网络的更新算子,该算子利用卷积网络的非线性拟合能力,自适应地将双路输入信号中的一路变换,并与另一路输入求差,作为输出双路新信号中的一路;
基于卷积网络的预测算子,该算子利用卷积网络的非线性拟合能力,自适应地对已生成的一路新信号做变换,并与输入中的另一路输入求差,作为输出双路新信号中的第二路。
根据本发明的第四方面,提供一种基于提升结构的可逆自编码器的解码方法,包括:
将高维信号分离为双路子信号;
采用级联可逆解码模块对编码分解的信号进行重构,该级联可逆解码模块包含多级基于提升结构的可逆解码子模块,前一级可逆解码子模块的双路输出作为后一级可逆解码子模块的输入;
将通过所述级联可逆解码模块处理后的双路信号重新合成为一路信号。
根据本发明的第五方面,提供一种可逆自编码器,包括:
编码信号分离模块,该模块将输入的图像或高维信号分离;
级联可逆编码模块,该模块包括多级基于提升结构的可逆编码子模块,将所述信号分离模块分离得到的信号做分解,前一级所述可逆编码子模块的双路输出作为后一级所述可逆编码子模块的输入;
编码信号合成模块,该模块将通过所述级联可逆编码模块处理后的双路信号重新合成为一路信号;
解码信号分离模块,该模块将所述编码信号合成模块的合成信号分解为双路子信号;
级联可逆解码模块,该模块对所述解码信号分离模块分解后得到的双路子信号进行重构,该模块包含多级基于提升结构的可逆解码子模块,前一级可逆解码子模块的双路输出作为后一级可逆解码子模块的输入;所述级联可逆解码模块的级数与所述级联可逆编码模块中的可逆编码子模块数量相同,所述可逆解码子模块与所述可逆编码子模块一一对应,对应的一对所述可逆解码子模块与所述可逆编码子模块中的参数相同,其中,所述级联可逆解码模块中的可逆解码子模块排列顺序与所述级联可逆编码模块中的可逆编码子模块的排列顺序相反;
解码信号合成模块,该模块将通过所述级联可逆解码模块处理后的双路信号重新合成为一路信号。
可选地,所述可逆编码子模块包括:
基于卷积网络的预测算子,该算子利用卷积网络的非线性拟合能力,自适应地对双路输入信号中的一路进行变换,并与另一路输入进行求和操作,获得对应这一路输入的输出,作为新的双路输出信号的一路;
基于卷积网络的更新算子,该算子将上述预测算子和求和操作所生成的一路输出作为输入,利用卷积网络的非线性拟合能力,自适应地进行变换,并与输入信号的另一路输入做求和操作,作为新的双路输出信号的第二路;
所述可逆解码子模块复用所述可逆编码子模块中的基于卷积网络的预测算子和基于卷积网络的更新算子;其中:通过参数共享,实现可逆解码子模块中的基于卷积网络的预测算子和基于卷积网络的更新算子调用可逆编码子模块中的预测算子和更新算子的参数。
可选地,所述可逆自编码器,还包括:
网络调控模块,该模块控制所述级联可逆编码模块以及所述级联可逆解码模块的级数和每一对所述可逆编码子模块与所述可逆编码子模块的变换属性。
根据本发明的第六方面,提供一种可逆自编解码方法,包括:
将输入的图像或高维信号分离为双路子信号;
采用级联可逆编码模块将分离得到的双路子信号进行分解,级联可逆编码模块包括多级基于提升结构的可逆编码模块,其中前一级所述可逆编码模块的双路输出作为后一级所述可逆编码模块的输入;
将通过所述级联可逆编码模块处理后的双路信号重新合成为一路信号,得到合成的高维信号;
将所述合成的高维信号分离为双路子信号,适配级联解码模块的输入;
采用级联可逆解码模块对所述合成的高维信号分离后的双路子信号进行重构,该级联可逆解码模块包含多级基于提升结构的可逆解码模块,前一级可逆解码模块的双路输出作为后一级可逆解码模块的输入;其中:所述级联可逆解码模块的级数与所述级联可逆编码模块中的可逆编码模块数量相同,所述可逆解码模块与所述可逆编码模块一一对应,对应的一对所述可逆解码模块与所述可逆编码模块中的参数相同,其中,所述级联可逆解码模块中的可逆解码模块排列顺序与所述级联可逆编码模块中的可逆编码模块的排列顺序相反;
将通过所述级联可逆编码模块以及所述级联可逆解码模块处理后的双路信号重新合成为一路信号。
可选地,所述可逆自编解码方法还包括:
控制所述级联可逆编码模块以及所述级联可逆解码模块的级数和每一对所述可逆解码模块与所述可逆编码模块的变换属性。
根据本发明的第七方面,提供一种图像压缩方法,采用上述的任一项所述的可逆自编解码方法。
可选地,所述图像压缩方法,包括:
输入图像经过卷积神经网络的卷积层和ReLU层实现升采样,然后进行信号分离,得到原始分离信号;
采用级联可逆编码模块对所述原始分离信号进行前向编码,生成双路特征图;
将所得双路特征图合成一路特征图;
对生成的所述特征图进行量化、熵编码,获得二进制码流;
对所述二进制码流解码,得到重构的特征图;
将重构特征图分离为两路特征图;
采用级联可逆解码模块对所述重构的特征图进行反向解码,得到双路重构信号;
将反向解码得到的双路重构信号合成,并通过卷积层和ReLU层实现降采样重构图像。
根据本发明的第八方面,提供一种图像压缩装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项的图像压缩方法。
与现有技术相比,本发明具有以下至少一种有益效果:
本发明上述的基于提升结构的可逆自编码器的编码单元、解码单元和方法,实现了编码单元与解码单元中的编码子模块与解码子模块的一一对应,为进一步地参数复用提供了可能性。
本发明上述的基于提升结构的可逆自编码器和编解码方法,实现了编码端与解码端的参数复用。可逆自编码器包括编码信号分离模块、级联可逆编码模块、编码信号合成模块、解码信号分离模块、级联可逆解码模块构成、解码信号合成模块,该结构可以替代在端到端图像压缩方法中占据了大量参数的自编码器结构,实现编码器端与解码器端的参数复用,可节省一半的存储开销。
本发明上述的图像压缩方法和装置,采用上述可逆自编解码方法,与基准神经网络相比,在达到相同压缩效果的前提下可以减少一半的参数量大大降低了存储开销。另外,上述的图像压缩方法和装置在训练过程中较基准神经网络减少了约一半的可学习参数,减少了训练过程中的计算量,提高了处理速度。
附图说明
图1为本发明一实施例中的基于提升结构的可逆自编码器的编码单元的结构框图;
图2为本发明一实施例中的可逆自编码器的编码方法的流程图;
图3为本发明一实施例中的基于提升结构的可逆自编码器的解码单元的结构框图;
图4为本发明一实施例中的可逆自编码器的解码方法的流程图;
图5为本发明一实施例中的可逆自编码器模块框图;
图6为本发明一实施例中的可逆自编解码方法流程图;
图7为本发明一实施例中的可逆自编解码方法的原理图;
图8为本发明一实施例中的图像压缩方法的流程图;
图9为本发明一实施例中的图像压缩方法中使用的可逆自编码器的编码单元的详细原理图;
图10为本发明一实施例中的图像压缩方法中使用的可逆自编码器的解码单元的详细原理图;
图11是本发明一实施例中图像压缩方法的试验效果图。
具体实施方式
下面结合具体实施例和附图,对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,为本发明一实施例中的基于提升结构的可逆自编码器的编码单元的结构框图。基于提升结构的可逆自编码器的编码单元包括:编码信号分离模块、级联可逆编码模块、编码信号合成模块,其中:编码信号分离模块将输入的图像或高维信号分离;级联可逆编码模块包括多级基于提升结构的可逆编码子模块,将编码信号分离模块分离得到的信号做分解,前一级可逆编码子模块的双路输出作为后一级可逆编码子模块的输入;编码信号合成模块将通过级联可逆编码模块处理后的双路信号重新合成为一路信号。
在该实施例中可逆编码子模块包括:基于卷积网络的预测算子和基于卷积网络的更新算子,其中:基于卷积网络的预测算子,该算子利用卷积网络的非线性拟合能力,自适应地对双路输入信号中的一路进行变换,并与另一路输入进行求和操作,获得对应这一路输入的输出,作为新的双路输出信号的一路;基于卷积网络的更新算子,该算子将上述预测算子和求和操作所生成的一路输出作为输入,利用卷积网络的非线性拟合能力,自适应地进行变换,并与输入信号的另一路输入做求和操作,作为新的双路输出信号的第二路。
本发明上述实施例的基于提升结构的可逆自编码器的编码单元可以实现将输入信号变换到稀疏的变换域上表示,为后续的量化、编码阶段作铺垫;同时,编码单元所包含的提升结构为复用参数提供了可能性。
在一个优选实施例中,可逆自编码器的编码单元包括:编码信号分离模块、级联可逆编码模块、编码信号合成模块以及网络调控模块,编码信号分离模块、级联可逆编码模块、编码信号合成模块作用于上述实施例中完全相同,网络调控模块用于控制级联可逆编码模块的级数和每一个可逆编码子模块的变换属性,其中变换属性包括网络所对应的变换的上下界。通过调节该模块中的参数可以调节可逆自编码器的编码单元所需要训练参数的数量,在一定范围内增加参数,可以有效地提升压缩性能。另外,网络调控模块通过调节变换上下界可以使得整个变换对噪声稳定,使编码更加稳定。
上述实施例中,编码信号分离模块将输入信号按照位置分为两个等维度的信号。在实施时,针对高光谱图像等多通道的信号,在通道维度上划分;针对自然图像,根据像素位置划分。
上述实施例中,编码信号合成模块为编码信号分离模块的逆变换,即,将输入信号通过编码信号分离模块后直接输入编码信号合成模块即可得到原始信号。
图2为本发明一实施例中的可逆自编码器的编码方法的流程图。该方法可以用于上述图1所示的基于提升结构的可逆自编码结构中。参照图2所示,基于可逆自编码器的编码方法包括如下步骤:将输入的图像或高维信号分离;采用级联可逆编码模块将分离得到的信号进行分解,级联可逆编码模块包括多级基于提升结构的可逆编码子模块,其中前一级可逆编码子模块的双路输出作为后一级可逆编码子模块的输入;将通过级联可逆编码子模块处理后的双路信号重新合成为一路信号。
相应的,可逆编码子模块包含基于卷积网络的预测算子和基于卷积网络的更新算子,将双路输入记为a0和b0,基于卷积网络的预测算子和更新算子分别记为
Figure BDA0002344958470000081
Figure BDA0002344958470000082
则可逆编码子模块中的具体操作如下:
Figure BDA0002344958470000083
Figure BDA0002344958470000084
上述公式中a1和b1是基于提升结构的可逆编码子模块的双路输出,μ和θ为预测算子和更新算子对应的卷积网络的可学习参数集合。
本发明上述实施例的可逆自编码器的编码方法可以实现将输入信号变换到稀疏的变换域上表示,为后续的量化、编码阶段作铺垫;同时,编码单元所包含的提升结构为复用参数提供了可能性。
在部分优选实施例中,基于可逆自编码器的编码方法在图2所示流程的基础上,可以进一步包括:控制级联可逆编码模块的级数和每一个可逆编码子模块的变换属性。其中变换属性包括网络所对应的变换的上下界。通过调节自编码器的编码单元所需要训练参数的数量,在一定范围内增加参数,可以有效地提升压缩性能。另外,网络调控模块通过调节变换上下界可以使得整个变换对噪声稳定,使编码更加稳定。
图3为本发明一实施例的基于提升结构的可逆自编码器的解码单元的结构框图,所述解码单元与图1中所示的编码编码单元可以配合使用。如图3所示,基于提升结构的可逆自编码器的解码单元包括:解码信号分离模块、级联可逆解码模块、解码信号合成模块,解码信号分离模块将输入的信号分离为双路子信号;级联可逆解码模块包含多级基于提升结构的可逆解码子模块,对双路子信号进行重构,前一级可逆解码子模块的双路输出作为后一级可逆解码子模块的输入;解码信号合成模块将通过级联可逆解码模块处理后的双路信号重新合成为一路信号。
具体的,级联可逆解码模块中可逆解码子模块包括:基于卷积网络的预测算子和基于卷积网络的更新算子,其中:基于卷积网络的更新算子,该算子利用卷积网络的非线性拟合能力,自适应地将双路输入信号中的一路变换,并与另一路输入求差,作为输出双路新信号中的一路;基于卷积网络的预测算子,该算子利用卷积网络的非线性拟合能力,自适应地对已生成的一路新信号做变换,并与输入中的另一路输入求差,作为输出双路新信号中的第二路。其中:
Figure BDA0002344958470000091
Figure BDA0002344958470000092
其中,基于卷积网络的预测算子和基于卷积网络的更新算子采用多层卷积神经网络实现;其中,
Figure BDA0002344958470000093
Figure BDA0002344958470000094
为某可逆解码子模块的双路输入,
Figure BDA0002344958470000095
Figure BDA0002344958470000096
为某可逆解码子模块的双路输出,
Figure BDA0002344958470000097
Figure BDA0002344958470000098
为分别对b0和a1进行提升和预测变换,μ和θ为预测算子和更新算子对应的卷积网络的可学习参数集合。
本发明上述实施例的可逆自编码器的解码单元可以实现将经过编码单元正向编码的信号变换回原始信号域;同时,解码单元中的参数可以复用上述实施例中的编码单元中的参数,通过将可逆编码子模块与可逆解码子模块一一对应,实现将图片恢复的同时节省一半的参数开销。
图4为本发明一优选实施例中的可逆自编码器的解码方法流程图。如图4所示,基于可逆自编码器的解码方法包括:将高维信号分离为双路子信号;采用级联可逆解码模块对编码分解的信号进行重构,该级联可逆解码模块包含多级基于提升结构的可逆解码子模块,前一级可逆解码子模块的双路输出作为后一级可逆解码子模块的输入;将通过级联可逆解码模块处理后的双路信号重新合成为一路信号。
具体的,可逆解码子模块包括基于卷积网络的预测算子和基于卷积网络的更新算子,具体操作如下:
Figure BDA0002344958470000101
Figure BDA0002344958470000102
其中,所述基于卷积网络的预测算子和基于卷积网络的更新算子采用多层卷积神经网络实现;其中,
Figure BDA0002344958470000103
Figure BDA0002344958470000104
为某可逆解码模块的双路输入,
Figure BDA0002344958470000105
Figure BDA0002344958470000106
为某可逆解码模块的双路输出,
Figure BDA0002344958470000107
Figure BDA0002344958470000108
为分别对b0和a1进行提升和预测变换,μ和θ为预测算子和更新算子对应的卷积网络的可学习参数集合。
本发明上述实施例的基于可逆自编码器的解码方法可以实现将经过编码方法编码的信号变换回原始信号域;同时,解码方法中的参数可以复用上述实施例的编码方法中的参数,实现将图片恢复的同时节省一半的参数开销。
图5为本发明一实施例中的可逆自编码器的结构框图。如图5所示,该可逆自编码器包括:编码信号分离模块、级联可逆编码模块、编码信号合成模块、解码信号分离模块、级联可逆解码模块、解码信号合成模块,其中:编码信号分离模块将输入的图像或高维信号分离;级联可逆编码模块包括多级基于提升结构的可逆编码子模块,将编码信号分离模块分离得到的信号做分解,前一级可逆编码子模块的双路输出作为后一级可逆编码子模块的输入;编码信号合成模块将通过所述级联可逆编码模块处理后的双路信号重新合成为一路信号;解码信号分离模块将合成的高维信号分离为双路信号,适配级联解码模块的输入;级联可逆解码模块对编码分解的信号进行重构,该模块包含多级基于提升结构的可逆解码子模块,前一级可逆解码子模块的双路输出作为后一级可逆解码子模块的输入;解码信号合成模块将通过级联可逆编码模块以及级联可逆解码模块处理后的双路信号重新合成为一路信号。
上述实施例中的可逆自编码器,级联可逆解码模块的级数与级联可逆编码模块中的可逆编码子模块数量相同,可逆解码子模块与可逆编码子模块一一对应,对应的一对可逆解码子模块与可逆编码子模块中的参数相同,级联可逆解码模块中的可逆解码子模块排列顺序与级联可逆编码模块中的可逆编码子模块的排列顺序相反。
具体的,上述可逆编码子模块包括:基于卷积网络的预测算子,该算子利用卷积网络的非线性拟合能力,自适应地对双路输入信号中的一路进行变换,并与另一路输入进行求和操作,获得对应这一路输入的输出,作为新的双路输出信号的一路;基于卷积网络的更新算子,该算子将上述预测算子和求和操作所生成的一路输出作为输入,利用卷积网络的非线性拟合能力,自适应地进行变换,并与输入信号的另一路输入做求和操作,作为新的双路输出信号的第二路。将对于双路输入记为a0和b0,基于卷积网络的预测算子和更新算子分别记为
Figure BDA0002344958470000111
Figure BDA0002344958470000112
则可逆编码子模块中的具体操作如下:
Figure BDA0002344958470000113
Figure BDA0002344958470000114
上述公式中a1和b1是基于提升结构的可逆编码子模块的双路输出,μ和θ为预测算子和更新算子对应的卷积网络的可学习参数集合;
基于提升结构的可逆解码子模块复用编码子模块中的基于卷积网络的预测算子和基于卷积网络的更新算子,具体操作如下:
Figure BDA0002344958470000115
Figure BDA0002344958470000116
其中,所述基于卷积网络的预测算子和基于卷积网络的更新算子采用多层卷积神经网络实现;其中,
Figure BDA0002344958470000117
Figure BDA0002344958470000118
为某可逆解码模块的双路输入,
Figure BDA0002344958470000119
Figure BDA00023449584700001110
为某可逆解码模块的双路输出,
Figure BDA00023449584700001111
Figure BDA00023449584700001112
为分别对b0和a1进行提升和预测变换,μ和θ为预测算子和更新算子对应的卷积网络的可学习参数集合。
具体的,上述实施例中,可逆解码子模块与可逆编码子模块一一对应及排列顺序如下:
记N级级联可逆编码模块中的可逆编码子模块集合为{Ai(·,·;θi,μi)}1≤i≤N,且第i模块实现的操作记为:
[ai,bi]=Ai(ai-1,bi-1;θi,μi)
此时,N级级联可逆编码模块实现:
[aN,bN]=AN(AN-1(…A1(a0,b0;θ1,μ1)…;θN-1,μN-1);θN,μN)
而可逆解码子模块集合为{Bi(·,·;θi,μi)}1≤i≤N,且第i模块实现的操作记为:
Figure BDA00023449584700001113
则N级级联可逆解码模块实现:
Figure BDA00023449584700001114
其中,{θi,μi}1≤i≤N为可逆解码子模块与可逆编码子模块复用的可学习参数。
本发明上述实施例的基于提升结构的可逆自编码器,实现了编码端与解码端的参数复用,可以替代在端到端图像压缩方法中占据了大量参数的自编码器结构,实现编码器端与解码器端的参数复用,可节省一半的存储开销。
在部分优选实施例中,可逆自编码器还可以进一步包括:网络调控模块,该模块控制级联可逆编码模块以及级联可逆解码模块的级数和每一对可逆解码子模块与可逆编码子模块的变换属性。其中,网络调控模块中的变换属性包括网络所对应的变换的上下界。进一步的,网络调控模块通过基于卷积神经网络的预测算子和更新算子所对应的变换上下界以控制控制每一对编码/解码子模块的变换上下界。具体的,通过在训练过程中在损失函数上增加与预测算子、更新算子中的卷积层的卷积核二范数成正比的惩罚项实现。
上述实施例中,编码或解码信号分离模块将输入信号按照位置分为两个等维度的信号。在实施时,针对高光谱图像等多通道的信号,在通道维度上划分;针对自然图像,根据像素位置划分。
上述实施例中,编码或解码信号合成模块为信号分离模块的逆变换,即,将输入信号通过编码或解码信号分离模块后直接输入编码或解码信号合成模块即可得到原始信号。
图6为本发明一实施例中的可逆自解码方法的流程图。该可逆自编解码方法可以用于上述图5所示的可逆自编码器中。
具体的,如图6所示的实施例,一种基于提升结构的可逆自编解码方法,包括如下步骤:将输入的图像或高维信号分离;采用级联可逆编码模块将分离得到的信号进行分解,级联可逆编码模块包括多级基于提升结构的可逆编码模块,其中前一级可逆编码模块的双路输出作为后一级可逆编码模块的输入;将通过所述级联可逆编码模块处理后的双路信号重新合成为一路信号;将合成的高维信号分离为双路信号,适配级联解码模块的输入;采用级联可逆解码模块对编码分解的信号进行重构,该级联可逆解码模块包含多级基于提升结构的可逆解码模块,前一级可逆解码模块的双路输出作为后一级可逆解码模块的输入;将通过级联可逆编码模块以及级联可逆解码模块处理后的双路信号重新合成为一路信号。
参照图7所示,上述实施例中,级联可逆解码模块的级数与级联可逆编码模块中的可逆编码模块数量相同,可逆解码模块与可逆编码模块一一对应,对应的一对可逆解码模块与可逆编码模块中的参数相同,其中,级联可逆解码模块中的可逆解码模块排列顺序与级联可逆编码模块中的可逆编码模块的排列顺序相反;
具体的,可逆编码子模块包含基于卷积网络的预测算子和基于卷积网络的更新算子;将对于双路输入记为a0和b0,基于卷积网络的预测算子和更新算子分别记为
Figure BDA0002344958470000131
Figure BDA0002344958470000132
则可逆编码子模块中的具体操作如下:
Figure BDA0002344958470000133
Figure BDA0002344958470000134
上述公式中a1和b1是基于提升结构的可逆编码子模块的双路输出,μ和θ为预测算子和更新算子对应的卷积网络的可学习参数集合;
上述实施例中,基于提升结构的可逆解码子模块复用编码子模块中的基于卷积网络的预测算子和基于卷积网络的更新算子,具体操作如下:
Figure BDA0002344958470000135
Figure BDA0002344958470000136
其中,所述基于卷积网络的预测算子和基于卷积网络的更新算子采用多层卷积神经网络实现;其中,
Figure BDA0002344958470000137
Figure BDA0002344958470000138
为某可逆解码模块的双路输入,
Figure BDA0002344958470000139
Figure BDA00023449584700001310
为一可逆解码模块的双路输出,
Figure BDA00023449584700001311
Figure BDA00023449584700001312
为分别对b0和a1进行提升和预测变换,μ和θ为预测算子和更新算子对应的卷积网络的可学习参数集合。
在部分优选实施例中,上述的可逆自编解码方法还可以进一步包括:控制级联可逆编码模块以及级联可逆解码模块的级数和每一对可逆解码模块与可逆编码模块的变换属性。其中,网络调控模块中的变换属性包括网络所对应的变换的上下界。进一步的,网络调控模块通过基于卷积神经网络的更新算子和提升算子所对应的变换上下界以控制控制每一对编码/解码子模块的变换上下界。具体的,通过在训练过程中在损失函数上增加与更新算子、预测算子中的卷积层的卷积核二范数成正比的惩罚项实现。
本发明上述实施例的可逆自编解码方法,实现了编码端与解码端的参数复用,可以替代在端到端图像压缩方法中占据了大量参数的自编码器结构,实现编码器端与解码器端的参数复用,可节省一半的存储开销。
图8为本发明一实施例中的图像压缩方法的流程图,如图8所示,一种采用上述可逆自编解码方法进行的图像压缩方法,与基准神经网络相比,在达到相同压缩效果的前提下可以减少一半的参数量与计算量,大大降低了存储开销,提高了处理速度。
具体的,采用上述可逆自编解码方法进行的图像压缩方法在实施时,可以按照以下步骤进行:
S1,输入图像经过卷积神经网络的卷积层和ReLU层实现升采样,然后进行信号分离,得到原始分离信号;
S2,采用级联可逆编码模块对原始分离信号进行前向变换,生成特征图;
S3,将所得双路特征图合成一路特征图;
S4,对生成的特征图进行量化、熵编码,获得二进制码流;
S5,对二进制码流解码,得到重构特征图;
S6,将重构特征图分离为两路特征图;
S7,采用级联可逆解码模块对重构的两路特征图进行反向变换,得到双路信号;
S8,将反向变换得到的双路信号合成,并通过卷积层和ReLU层实现降采样重构图像,完成图像压缩。
在一些实施例中,量化方式是位平面编码,熵编码是自适应算数编码或者基于上下文的自适应算数编码。在一些实施例中,上下文建模的方式是神经网络或特征提取方法。
上述图像压缩方法的实施例中,有关可逆自编解码方法中技术特征,可以参照上述实施例中记载和现有技术进行,不再赘述。
基于上述的图像压缩方法,在另一实施例中,相应的提供一种图像压缩装置,该装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可用于执行上述任一项的图像压缩方法。
如图8、9、10所示,为了更为详细的对上述的图像压缩方法以及其中涉及的各编码、解码技术进行说明,以下对上述的压缩图像方法的步骤一一进行展开,应该理解的是,这只是为了更好理解本发明的技术方案,本发明的实施例并不局限于以下特定情况。如图8所示,图像压缩方法的总体步骤涉及以下部分。
1.升采样与信号分离
自然图像是高维物体在二维平面上的投影,为了将充分利用卷积神经网络对高维数据结构的处理优势,在进行信号分离步骤前,可以利用卷积层与ReLU层实现对输入图像的升采样。
将一层卷积层与ReLU层作为一组,本实施例中用到了两组该结构实现升采样。其中,每个卷积层均实现对图像在长和宽上做步长为2的下采样,在通道上实现上采样。具体地,在通过第一个卷积层后,特征图的通道数变为64,在第二个卷积层过后,特征图的通道数变为128。
在升采样后,将特征图按照通道分离,前64通道组成一组特征图,记作a,后64通道组成另一路特征图,记为b。该两组特征图即级联可逆编码模块的双路输入。
2.级联可逆编码模块
如图9所示,级联可逆编码模块以可逆编码子模块为单元,通过级联该单元组成。该单元中包含基于卷积网络的预测算子和基于卷积网络的更新算子。将对于双路输入记为a0和b0,基于卷积网络的预测算子和更新算子分别记为
Figure BDA0002344958470000151
Figure BDA0002344958470000152
则可逆编码子模块中的具体操作如下:
Figure BDA0002344958470000153
Figure BDA0002344958470000154
具体地,预测算子和更新算子中使用的卷积网络可能包含卷积层、非线性层和Batch-Normalization层。本实施例中,每个可逆编码子模块中的预测算子和更新算子的结构均相同,均由卷积层和ReLU层组成。假设输入信号为x,则ReLU层的具体实现为:
Figure BDA0002344958470000155
相应的,预测算子的结构如下:
1)卷积层,四维卷积核大小为3×3×64×64,步长为1;
2)ReLU层;
3)卷积层,四维卷积核大小为3×3×64×64,步长为1;
4)ReLU层;
5)卷积层,四维卷积核大小为3×3×64×64,步长为1;
其中,卷积层的参数均开放复用权限,便于解码模块调用。
而更新算子也采用相同的上述结构,在一些实施例中更新算子与预测算子的参数复用,以实现正交变换,但本实施例中并不复用。本实施例中使用了8层可逆编码子模块构造级联可逆编码模块。具体的,按顺序将8个模块记为A1(·,·;θ1,μ1),A2(·,·;θ2,μ2),...,A8(·,·;θ8,μ8),其中,编码子模块的参数与输入无关,故用’·’代表任意输入,则整个级联可逆编码模块可以记为
[a8,b8]=A8(A7(…A1(a0,b0;θ1,μ1)…;θ7,μ7);θ8,μ8)
其中涉及的参数集对{θi,ui}1≤i≤8,在级联可逆解码模块中被使用。
3.量化、编码过程
量化、编码过程是将多维特征图转化为二进制码流的过程。在实施中有多种方案可以采用,包括位平面编码、自适应算数编码等。在本实施例中,使用的量化方法为聚类方法,级联编码模块输出的特征图中共有N个符号(记为{zi|1≤i≤N}),将该N个符号聚类至8个中心点(记为{cj|1≤j≤8}),则符号zi将按以下标准被量化为
Figure BDA0002344958470000167
Figure BDA0002344958470000161
而为了方便端到端训练,反向传播时将利用下式软量化替代:
Figure BDA0002344958470000162
式中的σ为软量化参数,可以调整
Figure BDA0002344958470000168
分布以逼近zi分布,提高编码效率。而具体的编码过程则使用了基于神经网络的上下文编码,通过神经网络对符号间的条件概率做预测,用以更新算数编码中的概率。
4.反量化、反编码过程
反量化和反编码过程为量化、编码过程的逆过程,得到恢复的双路重建特征图为
Figure BDA0002344958470000163
5.级联可逆解码模块
如图10所示,级联可逆解码模块是级联可逆编码子模块的逆过程,以可逆解码子模块为单元,并且复用编码模块中的基于卷积网络的预测算子和基于卷积网络的更新算子,具体操作如下:
Figure BDA0002344958470000164
Figure BDA0002344958470000165
与上述包含8个单元的级联可逆编码子模块相对应,按信号通过顺序将8个可逆解码子模块记为B8(·,·;θ8,μ8),...,B2(·,·;θ2,μ2),B1(·,·;θ1,μ1),则整个级联可逆编码模块可以记为
Figure BDA0002344958470000166
上式表明了8个单元一一对应的方式。
6.信号合成与降采样
为了恢复重构图像,先将两路特征图按照通道合成,即将两组特征图按照通道串联在一起合成新的特征图。这个特征图具有128个通道,每个通道的长和宽均为原始图像的
Figure BDA0002344958470000171
与升采样过程相对应的,降采样过程中使用的是反卷积层和ReLU层。将一层反卷积层与ReLU层作为一组,本实施例中用到了两组该结构实现降采样。其中,每个卷积层均实现对图像在长和宽上做步长为2的上采样,在通道上实现下采样。具体地,在通过第一个卷积层后,特征图的通道数变为64,在第二个卷积层过后,特征图的通道数依据彩色/灰度图像变为3/1。
7.实验结果:
将本实施例中的编码端和解码端分离,将中间的二进制码流作为压缩文件存储。假设输入图像为H×W×C,中间的二进制码流为B位,则图像的压缩率为
Figure BDA0002344958470000172
位每像素(bitper pixel,bpp),而图像质量则通过主观评价指标MS-SSIM衡量。根据这两个指标,在测试集上计算平均值,即可画出图像压缩方法的压缩率-损失曲线。
为了验证本实施例方法的有效性,实验对比中加入了一个基于残差网络的基准网络,用来和本发明实施例中提出的基于提升结构的可逆自编码器结构作对比。具体的,其单元可以实现
Figure BDA0002344958470000173
其中,
Figure BDA0002344958470000174
结构如下:
1)卷积层,四维卷积核大小为3×3×90×90,步长为1;
2)ReLU层;
3)卷积层,四维卷积核大小为3×3×90×90,步长为1;
4)ReLU层;
5)卷积层,四维卷积核大小为3×3×90×90,步长为1;
在编码端采用了8个此残差块替代级联可逆编码模块,同时,在解码端采用了8个此残差块替代级联可逆解码模块,但这些残差块并不复用参数。通过这种方式,保证基准模型的参数量大致为本实施例方法的一半。在本实施例中,基于提升结构的可逆自编码器结构具有约124万个参数,而用作对比的参考网络具有约291万个参数。可以得到如图11的实验结果。实验表明,本发明上述实施例中的编码器、解码器可以替代端到端图像压缩方法中占据了大量参数的自编码器、解码器结构,实现编码器端与解码器端的参数复用,可节省一半的存储开销。
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述***中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述***的技术方案实现所述方法的步骤流程,即,所述***中的实施例可理解为实现所述方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的***及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。

Claims (20)

1.一种基于提升结构的可逆自编码器的编码单元,其特征在于,包括:
编码信号分离模块,该模块将输入的图像或高维信号分离为双路子信号;
级联可逆编码模块,该模块包括多级基于提升结构的可逆编码子模块,将所述编码信号分离模块分离得到的双路子信号做分解,前一级所述可逆编码子模块的输出作为后一级所述可逆编码子模块的输入;
编码信号合成模块,该模块将通过所述级联可逆编码模块处理后的双路子信号重新合成为一路信号。
2.根据权利要求1所述的基于提升结构的可逆自编码器的编码单元,其特征在于,所述可逆编码子模块包括:
基于卷积网络的预测算子,该算子利用卷积网络的非线性拟合能力,自适应地对双路输入信号中的一路进行变换,并与另一路输入进行求和操作,获得对应这一路输入的输出,作为新的双路输出信号的一路;
基于卷积网络的更新算子,该算子将上述预测算子和求和操作所生成的一路输出作为输入,利用卷积网络的非线性拟合能力,自适应地进行变换,并与输入信号的另一路输入做求和操作,作为新的双路输出信号的第二路。
3.根据权利要求1或2所述的基于提升结构的可逆自编码器的编码单元,其特征在于,还包括:
网络调控模块,该模块控制所述级联可逆编码模块的级数和每一个可逆编码子模块的变换属性。
4.一种可逆自编码器的编码方法,其特征在于,包括:
将输入的图像或高维信号分离为双路子信号;
采用级联可逆编码模块将分离得到的双路子信号进行分解,级联可逆编码模块包括多级基于提升结构的可逆编码子模块,其中前一级所述可逆编码子模块的双路输出作为后一级所述可逆编码子模块的输入;
将通过所述级联可逆编码子模块处理后的双路子信号重新合成为一路信号。
5.根据权利要求4所述的可逆自编码器的编码方法,其特征在于,所述可逆编码子模块包含基于卷积网络的预测算子和基于卷积网络的更新算子,将双路输入记为a0和b0,基于卷积网络的预测算子和更新算子分别记为
Figure FDA0002344958460000021
Figure FDA0002344958460000022
则可逆编码子模块中的具体操作如下:
Figure FDA0002344958460000023
Figure FDA0002344958460000024
上述公式中a1和b1是基于提升结构的可逆编码子模块的双路输出,μ和θ为预测算子和更新算子对应的卷积网络的可学习参数集合。
6.根据权利要求4或5所述的可逆自编码器的编码方法,其特征在于,还包括:控制所述级联可逆编码模块的级数和每一个可逆编码子模块的变换属性。
7.一种基于提升结构的可逆自编码器的解码单元,其特征在于,包括:
解码信号分离模块,该模块将输入的信号分离为双路子信号;
级联可逆解码模块,该模块包含多级基于提升结构的可逆解码子模块,对编码分解的信号进行重构,前一级可逆解码子模块的输出作为后一级可逆解码子模块的输入;
解码信号合成模块,该模块将通过所述级联可逆解码模块处理后的双路子信号重新合成为一路信号。
8.根据权利要求7所述的基于提升结构的可逆自编码器的解码单元,其特征在于,所述可逆解码子模块包括:
基于卷积网络的更新算子,该算子利用卷积网络的非线性拟合能力,自适应地将双路输入信号中的一路变换,并与另一路输入求差,作为输出双路新信号中的一路;
基于卷积网络的预测算子,该算子利用卷积网络的非线性拟合能力,自适应地对已生成的一路新信号做变换,并与输入中的另一路输入求差,作为输出双路新信号中的第二路。
9.一种可逆自编码器的解码方法,其特征在于,包括:
将高维信号分离为双路子信号;
采用级联可逆解码模块对高维信号进行重构,该级联可逆解码模块包含多级基于提升结构的可逆解码子模块,前一级可逆解码子模块的双路输出作为后一级可逆解码子模块的输入;
将通过所述级联可逆解码模块处理后的双路子信号重新合成为一路信号。
10.根据权利要求9所述的可逆自编码器的解码方法,其特征在于,所述可逆解码子模块包括基于卷积网络的预测算子和基于卷积网络的更新算子,具体操作如下:
Figure FDA0002344958460000025
Figure FDA0002344958460000031
其中,所述基于卷积网络的预测算子和基于卷积网络的更新算子采用多层卷积神经网络实现;其中,
Figure FDA0002344958460000032
Figure FDA0002344958460000033
为某可逆解码子模块的双路输入,
Figure FDA0002344958460000034
Figure FDA0002344958460000035
为某可逆解码子模块的双路输出,
Figure FDA0002344958460000036
Figure FDA0002344958460000037
为分别对
Figure FDA0002344958460000038
Figure FDA0002344958460000039
进行提升和预测变换,
Figure FDA00023449584600000310
Figure FDA00023449584600000311
为预测算子和更新算子对应的卷积网络的可学习参数集合。
11.一种可逆自编码器,其特征在于,包括:
编码信号分离模块,该模块将输入的图像或高维信号分离为双路子信号;
级联可逆编码模块,该模块包括多级基于提升结构的可逆编码子模块,将所述编码信号分离模块分离得到的信号做分解,前一级所述可逆编码子模块的双路输出作为后一级所述可逆编码子模块的输入;
编码信号合成模块,该模块将通过所述级联可逆编码模块处理后的双路子信号重新合成为一路信号;
解码信号分离模块,该模块将所述编码信号合成模块的合成信号分解为双路子信号;
级联可逆解码模块,该模块对所述解码信号分离模块分解后得到的双路子信号进行重构,该模块包含多级基于提升结构的可逆解码子模块,前一级可逆解码子模块的双路输出作为后一级可逆解码子模块的输入;所述级联可逆解码模块的级数与所述级联可逆编码模块中的可逆编码子模块数量相同,所述可逆解码子模块与所述可逆编码子模块一一对应,对应的一对所述可逆解码子模块与所述可逆编码子模块中的参数相同,其中,所述级联可逆解码模块中的可逆解码子模块排列顺序与所述级联可逆编码模块中的可逆编码子模块的排列顺序相反;
解码信号合成模块,该模块将通过所述级联可逆解码模块处理后的双路子信号重新合成为一路信号。
12.根据权利要求11所述的可逆自编码器,其特征在于,所述可逆编码子模块包括:
基于卷积网络的预测算子,该算子利用卷积网络的非线性拟合能力,自适应地对双路输入信号中的一路进行变换,并与另一路输入进行求和操作,获得对应这一路输入的输出,作为新的双路输出信号的一路;
基于卷积网络的更新算子,该算子将上述预测算子和求和操作所生成的一路输出作为输入,利用卷积网络的非线性拟合能力,自适应地进行变换,并与输入信号的另一路输入做求和操作,作为新的双路输出信号的第二路;
所述可逆解码子模块复用所述可逆编码子模块中的基于卷积网络的预测算子和基于卷积网络的更新算子;其中,通过参数共享,调用可逆编码子模块中的预测算子和更新算子的参数,完成可逆解码子模块中的基于卷积网络的预测算子和基于卷积网络的更新算子。
13.根据权利要求11或12所述的可逆自编码器,其特征在于,还包括:
网络调控模块,该模块控制所述级联可逆编码模块以及所述级联可逆解码模块的级数和每一对所述可逆解码子模块与所述可逆编码子模块的变换属性。
14.根据权利要求13所述的可逆自编码器,其特征在于,所述可逆解码子模块与所述可逆编码子模块一一对应及排列顺序如下:
记N级级联可逆编码模块中的可逆编码子模块集合为{Ai(·,·;θii)}1≤i≤N,且第i模块实现的操作记为:
[ai,bi]=Ai(ai-1,bi-1;θii)
此时,N级级联可逆编码模块实现:
[aN,bN]=AN(AN-1(…A1(a0,b0;θ11)…;θN-1N-1);θNN)
另,记可逆解码子模块集合为{Bi(·,·;θii)}1≤i≤N,且第i模块实现的操作记为:
Figure FDA0002344958460000041
则N级级联可逆解码模块实现:
Figure FDA0002344958460000042
其中,{θii}1≤i≤N为所述可逆解码子模块与所述可逆编码子模块复用的可学习参数;
所述网络调控模块中的变换属性包括网络所对应的变换的上下界。
15.一种可逆自编解码方法,其特征在于,包括:
将输入的图像或高维信号分离为双路子信号;
采用级联可逆编码模块将分离得到的双路子信号进行分解,级联可逆编码模块包括多级基于提升结构的可逆编码子模块,其中前一级所述可逆编码子模块的双路输出作为后一级所述可逆编码子模块的输入;
将通过所述级联可逆编码模块处理后的双路子信号重新合成为一路信号,得到合成的高维信号;
将所述合成的高维信号分离为双路子信号,适配级联可逆解码模块的输入;
采用级联可逆解码模块对所述合成的高维信号分离后的双路子信号进行重构,该级联可逆解码模块包含多级基于提升结构的可逆解码子模块,前一级可逆解码模块的双路输出作为后一级可逆解码模块的输入;其中:所述可逆解码子模块数量与所述级联可逆编码模块中的可逆编码子模块数量相同,所述可逆解码模块与所述可逆编码模块一一对应,对应的一对所述可逆解码模块与所述可逆编码模块中的参数相同,其中,所述级联可逆解码模块中的可逆解码模块排列顺序与所述级联可逆编码模块中的可逆编码模块的排列顺序相反;
将通过所述级联可逆解码模块处理后的双路子信号重新合成为一路信号。
16.根据权利要求15所述的可逆自编解码方法,其特征在于,所述可逆编码子模块包含基于卷积网络的预测算子和基于卷积网络的更新算子;将对于双路输入记为a0和b0,基于卷积网络的预测算子和更新算子分别记为
Figure FDA0002344958460000051
Figure FDA0002344958460000052
则可逆编码子模块中的具体操作如下:
Figure FDA0002344958460000053
Figure FDA0002344958460000054
上述公式中a1和b1是基于提升结构的可逆编码子模块的双路输出,μ和θ为预测算子和更新算子对应的卷积网络的可学习参数集合;
所述可逆解码子模块复用所述可逆编码子模块中的基于卷积网络的预测算子和基于卷积网络的更新算子,具体操作如下:
Figure FDA0002344958460000055
Figure FDA0002344958460000056
其中,所述基于卷积网络的预测算子和基于卷积网络的更新算子具体实现为多层卷积神经网络;其中,
Figure FDA0002344958460000057
Figure FDA0002344958460000058
为某可逆解码子模块的双路输入,
Figure FDA0002344958460000059
Figure FDA00023449584600000510
为某可逆解码子模块的双路输出,
Figure FDA00023449584600000511
Figure FDA00023449584600000512
为分别对
Figure FDA00023449584600000513
Figure FDA00023449584600000514
进行提升和预测变换,μ和θ为复用的可逆编码子模块中预测算子和更新算子对应的卷积网络的可学习参数集合。
17.根据权利要求15或16所述的可逆自编解码方法,其特征在于,还包括:
控制所述级联可逆编码模块以及所述级联可逆解码模块的级数和每一对所述可逆解码模块与所述可逆编码模块的变换属性。
18.一种图像压缩方法,其特征在于,采用权利要求15-17任一项所述的可逆自编解码方法。
19.根据权利要求18所述的图像压缩方法,其特征在于,包括:
输入图像经过卷积神经网络的卷积层和ReLU层实现升采样,然后进行信号分离,得到原始分离信号;
采用级联可逆编码模块对所述原始分离信号进行前向编码,生成双路特征图;
将所得双路特征图合成一路特征图;
对生成的所述一路特征图进行量化、熵编码,获得二进制码流;
对所述二进制码流解码,得到重构的特征图;
将所述重构的特征图分离为两路特征图;
采用级联可逆解码模块对重构的所述两路特征图进行反向解码,得到双路重构信号;
将反向解码得到的所述双路重构信号合成,并通过卷积层和ReLU层实现降采样重构图像。
20.一种图像压缩装置,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求18或19所述的图像压缩方法。
CN201911391009.9A 2019-12-30 2019-12-30 可逆自编码器、编解码方法以及图像压缩方法、装置 Active CN111131834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911391009.9A CN111131834B (zh) 2019-12-30 2019-12-30 可逆自编码器、编解码方法以及图像压缩方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911391009.9A CN111131834B (zh) 2019-12-30 2019-12-30 可逆自编码器、编解码方法以及图像压缩方法、装置

Publications (2)

Publication Number Publication Date
CN111131834A true CN111131834A (zh) 2020-05-08
CN111131834B CN111131834B (zh) 2021-07-06

Family

ID=70504723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911391009.9A Active CN111131834B (zh) 2019-12-30 2019-12-30 可逆自编码器、编解码方法以及图像压缩方法、装置

Country Status (1)

Country Link
CN (1) CN111131834B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023082107A1 (zh) * 2021-11-10 2023-05-19 Oppo广东移动通信有限公司 解码方法、编码方法、解码器、编码器和编解码***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107801026A (zh) * 2017-11-09 2018-03-13 京东方科技集团股份有限公司 图像压缩方法及装置、图像压缩及解压缩***
US20180082150A1 (en) * 2016-09-20 2018-03-22 Kabushiki Kaisha Toshiba Abnormality detection device, learning device, abnormality detection method, and learning method
CN110070498A (zh) * 2019-03-12 2019-07-30 浙江工业大学 一种基于卷积自编码器的图像增强方法
CN110493596A (zh) * 2019-09-02 2019-11-22 西北工业大学 一种基于神经网络的视频编码框架

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082150A1 (en) * 2016-09-20 2018-03-22 Kabushiki Kaisha Toshiba Abnormality detection device, learning device, abnormality detection method, and learning method
CN107801026A (zh) * 2017-11-09 2018-03-13 京东方科技集团股份有限公司 图像压缩方法及装置、图像压缩及解压缩***
CN110070498A (zh) * 2019-03-12 2019-07-30 浙江工业大学 一种基于卷积自编码器的图像增强方法
CN110493596A (zh) * 2019-09-02 2019-11-22 西北工业大学 一种基于神经网络的视频编码框架

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ROBIN BRÜGGER 等: "A Partially Reversible U-Net for Memory-Efficient Volumetric Image Segmentation", 《INTERNATIONAL CONFERENCE ON MEDICAL IMAGE COMPUTING AND COMPUTER-ASSISTED INTERVENTION》 *
ROBIN TIBOR SCHIRRMEISTER等: "Training Generative Reversible Networks", 《ICML 2018 WORKSHOP ON THEORETICAL FOUNDATIONSAND APPLICATIONS OF DEEP GENERATIVE MODELS》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023082107A1 (zh) * 2021-11-10 2023-05-19 Oppo广东移动通信有限公司 解码方法、编码方法、解码器、编码器和编解码***

Also Published As

Publication number Publication date
CN111131834B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN111641832B (zh) 编码方法、解码方法、装置、电子设备及存储介质
CN108174218B (zh) 基于学习的视频编解码***
WO2020237646A1 (zh) 图像处理方法、设备及计算机可读存储介质
CN113766249B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
WO2001050768A2 (en) Method and apparatus for video compression using sequential frame cellular automata transforms
EP2168382A1 (en) Method for processing images and the corresponding electronic device
CN110753225A (zh) 一种视频压缩方法、装置及终端设备
CN113079378B (zh) 图像处理方法、装置和电子设备
CN113747163A (zh) 基于上下文重组建模的图像编码、解码方法及压缩方法
Akbari et al. Learned multi-resolution variable-rate image compression with octave-based residual blocks
CN111669588A (zh) 一种超低时延的超高清视频压缩编解码方法
CN111131834B (zh) 可逆自编码器、编解码方法以及图像压缩方法、装置
CN105163130B (zh) 一种基于离散Tchebichef正交多项式的图像无损压缩方法
Kabir et al. Edge-based transformation and entropy coding for lossless image compression
CN112188217A (zh) 结合dct域和像素域学习的jpeg压缩图像去压缩效应方法
CN111080729B (zh) 基于Attention机制的训练图片压缩网络的构建方法及***
WO2001050769A9 (en) Method and apparatus for video compression using multi-state dynamical predictive systems
WO2023082107A1 (zh) 解码方法、编码方法、解码器、编码器和编解码***
CN112437300B (zh) 一种基于自适应区间重叠因子的分布式视频编码方法
CN105611288B (zh) 一种基于有约束插值技术的低码率图像编码方法
Wu et al. Enhancement of transform coding by nonlinear interpolation
WO2001050767A2 (en) Method and apparatus for digital video compression using three-dimensional cellular automata transforms
Abdul-Wahed et al. Compression of image using multi-wavelet techniques
RU2799099C1 (ru) Способ обработки видеоинформации на основе трехмерного дискретного косинусного преобразования с компенсацией движения
CN115150628B (zh) 具有超先验引导模式预测的由粗到细深度视频编码方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant