CN111107377A

CN111107377A - 深度图像压缩方法及其装置、设备和存储介质

Info

Publication number: CN111107377A
Application number: CN201811258164.9A
Authority: CN
Inventors: 胡强; 石志儒
Original assignee: Yaoke Intelligent Technology Shanghai Co ltd
Current assignee: Yaoke Intelligent Technology Shanghai Co ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2020-05-05

Abstract

本发明提供的一种深度图像压缩方法及其装置、设备和存储介质，通过对深度图像进行正变以得到特征系数矩阵，并通过高斯概率模型对量化后的特征系数矩阵进行熵编码以得到对应的特征系数码流，以及对所述深度图像的元信息进行旁路熵编码以得到对应的元信息码流，最后合并所述特征系数码流及所述元信息码流以作为所述深度图像的压缩数据。本发明能够深度图像压缩导致合成视图失真的问题，并且在压缩性能方面超越传统编码标准JPEG和BPG。

Description

深度图像压缩方法及其装置、设备和存储介质

技术领域

本发明涉及深度图像处理技术领域。尤其是涉及一种深度图像压缩方法及其装置、设备和存储介质。

背景技术

光场视频作为一种新型的数字媒体，通过提供多个视点的视频数据使用户自由选择视点从多个角度观看三维立体场景，其独特的立体感和视点间交互功能使它广泛应用于三维电视、自由视点电视和光场监控等多个领域。光场视频包含了大量的数据信息，从而导致了存储和传输的巨大压力，如何高效地对光场视频进行压缩成为制约其发展的瓶颈。基于深度图像绘制的虚拟视图合成是光场视频应用中的关键技术，它利用参考视点的视频数据和相应的深度图像合成任意视点的视图，其合成视图的质量很大程度上依赖于深度图像的质量。

在过去的几十年中，一系列的图像编码标准被广泛地应用。目前已有的图像压缩标准有很多种，包括联合图片专家组制定的JPEG和JPEG2000，由国际标准化组织/国际电工技术委员会发布的PNG等。但上述图像压缩是针对传统图像的，并不是针对深度图像的。与视频图像不同，深度图像是包含大量的均匀区域、更多的空间冗余和锐利边界的灰度图，使用传统的图像编码方法对深度图像进行压缩会在边界处产生严重的失真，从而影响合成视图的质量。

因此，基于深度图像在图像处理和机器视觉任务中的关键作用，亟需一种针对深度图像压缩减少或取出失真的办法。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种深度图像压缩方法及其装置、电子设备和存储介质，用于解决现有技术中对深度图像进行压缩会产生严重失真的问题。

为实现上述目的及其他相关目的，本发明提供一种深度图像压缩方法，所述方法包括：对深度图像进行基于自编码网络的正变换处理以得到表征所述深度图像的信息的特征系数矩阵；对所述特征系数矩阵进行量化处理，并通过高斯概率模型对量化后的所述特征系数矩阵进行熵编码，以得到对应的特征系数码流；对所述深度图像的元信息进行旁路熵编码以得到对应的元信息码流；合并所述特征系数码流及所述元信息码流以作为所述深度图像的压缩数据。

于本发明的一实施例中，所述特征系数矩阵能经过自编码网络的反变换以重构出所述深度图像的像素值。

于本发明的一实施例中，所述正变换与所述反变换呈对称结构，分别由6层卷积层、及5层归一化层组成。

于本发明的一实施例中，所述量化处理为标量量化，包括：对输入值进行四舍五入量化处理，以及选取最接近所述输值入的整数作为输出值。

于本发明的一实施例中，在所述自编码网络进行训练时，通过增加随机均匀噪声来近似所述量化处理，使得编解码过程变得可导。

于本发明的一实施例中，所述高斯概率模型是通过对所述深度图像的特征系数进行基于高斯分布的概率建模得到的。

于本发明的一实施例中，所述对所述深度图像的元信息进行旁路熵编码以得到对应的元信息码流的方法包括：对所述深度图像的长和宽分别使用2个16比特的整数进行二进制化，并采用旁路二进制数字编码得到二进制码流；对所述高斯概率模型对应的序号使用8比特的整数进行二进制化，并采用旁路二进制数字编码得到二进制码流；汇总对应所述深度图像的长和宽的二进制码流、及对应所述高斯概率模型对应的序号的二进制码流以得到所述元信息码流。

为实现上述目的及其他相关目的，本发明提供一种深度图像压缩装置，包括：正反变换模块，用于对深度图像进行正变换以得到表征所述深度图像的信息的特征系数矩阵；和/或，用于对所述特征系数矩阵进行反变换以重构出所述深度图像的像素值；量化器，用于对所述特征系数矩阵进行量化处理；熵编码器，用于通过高斯概率模型对量化后的所述特征系数矩阵进行熵编码，以得到对应的特征系数码流；以及用于对所述深度图像的元信息进行旁路熵编码以得到对应的元信息码流；合成器，用于合并所述特征系数码流及所述元信息码流以作为所述深度图像的压缩数据。

为实现上述目的及其他相关目的，本发明提供一种电子设备，包括：处理器、及存储器；所述存储器用于存储程序；所述处理器运行程序实现上述所述的深度图像压缩方法。

为实现上述目的及其他相关目的，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述的深度图像压缩方法。

如上所述，本发明提供的一种深度图像压缩方法及其装置、设备和存储介质，通过对深度图像进行正变以得到特征系数矩阵，并通过高斯概率模型对量化后的特征系数矩阵进行熵编码以得到对应的特征系数码流，以及对所述深度图像的元信息进行旁路熵编码以得到对应的元信息码流，最后合并所述特征系数码流及所述元信息码流以作为所述深度图像的压缩数据。具有以下有益效果：

能够深度图像压缩导致合成视图失真的问题，并且在压缩性能方面超越传统编码标准JPEG和BPG。

附图说明

图1显示为本发明于一实施例中的深度图像压缩方法的流程示意图。

图2显示为本发明于一实施例中的深度图像压缩装置的模块示意图。

图3显示为本发明于一实施例中的深度图像压缩设备的结构示意图。

元件标号说明

S101～S104 方法步骤

200 深度图像压缩装置

201 正反变换模块

202 量化器

203 熵编码器

204 合成器

300 深度图像压缩设备

301 存储器

302 处理器

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1所示，展示本发明于一实施例中的深度图像压缩方法的流程示意图。如图所示，所述方法包括：

步骤S101：对深度图像进行基于自编码网络的正变换处理以得到表征所述深度图像的信息的特征系数矩阵。

于本发明的一实施例中，所述基于自编码网络的正变换是依据卷积神经网络进行的正卷积变换算法，后续的反变换也是基于卷积神经网络中的反卷积变换算法。

所述卷积神经网络(CNN)是局部连接网络。相对于全连接网络其最大的特点就是：局部连接性和权值共享性。因为对一副图像中的某个像素p来说，一般离像素p越近的像素对其影响也就越大(局部连接性)；另外，根据自然图像的统计特性，某个区域的权值也可以用于另一个区域(权值共享性)。这里的权值共享就是卷积核共享，对于一个卷积核将其与给定的图像做卷积就可以提取一种图像的特征，不同的卷积核可以提取不同的图像特征。概况的讲，卷积层的计算方法就是根据公式：conv＝σ(imgMat°W+b)；其中“σ”表示激活函数；“imgMat”表示灰度图像矩阵；“W”表示卷积核；“°”表示卷积操作；“b”表示偏置值。

于本发明的一实施例中，所述正变换与反变换起到对图像特征的提取与还原，是对图像进行压缩所必须的过程。

所述深度图像的信息的特征系数矩阵是通过对深度图像进行正变换得到的，那么不难理解，对所述特征系数矩阵再进行反卷积变换可以得到所述深度图像中各像素对应的像素值。

而与通常图像压缩所采用正变换或反变换不同的是：本实施例中，所述正变换与所述反变换呈对称结构，分别由6层卷积层、及5层归一化层组成。

举例来说，正变换网络以卷积层开始，每个卷积层后面接一个归一化层。各个卷积层的卷积核大小都是7×7，卷积核个数都是256，特征经过卷积之后空间长和宽都缩小为原来的一半。反变换网络以反卷积层开始，每个反卷积层后面接一个逆归一化层。各个反卷积层的卷积核大小都是7×7，卷积核个数都是256，特征经过反卷积之后空间长和宽都扩大为原来的两倍。

步骤S102：对所述特征系数矩阵进行量化处理，并通过高斯概率模型对量化后的所述特征系数矩阵进行熵编码，以得到对应的特征系数码流。

于本发明的一实施例中，所采用的量化处理与现有技术中采用的量化处理不同。具体体现在本实施例中所述量化处理为标量量化，包括：对输入值进行四舍五入量化处理，以及选取最接近所述输值入的整数作为输出值。

另外，由于本发明中的自编码网络是基于卷积神经网络构建而成，因此需要对相关网络参数进行训练，以使整个自编码网络可以进行端到端的优化训练。

具体来讲，针对所述量化处理在所述自编码网络进行训练时，通过增加随机均匀噪声来近似所述量化处理，使得编解码过程变得可导。

其中，所述编解码过程可导，进一步地可进行梯度反向传导，且有双边滤波的作用，能更好的保持图像的边缘等高频信息。

需要说明的是，梯度反向传导是在训练或优化智能***中最重要的技术，其功能时通过寻找最小值，控制方差，更新模型参数，最终使模型收敛。具体到卷积神经网络模型中主要用于进行权重更新，即在一个方向上更新和调整模型的参数，来使损失函数最小化。

而现有技术量化的梯度反向传导是把从0到无穷强行成了1到无穷进行回传，与现有技术相比，本发明采用基于卷积神经网络对量化处理进行训练，使得编解码过程变得可导，能够更好的保持图像的边缘等高频信息，减少编码损失。

需要说明的是，提高图像的压缩效率最关键的就是熵编码，现有技术一般会将量化后的系数通过拉普拉斯进行建模或者无参方式进行建模，本发明通过有参的高斯模型进行建模，可以有效减少图像的空间冗余，只需要学习的参数是均值和方差，这样会使得学习的参数变少了，利于实现和提高编码速度，使本发明在压缩性能方面超越传统编码标准JPEG和BPG。

举例来说，对所述的自编码网络训练时，是以最小化损失函数J＝R+λD为目标。其中D为编码失真，采用PSNR为度量指标；R是编码码率，使用信息熵进行近似，信息熵的获取和系数的概率密度函数有关，概率密度采用基于高斯分布的建模。

于本发明的一实施例中，对应所述深度图像的特征系数的特征系数码流为二进制码流。

步骤S103：对所述深度图像的元信息进行旁路熵编码以得到对应的元信息码流。

其中，所述旁路熵编码的模式，可以绕过了概率模型的估计和更新，并对区间进行平均分割以加快编解码的速度。

于本发明的一实施例中，除了提取的图像信息特征需要压缩传输外，还有一些头信息或元信息需要压缩传输，通过这些头信息或元信息才能正确的解码，否则只传特征的压缩码流得不得解码的图像。

步骤S104：合并所述特征系数码流及所述元信息码流以作为所述深度图像的压缩数据。

于本发明的一实施例中，通过高斯概率模型对量化后的所述特征系数矩阵进行熵编码，以得到对应的特征系数码流，以及对所述深度图像的元信息进行旁路熵编码以得到对应的元信息码流，二者合并由此得到基于卷积神经网络所形成对应所述深度图像的压缩数据。

通过构建卷积神经网络，并对网络中所有参数进行端到端、无监督训练的优化，使得网络参数可以使用梯度的反向传导进行更新，从而有效减少图像的空间冗余，更好的保持图像的边缘等高频信息，利于实现和提高编码速度。

如图2所示，展示本发明于一实施例中的深度图像压缩装置的模块示意图。如图所示，所述深度图像压缩装置200包括：

正反变换模块201，用于对深度图像进行正变换以得到表征所述深度图像的信息的特征系数矩阵；和/或，用于对所述特征系数矩阵进行反变换以重构出所述深度图像的像素值。

量化器202，用于对所述特征系数矩阵进行量化处理。

熵编码器203，用于通过高斯概率模型对量化后的所述特征系数矩阵进行熵编码，以得到对应的特征系数码流；以及用于对所述深度图像的元信息进行旁路熵编码以得到对应的元信息码流；

合成器204，用于合并所述特征系数码流及所述元信息码流以作为所述深度图像的压缩数据。

于本发明的一实施例中，通过各模块配合使用能够实现如图1所述的深度图像压缩方法的各步骤。

于本发明的一实施例中，所述熵编码器203还可以是自编码器，所述自编码器是神经网络的一种，经过训练后能尝试将输入复制到输出。自编码器内部有一个隐藏层h，可以产生编码(code)表示输入。该网络可以看作由两部分组成：一个由函数h＝f(x)表示的编码器和一个生成重构的解码器r＝g(h)。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，正反变换模块201可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上正反变换模块201的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上***(system-on-a-chip，简称SOC)的形式实现。

如图3所示，展示本发明于一实施例中的深度图像压缩设备的结构示意图。如图所示，所述深度图像压缩设备300包括：处理器301、及存储器302；所述存储器302用于存储程序；所述处理器301运行程序实现如图1所述的深度图像压缩方法。

所述处理器301可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

所述存储器302可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

为实现上述目的及其他相关目的，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如图1所述的深度图像压缩方法。

所述计算机可读存储介质，本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本发明提供的一种深度图像压缩方法及其装置、电子设备和存储介质，通过对深度图像进行正变以得到特征系数矩阵，并通过高斯概率模型对量化后的特征系数矩阵进行熵编码以得到对应的特征系数码流，以及对所述深度图像的元信息进行旁路熵编码以得到对应的元信息码流，最后合并所述特征系数码流及所述元信息码流以作为所述深度图像的压缩数据。

本发明能够深度图像压缩导致合成视图失真的问题，并且在压缩性能方面超越传统编码标准JPEG和BPG。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种深度图像压缩方法，其特征在于，所述方法包括：

对深度图像进行基于自编码网络的正变换处理以得到表征所述深度图像的信息的特征系数矩阵；

对所述特征系数矩阵进行量化处理，并通过高斯概率模型对量化后的所述特征系数矩阵进行熵编码，以得到对应的特征系数码流；

对所述深度图像的元信息进行旁路熵编码以得到对应的元信息码流；

合并所述特征系数码流及所述元信息码流以作为所述深度图像的压缩数据。

2.根据权利要求1所述的深度图像压缩方法，其特征在于，所述特征系数矩阵能经过自编码网络的反变换以重构出所述深度图像的像素值。

3.根据权利要求2所述的深度图像压缩方法，其特征在于，所述正变换与所述反变换呈对称结构，分别由6层卷积层、及5层归一化层组成。

4.根据权利要求1所述的深度图像压缩方法，其特征在于，所述量化处理为标量量化，包括：对输入值进行四舍五入量化处理，以及选取最接近所述输值入的整数作为输出值。

5.根据权利要求1所述的深度图像压缩方法，其特征在于，在所述自编码网络进行训练时，通过增加随机均匀噪声来近似所述量化处理，使得编解码过程变得可导。

6.根据权利要求1所述的深度图像压缩方法，其特征在于，所述高斯概率模型是通过对所述深度图像的特征系数进行基于高斯分布的概率建模得到的。

7.根据权利要求1所述的深度图像压缩方法，其特征在于，所述对所述深度图像的元信息进行旁路熵编码以得到对应的元信息码流的方法包括：

对所述深度图像的长和宽分别使用2个16比特的整数进行二进制化，并采用旁路二进制数字编码得到二进制码流；

对所述高斯概率模型对应的序号使用8比特的整数进行二进制化，并采用旁路二进制数字编码得到二进制码流；

汇总对应所述深度图像的长和宽的二进制码流、及对应所述高斯概率模型对应的序号的二进制码流以得到所述元信息码流。

8.一种深度图像压缩装置，其特征在于，包括：

正反变换模块，用于对深度图像进行正变换以得到表征所述深度图像的信息的特征系数矩阵；和/或，用于对所述特征系数矩阵进行反变换以重构出所述深度图像的像素值；

量化器，用于对所述特征系数矩阵进行量化处理；

熵编码器，用于通过高斯概率模型对量化后的所述特征系数矩阵进行熵编码，以得到对应的特征系数码流；以及用于对所述深度图像的元信息进行旁路熵编码以得到对应的元信息码流；

合成器，用于合并所述特征系数码流及所述元信息码流以作为所述深度图像的压缩数据。

9.一种深度图像压缩装设备，其特征在于，包括：处理器、及存储器；

所述存储器用于存储程序；所述处理器运行程序实现权利要求1至7中任意一项所述的深度图像压缩方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7中任意一项所述的深度图像压缩方法。