CN111988609A

CN111988609A - 图像编码装置、概率模型生成装置和图像解码装置

Info

Publication number: CN111988609A
Application number: CN201910429870.3A
Authority: CN
Inventors: 温思寒; 周静; 谭志明
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2020-11-24
Also published as: JP2020191630A; JP2024071773A; JP7491041B2; US11386583B2; US20200372686A1

Abstract

本申请实施例提供了一种图像编码装置、概率模型生成装置和图像解码装置，图像编码装置包括：第一特征提取单元，其对输入图像进行特征提取，得到N个通道的特征图；第二特征提取单元，其对调整了K次大小的输入图像进行特征提取，分别得到N个通道的特征图；第一连接单元，其将来自所述第一特征提取单元的N个通道的特征图与来自所述第二特征提取单元的K×N个通道的特征图连接并输出。由此，可以准确地提取图像的特征并获得更具竞争性的潜在表示。

Description

图像编码装置、概率模型生成装置和图像解码装置

技术领域

本申请涉及图像压缩和深度学习的技术领域。

背景技术

近年来，深度学习在计算机视觉领域已经占据主导地位，不论是在图像识别还是超分辨重现上，深度学习已成为图片研究的重要技术，但它的能力并不仅限于这些任务；现在深度学习技术已进入图片压缩领域，并逐渐显示出巨大的潜力，成为热门研究领域。

目前，基于深度神经网络的图像压缩旨在使用尽可能少的码流来产生高质量的图像，这就产生了率-失真权衡。为了在比特率和失真之间保持良好的平衡，从业者着重于以下两方面的研究：1，为潜在表示找到最近似的熵模型以优化比特流的长度(低比特率)；2，获得更有效的潜在表示以精确地重建图像(减少失真)。

应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

本申请实施例提供一种图像编码方法和装置、概率模型生成方法和装置、图像解码方法和装置、以及图像压缩***，通过使用金字塔调整大小模块(pyramidal resizemodule)和inception编码器网络，可以准确地提取图像的特征以获得更具竞争性的潜在表示。

根据本申请实施例的第一方面，提供了一种图像编码装置，其中，所述装置包括：

第一特征提取单元，其对输入图像进行特征提取，得到N个通道的特征图；

第二特征提取单元，其对调整了K次大小的输入图像进行特征提取，分别得到N个通道的特征图；

第一连接单元，其将来自所述第一特征提取单元的N个通道的特征图与来自所述第二特征提取单元的K×N个通道的特征图连接并输出。

根据本申请实施例的第二方面，提供了一种概率模型生成装置，所述装置包括：

多尺度空洞卷积单元，其对超级解码器的输出进行特征提取，获得多尺度辅助信息；

上下文模型处理单元，其将来自量化器的输入图像的潜在表示作为输入，获得基于内容的预测；以及

熵模型处理单元，对所述上下文模型处理单元的输出与所述多尺度空洞卷积单元的输出进行处理，得到预测的概率模型。

根据本申请实施例的第三方面，提供了一种图像解码装置，所述图像解码装置包括：

连接器，其将来自算数解码器的输入图像的潜在表示和来自所述多尺度空洞卷积单元的多尺度辅助信息进行连接，以及

解码器，其对来自所述连接器的输出进行解码，获得所述输入图像的重构图像。

根据本申请实施例的第四方面，提供了一种图像编码方法，其中，所述方法包括：

使用多个inception单元对输入图像进行特征提取，得到N个通道的特征图；

使用多个卷积层分别对调整了大小的输入图像进行特征提取，分别得到N个通道的特征图；

将来自所述inception单元的N个通道的特征图与来自所述多个卷积层分别对应的N个通道的特征图连接并输出。

根据本申请实施例的第五方面，提供了一种概率模型生成方法，所述方法包括：

使用多尺度空洞卷积单元对所述超级解码器的输出进行特征提取，获得多尺度辅助信息；

使用上下文模型将来自量化器的输入图像的潜在表示作为输入，获得基于内容的预测；以及

使用熵模型将所述上下文模型的输出与所述多尺度空洞卷积单元的输出进行处理，得到预测的概率模型。

根据本申请实施例的第六方面，提供了一种图像解码方法，所述方法包括：

使用多尺度空洞卷积单元对超级解码器的输出进行特征提取，获得多尺度辅助信息；

使用连接器将来自算数解码器的输入图像的潜在表示和来自所述多尺度空洞卷积单元的多尺度辅助信息进行连接，以及

使用解码器对来自所述连接器的输出进行解码，获得所述输入图像的重构图像。

根据本申请实施例的其他方面，提供了一种计算机可读程序，其中当在图像处理设备中执行所述程序时，所述程序使得所述图像处理设备执行前述第四、五、六任一方面所述的方法。

根据本申请实施例的其他方面，提供了一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得图像处理设备执行前述第四、五、六任一方面所述的方法。

本申请实施例的有益效果之一在于：通过本申请实施例的图像编码方法和装置，可以准确地提取图像的特征并获得更具竞争性的潜在表示，通过本申请实施例的图像解码方法和装置，可以通过多尺度辅助信息的融合更准确地重建图像。

参照后文的说明和附图，详细公开了本申请的特定实施方式，指明了本申请的原理可以被采用的方式。应该理解，本申请的实施方式在范围上并不因而受到限制。在所附权利要求的条款的范围内，本申请的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

在本申请实施例的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。此外，在附图中，类似的标号表示几个附图中对应的部件，并可用于指示多于一种实施方式中使用的对应部件。

所包括的附图用来提供对本申请实施例的进一步的理解，其构成了说明书的一部分，用于例示本申请的实施方式，并与文字描述一起来阐释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是实施例1的图像压缩***的一个示意图；

图2是实施例2的图像编码装置的一个示意图；

图3是图2所示的图像编码装置的第一特征提取单元的一个inception单元的一个实施例的网络结构示意图；

图4是图2所示的图像编码装置的第二特征提取单元的一个实施例的网络结构示意图；

图5是图2所示的图像编码装置的一个实施例的网络结构示意图；

图6是实施例3的图像解码装置的一个示意图；

图7是多尺度空洞卷积单元的一个实施例的网络结构示意图；

图8是实施例4的概率模型生成装置的一个示意图；

图9是实施例5的图像编码方法的一个示意图；

图10是实施例6的图像解码方法的一个示意图；

图11是实施例7的概率模型生成方法的一个示意图；

图12是实施例8的图像处理设备的示意图。

具体实施方式

参照附图，通过下面的说明书，本申请的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本申请的特定实施方式，其表明了其中可以采用本申请的原则的部分实施方式，应了解的是，本申请不限于所描述的实施方式，相反，本申请包括落入所附权利要求的范围内的全部修改、变型以及等同物。

在本申请实施例中，术语“第一”、“第二”等用于对不同元素从称谓上进行区分，但并不表示这些元素的空间排列或时间顺序等，这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在，但并不排除存在或添加一个或多个其他特征、元素、元件或组件。

在本申请实施例中，单数形式“一”、“该”等包括复数形式，应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义；此外术语“所述”应理解为既包括单数形式也包括复数形式，除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”，术语“基于”应理解为“至少部分基于……”，除非上下文另外明确指出。

下面结合附图对本申请实施例的各种实施方式进行说明。这些实施方式只是示例性的，不是对本申请的限制。

实施例1

本申请实施例提供了一种图像压缩***，图1是本申请实施例的图像压缩***的一个示意图，如图1所示，本申请实施例的图像压缩***100包括：图像编码装置101、概率模型生成装置102、以及图像解码装置103。图像编码装置101用于对输入图像进行下采样，将输入图像变换为潜在表示，概率模型生成装置102用于对上述潜在表示的概率分布进行预测，得到该潜在表示的概率模型，图像解码装置103用于根据该概率模型对解码得到的潜在表示进行上采样，以将该潜在表示映射回输入图像。

在本申请实施例中，如图1所示，图像编码装置101也可以称为编码器101，该编码器101用于对输入图像进行压缩编码，也即将输入图像映射到潜在代码空间。关于编码器101的网络结构及其实施方式将在下面进行说明。

在本申请实施例中，如图1所示，该图像压缩***100还可以包括量化器(Q)104、算数编码器(AE)105和算数解码器(AD)106，量化器104用于对来自编码器101的输出进行量化处理，由此来自编码器101的潜在表示被量化，产生离散值向量；算数编码器105用于根据上述概率模型生成装置102生成的概率模型(也即预测的概率分布)对来自量化器104的输出进行编码，也即将上述离散值向量压缩为比特流，算数解码器106是算数编码器105的逆，其用于根据上述概率模型生成装置102生成的概率模型对接收到的比特流进行解码，也即其解压缩上述比特流为量化的潜在表示，并提供给图像解码装置103。

在本申请实施例中，如图1所示，该图像压缩***100还可以包括：超级编码器107、量化器(Q)108、算数编码器(AE)109、算数解码器(AD)110和超级解码器111，该超级编码器107用于对来自编码器101的输出进行进一步编码，该量化器108、算数编码器109以及算数解码器110的处理与量化器104、算数编码器105、以及算数解码器106类似，所不同的只是算数编码器109和算数解码器110在进行压缩和解压缩时没有利用上述概率模型，对于其具体的处理过程，此处不再赘述。超级解码器1031用于对来自算数解码器109的输出进行进一步解码。关于该超级编码器107、量化器(Q)108、算数编码器(AE)109、算数解码器(AD)110和超级解码器111的网络结构和实施方式可以参考现有技术，此处不再赘述。

在本申请实施例中，如图1所示，图像解码装置103包括：多尺度空洞卷积单元(Pyramid atrous)1031、连接器1032和解码器1033，多尺度空洞卷积单元1031用于生成多尺度辅助信息，连接器1032用于将上述多尺度的辅助信息和来自算数解码器106的输出进行连接，解码器1033用于对来自连接器1032的输出进行解码，以对输入图像进行恢复，也即，潜在表示的离散元素被重新转换回数据空间得到重构图像。关于多尺度空洞卷积单元1031的网络结构及其实施方式，将在下面进行说明。

在本申请实施例中，如图1所示，概率模型生成装置102包括上下文模型和熵模型，其中，上下文模型基于量化器104的输出(潜在表示)获得基于内容的预测，熵模型负责学习潜在表示的概率模型，在本申请实施例中，熵模型基于来自多尺度空洞卷积单元1031的多尺度辅助信息和来自上下文模型的输出，生成该概率模型。该多尺度辅助信息可以纠正基于上下文的预测。在一个实施例中，熵模型基于上下文模型的mu部分和上述多尺度辅助信息生成该概率模型的mu部分(均值参数‘mean’)，并基于上下文模型的sigma部分和上述多尺度辅助信息生成该概率模型的sigma部分(比例参数‘scale’)，但本申请实施例不限于此，该熵模型也可以不区分mu部分和sigma部分，而直接根据上下文模型的输出和该多尺度辅助信息生成上述概率模型的均值参数和比例参数。

图1中关于图像编码装置101、图像解码装置103以及概率模型生成装置102的划分只是举例说明，本申请实施例并不以此作为限制，例如，超级编码器107和超级解码器111也可以作为概率模型生成装置102的一部分，或者作为图像解码装置103的一部分；再例如，多尺度空洞卷积单元1032可以作为图像解码装置103的一部分，也可以作为概率模型生成装置102的一部分。

在本申请实施例中，原始图像与重构图像之间的失真与提取特征的质量有直接关系，在某种程度上，提取的特征越多，失真越小。为了得到尽可能包含特征的潜在表示，本申请实施例利用上述编码器101构造了一个多尺度网络以有效地提取输入图像的特征。

图2是本申请实施例的图像编码装置101的示意图，如图2所示，本申请实施例的图像编码装置101包括：第一特征提取单元201、第二特征提取单元202以及第一连接单元203，该第一特征提取单元201、第二特征提取单元202以及第一连接单元构成了图1所示的编码器1011。在本申请实施例中，第一特征提取单元201用于对输入图像进行特征提取，得到N个通道的特征图，第二特征提取单元202用于对调整了K次大小的输入图像进行特征提取，分别得到N个通道的特征图；第一连接单元203用于将来自第一特征提取单元201的N个通道的特征图与来自第二特征提取单元202的K×N个通道的特征图进行连接并输出。

通常，当使用卷积神经网络从图像中提取特征图时，在较深层展示了全局和高级信息，而在较浅层呈现了局部和精细信息，例如边缘。因此，本申请实施例使用上述第一特征提取单元201从原始输入图像中得到全局和高级信息，并且，使用上述第二特征提取单元202从调整了尺寸的输入图像中得到细节的特征。该第一特征提取单元201可以是一个多层网络，例如四层网络，该第二特征提取单元202可以是一个卷积层网络，下面分别进行说明。

在本申请实施例中，第一特征提取单元201可以包括多个inception单元，每个inception单元依次连接，并对上述输入图像或者来自上一个inception单元的特征图进行特征提取，得到该输入图像的上述全局信息和高级信息。关于inception单元的工作原理，可以参考现有技术，例如，Christian Szegedy,Wei Liu,Yangqing Jia,Pierre Sermanet,Scott Reed,Dragomir Anguelov,Dumitru Erhan,Vincent Vanhoucke,and AndrewRabinovich.Going deeper with convolutions.In Proceedings of the IEEEconference on computer vision and pattern recognition,pages 1–9,2015，此处不再赘述。

图3是本申请实施例的inception单元的一个实施例的网络结构示意图，如图3所示，在该实施例中，该inception单元包括三个卷积层(称为第三特征提取单元)301、一个池化层(称为池化单元)302、一个连接层(称为第二连接单元)303、以及一个卷积层(称为第四特征提取单元)304。这三个卷积层303使用不同的卷积核(3×3，5×5，7×7)和相同的通道数(N)对上述输入图像或者来自上一个inception单元的特征图进行特征提取，分别得到N个通道的特征图；池化层302对上述输入图像或者来自上一个inception单元的特征图进行降维处理，也得到N个通道的特征图；连接层303将来自上述三个卷积层301的N个通道的特征图与来自上述池化层302的N个通道的特征图连接，得到4N个通道的特征图；卷积层304再对来自连接层303的特征图进行降维处理，得到N个通道的特征图。在本申请实施例中，以该池化层302采用最大池化方法为例，本申请实施例对此不作限制，关于该池化层的工作原理可以参考现有技术，此处不再赘述。

本申请实施例的inception单元，使用多尺度特征，可以显著地帮助重构图像。并且，本申请实施例的inception单元通过使用不同的内核来利用多尺度特征，由此可以从原始输入图像得到更多的特征。并且，本申请实施例为不同内核的卷积层301使用相同的通道数，并将其结果连接，使用一个内核为1×1的卷积层304来决定哪个更重要，由此得到当前层的输出。

图3所示的inception单元的网络结构只是举例说明，本申请实施例不限于此。

在本申请实施例中，第二特征提取单元202可以包括尺寸调整单元和特征提取单元(称为第五特征提取单元)，该尺寸调整单元对输入图像进行尺寸调整，该第五特征提取单元对调整了尺寸的输入图像进行特征提取，得到N个通道的特征图。

在本申请实施例中，尺寸调整单元和第五特征提取单元可以为一组或多组，也即，以一个尺寸调整单元和一个第五特征提取单元为一组特征提取模块，第二特征提取单元202可以包括一组或多组特征提取模块，不同组的尺寸调整单元采用不同的比例对输入图像进行尺寸调整，并且，不同组的第五特征提取单元采用不同的卷积核(内核)对调整了尺寸的输入图像进行特征提取。该第二特征提取单元202构成了一个卷积层网络。

图4是第二特征提取单元202的一个实施例的网络结构示意图，如图4所示，该第二特征提取单元202包括三个尺寸调整单元401和三个卷积层402，也即包括三组特征提取模块，其中，三个尺寸调整单元401，401’，401”分别对输入图像进行1/2，1/4，1/8的尺寸调整，由此对输入图像进行了三次调整，即K＝3，其中H为输入图像的高，W为输入图像的宽；三个卷积层402，402’，402”作为第五特征提取单元采用不同的内核(9×9，5×5，3×3)对调整了尺寸的输入图像进行特征提取，得到N个通道的特征图输出到第一连接单元203。在本申请实施例中，由于三个尺寸调整单元401，401’，401”对输入图像进行尺寸调整的比例不同，三个卷积层402，402’，402”所降低的维度也不同，例如，对于1/2的输入图像，卷积层402进行降8维的处理，对于1/4的输入图像，卷积层402’进行降4维的处理，对于1/8的输入图像，卷积层402”进行降2维的处理，由此保证输入到第一连接单元203的特征图与第一特征提取单元201输入到第一连接单元203的特征图的维度相同。

在本申请实施例中，如图2所示，该图像编码装置101还可以包括：加权单元204和第六特征提取单元205，加权单元204用于对来自第一连接单元203的各个通道的特征图赋予权重；第六特征提取单元205用于对来自加权单元204的特征图进行降维处理，得到M个通道的特征图并输出。在本申请实施例中，使用加权单元204对各个通道的特征图赋予权重，可以保留有用的特征并抑制不太有用的特征，使用第六特征提取单元对输入的特征图进行降维处理，减少了计算量。

在本申请实施例中，对加权单元204的网络结构不作限制，现有技术中关于加权层的结构可以作为本申请实施例的加权单元204发挥作用。在本申请实施例中，第六特征提取单元205可以通过一个内核为1×1的卷积层来实现，本申请实施例不限于此。

图5是本申请实施例图像编码装置101的一个实施例的网络结构的示意图，如图5所示，该图像编码装置101的第一特征提取单元201通过四个inception单元来实现，构成了四层网络架构，从原始输入图像中提取全局信息和高级信息；该图像编码装置101的第二特征提取单元202具有三组特征提取模块，分别对原始输入图像进行尺寸调整后再进行特征提取，其具体网络结构已经在图4中做了说明，此处不再赘述；该图像编码装置101的第一连接单元203通过一个concat函数来实现；该图像编码装置101的加权单元204通过一个加权层来实现；该图像编码装置101的第六特征提取单元250通过一个1×1的卷积层来实现，在这个示例中，N＝192，M＝128。

图6是本申请实施例的图像解码装置103的示意图，如图6所示，本申请实施例的图像解码装置103包括：多尺度空洞卷积单元601、连接器602、以及解码器603。多尺度空洞卷积单元601用于对超级解码器111的输出进行特征提取，获得多尺度辅助信息；连接器602用于将来自算数解码器106的输入图像的潜在表示和来自多尺度空洞卷积单元601的多尺度辅助信息进行连接；解码器603对来自连接器602的输出进行解码，获得所述输入图像的重构图像。关于该超级解码器111和算数解码器106的网络结构及其实施方式与图1所示的超级解码器111和算数解码器106相同，可以参考现有技术，此处不再赘述。

在本申请实施例中，该多尺度空洞卷积单元602可以包括多个特征提取单元，该特征提取单元可以通过空洞卷积层来实现，例如通过三个空洞卷积层来实现，这三个卷积层可以使用不同的扩张率(也即不同扩张率的空洞卷积核)和相同的通道数对该超级解码器的输出进行特征提取，得到上述多尺度的辅助信息。

图7是该多尺度空洞卷积单元601的一个实施例的网络结构示意图，如图7所示，该多尺度空洞卷积单元601通过三个具有不同扩张率的3×3空洞卷积层来实现，扩张率分别是1，2，3，并且这三个卷积层的通道数都为N，由此可以获得多尺度的辅助信息。关于空洞卷积层的实施方式可以参考现有技术，不再重复说明。

在本申请实施例中，在超级解码器111之后添加多尺度空洞卷积单元601可以从超级网络(超级编码器和超级解码器)得到多尺度辅助信息，通过连接器602将这些信息与量化的潜在表示(算数解码器106的输出)连接，得到更多的特征反馈给解码器网络(解码器603)。

图8是本申请实施例的概率模型生成装置102的示意图，如图8所示，本申请实施例的概率模型生成装置102包括：多尺度空洞卷积单元801、上下文模型处理单元802、以及熵模型处理单元803。多尺度空洞卷积单元801用于对超级解码器111的输出进行特征提取，获得多尺度辅助信息；上下文模型处理单元802用于将来自量化器104的输入图像的潜在表示作为输入，获得基于内容的预测；熵模型处理单元803用于将上下文模型处理单元802的输出与多尺度空洞卷积单元801的输出进行处理，得到预测的概率模型，提供给算数编码器105和算数解码器106。关于算数编码器105和算数解码器106的网络结构和实施方式可以参考现有技术，此处不再赘述。

在本申请实施例中，对该多尺度空洞卷积单元801的网络结构不作限制，图7给出了一个示例，本申请实施例不限于此。

通过本申请实施例的图像压缩***，可以准确地提取图像的特征并获得更具竞争性的潜在表示。

实施例2

本申请实施例提供了一种图像编码装置，图2是本申请实施例的图像编码装置101的示意图，图3是本申请实施例的图像编码装置的第一特征提取单元201的一个inception单元的一个实施例的网络结构示意图，图4是本申请实施例的图像编码装置的第二特征提取单元202的一个实施例的网络结构的示意图，图5是本申请实施例的图像编码装置的一个实施例的网络结构示意图。由于在实施例1中，已经对该图像编码装置进行了详细说明，其内容被合并于此，此处不再赘述。

通过本申请实施例的图像编码装置，可以准确地提取图像的特征并获得更具竞争性的潜在表示。

实施例3

本申请实施例提供了一种图像解码装置，图6是本申请实施例的图像解码装置103的示意图，图7是该图像解码装置103的多尺度空洞卷积单元601的一个实施例的网络结构示意图。由于在实施例1中，已经对该图像解码装置进行了详细说明，其内容被合并于此，此处不再赘述。

通过本申请实施例的图像解码装置，可以获得更多的辅助信息来实现更准确地重建图像。

实施例4

本申请实施例提供了一种概率模型生成装置，图8是本申请实施例的概率模型生成装置的示意图，图7是该概率模型生成装置的多尺度空洞卷积单元801的一个实施例的网络结构示意图。由于在实施例1中，已经对该概率模型生成装置进行了详细说明，其内容被合并于此，此处不再赘述。

通过本申请实施例的概率模型生成装置，加入多尺度辅助信息后，可以更好的预测潜在表示的概率分布。

实施例5

本申请实施例提供了一种图像编码方法，由于该方法解决问题的原理与实施例2的装置类似，并且已经在实施例1中做了说明，其具体的实施可以参考实施例1和实施例2的装置的实施，内容相同之处不再重复说明。

图9是本申请实施例的图像编码方法的示意图，如图9所示，该图像编码方法包括：

901：使用多个inception单元对输入图像进行特征提取，得到N个通道的特征图；

902：使用多个卷积层分别对调整了大小的输入图像进行特征提取，分别得到N个通道的特征图；

903：将来自所述inception单元的N个通道的特征图与来自所述多个卷积层分别对应的N个通道的特征图连接并输出。

在本申请实施例中，图9的各个操作的实施可以参照实施例1中的图2的各个单元的实施，此处不再赘述。

在本申请实施例的操作901中，上述多个inception单元可以依次连接，并对所述输入图像或来自上一个inception单元的特征图进行特征提取，得到所述输入图像的全局信息和高级信息。

在一个实施例中，每个inception单元包括三个卷积层和一个池化层，这三个卷积层使用不同的卷积核和相同的通道数对所述输入图像或者来自上一个inception单元的特征图进行特征提取，分别得到N个通道的特征图；该池化层对所述输入图像或者来自上一个inception单元的特征图进行降维处理，得到N个通道的特征图。

在一些实施例中，每个inception单元还可以包括一个连接层和一个卷积层，该连接层将来自上述三个卷积层各自对应的N个通道的特征图与来自所述池化层的N个通道的特征图连接，得到4N个通道的特征图；该卷积层对来自所述连接层的特征图进行降维处理，得到N个通道的特征图。

在本申请实施例的操作902中，可以先对输入图像进行不同比例的尺寸调整，再通过多个卷积层对各个调整了尺寸的输入图像进行特征提取，其中，每个卷积层对应一个调整了尺寸的输入图像，由此，分别得到N个通道的特征图。

在一些实施例中，上述多个卷积层可以使用不同的卷积核以及相同的通道数，各个卷积层保证对调整了尺寸的输入图像所降的维度相同，便于连接。

在本申请实施例的操作903中，可以使用连接层或连接函数(cancat)对上述各特征提取单元的特征图进行连接。

在本申请实施例中，还可以对连接后的各个通道的特征图赋予权重，并对赋予权重后的特征图进行降维处理，得到M个通道的特征图输出，由此，可以减少待处理的像素数，节约计算量。

通过本申请实施例的图像编码方法，可以准确地提取图像的特征并获得更具竞争性的潜在表示。

实施例6

本申请实施例提供了一种图像解码方法，由于该方法解决问题的原理与实施例3的装置类似，并且已经在实施例1中做了说明，其具体的实施可以参考实施例1和实施例3的装置的实施，内容相同之处不再重复说明。

图10是本申请实施例的图像解码方法的示意图，如图10所示，该图像解码方法包括：

1001：使用多尺度空洞卷积单元对超级解码器的输出进行特征提取，获得多尺度辅助信息；

1002：使用连接器将来自算数解码器的输入图像的潜在表示和来自所述多尺度空洞卷积单元的多尺度辅助信息进行连接，以及

1003：使用解码器对来自所述连接器的输出进行解码，获得所述输入图像的重构图像。

在本申请实施例中，上述多尺度空洞卷积单元可以包括三个空洞卷积层，这三个卷积层可以使用不同的扩张率和相同的通道数对所述超级解码器的输出进行特征提取，得到所述多尺度的辅助信息。

在本申请实施例中，上述连接器可以是卷积神经网络中的连接层，对于其实施方式不再赘述。

通过本申请实施例的图像解码方法，可以获得更多的辅助信息来实现更准确地重建图像。

实施例7

本申请实施例提供了一种概率模型生成方法，由于该方法解决问题的原理与实施例4的装置类似，并且已经在实施例1中做了说明，其具体的实施可以参考实施例1和实施例4的装置的实施，内容相同之处不再重复说明。

图11是本申请实施例的概率模型生成方法的示意图，如图11所示，该概率模型生成方法包括：

1101：使用多尺度空洞卷积单元对所述超级解码器的输出进行特征提取，获得多尺度辅助信息；

1102：使用上下文模型将来自编码器的输入图像的潜在表示作为输入，获得基于内容的预测；以及

1103：使用熵模型将所述上下文模型的输出与所述多尺度空洞卷积单元的输出进行处理，得到预测的概率模型。

在本申请实施例中，上述上下文模型和上述熵模型可以是应用了卷积神经网络的图像压缩***中的上下文模型和熵模型，对于其实施方式不再赘述。

通过本申请实施例的概率模型生成方法，加入多尺度辅助信息后，可以更好的预测潜在表示的概率分布。

实施例8

本申请实施例提供一种图像处理设备，该图像处理设备包括如实施例1和2所述的图像编码装置或者包括实施例1和3所述的图像解码装置，或者包括实施例1和4所述的概率模型生成装置，或者同时包括上述图像编码装置、图像解码装置和概率模型生成装置。当同时包括图像解码装置和概率模型生成装置时，前述多尺度空洞卷积单元可以共用。

由于在实施例1-4中，已经对图像编码装置、概率模型生成装置、以及图像解码装置进行了详细说明，其内容被合并于此，此处不再赘述。

图12是本申请实施例的图像处理设备的示意图。如图12所示，图像处理设备1200可以包括：中央处理器(CPU)1201和存储器1202；存储器1202耦合到中央处理器1201。其中该存储器1202可存储各种数据；此外还存储信息处理的程序，并且在中央处理器1201的控制下执行该程序。

在一个实施例中，图像编码装置和/或概率模型的生成装置和/或图像解码装置的功能可以被集成到中央处理器1201中。其中，中央处理器1201可以被配置为实现如实施例5和/或6和/或7所述的方法。

在另一个实施例中，图像编码装置和/或概率模型的生成装置和/或图像解码装置可以与中央处理器1201分开配置，例如可以将图像编码装置和/或概率模型的生成装置和/或图像解码装置配置为与中央处理器1201连接的芯片，通过中央处理器1201的控制来实现图像编码装置和/或概率模型的生成装置和/或图像解码装置的功能。

此外，如图12所示，图像处理设备还可以包括：输入输出(I/O)设备1203和显示器1204等；其中，上述部件的功能与现有技术类似，此处不再赘述。值得注意的是，图像处理设备也并不是必须要包括图12中所示的所有部件；此外，图像处理设备还可以包括图12中没有示出的部件，可以参考现有技术。

本申请实施例提供一种计算机可读程序，其中当在图像处理设备中执行所述程序时，所述程序使得所述图像处理设备执行如实施例5和/或6和/或7所述的方法。

本申请实施例提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得图像处理设备执行如实施例5和/或6和/或7所述的方法。

本申请以上的装置和方法可以由硬件实现，也可以由硬件结合软件实现。本申请涉及这样的计算机可读程序，当该程序被逻辑部件所执行时，能够使该逻辑部件实现上文所述的装置或构成部件，或使该逻辑部件实现上文所述的各种方法或操作。本申请还涉及用于存储以上程序的存储介质，如硬盘、磁盘、光盘、DVD、flash存储器等。

结合本申请实施例描述的方法/装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如，图2,6,8中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于图9,10,11所示的各个操作。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中，也可以存储在可***移动终端的存储卡中。例如，若设备(如移动终端)采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对附图中描述的功能方框中的一个或多个和/或功能方框的一个或多个组合，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。针对附图描述的功能方框中的一个或多个和/或功能方框的一个或多个组合，还可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。

以上结合具体的实施方式对本申请进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本申请保护范围的限制。本领域技术人员可以根据本申请的精神和原理对本申请做出各种变型和修改，这些变型和修改也在本申请的范围内。

Claims

1.一种图像编码装置，其特征在于，所述装置包括：

2.根据权利要求1所述的图像编码装置，其特征在于，所述第一特征提取单元包括多个inception单元，每个inception单元依次连接，并对所述输入图像或来自上一个inception单元的特征图进行特征提取，得到所述输入图像的全局信息和高级信息。

3.根据权利要求2所述的图像编码装置，其特征在于，每个所述inception单元包括：

三个第三特征提取单元，所述三个第三特征提取单元使用不同的卷积核和相同的通道数对所述输入图像或者来自上一个inception单元的特征图进行特征提取，分别得到N个通道的特征图；

池化单元，其对所述输入图像或者来自上一个inception单元的特征图进行降维处理，得到N个通道的特征图；

第二连接单元，将来自上述三个第三特征提取单元的N个通道的特征图与来自所述池化单元的N个通道的特征图连接，得到4N个通道的特征图；以及

第四特征提取单元，其对来自所述第二连接单元的特征图进行降维处理，得到N个通道的特征图。

4.根据权利要求1所述的图像编码装置，其特征在于，所述第二特征提取单元包括：

尺寸调整单元，其对所述输入图像进行尺寸调整；以及

第五特征提取单元，其对调整了尺寸的输入图像进行特征提取，得到N个通道的特征图。

5.根据权利要求4所述的图像编码装置，其特征在于，所述尺寸调整单元和所述第五特征提取单元为一组或多组，不同组的尺寸调整单元采用不同的比例对所述输入图像进行尺寸调整，不同组的第五特征提取单元采用不同的卷积核对调整了尺寸的所述输入图像进行特征提取。

6.根据权利要求1所述的图像编码装置，其特征在于，所述图像编码装置还包括：

加权单元，其对来自所述第一连接单元的各个通道的特征图赋予权重；以及

第六特征提取单元，其对来自所述加权单元的特征图进行降维处理，得到M个通道的特征图并输出。

7.一种图像解码装置，其特征在于，所述图像解码装置包括：

8.根据权利要求7所述的装置，其特征在于，所述多尺度空洞卷积单元包括：

三个特征提取单元，所述三个特征提取单元使用不同扩张率的空洞卷积核和相同的通道数对所述超级解码器的输出进行特征提取，得到所述多尺度的辅助信息。

9.一种概率模型生成装置，所述装置包括：

熵模型处理单元，将所述上下文模型处理单元的输出与所述多尺度空洞卷积单元的输出进行处理，得到预测的概率模型。

10.根据权利要求9所述的装置，其特征在于，所述多尺度空洞卷积单元包括：