CN117916743A

CN117916743A - 用于图像和视频编码的神经网络中的多层级潜在融合

Info

Publication number: CN117916743A
Application number: CN202280057545.9A
Authority: CN
Inventors: A·莫哈南切蒂亚尔; J·N·辛加拉; P·夏尔马; N·科勒里; 尹鹏; A·阿罗拉; 浦方君; 吕陶然; S·T·麦卡锡; W·J·胡萨克
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2021-08-25
Filing date: 2022-08-03
Publication date: 2024-04-19

Abstract

描述了用于在图像和视频压缩中使用的多层级的端到端神经网络中潜在特征的融合的方法、***和比特流语法。基于图像特性(例如，自然图像对比屏幕内容图像)、或诸如比特率约束或率失真优化的其他编码参数，融合后架构可以是静态的或动态的。讨论了各种多层级融合架构。

Description

用于图像和视频编码的神经网络中的多层级潜在融合

相关申请的交叉引用

本申请要求以下申请的优先权益：2021年8月25日提交的印度临时专利申请第202141038587号、2021年10月19日提交的美国临时专利申请第63/257,388号、2021年11月22日提交的欧洲专利申请第21209479.1号、以及2021年12月14日提交的印度临时专利申请第202141058191号，这些申请均通过引用而并入此。

技术领域

本公开总体上涉及图像。更具体地，本发明的实施例涉及用于图像和视频编码的神经网络中的多层级潜在融合。

背景技术

2020年，国际标准化组织(ISO)的MPEG小组与国际电信联盟(ITU)联合发布了第一版通用视频编码标准(VVC)，也称为H.266。最近，该联合小组(JVET)和静态图像压缩(JPEG)专家开始致力于开发下一代编码标准，该标准将提供比现有图像和视频编码技术更高的编码性能。作为这项研究的一部分，还研究了基于人工智能和深度学习的编码技术。这里使用的术语“深度学习”指的是具有至少三层、优选多于三层的神经网络。

如发明人所理解的，本文描述了基于神经网络的用于图像和视频编码的改进技术。

在本部分中描述的方法是可追寻的方法，但未必是以前构想或追寻的方法。因此，除非另外指示，否则，不应仅通过包含于本部分中而假定在本部分中描述的方法中的任一个为现有技术。类似地，除非另外指示，否则，关于一个或更多个方法识别的问题不应基于本部分而假定在任何现有技术中已被识别。

附图说明

在附图中以示例的方式而非限制的方式示出了本发明的实施例，其中相同的附图标记表示相似的元件，其中:

图1描绘了用于端到端图像和视频编码的示例神经网络模型；

图2描绘了根据本发明实施例的使用多层级潜在(MLL)融合进行图像和视频编码的示例神经网络处理模型；

图3A和3B描绘了根据本发明实施例的示例MLL融合神经网络的细节；

图4描绘了根据本发明实施例的具有动态融合的MLL融合架构的示例融合门；

图5描绘了根据本发明实施例的空间加权MLL融合架构的示例；

图6A和图6B描绘了具有潜在数据(latents)的多层传输的MLL融合架构的示例；

图6C描绘了使用单层卷积和sigmoid块的示例注意块(Attention block)；和

图7描绘了用于在视频编码中使用神经网络的示例框架。

具体实施方式

本文描述了涉及在图像和视频编码中使用的神经网络中的多层级潜在融合的示例实施例。在以下描述中，出于解释的目的，阐述了许多具体细节，以便提供对本发明各种实施例的全面理解。然而，显而易见的是，本发明的各种实施例也可在没有这些具体细节的情况下实施。在其他情况下，为了避免不必要地遮挡、模糊或混淆本发明的实施例，没有详尽描述公知的结构和设备。

概述

本文描述的示例实施例涉及使用神经网络的图像和视频编码。在一个实施例中，处理器接收要使用潜在特征被压缩的具有输入空间分辨率的输入图像。接下来，处理器:

使用多个连续层级的卷积网络来处理输入图像，以生成潜在数据的融合输出，其中对于多个卷积网络中的每个网络层级，其输出具有比其输入低的空间分辨率；

量化潜在数据的融合输出以生成量化后的融合潜在数据；和

将算术编码应用于量化后的融合潜在数据以生成编码的融合潜在数据，其中

生成潜在数据的融合输出还包括:

从多个连续层级的卷积网络中的两个或更多个卷积网络中选择潜在输出；以及

融合所选择的潜在输出以生成潜在数据的融合输出。

在另一个实施例中，处理器接收要使用潜在特征被压缩的具有输入空间分辨率的输入图像。接下来，处理器:

使用多个连续层级的卷积网络处理输入图像，以生成潜在数据的一个或多个融合输出，其中对于多个卷积网络中的每个层级网络，其输出具有比其输入低的空间分辨率；

选择具有L1输出的潜在数据层级L1和具有L2输出的潜在数据层级L2，其中层级L2在层级L1之后；

通过提升(upscale)L2输出以匹配L1输出的空间分辨率来生成提升后的层级L2输出；

组合提升后的L2输出和L1输出以生成融合L1输出；

量化和编码融合L1输出以生成融合编码L1输出；以及

量化和编码L2输出以产生编码的L2输出。

示例性端到端视频编码模型

基于深度学习的图像和视频压缩方法越来越流行，这是一个活跃的研究领域。大多数流行的方法都是基于采用卷积神经网络(CNN)的变分自动编码器，这些卷积神经网络在训练数据集上被端到端地训练。图1描绘了使用四层架构对潜在特征进行编码和解码的方案(参考文献[1-2],[6])的处理流水线(100)的示例。

如本文所用，术语“潜在特征”或“潜在变量”表示如下的特征或变量，其不可直接观察到，但是可从其他可观察到的特征或变量推断出，例如通过对可直接观察到的变量而进行处理。在图像和视频编码中，术语“潜在空间”可以指被压缩数据的表示，其中相似的数据点靠得更近。在视频编码中，潜在特征的示例包括变换系数的表示、残差、运动表示、语法元素、模型信息等。在神经网络的背景下，潜在空间对于学习数据特征和找到用于分析的图像数据的更简单表示是有用的。

如图1所示，在编码器(100E)中，给定具有输入h×w分辨率的输入图像x(102)，输入图像由一系列卷积神经网络块(也称为卷积网络或卷积块)进行处理，每个卷积神经网络块之后是非线性激活函数(105、110、115、120)。在每个这样的层(其可以包括卷积网络和激活函数的多个子层)，其输出通常被减小(例如，减小2倍或更多，通常称为“步幅”，其中步幅＝1表示没有下采样，步幅＝2表示在每个方向上以因子2进行下采样，等等)。例如，使用步幅＝2，卷积-1网络(105)的输出将是h/2×w/2。最后一层(例如，120)生成输出潜在系数y(122)，该潜在系数在被发送到解码器(100D)之前被进一步量化(Q)和熵编码(例如，通过算术编码器AE)。超先验网络和空间上下文模型网络(未示出)也用于生成潜在数据(y)的概率模型。

在解码器(100D)中，过程相反。在算术解码(AD)之后，给定解码的潜在数据(124)，使用一系列去卷积层(125，130，135，140)来生成输出(142)，近似输入(102)，每个去卷积层组合了去卷积神经网络块和非线性激活函数。在解码器中，每个去卷积层的输出分辨率通常增大(例如，增大2倍或更多倍)，与编码器100E中相应卷积层级中的下采样因子匹配，使得输入和输出图像具有相同的分辨率。

在这种架构中，基于图1所示的每层中使用的下采样率和内核(kernel)大小，潜在数据的感受野面积增大。由于主潜在数据在最后一层深度(例如，120)被编码，它们通常基于层的数量(通常为4到6)、下采样率(通常为2)和每层中使用的内核大小(通常为3×3到5×5)而具有高的感受野大小。这种基于固定深度的神经网络主要是为编码自然图像而开发的，而对于不同的操作比特率，在高度多样化的图像/视频源集合(例如屏幕内容、自然内容、用户生成的内容、基于计算生成图像(CGI)的游戏和动画内容、混合内容等)中编码纹理、边缘和平滑区域的不同空间大小以及特性的潜在特征可能不是最佳的。例如，屏幕内容图像(SCI)在颜色结构和统计方面与自然图像有显著差异。与自然图像相比，SCI往往具有突然的颜色变化和均匀的颜色区域。此外，SCI通常包含可能具有不同大小(从极小到很大)的文本。因此，SCI的良好再现需要能够处理大不相同的空间尺度中的强度变化。所提出的实施例使得基于深度学习的图像和视频编解码器能够自适应地融合和编码不同层深度的潜在数据，这使得基于多层级感受野的潜在编码架构能够针对不同内容集实现最佳率失真编码性能。多层级感受野编码架构可以与传统的基于块的视频编解码器中的可变块大小编码松散相关，但是不需要变换或预测块的特定大小和结构的显式编码。

在自然图像的情况下，用于图像和视频编码的深度学***，但它们对于屏幕内容压缩尤其有益。对于SCIs，当前的深度学习方案明显落后于传统方法，而提出的方法产生了明显更好的结果。

所提出的架构的实施例受到在其中目标是改进跨尺度的对象检测和分类的对象检测和对象分类文献(参考文献[4])中引入的特征金字塔网络(FPN)的激励。传统的图像编码标准，诸如HEVC和VVC，使用若干特殊的技术来高效地压缩SCI图像。例如，HEVC标准采用了诸如块内复制、调色板编码、自适应颜色变换和自适应运动分辨率的特殊工具来处理SC视频(参考文献[5])。通过将那些想法中的一些以更直接的方式结合到基于CNN的编解码器中，可能会取得进一步的进展，但是在这一点上，这是一个正在进行的研究课题。

多层级潜在融合

在当前用于图像压缩的基于CNN的架构中(参考文献[1-2])，存在组织成多个层级(或层)的特征层次结构，并且存在从一个层级到下一个层级的输出下采样。这导致特征图的空间分辨率随着每个后续层级逐渐降低，而与此同时，卷积滤波器的感受野在增大。来自较高层级的特征往往语义更强，能够具有更大的表示能力和进行更大压缩，但由于空间分辨率降低，空间定位不太好。如图1所示，在当前的压缩方法中，要传输的潜在特征(例如122)是从网络的最高层级(例如120)获得的。潜在数据的有限空间分辨率和大感受野可能使当前的架构不特别适合于重建SCI中常见的小图像结构，如短边、文本字符等。在压缩和解压缩过程中，文本字符某些细微细节的丢失有时会降低其可读性。

另一方面，由于较低层级的特征的空间分辨率更高，因此它们的子采样次数更少，因此被更准确地定位。使用横向连接(也称为跳跃连接)融合多个层级的特征可以利用特征层次结构中不同层级的优势。尽管这种想法先前已经在文献中被证明有助于改进不同尺寸的对象的检测和分类(参考文献[4])，然而据我们所知，它在图像和视频压缩领域是新颖的，在屏幕内容图像压缩方面具有明显的优势。

图2描绘了所提出的多层级潜在融合架构的示例实施例，简称为MLL融合架构。与图1(100)相比，在编码器(200E)中，添加了新的潜在融合网络(205)。在解码器(200D)中，解码器CNN(210)正在使用适当数量的去卷积/非线性激活层，如解码器100D中所示。如前所述，输出212表示输入102的解码近似。潜在融合网络(205)可以采取多种形式，接下来检查示例实施例。

图3A和图3B描绘了MLL融合架构的示例，其中为了简单起见，未示出量化器(Q)、算术编码(AE)和算术解码(AD)块。在图3A中，存在一个融合阶段(fusion ladder)，将卷积网络4的输出与卷积层3的输出融合以生成潜在输出305。如果卷积层4的分辨率是卷积层3的一半，则上采样操作是2倍上采样。GDN代表广义除法归一化，IGDN代表逆GDN，实现局部除法归一化的非线性，这是一种已被证明在图像压缩中相当有效的变换类型(参考文献[1-2])。例如，GDN/IGDN函数作为Tensorflow压缩工具箱的一部分可得到(参考文献[11])。“Conv”块表示卷积网络(例如，m×n×C×K，S，其中m×n表示卷积内核，C表示正在处理的信道数量，K表示卷积内核的数量，以及S表示步幅)。例如，大小为3×3×1×2、S＝1的滤波器组由2个卷积内核组成，每个卷积内核在一个通道上操作，大小为3像素×3像素，步幅为1。“Deconv”块表示去卷积块。需要1×1卷积层来匹配要融合的特征层级之间的通道数量。如图3A所示，解码器网络包括Deconv和IGDN块，并且通过移除第一输入去卷积层(例如，Deconv-4)来修改解码器网络以生成输出322，输出322是输入302的解码近似。作为替代，可以保留额外的去卷积层(例如，De conv-4)，但是，由于在层3(比方说，以层4的分辨率的2倍)对潜在数据(305)进行编码，因此Deconv-4的步幅应该设置为1，从而不再进行上采样。

图3B类似于图3A的架构，但是融合了来自三个层级(层级2、3和4)的特征，以生成第二层级的潜在数据(315)。同样，在解码器中，两个最顶层级(Deconv-4和Deconv-3)被移除，并且给定解码后的潜在数据318，解码器生成近似输入302的输出325。

这些架构可以容易地扩展到具有四个以上层级的架构，并融合三个以上的层级。

动态MLL融合架构

在图3A和3B中，融合网络采用1×1卷积网络。在另一个实施例中，基于输入图像的特征，通过切换此卷积块内的卷积内核宽度，可以以图像自适应的方式单独控制每个特征层级的感受野大小。图4描述了被称为“动态门”的示例架构，其灵感来自参考文献[8]中的动态特征网络(FPN)用于高效的特征提取。如图4所示，基于单独的神经网络的门控逻辑(405)被用于自适应地选择处理卷积内核(例如，Conv 1、Conv 2、Conv 3等，其大小分别为1×1、3×3、5×5等)。在一个实施例中，甚至可以使用这种卷积网络的组合(例如，conv 1(1×1)+conv 2(3×3)+conv 3(5×5))。动态门允许编码器对正在压缩的图像具有额外的适应性，从而有可能提高压缩效率。例如，编码器可以基于输入是由自然图像组成还是由屏幕内容图像组成，或者根据训练神经网络(NN)405的一些其他标准来使用内核。门控逻辑(405)包括卷积层、全局平均池化层、两个或更多全连接层(FC1、FC2、…、FCn)，并终止于Softmax函数。卷积层和除了最后一层(例如FCn)之外的每个全连接层之后均是整流线性单元(ReLU)激活函数层(在图中用“+ReLU”表示)。

实验结果表明，在图像和视频编码中，特定的比特率约束或要求可能需要传输不同数量的层。作为示例，回到图2，低比特率要求可能需要添加新的卷积层级(例如卷积-5，未示出)并将其与卷积层4或另一层融合。这有助于减少要编码的潜在数据的数量(从而减少每像素的比特数)，同时有助于提高图像质量。因此，在一个实施例中，固定的潜在融合网络(205)可以由学习开关网络或门网络代替，该学习开关网络或门网络可以用于动态选择要融合的层。这可以被认为类似于传统编解码器中使用的块大小自适应的概念。此外，网络可以使其层架构适应输入图像/视频和在推断期间所需的比特率/质量，例如使用动态神经网络(参考文献[10])。因此，MLL架构可以直接应用于动态神经网络架构。在这种情况下，编码器可能需要发送附加的MLL融合元数据来通知解码器如何根据编码器的所选融合结构来调整解码卷积层(参见图3A和3B的解码器中的示例)。稍后将给出此类元数据的示例(参见表1-4)。

空间加权MLL融合架构

在另一个实施例中，不是使用简单的加法融合层，而是可以应用空间加权融合(参考文献[9])。图5描绘了这种实施例的示例。如图5所示，首先使用拼接(concatenation/级联)网络来拼接感兴趣的特征层级(505)。请注意，在层被拼接之前，需要对它们进行适当的上采样(520)，以便所有特征层都具有相同的空间分辨率(例如w×h)。虽然图5描绘了所有四个层要被拼接，但是可以选择仅拼接两个层或三个层(如图3A或3B等所示)。

可以使用单独的类似注意力的网络(515)来生成权重图。具体而言，网络515将经上采样的特征作为输入，并为每个特征产生一个空间权重图。例如，如果拼接N个层，每个层有C个通道，拼接器的输入将是N(C×h×w)，其输出将是NC×h×w。在块515中，在Conv1卷积层之后，将有C×h×w个输出。由于需要N个层的加权聚合，后续的一个或多个卷积层(Conv2、Conv 3等)将输出减少到N×h×w，其中为卷积层选择3×3内核大小提供了小空间感受野的灵活性，以提供更好的局部权重图。除了最后一层之外，每个卷积层都包括ReLU作为非线性激活函数(在图中用“+ReLU”表示)。Softmax块生成最终权重。

在块510中，然后使用具有空间变化权重的加权和来融合特征层级。这具有编码器能够在空间上适应被压缩的图像的额外优点。因此，编码器能够使用具有合适感受野大小的特征层级来区别对待平滑和快速变化的图像区域。解码器架构保持与图2类似(例如，参见图3A和3B)，这取决于有多少层级融合在一起。

具有多层级传输的MLL

图6A描绘了根据一个实施例的MLL架构的另一示例。在这种情况下，在多于一个的层级上或在低于最高可用层级的层级上(以最低空间分辨率)传输潜在数据。如图6A所示，在该示例中，非限制性地，在层级4和层级3这两者都传输了潜在数据。作为替代地，如表示可选路径的虚线所示，只有第3层的潜在数据可以被传输。为了减少需要发送的比特数，熵模型被修改以对以已经发送的层级为条件的后续潜在等级进行建模。用于融合两个层级的融合编码器网络块(605)可以是加法、拼接或组合潜在数据的某种其他方式。

在解码器中，对应的融合解码器网络(620)可以位于去卷积之前，以在后续去卷积层(例如130)之前反转融合编码器网络的操作。具体而言，融合解码器网络用于合并来自两个相邻输入(例如，来自AD-3和Deconv-4(125))的特征，这可以实现为简单拼接层或预测和残差融合块。在该示例中，来自较高层级去卷积块(125)的特征被用于预测，并与从当前层级算术解码器(AD-3)接收的残差特征组合。解码器中的后续处理与之前类似。

图6B描绘了图6A的样本变体，其中在层级4和层级3传输潜在数据，通过基于2层深度去卷积的预测器网络(630)使用被提升的层级4潜在数据来预测层级3潜在数据，其中两个去卷积网络由逆广义除法归一化(IGDN)网络分隔开。针对层级3潜在数据传输层级3预测残差该实施例还利用了在NN处理中通常称为“注意块”(例如，块635)的多个函数，旨在比其他数据更好地增强某些数据。在图6B的实施例中，注意块还用于对层级4和层级3潜在数据进行空间加权，以进行适当的局部自适应。图6C中描绘了图6B中使用的注意块的示例，其使用卷积和sigmoid层。

在图6B中，解码路径使用类似的架构，其中在解码的层级3潜在数据与层级4潜在数据拼接之前，基于层级4潜在数据的预测值与解码的层级3潜在数据相加。

如参考文献[1]中，训练目标是最小化比特流的预期长度以及重建图像相对于原始图像的预期失真，从而产生率失真(R/D)优化问题:

R+λD,(1)

其中，λ是决定所期望的率失真(R/D)权衡的拉格朗日乘数。在一个实施例中，在该网络的训练期间，训练误差函数(例如，D)被修改为具有针对层级3潜在数据预测失真的可变比例因子的附加项，该失真通常被测量为层级3潜在数据预测器的均方误差，例如以确保所预测的层级3潜在数据的更高保真度。初始预测损失比例因子被设置为0.1，并逐渐减小到零，以实现传输层级4和层级3潜在数据所需的比特率的适当平衡。通过根据需要重复该提升、融合编码器网络、量化器和算术编码块，可以应用类似的架构来融合和传输两个以上的层。

注意:这种特定的架构需要解码器修改，因为潜在数据明确地在不同层级地编码并在解码器端进行融合，而早期的架构仅在比特流中编码了一个层级的潜在数据，并且不需要在解码器端进行融合。

针对视频编码的考虑事项

迄今为止，示例实施例集中于图像压缩；然而，同样的工具也适用于视频压缩。图7描绘了在视频编码流水线的各个阶段使用神经网络的示例框架，其中每个这样的网络替换一个或多个现有的传统编码工具。所提出的架构可以用于压缩帧内帧、残差(或帧间编码)帧，或者对运动矢量信息进行编码。在残差帧的情况下，通过调整熵模型以更好地匹配残留图像统计，可能存在进一步压缩效率的潜力。对于运动矢量(MV)编码器和解码器网络的情况，已经表明增加卷积层级的数量(例如，增加到8个层级)可以对于高比特率具有显著的增益，但是对于较低比特率具有相对较低的增益。因此，诸如文中提出的MLL融合架构可以对于较低比特率进一步提高增益或降低复杂度。例如，在许多情况下，不需要超过四个的层。

给定MLL融合网络，实验结果表明，对于不同的比特率或质量要求，为了优化性能，可能需要应用具有不同总层数或不同融合模型的神经网络。选择最佳神经网络架构的一种方法是在编码器处基于率失真优化(RDO)穷尽搜索所有选项，然后选择具有最佳RDO的神经网络架构。为了进一步受益于多MLL融合网络，可以将图像(或输入图片)划分为区块(patch)(例如128×128或256×256)。然后，对于每个区块，可以应用RDO来选择最佳网络。然后，作为高级语法(HLS)的一部分或作为补充增强信息(SEI)消息传递，可为每个区块用信号通知神经网络融合参数的最佳组合。这种基于区块的推断有利于并行化，尤其是高分辨率图像，如4k、8k或更高分辨率的图像。对于视频编码，还可以将基于区块的RDO框架应用于帧内/帧间/跳跃决策。结合MLL融合网络，应该能够构建在区块粒度支持多模式和多分辨率适应的网络。

根据实施例，下表非限制性地描述了用于MLL融合适应的这种高级语法的各种示例。该高级语法可以是位于层级结构的多个层级(例如，视频流层级、图片层级、切片层级、图块层级等)的比特流的一部分，或者作为单独的SEI消息传送。该语法提供了以下信息:a)划分成区块是均匀的还是不均匀的(例如，参见表1)。b)每个区块的MLL融合适应信息。注意:对于部分a)，作为替代地，也可以使用类似于HEVC或VVC中用于表示统一或非统一贴片的语法。

在第一示例(表2)中，首先用信号发送MLL融合适应数据的一般信息，然后，为每个区块发送启用标志以对于当前区块启用或禁用MLL融合。在第二示例中(表3)，对于每个区块，用信号通知更详细的MLL融合适应语法。第一示例比第二示例需要更少的比特，但是第二示例具有更大的灵活性。

表1:用于MML融合适应的区块相关语法的示例

MLL_adaptation_enabled_flag等于1指定对于解码图像启用MLL自适应。MLL_adaptation_enabled_flag等于0指定对于解码图像未启用MLL自适应。

uniform_patch_flag等于1指定区块列边界和区块行边界在图片上均匀分布。uniform_patch_flag等于1指定区块列边界和区块行边界被显式地信号通知。

patch_width_in_luma_samples指定解码图片的宽度，以亮度样本为单位。patch_width_in_luma_samples不应等于0，而是应为64的整数倍。num_patch_columns_minus1可以基于pic_width_in_luma_samples被得出。

patch_height_in_luma_samples指定解码图片的高度，以亮度样本为单位。patch_height_in_luma_samples不应等于0，而是应为64的整数倍。num_patch_rows_minus1可以基于pic_height_in_luma_samples被得出。

num_patch_columns_minus1加1指定当前图片的区块列的数量。当不存在时，如果uniform_patch_flag等于1，则该值如上所述地被推断。否则，该值被推断为0。

num_patch_rows_minus1加1指定当前图片的区块行的数量。当不存在时，如果uniform_patch_flag等于1，则该值如上所述地被推断。否则，该值被推断为0。

patch_column_width_minus1[i]加1指定第i区块列的宽度。

patch_row_height_minus1[i]加1指定第i区块行的高度。

表2:用于MLL融合适应的高级语法的第一示例

在表2中，首先用信号发送帧内和帧间MLL融合相关信息。(注意:如果MLL_adaptation_enabled_flag等于1，则intra_MLL_adaptation_enabled_flag||inter_MLL_adaptation_enable d_flag应等于1)。然后，对于每个区块，将发信号通知对于该区块是否启用了MLL。

intra_MLL_adaptation_enabled_flag等于1指定对于解码图片的帧内编码启用MLL自适应。intra_MLL_adaptation_enabled_flag等于0指定对于解码图片的帧内编码不启用MLL自适应。

intra_fusion_idc指定用于帧内MLL的融合方法。

注意：融合idc值的示例可以是：0表示如图3A/图3B中所示的MLL融合架构、1表示如图4所示的动态MLL融合架构、2表示如图5所示的空间加权MLL融合架构，等等。

intra_num_layers_minus1加1指定用于帧内MLL的层数。

inter_mv_fusion_idc指定用于帧间mv MLL的融合方法。

inter_mv_num_layers_minus1加1指定用于帧间运动矢量MLL融合网络的层数。

inter_residue_fusion_idc指定了用于残差间MLL网络的融合方法。

inter_residue_num_layers_minus1加1指定用于残差间MLL的层数。

patch_MLL_adaptation_enabled_flag[j][i]等于1指定对于第j区块行和第i区块列启用MLL自适应。patch_MLL_adaptation_enabled_flag[j][i]等于0指定对于第j区块行和第i区块列不启用MLL自适应。

patch_intra_MLL_adaptation_enabled_flag[j][i]被设定为等于(patch_MLL_adaptation_enabled_flag[j][i]&intra_MLL_adaptation_enabled_flag).

patch_inter_MLL_adaptation_enabled_flag[j][i]被设定为等于(patch_MLL_adaptation_enabled_flag[j][i]&inter_MLL_adaptation_enabled_flag).

在另一实施例中,没有用信号通知patch_MLL_adaptation_enabled_flag[j][i]，而是直接用信号通知patch_intra_MLL_adaptation_enabled_flag[j][i]、以及patch_inter_MLL_adaptation_enabled_flag[j][i]。

注意：假设对于每个区块，帧内MLL和帧间MLL都是允许的。如果只允许一种情况，则只需发信号通知该情况。同样的假设适用于下一个示例。

在另一个例子中，如表3所示，用信号通知各区块的所有MLL融合适应相关信息，以允许更大的灵活性。例如，表3中的语法允许将一些区块编码为帧内编码区块，将一些区块编码为帧间编码区块。

表3:MLL融合适应的高级语法的第二示例

为了简单起见，上面的语法支持只融合最高的两个层级。如果需要融合两个以上的层，则可以添加新的语法元素(例如，xxx_num_fusion_layers_minus2和xxx_fusion_layer_number[I]，其中“XXX”可以是“帧间”、“帧内”等)来标识哪些层被融合以及如何融合。例如，表4提供了使用多于两层的MLL融合适应进行帧内编码的这种语法的示例。

表4：具有多于两个的融合层的MLL融合适应的示例

intra_num_fusion_layers_minus2加2指定对于帧内MLL要融合的层数。

intra_fusion_layer_number[i]指定第i融合层的层数。

类似的语法可以应用于视频编码中使用的其他神经网络。注意，基于区块的算法可能在区块边界处产生边界伪影。可以添加去块滤波器或基于NN的环路滤波器来解决这些问题。

潜在可伸缩性(scalability)

实验结果表明，潜在能量(例如，在一个实施例中，被计算为量化潜在数据的均方值)集中于输出潜在通道的小子集中。对于基于MLL的架构来说尤其如此。错误！未找到参考源。示出了所收集数据的一个示例，其中在自然图像或屏幕图像上训练神经网络，使其与测试图像匹配。术语q1表示具有192个输出潜在通道的低比特率情况，而q7表示具有320个输出潜在通道的高比特率情况。例如，对于图3A中的MLL网络，对于q1情况，对于自然图像，192个通道中的20个通道包含99％以上的总能量，而对于屏幕内容图像，192个通道中的28个通道包含大部分潜在能量。对于相应的q7情况，对于自然图像，数量为320个通道中的83个，对于屏幕内容图像，数量为320个通道中的93个。该数据表明基于NN的图像编解码器可以适于能够实现复杂度可伸缩性和/或质量可伸缩性。

表5:包含大约99.8％的潜在能量的潜在通道的数量

复杂度可伸缩性允许解码器基于可用资源进行熵解码和重构，该可用资源受限于设备中的硬件或软件能力。为了支持复杂度可伸缩性，在一个实施例中，可以基于潜在通道的能量集中度对潜在通道进行重新排序。例如，在一个实施例中，最主要的潜在通道可以存储在基本层中，随后是用于次要潜在通道的细化层，以能够降低解码复杂度的渐进方式。重新排序可以被预先定义，因此不需要向解码器发送开销。例如，使用192个通道，可以将通道编号为0、1、...、191。那么可以明确指定编码通道顺序，例如0、3、20、...，等等。在解码器处，解码器可以基于其可用资源对频道进行解码。在另一实施例中，可以允许单独用信号通知通道顺序或将通道分组以节省比特率开销。

潜在数据的质量可伸缩性需要考虑带宽适应。比特流可被以如下方式打包，即用户或网络可能基于带宽要求丢弃潜在频道。为了能够实现这种能力，需要一些高级语法(HLS)，例如，类似于可伸缩HEVC中用于质量可伸缩性的语法(例如，参见HEVC/H.265规范的附录F)。更具体地说，对于NN编解码器，在一个实施例中，可以首先用信号通知比特流支持多少质量等级。然后，对于每个网络抽象层(NAL)单元，仅包含与相对质量等级相关的比特流。在另一个例子中，可以首先对通道重新排序，然后使用HLS，可以用信号通知每个质量等级中有多少通道。这允许用户或网络基于带宽要求从比特流中移除不相关的频道。应指出，这里讨论的复杂度可伸缩性和质量可伸缩性不限于基于MLL的架构，而是也适用于其他基于NN的编解码器。

参考文献

这里列出的每一篇参考文献都通过引用整体并入。

[1]D.Minnen，J.Balle’，and G.Toderici.“Joint autoregressive andhierarchical priors for learned image compression.”32^nd Conf.on NeuralInformation Processing Systems(NeurIPS 2018)，Montreal，Canada，2018.

[2]J.Balle’，D.Minnen，S.Singh，S.J.Hwang，and N.Johnston.“Variationalimage compression with a scale hyperprior.”In International Conference onLearning Representations(ICLR)，2018，also arXiv：1802.01436v2(2018).

[3]Z.Cheng，H.Sun，M.Takeuchi，and J.Katto.“Learned image compressionwith discretized Gaussian mixture likelihoods and attention modules.”InProceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR)”，pages 7939-7948，2020，also arXiv e-prints(2020)：arXiv-2001.01568v3，30 March 2020.

[4]T-Y Lin，P.Dollar，R.Girshick，K.He，B.Hariharan，and S.Belongie.“Feature pyramid networks for object detection”.In Proceedings of the IEEEconference on computer vision and pattern recognition，pages 2117-2125，2017.

[5]S.Liu，X.Xu，S.Lei，and K.Jou，“Overview of HEVC extensions on screencontent coding，”APSIPA Transactions on Signal and Information Processing，vol.4，p.e10，2015.

[6]G.Lu，W.Ouyang，D.Xu，X.Zhang，C.Cai，and Z.Gao，“DVC：An end-to-end deepvideo compression framework，”in 2019 IEEE/CVF Conference on Computer Visionand Pattern Recognition(CVPR)(pp.10998-11007).IEEE Computer Society，2019，alsoarXiv：1812.00101v3，7 April 2019.

[7]J.Duda，“Asymmetric numeral systems：entropy coding combining speedof Huffman coding with compression rate of arithmetic coding，”arXiv preprintarXiv：1311.2540v2，6 Jan.2014.

[8]M.Zhu，K.Han，C.Yu，and Y.Wang，“Dynamic Feature Pyramid Networks forObject Detection，”arXiv preprint arXiv：2012.00779(2020).

[9]C.Guo，B.Fan，Q.Zhang，S.Xiang，and C.Pan.“Augfpn：Improving multi-scale feature learning for object detection.”In Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition，pages 12595-12604，2020.

[10]Y.Han et al.，“Dynamic Neural Networks：a survey”，arXiv preprintarXiv：2102.04906(2021).

[11]Tensorflow compression toolbox https://github.com/tensorflow/compression

示例计算机***实现

本发明的实施例可以用计算机***、以电子电路和组件配置的***、诸如微控制器、现场可编程门阵列(FPGA)或另一可配置或可编程逻辑器件(PLD)的集成电路(IC)设备、离散时间或数字信号处理器(DSP)、专用IC(ASIC)、和/或包括一个或多个这样的***、设备或组件的装置来实现。计算机和/或IC可以执行、控制或运行与用于图像和视频编码的神经网络中的多层级潜在融合相关的指令，例如本文所述的那些。计算机和/或IC可以计算与本文描述的图像和视频编码的神经网络中的多层级潜在融合相关的多种参数或值中的任何一者。图像和视频实施例可以用硬件、软件、固件及其各种组合来实现。

本发明的某些实现包括执行软件指令的计算机处理器，所述软件指令使得处理器执行本发明的方法。例如，显示器、编码器、机顶盒、代码转换器等中的一个或多个处理器可以通过执行处理器可访问的程序存储器中的软件指令来实现如上所述的与用于图像和视频编码的神经网络中的多层级潜在融合相关的方法。本发明的实施例也可以以程序产品的形式提供。程序产品可以包括承载包括指令的计算机可读信号集的任何非暂时性的和有形的介质，所述指令在由数据处理器执行时使得数据处理器执行本发明的方法。根据本发明的程序产品可以是多种非暂时性的和有形的形式中的任何一种。程序产品可以包括例如物理介质，例如包括软盘、硬盘驱动器的磁性数据存储介质，包括CD ROMs、DVD的光学数据存储介质，包括ROM、闪存RAM等的电子数据存储介质。程序产品上的计算机可读信号可以可选地被压缩或加密。

在提及组件(例如软件模块、处理器、组装件、设备、电路等)时，除非另有说明，否则对该组件的引用(包括对“手段”的引用)应被解释为包括执行所述组件的功能的任何组件作为该组件的等同物(例如，功能等同)，包括在结构上不等同于执行本发明的所示示例实施例中的功能的所公开结构的组件。

等同、扩展、替代及其它

因此描述了涉及用于图像和视频编码的神经网络中的多层级潜在融合的示例实施例。在前述说明书中，已经参考可能随实施方式不同而变化的许多具体细节描述了本发明的实施例。因此，什么是本发明以及申请人打算作为本发明的唯一和排他的指示是本申请发布的一组权利要求，为发布这些权利要求的特定形式，包括任何后续的修正。在此为包含在这些权利要求中的术语明确提出的任何定义将决定权利要求中使用的这些术语的含义。因此，权利要求中没有明确记载的限制、元素、特性、特征、优点或属性不应以任何方式限制该权利要求的范围。因此，说明书和附图应被视为说明性的而非限制性的。

Claims

1.一种使用用于生成和处理潜在特征的神经网络来压缩和解压缩图像的方法，该方法包括:

接收要使用潜在特征被压缩的具有输入空间分辨率的输入图像，

量化潜在数据的融合输出以生成量化后的融合潜在数据；和

生成潜在数据的融合输出还包括:

在多个连续层级的卷积网络中从两个或更多个卷积网络中选择潜在输出；以及

融合所选择的潜在输出以生成潜在数据的融合输出。

2.根据权利要求1所述的方法，进一步包括:

接收编码的融合潜在数据；

对编码的融合潜在数据进行解码以生成解码的融合潜在数据；和

使用多个连续层级的去卷积网络来处理解码的融合潜在数据，以生成具有输入空间分辨率的输入图像的近似，其中对于多个去卷积网络中的每个网络层级，其输出具有比其输入更高的空间分辨率。

3.根据权利要求1或2所述的方法，其中给定所选择的具有L1输出的潜在数据层级L1和所选择的具有L2输出的潜在数据层级L2，其中层级L2在层级L1之后，融合所选择的潜在输出进一步包括：

通过提升L2输出以匹配L1输出的空间分辨率来生成提升后的层级L2输出；

基于提升后的L2输出和L1输出以生成潜在数据的融合输出。

4.根据权利要求3所述的方法，其中生成潜在数据的融合输出进一步包括:

用1×1卷积网络处理L1输出，并将1×1卷积网络的输出添加到提升后的L2输出中，以生成潜在数据的融合输出。

5.根据权利要求3所述的方法，其中生成潜在数据的融合输出进一步包括:

用k×k卷积网络处理L1输出，并将k×k卷积网络的输出添加到提升后的L2输出，以生成潜在数据的融合输出，其中k≥1是基于输入图像的一个或多个特性被选择的奇整数。

6.根据权利要求5所述的方法，其中，所述输入图像的特性包括自然图像、屏幕内容图像、HDR图像、虚拟现实图像、计算机生成的图像或从图像中提取的任何抽象特征图中的一者或多者。

7.根据权利要求3所述的方法，其中，生成潜在数据的融合输出还包括:

用两个或更多个单独的卷积网络处理L1输出，并将所述两个或更多个单独的卷积网络的输出与提升后的L2输出进行组合，以生成潜在数据的融合输出。

8.根据权利要求3-7中任一项所述的方法，进一步包括:

使用拼接网络来拼接提升后的L2输出和L1输出；

为每个待合并的潜在特征生成加权图；和

将加权图应用于拼接网络的输出，以生成融合输出潜在数据。

9.根据前述权利要求中任一项所述的方法，其中从两个或更多个卷积网络中选择潜在输出包括在多个连续层级的卷积网络的子集中从两个或更多个卷积网络选择潜在输出。

10.一种使用用于生成和处理潜在特征的神经网络来压缩和解压缩图像的方法，该方法包括：

组合提升后的L2输出和L1输出以生成融合L1输出；

量化和编码融合L1输出以生成融合编码L1输出；以及

量化和编码L2输出以产生编码的L2输出。

11.根据权利要求10所述的方法，进一步包括：

接收并解码编码的L2输出和融合编码L1输出，以生成解码的L2输入和解码的融合L1输入；

基于解码的L2输入和解码的融合L1输入提取未融合的L1输入；和

将未融合的L1输入应用于一个或多个后续去卷积网络，以生成具有输入空间分辨率的输入图像的近似，其中对于一个或多个去卷积网络中的每个网络层级，其输出具有比其输入更高的空间分辨率。

12.根据权利要求3-10中任一项所述的方法，其中基于优化一个或多个编码参数来动态地选择L1潜在数据层级和L2潜在数据层级。

13.根据权利要求12所述的方法，其中所述一个或多个编码参数包括目标编码比特率、率失真优化、解码器复杂度、或图像/视频特性中的一者或多者。

14.根据权利要求12或权利要求13所述的方法，还包括生成与融合所选择的潜在数据层级相关的元数据，其中所述元数据包括以下一项或多项：

指示层级的自适应融合是否被启用的第一标志；

用于所选择的层级的亮度样本中的斑块宽度和斑块高度值；

指示从多种融合格式中选择的融合格式的索引参数；

第一变量，指示在所选择的融合格式中使用的融合层级的总数；以及

一个或多个语法元素，指示是否为帧间编码、帧内编码或运动矢量编码启用融合。

15.一种使用用于生成和处理潜在特征的神经网络来压缩和解压缩图像的方法，该方法包括：

使用多个连续层级的卷积网络来处理输入图像，以生成一个或多个潜在数据输出，其中对于多个卷积网络中的每个网络层级，其输出具有比其输入低的空间分辨率；

基于层级L2输出生成量化L2输出；

基于预测神经网络(630)和量化L2输出生成预测层级L1输出；

从L1输出中减去预测L1输出，以生成残差L1潜在数据；

量化和编码残差L1潜在数据以产生编码的残差L1输出；和

对量化L2输出进行编码以生成编码L2输出。

16.根据权利要求15所述的方法，其中所述预测神经网络包括空间提升器和两层去卷积网络。

17.根据权利要求15所述的方法，进一步包括:

接收并解码编码L2输出以生成解码的L2输出；

接收和解码编码的残差L1输出以生成解码的残差L1输出；

基于解码器预测神经网络和解码的L2输出生成解码器预测的层级L1输出；

将解码器预测的层级L1输出添加到解码的残差L1输出，以生成解码的L1输出；

基于解码的L1输出和解码的L2输出生成拼接的L1输出；和

将拼接的L1输入应用于一个或多个后续去卷积网络，以生成具有输入空间分辨率的输入图像的近似，其中对于一个或多个去卷积网络中的每个网络层级，其输出具有比其输入更高的空间分辨率。

18.根据权利要求1所述的方法，其中生成潜在数据的融合输出还包括生成并传输与输出潜在数据相关的潜在可伸缩性元数据。

19.根据权利要求18所述的方法，其中所述潜在可伸缩性元数据包括复杂度可伸缩性参数和/或质量可伸缩性参数。

20.根据权利要求19所述的方法，其中，所述潜在可伸缩性元数据包括与量化潜在数据的能量内容相关的信息。

21.根据权利要求20所述的方法，其中在质量可伸缩性下，根据潜在信道的能量水平从高能量到低能量传输潜在信道。

22.根据权利要求2所述的方法，还包括接收所述编码的融合潜在数据的潜在可伸缩性元数据，并且基于所述潜在可伸缩性元数据和可伸缩性标准对所述编码的融合潜在数据进行解码。

23.根据权利要求21所述的方法，其中，所述可伸缩性标准包括复杂度可伸缩性，并且根据编码的融合潜在数据的能量水平从高能量到低能量对编码的融合潜在数据进行解码。

24.一种非暂时性计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令用于由一个或多个处理器执行以执行根据权利要求1-23中任一项所述的方法。

25.一种包括处理器并被配置成执行根据权利要求1-23中任一项所述的方法的装置。