CN114631101A

CN114631101A - 用于置换神经残差压缩的方法和装置

Info

Publication number: CN114631101A
Application number: CN202180006006.8A
Authority: CN
Inventors: 蒋薇; 王炜; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2020-07-15
Filing date: 2021-05-27
Publication date: 2022-06-14
Also published as: JP2023509826A; EP4028958A4; EP4028958A1; KR20220071973A; US11900640B2; US20220020182A1; KR102633549B1; WO2022015422A1

Abstract

一种置换神经残差压缩的方法，由至少一个处理器执行，并且包括：基于当前图像帧和先前已重建图像帧，估计运动矢量；基于估计的运动矢量和先前已重建图像帧，获得预测图像帧；以及从当前图像帧中减去所获得的预测图像帧，以获得置换残差。该方法进一步包括使用第一神经网络对所获得的置换残差进行编码，以获得已编码表示，以及对该已编码表示进行压缩。

Description

用于置换神经残差压缩的方法和装置

相关申请的交叉引用

本申请基于2020年7月15日提交的、申请号为63/052,242的美国临时专利申请和2021年4月21日提交的、申请号为17/236,108的美国专利申请，并要求它们的优先权，这两个申请的公开内容通过引用整体并入本申请中。

背景技术

诸如H.264/高级视频编解码(H.264/AVC)、高效视频编解码(HEVC)和通用视频编解码(VVC)的视频编解码标准，共享类似的(递归的)基于块的混合预测/变换框架，在该框架中，像帧内/帧间预测、整数变换和上下文自适应熵编解码的各个编解码工具，是集中进行手工设计，以优化总体效率。利用时空像素邻域进行预测信号构建，以获得对应残差，用于后续的变换、量化和熵编解码。

另一方面，深度神经网络(DNN)的本质是通过分析来自相邻像素的接收域的时空信息来提取不同级别的时空激励。探索高度非线性和非局部时空相关性的能力，为大大改进压缩质量提供了有希望的机会。

发明内容

根据实施例，一种置换神经残差压缩的方法，由至少一个处理器执行，并且包括：基于当前图像帧和先前已重建图像帧，估计运动矢量；基于估计的运动矢量和先前已重建图像帧，获得预测图像帧；以及从当前图像帧中减去所获得的预测图像帧，以获得置换残差。该方法进一步包括使用第一神经网络对所获得的置换残差进行编码，以获得已编码表示，以及对该已编码表示进行压缩。

根据实施例，一种用于置换神经残差压缩的装置包括：至少一个存储器，被配置为存储程序代码；以及至少一个处理器，被配置为读取程序代码并按该程序代码的指示进行操作，程序代码包括：估计代码，被配置为使至少一个处理器基于当前图像帧和先前已重建图像帧，估计运动矢量；第一获得代码，被配置为使至少一个处理器基于估计的运动矢量和先前已重建图像帧，获得预测图像帧；以及减法代码，被配置为使至少一个处理器从当前图像帧中减去所获得的预测图像帧，以获得置换残差。程序代码还包括：编码代码，被配置为使至少一个处理器使用第一神经网络对所获得的置换残差进行编码，以获得已编码表示；以及压缩代码，配置为使至少一个处理器对已编码表示进行解压缩。

根据实施例，一种非易失性计算机可读介质存储指令，该指令在由至少一个处理器执行以进行置换神经残差压缩时，使至少一个处理器基于当前图像帧和先前已重建图像帧，估计运动矢量，基于估计的运动矢量和先前已重建图像帧，获得预测图像帧，从当前图像帧中减去所获得的预测图像帧，以获得置换残差，使用第一神经网络对所获得的置换残差进行编码，以获得已编码表示，以及对已编码表示进行压缩。

附图说明

图1是根据实施例的其中可以实施本公开描述的方法、装置和***的环境示图。

图2是图1的一个或多个设备的示例组件的框图。

图3是根据实施例的在训练阶段用于置换神经残差压缩的训练装置的框图。

图4是根据实施例的在测试阶段用于置换神经残差压缩的测试装置的框图。

图5是根据实施例的置换神经残差压缩方法的流程图。

图6是根据实施例的置换神经残差压缩装置的框图。

图7是根据实施例的置换神经残差压缩方法的流程图。

图8是根据实施例的用于置换神经残差压缩的装置的框图。

具体实施方式

本公开涉及一种用于通过学习使用基于DNN的残差压缩的视频编解码框架中的置换残差，对输入视频进行压缩的方法和装置。通过在视觉上类似于原始残差但压缩得更好，使得所学习到的置换残差是原始残差的较优替代物。而且，本公开的方法和装置在控制基于DNN的残差压缩中的比特率方面具有灵活性。

视频压缩框架可以描述如下。输入视频x包括图像帧x₁，...，x_T。在第一运动估计步骤中，将图像帧划分为空间块(例如，8×8个正方形)，并且为每个块计算当前图像帧x_t与先前已重建图像帧

(

可以包括先前已重建图像帧的集合)之间的运动矢量m_t集合。然后，在第二运动补偿步骤中，通过基于运动矢量m_t复制先前已重建图像帧

的对应像素来获得预测图像帧

并且可以获得原始图像帧x_t与预测图像帧

之间的残差r_t：

在第三步骤中，在进行如离散余弦变换(DCT)的线性变换之后，对残差r_t进行量化。对r_t的DCT系数进行量化，以获得更好的量化性能。量化步骤提供经量化的值

通过熵编解码将运动矢量m_t和经量化的值

两者编码为码流，将其发送到解码器。

在解码器侧，首先通过具有反量化系数的逆离散余弦变换(IDCT)之类的逆变换，对经量化的值

进行反量化，以获得恢复的残差

然后，将恢复的残差

加回到预测图像帧

获得已重建图像帧

对残差r_t进行压缩的效率是视频压缩性能的一个因素。可以使用基于DNN的方法帮助残差压缩。例如，可以使用DNN学习高度非线性变换而不是线性变换，以提高量化效率。还可以通过端到端(E2E)DNN对残差进行编码，其中，在没有显式变换的情况下，直接学习经量化的表示。

图1是根据实施例的，可以实施本文所描述的方法、装置和***的环境100的示意图。

如图1所示，环境100可以包括用户设备110、平台120和网络130。环境100的设备可以通过有线连接、无线连接或有线和无线连接的组合进行互连。

用户设备110包括一个或多个设备，该一个或多个设备能够接收、生成、存储、处理和/或提供与平台120相关的信息。例如，用户设备110可以包括计算设备(例如，台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如，智能电话、无线电话等)、可穿戴设备(例如，智能眼镜或智能手表)或相似设备。在一些实施方式中，用户设备110可以从平台120接收信息和/或向平台120发送信息。

平台120包括如本文中其它地方所描述的一个或多个设备。在一些实施方式中，平台120可以包括云服务器或云服务器组。在一些实施方式中，平台120可以被设计成模块化，使得软件组件可以被换入或换出。这样，可以容易地和/或快速地重新配置平台120以具有不同的用途。

在一些实施方式中，如图所示，平台120可以被托管(hosted)在云计算环境122中。值得注意的是，虽然本文所述的实施方式将平台120描述为托管在云计算环境122中，但是在一些实施方式中，平台120不是基于云的(即，可以在云计算环境外部实现)或者可以是部分基于云的。

云计算环境122包括托管平台120的环境。云计算环境122可以提供计算、软件、数据访问、存储等服务，这些服务不需要终端用户(例如，用户设备110)了解托管平台120的***和/或设备的物理位置和配置。如图所示，云计算环境122可以包括一组计算资源124(统称为“计算资源(computing resources)124”并分别称为“计算资源(computing resource)124”)。

计算资源124包括一个或多个个人计算机、工作站计算机、服务器设备或其它类型的计算和/或通信设备。在一些实施方式中，计算资源124可以托管平台120。云资源可以包括在计算资源124中执行的计算实例、在计算资源124中提供的存储设备、由计算资源124提供的数据传输设备等。在一些实施方式中，计算资源124可以通过有线连接、无线连接或有线和无线连接的组合与其它计算资源124通信。

进一步如图1所示，计算资源124包括一组云资源，例如一个或多个应用程序(“APP”)124-1、一个或多个虚拟机(“VM”)124-2、虚拟化存储(“VS”)124-3、一个或多个管理程序(“HYP”)124-4等。

应用程序124-1包括一个或多个软件应用程序，其可以提供给用户设备110和/或平台120，或由用户设备110和/或平台120访问。应用程序124-1无需在用户设备110上安装和执行软件应用程序。例如，应用程序124-1可以包括与平台120相关的软件，和/或，能够通过云计算环境122提供的任何其它软件。在一些实施方式中，一个应用程序124-1可以通过虚拟机124-2向或从一个或多个其它应用程序124-1发送/接收信息。

虚拟机124-2包括机器(例如，计算机)的软件实现，该机器执行程序，类似于物理机。虚拟机124-2可以是***虚拟机，也可以是进程虚拟机，这取决于虚拟机124-2对任何真实机的使用和对应程度。***虚拟机可以提供完整***平台，其支持完整操作***(“OS”)的执行。进程虚拟机可以执行单个程序，并且可以支持单个进程。在一些实施方式中，虚拟机124-2可以代表用户(例如，用户设备110)执行，并且可以管理云计算环境122的基础架构，例如数据管理、同步或长期数据传输。

虚拟化存储124-3包括一个或多个存储***和/或一个或多个设备，该一个或多个设备在计算资源124的存储***或设备内使用虚拟化技术。在一些实施方式中，在存储***的上下文内，虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指逻辑存储从物理存储的抽象(或分离)，以便可以在不考虑物理存储或异构结构的情况下访问存储***。分离可以允许存储***的管理员灵活地管理终端用户的存储。文件虚拟化可以消除在文件级别存取的数据与物理存储文件的位置之间的依赖性。这可以优化存储使用、服务器整合和/或无中断文件迁移的性能。

管理程序(Hypervisor)124-4可以提供硬件虚拟化技术，其允许多个操作***(例如，“客户操作***”)在诸如计算资源124的主计算机上同时执行。管理程序124-4可以向客户操作***提供虚拟操作平台，并且可以管理客户操作***的执行。各种操作***的多个实例可以共享虚拟化硬件资源。

网络130包括一个或多个有线和/或无线网络。例如，网络130可以包括蜂窝网络(例如，第五代(fifth generation,5G)网络、长期演进(Long-Term Evolution,LTE)网络、第三代(third generation,3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PublicLand Mobile Network,PLMN)、局域网(Local Area Network,LAN)、广域网(Wide AreaNetwork,WAN)、城域网(Metropolitan Area Network,MAN)、电话网络(例如，公共交换电话网络(Public Switched Telephone Network,PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络等，和/或这些或其它类型的网络的组合。

图1所示的设备和网络的数量和排列被作为示例来提供。实际上，与图1所示的设备和/或网络相比，可以有更多的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或排列不同的设备和/或网络。此外，图1所示的两个或更多个设备可以在单个设备内实现，或者图1所示的单个设备可以实现为多个分布式设备。另外或可替代地，环境100的一组设备(例如，一个或多个设备)可以执行被描述为由环境100的另一组设备执行的一个或多个功能。

图2是图1中一个或多个设备的示例组件的框图。

设备200可以对应于用户设备110和/或平台120。如图2所示，设备200可以包括总线210、处理器220、存储器230、存储组件240、输入组件250、输出组件260和通信接口270。

总线210包括允许设备200的组件之间进行通信的组件。处理器220以硬件、固件或硬件和软件的组合来实现。处理器220是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理组件。在一些实施方式中，处理器220包括一个或多个能够被编程以执行功能的处理器。存储器230包括随机存取存储器(RAM)、只读存储器(ROM)和/或另一类型的动态或静态存储设备(例如，闪存、磁存储器和/或光存储器)，其存储供处理器220使用的信息和/或指令。

存储组件240存储与设备200的操作和使用相关的信息和/或软件。例如，存储组件240可以包括硬盘(例如，磁盘、光盘、磁光盘和/或固态盘)、光盘(CD)、数字通用盘(DVD)、软盘、盒式磁带、磁带和/或另一类型的非易失性计算机可读介质，以及相应的驱动器。

输入组件250包括允许设备200例如通过用户输入接收信息的组件，例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风。另外或可替代地，输入组件250可以包括用于感测信息的传感器(例如，全球定位***(GPS)组件、加速计、陀螺仪和/或致动器)。输出组件260包括提供来自设备200的输出信息的组件，例如，显示器、扬声器和/或一个或多个发光二极管(LED)。

通信接口270包括类似收发器的组件(例如，收发器和/或单独的接收器和发送器)，该组件使设备200能够例如通过有线连接、无线连接或有线和无线连接的组合与其它设备通信。通信接口270可以允许设备200从另一设备接收信息和/或向另一设备提供信息。例如，通信接口270可以包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。

设备200可以执行本文中所描述的一个或多个过程。设备200可以响应于处理器220执行由非易失性计算机可读介质(例如存储器230和/或存储组件240)存储的软件指令来执行这些过程。计算机可读介质在本文中被定义为非易失性存储器设备。存储器设备包括单个物理存储设备内的存储空间或分布在多个物理存储设备上的存储空间。

软件指令可以通过通信接口270从另一计算机可读介质或从另一设备读入存储器230和/或存储组件240。当被执行时，存储在存储器230和/或存储组件240中的软件指令可以使处理器220执行本文中所描述的一个或多个过程。另外或可替代地，可以使用硬件连线电路来代替软件指令或与软件指令结合以执行本文中所描述的一个或多个过程。因此，本文中所描述的实施方式不限于硬件电路和软件的任何特定组合。

图2所示的组件的数量和排列被作为示例来提供。实际上，与图2所示的组件相比，设备200可能包括更多的组件、更少的组件、不同的组件或排列不同的组件。另外或可替代地，设备200的一组组件(例如，一个或多个组件)可以执行被描述为由设备200的另一组组件执行的一个或多个功能。

现在将详细描述用于置换神经残差压缩的方法和装置。

该方法和装置可以提高基于DNN的残差压缩效率。对于具有由E2E DNN压缩的残差的每个图像帧，生成置换残差，置换残差可以提供比原始残差更好的压缩性能。

给定大小为(h，w，c)的残差r_t，其中，h，w，c分别是高度、宽度和通道数量，E2E残差压缩包括计算已压缩表示

从已压缩表示

中可以重建恢复的残差

失真损失函数D(r_t,

)用于测量重建误差(即，失真损失)，诸如均方误差(MSE)或峰值信噪比(PSNR)。速率损失函数R(

)用于测量已压缩表示

的比特消耗。使用折衷超参数λ来平衡联合速率-失真(R-D)损失L：

使用较大的折衷超参数λ进行训练，得到的压缩模型的失真较小但比特消耗较多，反之亦然。为了在实践中实现不同的比特率，E2E残差压缩方法可以训练多个模型实例，每个目标折衷超参数λ使用一个模型实例，并且在编码器和解码器侧存储所有这些模型实例。然而，本公开描述的实施例提供了灵活的比特率控制范围的能力，而无需对多个模型实例进行训练和存储。

图3和图4提供了根据实施例的编码器和解码器的整体工作流程。存在两个不同的阶段：训练阶段和测试阶段。

图3是根据实施例的在训练阶段用于置换神经残差压缩的训练装置300的框图。

如图3中所示，训练装置300包括运动估计组件305、运动补偿组件310、减法器315、训练DNN编码器320、训练编码器325、训练解码器330、训练DNN解码器335、加法器340、速率损失组件345、失真损失组件350和数据更新组件355。

训练阶段的目标是为每个图像帧x_t生成置换残差r_t′。给定当前图像帧x_t和先前已重建图像帧

运动估计组件305获得运动矢量m_t。先前已重建图像帧

可以包括图像帧集合。例如，当当前图像帧x_t是P帧时，所有先前已重建图像帧

在当前图像帧x_t之前。当当前图像帧x_t是B帧时，先前已重建图像帧

包含当前图像帧x_t之前和之后的图像帧。当当前帧x_t是低延迟B帧时，先前已重建图像帧

是在当前图像帧x_t之前。运动估计组件305可以使用一个或多个按块的运动估计器或基于DNN的光流估计器。

运动补偿组件310基于先前已重建图像帧

和运动矢量m_t，获得预测图像帧

在实施例中，一个DNN可以用于同时计算运动矢量m_t和预测图像帧

减法器315获得原始图像帧x_t与预测图像帧

之间的残差r_t：

使用残差r_t作为输入，训练DNN编码器320获得经DNN编码的表示，基于该经DNN编码的表示，训练编码器325获得已压缩表示

训练DNN编码器320和训练编码器325是E2EDNN编码器-解码器的编码器部分。

基于已压缩表示

训练解码器330获得解压缩表示，该解压缩表示用作训练DNN解码器335的输入，以获得恢复的残差

训练解码器330和训练DNN解码器335是E2E DNN编码器-解码器的解码器部分。

在本公开中，对E2E DNN编码器-解码器的网络结构没有任何限制，只要其可以使用梯度反向传播来学习即可。在实施例中，训练编码器325和训练解码器330使用可微分统计采样器来近似真实的量化和反量化效果。

加法器340将恢复的残差

加回到预测图像帧

以获得已重建图像帧

在训练阶段，首先对训练DNN编码器320和训练DNN解码器335进行初始化，即基于预定DNN编码器和预定DNN解码器，设置训练DNN编码器320和训练DNN解码器335的模型权重。

然后，进行重新训练/微调过程，以计算置换残差r_t′，使得等式(1)的总损失L(r_t′,

)(其中，置换残差r_t′用于替换残差r_t)可以得到优化或减少。

具体地，速率损失组件345使用预定速率损失估计器，获得速率损失R(

)。例如，熵估计方法可以用于估计速率损失R(

)。

失真损失组件350基于已重建图像帧

获得失真损失D(r_t，

)。

数据更新组件355获得总损失L(r_t′,

)的梯度，以通过反向传播更新置换残差r_t′。迭代该反向传播过程以继续更新置换残差r_t′，直到达到停止标准为止，诸如当优化收敛时，或当达到最大迭代次数时。

在实施例中，基于预训练数据集，对预定DNN编码器、预定DNN解码器和预定速率损失估计器的权重进行预训练，其中，对于每个训练图像帧

进行相同的过程，以计算残差

然后通过DNN编码、编码、解码和DNN解码对残差

进行相同的前向计算，以生成已压缩表示

和恢复的残差

然后，给定超参数λ^pre-train，获得预训练损失，预训练损失包括速率损失和失真损失L^pre-train(

)两者，类似于等式(1)，速率损失和失真损失的梯度用于通过迭代反向传播，更新预定DNN编码器、预定DNN解码器和预定速率损失估计器的权重。预训练数据集可以与对训练DNN编码器320和训练DNN解码器335进行训练所基于的数据集相同或不同。

图4是根据实施例的在测试阶段用于置换神经残差压缩的测试装置400的框图。

如图4中所示，测试装置400包括运动估计组件305、运动补偿组件310、减法器315、测试DNN编码器405、测试编码器410、测试解码器415、测试DNN解码器420和加法器340。

在编码器(即，测试DNN编码器405和测试编码器410)的测试阶段中，在学习置换残差r_t′之后，置换残差r_t′经过测试DNN编码器405的前向推导过程，以生成经DNN编码的表示，基于该经DNN编码的表示，测试编码器410获得最终的已压缩表示

然后，测试解码器415获得解压缩表示，该解压缩表示用作测试DNN解码器420的输入，以获得已重建残差

在实施例中，测试DNN编码器405和测试DNN解码器420分别与训练DNN编码器320和训练DNN解码器335相同，而测试编码器410和测试解码器415分别与训练编码器325和训练解码器330不同。如前所述，量化和反量化过程由训练编码器325和训练解码器330中的可微分统计采样器替换。在测试阶段，分别在测试编码器410和测试解码器415中进行真正的量化和反量化。在本公开中，对测试编码器410和测试解码器415所使用的量化方法和反量化方法没有限制。

在对已重建残差

进行重建之后，加法器340将已重建残差

加回到预测图像帧

以获得已重建图像帧

并且测试装置400继续处理下一个图像帧x_t+1。

运动矢量m_t和已压缩表示

两者可以发送到解码器。它们可以通过熵编解码进一步编码成码流。

在解码器(即，测试解码器415和测试DNN解码器420)的测试阶段中，在获得运动矢量m_t和已压缩表示

(例如，通过从已编码码流中解码出)之后，给定先前已重建图像帧

测试解码器415获得

的解压缩表示，测试DNN解码器420基于该解压缩表示，获得已重建残差

在解码器侧的运动补偿组件中，以与编码器侧的运动补偿组件310相同的方式，基于先前已重建图像帧

和运动矢量m_t，获得预测图像帧

然后，加法器340将已重建残差

加回到预测图像帧

以获得已重建图像帧

并且测试装置400继续处理下一图像帧

上述实施例提供了比特率控制和目标度量标准控制的灵活性。当已压缩表示

的目标比特率改变时，在无需对训练DNN编码器320、训练编码器325、训练解码器330、训练DNN解码器335、测试DNN编码器405、测试编码器410、测试解码器415和测试DNN解码器420进行重新训练/微调的情况下，仅改变图3中描述的编码过程的训练阶段中的超参数λ。类似地，为了获得对于已压缩表示

的不同目标度量标准(例如，PSNR或结构相似性(SSIM))最佳的已压缩残差，改变了在图3中描述的编码过程的训练阶段中获得失真损失的方式，而无需对训练DNN编码器320、训练编码器325、训练解码器330、训练DNN解码器335、测试DNN编码器405、测试编码器410、测试解码器415和测试DNN解码器420进行重新训练/微调。

图5是根据实施例的置换神经残差压缩的方法的流程图。

在一些实施方式中，图5的一个或多个处理框可由平台120执行。在一些实现中，图5的一个或多个处理框可由与平台120分离或包括平台120的另一设备或设备群组(诸如用户设备110)来执行。

如图5中所示，在操作510中，方法500包括基于当前图像帧和先前已重建图像帧，估计运动矢量。

在操作520中，方法500包括基于估计的运动矢量和先前已重建图像帧，获得预测图像帧。

在操作530中，方法500包括从当前图像帧中减去所获得的预测图像帧，以获得置换残差。

在操作540中，方法500包括使用第一神经网络对所获得的置换残差进行编码，以获得已编码表示。

在操作550中，方法500包括对已编码表示进行压缩。

所述估计运动矢量、获得预测图像帧、获得置换残差、获得已编码表示以及对已编码表示进行压缩可以由编码处理器执行。

虽然图5示出了方法500的示例框，但是在一些实施方式中，方法500可以包括图5中描绘的那些框之外的框、比其更少的框、与其不同的框或与其布置不同的框。附加地或可选地，方法500的框中的两个或更多个框可以并行地执行。

图6是根据实施例的置换神经残差压缩的方法的流程图。

在一些实现中，图6的一个或多个处理框可由平台120执行。在一些实施方式中，图6的一个或多个处理框可由与平台120分开或包括平台120的另一设备或设备群组(诸如用户设备110)来执行。

如图6所示，在操作610中，方法600包括对已压缩表示进行解压缩。

在操作620中，方法600包括使用第二神经网络对解压缩表示进行解码，以获得恢复的残差。

在操作630中，方法600包括将所获得的恢复的残差与所获得的预测图像帧相加，以获得已重建图像帧。

所述第一神经网络和第二神经网络可以通过以下操作进行训练：基于所获得的恢复的残差和所获得的置换残差，确定失真损失；基于已压缩表示，确定速率损失；基于所确定的失真损失、所确定的速率损失和超参数，确定速率失真损失的梯度；以及更新所获得的置换残差，以减小所确定的速率失真损失的梯度。

所述超参数可以基于所述已压缩表示的目标比特率来设置，而无需对第一神经网络和第二神经网络进行重新训练。

所述失真损失可以基于一个函数来确定，而无需对第一神经网络和第二神经网络进行重新训练，所述函数是基于已压缩表示的目标度量标准的类型而设置的。

所述对已压缩表示进行解压缩、对解压缩表示进行解码以及获得已重建图像帧可以由解码处理器执行。该方法可以进一步包括由解码处理器基于估计的运动矢量和先前已重建图像帧来获得预测图像帧。

虽然图6示出了方法600的示例框，但是在一些实施方式中，方法600可以包括图6中描绘的那些框之外的框、比其更少的框、与其不同的框或与其布置不同的框。附加地或可选地，方法600的框中的两个或更多个框可以并行地执行。

图7是根据实施例的用于置换神经残差压缩的装置700的框图。

如图7中所示，装置700包括估计代码710、第一获得代码720、减法代码730、编码代码740和压缩代码750。

估计代码710被配置为使至少一个处理器基于当前图像帧和先前已重建图像帧，估计运动矢量。

第一获得代码720被配置为使至少一个处理器基于估计的运动矢量和先前已重建图像帧，获得预测图像帧；

减法代码730被配置为使至少一个处理器从当前图像帧中减去所获得的预测图像帧，以获得置换残差；

编码代码740被配置为使至少一个处理器使用第一神经网络对所获得的置换残差进行编码，以获得已编码表示；以及

压缩代码750被配置为使至少一个处理器对已编码表示进行压缩。

所述估计代码、第一获得代码、减法代码、编码代码和压缩代码可以被配置为使编码处理器执行功能。

图8是根据实施例的用于置换神经残差压缩的装置800的框图。

如图8中所示，装置800包括解压缩代码810、解码代码820和加法代码830。

解压缩代码810被配置为使至少一个处理器对已压缩表示进行解压缩；

解码代码820被配置为使至少一个处理器使用第二神经网络对解压缩表示进行解码，以获得恢复的残差。

加法代码830被配置为使至少一个处理器将所获得的恢复的残差与所获得的预测图像帧相加，以获得已重建图像帧。

解压缩代码810、解码代码820和加法代码830可以被配置为使解码处理器执行功能。装置800可以进一步包括第二获得代码，其被配置为使解码处理器基于估计的运动矢量和先前已重建图像帧来获得预测图像帧。

与先前的视频压缩方法相比，上述实施例具有以下优点。这些实施例可以被视为可应用于任何E2E残差压缩DNN方法的通用模块。对于每个单独的图像帧，可以基于其损失的反馈，通过单独的重新训练/微调过程来优化其置换残差，这可以提高压缩性能。

此外，上述实施例可以实现灵活的比特率控制，而无需对E2E残差压缩模型进行重新训练/微调或使用多个模型。实施例还可以改变目标压缩度量标准而无需对E2E残差压缩模型进行重新训练/微调。

这些方法可以单独使用或以任何顺序组合使用。此外，方法(或实施例)、编码器和解码器中的每一者可由处理电路(例如，一个或多个处理器或一个或多个集成电路)来实现。在一个示例中，一个或多个处理器执行存储在非易失性计算机可读介质中的程序。

上述公开内容提供了说明和描述，但并不旨在穷举或将实现限制为所公开的精确形式。根据上述公开，修改和变化是可能的，或者可以从实现的实践中获得修改和变化。

如本文所使用的，术语部件旨在被广泛地解释为硬件、固件或硬件和软件的组合。

显然，本文描述的***和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些***和/或方法的实际专用控制硬件或软件代码不是对实现的限制。因此，本文在没有参考特定软件代码的情况下描述了***和/或方法的操作和行为—应当理解，软件和硬件可以被设计成基于本文的描述来实现***和/或方法。

即使在权利要求中列举和/或在说明书中公开了特征的组合，但这些组合并不旨在限制可能实现的公开。实际上，这些特征中的许多可以以未在权利要求中具体列举和/或在说明书中公开的方式组合起来。虽然下面列出的每个从属权利要求可以直接依赖于仅一个权利要求，但是可能的实现的公开包括与权利要求集中的所有其他权利要求结合的每个从属权利要求。

本文使用的元素、动作或指令不能被解释为关键的或必要的，除非明确地这样描述。而且，如本文所使用的，冠词“一”和“一个”旨在包括一个或多个项目，并且可与“一个或多个”互换使用。此外，如本文所使用的，术语“集合”旨在包括一个或多个项目(例如，相关项目、不相关项目、相关和不相关项目的组合等)，并且可与“一个或多个”互换使用。在仅意指一个项目的情况下，使用术语“一个”或类似的语言。而且，如在本文所使用的，术语“有(has)”、“有(have)”、“具有(having)”等旨在是开放式术语。此外，除非另有明确说明，否则短语“基于”旨在意为“至少部分地基于”。

Claims

1.一种置换神经残差压缩的方法，其特征在于，所述方法由至少一个处理器执行，并且所述方法包括：

基于当前图像帧和先前已重建图像帧，估计运动矢量；

基于估计的运动矢量和所述先前已重建图像帧，获得预测图像帧；

从所述当前图像帧中减去所获得的预测图像帧，以获得置换残差；

使用第一神经网络对所获得的置换残差进行编码，以获得已编码表示；以及

对所述已编码表示进行压缩。

2.根据权利要求1所述的方法，其特征在于，进一步包括：

对已压缩表示进行解压缩；

使用第二神经网络对解压缩表示进行解码，以获得恢复的残差；以及

将所获得的恢复的残差与所获得的预测图像帧相加，以获得已重建图像帧。

3.根据权利要求2所述的方法，其特征在于，所述第一神经网络和所述第二神经网络通过以下操作进行训练：

基于所获得的恢复的残差和所获得的置换残差，确定失真损失；

基于所述已压缩表示，确定速率损失；

基于所确定的失真损失、所确定的速率损失和超参数，确定速率失真损失的梯度；以及

更新所获得的置换残差，以减小所确定的速率失真损失的梯度。

4.根据权利要求3所述的方法，其特征在于，所述超参数是基于所述已压缩表示的目标比特率设置的，而无需对所述第一神经网络和所述第二神经网络进行重新训练。

5.根据权利要求3所述的方法，其特征在于，所述失真损失是基于一个函数确定的，而无需对所述第一神经网络和所述第二神经网络进行重新训练，所述函数是基于所述已压缩表示的目标度量标准的类型而设置的。

6.根据权利要求1所述的方法，其特征在于，所述估计运动矢量、所述获得预测图像帧、所述获得置换残差、所述获得已编码表示和所述对所述已编码表示进行压缩由编码处理器来执行。

7.根据权利要求6所述的方法，其特征在于，进一步包括：

由解码处理器对所述已压缩表示进行解压缩；

由所述解码处理器使用第二神经网络对所述解压缩表示进行解码，以获得恢复的残差；

由所述解码处理器基于所述估计的运动矢量和所述先前已重建图像帧，获得所述预测图像帧；以及

由所述解码处理器将所获得的恢复的残差与所获得的预测图像帧相加，以获得已重建图像帧。

8.一种用于置换神经残差压缩的装置，其特征在于，所述装置包括：

至少一个存储器，被配置为存储程序代码；以及

至少一个处理器，被配置为读取所述程序代码并按照所述程序代码的指示进行操作，所述程序代码包括：

估计代码，被配置为使所述至少一个处理器基于当前图像帧和先前已重建图像帧，估计运动矢量；

第一获得代码，被配置为使所述至少一个处理器基于估计的运动矢量和所述先前已重建图像帧，获得预测图像帧；

减法代码，被配置为使所述至少一个处理器从所述当前图像帧中减去所获得的预测图像帧，以获得置换残差；

编码代码，被配置为使所述至少一个处理器使用第一神经网络对所获得的置换残差进行编码，以获得已编码表示；以及

压缩代码，被配置为使所述至少一个处理器对所述已编码表示进行压缩。

9.根据权利要求8所述的装置，其特征在于，所述程序代码进一步包括：

解压缩代码，被配置为使所述至少一个处理器对已压缩表示进行解压缩；

解码代码，被配置为使所述至少一个处理器使用第二神经网络对解压缩表示进行解码，以获得恢复的残差；以及

加法代码，被配置为使所述至少一个处理器将所获得的恢复的残差与所获得的预测图像帧相加，以获得已重建图像帧。

10.根据权利要求9所述的装置，其特征在于，所述第一神经网络和所述第二神经网络通过以下操作进行训练：

基于所述已压缩表示，确定速率损失；

11.根据权利要求10所述的装置，其特征在于，所述超参数是基于所述已压缩表示的目标比特率设置的，而无需对所述第一神经网络和所述第二神经网络进行重新训练。

12.根据权利要求10所述的装置，其特征在于，所述失真损失是基于一个函数确定的，而无需对所述第一神经网络和所述第二神经网络进行重新训练，所述函数是基于所述已压缩表示的目标度量标准的类型而设置的。

13.根据权利要求8所述的装置，其特征在于，所述估计代码、所述第一获得代码、所述减法代码、所述编码代码和所述压缩代码被配置为使编码处理器执行功能。

14.根据权利要求13所述的装置，其特征在于，所述程序代码进一步包括：

解压缩代码，被配置为使解码处理器对所述已压缩表示进行解压缩；

解码代码，被配置为使所述解码处理器使用第二神经网络对所述解压缩表示进行解码，以获得恢复的残差；

第二获得代码，被配置为使所述解码处理器基于所述估计的运动矢量和所述先前已重建图像帧，获得所述预测图像帧；以及

加法代码，被配置为使所述解码处理器将所获得的恢复的残差与所获得的预测图像帧相加，以获得已重建图像帧。

15.一种存储指令的非易失性计算机可读介质，其特征在于，所述指令在由至少一个处理器执行以进行置换神经残差压缩时，使所述至少一个处理器进行以下操作：

基于当前图像帧和先前已重建图像帧，估计运动矢量；

对所述已编码表示进行压缩。

16.根据权利要求15所述的非易失性计算机可读介质，其特征在于，所述指令在由所述至少一个处理器执行时进一步使所述至少一个处理器：

对已压缩表示进行解压缩；

17.根据权利要求16所述的非易失性计算机可读介质，其特征在于，所述第一神经网络和所述第二神经网络通过以下操作进行训练：

基于所述已压缩表示，确定速率损失；

18.根据权利要求17所述的非易失性计算机可读介质，其特征在于，所述超参数是基于所述已压缩表示的目标比特率设置的，而无需对所述第一神经网络和所述第二神经网络进行重新训练。

19.根据权利要求17所述的非易失性计算机可读介质，其特征在于，所述失真损失是基于一个函数确定的，而无需对所述第一神经网络和所述第二神经网络进行重新训练，所述函数是基于所述已压缩表示的目标度量标准的类型而设置的。

20.根据权利要求15所述的非易失性计算机可读介质，其特征在于，所述指令在由编码处理器执行时，使所述编码处理器执行所述估计运动矢量、所述获得预测图像帧、所述获得置换残差、所述获得已编码表示以及所述对所述已编码表示进行压缩，以及

所述指令在由解码处理器执行时使所述解码处理器：

对所述已压缩表示进行解压缩；

使用第二神经网络对所述解压缩表示进行解码，以获得恢复的残差；

基于所述估计的运动矢量和所述先前已重建图像帧，获得所述预测图像帧；以及