CN114503576A

CN114503576A - 通过可变形卷积生成用于视频编解码的预测帧

Info

Publication number: CN114503576A
Application number: CN202180005733.2A
Authority: CN
Inventors: 蒋薇; 王炜; 丁鼎; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2020-07-15
Filing date: 2021-06-10
Publication date: 2022-05-13
Also published as: EP4032287A4; WO2022015435A1; KR20220070326A; US11689713B2; JP2023502535A; JP7345654B2; US20220021870A1; EP4032287A1

Abstract

一种在视频编解码设备处进行视频编解码的方法，包括：通过可变形卷积深度神经网络(DNN)执行可变形卷积，以基于一组一个或多个先前已重建参考帧，生成一个或多个第一特征图；基于一个或多个第一特征图，生成预测帧；以及基于预测帧，重建当前帧。在实施例中，可以基于特征提取DNN，生成对应于一个或多个先前已重建参考帧的一组一个或多个第二特征图。可以使用偏移生成DNN，分别生成对应于一个或多个第二特征图的一个或多个偏移图。

Description

通过可变形卷积生成用于视频编解码的预测帧

引用并入

本公开要求于2021年5月13日提交的、申请号为17/319,932的美国专利申请“通过可变形卷积生成用于视频编解码的预测帧(Predicted Frame Generation by DeformableConvolution for Video Coding)”的优先权，该申请要求于2020年7月15日提交的、申请号为63/052,231的美国临时申请“通过可变形卷积生成预测帧(Predicted FrameGeneration by Deformable Convolution)”的优先权。在先申请的公开内容通过引用整体并入本申请中。

技术领域

本公开描述了总体上涉及基于人工神经网络的视频编解码的实施例。

背景技术

本文中提供的背景技术描述是为了大体上呈现本公开的上下文。在此背景技术部分描述的程度上，当前署名的发明人的工作，以及在本公开提交时可能不具有作为现有技术的资格的描述的各方面，既不明确认为也不隐含认为是本申请的现有技术。

神经网络基于互连节点(也称为神经元)的集合，这些互连节点松散地模拟生物大脑中的神经元。神经元可以组织成多层。一层的神经元可以连接到其前一层的神经元和后一层的神经元。

两个神经元之间的连接，像生物大脑中的突触一样，可以将信号从一个神经元传递到另一个神经元。然后，接收信号的神经元对该信号进行处理，并且可以发信号通知其它连接的神经元。在一些示例中，为了找到神经元的输出，通过用从神经元的输入到神经元的连接的权重，对神经元的输入进行加权，并且对加权后的输入进行求和，生成加权和。可以将偏置加到该加权和上。进而，该加权和经过激活函数，产生输出。

发明内容

本公开的各方面提供了一种在视频编解码设备处进行视频编解码的方法。该方法可以包括：通过可变形卷积深度神经网络(DNN)执行可变形卷积，以基于一组一个或多个先前已重建参考帧，生成一个或多个第一特征图；基于该一个或多个第一特征图，生成预测帧；以及基于该预测帧，重建当前帧。

在实施例中，可以基于特征提取DNN，生成对应于一个或多个先前已重建参考帧的一组一个或多个第二特征图。可以使用偏移生成DNN，分别生成对应于一个或多个第二特征图的一个或多个偏移图。每个偏移图可以是基于偏移生成DNN的以下输入而生成：对应于正在生成的偏移图的第二特征图；以及对应于目标帧的第二特征图，所述目标帧是所述一个或多个先前已重建参考帧其中之一。所述一个或多个偏移图可以具有相同的目标帧。

在实施例中，当当前帧与一个或多个先前已重建参考帧是按显示顺序排列时，目标帧与当前帧相邻。在实施例中，当当前帧是P帧时，目标帧是一个或多个先前已重建参考帧的最后一帧。当当前帧是B帧时，目标帧是一个或多个先前已重建参考帧中按显示顺序在当前帧之前的帧中的最后一帧。

在实施例中，可以接收一个或多个第二特征图，作为可变形卷积DNN的输入。可以分别生成对应于一个或多个第二特征图的一个或多个第一特征图。在实施例中，可变形卷积DNN包括一个或多个可变形卷积层，每个可变形卷积层与一个可变形卷积内核相关联，并且在对应于每个第二特征图的一个或多个可变形卷积层其中之一层，基于相应的可变形卷积内核和相应的第二特征图的偏移图，执行可变形卷积。

在实施例中，可以基于一个或多个第一特征图和一个或多个先前已重建参考帧，使用帧重建DNN构建一个或多个已对准帧。可以基于一个或多个已对准帧使用帧合成DNN来生成预测帧。

在实施例中，该方法还可以包括：用四维(4D)张量作为输入，使用特征提取DNN生成4D特征张量，所述4D张量由所述一组一个或多个先前已重建参考帧形成。每个帧可以包括多个信道。在实施例中，可以接收4D特征张量作为可变形卷积DNN的输入。可以生成融合的已对准特征图。

在实施例中，可变形卷积DNN包括一个或多个3D可变形卷积层，每个3D可变形卷积层与一个3D可变形卷积内核和一个3D偏移图相关联，并且在一个或多个可变形卷积层其中之一层，基于相应的3D可变形卷积内核和相应的3D偏移图，执行3D可变形卷积。在实施例中，该方法还可以包括：用融合的已对准特征图作为帧重建DNN的输入，使用帧重建DNN生成预测帧。

本公开的各方面还提供了一种神经网络训练方法。该方法可以包括将一组参考帧输入到预测帧生成模块，以生成预测帧。预测帧生成模块可以包括具有待优化的参数的神经网络。该神经网络可以包括可变形卷积DNN。可以确定损失函数的损失。损失函数可以包括：指示基于预测帧与标定真实帧之间的差值而估计的比特率的压缩损失，以及指示预测帧相对于标定真实帧的质量的重建质量损失。可以基于损失函数的损失，执行反向传播，以更新预测帧生成模块中的神经网络的参数。

在实施例中，参考帧是基于时间下采样操作，从视频的帧序列中选择的，并且将该帧序列中未由下采样操作选择的帧用作标定真实帧。

在实施例中，损失函数还包括指示对准误差的对准损失。该训练方法还可以包括：使用预测帧生成模块中的特征提取深度神经网络(DNN)，分别生成对应于参考帧的第一特征图；使用预测帧生成模块中的可变形卷积DNN，分别生成对应于第一特征图的第二特征图；以及确定第二特征图其中之一与对应于目标帧的第一特征图之间的差值，其中，所述目标帧是输入到预测帧生成模块的参考帧其中之一。该差值是对准损失的一部分。在实施例中，当标定真实帧和参考帧是按显示顺序排列时，目标帧是与标定真实帧相邻的参考帧。

在实施例中，神经网络训练的方法还可以包括：生成标定真实帧与预测帧之间的残差信号；随后对残差信号执行残差编码和解码，以生成已重建残差信号；将标定真实帧与已重建残差信号进行组合，以生成已重建参考帧，以及将已重建参考帧包括在所述一组参考帧中。

本公开的各方面还提供了一种存储指令的非易失性计算机可读介质，所述指令在由处理器执行时使处理器执行所述视频编解码方法。

附图说明

从以下详细描述和附图中，所公开主题的其它特征、本质和各种优点将变得更加清楚，其中：

图1示出了根据本公开实施例的使用2D时间可变形卷积的预测帧生成过程(100)。

图2示出了根据本公开实施例的使用3D时间可变形卷积的另一预测帧生成过程(200)。

图3示出了根据本公开实施例的神经网络训练过程(300)。

图4示出了根据本公开实施例的视频编码器(400)。

图5示出了根据本公开实施例的视频解码器(500)。

图6示出了根据本公开实施例的视频编解码过程(600)。

图7示出了根据本公开实施例的神经网络训练过程(700)。

图8是根据实施例的计算机***(800)的示意图。

具体实施方式

I.时间可变形卷积

本公开提供了一种基于人工神经网络的视频编解码方法。例如，可以使用深度神经网络(DNN)中的可变形卷积生成预测帧。另外，可以在跨越一段时间的参考帧序列上执行可变形卷积。可以采集各帧中在时间上改变的特征，将这些特征与目标帧(用作对准基础)对准，随后将其合成为预测帧。因此，如本申请所公开的生成预测帧的技术可被命名为基于时间可变形卷积的预测帧生成技术。

本公开提供了各种实施例，包括基于二维(2D)可变形卷积或三维3D可变形卷积的实施例。通过联合考虑所生成的预测帧的质量和残差(预测帧与标定真实(ground truth)帧之间的差值)的可压缩性，时间可变形卷积可以有效地适应视频中经常出现的复杂的、长范围的运动(在时间域和时域上)，改进了压缩性能。术语“帧”和“图片”在本公开中可以互换使用。

II.基于手工设计的视频编解码和基于学习的视频编解码

诸如H.264/高级视频编解码(H.264/AVC)、高效视频编解码(HEVC)和通用视频编解码(VVC)的传统视频编解码标准，共享类似的基于块的混合预测/变换框架。例如，诸如帧内/帧间预测、整数变换和上下文自适应熵编解码的各个编解码工具，是集中进行手工设计，以优化整体效率。充分利用时空像素邻域进行预测信号构建，以获得对应残差，用于后续的变换、量化和熵编解码。另一方面，DNN的本质是通过分析来自相邻像素的接收域的时空信息来提取不同级别的时空激励(例如，对应于DNN中的不同层)。探索高度非线性和非局部时空相关性的能力，为大大改进压缩质量提供了有希望的机会。

在示例中，可以如下执行视频压缩框架的帧间预测过程。输入视频x包括多个图像帧(或图片)x₁，…，x_T。在第一运动估计步骤中，视频中的帧可以划分成空间块。每个块还可以例如基于树结构(例如，四叉树或二叉树)递归地划分成更小的块。可以针对每个块，计算当前帧x_t与一组先前已重建帧

之间的一组运动矢量m_t。请注意，下标t表示当前第t个编码周期，其可能与图像帧的时间戳不匹配。而且，

包含来自多个先前编码周期的帧。

在第二运动补偿步骤中，通过基于运动矢量m_t复制先前帧

的对应像素来获得预测帧

可以获得原始帧x_t与预测帧

之间的残差r_t：

在第三步骤中，对残差r_t进行量化(通常在变换(例如，DCT)之后，其中，对r_t的DCT系数进行量化，以获得更好的量化性能)。量化步骤给出经量化的

运动矢量m_t和经量化的

通过熵编解码，编码为码流。该码流可以发送到解码器。

在解码器侧，首先对经量化的

进行反量化(通常是通过到经反量化系数的逆变换(例如，逆DCT))，以获得恢复的残差

然后将

加回到

以获得重建的

运动估计是上述视频压缩过程中的一个关键部分。传统的基于块的运动矢量m_t对于非平移运动效果不好，会产生无效的预测帧

和很大程度上损害压缩效率的残差r_t。为了解决这个问题，可以采用各种基于学习的技术。例如，可以使用基于学习的光流方法来提供像素级的精确运动信息。然而，光流方法易于出错，尤其是沿着运动对象的边界。在CVPR(计算机视觉与模式识别)，2020，R.Yang、F.Mentzer、L.Van Gool和R.Timofte的著作“学习具有分层级质量和循环增强的视频压缩(Learning for video compression withhierarchical quality and recurrent enhancement)”中，描述了光流方法的示例，该著作以引入方式并入本申请中。

在没有显式运动估计的情况下，可采用帧插值方法，基于先前已重建的

直接计算附加的合成帧

以帮助生成更有效的残差。然而，这些先前已重建帧是基于空间同位面片(patch)来插值的，这不能处理中型到大型的运动，这限制了这些方法的有效性。在IEEE Trans.CSVT(IEEE视频技术电路和***交易)，2019，H.Choi、I.Bajic的著作“用于视频编解码的深度帧预测(Deep Frame Prediction for Video Coding)”中描述了帧插值方法的示例，该著作以引用方式并入本文。

III.通过时间可变形卷积的预测帧生成

在各种实施例中，可以基于先前已重建参考帧

生成潜在的高质量合成预测帧

因此，可以基于预测帧

生成高度可压缩的残差帧r_t。可以使用端到端训练的或可学习的DNN(E2E DNN)，计算预测帧

在不同的实施例中，可以采用2D时间可变形卷积或3D时间可变形卷积来处理复杂的、长范围的运动，以生成高质量的预测帧

基于时间可变形卷积的编解码方法可以灵活地支持不同的目标，包括压缩效率和视觉质量，而没有明显的易错运动估计或图像扭曲。

1.使用2D可变形卷积的预测帧生成

图1示出了根据本公开实施例的使用2D时间可变形卷积的预测帧生成过程(100)。过程(100)可以发生在视频编解码***(例如，编码器或解码器)中的预测帧生成模块(150)。预测帧生成模块(150)可以基于E2E DNN。在图1所示的特定示例中，E2E DNN可以包括特征提取DNN(111)、偏移生成DNN(112)、可变形卷积DNN(113)、帧重建DNN(114)和帧合成DNN(115)。

通过执行过程(100)，预测帧生成模块(150)可以用一组n个先前已重建帧

作为输入，生成潜在的高质量预测帧

例如，可以将先前已重建帧存储在视频编解码***中的参考图片缓冲器中。预测帧

可用于在编码器处对当前帧进行编码，或在解码器处对当前帧进行重建。当前帧，表示为x_t，是指当前正在处理(正在编码或正在重建)的帧。

该过程(100)可以包括在以下模块处执行的操作：特征提取模块(101)、偏移生成模块(102)、可变形卷积模块(103)、帧重建模块(104)和帧合成模块(105)。这些模块(101-105)采用相应的DNN(111-115)来执行图1示例中的相应操作。

如图1所示，特征提取模块(101)使用参考帧

中的每个帧

作为输入，通过使用特征提取DNN(111)，经过前向推导来计算特征图

参考帧

中的帧

可用作

中所有其它帧将对准的参考(目标帧)。在一些实施例中，目标帧

可以是从

中选择的、用作对准基础的任何帧。在一些实施例中，目标帧

的选择可以取决于当前帧x_t的时序。

在一个示例中，为了确定目标帧

基于

中的参考帧的时间戳，对它们按强调顺序(accenting order)(例如，显示顺序)进行排序。当当前处理的是对P帧x_t进行编码时，所有这些先前已重建帧在x_t之前。目标帧

可以被设置为是

当当前处理的是对B帧进行编码时，参考帧

中的一些参考帧可以在B帧之前，而一些参考帧可以在B帧之后。相应地，参考帧

中与当前帧x_t相邻(在当前帧x_t之前或之后)的帧可以被选作目标帧。例如，先前已重建帧

在x_t之前，而剩余的帧

在x_t之后。因此，帧

用作目标帧。

当当前目标是对低延迟B帧进行编码时，可以将目标帧

设置为是最后一帧

所有这些先前已重建帧都在x_t之前。

偏移生成模块(102)基于已重建帧

和

或者基于提取的特征

和

计算每个特征图

的偏移图ΔP_j→i,t-1。在示例中，特征图

和

用作输入，经过偏移生成DNN(112)，生成偏移图ΔP_j→i,t-1。在示例中，特征图

和

可以在输入到偏移生成DNN(112)之前，先进行级联，以形成级联特征图。

可变形卷积模块(103)使用可变形卷积DNN(113)，基于相应的特征图

和相应的偏移图ΔP_j→i,t-1，计算已对准特征图

对应于每个提取的特征图

可以生成一个或多个已对准特征图

作为示例，令w_k(k＝1，…，K)表示2D可变形卷积内核的权重系数，令p_k表示内核中第k个位置的预定偏移，例如，定义3×3的内核，其中，K＝9，p_k∈{(-1,-1),(-1,0),···,(1,1)}。2D可变形卷积层基于输入特征f_in和可学习偏移图ΔP，计算输出特征f_out，其中，采样位置p₀处的特征由下式给出：

由于不规则位置p₀+p_k+Δp_k可能不是整数，因此可通过使用插值(例如，双线性插值)来进行此可变形卷积操作。

可变形卷积DNN(113)可以通过堆叠几个这样的可变形卷积层(每层之后紧跟诸如ReLU的非线性激活层)以及其它DNN层(例如瓶颈层)来形成。在示例中，各个可变形卷积层可以使用相同或不同的2D可变形卷积内核。在示例中，各个可变形卷积层可以使用相同的偏移图或不同的偏移图。

可变形卷积具有增强的处理空间域中的几何变换(例如，不同位置的不同缩放比例或变形)的能力。对于由各种类型的运动引起的帧序列，不同的缩放比例或变形可以发生在不同的时机。通过可变形卷积DNN(113)处的可变形卷积，可以将不同时机(经过不同的变形/缩放)的特征采集在所得到的特征图中。另外，将那些特征图与对应于目标帧(和当前帧)的目标时刻对准。然后，基于已对准特征图，可以构建预测帧。可以看出，时间可变形卷积可以处理帧序列中的运动，以生成对应于目标帧(和当前帧)的时刻的预测帧。

在对准误差计算模块(106)可以计算对准损失

以测量已对准特征图

与所提取的特征图

之间的错位误差。例如，可以将L₁范数(绝对值平均误差)或L₂范数(均方误差)用于

在训练过程中可以类似地计算这些对准损失，并且将其用作损失函数的一部分。

在示例中，使用已对准特征图

以及可选地使用提取的特征图

帧重建模块(104)使用帧重建DNN(114)，经过前馈推导计算，生成对应于每个已对准特征图

的已对准帧

然后，已对准帧

可以经过帧合成模块(105)，通过使用帧合成DNN(115)来生成合成的预测帧

在各种实施例中，可以有不同的方式根据已对准特征图

生成预测帧

在示例中，已对准帧

的数量可以小于n。在示例中，一个DNN可以替代帧重建DNN(114)和帧合成DNN(115)两者来操作，以根据已对准特征图

生成预测帧

在示例中，已对准特征图

可以首先被合成为一个或多个(少于n个)特征图，这些特征图随后用于生成预测帧

在一些实施例中，可以将偏移生成模块(102)和偏移生成DNN(112)从过程100或预测帧生成模块(150)中移除。相应地，不会显式地生成偏移图。在可变形卷积DNN(113)的每个2D可变形卷积层中使用的、每个像素位置处的偏移Δp_k可以视为是可训练的模型参数，其与(多个)2D可变形卷积内核一起可以在训练过程期间学习得到。

请注意，在本公开中，对特征提取DNN(111)、偏移生成DNN(112)、可变形卷积DNN(113)、帧重建DNN(114)或帧合成DNN(115)的特定网络结构(层的类型、层的数量、内核大小等)没有限制。例如，可以使用任何骨干网(例如，ResNet)作为特征提取DNN；一组规则卷积层和瓶颈层可以堆叠为偏移生成DNN；一组可变形卷积层可以堆叠为可变形卷积DNN；几个具有跳跃连接的卷积层可以堆叠在一起，作为帧重建DNN；并且几个残差块层可以堆叠在一起，作为帧合成DNN。

2.使用3D可变形卷积的预测帧生成

图2示出了根据本公开实施例的使用3D时间可变形卷积的另一预测帧生成过程(200)。过程(200)可以发生在视频编解码***(例如，编码器或解码器)中的预测帧生成模块(250)。预测帧生成模块(250)可以基于E2E DNN。在图2所示的特定示例中，E2E DNN可以包括特征提取DNN(211)、可变形卷积和特征融合DNN(212)以及帧重建DNN(213)。

通过执行过程(200)，预测帧生成模块(250)可以使用一组n个先前已重建帧

作为输入，生成(潜在高质量的)预测帧

用于对视频进行编解码。预测帧

可用于在编码器处对当前帧进行编码，或在解码器处对当前帧进行重建。

过程(200)可以包括在以下模块执行的操作：特征提取模块(201)、可变形卷积和特征融合模块(202)，以及帧重建模块(203)。这些模块(201-203)采用相应的DNN(211-213)来执行相应的操作。

在示例中，输入帧

可以堆叠在一起，形成大小为(n，c，h，w)的4维(4D)输入张量，其中，c是信道的数目(例如，对于彩色帧为3)，(h，w)给出了视频帧的分辨率(例如，高度和宽度)。如图2所示，特征提取模块(201)可以使用特征提取DNN(211)，经过前向推导来计算4D特征张量

可以采用具有各种结构的各种DNN来实现特征提取模块(201)。

在实施例中，为了计算特征图

以采集视频中的时空特征，特征提取DNN(211)使用在ICCV(国际计算机视觉大会)，2015，D.Tran等人的著作“使用3D卷积网络学习时空特征(Learning spatiotemporal features with 3dconvolutional networks)”中描述的3D卷积层(C3D)，该著作以引用方式整体并入本申请中。

在另一实施例中，可以单独地基于每个输入帧，使用类似于图1示例中描述的方法的2D卷积层来计算每个单独的特征图

并且之后将其级联成4D张量。在实施例的任何情况下，特征提取模块(201)的输出可以是4D特征张量。

为了执行3D时间可变形卷积，令w_k(k＝1，…，K)表示3D可变形卷积内核的权重系数，令p_k表示内核中第k个位置的预定偏移，例如，定义3×3×3的内核，其中，K＝27，p_k∈{(-1,-1,-1),(-1,-1,0),···,(1,1,1)}。3D可变形卷积层基于输入特征f_in和可学习偏移ΔP，计算输出特征f_out，其中，采样位置p₀处的特征由下式给出：

由于不规则位置p₀+p_k+Δp_k可能不是整数，因此可以通过使用3D空间中的插值(例如，双线性插值)来进行此可变形卷积操作。

如图2所示，可变形卷积和特征融合DNN(212)可以通过堆叠几个上述3D可变形卷积层(每层之后紧跟诸如ReLU的非线性激活层)以及其它DNN层(诸如瓶颈层)来形成。帧

可以是所有其它帧将要对准的参考。可变形卷积和特征融合模块(202)基于4D特征张量

使用可变形卷积和特征融合DNN(212)来计算融合的已对准特征图

然后，帧重建模块(203)基于融合的已对准特征图

使用帧重建DNN(213)来计算已重建预测帧

如图2所描述，与生成已对准特征图的图1示例相反，在图2的该流水线中不进行明确的空间对准。而是，3D可变形卷积直接学习时空偏移，以生成融合的已对准特征图

类似于图1的示例，对特征提取DNN(211)、可变形卷积和特征融合DNN(212)或帧重建DNN(213)上的特定网络结构(层的类型、层的数量、内核大小等)没有限制。

IV.通过时间可变形卷积的预测帧生成的训练过程

图3示出了根据本公开实施例的神经网络训练过程(300)。在训练过程(300)期间，可以优化和确定预测帧生成模块(301)中的神经网络的模型参数。例如，图1或图2示例中的预测帧生成模块(150)或(250)可以代替预测帧生成模块(301)放置，并使用训练过程(300)来训练。

在实施例中，在训练过程(300)的当前迭代期间，类似于图1和图2示例，预测帧生成模块(301)接收一组参考帧

并生成当前帧x_t的预测帧

预测帧生成模块(301)中的神经网络可以配置有在最后一次迭代结束时更新后的模型参数。在一些实施例中，为了训练的目的，可以在所述一组参考帧

的位置，使用下采样的视频序列中的原始帧，这将在后面描述。

在从预测帧生成模块(301)获得预测帧

之后，可以使用加法模块(311)如下获得原始帧(当前帧)x_t与预测帧

之间的残差r_t：

然后，压缩损失L_compress(r_t)可以由压缩损失计算模块(304)来计算，以测量残差r_t的潜在压缩率。例如，残差r_t的L₁范数(平均绝对误差)可用于提升残差的整体稀疏性，以获得更好的压缩。这里也可以使用更复杂的统计速率估计方法。

例如，可以估计残差r_t中的每个元素的熵。基于所估计的熵，可以相应地确定用于对残差r_t进行编解码的数个比特。因此，可以确定比特率(例如，每像素比特(BPP)或每秒比特(BPS))，并将其用作压缩损失L_compress(r_t)，用于对当前帧x_t进行编解码。在各种实施例中可以采用用于估计熵和速率损失的各种技术。在国际学习表征会议(ICLR)2017中，J.Balle等人的“端到端优化图像压缩(End-to-end Optimized Image Compression)”中描述了速率损失估计方法的示例。

重建质量损失

可以由重建质量损失计算模块(305)来计算，以测量重建的已对准预测帧

的质量。在示例中，可以相对于当前帧x_t来确定重建的已对准预测帧

的质量。

在实施例中，在训练过程(300)期间，对原始视频序列进行时间上的下采样，使得合成的已对准预测帧的标定真实帧是可用的。例如，可以将原始的T个帧x₁,x₂,…,x_T在时间上下采样为T/2个帧x₂,x₄,…,x_T。使用下采样序列，预测帧生成模块(301)可以计算对应于给定参考帧

的预测帧

对应于参考帧

的标定真实帧

是可用的。在示例中，不属于下采样帧x₂,x₄,…,x_T的帧可以用作标定真实帧

标定真实帧

可用作当前帧x_t。下采样帧x₂,x₄,…,x_T中，与标定真实帧

相邻的的帧可用作参考帧

然后，

与

之间的L₂范数(MSE)可用作

压缩损失L_compress(r_t)和质量损失

可以组合为：

另外，如图1所示，对于预测帧生成模块(301)使用2D可变形卷积的情况，还可以如下将所述一组对准损失

(作为由图1中的虚线标记的选项)加到上述联合损失中：

然后，可以经过反向传播模块(306)，计算和反向传播联合损失L_joint的梯度(等式4或等式5)，以更新预测帧生成模块(301)中的DNN模型参数(例如，权重系数、偏移等)。例如，模型参数可以是图1示例中的DNN(111-115)中的模型参数，或图2示例中的DNN(211-213)中的模型参数。

在实施例中，残差r_t由残差编码模块(302)进行编码，以生成压缩表示

基于

残差解码模块(3030计算已解码残差

该已解码残差

在加法模块(312)处加回到预测帧

以计算新的已重建帧

然后，在示例中，加上预测帧

和/或已重建帧

以对先前构建的帧集合

进行更新。例如，可以从该帧集合中去除远离当前帧的最早的帧。然后，***从t到t+1进入下一个编码周期(训练周期或迭代)。

V.使用通过时间可变形卷积的预测帧生成的编解码***

图4示出了根据本公开实施例的视频编码器(400)。视频编码器(400)可以包括预测帧生成模块(401)，其被配置为执行时间可变形卷积，以生成用于对当前帧x_t进行编码的预测帧

另外，视频编码器(400)可以进一步包括残差编码模块(402)、残差解码模块(403)、第一加法模块(411)和第二加法模块(412)。这些元件如图4所示耦接在一起。

给定一组n个先前已重建帧

(例如，存储在参考帧缓冲器中)作为输入，预测帧生成模块(401)可以通过使用图1中所示的框架(基于2D可变形卷积)或图2中所示的框架(基于3D可变形卷积)，生成预测帧

然后，可以使用第一加法模块(411)来计算原始帧x_t与预测帧

之间的残差r_t。残差r_t可以由残差编码模块(402)进行编码，以生成压缩表示

基于压缩表示

残差解码模块(403)计算已解码残差

在第二加法模块(412)处，将已解码残差

加回到预测帧

以计算新的已重建帧

压缩表示

(经过熵编解码之后)可以被发送到解码器侧，例如在码流中发送。然后，可以加上已重建的

和/或生成的预测帧

以对所述一组帧

进行更新。编码***(400)从t到t+1进入下一个编码周期。

图5示出了根据本公开实施例的视频解码器(500)。视频解码器(500)可以包括预测帧生成模块(501)，其被配置为执行时间可变形卷积，以生成用于重建当前帧x_t的预测帧

另外，视频编码器(500)可以进一步包括残差解码模块(502)和加法模块(511)。这些元件如图5所示耦接在一起。

如图5所示，在例如从视频编码器(400)生成的码流接收到压缩表示

之后，残差解码模块(502)计算已解码残差

给定一组先前已重建帧

预测帧生成模块(501)计算预测帧

然后，在加法模块(511)，将预测帧

和残差

相加在一起，以获得对应于当前帧x_t的已重建帧

可以加上已重建的

和/或生成的预测帧

以对所述一组参考帧

进行更新。解码***(500)从t到t+1进入下一个解码周期。

请注意，对视频编码器(400)或解码器(500)中的残差编码模块和残差解码模块所使用的编码方法和解码方法的类型没有限制。例如，可以在残差处理模块(402)、(403)和(502)中采用HEVC或VVC编解码标准中的残差信号处理方法或其它非标准化方法。

VI.基于通过时间可变形卷积的预测帧生成的视频编解码过程

图6示出了根据本公开实施例的视频编解码过程(600)。过程(600)可在视频编码器处或视频解码器处执行，以生成预测帧。过程(600)可以从(S601)开始并进行到(S610)。

在(S610)处，可通过可变形卷积DNN执行可变形卷积，以基于一组一个或多个先前已重建参考帧，生成一个或多个第一特征图。

例如，可以基于特征提取DNN，生成对应于一个或多个先前已重建参考帧的一组一个或多个第二特征图。可以使用偏移生成DNN，分别生成对应于一个或多个第二特征图的一个或多个偏移图。例如，可以基于偏移生成DNN的以下输入，生成每个偏移图：对应于正在生成的偏移图的第二特征图，以及对应于目标帧的第二特征图，所述目标帧是一个或多个先前已重建参考帧其中之一。所述一个或多个偏移图可以具有相同的目标帧。

在示例中，目标帧可以是所述一个或多个已重建参考帧中的任一帧。在示例中，当当前帧和一个或多个先前已重建参考帧按显示顺序排列时，目标帧与当前帧相邻。在示例中，当当前帧是P帧时，目标帧可以是一个或多个先前已重建参考帧的最后一帧。当当前帧是B帧时，目标帧可以是一个或多个先前已重建参考帧中按显示顺序在当前帧之前的帧中的最后一帧。

在示例中，可变形卷积DNN可以接收一个或多个第二特征图作为输入，并且分别生成对应于该一个或多个第二特征图的一个或多个第一特征图。例如，可变形卷积DNN可以包括一个或多个可变形卷积层，每个可变形卷积层与一个可变形卷积内核相关联。在对应于每个第二特征图的一个或多个可变形卷积层其中之一层，基于相应的可变形卷积内核和相应的第二特征图的偏移图，执行可变形卷积。

在(S620)处，可以基于一个或多个第一特征图，生成预测帧。例如，可以基于一个或多个第一特征图和一个或多个先前已重建参考帧，使用帧重建DNN，重建一个或多个已对准帧。可以基于一个或多个已对准帧，使用帧合成DNN生成预测帧。

在(S630)处，可以基于预测帧，重建当前帧。例如，在解码器侧，可将预测帧与已重建残差帧(或信号)进行组合，以生成已重建当前帧。然后，该已重建当前帧可用作参考帧，用于对下一当前帧进行解码。

在一些示例中，当前帧的重建可以是基于块的。例如，对于正在处理的当前块(从当前块中划分出来的)，可以从预测帧中划分出对应的预测块，并将其与当前块的残差信号进行组合，以重建当前块。

在编码器侧，可以在当前帧与预测帧之间生成残差信号。然后，可以将残差信号编码为压缩表示，并在码流中进行发送。然后，可以对该压缩表示进行解码，以生成已重建残差信号。然后可以将已重建信号与预测帧组合，以生成已重建当前帧。已重建当前帧可以用作参考帧，用于对下一当前帧进行编解码。该过程(600)可以进行到(S699)，可以在(S699)处结束。

图7示出了根据本公开实施例的神经网络训练过程(700)。过程(700)可以从(S701)开始，进行到(S710)。

在(S710)处，将一组参考帧输入到预测帧生成模块，以生成预测帧。预测帧生成模块可以包括具有待优化参数的神经网络。该神经网络可以包括可变形卷积深度神经网络(DNN)。在示例中，基于时间下采样操作，从视频的帧序列中选择参考帧。该帧序列中未由下采样操作选择的帧，用作标定真实帧。

在(S720)处，可以确定损失函数的损失。损失函数可以包括指示基于预测帧与标定真实帧之间的差值而估计的比特率的压缩损失，以及指示预测帧相对于标定真实帧的质量的重建质量损失。

在示例中，损失函数还可以进一步包括指示对准误差的对准损失。对准损失可以如下确定。可以使用预测帧生成模块中的特征提取DNN，分别生成对应于参考帧的第一特征图。可以使用预测帧生成模块中的可变形卷积DNN，分别生成对应于第一特征图的第二特征图。当标定真实帧和参考帧按照显示顺序排列时，确定第二特征图其中之一与对应于与该标定真实帧相邻的参考帧的第一特征图之间的差值。可以针对每个第二特征图确定相对于对应于该标定真实帧相邻的参考帧的第一特征图的差值。该差值可以包括在对准损失中。

在(S730)处，可以基于损失和损失函数，执行反向传播，以更新预测帧生成模块中的神经网络的参数。该过程(700)可以进行到(S799)并且在(S799)处结束。

VII.计算机***

本申请中所公开的技术(例如，各种实施例或示例中的功能、模块、元件、方法、过程、操作)可由处理电路(例如，一个或多个处理器或一个或多个集成电路)来实现。在一些示例中，所述技术可以被实现为使用计算机可读指令并且物理地存储在一个或多个计算机可读介质中的计算机软件。

所述计算机软件可使用任何合适的机器代码或计算机语言来编码，所述机器代码或计算机语言可经受汇编、编译、链接或类似机制以创建包括指令的代码，所述指令可直接或通过解译、微码执行等而由一个或多个计算机中央处理单元(CPU)、图形处理单元(GPU)等执行。

可在各种类型的计算机或计算机组件上执行所述指令，所述计算机或计算机组件包括例如个人计算机、平板电脑、服务器、智能电话、游戏装置、物联网装置等。

图8示出了适于实施所公开主题的一些实施例的计算机***(800)。图8中所示的用于计算机***(800)的组件在本质上是示范性的，并非旨在暗示关于实施本申请实施例的计算机软件的使用或功能的范围的任何限制。也不应将组件的配置解释为对计算机***(800)的示范性实施例中所示的组件中的任一个组件或组件组合有任何依赖或需求。

计算机***(800)可包括某些人机接口输入装置。此类人机接口输入装置可响应于一个或多个人类用户通过例如触觉输入(例如：按键、滑动、数据手套移动)、音频输入(例如：语音、拍击)、视觉输入(例如：手势)、嗅觉输入(未描绘)进行的输入。人机接口装置还可用于捕获未必与人的有意识输入直接相关的某些媒体，例如音频(例如：话语、音乐、环境声)、图像(例如：扫描图像、从静态图像相机获得的摄影图像)、视频(例如，二维视频、包括立体视频的三维视频)。

输入人机接口装置可包括以下一个或多个(每种仅描绘一个)：键盘(801)、鼠标(802)、轨迹垫(803)、触摸屏(810)、数据手套(未示出)、操纵杆(805)、麦克风(806)、扫描仪(807)、相机(808)。

计算机***(800)还可包括某些人机接口输出装置。此类人机接口输出装置可通过例如触觉输出、声音、光和气味/味道刺激一个或多个人类用户的感觉。此类人机接口输出装置可包括触觉输出装置(例如，触摸屏(810)、数据手套(未示出)或操纵杆(805)的触觉反馈，但还可存在不充当输入装置的触觉反馈装置)、音频输出装置(例如：扬声器(809)、头戴式耳机(未描绘))、视觉输出装置(例如，屏幕(810)，包括阴极射线管(CRT)屏幕、液晶显示(LCD)屏幕、等离子体屏幕、有机发光二极管(OLED)屏幕，各自具有或不具有触摸屏输入能力，各自具有或不具有触觉反馈能力--其中的一些能够通过例如立体平画输出的方式输出二维视觉输出或大于三维的输出；虚拟现实眼镜(未描绘)、全息显示器和烟雾箱(未描绘)，以及打印机(未描绘)。

计算机***(800)还可包括人类可访问的存储装置和存储装置的相关联介质，例如，光学介质，包括具有CD/DVD等介质(821)的CD/DVD ROM/RW(820)、拇指驱动器(822)、可移动硬盘驱动器或固态驱动器(823)、磁带和软盘(未描绘)等旧版磁性媒体、基于ROM/专用集成电路(ASIC)/可编程逻辑设备(PLD)的专用装置，例如，安全保护装置(未描绘)，等等。

所属领域的技术人员还应理解，结合当前公开的主题使用的术语“计算机可读介质”并未涵盖传输介质、载波或其它瞬时信号。

计算机***(800)还可包括到一个或多个通信网络(855)的接口(854)。所述一个或多个网络(855)可例如是无线的、有线的、光学的。所述一个或多个网络(855)还可以是本地的、广域的、城域的、车载和工业的、实时的、容忍延迟的等等。所述一个或多个网络(855)的实例包括例如以太网、无线LAN的局域网、包括全球移动通信***(GSM)、第三代(3G)、***(4G)、第五代(5G)、长期演进(LTE)等的蜂窝网络、包括有线TV、卫星TV和地面广播TV的TV有线或无线广域数字网络、包括控制器局域网总线(CANBus)的车载网络和工业网络等。某些网络通常需要附接到某些通用数据端口或***总线(849)(例如，计算机***(800)的通用串行总线(USB)端口)的外部网络接口适配器；其它网络通常通过附接到如下文所描述的***总线而集成到计算机***(800)的核心中(例如，通过以太网接口集成到PC计算机***中，或通过蜂窝网络接口集成到智能电话计算机***中)。通过使用这些网络中的任一网络，计算机***(800)可与其它实体通信。此类通信可以是仅单向接收(例如，广播TV)、仅单向发送(例如，连到某些CANBus装置的CANBus)或是双向的，例如，使用局域数字网络或广域数字网络连接到其它计算机***。可在如上文所描述的那些网络和网络接口中的每一个上使用某些协议和协议栈。

上述人机接口装置、人类可访问存储装置和网络接口可附接到计算机***(800)的核心(840)。

核心(840)可包括一个或多个中央处理单元(CPU)(841)、图形处理单元(GPU)(842)、现场可编程门区域(Field Programmable Gate Areas，FPGA)形式的专用可编程处理单元(843)、用于某些任务的硬件加速器(844)、图形适配器(850)等等。这些装置连同只读存储器(read-only memory，ROM)(845)、随机存取存储器(846)、例如内部非用户可访问的硬盘驱动器、固态驱动器(SSD)等内部大容量存储装置(847)可通过***总线(848)连接。在一些计算机***中，***总线(848)可通过一个或多个物理插头形式访问以实现通过额外CPU、GPU等来扩展。***装置可直接或通过***总线(849)附接到核心的***总线(848)。在示例中，屏幕(810)可连接到图形适配器(850)。用于***总线的架构包括***设备互连(PCI)、USB等等。

CPU(841)、GPU(842)、FPGA(843)和加速器(844)可执行某些指令，所述指令组合起来可构成上述计算机代码。计算机代码可存储在ROM(845)或RAM(846)中。过渡数据也可存储在RAM(846)中，而永久性数据可例如存储在内部大容量存储装置(847)中。可通过使用高速缓冲存储器来实现对任一存储器装置的快速存储和检索，所述高速缓冲存储器可与一个或多个CPU(841)、GPU(842)、大容量存储装置(847)、ROM(845)、RAM(846)等紧密关联。

计算机可读介质上可具有用于执行各种计算机实施的操作的计算机代码。所述介质和计算机代码可以是专为本申请的目的设计和构建的介质和计算机代码，或可属于计算机软件领域中的技术人员众所周知且可用的种类。

举例来说但不作为限制，具有架构(800)且尤其是核心(840)的计算机***可提供因处理器(包括CPU、GPU、FPGA、加速器等)执行以一个或多个有形计算机可读介质体现的软件而产生的功能。此类计算机可读介质可以是与上文所介绍的用户可访问大容量存储装置以及核心(840)的非暂时性质的某些存储装置(例如，核心内部大容量存储装置(847)或ROM(845))相关联的介质。实施本申请的各种实施例的软件可存储在此类装置中且由核心(840)执行。根据特定需求，计算机可读介质可包括一个或多个存储器装置或芯片。软件可使核心(840)且具体地说使其中的处理器(包括CPU、GPU、FPGA等等)执行本文中所描述的特定过程或特定过程的特定部分，包括限定存储在RAM(846)中的数据结构以及根据由软件限定的过程修改此类数据结构。另外或作为替代方案，计算机***可提供由硬连线的或以其它方式体现于电路(例如：加速器(844))中的逻辑所产生的功能，所述逻辑可代替或连同软件一起操作以执行本文描述的特定过程或特定过程的特定部分。适当时，对软件的引用可涵盖逻辑，且反之亦然。适当时，对计算机可读介质的引用可涵盖存储用于执行的软件的电路(例如，集成电路(IC))、体现用于执行的逻辑的电路或这两种电路。本申请涵盖硬件与软件的任何合适的组合。

尽管本申请描述了若干示范性实施例，但在本申请的范围内，可以有各种改动、排列组合方式以及各种替代等同物。因此，应该理解，在申请的精神和范围内，本领域技术人员能够设计出各种虽未在本文明确示出或描述、但可以体现本申请的原理的***和方法。

Claims

1.一种在视频编解码设备处进行视频编解码的方法，其特征在于，包括：

通过可变形卷积深度神经网络DNN执行可变形卷积，以基于一组一个或多个先前已重建参考帧，生成一个或多个第一特征图；

基于所述一个或多个第一特征图，生成预测帧；以及

基于所述预测帧，重建当前帧。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于特征提取DNN，生成对应于所述一个或多个先前已重建参考帧的一组一个或多个第二特征图；以及

使用偏移生成DNN，分别生成对应于所述一个或多个第二特征图的一个或多个偏移图，每个偏移图是基于所述偏移生成DNN的以下输入而生成的：

对应于正在生成的所述偏移图的第二特征图，以及

对应于目标帧的第二特征图，所述目标帧是所述一个或多个先前已重建参考帧其中之一，其中，所述一个或多个偏移图具有相同的目标帧。

3.根据权利要求2所述的方法，其特征在于，当所述当前帧与所述一个或多个先前已重建参考帧是按显示顺序排列时，所述目标帧与所述当前帧相邻。

4.根据权利要求2所述的方法，其特征在于，当所述当前帧是P帧时，所述目标帧是所述一个或多个先前已重建参考帧中的最后一帧；并且

当所述当前帧是B帧时，所述目标帧是所述一个或多个先前已重建参考帧中按显示顺序在所述当前帧之前的帧中的最后一帧。

5.根据权利要求2所述的方法，其特征在于，所述通过可变形卷积DNN执行可变形卷积，以生成一个或多个第一特征图包括：

接收所述一个或多个第二特征图，作为所述可变形卷积DNN的输入；以及

分别生成对应于所述一个或多个第二特征图的所述一个或多个第一特征图。

6.根据权利要求5所述的方法，其特征在于，所述可变形卷积DNN包括一个或多个可变形卷积层，每个可变形卷积层与一个可变形卷积内核相关联，并且

在对应于每个第二特征图的所述一个或多个可变形卷积层其中之一层，基于相应的可变形卷积内核和相应的第二特征图的偏移图，执行可变形卷积。

7.根据权利要求1所述的方法，其特征在于，所述基于所述一个或多个第一特征图，生成预测帧包括：

基于所述一个或多个第一特征图和所述一个或多个先前已重建参考帧，使用帧重建DNN重建一个或多个已对准帧；以及

基于所述一个或多个已对准帧，使用帧合成DNN生成所述预测帧。

8.根据权利要求1所述的方法，其特征在于，还包括：

用四维4D张量作为输入，使用特征提取DNN生成4D特征张量，所述4D张量由所述一组一个或多个先前已重建参考帧形成，每个帧包括多个信道。

9.根据权利要求8所述的方法，其特征在于，所述通过可变形卷积DNN执行可变形卷积，以生成一个或多个第一特征图包括：

接收所述4D特征张量，作为所述可变形卷积DNN的输入；以及

生成融合的已对准特征图。

10.根据权利要求9所述的方法，其特征在于，所述可变形卷积DNN包括一个或多个3D可变形卷积层，每个3D可变形卷积层与一个3D可变形卷积内核和一个3D偏移图相关联，并且在所述一个或多个可变形卷积层其中之一层，基于相应的3D可变形卷积内核和相应的3D偏移图，执行3D可变形卷积。

11.根据权利要求9所述的方法，其特征在于，还包括：

用所述融合的已对准特征图作为帧重建DNN的输入，使用所述帧重建DNN生成所述预测帧。

12.一种神经网络训练方法，其特征在于，包括：

将一组参考帧输入到预测帧生成模块，以生成预测帧，所述预测帧生成模块包括具有待优化参数的神经网络，所述神经网络包括可变形卷积深度神经网络DNN；

确定损失函数的损失，所述损失函数包括：

压缩损失，指示基于所述预测帧与标定真实帧之间的差值而估计的比特率，以及

重建质量损失，指示所述预测帧相对于所述标定真实帧的质量；以及

基于所述损失函数的所述损失，执行反向传播，以更新所述预测帧生成模块中的所述神经网络的所述参数。

13.根据权利要求12所述的方法，其特征在于，所述参考帧是基于时间下采样操作，从视频的帧序列中选择的，并且将所述帧序列中未由所述下采样操作选择的帧，用作所述标定真实帧。

14.根据权利要求12所述的方法，其特征在于，所述损失函数还包括指示对准误差的对准损失，并且

所述方法还包括：

使用所述预测帧生成模块中的特征提取深度神经网络DNN，分别生成对应于所述参考帧的第一特征图，

使用所述预测帧生成模块中的所述可变形卷积DNN，分别生成对应于所述第一特征图的第二特征图，以及

确定所述第二特征图其中之一与对应于目标帧的第一特征图之间的差值，其中，所述目标帧是输入到所述预测帧生成模块的所述参考帧其中之一，所述差值是所述对准损失的一部分。

15.根据权利要求14所述的方法，其特征在于，当所述标定真实帧与所述参考帧是按显示顺序排列时，所述目标帧是与所述标定真实帧相邻的参考帧。

16.根据权利要求12所述的方法，其特征在于，所述方法还包括：

生成所述标定真实帧与所述预测帧之间的残差信号；

随后对所述残差信号执行残差编码和解码，以生成已重建残差信号；

将所述标定真实帧与所述已重建残差信号进行组合，以生成已重建参考帧；以及

将所述已重建参考帧包括到所述一组参考帧中。

17.一种存储指令的非易失性计算机可读介质，其特征在于，所述指令在由处理器执行时，使所述处理器执行一种视频编解码方法，所述方法包括：

基于所述一个或多个第一特征图，生成预测帧；以及

基于所述预测帧，重建当前帧。

18.根据权利要求17所述的非易失性计算机可读介质，其特征在于，所述方法还包括：

基于特征提取DNN，生成对应于所述一个或多个先前已重建参考帧的一组一个或多个第二特征图的集合；以及

对应于正在生成的所述偏移图的第二特征图，以及

19.根据权利要求18所述的非易失性计算机可读介质，其特征在于，当所述当前帧与所述一个或多个先前已重建参考帧是按显示顺序排列时，所述目标帧与所述当前帧相邻。

20.根据权利要求18所述的非易失性计算机可读介质，其特征在于，当所述当前帧是P帧时，所述目标帧是所述一个或多个先前已重建参考帧中的最后一帧，并且