CN118200608A

CN118200608A - 运动补偿残差确定方法、装置、终端设备及存储介质

Info

Publication number: CN118200608A
Application number: CN202211614426.7A
Authority: CN
Inventors: 李帅; 高寒; 叶茂; 王之奎; 张雯; 李斌
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2024-06-14

Abstract

本申请一些实施例涉及一种运动补偿残差确定方法、装置、终端设备及存储介质，尤其涉及视频编码技术领域。包括：基于重建运动参量对历史帧的重建帧进行运动补偿，以得到重建预测帧，重建运动参量为对运动参量进行编码和解码后得到的，运动参量为基于历史帧的重建帧和当前帧确定的；基于重建运动参量对历史帧进行运动补偿，以得到原始预测帧；根据重建预测帧和当前帧，确定重建残差；根据原始预测帧和当前帧，确定原始残差；对重建残差和原始残差进行融合，得到目标融合残差。本申请一些实施例用于解决目前计算出的运动补偿残差存在失真，图像结构信息丢失或出错的问题。

Description

运动补偿残差确定方法、装置、终端设备及存储介质

技术领域

本申请一些实施例涉及视频编码技术领域，尤其涉及一种运动补偿残差确定方法、装置、终端设备及存储介质。

背景技术

基于深度学习的视频编码目前是通过特征域视频编码(Feature based VideoCompression，FVC)框架和基于上下文的视频编码(Deep Contextual Video Compression,DCVC)框架实现，其中，FVC框架和DCVC框架仅在运动估计方式上有所区别。在进行视频编码过程中需要计算运动估计残差和运动参量，并基于运动估计残差和运动参量最终生成编码后的比特流。在计算运动估计残差时，首先会对重建帧和当前帧进行运动估计，并生成预测帧，然后会采用当前帧减去生成的预测帧来计算运动补偿残差，上述重建帧通过对已编码的上一帧进行重建获得。

然而由于在有损视频编码中，对已编码的上一帧进行重建获得的重建帧相比于原始帧(即上一帧)存在随机性失真，因此这样基于该重建帧计算出的运动补偿残差也会存在失真，即图像结构信息丢失或出错，这样会导致最终视频编码后信息不准确，降低视频编码性能。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请一些实施例提供了一种运动补偿残差确定方法、装置、编码设备和存储介质，可以准确计算运动补偿残差，提高视频编码后信息的准确性，提高了视频编码性能。

为了实现上述目的，本申请一些实施例提供的技术方案如下：

第一方面，提供一种运动补偿残差确定方法，包括：

基于重建运动参量对历史帧的重建帧进行运动补偿，以得到重建预测帧，所述重建运动参量为运动参量进行编码和解码后得到的，所述运动参量为基于所述历史帧的重建帧和当前帧确定的；

基于所述重建运动参量对所述历史帧进行运动补偿，以得到原始预测帧；

根据所述重建预测帧和所述当前帧，确定重建残差；

根据所述原始预测帧和所述当前帧，确定原始残差；

对所述重建残差和所述原始残差进行融合，得到目标融合残差。

第二方面，提供一种运动补偿残差确定装置，包括：

处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面或其任意一种可选的实施方式所述的运动补偿残差确定方法。

第三方面，提供一种计算机可读存储介质，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面或其任意一种可选的实施方式所述的运动补偿残差确定方法。

第四方面，提供一种计算机程序产品，所述计算机程序产品中存储计算机程序，所述计算机程序被处理器执行时实现如下所示的运动补偿残差确定方法：

基于重建运动参量对历史帧的重建帧进行运动补偿，以得到重建预测帧，重建运动参量为对运动参量进行编码和解码后得到的，运动参量为基于历史帧的重建帧和当前帧确定的；基于重建运动参量对历史帧进行运动补偿，以得到原始预测帧；根据重建预测帧和当前帧，确定重建残差；根据原始预测帧和当前帧，确定原始残差；对重建残差和原始残差进行融合，得到目标融合残差。

第一方面或其任意一种可选的实施方式所述的运动补偿残差确定方法。

本申请一些实施例提供的运动补偿残差确定方法，基于重建运动参量对历史帧的重建帧进行运动补偿，以得到重建预测帧，重建运动参量为对运动参量进行编码和解码后得到的，运动参量为基于历史帧的重建帧和当前帧确定的；基于重建运动参量对历史帧进行运动补偿，以得到原始预测帧；根据重建预测帧和当前帧，确定重建残差；根据原始预测帧和当前帧，确定原始残差；对重建残差和原始残差进行融合，得到目标融合残差。

通过该方案，基于历史帧的重建帧和历史帧分别计算了重建残差和原始残差，由于历史帧没有经过编码和重建，因此不存在失真，计算出的原始残差也没有失真，包括了完整的图像结构信息，后续将重建残差和原始残差融合得到的目标融合残差作为最终的运动补偿残差，可以补充重建残差中被破坏的图像结构信息，因此最终确定的运动补偿残差更加准确。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请一些实施例的实施例，并与说明书一起用于解释本申请一些实施例的原理。

为了更清楚地说明本申请一些实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A为本申请一些实施例中的视频译码***100的框图；

图1B为相关技术中提供的一种视频编码基本框架的示意图；

图2为本申请一些实施例提供的一种视频编码流程示意图；

图3为本申请一些实施例提供的一种编码模型的基本框架示意图；

图4为本申请一些实施例提供的一种运动补偿残差确定方法的流程示意图；

图5为本申请一些实施例提供的融合方式一所应用的残差融合模块的框架示意图；

图6为本申请一些实施例提供的融合方式二所应用的残差融合模块的框架示意图；

图7为本申请一些实施例提供的一种视频编码方法的流程示意图；

图8为本申请一些实施例提供的一种视频编码方法的流程示意图；

图9为本申请一些实施例提供的一种视频解码的基本框架示意图；

图10为本申请一些实施例提供的一种运动补偿残差确定装置的结构示意图。

具体实施方式

为了能够更清楚地理解本申请一些实施例的上述目的、特征和优点，下面将对本申请一些实施例的方案进行进一步描述。需要说明的是，在不冲突的情况下，本申请一些实施例的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请一些实施例，但本申请一些实施例还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本申请一些实施例的一部分实施例，而不是全部的实施例。

视频可以看作是多个视频帧(图像)组成的序列。视频播放可以看作是视频帧按照在序列中的顺序以预设速度(例如：24帧/秒、30帧/秒、60帧/秒)显示。理论上，视频的数据量与视频帧的分辨率是正相关的，视频帧的分辨率越高，则视频的数据量越大。若直接在视频文件中保存全部视频帧的数据，则视频的数据量会非常巨大，进而导致视频难以存储和传输，而视频译码一定程度上就是为解决该问题而提出的。视频译码主要包括：视频编码和视频解码。其中，视频编码可以理解为是对视频数据进行压缩的过程，而视频解码则可以理解为是对压缩后的视频数据进行还原的过程。

图1A为本申请一些实施例中的视频译码***100的框图。如图1A所示，视频译码***100包括：源装置11和目的装置12。其中，源装置11可以通过视频源111获取原始视频数据，并通过视频编码器112对原始视频数据进行编码得到的视频编码数据，以及通过输出接口113以及向目的装置12提供编码得到视频编码数据。目的装置12可以通过输入接口121获取源装置11提供的视频编码数据，并通过视频解码器122对视频编码数据进行解码得到视频解码数据，以及将视频解码数据输入播放器123以实现视频的播放。源装置11及目的装置12可包括广泛范围的装置中的任一中，例如：个人计算机(Program Counter)、笔记型计算机、平板计算机、机顶盒、手机、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置等。

在一些实施例中，源装置11的视频源111可以为视频拍摄装置，例如摄像机。在另一些实施例中，视频源111可以为能够基于计算机图形产生视频的组件。如录屏组件、动画生成组件等。

在一些实施例中，目的装置12可经由计算机可读媒体接收源装置11提供的视频编码数据。计算机可读媒体可以包括能够将视频编码数据从源装置11移动到目的装置12的任一类型的媒体或装置。在一个实例中，计算机可读媒体可包括通信媒体以使源装置11能够实时地将视频编码数据直接传输到目的装置12。可根据通信标准(例如，无线通信协议)调制视频编码数据，并将其传输到目的装置12。通信媒体可包括任何无线或有线通信媒体，例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成分组网络(例如，局域网。广域网或全球网络，例如因特网)的部分。通信媒体可包含路由器、交换器、基站或任何其它可用于促进从源装置11到目的装置12的通信的设备。

在一些实例中，视频编码数据可以从输出接口113输出到存储装置。相应的，视频编码数据可由输入接口123从存储装置存取。存储装置可包含多种分布式或本地存取的数据存储媒体中的任一者，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或任何其它用于存储视频编码数据的合适的数字存储媒体。

在另一实例中，存储装置可对应于可保持由源装置11产生的经编码视频的文件服务器或另一中间存储装置。目的装置12可从存储装置经由流式传输或下载来存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据发射到目的装置12的任何类型的服务器。示例性的，上述文件服务器包含网络服务器(例如，用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的装置12可以通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线信道(例如，Wi-Fi连接)、有线连接(例如，DSL、电缆调制解调器等)，或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的发射可能是流式传输发射、下载发射或其组合。

如上所述，视频编码可以理解为是对视频数据进行压缩的过程，视频解码可以理解为是对压缩后的视频数据进行还原的过程，而视频编码器112可以理解为视频数据压缩过程中的一套标准规则，视频解码器122理解为视频数据还原过程中的一套标准规则，且一般情况下视频解码器122需要采用与视频编码器121采用的编码方式相应的解码方式才能正确的还原出视频数据。

目前，视频编码标准已由最开始的ISO/IECMPEG-1，经过ISO/IECMPEG-2、ISO/IECMPEG-4、高级视频编码(Advanced Viedo Coding，AVC)、高效视频编码(High EfficiencyVideo Coding，HEVC)等逐渐演进到了多功能视频编码(Versatile Video Coding，VVC)。本申请实施例中提供的运动补偿残差确定方法，以及视频编码方法，以及视频解码方法均可适用于任何合适的视频译码标准。例如：HEVC标准、低复杂度增强视频编码(LowComplexity Enhancement Video Coding，LCEVC)标准等。

在视频编码中，基于学习的视频编码在过去的几年里吸引了越来越多的关注。以往的混合编码方法依赖于像素空间操作来减少时空冗余，这可能存在不准确的运动估计或效率较低的运动补偿。为了改善这些问题，提出了一个特征域视频编码(Feature basedVideo Compression，FVC)编码方式，FVC编码方式通过在特征空间中执行所有的主要的操作(即运动估计、运动压缩、运动补偿和残余压缩)。具体地说，首先在特征空间中应用运动估计来产生运动信息(即偏移图)，并使用自动编码器式网络进行压缩，然后利用可变形卷积进行运动补偿，并生成预测帧。然后，我们压缩了当前帧的特征和预测帧之间的残差。

基于上下文的视频编码(Deep Contextual Video Compression,DCVC)编码方式中，DCVC框架比常用的残差编码框架具有更低的信息熵下界。DCVC可以自适应地学习帧内编码和帧间编码。在DCVC里，其条件被定义为上下文特征。相比传统RGB三通道像素，具有更高维度的上下文特征，并可以携带更丰富的时域信息来帮助编码，恢复高频细节。

传统视频编码方法中采用残差编码的方式的熵往往大于或等于条件编码的熵。通过从残差编码到条件编码的转换，构建了一种基于上下文的视频压缩框架(DCVC)，为基于深度学习的视频压缩提供了新思路和新方法。实验表明，该视频压缩框架比常用的残差编码框架有更低的信息熵下界，且能够自适应学习帧内编码和帧间编码，适用于对高频细节的恢复。

目前基于深度学习的视频编码是通过特征域视频编码(Feature based VideoCompression，FVC)框架和基于上下文的视频编码(Deep Contextual Video Compression,DCVC)框架实现。在进行视频编码过程中需要计算运动估计残差和运动参量，并基于运动估计残差和运动参量最终生成编码后的比特流。在计算运动估计残差时，首先会对重建帧和当前帧进行运动估计，并生成预测帧，然后会采用当前帧减去生成的预测帧来计算运动补偿残差，上述重建帧通过对已编码的上一帧进行重建获得。

图1B为相关技术中提供的一种视频编码基本框架的示意图。

如图1B所示，该视频编码基本框架包括：特征提取(feature extraction)模块101、运动估计(motion estimation)模块102、运动编解码(moon compression)模块103、运动补偿(motion compensation)模块104、残差编解码(Residual Compression)模块105、熵编码(Entropy coding)模块106、后增强处理(Recon-Net)模块107，残差获取模块108，以及重建模块109。其中，图1B所示的视频编码基本框架可以为FVC框架或者DCVC框架，针对FVC框架和DCVC框架来说，仅在该框架中所涉及的运动估计模块102中的运动估计算法存在不同，其他模块算法均相同。其中，FVC框架中运动估计模块102使用的运动估计算法为基于可变形卷积的运动估计，DCVC框架中运动估计模块102使用的运动估计算法为基于光流的运动估计方式。

上述特征提取模块101，用于从输入图像中提取图像特征，图像特征是用于表示图像特点的一些特征。其中，输入图像可以为当前帧和历史帧的重建帧。图像特征可以包括但不限于：几何特征、形状特征、幅值特征、直方图特征、颜色特征以及局部二值模式(Localbinary patterns，LBP)特征等。

上述运动估计模块102，用于计算运动参量(也称为运动矢量)，可以是基于提取的当前帧和历史帧的重建帧的特征计算运动参量。运动估计模块的通常是将视频中的图像分为若干个块，检测出当前帧中每个块在历史帧(如当前帧的上一帧)图像中的对应位置，从而可以估计出这个块的位移，并将这个块的位移用运动矢量表示，在得到这个运动矢量的过程叫做运动估计。

上述运动编解码模块103，用于对运动参量进行编码，以及对编码后的运动参量进行解码，得到重建运动参量。

上述运动补偿模块104，用于根据运动参量和历史帧的重建帧，计算得到重建预测帧。运动补偿是描述当前帧和历史帧的重建帧差别的方法，具体来说是根据历史帧的重建帧的每个小块，根据运动参量进行预测，预测会移动到当前帧中的哪个位置，从而预测得到重建预测帧。

上述残差获取模块108，用于根据重建预测帧和历史帧的重建帧，计算运动补偿残差。

上述残差编解码模块105，用于对运动补偿残差进行编码，以及对编码后的运动补偿残差进行解码，得到恢复后的运动补偿残差。

上述熵编码(Entropy coding)模块106，用于对编码后的运动补偿残差和编码后的运动参量进行熵编码，以得到比特流。其中，熵编码即在编码过程中按熵原理不丢失任何信息的编码。熵编码方式包括：香农(Shannon)编码、哈夫曼(Huffman)编码和算术编码(arithmetic coding)等。

上述重建模块109，用于基于恢复后的运动补偿残差和预测帧，重建出当前帧的重建帧的特征。

上述后增强处理模块107，用于对输入的当前帧的重建帧的特征进行特征增强，以得到当前帧的重建帧。

针对上述模块在视频编码整体流程中的具体应用，将结合下述图2进行说明。

图2为本申请一些实施例提供的一种视频编码流程示意图。

如图2所示，视频编码流程可以包括但不限于以下步骤：

201、对当前帧和历史帧的重建帧进行特征提取。

其中，历史帧的重建帧是指对历史帧进行编码后，再对编码后的历史帧进行解码得到的。上述历史帧可以是指当前帧的上一帧，或者，上述历史帧可以是指当前帧之前的其他帧。

在图1B中，当前帧为视频帧中的第t帧，当前帧可以表示为X_t，历史帧为视频帧中的第t-1帧，历史帧的重建帧表示为将X_t通过图1B所示的特征提取模块101进行特征提取后得到当前帧的特征F_t；将/>通过图1B所示的特征提取模块101进行特征提取后得到重建帧的特征/>

202、基于当前帧的特征和历史帧的重建帧的特征进行运动估计，得到运动参量。

在图1B中，可以将当前帧的特征F_t，以及历史帧的重建帧的特征输入到运动估计模块102，然后由运动估计模块102根据F_t和/>计算运动参量，在图1B中计算得到的运动参量表示为θ_t。

203、对运动参量进行编码，得到编码运动参量。

204、对编码运动参量进行解码，得到重建运动参量。

在图1B中，将运动参量θ_t输入到运动编解码模块103，由运动编解码模块103对运动参量先进行编码，得到编码运动参量M_t，之后又由运动编解码模块103对编码运动参量M_t再进行解码，得到重建运动参量，该重建运动参量在图1B中表示为

205、根据重建运动参量对历史帧的重建帧进行运动补偿，得到重建预测帧。

在图1B中上述重建预测帧表示为上述运动补偿过程即为图1B中的运动补偿模块104利用运动参量对重建帧(参考帧)特征/>进行变形，生成重建预测帧/>的过程。

206、根据重建预测帧和当前帧，确定重建残差。

其中，根据重建预测帧和当前帧，确定重建残差可以是通过：采用当前帧的特征F_t和重建预测帧做减法以确定出重建残差R_t。

207、对重建残差进行编码，得到编码残差。

在图1B中编码残差可以表示为Y_t，可以通过图1B中所示的残差编解码模块105对重建残差R_t进行编码，得到编码残差Y_t。

208、基于编码运动参量和所述编码残差，生成比特流，并发送至解码设备。

在图1B中，通过将编码运动参量M_t和编码残差Y_t输入到熵编码模块106中，由熵编码模块106编码生成比特流，并发送至对端的解码设备。

209、对编码残差进行解码，得到恢复残差。

在图1B中，通过残差编解码模块105对编码残差Y_t进行解码，得到恢复残差

210、基于恢复残差和重建预测帧，生成当前帧的重建帧特征。

在图1B中，重建模块109将恢复残差和重建预测帧/>进行加和，得到当前帧的重建帧特征/>

211、对当前帧的重建帧特征进行特征增强，以得到当前帧的重建帧。

图1B中，将重建帧特征输入到后增强处理模块107中，后增强处理模块107对重建帧特征/>进行特征增强，以得到当前帧的重建帧/>

上述图2所示的流程过程中，由于历史帧的重建帧为已编码帧，因此具有随机性失真，因此图像结构信息有损失(丢失或错误)，这样基于该历史帧的重建帧计算出的运动补偿残差也会存在失真，即图像结构信息丢失或出错，这样会导致最终视频编码后信息不准确，降低视频编码性能。

其中，上述图像结构信息包括：图像的纹理信息和图像的语义信息。纹理信息是指图像上色调变化的排列和频率。纹理可分包括粗纹理和平滑纹理。其中，色调是指图像的相对明暗程度，在彩色图像上表现为颜色。语义信息是指就是图像内容的含义。语义信息可以通过语言来表达，包括自然语言和符号语言(数学语言)。但语义信息的表达并不限于自然语言，其外延对应于人类视觉***对于图像的所有理解方式。例如，对于一幅小狗的图像，其图像语义可以包括自然语言单词“小狗”，也可以是一个表示该幅图像中的小狗图像的符号。

上述图像结构信息按照图像的频率可以分为高频信息和低频信息，图像的频率是指灰度值变化剧烈程度的指标，是灰度在平面空间上的梯度。其中，低频信息代表着图像中亮度或者灰度值变化缓慢的区域，也就是图像中大片平坦的区域，描述了图像的主要部分，是对整幅图像强度的综合度量；高频信息对应着图像变化剧烈的部分，也就是图像的边缘(轮廓)或者噪声以及细节部分，主要是对图像边缘和轮廓的度量。

在上述图像结构信息存在损失时，会存在高频信息的丢失，这样会导致难以识别图像边缘和轮廓。示例性的，图像的高频信息表示图像中存在人脸轮廓，在这部分高频信息丢失后，无法识别出图像中存在人脸轮廓。这样会导致最终对这样的图像进行编码后信息不准确，降低视频编码性能。

为了计算准确的运动补偿残差，提高视频编码性能，本申请一些实施例中提供了一种运动补偿残差确定方法，该运动补偿残差确定方法可以基于运动补偿残差确定装置实现，该运动补偿残差确定装置可以为编码设备或者可以为编码设备中的功能模块或者功能实体。其中，该编码设备可以为手机、电视机、计算机、服务器等任意可实现视频编码的设备。

图3为本申请一些实施例提供的一种编码模型的基本框架示意图。

如图3所示，该编码模型的基本框架可以包括：特征提取模块301、运动估计模块302、运动编解码模块303、运动补偿模块304、残差编解码模块305、熵编码模块306、后增强处理模块307、残差获取模块308，以及重建模块309，以及残差融合(Residual Fusion)模块310。图3所示的编码模型的基本框架，相比于图1B所示的基本框架新增了残差融合模块310，并且在残差获取模块308处增加了针对原始残差的获取，其他模块的算法均可以与图1B中相应模块的算法相同。

其中，残差融合模块310，用于将基于历史帧的重建帧所计算的重建残差，以及基于历史帧所计算的原始残差进行融合，得到更加准确的目标融合残差。由于历史帧没有经过编码和重建，因此不存在失真，计算出的原始残差也没有失真，包括了完整的图像结构信息，后续将重建残差和原始残差融合得到的目标融合残差作为最终的运动补偿残差，可以补充重建残差中被破坏的图像结构信息，因此最终确定的运动补偿残差更加准确。

其中，对重建残差和原始残差进行融合的融合方式包括但不限于以下介绍的融合方式一和融合方式二。

融合方式一：将重建残差和原始残差进行拼接，得到拼接结果，对拼接结果进行特征提取，以得到目标融合残差。

上述融合方式一中将原始残差和原始残差直接进行拼接，以得到融合后的目标融合残差，该融合方式的运算较少，运算效率较高。

融合方式二：将重建残差和原始残差进行拼接，得到拼接结果；对拼接结果进行特征提取，以得到初始融合残差；根据Sigmoid激活函数对初始融合残差进行处理，得到注意力权重；根据注意力权重对重建残差进行特征增强，得到增强结果；对增强结果进行特征提取，以得到目标融合残差。

上述融合方式二在将重建残差和原始残差进行拼接的基础上，还利用注意力机制进行融合，即先求取用于辅助残差帧的注意力权重，然后再用注意力权重增强残差的编码，这样相比于融合方式一可以具有更好的性能，计算出的目标融合残差更加准确。

上述如图3所示的编码模型可以是基于样本数据集训练得到；其中，该样本数据集包括：多组训练数据，每组训练数据包括：一视频帧、该一视频帧的一历史视频帧，以及该一历史视频帧的重建帧。其中，历史视频帧可以为该一视频帧的上一帧，或者，该历史视频帧可以为该一视频帧之前的任意一帧。

上述图3所示的编码模型与图1B所示的视频编码的基本框架所对应模型在训练时的区别在于：每组训练数据中除了包括一视频帧和上一视频帧的重建帧之外，还包括了一视频帧的上一视频帧。

其中，图3所示的编码模型，在进行模型训练时损失函数可以采用网络的整体代价函数为lambda*D+R，其中D为原始(输入)视频和重建(解码)视频均方损失(MSEloss)函数，R为熵编码的比特流；lambda为一常数，用于平衡码率和失真。并设置初始学习率，以及学习率的调整规则，以及学习的训练周期数等。其中，MSEloss函数由于梯度求导计算过程简单，因此易于计算。

示例性的，lambda可以设置为1024，可以将初始学习率设置为0.0001，设置学习率的调整规则为：每经过60个训练周期学习率调整为原来的0.1倍，并且设置总学习的训练周期数为240个周期。其中，将样本数据集中的每组训练数据都进行了一次训练过程之后，认为完成了一个训练周期。

上述训练完成的编码模型可直接用于确定运动补偿残差以及进行视频编码。

图4为本申请一些实施例提供的一种运动补偿残差确定方法的流程示意图。

如图4所示的该运动补偿残差确定方法，可以基于图3所示的编码模型的基本框架实现，该方法可以包括但不限于以下步骤：

401、根据历史帧的重建帧和当前帧确定运动参量。

在图3中，当前帧为视频帧中的第t帧，当前帧表示为X_t，历史帧为第t-1帧，历史帧的重建帧表示为将X_t通过图3所示的特征提取模块301进行特征提取后得到当前帧的特征F_t；将/>通过图3所示的特征提取模块301进行特征提取后得到重建帧的特征/>

402、对运动参量进行编码，以得到编码运动参量。

在图3中，可以将当前帧的特征F_t，以及第t-1帧的重建帧的特征输入到运动估计模块302，然后由运动估计模块302根据F_t和/>计算运动参量θ_t。

403、对编码运动参量进行解码，以得到重建运动参量。

在图3中，将运动参量θ_t输入到运动编解码模块303，由运动编解码模块303运动参量先进行编码，得到编码运动参量M_t，之后又由运动编解码模块303对编码运动参量M_t再进行解码，得到重建运动参量

404、基于重建运动参量对历史帧的重建帧进行运动补偿，以得到重建预测帧。

其中，该重建预测帧在后文中也称为重建预测帧的特征。

405、基于重建运动参量对历史帧进行运动补偿，以得到原始预测帧。

其中，该原始预测帧在后文中也称为原始预测帧的特征。

示例性的，根据图3中的运动补偿模块304根据重建运动参量对历史帧的重建帧特征/>和历史帧特征F_t-1进行补偿，生成重建预测帧/>和原始预测帧P_t的过程可以如下公式所示：

其中，f()表示运动补偿模块的计算函数，该计算函数可以保持与FVC框架或DCVC框架中相同。表示运动估计的重建运动参量，/>表示历史帧的重建帧特征，F_t-1表示历史帧特征。/>表示重建预测帧，即基于重建帧生成的预测帧特征，P_t表示原始预测帧，即基于历史帧生成的预测帧特征。

在图3中，可以先通过特征提取模块301对历史帧X_t-1进行特征提取，得到历史帧特征F_t-1，之后运动补偿模块304利用重建运动参量对历史帧的特征F_t-1进行变形，生成原始预测帧/>的过程。

406、根据重建预测帧和当前帧，确定重建残差。

407、根据原始预测帧和当前帧，确定原始残差。

如图3所示，表示重建残差，r_t表示原始残差，在确定重建残差/>时，残差获取模块308使用当前帧的特征F_t减去重建预测帧的特征P_t；在确定原始残差r_t时使用当前帧的特征F_t减去原始预测帧的特征/>

示例性的，确定重建残差和原始残差的过程可以如下公式所示：

408、对重建残差和原始残差进行融合，得到目标融合残差。

在图3中该目标融合残差表示为R_t，将重建残差和原始残差r_t进经过残差融合模块310进行融合后，可以输出目标融合残差R_t。

图5为本申请一些实施例提供的融合方式一所应用的残差融合模块的框架示意图。

在图5中，该框架中包括一个拼接模块501和一个特征提取模块502，其中，该特征提取模502中包括：一层卷积层，一层激活层和另一层卷积层。示例性的，该框架中的卷积层均可以为3*3卷积核大小的卷积层，激活层可以为修正线性单元(Rectified Linear Unit，ReLU)激活函数。

如图5中所示，将重建残差和原始残差r_t输入至拼接模块501，原始残差/>和原始残差r_t均为矩阵，将原始残差/>和原始残差r_t进行矩阵拼接，可以得到一个拼接后的大的矩阵作为拼接结果，并将拼接结果输入到特征提取模块502中进行特征提取，以得到目标融合残差R_t。该融合方式一可以采用以下公式表示：

上述公式(5)中conv()表示卷积层的算法，Relu()表示激活层的算法、表示将原始残差/>和原始残差r_t进行矩阵拼接。

其中，在融合方式一中，计算出的目标融合残差的通道数与原始残差的通道数相同，也就是说卷积层的神经元个数与原始残差的通道数相同，即图5所示的残差融合模块中卷积层的神经元数目与FVC框架或DCVC框架中用于进行特征提取的卷积层的神经元数目一致。

上述融合方式一，将原始残差和原始残差r_t直接进行拼接，以得到融合后的目标融合残差，该融合方式的运算较少，运算效率较高。

图6为本申请一些实施例提供的融合方式二所应用的残差融合模块的框架示意图。

在图6中，该框架中包括一个拼接模块601和第一特征提取模块602、激活函数603、特征增强模块604，以及第二特征提取模块605，其中，该第一特征提取模块602和第二特征提取模块605中均可以包括：一层卷积层，一层激活层和另一层卷积层。示例性的，该框架中的卷积层均可以为3*3卷积核大小的卷积层，激活层可以为修正线性单元(RectifiedLinearUnit，ReLU)激活函数，该激活函数603可以为Sigmoid函数。

如图6中所示，将重建残差和原始残差r_t输入至拼接模块601，原始残差/>和原始残差r_t均为矩阵，将原始残差/>和原始残差r_t进行矩阵拼接，可以得到一个拼接后的大的矩阵作为拼接结果，并将拼接结果输入到特征提取模块602中进行特征提取，并将特征提取得到的初始融合残差输入到激活函数603生成注意力权重A_t。之后将注意力权重A_t和重建残差/>输入到特征增强模块604，使得注意力权重A_t和重建残差/>相乘，以对重建残差/>进行特征增强，然后再将特征增强后的结果，输入到特征提取模块605中进行特征提取，以得到目标融合残差R_t。

该融合方式二可以采用以下公式表示：

上述公式中，Sigmoid()表示Sigmoid函数，conv()表示卷积层的算法，Relu()表示激活层的算法、表示将原始残差/>和原始残差r_t进行矩阵拼接，/>表示将注意力权重A_t和重建残差/>相乘。

其中，上述初始融合残差(A_t)的通道数小于或等于原始残差的通道数，目标融合残差的通道数与原始残差的通道数相同。

示例性的，激活函数603之前的卷积层中神经元数目为1，其它卷积层的神经元个数与原始残差的通道数相同，这样计算得到的初始融合残差为单通道的，注意力权重A_t也为单通道注意力权重。

在初始融合残差的通道数小于重建残差的通道数的情况下，可以减少融合过程中的计算量。

上述融合方式二，在将原始残差和原始残差r_t进行拼接的基础上，还利用注意力机制进行融合，即先求取用于辅助残差帧的注意力权重A_t，然后再用注意力权重A_t增强残差的编码，这样相比于融合方式一可以具有更好的性能，计算出的目标融合残差更加准确。

本申请一些实施例提供的运动补偿残差确定方法，基于重建运动参量对历史帧的重建帧进行运动补偿，以得到重建预测帧，重建运动参量为对历史帧的重建帧和当前帧确定的运动参量进行编码和解码后得到的；基于重建运动参量对历史帧进行运动补偿，以得到原始预测帧；根据重建预测帧和当前帧，确定重建残差；根据原始预测帧和当前帧，确定原始残差；对重建残差和原始残差进行融合，得到目标融合残差。通过该方案，基于历史帧的重建帧和历史帧分别计算了重建残差和原始残差，由于历史帧没有经过编码和重建，因此不存在失真，计算出的原始残差也没有失真，包括了完整的图像结构信息，后续将重建残差和原始残差融合得到的目标融合残差作为最终的运动补偿残差，可以补充重建残差中被破坏的图像结构信息，因此最终确定的运动补偿残差更加准确。

在计算出目标融合残差之后，基于目标融合残差进行编码后得到编码残差，将该编码残差和编码运动参量生成比特流，可以实现视频编码的整个过程，这样视频编码得到的信息具有更高的准确性，提高了编码性能。

图7为本申请一些实施例提供的一种视频编码方法的流程示意图。图7是在图4所示的运动补偿残差确定方法所计算出的目标融合残差的基础上，增加了后续进行残差编码的过程。

结合图4，如图7所示，在图4中的步骤408之后，还可以执行以下步骤：

409、对目标融合残差进行编码，以得到编码残差。

如图3所示，可以将目标融合残差输入至残差编解码模块305，残差编解码模块305对目标融合残差进行编码，可以得到编码残差Y_t。

410、基于编码运动参量和编码残差，生成比特流。

其中，编码运动参量为对运动参量进行编码后得到的。

如图3所示，将编码运动参量M_t和编码残差Y_t输入到熵编码模块306中，由熵编码模块306编码生成比特流。在生成比特流之后可以将该比特流发送至对端的解码设备，以实现视频编码后的数据传输。

示例性的，如下表1所示为：在HEVC通用测试条件下的Class C测试序列上，本申请一些实施例提供的视频编码方法(采用融合方式一计算目标融合残差并进行视频编码)与使用FVC框架的视频编码方法的编码性能的测试结果。

表1

表1中，在图像、视频压缩领域,图像、视频压缩后的码率是指单位像素编码所需要的编码长度，一般单位为bpp码率的单位为(Bit Per Pixel，bpp)；峰值信噪比(PeakSignal to Noise Ratio，PSNR)是一个表示信号最大可能功率和影响它的表示精度的破坏性噪声功率的比值的工程术语，峰值信噪比经常用作图像压缩等领域中信号重建质量的测量，其单位为分贝(dB)。

视频编码方法的整体代价函数为lambda*D+R，该代价函数所计算出的值越大，说明相应的视频编码方法的性能越差；该代价函数所计算出的值越小，说明相应的视频编码方法的性能越好。

其中，lambda为一常数，lambda在本次实验中为1024，D＝10^-0.1*PSNR，R表示码率。

参照表1中数据计算整体代价函数lambda*D+R，可求得使用FVC框架的视频编码方法计算出整体代价函数值为0.9726，而本申请一些实施例提供的视频编码方法计算出整体代价函数值为0.96955424，可以看出本申请一些实施例提供的视频编码方法所计算的整体代价函数值小于使用FVC框架的视频编码方法计算的整体代价函数值，因此，本申请一些实施例提供的视频编码方法性能优于使用FVC框架的视频编码方法，即本申请一些实施例提供的视频编码方法提升了整体编码性能。

图8为本申请一些实施例提供的一种视频编码方法的流程示意图。图8是在图7所示的视频编码方法的基础上增加了当前帧的重建过程。

结合图7，如图8所示，在图7中的步骤409之后，还可以执行以下步骤：

411、对编码残差进行解码，以得到重建融合残差。

如图3所示，残差编解码模块305对编码残差Y_t解码，以得到重建融合残差

412、根据重建融合残差和重建预测帧，确定重建特征。

如图3所示，重建模块309可以将重建融合残差和重建预测帧/>进行加和，得到当前帧的重建帧的特征/>

413、对重建特征进行特征增强，以得到当前帧的重建帧。

如图3所示，将重建帧特征输入到后增强处理模块307中，后增强处理模块307对重建帧特征/>进行特征增强，以得到当前帧的重建帧/>

本申请一些实施例中，还可以基于目标融合残差，重建出当前帧帧的重建帧，以用于后续的视频编码过程。例如在对当前帧的下一帧进行视频编码时，可以将当前帧作为该下一帧的历史帧，将当前帧的重建帧作为该历史帧的重建帧执行编码过程。

在基于本申请一些实施例提供的上述视频编码方法编码得到比特流之后，可以发送至解码设备，在解码设备接收到比特流之后，可以进行视频解码，以实现视频传输过程。

图9为本申请一些实施例提供的一种视频解码的基本框架示意图。

如图9所示的框架中包括：熵解码模块901、运动参量解码模块902、特征提取模块903、运动补偿模块904、残差解码模块905、重建模块906，以及特征增强和重建模块907。

其中，熵解码模块901，用于对接收到的比特流进行熵解码，熵解码可以无失真地恢复出数据，熵解码方法可以包括：指数哥伦布解码，上下文自适应的变长编码(ContextAdaptive VariableLength Coding，CAVLC)解码和基于上下文的二进制算术编码(ContextAdaptive Binary Arithmatic Coding，CABAC)解码。本申请实施例中，熵解码模块901可以将解码设备接收到的编码设备发送的比特流进行熵解码，得到编码运动参量M_t，以及编码残差Y_t。

运动参量解码模块902，用于进行数据解码，在接收到编码运动参量M_t之后进行解码，以得到解码后的重建运动参量

特征提取模块903，用于对图像帧进行特征提取来获取图像帧的特征。本申请中可以对历史帧的重建帧进行特征提取，得到历史帧的重建帧的特征/>

上述运动补偿模块904与上述图3所示的运动补偿模块304的功能类似。运动补偿模块904可以根据重建运动参量对历史帧的重建帧的特征/>进行运动补偿，得到针对历史帧的重建帧的重建预测帧/>

残差解码模块905，用于进行数据解码，在获取到编码残差Y_t之后，编码残差Y_t经过残差解码模块905解码可以得到重建融合残差

重建模块906，用于将重建融合残差和重建预测帧/>进行加和得到得到当前帧的重建帧的特征/>

特征增强和重建模块907，用于对该当前帧的重建帧的特征进行特征增强和重建，最终可以得到当前帧的重建帧/>/>

如图9所示，在解码设备接收到比特流之后，该比特流通过熵解码模块901进行熵解码可以解码得到编码运动参量M_t，以及编码残差Y_t，将编码运动参量M_t输入至运动参量解码模块902进行解码，可以得到重建运动参量特征提取模块903对历史帧的重建帧/>进行特征提取，得到历史帧的重建帧的特征/>将历史帧的重建帧的特征/>和重建运动参量/>输入到运动补偿模块904，运动补偿模块904根据重建运动参量/>对历史帧的重建帧的特征/>进行运动补偿之后，可以得到针对历史帧的重建帧的重建预测帧/>将编码残差Y_t输入残差解码模块905进行解码可以得到重建融合残差/>之后重建模块906将重建融合残差/>和重建预测帧/>进行加和得到得到当前帧的重建帧的特征/>特征增强和重建模块907对该当前帧的重建帧的特征/>进行特征增强和重建就可以得到当前帧的重建帧/>

本申请一些实施例中，由于在解码设备中存在历史帧的重建帧，不存在历史帧，因此本申请一些实施例中在编码设备没有直接使用原始残差代替重建残差。而是利用原始残差辅助有失真的重建残差进行编码，提升编码效率，且不影响解码设备进行解码。

图10为本申请一些实施例提供的一种运动补偿残差确定装置的结构示意图。该运动补偿残差确定装置可以包括：处理器1001、存储器1002及存储在所述存储器1002上并可在所述处理器1001上运行的计算机程序，所述计算机程序被所述处理器1001执行时实现本公开实施例中提供的上述运动补偿残差确定方法。

在一些实施例中，处理器1001被配置为：基于重建运动参量对历史帧的重建帧进行运动补偿，以得到重建预测帧，所述重建运动参量为对运动参量进行编码和解码后得到的，所述运动参量为根据所述历史帧的重建帧和当前帧确定的；基于所述重建运动参量对所述历史帧进行运动补偿，以得到原始预测帧；

根据所述重建预测帧和所述当前帧，确定重建残差；

根据所述原始预测帧和所述当前帧，确定原始残差；

在一些实施例中，处理器1001还被配置为：在对所述重建残差和所述原始残差进行融合，得到目标融合残差之后，对所述目标融合残差进行编码，以得到编码残差；

基于编码运动参量和所述编码残差，生成比特流，所述编码运动参量为对所述运动参量进行编码后得到的。

在一些实施例中，处理器1001具体被配置为：所述对所述重建残差和所述原始残差进行融合，得到目标融合残差，包括：

将所述重建残差和所述原始残差进行拼接，得到拼接结果；

对所述拼接结果进行特征提取，以得到所述目标融合残差。

将所述重建残差和所述原始残差进行拼接，得到拼接结果；

对所述拼接结果进行特征提取，以得到初始融合残差；

根据Sigmoid激活函数对所述初始融合残差进行处理，得到注意力权重；

根据所述注意力权重对所述重建残差进行特征增强，得到增强结果；

对所述增强结果进行特征提取，以得到所述目标融合残差。

在一些实施例中，所述初始融合残差的通道数小于或等于所述原始残差的通道数。

在一些实施例中，所述目标融合残差的通道数与所述原始残差的通道数相同。

在一些实施例中，所述处理器1001还被配置为：在对所述目标融合残差进行编码，以得到编码残差之后，对所述编码残差进行解码，以得到重建融合残差；根据所述重建融合残差和所述重建预测帧，确定重建特征；对所述重建特征进行特征增强，以得到所述当前帧的重建帧。

所述处理器1001基于编码模型实现上述功能，所述编码模型基于样本数据集训练得到；

其中，所述样本数据集包括：多组训练数据，每组训练数据包括：一视频帧、所述一视频帧的一历史视频帧，以及所述一历史视频帧的重建帧。

本公开实施例还提供一种终端设备，该终端设备中包括上述运动补偿残差确定装置。

示例性的，上述运动补偿残差确定装置可以为可以实现该运动补偿残差确定方法的任意装置，例如，视频编码芯片，该终端设备可以为包括该视频编码芯片的视频编码设备。

本申请一些实施例提供一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现上述方法实施例中运动补偿残差确定方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该计算机可读存储介质可以为只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请一些实施例提供一种计算程序产品，该计算机程序产品存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中运动补偿残差确定方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域技术人员应明白，本申请一些实施例的实施例可提供为方法、***、或计算机程序产品。因此，本申请一些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请一些实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本申请一些实施例中，处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请一些实施例中，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

本申请一些实施例中，计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储，信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。根据本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本申请一些实施例的具体实施方式，使本领域技术人员能够理解或实现本申请一些实施例。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请一些实施例的精神或范围的情况下，在其它实施例中实现。因此，本申请一些实施例将不会被限制于本文的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种运动补偿残差确定方法，其特征在于，包括：

基于重建运动参量对历史帧的重建帧进行运动补偿，以得到重建预测帧，所述重建运动参量为对运动参量进行编码和解码后得到的，所述运动参量为基于所述历史帧的重建帧和当前帧确定的；

根据所述重建预测帧和所述当前帧，确定重建残差；

根据所述原始预测帧和所述当前帧，确定原始残差；

2.根据权利要求1所述的方法，其特征在于，所述对所述重建残差和所述原始残差进行融合，得到目标融合残差之后，所述方法还包括：

对所述目标融合残差进行编码，以得到编码残差；

3.根据权利要求1所述的方法，其特征在于，所述对所述重建残差和所述原始残差进行融合，得到目标融合残差，包括：

将所述重建残差和所述原始残差进行拼接，得到拼接结果；

对所述拼接结果进行特征提取，以得到所述目标融合残差。

4.根据权利要求1所述的方法，其特征在于，所述对所述重建残差和所述原始残差进行融合，得到目标融合残差，包括：

将所述重建残差和所述原始残差进行拼接，得到拼接结果；

对所述拼接结果进行特征提取，以得到初始融合残差；

对所述增强结果进行特征提取，以得到所述目标融合残差。

5.根据权利要求4所述的方法，其特征在于，所述初始融合残差的通道数小于或等于所述原始残差的通道数。

6.根据权利要求3或4所述的方法，其特征在于，所述目标融合残差的通道数与所述原始残差的通道数相同。

7.根据权利要求2所述的方法，其特征在于，所述对所述目标融合残差进行编码，以得到编码残差之后，所述方法还包括：

对所述编码残差进行解码，以得到重建融合残差；

根据所述重建融合残差和所述重建预测帧，确定重建特征；

对所述重建特征进行特征增强，以得到所述当前帧的重建帧。

8.根据权利要求1所述的方法，其特征在于，所述方法基于编码模型实现，所述编码模型基于样本数据集训练得到；

9.一种运动补偿残差确定装置，其特征在于，包括：

处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的运动补偿残差确定方法。

10.一种终端设备，其特征在于，包括：如权利要求9所述的运动补偿残差确定装置。

11.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的运动补偿残差确定方法。