CN116582685A

CN116582685A - 一种基于ai的分级残差编码方法、装置、设备和存储介质

Info

Publication number: CN116582685A
Application number: CN202310396480.7A
Authority: CN
Inventors: 高虹; 袁子逸
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-08-11

Abstract

本申请实施例公开了一种基于AI的分级残差编码方法、装置、设备和存储介质，该方法包括：对待分级编码的视频数据进行至少一级下采样处理，以得到的最低分辨率的数据所在层作为基础层，以视频数据所在层或者以视频数据所在层和中间分辨率的数据所在层作为增强层；确定基础层编码数据和增强层残差；采用深度视频编码网络对增强层残差进行编码，得到增强层的残差编码数据；基于残差编码数据和所述基础层编码数据，生成码流数据。本方案可以实现高压缩比的视频编码，节约存储空间和网络带宽，通过增强层的残差编码数据保留视频的细节和纹理，提高视频的视觉质量和清晰度，通过深度视频编码网络能提高编码效率，体现更好的码率控制能力。

Description

一种基于AI的分级残差编码方法、装置、设备和存储介质

技术领域

本申请实施例涉及视频数据处理技术领域，尤其涉及一种基于AI的分级残差编码方法、装置、设备和存储介质。

背景技术

随着计算机和网络技术的发展，基于视频图像的各类应用也越来越多。而视频在传输时，首先需要进行视频编码，视频编码的重要性在于它使得视频可以更容易地存储和传输。通过压缩视频数据，可以在有限的存储空间中存储更多的视频文件，并且可以更快地将视频传输到互联网上观看。此外，视频编码技术还可以降低视频流量，从而减少网络拥塞，提高视频播放的质量。

如今使用到LCEVC(Low Complexity Enhancement VideoCoding，低复杂度增强视频编码)对视频进行编码，LCEVC是一种视频编码技术，它结合了基础编码和增强编码两种编码技术，通过在基础编码的基础上添加少量的增强编码数据来提高视频的质量和效率。在LCEVC框架中，除了基本层的编码外，还提供了类似传统编码器中的残差编码模块，包括：变换、量化和熵编码三个主要步骤。

但传统编码通过帧间运动估计以及运动补偿而产生的残差信息与LCEVC框架下由下采样和上采样造成的高频信息损失而产生的残差信息有所不同，仅由下采样和上采样造成的损失表现在残差上相比于经过运动估计和运动补偿造成的损失更加稀疏，残差分布更分散，没有明显的运动轨迹。因此，对于分层编码方式产生的更加稀疏的残差信息需要寻求更有效地编码方式以提高其压缩效率。

发明内容

本申请实施例提供了一种基于AI的分级残差编码方法、装置、设备和存储介质，可以在保持较小的文件大小的同时提供更高质量的视频，更快速的对视频进行编码，从而减少视频传输的延迟。还能进行更精细的编码，从而提高编码效率。

第一方面，本申请实施例提供了一种基于AI的分级残差编码方法，该方法包括：

对待分级编码的视频数据进行至少一级下采样处理，以得到的最低分辨率的数据所在层作为基础层，以视频数据所在层或者以视频数据所在层和中间分辨率的数据所在层作为增强层；

确定基础层编码数据，以及确定增强层残差；

采用深度视频编码网络对增强层残差进行编码，得到增强层的残差编码数据；

基于所述残差编码数据和所述基础层编码数据，生成码流数据。

第二方面，本申请实施例还提供了一种基于AI的分级残差编码装置，包括：

下采样模块，用于对待分级编码的视频数据进行至少一级下采样处理，以得到的最低分辨率的数据所在层作为基础层，以视频数据所在层或者以视频数据所在层和中间分辨率的数据所在层作为增强层；

确定模块，用于确定基础层编码数据，以及确定增强层残差；

编码模块，用于采用深度视频编码网络对增强层残差进行编码，得到增强层的残差编码数据；

生成模块，用于基于所述残差编码数据和所述基础层编码数据，生成码流数据。

第三方面，本申请实施例还提供了一种基于AI的分级残差编码设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本申请实施例所述的基于AI的分级残差编码方法。

第四方面，本申请实施例还提供了一种存储计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本申请实施例所述的基于AI的分级残差编码方法。

第五方面，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中，设备的至少一个处理器从计算机可读存储介质读取并执行计算机程序，使得设备执行本申请实施例所述的基于AI的分级残差编码方法。

本申请实施例中，对待分级编码的视频数据进行至少一级下采样处理，以得到的最低分辨率的数据所在层作为基础层，以视频数据所在层或者以视频数据所在层和中间分辨率的数据所在层作为增强层；确定基础层编码数据，以及确定增强层残差；采用深度视频编码网络对增强层残差进行编码，得到增强层的残差编码数据；基于所述残差编码数据和所述基础层编码数据，生成码流数据。通过上述基于AI的分级残差编码方法，可以有效减少码流大小，实现高压缩比的视频编码，节约存储空间和网络带宽。同时，增强层的残差编码数据可以更好地保留视频的细节和纹理，从而提高视频的视觉质量和清晰度，并且使用深度视频编码网络还能实现更高的编码效率和更好的码率控制能力。

附图说明

图1为本申请实施例一提供的基于AI的分级残差编码方法的流程示意图；

图2为本申请实施例一提供的基于AI的分级残差编码的端到端可分级编码***框架示意图；

图3是本申请实施例一提供的基于AI的分级残差编码的网络结构示意图；

图4为本申请实施例二提供的基于AI的分级残差编码方法的流程示意图；

图5为本申请实施例二提供的基于AI的分级残差编码的上下采样的框架示意图；

图6为本申请实施例三提供的基于AI的分级残差编码装置的结构示意图；

图7为本申请实施例四提供的基于AI的分级残差编码设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请实施例，而非对本申请实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请实施例相关的部分而非全部结构。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的基于AI的分级残差编码方法、装置、设备和存储介质进行详细地说明。

实施例一

图1是本申请实施例一提供的基于AI的分级残差编码方法的流程示意图。如图1所示，具体包括如下：

S101，对待分级编码的视频数据进行至少一级下采样处理，以得到的最低分辨率的数据所在层作为基础层，以视频数据所在层或者以视频数据所在层和中间分辨率的数据所在层作为增强层。

首先，本方案的使用场景可以是处理待分级编码的视频，对视频残差编码数据进行处理，并生成此视频码流数据的场景。

基于上述使用场景，可以理解的，本申请的执行主体可以是智能终端或者服务器等，此处不做过多的限定。

本方案中，图2是本申请实施例一提供的基于AI的分级残差编码的端到端可分级编码***框架示意图，如图2所示，待分级编码的视频数据可以是指需要进行级别压缩编码的视频数据。在分级编码中，视频数据被分为多个层或多个级别，每个层或级别包含不同的信息。每个级别都可以根据其重要性和可用性进行编码，以达到压缩视频数据的目的。通过这种方式，视频数据可以根据需要进行传输或存储，以便在不同的设备和网络环境中播放。待分级编码的视频数据通常是高清或超高清视频数据，它们具有大量的像素和高比特率，因此需要进行压缩以便更好地存储和传输。例如，一个5分钟的高清视频文件可以超过1GB的大小，若直接传输和存储需要较长的时间以及较大的空间，会提高传输成本。因此，视频数据需要进行分级编码，以便在不影响视频质量的情况下减小文件大小并降低传输成本。

基础层可以是指视频编码的最底层，它包含最基本的视频信息，并且可以被独立地解码和播放，同时也是其他层的基础。基础层通常包含视频的最低分辨率数据，这些数据可以被其他层使用，以实现多分辨率编码。

多分辨率编码意味着视频数据可以在不同的设备和网络环境中播放，因为不同的设备和网络环境可以处理不同分辨率的视频。而在多分辨率编码中，基础层通常是最低分辨率的视频数据，其他层则是较高分辨率的视频数据。通过这种方式，视频数据可以被压缩，并在不同的设备和网络环境中进行传输和播放，同时保持较高的视频质量。因此，待分级编码的视频数据的最低分辨率数据的所在层作为基础层是指视频编码的最底层包含视频的最低分辨率数据，并作为其他层的基础，用于实现多分辨率编码。其中，分辨率又称解析度以及解像度，决定了位图图像细节的精细程度。通常情况下，图像的分辨率越高，所包含的像素就越多，图像就越清晰，印刷的质量也就越好。同时，它也会增加文件占用的存储空间。

增强层可以是指相对于基础层而言，用于增强视频数据质量或提供额外功能的编码层。增强层可以包含更高分辨率、更高质量以及更复杂的编码技术或其他增强功能的视频数据。以得到的最低分辨率的数据所在层作为基础层，以视频数据所在层以及视频数据所在层和中间分辨率的数据所在层作为增强层，可以实现多分辨率视频编码。

下采样可以是指将高分辨率图像降采样为低分辨率图像的过程，以得到多分辨率视频编码中的基础层。下采样的方法可以包括平均取样、最大值/最小值池化以及插值等等。在待分级编码的视频数据中，原始视频数据的分辨率可能非常高，不适合直接用于多分辨率视频编码的基础层。因此，需要对原始视频数据进行下采样处理，以生成适合作为基础层的视频数据。具体的，下采样的分辨率可以是原始视频分辨率的一半或更低，以达到减少数据量和提高编码器性能的目的。

S102，确定基础层编码数据，以及确定增强层残差。

基础层编码数据可以是指多分辨率视频编码中的最低分辨率数据所对应的编码数据。这些编码数据是在对原始视频数据进行压缩和编码处理后得到的，以便于传输和存储。基础层编码数据通常包括帧间预测、帧内预测、变换编码以及熵编码等步骤。这些步骤可以有效地减少视频数据的冗余信息，从而实现视频数据的压缩和编码。基础层编码数据还可以为增强层提供参考信息，以便于增强层进行更高分辨率以及更高质量的编码。

增强层残差可以是指高分辨率数据与对应的低分辨率基础层数据之间的差异，即高分辨率数据减去低分辨率数据所得到的差异值。这些残差数据可以被用于对基础层数据进行增强，以获得更高分辨率以及更高质量的视频数据。

确定基础层编码数据需要先确定所要采集的视频的分辨率和编码参数，然后使用视频编码器对视频进行编码，并保存编码后的数据作为基础层编码数据。

具体的确定过程可以按照以下步骤进行：

1、确定采集的视频的分辨率和帧率，并录制视频素材。

2、使用视频编码器对录制的视频素材进行编码。在编码过程中需要选择合适的编码参数，可以包括帧率、码率、量化参数以及编码算法等，以保证编码效果和传输质量。

3、保存编码后的数据作为基础层编码数据。编码数据可以保存在本地硬盘或云存储中，也可以通过网络传输到其他设备进行后续处理和分析。

增强层残差的确定方式可以包括对高分辨率数据进行下采样以及对低分辨率数据进行上采样等操作，以保证高分辨率数据与低分辨率数据在相同的空间域或频域中进行比较。增强层残差的确定可以通过各种算法和技术实现，例如，双线性插值、小波变换以及预测滤波等。

S103，采用深度视频编码网络对增强层残差进行编码，得到增强层的残差编码数据。

图3是本申请实施例一提供的基于AI的分级残差编码的网络结构示意图，如图3所示，深度视频编码网络(Deep Video Coding Network，DVC)可以是一种基于深度学习技术的视频编码框架，其主要思想是利用卷积神经网络(Convolutional Neural Network，CNN)对视频数据进行高效的编码和解码。与传统的视频编码方法相比，DVC利用CNN对视频数据进行端到端的编码和解码，能够自动学习视频数据的空间和时间特征，并对视频数据进行逐帧压缩和重构。DVC通过利用视频序列的时空相关性，能够实现高效的视频压缩，并在保持视频质量的同时减少数据传输的带宽和存储成本。DVC的编码器和解码器均由卷积神经网络组成，编码器负责对视频帧进行特征提取和编码，解码器则负责将编码后的数据解码成原始视频帧。DVC还可以通过添加一些额外的特征来提高编码和解码的质量和效率，例如运动矢量、残差帧和上下文信息等。

增强层残差编码数据可以是增强层与基础层之间的残差数据，即增强层数据减去基础层数据后的结果。这些残差数据可以用于提高视频的质量和精度，并且可以在一定程度上减少编码数据的传输和存储开销。具体的，增强层的残差编码数据可以是指在将原始视频数据分解成基础层和增强层之后，对增强层进行进一步的编码，得到的增强层与基础层之间的残差编码数据。这些残差编码数据可以被解码器用于重构原始视频数据的增强层部分，从而提高视频的质量和精度。

深度视频编码网络可以用于对增强层的残差数据进行编码，得到增强层的残差编码数据。具体的，可以采用以下步骤得到增强层的残差编码数据：

1、使用深度视频编码网络对增强层的残差数据进行编码。深度视频编码网络通常由编码器和解码器两部分组成，其中，编码器可以将输入的增强层残差数据映射到一个低维空间中，而解码器则可以将低维空间中的编码数据解码为重构的残差数据。

2、将编码后的增强层残差编码数据压缩并存储在码流中。常用的压缩算法包括变长编码以及熵编码等。

在上述各技术方案的基础上，可选的，所述深度视频编码网络包括残差编码子网络；

相应的，采用深度视频编码网络对增强层残差进行编码，得到增强层的残差编码数据，包括：

采用所述残差编码子网络对增强层残差进行编码，将输出的特征域码作为增强层的残差编码数据。

本方案中，残差编码子网络可以是深度视频编码网络中的一部分，用于对视频数据的残差信息进行编码。该子网络可以由一些卷积层、归一化层和激活函数等组成，能自适应地学习出适合于不同视频数据的编码方式。在残差编码子网络中，输入为残差数据，输出为编码后的残差编码数据。残差编码子网络可以帮助减小残差数据的体积，提高视频数据的压缩效率，并且能够保证视频数据的重构质量。

特征域码可以是指经过残差编码子网络处理后输出的编码结果，通常是一些具有一定维度的向量或矩阵形式的数值，可以表示出输入数据的各种特征和特性，包括其空间信息、颜色信息以及运动信息等等。这些特征域码可以被传输和存储，同时可以用于后续的解码和重构操作，使得最终的图像或视频数据能够准确地还原出原始数据的各种特征和细节。在深度视频编码中，特征域码一般用于表示残差数据和预测数据的差异部分，以便更高效地压缩和传输视频数据。

采用残差编码子网络对增强层残差进行编码，将输出的特征域码作为增强层的残差编码数据，可以按照如下步骤进行：

1、将增强层的残差作为输入，输入到残差编码子网络中进行编码。

2、残差编码子网络通常由一系列卷积层和池化层组成，用于提取残差的特征。

3、在编码过程中，残差编码子网络会将残差信息压缩成一组特征域码，这些特征域码可以较好地表达残差的重要信息。

4、将特征域码作为输出，作为增强层的残差编码数据，用于后续的解码和恢复增强层。

本方案中，使用残差编码子网络对增强层残差进行编码，可以通过压缩残差信息来减小模型的参数数量，从而提高模型的存储效率和计算速度。同时，由于残差编码子网络可以学习到残差的相关特征，因此使用编码后的残差信息作为增强层的残差编码数据可以进一步提高模型的性能和准确性。

在上述各技术方案的基础上，可选的，所述深度视频编码网络还包括量化子网络；

采用所述残差编码子网络对增强层残差进行编码，以及采用所述量化子网络对输出的特征域码进行裁剪，得到增强层的残差编码数据。

本方案中，量化子网络可以是一种神经网络结构，主要用于将浮点数权重和激活值转换为低比特宽度的整数值，从而降低模型的存储和计算成本。在训练过程中，量化子网络会通过一系列的优化方法来最小化量化误差，从而保证模型在低比特宽度下仍然具有较高的准确率。量化子网络在轻量化模型设计、模型压缩和低功耗部署等方面具有重要的应用价值。

残差编码子网络的输出是特征域码，为了将其用于网络的通信和存储，需要将其进行压缩编码。因此，需要采用量化子网络对特征域码进行裁剪。采用量化子网络对输出的特征域码进行裁剪，可以是指将连续的实数值转化为一组离散的符号和比特表示，从而压缩数据的存储和传输。这种方法可以在一定程度上减少数据量，提高计算和存储效率，可以按照如下步骤进行：

1、使用残差编码子网络对增强层的残差进行编码：将增强层残差作为输入，经过残差编码子网络的计算得到输出的特征域码。由于残差一般比原始图像的动态范围小，因此这个编码过程能够显著减少编码所需的比特数。

2、使用量化子网络对输出的特征域码进行裁剪：将残差编码子网络的输出特征域码输入到量化子网络中。量化子网络将对特征域码进行量化，也就是将特征域码中的每个元素映射到一个较小的取值集合中，比如-128到127。量化子网络将保留这些取值之间的差异，但将丢失更小的差异。这个过程显著降低了特征域码的比特数，从而减少了网络传输和存储所需的带宽。

得到残差编码数据后可以将此数据传输到残差解码子网络中，残差解码子网络根据其设计的结构和参数对残差编码数据进行处理，以重建原始信号或恢复更高分辨率、更精细的图像、视频或音频等数据。残差解码子网络的输出可以是残差解码数据。

本方案中，采用残差编码子网络和量化子网络可以有效地减少模型的参数量，从而降低模型的计算复杂度和存储空间需求。

在上述各技术方案的基础上，可选的，所述深度视频编码网络还包括比特估计子网络；

相应的，在采用深度视频编码网络对增强层残差进行编码，得到增强层的残差编码数据之后，所述方法还包括：

采用所述比特估计子网络对增强层的残差编码数据进行比特估计，确定所述深度视频编码网络的编码压缩效率。

本方案中，比特估计子网络可以是指在压缩神经网络中，用于估计量化后特征图每个通道的比特数的子网络。它主要用于压缩神经网络中的量化步骤，在压缩神经网络中，量化是将神经网络中的浮点数参数转换成更小的整数，以减小参数的存储和计算开销。但是，量化会带来精度的损失，因此需要在保证模型精度的前提下，尽可能地减小量化带来的精度损失。比特估计子网络的作用就是帮助我们更好地控制量化的比特数，从而达到最佳的存储和计算开销与模型精度之间的平衡。

深度视频编码网络的编码压缩效率可以是指将原始视频压缩后得到的压缩码率与视频质量之间的平衡关系。在压缩视频时，需要在保证视频质量的前提下，尽可能地减小压缩码率，以便在传输和存储视频时减少带宽和存储空间的需求。因此，深度视频编码网络的编码压缩效率可以是评估其性能好坏的一个重要指标，通常使用压缩率或比特率来衡量，压缩率或比特率越小，表示压缩效率越高，压缩后的视频占用的空间越小。

在深度视频编码网络中，增强层的残差编码数据通过量化子网络得到了离散的整数值，但这些整数值并不一定是最优的，可能存在更优的近似值。比特估计子网络的作用就是对这些整数值进行优化，从而得到更为紧凑的编码表示。具体的，比特估计子网络会尝试对每个整数值进行优化，找到一个比该整数值更接近原始残差的近似值，并计算出用于表示这个近似值的比特数。这样，就可以得到更为紧凑的编码表示，从而提高编码压缩效率。比特估计子网络可以用于估计每个数据块的比特率，从而确定深度视频编码网络的编码压缩效率。

可以按照如下步骤确定深度视频编码网络的编码压缩效率：

1、将增强层的残差编码数据送入比特估计子网络；

2、比特估计子网络对输入的数据进行处理，输出每个数据块的比特率估计值；

3、根据比特率估计值和数据块大小，计算出每个数据块的压缩比；

4、对所有数据块的压缩比求平均值，即可得到整个视频序列的平均编码压缩效率。

本方案中，采用比特估计子网络对增强层的残差编码数据进行比特估计，可以通过预测编码所需比特数，来确定编码压缩效率。有助于深度视频编码网络在进行视频压缩时，能够更加准确地控制输出码率，并使得压缩后的视频质量更加稳定和可控。

S104，基于所述残差编码数据和所述基础层编码数据，生成码流数据。

码流数据可以是经过压缩编码处理后的视频、音频或图像等媒体数据流。在数字媒体传输或存储中，码流数据通常是由编码器生成，并被存储或传输到解码器以进行解码和播放。码流数据可以通过不同的压缩编码算法实现，以实现高效的数据压缩和传输，从而节省存储空间和网络带宽。在视频编码中，码流数据通常是由多个数据单元组成，包括头部信息、图像和音频数据等。其中，头部信息包含有关码流数据的元数据和控制信息，如图像的分辨率、帧率以及编码格式等，以便解码器能够正确地解码码流数据。

基于残差编码数据和基础层编码数据生成码流数据的过程通常称为码流封装。可以按照如下步骤生成码流数据：

1、从编码器中获取基础层编码数据和增强层的残差编码数据。

2、将基础层编码数据和残差编码数据合并成一个数据流，形成码流数据。

3、对码流数据进行分割和组织，以满足码流格式的要求。例如，对于视频编码，码流数据通常按照帧的顺序进行排列，并添加一些头部信息和控制信息，如码率、分辨率以及帧率等。

4、对码流数据进行压缩，以减小码流大小，节省存储空间和网络带宽。通常采用的压缩算法包括变长编码、熵编码以及预测编码等。

在上述各技术方案的基础上，可选的，在基于所述残差编码数据和所述基础层编码数据，生成码流数据之后，所述方法还包括：

将所述码流数据提供给接收端，供接收端基于所述基础层编码数据进行解码和上采样得到目标增强层的解码上采样结果，以及基于深度视频解码网络对所述残差编码数据进行像素域映射得到像素域映射结果，并根据所述解码上采样结果以及所述像素域映射结果确定目标增强层的重建视频数据；其中，所述深度视频解码网络与所述深度视频编码网络内的卷积层互为转置卷积层。

本方案中，接收端可以是指一个网络终端设备，例如计算机、智能手机、平板电脑以及电视等，这些设备可以通过网络接收码流数据，并通过相应的解码器将数据解码成原始的视频以及音频等内容进行播放。

在深度视频编码网络中，每个增强层都会对应一个相应的解码器。编码器将输入的数据转换为基础码流，而解码器则将基础码流转换为解码数据。目标增强层的解码上采样结果可以是接收端利用基础层编码数据进行解码和上采样所得到的对应目标增强层的重建结果。这个结果可以通过将接收到的基础层编码数据输入到解码器中，经过解码和上采样过程得到。

基于深度视频解码网络对残差编码数据进行像素域映射，可以是指利用编码器编码得到的残差编码数据和解码器对基础层数据的解码结果进行计算，得到一组像素值，表示目标增强层的像素值，这组像素值即为像素域映射结果。

目标增强层的重建视频数据可以是指在接收端根据解码上采样结果以及像素域映射结果重建出的视频数据，其包含了原始视频数据中的基础层和增强层的信息，同时经过解码和上采样处理，使得输出的视频数据与原始视频数据具有相似的质量和视觉效果。

卷积层可以是一种常用的神经网络层，它可以从输入数据中提取出特征。卷积层可以通过滑动窗口的方式对输入数据进行卷积操作，得到一组输出特征图。卷积层的参数由一组卷积核组成，每个卷积核都对输入数据的一小部分进行卷积操作，并生成对应的特征图。

转置卷积层可以是卷积的一种逆操作。它可以将输入数据的尺寸扩大，通常用于将低分辨率的特征图上采样到高分辨率。与卷积层类似，转置卷积层也由一组可学习的参数组成，即转置卷积核。转置卷积核将低分辨率的特征图上采样到高分辨率，并在这个过程中学习特征的重建。转置卷积层的参数数量通常比卷积层更多，因为它需要学习如何将特征图扩大，同时保留原始信息。

在视频传输过程中，需要将编码后的码流数据传输给接收端，以供接收端进行解码和重建。具体的，可以通过网络传输来实现，如通过网络协议(如TCP/IP)将数据传输给接收端。也可以采用传统的存储介质(如光盘、U盘等)将码流数据提供给接收端，以供其进行解码和重建。

接收端需要按照编码网络的编码方式对接收到的码流数据进行解码、重构以及上采样。可以按照如下步骤进行：

1、将接收到的码流数据按照编码网络的分层结构进行解码，得到基础层编码数据和各个增强层的残差编码数据。

2、对基础层编码数据进行解码和重构，得到基础层的解码结果。

3、对基础层的解码结果进行上采样，得到与目标增强层相同大小的解码上采样结果。

4、对各个增强层的残差编码数据进行比特估计，确定其编码压缩效率。

5、对各个增强层的残差编码数据进行解码和重构，得到各个增强层的解码结果。

6、将各个增强层的解码结果与基础层的解码结果相加，得到目标增强层的解码上采样结果。

基于深度视频解码网络对残差编码数据进行像素域映射可以分为以下步骤：

1、将残差编码数据输入深度视频解码网络，通过卷积和转置卷积层将编码数据还原成图像形式。

2、将还原后的图像形式的数据与基础层的数据相加，得到目标增强层的解码结果。

3、将目标增强层的解码结果输入到一个像素域映射网络中，通过卷积和转置卷积层将其映射到目标增强层的原始分辨率上。

4、得到的像素域映射结果为最终的增强层图像数据。

在接收端，根据解码上采样结果和像素域映射结果可以得到目标增强层的解码上采样结果和像素域映射结果，然后将它们相加得到目标增强层的重建结果。具体的，目标增强层的重建视频数据可以通过以下步骤得到：

1、对解码上采样结果进行反卷积操作，得到解码结果的像素域表示。

2、对像素域映射结果进行逆向映射，得到编码时的特征域表示。

3、对编码时得到的基础层数据和步骤2得到的特征域数据进行相加，得到目标增强层的特征域表示。

4、对目标增强层的特征域表示进行逆卷积操作，得到目标增强层的像素域表示。

5、将步骤4得到的结果和原始视频帧的基础层进行相加，得到最终的重建视频数据。

本方案中，通过深度视频编码网络对视频进行编码，可以获得更高的压缩比，从而减小传输过程中的带宽需求，降低传输延迟和成本。采用深度视频解码网络对编码数据进行解码、重建以及上采样，可以获得更高的视频质量，从而提高用户的观看体验。并且由于使用了残差编码和像素域映射等技术，可以降低编码后的数据量，从而降低传输过程中的带宽需求，减少网络拥塞和传输延迟。

实施例二

图4是本申请实施例二提供的基于AI的分级残差编码方法的流程示意图。如图4所示，具体包括如下步骤：

S201，对待分级编码的视频数据进行至少一级下采样处理，以得到的最低分辨率的数据所在层作为基础层，以视频数据所在层或者以视频数据所在层和中间分辨率的数据所在层作为增强层。

S202，对所述基础层采用基础编码器进行处理，得到基础层编码数据。

基础编码器可以是一种视频编码器，可以将视频序列压缩为基础层编码数据。它通常是一种标准的视频编码器，例如H.264、H.265以及HEVC(High Efficiency VideoCoding，高效率视频编码)等。这些编码器采用了先进的压缩算法，可以有效地压缩视频数据，以达到减少数据传输量和提高视频质量的目的。基础编码器通常只编码视频序列的低分辨率部分，即基础层，因此可以保证编码效率和传输效率的同时保证视频质量。

基础编码器可以通过以下步骤处理基础层，得到基础层编码数据：

1、预处理：对视频序列进行去噪、滤波等预处理，以减少编码时的噪声和失真。

2、采样：对视频序列进行下采样处理，降低视频的分辨率，得到基础层数据。

3、空间预测：基础编码器利用基础层前一帧和当前帧的信息进行帧内预测或利用基础层前一帧和后一帧的信息进行帧间预测，以提高编码效率。

4、时间预测：编码器将连续的视频帧划分为多个GOP(Group of Pictures，画面组)，并利用GOP内的帧间预测来进行时间预测，以进一步减少冗余信息。

5、变换与量化：对预测误差信号进行变换和量化处理，以降低信号的数据量。

6、熵编码：利用熵编码算法对变换和量化后的信号进行压缩，得到最终的基础层编码数据。

S203，对所述基础层编码数据进行上采样处理，得到各增强层的上采样结果；其中，所述和上采样处理和所述下采样处理的采样因子相同。

图5是本申请实施例二提供的基于AI的分级残差编码的上下采样的框架示意图，如图5所示，增强层的上采样结果可以是对基础层数据进行插值或者复制的结果，使其分辨率与下采样过程得到的该增强层的分辨率相同。具体的，上采样可以通过插值算法，如兰索斯方法、双线性插值以及双三次插值等来实现，也可以通过简单的复制像素值的方式实现。

上采样和下采样处理中，采样因子可以表示采样前后分辨率的比值。例如，将分辨率从720*1280下采样到360*640，采样因子就是宽度和高度均取原分辨率的1/2。将分辨率从360*640上采样到720*1280，采样因子就是宽度和高度均取原分辨率的2倍。当上采样处理和下采样处理的采样因子相同时，意味着它们采样的比例相同。例如，如果采样因子为2，则上采样处理将图像的每个维度增加2倍，而下采样处理将图像的每个维度减少2倍，这两个操作采样比例相同。

对基础层编码数据进行上采样可以使用插值方法，例如双线性插值以及双三次插值等。具体的，可以通过如下步骤进行：

1、根据基础层编码数据的分辨率和采样因子确定上采样后的分辨率。

2、对基础层编码数据进行解码，得到基础层的像素值。

3、使用插值方法将基础层的像素值上采样到目标分辨率。

4、对上采样后的像素值进行编码，得到增强层的上采样结果。需要注意的是，不同的增强层采用的上采样因子可能不同，因此需要分别处理。

S204，基于所述增强层的数据和所述上采样结果确定增强层残差。

可以通过计算增强层数据和其对应的上采样结果之间的差异确定增强层残差。具体的，可以对增强层数据进行下采样以匹配其对应的上采样结果的分辨率，然后计算它们之间的差异。这个差异就是增强层的残差，可以被编码并传输给接收端。

在上述各技术方案的基础上，可选的，基于所述增强层的数据和所述上采样结果确定增强层残差，包括：

采用所述增强层的数据与所述上采样结果进行像素点对位作差，得到空域残差计算结果，确定为当前增强层的增强层残差。

本方案中，像素点对位作差可以是指将两个图像的相同位置的像素点进行相减运算，得到一个新的差值图像。在视频编码中，通常使用像素对位作差来计算两个帧之间的残差，这个残差可以被编码并传输，以在解码端重新构建出下一帧图像。这样可以减少帧间冗余，达到更高的压缩率。

空域残差计算结果可以用来表示增强层的细节和纹理信息，因为在上采样的过程中会产生一些高频信息，而这些信息通常在下采样的过程中会被丢失。通过计算空域残差，可以将这些信息重新引入到编码数据中，从而提高视频的视觉质量。同时，空域残差也可以用于进行视频压缩，因为它可以用更少的位数来表示增强层数据中的高频信息。

可以将增强层原始数据进行上采样处理，得到上采样结果。然后将原始数据和上采样结果进行像素点对位作差，得到空域残差计算结果。此过程可以表示为：

空域残差计算结果＝增强层原始数据-上采样结果；

其中，上采样结果和原始数据的像素点要对齐，即像素点位置要一一对应。

这个过程可以通过使用插值算法实现上采样，例如双线性插值或三次样条插值。然后将原始数据和上采样结果按照像素点位置对齐，再进行像素点对位作差，得到空域残差计算结果，即为当前增强层的增强层残差。

本方案中，通过计算增强层与上采样结果的像素点差异，得到增强层残差，可以有效地提取出视频中高频细节信息和纹理信息，从而对视频质量进行增强。

S205，采用深度视频编码网络对增强层残差进行编码，得到增强层的残差编码数据。

S206，基于所述残差编码数据和所述基础层编码数据，生成码流数据。

本实施例中，可以利用基础层的信息来生成增强层的残差信息，从而减少了对增强层数据的编码量，进一步提高了视频编码的压缩效率。同时，通过对基础层进行上采样处理来得到各增强层的数据，可以保证各个层次之间的信息流通，提高了视频重构的质量。最终生成的码流数据能够在保证视频质量的同时，减小码流大小，提高传输效率，更适用于网络传输。

实施例三

图6是本申请实施例三提供的基于AI的分级残差编码装置的结构示意图。

如图6所示，具体包括如下：

下采样模块301，用于对待分级编码的视频数据进行至少一级下采样处理，以得到的最低分辨率的数据所在层作为基础层，以视频数据所在层或者以视频数据所在层和中间分辨率的数据所在层作为增强层；

确定模块302，用于确定基础层编码数据，以及确定增强层残差；

编码模块303，用于采用深度视频编码网络对增强层残差进行编码，得到增强层的残差编码数据；

生成模块304，用于基于所述残差编码数据和所述基础层编码数据，生成码流数据。

本实施例所提供的技术方案，下采样模块，用于对待分级编码的视频数据进行至少一级下采样处理，以得到的最低分辨率的数据所在层作为基础层，以视频数据所在层或者以视频数据所在层和中间分辨率的数据所在层作为增强层；确定模块，用于确定基础层编码数据，以及确定增强层残差；编码模块，用于采用深度视频编码网络对增强层残差进行编码，得到增强层的残差编码数据；生成模块，用于基于所述残差编码数据和所述基础层编码数据，生成码流数据。通过上述基于AI的分级残差编码装置，可以有效减少码流大小，实现高压缩比的视频编码，节约存储空间和网络带宽。同时，增强层的残差编码数据可以更好地保留视频的细节和纹理，从而提高视频的视觉质量和清晰度，并且使用深度视频编码网络还能实现更高的编码效率和更好的码率控制能力。

本申请实施例中的基于AI的分级残差编码装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的基于AI的分级残差编码装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为ios操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的基于AI的分级残差编码装置能够实现图1以及图4的方法实施例实现的各个过程，为避免重复，这里不再赘述。

实施例四

图7为本申请实施例提供的一种基于AI的分级残差编码设备的结构示意图，如图7所示，该设备包括处理器401、存储器402、输入装置403和输出装置404；设备中处理器401的数量可以是一个或多个，图7中以一个处理器401为例；设备中的处理器401、存储器402、输入装置403和输出装置404可以通过总线或其他方式连接，图7中以通过总线连接为例。存储器402作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的基于AI的分级残差编码方法对应的程序指令/模块。处理器401通过运行存储在存储器402中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的基于AI的分级残差编码方法。输入装置403可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置404可包括显示屏等显示设备。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种上述实施例描述的基于AI的分级残差编码方法，其中，包括：

确定基础层编码数据，以及确定增强层残差；

值得注意的是，上述基于AI的分级残差编码装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请实施例的保护范围。

在一些可能的实施方式中，本申请提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行本申请实施例所记载的基于AI的分级残差编码方法。所述程序产品可以采用一个或多个可读介质的任意组合实现。

Claims

1.一种基于AI的分级残差编码方法，其特征在于，包括：

确定基础层编码数据，以及确定增强层残差；

2.根据权利要求1所述的基于AI的分级残差编码方法，其特征在于，确定基础层编码数据，以及确定增强层残差，包括：

对所述基础层采用基础编码器进行处理，得到基础层编码数据；

对所述基础层编码数据进行上采样处理，得到各增强层的上采样结果；其中，所述和上采样处理和所述下采样处理的采样因子相同；

基于所述增强层的数据和所述上采样结果确定增强层残差。

3.根据权利要求2所述的基于AI的分级残差编码方法，其特征在于，基于所述增强层的数据和所述上采样结果确定增强层残差，包括：

4.根据权利要求1所述的基于AI的分级残差编码方法，其特征在于，所述深度视频编码网络包括残差编码子网络；

5.根据权利要求4所述的基于AI的分级残差编码方法，其特征在于，所述深度视频编码网络还包括量化子网络；

6.根据权利要求4或5所述的基于AI的分级残差编码方法，其特征在于，所述深度视频编码网络还包括比特估计子网络；

7.根据权利要求1所述的基于AI的分级残差编码方法，其特征在于，在基于所述残差编码数据和所述基础层编码数据，生成码流数据之后，所述方法还包括：

8.一种基于AI的分级残差编码装置，其特征在于，包括：

9.一种基于AI的分级残差编码设备，所述设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现权利要求1-7中任一项所述的基于AI的分级残差编码方法。

10.一种存储计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行权利要求1-7中任一项所述的基于AI的分级残差编码方法。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的基于AI的分级残差编码方法。