CN114424535A

CN114424535A - 使用外部参考对视频编码和解码进行预测

Info

Publication number: CN114424535A
Application number: CN202080066141.7A
Authority: CN
Inventors: P·博尔德斯; D·杜瓦扬; F·加尔平; M·克德兰瓦特
Original assignee: Interactive Digital Vc Holdings France Ltd
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2019-09-23
Filing date: 2020-09-18
Publication date: 2022-04-29
Also published as: WO2021058401A1; EP4035358A1; US20220360771A1

Abstract

各种实施方案涉及一种视频编码***，其中根据该视频编码***内未指定的过程生成解码所需的一些元素。此过程在下文中称为“外部”过程。此外部过程可以生成待由解码器使用的“外部”参考图片，该解码器适于使用这些外部图片。提出了基于此后处理方法的编码方法、解码方法、编码装置、解码装置。

Description

使用外部参考对视频编码和解码进行预测

技术领域

本公开属于视频压缩领域，并且至少一个实施方案更具体地涉及使用外部参考进行视频预测。

背景技术

为了实现高压缩效率，图像和视频编码方案通常采用预测和变换来利用视频内容中的空间和时间冗余。一般来讲，帧内或帧间预测用于利用帧内或帧间相关，然后对在原始图像块与预测图像块之间的差异(通常表示为预测误差或预测残差)进行变换、量化和熵编码。在编码期间，例如，通常使用诸如四叉树之类的各种划分方式将原始图像块划分/分成子块。为了重构视频，通过对应于预测、变换、量化和熵编码的逆过程对压缩数据进行解码。

发明内容

在至少一个实施方案中，建议基于参考元素来执行视频预测，该参考元素是根据视频编码***本身内未指定的过程生成的，因此超出了常规编解码器规范的范围。

第一方面涉及一种用于对视频数据进行解码的方法，针对视频的当前图片，该方法包括：获得表示外部参考图片的信息，以及基于外部参考图片重构当前图片。

第二方面涉及一种用于对视频数据进行解码的装置，该装置包括解码器，针对视频的当前图片，解码器被配置为：获得表示外部参考图片的信息，并且基于外部参考图片重构当前图片。

在第一方面和第二方面的变体中，视频是多视图视频，外部参考图片包括第一视图的纹理和表示第一视图与第二视图之间的视差信息的运动向量映射，并且重构第二视图是基于使用基于第一视图的纹理和视差信息的运动补偿进行的。另外的变体包括：将第一视图复制到第二视图的经解码图片缓冲器中；使第一视图与图片次序计数相关联；将视差信息复制到被并置的参考图片的运动信息映射中；以及基于复制信息预测第二视图。在另外的变体中，使用时间运动向量预测模式进行预测。

第三方面涉及一种用于对视频数据进行编码的方法，针对视频的当前图片，方法包括：生成表示外部参考图片的信息，以及使用编码视频对表示外部参考图片的信息进行编码。

第四方面涉及一种用于对视频进行编码的装置，该装置包括解码器，针对视频的当前图片，解码器被配置为：获得表示外部参考图片的信息，并且基于外部参考图片重构当前图片。

在第三方面和第四方面的变体中，视频是多视图视频，外部参考图片包括第一视图的纹理和表示第一视图与第二视图之间的视差信息的运动向量映射，并且重构第二视图是基于使用基于第一视图的纹理和视差信息的运动补偿进行的。

第五方面涉及一种视频信号，该视频信号包括具有视频内容和高级语法信息的比特流，所述比特流是根据第三方面或第四方面生成的。

本发明实施方案中的一个或多个实施方案还提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质具有存储在其上的用于根据上述方法中的任一种方法的至少一部分对视频数据进行编码或解码的指令。本实施方案还提供了一种计算机程序产品，该计算机程序产品包括用于执行上述方法中任一种方法的至少一部分的指令。

附图说明

图1示出了根据实施方案的视频编码器的框图。

图2示出了根据实施方案的视频解码器的框图。

图3示出了在其中实现各种方面和实施方案的***的示例的框图。

图4示出了常规基于块的视频编码标准的经解码图片缓冲器的原理。

图5示出了常规基于块的视频编码标准的时间运动向量预测模式的原理。

图6示出了常规基于块的视频编码标准的自适应运动向量预测模式的原理。

图7示出了常规基于块的视频编码标准的时间可扩展性的原理。

图8示出了常规基于块的视频编码标准的空间可扩展性的示例。

图9示出了在多视图应用中使用外部参考图片的示例实施方案。

图10示出了使用TMVP模式的多视图应用的示例实施方案。

图11示出了使用TMVP模式的多视图应用的变体实施方案。

图12示出了“外部参考图片”不是ILRP的变体实施方案。

图13示出了由外部过程生成“外部参考图片”的实施方案。

具体实施方式

各种实施方案涉及一种视频编码***，其中根据视频编码***内未指定的过程生成解码所需的一些元素，并且更具体地生成预测所需的一些元素。此过程在下文中称为“外部”过程。此外部过程可以生成待由解码器使用的“外部”参考图片，该解码器适于使用这些外部图片。提出了基于此后处理方法的编码方法、解码方法、编码装置、解码装置。

此外，本发明方面尽管描述了与VVC(多功能视频编码)或HEVC(高效视频编码)规范的特定草案相关的原理，但是不限于VVC或HEVC，并且可应用于例如其他标准和推荐(无论是预先开发的还是未来开发的)以及任何此类标准和推荐的扩展(包括VVC和HEVC)。除非另外指明或技术上排除在外，否则本申请中所述的方面可单独或组合使用。

图1示出了视频编码器100。设想了这一编码器100的变型，但是为了清楚起见，下文描述了编码器100而不描述所有预期的变型。在编码之前，视频序列可经过预编码处理(101)，例如，将颜色变换应用于输入彩色图片(例如，从RGB 4:4:4到YCbCr 4:2:0的转换)，或执行输入图片分量的重新映射，以便获得对压缩更具弹性的信号分布(例如，使用颜色分量中的一个颜色分量的直方图均衡化)。元数据可与预处理相关联并且附加到比特流。

在编码器100中，图片由编码器元件进行编码，如下所述。以例如CU为单位对要编码的图片进行分区(102)和处理。例如，使用帧内模式或帧间模式对每个单元进行编码。当单元以帧内模式进行编码时，其执行帧内预测(160)。在帧间模式中，执行运动估计(175)和补偿(170)。编码器决定(105)帧内模式或帧间模式中的哪一者用于对单元进行编码，并且通过例如预测模式标志来指示帧内/帧间决策。例如通过从原始图像块减去(110)预测块来计算预测残差。

然后对预测残差进行变换(125)和量化(130)。对经量化的变换系数以及运动向量和其他语法元素进行熵编码(145)，以输出比特流。编码器可跳过变换，并对未变换的残余信号直接应用量化。编码器可绕过变换和量化两者，即，在不应用变换或量化过程的情况下直接对残差进行编码。

编码器对编码块进行解码以提供用于进一步预测的参考。对量化的变换系数进行去量化(140)和逆变换(150)以解码预测残差。组合(155)经解码的预测残差和预测块，重构图像块。向重构图片应用环路滤波器(165)以执行例如解块/SAO(样本自适应偏移)滤波、自适应环路滤波器(ALF)滤波，以减少编码伪影。经滤波的图像存储在参考图片缓冲器(180)中。

图2示出了视频解码器200的框图。在解码器200中，比特流由解码器元件进行解码，如下所述。视频解码器200一般执行与编码步骤相反的解码步骤。编码器100通常还执行视频解码作为对视频数据编码的一部分。具体地，解码器的输入包括视频比特流，该视频比特流可由视频编码器100生成。首先对比特流进行熵解码(230)以获得变换系数、运动向量和其他经编码的信息。图片分区信息指示如何对图片进行分区。因此，解码器可以根据解码图片分区信息划分(235)图片。对变换系数进行去量化(240)和逆变换(250)以对预测残差进行解码。组合(255)经解码的预测残差和预测块，重构图像块。可从帧内预测(260)或运动补偿预测(即帧间预测)(275)获得(270)预测块。向重构图像应用环路滤波器(265)。经滤波的图像存储在参考图片缓冲器(280)中。

经解码的图片还可经过解码后处理(285)，例如，逆颜色变换(例如，从YCbCr 4:2:0到RGB 4:4:4的变换)或执行在预编码处理(101)中执行的重新映射过程的逆重新映射。解码后处理可使用在预编码处理中导出并且在比特流中发信号通知的元数据。

图3示出了在其中实现各种方面和实施方案的***的示例的框图。***1000可体现为包括下文所述的各个部件的设备，并且被配置为执行本文档中所述的一个或多个方面。此类设备的示例包括但不限于各种电子设备，诸如个人计算机、膝上型计算机、智能电话、平板电脑、数字多媒体机顶盒、数字电视机接收器、个人视频录制***、连接的家用电器和服务器。***1000的元件可单独地或组合地体现在单个集成电路(IC)、多个IC和/或分立部件中。例如，在至少一个实施方案中，***1000的处理元件和编码器/解码器元件分布在多个IC和/或分立部件上。在各种实施方案中，***1000经由例如通信总线或通过专用输入和/或输出端口通信地耦接到一个或多个其他***或其他电子设备。在各种实施方案中，***1000被配置为实现本文档中描述的一个或多个方面。

***1000包括至少一个处理器1010，该处理器被配置为执行加载到其中的指令，以用于实现例如本文档中所述的各个方面。处理器1010可包括嵌入式存储器、输入输出接口和本领域已知的各种其他电路。***1000包括至少一个存储器1020(例如，易失性存储器设备和/或非易失性存储器设备)。***1000包括存储设备1040，该存储设备可包括非易失性存储器和/或易失性存储器，包括但不限于电可擦除可编程只读存储器(EEPROM)、只读存储器(ROM)、可编程只读存储器(PROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例，存储设备1040可包括内部存储设备、附接存储设备(包括可拆和不可拆的存储设备)和/或网络可访问的存储设备。

***1000包括编码器/解码器模块1030，该编码器/解码器模块被配置为例如处理数据以提供编码视频或解码视频，并且编码器/解码器模块1030可包括其自身的处理器和存储器。编码器/解码器模块1030表示可被包括在设备中以执行编码和/或解码功能的模块。众所周知，设备可包括编码模块和解码模块中的一者或两者。此外，编码器/解码器模块1030可实现为***1000的独立元件，或者可结合在处理器1010内作为本领域技术人员已知的硬件和软件的组合。

要加载到处理器1010或编码器/解码器1030上以执行本文档中所述的各个方面的程序代码可存储在存储设备1040中，并且随后被加载到存储器1020上以供处理器1010执行。根据各种实施方案，处理器1010、存储器1020、存储设备1040和编码器/解码器模块1030中的一者或多者可在本文档中所述过程的执行期间存储各个项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、解码的视频或部分解码的视频、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。

在一些实施方案中，处理器1010和/或编码器/解码器模块1030内部的存储器用于存储指令和提供工作存储器以用于在编码或解码期间需要的处理。然而，在其他实施方案中，处理设备外部的存储器(例如，处理设备可以是处理器1010或编码器/解码器模块1030)用于这些功能中的一个或多个功能。外部存储器可以是存储器1020和/或存储设备1040，例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中，外部非易失性闪存存储器用于存储例如电视机的操作***。在至少一个实施方案中，快速外部动态易失性存储器诸如RAM用作视频编码和解码操作的工作存储器，诸如MPEG-2(MPEG是指运动图片专家组，MPEG-2也称为ISO/IEC 13818，并且13818-1也称为H.222，13818-2也称为H.262)、HEVC(HEVC是指高效视频编码，也称为H.265和MPEG-H部分2)或VVC(通用视频编码，由联合视频专家小组(JVET)开发的新标准)。

对***1000的元件的输入可通过如框1130中所示的各种输入设备提供。此类输入设备包括但不限于：(i)射频(RF)部分，其接收例如由广播器通过空中发射的RF信号；(ii)分量(COMP)输入端子(或一组COMP输入端子)；(iii)通用串行总线(USB)输入端子；和/或(iv)高清晰度多媒体接口(HDMI)输入端子。图3中未示出的其他示例，包括未示出复合视频。

在各种实施方案中，框1130的输入设备具有如本领域已知的相关联的相应输入处理元件。例如，RF部分可与适用于以下的元件相关联：(i)选择所需的频率(也称为选择信号，或将信号频带限制到一个频带)，(ii)下变频选择的信号，(iii)再次频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带，(iv)解调下变频和频带限制的信号，(v)执行纠错，以及(vi)解复用以选择所需的数据包流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件，例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包括执行这些功能中的各种功能的调谐器，这些功能包括例如下变频接收信号至更低频率(例如，中频或近基带频率)或至基带。在一个机顶盒实施方案中，RF部分及其相关联的输入处理元件接收通过有线(例如，电缆)介质发射的RF信号，并且通过滤波、下变频和再次滤波至所需的频带来执行频率选择。各种实施方案重新布置上述(和其他)元件的顺序，移除这些元件中的一些元件，和/或添加执行类似或不同功能的其他元件。添加元件可包括在现有元件之间***元件，例如，***放大器和模数变换器。在各种实施方案中，RF部分包括天线。

此外，USB和/或HDMI端子可包括用于跨USB和/或HDMI连接将***1000连接到其他电子设备的相应接口处理器。应当理解，输入处理(例如Reed-Solomon纠错)的各个方面可根据需要例如在单独的输入处理IC内或在处理器1010内实现。类似地，USB或HDMI接口处理的方面可根据需要在单独的接口IC内或在处理器1010内实现。将解调流、纠错流和解复用流提供给各种处理元件，包括例如处理器1010以及编码器/解码器1030，该处理元件与存储器和存储元件结合操作以根据需要处理数据流以呈现在输出设备上。

***1000的各种元件可设置在集成外壳内。在集成外壳内，各种元件可使用合适的连接布置1140(例如，如本领域已知的内部总线，包括IC间(I2C)总线、布线和印刷电路板)互连并且在其间发射数据。

***1000包括能够经由通信信道1060与其他设备通信的通信接口1050。通信接口1050可包括但不限于被配置为通过通信信道1060发射和接收数据的收发器。通信接口1050可包括但不限于调制解调器或网卡，并且通信信道1060可例如在有线和/或无线介质内实现。

在各种实施方案中，使用诸如Wi-Fi网络，例如IEEE 802.11(IEEE是指电气和电子工程师协会)之类的无线网络将数据流式发射或以其他方式提供给***1000。这些实施方案的Wi-Fi信号通过适用于Wi-Fi通信的通信信道1060和通信接口1050接收。这些实施方案的通信信道1060通常连接到接入点或路由器，该接入点或路由器提供对包括互联网的外部网络的访问，以用于允许流式应用和其他云上通信。其他实施方案使用机顶盒向***1000提供流式数据，该机顶盒通过输入块1130的HDMI连接递送数据。还有其他实施方案使用输入块1130的RF连接向***1000提供流式数据。如上所述，各种实施方案以非流式的方式提供数据。此外，各种实施方案使用除了Wi-Fi以外的无线网络，例如蜂窝网络或蓝牙网络。

***1000可向各种输出设备(包括显示器1100、扬声器1110和其他***设备1120)提供输出信号。各种实施方案的显示器1100包括例如触摸屏显示器、有机发光二极管(OLED)显示器、曲面显示器和/或可折叠显示器中的一者或多者。显示器1100可用于电视机、平板、笔记本、蜂窝电话(移动电话)或其他设备。显示器1100还可与其他部件集成在一起(例如，如在智能电话中)，或者是单独的(例如，笔记本电脑的外部监视器)。在实施方案的各种示例中，其他***设备1120包括独立数字视频光盘(或数字多功能光盘，两个术语都是DVR)、光盘播放器、立体声***和/或照明***中的一者或多者。各种实施方案使用提供基于***1000的输出的功能的一个或多个***设备1120。例如，盘播放器执行播放***1000的输出的功能。

在各种实施方案中，控制信号使用诸如AV.Link、消费电子产品控制(CEC)或其他通信协议的信令在***1000与显示器1100、扬声器1110或其他***设备1120之间传送，该其他通信协议使得能够在有或没有用户干预的情况下进行设备到设备控制。输出设备可通过相应接口1070、1080和1090经由专用连接通信地耦接到***1000。另选地，输出设备可使用通信信道1060经由通信接口1050连接到***1000。显示器1100和扬声器1110可与电子设备(诸如例如，电视机)中的***1000的其他部件集成在单个单元中。在各种实施方案中，显示接口1070包括显示驱动器，诸如例如定时控制器(T Con)芯片。

另选地，如果输入1130的RF部分是单独机顶盒的一部分，则显示器1100和扬声器1110可选地与其他部件中的一个或多个部件分开。在显示器1100和扬声器1110为外部部件的各种实施方案中，输出信号可经由专用输出连接(包括例如HDMI端口、USB端口或COMP输出)提供。

这些实施方案可由处理器1010或由硬件或由硬件和软件的组合实现的计算机软件执行。作为非限制性示例，这些实施方案可由一个或多个集成电路实现。作为非限制性示例，存储器1020可以是适合于技术环境的任意类型，并且可使用任何适当的数据存储技术实现，诸如光学存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器。作为非限制性示例，处理器1010可以是适合于技术环境的任何类型，并且可涵盖微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一者或多者。

本发明的技术领域涉及参考图片缓冲器(180、280)，也称为经解码图片缓冲器，以及视频编码器或解码器的运动估计(175)元件和运动补偿(170、275)元件。

图4示出了常规基于块的视频编码标准的经解码图片缓冲器的原理。例如，在诸如VVC之类的常规基于块的混合视频编码标准中，经解码图片缓冲器(DPB)存储可用于对当前图片进行解码的不同可能参考图片。根据为图片提供时间参考的图片次序计数(POC)显示图片。DPB可以包含与每个图片相关联的重构纹理和运动信息映射(MV-映射又名MV-信息，又名并置运动)。运动信息包含用于通常对当前图片的块进行解码的运动向量、参考索引和参考POC(pocRef)。通常，运动信息以基于块的分辨率(例如，4x4的分辨率)存储。

在当前图片的解码过程期间，用于构建(当前)块的重构运动信息被存储在MV-映射中以可能进一步用于预测当前图片的其他块的MV或者在当前图片存储在DPB中的情况下(标记为“用于参考”)。

参考图片列表0(当前图片左侧示出的L0)包含用于对P个图片进行解码的参考图片的列表。参考图片列表0和参考图片列表1(当前图片右侧示出的L1)包含用于对B个图片进行解码的参考图片的列表。

图5示出了常规基于块的视频编码标准的时间运动向量预测模式的原理。实际上，在常规视频编解码器中，运动信息可以在所谓的时间运动向量预测模式(TMVP)中使用。在该模式下，对于每个切片或图片，DPB的一个参考被用信号表示为图中由虚线矩形示出的并置(“coLoc”)。我们将pocCol表示为“coLoc”参考图片的POC。在当前图片中，在重构当前块的过程中，当前块可以使用coLoc参考MV映射中的并置MV来构建运动补偿预测(等式2)。例如，TMVP预测因子是由并置MV(mvCol)通过重新缩放过程(等式1)构建的。我们将pocRef表示为参考图片的POC，并且将pocColRef表示为与mvCol(图2)相关联的参考图片，并用于重构“coLoc”图片中的并置块：

TMVP＝MV×(pocCur-pocRef)/(pocCol-pocColRef) (等式1)

pred-Ima[pocCur][x]＝Ima[pocRef][x+TMVP] (等式2)

pred-Ima[pocCol][x]＝ima[pocColRef][x+mvCol] (等式3)

在(pocCur–pocRef)等于(pocCol–pocColRef)的特定情况下，无论(pocCur–pocRef)的值如何，TMVP＝MV，因此如果pocCol等于pocColRef，则避免了等式1的未定义结果。

图6示出了常规基于块的视频编码标准的自适应运动向量预测模式的原理。实际上，运动信息也可以在(另一)所谓的自适应运动向量预测模式(AMVP)中使用。在AMVP模式中，运动向量(MV)预测因子列表是从重构的邻域中构建的。在比特流中发信号通知参考索引(pocRef)和MV预测因子列表中的MV预测因子的索引。在图中，A表示当前块的相邻重构的候选项，mvA表示块A的重构MV，并且refPocA表示A的参考索引的参考图片的POC。根据不同的视频编解码器，运动向量预测因子mvP可以等于mvA或可以由mvA构建通过重新缩放(等式4)来构建。

mvP＝mvA×(pocCur-pocRef)/(pocCur–pocRefA) (等式4)

图7示出了常规基于块的视频编码标准的可扩展性原理。当视频编解码器使用可扩展性时，视频编码器可以生成若干比特流(命名层)，这些比特流允许对具有增强质量或关于基础层流或另一层的附加特征的视频序列进行编码。例如，重构的图像可以增强分辨率(空间可扩展性)、质量(SNR可扩展性)、帧速率(时间可扩展性)、色域(色域可扩展性、高动态范围可扩展性)、位深度(位深度可扩展性)、附加视图(多视图可扩展性)等。可扩展视频编解码器利用了预测具有来自它所依赖的另一个比特流/层的重构图像的块的能力。例如，该图描绘了时间可扩展性，其中可能对层1的附加时间图片进行编码，从而可以根据基础层0流(图中复制的参考帧)预测重构的参考帧。

图8示出了常规基于块的视频编码标准的空间可扩展性的示例。在此示例中，来自基础层(层-0)的重构图片可被重新缩放(例如，上采样)并且用作为当前层(层-1)构建帧间预测的附加参考帧。此类附加参考帧被称为层间参考图片(ILRP)并且存储在经解码图片缓冲器的子区段(子DPB)中。层间参考图片(ILRP)在时间上与当前层的当前图片并置，换句话说，它们具有相同的POC。

预计未来的***和/或应用需要能够使用可通过其他(外部)方式获得的参考纹理和/或运动，即超出当前视频标准的范围。例如：

-当前层的一个图片可以使用从用不同标准编码的另一层进行解码的重构图片来预测(例如：层-1是VVC编码的，层-0是AVC编码的)。

-可以使用由基于应用的模块生成的一个附加参考图片。例如，可以使用附加的“虚拟参考”帧，其基于DPB的两个参考图片用基于深度学习的帧速率上转换算法计算。

-可以用不同加权预测参数复制一个参考图片以管理局部亮度补偿或提高运动精度。该原理可以通过更精细的亮度变化模型进行扩展。

-多视图内容可用于为沉浸式内容提供视差。不同视图之间存在许多冗余以允许该视差存在。压缩视图时，一个视图可以很好地预测下一个视图。VVC中没有可用的机制以根据另一视图的纹理和深度来计算视图的预测。为了利用此类有希望根据另一视图预测一个视图的可能性，需要有一种方法来发出信号以表明DPB中的一个视图已经通过用作预测因子的外部装置生成。

不同的视频编解码器支持不同的机制，从而实现可扩展性。SHVC提出使用多层编码和高级语法，并且将外部层定义为nuh_layer_id等于0的基础层。然而，仅nuh_layer_id大于0的图片的解码可以使用“外部基础层”。其在视频参数集(VPS)中用“vps_base_layer_internal_flag＝0”发出信号。

在传统的可扩展编解码器中，“层间参考图片”(ILRP)具有与当前图片相同的POC(相同的访问单元)。ILRP被放置在子DPB中，该子DPB包含与当前POC具有相同POC的DPB的图片。

例如，在多视图可扩展的情况下，一个可以具有对应于两个不同视图的两个“层间参考图片”。

目前，与HEVC(3D-HEVC和SHVC扩展/附件)所做的相反，VVC还没有扩展到支持特定过程的可扩展性功能，也没有专门优化多视图和深度内容的压缩。在VVC中，设想了仅使用高级语法信令来支持可扩展性。

VVC草案规范描述了“参考图片列表结构”，用于向用于解码当前图片的DPB的组成发送信号。“参考图片列表结构”语法允许用于构建参考图片POC列表的信令信息。该语法在表1中示出。

表1

用于构建参考图片POC的过程包括以下步骤：

abs_delta_poc_st[listIdx][rplsIdx][i]指定变量AbsDeltaPocSt[listIdx][rplsIdx][i]的值，如下所示：

if(sps_weighted_pred_flag||sps_weighted_bipred_flag)

AbsDeltaPocSt[listIdx][rplsIdx][i]

＝abs_delta_poc_st[listIdx][rplsIdx][i] (7-121)

else

AbsDeltaPocSt[listIdx][rplsIdx][i]

＝abs_delta_poc_st[listIdx][rplsIdx][i]+1

实际上，在说明书中陈述了当未启用加权预测时不需要重复参考图片。这样，当未启用加权预测时，不允许ΔPOC值为零。

另外，按如下方式确定从AbsDeltaPocSt推导出DeltaPocValSt：

并且按如下方式确定从DeltaPocValSt推导出参考图片列表：

下文描述的实施方案在设计时考虑了前述内容。图1的编码器100、图2的解码器200和图3的***1000适于实现下文描述的实施方案中的至少一个实施方案，并且更具体地实现使用参考图片缓冲器(180、280)的视频编码器或解码器的运动估计(175)元件和运动补偿(170、275)元件。

在至少一个实施方案中，视频编码***使用外部参考图片来重构视频，这些外部参考图片通过视频编码/解码过程旁边的外部过程在本地生成并且不包括在编码流中。在至少一个实施方案中，此原理应用于多视图，并且允许使用视差等式来根据另一视图预测当前视图。

在至少一个实施方案中，使用描述用于重构当前图片的参考图片列表的语法元素发信号通知外部参考图片(例如，在VVC语法的示例中，用“参考图片列表结构”分组)。为此目的，定义了“external_ref_pic_flag”以发信号通知参考图片是由“当前规范中未指定的外部装置”提供的。

表2示出了对应高级语法的示例。在本文所描述的所有另外的语法元素中，新元素由带下划线的文本标识。

<u>if(enabled_external_ref_pic_flag)</u>
		<u>external_ref_pic_flag[listIdx][rplsIdx][i]</u>	<u>u(1)</u>

表2

在变体实施方案中，定义了另外的标志“available_ref_pic_flag以发信号通知参考图片不可用(既不存在于比特流中也不由外部装置提供)，但VPS包括好像该参考图片存在于比特流中一样的信息。

在另一变体中，仅针对层间参考图片对该标志进行编码，如表3的高级语法示例所示。

表3

在变体实施方案中，标志“external_ref_pic_flag”和/或“available_ref_pic_flag”的存在取决于参考图片是否为ILRP，和/或取决于参考图片是短期的还是长期的。例如，若为长期参考图片，则标志不存在。

在至少一个实施方案中，“外部参考图片”的概念扩展到任何层。这意味着：

-“外部图片参考”可以具有不等于0的nuh_layer_id

-和/或对nuh_layer_id等于0的图片的解码可以使用“外部图片参考”

-和/或“外部图片参考”可以不被认为是ILRP。

例如，在VVC高级语法的示例中，这可以通过发信号通知比特流是否包含可能添加在子DPB中的“外部参考图片”(enabled_external_ref_pic_flag)来实现。例如，可以在SPS或VPS、DPS、PPS或切片头中对此标志进行编码。表4示出了SPS中的这种标志。

表4

在变体实施方案中，针对每个层，VPS包括命名为vps_external_layer[i]的新标志，以指示层是否为外部的，如表5所示。

表5

在至少一个实施方案中，外部参考图片具有与当前POC不同的POC(不同的访问单元)。在这种情况下，即当至少一个外部参考图片具有与当前POC不同的POC时，可以应用MV重新缩放过程。

在至少一个实施方案中，当DPB包含若干外部参考图片时，可以使用两个外部参考图片进行双向预测。这与外部参考图片的POC值无关。在变体中，用于双向预测的外部参考图片应具有与当前POC不同的POC。

在至少一个实施方案中，若干外部参考图片具有与当前POC相同的POC。

在至少一个实施方案中，若干“外部参考图片”具有相同的POC(pocExt)，该pocExt与当前POC不同。

为了使这些实施方案成为可能，需要对由带下划线的文本标识的VVC语法进行以下修改。

abs_delta_poc_st[listIdx][rplsIdx][i]指定变量

AbsDeltaPocSt[listIdx][rplsId][i]的值，如下所示：

关于运动向量，在SHVC中，当参考为IRLP时，要求重构运动向量的值等于0。然而，在多视图预测的情况下，由于当前视图的重构样本可能在空间上不与参考视图对齐，因此该要求会适得其反。因此，在至少一个实施方案中，标志(例如命名为zero_mv_ref_flag)指示是否应用该要求。例如，可以在参考图片列表结构或VPS中对标志zero_mv_ref_flag进行编码。

在变体中，另一标志或同一标志指示是否应将MV-映射设置为零。在变体实施方案中，该标志仅针对“外部参考图片”进行编码。在变体实施方案中，仅在ILRP的情况下对该标志进行编码，因此在inter_layer_ref_pics_flag[listIdx][rplsIdx][i]＝0的情况下，该标志不存在(并且因此推断为假)。在变体实施方案中，为了确保与SHVC中相同的行为，在ILRP的情况下不对该标志进行编码，并且在果inter_layer_ref_pics_flag[listIdx][rplsIdx][i]＝1的情况下，该标志被推断为真。

图9示出了在多视图应用中使用外部参考图片的示例实施方案。实际上，在多视图***的情况下，如果两个视图VA和VB的视口信息(场景中的传感器位置、视野…)和视图深度(纹理视图的每个样本的深度信息)是已知的，则可以导出两个视图VA与VB之间的视差DAB。视差信息DAB允许将VB纹理样本投影到VA中(如图9所示，并且由等式6表示)。在这种情况下，模型与在一个参考图片上应用的经典运动补偿相同(等式4)。因此，可以使用视差作为运动信息(MV)来根据VB纹理预测VA纹理，其中VB纹理是参考图片(等式5)：

pred-Ima[pocCur][x]＝Ima[pocRef][x+mv] (等式5)

pred-view-A[pocCur][x]＝view-B[pocRef][x+DAB] (等式6)

图10示出了使用TMVP模式的多视图应用的示例实施方案。至少一个实施方案涉及一种过程，该过程用于生成和发信号通知一个“并置”参考(纹理和MV-信息)，使得其可以经由TMVP模式使用以使用视差方程来根据另一视图(视图-B)预测当前视图(视图-A)。

为此目的，要完成的操作如下：

-将视图-B复制到视图-A的DPB中并且使“视图-B”与porref相关联，

-将视差DAB复制到“并置”参考图片(pocCol)的运动信息(MV映射)中，

-然后，可以使用先前介绍的TMVP模式，使用图10所示的视差信息来根据视图-B预测视图-A的当前块。

图11示出了使用TMVP模式的多视图应用的变体实施方案。在此类实施方案中，生成标记为“并置”的参考图片，并且该图片由视图-B的纹理和用视差DAB构建的MV-映射构成(如图9所示)。pocCol、pocRef和pocColRef的值被设置为等于pocCur，因此(pocCur-pocRef)和(pocCol-pocColRef)等于零，TMVP等于如先前所解释的MVP。

在变体实施方案中，当使用语法VVC-6.0时，ILRP的MV-映射不被复制到子DPB中，但设置为零。无论ILRP的MV-映射是否被复制，其在比特流中发信号通知。例如，可以在SPS、切片头、DPS和/或VPS中发信号通知标志。

在多视图应用的变体实施方案中，在具有MV重新缩放的AMVP的情况下，如果使用AMVP预测相邻块A，则pocRefA等于pocCur，而pocRef可能与pocCur不同。因此，(等式4)的分母可能为零。为了应对这种不确定性，AMVP模式按如下方式修改：

-如果AMVP使用MV重新缩放并且pocCur等于pocRefA，则将mvP设置为等于mvA。

在另一变体实施方案中，当AMVP使用MV重新缩放并且pocCur等于pocRefA时，则mvP被设置为等于零。

图12示出了“外部参考图片”不是ILRP的变体实施方案。在此实施方案中，发信号通知与当前层的重构图片(“use_rec_ref_pic_flag”)的依赖关系。其指示用于构建“外部参考图片”的过程是否需要当前层的一些重构图片。如果“外部参考图片”具有与当前图片相同的POC，则将其放置在子DPB中。有两个另选方案是可能的：依赖当前层的参考图片或依赖当前层的非参考图片。

表6示出了对应语法的示例。

表6

常规可扩展的编解码器规格描述了从源图片导出层间参考图片(ILRP)以进行层间预测的处理。典型的示例是在规格中描述算法的升级或色域可扩展性。然而，一些应用需要应用不同的过程，同时保持相同的层间依赖信息。

图13示出了由外部过程生成“外部参考图片”的实施方案。在这种情况下，外部过程是指未在视频编解码器规范中定义的过程。外部过程可以使用当前图片，但也可以使用外部数据来生成参考图片和运动向量。在至少一个实施方案中，例如命名为“vps_external_process_flag”的标志用于发信号通知参考图片是否使用外部过程来构建层间参考图片。

在变体实施方案中，如果vps_external_layer[i]＝1，则信息vps_external_process_flag不存在。在另一变体中，如果vps_external_process_flag不存在并且vps_external_layer[i]＝1，则推断vps_external_process_flag等于1。在另一变体中，如果vps_external_process_flag不存在并且vps_external_layer[i]＝0，则推断vps_external_process_flag等于0。

表7示出了参考图片列表的语法示例，该示例经修改以实现上文所描述的实施方案中的至少一个实施方案。修改后的元素由带下划线的文字标识。

表7

表8示出了参考图片列表的语法的示例，该示例经修改以实现上文所描述的实施方案中的至少一个实施方案。修改后的元素由带下划线的文字标识。

表8

本申请描述了各个方面，包括工具、特征、实施方案、模型、方法等。具体描述了这些方面中的许多方面，并且至少示出个体特性，通常以可能听起来有限的方式描述。然而，这是为了描述清楚，并不限制这些方面的应用或范围。实际上，所有不同的方面可组合和互换以提供进一步的方面。此外，这些方面也可与先前提交中描述的方面组合和互换。

本专利申请中描述和设想的方面可以许多不同的形式实现。图1、图2和图3提供了一些实施方案，但是考虑了其他实施方案，并且这些图的讨论不限制实施方式的广度。这些方面中的至少一个方面通常涉及视频编码和解码，并且至少一个其他方面通常涉及发射生成或编码的比特流。这些和其他方面可实现为方法、装置、其上存储有用于根据所述方法中任一种对视频数据编码或解码的指令的计算机可读存储介质，和/或其上存储有根据所述方法中任一种生成的比特流的计算机可读存储介质。

本文描述了各种方法，并且每种方法包括用于实现所述方法的一个或多个步骤或动作。除非正确操作方法需要特定顺序的步骤或动作，否则可修改或组合特定步骤和/或动作的顺序和/或用途。

本专利申请中所描述的各种方法和其他方面可用于修改视频编码器100和解码器200的模块(例如，参考图片缓冲器(180、280)、运动补偿模块和运动估计模块(170、175、275))，如图1和图2所示。此外，本发明方面不限于VVC或HEVC，并且可应用于例如其他标准和推荐(无论是预先存在的还是未来开发的)以及任何此类标准和推荐的扩展(包括VVC和HEVC)。除非另外指明或技术上排除在外，否则本申请中所述的方面可单独或组合使用。

在本申请中使用各种数值。具体值是为了示例目的，并且所述方面不限于这些具体值。

各种具体实施参与解码。如本申请中所用，“解码”可涵盖例如对所接收的编码序列执行的过程的全部或部分，以便产生适于显示的最终输出。在各种实施方案中，此类过程包括通常由解码器执行的一个或多个过程。在各种实施方案中，此类过程还包括或另选地包括由本应用中所述的各种具体实施的解码器执行的过程。

作为进一步的示例，在一个实施方案中，“解码”仅是指熵解码，在另一个实施方案中，“解码”仅是指差分解码，并且在又一个实施方案中，“解码”是指熵解码和差分解码的组合。短语“解码过程”是具体地指代操作的子集还是广义地指代更广泛的解码过程基于具体描述的上下文将是清楚的，并且据信将被本领域的技术人员很好地理解。

各种具体实施参与编码。以与上面关于“解码”的讨论类似的方式，如在本申请中使用的“编码”可涵盖例如对输入视频序列执行以便产生编码比特流的全部或部分过程。在各种实施方案中，此类过程包括通常由编码器执行的一个或多个过程。在各种实施方案中，此类过程还包括或另选地包括由本应用中所述的各种具体实施的编码器执行的过程。

作为进一步的示例，在一个实施方案中，“编码”仅是指熵编码，在另一个实施方案中，“编码”仅是指差分编码，并且在又一个实施方案中，“编码”是指差分编码和熵编码的组合。短语“编码过程”是具体地指代操作的子集还是广义地指代更广泛的编码过程基于具体描述的上下文将是清楚的，并且据信将被本领域的技术人员很好地理解。

注意，本文所使用的语法元素是描述性术语。因此，它们不排除使用其他语法元素名称。

当附图呈现为流程图时，应当理解，其还提供了对应装置的框图。类似地，当附图呈现为框图时，应当理解，其还提供了对应的方法/过程的流程图。

各种实施方案是指速率失真优化。具体地，在编码过程期间，通常考虑速率和失真之间的平衡或权衡，这常常考虑到计算复杂性的约束。速率失真优化通常表述为最小化速率失真函数，该速率失真函数是速率和失真的加权和。存在不同的方法解决速率失真优化问题。例如，这些方法可基于对所有编码选项(包括所有考虑的模式或编码参数值)的广泛测试，并且完整评估其编码成本以及重构信号在编码和解码之后的相关失真。更快的方法还可用于降低编码复杂性，特别是对基于预测或预测残差信号而不是重构的残差信号的近似失真的计算。也可使用这两种方法的混合，诸如通过针对可能的编码选项中的仅一些编码选项使用近似失真，而针对其他编码选项使用完全失真。其他方法仅评估可能的编码选项的子集。更一般地，许多方法采用各种技术中任一种来执行优化，但是优化不一定是对编码成本和相关失真两者的完整评估。

本文所述的具体实施和方面可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如，仅作为方法讨论)，讨论的特征的具体实施也可以其他形式(例如，装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的处理器中实现，该处理设备包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如，计算机、平板电脑、智能电话、移动电话、便携式/个人数字助理以及便于传送最终用户之间的信息的其他设备。

提及“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”以及它们的其他变型，意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此，短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本申请通篇的各个地方的任何其他变型不一定都是指相同的实施方案。

另外，本申请可涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。

此外，本申请可涉及“访问”各种信息。访问信息可包括例如接收信息、检索信息(例如，从存储器)、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。

另外，本申请可涉及“接收”各种信息。与“访问”一样，接收旨在为广义的术语。接收信息可包括例如访问信息或检索信息(例如，从存储器)中的一者或多者。此外，在诸如例如存储信息、处理信息、发射信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间，“接收”通常以一种方式或另一种方式参与。

在本申请中，术语“重构”和“解码”可以互换使用，术语“像素”和“样本”可以互换使用，术语“图像”、“图片”、“帧”、“切片”和“平铺片”可以互换使用。通常，但不一定，术语“重构”在编码端使用，而“解码”在解码端使用。

应当理解，例如，在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下，使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(A)，或仅选择第二列出的选项(B)，或选择两个选项(A和B)。作为进一步的示例，在“A、B和/或C”和“A、B和C中的至少一者”的情况下，此类短语旨在涵盖仅选择第一列出的选项(A)，或仅选择第二列出的选项(B)，或仅选择第三列出的选项(C)，或仅选择第一列出的选项和第二列出的选项(A和B)，或仅选择第一列出的选项和第三列出的选项(A和C)，或仅选择第二列出的选项和第三列出的选项(B和C)，或选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的是，这可扩展到所列出的尽可能多的项目。

而且，如本文所用，词语“发信号通知”是指(除了别的以外)向对应解码器指示某物。例如，在某些实施方案中，编码器发信号通知亮度补偿参数中的特定一个参数。这样，在一个实施方案中，在编码器侧和解码器侧两者均使用相同的参数。因此，例如，编码器可将特定参数发射(显式信令)到解码器，使得解码器可使用相同的特定参数。相反，如果解码器已具有特定参数以及其他，则可在不发射(隐式信令)的情况下使用信令，以简单允许解码器知道和选择特定参数。通过避免发射任何实际功能，在各种实施方案中实现了位节省。应当理解，信令可以各种方式实现。例如，在各种实施方案中，使用一个或多个语法元素、标志等将信息发信号通知至对应解码器。虽然前面涉及词语“signal(发信号通知)”的动词形式，但是词语“signal(信号)”在本文也可用作名词。

对于本领域的普通技术人员将显而易见的是，具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如，可格式化信号以携带所述实施方案的比特流。可格式化此类信号例如为电磁波(例如，使用频谱的射频部分)或基带信号。格式化可包括例如对数据流编码并且用编码的数据流调制载体。信号携带的信息可以是例如模拟或数字信息。已知的是，信号可通过各种不同的有线或无线链路发射。信号可存储在处理器可读介质上。

Claims

1.一种用于对视频进行解码的方法，针对所述视频的当前图片，所述方法包括：

获得表示外部参考图片的信息，以及

基于所述外部参考图片重构所述当前图片。

2.根据权利要求1所述的方法，其中所述视频是多视图视频，其中所述外部参考图片包括第一视图的纹理和表示所述第一视图与第二视图之间的视差信息的运动向量映射，并且其中重构所述第二视图是基于使用基于所述第一视图的所述纹理和所述视差信息的运动补偿进行的。

3.根据权利要求2所述的方法，还包括：

将所述第一视图复制到所述第二视图的经解码图片缓冲器中，

使所述第一视图与图片次序计数相关联，

将所述视差信息复制到被并置的参考图片的所述运动信息映射中，以及

基于复制信息预测所述第二视图。

4.根据权利要求3所述的方法，其中使用时间运动向量预测模式进行所述预测。

5.一种用于对视频进行编码的方法，针对所述视频的当前图片，所述方法包括：

生成表示外部参考图片的信息，以及

使用编码视频对所述表示外部参考图片的信息进行编码。

6.根据权利要求5所述的方法，其中所述视频是多视图视频，针对所述视频的当前图片所述方法还包括，生成第一视图与第二视图之间的视差信息，并且其中表示外部参考图片的所述信息包括所述第一视图的纹理和表示所生成的视差信息的运动向量映射。

7.一种装置(1000)，所述装置包括用于对视频进行解码的解码器(1030)，针对所述视频的当前图片，所述解码器被配置为：

获得表示外部参考图片的信息，并且

基于所述外部参考图片重构所述当前图片。

8.根据权利要求7所述的装置，其中所述视频是多视图视频，其中所述外部参考图片包括第一视图的纹理和表示所述第一视图与第二视图之间的视差信息的运动向量映射，并且其中所述解码器还被配置为基于使用基于所述第一视图的所述纹理和所述视差信息的运动补偿来重构所述第二视图。

9.根据权利要求8所述的装置，其中所述解码器还被配置为：

使所述第一视图与图片次序计数相关联，

将所述视差信息复制到被并置的参考图片的所述运动信息映射中，并且

基于复制信息预测所述第二视图。

10.根据权利要求9所述的装置，其中使用时间运动向量预测模式进行所述预测。

11.一种装置(1000)，所述装置包括用于对视频进行编码的编码器(1030)，针对所述视频的当前图片，所述编码器被配置为：

生成表示外部参考图片的信息，并且

使用编码视频对所述表示外部参考图片的信息进行编码。

12.根据权利要求11所述的装置，其中所述视频是多视图视频，并且其中针对所述视频的当前图片所述解码器还被配置为，生成第一视图与第二视图之间的视差信息，并且其中表示外部参考图片的所述信息包括所述第一视图的纹理和表示所生成的视差信息的运动向量映射。

13.一种视频信号，所述视频信号包括具有视频内容和高级语法信息的比特流，所述比特流是根据权利要求5所述的方法或根据权利要求11所述的设备生成的。

14.一种计算机程序，所述计算机程序包括程序代码指令，所述程序代码指令在由处理器执行时实施根据权利要求1至6中至少一项所述的方法的步骤。

15.一种非暂态计算机可读介质，所述非暂态计算机可读介质包括程序代码指令，所述程序代码指令在由处理器执行时实施根据权利要求1至6中至少一项所述的方法的步骤。