CN112313952B

CN112313952B - 用于视频编解码的方法和设备

Info

Publication number: CN112313952B
Application number: CN201980025385.8A
Authority: CN
Inventors: 李翔; 李贵春; 许晓中; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2018-12-03
Filing date: 2019-11-29
Publication date: 2023-08-08
Anticipated expiration: 2039-11-29
Also published as: JP7267302B2; CN112313952A; EP3891975A4; KR20200128583A; EP3891975A1; US10917636B2; JP2021524176A; WO2020117619A1; US20200177873A1

Abstract

本申请公开的各方面提供了用于视频编解码的方法和设备。在一些示例中，设备包括处理电路，该处理电路从已编码视频比特流中获取第一语法元素，该第一语法元素与多个模式相关联，该多个模式用于识别运动信息并且将运动信息应用于当前块，并且该第一语法元素的第一值指示用于当前块的多个模式的子集。该处理电路还根据由第一语法元素的第一值指示的该多个模式的该子集生成当前块的预测值，并且基于该预测值来生成当前块的重建样本。

Description

用于视频编解码的方法和设备

相关申请的交叉引用

本申请要求2019年8月5日提交的美国专利申请No.16/531,958“Method andApparatus for Video Coding”的优先权的权益，本公开要求2018年12月3日提交的美国临时申请No.62/774,828的优先权的权益。在先申请的全部公开内容通过引用整体合并到本文中。

技术领域

本申请涉及视频处理领域，尤其是涉及用于视频编解码的方法和设备。

背景技术

本文背景技术中的描述目的在于从总体上呈现本申请内容的背景。就此背景技术部分中描述的工作的程度而言，目前署名的发明人的工作以及在提交时可不被另外限定为现有技术的描述的方面既没有被明确地或者隐含地承认为针对本申请内容的现有技术。

可使用具有运动补偿的帧间预测来进行视频编码和解码。未压缩的数字视频可以包括一系列图片，每个图片在空间维度为例如1920×1080个亮度样本以及相关联的色度样本。该一系列图片可以具有固定的或可变的图片速率(也被非正式地称为帧速率)，例如每秒60幅图片或60Hz。未压缩的视频对码率的要求较高。举例来说，每样本8比特的1080r60 4∶2∶0视频(帧速率60Hz，亮度样本分辨率1920×1080)需要接近1.5Gbit/s的带宽。一小时的上述视频需要超过600GB的存储空间。

视频编码和解码的一个目的可在于通过压缩来减少输入视频信号的冗余度。压缩可帮助降低上述带宽需求或存储空间需求，在一些情况下可降低两个或更多数量级。可以采用无损压缩、有损压缩及二者的组合。无损压缩是指可以从压缩的原始信号重建出原始信号的精确副本的技术。当使用有损压缩时，重建的信号可能与原始信号不同，但原始信号与重建的信号之间的失真足够小，使得重建的信号可用于目标应用。有损压缩在视频方面得到了广泛应用。容忍的失真量取决于应用，比如，某些消费者流媒体应用的用户可能比电视分配应用的用户容忍更高的失真。能够实现的压缩比可反映出：更高的可允许/可容忍的失真能产生更高的压缩比。

运动补偿可以是有损压缩技术，并且可以涉及以下技术：在运动矢量(以下称为MV)所指示的方向上进行空间移动之后，使用来自先前重建的图片或其一部分(即使用参考图片)的样本数据的块来预测新重建的图片或其一部分。在一些情况下，参考图片可以与当前重建中的图片相同。MV可以具有X和Y两个维度，也可以具有三个维度，其中第三维度指示使用中的参考图片(后一维度可以间接地为时间维度)。

在一些视频压缩技术中，可用于样本数据的某一区域的MV可以基于其他MV来得到预测，例如，可以基于与正被重建的区域在空间上相邻的样本数据的另一区域相关的、且在解码顺序上靠前的MV来得到预测。这样做可以大幅减少编码MV所需的数据量，从而消除冗余度并且提高压缩率。例如，由于在编码从摄像装置导出的输入视频信号(被称为自然视频)时存在统计上的可能性——即比单个MV所适用的区域更大的区域沿相似的方向移动，从而在一些情况下可从相邻区域的MV导出相似的运动矢量来预测该单个MV。因此，MV预测可以有效地发挥作用。以上使得为给定区域寻求的MV与从周围MV预测得到的MV相似或相同，从而在熵编码之后能够使用比直接编码MV时更少的二进制位来表示该MV。在一些情况下，MV预测可以对从原始信号(即样本流)导出的信号(即MV)进行无损压缩的示例。在其他情况下，MV预测本身可以是有损的，其原因例如在基于若干周围MV计算预测值时的舍入误差。

H.265/HEVC(ITU-T H.265建议书，“高效视频编解码(High Efficiency VideoCoding)”，2016年12月)中描述了各种MV预测机制。在H.265提供的多种MV预测机制中，本申请描述的是下文称作“空间合并”的技术。

请参考图1，当前块(101)包括在运动搜索过程期间已由编码器发现的样本，根据已产生空间偏移的相同大小的先前块，可预测这些样本。另外，可从一个或多个参考图片相关联的元数据中导出MV，而非对该MV直接编解码。例如，使用关联于A0、A1和B0、B1、B2(分别对应102到106)五个周围样本中的任一样本的MV，(按解码次序)从最近的参考图片的元数据中导出该MV。在H.265中，MV预测可使用相邻块也正在使用的相同参考图片的预测值。

然而，如何准确确定对特定块采用何种模式进行解码是亟需解决的问题。

发明内容

本申请公开的各方面提供了用于视频编码/解码的方法和设备。在一些示例中，该设备包括处理电路，该处理电路被配置成：从已编码视频比特流中获取第一语法元素，该第一语法元素与多个模式相关联，多个模式用于识别运动信息并且将运动信息应用于当前块，并且第一语法元素的第一值指示用于当前块的多个模式的子集。该处理电路还被配置成：根据由第一语法元素的第一值指示的多个模式的子集生成当前块的预测值，并且基于预测值来生成当前块的重建样本。

在一些实施例中，多个模式包括：常规合并模式，其对应于根据从运动信息候选列表中选择的运动信息候选导出当前块的运动信息；子块合并预测模式，其对应于将当前块划分为多个矩形子块并且导出多个矩形子块各自的运动信息；以及三角形预测单元模式，其对应于将当前块划分为三角形子分区并且导出三角形子分区各自的运动信息。

在一些实施例中，多个模式还包括：带有运动矢量差的合并模式，其对应于根据运动矢量差信息和从运动信息候选列表中选择的运动信息候选来导出当前块的运动信息。

在一些实施例中，多个模式还包括：用于帧内的多假设预测模式，其对应于通过组合帧内预测值和帧间预测值来生成当前块的最终预测值。

在一些实施例中，第一语法元素被设置为代表多个模式中各个模式的不同二进制数中的一个。按照模式的使用频率将多个模式降序排列为常规合并模式、带有运动矢量差的合并模式、子块合并预测模式，用于帧内的多假设预测模式、三角形预测单元模式。

在一些实施例中，第一语法元素被设置为代表多个模式中各个模式的不同二进制数中的一个，根据模式的使用频率的降序排列多个模式。

在一些实施例中，在包括当前块的图片中的多个模式中使用最频繁的模式被布置在降序中的第一个，并且使用最频繁的模式由二进制数中的具有最少二进制位的二进制数表示。

在一些实施例中，使用最频繁的模式是常规合并模式，常规合并模式对应于根据从运动信息候选列表中选择的运动信息候选导出当前块的运动信息。

在一些实施例中，该处理电路还被配置成：从已编码视频比特流中获取在第一语法元素之后提供的第二语法元素，第二语法元素的第二值指示索引，该索引用于从运动信息候选列表中选择运动信息候选。当由第一语法元素的第一值指示的多个模式的子集对应于根据所选择的运动信息候选导出当前块整体的运动信息所对应的模式时，该处理电路还被配置成：如果由第二语法元素的第二值指示的索引小于带有运动矢量差的合并模式的运动信息候选的最大数目，则从已编码视频比特流获取第三语法元素。在一些实施例中，第三语法元素的第三值指示是根据(i)常规合并模式还是根据(ii)带有运动矢量差的合并模式来生成当前块的预测值：常规合并模式对应于根据从运动信息候选列表中选择的运动信息候选导出当前块的运动信息，带有运动矢量差的合并模式对应于根据运动矢量差信息和从运动信息候选列表中选择的运动信息候选来导出当前块的运动信息。

在一些实施例中，处理电路还被配置成：当第三语法元素的第三值指示用于生成当前块的预测值的模式是带有运动矢量差的合并模式时，从已编码视频比特流中获取在第三语法元素之后提供的一个或多个第四语法元素，一个或多个第四语法元素指示运动矢量差信息。

在一些实施例中，第一语法元素的第一值指示要用于生成当前块的预测值的模式是基于块的合并模式还是基于子块的合并模式。

在一些实施例中，当第一语法元素的第一值指示要用于生成当前块的预测值的模式是基于块的合并模式时，多个模式的子集包括以下模式中的至少一个：常规合并模式，其对应于根据从运动信息候选列表中选择的运动信息候选导出当前块的运动信息；以及带有运动矢量差的合并模式，其对应于根据运动矢量差信息和从运动信息候选列表中选择的运动信息候选来导出当前块的运动信息。

在一些实施例中，当第一语法元素的第一值指示要用于生成当前块的预测值的模式是基于子块的合并模式时，多个模式的子集包括以下模式中的至少一个；子块合并预测模式，其对应于将当前块划分为多个矩形子块并且导出多个矩形子块各自的运动信息；三角形预测单元模式，其对应于将当前块划分为三角形子分区并且导出三角形子分区各自的运动信息；以及用于帧内的多假设预测模式，其对应于通过组合帧内预测值和帧间预测值来生成当前块的最终预测值。

在一些实施例中，处理电路还被配置成：从已编码视频比特流中获取在第一语法元素之后提供的第二语法元素，第二语法元素的第二值指示索引，该索引用于从运动信息候选列表中选择运动信息候选。当第一语法元素的第一值指示要用于生成当前块的预测值的模式是基于块的合并模式时，如果由第二语法元素的第二值指示的索引小于带有运动矢量差的合并模式的运动信息候选的最大数目，则从已编码视频比特流中获取第三语法元素，第三语法元素的第三值指示是根据常规合并模式还是使用带有运动矢量差的合并模式生成当前块的预测值。

在一些实施例中，处理电路还被配置成：当第三语法元素指示用于生成当前块的预测值的模式是带有运动矢量差的合并模式时，从已编码视频比特流中获取在第三语法元素之后提供的一个或多个第四语法元素，一个或多个第四语法元素指示运动矢量差信息。

在一些实施例中，处理电路还被配置成：当第一语法元素的第一值指示多个模式的子集至少包括常规合并模式时，从已编码视频比特流中获取在第一语法元素之后提供的第五语法元素，第五语法元素的值指示用于生成当前块的预测值的模式是否为常规合并模式，所述常规合并模式对应于根据从运动信息候选列表中选择的运动信息候选导出当前块的运动信息的。

本申请公开的各方面还提供了一种存储指令的非暂态计算机可读介质，指令在由计算机执行以用于视频解码时使计算机执行用于上述任何一种视频解码方法。

由此可见，从已编码视频比特流中获取第一语法元素，其中，所述第一语法元素与多个模式相关联，所述多个模式用于识别运动信息并将所述运动信息应用于当前块，并且所述第一语法元素的第一值指示用于所述当前块的所述多个模式的子集；根据由所述第一语法元素的第一值指示的所述子集生成所述当前块的预测值；以及基于所述预测值生成所述当前块的重建样本，从而可以基于已编码比特流中获取的第一语法元素中第一值的指示，来准确确定对当前块的解码模式。

附图说明

根据以下详细描述和附图，所公开的主题进一步的特征、性质和各种优点将变得更加明显，在附图中：

图1是一示例中的当前块及其周围的空间合并候选的示意图；

图2是一实施例中一通信***的简化框图的示意图；

图3是另一实施例中另一通信***的简化框图的示意图；

图4是一实施例中一解码器的简化框图的示意图；

图5是另一实施例中一编码器的简化框图的示意图；

图6示出了另一实施例中另一编码器的框图；

图7示出了另一实施例中另一解码器的框图；

图8是一实施例中根据使用带有运动矢量差的合并(MMVD)模式表示的当前块和运动矢量的示意图；

图9A是一实施例中使用子块仿射合并预测模式的当前块以及当前块的空间相邻块和时间相邻块的示意图；

图9B是一实施例中使用基于子块的可选时间运动矢量预测(ATMVP)模式的当前图片中的当前块和参考图片中的参考块的示意图；

图10是一实施例中使用用于帧内的多假设预测(MHIntra)模式的、至少根据当前块的帧间预测值和帧内预测值重建的当前块的示意图；

图11是一实施例中使用三角形预测单元模式分割当前块的两个示例的示意图；

图12A示出了概述本申请实施例的解码处理的流程图；

图12B示出了概述本申请实施例的另一解码处理的流程图；

图13示出了概述本申请实施例的编码处理的流程图；

图14是本申请实施例的计算机***的示意图。

具体实施例

图2是根据本申请公开的实施例的通信***(200)的简化框图。通信***(200)包括多个终端装置，所述终端装置可通过例如网络(250)彼此通信。举例来说，通信***(200)包括通过网络(250)互连的第一终端装置(210)和第二终端装置(220)。在图2的实施例中，第一终端装置(210)和第二终端装置(220)执行单向数据传输。举例来说，第一终端装置(210)可对视频数据(例如由终端装置(210)采集的视频图片流)进行编码以通过网络(250)传输到另一终第二端装置(220)。已编码的视频数据可以一个或多个已编码视频码流形式传输。第二终端装置(220)可从网络(250)接收已编码视频数据，对已编码视频数据进行解码以恢复视频数据，并根据恢复的视频数据显示视频图片。单向数据传输在媒体服务等应用中是较常见的。

在另一实施例中，通信***(200)包括执行已编码视频数据的双向传输的第三终端装置(230)和第四终端装置(240)，所述双向传输可例如在视频会议期间发生。对于双向数据传输，第三终端装置(230)和第四终端装置(240)中的每个终端装置可对视频数据(例如由终端装置采集的视频图片流)进行编码，以通过网络(250)传输到第三终端装置(230)和第四终端装置(240)中的另一终端装置。第三终端装置(230)和第四终端装置(240)中的每个终端装置还可接收由第三终端装置(230)和第四终端装置(240)中的另一终端装置传输的已编码视频数据，且可对所述已编码视频数据进行解码以恢复视频数据，且可根据恢复的视频数据在可访问的显示装置上显示视频图片。

在图2的实施例中，第一终端装置(210)、第二终端装置(220)、第三终端装置(230)和第四终端装置(240)可为服务器、个人计算机和智能电话，但本申请公开的原理可不限于此。本申请公开的实施例可用于膝上型计算机、平板电脑、媒体播放器和/或专用视频会议设备。网络(250)表示在第一终端装置(210)、第二终端装置(220)、第三终端装置(230)和第四终端装置(240)之间传送已编码视频数据的任意数目的网络，包括例如有线(连线的)和/或无线通信网络。通信网络(250)可在电路交换和/或分组交换信道中交换数据。该网络可包括电信网络、局域网、广域网和/或互联网。出于本申请论述的目的，除非在下文中有所解释，否则网络(250)的架构和拓扑对于本申请公开的操作来说可能是无关紧要的。

作为实施例，图3示出视频编码器和视频解码器在流式传输环境中的放置方式。本申请所公开主题可同等地适用于其它支持视频的应用，包括例如视频会议、数字TV、在包括CD、DVD、存储棒等的数字介质上存储压缩视频等等。

流式传输***可包括采集子***(313)，所述采集子***可包括数码相机等视频源(301)，所述视频源创建未压缩的视频图片流(302)。在实施例中，视频图片流(302)包括由数码相机拍摄的样本。相较于已编码的视频数据(304)(或已编码的视频码流)，视频图片流(302)被描绘为粗线以强调高数据量的视频图片流，视频图片流(302)可由电子装置(320)处理，所述电子装置(320)包括耦接到视频源(301)的视频编码器(303)。视频编码器(303)可包括硬件、软件或软硬件组合以实现或实施如下文更详细地描述的所公开主题的各方面。相较于视频图片流(302)，已编码的视频数据(304)(或已编码的视频码流(304))被描绘为细线以强调较低数据量的已编码的视频数据(304)(或已编码的视频码流(304))，其可存储在流式传输服务器(305)上以供将来使用。一个或多个流式传输客户端子***，例如图3中的客户端子***(306)和客户端子***(308)，可访问流式传输服务器(305)以检索已编码的视频数据(304)的副本(307)和副本(309)。客户端子***(306)可包括例如电子装置(330)中的视频解码器(310)。视频解码器(310)对已编码的视频数据的传入副本(307)进行解码，且产生可在显示器(312)(例如显示屏)或另一呈现装置(未示出)上呈现的输出视频图片流(311)。在一些流式传输***中，可根据某些视频编码/压缩标准对已编码的视频数据(304)、视频数据(307)和视频数据(309)(例如视频码流)进行编码。该些标准的实施例包括ITU-TH.265。在实施例中，正在开发的视频编解码标准非正式地称为下一代视频编解码(Versatile Video Coding，VVC)，本申请可用于VVC标准的上下文中。

应注意，电子装置(320)和电子装置(330)可包括其它组件(未示出)。举例来说，电子装置(320)可包括视频解码器(未示出)，且电子装置(330)还可包括视频编码器(未示出)。

图4是根据本申请公开的实施例的视频解码器(410)的框图。视频解码器(410)可设置在电子装置(430)中。电子装置(430)可包括接收器(431)(例如接收电路)。视频解码器(410)可用于代替图3实施例中的视频解码器(310)。

接收器(431)可接收将由视频解码器(410)解码的一个或多个已编码视频序列；在同一实施例或另一实施例中，一次接收一个已编码视频序列，其中每个已编码视频序列的解码独立于其它已编码视频序列。可从信道(401)接收已编码视频序列，所述信道可以是通向存储已编码的视频数据的存储装置的硬件/软件链路。接收器(431)可接收已编码的视频数据以及其它数据，例如，可转发到它们各自的使用实体(未标示)的已编码音频数据和/或辅助数据流。接收器(431)可将已编码视频序列与其它数据分开。为了防止网络抖动，缓冲存储器(415)可耦接在接收器(431)与熵解码器/解析器(420)(此后称为“解析器(420)”)之间。在某些应用中，缓冲存储器(415)是视频解码器(410)的一部分。在其它情况下，所述缓冲存储器(415)可设置在视频解码器(410)外部(未标示)。而在其它情况下，视频解码器(410)的外部设置缓冲存储器(未标示)以例如防止网络抖动，且在视频解码器(410)的内部可配置另一缓冲存储器(415)以例如处理播出定时。而当接收器(431)从具有足够带宽和可控性的存储/转发装置或从等时同步网络接收数据时，也可能不需要配置缓冲存储器(415)，或可以将所述缓冲存储器做得较小。当然，为了在互联网等业务分组网络上使用，也可能需要缓冲存储器(415)，所述缓冲存储器可相对较大且可具有自适应性大小，且可至少部分地实施于操作***或视频解码器(410)外部的类似元件(未标示)中。

视频解码器(410)可包括解析器(420)以根据已编码视频序列重建符号(421)。这些符号的类别包括用于管理视频解码器(410)的操作的信息，以及用以控制显示装置(412)(例如，显示屏)等显示装置的潜在信息，所述显示装置不是电子装置(430)的组成部分，但可耦接到电子装置(430)，如图4中所示。用于显示装置的控制信息可以是辅助增强信息(Supplemental Enhancement Information，SEI消息)或视频可用性信息(VideoUsability Information，VUI)的参数集片段(未标示)。解析器(420)可对接收到的已编码视频序列进行解析/熵解码。已编码视频序列的编码可根据视频编码技术或标准进行，且可遵循各种原理，包括可变长度编码、霍夫曼编码(Huffman coding)、具有或不具有上下文灵敏度的算术编码等等。解析器(420)可基于对应于群组的至少一个参数，从已编码视频序列提取用于视频解码器中的像素的子群中的至少一个子群的子群参数集。子群可包括图片群组(Group of Pictures，GOP)、图片、图块、切片、宏块、编码单元(Coding Unit，CU)、块、变换单元(Transform Unit，TU)、预测单元(Prediction Unit，PU)等等。解析器(420)还可从已编码视频序列提取信息，例如变换系数、量化器参数值、运动矢量等等。

解析器(420)可对从缓冲存储器(415)接收的视频序列执行熵解码/解析操作，从而创建符号(421)。

取决于已编码视频图片或一部分已编码视频图片(例如：帧间图片和帧内图片、帧间块和帧内块)的类型以及其它因素，符号(421)的重建可涉及多个不同单元。涉及哪些单元以及涉及方式可由解析器(420)从已编码视频序列解析的子群控制信息控制。为了简洁起见，未描述解析器(420)与下文的多个单元之间的此类子群控制信息流。

除已经提及的功能块以外，视频解码器(410)可在概念上细分成如下文所描述的数个功能单元。在商业约束下运行的实际实施例中，这些单元中的许多单元彼此紧密交互并且可以彼此集成。然而，出于描述所公开主题的目的，概念上细分成下文的功能单元是适当的。

第一单元是缩放器/逆变换单元(451)。缩放器/逆变换单元(451)从解析器(420)接收作为符号(421)的量化变换系数以及控制信息，包括使用哪种变换方式、块大小、量化因子、量化缩放矩阵等。缩放器/逆变换单元(451)可输出包括样本值的块，所述样本值可输入到聚合器(455)中。

在一些情况下，缩放器/逆变换单元(451)的输出样本可属于帧内编码块；即：不使用来自先前重建的图片的预测性信息，但可使用来自当前图片的先前重建部分的预测性信息的块。此类预测性信息可由帧内图片预测单元(452)提供。在一些情况下，帧内图片预测单元(452)采用从当前图片缓冲器(458)提取的已重建信息生成大小和形状与正在重建的块相同的周围块。举例来说，当前图片缓冲器(458)缓冲部分重建的当前图片和/或完全重建的当前图片。在一些情况下，聚合器(455)基于每个样本，将帧内预测单元(452)生成的预测信息添加到由缩放器/逆变换单元(451)提供的输出样本信息中。

在其它情况下，缩放器/逆变换单元(451)的输出样本可属于帧间编码和潜在运动补偿块。在此情况下，运动补偿预测单元(453)可访问参考图片存储器(457)以提取用于预测的样本。在根据符号(421)对提取的样本进行运动补偿之后，这些样本可由聚合器(455)添加到缩放器/逆变换单元(451)的输出(在这种情况下被称作残差样本或残差信号)，从而生成输出样本信息。运动补偿预测单元(453)从参考图片存储器(457)内的地址获取预测样本可受到运动矢量控制，且所述运动矢量以所述符号(421)的形式而供运动补偿预测单元(453)使用，所述符号(421)例如是包括X、Y和参考图片分量。运动补偿还可包括在使用子样本精确运动矢量时，从参考图片存储器(457)提取的样本值的内插、运动矢量预测机制等等。

聚合器(455)的输出样本可在环路滤波器单元(456)中被各种环路滤波技术采用。视频压缩技术可包括环路内滤波器技术，所述环路内滤波器技术受控于包括在已编码视频序列(也称作已编码视频码流)中的参数，且所述参数作为来自解析器(420)的符号(421)可用于环路滤波器单元(456)。然而，在其他实施例中，视频压缩技术还可响应于在解码已编码图片或已编码视频序列的先前(按解码次序)部分期间获得的元信息，以及响应于先前重建且经过环路滤波的样本值。

环路滤波器单元(456)的输出可以是样本流，所述样本流可输出到显示装置(412)以及存储在参考图片存储器(457)，以用于后续的帧间图片预测。

一旦完全重建，某些已编码图片就可用作参考图片以用于将来预测。举例来说，一旦对应于当前图片的已编码图片被完全重建，且已编码图片(通过例如解析器(420))被识别为参考图片，则当前图片缓冲器(458)可变为参考图片存储器(457)的一部分，且可在开始重建后续已编码图片之前重新分配新的当前图片缓冲器。

视频解码器(410)可根据例如ITU-T H.265标准中的预定视频压缩技术执行解码操作。在已编码视频序列遵循视频压缩技术或标准的语法以及视频压缩技术或标准中记录的配置文件的意义上，已编码视频序列可符合所使用的视频压缩技术或标准指定的语法。具体地说，配置文件可从视频压缩技术或标准中可用的所有工具中选择某些工具作为在所述配置文件下可供使用的仅有工具。对于合规性，还要求已编码视频序列的复杂度处于视频压缩技术或标准的层级所限定的范围内。在一些情况下，层级限制最大图片大小、最大帧率、最大重建取样率(以例如每秒兆(mega)个样本为单位进行测量)、最大参考图片大小等。在一些情况下，由层级设定的限制可通过假想参考解码器(Hypothetical ReferenceDecoder，HRD)规范和在已编码视频序列中用信号表示的HRD缓冲器管理的元数据来进一步限定。

在实施例中，接收器(431)可连同已编码视频一起接收附加(冗余)数据。所述附加数据可以是已编码视频序列的一部分。所述附加数据可由视频解码器(410)用以对数据进行适当解码和/或较准确地重建原始视频数据。附加数据可呈例如时间、空间或信噪比(signal noise ratio，SNR)增强层、冗余切片、冗余图片、前向纠错码等形式。

图5是根据本申请公开的实施例的视频编码器(503)的框图。视频编码器(503)设置于电子装置(520)中。电子装置(520)包括传输器(540)(例如传输电路)。视频编码器(503)可用于代替图3实施例中的视频编码器(303)。

视频编码器(503)可从视频源(501)(并非图5实施例中的电子装置(520)的一部分)接收视频样本，所述视频源可采集将由视频编码器(503)编码的视频图像。在另一实施例中，视频源(501)是电子装置(520)的一部分。

视频源(501)可提供将由视频编码器(503)编码的呈数字视频样本流形式的源视频序列，所述数字视频样本流可具有任何合适位深度(例如：8位、10位、12位……)、任何色彩空间(例如BT.601Y CrCB、RGB……)和任何合适取样结构(例如Y CrCb 4:2:0、Y CrCb 4:4:4)。在媒体服务***中，视频源(501)可以是存储先前已准备的视频的存储装置。在视频会议***中，视频源(501)可以是采集本地图像信息作为视频序列的相机。可将视频数据提供为多个单独的图片，当按顺序观看时，这些图片被赋予运动。图片自身可构建为空间像素阵列，其中取决于所用的取样结构、色彩空间等，每个像素可包括一个或多个样本。所属领域的技术人员可以很容易理解像素与样本之间的关系。下文侧重于描述样本。

根据实施例，视频编码器(503)可实时或在由应用所要求的任何其它时间约束下，将源视频序列的图片编码且压缩成已编码视频序列(543)。施行适当的编码速度是控制器(550)的一个功能。在一些实施例中，控制器(550)控制如下文所描述的其它功能单元且在功能上耦接到这些单元。为了简洁起见，图中未标示耦接。由控制器(550)设置的参数可包括速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值等)、图片大小、图片群组(group of pictures，GOP)布局，最大运动矢量搜索范围等。控制器(550)可用于具有其它合适的功能，这些功能涉及针对某一***设计优化的视频编码器(503)。

在一些实施例中，视频编码器(503)在编码环路中进行操作。作为简单的描述，在实施例中，编码环路可包括源编码器(530)(例如，负责基于待编码的输入图片和参考图片创建符号，例如符号流)和嵌入于视频编码器(503)中的(本地)解码器(533)。解码器(533)以类似于(远程)解码器创建样本数据的方式重建符号以创建样本数据(因为在本申请所考虑的视频压缩技术中，符号与已编码视频码流之间的任何压缩是无损的)。将重建的样本流(样本数据)输入到参考图片存储器(534)。由于符号流的解码产生与解码器位置(本地或远程)无关的位精确结果，因此参考图片存储器(534)中的内容在本地编码器与远程编码器之间也是按比特位精确对应的。换句话说，编码器的预测部分“看到”的参考图片样本与解码器将在解码期间使用预测时所“看到”的样本值完全相同。这种参考图片同步性基本原理(以及在例如因信道误差而无法维持同步性的情况下产生的漂移)也用于一些相关技术。

“本地”解码器(533)的操作可与例如已在上文结合图4详细描述视频解码器(410)的“远程”解码器相同。然而，另外简要参考图4，当符号可用且熵编码器(545)和解析器(420)能够无损地将符号编码/解码为已编码视频序列时，包括缓冲存储器(415)和解析器(420)在内的视频解码器(410)的熵解码部分，可能无法完全在解码器(533)中实施。

此时可以观察到，除存在于解码器中的解析/熵解码之外的任何解码器技术，也必定以基本上相同的功能形式存在于对应的编码器中。出于此原因，本申请侧重于解码器操作。可简化编码器技术的描述，因为编码器技术与全面地描述的解码器技术互逆。仅在某些区域中需要更详细的描述，并且在下文提供。

在操作期间，在一些实施例中，源编码器(530)可执行运动补偿预测编码。参考来自视频序列中被指定为“参考图片”的一个或多个先前已编码图片，所述运动补偿预测编码对输入图片进行预测性编码。以此方式，编码引擎(532)对输入图片的像素块与参考图片的像素块之间的差异进行编码，所述参考图片可被选作所述输入图片的预测参考。

解码器(533)可基于源编码器(530)创建的符号，对可指定为参考图片的图片的已编码视频数据进行解码。编码引擎(532)的操作可为有损过程。当已编码视频数据可在视频解码器(图5中未示)处被解码时，重建的视频序列通常可以是带有一些误差的源视频序列的副本。解码器(533)复制解码过程，所述解码过程可由视频解码器对参考图片执行，且可使重建的参考图片存储在参考图片存储器(534)中。以此方式，视频编码器(503)可在本地存储重建的参考图片的副本，所述副本与将由远端视频解码器获得的重建参考图片具有共同内容(不存在传输误差)。

预测器(535)可针对编码引擎(532)执行预测搜索。即，对于将要编码的新图片，预测器(535)可在参考图片存储器(534)中搜索可作为所述新图片的适当预测参考的样本数据(作为候选参考像素块)或某些元数据，例如参考图片运动矢量、块形状等。预测器(535)可基于样本块逐像素块操作，以找到合适的预测参考。在一些情况下，根据预测器(535)获得的搜索结果，可确定输入图片可具有从参考图片存储器(534)中存储的多个参考图片取得的预测参考。

控制器(550)可管理源编码器(530)的编码操作，包括例如设置用于对视频数据进行编码的参数和子群参数。

可在熵编码器(545)中对所有上述功能单元的输出进行熵编码。熵编码器(545)根据例如霍夫曼编码、可变长度编码、算术编码等技术对各种功能单元生成的符号进行无损压缩，从而将所述符号转换成已编码视频序列。

传输器(540)可缓冲由熵编码器(545)创建的已编码视频序列，从而为通过通信信道(560)进行传输做准备，所述通信信道可以是通向将存储已编码的视频数据的存储装置的硬件/软件链路。传输器(540)可将来自视频编码器(503)的已编码视频数据与要传输的其它数据合并，所述其它数据例如是已编码音频数据和/或辅助数据流(未示出来源)。

控制器(550)可管理视频编码器(503)的操作。在编码期间，控制器(550)可以为每个已编码图片分配某一已编码图片类型，但这可能影响可应用于相应的图片的编码技术。例如，通常可将图片分配为以下任一种图片类型：

帧内图片(I图片)，其可以是不将序列中的任何其它图片用作预测源就可被编码和解码的图片。一些视频编解码器容许不同类型的帧内图片，包括例如独立解码器刷新(Independent Decoder Refresh，“IDR”)图片。所属领域的技术人员了解I图片的变体及其相应的应用和特征。

预测性图片(P图片)，其可以是可使用帧内预测或帧间预测进行编码和解码的图片，所述帧内预测或帧间预测使用至多一个运动矢量和参考索引来预测每个块的样本值。

双向预测性图片(B图片)，其可以是可使用帧内预测或帧间预测进行编码和解码的图片，所述帧内预测或帧间预测使用至多两个运动矢量和参考索引来预测每个块的样本值。类似地，多个预测性图片可使用多于两个参考图片和相关联元数据以用于重建单个块。

源图片通常可在空间上细分成多个样本块(例如，4×4、8×8、4×8或16×16个样本的块)，且逐块进行编码。这些块可参考其它(已编码)块进行预测编码，根据应用于块的相应图片的编码分配来确定所述其它块。举例来说，I图片的块可进行非预测编码，或所述块可参考同一图片的已经编码的块来进行预测编码(空间预测或帧内预测)。P图片的像素块可参考一个先前编码的参考图片通过空间预测或通过时域预测进行预测编码。B图片的块可参考一个或两个先前编码的参考图片通过空间预测或通过时域预测进行预测编码。

视频编码器(503)可根据例如ITU-T H.265建议书的预定视频编码技术或标准执行编码操作。在操作中，视频编码器(503)可执行各种压缩操作，包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此，已编码视频数据可符合所用视频编码技术或标准指定的语法。

在实施例中，传输器(540)可在传输已编码的视频时传输附加数据传输附加数据和已编码的视频。源编码器(530)可将此类数据作为可以是已编码视频序列的一部分。附加数据可包括时间/空间/SNR增强层、冗余图片和切片等其它形式的冗余数据、SEI消息、VUI参数集片段等。

采集到的视频可作为呈时间序列的多个源图片(视频图片)。帧内图片预测(常常简化为帧内预测)利用给定图片中的空间相关性，而帧间图片预测则利用图片之间的(时间或其它)相关性。在实施例中，将正在编码/解码的特定图片分割成块，正在编码/解码的特定图片被称作当前图片。在当前图片中的块类似于视频中先前已编码且仍被缓冲的参考图片中的参考块时，可通过称作运动矢量的矢量对当前图片中的块进行编码。所述运动矢量指向参考图片中的参考块，且在使用多个参考图片的情况下，所述运动矢量可具有识别参考图片的第三维度。

在一些实施例中，双向预测技术可用于帧间图片预测中。根据双向预测技术，使用两个参考图片，例如按解码次序都在视频中的当前图片之前(但按显示次序可能分别是过去和将来)第一参考图片和第二参考图片。可通过指向第一参考图片中的第一参考块的第一运动矢量和指向第二参考图片中的第二参考块的第二运动矢量对当前图片中的块进行编码。具体来说，可通过第一参考块和第二参考块的组合来预测所述块。

此外，合并模式技术可用于帧间图片预测中以改善编码效率。

根据本申请公开的一些实施例，帧间图片预测和帧内图片预测等预测的执行以块为单位。举例来说，根据HEVC标准，将视频图片序列中的图片分割成编码树单元(codingtree unit，CTU)以用于压缩，图片中的CTU具有相同大小，例如64×64像素、32×32像素或16×16像素。一般来说，CTU包括三个编码树块(coding tree block，CTB)，所述三个编码树块是一个亮度CTB和两个色度CTB。更进一步的，还可将每个CTU以四叉树拆分为一个或多个编码单元(coding unit，CU)。举例来说，可将64×64像素的CTU拆分为一个64×64像素的CU，或4个32×32像素的CU，或16个16×16像素的CU。在实施例中，分析每个CU以确定用于CU的预测类型，例如帧间预测类型或帧内预测类型。此外，取决于时间和/或空间可预测性，将CU拆分为一个或多个预测单元(prediction unit，PU)。通常，每个PU包括亮度预测块(prediction block，PB)和两个色度PB。在实施例中，编码(编码/解码)中的预测操作以预测块为单位来执行。以亮度预测块作为预测块为例，预测块包括像素值(例如，亮度值)的矩阵，例如8×8像素、16×16像素、8×16像素、16×8像素等等。

图6是根据本申请公开的另一实施例的视频编码器(603)的图。视频编码器(603)用于接收视频图片序列中的当前视频图片内的样本值的处理块(例如预测块)，且将所述处理块编码到作为已编码视频序列的一部分的已编码图片中。在本实施例中，视频编码器(603)用于代替图3实施例中的视频编码器(303)。

在HEVC实施例中，视频编码器(603)接收用于处理块的样本值的矩阵，所述处理块为例如8×8样本的预测块等。视频编码器(603)使用例如率失真(rate-distortion，RD)优化来确定是否使用帧内模式、帧间模式或双向预测模式来编码所述处理块。当在帧内模式中编码处理块时，视频编码器(603)可使用帧内预测技术以将处理块编码到已编码图片中；且当在帧间模式或双向预测模式中编码处理块时，视频编码器(603)可分别使用帧间预测或双向预测技术将处理块编码到已编码图片中。在某些视频编码技术中，合并模式可以是帧间图片预测子模式，其中，在不借助预测值外部的已编码运动矢量分量的情况下，从一个或多个运动矢量预测值导出运动矢量。在某些其它视频编码技术中，可存在适用于主题块的运动矢量分量。在实施例中，视频编码器(603)包括其它组件，例如用于确定处理块模式的模式决策模块(未示出)。

在图6的实施例中，视频编码器(603)包括如图6所示的耦接到一起的帧间编码器(630)、帧内编码器(622)、残差计算器(623)、开关(626)、残差编码器(624)、通用控制器(621)和熵编码器(625)。

帧间编码器(630)用于接收当前块(例如处理块)的样本、比较所述块与参考图片中的一个或多个参考块(例如先前图片和后来图片中的块)、生成帧间预测信息(例如根据帧间编码技术的冗余信息描述、运动矢量、合并模式信息)、以及基于帧间预测信息使用任何合适的技术计算帧间预测结果(例如已预测块)。在一些实施例中，参考图片是基于已编码的视频信息解码的已解码参考图片。

帧内编码器(622)用于接收当前块(例如处理块)的样本、在一些情况下比较所述块与同一图片中已编码的块、在变换之后生成量化系数、以及在一些情况下还(例如根据一个或多个帧内编码技术的帧内预测方向信息)生成帧内预测信息。在实施例中，帧内编码器(622)还基于帧内预测信息和同一图片中的参考块计算帧内预测结果(例如已预测块)。

通用控制器(621)用于确定通用控制数据，且基于所述通用控制数据控制视频编码器(603)的其它组件。在实施例中，通用控制器(621)确定块的模式，且基于所述模式将控制信号提供到开关(626)。举例来说，当所述模式是帧内模式时，通用控制器(621)控制开关(626)以选择供残差计算器(623)使用的帧内模式结果，且控制熵编码器(625)以选择帧内预测信息且将所述帧内预测信息添加在码流中；以及当所述模式是帧间模式时，通用控制器(621)控制开关(626)以选择供残差计算器(623)使用的帧间预测结果，且控制熵编码器(625)以选择帧间预测信息且将所述帧间预测信息添加在码流中。

残差计算器(623)用于计算所接收的块与选自帧内编码器(622)或帧间编码器(630)的预测结果之间的差(残差数据)。残差编码器(624)用于基于残差数据操作，以对残差数据进行编码以生成变换系数。在实施例中，残差编码器(624)用于将残差数据从时域转换到频域，且生成变换系数。变换系数接着经由量化处理以获得量化的变换系数。在各种实施例中，视频编码器(603)还包括残差解码器(628)。残差解码器(628)用于执行逆变换，且生成已解码残差数据。已解码残差数据可适当地由帧内编码器(622)和帧间编码器(630)使用。举例来说，帧间编码器(630)可基于已解码残差数据和帧间预测信息生成已解码块，且帧内编码器(622)可基于已解码残差数据和帧内预测信息生成已解码块。适当处理已解码块以生成已解码图片，且在一些实施例中，所述已解码图片可在存储器电路(未示出)中缓冲并用作参考图片。

熵编码器(625)用于将码流格式化以产生已编码的块。熵编码器(625)根据HEVC标准等合适标准产生各种信息。在实施例中，熵编码器(625)用于获得通用控制数据、所选预测信息(例如帧内预测信息或帧间预测信息)、残差信息和码流中的其它合适的信息。应注意，根据所公开的主题，当在帧间模式或双向预测模式的合并子模式中对块进行编解码时，不存在残差信息。

图7是根据本申请公开的另一实施例的视频解码器(710)的图。视频解码器(710)用于接收作为已编码视频序列的一部分的已编码图像，且对所述已编码图像进行解码以生成重建的图片。在实施例中，视频解码器(710)用于代替图3实施例中的视频解码器(310)。

在图7实施例中，视频解码器(710)包括如图7中所示耦接到一起的熵解码器(771)、帧间解码器(780)、残差解码器(773)、重建模块(774)和帧内解码器(772)。

熵解码器(771)可用于根据已编码图片来重建某些符号，这些符号表示构成所述已编码图片的语法元素。此类符号可包括例如用于对所述块进行编码的模式(例如帧内模式、帧间模式、双向预测模式、后两者的合并子模式或另一子模式)、可分别识别供帧内解码器(772)或帧间解码器(780)用以进行预测的某些样本或元数据的预测信息(例如帧内预测信息或帧间预测信息)、呈例如量化的变换系数形式的残差信息等等。在实施例中，当预测模式是帧间或双向预测模式时，将帧间预测信息提供到帧间解码器(780)；以及当预测类型是帧内预测类型时，将帧内预测信息提供到帧内解码器(772)。残差信息可经由逆量化并提供到残差解码器(773)。

帧间解码器(780)用于接收帧间预测信息，且基于所述帧间预测信息生成帧间预测结果。

帧内解码器(772)用于接收帧内预测信息，且基于所述帧内预测信息生成预测结果。

残差解码器(773)用于执行逆量化以提取解量化的变换系数，且处理所述解量化的变换系数，以将残差从频域转换到空间域。残差解码器(773)还可能需要某些控制信息(用以获得量化器参数QP)，且所述信息可由熵解码器(771)提供(未标示数据路径，因为这仅仅是低量控制信息)。

重建模块(774)用于在空间域中组合由残差解码器(773)输出的残差与预测结果(可由帧间预测模块或帧内预测模块输出)以形成重建的块，所述重建的块可以是重建的图片的一部分，所述重建的图片继而可以是重建的视频的一部分。应注意，可执行解块操作等其它合适的操作来改善视觉质量。

应注意，可使用任何合适的技术来实施视频编码器(303)、视频编码器(503)和视频编码器(603)以及视频解码器(310)、视频解码器(410)和视频解码器(710)。在实施例中，可使用一个或多个集成电路来实施视频编码器(303)、视频编码器(503)和视频编码器(603)以及视频解码器(310)、视频解码器(410)和视频解码器(710)。在另一实施例中，可使用执行软件指令的一个或多个处理器来实施视频编码器(303)、视频编码器(503)和视频编码器(603)以及视频解码器(310)、视频解码器(410)和视频解码器(710)。

图8是一实施例中使用带有运动矢量差的合并(MMVD)模式表示的当前块(801)和运动矢量(810)的示意图。当前块(801)的预测值可通过基于运动矢量(810)的帧间预测来生成。

块的运动矢量可通过具有简化信令的MMVD模式(或称为最终运动矢量表达式，UMVE)来表达。例如，当前块(801)的运动矢量(810)可使用基本运动矢量(822)、调整距离(824)和调整方向(826)来表达。调整距离(824)和调整方向(826)可称为当前块的运动矢量差信息，共同定义差矢量(828)。运动矢量(810)可导出为基本运动矢量(822)和差矢量(828)的组合。

基本运动矢量(822)可从合并候选列表中选择，其中，可通过语法元素(例如，VVC中的“base_mv_idx”)来指示选择信息，所述语法元素对应于基本候选索引，所述基本候选索引指示从该合并候选列表中选择的用于导出基本运动矢量的候选。在一些示例中，合并候选列表中仅一部分可用于根据MMVD确定基本运动矢量的选择。在至少一个实施例中，基本候选索引的范围可以为从0至由最大值，所述最大值由最大MMVD索引限定(比如在VVC中被限定为“max_mmvd_base_idx–1”)。最大MMVD索引可以是可用的视频编解码标准中提供的值，或者是已编码视频比特流中用信号表示的值。

调整距离(824)可以由语法元素(比如VVC中的“distance_idx”)指示，该语法元素对应于运动矢量(810)与基本运动矢量(822)之间的距离，或者对应于差矢量(828)的大小。在一些实施例中，可以通过语法元素(例如，VVC中的“direction_idx”)指示调整方向(826)，该语法元素对应于从运动矢量(810)到基本运动矢量(822)的方向，或者对应于差矢量(828)的方向。

在一些实施例中，为了指示是否根据MMVD模式生成了当前块的运动矢量，可以用信号表示一标记(例如，VVC中的“mmvd_flag”)。在一些示例中，要根据MMVD模式生成当前块的运动矢量时，可以将mmvd_flag设置为1；不根据MMVD模式生成当前块的运动矢量时，可以将mmvd_flag设置为0。在一些示例中，当可用于当前块的mmvd_flag不存在时，可以推断mmvd_flag具有对应于指示不根据MMVD模式生成当前块的运动矢量的值。

在关于解码当前块的一些示例中，当mmvd_flag[x0][y0]设置为1时，将根据MMVD模式生成当前块的运动矢量，其中(x0，y0)对应于当前块左上亮度样本相对于包括当前块的当前图片左上亮度样本的位置。在关于解码当前块的一些示例中，在解析mmvd_flag[x0][y0]并确定mmvd_flag[x0][y0]设置为1之后，可进一步解析语法元素base_mv_idx[x0][y0]、distance_idx[x0][y0]和direction_idx[x0][y0]，以获取可用的运动矢量差信息。

可根据子块合并预测模式来确定块的运动矢量。在一些示例中，子块合并预测模式可以是子块仿射合并预测模式或者基于子块的可选时间运动矢量预测(ATMVP)模式。

图9A为一实施例中使用子块仿射合并预测模式的当前块(901)、用A0、A1、A2、B0、B1、B2和B3表示的空间相邻块(分别为902、903、907、907、904、905、906和908)、以及用C0表示的时间相邻块(912)的示意图。在一些示例中，空间相邻块A0、A1、A2、B0、B1、B2和B3与当前块(901)属于同一图片。时间相邻块C0可属于参考图片，并且对应于在当前块(901)之外且与当前块(901)的右下角相邻的位置。

当前块(901)可划分为第一子块(922)、第二子块(924)、第三子块(926)和第四子块(928)。可使用子块仿射合并预测模式来确定当前块(901)内部的第一子块(922)、第二子块(924)、第三子块(926)和第四子块(928)中每一个的运动信息，所述子块仿射模型由6参数或简化的4参数仿射模型来描述。在一些示例中，仿射模型具有描述子块的运动矢量的6个参数(比如6参数仿射模型)。在一示例中，子块的6个参数可用当前块的三个不同位置(例如，图9A中当前块(901)的左上角、右上角和左下角处的控制点CP0、CP1和CP2)处的三个运动矢量(也称为三个控制点运动矢量)来表示。在另一示例中，简化的仿射模型(比如4参数仿射模型)使用四个参数来描述子块的运动信息，该运动信息可由块的两个不同位置(例如，在图9中的左上角和右上角处的控制点CP0和CP1)处的两个运动矢量(也称为两个控制点运动矢量)来表示。

图9B为一实施例中使用基于子块的可选时间运动矢量预测(ATMVP)模式的当前图片(960)中的当前块(961)和参考图片(980)中的参考块(981)的示意图。根据ATMVP模式，通过首先识别参考图片中的对应参考块，然后将当前块划分为多个子块，并从参考块的对应运动信息中获取当前块中子块的运动矢量以及参考索引，从而确定块内子块的运动矢量。

在一些示例中，可基于已解码信息来识别当前块(961)的参考图片(960)和参考矢量(970)，所述已解码信息例如当前块(961)的一个或多个空间相邻块的运动信息或其他可用方式。在确定参考图片(960)和参考矢量(970)之后，可基于当前块(961)的位置和所确定的参考矢量(970)来识别参考块(961)。

在图9B中，参考块(981)可进一步划分为具有参考运动信息MRa至MRd的4个子块。运动信息可包括运动矢量和对应的参考索引。当前块(961)可进一步划分为4个子块，并且在一些示例中，可使用时间缩放从参考运动信息MRa至MRd导出当前块(961)中子块的运动信息MVa至MVd。在一些实施例中，可将参考块(981)和当前块(961)划分为多于或少于4个子块，并且参考块(981)和当前块(961)不必具有相同数目的子块或相同的子块分割结构。

在一些实施例中，为了指示是否根据子块合并预测模式生成了当前块的运动矢量，比如使用子块仿射合并预测模式或ATMVP模式的生成了当前块的运动矢量，可以用信号表示一标记(例如，VVC中的“sub_block_flag”)。另外，当标记(例如，VVC中的“sub_block_flag”)指示使用了子块合并预测模式时，还可以用信号表示一语法元素(例如，VVC中的“merge_idx”)来指示选择子块合并候选列表中内的哪个候选。

在关于解码当前块的一些示例中，当sub_block_flag[x0][y0]设置为1时，将根据子块合并预测模式生成当前块的运动矢量，其中(x0，y0)对应于当前块左上亮度样本相对于包括当前块的当前图片左上亮度样本的位置。在关于解码当前块的一些示例中，在解析sub_block_flag[x0][y0]并且确定sub_block_flag[x0][y0]设置为1之后，可进一步解析语法元素merge_idx[x0][y0]以获取可用的候选选择信息。

图10为一实施例中使用用于帧内的多假设预测(MHIntra)模式、至少根据当前块(1010)的帧间预测值(1022)和帧内预测值(1024)重建的当前块(1010)的示意图。

根据MHIntra模式，可通过组合最终预测值(1012)和当前块(1010)的残差样本(1014)来重建当前块(1010)。可基于至少一种预测方法，例如基于帧间预测生成的帧间预测值(1022)和帧内预测生成的帧内预测值(1024)的组合，来生成最终预测值(1012)。残差样本(1014)表示当前块(1010)与最终预测值(1012)之间的差，可通过解码接收到的视频比特流来获取该残差样本。

在关于生成帧间预测值(1022)的一些实施例中，可根据合适的运动信息预测方法显式地信号表示或导出可用的运动信息和参考索引。

在关于生成帧内预测值(1024)的一些实施例中，对于当前块的亮度分量，可从帧内候选列表中选择可用的帧内预测模式，该帧内候选列表可从4个帧内预测模式(例如，直流模式、平面模式、水平模式和竖直模式)导出。可以使用帧内模式索引来指示选择信息，该选择信息用于确定可用的帧内预测模式。在一些实施例中，对于当前块的色度分量，可应用导出(Derived)模式而无需额外的信令，该导出模式基于为对应的亮度分量选择的帧内预测模式。

为了指示是否要根据MHIntra模式解码当前块，可以用信号表示一标记(例如，VVC中的“MHIntra_flag”)。当标记(例如“MHIntra_flag”)指示使用MHIntra模式时，为了进一步指示使用哪个帧内模式来生成帧内预测值(1024)，可以用信号表示一语法元素(例如VVC中的“MHIntra_mode_idx”)。

在关于解码当前块的一些实施例中，当MHIntra_flag[x0][y0]设置为1时，将根据MHIntra模式解码当前块，其中(x0，y0)给出当前块左上亮度样本相对于图片左上亮度样本的位置。在关于解码当前块的一些示例中，在解析MHIntra_flag[x0][y0]并确定MHIntra_flag[x0][y0]设置为1之后，可进一步解析语法元素MHIntra_mode_idx[x0][y0]以获取可用的帧内预测模式。另外，在解析MHIntra_flag[x0][y0]并确定MHIntra_flag[x0][y0]设置为1之后，为了进一步指示用于生成当前块(1010)帧间预测值(1022)的运动信息，可基于一个或多个附加语法元素信号表示的信息来显式地信号表示或导出运动信息。

图11为一实施例的中使用三角形预测单元模式分割当前块(1110A或1110B)的两个示例的示意图。在使用三角形预测单元模式的某些实施例中，可以将当前块(1110A或1110B)划分为两个三角形预测单元。在一些示例中，可基于各自的单预测运动矢量和参考帧索引对当前块(1110A或1110B)中的每个三角形预测单元进行帧间预测。在生成三角形预测单元的预测值之后，可对两个三角形预测单元间的对角边界做自适应加权处理，以导出当前块(1110A或1110B)的最终预测值。

在图11所示的示例1中，可以沿从当前块(1110A)的左上角延伸至右下角的对角线将当前块(1110A)划分为第一三角形预测单元(1112)和第二三角形预测单元(1114)。在一些示例中，如图11中所示的示例2，可以沿从当前块(1110B)的右上角延伸至左下角的对角线将当前块(1110B)划分为第一三角形预测单元(1116)和第二三角形预测单元(1118)。

在一些实施例中，为了指示是否要使用三角形预测单元模式解码当前块，可以用信号表示一标记(例如，VVC中的“merge_triangle_flag”)。为了进一步指示两个三角形预测单元所使用的划分方法和候选的索引，可以用信号表示一个或多个语法元素(例如，VVC中的“merge_triangle_idx”、“merge_triangle_idx0”和/或“merge_triangle_idx1”)。

在关于解码当前块的一些实施例中，当merge_triangle_flag[x0][y0]设置为1时，将使用三角形预测单元模式解码当前块，其中，(x0，y0)给出当前块左上亮度样本相对于图片左上亮度样本的位置。在关于解码当前块的一些示例中，在解析merge_triangle_flag[x0][y0]并确定merge_triangle_flag[x0][y0]设置为1之后，可解析语法元素merge_triangle_idx[x0][y0]以获取可用的划分方向，并且可以进一步解析语法元素merge_triangle_idx0[x0][y0]和merge_triangle_idx1[x0][y0]以获取不同三角形预测单元的可用的候选选择信息。

参照图8至图11描述的所有编码模式均可以用于视频编解码。在一些示例中，可基于各种标记(诸如标记mmvd_flag、sub_block_flag、MHIntra_flag)来确定使用哪个模式解码特定块。在一些示例中，可以根据mmvd_flag、sub_block_flag、MHIntra_flag、merge_triangle_flag的顺序来用信号表示部分或全部上述标记，另外，只要用信号表示的该部分标记可以明确给出用于解码特定块的可用模式，就不需要用信号表示出全部上述标记。

如表I中所示，可以有条件地用信号表示这些标记，图1中列出了语法元素和用信号表示各个语法元素的对应条件。在表I中，标记为“False”表示不对当前块使用该标记代表的编解码模式，而标记为“True”表示对当前块使用该标记代表的编解码模式。

表I——合并相关语法元素的编解码条件。

在根据表I的一些实施例中，当标记mmvd_flag、sub_block_flag、MHIntra_flag和merge_triangle_flag都设置为false时，使用常规合并模式，其中，用信号表示针对常规合并模式的语法元素merge_idx。

常规合并模式可以是特定图片中使用最频繁的模式。因此，可以重新配置标记或语法元素，使得无需每次使用常规合并模式时都用信号表示所有的标记，即mmvd_flag、sub_block_flag、MHIntra_flag和merge_triangle_flag。另外，为了提高编码效率，语法元素merge_idx可以被配置为表示用于不同模式的各种参数。例如，语法元素merge_idx可以指示用于常规合并模式的候选选择信息，也可以指示用于MMVD模式的基本矢量选择信息。

另外，可以按一下所述重新配置标记和/或语法元素。块可以对应于预测块、编码块或编码单元，并且术语宽度和高度表示块的宽度和高度。

在一些实施例中，可引入新的语法元素(在本申请公开中被称为“merge_list_idc”)以代替标记mmvd_flag、sub_block_flag、MHIntra_flag和merge_triangle_flag中的一些或全部。举例来说，merge_list_idc可设置为0(或False)以指示使用常规合并模式，且merge_list_idc可设置为1(或True)以指示不使用常规合并模式。当merge_list_idc为True时，所有其他模式中的哪一个模式可以基于一个或多个附加的标记或语法元素来信号表示或者导出，以上不限于本文所述的模式、标记或语法元素，且可以被简化或扩展。

在一示例中，可以使用merge_list_idc来信号表示是否使用常规合并模式、sub_block_flag的值、和merge_triangle_flag的值。可根据merge_list_idc的值有条件地用信号表示或推断标记mmvd_flag和MHIntra_flag。在一些示例中，可根据用信号表示的标记的使用频率(对应于各个模式的使用频率)二值化binary_list_idc，其中使用最频繁的标记具有最小长度代码，而使用最不频繁的标记具有最大长度代码。例如，二值化后的merge_list_idc的各种值可以表示以下设置：“0”表示使用常规合并模式，“10”表示sub_block_flag为True(即使用子块合并预测模式)，“11”表示merge_triangle_flag为True(即使用三角形预测单元模式)。

在另一实施例中，可使用merge_list_idc来信号表示是否使用常规合并模式、mmvd_flag的值、sub_block_flag的值、和merge_triangle_flag的值。可根据merge_list_idc的值来推断MHIntra_flag。在一些示例中，还可根据用信号表示的标记的使用频率(对应于各个模式的使用频率)二值化binary_list_idc，其中使用最频繁的标记具有最小长度代码，而使用最不频繁的标记具有最大长度代码。例如，二值化后的merge_list_idc的各种值可以表示以下设置：“0”表示使用常规合并模式，“10”表示mmvd_flag为True(即使用MMVD模式)，“110”表示sub_block_flag为True(即使用子块合并预测模式)，“111”表示merge_triangle_flag为True(即使用三角形预测单元模式)。

在另一实施例中，可使用merge_list_idc来信号表示是否使用常规合并模式、mmvd_flag的值、sub_block_flag的值、和MHIntra_flag的值。如果将更多合并模式添加到merge_list_idc，可应用简单扩展。

在一些示例中，为了二值化merge_list_idc，可使用截断的一元代码。在一些实施例中，前一个或前两个二进制数使用可变长度编码，而其余二进制数使用固定长度编码。基本上，可以基于合并模式的使用频率来排列merge_list_idc中使用各种模式的指示顺序。在一些示例中，需要将使用最频繁的模式置于第一个(因此可对应最小长度代码)。在一实施例中，基于使用频率与50％之间的绝对差来对合并模式进行排序。例如，可将具有最大绝对差的模式排在第一个。

在一实施例中，可基于表II来二值化merge_list_idc。

表II——merge_list_idc二值化表的第一示例

二值化	模式
		1	常规合并模式
01	MMVD模式
		001	子块合并预测模式
0001	MHIntra模式
		0000	三角形预测单元模式

在另一实施例中，可基于表III来二值化merge_list_idc。

表III——merge_list_idc二值化表的第二示例

二值化	模式
		1	MMVD模式
01	子块合并预测模式
		001	MHIntra模式
0001	三角形预测单元模式
		0000	常规合并模式

在又一实施例中，可基于表IV来二值化merge_list_idc。

表IV——merge_list_idc二值化表的第三示例

在又一实施例中，可基于表V来二值化merge_list_idc。

表V——merge_list_idc的第四个二值化表示例

二值化	模式
		1	子块合并预测模式
01	三角形预测单元模式
		001	MHIntra模式
0001	MMVD模式
		0000	常规合并模式

可以在比特流中的高级语法结构中，例如序列参数集(SPS)、图片参数集(PPS)、切片报头、图块组报头、图块报头、或者与图片或图片的一部分相关联的合适的报头中，用信号表示merge_list_idc。

可使用上下文模型对merge_list_idc进行编码。在一示例中，使用来自位于当前块上方或左侧的空间相邻块的merge_list_idc来导出用于编码当前块的merge_list_idc的上下文模型。在一示例中，可使用当前块的宽度和高度来导出用于编码当前块的merge_list_idc的上下文模型。在一些实施例中，merge_list_idc的每个二进制数可以被上下文编码，其中不同的二进制数可以使用不同的上下文。在一示例中，可根据作为上下文的空间邻域对指示常规合并模式的二进制数进行编码。在另一示例中，可根据不依赖于空间邻域的单一上下文对指示子块合并预测模式的二进制数进行编码。

在一些实施例中，在用信号表示指示是否使用常规合并模式的merge_list_idc或专用标记(在本申请公开中表示为“regular_merge_flag”)之后，且在用信号表示语法元素merge_idx之后，可用信号表示指示对应的MMVD相关信息——例如mmvd_flag和/或运动矢量差信息——的、与MMVD相关的语法元素。在一示例中，针对当前块，在用信号表示regular_merge_flag/merge_list_idc之后，且在用信号表示mmvd_flag、sub_block_flag、MHIntra_flag和merge_triangle_flag(如果有的话)之前，用信号表示语法元素merge_idx。

在另一示例中，首先用信号表示regular_merge_flag/merge_list_idc以明确指示是否使用常规合并模式，然后用信号表示语法元素merge_idx。在一些实施例中，可通过merge_idx来信号表示上述“base_mv_idx”携带的信息。在用信号表示regular_merge_flag/merge_list_idc和merge_idx信号后，可以有条件地用信号表示与MMVD相关的语法元素。在一示例中，如果regular_merge_flag/merge_list_idc指示可使用常规合并模式或MMVD模式，并且由merge_idx指示的候选索引小于max_mmvd_base_idx，则有可能能够使用MMVD模式，且进一步用信号表示mmvd_flag。否则，可排除MMVD模式，并因此将mmvd_flag推断为False且不用信号表示。如果mmvd_flag为True，则用信号表示语法元素distance_idx和direction_idx。

在一些实施例中，可将常规合并模式和MMVD模式归类为基于块的合并模式，并且，可将子块合并预测模式(包括ATMVP和仿射模式)、三角形合并预测模式和MHIntra模式归类为基于子块的合并模式。因此，可使用merge_list_idc来信号表示用于编码当前块的模式是其中一种基于块的合并模式还是其中一种基于子块的合并模式。

例如，当merge_flag为True指示使用合并模式时，可以用信号表示标记merge_list_idc，以指示对当前块的编码是根据一种基于块的合并模式之一还是一种基于子块的合并模式。在一些示例中，在merge_list_idc之后且在所有其他与合并相关的标记之前用信号表示merge_idx，或者，可在所有其他与合并相关的标记之后用信号表示merge_idx。

当使用其中一种基于块的合并模式时，可用信号表示mmvd_flag，该信号表示依赖于merge_idx的值(如果在所有其他与合并相关的标记之前用信号表示该值)。在这样的示例中，可替代地使用“merge_list”来信号表示由上述“base_mv_idx”携带的信息。举例来说，如果merge_list_idc指示可使用常规合并模式或MMVD模式，并且由merge_idx指示的候选索引小于max_mmvd_base_idx，则有可能使用MMVD模式并且用信号表示mmvd_flag。否则，可排除MMVD模式，并因此将mmvd_flag推断为False且不用信号表示。如果mmvd_flag为True，将进一步用信号表示MMVD模式相关的信息。

当使用其中一种子块合并模式时，可用信号表示sub_block_flag(对应于仿射合并模式和ATMVP模式)，该信号表示取决于merge_idx的值(如果在所有其他与合并相关的标记之前用信号表示该值)，。在一示例中，当使用子块合并模式并且sub_block_flag为False时，可用信号表示MHIntra_flag，该信号表示依赖于使能MHIntra模式的条件。如果MHIntra_flag为True，将进一步用信号表示MHIntra模式相关的信息。在一示例中，当使用子块合并模式并且sub_block_flag和MHIntra_flag为False时，可用信号表示merge_triangle_flag，该信号表示依赖于使能三角形预测单元模式的条件。如果merge_triangle_flag为True，将进一步用信号表示三角形预测单元模式相关的信息。

对上述模式以及不同模式在上述类别中的顺序的描述是非限制性的，可对其进行改变或变化。例如，可在MHIntra模式之前考虑或检查三角形预测单元模式，并且将三角形预测单元模式用作信号表示对应于其他模式的标记的条件。

在至少一个实施例中，本文所述的各种示例中的语法设计可配置如下：

/>

在一些实施例中，可引入新的语法元素regular_merge_flag，以明确指示是否使用常规合并模式。如果regular_merge_flag设置为True，则使用常规合并模式。

语法元素regular_merge_flag使用上下文模型编码。在一示例中，当前块的regular_merge_flag使用固定上下文模型编码。例如，总是使用索引为0的上下文模型来编码regular_merge_flag。

在另一示例中，使用当前块的上方和左方的空间相邻块的regular_merge_flag来导出用于编码当前块的regular_merge_flag的上下文模型。在一示例中，如果当前块的上方和左方的空间相邻块的regular_merge_flag均为False，可使用索引为0的上下文模型编码当前编码块的regular_merge_flag。在一示例中，如果当前块的上方和左方的空间相邻块的regular_merge_flag均为True，可使用索引为2的上下文模型编码当前编码块的regular_merge_flag。在一些示例中，如果当前块的上方和左方的空间相邻块的regular_merge_flag不均为False且不均为True，可使用索引为1的上下文模型编码当前编码块的regular_merge_flag。

在另一示例中，如果当前块的上方和左边的空间相邻块的regular_merge_flag全部为False，可使用索引为0的上下文模型编码当前编码块的regular_merge_flag。否则，可使用索引为1的上下文模型编码当前编码块的regular_merge_flag。

图12A示出了概述本申请公开一实施例的一解码处理(1200A)的流程图。该处理(1200A)可以用于确定识别运动信息并将运动信息应用于图片块(即当前块)的模式。在一些实施例中，在处理(1200A)之前或之后执行一个或多个操作，并且，图12A所示的一些操作可被重新排序或省略。

在各种实施例中，处理(1200A)由处理电路执行，该处理电路例如的第一终端装置(210)、第二终端转置(220)、第三终端装置(230)、和第四终端装置(240)中的处理电路，以及执行视频解码器(310)、(410)或(710)等的功能的处理电路。在一些实施例中，处理(1200A)由软件指令实现，因此当处理电路执行软件指令时，处理电路执行处理(1200A)。所述处理从流程S1201开始，而后执行步骤S1210。

在步骤S1210中，从已编码视频比特流获取第一语法元素。第一语法元素与多个模式相关联，该多个模式用于识别运动信息并且将运动信息应用于当前块。第一语法元素的第一值可指示用于当前块的多个模式的子集。在一些实施例中，该第一语法元素对应于前述语法元素“merge_list_idc”。

多个模式包括：常规合并模式，其对应于根据从运动信息候选列表中选择的运动信息候选导出当前块的运动信息；子块合并预测模式，其对应于将当前块划分为多个矩形子块并且导出多个矩形子块的各自的运动信息；以及三角形预测单元模式，其对应于将当前块划分为两个三角形子分区并且导出三角形子分区的运动信息。多个模式还可以包括：带有运动矢量差的合并模式(MMVD)，其对应于根据运动矢量差信息和从运动信息候选列表中选择的运动信息候选来导出当前块的运动信息。多个模式还可以包括：用于帧内的多假设预测(MHIntra)模式，其对应于通过组合帧内预测值和帧间预测值来生成当前块的最终预测值。

由第一语法元素的值指示的、用于当前块的多个模式的子集可包括单个模式，或包括模式的多个子集中的一个。在一示例中，第一语法元素的值可指示是否将使用常规合并模式来导出当前块的运动信息。在一示例中，第一语法元素的值可以指示将使用常规合并模式或者带有运动矢量差的合并模式来导出当前块的运动信息。在一示例中，第一语法元素的值可以指示将使用子块合并预测模式、三角形预测单元模式、或MHIntra模式来导出当前块的运动信息。

第一语法元素设置为表示多个模式中各个模式的不同二进制数之一。可按照预定顺序来排列多个模式，该预定顺序与模式使用频率的降序一致。在一些示例中，该顺序可排列为与表II至表V所示的任一示例的全部或部分一致。对于多个模式中的任意两个模式，编码其中顺序在前的模式所用的代码长度不大于编码其中另一模式所用的代码长度。例如，请参考表II所示的常规合并模式、MMVD模式、子块合并预测模式、MHIntra模式和三角形预测单元模式的顺序。

在一些实施例中，在包括当前块的图片所用的多个模式中，使用最频繁的模式被排在顺序中的首位，且由包含最少二进制位的二进制数之一来表示。在至少一个示例中，使用最频繁的模式是常规合并模式。

在一些实施例中，如果用于当前块的多个模式的子集对应于多个模式，则可根据在第一语法元素之后提供的一个或多个附加语法元素或标记来导出或确定多个模式的子集内的可用模式。请参照图12B，将进一步说明从多个模式的子集中确定可用模式的其他非限制性示例。

在步骤S1270中，根据由第一语法元素的第一值指示的多个模式的子集生成当前块的预测值。在一些实施例中，可根据多个模式的子集内的可用模式，至少通过帧间预测生成当前块的预测值。

在步骤S1280中，至少基于步骤S1270得到的预测值来生成当前块的重建样本(例如，该重建样本用于输出)。

在步骤S1280之后，该处理执行流程S1299并终止。

图12B示出了概述本申请公开另一实施例中的另一解码处理(1200B)的流程图。该处理(1200B)包括步骤S1201、S1210、S1220、S1270、S1280和S1299，并且可***图12A中处理(1200A)的步骤S1220与步骤S1270之间。因此，图12B未示出或进一步说明步骤S1201、S1210、S1220、S1270、S1280和S1299。

处理(1200B)可以用于确定一模式，该模式用于识别运动信息并且将运动信息应用于图片块(即当前块)。在一些实施例中，在处理(1200B)之前或之后执行一个或多个操作，并且图12B中所示的一些操作可能会被重新排序或者被省略。

在各种实施例中，处理(1200B)由处理电路执行，该处理电路例如的第一终端装置(210)、第二终端转置(220)、第三终端装置(230)、和第四终端装置(240)中的处理电路，以及执行视频解码器(310)、(410)或(710)等的功能的处理电路。在一些实施例中，处理(1200B)由软件指令实现，因此，当处理电路执行软件指令时，处理电路执行处理(1200B)。该处理从流程S1201开始，而后执行步骤S1210和步骤S1220，然后执行步骤S1230。

在步骤S1230中，从已编码视频比特流中获取在第一语法元素之后提供的第二语法元素。第二语法元素的第二值指示索引，该索引用于从运动信息候选列表中选择运动信息候选。在一些实施例中，该第二语法元素对应于前述语法元素“merge_idx”。

在步骤S1240中，确定多个模式的子集是否包括常规合并模式和MMVD模式。如果子集包括常规合并模式和MMVD模式，则该处理执行步骤S1245，否则该处理执行步骤S1255。

在一些实施例中，可以根据第一语法元素的第一值来确定多个模式的子集是否包括常规合并模式和MMVD模式。在一些实施例中，当第一语法的第一值指示将用于生成当前块预测值的模式是基于块的合并模式时，多个模式的子集包括常规合并模式和MMVD模式中的至少一种。在一些实施例中，当第一语法元素的第一值指示将用于生成当前块预测值的模式是基于子块的合并模式时，多个模式的子集包括子块合并预测模式、三角形预测单元模式和MHIntra模式中的至少一种。

在一些实施例中，在步骤S1240中，还可根据已编码视频比特流中在第一语法元素之后提供的又一语法元素来确定多个模式的子集是否包括常规合并模式和MMVD模式。当第一语法元素的第一值指示用于多个模式的子集至少包括常规合并模式时，所述又一语法元素的值明确指示用于生成当前块预测值的模式是否为常规合并模式。在一些实施例中，所述又一语法元素对应于前述语法元素“regular_merge_flag”。

在步骤S1245中，确定是否获取第三语法元素，其中第三语法元素的第三值指示是根据常规合并模式还是根据MMVD模式来生成当前块的预测值。在一些实施例中，当由第二语法元素的第二值指示的索引小于MMVD模式的运动信息候选的最大数目时，从已编码视频比特流获取第三语法元素，并且该处理执行步骤(S1250)。否则，不需要获取第三语法元素，可将当前块的可用模式确定为常规合并模式，然后该处理执行步骤S1255。在一些实施例中，该第三语法元素对应于前述语法元素“mmvd_flag”。

在步骤S1250中，基于获取的第三语法元素，可确定当前块的可用模式是常规合并模式还是MMVD模式。如果第三语法元素的值指示使用MMVD模式，则该处理执行步骤S1260，否则可将可用模式确定为常规合并模式，且该处理执行步骤S1255。

在步骤S1255中，已确定当前块的可用模式为常规合并模式，或者将基于一个或多个附加标记确定当前块的可用模式为其他可能的模式中的一种，例如子块合并预测模式、三角形预测单元模式、和/或MHIntra模式中的一种。在一些实施例中，该一个或多个附加标记对应于前述“sub_block_flag”、“MHIntra_flag”和“merge_triangle_flag”中的一个或多个。

在步骤S1260中，当第三语法元素的第三值指示用于生成当前块预测值的模式是MMVD模式时，可从已编码视频比特流中获取在第三语法元素之后提供的一个或多个第四语法元素。在一些实施例中，一个或多个第四语法元素指示MMVD模式的运动矢量差信息。在一些实施例中，该一个或多个第四语法元素对应于前述“base_mv_idx”、distance_idx”和“direction_idx”中的一个或多个。在一些实施例中，由“base_mv_idx”携带的信息可由“merge_idx”用信号表示，同时可省略“base_mv_idx”。

在步骤S1255或步骤S1260之后，该处理执行步骤S1270，然后执行步骤S1280，再执行流程S1299并终止。

图13示出了概述本申请公开一实施例的编码处理(1300)的流程图。该处理(1300)可用于编码图片的块(即，当前块)，其中，根据用于识别运动信息并且将运动信息应用于当前块的多个模式来编码所述图片。在一些实施例中，在处理(1300)之前或之后执行一个或多个操作，并且图13所示的一些操作可以被重新排序或者被省略。

在各个实施例中，处理(1300)由处理电路执行，该处理电路例如的第一终端装置(210)、第二终端转置(220)、第三终端装置(230)、和第四终端装置(240)中的处理电路，以及执行视频编码器(303)、(503)或(703)等的功能的处理电路。在一些实施例中，处理(1300)由软件指令实现，因此当处理电路执行软件指令时，处理电路执行处理(1300)。处理从流程S1301开始，而后执行步骤S1310。

在步骤S1310中，将用于识别运动信息并且将运动信息应用于当前块的多个模式之一确定为当前块的可用模式。

在一些实施例中，多个模式包括：常规合并模式，其对应于根据从运动信息候选列表中选择的运动信息候选导出当前块的运动信息；子块合并预测模式，其对应于将当前块划分为多个矩形子块并且导出多个矩形子块的各自的运动信息；以及三角形预测单元模式，其对应于将当前块划分为三角形子分区并且导出三角形块子分区的各自的运动信息。在一些实施例中，多个模式还包括：MMVD模式，其对应于根据运动矢量差信息和从运动信息候选列表中选择的运动信息候选导出当前块的运动信息。在一些实施例中，多个模式还包括：MHIntra模式，其对应于通过组合帧内预测值和帧间预测值来生成当前块的最终预测值。

在步骤S1320中，根据步骤S1310中确定的可用模式生成当前块的预测值。在步骤S1330中，根据该预测值生成当前块的残差样本。在一些实施例中，残差样本对应于当前块的原始样本与预测值之间的差。

在步骤S1340中，生成与多个模式相关联的语法元素。该语法元素的值指示多个模式的子集，该子集包括所确定的用于当前块的模式。该语法元素对应于前述语法元素“merge_list_idc”。

在一示例中，语法元素的值可指示是否将使用常规合并模式用信号表示当前块的运动信息。在一示例中，语法元素的值可以指示将使用常规合并模式或MMVD模式用信号表示当前块的运动信息。在一示例中，语法元素的值可以指示将使用子块合并预测模式、三角形预测单元模式、或MHIntra模式用信号表示当前块的运动信息。

在一些实施例中，语法元素设置为代表多个模式中各个模式的不同二进制数之一。可按照预定顺序来排列多个模式，该预定顺序与模式使用频率的降序一致。在一些示例中，该顺序可排列为与表II至表V所示的任一示例的全部或部分一致。在一些实施例中，对于多个模式中的任意两个模式，编码其中顺序在前的模式所用的代码长度不大于编码其中另一模式所用的代码长度。例如，请参考表II所示的常规合并模式、MMVD模式、子块合并预测模式、MHIntra模式和三角形预测单元模式的顺序。

在一些实施例中，可与语法元素一起有条件地用信号表示一个或多个另外的标记，例如标记mmvd_flag、sub_block_flag、MHIntra_flag和merge_triangle_flag，以指示所确定的可用模式。

在步骤S1380中，可至少基于步骤S1340生成的语法元素和步骤1330生成的当前块的残差样本，来生成用于输出的已编码视频比特流。

在步骤S1380之后，该处理执行流程S1399并终止。

上述技术可实现为计算机软件，该计算机软件使用计算机可读指令，并物理存储于一个或多个计算机可读介质中。例如，图14示出了适于实现本申请公开的主题的某些实施例的计算机***(1400)。

可以使用任何合适的机器代码或计算机语言来编码计算机软件，可对机器代码或计算机语言进行汇编、编译、链接等操作以创建包括指令的代码，该指令可以由一个或多个计算机中央处理单元(CPU)、图形处理单元(GPU)等直接执行或者通过解译、微代码执行等来执行。

指令可以在各种类型的计算机或其部件上执行，包括例如个人计算机、平板计算机、服务器、智能电话、游戏设备、物联网设备等。

图14中示出的用于计算机***(1400)的部件本质上是示例性的，其目的不在于对实现本申请公开的实施例中计算机软件的使用范围或功能进行任何限制。部件的配置也不应当被解释为依赖于或受制于计算机***(1400)的示例性实施例中示出的任一部件或部件组合。

计算机***(1400)可以包括某些人机接口输入设备。这样的人机接口输入设备可以响应于由一个或多个人类用户的输入，该输入方式例如触觉输入(比如击键、滑动、数据手套移动)、音频输入(比如语音、拍打)、视觉输入(比如手势)、嗅觉输入(未示出)。人机接口设备还可以用于采集某种媒体，该媒体不一定与人类有意识的输入直接相关，比如，音频(诸如：语音、音乐、环境声音)、图像(比如扫描图像、从静态图像摄像装置获取的摄影图像)、视频(比如二维视频、包括立体视频的三维视频)。

输入人机接口设备可以包括以下中的一个或多个(每项仅示出一个)：键盘(1401)、鼠标(1402)、触控板(1403)、触摸屏(1410)、数据手套(未示出)、操纵杆(1405)、麦克风(1406)、扫描仪(1407)、摄像装置(1408)。

计算机***(1400)还可以包括某些人机接口输出设备。这样的人机接口输出设备可以通过例如触觉输出、声音、光和气味/味道来刺激一个或多个人类用户的感觉。该人机接口输出设备可以包括触觉输出设备(比如使用触摸屏(1410)、数据手套(未示出)或操纵杆(1405)产生触觉反馈，但也可使用不作为输入设备的触觉反馈设备)、音频输出设备(比如扬声器(1409)、头戴式耳机(未示出))、视觉输出设备(比如：屏幕(1410)，包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕，每种屏幕具有或不具有触摸屏输入能力，每中屏幕具有或不具有触觉反馈能力——其中的一些可能能够通过诸如立体图像输出手段输出二维视觉输出或三维以上输出；虚拟现实眼镜(未示出)；全息显示器和烟罐(未示出))、和打印机(未示出)。

计算机***(1400)还可以包括人类可访问存储设备及其相关联的介质，例如，包括具有CD/DVD等介质(1421)的CD/DVD ROM/RW(1420)的光学介质、拇指驱动器(1422)、可移除硬盘驱动器或固态驱动器(1423)、传统磁性介质，例如磁带和软盘(未示出)、基于专用ROM/ASIC/PLD的设备，例如安全加密狗(未示出)，等。

本领域技术人员还应当理解，结合本申请公开的主题所使用的术语“计算机可读介质”不包含传输介质、载波、或其他瞬时信号。

计算机***(1400)还可以包括到一个或多个通信网络的接口。网络可以例如是无线、有线连接、光网络。网络还可以是局域网、广域网、城域网、车辆工业网络、实时网络、延时容忍网络等。网络的示例包括：诸如以太网的局域网，无线LAN，包括GSM、3G、4G、5G、LTE等的蜂窝网络，包括有线电视、***和地面广播电视的有线连线或无线广域数字网络电视，包括CANBus的车辆工业网络等。某些网络通常需要附接至某些通用数据端口或***总线(1449)(例如，计算机***(1400)的USB端口)的外部网络接口适配器，其他通常通过下述方式附接至***总线以集成到计算机***(1400)的核心中(例如，通过以太网接口集成到PC计算机***，或通过蜂窝网络接口集成到智能电话计算机***的)。计算机***(1400)可通过使用这些网络中的任何网络与其他实体进行通信。这样的通信可以是单向仅接收的(例如，广播电视)、单向仅发送的(例如，从CAN总线到某些CAN总线设备)、或双向的(例如使用局域或广域数字网络到其他计算机***)。可以在上述的每个网络和网络接口上使用某些协议和协议栈。

前述人机接口设备、人类可访问存储设备和网络接口可以附接至计算机***(1400)的核心(1440)。

核心(1440)可以包括一个或多个中央处理单元(CPU)(1441)、图形处理单元(GPU)(1442)、现场可编程门阵列(FPGA)(1443)形式的专用可编程处理单元、用于某些任务的硬件加速器(1444)等。可以通过***总线(1448)将这些设备连同只读存储器(ROM)(1445)、随机存取存储器(1446)、诸如内部非用户可访问硬盘驱动器、SSD等内部大容量存储装置(1447)连接在一起。在一些计算机***中，可以以一个或多个物理插头的形式访问***总线(1448)，以通过另外的CPU、GPU等实现扩展。***设备可以直接地或通过***总线(1449)附接至核心的***总线(1448)。***总线的架构包括PCI、USB等。

CPU(1441)、GPU(1442)、FPGA(1443)和加速器(1444)可以执行某些指令，这些指令可以组合构成前述的计算机代码。该计算机代码可以存储在ROM(1445)或RAM(1446)中。临时数据也可以存储在RAM(1446)中，而永久数据可以存储在例如内部大容量存储装置(1447)中。可以通过使用缓存存储器来实现存储设备中的任何存储设备的快速存储和检索，该缓存存储器可以与一个或多个CPU(1441)、GPU(1442)、大容量存储装置(1447)、ROM(1445)、RAM(1446)等紧密关联。

计算机可读介质上可具有计算机代码，该代码用于执行各种由计算机实现的操作。介质和计算机代码可以是出于本申请公开的目的而专门设计和构造的，或者可以是计算机软件领域技术人员公知且可用的。

作为示例而非限制，(一个或多个)处理器(包括CPU、GPU、FPGA、加速器等)执行一个或多个有形计算机可读介质中含有的软件，从而使具有架构(1400)的计算机***——特别是核心(1440)——可以发挥功能。这样的计算机可读介质可以是与前文介绍的用户可访问的大容量存储装置相关联的介质，也可以是具有非暂态性核心(1440)的某些存储装置，比如核心内大容量存储装置(1447)或ROM(1445)。可以在这样的设备中存储实现本申请公开的各种实施例的软件，并且由核新执行(1440)所述软件。根据特定需要，计算机可读介质可以包括一个或多个存储设备或芯片。软件可以使核心(1440)——特别是其中的处理器(包括CPU、GPU、FPGA等)——执行本文描述的特定处理或其中特定部分，包括定义存储在RAM(1446)中的数据结构以及根据由软件定义的处理修改该数据结构。另外地或替选地，计算机***可以逻辑硬连线的方式、或以其他表现为电路(例如，加速器(1444))的方式来发挥功能，该逻辑硬连线或者电路可以代替软件或与软件一起操作，以执行本文描述的特定处理或其中特定部分。在合适的情况下，所涉及的软件可以涵盖逻辑，反之，所涉及的逻辑也可以涵盖软件。在合适的情况下，所涉及的计算机可读介质可以涵盖存储所执行软件的电路(比如集成电路(IC))、含有所执行逻辑的电路、或以上两者。本申请公开涵盖任何合适的硬件与软件的组合。

附录A：首字母缩写

JEM：联合探索模型

VVC：通用视频编码

BMS：基准设置

MV：运动矢量

HEVC：高效视频编码

SEI：补充增强信息

VUI：视频可用性信息

GOP：图片组群

TU：变换单元

PU：预测单位

CTU：编码树单位

CTB：编码树块

PB：预测块

HRD：假设参考解码器

SNR：信噪比

CPU：中央处理单元

GPU：图形处理单元

CRT：阴极射线管

LCD：液晶显示器

OLED：有机发光二极管

CD：高密度盘

DVD：数字视频光盘

ROM：只读存储器

RAM：随机存取存储器

ASIC：专用集成电路

PLD：可编程逻辑设备

LAN：局域网

GSM：全球移动通信***

LTE：长期演进

CANBus：控制器区域网络总线

USB：通用串行总线

PCI：***部件互连

FPGA：现场可编程门阵列

SSD：固态驱动器

IC：集成电路

CU：编码单位。

Claims

1.一种视频解码的方法，其特征在于，所述方法用于解码器中，所述方法包括：

从已编码视频比特流中获取第一语法元素，其中，所述第一语法元素与多个模式相关联，所述多个模式用于识别运动信息并将所述运动信息应用于当前块，并且所述第一语法元素的第一值指示用于所述当前块的所述多个模式的子集；

根据由所述第一语法元素的第一值指示的所述子集生成所述当前块的预测值；以及

基于所述预测值生成所述当前块的重建样本；

其中，所述第一语法元素被设置为代表所述多个模式中各个模式的不同二进制数中的一个，并且在包括所述当前块的图片中，所述多个模式中使用最频繁的模式由所述二进制数中的具有最少二进制位的二进制数表示。

2.根据权利要求1所述的方法，其特征在于，所述多个模式包括：

常规合并模式，其对应于根据从运动信息候选列表中选择的运动信息候选导出所述当前块的运动信息；

子块合并预测模式，其对应于将所述当前块划分为多个矩形子块并且导出所述多个矩形子块各自的运动信息；以及

三角形预测单元模式，其对应于将所述当前块划分为三角形子分区并且导出所述三角形子分区各自的运动信息。

3.根据权利要求2所述的方法，其特征在于，所述多个模式还包括：

带有运动矢量差的合并模式，其对应于根据运动矢量差信息和从运动信息候选列表中选择的运动信息候选来导出所述当前块的运动信息。

4.根据权利要求3所述的方法，其特征在于，所述多个模式还包括：

用于帧内的多假设预测模式，其对应于通过组合帧内预测值和帧间预测值来生成所述当前块的最终预测值。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

按照所述多个模式中各个模式的使用频率将所述多个模式降序排列为所述常规合并模式、所述带有运动矢量差的合并模式、所述子块合并预测模式、所述用于帧内的多假设预测模式和所述三角形预测单元模式。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述多个模式中各个模式的使用频率的降序排列所述多个模式。

7.根据权利要求6所述的方法，其特征在于，所述使用最频繁的模式被排列在降序排列顺序中的第一个。

8.根据权利要求7所述的方法，其特征在于，

所述使用最频繁的模式是常规合并模式，所述常规合并模式对应于根据从运动信息候选列表中选择的运动信息候选导出所述当前块的运动信息。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述已编码视频比特流中获取在所述第一语法元素之后提供的第二语法元素，所述第二语法元素的第二值指示索引，所述索引用于从运动信息候选列表中选择运动信息候选，其中：

当所述子集对应于所述当前块整体的运动信息所对应的模式时，如果所述索引小于带有运动矢量差的合并模式的运动信息候选的最大数目，则从所述已编码视频比特流获取第三语法元素，所述当前块整体的运动信息所对应的模式是根据所述索引选择的所述运动信息候选导出的，所述第三语法元素的第三值指示是根据常规合并模式还是根据所述带有运动矢量差的合并模式来生成所述当前块的预测值；

所述常规合并模式对应于根据从运动信息候选列表中选择的运动信息候选导出所述当前块的运动信息，

所述带有运动矢量差的合并模式对应于根据运动矢量差信息和从运动信息候选列表中选择的运动信息候选来导出所述当前块的运动信息。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

当所述第三语法元素的第三值指示用于生成所述当前块的预测值的模式是所述带有运动矢量差的合并模式时，从所述已编码视频比特流中获取在所述第三语法元素之后提供的一个或多个第四语法元素，所述一个或多个第四语法元素指示所述运动矢量差信息。

11.根据权利要求1所述的方法，其特征在于，

所述第一语法元素的第一值指示要用于生成所述当前块的预测值的模式是基于块的合并模式还是基于子块的合并模式，

当所述第一语法元素的第一值指示要用于生成所述当前块的预测值的模式是所述基于块的合并模式时，所述多个模式的子集包括以下模式中的至少一个：

常规合并模式，其对应于根据从运动信息候选列表中选择的运动信息候选导出所述当前块的运动信息，以及

带有运动矢量差的合并模式，其对应于根据运动矢量差信息和从运动信息候选列表中选择的运动信息候选来导出所述当前块的运动信息，并且

当所述第一语法元素的第一值指示要用于生成所述当前块的预测值的模式是所述基于子块的合并模式时，所述多个模式的子集包括以下模式中的至少一个：

子块合并预测模式，其对应于将所述当前块划分为多个矩形子块并且导出所述多个矩形子块各自的运动信息，

三角形预测单元模式，其对应于将所述当前块划分为三角形子分区并且导出所述三角形子分区各自的运动信息，以及

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

从所述已编码视频比特流中获取在所述第一语法元素之后提供的第二语法元素，所述第二语法元素的第二值指示索引，所述索引用于从运动信息候选列表中选择运动信息候选，

当所述第一语法元素的第一值指示要用于生成所述当前块的预测值的模式是所述基于块的合并模式时，如果所述索引小于所述带有运动矢量差的合并模式的运动信息候选的最大数目，则从所述已编码视频比特流中获取第三语法元素，所述第三语法元素的第三值指示是根据所述常规合并模式还是根据所述带有运动矢量差的合并模式生成所述当前块的预测值。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

当所述第三语法元素指示用于生成所述当前块的预测值的模式是所述带有运动矢量差的合并模式时，从所述已编码视频比特流中获取在所述第三语法元素之后提供的一个或多个第四语法元素，所述一个或多个第四语法元素指示所述运动矢量差信息。

14.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述第一语法元素的第一值指示所述多个模式的子集至少包括常规合并模式时，从所述已编码视频比特流中获取在所述第一语法元素之后提供的第五语法元素，所述第五语法元素的值指示用于生成所述当前块的预测值的模式是否为常规合并模式，所述常规合并模式对应于根据从运动信息候选列表中选择的运动信息候选导出所述当前块的运动信息。

15.一种视频解码的装置，其特征在于，所述装置包括获取单元和生成单元：

所述获取单元，用于从已编码视频比特流中获取第一语法元素，其中，所述第一语法元素与多个模式相关联，所述多个模式用于识别运动信息并将所述运动信息应用于当前块，并且所述第一语法元素的第一值指示用于所述当前块的所述多个模式的子集；

所述生成单元，用于根据由所述第一语法元素的第一值指示的所述子集生成所述当前块的预测值；以及

所述生成单元还用于基于所述预测值生成所述当前块的重建样本；

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于通过处理器执行权利要求1-14中任一项所述的方法。