CN111903126A

CN111903126A - 用于视频解码的方法和装置

Info

Publication number: CN111903126A
Application number: CN201980020381.0A
Authority: CN
Inventors: 李贵春; 许晓中; 李翔; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2018-07-02
Filing date: 2019-06-26
Publication date: 2020-11-06
Anticipated expiration: 2039-06-26
Also published as: US20200084450A1; CN111903126B; WO2020009872A1; JP2021519039A; EP3818702A1; KR102480934B1; KR20200128582A; EP3818702A4; US20200007864A1; JP7085021B2; US10531090B1

Abstract

本公开内容的各方面提供了用于视频解码的方法和装置。在一些示例中，用于视频解码的装置包括接收电路和处理电路。处理电路对作为编码视频比特流的一部分的当前图片中的块的预测信息进行解码。预测信息指示帧间预测模式。响应于帧间预测模式，处理电路按排名顺序来构建候选运动矢量预测器的候选列表，所述候选运动矢量预测器是基于所述块的空间邻近区域中的运动信息的统计而排序的。然后，处理电路根据遵循排名顺序的候选列表来确定运动矢量预测器，并且根据与所确定的运动矢量预测器相关联的运动信息来重建块的样本。

Description

用于视频解码的方法和装置

交叉引用

本申请要求于2018年12月17日提交的美国专利申请第16/222,626号“METHOD ANDAPPARATUS FOR VIDEO CODING”的优先权的权益，美国专利申请第16/222,626号要求于2018年7月2日提交的美国临时申请第62/693,055号“METHODS FOR RANKING-BASEDSPATIAL MERGE CANDIDATE LIST FOR INTERPICTURE PREDICTION”的优先权的权益，这两件美国专利申请的全部内容通过引用合并于此。

技术领域

本公开内容描述了总体上与视频编码有关的实施方式。

背景技术

本文中提供的背景描述是为了总体上呈现本公开内容的背景。就本背景技术部分中描述的工作的程度而言，目前署名的发明人的工作以及在提交时可以不另外被限定作为现有技术的描述，既没有明确地也没有隐含地被承认为针对本公开内容的现有技术。

可以使用具有运动补偿的帧间图片预测来执行视频编码和解码。未压缩的数字视频可以包括一系列图片，每个图片的空间维度为例如1920×1080亮度样本和相关联的色度样本。该一系列图片可以具有例如每秒60个图片或60Hz固定的或可变的图片速率(也被非正式地称为帧速率)。未压缩的视频具有高的比特率要求。例如，每样本8位的1080p60 4：2：0视频(60Hz帧速率下1920×1080亮度样本分辨率)需要接近1.5Gbit/s的带宽。一小时这样的视频需要大于600GB的存储空间。

视频编码和解码的一个目的是通过压缩来减少输入视频信号中的冗余。压缩可以帮助减少以上提及的带宽或存储空间需求，在一些情况下减少两个数量级或更多。可以采用无损压缩或有损压缩或两者的组合。无损压缩是指可以从压缩的原始信号重建原始信号的精确副本的技术。当使用有损压缩时，重建的信号可能与原始信号不同，但是原始信号与重建的信号之间的失真足够小，以使重建的信号对于预期应用有用。在视频的情况下，广泛采用有损压缩。容忍的失真量取决于应用；例如，某些消费者流媒体应用的用户可能比电视分配应用的用户容忍更高的失真。可达到的压缩比可以反映出：更高的可允许/可容忍的失真可以产生更高的压缩比。

运动补偿可以是有损压缩技术，并且可以涉及这样的技术：其中，来自先前重建的图片或其部分(参考图片)的样本数据块在由运动矢量(此后称为MV)指示的方向上进行空间移位之后，被用于预测新重建的图片或图片部分。在一些情况下，参考图片可以与当前被重建的图片相同。MV可以具有两个维度X和Y，或三个维度，第三维度是使用中的参考图片的指示(后者间接地可以是时间维度)。

在一些视频压缩技术中，可以从其他MV预测适用于样本数据的特定区域的MV，例如从在空间上与被重建的区域相邻的样本数据的另一区域有关并且在解码顺序上在该MV之前的MV来预测该MV。这样做可以大幅减少对MV进行编码所需的数据量，从而消除冗余并且增加压缩。MV预测可以有效地工作，例如，这是因为在对源自摄像装置的输入视频信号(称为自然视频)进行编码时，存在比单个MV所适用的区域更大的区域在相似方向上移动的统计可能性，因此在某些情况下可以使用从邻近区域的MV得出的相似运动矢量来预测。这导致针对给定区域找到的MV与从周围MV预测的MV相似或相同，并且在熵编码之后又可以用比直接对MV进行编码的情况下使用的位数更少的位数来表示。在一些情况下，MV预测可以是从原始信号(即样本流)得出的信号(即MV)的无损压缩的示例。在其他情况下，MV预测本身可以是有损的，例如由于在从若干周围MV计算预测器时的舍入误差。

H.265/HEVC(ITU-T H.265建议书，“高效视频编码”，2016年12月)中描述了各种MV预测机制。在H.265提供的多种MV预测机制中，本申请描述的是下文称作“空间合并”的技术。

参照图1，当前块(101)包括在运动搜索过程期间由编码器发现的样本，以便可根据空间移位的相同尺寸的先前块来预测。替代直接对MV进行编码，可以使用与记为A0、A1和B0、B1、B2(分别对应102至106)的五个周围样本中的任一样本相关联的MV，从与一个或更多个参考图片相关联的元数据导出MV，例如，从(按解码顺序)最近的参考图片导出MV。在H.265中，MV预测可以使用来自邻近块也正在使用的相同参考图片的预测器。

发明内容

本公开内容的各方面提供了用于视频解码的方法和装置。在一些示例中，一种用于视频解码的装置包括接收电路和处理电路。处理电路从已编码视频比特流中解码当前图片中的块的预测信息，该预测信息指示帧间预测模式。响应于帧间预测模式，处理电路按排名顺序来构建候选运动矢量预测器的候选列表，所述候选运动矢量预测器是基于对块的空间邻近区域中的运动信息的统计而排序的。然后，处理电路根据遵循排名顺序的候选列表来确定运动矢量预测器，并且根据与所确定的运动矢量预测值相关联的运动信息来重建块的样本。

根据本发明的一方面，处理电路扫描空间邻近区域中的邻近块，以收集空间邻近区域中的运动信息的统计。

在一实施方式中，处理电路扫描空间邻近区域中的最小尺寸块，以收集空间邻近区域中的运动信息的统计。

在另一实施方式中，处理电路扫描与该块相邻的最小尺寸块，以收集空间邻近区域中的运动信息的统计。

在另一实施方式中，处理电路扫描位于块旁边的左列中并且在左下方向上延伸的第一最小尺寸块，以收集空间邻近区域中的运动信息的统计，并且扫描位于块旁边的上行中并且在右上方向上延伸的第二最小尺寸块，以收集空间邻近区域中的运动信息的统计。

在另一实施方式中，处理电路扫描位于块旁边的多个左列中并且在左下方向上延伸的第一最小尺寸块，以收集空间邻近区域中的运动信息的统计，并且扫描位于块旁边的多个上行中并且在右上方向上延伸的第二最小尺寸块，以收集空间邻近区域中的运动信息的统计。

在另一实施方式中，处理电路分别在与块相邻的网格单元中扫描代表性最小尺寸块，以收集空间邻近区域中的运动信息的统计。

在另一实施方式中，处理电路分别在第一网格单元中扫描第一代表性最小尺寸块，以收集空间邻近区域中的运动信息的统计，所述第一网格单元位于块旁边的左列中并且在左下方向上延伸，并且分别在第二网格单元中扫描第二代表性最小尺寸块，以收集空间邻近区域中的运动信息的统计，所述第二网格单元位于块旁边的上行中并且在右上方向上延伸。

在另一实施方式中，处理电路分别在第一网格单元中扫描第一代表性最小尺寸块，以收集空间邻近区域中的运动信息的统计结果，所述第一网格单元位于块旁边的多个左列中且在左下方向上延伸，并且分别在第二网格单元中扫描第二代表性最小尺寸块，以收集空间邻近区域中的运动信息的统计结果，所述第二网格单元位于块旁边的多个上行中并且在右上方向上延伸。

根据本公开内容的方面，处理电路根据统计来构建空间邻近区域中的运动信息的直方图，并且根据直方图将来自空间邻近区域的运动矢量预测器排序作为排名顺序。

在一实施方式中，处理电路用与各个运动矢量相对应的分箱来构建直方图。

在另一实施方式中，处理电路用与运动矢量的范围相对应的分箱来构建直方图。

在一实施方式中，处理电路基于排名顺序中的排名来选择经排序的运动矢量预测器的一部分。

在一实施方式中，当块满足宽度要求和高度要求中的至少一个时，处理电路以排名顺序构建候选运动矢量预测器的候选列表。

本公开内容的各方面还提供了存储指令的非暂态计算机可读介质，该指令在由计算机执行以用于对视频进行解码时使计算机执行用于视频编码的方法。

附图说明

根据以下详细描述和附图，所公开的主题的另外的特征、性质和各种优点将变得更加明显，在附图中：

图1是根据H.265的当前块及其周围空间合并候选的示意图；

图2是根据实施方式的通信***(200)的简化框图的示意图；

图3是根据实施方式的通信***(300)的简化框图的示意图；

图4是根据实施方式的解码器的简化框图的示意图；

图5是根据实施方式的编码器的简化框图的示意图；

图6示出了根据另一实施方式的编码器的框图；

图7示出了根据另一实施方式的解码器的框图；

图8示出了一些示例中的空间和时间候选的示例；

图9示出了根据本公开内容的实施方式的当前块(910)的潜在空间合并候选的图；

图10示出了根据本公开内容的另一实施方式的当前块(1010)的潜在合并候选的图；

图11示出了根据本公开内容的另一实施方式的当前块(1110)的潜在合并候选的图；

图12示出了根据本公开内容的另一实施方式的当前块(1210)的潜在合并候选的图；

图13示出了根据本公开内容的另一实施方式的当前块(1310)的潜在合并候选的图；

图14示出了根据本公开内容的另一实施方式的当前块(1410)的潜在合并候选的图；

图15示出了根据本公开内容的实施方式的概述处理(1500)的流程图；

图16是根据实施方式的计算机***的示意图。

具体实施方式

图2示出了根据本公开内容的实施方式的通信***(200)的简化框图。通信***(200)包括多个终端装置，所述终端装置可以经由例如网络(250)彼此通信。例如，通信***(200)包括经由网络(250)互连的第一对终端设备(210)和(220)。在图2的示例中，第一对终端设备(210)和(220)执行单向数据传输。例如，终端设备(210)可以对视频数据(例如，由终端设备(210)捕获的视频图片流)进行编码以用于经由网络(250)传输到另一终端设备(220)。经编码的视频数据可以以一个或更多个已编码视频比特流的形式传输。终端设备(220)可以从网络(250)接收已编码视频数据，对已编码视频数据进行解码以恢复视频图片，并且根据恢复的视频数据来显示视频图片。单向数据传输在媒体服务应用等中是较常见的。

在另一实施方式中，通信***(200)包括第二对终端设备(230)和(240)，其执行例如可能在视频会议期间发生的已编码视频数据的双向传输。对于双向数据传输，在示例中，终端设备(230)和(240)中的每个终端设备可以对视频数据(例如，由终端设备捕获的视频图片流)进行编码以用于经由网络(250)传输到终端设备(230)和(240)中的另一终端设备。终端设备(230)和(240)中的每个终端设备还可以接收由终端设备(230)和(240)中的另一终端设备发送的已编码视频数据，并且可以对已编码视频数据进行解码以恢复视频图片，并且可以根据所恢复的视频数据在可访问的显示设备上显示视频图片。

在图2的示例中，终端设备(210)、(220)、(230)和(240)可以被示为服务器、个人计算机和智能电话，但是本公开内容的原理可以不限于此。本公开内容的实施方式适用于膝上型计算机、平板计算机、媒体播放器和/或专用视频会议设备。网络(250)表示在终端设备(210)、(220)、(230)和(240)之间传送已编码视频数据的任何数目的网络，包括例如有线连接(有线)和/或无线通信网络。通信网络(250)可以在电路交换和/或分组交换信道中交换数据。代表性网络包括电信网络、局域网、广域网和/或因特网。出于本论述的目的，除非在下文中另有说明，否则网络(250)的架构和拓扑对于本公开内容的操作来说可能是不重要的。

作为所公开的主题的应用的示例，图3示出了视频编码器和视频解码器在流媒体环境中的放置。所公开的主题可以同等地适用于其他支持视频的应用，包括例如视频会议、数字TV、在包括CD、DVD、记忆棒等的数字介质上存储压缩视频等。

流媒体***可以包括捕获子***(313)，该捕获子***可以包括视频源(301)例如数字摄像装置，以创建例如未压缩的视频图片流(302)。在示例中，视频图片流(302)包括由数字摄像装置拍摄的样本。视频图片流(302)被描绘为粗线以强调在与经编码的视频数据(304)(或已编码视频比特流)进行比较时高的数据量，视频图片流(302)可以由包括耦接至视频源(301)的视频编码器(303)的电子设备(320)处理。视频编码器(303)可以包括硬件、软件或其组合，以实现或实施如下更详细地描述的所公开的主题的各方面。编码视频数据(304)(或已编码视频比特流(304))被描绘为细线以强调在与视频图片流(302)进行比较时较低的数据量，经编码视频数据(304)(或已编码视频比特流(304))可以存储在流媒体服务器(305)上以供将来使用。一个或更多个流媒体客户端子***——例如图3中的客户端子***(306)和(308)——可以访问流媒体服务器(305)以检索经编码的视频数据(304)的副本(307)和(309)。客户端子***(306)可以包括例如电子设备(330)中的视频解码器(310)。视频解码器(310)对经编码的视频数据的传入副本(307)进行解码，并且创建可以在显示器(312)(例如，显示屏)或另一呈现设备(未描绘)上呈现的传出视频图片流(311)。在一些流媒体***中，可以根据某些视频编码/压缩标准对经编码的视频数据(304)、(307)和(309)(例如，视频比特流)进行编码。这些标准的示例包括ITU-T H.265建议书。在示例中，开发中的视频编码标准被非正式地称为通用视频编码(VVC)。所公开的主题可以用于VVC的上下文中。

注意，电子设备(320)和(330)可以包括其他部件(未示出)。例如，电子设备(320)可以包括视频解码器(未示出)，并且电子设备(330)也可以包括视频编码器(未示出)。

图4是根据本公开内容的实施方式的视频解码器(410)的框图。视频解码器(410)可以包括在电子设备(430)中。电子设备(430)可以包括接收器(431)(例如，接收电路)。视频解码器(410)可以用于代替图3示例中的视频解码器(310)。

接收器(431)可以接收将由视频解码器(410)解码的一个或更多个已编码视频序列；在同一实施方式或另一实施方式中，一次接收一个已编码视频序列，其中每个已编码视频序列的解码独立于其他已编码视频序列。可以从信道(401)接收已编码视频序列，信道(401)可以是到存储经编码的视频数据的存储设备的硬件/软件链路。接收器(431)可以接收经编码的视频数据和其他数据，例如已编码音频数据和/或辅助数据流，这些数据可被转发到它们各自的使用实体(未描绘)。接收器(431)可以将已编码视频序列与其他数据分离。为了防止网络抖动，缓冲存储器(415)可以耦接在接收器(431)与熵解码器/解析器(420)(此后称为“解析器(420)”)之间。在一些应用中，缓冲存储器(415)是视频解码器(410)的一部分。在其他应用中，缓冲存储器(515)可以在视频解码器(410)的外部(未描绘)。在又一些其他应用中，在视频解码器(410)的外部可以有缓冲存储器(未描绘)以例如防止网络抖动，并且在视频解码器(410)的内部可以有另外的缓冲存储器(415)以例如处理播出定时。当接收器(431)从具有足够带宽和可控性的存储/转发设备或从等时同步网络接收数据时，可能不需要缓冲存储器(415)，或者缓冲存储器(415)可以是小的。为了在诸如因特网的尽力传输分组网络上使用，可能需要缓冲存储器(415)，缓冲存储器(415)可以相对较大并且可以有利地具有自适应性大小，并且可以至少部分地在操作***或视频解码器(410)的外部的类似元件(未描绘)中实现。

视频解码器(410)可以包括解析器(420)，以根据已编码视频序列重建符号(421)。这些符号的类别包括用于管理视频解码器(410)的操作的信息，以及控制诸如呈现设备(412)(例如，显示屏)的呈现设备的潜在信息，该呈现设备(412)不是电子设备(430)的组成部分，而是可以耦接至电子设备(430)，如图4所示。用于(一个或更多个)呈现设备的控制信息可以是辅助增强信息(SEI消息)或视频可用性信息(VUI)参数集片段(未描绘)的形式。解析器(420)可以对接收到的已编码视频序列进行解析/熵解码。已编码视频序列的编码可以根据视频编码技术或标准，并且可以遵循各种原理，包括可变长度编码、霍夫曼编码(Huffman coding)、具有或不具有上下文灵敏性的算术编码等。解析器(420)可以基于与群组相对应的至少一个参数，从已编码视频序列提取针对视频解码器中的像素的子组群中的至少一个子组群的子组群参数集。子组群可以包括图片群组(GOP)、图片、图块、切片、宏块、编码单元(CU)、块、变换单元(TU)、预测单元(PU)等。解析器(420)还可以从已编码视频序列提取信息，例如变换系数、量化器参数值、运动矢量等。

解析器(420)可以对从缓冲存储器(415)接收的视频序列执行熵解码/解析操作，从而创建符号(421)。

取决于已编码视频图片或其一部分的类型(例如：帧间图片和帧内图片、帧间块和帧内块)以及其他因素，符号(421)的重建可涉及多个不同单元。涉及哪些单元以及如何控制可以通过由解析器(420)从已编码视频序列解析的子群组控制信息来控制。出于简洁起见，未描述这样的子群组控制信息在解析器(420)与下面的多个单元之间的流动。

除了已经提及的功能块以外，视频解码器(410)可以在概念上细分成如下文所描述的多个功能单元。在商业约束下运行的实际实现中，这些单元中的许多单元彼此紧密交互并且可以至少部分地彼此集成。然而，出于描述所公开的主题的目的，概念上细分为下面的功能单元是适当的。

第一单元是缩放器/逆变换单元(451)。缩放器/逆变换单元(451)从解析器(420)接收作为(一个或更多个)符号(421)的量化变换系数以及控制信息，包括使用哪种变换方式、块尺寸、量化因子、量化缩放矩阵等。缩放器/逆变换单元(451)可以输出包括样本值的块，这些块可以输入到聚合器(455)中。

在一些情况下，缩放器/逆变换单元(451)的输出样本可以属于帧内编码块；也就是说：不使用来自先前重建的图片的预测信息但可以使用来自当前图片的先前重建部分的预测性信息的块。这样的预测性信息可以由帧内图片预测单元(452)提供。在一些情况下，帧内图片预测单元(452)使用从当前图片缓冲器(458)提取的周围已重建信息来生成与正在重建的块的尺寸和形状相同的块。当前图片缓冲器(458)例如缓冲部分重建的当前图片和/或完全重建的当前图片。在一些情况下，聚合器(455)基于每个样本将帧内预测单元(452)生成的预测信息添加到由缩放器/逆变换单元(451)提供的输出样本信息。

在其他情况下，缩放器/逆变换单元(451)的输出样本可以属于帧间编码和潜在运动补偿块。在这样的情况下，运动补偿预测单元(453)可以访问参考图片存储器(457)以提取用于预测的样本。在根据属于块的符号(421)对提取的样本进行运动补偿之后，这些样本可以由聚合器(455)添加到缩放器/逆变换单元(451)的输出(在这种情况下被称作残差样本或残差信号)，从而生成输出样本信息。运动补偿预测单元(453)从其提取预测样本的参考图片存储器(457)内的地址可以由运动矢量控制，运动矢量以符号(421)的形式供运动补偿预测单元(453)使用，符号(421)可以具有例如X、Y和参考图片分量。运动补偿还可以包括在使用子样本精确运动矢量时从参考图片存储器(457)提取的样本值的内插、运动矢量预测机制等。

聚合器(455)的输出样本可以在环路滤波器单元(456)中经受各种环路滤波技术。视频压缩技术可以包括环路内滤波器技术，该环路内滤波器技术由包括在已编码视频序列(也被称为已编码视频比特流)中并且作为来自解析器(420)的符号(421)可用于环路滤波器单元(456)的参数来控制，但是视频压缩技术还可以响应于在对已编码图片或已编码视频序列的先前(按解码顺序)部分进行解码期间获得的元信息，以及响应于先前重建和环路滤波的样本值。

环路滤波器单元(456)的输出可以是样本流，样本流可以输出到呈现设备(412)以及存储在参考图片存储器(356)中以供将来帧间图片预测使用。

某些已编码图片一旦被完全重建就可以用作参考图片以用于将来预测。例如，一旦与当前图片相对应的已编码图片被完全重建，并且已编码图片(通过例如解析器(420))被识别为参考图片，当前图片缓冲器(458)就可以变为参考图片存储器(457)的一部分，并且可以在开始重建随后的已编码图片之前重新分配新的当前图片缓冲器。

视频解码器(410)可以根据标准如ITU-T H.265建议书的预定视频压缩技术来执行解码操作。在已编码视频序列遵循视频压缩技术或标准的语法以及视频压缩技术或标准中记录的配置文件两者的意义上，已编码视频序列可以符合使用的视频压缩技术或标准指定的语法。具体地，配置文件可以从视频压缩技术或标准中可用的所有工具中选择某些工具作为仅在配置文件下可供使用的工具。对于合规性，还要求已编码视频序列的复杂度在由视频压缩技术或标准的级别限定的范围内。在一些情况下，级别限制最大图片大小、最大帧速率、最大重建样本速率(以例如每秒兆样本为单位进行测量)、最大参考图片大小等。在一些情况下，由级别设置的限制可以通过假设参考解码器(HRD)规范以及在已编码视频序列中信号表示的HRD缓冲器管理的元数据来进一步限制。

在实施方式中，接收器(431)可以连同已编码视频一起接收附加(冗余)数据。所述附加数据可以被包括作为已编码视频序列的一部分。附加数据可以由视频解码器(410)使用，以正确地对数据进行解码和/或更精确地重建原始视频数据。附加数据可以是例如时间、空间或信噪比(SNR)增强层、冗余切片、冗余图片、前向纠错码等形式。

图5示出了根据本公开内容的实施方式的视频编码器(503)的框图。视频编码器(503)被包括在电子设备(520)中。电子设备(520)包括传输器(540)(例如，传输电路)。视频编码器(503)可以用于代替图3示例中的视频编码器(303)。

视频编码器(503)可以从视频源(501)(并非图5示例中的电子设备(520)的一部分)接收视频样本，该视频源(501)可以捕获将由视频编码器(503)编码的(一个或更多个)视频图像。在另一示例中，视频源(501)是电子设备(520)的一部分。

视频源(501)可以提供要由视频编码器(503)编码的呈数字视频样本流形式的源视频序列，该数字视频样本流可以具有任何合适的位深度(例如：8位、10位、12位……)、任何颜色空间(例如，BT.601Y CrCB、RGB……)和任何合适的采样结构(例如Y CrCb 4：2：0、YCrCb 4：4：4)。在媒体服务***中，视频源(501)可以是存储先前准备的视频的存储设备。在视频会议***中，视频源(501)可以是捕获本地图像信息作为视频序列的摄像装置。可以将视频数据提供为在按次序观看时被赋予运动的多个单独的图片。图片自身可以被组织为空间像素阵列，其中，取决于使用中的采样结构、颜色空间等，每个像素可以包括一个或更多个样本。本领域技术人员可以容易地理解像素与样本之间的关系。以下描述着眼于样本。

根据实施方式，视频编码器(503)可以实时或在由应用所要求的任何其他时间约束下，将源视频序列的图片编码和压缩成编码视频序列(543)。施行适当的编码速度是控制器(550)的一个功能。在一些实施方式中，控制器(550)控制如下所述的其他功能单元并且在功能上耦接至该其他功能单元。出于简洁起见，未描绘耦接。由控制器(550)设置的参数可以包括速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值……)、图片大小、图片群组(GOP)布局、最大运动矢量搜索范围等。控制器(550)可以被配置成具有其他合适的功能，这些功能属于针对某些***设计优化的视频编码器(503)。

在一些实施方式中，视频编码器(503)被配置成在编码环路中进行操作。作为过于简化的描述，在示例中，编码环路可以包括源编码器(530)(例如，负责基于要编码的输入图片和(一个或更多个)参考图片创建诸如符号流的符号)以及嵌入在视频编码器(503)中的(本地)解码器(533)。解码器(533)重建符号用于以与(远程)解码器将创建样本数据的方式类似的方式创建样本数据(因为在所公开的主题中考虑的视频压缩技术中，符号与编码视频码流之间的任何压缩是无损的)。将重建的样本流(样本数据)输入至参考图片存储器(534)。由于符号流的解码导致与解码器位置(本地或远程)无关的比特精确结果，因此参考图片存储器(534)中的内容在本地编码器与远程编码器之间也是比特精确的。换言之，编码器的预测部分“看到”的参考图片样本与解码器将在解码期间使用预测时“看到”的样本值完全相同。该参考图片同步性(以及在例如由于信道误差而无法维持同步性的情况下产生漂移)的基本原理也用于一些相关领域。

“本地”解码器(533)的操作可以与已经在上面结合图4详细描述的“远程”解码器(例如视频解码器(410))的操作相同。然而，还简要参照图4，当符号可用并且通过熵编码器(545)和解析器(420)可以无损地将符号编码/解码为已编码视频序列时，在本地解码器(533)中可以不完全实现包括缓冲存储器(415)和解析器(420)的视频解码器(410)的熵解码部分。

此时可以观察到，除了存在于解码器中的解析/熵解码之外的任何解码器技术，也必然需要以基本上相同的功能形式存在于对应的编码器中。出于该原因，所公开的主题着眼于解码器操作。由于编码器技术与全面地描述的解码器技术互逆，因此可以简化对编码器技术的描述。仅在某些区域中需要更详细的描述并且将在下面提供该描述。

在操作期间，在一些示例中，源编码器(530)可以执行运动补偿预测编码，其参考来自视频序列中被指定为“参考图片”的一个或更多个先前已编码图片对输入图片进行预测性编码。以此方式，编码引擎(532)对输入图片的像素块与可以被选作输入图片的(一个或更多个)预测参考的(一个或更多个)参考图片的像素块之间的差异进行编码。

本地视频解码器(533)可以基于由源编码器(530)创建的符号对可以被指定为参考图片的图片的编码视频数据进行解码。编码引擎(532)的操作可以有利地是有损处理。当已编码视频数据可以在视频解码器(图5中未示出)处被解码时，重建的视频序列通常可以是具有一些误差的源视频序列的副本。本地视频解码器(533)复制可以由视频解码器对参考图片执行的解码处理，并且可以使重建的参考图片存储在参考图片缓存(534)中。以此方式，视频编码器(503)可以本地地存储重建的参考图片的副本，该副本与将由远端视频解码器获得的重建的参考图片具有共同内容(不存在传输误差)。

预测器(535)可以针对编码引擎(532)执行预测搜索。也就是说，对于要编码的新图片，预测器(535)可以在参考图片存储器(534)中搜索可以用作新图片的适当预测参考的样本数据(作为候选参考像素块)或某些元数据，例如参考图片运动矢量、块形状等。预测器(535)可以基于样本块逐像素块进行操作，以找到适当的预测参考。在一些情况下，如由预测器(535)获得的搜索结果所确定的，输入图片可以具有从参考图片存储器(534)中存储的多个参考图片得出的预测参考。

控制器(550)可以管理源编码器(530)的编码操作，包括例如设置用于对视频数据进行编码的参数和子群组参数。

所有上述功能单元的输出可以在熵编码器(545)中经历熵编码。熵编码器(545)通过根据诸如霍夫曼编码、可变长度编码、算术编码等的技术对由各种功能单元生成的符号进行无损压缩，将符号转换成已编码视频序列。

传输器(540)可以缓冲由熵编码器(545)创建的已编码视频序列，从而为经由通信信道(560)进行传输做准备，所述通信信道可以是通向将存储已编码视频数据的存储设备的硬件/软件链路。传输器(540)可以将来自视频编码器(503)的已编码视频数据与要传输的其他数据例如已编码音频数据和/或辅助数据流(未示出源)进行合并。

控制器(550)可以管理视频编码器(503)的操作。在编码期间，控制器(550)可以为每个已编码图片指定特定的已编码图片类型，这可能影响可以应用于相应的图片的编码技术。例如，通常可以将图片指定为以下图片类型之一：

帧内图片(I图片)，其可以是不将序列中的任何其他图片用作预测源就可被编码和解码的图片。一些视频编解码器容许不同类型的帧内图片，包括例如独立解码器刷新(IDR)图片。本领域技术人员了解I图片的这些变型及其相应的应用和特征。

预测性图片(P图片)，其可以是可使用帧内预测或帧间预测(使用至多一个运动矢量和参考索引来预测每个块的样本值)进行编码和解码的图片。

双向预测性图片(B图片)可以是可使用帧内预测或帧间预测(使用至多两个运动矢量和参考索引来预测每个块的样本值)进行编码和解码的图片。类似地，多个预测性图片可以使用多于两个参考图片和相关联的元数据以用于单个块的重建。

源图片通常可以在空间上细分成多个样本块(例如，每个图片具有4×4、8×8、4×8或16×16的样本块)，并且逐块进行编码。可以参考其他(已编码的)块对这些块进行预测性编码，该其他块通过应用于块的相应的图片的编码分配来确定。例如，I图片的块可以进行非预测编码，或者它们可以参考同一图片的经编码的块来进行预测编码(空间预测或帧内预测)。P图片的像素块可以参考一个先前编码的参考图片经由空间预测或经由时间预测进行预测性地编码。B图片的块可以参考一个或两个先前编码的参考图片经由空间预测或经由时间预测进行预测性编码。

视频编码器(503)可以根据诸如ITU-T H.265建议书的预定视频编码技术或标准执行编码操作。在其操作中，视频编码器(503)执行各种压缩操作，包括利用输入视频序列的时间冗余和空间冗余的预测性编码。因此编码视频数据可以符合由所使用的视频编码技术或标准指定的语法。

在实施方式中，传输器(540)可以连同已编码视频传输附加数据。源编码器(530)可以包括这样的数据作为已编码视频序列的一部分。附加数据可以包括时间/空间/SNR增强层、诸如冗余图片和切片的其他形式的冗余数据、SEI消息、VUI参数集片段等。

视频可以按时间序列被捕获为多个源图片(视频图片)。帧内图片预测(通常被简化为帧内预测)利用给定图片中的空间相关性，而帧间图片预测利用图片之间的(时间或其他)相关性。在示例中，编码/解码中的特定图片(被称为当前图片)被划分成块。在当前图片中的块类似于视频中先前已编码的并且仍被缓冲的参考图片中的参考块时，可以通过被称为运动矢量的矢量对当前图片中的块进行编码。运动矢量指向参考图片中的参考块，并且在使用多个参考图片的情况下，运动矢量可以具有识别参考图片的第三维度。

在一些实施方式中，双向预测技术可以用于帧间图片预测中。根据双向预测技术，使用两个参考图片，例如在解码顺序上均在视频中的当前图片之前(但在显示顺序上可能分别是过去和将来)的第一参考图片和第二参考图片。可以通过指向第一参考图片中的第一参考块的第一运动矢量以及指向第二参考图片中的第二参考块的第二运动矢量对当前图片中的块进行编码。可以通过第一参考块和第二参考块的组合来预测块。

此外，合并模式技术可以用于帧间图片预测中以改善编码效率。

根据本公开内容的一些实施方式，以块为单位执行诸如帧间图片预测和帧内图片预测的预测。例如，根据HEVC标准，视频图片序列中的图片被分割成编码树单元(CTU)以用于压缩，图片中的CTU具有相同大小，例如，64×64像素、32×32像素或16×16像素。一般来说，CTU包括三个编码树块(CTB)——一个亮度CTB和两个色度CTB。每个CTU可以被递归地以四叉树拆分成一个或多个编码单元(CU)。例如，可以将64×64像素的CTU拆分成一个64×64像素的CU，或4个32×32像素的CU，或16个16×16像素的CU。在示例中，分析每个CU以确定用于CU的预测类型，例如帧间预测类型或帧内预测类型。取决于时间和/或空间可预测性，CU被拆分成一个或更多个预测单元(PU)。通常，每个PU包括亮度预测块(PB)和两个色度PB。在实施方式中，编码(编码/解码)的预测操作以预测块为单位来执行。使用亮度预测块作为预测块的示例，预测块包括像素值(例如，亮度值)的矩阵，例如8×8像素、16×16像素、8×16像素、16×8像素等。

图6示出了根据本公开内容的另一实施方式的视频编码器(603)的图。视频编码器(603)被配置成接收视频图片序列中的当前视频图片内的样本值的处理块(例如，预测块)，并且将处理块编码到作为已编码视频序列的一部分的已编码图片中。在示例中，视频编码器(603)用于代替图3示例中的视频编码器(303)。

在HEVC示例中，视频编码器(603)接收用于处理块的样本值的矩阵，处理块为诸如8×8样本的预测块等。视频编码器(603)使用例如率失真优化来确定是使用帧内模式、帧间模式还是双向预测模式最佳地编码处理块。当要在帧内模式下编码处理块时，视频编码器(603)可以使用帧内预测技术以将处理块编码到已编码图片中；并且当要在帧间模式或双向预测模式下编码处理块时，视频编码器(603)可以分别使用帧间预测或双向预测技术以将处理块编码到已编码图片中。在某些视频编码技术中，合并模式可以是帧间图片预测子模式，其中，在不借助于预测器外部的已编码运动矢量分量的情况下从一个或更多个运动矢量预测器得出运动矢量。在某些其他视频编码技术中，可以存在适用于主题块的运动矢量分量。在示例中，视频编码器(603)包括其他部件，例如用于确定处理块的模式的模式决策模块(未示出)。

在图6示例中，视频编码器(603)包括如图6所示的耦接到一起的帧间编码器(630)、帧内编码器(622)、残差计算器(623)、开关(626)、残差编码器(624)、通用控制器(621)和熵编码器(625)。

帧间编码器(630)被配置成接收当前块(例如，处理块)的样本、比较该块与参考图片中的一个或更多个参考块(例如，先前图片和后来图片中的块)、生成帧间预测信息(例如，运动矢量、合并模式信息、根据帧间编码技术的冗余信息的描述)、以及基于帧间预测信息使用任何合适的技术来计算帧间预测结果(例如，预测的块)。在一些示例中，参考图片是基于经编码的视频信息解码的已解码参考图片。

帧内编码器(622)被配置成：接收当前块(例如处理块)的样本、在一些情况下比较所述块与同一图片中已编码的块、在变换之后生成量化系数、以及在一些情况下还生成帧内预测信息(例如根据一个或更多个帧内编码技术的帧内预测方向信息)。在示例中，帧内编码器(622)还基于帧内预测信息和同一图片中的参考块来计算帧内预测结果(例如，预测的块)。

通用控制器(621)被配置成确定通用控制数据，并且基于通用控制数据来控制视频编码器(603)的其他部件。在示例中，通用控制器(621)确定块的模式，并且基于该模式将控制信号提供给开关(626)。例如，当模式是帧内模式时，通用控制器(621)控制开关(626)以选择供残差计算器(623)使用的帧内模式结果，并且控制熵编码器(625)以选择帧内预测信息并将帧内预测信息包括在比特流中；以及当模式是帧间模式时，通用控制器(621)控制开关(626)以选择供残差计算器(623)使用的帧间预测结果，并且控制熵编码器(625)以选择帧间预测信息并将帧间预测信息包括在比特流中。

残差计算器(623)被配置成计算所接收的块与选自帧内编码器(622)或帧间编码器(630)的预测结果之间的差(残差数据)。残差编码器(624)被配置成：基于残差数据来进行操作，以对残差数据进行编码从而生成变换系数。在示例中，残差编码器(624)被配置成将残差数据从空间域转换到频域，且生成变换系数。然后，变换系数经受量化处理以获得量化的变换系数。在各种实施方式中，视频编码器(603)还包括残差解码器(628)。残差解码器(628)被配置成执行逆变换，并且生成已解码残差数据。已解码残差数据可以由帧内编码器(622)和帧间编码器(630)适当地使用。例如，帧间编码器(630)可以基于已解码残差数据和帧间预测信息来生成已解码块，并且帧内编码器(622)可以基于已解码残差数据和帧内预测信息来生成已解码块。在一些示例中，适当处理已解码块，以生成已解码图片，并且所述已解码图片可以在存储器电路(未示出)中缓冲并用作参考图片。

熵编码器(625)被配置成将比特流格式化以包括经编码的块。熵编码器(625)被配置成包括根据诸如HEVC标准的合适标准的各种信息。在示例中，熵编码器(625)被配置成将通用控制数据、所选预测信息(例如帧内预测信息或帧间预测信息)、残差信息和其他合适的信息包括在比特流中。注意，根据所公开的主题，当在帧间模式或双向预测模式的合并子模式下对块进行编码时，不存在残差信息。

图7示出了根据本公开内容的另一实施方式的视频解码器(710)的图。视频解码器(710)被配置成接收作为已编码视频序列的一部分的已编码图片，并且对已编码图片进行解码以生成重建的图片。在示例中，视频解码器(710)用于代替图3示例中的视频解码器(310)。

在图7示例中，视频解码器(710)包括如图7所示耦接到一起的熵解码器(771)、帧间解码器(780)、残差解码器(773)、重建模块(774)以及帧内解码器(772)。

熵解码器(771)可以被配置成根据已编码图片来重建某些符号，这些符号表示构成已编码图片的语法元素。这样的符号可以包括例如用于对块进行编码的模式(例如，帧内模式、帧间模式、双向预测模式、后两者的合并子模式或另一子模式)、可以分别标识帧内解码器(772)或帧间解码器(780)进行预测所使用的某些样本或元数据的预测信息(例如，帧内预测信息或帧间预测信息)、为例如量化变换系数的形式的残差信息等。在示例中，当预测模式是帧间或双向预测模式时，将帧间预测信息提供给帧间解码器(780)；以及当预测类型是帧内预测类型时，将帧内预测信息提供给帧内解码器(772)。残差信息可以经受逆量化并且被提供给残差解码器(773)。

帧间解码器(780)被配置成接收帧间预测信息，并且基于帧间预测信息来生成帧间预测结果。

帧内解码器(772)被配置成接收帧内预测信息，并且基于帧内预测信息来生成预测结果。

残差解码器(773)被配置成执行逆量化以提取去量化的变换系数，并且处理去量化的变换系数以将残差从频域转换到空间域。残差解码器(773)还可能需要某些控制信息(以包括量化器参数(QP))，并且该信息可以由熵解码器(771)提供(由于这可能仅是低量控制信息，因此未描绘数据路径)。

重建模块(774)被配置成在空间域中组合由残差解码器(773)输出的残差与预测结果(视情况而定，由帧间预测模块或帧内预测模块输出)以形成重建的块，该重建的块可以是重建的图片的一部分，该重建的图片又可以是重建的视频的一部分。注意，可以执行诸如解块操作等其他合适的操作来改善视觉质量。

应注意，可以使用任何合适的技术来实现视频编码器(303)、视频编码器(503)和视频编码器(603)以及视频解码器(310)、视频解码器(410)和视频解码器(710)。在实施方式中，可以使用一个或更多个集成电路来实现视频编码器(303)、视频编码器(503)和视频编码器(603)以及视频解码器(310)、视频解码器(410)和视频解码器(710)。在另一实施方式中，可以使用执行软件指令的一个或更多个处理器来实现视频编码器(303)、视频编码器(503)和视频编码器(503)以及视频解码器(310)、视频解码器(410)和视频解码器(710)。

本公开的方面提供用于构建用于帧间图片预测的基于排名的空间合并候选列表的技术。

通常，可以以显式方式对块的运动矢量进行编码，以将所述差用信号通知给运动矢量预测器(例如，高级运动矢量预测或AMVP模式)；或者以隐含的方式对块的运动矢量进行编码，以完全根据一个先前编码或生成的运动矢量来指示。后一种模式被称为合并模式，意味着通过使用其运动信息将当前块合并到先前编码块中。

AMVP模式和合并模式两者在解码期间构建候选列表。

图8示出了一些示例中的空间和时间候选的示例。

对于帧间预测中的合并模式，候选列表中的合并候选主要通过检查来自当前块的空间或时间邻近块的运动信息而形成。在图8的示例中，依次检查候选块Al、Bl、B0、A0和B2。当候选块中的任何候选块是有效候选块，例如，被使用运动矢量编码时，那么可以将有效候选块的运动信息添加到合并候选列表中。执行一些修剪操作以确保重复的候选不会再次放入列表中。候选块Al、Bl、B0、A0和B2与当前块的拐角相邻，并且被称为拐角候选。

在空间候选之后，时间候选也被检查以进入列表(合并候选列表)中。在一些示例中，查找当前块在指定参考图片中的共同定位块。在共同定位块的C0位置(当前块的右下角)的运动信息将被用作时间合并候选。如果在该位置的块不是以帧间模式编码的或者不可用，则替代地使用Cl位置(在共同定位块的中心的右下角外)。

HEVC中的高级运动矢量预测(AMVP)模式是指使用空间及时间邻近块的运动信息来预测当前块的运动信息，同时进一步编码预测残差。空间和时间邻近候选的示例也在图8中示出。

在一些实施方式中，在AMVP模式中，形成二候选运动矢量预测器列表。例如，该列表包括第一候选预测器和第二候选预测器。第一候选预测器来自按照空间A0、Al位置的顺序从左边缘起的第一可用运动矢量。第二候选预测器是来自按照空间B0、Bl和B2位置的顺序从顶部边缘起的第二可用运动矢量。如果从所检查的左边缘或顶部边缘的位置都不能找到有效的运动矢量，则在列表中将不填充候选。如果两个候选可用并且相同，则在列表中将仅保留一个候选。如果列表未满(具有两个不同的候选)，则来自C0位置(在缩放之后)的时间共同定位的运动矢量将被用作另一候选。如果在C0位置的运动信息不可用，则将替代地使用位置Cl。

在一些示例中，如果仍没有足够的运动矢量预测器候选，那么将使用零运动矢量来填充列表。

在相关技术中，合并列表或AMVP预测器列表中的候选的顺序是基于预先定义的模式，例如，(一个或更多个)左候选(例如，A0和Al)-＞(一个或更多个)顶部候选(例如，B0、Bl和B2)-＞(一个或更多个)时间候选(例如，C0和Cl)-＞……。然而，空间/时间邻近块与当前块之间的实际相关性可取决于内容而变化。具有与当前块最相似的运动信息的邻近位置可能不总是合并列表或AMVP预测器列表中的顶部候选。

本公开内容的方面提供用以进一步改进合并模式或AMVP模式中的MV预测器列表的技术。在一些实施方式中，根据邻近块与当前块之间的相关性来重新排序MV候选列表。虽然以下描述使用合并模式来说明用以对MV候选列表进行重新排序的技术，但所述技术也可类似地用于AMVP模式中。

具体来说，在一些示例中，所公开的方法可以识别待评估的合并候选位置处是什么，并且确定合并候选位置处的合并候选的统计。此外，所公开的方法可以基于经评估的合并候选的统计的排名来产生合并候选列表。

在示例中，对于大块或具有长边的块，沿着块的长边可获得更多潜在合并候选。此外，在所有可用的空间邻近块中，多个候选可以具有相同的运动信息。根据本公开内容的方面，如果附加空间候选可用，则所公开的合并候选得出方法可以在候选列表中包括附加空间候选(例如，除A0、Al、B0、Bl和B2之外的空间候选)。可以利用基于排序的方法有条件地构建和修剪候选列表。

所公开的方法可以扩展要被视为合并候选的空间邻近块的范围。可以使用各种技术来选择潜在合并候选。另外，合并候选列表构建方法可以基于某些条件在原始合并候选列表构建方法与基于建议的排名的合并候选列表构建之间切换。

根据本公开内容的方面，附加空间合并候选可以被包括在合并候选列表中。例如，除了空间合并候选A0至A1和B0至B2之外，新的空间合并候选也可以有条件地被包括到合并候选列表中。在一些示例中，在添加空间合并候选之前的、基于空间合并候选A0至A1和B0至B2的合并候选列表被称为原始合并候选列表。

在一些实施方式中，获得块边缘的空间合并候选的统计。例如，在构建合并候选列表之前，扫描空间邻近块，并且收集所有或所选可用空间合并候选的统计。然后，基于具有相同运动信息的邻近块的计数来构建运动信息的直方图。

图9示出了根据本公开内容的实施方式的当前块(910)的潜在空间合并候选的图。在一些示例中，扫描包含与当前块的左边缘及顶部边缘相邻的帧间预测信息的、具有最小块尺寸的所有空间邻近块(例如，最小运动补偿块，例如4×4亮度样本)(例如，检查运动信息)。在图9的示例中，扫描与当前块(910)的左边缘相邻的多个第一最小尺寸块(例如，被示出为L1、L2、L3、......、Ln、......)。此外，扫描与当前块(910)的顶部边缘相邻的多个第二最小尺寸块(例如，示为Tl、T2、T3、......、Tm、......)。此外，还扫描左下邻近块(例如，图9中示为L0，其对应于图8中的A0)、右上邻近块(例如，图9中示为T0，其对应于图8中的B0)和左上邻近块(例如，图9中示为TL，其对应于图8中的B2)。在图9的示例中，灰色区域(920)包括被扫描的具有最小块尺寸的所有空间邻近块，并且在一些示例中，灰色区域(920)被称为扫描范围(920)。

图10示出了根据本公开内容的另一实施方式的当前块(1010)的潜在合并候选的图。在图10示例中，潜在合并候选可以是与当前块(1010)相邻的空间候选，并且可以被扩展到左下和右上位置之外。在一些示例中，图10中的灰色区域是当前块(1010)的空间邻近块的扫描范围(1020)。空间邻近块的扫描范围(1020)包括与当前块(1010)相邻的所有最小尺寸(例如，4×4亮度样本)块、左下方邻近块下方的N个最小尺寸块，和右上方邻近块的右侧的M个最小尺寸块。M和N为正整数，并且可以是相同的整数或者也可以是不同的整数。

图11示出了根据本公开内容的另一实施方式的当前块(1110)的潜在合并候选的图。在图11的示例中，潜在合并候选包括多层空间候选。在一些示例中，图11中的灰色区域是当前块(1110)的空间邻近块的扫描范围(1120)。空间邻近块的扫描范围(1120)被扩展到最小尺寸块的多个层，例如层1、层2和层3。层的顺序是从与当前块(1110)相邻的层(例如，层1)到离当前块(1110)最远的层(例如，层3)。第一层(例如，层1)包括具有最小块尺寸的所有空间邻近块，所述空间邻近块包含与当前块的左边缘和顶部边缘相邻的帧间预测信息。另外，第一层(例如，层1)包括左下邻近块、右上邻近块和左上邻近块。在其他层的每层中，包括与前一层相邻的所有最小尺寸块。例如，第二层(例如，层2)包括与第一层中的块相邻的所有最小尺寸块；而第三层(例如层3)包括与第二层中的块相邻的所有最小尺寸块。

图12示出了根据本公开内容的另一实施方式的当前块(1210)的潜在合并候选的图。在图12示例中，潜在合并候选包括多层空间候选。在一些示例中，图12中的灰色区域是当前块(1210)的空间邻近块的扫描范围(1220)。空间邻近块的扫描范围(1220)被扩展到最小尺寸块的多个层，例如层1、层2和层3。层的顺序是从与当前块(1210)相邻的层(例如，层1)到离当前块(1210)最远的层(例如，层3)。第一层(例如，层1)包括具有最小块尺寸的所有空间邻近块，所述空间邻近块包含与当前块的左边缘和顶部边缘相邻的帧间预测信息。另外，第一层(例如，层1)包括左下邻近块和左下邻近块下方的n个更多的候选、右上邻近块和右上邻近块右侧的M个更多的候选、以及左上邻近块。在其他层的每层中，包括与前一层相邻的所有最小尺寸块。例如，第二层(例如层2)包括与第一层中的块相邻的所有最小尺寸块；而第三层(例如层3)包括与第二层中的块相邻的所有最小尺寸块。

图13示出了根据本公开内容的另一实施方式的当前块(1310)的潜在合并候选的图。扫描范围(1320)由灰色区域示出。根据网格尺寸(例如，垂直方向上的搜索网格高度和水平方向上的搜索网格宽度)执行扫描(也称为搜索)处理。网格尺寸大于或等于最小块尺寸。当网格尺寸等于最小块尺寸时，扫描处理类似于图9和图10中的示例，这取决于扫描范围是否被扩展。在一些示例中，当网格尺寸大于最小块尺寸时，对于每个网格单元，为网格单元选择最小块尺寸的代表性块作为合并候选。

图14示出了根据本公开内容的另一实施方式的当前块(1410)的潜在合并候选的图。扫描范围(1420)由灰色区域示出。扫描范围(1420)包括多层空间邻近块。根据网格尺寸(例如，垂直方向上的搜索网格高度和水平方向上的搜索网格宽度)执行扫描(也称为搜索)处理。网格尺寸大于或等于最小块尺寸。当网格尺寸等于最小块尺寸时，扫描处理类似于图11和图12中的示例，这取决于扫描范围是否被扩展。在一些示例中，当网格尺寸大于最小块尺寸时，对于每个网格单元，为网格单元选择最小块尺寸的代表性块作为合并候选。

在一些实施方式中，当使用网格尺寸并且网格尺寸的宽度或高度大于最小块尺寸时，具有最小块尺寸的合并候选块可以位于网格内的特定位置处。在实施方式中，当网格单元位于当前块的左侧时，每个最小尺寸的合并候选块位于网格单元的右下角。在另一实施方式中，当网格单元位于当前块的左侧时，每个最小尺寸的合并候选块位于网格单元的右上角。

在实施方式中，当网格单元位于当前块的上侧时，每个最小尺寸的合并候选块位于网格单元的左下角。在另一实施方式中，当网格单元位于当前块的上侧时，每个最小尺寸的合并候选块位于网格单元的右下角。

在另一实施方式中，当候选块位于当前块的左侧且位于左下邻近块的上方时(如图13中的A0)，最小尺寸的合并候选块位于网格单元的右下角。当候选块位于左下邻近块的同一行中或下方时(如图13中的A0所描绘)，最小尺寸合并候选块位于网格单元的右上角。

在另一实施方式中，当候选块位于当前块上方时，当候选块在右上邻近块的左方时(如图13中的B0所描绘)，最小尺寸的合并候选块位于网格单元的右下角处。当候选块位于右上邻近块的同一列中或右上邻近块的右方时(如图13中的B0所描绘)，最小尺寸的合并候选块位于网格单元的左下角。

在另一实施方式中，当扫描邻近的最小尺寸块时，当多个最小块属于具有相同运动信息的相同邻近(预测)块(例如，预测单元)时，在统计中仅计数一个块。

根据本公开内容的一方面，扫描当前块的扫描范围以获得邻近块的运动信息。在扫描处理之后，生成邻近块的运动信息的直方图。

在实施方式中，针对每个单独的运动信息，利用一个直方图间隔(也称为分箱)来构建直方图。因此，在示例中，分箱的数量对应于单独的运动矢量的数量。

在另一实施方式中，针对小范围的运动信息，利用一个直方图间隔(也称为分箱(bin))来构建直方图。例如，当两个候选的运动矢量值相差小于1个像素时，可以认为两个候选相同，并且可以将其计数为一个分箱。注意，每个分箱中的运动范围信息不限于在该示例中使用的值。用于构建直方图的基于运动信息范围的分箱化处理还用作有损修剪处理。

当生成运动信息直方图时，对具有非零计数的分箱应用排序处理。在实施方式中，基于扫描范围中的每个单独运动信息的计数，以降序对运动信息候选进行排序。在另一实施方式中，基于每个单独的运动信息的计数，以升序对运动信息候选进行排序。

根据本公开内容的方面，基于根据直方图的候选的排名来构建合并候选列表。在一些实施方式中，一旦候选被排序，N个第一候选(N是正整数且N<＝合并候选的最大数目)可以按排序顺序添加到合并候选列表。

在实施方式中，N等于合并候选的最大数目。所产生的合并候选列表是最终合并候选列表。

在另一实施方式中，N小于合并候选的最大数目。其他合适的候选可以被添加到合并候选列表的剩余条目中。例如，时间合并候选可以被添加到合并候选列表中。在另一示例中，可以将例如经组合的双向预测合并候选或零值合并候选的人工合并候选添加到合并候选列表中。

在另一实施方式中，可以将经排序的列表上的N个第一候选与诸如时间合并候选、经组合的双向预测合并候选和零值合并候选的其他合并候选一起***，直到候选的总数等于最大合并候选。

根据本公开内容的方面，当满足某些条件时，构建基于排名的合并候选列表。当不满足某些条件时，视频编码处理可以切换回到原始合并候选列表。在原始合并候选列表与基于排名的合并候选列表之间进行的基于某些条件的切换被称为原始合并候选列表与基于排名的合并候选列表之间的条件切换。

条件切换基于当前块的尺寸(例如，块的宽度、块的高度)。在示例中，在当前块的宽度及高度两者均小于阈值(例如，8个像素)时，构建并使用(例如，由HEVC标准限定的)原始合并候选列表。在当前块的宽度或高度大于阈值(例如，8个像素)时，构建基于排名的合并候选列表并将其用于视频编码/解码。注意，阈值不限于在该示例中使用的值。阈值可以是小于最大块宽度或高度的任何宽度或高度。

在实施方式中，仅构建和使用基于排名的合并候选。

在另一实施方式中，条件切换用于确定是否满足某些条件，以构建原始合并候选列表或构建基于排名的合并候选列表。

图15示出了概述根据本公开内容的实施方式的处理(1500)的流程图。处理(1500)可以用于重建以帧内模式编码的块，从而为重建中的块生成预测块。在各种实施方式中，处理(1500)由诸如以下的处理电路执行：终端设备(210)、(220)、(230)和(240)中的处理电路，执行视频编码器(303)的功能的处理电路，执行视频解码器(310)的功能的处理电路，执行视频解码器(410)的功能的处理电路，执行帧内预测模块(452)的功能的处理电路，执行视频编码器(503)的功能的处理电路，执行预测器(535)的功能的处理电路，执行帧内编码器(622)的功能的处理电路，执行帧内解码器(772)的功能的处理电路等。在一些实施方式中，处理(1500)以软件指令实现，因此，当处理电路执行软件指令时，处理电路执行处理(1500)。处理在(S1501)处开始，并且进行至(S1510)。

在(S1510)处，从已编码视频比特流对当前图片中的块的预测信息进行解码。预测信息指示根据运动矢量预测器来确定块的运动矢量的帧间预测模式如合并模式、跳过模式等。

在(S1520)处，响应于帧间预测模式来构建候选列表。候选列表包括以排名顺序排列的多个运动矢量预测器。基于块的空间邻近区域中的运动信息的统计将运动矢量预测器排序为具有排名顺序，例如参照图9至图14所公开的。

在(S1530)处，根据遵循排名顺序的候选列表来确定运动矢量预测器。

在(S1540)处，根据运动矢量预测器重建块的样本。然后，处理进行到(S1599)并终止。

上述技术可以使用计算机可读指令被实现为计算机软件，并且物理地存储在一个或更多个计算机可读介质中。例如，图16示出了适于实现所公开的主题的某些实施方式的计算机***(1600)。

计算机软件可以使用任何合适的机器代码或计算机语言来编码，计算机软件可以经受汇编、编译、链接等机制以创建包括指令的代码，该指令可以由一个或更多个计算机中央处理单元(CPU)、图形处理单元(GPU)等直接执行或者通过解释、微代码执行等来执行。

指令可以在各种类型的计算机或其部件——包括例如个人计算机、平板计算机、服务器、智能电话、游戏设备、物联网设备等——上执行。

图16中示出的用于计算机***(1600)的部件本质上是示例性的，并且不旨在对实现本公开内容的实施方式的计算机软件的使用范围或功能提出任何限制。部件的配置也不应该被解释为具有与计算机***(1600)的示例性实施方式中示出的部件中的任何一个部件或部件的组合有关的任何依赖性或要求。

计算机***(1600)可以包括某些人机接口输入设备。这样的人机接口输入设备可以响应于由一个或更多个人类用户通过例如触觉输入(例如：击键、滑动、数据手套移动)、音频输入(例如：语音、拍打)、视觉输入(例如：姿势)、嗅觉输入(未示出)的输入。人机接口设备还可以用于捕获不一定与人的意识输入直接有关的某些介质，例如，音频(例如：语音、音乐、环境声音)、图像(例如：扫描图像、从静态图像摄像装置获得的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。

输入人机接口设备可以包括以下中的一个或更多个(描述的每个中的仅一个)：键盘(1601)、鼠标(1602)、触控板(1603)、触摸屏(1610)、数据手套(未示出)、操纵杆(1605)、麦克风(1606)、扫描仪(1607)、摄像装置(1608)。

计算机***(1600)还可以包括某些人机接口输出设备。这样的人机接口输出设备可以通过例如触觉输出、声音、光和气味/味道来刺激一个或更多个人类用户的感觉。这样的人机接口输出设备可以包括触觉输出设备(例如，通过触摸屏(1610)、数据手套(未示出)或操纵杆(1605)的触觉反馈，但是也可以是不用作输入设备的触觉反馈设备)、音频输出设备(诸如：扬声器(1609)、头戴式耳机(未描绘))、视觉输出设备(例如，屏幕(1610)，包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕，每个屏幕具有或不具有触摸屏输入能力，每个具有或不具有触觉反馈能力——其中的一些可能能够通过诸如立体图像输出的方式输出二维视觉输出或多于三维输出；虚拟现实眼镜(未描绘)、全息显示器和烟罐(未描绘))和打印机(未描绘)。

计算机***1600还可以包括人类可访问存储设备及其相关联的介质，例如包括具有CD/DVD等介质(1621)的CD/DVD ROM/RW(1620)的光学介质、拇指驱动器(1622)、可移除硬盘驱动器或固态驱动器(1623)、遗留磁性介质(例如磁带和软盘(未描绘))、基于专用ROM/ASIC/PLD的设备(例如安全加密狗(未描绘))等。

本领域技术人员还应当理解，结合当前公开的主题使用的术语“计算机可读介质”不包含传输介质、载波或其他瞬时信号。

计算机***(1600)还可以包括到一个或更多个通信网络的接口。网络可以是例如无线网络、有线网络、光网络。网络还可以是本地网络、广域网、城域网、车载和工业网络、实时网络、延迟容忍网络等。网络的示例包括局域网(例如以太网、无线LAN)、蜂窝网络(包括GSM、3G、4G、5G、LTE等)、电视有线或无线广域数字网络(包括有线电视、***和地面广播电视)、车载的和工业网络(包括CAN总线(CANBus))等。某些网络通常需要附接至某些通用数据端口或***总线(1649)(例如，计算机***(1600)的USB端口)的外部网络接口适配器；其他的网络通常通过如下所述(例如，到PC计算机***的以太网接口或到智能电话计算机***的蜂窝网络接口)附接至***总线而集成到计算机***(1600)的核心中。使用这些网络中的任何网络，计算机***(1600)可以与其他实体进行通信。这样的通信可以是仅单向接收的(例如，广播电视)、仅单向发送的(例如，到某些CAN总线设备的CAN总线)、或双向的(例如，到使用局域或广域数字网络的其他计算机***)。可以在如上所述的这些网络和网络接口中的每个网络和网络接口上使用某些协议和协议栈。

上述人机接口设备、人类可访问存储设备和网络接口可以被附接至计算机***(1600)的核心(1640)。

核心(1640)可以包括一个或更多个中央处理单元(CPU)(1641)、图形处理单元(GPU)(1642)、现场可编程门区(FPGA)(1643)形式的专用可编程处理单元、用于某些任务的硬件加速器(1644)等。这些设备，连同只读存储器(ROM)(1645)、随机存取存储器(1646)、内部大容量存储装置(1647)(例如内部非用户可访问硬盘驱动器、SSD等)，可以通过***总线(1648)连接。在一些计算机***中，可以以一个或更多个物理插头的形式访问***总线(1648)，以使得能够通过附加的CPU、GPU等进行扩展。***设备可以直接地或通过***总线(1649)附接至核心的***总线(1648)。***总线的架构包括PCI、USB等。

CPU(1641)、GPU(1642)、FPGA(1643)和加速器(1644)可以执行某些指令，这些指令组合起来可以构成上述计算机代码。该计算机代码可以被存储在ROM(1645)或RAM(1646)中。过渡数据也可以被存储在RAM(1646)中，而永久数据可以被存储在例如内部大容量存储装置(1647)中。可以通过使用缓存存储器来实现存储设备中的任何存储设备的快速存储和检索，该缓存存储器可以与一个或更多个CPU(1641)、GPU(1642)、大容量存储装置(1647)、ROM(1645)、RAM(1646)等紧密相关联。

计算机可读介质可以在其上具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为本公开内容的目的而专门设计和构建的介质和计算机代码，或者它们可以是计算机软件领域的技术人员公知和可用的类型。

作为示例而非限制，具有架构(1600)的计算机***，特别是核心(1640)可以提供由于(一个或更多个)处理器(包括CPU、GPU、FPGA、加速器等)执行被实现在一个或更多个有形计算机可读介质中的软件而提供的功能。这样的计算机可读介质可以是与如以上所介绍的用户可访问大容量存储装置相关联的介质，以及核心(1640)的具有非暂态性的某些存储装置，例如核心内大容量存储装置(1647)或ROM(1645)。可以将实现本公开内容的各种实施方式的软件存储在这样的设备中并且由核心(1640)执行。根据特定需要，计算机可读介质可以包括一个或更多个存储设备或芯片。软件可以使核心(1640)，特别是其中的处理器(包括CPU、GPU、FPGA等)，执行本文中描述的特定处理或特定处理的特定部分，包括限定存储在RAM(1646)中的数据结构以及根据由软件限定的处理修改这样的数据结构。另外地或作为替选，计算机***可以提供由于逻辑硬连线而提供或以其他方式体现在电路(例如：加速器(1644))中的功能，该电路可以代替软件或与软件一起操作以执行本文中描述的特定处理或特定处理的特定部分。在适当的情况下，提及软件可以包含逻辑，反之提及逻辑也可以包含软件。在适当的情况下，提及计算机可读介质可以包含存储用于执行的软件的电路(例如，集成电路(IC))、体现用于执行的逻辑的电路或上述两者。本公开内容包含硬件和软件的任何合适的组合。

附录A：首字母缩写词

JEM：联合开发模型

VVC：通用视频编码

BMS：基准设置

MV：运动矢量

HEVC：高效视频编码

SEI：补充增强信息

VUI：视频可用性信息

GOP：图片群组

TU：变换单元

PU：预测单元

CTU：编码树单元

CTB：编码树块

PB：预测块

HRD：假设参考解码器

SNR：信噪比

CPU：中央处理单元

GPU：图形处理单元

CRT：阴极射线管

LCD：液晶显示器

OLED：有机发光二极管

CD：光盘

DVD：数字视频光盘

ROM：只读存储器

RAM：随机存取存储器

ASIC：专用集成电路

PLD：可编程逻辑设备

LAN：局域网

GSM：全球移动通信***

LTE：长期演进

CANBus：控制器局域网总线

USB：通用串行总线

PCI：***部件互连

FPGA：现场可编程门阵列

SSD：固态驱动器

IC：集成电路

CU：编码单元

尽管本公开内容已经描述了若干示例性实施方式，但是存在落入本公开内容的范围内的改变、置换和各种替换等效物。因此将认识到，虽然本文中没有明确示出或描述，但是本领域技术人员能够设想体现本公开内容的原理并且因此在本公开内容的精神和范围内的许多***和方法。

Claims

1.一种用于在解码器中进行视频解码的方法，包括：

从已编码视频比特流中解码当前图片中的块的预测信息，所述预测信息指示帧间预测模式；

响应于所述帧间预测模式，按排名顺序来构建候选运动矢量预测器的候选列表，所述候选运动矢量预测器是基于对所述块的空间邻近区域中的运动信息的统计而排序的；

根据遵循所述排名顺序的所述候选列表来确定运动矢量预测器；以及

根据与所确定的运动矢量预测器相关联的运动信息来重建所述块的至少一个样本。

2.根据权利要求1所述的方法，还包括：

扫描所述空间邻近区域中的邻近块，以收集所述空间邻近区域中的所述运动信息的统计。

3.根据权利要求2所述的方法，还包括：

扫描所述空间邻近区域中的最小尺寸块，以收集所述空间邻近区域中的所述运动信息的统计。

4.根据权利要求2所述的方法，还包括：

扫描与所述块相邻的最小尺寸块，以收集所述空间邻近区域中的所述运动信息的统计。

5.根据权利要求2所述的方法，还包括：

扫描位于所述块旁边的左列中并且在左下方向上延伸的第一最小尺寸块，以收集所述空间邻近区域中的所述运动信息的统计；以及

扫描位于所述块旁边的上行中并且在右上方向上延伸的第二最小尺寸块，以收集所述空间邻近区域中的所述运动信息的统计。

6.根据权利要求2所述的方法，还包括：

扫描位于所述块旁边的多个左列中并且在左下方向上延伸的第一最小尺寸块，以收集所述空间邻近区域中的所述运动信息的统计；以及

扫描位于所述块旁边的多个上行中并且在右上方向上延伸的第二最小尺寸块以收集所述空间邻近区域中的所述运动信息的统计。

7.根据权利要求2所述的方法，还包括：

分别在与所述块相邻的网格单元中扫描代表性最小尺寸块以收集所述空间邻近区域中的所述运动信息的统计。

8.根据权利要求2所述的方法，还包括：

分别在第一网格单元中扫描第一代表性最小尺寸块，以收集所述空间邻近区域中的所述运动信息的统计，所述第一网格单元位于所述块旁边的左列中并且在左下方向上延伸；以及

分别以在第二网格单元中扫描第二代表性最小尺寸块，以收集所述空间邻近区域中的所述运动信息的统计，所述第二网格单元位于所述块旁边的上行中并且在右上方向上延伸。

9.根据权利要求2所述的方法，还包括：

分别在第一网格单元中扫描第一代表性最小尺寸块，以收集所述空间邻近区域中的所述运动信息的统计，所述第一网格单元位于所述块旁边的多个左列中并且在左下方向上延伸；以及

分别在第二网格单元中扫描第二代表性最小尺寸块，以收集所述空间邻近区域中的所述运动信息的统计，所述第二网格单元位于与所述块旁边的多个上行中并且在右上方向上延伸。

10.根据权利要求2所述的方法，还包括：

根据所述统计构建所述空间邻近区域中的所述运动信息的直方图；以及

根据所述直方图将来自所述空间邻近区域的运动矢量预测器排序为所述排名顺序。

11.根据权利要求10所述的方法，还包括：

使用与各个运动矢量相对应的分箱来构建所述直方图。

12.根据权利要求10所述的方法，还包括：

使用与运动矢量的范围相对应的分箱来构建所述直方图。

13.根据权利要求10所述的方法，还包括：

基于所述排名顺序中的排名来选择经排序的运动矢量预测器的一部分。

14.根据权利要求1所述的方法，还包括：

当所述块满足宽度要求和高度要求中的至少一个时，以所述排名顺序构建候选运动矢量预测器的候选列表。

15.一种用于视频解码的装置，包括：

处理电路，所述处理电路被配置成：

16.根据权利要求15所述的装置，其中，所述处理电路还被配置成：

扫描所述空间邻近区域中的邻近块以收集所述空间邻近区域中的所述运动信息的统计。

17.根据权利要求6所述的装置，其中，所述处理电路还被配置成：

扫描所述空间邻近区域中的最小尺寸块以收集所述空间邻近区域中的所述运动信息的统计。

18.根据权利要求16所述的装置，其中，所述处理电路还被配置成：

19.根据权利要求18所述的装置，其中，所述处理电路还被配置成：

基于所述排名顺序中的排名来选择经排序的运动矢量预测器的一部分以构建所述候选列表。

20.根据权利要求15所述的装置，其中，所述处理电路还被配置成：当所述块满足宽度要求和高度要求中的至少一个时，以所述排名顺序构建候选运动矢量预测器的候选列表。