CN115004700A - 用于视频编码的方法和装置 - Google Patents

用于视频编码的方法和装置 Download PDF

Info

Publication number
CN115004700A
CN115004700A CN202180006891.XA CN202180006891A CN115004700A CN 115004700 A CN115004700 A CN 115004700A CN 202180006891 A CN202180006891 A CN 202180006891A CN 115004700 A CN115004700 A CN 115004700A
Authority
CN
China
Prior art keywords
partitions
samples
neighboring
sample
reconstructed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180006891.XA
Other languages
English (en)
Inventor
赵亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN115004700A publication Critical patent/CN115004700A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开内容的各方面包括用于视频编码/解码的方法、装置和非暂态计算机可读存储介质。装置包括处理电路***,该处理电路***对作为已编码视频比特流的一部分的当前图片中的当前块的预测信息进行解码。预测信息指示针对当前块的非方向帧内预测模式。处理电路***将当前块分割成多个分区。多个分区包括至少一个L形分区。处理电路***基于以下中的至少一者来重建多个分区之一:(i)多个分区之一的邻近重建样本;或者(ii)当前块的邻近重建样本。

Description

用于视频编码的方法和装置
相关申请的交叉引用
本申请要求于2021年9月8日提交的美国专利申请第17/469,500号“METHOD ANDAPPARATUS FOR VIDEO CODING”的优先权的权益,该美国专利申请要求于2020年9月28日提交的美国临时申请第63/084,460号“NON-DIRECTIONAL INTRA PREDICTION FOR L-SHAPEPARTITION”的优先权,上述申请的全部内容通过引用整体并入本文。
技术领域
本公开描述了总体上涉及视频编码的实施方式。
背景技术
本文提供的背景描述是出于总体上呈现本公开内容的上下文的目的。就该背景部分中描述的工作的程度而言,当前署名的发明人的工作以及在提交时可以不另外被限定作为现有技术的描述的方面既不明确地也不隐含地被承认为针对本公开内容的现有技术。
可以使用具有运动补偿的图片间预测来执行视频编码和解码。未压缩的数字视频可以包括一系列图片,每个图片具有例如1920×1080亮度样本和相关联色度样本的空间维度。该系列图片可以具有例如每秒60个图片或60Hz的固定的或可变的图片速率(也被非正式地称为帧速率)。未压缩的视频具有显著的比特率要求。例如,每样本8位的1080P60 4:2:0视频(60Hz帧速率下1920×1080亮度样本分辨率)需要接近1.5Gbit/s的带宽。一小时这样的视频需要超过600千兆字节的存储空间。
视频编码和解码的一个目的可以是通过压缩来减少输入视频信号中的冗余。在一些情况下,压缩可以帮助将前述带宽或存储空间要求降低两个数量级或更多。可以采用无损压缩和有损压缩以及它们的组合。无损压缩是指可以根据压缩的原始信号重建原始信号的精确副本的技术。当使用有损压缩时,重建的信号可能与原始信号不相同,但是原始信号与重建的信号之间的失真足够小,以使重建的信号对预期应用有用。在视频的情况下,广泛采用有损压缩。容忍的失真量取决于应用;例如,某些消费者流式传输应用的用户可能比电视分布应用的用户容忍更高的失真。可实现的压缩比可以反映:更高的可允许/可容忍失真可以产生更高的压缩比。
视频编码器和解码器可以利用来自若干广泛类别的技术,包括例如运动补偿、变换、量化和熵编码。
视频编解码器技术可以包括称为帧内编码的技术。在帧内编码中,在不参考来自先前重建的参考图片的样本或其他数据的情况下表示样本值。在一些视频编解码器中,图片在空间上被细分为样本块。当所有样本块以帧内模式进行编码时,该图片可以是帧内图片。帧内图片及其派生例如独立解码器刷新图片可以用于重置解码器状态,并且因此可以用作已编码视频比特流和视频会话中的第一个图片或者用作静止图像。帧内块的样本可以经受变换,并且可以在熵编码之前对变换系数进行量化。帧内预测可以是使预变换域中的样本值最小化的技术。在一些情况下,变换之后的DC值越小,并且AC系数越小,在给定量化步长下表示熵编码之后的块所需的比特就越少。
诸如从例如MPEG-2代编码技术已知的传统帧内编码不使用帧内预测。然而,一些较新的视频压缩技术包括根据例如在空间上邻近并且在解码顺序上在前的数据块的编码和/或解码期间获得的元数据和/或周围样本数据进行尝试的技术。这样的技术此后被称为“帧内预测”技术。注意,在至少一些情况下,帧内预测仅使用来自重建中的当前图片而不使用来自参考图片的参考数据。
可以存在许多不同形式的帧内预测。当在给定视频编码技术中可以使用多于一种这样的技术时,使用的技术可以以帧内预测模式进行编码。在某些情况下,模式可以具有子模式和/或参数,并且这些子模式和/或参数可以单独编码或者包括在模式码字中。针对给定模式、子模式和/或参数组合使用哪种码字可以通过帧内预测对编码效率增益产生影响,并且因此可以对用于将码字转换成比特流的熵编码技术产生影响。
帧内预测的某些模式由H.264引入、在H.265中被细化,并且在较新编码技术例如联合开发模型(Joint Exploration Model,JEM)、通用视频编码(Versatile VideoCoding,VVC)和基准集(Benchmark Set,BMS)中被进一步细化。可以使用属于已可用样本的邻近样本值来形成预测块。根据方向将邻近样本的样本值复制到预测器块中。对使用的方向的参考可以被编码在比特流中,或者其本身可以被预测。
参照图1A,在右下方描绘的是从H.265的33个可能的预测器方向(对应于35个帧内模式的33个角模式)已知的九个预测器方向的子集。箭头会聚的点(101)表示正在预测的样本。箭头表示对样本进行预测的方向。例如,箭头(102)指示根据右上方的与水平成45度角的一个样本或多个样本对样本(101)进行预测。类似地,箭头(103)指示根据样本(101)左下方的与水平成22.5度角的一个样本或多个样本对样本(101)进行预测。
仍然参照图1A,在左上方描绘了4×4样本的正方形块(104)(由黑体虚线指示)。正方形块(104)包括16个样本,每个样本用“S”、其在Y维度上的位置(例如,行索引)及其在X维度上的位置(例如,列索引)来标记。例如,样本S21是Y维度上(从顶部开始)的第二个样本并且是X维度上(从左侧开始的)的第一个样本。类似地,样本S44是块(104)在Y维度和X维度两者上的均第四个样本。由于块的大小是4×4样本,因此S44在右下方。进一步示出的是遵循类似编号方案的参考样本。参考样本用R、其相对于块(104)的Y位置(例如,行索引)和X位置(列索引)来标记。在H.264和H.265两者中,预测样本与重建中的块邻近;因此,不需要使用负值。
帧内图片预测可以通过从由用信号通知的预测方向视情况从邻近样本复制参考样本值来工作。例如,假设已编码视频比特流包括信令,该信令针对该块指示与箭头(102)一致的预测方向——即,根据右上方的与水平成45度角的一个预测样本或多个预测样本对样本进行预测。在这种情况下,根据同一参考样本R05对样本S41、S32、S23和S14进行预测。然后,根据参考样本R08对样本S44进行预测。
在某些情况下,可以例如通过插值来对多个参考样本的值进行组合,以便计算参考样本;尤其是在方向不能被45度整除时。
随着视频编码技术的发展,可能的方向的数目增加。在H.264中(2003年),可以表示九个不同方向。这在H.265中(2013年)增加到33个,并且公开时JEM/VVC/BMS可以支持多达65个方向。已经进行了实验来识别最可能的方向,并且熵编码中的某些技术用于以少量的比特表示那些可能的方向,从而接受对不太可能的方向的某些惩罚。此外,有时可以根据邻近的已经解码的块中使用的邻近方向来预测方向本身。
图1B示出了描绘根据JEM的65个帧内预测方向以示出随时间而增加的预测方向的数目的示意图(105)。
已编码视频比特流中表示方向的帧内预测方向比特的映射可以随着视频编码技术的不同而不同;并且可以例如从预测方向的简单直接映射到帧内预测模式、到码字、到涉及最可能模式的复杂自适应方案以及类似技术。然而,在所有情况下,可以存在统计上比某些其他方向较不可能出现在视频内容中的某些方向。由于视频压缩的目标是减少冗余,因此在工作良好的视频编码技术中那些较不可能的方向与更可能的方向相比将由更大的比特数来表示。
运动补偿可以是有损压缩技术,并且可以涉及以下技术:其中来自先前重建的图片或其一部分(参考图片)的样本数据的块在由运动矢量(此后称为MV(Motion Vector,MV))指示的方向上进行空间移位之后被用于预测新重建的图片或图片部分。在一些情况下,参考图片可以与当前处于重建中的图片相同。MV可以具有两个维度X和Y,或者可以具有三个维度,第三维度是使用中的参考图片的指示(后者可以间接地为时间维度)。
在一些视频压缩技术中,适用于样本数据的特定区域的MV可以根据其他MV来预测,例如根据在空间上与重建中的区域相邻的样本数据的另一区域相关并且解码顺序上在该MV之前的MV来预测。这样做可以显著减少对MV进行编码所需的数据量,从而消除冗余并且提高压缩。MV预测可以有效地工作,例如,这是因为在对从摄像装置得到的输入视频信号(称为自然视频)进行编码时,存在比单个MV所应用的区域更大的区域在类似方向上移动的统计可能性,并且因此在一些情况下可以使用从邻近区域得到的类似MV来预测。这致使针对给定区域找到的MV与根据周围MV预测的MV类似或相同,并且在熵编码之后又可以以比直接对MV进行编码的情况下使用的比特数更小的比特数来表示。在一些情况下,MV预测可以是对从原始信号(即:样本流)得到的信号(即:MV)进行无损压缩的示例。在其他情况下,MV预测本身可以是有损的,这是因为例如根据若干周围MV计算预测值时的舍入误差。
在H.265/HEVC(ITU-T H.265建议书,“High Efficiency Video Coding”,2016年12月)中描述了各种MV预测机制。在H.265提供的多种MV预测机制中,本文描述的是此后被称为“空间合并”的技术。
参见图1C,当前块(111)可以包括在运动搜索处理期间已经由编码器发现的能够根据已经进行空间移位的相同大小的先前块预测的样本。代替直接对MV进行编码,可以使用与用A0、A1和B0、B1、B2(分别为112至116)表示的五个周围样本中的任一样本相关联的MV,从与一个或更多个参考图片相关联的元数据得出MV,例如从最近(按解码顺序)参考图片得出MV。在H.265中,MV预测可以使用来自邻近块正在使用的相同参考图片的预测器。
发明内容
本公开内容的各方面提供了一种用于视频编码/解码的装置。装置包括处理电路***,该处理电路***对作为已编码视频比特流的一部分的当前图片中的当前块的预测信息进行解码。预测信息指示针对当前块的非方向帧内预测模式。处理电路***将当前块分割成多个分区。多个分区包括至少一个L形分区。处理电路***基于以下中的至少一者来重建多个分区之一:(i)多个分区之一的邻近重建样本;或者(ii)当前块的邻近重建样本。
在一个实施方式中,邻近重建样本中的至少一个与多个分区之一的右侧或底侧相邻。
在一个实施方式中,多个分区之一是L形分区,邻近重建样本的数目取决于L形分区的尺寸。在一个示例中,邻近重建样本的数目是L形分区的宽度和高度之和。在另一示例中,邻近重建样本的数目是L形分区的较短宽度和较短高度之和。在另一示例中,邻近重建样本的数目是L形分区的宽度与高度之间的最大值。在另一示例中,邻近重建样本的数目是L形分区的宽度与高度之间的最小值。
在一个实施方式中,邻近重建样本中的至少一个位于在多个分区之一之前重建的多个分区中的另一分区中。在示例中,多个分区中的另一分区是L形分区,并且邻近重建样本中的至少一个与多个分区之一的右侧或底侧之一位置上相邻。
在一个实施方式中,处理电路***基于以下中的至少一者来确定多个分区之一的多个邻近参考样本:(i)多个分区之一的邻近重建样本;或者(ii)当前块的邻近重建样本。处理电路***基于多个邻近参考样本来重建多个分区之一。
在一个示例中,邻近重建样本包括多个分区之一的左侧列和右侧列的邻近重建样本。处理电路***基于多个分区之一的左侧列和右侧列的邻近重建样本来确定多个分区之一的底部行的邻近参考样本。处理电路***基于多个分区之一的底部行的邻近参考样本来重建多个分区之一。
在一个示例中,邻近重建样本包括多个分区之一的顶部行和底部行的邻近重建样本。处理电路***基于多个分区之一的顶部行和底部行的邻近重建样本来确定多个分区之一的左侧列的邻近参考样本。处理电路***基于多个分区之一的左侧列的邻近参考样本来重建多个分区之一。
在一个实施方式中,多个分区之一是L形分区,并且处理电路***基于当前块的左侧列和顶部行的邻近重建样本来重建多个分区之一。
在一个实施方式中,基于多个分区之一是L形分区,处理电路***针对L形分区的每个样本基于该样本的位置来确定多个邻近参考样本。处理电路***基于该样本的多个邻近参考样本来重建L形分区的每个样本。
在一个实施方式中,每个样本的多个邻近参考样本包括重建的邻近样本和待基于重建的邻近样本而重建的邻近样本。
本公开内容的各方面提供了一种用于视频编码/解码的方法。在该方法中,对作为已编码视频比特流的一部分的当前图片中的当前块的预测信息进行解码。预测信息指示针对当前块的非方向帧内预测模式。将当前块分割成多个分区。多个分区包括至少一个L形分区。基于以下中的至少一者来重建多个分区之一:(i)多个分区之一的邻近重建样本;或者(ii)当前块的邻近重建样本。
本公开内容的各方面还提供了一种存储指令的非暂态计算机可读介质,所述指令在由至少一个处理器执行时使所述至少一个处理器执行用于视频解码的方法中任何一种或组合。
附图说明
根据以下详细描述和附图,所公开的主题的其他特征、性质和各种优点将变得更加明显,在附图中:
图1A是帧内预测模式的示例性子集的示意图示;
图1B是示例性帧内预测方向的图示;
图1C是一个示例中的当前块及其周围的空间合并候选的示意图示;
图2是根据实施方式的通信***的简化框图的示意图示;
图3是根据实施方式的通信***的简化框图的示意图示;
图4是根据实施方式的解码器的简化框图的示意图示;
图5是根据实施方式的编码器的简化框图的示意图示;
图6示出了根据另一实施方式的编码器的框图;
图7示出了根据另一实施方式的解码器的框图;
图8示出了根据本公开内容的一些实施方式的示例性块分区;
图9示出了根据本公开内容的实施方式的具有嵌套二叉树结构的示例性四叉树;
图10示出了根据本公开内容的一些实施方式的多类型树结构中的示例性块分区;
图11示出了根据本公开内容的实施方式的示例性L型分区;
图12示出了根据本公开内容的一些实施方式的使用L型分割的示例性块分区;
图13示出了根据本公开内容的实施方式的示例性标称角度;
图14示出了根据本公开内容的实施方式的当前块中的一个像素的顶部、左侧和左上方样本的位置;
图15示出了根据本公开内容的实施方式的示例性递归滤波器帧内模式;
图16示出了根据本公开内容的实施方式的使用与编码块单元相邻的四个参考行的示例性多行帧内预测;
图17A至图17F示出了根据本公开内容的一些实施方式的六个示例性参考样本链(Reference Sample Chain,RSC);
图18示出了根据本公开内容的实施方式的示例性RSC;
图19A至图19B示出了根据本公开内容的一些实施方式的两个示例性RSC;
图20A至图20D示出了根据本公开内容的一些实施方式的两个示例性RSC;
图21示出了根据本公开内容的实施方式的示例性RSC;
图22A至图22B示出了根据本公开内容的一些实施方式的示例性RSC;
图23A至图23B示出了根据本公开内容的一些实施方式的示例性RSC;
图24示出了根据本公开内容的实施方式的示例性RSC;
图25A至图25B示出了根据本公开内容的一些实施方式的示例性RSC;
图26示出了根据本公开内容的实施方式的示例性流程图;以及
图27是根据实施方式的计算机***的示意图示。
具体实施方式
I.视频解码器和编码器***
图2示出了根据本公开内容的实施方式的通信***(200)的简化框图。通信***(200)包括可以经由例如网络(250)彼此通信的多个终端设备。例如,通信***(200)包括经由网络(250)互连的第一对终端设备(210)和(220)。在图2示例中,第一对终端设备(210)和(220)执行单向数据传输。例如,终端设备(210)可以对视频数据(例如,由终端设备(210)捕获的视频图片流)进行编码,以经由网络(250)传输至另一终端设备(220)。已编码视频数据可以以一个或更多个已编码视频比特流的形式传输。终端设备(220)可以从网络(250)接收已编码视频数据,对已编码视频数据进行解码以恢复视频图片,并且根据恢复的视频数据显示视频图片。单向数据传输在媒体服务应用等中可以是常见的。
在另一示例中,通信***(200)包括执行已编码视频数据的双向传输的第二对终端设备(230)和(240),该双向传输可以例如在视频会议期间发生。对于双向数据传输,在示例中,终端设备(230)和(240)中的每个终端设备可以对视频数据(例如,由终端设备捕获的视频图片流)进行编码,以经由网络(250)传输至终端设备(230)和(240)中的另一终端设备。终端设备(230)和(240)中的每个终端设备还可以接收由终端设备(230)和(240)的另一终端设备传输的已编码视频数据,并且可以对已编码视频数据进行解码以恢复视频图片,并且可以根据恢复的视频数据在可访问的显示设备处显示视频图片。
在图2示例中,终端设备(210)、(220)、(230)和(240)可以被示出为服务器、个人计算机和智能电话,但是本公开内容的原理可以不限于此。本公开内容的实施方式适用于膝上型计算机、平板计算机、媒体播放器和/或专用视频会议装备。网络(250)表示在终端设备(210)、(220)、(230)和(240)之间传达已编码视频数据的任何数目的网络,例如包括有线(连线的)和/或无线通信网络。通信网络(250)可以在电路交换和/或分组交换信道中交换数据。代表性网络包括电信网络、局域网、广域网和/或因特网。出于本讨论的目的,除非在本下文中有所说明,否则网络(250)的结构和拓扑对于本公开内容的操作而言可能是无关紧要的。
作为用于所公开的主题的应用的示例,图3示出了视频编码器和视频解码器在流式传输环境中的放置。所公开的主题可以同样适用于其他支持视频的应用,包括例如视频会议、数字TV、在包括CD、DVD、记忆棒的数字介质上存储压缩视频等。
流式传输***可以包括捕获子***(313),该捕获子***(313)可以包括创建例如未压缩的视频图片流(302)的视频源(301),例如数字摄像装置。在示例中,视频图片流(302)包括由数字摄像装置拍摄的样本。被描绘为粗线以强调与已编码视频数据(304)(或已编码视频比特流)相比时高的数据量的视频图片流(302)可以由包括耦接至视频源(301)的视频编码器(303)的电子设备(320)来处理。视频编码器(303)可以包括硬件、软件或它们的组合,以使得实现或执行如以下更详细地描述的所公开的主题的各方面。被描绘为细线以强调与视频图片流(302)相比时较低的数据量的已编码视频数据(304)(或已编码视频比特流(304))可以存储在流式传输服务器(305)上以供将来使用。一个或更多个流式传输客户端子***例如图3的客户端子***(306)和(308)可以访问流式传输服务器(305)以检索已编码视频数据(304)的副本(307)和(309)。客户子***(306)可以包括例如在电子设备(330)中的视频解码器(310)。视频解码器(310)对已编码视频数据的传入副本(307)进行解码,并且创建可以在显示器(312)(例如,显示屏幕)或其他呈现设备(未描绘)上呈现的输出视频图片流(311)。在一些流式传输***中,可以根据某些视频编码/压缩标准对已编码视频数据(304)、(307)和(309)(例如,视频比特流)进行编码。这些标准的示例包括ITU-TH.265建议书。在示例中,开发中的视频编码标准被非正式地称为通用视频编码(VVC)。所公开的主题可以在VVC的上下文中使用。
注意,电子设备(320)和(330)可以包括其他部件(未示出)。例如,电子设备(320)可以包括视频解码器(未示出),并且电子设备(330)还可以包括视频编码器(未示出)。
图4示出了根据本公开内容的实施方式的视频解码器(410)的框图。视频解码器(410)可以包括在电子设备(430)中。电子设备(430)可以包括接收器(431)(例如,接收电路***)。可以使用视频解码器(410)代替图3示例中的视频解码器(310)。
接收器(431)可以接收要由视频解码器(410)解码的一个或更多个已编码视频序列;在同一实施方式或另一实施方式中,一次接收一个已编码视频序列,其中每个已编码视频序列的解码独立于其他已编码视频序列。可以从信道(401)接收已编码视频序列,该信道(401)可以是到存储已编码视频数据的存储设备的硬件/软件链路。接收器(431)可以接收已编码视频数据与其他数据,例如可以被转发至它们各自的使用实体(未描绘)的已编码音频数据和/或辅助数据流。接收器(431)可以将已编码视频序列与其他数据分开。为了对抗网络抖动,可以在接收器(431)与熵解码器/解析器(420)(此后称为“解析器(420)”)之间耦接缓冲器存储器(415)。在某些应用中,缓冲器存储器(415)是视频解码器(410)的一部分。在其他应用下,缓冲器存储器(415)可以在视频解码器(410)外部(未描绘)。在又一些其他应用中,视频解码器(410)外部可以存在缓冲器存储器(未描绘)以例如对抗网络抖动,并且另外,视频解码器(410)内部可以存在另一缓冲器存储器(415)以例如处理播出定时。当接收器(431)正在从具有足够带宽和可控制性的存储/转发设备或从等时同步网络接收数据时,可以不需要缓冲器存储器(415)或者缓冲器存储器(415)可以很小。为了在诸如因特网的尽力服务分组网络上使用,可能需要缓冲器存储器(415),该缓冲器存储器(415)可能相对较大并且可以有利地具有自适应大小,并且可以至少部分地在操作***或视频解码器(410)外部的类似元件(未描绘)中实现。
视频解码器(410)可以包括解析器(420),以根据已编码视频序列来重建符号(421)。这些符号的类别包括用于管理视频解码器(410)的操作的信息,以及潜在地用于控制诸如呈现器设备(412)(例如,显示屏幕)的呈现设备的信息,该呈现器设备(412)不是电子设备(430)的组成部分,但可以耦接至电子设备(430),如图4所示。用于呈现设备的控制信息可以是辅助增强信息(Supplemental Enhancement Information,SEI消息)或视频可用性信息(Video Usability Information,VUI)参数集片段(未描绘)的形式。解析器(420)可以对接收到的已编码视频序列进行解析/熵解码。对已编码视频序列的编码可以根据视频编码技术或标准进行,并且可以遵循各种原理,包括可变长度编码、霍夫曼编码、具有或不具有上下文灵敏度的算术编码等。解析器(420)可以基于与群组对应的至少一个参数从已编码视频序列中提取用于视频解码器中的像素的子群组中的至少一个子群组的子群组参数集。子群组可以包括图片群组(Groups of Picture,GOP)、图片、图块、切片、宏块、编码单元(Coding Unit,CU)、块、变换单元(Transform Unit,TU)、预测单元(Prediction Unit,PU)等。解析器(420)还可以从已编码视频序列中提取信息例如变换系数、量化器参数值、MV等。
解析器(420)可以对从缓冲器存储器(415)接收到的视频序列执行熵解码/解析操作,以创建符号(421)。
取决于已编码视频图片或其一部分的类型(例如:帧间图片和帧内图片、帧间块和帧内块)以及其他因素,符号(421)的重建可以涉及多个不同单元。涉及哪些单元以及涉及方式可以通过由解析器(420)根据已编码视频序列解析的子群组控制信息来控制。为了清楚起见,未描绘解析器(420)与以下多个单元之间的这样的子群组控制信息流。
除了已经提到的功能块以外,视频解码器(410)可以在概念上细分为如下所述的多个功能单元。在商业约束下操作的实际实现方式中,这些单元中的许多单元彼此密切交互,并且可以至少部分地彼此集成。然而,出于描述所公开的主题的目的,概念上细分为以下功能单元是合适的。
第一单元是缩放器/逆变换单元(451)。缩放器/逆变换单元(451)从解析器(420)接收作为符号(421)的量化变换系数以及控制信息,包括要使用哪个变换、块大小、量化因子、量化缩放矩阵等。缩放器/逆变换单元(451)可以输出包括样本值的块,所述样本值可以输入至聚合器(455)中。
在一些情况下,缩放器/逆变换(451)的输出样本可以属于帧内编码块;即:不使用来自先前重建图片的预测性信息,但是可以使用来自当前图片的先前重建部分的预测性信息的块。这样的预测性信息可以由帧内图片预测单元(452)提供。在一些情况下,帧内图片预测单元(452)使用从当前图片缓冲器(458)获取的周围已经重建的信息来生成与重建中的块相同大小和形状的块。当前图片缓冲器(458)例如缓冲部分重建的当前图片和/或完全重建的当前图片。在一些情况下,聚合器(455)基于每个样本将帧内预测单元(452)已经生成的预测信息增加至如由缩放器/逆变换单元(451)提供的输出样本信息。
在其他情况下,缩放器/逆变换单元(451)的输出样本/可以属于帧间编码且有潜在运动补偿的块。在这种情况下,运动补偿预测单元(453)可以访问参考图片存储器(457)以获取用于预测的样本。在根据属于块的符号(421)对所获取的样本进行运动补偿之后,这些样本可以由聚合器(455)添加至缩放器/逆变换单元(451)的输出(在这种情况下,称为残差样本或残差信号),以生成输出样本信息。参考图片存储器(457)内的运动补偿预测单元(453)从中获取预测样本的地址可以由MV来控制,MV以符号(421)的形式可用于运动补偿预测单元(453),MV可以具有例如X、Y和参考图片分量。运动补偿还可以包括当使用子样本精确MV时如从参考图片存储器(457)中获取的样本值的插值、MV预测机制等。
聚合器(455)的输出样本可以在环路滤波器单元(456)中经受各种环路滤波技术。视频压缩技术可以包括环路内滤波器技术,该环路内滤波器技术由包括在已编码视频序列(也被称为已编码视频比特流)中的参数控制,并且作为来自解析器(420)的符号(421)可用于环路滤波器单元(456),但是视频压缩技术还可以响应于在对已编码图片或已编码视频序列的先前(按解码顺序)部分进行解码期间获得的元信息,以及响应于先前重建且经环路滤波的样本值。
环路滤波器单元(456)的输出可以是样本流,该样本流可以输出至呈现器设备(412)以及存储在参考图片存储器(457)中以用于将来的帧间图片预测。
一旦被完全重建,某些编码图片可以用作参考图片以用于将来预测。例如,一旦与当前图片对应的已编码图片被完全重建并且已编码图片被标识为参考图片(例如,通过解析器(420)),当前图片缓冲器(458)可以成为参考图片存储器(457)的一部分,并且可以在开始重建后续已编码图片之前重新分配新的当前图片缓冲器。
视频解码器(410)可以根据在诸如ITU-T H.265建议书的标准中的预定视频压缩技术执行解码操作。在已编码视频序列遵循视频压缩技术或标准的语法以及视频压缩技术或标准中记录的配置文件的意义上,已编码视频序列可以符合由正在使用的视频压缩技术或标准指定的语法。具体地,配置文件可以从视频压缩技术或标准中可用的所有工具中选择某些工具作为仅在该配置文件下可使用的工具。对于合规性,还可能要求已编码视频序列的复杂度在由视频压缩技术或标准级别限定的范围内。在一些情况下,级别限制最大图片大小、最大帧速率、最大重建样本速率(以例如每秒兆样本为单位进行测量)、最大参考图片大小等。在一些情况下,由级别设置的限制可以通过假想参考解码器(HypotheticalReference Decoder,HRD)规范和在已编码视频序列中用信号通知的HRD缓冲器管理的元数据来进一步限制。
在实施方式中,接收器(431)可以接收附加(冗余)数据与已编码视频。附加数据可以作为已编码视频序列的一部分被包括。附加数据可以由视频解码器(410)使用以对数据进行适当解码和/或更准确地重建原始视频数据。附加数据可以是例如时间、空间或信噪比(Signal Noise Ratio,SNR)增强层、冗余切片、冗余图片、前向纠错码等的形式。
图5示出了根据本公开内容的实施方式的视频编码器(503)的框图。视频编码器(503)包括在电子设备(520)中。电子设备(520)包括传输器(540)(例如,传输电路***)。可以使用视频编码器(503)代替图3示例中的视频编码器(303)。
视频编码器(503)可以从视频源(501)(不是图5示例中的电子设备(520)的一部分)接收视频样本,该视频源(501)可以捕获要由视频编码器(503)编码的视频图像。在另一示例中,视频源(501)是电子设备(520)的一部分。
视频源(501)可以提供要由视频编码器(503)编码的具有数字视频样本流形式的源视频序列,该数字视频样本流可以具有任何合适的位深度(例如:8位、10位、12位、……)、任何色彩空间(例如,BT.601Y CrCB、RGB、……)和任何合适的采样结构(例如,Y CrCb 4:2:0、Y CrCb 4:4:4)。在媒体服务***中,视频源(501)可以是存储先前准备的视频的存储设备。在视频会议***中,视频源(501)可以是捕获本地图像信息作为视频序列的摄像装置。视频数据可以被提供为在按顺序观看时赋予运动的多个单独的图片。图片本身可以被组织为像素的空间阵列,其中,每个像素可以取决于采样结构、色彩空间等包括一个或更多个样本。本领域技术人员可以容易地理解像素与样本之间的关系。以下描述侧重于样本。
根据实施方式,视频编码器(503)可以实时地或在应用所要求的任约束下对源视频序列的图片进行编码并将其压缩为已编码视频序列(543)。施行合适的编码速度是控制器(550)的一个功能。在一些实施方式中,控制器(550)控制如下所述的其他功能单元并且在功能上耦接至其他功能单元。为了清楚起见,未描绘该耦接。由控制器(550)设置的参数可以包括速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值、……)、图片大小、图片群组(Group of Picture,GOP)布局、最大MV允许参考区域等。控制器(550)可以被配置成具有其他合适的功能,所述其他合适的功能属于针对特定***设计而优化的视频编码器(503)。
在一些实施方式中,视频编码器(503)被配置成在编码环路中进行操作。作为过于简化的描述,在示例中,编码环路可以包括源编码器(530)(例如,负责基于要编码的输入图片和参考图片来创建符号例如符号流)以及嵌入视频编码器(503)中的(本地)解码器(533)。解码器(533)以类似于(远程)解码器也将创建样本数据的方式重建符号以创建样本数据(因为在所公开的主题中考虑的视频压缩技术中,符号与已编码视频比特流之间的任何压缩是无损的)。重建的样本流(样本数据)被输入至参考图片存储器(534)。由于对符号流的解码产生独立于解码器位置(本地或远程)的比特精确结果,因此在参考图片存储器(534)中的内容在本地编码器与远程编码器之间也是比特精确的。换句话说,编码器的预测部分“看到”的参考图片样本与解码器将在解码期间使用预测时所“看到”的样本值完全相同。该参考图片同步性基本原理(以及在例如因信道误差而无法维持同步性的情况下产生的漂移)也用于一些相关领域中。
“本地”解码器(533)的操作可以与“远程”解码器例如视频解码器(410)的操作相同,上面已经结合图4对视频解码器(410)进行了详细描述。然而,还简要地参照图4,当符号可用并且由熵编码器(545)和解析器(420)可以无损地将符号编码/解码为已编码视频序列时,包括缓冲器存储器(415)和解析器(420)的视频解码器(410)的熵解码部分可以不完全地实现在本地解码器(533)中。
此时可以观察到,除了解码器中存在的解析/熵解码之外的任何解码器技术也必然需要以基本上相同功能形式存在于对应的编码器中。出于此原因,所公开的主题侧重于解码器操作。可以简化对编码器技术的描述,这是因为编码器技术与全面描述的解码器技术互逆。仅在某些区域中需要更详细的描述并且在下面提供该描述。
在一些示例中,在操作期间,源编码器(530)可以执行运动补偿预测性编码,该运动补偿预测性编码参考来自视频序列的被指定为“参考图片”的一个或更多个先前编码的图片来对输入图片进行预测性编码。以这种方式,编码引擎(532)对输入图片的像素块与参考图片的像素块之间的差异进行编码,该参考图片可以被选择为对输入图片的预测参考。
本地视频解码器(533)可以基于由源编码器(530)创建的符号来对可以被指定为参考图片的图片的已编码视频数据进行解码。编码引擎(532)的操作可以有利地是有损处理。当可以在视频解码器(图5中未示出)处对已编码视频数据进行解码时,重建的视频序列通常可以是具有一些误差的源视频序列的复制品。本地视频解码器(533)复制解码过程,该解码过程可以由视频解码器对参考图片执行并且可以使重建的参考图片存储在参考图片缓存(534)中。以这种方式,视频编码器(503)可以在本地存储重建的参考图片的副本,所述副本与将由远端视频解码器获得的重建的参考图片具有共同内容(不存在传输误差)。
预测器(535)可以针对编码引擎(532)执行预测搜索。即,对于要编码的新图片,预测器(535)可以在参照图片存储器(534)中搜索可以用作新图片的适当预测参考的样本数据(作为候选参考像素块)或某些元数据,例如参考图片MV、块形状等。预测器(535)可以基于样本块逐像素块进行操作,以找到适当的预测参考。在一些情况下,如通过由预测器(535)获得的搜索结果所确定的,输入图片可以具有从存储在参考图片存储器(534)中的多个参考图片取得的预测参考。
控制器(550)可以管理源编码器(530)的编码操作,包括例如用于对视频数据进行编码的参数和子群组参数的设置。
可以在熵编码器(545)中对所有前述功能单元的输出进行熵编码。熵编码器(545)通过根据诸如霍夫曼编码、可变长度编码、算术编码等的技术对符号进行无损压缩来将如由各种功能单元生成的符号转换为已编码视频序列。
传输器(540)可以缓冲如由熵编码器(545)创建的已编码视频序列,以为经由通信信道(560)进行传输做准备,该通信信道(560)可以到将存储已编码视频数据的存储设备的硬件/软件链路。传输器(540)可以将来自视频编码器(503)的已编码视频数据与要传输的其他数据例如已编码音频数据和/或辅助数据流(未示出源)进行合并。
控制器(550)可以管理视频编码器(503)的操作。在编码期间,控制器(550)可以为每个已编码图片分配特定编码图片类型,这可能会影响可以应用于相应的图片的编码技术。例如,通常可以将图片分配为以下图片类型之一:
帧内图片(I图片),其可以是在不将序列中的任何其他图片用作预测源的情况下进行编码和解码的图片。一些视频编解码器允许不同类型的帧内图片,包括例如独立解码器刷新(Independent Decoder Refresh,“IDR”)图片。本领域技术人员了解I图片的那些变型及其相应的应用和特征。
预测性图片(P图片),其可以是可以使用用至多一个MV和参考索引来预测每个块的样本值的帧内预测或帧间预测进行编码和解码的图片。
双向预测性图片(B图片),其可以是使用用至多两个MV和参考索引来预测每个块的样本值的帧内预测或帧间预测进行编码和解码的图片。类似地,多个预测性图片可以使用多于两个参考图片和相关联元数据以用于单个块的重建。
源图片通常可以在空间上细分为多个样本块(例如,分别是4×4、8×8、4×8或16×16样本的块)并且逐块进行编码。可以参考如由应用于块的相应图片的编码分配所确定的其他(已经编码的)块来对进行块预测性编码。例如,可以对I图片的块进行非预测性编码,或者可以参考同一图片的已经编码的块对I图片的块进行预测性编码(空间预测或帧内预测)。可以参考一个先前编码的参考图片经由空间预测或经由时间预测来对P图片的像素块进行预测性编码。可以参考一个或两个先前编码的参考图片经由空间预测或经由时间预测来对B图片的块进行预测性编码。
视频编码器(503)可以根据预定视频编码技术或标准例如ITU-T H.265建议书执行编码操作。在其操作中,视频编码器(503)可以执行各种压缩操作,包括利用输入视频序列中的时间冗余和空间冗余的预测性编码操作。因此,已编码视频数据可以符合由正在使用的视频编码技术或标准指定的语法。
在实施方式中,传输器(540)可以传输附加数据与已编码视频。源编码器(530)可以包括这样的数据作为已编码视频序列的一部分。附加数据可以包括时间/空间/SNR增强层、其他形式的冗余数据例如冗余图片和切片、SEI消息,VUI参数集片段等。
视频可以按时间序列捕获为多个源图片(视频图片)。帧内图片预测(通常缩写为帧内预测)利用给定图片中的空间相关性,而帧间图片预测利用图片之间的(时间或其他)相关性。在示例中,被称为当前图片的编码/解码中的特定图片被分割成块。在当前图片中的块类似于视频中的先前编码且仍被缓冲的参考图片中的参考块时,可以由被称为MV的矢量对当前图片中的块进行编码。MV指向参考图片中的参考块,并且在使用多个参考图片的情况下,MV可以具有识别参考图片的第三维度。
在一些实施方式中,双预测技术可以用于帧间图片预测。根据双预测技术,使用两个参考图片,例如按编码顺序都在视频中的当前图片之前(但按显示顺序可能分别是过去和将来)的第一参考图片和第二参考图片。可以由指向第一参考图片中的第一参考块的第一MV和指向第二参考图片中的第二参考块的第二MV来对当前图片中的块进行编码。可以通过第一参考块和第二参考块的组合来预测该块。
此外,可以在帧间图片预测中使用合并模式技术以提高编码效率。
根据本公开内容的一些实施方式,诸如帧间图片预测和帧内图片预测的预测以块为单位执行。例如,根据HEVC标准,视频图片序列中的图片被分割成编码树单元(CodingTree Unit,CTU)以用于压缩,图片中的CTU具有相同的大小,例如64×64像素、32×32像素或16×16像素。通常,CTU包括三个编码树块(Coding Tree Block,CTB),所述三个编码树块是一个亮度CTB和两个色度CTB。每个CTU可以被递归地以四叉树划分成一个或多个编码单元(CU)。例如,64×64像素的CTU可以被划分成一个64×64像素的CU、或4个32×32像素的CU、或16个16×16像素的CU。在示例中,分析每个CU以确定CU的预测类型,例如帧间预测类型或帧内预测类型。取决于时间和/或空间预测,CU被分成一个或更多个预测单元(PU)。通常,每个PU包括亮度预测块(Prediction Block,PB)和两个色度PB。在实施方式中,译码(编码/解码)中的预测操作以预测块为单位执行。使用亮度预测块作为预测块的示例,该预测块包括像素的值(例如,亮度值)的矩阵,例如8×8像素、16×16像素、8×16像素、16×8像素等。
图6示出了根据本公开内容的另一实施方式的视频编码器(603)的图。视频编码器(603)被配置成接收视频图片序列中的当前视频图片内的样本值的处理块(例如,预测块),并且将该处理块编码到作为已编码视频序列的一部分的已编码图片中。在示例中,使用视频编码器(603)代替图3示例中的视频编码器(303)。
在HEVC示例,视频编码器(603)接收用于处理块例如8×8样本的预测块等的样本值的矩阵。视频编码器(603)使用例如率失真优化来确定是使用帧内模式、帧间模式还是双预测模式来对处理块进行最佳编码。当要在帧内模式下对处理块进行编码时,视频编码器(603)可以使用帧内预测技术以将处理块编码到已编码图片中;并且当要在帧间模式或双预测模式下对处理块进行编码时,视频编码器(503)可以分别使用帧间预测或双预测技术将处理块编码到已编码图片中。在某些视频编码技术中,合并模式可以是帧间图片预测子模式,其中,在不借助于预测器外部的已编码MV分量的情况下从一个或更多个MV预测器得出MV。在某些其他视频编码技术中,可以存在适用于主题块的MV分量。在示例中,视频编码器(603)包括其他部件,例如用于确定处理块的模式的模式决策模块(未示出)。
在图6示例中,视频编码器(603)包括如图6所示的耦接在一起的帧间编码器(630)、帧内编码器(622)、残差计算器(623)、开关(626)、残差编码器(624)、通用控制器(621)以及熵编码器(625)。
帧间编码器(630)被配置成接收当前块(例如,处理块)的样本、将该块与参考图片中的一个或更多个参考块(例如,先前图片和后来图片中的块)进行比较、生成帧间预测信息(例如,根据帧间编码技术的冗余信息的描述、MV、合并模式信息)、以及基于帧间预测信息使用任何合适的技术计算帧间预测结果(例如,预测块)。在一些示例中,参考图片是基于已编码视频信息解码的已解码参考图片。
帧内编码器(622)被配置成接收当前块(例如处理块)的样本、在一些情况下将该块与同一图片中的已经编码的块进行比较、生成变换之后的量化系数、以及在一些情况下还生成帧内预测信息(例如根据一个或更多个帧内编码技术的帧内预测方向信息)。在示例中,帧内编码器(622)还基于帧内预测信息和同一图片中的参考块来计算帧内预测结果(例如,预测块)。
通用控制器(621)被配置成确定通用控制数据并且基于通用控制数据来控制视频编码器(603)的其他部件。在示例中,通用控制器(621)确定块的模式,并且基于该模式向开关(626)提供控制信号。例如,当模式是帧内模式时,通用控制器(621)控制开关(626)以选择由残差计算器(623)使用的帧内模式结果,并且控制熵编码器(625)以选择帧内预测信息并将帧内预测信息包括在比特流中;以及当模式是帧间模式时,通用控制器(621)控制开关(626)以选择由残差计算器(623)使用的帧间预测结果,并且控制熵编码器(625)以选择帧间预测信息并将帧间预测信息包括在比特流中。
残差计算器(623)被配置成计算所接收的块与选自帧内编码器(622)或帧间编码器(630)的预测结果之间的差(残差数据)。残差编码器(624)被配置成基于残差数据进行操作,以对残差数据进行编码以生成变换系数。在示例中,残差编码器(624)被配置成将残差数据从空间域转换到频域并且生成变换系数。然后,变换系数经受量化处理以获得经量化的变换系数。在各种实施方式中,视频编码器(603)还包括残差解码器(628)。残差解码器(628)被配置成执行逆变换,并且生成已解码残差数据。已解码残留数据可以适当地由帧内编码器(622)和帧间编码器(630)使用。例如,帧间编码器(630)可以基于已解码残差数据和帧间预测信息生成已解码块,并且帧内编码器(622)可以基于已解码残差数据和帧内预测信息生成已解码块。适当处理已解码块以生成已解码图片,并且在一些示例中,已解码图片可以在存储器电路(未示出)中缓冲并用作参考图片。
熵编码器(625)被配置成对比特流进行格式化以包括已编码块。熵编码器(625)被配置成根据诸如HEVC的合适标准而包括各种信息。在示例中,熵编码器(625)被配置成包括通用控制数据、所选预测信息(例如,帧内预测信息或帧间预测信息)、残差信息和比特流中的其他合适的信息。注意,根据所公开的主题,当在帧间模式或双预测模式的合并子模式下对块进行编码时,不存在残差信息。
图7示出了根据本公开内容的另一实施方式的视频解码器(710)的图。视频解码器(710)被配置成接收作为已编码视频序列的一部分的已编码图片,并且对已编码图片进行解码以生成重建的图片。在示例中,使用视频解码器(710)代替图3示例中的视频解码器(310)。
在图7示例中,视频解码器(710)包括如图7所示的耦接在一起的熵解码器(771)、帧间解码器(780)、残差解码器(773)、重建模块(774)以及帧内解码器(772)。
熵解码器(771)可以被配置成根据已编码图片重建某些符号,这些符号表示组成已编码图片的语法元素。这样的符号可以包括例如对块进行编码的模式(例如,帧内模式、帧间模式、双预测模式、后两者的合并子模式或另一子模式)、可以分别识别供帧内解码器(772)或帧间解码器(780)进行预测的某些样本或元数据的预测信息(例如,帧内预测信息或帧间预测信息)、例如经量化的变换系数形式的残差信息等。在示例中,当预测模式是帧间模式或双预测模式时,帧间预测信息被提供给帧间解码器(780);以及当预测类型是帧内预测类型时,帧内预测信息被提供给帧内解码器(772)。残差信息可以经受逆量化并且被提供给残差解码器(773)。
帧间解码器(780)被配置成接收帧间预测信息,并且基于帧间预测信息生成帧间预测结果。
帧内解码器(772)被配置成接收帧内预测信息,并且基于帧内预测信息生成预测结果。
残差解码器(773)被配置成执行逆量化以提取解量化的变换系数,并且对解量化的变换系数进行处理以将残差从频域转换到空间域。残差解码器(773)还可能需要某些控制信息(以包括量化器参数(Quantizer Parameter,QP)),并且该信息可以由熵解码器(771)提供(未描绘数据路径,因为这可以仅是低量控制信息)。
重建模块(774)被配置成在空间域中组合如由残差解码器(773)输出的残差与预测结果(可以视情况而定,如由帧间预测模块或帧内预测模块输出的)以形成重建的块,该重建的块可以是重建的图片的一部分,该重建的图片又可以是重建的视频的一部分。注意,可以执行诸如解块操作等的其他合适的操作来改善视觉质量。
注意,可以使用任何合适的技术来实现视频编码器(303)、(503)和(603)以及视频解码器(310)、(410)和(710)。在实施方式中,可以使用一个或更多个集成电路来实现视频编码器(303)、(503)和(603)以及视频解码器(310)、(410)和(710)。在另一实施方式中,可以使用执行软件指令的一个或更多个处理器来实现视频编码器(303)、(503)和(603)以及视频解码器(310)、(410)和(710)。
II.块分区
图8示出了根据本公开内容的一些实施方式的示例性块分区。
在一些相关示例例如由开放媒体联盟(Alliance for Open Media,AOMedia)提出的VP9中,可以使用4路分区树,该4路分区树从64×64级别向下至4×4级别,其中对8×8及以下的块有一些附加限制,如图8所示。注意,指定为R的分区可以被称为递归分区。即,在较低的规模下重复相同的分区树直到达到最低4×4级别。
在一些相关示例例如由AOMedia提出的AV1中,分区树可以被扩展到如图8所示的10路结构,并且增加最大编码块大小(在VP9/AV1用语中被称为超级块)以从128×128开始。注意,4:1/1:4矩形分区包括在AV1中,但不包括在VP9中。矩形分区都不可以被进一步细分。另外,AV1在使用低于8×8级别的分区时可以支持更大的灵活性,因为在一些示例中可以对2×2色度块执行帧间预测。
在一些相关示例例如HEVC中,可以通过使用被表示为编码树的四叉树结构将CTU划分成CU,以适应各种局部特征。可以在CU级别做出关于使用帧间图片(时间)预测还是帧内图片(空间)预测来对图片区域进行编码的决策。每个CU可以根据PU划分类型被进一步划分成一个、两个或四个PU。在一个PU内部,可以应用相同的预测处理,并且可以基于PU将相关信息传输至解码器。在通过基于PU划分类型应用预测处理来获得残差块之后,可以根据另一四叉树结构如CU的编码树将CU分割成TU。HEVC结构的一个关键特征在于它具有包括CU、PU和TU的多个分区构思。在HEVC中,CU或TU可以仅为正方形形状,而PU可以是用于帧间预测块的正方形或矩形形状。在HEVC中,一个编码块可以被进一步划分成四个正方形子块,并且可以对每个子块即TU执行变换处理。每个TU可以被进一步递归地划分(例如,使用四叉树划分)成较小的TU。四叉树划分可以被称为残差四叉树(Residual Quadtree,RQT)。
在图片边界处,HEVC采用隐式四叉树划分,使得块可以继续执行四叉树划分直到块的大小适合图片边界。
图9示出了根据本公开内容的实施方式的具有嵌套二叉树结构的示例性四叉树。
图10示出了根据本公开内容的一些实施方式的多类型树结构中的示例性块分区。
在一些相关示例例如VVC中,可以使用多类型树(Multi-Type-Tree,MTT)结构,该多类型树结构是四叉树(QT)嵌套二叉树(Binary Tree,BT)和三叉(三元)树(Triple(Ternary)Tree,TT)的组合。首先,CTU或CU可以通过QT被递归地分割成正方形块。然后,每个QT叶可以通过BT或TT被进一步分割,其中,BT和TT划分可以递归地应用和交织,但是不能应用另外的QT分割。在一些示例中,TT使用1:2:1比率将矩形块垂直或水平地划分成三个块,以避免非二次幂的宽度和高度。为了防止分区竞争,通常对MTT施加附加划分约束,以避免重复的分区(例如,禁止由垂直/水平三元划分而产生的中间分区上的垂直/水平二元划分)。另外的限制被设置为BT和TT划分的最大深度。
图11示出了根据本公开内容的实施方式的示例性的L型分区。代替使用矩形块分区,L型分割可以将块划分成一个或更多个L形分区以及一个或更多个矩形分区。如图11所示,L形(或L型)分区可以具有宽度、高度、较短的宽度和较短的高度。在本公开内容中,旋转的L形分区也可以被认为是L形分区。
图12示出了根据本公开内容的一些实施方式的使用L型分割的示例性的块分区。基于L型分区,一个块可以被分割成两个分区,包括一个L形分区(分区1)和一个矩形分区(分区0)。
III.帧内预测
在一些相关示例例如VP9中,支持8种方向模式,所述8方向模式对应于从45至207度的角度。为了利用方向纹理中的更多种类的空间冗余,在一些相关示例例如AV1中,方向帧内模式被扩展到具有较细粒度的角度集合。原始8个角度略微改变并且被称为标称角度,并且这些8个标称角度被命名为V_PRED、H_PRED、D45_PRED、D135_PRED、D113_PRED、D157_PRED、D203_PRED和D67_PRED。
图13示出了根据本公开内容的实施方式的示例性标称角度。每个标称角度可以与7个较细的角度相关联,因此在一些相关示例例如AV1中,总共可以有56个方向角度。预测角度可以通过标称帧内角加上角度增量来表示。角度增量可以等于系数乘以3度的步长。系数可以在-3至3的范围内。为了通过一般方式实现AV1中的方向预测模式,AV1中的所有56个方向帧内预测角度可以用统一的方向预测器来实现,该统一的方向预测器将每个像素投影到参考子像素位置并且通过2抽头双线性滤波器对参考子像素进行插值。
在一些相关示例例如AV1中,存在5个非方向平滑帧内预测模式,它们是DC、PAETH、SMOOTH、SMOOTH_V和SMOOTH_H。对于DC预测,左侧和上方邻近样本的平均值被用作要预测的块的预测器。对于PAETH预测,首先获取顶部、左侧、左上方参考样本,并且然后将最接近(顶部+左侧-左上)的值设置为要预测的像素的预测器。
图14示出了根据本公开内容的实施方式的当前块中的一个像素的顶部、左侧、左上方样本的位置。对于SMOOTH模式、SMOOTH_V模式和SMOOTH_H模式,使用垂直或水平方向上的二次插值或两个方向的平均值来对块进行预测。
图15示出了根据本公开内容的实施方式的示例性递归滤波器帧内模式。
为了捕获关于边缘的衰减空间相关性,FILTER INTRA模式被设计用于亮度块。在AV1中限定五个滤波器帧内模式,每个滤波器帧内模式由反映4×2图块中的像素和与图块相邻的7个邻近像素之间的相关性的一组八个7抽头滤波器来表示。例如,7抽头滤波器的加权因子是位置相关的。如图15所示,8×8块被划分成由B0、B1、B2、B3、B4、B5、B6和B7所指示的八个4×2图块。对于每个图块,由R0~R7所指示的其7个邻近图块用于预测相应图块中的像素。对于图块B0,所有邻近图块都已经重建。但是对于其他图块,并非所有邻近图块都被重建,然后紧近邻的预测值被用作参考值。例如,图块B7的所有邻近图块都没有被重建,因此替代地使用图块B7的邻近图块(即,B5和B6)的预测样本。
对于色度分量,被称为亮度分量来预测色度分量(Chroma from Luma,CfL)模式的仅色度帧内预测模式将色度像素建模为重合重建的亮度像素的线性函数。CfL预测可以被表示为如下:
CfL(α)=α×LAC+DC 等式(1)
其中,LAC表示亮度分量的AC贡献,α表示线性模型的参数,DC表示色度分量的DC贡献。在示例中,重建的亮度像素被子采样为色度分辨率,并且然后减去平均值以形成AC贡献。为了从AC贡献近似色度AC分量,如在一些相关示例中,AC1中的CfL模式基于原始色度像素确定参数α并且在比特流中用信号通知它们,而不是要求解码器计算缩放参数。这降低了解码器复杂度并产生更精确的预测。关于色度分量的DC贡献,它是使用帧内DC模式来计算的,这对于大多数色度内容是足够的并且具有成熟的快速实现方式。
图16示出了根据本公开内容的实施方式的使用与编码块单元相邻的四个参考行的示例性多行帧内预测。对于多行帧内预测,编码器判定并用信号通知哪个参考行用于生成帧内预测器。在帧内预测模式之前用信号通知参考行索引,并且在用信号通知非零参考行索引的情况下仅允许最可能模式。在图16中,描绘了4个参考行的示例,其中每个参考行由六个段(即,段A至F)连同左上方参考样本一起构成。另外,在图16中,不同参考行中的重建样本填充有不同的图案。多行帧内预测模式也可以被称为多个参考行预测(多个参考行预测,MRLP)模式。
IV.针对L形分区的非方向帧内预测
利用L型分区,可以从当前块的右侧和/或底侧获得当前块的邻近重建样本。然而,来自右侧和/或底侧的可获得的邻近重建样本与使用顶部和左侧参考样本来执行非方向帧内预测的一些相关帧内预测方案不完全兼容。
本公开内容包括用于L形分区的非方向帧内预测模式的方法。所提出的方法可以单独使用或以任何顺序组合使用。在本公开内容中,L形(或L型)分区可以被限定为如图11所示,并且旋转的L形分区也可以被视为L形分区。
帧内预测模式可以包括不同的帧内预测模式类型,例如角度帧内预测模式或方向帧内预测模式以及非角度帧内预测模式或非方向帧内预测模式。例如,如果模式的预测样本可以根据给定的预测方向来产生,则该模式可以被称为角度帧内预测模式或方向帧内预测模式。否则,该模式可以被称为非角度帧内预测模式或非方向帧内预测模式。非角度帧内预测模式的示例包括但不限于DC模式、平坦(Planar)模式、平面(Plane)模式(在H.264/AVC中限定)、SMOOTH模式、SMOOTH_H模式、SMOOTH_V模式、Paeth模式、递归滤波模式和/或基于矩阵的帧内预测(Matrix-based Intra Prediction,MIP)模式。在一些实施方式中,不是平滑模式的模式可以被视为角度帧内预测模式或方向帧内预测模式。
在相关帧内预测方案中,顶部和/或左侧邻近参考样本用于执行非方向帧内预测模式。然而,对于L形分区,附加邻近样本可能是可用的并被重建。例如,右侧和/或底侧邻近样本可能是可用的并被重建,并且因此可以用于预测L形分区。
根据本公开内容的各方面,当块被分割成至少一个L形分区(L-shapedPartition,LP)和至少一个矩形分区(Rectangular Partition,RP)时,用于执行L形分区的帧内预测模式的参考样本可以来自另一LP或RP或其他块的邻近重建样本。在一些实施方式中,邻近重建样本可以形成任意形状的连续链,而不是一个水平直线和/或一个垂直直线。
在本公开内容中,参考样本一起可以被称为参考样本链(Reference SampleChain,RSC)。RSC中的所有样本或样本子集可以用于非方向帧内预测模式。RSC可以包括一个以上的水平直线或垂直直线的参考样本。
图17A至图17F示出了根据本公开内容的一些实施方式的六个示例性RSC。图17A至图17F中的每个块具有8×8的大小并且被分割成两个分区:一个LP和一个RP。RP具有4×4的大小并且位于每个块的左上角处。LP具有8的高度和8的宽度。图17A至图17F中的每个RSC包括两个水平线和参照样本的两个垂直线的参考样本。
根据本公开内容的一些实施方式,包括在RSC中的参考样本的总数可以是2的幂。可以从参考样本中排除RSC中的一个或更多个样本,使得不超过参考样本的总数。例如,在图17A至图17F中,包括在每个RSC中的参考样本的总数为16。对于图17A至图17C中的每个RSC,从参考样本中排除相应RSC的一个角样本,使得包括在相应RSC中的参考样本的总数为16。对于图17D和图17E中的每个RSC,从参考样本中排除相应RSC的头或尾的一个样本,使得包括在相应RSC中的参考样本的总数为16。对于图17F中的RSC,从参考样本中排除两个角样本,并且在帧内预测模式(例如,DC模式)中将一个中间角样本使用两次,使得包括在RSC中的参考样本的总数为16。
在一个实施方式中,RSC中仅参考样本的子集可以用于帧内预测模式(例如,DC模式)。
在一些实施方式中,块可以被分割成两个分区:一个LP和一个RP。RP位于块的左上角处,并且LP的高度和宽度可以相等或不相等。当对LP执行非方向帧内预测模式(例如,DC模式)时,在一些实施方式中,非方向帧内预测模式中使用的参考样本的总数可以是LP的宽度和高度之和(例如,宽度+高度),例如如图17A至图17F所示。在实施方式中,非方向帧内预测模式中使用的参考样本的总数可以是LP的较短宽度和较短高度之和(例如,较短宽度+较短高度)。图18中示出了一个这样的示例,其中所使用的参考样本以灰色标记。
在一些实施方式中,块可以被分割成两个分区:一个LP和一个RP。RP位于块的左上角处,并且LP的高度和宽度不相等。当对LP执行非方向帧内预测模式(例如,DC模式)时,非方向帧内预测模式中使用的参考样本的总数是LP的宽度与高度之间的最大值或最小值(例如,最大值(宽度,高度)或最小值(宽度,高度))。例如,在图19A中,LP的宽度大于LP的高度,因此宽度的值被选择为非方向帧内预测模式(例如,DC模式)中使用的参考样本的总数。在图19B中,LP的高度大于LP的宽度,因此高度的值被选择为非方向帧内预测模式(例如,DC模式)中使用的参考样本的总数。在图19A和图19B中的每一个中,预测过程中使用的参考样本的总数为16。
在一些实施方式中,块可以被分割成两个分区:一个LP和一个RP。当LP的高度和宽度不相等或者RP不位于块的右下角处时,在非方向帧内预测模式(例如,DC模式)中仅使用沿块的垂直侧或水平侧的参考样本。非方向帧内预测模式中使用的参考样本的总数是LP的宽度与高度之间的最大值或最小值(例如,最大值(宽度,高度)或最小值(宽度,高度))。图20A至图20D示出了根据本公开内容的一些实施方式的用于LP的一些示例性参考样本。
在一个实施方式中,块可以被分割成两个分区:一个LP和一个RP。LP可以是图12中的四种L形类型之一。当对LP执行非方向帧内预测模式(例如,DC模式)时,非定向帧内预测模式中使用的参考样本的总数是LP的宽度和高度之和(例如,宽度+高度),并且所有参考样本都在LP和RP分区外部。图21示出了在这样的实施方式中如何选择参考样本的一个示例。
根据本公开内容的一些实施方式,块可以被划分割成多个分区。对于当前分区,当在重建当前分区的样本之前重建来自不同分区(LP或RP)的右侧和/或底侧邻近样本时,右侧和/或底侧邻近样本可以形成RSC并且用于对当前分区执行非方向帧内预测模式(例如,DC模式)。如图22A至图22B所示,LP(分区1)在RP(分区0)之前被重建。因此,LP的样本可以形成RSC并且用于RP的非方向帧内预测模式(例如,DC模式)。在图22A至图22B中,RP的上侧行中的参考样本以深灰色标记,RP的左侧列中的参考样本以灰色标记,并且RP的右侧列或底部行中的参考样本以白色标记。
在一个实施方式中,仅RP块的上侧行、左侧列、右侧列、底部行之一中的邻近样本可以用于RP的非方向帧内预测模式(例如,DC模式)。
在一个实施方式中,仅RP的左侧列和上侧行中的邻近样本可以用于RP的非方向帧内预测模式(例如,DC模式)。
在一个实施方式中,如图22A所示,当RP位于块的左下角时,仅RP的左侧列和右侧列中的邻近样本可以用于RP的非方向帧内预测模式(例如,DC模式)。
在一个实施方式中,如图22B所示,当RP位于块的右上角时,仅RP的上侧行和底部行中的邻近样本可以用于RP的非方向帧内预测模式(例如,DC模式)。
根据本公开内容的各方面,当执行某些非方向帧内预测模式之一(例如,在HEVC和VVC中限定的平坦模式、在AV1中限定的SMOOTH、SMOOTH-H或SMOOTH-V模式)并且重建右侧或底部邻近样本时,重建的邻近样本可以直接用于非方向帧内预测模式中的4抽头插值,而不是从顶部和左侧重建的邻近样本外推右侧和/或底部邻近样本。
在一个实施方式中,当执行某些非方向帧内预测模式之一(例如,在HEVC和VVC中限定的平坦模式、在AV1中限定的SMOOTH、SMOOTH-H或SMOOTH-V模式)并且底部行邻近样本不可用时,可以从左侧列和右侧列邻近样本线性外推底部行邻近样本。如图23A所示,如果左下方邻近样本(标记为BL)可用,则BL邻近样本可以直接使用或通过从左侧列中的最近近邻复制来获得,并且右下方邻近样本(标记为BR)可以通过从右侧列中的最近近邻复制来获得。可以通过使用例如线性插值来外推BL与BR邻近样本之间的剩余底部行邻近样本。
在一个实施方式中,当执行某些非方向帧内预测模式之一(例如,在HEVC和VVC中限定的平坦模式、在AV1中限定的SMOOTH、SMOOTH-H或SMOOTH-V模式)并且右侧列邻近样本不可用时,可以从上侧行和底部行邻近样本线性外推右侧列邻近样本。如图23B中所示,如果右上方邻近样本(标记为TR)可用,则TR邻近样本可以直接使用或通过从左侧列中的最近近邻复制来获得,并且右下方邻近样本(标记为BR)可以通过从右侧列中的最近近邻复制来获得。可以通过使用例如线性插值来外推TR与BR邻近样本之间的剩余右侧列邻近样本。
在一个实施方式中,当执行某些非方向帧内预测模式之一(例如,在HEVC和VVC中限定的平坦模式、在AV1中限定的SMOOTH、SMOOTH-H或SMOOTH-V模式)时,仅RP和LP块之外的顶部和左侧邻近样本可以用作参考样本,并且右侧和底部邻近样本可以通过从顶部和左邻近样本复制或外推来获得。图24示出在这样的实施方式中如何针对LP选择左侧和上部邻近样本的一个示例。
在一个实施方式中,当执行某些非方向帧内预测模式之一(例如,在HEVC和VVC中限定的平坦模式、在AV1中限定的SMOOTH、SMOOTH-H或SMOOTH-V模式)时,对于位于LP中的不同位置处的样本,左侧、右侧、顶部、底部邻近参考样本可以是来自不同的行,并且右侧和底部邻近参考样本(在图25A至图25B中以对角线纹理标记)可以通过从顶部和左侧邻近参考样本复制或外推来获得。
图25A至图25B示出如何针对LP选择左侧、右侧、顶部和底部邻近参考样本的两个示例。
在图25A中,块(2501)被分割为LP(标记为1)和RP(标记为0)。RP位于块(2501)的左下角。对于LP中的样本(2510),顶部邻近参考样本(2511)来自块(2501)的顶部参考行,左侧邻近参考样本(2512)来自块(2501)的左侧参考行,底部邻近参考样本(2513)来自RP的顶部行,并且右侧邻近参考样本(2514)来自块(2501)的右侧参考行。注意,块(2501)的右侧参考行中的参考样本例如右侧邻近参考样本(2514)可以通过从块(2501)的顶部参考行中的参考样本复制或外推来获得。
对于LP中的样本(2520),顶部邻近参考样本(2521)来自块(2501)的顶部参考行,左侧邻近参考样本(2522)来自RP的右侧行,底部邻近参考样本(2523)来自块(2501)的底部参考行,并且右侧邻近参考样本(2524)来自块(2501)的右侧参考行。注意,块(2501)的底部参考行中的参考样本例如底部邻近参考样本(2523)可以通过从块(2501)的左侧参考行中的参考样本复制或外推来获得。
在图25B中,块(2502)被分割为LP(标记为1)和RP(标记为0)。RP位于块(2502)的左上角。对于LP中的样本(2530),顶部邻近参考样本(2531)来自块(2502)的顶部参考行,左侧邻近参考样本(2532)来自RP的右侧行,底部邻近参考样本(2533)来自块(2502)的底部参考行,并且右侧邻近参考样本(2534)来自块(2502)的右侧参考行。注意,块(2502)的右侧参考行中的参考样本例如右侧邻近参考样本(2534)可以通过从块(2502)的顶部参考行中的参考样本复制或外推来获得。
对于LP中的样本(2540),顶部邻近参考样本(2541)来自RP的顶部行,左侧邻近参考样本(2542)来自块(2502)的右侧参考行,底部邻近参考样本(2543)来自块(2502)的底部参考行,并且右侧邻近参考样本(2544)来自块(2502)的右侧参考行。注意,块的底部参考行中的参考样本例如底部邻近参考样本(2543)可以通过从块(2502)的左侧参考行中的参考样本复制或外推来获得。
V.流程图
图26示出了概述根据本公开内容的实施方式的示例性处理(2600)的流程图。在各种实施方式中,处理(2600)由处理电路***执行,处理电路***例如终端设备(210)、(220)、(230)和(240)中的处理电路***、执行视频编码器(303)的功能的处理电路***、执行视频解码器(310)的功能的处理电路***、执行视频解码器(410)的功能的处理电路***、执行帧内预测模块(452)的功能的处理电路***、执行视频编码器(503)的功能的处理电路***、执行预测器(535)的功能的处理电路***、执行帧内编码器(622)的功能的处理电路***、执行帧内解码器(772)的功能的处理电路***等。在一些实施方式中,处理(2600)以软件指令实现,因此当处理电路***执行软件指令时,处理电路***执行处理(2600)。
处理(2600)通常可以以步骤(S2610)开始,在步骤(S2610)中,处理(2600)对作为已编码视频比特流的一部分的当前图片中的当前块的预测信息进行解码。该预测信息指示针对当前块的非方向帧内预测模式。然后,处理(2600)前进至步骤(S2620)。
在步骤(S2620)处,处理(2600)将当前块分割成多个分区。多个分区包括至少一个L形分区。然后,处理(2600)前进至步骤(S2630)。
在步骤(S2630)处,处理(2600)基于以下中的至少一者来重建多个分区之一:(i)多个分区之一的邻近重建样本;或者(ii)当前块的邻近重建样本。然后,处理(2600)终止。
在一个实施方式中,邻近重建样本中的至少一个与多个分区之一的右侧或底侧之一位置上相邻。
在一个实施方式中,多个分区之一是L形分区,并且邻近重建样本的数目取决于L形分区的尺寸。在一个示例中,邻近重建样本的数目是L形分区的宽度和高度之和。在另一示例中,邻近重建样本的数目是L形分区的较短宽度和较短高度之和。在另一示例中,邻近重建样本的数目是L形分区的宽度与高度之间的最大值。在另一示例中,邻近重建样本的数目是L形分区的宽度与高度之间的最小值。
在一个实施方式中,邻近重建样本中的至少一个位于在多个分区之一之前重建的多个分区中的另一分区中。在示例中,多个分区中的另一分区是L形分区,并且邻近重建样本中的至少一个与多个分区之一的右侧或底侧之一相邻。
在一个实施方式中,处理(2600)基于以下中的至少一个来确定多个分区之一的多个邻近参考样本:(i)多个分区之一的邻近重建样本;或者(ii)当前块的邻近重建样本。处理(2600)基于多个邻近参考样本来重建多个分区之一。
在一个示例中,邻近重建样本包括多个分区之一的左侧列和右侧列的邻近重建样本。处理(2600)基于多个分区之一的左侧列和右侧列的邻近重建样本来确定多个分区之一的底部行的邻近参考样本。处理(2600)基于多个分区之一的底部行的邻近参考样本来重建多个分区之一。
在一个示例中,邻近重建样本包括多个分区之一的顶部行和底部行的邻近重建样本。处理(2600)基于多个分区之一的顶部行和底部行的邻近重建样本来确定多个分区之一的左侧列的邻近参考样本。处理(2600)基于多个分区之一的左侧列的邻近参考样本来重建多个分区之一。
在一个实施方式中,多个分区之一是L形分区,并且处理(2600)基于当前块的左侧列和顶部行的邻近重建样本来重建多个分区之一。
在一个实施方式中,基于多个分区之一是L形分区,处理(2600)针对L形分区的每个样本基于该样本的位置来确定多个邻近参考样本。处理(2600)基于该样本的多个邻近参考样本来重建L形分区的每个样本。
在一个实施方式中,每个样本的多个邻近参考样本包括重建的邻近样本和待基于重建的邻近样本而重建的邻近样本。
VI.计算机***
上述技术可以使用计算机可读指令实现为计算机软件,并且物理地存储在一个或更多个计算机可读介质中。例如,图27示出了适合于实现所公开的主题的某些实施方式的计算机***(2700)。
可以使用任何合适的机器代码或计算机语言对计算机软件进行编码,机器代码或计算机语言可以经受汇编、编译、链接等机制,以创建包括指令的代码,所述指令可以由一个或更多个计算机中央处理单元(Computer Central Processing Unit,CPU)、图形处理单元(Graphics Processing Unit,GPU)等直接执行或者通过解释、微代码执行等来执行。
所述指令可以在各种类型的计算机或其部件上执行,所述计算机或其部件包括例如个人计算机、平板计算机、服务器、智能电话、游戏设备、物联网设备等。
图27所示用于计算机***(2700)的部件本质上是示例性的,并且不旨在对实现本公开内容的实施方式的计算机软件的使用范围或功能提出任何限制。部件的配置也不应该被解释为具有与计算机***(2700)的示例性实施方式中所示的部件中的任何一个或组合相关的任何依赖性或要求。
计算机***(2700)可以包括某些人机接口输入设备。这样的人机接口输入设备可以对由一个或更多个人类用户通过例如触觉输入(例如:击键、滑动、数据手套移动)、音频输入(例如:语音、拍打)、视觉输入(例如:姿势)、嗅觉输入(未描绘)进行的输入作出响应。人机接口设备还可以用于捕获不一定与人类的意识输入直接相关的某些媒体,例如音频(例如:语音、音乐、环境声音)、图像(例如:扫描图像、从静态图像摄像装置获得的摄影图像)、视频(例如,二维视频、包括立体视频的三维视频)。
输入人机接口设备可以包括以下中的一个或更多个(描绘了每种中的仅一个):键盘(2701)、鼠标(2702)、触控板(2703)、触摸屏(2710)、数据手套(未示出)、操纵杆(2705)、麦克风(2706)、扫描仪(2707)和摄像装置(2708)。
计算机***(2700)还可以包括某些人机接口输出设备。这样的人机接口输出设备可以通过例如触觉输出、声音、光和气味/味道来刺激一个或更多个人类用户的感官。这样的人机接口输出设备可以包括:触觉输出设备(例如,通过触摸屏(2710)、数据手套(未示出)或操纵杆(2705)进行的,但还可以存在不用作输入设备的触觉反馈设备)、音频输出设备(例如:扬声器(2709)、头戴式耳机(未描绘))、视觉输出设备(例如,屏幕(2710),该屏幕(2710)包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕,每个屏幕具有或不具有触摸屏输入能力,每个屏幕具有或不具有触觉反馈能力——其中的一些屏幕可以能够通过诸如立体图形输出的方式输出二维视觉输出或多于三维输出;虚拟现实眼镜(未描绘)、全息显示器以及烟罐(未描绘))以及打印机(未描绘)。这些视觉输出设备(例如,屏幕(2710))可以通过图形适配器(2750)连接至***总线(2748)。
计算机***(2700)还可以包括人类可访问存储设备及其相关联的介质,例如包括具有CD/DVD或类似介质(2721)的CD/DVD ROM/RW(2720)的光学介质、拇指驱动器(2722)、可移除硬盘驱动器或固态驱动器(2723)、传统磁性介质例如磁带和软盘(未描绘)、基于专用ROM/ASIC/PLD的设备例如安全加密狗(未描绘)等。
本领域技术人员还应当理解,结合当前公开的主题使用的术语“计算机可读介质”不包含传输介质、载波或其他瞬态信号。
计算机***(2700)还可以包括到一个或更多个通信网络(2755)的网络接口(2754)。一个或更多个通信网络(2755)可以是例如无线的、有线的、光学的。一个或更多个通信网络(2755)还可以是本地的、广域的、城域的、车载和工业的、实时的、延时容忍的等。一个或更多个通信网络(2755)的示例包括:诸如以太网的局域网;无线LAN;包括GSM、3G、4G、5G、LTE等的蜂窝网络;包括线缆电视、***和地面广播电视的电视有线或无线广域数字网络;包括CANBus的车载和工业网络等。某些网络通常需要外部网络接口适配器,该外部网络接口适配器附接至某些通用数据端口或***总线(2749)(诸如例如,计算机***(2700)的USB端口);其他网络通常通过附接至如下所述的***总线(例如,到PC计算机***的以太网接口或到智能电话计算机***的蜂窝网络接口)而集成到计算机***(2700)的核中。计算机***(2700)可以使用任何这些网络与其他实体进行通信。这样的通信可以是仅单向接收的(例如,广播电视)、仅单向发送的(例如,到某些CANBus设备总的CANBus)或双向的(例如,使用局域数字网络或广域数字网络到其他计算机***)。可以在如上所述的这些网络和网络接口中的每一个上使用某些协议和协议栈。
前述人机接口设备、人类可访问存储设备和网络接口可以附接至计算机***(2700)的核(2740)。
核(2740)可以包括一个或更多个中央处理单元(CPU)(2741)、图形处理单元(GPU)(2742)、现场可编程门阵列(Field Programmable Gate Area,FPGA)(2743)形式的专用可编程处理单元、用于某些任务的硬件加速器(2744)、图形适配器(2750)等。这些设备连同只读存储器(Read-Only Memory,ROM)(2745)、随机存取存储器(2746)、内部大容量存储设备(2747)例如内部非用户可访问硬盘驱动器、SSD等可以通过***总线(2748)连接。在一些计算机***中,可以以一个或更多个物理插头的形式访问***总线(2748),以通过附加的CPU、GPU等实现扩展。***设备可以直接附接至核的***总线(2748)或者可以通过***总线(2749)附接至***总线(2748)。在示例中,屏幕(2710)可以连接至图形适配器
(2750)。***总线的架构包括PCI、USB等。
CPU(2741)、GPU(2742),FPGA(2743)和加速器(2744)可以执行某些指令,所述指令可以组合构成前述计算机代码。该计算机代码可以存储在ROM(2745)或RAM(2746)中。过渡数据也可以存储在RAM
(2746)中,而永久数据可以存储在例如内部大容量存储设备(2747)中。可以通过使用缓存存储器来实现对存储设备中的任何存储设备的快速存储和检索,该缓存存储器可以与一个或更多个CPU(2741)、GPU(2742)、大容量存储设备(2747)、ROM(2745)、RAM(2746)等紧密相关联。
计算机可读介质上可以具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是出于本公开内容的目的而专门设计和构建的介质和计算机代码,或者介质和计算机代码可以具有对于计算机软件领域的技术人员公知且可用的类型。
作为示例而非限制,具有架构的计算机***(2700)并且特别是核(2740)可以由于处理器(包括CPU、GPU、FPGA、加速器等)执行一个或更多个有形计算机可读介质中包含的软件而提供功能。这样的计算机可读介质可以是与如以上所介绍的用户可访问的大容量存储设备以及核(2740)的具有非暂态性质的某些存储设备例如核内部大容量存储设备(2747)或ROM(2745)相关联的介质。实现本公开内容的各种实施方式的软件可以存储在这样的设备中并且由核(2740)执行。根据特定需要,计算机可读介质可以包括一个或更多个存储器设备或芯片。该软件可以使核(2740)以及特别地其中的处理器(包括CPU、GPU、FPGA等)执行本文描述的特定处理或特定处理的特定部分,包括限定存储在RAM(2746)中的数据结构以及根据由软件限定的处理修改这样的数据结构。另外或作为替选,计算机***可以由于以硬连线或其他方式体现在电路(例如:加速器(2744))中的逻辑而提供功能,该逻辑可以代替软件或与软件一起操作以执行本文描述的特定处理或特定处理的特定部分。在适当的情况下,对软件的提及可以包含逻辑,并且对逻辑的提及也包含软件。在适当的情况下,对计算机可读介质的提及可以包含存储用于执行的软件的电路(例如,集成电路(IntegratedCircuit,IC))、实施用于执行的逻辑的电路或上述两者。本公开内容包含硬件和软件任何合适的组合。
虽然本公开内容已经描述了若干示例性实施方式,但是存在落入本公开内容的范围内的改变、置换和各种替换等同物。因此,应当理解,尽管本文未明确地示出或描述,但是本领域技术人员将能够设想体现本公开内容的原理并且因此在其精神和范围内的许多***和方法。
附录A:首字母缩略词
ALF:自适应环路滤波器
AMVP:高级运动矢量预测
APS:自适应参数集
ASIC:专用集成电路
ATMVP:替选/高级时间运动矢量预测
AV1:Aomedia Video 1
AV2:Aomedia Video 2
BMS:基准集
BV:块矢量
CANBus:控制器区域网络总线
CB:编码块
CC-ALF:交叉分量自适应环路滤波器
CD:光盘
CDEF:约束方向增强滤波器
CPR:当前图片参考
CPU:中央处理单位
CRT:阴极射线管
CTB:编码树块
CTU:编码树单元
CU:编码单元
DPB:解码器图片缓冲器
DPS:解码参数集
DVD:数字视频盘
FPGA:现场可编程门阵列
JCCR:联合CbCr残差编码
JVET:联合视频开发组
GOP:图片群组
GPU:图形处理单元
GSM:全球移动通信***
HDR:高动态范围
HEVC:高效视频编码
HRD:假想参考解码器
IBC:帧内块复制
IC:集成电路
ISP:帧内子分区
JEM:联合开发模型
LAN:局域网
LCD:液晶显示器
LR:环路恢复滤波器
LTE:长期演进
MPM:最可能模式
MV:运动矢量
OLED:有机发光二极管
PB:预测块
PCI:***部件互连
PDPC:位置相关预测组合
PLD:可编程逻辑器件
PPS:图片参数集
PU:预测单元
RAM:随机存取存储器
ROM:只读存储器
SAO:样本自适应偏移
SCC:屏幕内容编码
SDR:标准动态范围
SEI:补充增强信息
SNR:信噪比
SPS:序列参数集
SSD:固态驱动器
TU:变换单元
USB:通用串行总线
VPS:视频参数集
VUI:视频可用性信息
VVC:通用视频编码
WAIP:广角帧内预测

Claims (20)

1.一种在解码器中进行视频解码的方法,所述方法包括:
对作为已编码视频比特流的一部分的当前图片中的当前块的预测信息进行解码,所述预测信息指示针对所述当前块的非方向帧内预测模式;
将所述当前块分割成多个分区,所述多个分区包括至少一个L形分区;以及
基于以下中的至少一者来重建所述多个分区之一:(i)所述多个分区之一的邻近重建样本;或者(ii)所述当前块的邻近重建样本。
2.根据权利要求1所述的方法,其中,所述多个分区之一是L形分区,并且所述邻近重建样本的数目取决于所述L形分区的尺寸。
3.根据权利要求2所述的方法,其中,所述邻近重建样本的数目是以下之一:(i)所述L形分区的宽度和高度之和;(ii)所述L形分区的较短宽度和较短高度之和;(iii)所述L形分区的宽度和高度中的最大值;以及(iv)所述L形分区的宽度和高度中的最小值。
4.根据权利要求1所述的方法,其中,所述邻近重建样本中的至少一个位于在所述多个分区之一之前重建的、所述多个分区中的另一分区中。
5.根据权利要求4所述的方法,其中,所述多个分区中的另一分区是L形分区,并且所述邻近重建样本中的至少一个与所述多个分区之一的右侧或底侧相邻。
6.根据权利要求1所述的方法,其中,所述邻近重建样本包括所述多个分区之一的左侧列和右侧列的邻近重建样本,并且所述重建包括:
基于所述多个分区之一的左侧列和右侧列的邻近重建样本来确定所述多个分区之一的底部行的邻近参考样本;以及
基于所述多个分区之一的底部行的邻近参考样本来重建所述多个分区之一。
7.根据权利要求1所述的方法,其中,所述邻近重建样本包括所述多个分区之一的顶部行和底部行的邻近样本,并且所述重建包括:
基于所述多个分区之一的顶部行和底部行的邻近重建样本来确定所述多个分区之一的左侧列的邻近参考样本;以及
基于所述多个分区之一的左侧列的邻近参考样本来重建所述多个分区之一。
8.根据权利要求1所述的方法,其中,所述多个分区之一是L形分区,并且所述重建包括:
基于所述当前块的左侧列和顶部行的邻近重建样本来重建所述多个分区之一。
9.根据权利要求1所述的方法,其中,基于所述多个分区之一是L形分区,所述重建包括:
针对所述L形分区的每个样本,基于该样本的位置来确定多个邻近参考样本;以及
基于该样本的所述多个邻近参考样本来重建所述L形分区的每个样本。
10.根据权利要求9所述的方法,其中,每个样本的所述多个邻近参考样本包括重建的邻近样本和待基于所述重建的邻近样本而重建的邻近样本。
11.一种包括处理电路***的装置,所述处理电路***被配置成:
对作为已编码视频比特流的一部分的当前图片中的当前块的预测信息进行解码,所述预测信息指示针对所述当前块的非方向帧内预测模式;
将所述当前块分割成多个分区,所述多个分区包括至少一个L形分区;以及
基于以下中的至少一者来重建所述多个分区之一:(i)所述多个分区之一的邻近重建样本;或者(ii)所述当前块的邻近重建样本。
12.根据权利要求11所述的装置,其中,所述多个分区之一是L形分区,并且所述邻近重建样本的数目取决于所述L形分区的尺寸。
13.根据权利要求12所述的装置,其中,所述邻近重建样本的数目是以下之一:(i)所述L形分区的宽度和高度之和;(ii)所述L形分区的较短宽度和较短高度之和;(iii)所述L形分区的宽度和高度中的最大值;以及(iv)所述L形分区的宽度和高度中的最小值。
14.根据权利要求11所述的装置,其中,所述邻近重建样本中的至少一个位于在所述多个分区之一之前重建的所述多个分区中的另一分区中。
15.根据权利要求14所述的装置,所述多个分区中的另一分区是L形分区,并且所述邻近重建样本中的至少一个与所述多个分区之一的右侧或底侧相邻。
16.根据权利要求11所述的装置,其中,所述邻近重建样本包括所述多个分区之一的左侧列和右侧列的邻近样本,并且所述处理电路***还被配置成:
基于所述多个分区之一的左侧列和右侧列的邻近重建样本来确定所述多个分区之一的底部行的邻近参考样本;以及
基于所述多个分区之一的底部行的邻近参考样本来重建所述多个分区之一。
17.根据权利要求11所述的装置,其中,所述邻近重建样本包括所述多个分区之一的顶部行和底部行的邻近样本,并且所述处理电路***还被配置成:
基于所述多个分区之一的顶部行和底部行的邻近重建样本来确定所述多个分区之一的左侧列的邻近参考样本;以及
基于所述多个分区之一的左侧列的邻近参考样本来重建所述多个分区之一。
18.根据权利要求11所述的装置,其中,所述多个分区之一是L形分区,并且所述处理电路***还被配置成:
基于所述当前块的左侧列和顶部行的邻近重建样本来重建所述多个分区之一。
19.根据权利要求11所述的装置,其中,基于所述多个分区之一是L形分区,所述处理电路***还被配置成:
针对所述L形分区的每个样本,基于该样本的位置来确定多个邻近参考样本;以及
基于所述该样本的所述多个邻近参考样本来重建所述L形分区的每个样本。
20.一种存储有指令的非暂态计算机可读存储介质,所述指令在由至少一个处理器执行时使所述至少一个处理器执行以下操作:
对作为已编码视频比特流的一部分的当前图片中的当前块的预测信息进行解码,所述预测信息指示针对所述当前块的非方向帧内预测模式;
将所述当前块分割成多个分区,所述多个分区包括至少一个L形分区;以及
基于以下中的至少一者来重建所述多个分区之一:(i)所述多个分区之一的邻近重建样本;或者(ii)所述当前块的邻近重建样本。
CN202180006891.XA 2020-09-28 2021-09-22 用于视频编码的方法和装置 Pending CN115004700A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063084460P 2020-09-28 2020-09-28
US63/084,460 2020-09-28
US17/469,500 2021-09-08
US17/469,500 US11689715B2 (en) 2020-09-28 2021-09-08 Non-directional intra prediction for L-shape partitions
PCT/US2021/051543 WO2022066761A1 (en) 2020-09-28 2021-09-22 Method and apparatus for video coding

Publications (1)

Publication Number Publication Date
CN115004700A true CN115004700A (zh) 2022-09-02

Family

ID=80821955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180006891.XA Pending CN115004700A (zh) 2020-09-28 2021-09-22 用于视频编码的方法和装置

Country Status (6)

Country Link
US (2) US11689715B2 (zh)
EP (1) EP4042694A4 (zh)
JP (2) JP7416946B2 (zh)
KR (1) KR20220103800A (zh)
CN (1) CN115004700A (zh)
WO (1) WO2022066761A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230345015A1 (en) * 2022-04-13 2023-10-26 Tencent America LLC Chroma from luma prediction using neighbor luma samples
US20230370601A1 (en) * 2022-05-16 2023-11-16 Tencent America LLC Chroma from luma prediction based on merged chroma blocks
US20230388540A1 (en) * 2022-05-27 2023-11-30 Tencent America LLC Signaling of downsampling filters for chroma from luma intra prediction mode
WO2024126020A1 (en) * 2022-12-13 2024-06-20 Interdigital Ce Patent Holdings, Sas Encoding and decoding methods using l-shaped partitions and corresponding apparatuses

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2942960A1 (en) * 2009-12-01 2015-11-11 HUMAX Holdings Co., Ltd. Apparatus for decoding high-resolution images
US20170244964A1 (en) * 2016-02-23 2017-08-24 Mediatek Inc. Method and Apparatus of Flexible Block Partition for Video Coding
WO2017190288A1 (en) 2016-05-04 2017-11-09 Microsoft Technology Licensing, Llc Intra-picture prediction using non-adjacent reference lines of sample values
US20190020888A1 (en) * 2017-07-11 2019-01-17 Google Llc Compound intra prediction for video coding
EP3673651A1 (en) 2017-08-22 2020-07-01 Panasonic Intellectual Property Corporation of America Image encoder, image decoder, image encoding method, and image decoding method
CN116916009A (zh) 2017-09-08 2023-10-20 株式会社Kt 视频信号处理方法及装置
JP7046186B2 (ja) * 2017-12-08 2022-04-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 画像符号化装置、画像復号装置、画像符号化方法、および画像復号方法
WO2019147910A1 (en) 2018-01-26 2019-08-01 Interdigital Vc Holdings, Inc. Method and apparatus for video encoding and decoding based on a linear model responsive to neighboring samples
GB2571313B (en) 2018-02-23 2022-09-21 Canon Kk New sample sets and new down-sampling schemes for linear component sample prediction
WO2020098653A1 (en) * 2018-11-12 2020-05-22 Mediatek Inc. Method and apparatus of multi-hypothesis in video coding
JP2020141285A (ja) 2019-02-28 2020-09-03 シャープ株式会社 画像復号装置
US11523112B2 (en) 2020-04-09 2022-12-06 Tencent America LLC Intra coding with L-type partitioning tree

Also Published As

Publication number Publication date
WO2022066761A1 (en) 2022-03-31
US20220103807A1 (en) 2022-03-31
US12028515B2 (en) 2024-07-02
JP2024024054A (ja) 2024-02-21
EP4042694A1 (en) 2022-08-17
US11689715B2 (en) 2023-06-27
EP4042694A4 (en) 2022-12-28
JP2023505270A (ja) 2023-02-08
KR20220103800A (ko) 2022-07-22
US20230247193A1 (en) 2023-08-03
JP7416946B2 (ja) 2024-01-17

Similar Documents

Publication Publication Date Title
CN110708555B (zh) 视频解码方法、装置、计算机设备以及存储介质
US11800138B2 (en) Method and apparatus for video coding
CN113557724A (zh) 视频编解码的方法和装置
US11722661B2 (en) Method and apparatus for video coding
US20240048744A1 (en) System and method for determining dosage of coffee grounds into a portafilter
US12028515B2 (en) Non-directional intra prediction for L-shaped partitions
CN113557527A (zh) 通用视频编解码中色彩变换的方法和装置
CN113396590A (zh) 视频编码中相邻块可用性的方法和装置
CN115550644A (zh) 视频编码的方法和装置、计算机设备和存储介质
CN113196745A (zh) 视频编解码的方法和装置
US20230056191A1 (en) Reference line for directional intra prediction
CN111726622A (zh) 视频解码的方法和装置
CN111919440A (zh) 用于视频编码的方法和装置
CN112073720B (zh) 视频解码的方法和装置、计算机设备和存储介质
US20230283796A1 (en) Determining applicability of intra block copy in semi-decoupled partitioning
CN113574895A (zh) 帧间位置相关的预测组合模式的改进
US20220337875A1 (en) Low memory design for multiple reference line selection scheme
CN115516856A (zh) 多参考行帧内预测与变换分区之间的协调设计
CN115428024A (zh) 解耦变换分割技术
US20230345015A1 (en) Chroma from luma prediction using neighbor luma samples
US20220400275A1 (en) Zero Residual Flag Coding
US20220417547A1 (en) Skip transform flag coding
KR20230106688A (ko) 적응적 다중 변환 세트 선택
CA3210537A1 (en) Chroma from luma prediction using neighbor luma samples
KR20240000570A (ko) 인트라 양예측 및 다중 참조 라인 선택을 위한 조화로운 설계

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40073826

Country of ref document: HK