CN114270715A - 用于输出层集模式的方法 - Google Patents

用于输出层集模式的方法 Download PDF

Info

Publication number
CN114270715A
CN114270715A CN202180002864.5A CN202180002864A CN114270715A CN 114270715 A CN114270715 A CN 114270715A CN 202180002864 A CN202180002864 A CN 202180002864A CN 114270715 A CN114270715 A CN 114270715A
Authority
CN
China
Prior art keywords
flag
picture
layer
sub
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202180002864.5A
Other languages
English (en)
Other versions
CN114270715B (zh
Inventor
崔秉斗
刘杉
史蒂芬·文格尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN114270715A publication Critical patent/CN114270715A/zh
Application granted granted Critical
Publication of CN114270715B publication Critical patent/CN114270715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/127Prioritisation of hardware or computational resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

提供了用于对视频数据进行编码的方法、计算机程序和计算机***。接收包括当前图片和一个或更多个其他图片的视频数据。检查第一标志,该第一标志对应于是否按照解码顺序由一个或更多个其他图片参考当前图片。检查第二标志,该第二标志对应于是否输出当前图片。基于与第一标志和第二标志对应的值对视频数据进行解码。

Description

用于输出层集模式的方法
相关申请的交叉引用
本申请要求2020年3月31日提交的美国临时专利申请第63/003,112号以及2020年11月3日提交的美国专利申请第17/087,865号的优先权,上述两件专利申请的全部内容并入本文中。
技术领域
本公开内容总体上涉及数据处理领域,并且更具体地涉及数据编码和解码。
背景技术
已知使用经运动补偿的帧间图片预测的视频编码和解码已达数十年。未压缩的数字视频可以包括一系列图片,每个图片具有例如1920×1080亮度样本和相关联的色度样本的空间维度。这一系列图片可以具有固定的或可变的图片速率(也被非正式地称为帧速率),例如每秒60个图片或60Hz。未压缩的视频对比特率的要求较高。例如,每样本8比特下的1080p60 4:2:0视频(60Hz帧速率下的1920×1080亮度样本分辨率)需要接近1.5Gbit/s的带宽。一小时的这样的视频需要超过600GByte的存储空间。
视频编码和解码的一个目的可以是通过压缩来减少输入视频信号中的冗余。压缩可以帮助降低以上提及的带宽或存储空间要求,在一些情况下降低两个数量级或更多。可以采用无损压缩和有损压缩两者以及其组合。无损压缩是指可以根据经压缩的原始信号重建原始信号的精确副本的技术。当使用有损压缩时,重建的信号可能与原始信号不同,但是原始信号与重建的信号之间的失真足够小,以使重建的信号对于预期的应用有用。在视频的情况下,广泛地采用有损压缩。容忍的失真量取决于应用;例如,某些消费者流传输应用的用户可能比电视发行应用的用户容忍更高的失真。可达到的压缩比可以反映出:更高的可允许/可容忍的失真可以产生更高的压缩比。
视频编码器和解码器可以利用来自若干宽泛类别的技术,包括例如运动补偿、变换、量化和熵编码,下面将介绍其中的一些。
历史上,视频编码器和解码器往往对给定图片大小进行操作,在大多数情况下,该给定图片大小针对编码视频序列(CVS)、图片群组(GOP)或类似的多图片时间帧被限定并且保持恒定。例如,在MPEG-2中,已知***设计会根据诸如场景活动的因素改变水平分辨率(并且从而改变图片大小),但是仅在I图片处改变,因此通常用于GOP。例如,从ITU-TRec.H.263附录P中已知在CVS内对用于不同分辨率的参考图片进行重采样。然而,这里,图片大小没有改变,仅参考图片被重采样,可能导致仅使用图片画布的部分(在下采样的情况下)或者仅捕获场景的部分(在上采样的情况下)。此外,H.263附录Q允许以因子二(在每个维度中)向上或向下对单独宏块进行重采样。同样,图片大小保持不变。宏块的大小在H.263中是固定的,并且因此不需要用信号传送宏块的大小。
预测图片的图片大小的改变在现代视频编码中变得更主流。例如,VP9允许整个图片的参考图片重采样和分辨率的改变。类似地,针对VVC提出的某些提议(包括,例如,Hendry等,“On adaptive resolution change(ARC)for VVC”,联合视频团队文献JVET-M0135-v1,2019年1月9日至1月19日,其全部内容并入本文中)允许将全部参考图片重采样到不同的(更高或更低的)分辨率。在该文献中,建议在序列参数集中对不同的候选分辨率进行编码,并且由图片参数集中的每个图片的语法元素来引用。
发明内容
实施方式涉及一种用于对视频数据进行编码的方法、***和计算机可读介质。根据一个方面,提供了一种用于对视频数据进行编码的方法。该方法可以包括接收包括当前图片和一个或更多个其他图片的视频数据。检查第一标志,该第一标志对应于是否按照解码顺序由一个或更多个其他图片参考当前图片。检查第二标志,该第二标志对应于是否输出当前图片。基于与第一标志和第二标志对应的值对视频数据进行解码。
根据另一方面,提供了一种用于对视频数据进行编码的计算机***。计算机***可以包括一个或更多个处理器、一个或更多个计算机可读存储器、一个或更多个计算机可读有形存储装置、以及存储在一个或更多个存储装置中的至少一个上的程序指令,程序指令用于由一个或更多个处理器中的至少一个经由一个或更多个存储器中的至少一个执行,由此计算机***能够执行方法。方法可以包括接收包括当前图片和一个或更多个其他图片的视频数据。检查第一标志,该第一标志对应于是否按照解码顺序由一个或更多个其他图片参考当前图片。检查第二标志,该第二标志对应于是否输出当前图片。基于与第一标志和第二标志对应的值对视频数据进行解码。
根据又一方面,提供一种用于对视频数据进行编码的计算机可读介质。计算机可读介质可以包括一个或更多个计算机可读存储装置、以及存储在一个或更多个有形存储装置中的至少一个上的程序指令,程序指令能够由处理器执行。程序指令能够由处理器执行以用于执行可以相应地包括接收包括当前图片和一个或更多个其他图片的视频数据的方法。检查第一标志,该第一标志对应于是否按照解码顺序由一个或更多个其他图片参考当前图片。检查第二标志,该第二标志对应于是否输出当前图片。基于与第一标志和第二标志对应的值对视频数据进行解码。
附图说明
根据要结合附图阅读的说明性实施方式的以下详细描述,这些和其他对象、特征和优点将变得明显。附图的各种特征未按比例绘制,因为图示是为了清楚起见,以有助于本领域技术人员结合详细描述的理解。
在附图中:
图1是根据实施方式的通信***的简化框图的示意图。
图2是根据实施方式的通信***的简化框图的示意图。
图3是根据实施方式的解码器的简化框图的示意图。
图4是根据实施方式的编码器的简化框图的示意图。
图5是如所指示的根据现有技术或实施方式的用于对ARC参数进行信号传送的选项的示意图。
图6是根据实施方式的语法表的示例。
图7是根据实施方式的计算机***的示意图。
图8是用于具有自适应分辨率改变的可缩放性的预测结构的示例。
图9是根据实施方式的语法表的示例。
图10是解析和解码每个访问单元的poc周期和访问单元计数值的简化框图的示意图。
图11是包括多层子图片的视频比特流结构的示意图。
图12是具有增强分辨率的选择的子图片的显示的示意图。
图13是对包括多层子图片的视频比特流进行解码和显示处理的框图。
图14是具有子图片的增强层的360视频显示的示意图。
图15是子图片的布局信息及其对应的层和图片预测结构的示例。
图16是具有局部区域的空间可缩放性模态的子图片的布局信息及其对应的层和图片预测结构的示例。
图17是子图片布局信息的语法表的示例。
图18是子图片布局信息的SEI消息的语法表的示例。
图19是指示输出层和每个输出层集的配置文件/层/级别信息的语法表的示例。
图20是指示每个输出层集的输出层模式的语法表的示例。
图21是指示每个输出层集的每个层的当前子图片的语法表的示例。
图22是视频参数集RBSP的语法表的示例。
图23是指示具有输出层集模式的输出层集的语法表的示例。
图24是指示图片输出信息的图片报头的语法表的示例。
具体实施方式
本文中公开了所要求保护的结构和方法的详细实施方式;然而,可以理解,所公开的实施方式仅是对可以以各种形式实施的所要求保护的结构和方法的说明。然而,这些结构和方法可以以许多不同的形式来实施,并且不应当被解释为限于本文中阐述的示例性实施方式。而是,提供这些示例性实施方式使得本公开内容将是透彻和完整的并且将向本领域技术人员完整地传达范围。在说明书中,可以省略公知特征和技术的细节,以避免不必要地模糊所呈现的实施方式。
如前所述,视频编码器和解码器往往对给定图片大小进行操作,在大多数情况下,该给定图片大小针对编码视频序列(CVS)、图片群组(GOP)或类似的多图片时间帧被限定并且保持恒定。然而,可以或可以不由后续图片参考图片以用于运动补偿或其他参数预测。可以或可以不输出图片。因此,在一个或更多个参数集中对参考信息和图片输出信息进行信号传送可能是有利的。
本文中参照根据各种实施方式的方法、装置(***)和计算机可读介质的流程图和/或框图来描述各方面。将理解,可以通过计算机可读程序指令来实现流程图和/或框图中的每个块以及流程图和/或框图中的块的组合。
图1示出了根据本公开内容的实施方式的通信***(100)的简化框图。***(100)可以包括经由网络(150)互连的至少两个终端(110至120)。对于数据的单向传输,第一终端(110)可以在本地位置处对视频数据进行编码,以经由网络(150)传输至另一终端(120)。第二终端(120)可以从网络(150)接收另一终端的编码视频数据,对编码数据进行解码并且显示恢复的视频数据。单向数据传输在媒体服务应用等中可以是常见的。
图1示出了第二对终端(130、140),其被提供用于支持例如在视频会议期间可能发生的编码视频的双向传输。对于数据的双向传输,每个终端(130、140)可以对在本地位置处捕获的视频数据进行编码,以经由网络(150)传输至另一终端。每个终端(130、140)还可以接收由另一终端传输的编码视频数据,可以对编码数据进行解码并且可以在本地显示装置处显示恢复的视频数据。
在图1中,终端(110至140)可以被示为服务器、个人计算机和智能电话,但是本公开内容的原理可以不限于此。本公开内容的实施方式适用于膝上型计算机、平板计算机、媒体播放器和/或专用视频会议设备的应用。网络(150)表示在终端(110至140)之间传送编码视频数据的任何数目的网络,包括例如有线和/或无线通信网络。通信网络(150)可以在电路交换信道和/或分组交换信道中交换数据。代表性网络包括电信网络、局域网、广域网和/或因特网。出于本论述的目的,除非在下文中有所说明,否则网络(150)的架构和拓扑对于本公开内容的操作来说可以是无关紧要的。
作为所公开主题的应用的示例,图2示出了视频编码器和解码器在流传输环境中的放置。所公开主题可以同等地适用于其他支持视频的应用,包括例如视频会议、数字电视、在包括CD、DVD、存储棒等的数字介质上存储压缩视频等。
流传输***可以包括捕获子***(213),该捕获子***(213)可以包括创建例如未压缩的视频样本流(202)的视频源(201),例如数字相机。该样本流(202)——被描绘为在与经编码的视频比特流进行比较时强调高数据量的粗线——可以由耦接至相机(201)的编码器(203)处理。编码器(203)可以包括硬件、软件或其组合,以使得实现或实现如下面更详细地描述的所公开主题的各方面。经编码的视频比特流(204)——被描绘为在与样本流进行比较时强调较低数据量的细线——可以被存储在流传输服务器(205)上以供将来使用。一个或更多个流传输客户端(206、208)可以访问流传输服务器(205)以检索经编码的视频比特流(204)的副本(207、209)。客户端(206)可以包括视频解码器(210),该视频解码器(210)对经编码的视频比特流的传入副本(207)进行解码并且创建可以在显示器(212)或其他呈现装置(未描绘)上呈现的传出视频样本流(211)。在一些流传输***中,可以根据某些视频编码/压缩标准对视频比特流(204、207、209)进行编码。这些标准的示例包括ITU-T H.265建议书。正在开发的视频编码标准被非正式地称为通用视频编码或VVC。所公开的主题可以在VVC的上下文中使用。
图3可以是根据本发明的实施方式的视频解码器(210)的功能框图。
接收器(310)可以接收要由解码器(210)解码的一个或更多个编解码器视频序列;在同一实施方式或另一实施方式中,一次接收一个编码视频序列,其中每个编码视频序列的解码独立于其他编码视频序列。可以从信道(312)接收编码视频序列,该信道(312)可以是到存储经编码的视频数据的存储装置的硬件/软件链路。接收器(310)可以接收经编码的视频数据以及其他数据,例如可以被转发至它们各自的使用实体(未描绘)的编码音频数据和/或辅助数据流。接收器(310)可以将编码视频序列与其他数据分开。为了应对网络抖动,可以在接收器(310)与熵解码器/解析器(320)(此后被称为“解析器”)之间耦接缓冲存储器(315)。当接收器(310)从具有足够带宽和可控性的存储/转发装置或从等时同步网络接收数据时,可能不需要缓冲器(315),或者缓冲器(315)可以是小的。为了使用诸如因特网的尽力而为分组网络,可能需要缓冲器(315),该缓冲器(315)可以相对较大并且可以有利地具有自适应大小。
视频解码器(210)可以包括解析器(320),该解析器(320)根据经熵编码的视频序列来重建符号(321)。这些符号的类别包括用来管理解码器(210)的操作的信息,以及用于控制诸如显示器(212)的呈现装置的潜在信息,该呈现装置不是解码器的组成部分但是可以耦接至解码器,如图2所示。用于呈现装置的控制信息可以是补充增强信息(SEI消息)或视频可用性信息(VUI)参数集片段(未描绘)的形式。解析器(320)可以对接收到的编码视频序列进行解析/熵解码。编码视频序列的编码可以根据视频编码技术或标准进行,并且可以遵循本领域技术人员公知的原理,包括可变长度编码、霍夫曼编码(Huffman coding)、具有或不具有上下文灵敏度的算术编码等。解析器(320)可以基于与群组对应的至少一个参数,从编码视频序列中提取用于视频解码器中的像素的子群组中的至少一个子群组的子群组参数集。子组群可以包括图片群组(GOP)、图片、图块、切片、宏块、编码单元(CU)、块、变换单元(TU)、预测单元(PU)等。熵解码器/解析器还可以从编码视频序列中提取信息,例如变换系数、量化器参数值、运动矢量等。
解析器(320)可以对从缓冲器(315)接收的视频序列执行熵解码/解析操作,从而创建符号(321)。
取决于编码视频图片或其部分的类型(例如:帧间和帧内图片、帧间和帧内块)以及其他因素,符号(321)的重建可以而涉及多个不同的单元。涉及哪些单元以及涉及方式可以通过由解析器(320)从编码视频序列解析的子群组控制信息来控制。为了清楚起见,未描绘这样的子群组控制信息在解析器(320)与下面的多个单元之间的流动。
除了已经提及的功能块之外,解码器210可以在概念上细分为如下所述的多个功能单元。在商业约束下操作的实际实现方式中,这些单元中的许多单元彼此紧密交互并且可以至少部分地彼此集成。然而,出于描述所公开的主题的目的,在概念上细分为下面的功能单元是适当的。
第一单元是缩放器/逆变换单元(351)。缩放器/逆变换单元(351)从解析器(320)接收作为符号(321)的量化变换系数以及控制信息,包括要使用的变换方式、块大小、量化因子、量化缩放矩阵等。缩放器/逆变换单元(351)可以输出包括样本值的块,样本值可以被输入到聚合器(355)中。
在一些情况下,缩放器/逆变换(351)的输出样本可以属于帧内编码块;即:不使用来自先前重建的图片的预测性信息但是可以使用来自当前图片的先前重建的部分的预测性信息的块。这样的预测性信息可以由帧内图片预测单元(352)提供。在一些情况下,帧内图片预测单元(352)使用从当前(部分重建的)图片(356)提取的周围已经重建的信息来生成与正在重建的块的大小和形状相同的块。在一些情况下,聚合器(355)基于每个样本将帧内预测单元(352)已经生成的预测信息添加至如由缩放器/逆变换单元(351)提供的输出样本信息。
在其他情况下,缩放器/逆变换单元(351)的输出样本可以属于帧间编码且潜在地运动补偿的块。在这样的情况下,运动补偿预测单元(353)可以访问参考图片存储器(357)以提取用于预测的样本。在根据属于块的符号(321)对提取的样本进行运动补偿之后,这些样本可以由聚合器(355)添加至缩放器/逆变换单元的输出(在这种情况下被称为残差样本或残差信号),以生成输出样本信息。可以通过运动矢量来控制运动补偿单元获取预测样本的参考图片存储器形式内的地址,运动矢量以符号(321)的形式可用于运动补偿单元,符号(321)可以具有例如X、Y和参考图片分量。运动补偿还可以包括在使用子样本精确运动矢量时从参考图片存储器提取的样本值的插值、运动矢量预测机制等。
聚合器(355)的输出样本可以经受环路滤波器单元(356)中的各种环路滤波技术。视频压缩技术可以包括环路内滤波器技术,环路内滤波器技术由编码视频比特流中包括的且使得作为来自解析器(320)的符号(321)可用于环路滤波器单元(356)的参数来控制,但是视频压缩技术也可以响应于在对编码图片或编码视频序列的先前(按照解码顺序)部分进行解码期间获得的元信息,以及响应于经先前重建和环路滤波的样本值。
环路滤波器单元(356)的输出可以是样本流,样本流可以被输出至呈现装置(212)以及被存储在参考图片存储器(356)中以用于将来的帧间图片预测。
某些编码图片一旦完全重建就可以用作参考图片以用于将来预测。一旦编码图片被完全重建,并且该编码图片(通过例如解析器(320))被识别为参考图片,则当前参考图片(356)可以变为参考图片缓冲器(357)的一部分,并且可以在开始重建随后的编码图片之前重新分配新的当前图片存储器。
视频解码器(320)可以根据可以记录在诸如ITU-T H.265建议书的标准中的预定视频压缩技术执行解码操作。在编码视频序列遵循视频压缩技术或标准的语法的意义上,编码视频序列可以符合由所使用的视频压缩技术或标准指定的语法,如在视频压缩技术文档或标准中且明确地在其中的配置文件文档中指定的语法。对于合规性,还可以要求编码视频序列的复杂度在由视频压缩技术或标准的层级限定的范围内。在一些情况下,层级限制最大图片大小、最大帧速率、最大重建样本速率(以例如每秒兆个样本为单位进行度量)、最大参考图片大小等。在一些情况下,由层级设置的限制可以通过假设参考解码器(HRD)规范以及在编码视频序列中用信号传送的HRD缓冲器管理的元数据来进一步限制。
在实施方式中,接收器(310)可以连同经编码的视频一起接收附加(冗余)数据。附加数据可以被包括为编码视频序列的一部分。附加数据可以由视频解码器(320)使用以对数据进行适当解码和/或更准确地重建原始视频数据。附加数据可以是例如时间、空间或SNR增强层、冗余切片、冗余图片、前向纠错码等形式。
图4可以是根据本公开内容的实施方式的视频编码器(203)的功能框图。
编码器(203)可以从视频源(201)(不是编码器的一部分)接收视频样本,该视频源(201)可以捕获要由编码器(203)编码的视频图像。
视频源(201)可以提供要由编码器(203)编码的呈数字视频样本流形式的源视频序列,该数字视频样本流可以具有任何合适的位深度(例如:8位、10位、12位、…)、任何色彩空间(例如,BT.601 Y CrCB、RGB、…)和任何合适的采样结构(例如,Y CrCb 4:2:0、Y CrCb4:4:4)。在媒体服务***中,视频源(201)可以是存储先前准备的视频的存储装置。在视频会议***中,视频源(203)可以是捕获本地图像信息作为视频序列的相机。可以将视频数据提供为当按顺序观看时被赋予运动的多个单独的图片。图片自身可以被组织为空间像素阵列,其中,取决于所使用的采样结构、色彩空间等,每个像素可以包括一个或更多个样本。本领域技术人员可以容易地理解像素与样本之间的关系。下面的描述侧重于样本。
根据实施方式,编码器(203)可以实时地或在应用所要求的任何其他时间约束下对源视频序列的图片进行编码并将其压缩为编码视频序列(443)。执行适当的编码速度是控制器(450)的一个功能。控制器控制如下所述的其他功能单元,并且在功能上耦接至这些单元。为了清楚起见,未描绘耦接。由控制器设置的参数可以包括:速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值、…)、图片大小、图片群组(GOP)布局、最大运动矢量搜索范围等。本领域技术人员可以容易地识别控制器(450)的其他功能,因为这些功能可能属于针对特定***设计而优化的视频编码器(203)。
一些视频编码器以本领域技术人员容易识别为“编码环路”的方式操作。作为过于简化的描述,编码环路可以包括编码器(430)(此后被称为“源编码器”)的编码部分(负责基于要编码的输入图片和参考图片创建符号)以及嵌入编码器(203)中的(本地)解码器(433),解码器(433)重建符号以创建(远程)解码器也将创建的样本数据(因为在所公开的主题中考虑的视频压缩技术中,符号与编码视频比特流之间的任何压缩是无损的)。该重建的样本流被输入至参考图片存储器(434)。由于符号流的解码产生与解码器位置(本地或远程)无关的位精确结果,因此参考图片缓冲器内容在本地编码器与远程编码器之间也是位精确的。换言之,编码器的预测部分“看到”的参考图片样本与解码器在解码期间使用预测时将“看到”的样本值完全相同。该参考图片同步性的基本原理(以及在例如由于信道误差而无法保持同步性的情况下产生漂移)是本领域技术人员公知的。
“本地”解码器(433)的操作可以与已在上面结合图3详细描述“远程”解码器(210)的操作相同。然而,另外简要地参照图3,当符号可用并且由熵编码器(445)和解析器(320)进行的符号与编码视频序列之间的编码/解码可以是无损的时,包括信道(312)、接收器(310)、缓冲器(315)和解析器(320)的解码器(210)的熵解码部分可能不能完全在本地解码器(433)中实现。
此时可以观察到,除了存在于解码器中的解析/熵解码之外的任何解码器技术也必然需要以基本上相同的功能形式存在于对应的编码器中。出于此原因,所公开的主题侧重于解码器操作。由于编码器技术与已全面描述的解码器技术互逆,因此可以简化对编码器技术的描述。下面仅在某些部分中需要和提供更详细的描述。
作为源编码器(430)的操作的一部分,源编码器(430)可以执行运动补偿的预测性编码,其参考来自视频序列的被指定为“参考帧”的一个或更多个先前编码的帧来对输入帧进行预测性地编码。以这种方式,编码引擎(432)对输入帧的像素块与参考帧的像素块之间的差异进行编码,参考帧可以被选择为对输入帧的预测参考。
本地视频解码器(433)可以基于由源编码器(430)创建的符号来对可以被指定为参考帧的帧的编码视频数据进行解码。编码引擎(432)的操作可以有利地为有损处理。当编码视频数据可以在视频解码器(图4中未示出)处被解码时,重建的视频序列通常可以是具有一些误差的源视频序列的副本。本地视频解码器(433)复制可以由视频解码器对参考帧执行的解码处理,并且可以使重建的参考帧存储在参考图片缓存(434)中。以这种方式,编码器(203)可以在本地存储重建的参考帧的具有共同内容的副本作为将由远端视频解码器获得的重建的参考帧(不存在传输错误)。
预测器(435)可以对编码引擎(432)执行预测搜索。即,对于要编码的新帧,预测器(435)可以在参考图片存储器(434)中搜索样本数据(作为候选参考像素块)或某些元数据,例如参考图片运动矢量、块形状等,这些数据可以用作新图片的适当预测参考。预测器(435)可以基于样本块逐像素块进行操作,以找到适当的预测参考。在一些情况下,如由预测器(435)获得的搜索结果所确定的,输入图片可以具有从存储在参考图片存储器(434)中的多个参考图片中得出的预测参考。
控制器(450)可以管理视频编码器(430)的编码操作,包括例如用于对视频数据进行编码的参数和子群组参数的设置。
所有前述功能单元的输出可以在熵编码器(445)中经受熵编码。熵编码器通过根据本领域技术人员已知的技术例如霍夫曼编码、可变长度编码、算术编码等对由各种功能单元生成的符号进行无损压缩来将这些符号转换成编码视频序列。
传输器(440)可以缓冲由熵编码器(445)创建的编码视频序列,以为经由通信信道(460)进行传输做准备,该通信信道(460)可以是到将存储经编码的视频数据的存储装置的硬件/软件链路。传输器(440)可以将来自视频编码器(430)的编码视频数据与要传输的其他数据例如编码音频数据和/或辅助数据流(未示出的源)合并。
控制器(450)可以管理编码器(203)的操作。在编码期间,控制器(450)可以向每个编码图片分配某种编码图片类型,这可能影响可以应用于相应图片的编码技术。例如,通常可以将图片分配为以下帧类型中之一:
帧内图片(I图片),其可以是不将序列中的任何其他帧用作预测源的情况下可以被编码和解码的图片。一些视频编解码器允许不同类型的帧内图片,包括例如独立解码器刷新图片。本领域的技术人员了解I图片的这些变型及其相应的应用和特征。
预测性图片(P图片),其可以是可以使用帧内预测或帧间预测进行编码和解码的图片,该帧内预测或帧间预测使用至多一个运动矢量和参考索引来预测每个块的样本值。
双向预测性图片(B图片),其可以是可以使用帧内预测或帧间预测进行编码和解码的图片,该帧内预测或帧间预测使用至多两个运动矢量和参考索引来预测每个块的样本值。类似地,多预测性图片可以使用多于两个参考图片和相关联的元数据以进行单个块的重建。
通常,源图片可以在空间上细分为多个样本块(例如,每个4×4、8×8、4×8或16×16样本的块)并逐块被编码。这些块可以参考如由应用于块的相应图片的编码分配确定的其他(已经编码的)块进行预测性编码。例如,可以对I图片的块进行非预测性编码,或者可以参考同一图片的已编码块对其进行预测性编码(空间预测或帧内预测)。P图片的像素块可以参考一个先前编码的参考图片经由空间预测或经由时间预测进行非预测性编码。B图片的块可以参考一个或两个先前编码的参考图片经由空间预测或经由时间预测进行非预测性编码。
视频编码器(203)可以根据预定视频编码技术或标准例如ITU-TH.265建议书执行编码操作。在其操作中,视频编码器(203)可以执行各种压缩操作,包括利用输入视频序列中的时间和空间冗余的预测性编码操作。因此,编码视频数据可以符合由所使用的视频编码技术或标准指定的语法。
在实施方式中,传输器(440)可以连同经编码的视频一起传输附加数据。视频编码器(430)可以包括这样的数据作为编码视频序列的一部分。附加数据可以包括时间/空间/SNR增强层、诸如冗余图片和切片的其他形式的冗余数据、补充增强信息(SEI)消息、视觉可用性信息(VUI)参数集片段等。
在更详细地描述所公开的主题的某些方面之前,需要介绍将在本说明书的剩余部分中引用的一些术语。
此后的子图片在一些情况下是指样本、块、宏块、编码单元或类似实体的矩形布置,这些实体在语义上分组并且可以以改变的分辨率被独立编码。一个或更多个子图片可以形成图片。一个或更多个编码子图片可以形成编码图片。一个或更多个子图片可以组合成图片,并且可以从图片中提取一个或更多个子图片。在某些环境中,可以在压缩域中组合一个或更多个编码子图片,而不将样本级别转码成编码图片,并且在相同情况或某些其他情况下,可以在压缩域中从编码图片中提取一个或更多个编码子图片。
自适应分辨率改变(ARC)此后是指允许通过例如参考图片重采样来改变编码视频序列内的图片或子图片的分辨率的机制。ARC参数此后是指执行自适应分辨率改变所需的控制信息,该控制信息可以包括例如滤波器参数、缩放因子、输出和/或参考图片的分辨率、各种控制标志等。
以上描述侧重于对单个的、在语义上独立的编码视频图片进行编码和解码。在描述具有独立ARC参数的多个子图片的编码/解码的含义及其隐含的附加复杂度之前,可以描述用于对ARC参数进行信号传送的选项。
参照图5,示出了用于对ARC参数进行信号传送的若干新选项。如选项中的每一个所示,从编码效率、复杂度和架构的角度来看,这些选项都有某些优点和某些缺点。视频编码标准或技术可以选择这些选项中的一个或更多个,或者现有技术中已知的用于对ARC参数进行信号传送的选项。这些选项可能并不相互排斥,并且可以想象,可以基于应用需求、所涉及的标准技术或编码器的选择进行互换。
ARC参数的类别可以包括:
–在X和Y维度上分开或组合的上采样/下采样因子
-增加了时间维度的上采样/下采样因子,其指示对给定数目图片的恒定速度放大/缩小
-以上两者中的任一个可能涉及对一个或更多个可能指向包含因子的表的大概较短的语法元素的编码。
–输入图片、输出图片、参考图片、编码图片的在X或Y维度上以样本、块、宏块、CU或任何其他合适的粒度为单位的组合或分开的分辨率。如果存在多于一个分辨率(例如,一个用于输入图片,一个用于参考图片),则在某些情况下,可以从一组值推断另一组值。例如,这可以通过使用标志来进行选通。关于更详细的示例,参见下文。
-与H.263附录P中使用的坐标类似的、同样以上述合适的粒度的“翘曲(warping)”坐标。H.263附录P定义了对这样的翘曲坐标进行编码的高效方式,但是也可以设计可以想到的其他潜在更高效的方式。例如,附录P的翘曲坐标的可变长度可逆“霍夫曼”型编码可以由合适长度的二元编码代替,其中二元码字的长度可以例如从最大图片大小得出,可能乘以特定因子并偏移特定值,以允许在最大图片大小的边界外“翘曲”。
-上采样或下采样滤波器参数。在最简单的情况下,可能存在用于上采样和/或下采样的仅单个滤波器。然而,在某些情况下,在滤波器设计中允许更大的灵活性可能是有利的,并且这可能需要对滤波器参数的信号传送。可以通过可能的滤波器设计的列表中的索引来选择这样的参数,可以完全指定滤波器(例如,通过滤波器系数的列表,使用合适的熵编码技术),可以通过上采样/下采样比来隐式地选择滤波器,根据上采样/下采样比,进而根据以上提及的机制中的任何一种对上述参数进行信号传送等。
此后,说明书假设对通过码字指示的有限的一组上采样/下采样因子(在X和Y维度两者中使用的相同因子)的编码。可以例如使用对于诸如H.264和H.265的视频编码规范中的某些语法元素通用的Ext-Golomb码对该码字有利地进行可变长度编码。例如,可以根据下表进行值到上采样/下采样因子的一种合适的映射:
Figure BDA0003297741160000141
根据应用的需要以及视频压缩技术或标准中可用的增加和缩减机制的能力,可以设计许多类似的映射。表可以扩展到更多值。值也可以由除了Ext-Golomb码之外的熵编码机制例如使用二元编码表示。当重采样因子在视频处理引擎(首先是编码器和解码器)本身之外(例如由MANE)受到关注时,这可以具有某些优点。应当注意,对于不需要改变分辨率的(大概)最常见的情况,可以选择较短的Ext-Golomb码;在上面的表中,只有单个位。对于最常见的情况,这可以具有优于使用二元码的编码效率优点。
表中的条目的数目以及其语义可以是完全或部分可配置的。例如,可以在诸如序列或解码器参数集的“高”参数集中传达表的基本概要。替选地或另外地,可以在视频编码技术或标准中定义并且可以通过例如解码器或序列参数集来选择一个或更多个这样的表。
此后,描述了如何在视频编码技术或标准语法中可以包括如上所述编码的上采样/下采样因子(ARC信息)。类似的考虑可能适用于一个或几个控制上采样/下采样滤波器的码字。当滤波器或其他数据结构需要相对大量的数据时参见下面的论述。
H.263附录P以四个翘曲坐标的形式将ARC信息502包括到图片报头501中,特别是在H.263PLUSPTYPE(503)报头扩展中。当a)存在可用的图片报头,以及b)预期ARC信息的频繁改变时,这可能是合理的设计选择。然而,当使用H.263型信令时的开销可能非常高,并且缩放因子可能与图片边界无关,因为图片报头可能具有瞬态性。
上面引用的JVCET-M135-v1包括位于图片参数集(504)中的ARC参考信息(505)(索引),ARC参考信息(505)索引包括目标分辨率的表(506),该包括目标分辨率的表(506)又位于序列参数集(507)内。根据作者作出的口头陈述,可能分辨率在序列参数集(507)中的表(506)中的放置可以通过在能力交换期间使用SPS作为互操作性协商点来证明。通过参考适当的图片参数集(504),分辨率可以在由表(506)中的值设置的限制内随图片而改变。
仍然参照图5,可能存在用于在视频比特流中传送ARC信息的以下附加选项。这些选项中的每一个均具有优于如上所述的现有技术的某些优点。选项可以同时存在于相同的视频编码技术或标准中。
在实施方式中,诸如重采样(缩放)因子的ARC信息(509)可以存在于切片报头、GOB报头、图块报头或图块组报头(此后被称为图块组报头)(508)中。例如如上所示,这对于较小的ARC信息——例如单个可变长度ue(v)或几位的固定长度码字——就足够了。在图块组报头中直接具有ARC信息具有ARC信息可以适用于例如由该图块组而不是整个图片表示的子图片的附加优点。另外参见下文。另外,即使视频压缩技术或标准仅设想整个图片自适应分辨率改变(例如,与基于图块组的自适应分辨率改变相反),从容错角度来看,将ARC信息放入图块组报头相对于将其放入H.263型图片报头也具有某些优点。
在同一实施方式或另一实施方式中,ARC信息(512)本身可以存在于适当的参数集(511)例如图片参数集、报头参数集、图块参数集、自适应参数集等(描绘的自适应参数集)中。该参数集的范围可以有利地不大于图片,例如图块组。ARC信息的使用通过相关参数集的激活是隐式的。例如,当视频编码技术或标准考虑仅基于图片的ARC时,图片参数集或等同物可以是适当的。
在同一实施方式或另一实施方式中,ARC参考信息(513)可以存在于图块组报头(514)或类似的数据结构中。该参考信息(513)可以指在范围超出单个图片的参数集(516)中可用的ARC信息(515)的子集,例如序列参数集或解码器参数集。
如JVET-M0135-v1中所使用的从图块组报头、PPS、SPS对PPS的附加间接级别隐式激活似乎是不必要的,因为图片参数集——就像序列参数集一样——可以(并且在诸如RFC3984的某些标准中具有)用于能力协商或通告。然而,如果ARC信息应当适用于例如也由图块组表示的子图片,则具有限于图块组的激活范围的参数集——例如自适应参数集或报头参数集——可以是更好的选择。此外,如果ARC信息具有大于可忽略的大小,例如包含诸如许多滤波器系数的滤波器控制信息,则从编码效率的角度来看,参数可以是比直接使用报头(508)更好的选择,因为这些设置可以通过参考同一参数集而被将来的图片或子图片重复使用。
当使用序列参数集或范围跨越多图片的另一更高参数集时,某些考虑可能适用:
1.存储ARC信息表(516)的参数集在一些情况下可以是序列参数集,但是在其他情况下有利地是解码器参数集。解码器参数集可以具有多个CVS(即编码视频流,即,从会话开始直到会话拆毁的所有编码视频比特)的激活范围。这样的范围可以是更适当的,因为可能的ARC因子可以是可能在硬件中实现的解码器特征,并且硬件特征往往不随任何CVS(其在至少一些娱乐***中是长度为一秒或更短的图片组)而改变。也就是说,将表放入序列参数集中明确被包括在本文所描述的放置选项中,特别是结合下面的点2。
2.ARC参考信息(513)可以有利地直接放置到图片/切片图块/GOB/图块组报头(此后为图块组报头)(514)中,而不是如在JVCET-M0135-v1中那样放置到图片参数集中,原因如下:当编码器想要改变图片参数集中的单个值例如ARC参考信息时,编码器必须创建新的PPS并且参考该新的PPS。假设仅ARC参考信息改变,而其他信息例如PPS中的量化矩阵信息保持不变。这样的信息可以具有相当大的大小,并且将需要被重传以使新的PPS完整。由于ARC参考信息可以是单个码字,例如表(513)中的索引,并且其是唯一改变的值,因此重传所有例如量化矩阵信息将是麻烦和浪费的。就此而言,从编码效率的角度来看,避免通过PPS进行间接寻址可以明显更好,如JVET-M0135-v1中所提议的。类似地,将ARC参考信息放入PPS中具有另外的缺点:由于图片参数集激活的范围是图片,因此由ARC参考信息(513)参考的ARC信息必然需要应用于整个图片而不是子图片。
在同一实施方式或另一实施方式中,对ARC参数的信号传送可以遵循如图6中概述的详细示例。图6描绘了至少自1993年以来在视频编码标准中使用的表示中的语法图。这样的语法图的符号大致遵循C型编程。加粗的行指示存在于比特流中的语法元素,没有加粗的行通常指示控制流或变量的设置。
作为适用于图片的(可能为矩形)部分的报头的示例性语法结构的图块组报头(601)可以有条件地包含可变长度的指数哥伦布(Exp-Golomb)编码语法元素dec_pic_size_idx(602)(以粗体描绘)。可以在使用自适应分辨率(603)时选通该语法元素在图块组报头中的存在,这里,标志的值未以粗体描绘,这意味着该标记在比特流中存在于其在语法图中出现的点处。可以在比特流内部或外部的任何高级语法结构中对自适应分辨率是否用于该图片或其部分进行信号传送。在示出的示例中,如下所述,在序列参数集中进行信号传送。
仍然参照图6,还示出了序列参数集(610)的摘录。示出的第一语法元素是adaptive_pic_resolution_change_flag(611)。当为真时,该标志可以指示使用自适应分辨率,这进而可能需要某些控制信息。在示例中,基于标志的值有条件地呈现这样的控制信息,该标志的值基于参数集(612)和图块组报头(601)中的if()语句。
当使用自适应分辨率时,在该示例中,被编码的是以样本为单位的输出分辨率(613)。数字613是指output_pic_width_in_luma_samples和output_pic_height_in_luma_samples两者,其一起可以定义输出图片的分辨率。在视频编码技术或标准中的其他地方,可以定义对任一值的某些限制。例如,层级定义可以限制总输出样本的数目,其可以是这两个语法元素的值的乘积。此外,某些视频编码技术或标准、或者诸如***标准的外部技术或标准可能限制编号范围(例如,一个或两个维度必须能够被2的幂整除)或者长宽比(例如,宽度和高度必须处于诸如4:3或16:9的关系)。可以引入这样的限制以有助于硬件实现方式或为了其他原因,并且这样的限制在本领域中是公知的。
在某些应用中,编码器指示解码器使用特定参考图片大小而不是隐含地假设该大小为输出图片大小是可取的。在该示例中,语法元素reference_pic_size_present_flag(614)选通参考图片维度(615)的条件存在(同样,数字是指宽度和高度两者)。
最后,示出了可能的解码图片宽度和高度的表。例如,可以由表指示(num_dec_pic_size_in_luma_samples_minus1)(616)来表示这样的表。
“minus1”可以是指该语法元素的值的解释。例如,如果编码值为零,则存在一个表条目。如果值为五,则存在六个表条目。对于表中的每“行”,解码图片宽度和高度然后被包括在语法(617)中。
可以使用图块组报头中的语法元素dec_pic_size_idx(602)来索引呈现的表条目(617),从而允许每图块组不同的解码大小——实际上为缩放因子。
某些视频编码技术或标准(例如VP9)通过结合时间可缩放性实现某些形式的参考图片重采样(与所公开的主题完全不同地用信号传送)来支持空间可缩放性,以实现空间可缩放性。具体地,可以使用ARC型技术将某些参考图片上采样到更高的分辨率,以形成空间增强层的基础。可以使用高分辨率的正常预测机制来细化这些上采样的图片以添加细节。
所公开主题可以在这样的环境中使用。在某些情况下,在同一实施方式或另一实施方式中,NAL单元报头中的值——例如时间ID字段——可以用于不仅指示时间层而且还指示空间层。这样做对于某些***设计具有某些优点;例如,对于可扩展环境,可以不加修改地使用基于NAL单元报头时间ID值为时间层选择转发创建和优化的现有选择转发单元(SFU)。为了实现这一点,可能需要在编码图片大小与时间层之间的映射由NAL单元报头中的时间ID字段指示。
在一些视频编码技术中,访问单元(AU)可以是指在给定时间实例处被捕获并组成到相应的图片/切片/图块/NAL单元比特流中的编码图片、切片、图块、NAL单元等。该时间实例可以是组成时间。
在HEVC和某些其他视频编码技术中,图片顺序计数(POC)值可以用于指示存储在解码图片缓冲器(DPB)中的多个参考图片中的选择的参考图片。当访问单元(AU)包括一个或更多个图片、切片或图块时,属于同一AU的每个图片、切片或图块可以携载相同的POC值,可以从POC值得出其是从相同组成时间的内容创建的。换言之,在两个图片/切片/图块携载相同的给定POC值的情形中,其可以指示属于同一AU并且具有相同组成时间的两个图片/切片/图块。相反,具有不同POC值的两个图片/图块/切片可以指示属于不同AU并且具有不同组成时间的这些图片/切片/图块。
在所公开的主题的实施方式中,以上提及的严格关系可以放宽,这是因为访问单元可以包括具有不同POC值的图片、切片或图块。通过允许AU内的不同POC值,可以使用POC值来识别具有相同呈现时间的潜在独立地可解码的图片/切片/图块。这进而可以使得能够在不改变参考图片选择信令(例如,参考图片集信令或参考图片列表信令)的情况下支持多个可扩展层,如下面更详细描述的。
然而,仍需要能够相对于具有不同POC值的其他图片/切片/图块仅从POC值识别图片/切片/图块所属的AU。这可以如下所述地实现。
在同一实施方式或其他实施方式中,可以在高级语法结构中——例如NAL单元报头、切片报头、图块组报头、SEI消息、参数集或AU定界符——对访问单元计数(AUC)进行信号传送。AUC的值可以用于识别哪些NAL单元、图片、切片或图块属于给定AU。AUC的值可以对应于不同的组成时间实例。AUC值可以等于POC值的倍数。通过将POC值除以整数值,可以计算出AUC值。在某些情况下,除法运算可以给解码器实现方式造成一定的负担。在这样的情况下,AUC值的编号空间中的小限制可以允许用移位运算替代除法运算。例如,AUC值可以等于POC值范围的最高有效位(MSB)值。
在同一实施方式中,可以在高级语法结构中——例如NAL单元报头、切片报头、图块组报头、SEI消息、参数集或AU定界符——对每AU的POC周期(poc_cycle_au)的值进行信号传送。poc_cycle_au可以指示有多少不同且连续的POC值可以与同一AU相关联。例如,如果poc_cycle_au的值等于4,则POC值等于0至3(含)的图片、切片或图块与AUC值等于0的AU相关联,并且POC值等于4至7(含)的图片、切片或图块与AUC值等于1的AU相关联。因此,可以通过将POC值除以poc_cycle_au的值来推断AUC的值。
在同一实施方式或另一实施方式中,可以从例如位于视频参数集(VPS)中的识别编码视频序列中的空间层或SNR层的数目的信息得出poc_cycle_au的值。下面简要描述这样的可能的关系。虽然如上所述的得出可以省去VPS中的几个比特,并且因此可以提高编码效率,但是在层级上低于视频参数集的适当高级语法结构中显式地编码poc_cycle_au可以是有利的,以能够对于比特流的给定小部分例如图片使poc_cycle_au最小化。与通过上面的得出过程可以省去的比特相比,该优化可以省去更多的比特,这是因为可以在低级语法结构中对POC值(和/或间接参考POC的语法元素的值)进行编码。
上述用于对自适应分辨率参数进行信号传送的技术可以使用计算机可读指令被实现为计算机软件,并且被物理地存储在一个或更多个计算机可读介质中。例如,图7示出了适于实现所公开的主题的某些实施方式的计算机***700。
计算机软件可以使用任何合适的机器代码或计算机语言来编码,机器代码或计算机语言可以经受汇编、编译、链接等机制以创建包括指令的代码,指令可以由计算机中央处理单元(CPU)、图形处理单元(GPU)等直接执行或者通过解释、微代码执行等来执行。
指令可以在各种类型的计算机或其部件(包括例如个人计算机、平板计算机、服务器、智能电话、游戏装置、物联网装置等)上执行。
图7中示出的用于计算机***700的部件本质上是示例性的,并且不旨在对实现本公开内容的实施方式的计算机软件的使用范围或功能提出任何限制。部件的配置也不应当被解释为具有与计算***700的示例性实施方式中示出的部件中的任何一个或组合有关的任何依赖性或要求。
计算机***700可以包括某些人机接口输入装置。这样的人机接口输入装置可以响应于由一个或更多个人类用户通过例如触觉输入(例如:击键、滑动、数据手套移动)、音频输入(例如:语音、拍打)、视觉输入(例如:姿势)、嗅觉输入(未描绘)实现的输入。人机接口装置还可以用于捕获不一定与人的意识输入直接有关的某些媒体,例如音频(例如:语音、音乐、环境声音)、图像(例如:扫描图像、从静态图像相机获得的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。
输入人机接口装置可以包括以下中的一个或更多个(描绘的每种中的仅一个):键盘701、鼠标702、触控板703、触摸屏710、数据手套704、操纵杆705、麦克风706、扫描仪707、相机708。
计算机***700还可以包括某些人机接口输出装置。这样的人机接口输出装置可以通过例如触觉输出、声音、光和气味/味道刺激一个或更多个人类用户的感官。这样的人机接口输出装置可以包括触觉输出装置(例如,通过触摸屏710、数据手套704或操纵杆705的触觉反馈,但是也可以存在不用作输入装置的触觉反馈装置)、音频输出装置(例如:扬声器709、耳机(未描绘))、视觉输出装置(例如包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕的屏幕710,每个屏幕具有或不具有触摸屏输入能力,每个屏幕具有或不具有触觉反馈能力——其中的一些可能能够通过诸如立体图像输出的方式输出二维视觉输出或多于三维输出;虚拟现实眼镜(未描绘)、全息显示器和烟罐(未描绘))和打印机(未描绘)。
计算机***700还可以包括人类可访问存储装置及其相关联的介质,例如包括具有CD/DVD等介质721的CD/DVD ROM/RW 720的光学介质、拇指驱动器722、可移除硬盘驱动器或固态驱动器723、遗留磁性介质(例如磁带和软盘(未描绘))、基于专用ROM/ASIC/PLD的装置(例如安全加密狗(未描绘))等。
本领域技术人员还应当理解,结合当前公开的主题使用的术语“计算机可读介质”不包含传输介质、载波或其他瞬态信号。
计算机***700还可以包括到一个或更多个通信网络的接口。网络可以例如是无线的、有线的、光学的。网络还可以是局域的、广域的、城域的、车载的和工业的、实时的、延迟容忍的等。网络的示例包括局域网例如以太网、无线LAN、蜂窝网络(包括GSM、3G、4G、5G、LTE等)、电视有线或无线广域数字网络(包括有线电视、***和地面广播电视)、车载和工业网络(包括CANBus)等。某些网络通常需要附接至某些通用数据端口或***总线(749)(例如,计算机***700的USB端口)的外部网络接口适配器;其他网络通常通过附接至如下所述的***总线(例如,到PC计算机***的以太网接口或到智能电话计算机***的蜂窝网络接口)而集成到计算机***700的核中。使用这些网络中的任何网络,计算机***700可以与其他实体进行通信。这样的通信可以是单向仅接收(例如广播电视)、单向仅发送(例如CANbus到某些CANbus装置)或双向的,例如使用局域或广域数字网络到其他计算机***。可以在如上所述的这些网络和网络接口中的每一个上使用某些协议和协议栈。
以上提及的人机接口装置、人可访问存储装置和网络接口可以附接至计算机***700的核740。
核740可以包括一个或更多个中央处理单元(CPU)741、图形处理单元(GPU)742、现场可编程门阵列(FPGA)形式的专用可编程处理单元743、用于某些任务的硬件加速器744等。这些装置连同只读存储器(ROM)745、随机存取存储器746、诸如内部非用户可访问硬盘驱动器、SSD等的内部大容量存储装置747一起可以通过***总线748连接。在一些计算机***中,可以以一个或更多个物理插头的形式访问***总线748,以使得能够通过另外的CPU、GPU等进行扩展。***装置可以直接地或通过***总线749附接至核的***总线748。***总线的架构包括PCI、USB等。
CPU 741、GPU 742、FPGA 743和加速器744可以执行某些指令,这些指令组合起来可以构成以上提及的计算机代码。该计算机代码可以存储在ROM 745或RAM 746中。过渡数据也可以存储在RAM 746中,而永久数据可以存储在例如内部大容量存储装置747中。可以通过使用高速缓存存储器来实现对存储器装置中的任何一个的快速存储及检索,该高速缓存存储器可以与一个或更多个CPU 741、GPU 742、大容量存储装置747、ROM 745、RAM 746等紧密相关联。
计算机可读介质上可以具有计算机代码,该代码用于执行各种计算机实现的操作。介质和计算机代码可以是为本公开内容的目的而专门设计和构造的介质和计算机代码,或者它们可以是对计算机软件领域的技术人员公知且可获得的类型的介质和计算机代码。
作为示例而非限制,具有架构的计算机***700——特别是核740——可以由于处理器(包括CPU、GPU、FPGA、加速器等)执行实施在一个或更多个有形计算机可读介质中的软件而提供功能。这样的计算机可读介质可以是与如以上所介绍的用户可访问大容量存储装置相关联的介质,以及具有非暂态性的核740的某些存储装置,例如核内部大容量存储装置747或ROM 745。实现本公开内容的各种实施方式的软件可以存储在这样的装置中并且由核740执行。根据特定需要,计算机可读介质可以包括一个或更多个存储器装置或芯片。软件可以使核740——特别是其中的处理器(包括CPU、GPU、FPGA等)——执行本文中描述的特定处理或特定处理的特定部分,包括限定存储在RAM 746中的数据结构以及根据由软件限定的处理修改这样的数据结构。另外地或者作为替选方案,计算机***可以由于逻辑硬连线或以其他方式实施在电路(例如:加速器744)中而提供功能,该电路可以代替软件或与软件一起运行以执行本文中描述的特定处理或特定处理的特定部分。在适当的情况下,提及软件可以包含逻辑,并且反之,提及逻辑可以包含软件。在适当的情况下,提及计算机可读介质可以包含存储用于执行的软件的电路(例如集成电路(IC))、实施用于执行的逻辑的电路或两者。本公开内容包含硬件和软件的任何合适的组合。
图8示出了具有有着自适应分辨率改变的temporal_id、layer_id、POC和AUC值的组合的视频序列结构的示例。在该示例中,分别地,AUC=0的第一AU中的图片、切片或图块可能具有temporal_id=0和layer_id=0或1,而AUC=1的第二AU中的图片、切片或图块可能具有temporal_id=1和layer_id=0或1。不管temporal_id和layer_id的值如何,POC的值每图片增加1。在该示例中,poc_cycle_au的值可以等于2。优选地,poc_cycle_au的值可以被设置为等于(空间可缩放性)层的数目。因此,在该示例中,POC的值增加了2,而AUC的值增加了1。
在以上实施方式中,可以通过使用HEVC中的现有参考图片集(RPS)信令或参考图片列表(RPL)信令来支持帧间图片预测结构或层间预测结构和参考图片指示的全部或子集。在RPS或RPL中,通过对当前图片与选择的参考图片之间的POC的值或POC的增量值进行信号传送来指示选择的参考图片。对于所公开的主题,可以使用RPS和RPL来指示帧间图片预测结构或层间预测结构而无需改变信令,但具有以下限制。如果参考图片的temporal_id的值大于当前图片的temporal_id的值,则当前图片可以不使用参考图片进行运动补偿或其他预测。如果参考图片的layer_id的值大于当前图片的layer_id的值,则当前图片可以不使用参考图片进行运动补偿或其他预测。
在相同实施方式和其他实施方式中,可以在访问单元内的多个图片中对基于POC差以用于时间运动矢量预测的运动矢量缩放进行禁用。因此,尽管每个图片在访问单元内可以具有不同的POC值,但是在访问单元内,运动矢量未被缩放并且用于时间运动矢量预测。这是因为在同一AU中具有不同POC的参考图片被认为是具有相同时间实例的参考图片。因此,在实施方式中,当参考图片属于与当前图片相关联的AU时,运动矢量缩放函数可以返回1。
在相同实施方式和其他实施方式中,当参考图片的空间分辨率与当前图片的空间分辨率不同时,可以在多个图片中可选地对基于POC差以用于时间运动矢量预测的运动矢量缩放进行禁用。当允许运动矢量缩放时,基于当前图片与参考图片之间的POC差和空间分辨率来缩放运动矢量。
在同一实施方式或另一实施方式中,可以基于AUC差而不是POC差来缩放运动矢量以用于时间运动矢量预测,尤其是当poc_cycle_au具有非均匀值时(当vps_contant_poc_cycle_per_au==0时)。否则(当vps_contant_poc_cycle_per_au==1时),基于AUC差的运动矢量缩放可能与基于POC差的运动矢量缩放相同。
在同一实施方式或另一实施方式中,当基于AUC差来缩放运动矢量时,不基于AUC差来缩放与当前图片相同的AU(具有相同的AUC值)中的参考运动矢量,并且在不进行缩放的情况下或者在基于当前图片与参考图片之间的空间分辨率进行缩放的情况下将参考运动矢量用于运动矢量预测。
在相同实施方式和其他实施方式中,AUC值用于识别AU的边界并且用于假设参考解码器(HRD)操作,其需要具有AU粒度的输入和输出时序。在大多数情况下,可以输出AU中具有最高层的解码图片进行显示。AUC值和layer_id值可以用于识别输出图片。
在实施方式中,图片可以包括一个或更多个子图片。每个子图片可以覆盖图片的局部区域或整个区域。由子图片支持的区域可以与由另一子图片支持的区域交叠,也可以不与由另一子图片支持的区域交叠。由一个或更多个子图片构成的区域可以覆盖图片的整个区域,也可以不覆盖图片的整个区域。如果图片包括子图片,则由子图片支持的区域与由图片支持的区域相同。
在同一实施方式中,子图片可以通过与用于编码图片的编码方法类似的编码方法进行编码。子图片可以独立编码或者可以依赖于另一子图片或编码图片编码。子图片可以具有或不具有根据另一子图片或编码图片的任何解析依赖性。
在同一实施方式中,编码子图片可以被包含在一个或更多个层中。层中的编码子图片可以具有不同的空间分辨率。原始子图片可以在空间上重采样(上采样或下采样),利用不同的空间分辨率参数进行编码,并且被包含在与层对应的比特流中。
在同一实施方式或另一实施方式中,具有(W,H)的子图片可以被编码并包含在与层0对应的编码比特流中,其中,分别地,W指示子图片的宽度并且H指示子图片的高度,而具有(W*Sw,k,H*Sh,k)的从具有原始空间分辨率的子图片上采样(或下采样)的子图片可以被编码并包含在与层k对应的编码比特流中,其中,Sw,k、Sh,k指示水平方式和垂直方式的重采样比率。如果Sw,k、Sh,k的值大于1,则重采样等于上采样。而如果Sw,k、Sh,k的值小于1,则重采样等于下采样。
在同一实施方式或另一实施方式中,在同一子图片或不同子图片中,层中的编码子图片可以具有与另一层中的编码子图片的视觉质量不同的视觉质量。例如,层n中的子图片i利用量化参数Qi,n来编码,而层m中的子图片j利用量化参数Qj,m来编码。
在同一实施方式或另一实施方式中,层中的编码子图片可以是独立地可解码的,而不具有对同一局部区域的另一层中的编码子图片的任何解析或解码依赖性。可以是独立地可解码而无需参考同一局部区域的另一子图片层的子图片层是独立的子图片层。独立的子图片层中的编码子图片可以具有或不具有对同一子图片层中的先前编码子图片的解码或解析依赖性,但是编码子图片可以不具有对另一子图片层中的编码图片的任何依赖性。
在同一实施方式或另一实施方式中,层中的编码子图片可以是依赖地可解码的,具有对同一局部区域的另一层中的编码子图片的任何解析或解码依赖性。可以参考同一局部区域的另一子图片层而依赖地可解码的子图片层是依赖的子图片层。依赖的子图片中的编码子图片可以参考属于同一子图片的编码子图片、同一子图片层中的先前编码子图片、或两个参考子图片。
在同一实施方式或另一实施方式中,编码子图片包括一个或更多个独立的子图片层以及一个或更多个依赖的子图片层。然而,对于编码子图片,可以存在至少一个独立的子图片层。独立的子图片层可以具有等于0的层标识符(layer_id)的值,该值可以存在于NAL单元报头或另一高级语法结构中。layer_id等于0的子图片层是基本子图片层。
在同一实施方式或另一实施方式中,图片可以包括一个或更多个前景子图片和一个背景子图片。由背景子图片支持的区域可以等于图片的区域。由前景子图片支持的区域可以与由背景子图片支持的区域交叠。背景子图片可以是基本子图片层,而前景子图片可以是非基本(增强)子图片层。一个或更多个非基本子图片层可以参考相同的基本层进行解码。layer_id等于a的每个非基本子图片层可以参考layer_id等于b的非基本子图片层,其中a大于b。
在同一实施方式或另一实施方式中,图片可以包括一个或更多个前景子图片,具有或不具有背景子图片。每个子图片可以具有其自己的基本子图片层以及一个或更多个非基本(增强)层。每个基本子图片层可以由一个或更多个非基本子图片层参考。layer_id等于a的每个非基本子图片层可以参考layer_id等于b的非基本子图片层,其中a大于b。
在同一实施方式或另一实施方式中,图片可以包括一个或更多个前景子图片,具有或不具有背景子图片。(基本或非基本)子图片层中的每个编码子图片可以由属于同一子图片的一个或更多个非基本层子图片以及不属于同一子图片的一个或更多个非基本层子图片参考。
在同一实施方式或另一实施方式中,图片可以包括一个或更多个前景子图片,具有或不具有背景子图片。层a中的子图片可以进一步被分割成同一层中的多个子图片。层b中的一个或更多个编码子图片可以参考层a中的经分割的子图片。
在同一实施方式或另一实施方式中,编码视频序列(CVS)可以是编码图片的群组。CVS可以包括一个或更多个编码子图片序列(CSPS),其中,CSPS可以是覆盖图片的同一局部区域的编码子图片的群组。CSPS可以具有与编码视频序列的时间分辨率相同或不同的时间分辨率。
在同一实施方式或另一实施方式中,CSPS可以被编码并包含在一个或更多个层中。CSPS可以包括一个或更多个CSPS层。对与CSPS对应的一个或多个CSPS层进行解码可以重建与同一局部区域对应的子图片的序列。
在同一实施方式或另一实施方式中,与CSPS对应的CSPS层的数目可以和与另一CSPS对应的CSPS层的数目相同或不同。
在同一实施方式或另一实施方式中,CSPS层可以具有与另一CSPS层不同的时间分辨率(例如,帧速率)。原始(未压缩)子图片序列可以在时间上重采样(上采样或下采样),利用不同的时间分辨率参数进行编码,并且被包含在与层对应的比特流中。
在同一实施方式或另一实施方式中,具有帧速率F的子图片序列可以被编码并包含在与层0对应的编码比特流中,而具有F*St,k的从原始子图片序列在时间上上采样(或下采样)的子图片序列可以被编码并包含在与层k对应的编码比特流中,其中,St,k指示层k的时间采样率。如果St,k的值大于1,则时间重采样处理等于帧速率上转换。而如果St,k的值小于1,则时间重采样处理等于帧速率下转换。
在同一实施方式或另一实施方式中,当CSPS层a情况下的子图片由CSPS层b情况下的子图片参考以进行运动补偿或任何层间预测时,如果CSPS层a的空间分辨率与CSPS层b的空间分辨率不同,则CSPS层a中的解码像素被重采样并用作参考。重采样处理可能需要上采样滤波或下采样滤波。
在同一实施方式或另一实施方式中,图9示出了用于对VPS(或SPS)中的指示用于编码视频序列中的所有图片/切片的poc_cycle_au的vps_poc_cycle_au的语法元素、以及切片报头中的指示当前切片的poc_cycle_au的slice_poc_cycle_au的语法元素进行信号传送的语法表的示例。如果POC值每AU均匀增加,则将VPS中的vps_contant_poc_cycle_per_au设置为等于1,并且在VPS中对vps_poc_cycle_au进行信号传送。在这种情况下,slice_poc_cycle_au没有被显式地信号传送,并且每个AU的AUC的值是通过将POC的值除以vps_poc_cycle_au来计算的。如果POC值每AU不均匀增加,则将VPS中的vps_contant_poc_cycle_per_au设置为等于0。在这种情况下,不对vps_access_unit_cnt进行信号传送,而在每个切片或图片的切片报头中对slice_access_unit_cnt进行信号传送。每个切片或图片可以具有不同的slice_access_unit_cnt的值。每个AU的AUC的值是通过将POC的值除以slice_poc_cycle_au来计算的。图10示出了示出相关工作流程的框图。
在同一实施方式或其他实施方式中,即使图片、切片或图块的POC的值可能不同,与具有相同AUC值的AU对应的图片、切片或图块也可以与相同解码或输出时间实例相关联。因此,在同一AU中的图片、切片或图块中没有任何解析/解码依赖性的情况下,与同一AU相关联的图片、切片或图块的全部或子集可以被并行解码,并且可以在相同时间实例处被输出。
在同一实施方式或其他实施方式中,即使图片、切片或图块的POC的值可以不同,与具有相同AUC值的AU对应的图片、切片或图块也可以与相同的组成/显示时间实例相关联。当组成时间以容器格式被包含时,即使图片对应于不同的AU,如果图片具有相同的组成时间,则也可以在相同时间实例处显示图片。
在同一实施方式或其他实施方式中,每个图片、切片或图块可以在同一AU中具有相同的时间标识符(temporal_id)。与时间实例对应的图片、切片或图块的全部或子集可以与相同的时间子层相关联。在同一实施方式或其他实施方式中,每个图片、切片或图块可以在同一AU中具有相同或不同的空间层id(layer_id)。与时间实例对应的图片、切片或图块的全部或子集可以与相同或不同的空间层相关联。
图11示出了包括layer_id等于0的背景视频CSPS和多个前景CSPS层的示例视频流。虽然编码子图片可以包括一个或更多个CSPS层,但是不属于任何前景CSPS层的背景区域可以包括基本层。基本层可以包含背景区域和前景区域,而增强CSPS层包含前景区域。在同一区域处,增强CSPS层可能具有比基本层更好的视觉质量。增强CSPS层可以参考与同一区域对应的基本层的运动矢量和重建的像素。
在同一实施方式或另一实施方式中,在视频文件中,与基本层对应的视频比特流被包含在轨道中,而与每个子图片对应的CSPS层被包含在分开的轨道中。
在同一实施方式或另一实施方式中,与基本层对应的视频比特流被包含在轨道中,而具有相同layer_id的CSPS层被包含在分开的轨道中。在该示例中,与层k对应的轨道仅包括与层k对应的CSPS层。
在同一实施方式或另一实施方式中,每个子图片的每个CSPS层存储在分开的轨道中。每个轨道可以具有或不具有对一个或更多个其他轨道的任何解析或解码依赖性。
在同一实施方式或另一实施方式中,每个轨道可以包含与子图片的全部或子集的CSPS层的层i至层j对应的比特流,其中,0<i=<j=<k,k是CSPS的最高层。
在同一实施方式或另一实施方式中,图片包括一个或更多个相关联的媒体数据,包括深度图、阿尔法图、3D几何数据、占用图等。这样的关联的定时媒体数据可以被划分为一个或多个数据子流,每个数据子流对应于一个子图片。
在同一实施方式或另一实施方式中,图12示出了基于多层子图片方法的视频会议的示例。在视频流中,包含与背景图片对应的一个基本层视频比特流以及与前景子图片对应的一个或更多个增强层视频比特流。每个增强层视频比特流对应于CSPS层。在显示器中,默认显示与基本层对应的图片。其包含一个或更多个用户的画中画(PIP)。当由客户端的控件选择特定用户时,与选择的用户对应的增强CSPS层被解码并以增强的质量或空间分辨率显示。图13示出了操作图。
在同一实施方式或另一实施方式中,网络中间盒(例如路由器)可以取决于其带宽而选择发送至用户的层的子集。图片/子图片组织可以用于带宽适配。例如,如果用户不具有该带宽,则路由器由于重要性或基于所用设置来剥离层或选择一些子图片,并且这可以动态地进行以适应带宽。
图14示出了360视频的使用情况。当球面360图片投影到平面图片上时,可以将投影360图片分割成多个子图片作为基本层。特定子图片的增强层可以被编码并传输至客户端。解码器可以能够解码包括所有子图片的基本层以及选择的子图片的增强层两者。在当前视口与选择的子图片相同时,显示的图片可以具有更高质量的解码子图片和增强层。否则,可以以低质量显示具有基本层的解码图片。
在同一实施方式或另一实施方式中,用于显示的任何布局信息可以作为补充信息(例如SEI消息或元数据)存在于文件中。根据用信号传送的布局信息对一个或更多个解码子图片进行重新定位和显示。布局信息可以由流传输服务器或广播公司进行信号传送,也可以由网络实体或云服务器重新生成,也可以由用户的自定义设置确定。
在实施方式中,当输入图片被划分成一个或更多个(矩形)子区域时,每个子区域可以被编码为独立层。与局部区域对应的每个独立层可以具有唯一的layer_id值。对于每个独立层,可以对子图片大小和位置信息进行信号传送。例如,图片大小(宽度,高度),左上角的偏移信息(x_offset,y_offset)。图15示出了划分的子图片的布局、其子图片大小和位置信息、以及其对应的图片预测结构的示例。可以在高级句法结构例如参数集、切片或图块组的报头或SEI消息中对包括子图片大小和子图片位置的布局信息进行信号传送。
在同一实施方式中,与每个独立层对应的子图片在AU内可以有其唯一的POC值。当通过使用RPS或RPL结构中的语法元素指示存储在DPB中的图片中的参考图片时,可以使用与层对应的每个子图片的POC值。
在同一实施方式或另一实施方式中,为了指示(层间)预测结构,可以不使用layer_id而可以使用POC(增量)值。
在同一实施方式中,与层(或局部区域)对应的、POC值等于N的子图片可以用作或者可以不用作与同一层(或同一局部区域)对应的、POC值等于N+K的子图片的参考图片以进行运动补偿预测。在大多数情况下,数目K的值可以等于(独立)层的最大数目,该最大数目可以与子区域的数目相同。
在同一实施方式或另一实施方式中,图16示出了图15的扩展情况。当输入图片被划分成多个(例如四个)子区域时,可以用一个或更多个层对每个局部区域进行编码。在这种情况下,独立层的数目可以等于子区域的数目,并且一个或更多个层可以对应于子区域。因此,可以用一个或更多个独立层以及零个或更多个依赖层对每个子区域进行编码。
在同一实施方式中,在图16中,可以将输入图片划分成四个子区域。右上子区域可以被编码为两层——层1和层4,而右下子区域可以被编码为两层——层3和层5。在这种情况下,层4可以参考层1以进行运动补偿预测,而层5可以参考层3以进行运动补偿。
在同一实施方式或另一实施方式中,可以(可选地)禁用跨层边界的环路内滤波(例如,去块滤波、自适应环路内滤波、整形器、双边滤波或任何基于深度学习的滤波)。
在同一实施方式或另一实施方式中,可以(可选地)禁用跨层边界的运动补偿预测或帧内块复制。
在同一实施方式或另一实施方式中,可以可选地处理子图片的边界处的用于运动补偿预测或环路内滤波的边界填充。可以在高级语法结构例如参数集(VPS、SPS、PPS或APS)、切片或图块组报头或SEI消息中对指示边界填充是否被处理的标志进行信号传送。
在同一实施方式或另一实施方式中,可以在VPS或SPS中对子区域(或子图片)的布局信息进行信号传送。图17示出了VPS和SPS中的语法元素的示例。在该示例中,在VPS中对vps_sub_picture_dividing_flag进行信号传送。该标志可以指示输入图片是否被划分成多个子区域。当vps_sub_picture_dividing_flag的值等于0时,与当前VPS对应的编码视频序列中的输入图片可以不被划分成多个子区域。在这种情况下,输入图片大小可以等于编码图片大小(pic_width_in_luma_samples,pic_height_in_luma_samples),其在SPS中进行信号传送。当vps_sub_picture_dividing_flag的值等于1时,可以将输入图片划分成多个子区域。在这种情况下,在VPS中对语法元素vps_full_pic_width_in_luma_samples和vps_full_pic_height_in_luma_samples进行信号传送。vps_full_pic_width_in_luma_samples和vps_full_pic_height_in_luma_samples的值可以分别等于输入图片的宽度和高度。
在同一实施方式中,vps_full_pic_width_in_luma_samples和vps_full_pic_height_in_luma_samples的值可以不用于解码,而是可以用于组成和显示。
在同一实施方式中,当vps_sub_image_dividing_flag的值等于1时,可以在与特定层对应的SPS中对语法元素pic_offset_x和pic_offset_y进行信号传送。在这种情况下,在SPS中进行信号传送的编码图片大小(pic_width_in_luma_samples,pic_height_in_luma_samples)可以等于与特定层对应的子区域的宽度和高度。此外,可以在SPS中对子区域的左上角的位置(pic_offset_x,pic_offset_y)进行信号传送。
在同一实施方式中,子区域的左上角的位置信息(pic_offset_x,pic_offset_y)可以不用于解码,而是可以用于组成和显示。
在同一实施方式或另一实施方式中,可以在参数集或SEI消息中对输入图片的全部或子集子区域的布局信息(大小和位置)以及层之间的依赖性信息进行信号传送。图18示出了指示子区域的布局的信息、层之间的依赖性、以及子区域与一个或更多个层之间的关系的语法元素的示例。在该示例中,语法元素num_sub_region指示当前编码视频序列中的(矩形)子区域的数目。语法元素num_layers指示当前编码视频序列中的层的数目。num_layers的值可以等于或大于num_sub_region的值。当任何子区域被编码为单层时,num_layers的值可以等于num_sub_region的值。当一个或更多个子区域被编码为多层时,num_layers的值可以大于num_sub_region的值。语法元素direct_dependency_flag[i][j]指示从第j层到第i层的依赖性。num_layers_for_region[i]指示与第i子区域相关联的层的数目。sub_region_layer_id[i][j]指示与第i子区域相关联的第j层的layer_id。sub_region_offset_x[i]和sub_region_offset_y[i]分别指示第i子区域的左上角的水平位置和垂直位置。sub_region_width[i]和sub_region_height[i]分别指示第i子区域的宽度和高度。
在一个实施方式中,可以在高级语法结构例如VPS、DPS、SPS、PPS、APS或SEI消息中对一个或更多个语法元素进行信号传送,该一个或更多个语法元素指定输出层集以指示将在具有或不具有配置文件层级信息的情况下输出的一个或更多个层。参照图19,可以在VPS中对语法元素num_output_layer_sets进行信号传送,该语法元素num_output_layer_sets指示参考VPS的编码视频序列中的输出层集(OLS)的数目。对于每个输出层集,可以对与输出层的数目一样多的output_layer_flag进行信号传送。
在同一实施方式中,output_layer_flag[i]等于1指定输出第i层。vps_output_layer_flag[i]等于0指定不输出第i层。
在同一实施方式或另一实施方式中,可以在高级语法结构例如VPS、DPS、SPS、PPS、APS或SEI消息中对指定每个输出层集的配置文件层级信息的一个或更多个语法元素进行信号传送。仍然参照图19,可以在VPS中对语法元素num_profile_tile_level进行信号传送,该语法元素num_profile_tile_level指示参考VPS的编码视频序列中的每OLS配置文件层级信息的数目。对于每个输出层集,可以对与输出层的数目一样多的用于配置文件层级信息的语法元素的集合或者指示配置文件层级信息中的条目中的特定配置文件层级信息的索引进行信号传送。
在同一实施方式中,profile_tier_level_idx[i][j]将应用于第i OLS的第j层的profile_tier_level()语法结构的索引指定到VPS中的profile_tier_level()语法结构的列表中。
在同一实施方式或另一实施方式中,参照图20,当最大层的数目大于1(vps_max_layers_minus1>0)时,可以对语法元素num_profile_tile_level和/或num_output_layer_sets进行信号传送。
在同一实施方式或另一实施方式中,参照图20,指示第i输出层集的输出层信令的模式的语法元素vps_output_layers_mode[i]可以存在于VPS中。
在同一实施方式中,vps_output_layers_mode[i]等于0指定输出第i输出层集的仅最高层。vps_output_layer_mode[i]等于1指定输出第i输出层集的所有层。vps_output_layer_mode[i]等于2指定输出的层是第i输出层集的vps_output_layer_flag[i][j]等于1的层。可以保留更多值。
在同一实施方式中,取决于第i输出层集的vps_output_layers_mode[i]的值,可以或不可以对output_layer_flag[i][j]进行信号传送。
在同一实施方式或另一实施方式中,参照图20,对于第i输出层集可以存在标志vps_ptl_signal_flag[i]。取决于vps_ptl_signal_flag[i]的值,可以或可以不对第i输出层集的配置文件层级信息进行传送。
在同一实施方式或另一实施方式中,参照图21,可以在高级语法结构例如VPS、DPS、SPS、PPS、APS或SEI消息中对在当前CVS中的子图片的数目max_subpics_minus1进行信号传送。
在同一实施方式中,参照图21,当子图片的数目大于1(max_subpics_minus1>0)时,可以对第i子图片的子图片标识符sub_pic_id[i]进行信号传送。
在同一实施方式或另一实施方式中,可以在VPS中对指示属于每个输出层集的每个层的子图片标识符的一个或更多个语法元素进行信号传送。参照图22和图23,sub_pic_id_layer[i][j][k],其指示存在于第i输出层集的第j层中的第k子图片。利用这些信息,针对特定输出层集的每个层,解码器可以识别出可以对哪些子图片进行解码和输出。
在实施方式中,图片报头(PH)是包含应用于编码图片的所有切片的语法元素的语法结构。图片单元(PU)是根据指定的分类规则彼此关联、按照解码顺序连续、并且完全包含一个编码图片的NAL单元的集合。PU可以包含图片报头(PH)以及构成编码图片的一个或更多个VCL NAL单元。
在实施方式中,SPS(RBSP)在其被参考之前可以用于解码处理,该SPS被包括在TemporalId等于0的至少一个AU中或者通过外部装置提供。
在实施方式中,SPS(RBSP)在其被参考之前可以用于解码处理,该SPS被包括在CVS——包含参考SPS的一个或更多个PPS——中的TemporalId等于0的至少一个AU中或者通过外部装置提供。
在实施方式中,的SPS(RBSP)在其被一个或更多个PPS参考之前可以用于解码处理,该SPS被包括在nuh_layer_id等于PPS NAL单元的最低nuh_layer_id值的至少一个PU中或者通过外部装置提供,PPS NAL单元参考CVS——包含参考SPS的一个或更多个PPS——中的SPS NAL单元。
在实施方式中,SPS(RBSP)在其被一个或更多个PPS参考之前可以用于解码处理,该SPS被包括在TemporalId等于0且nuh_layer_id等于参考SPS NAL单元的PPS NAL单元的最低nuh_layer_id值的至少一个PU中或者通过外部装置提供。
在实施方式中,SPS(RBSP)在其被一个或更多个PPS参考之前可以用于解码处理,该SPS被包括在TemporalId等于0且nuh_layer_id等于PPS NAL单元的最低nuh_layer_id值的至少一个PU中或者通过外部装置提供,PPS NAL单元参考CVS——包含参考SPS的一个或更多个PPS——中的SPS NAL单元。
在同一实施方式或另一实施方式中,pps_seq_parameter_set_id指定参考的SPS的sps_seq_parameter_set_id的值。pps_seq_parameter_set_id的值在被CLVS中的编码图片参考的所有PPS中可以是相同的。
在同一实施方式或另一实施方式中,CVS中的具有sps_seq_parameter_set_id的特定值的所有SPS NAL单元可以具有相同内容。
在同一实施方式或另一实施方式中,不管nuh_layer_id值如何,SPS NAL单元可以共享sps_seq_parameter_set_id的相同值空间。
在同一实施方式或另一实施方式中,SPS NAL单元的nuh_layer_id值可以等于参考SPS NAL单元的PPS NAL单元的最低nuh_layer_id值。
在实施方式中,当nuh_layer_id等于m的SPS被nuh_layer_id等于n的一个或更多个PPS参考时,nuh_layer_id等于m的层可以与nuh_layer_id等于n的层或nuh_layer_id等于m的层的(直接或间接)参考层相同。
在实施方式中,PPS(RBSP)在其被参考之前可以用于解码处理,该PPS被包括在TemporalId等于PPS NAL单元的TemporalId的至少一个AU中或者通过外部装置提供。
在实施方式中,PPS(RBSP)在其被参考之前可以用于解码处理,该PPS被包括在TemporalId等于CVS中的PPS NAL单元的TemporalId的至少一个AU中或者通过外部装置提供,CVS包含参考PPS的一个或更多个PH(或编码切片NAL单元)。
在实施方式中,PPS(RBSP)在其被一个或更多个PH(或编码切片NAL单元)参考之前可以用于解码处理,该PPS被包括在nuh_layer_id等于编码切片NAL单元的最低nuh_layer_id值的至少一个PU中或者通过外部装置提供,编码切片NAL单元参考CVS——包含参考PPS的一个或更多个PH(或编码切片NAL单元)——中的PPS NAL单元。
在实施方式中,PPS(RBSP)在其被一个或更多个PH(或编码切片NAL单元)参考之前可以用于解码处理,该PPS被包括在TemporalId等于PPS NAL单元的TemporalId且nuh_layer_id等于编码切片NAL单元的最低nuh_layer_id值至少一个PU中或者通过外部装置提供,编码切片NAL单元参考CVS——包含参考PPS的一个或更多个PH(或编码切片NAL单元)——中的PPS NAL单元。
在同一实施方式或另一实施方式中,PH中的ph_pic_parameter_set_id为使用中的参考PPS指定pps_pic_parameter_set_id的值。pps_seq_parameter_set_id的值在被CLVS中的编码图片参考的所有PPS中可以是相同的。
在同一实施方式或另一实施方式中,PU内具有pps_pic_parameter_set_id的特定值的所有PPS NAL单元可以具有相同内容。
在同一实施方式或另一实施方式中,不管nuh_layer_id值如何,PPS NAL单元可以共享pps_pic_parameter_set_id的相同值空间。
在同一实施方式或另一实施方式中,PPS NAL单元的nuh_layer_id值可以等于参考NAL单元(其参考PPS NAL单元)的编码切片NAL单元的最低nuh_layer_id值。
在实施方式中,当nuh_layer_id等于m的PPS被nuh_layer_id等于n的一个或更多个编码切片NAL单元参考时,nuh_layer_id等于m的层可以与nuh_layer_id等于n的层或nuh_layer_id等于m的层的(直接或间接)参考层相同。
在实施方式中,PPS(RBSP)在其被参考之前可以用于解码处理,该PPS被包括在TemporalId等于PPS NAL单元的TemporalId的至少一个AU中或者通过外部装置提供。
在实施方式中,PPS(RBSP)在其被参考之前可以用于解码处理,该PPS被包括在TemporalId等于CVS中的PPS NAL单元的TemporalId的至少一个AU中或者通过外部装置提供,CVS包含参考PPS的一个或更多个PH(或编码切片NAL单元)。
在实施方式中,PPS(RBSP)在其被一个或更多个PH(或编码切片NAL单元)参考之前可以用于解码处理,该PPS被包括在nuh_layer_id等于编码切片NAL单元的最低nuh_layer_id值的至少一个PU中或者通过外部装置提供,编码切片NAL单元参考CVS——包含参考PPS的一个或更多个PH(或编码切片NAL单元)——中的PPS NAL单元。
在实施方式中,PPS(RBSP)在其被一个或更多个PH(或编码切片NAL单元)参考之前可以用于解码处理,该PPS被包括在TemporalId等于PPS NAL单元的TemporalId且nuh_layer_id等于编码切片NAL单元的最低nuh_layer_id值的至少一个PU中或者通过外部装置提供,编码切片NAL单元参考CVS——包含参考PPS的一个或更多个PH(或编码切片NAL单元)——中的PPS NAL单元。
在同一实施方式或另一实施方式中,PH中的ph_pic_parameter_set_id为使用中的参考PPS指定pps_pic_parameter_set_id的值。pps_seq_parameter_set_id的值在被CLVS中的编码图片参考的所有PPS中可以是相同的。
在同一实施方式或另一实施方式中,PU内具有pps_pic_parameter_set_id的特定值的所有PPS NAL单元可以具有相同内容。
在同一实施方式或另一实施方式中,不管nuh_layer_id值如何,PPS NAL单元可以共享pps_pic_parameter_set_id的相同值空间。
在同一实施方式或另一实施方式中,PPS NAL单元的nuh_layer_id值可以等于参考NAL单元(其参考PPS NAL单元)的编码切片NAL单元的最低nuh_layer_id值。
在实施方式中,当nuh_layer_id等于m的PPS被nuh_layer_id等于n的一个或更多个编码切片NAL单元参考时,nuh_layer_id等于m的层可以与nuh_layer_id等于n的层或nuh_layer_id等于m的层的(直接或间接)参考层相同。
输出层指示被输出的输出层集的层。输出层集(OLS)指示包括指定的层集的层集,其中层集中的一或更多个层被指定为输出层。输出层集(OLS)层索引是OLS中的层的到OLS中的层的列表的索引。
子层指示时间可扩展比特流的时间可扩展层,其包括具有TemporalId变量的特定值的VCL NAL单元和相关联的非VCL NAL单元。子层表示指示包括特定子层和较低子层的NAL单元的比特流的子集。
VPS(RBSP)在其被参考之前可以用于解码处理,该VPS被包括在TemporalId等于0的至少一个AU中或者通过外部装置提供。CVS中具有vps_video_parameter_set_id的特定值的所有VPS NAL单元可以具有相同内容。
vps_video_parameter_set_id提供VPS的标识符,以供其他语法元素参考。vps_video_parameter_set_id的值可以大于0。
vps_max_layers_minus1加1指定参考VPS的每个CVS中的最大允许层数。
vps_max_sublayers_minus1加1指定可以存在于参考VPS的每个CVS中的层中的时间子层的最大数目。vps_max_sublayers_minus1的值可以在0至6(含)的范围内。
vps_all_layers_same_num_sublayers_flag等于1指定对于参考VPS的每个CVS中的所有层,时间子层的数目是相同的。vps_all_layers_same_num_sublayers_flag等于0指定参考VPS的每个CVS中的层可以具有或不具有相同数目的时间子层。当不存在时,推断vps_all_layers_same_num_sublayers_flag的值等于1。
vps_all_independent_layers_flag等于1指定在不使用层间预测的情况下对CVS中的所有层独立地进行编码。vps_all_independent_layers_flag等于0指定CVS中的一个或更多个层可以使用层间预测。当不存在时,推断vps_all_independent_layers_flag的值等于1。
vps_layer_id[i]指定第i层的nuh_layer_id值。对于m和n的任何两个非负整数值,当m小于n时,vps_layer_id[m]的值可以小于vps_layer_id[n]。
vps_independent_layer_flag[i]等于1指定具有索引i的层不使用层间预测。vps_independent_layer_flag[i]等于0指定具有索引i的层可以使用层间预测,并且语法元素vps_direct_ref_layer_flag[i][j]——其中j在0至i-1(含)的范围内——存在于VPS中。当不存在时,推断vps_independent_layer_flag[i]的值等于1。
vps_direct_ref_layer_flag[i][j]等于0指定具有索引j的层不是用于具有索引i的层的直接参考层。vps_direct_ref_layer_flag[i][j]等于1指定具有索引j的层是用于具有索引i的层的直接参考层。当vps_direct_ref_layer_flag[i][j]不存在时,推断其等于0,其中i和j在0至vps_max_layers_minus1(含)的范围内。当vps_independent_layer_flag[i]等于0时,在0至i-1(含)的范围内可以存在j的至少一个值,使得vps_direct_ref_layer_flag[i][j]的值等于1。
如下得出变量NumDirectRefLayers[i]、DirectRefLayerIdx[i][d]、NumRefLayers[i]、RefLayerIdx[i][r]和LayerUsedAsRefLayerFlag[j]:
Figure BDA0003297741160000381
Figure BDA0003297741160000391
如下得出指定nuh_layer_id等于vps_layer_id[i]的层的层索引的变量:
for(i=0;i<=vps_max_layers_minus1;i++)
GeneralLayerIdx[vps_layer_id[i]]=i
对于i和j的任何两个不同值——两者均在0至vps_max_layers_minus1(含)的范围内,当dependencyFlag[i][j]等于1时,比特流一致性的要求是应用于第i层的chroma_format_idc和bit_depth_minus8的值可以分别等于应用于第j层的chroma_format_idc和bit_depth_minus8的值。
max_tid_ref_present_flag[i]等于1指定语法元素max_tid_il_ref_pics_plus1[i]存在。max_tid_ref_present_flag[i]等于0指定语法元素max_tid_il_ref_pics_plus1[i]不存在。
max_tid_il_ref_pics_plus1[i]等于0指定第i层的非IRAP图片不使用层间预测。max_tid_il_ref_pics_plus1[i]大于0指定对于第i层的解码图片,没有TemporalId大于max_tid_il_ref_pics_plus1[i]-1的图片被用作ILRP。当不存在时,推断max_tid_il_ref_pics_plus1[i]的值等于7。
each_layer_is_an_ols_flag等于1指定每个OLS包含仅一个层,并且在参考VPS的CVS中的每个层本身是具有作为唯一输出层的单个包括层的OLS。each_layer_is_an_ols_flag等于0指定OLS可以包含多于一个层。如果vps_max_layers_minus1等于0,则推断each_layer_is_an_ols_flag的值等于1。否则,当vps_all_independent_layers_flag等于0时,推断each_layer_is_an_ols_flag的值等于0。
ols_mode_idc等于0指定由VPS指定的OLS的总数等于vps_max_layers_minus1+1,第i OLS包括具有从0至i(含)的层索引的层,并且对于每个OLS,输出OLS中的仅最高层。
ols_mode_idc等于1指定由VPS指定的OLS的总数等于vps_max_layers_minus1+1,第i OLS包括具有从0至i(含)的层索引的层,并且对于每个OLS,输出OLS中的所有层。
ols_mode_idc等于2指定由VPS指定的OLS的总数被显式地信号传送,并且对于每个OLS,输出层被显式地信号传送,并且其他层是作为OLS的输出层的直接或间接参考层的层。
ols_mode_idc的值可以在0至2(含)的范围内。ols_mode_idc的值3被保留以供ITU-T|ISO/IEC将来使用。
当vps_all_independent_layers_flag等于1并且each_layer_is_an_ols_flag等于0时,推断ols_mode_idc的值等于2。
num_output_layer_sets_minus1加1指定当ols_mode_idc等于2时由VPS指定的OLS的总数。
如下得出指定由VPS指定的OLS的总数的变量TotalNumOlss:
Figure BDA0003297741160000401
ols_output_layer_flag[i][j]等于1指定当ols_mode_idc等于2时,nuh_layer_id等于vps_layer_id[j]的层是第i OLS的输出层。ols_output_layer_flag[i][j]等于0指定当ols_mode_idc等于2时,nuh_layer_id等于vps_layer_id[j]的层不是第i OLS的输出层。
如下得出指定第i OLS中的输出层的数目的变量NumOutputLayersInOls[i]、指定第i OLS中的第j层中的子层的数目的变量NumSubLayersInLayerInOLS[i][j]、指定第iOLS中的第j输出层的nuh_layer_id值的变量OutputLayerIdInOls[i][j]、以及指定第k层是否用作至少一个OLS中的输出层的变量LayerUsedAsOutputLayerFlag[k]:
Figure BDA0003297741160000402
Figure BDA0003297741160000411
Figure BDA0003297741160000421
对于0至vps_max_layers_minus1(含)的范围内的i的每个值,LayerUsedAsRefLayerFlag[i]和LayerUsedAsOutputLayerFlag[i]的值可能均不等于0。换言之,可能不存在既不是至少一个OLS的输出层也不是任何其他层的直接参考层的层。
对于每个OLS,可能存在作为输出层的至少一个层。换言之,对于0至TotalNumOlss-1(含)的范围内的i的任何值,NumOutputLayersInOls[i]的值可以大于或等于1。
如下得出指定第i OLS中的层的数目的变量NumLayersInOls[i]、指定第i OLS中的第j层的nuh_layer_id值的变量LayerIdInOls[i][j]:
Figure BDA0003297741160000431
如下得出指定nuh_layer_id等于LayerIdInOls[i][j]的层的OLS层索引的变量OlsLayerIdx[i][j]:
for(i=0;i<TotalNumOlss;i++)
for j=0;j<NumLayersInOls[i];j++)
OlsLayerIdx[i][LayerIdInOls[i][j]]=j
每个OLS中的最低层可以是独立层。换言之,对于0至TotalNumOlss-1(含)的范围内的每个i,vps_independent_layer_flag[GeneralLayerIdx[LayerIdInOls[i][0]]]的值可以等于1。
每个层可以被包括在由VPS指定的至少一个OLS中。换言之,对于nuh_layer_idnuhLayerId的特定值等于vps_layer_id[k]之一的每个层,可能存在i和j的至少一对值,使得LayerIdInOls[i][j]的值等于nuhLayerId,其中k在0至vps_max_layers_minus1的范围内,i在0至TotalNumOlss-1(含)的范围内,并且j在NumLayerInOls[i]-1(含)的范围内。
在实施方式中,针对当前图片CurrPic,解码处理如下操作:
-如下设置PictureOutputFlag:
-如果以下条件之一为真,则将PictureOutputFlag设置为等于0:
-当前图片是RASL图片并且相关联的IRAP图片的NoOutputBeforeRecoveryFlag等于1。
-gdr_enabled_flag等于1,并且当前图片是NoOutputBeforeRecoveryFlag等于1的GDR图片。
-gdr_enabled_flag等于1,当前图片与NoOutputBeforeRecoveryFlag等于1的GDR图片相关联,并且当前图片的PicOrderCntVal小于相关联的GDR图片的RpPicOrderCntVal。
-sps_video_parameter_set_id大于0,ols_mode_idc等于0,并且当前AU包含满足以下所有条件的图片picA:
-PicA的PictureOutputFlag等于1。
-PicA的nuh_layer_id nuhLid大于当前图片的nuh_layer_id nuhLid。
-PicA属于OLS的输出层(即,OutputLayerIdInOls[TargetOlsIdx][0]等于nuhLid)。
-sps_video_parameter_set_id大于0,ols_mode_idc等于2,并且ols_output_layer_flag[TargetOlsIdx][GeneralLayerIdx[nuh_layer_id]]等于0。
-否则,将PictureOutputFlag设置为等于pic_output_flag。
在当前图片的所有切片被解码之后,当前解码图片被标记为“用于短期参考”,并且RefPicList[0]或RefPicList[1]中的每个ILRP条目被标记为“用于短期参考”。
在同一实施方式或另一实施方式中,当每个层是输出层集时,不管ols_mode_idc的值如何,将PictureOutputFlag设置为等于pic_output_flag。
在同一实施方式或另一实施方式中,当sps_video_parameter_set_id大于0、each_layer_is_an_ols_flag等于0、ols_mode_idc等于0并且当前AU包含满足以下所有条件的图片picA时,将PictureOutputFlag设置为等于0:PicA的PictureOutputFlag等于1,PicA的nuh_layer_id nuhLid大于当前图片的nuh_layer_id nuhLid,并且PicA属于OLS的输出层(即,OutputLayerIdInOls[TargetOlsIdx][0]等于nuhLid)。
在同一实施方式或另一实施方式中,当sps_video_parameter_set_id大于0、each_layer_is_an_ols_flag等于0、ols_mode_idc等于2并且ols_output_layer_flag[TargetOlsIdx][GeneralLayerIdx[nuh_layer_id]]等于0时,将PictureOutputFlag设置为等于0。
当图片可以被或可以不被按照解码顺序的一个或更多个后续图片参考时,用于运动补偿或参数预测。可以在图片报头或切片报头中显式地对指示当前图片是否被后续图片参考的标志进行信号传送。
例如,在图24中,在图片报头中对non_reference_picture_flag进行信号传送。non_reference_picture_flag等于1指定与PH相关联的图片从不用作参考图片。non_reference_picture_flag等于0指定与PH相关联的图片可以用作参考图片或者可以不用作参考图片。
当图片可以被或可以不被裁剪和输出用于显示或其他目的时。可以在图片报头或切片报头中显式地对指示当前图片是否被裁剪和输出的标志进行信号传送。
例如,在图24中,在图片报头中对pic_output_flag进行信号传送。pic_output_flag等于1指示可以裁剪和输出当前图片。pic_output_flag等于0指示可以不裁剪和输出当前图片。
在当前图片是可以不按照解码顺序由后续图片参考的非参考图片并且non_reference_picture_flag的值等于1时,pic_output_flag的值可以等于1,这是因为在解码器侧,不由后续图片参考并且不被输出的任何图片可以不被包括在视频比特流中。
在同一实施方式或另一实施方式中,在当前图片是非参考图片(即,non_reference_picture_flag等于1)时,pic_output_flag不被显式地信号传送,而是推断为等于1。
在编码器侧,不被输出的非参考图片可以不被编码到编码比特流中。
在中间***元件处,可以从编码比特流中丢弃non_reference_picture_flag等于1且pic_output_flag等于0的编码图片。
虽然本公开内容已经描述了若干示例性实施方式,但是存在落入本公开内容的范围内的变更、置换和各种替代等效物。因此将认识到,本领域技术人员将能够设想虽然本文中没有明确示出或描述但是实施了本公开内容的原理并且因此在本公开内容的精神和范围内的许多***和方法。

Claims (20)

1.一种能够由处理器执行的用于对视频数据进行编码的方法,包括:
接收包括当前图片和一个或更多个其他图片的视频数据;
检查第一标志,所述第一标志对应于是否按照解码顺序由所述一个或更多个其他图片参考所述当前图片;
检查第二标志,所述第二标志对应于是否输出所述当前图片;以及
基于与所述第一标志和所述第二标志对应的值对所述视频数据进行解码。
2.根据权利要求1所述的方法,其中,在与所述视频数据相关联的图片报头或切片报头中对所述第一标志和所述第二标志进行信号传送。
3.根据权利要求1所述的方法,其中,基于所述第一标志被设置为1并且所述第二标志被设置为0而丢弃所述当前图片。
4.根据权利要求1所述的方法,其中,所述第一标志对应于是否参考所述当前图片以用于运动补偿或参数预测。
5.根据权利要求1所述的方法,其中,所述第二标志对应于是否将所述当前图片进行裁剪和输出以用于显示或其他目的。
6.根据权利要求1所述的方法,其中,基于所述第一标志的值来推断所述第二标志的值。
7.根据权利要求6所述的方法,其中,在所述编码器侧或在所述解码器侧推断所述第二标志的值。
8.一种用于对视频数据进行编码的计算机***,所述计算机***包括:
一个或更多个计算机可读非暂态存储介质,其被配置成存储计算机程序代码;以及
一个或更多个计算机处理器,其被配置成访问所述计算机程序代码并且按照所述计算机程序代码所指示的进行操作,所述计算机程序代码包括:
接收代码,其被配置成使所述一或更多个计算机处理器接收包括当前图片和一个或更多个其他图片的视频数据;
第一检查代码,其被配置成使所述一个或更多个计算机处理器检查第一标志,所述第一标志对应于是否按照解码顺序由所述一个或更多个其他图片参考所述当前图片;
第二检查代码,其被配置成使所述一个或更多个计算机处理器检查第二标志,所述第二标志对应于是否输出所述当前图片;以及
解码代码,其被配置成使所述一个或更多个计算机处理器基于与所述第一标志和所述第二标志对应的值对所述视频数据进行解码。
9.根据权利要求8所述的计算机***,其中,在与所述视频数据相关联的图片报头或切片报头中对所述第一标志和所述第二标志进行信号传送。
10.根据权利要求8所述的计算机***,其中,基于所述第一标志被设置为1并且所述第二标志被设置为0而丢弃所述当前图片。
11.根据权利要求8所述的计算机***,其中,所述第一标志对应于是否参考所述当前图片以用于运动补偿或参数预测。
12.根据权利要求8所述的计算机***,其中,所述第二标志对应于是否将所述当前图片进行裁剪和输出以用于显示或其他目的。
13.根据权利要求8所述的计算机***,其中,基于所述第一标志的值来推断所述第二标志的值。
14.根据权利要求13所述的计算机***,其中,在所述编码器侧或在所述解码器侧推断所述第二标志的值。
15.一种非暂态计算机可读介质,其上存储有用于对视频数据进行编码的计算机程序,所述计算机程序被配置成使一个或更多个计算机处理器进行以下操作:
接收包括当前图片和一个或更多个其他图片的视频数据;
检查第一标志,所述第一标志对应于是否按照解码顺序由所述一个或更多个其他图片参考所述当前图片;
检查第二标志,所述第二标志对应于是否输出所述当前图片;以及
基于与所述第一标志和所述第二标志对应的值对所述视频数据进行解码。
16.根据权利要求15所述的计算机可读介质,其中,在与所述视频数据相关联的图片报头或切片报头中对所述第一标志和所述第二标志进行信号传送。
17.根据权利要求15所述的计算机可读介质,其中,基于所述第一标志被设置为1并且所述第二标志被设置为0而丢弃所述当前图片。
18.根据权利要求15所述的计算机可读介质,其中,所述第一标志对应于是否参考所述当前图片以用于运动补偿或参数预测。
19.根据权利要求15所述的计算机可读介质,其中,所述第二标志对应于是否将所述当前图片进行裁剪和输出以用于显示或其他目的。
20.根据权利要求15所述的计算机可读介质,其中,基于所述第一标志的值来推断所述第二标志的值。
CN202180002864.5A 2020-03-31 2021-02-15 视频编解码的方法和设备 Active CN114270715B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063003112P 2020-03-31 2020-03-31
US63/003,112 2020-03-31
US17/087,865 2020-11-03
US17/087,865 US11722656B2 (en) 2020-03-31 2020-11-03 Method for output layer set mode
PCT/US2021/018099 WO2021202000A1 (en) 2020-03-31 2021-02-15 Method for output layer set mode

Publications (2)

Publication Number Publication Date
CN114270715A true CN114270715A (zh) 2022-04-01
CN114270715B CN114270715B (zh) 2024-07-23

Family

ID=77921990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180002864.5A Active CN114270715B (zh) 2020-03-31 2021-02-15 视频编解码的方法和设备

Country Status (9)

Country Link
US (2) US11722656B2 (zh)
EP (1) EP3939168A4 (zh)
JP (2) JP2022531117A (zh)
KR (1) KR20210144879A (zh)
CN (1) CN114270715B (zh)
AU (2) AU2021249201B2 (zh)
CA (1) CA3137815A1 (zh)
SG (1) SG11202111749RA (zh)
WO (1) WO2021202000A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021210841A1 (ko) * 2020-04-16 2021-10-21 엘지전자 주식회사 비디오 또는 영상 코딩 시스템에서의 픽처 헤더에 포함된 정보에 기반한 영상 코딩 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170134742A1 (en) * 2014-06-18 2017-05-11 Sharp Kabushiki Kaisha Slice type and decoder conformance
US20190174144A1 (en) * 2013-10-15 2019-06-06 Nokia Technologies Oy Video encoding and decoding

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0718206B1 (pt) 2006-10-16 2020-10-27 Nokia Technologies Oy método para codificar uma pluralidade de visões de uma cena; método de codificação de uma sequência de bits de vídeo codificada e aparelho
US20140301463A1 (en) 2013-04-05 2014-10-09 Nokia Corporation Method and apparatus for video coding and decoding
WO2015104451A1 (en) 2014-01-07 2015-07-16 Nokia Technologies Oy Method and apparatus for video coding and decoding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190174144A1 (en) * 2013-10-15 2019-06-06 Nokia Technologies Oy Video encoding and decoding
US20170134742A1 (en) * 2014-06-18 2017-05-11 Sharp Kabushiki Kaisha Slice type and decoder conformance

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BENJAMIN BROSS, 《JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 》, pages 7 - 8 *
BYEONGDOO CHOI等: "AHG9: On picture output for non-reference pictures", 《JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11》, pages 1 - 2 *

Also Published As

Publication number Publication date
CA3137815A1 (en) 2021-10-07
JP2022531117A (ja) 2022-07-06
US11722656B2 (en) 2023-08-08
US20230388487A1 (en) 2023-11-30
EP3939168A4 (en) 2022-07-20
AU2021249201A1 (en) 2021-11-25
WO2021202000A1 (en) 2021-10-07
US20210314558A1 (en) 2021-10-07
AU2021249201B2 (en) 2023-02-23
EP3939168A1 (en) 2022-01-19
JP2023129535A (ja) 2023-09-14
CN114270715B (zh) 2024-07-23
SG11202111749RA (en) 2021-11-29
AU2023203222A1 (en) 2023-06-15
KR20210144879A (ko) 2021-11-30

Similar Documents

Publication Publication Date Title
US20220286702A1 (en) Method for signaling output layer set with sub-picture
US11356681B2 (en) Coded video sub-bitstream extraction
CN113692744A (zh) 用信号通知具有子图片的输出层集的方法
CN113950841B (zh) 视频编解码的方法、***、装置及可读介质
CN114586364A (zh) 用于多层视频流中的输出层集模式的方法
US11812035B2 (en) Method for alignment across layers in coded video stream
US20240107045A1 (en) Derivation on sublayer-wise output layer set
KR20210144885A (ko) 참조 픽처 리샘플링과 공간 확장성의 조합을 시그널링하기 위한 기술
CN114342371A (zh) 用于编码视频流中的子图片的比特流提取技术
US20240089481A1 (en) Indication of max sublayer numbers in multilayered video stream
CN114514742A (zh) 采用已编码视频流中的子图片进行信号发送的用信号发送虚拟边界的方法
US20230388487A1 (en) Method for derivation of picture output for non-referenced picture in coded video stream
CN113826401B (zh) 视频编码或解码方法、装置以及电子设备
JP7280973B2 (ja) ビデオデータをコーディングする方法、コンピュータシステム、及びコンピュータプログラム
CN113055668B (zh) 从已编码视频比特流中提取子比特流的方法和设备
CN113940080A (zh) 用于在已编码视频码流中发信号通知矩形切片分区的方法
CN114287132A (zh) 经编码的视频流中随机访问点指示和图片输出的技术

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40070690

Country of ref document: HK

GR01 Patent grant