CN102342127A

CN102342127A - 用于视频编码和解码的方法和装置

Info

Publication number: CN102342127A
Application number: CN2010800104227A
Authority: CN
Inventors: M·安尼克塞拉
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2009-01-28
Filing date: 2010-01-27
Publication date: 2012-02-01
Also published as: WO2010086501A1; US20100189182A1; RU2011135321A; EP2392138A4; TW201032597A; EP2392138A1; KR20110106465A

Abstract

一种方法，包括接收包括访问单元序列的比特流；对该比特流中的第一可解码访问单元进行解码；确定该比特流中的下一可解码访问单元在该下一可解码访问单元的输出时间之前是否可以被解码；以及基于确定该下一可解码访问单元在该下一可解码访问单元的输出时间之前无法被解码而跳过对该下一可解码访问单元的解码。

Description

用于视频编码和解码的方法和装置

技术领域

本发明总体上涉及视频编码领域，并且更具体地，涉及对解码经编码数据的高效启动。

背景技术

本部分旨在提供针对在权利要求中叙述的本发明的背景或者上下文。这里的描述可以包括可能被实现的概念，但并不必是在此之前已经被构想出或者实现过的概念。因此，除非在此另行指出，在本部分中描述的并非是本申请中的描述和权利要求的现有技术，并且并不由于被包括在本部分中而被承认为现有技术。

为了促进视频内容在一个或者多个网络上的传输，已经开发了若干编码标准。视频编码标准包括ITU-T H.261、ISO/IEC MPEG-1Video、ITU-T H.262或者ISO/IEC MPEG-2Video、ITU-T H.263、ISO/IEC MPEG-4 Visual、ITU-T H.264(也被称为ISO/IEC MPEG-4AVC)、以及H.264/AVC的可分级视频编码(SVC)扩展。此外，当前正在努力开发新的视频编码标准。正在开发之中的一个此类标准是多视点视频编码(MVC)标准，其将成为对H.264/AVC的另一个扩展。

高级视频编码(H.264/AVC)标准被称为ITU-T推荐H.264和ISO/IEC国际标准14496-10，也被称为MPEG-4第10部分高级视频编码(AVC)。已经存在了H.264/AVC标准的若干版本，每个版本都向规范合并了新的特征。版本8指代包括可分级视频编码(SVC)修正案的标准。当前正在审批的新版本包括多视点视频编码(MVC)修正案。

建议使用由H.264/AVC和SVC支持的多级时间分级层级，这是由于它们的压缩效率显著提高。然而，多级层级也导致解码的开始与渲染的开始之间的显著延迟。该延迟是由以下事实造成的，即必须将经解码图像从它们的解码顺序重新排序成输出/显示顺序。因此，当从随机位置对流进行访问时，启动延迟增加，并且类似地，与非层级时间分级的情况相比，对多播或者广播的调谐延迟增加。

发明内容

在本发明的一个方面中，一种方法包括接收包括访问单元序列在内的比特流；对该比特流中的第一可解码访问单元进行解码；确定该比特流中的下一可解码访问单元在该下一可解码访问单元的输出时间之前是否可以被解码；以及基于确定该下一可解码访问单元在该下一可解码访问单元的输出时间之前无法被解码而跳过对该下一可解码访问单元的解码。

在一个实施方式中，该方法还包括跳过对依赖于该下一可解码访问单元的任何访问单元的解码。在一个实施方式中，该方法还包括基于确定该下一可解码访问单元在该下一可解码访问单元的输出时间之前可以被解码而对该下一可解码访问单元进行解码。可以对该确定以及跳过解码或者对该下一可解码访问单元进行解码进行重复，直到该比特流不再包括访问单元。在一个实施方式中，对该第一可解码访问单元进行解码可以包括在相对于先前的解码位置的非连续位置处开始解码。

在本发明的另一方面中，一种方法包括从接收器接收针对包括访问单元序列的比特流的请求；封装该比特流的第一可解码访问单元以供传输；确定该比特流中的下一可解码访问单元在该下一可解码访问单元的传输时间之前是否可以被封装；以及基于确定该下一可解码访问单元在该下一可解码访问单元的传输时间之前无法被封装而跳过对该下一可解码访问单元的封装；以及向该接收器传输该比特流。

在本发明的又一方面中，一种方法包括生成用于对包括访问单元序列的比特流进行解码的指令，该指令包括：对该比特流中的第一可解码访问单元进行解码；确定该比特流中的下一可解码访问单元在该下一可解码访问单元的输出时间之前是否可以被解码；以及基于确定该下一可解码访问单元在该下一可解码访问单元的输出时间之前无法被解码而跳过对该下一可解码访问单元的解码。

在本发明的另一方面中，一种方法包括基于指令对包括访问单元序列的比特流进行解码，该指令包括：对该比特流中的第一可解码访问单元进行解码；确定该比特流中的下一可解码访问单元在该下一可解码访问单元的输出时间之前是否可以被解码；以及基于确定该下一可解码访问单元在该下一可解码访问单元的输出时间之前无法被解码而跳过对该下一可解码访问单元的解码。

在本发明的又一方面中，一种方法包括生成用于对包括访问单元序列的比特流进行封装的指令，该指令包括：封装该比特流的第一可解码访问单元以供传输；确定该比特流中的下一可解码访问单元在该下一可解码访问单元的传输时间之前是否可以被封装；以及基于确定该下一可解码访问单元在该下一可解码访问单元的传输时间之前无法被封装而跳过对该下一可解码访问单元的封装。

在本发明的另一方面中，一种方法包括基于指令封装包括访问单元序列的比特流，该指令包括：封装该比特流的第一可解码访问单元以供传输；确定该比特流中的下一可解码访问单元在该下一可解码访问单元的传输时间之前是否可以被封装；以及基于确定该下一可解码访问单元在该下一可解码访问单元的传输时间之前无法被封装而跳过对该下一可解码访问单元的封装。

在本发明的又一方面中，一种方法包括从比特流中选择经编码数据单元的第一集合，其中包括不含该经编码数据单元结果的第一集合的该比特流的子比特流可解码为经解码数据单元的第一集合，该比特流可解码为经解码数据单元的第二集合，第一缓冲资源足以将该经解码数据单元的第一集合布置为输出顺序(output order)，第二缓冲资源足以将该经解码数据单元的第二集合布置为输出顺序，并且该第一缓冲资源少于该第二缓冲资源。在一个实施方式中，该第一缓冲资源和该第二缓冲资源是相对于用于经解码数据单元缓冲的初始时间而言的。在另一实施方式中，该第一缓冲资源和该第二缓冲资源是相对于用于经解码数据单元缓冲的初始缓冲占有而言的。

在本发明的另一方面中，一种装置包括解码器，该解码器配置用于对该比特流中的第一可解码访问单元进行解码；确定该比特流中的下一可解码访问单元在该下一可解码访问单元的输出时间之前是否可以被解码；以及基于确定该下一可解码访问单元在该下一可解码访问单元的输出时间之前无法被解码而跳过对该下一可解码访问单元的解码。

在本发明的又一方面中，一种装置包括编码器，该编码器配置用于封装该比特流的第一可解码访问单元以供传输；确定该比特流中的下一可解码访问单元在该下一可解码访问单元的传输时间之前是否可以被封装；以及基于确定该下一可解码访问单元在该下一可解码访问单元的传输时间之前无法被封装而跳过对该下一可解码访问单元的封装。

在本发明的另一方面中，一种装置包括文件生成器，该文件生成器配置用于生成指令以：对该比特流中的第一可解码访问单元进行解码；确定该比特流中的下一可解码访问单元在该下一可解码访问单元的输出时间之前是否可以被解码；以及基于确定该下一可解码访问单元在该下一可解码访问单元的输出时间之前无法被解码而跳过对该下一可解码访问单元的解码。

在本发明的又一方面中，一种装置包括文件生成器，该文件生成器配置用于生成指令以：封装该比特流的第一可解码访问单元以供传输；确定该比特流中的下一可解码访问单元在该下一可解码访问单元的传输时间之前是否可以被封装；以及基于确定该下一可解码访问单元在该下一可解码访问单元的传输时间之前无法被封装而跳过对该下一可解码访问单元的封装。

在本发明的另一方面中，一种装置包括处理器以及可通信地连接至该处理器的存储器单元。该存储器单元包括用于对该比特流中的第一可解码访问单元进行解码的计算机代码；用于确定该比特流中的下一可解码访问单元在该下一可解码访问单元的输出时间之前是否可以被解码的计算机代码；以及用于基于确定该下一可解码访问单元在该下一可解码访问单元的输出时间之前无法被解码而跳过对该下一可解码访问单元的解码的计算机代码。

在本发明的又一方面中，一种装置包括处理器以及可通信地连接至该处理器的存储器单元。该存储器单元包括用于封装针对该比特流的第一可解码访问单元以供传输的计算机代码；用于确定该比特流中的下一可解码访问单元在该下一可解码访问单元的传输时间之前是否可以被封装的计算机代码；以及用于基于确定该下一可解码访问单元在该下一可解码访问单元的传输时间之前无法被封装而跳过对该下一可解码访问单元的封装的计算机代码。

在本发明的另一方面中，一种计算机程序产品体现在计算机可读介质上并且包括用于对该比特流中的第一可解码访问单元进行解码的计算机代码；用于确定该比特流中的下一可解码访问单元在该下一可解码访问单元的输出时间之前是否可以被解码的计算机代码；以及用于基于确定该下一可解码访问单元在该下一可解码访问单元的输出时间之前无法被解码而跳过对该下一可解码访问单元的解码的计算机代码。

在本发明的又一方面中，一种计算机程序产品体现在计算机可读介质上并且包括用于封装该比特流的第一可解码访问单元以供传输的计算机代码；用于确定该比特流中的下一可解码访问单元在该下一可解码访问单元的传输时间之前是否可以被封装的计算机代码；以及用于基于确定该下一可解码访问单元在该下一可解码访问单元的该传输时间之前无法被封装而跳过对该下一可解码访问单元的封装的计算机代码。

本发明的各种实施方式的这些和其他优点和特征，连同其操作的组织与方式，将通过结合附图的以下详细描述而变得显而易见。

附图说明

通过参考附图描述本发明的实施方式，其中：

图1图示了具有时间分级的示例性层级编码结构；

图2图示了根据ISO基础媒体文件格式的示例性盒；

图3是图示了样本编组的示例性盒；

图4图示了容纳包括SampletoToGroup盒的电影片段的示例性盒；

图5图示了用于数字视频广播-手持式(DVB-H)的协议栈；

图6图示了多协议封装前向纠错(MPE-FEC)帧的结构；

图7(a)-图7(c)图示了具有5个时间级别的示例层级可分级比特流；

图8是图示了根据本发明的实施方式的示例实现的流程图；

图9图示了图8的方法对图7的序列的示例应用；

图10图示了根据本发明的实施方式的另一示例序列；

图11(a)-图11(c)图示了根据本发明的实施方式的又一示例序列；

图12是在其中可以实现本发明的各种实施方式的***的概览图；

图13图示了可以根据本发明的各种实施方式利用的示例性电子设备的透视图；

图14是可以包括在图13的电子设备中的电路的示意图；以及

图15是在其中可以实现各种实施方式的一般多媒体通信***的图示。

具体实施方式

在以下描述中，出于说明而非限制的目的，为了提供对本发明的彻底理解而阐明了细节和描述。然而，对本领域技术人员而言，很明显地，本发明可以在脱离这些细节和描述的其他实施方式中实践。

如上所述，高级视频编码(H.264/AVC)标准被称为ITU-T推荐H.264和ISO/IEC国际标准14496-10，也被称为MPEG-4第10部分高级视频编码(AVC)。已经存在了H.264/AVC标准的若干版本，每个版本都向规范合并了新的特征。版本8指代包括可分级视频编码(SVC)修正案的标准。当前正在审批的新版本包括多视点视频编码(MVC)修正案。

类似于较早的视频编码标准，在H.264/AVC中指定了用于无误比特流的解码过程以及比特流语法和语义。编码过程未被指定，但是编码器必须生成一致的比特流。可以用假设参考解码器(HRD)来验证比特流与解码器一致性，HRD在H.264/AVC的附录C中指定。该标准包含有助于应对传输错误和损失的编码工具，但是在编码中对该工具的使用是可选的并且尚未针对错误比特流指定解码过程。

H.264/AVC编码器的输入以及H.264/AVC解码器的输出的基本单位是图像。图像可以是帧或者场。帧包括亮度样本和相应色度样本的矩阵。场是帧的交替样本行的集合并且在源信号被交织时可以被用作编码器输入。宏块是亮度样本的16x16块和相应的色度样本的块。图像被分为一个或多个片组，并且片组包括一个或多个片。片包括整数个宏块，这些宏块在特定片组内的光栅扫描中连续排列。

H.264/AVC编码器的输出和H.264/AVC解码器的输入的基本单位是网络抽象层(NAL)单元。对部分或者毁坏的NAL单元的解码非常困难。为了通过面向分组的网络进行传播或者向结构化文件中进行存储，通常将NAL单元封装到分组或者类似结构中。在H.264/AVC中已经针对不提供成帧结构的传输或者存储环境指定了字节流格式。字节流格式通过在每个NAL单元前面附加起始码而将NAL单元相互分离。为了避免对NAL单元边界的错误检测，编码器必须运行面向字节的起始码预防歧义(emulation prevention)算法，其在未出现起始码时向NAL单元净荷添加预防歧义字节。为了支持面向分组的***与面向流的***之间的直接网关操作，无论是否正在使用字节流格式，总是执行起始码预防歧义。

H.264/AVC的比特流语法指示特定图像是否为用于任何其他图像的帧间预测的参考图像。因此，不用于预测的图像(非参考图像)可以被安全地处置。任何编码类型(I、P、B)的图像都可以是H.264/AVC中的非参考图像。NAL单元头指示NAL单元的类型以及包含在该NAL单元中的经编码片是参考图像还是非参考图像的一部分。

H.264/AVC指定用于经解码参考图像标记的过程以便控制解码器中的存储器消耗。在序列参数集合中确定被称为M的用于帧间预测的参考图像的最大数目。当参考图像被解码时，其被标记为“用于参考”。如果参考图像的解码使得多于M个图像被标记为“用于参考”，则至少一个图像必须被标记为“未用于参考(unused forreference)”。针对经解码参考图像标记存在两种类型的操作：自适应存储器控制和滑动窗口。基于图像来选择用于经解码参考图像标记的操作模式。自适应存储器控制使得能够明确表示哪个图像被标记为“未用于参考”并且还可以向短期参考图像分配长期索引。自适应存储器控制要求在比特流中存在存储器管理控制操作(MMCO)参数。如果滑动窗口操作模式在使用中并且有M个图像被标记为“用于参考”，则在被标记为“用于参考”的那些短期参考图像之中的作为被首先解码的图像的短期参考图像被标记为“未用于参考”。换言之，滑动窗口操作模式导致短期参考图像之中的先进先出缓冲操作。

H.264/AVC中的存储器管理控制操作之一使得除了当前图像以外的所有参考图像被标记为“未用于参考”。即时解码刷新(instantaneous decoding refresh，IDR)图像仅包含帧内编码片并且导致参考图像的类似的“重置”。

使用对参考图像列表的索引来指示用于帧间预测的参考图像。该索引使用可变长度编码进行编码，即，索引越小则相应的语法元素变得越短。针对H.264/AVC的每个双向预测片(bi-predictive slice)生成两个参考图像列表，并且针对H.264/AVC的每个帧间编码片形成一个参考图像列表。以两个步骤来构建参考图像列表：首先生成初始参考图像列表，并且继而可以通过包含在片头(slice header)中的参考图像列表重新排序(RPLR)命令对初始参考图像列表进行重新排序。RPLR命令指示被排序到相应的参考图像列表的开端的图像。

frame_num语法元素用于与多个参考图像有关的各种解码过程。要求IDR图像的frame_num的值为0。要求非IDR图像的frame_num的值等于在解码顺序中的前一参考图像的frame_num递增1(以模运算的形式，即在frame_num的最大值之后frame_num的值绕回0)。

在H.264/AVC的附录C中指定的假设参考解码器(HRD)用于检查比特流和解码器一致性。HRD包含经编码图像缓冲器(CPB)、即时解码过程、经解码图像缓冲器(DPB)以及输出图像修剪块(cropping block)。CPB和即时解码过程被类似地指定给任何其他视频编码标准，并且输出图像修剪块简单地修剪来自位于以信令通信的输出图像范围之外的经解码图像的那些样本。将DPB引入H.264/AVC中以便控制用于对一致的比特流进行解码所需的存储器资源。出于两个原因而缓存经解码图像，为了在帧间预测中参考和为了将经解码图像重新排序为输出顺序。由于H.264/AVC为参考图像标记和输出重新排序两者提供了极大的灵活性，因此用于参考图像缓冲和输出图像缓冲的分立的缓冲器可能是对存储器资源的浪费。因此，DPB包括用于参考图像和输出重新排序的统一经解码图像缓冲过程。当经解码图像不再用作参考和需要将其输出时，将其从DPB移除。允许比特流使用的DPB的最大尺寸在H.264/AVC的级别定义(附录A)中指定。

对于解码器存在两种类型的一致性：输出时序一致性和输出顺序一致性。对于输出时序一致性，解码器必须以与HRD比较而言相同的时间输出图像。对于输出顺序一致性，仅仅考虑输出图像的正确顺序。假设输出顺序DPB包含最大允许数目的帧缓冲器。当一个帧不再用作参考并且需要将其输出时将其从DPB移除。当DPB变满时，输出顺序中的最早帧被输出，直到至少一个帧缓冲器变为未被占用。

可以将NAL单元分类为视频编码层(VCL)NAL单元和非VCLNAL单元。VCL NAL单元是经编码片NAL单元、经编码片数据分块NAL单元或者VCL前缀NAL单元。经编码片NAL单元包含代表一个或多个经编码宏块的语法元素，其中每个经编码宏块对应于未压缩图像中的样本块。存在4种类型的经编码片NAL单元：即时解码刷新(IDR)图像中的经编码片、非IDR图像中的经编码片、辅助经编码图像(诸如alpha平面)的经编码片以及可分级扩展(SVC)中的经编码片。三个经编码片数据分块NAL单元的集合包含相同的语法元素作为经编码片。经编码片数据分块A包括片的运动向量以及宏块头，而经编码片数据分块B和C分别包括用于帧内宏块和帧间宏块的经编码残留数据。应当注意，在H.264/AVC的基本应用规范或高级应用规范中没有包括对片数据分块的支持。VCL前缀NAL单元先于SVC比特流中的基础层的经编码片，并且包含相关联的经编码片的可分级层级的指示。

非VCL NAL单元可以是以下类型之一：序列参数集合、图像参数集合、补充增强信息(SEI)NAL单元、访问单元定界符、序列NAL单元的末端、流NAL单元的末端或者填充符数据NAL单元。参数集合对于经解码图像的重建而言是必要的，而其他非VCL NAL单元对于经解码样本值的重建而言不是必需的并且服务于以下介绍的其他目的。在下述段落中深入地评述参数集合以及SEI NAL单元。其他非VCL NAL单元对于本文的范围而言不是必要的并因此而未被描述。

为了鲁棒地传递不频繁改变的编码参数，对H.264/AVC采用参数集合机制。通过经编码视频序列而保持不变的参数被包括在序列参数集合中。除了对于解码过程而言必要的参数，序列参数集合可选地可以包含视频可用性信息(VUI)，其包括对于缓冲、图像输出时序、渲染和资源保留而言重要的参数。图像参数集合包含很可能在若干经编码图像中都不改变的此类参数。在H.264/AVC比特流中不存在图像头，但是频繁改变的图像级数据在每个片头中重复并且图像参数集携载剩余的图像级参数。H.264/AVC语法允许图像参数集合和序列的许多实例，并且使用唯一的标识符来标识每个实例。每个片头包括对于包含该片的图像的解码而言为活跃的图像参数集合的标识符，并且每个图像参数集合包含活跃序列参数集合的标识符。因此，图像和序列参数集合的传输并不必须与片的传输准确同步。相反，在活跃序列和图像参数集合被参考前的任何时刻接收它们就足够了，这允许使用与用于片数据的协议相比更为可靠的传输机制来传输参数集合。例如，参数集合可以被包括作为用于H.264/AVC RTP会话的会话描述中的参数。推荐只要有可能，就在正使用的应用中使用频带外的可靠的传输机制。如果参数集合在频带内传输，则可以对它们进行重复以改进错误鲁棒性。

一个SEI NAL单元包含一个或者多个SEI消息，其并非是对输出图像的解码所需要的但是有助于相关过程，诸如图像输出时序、渲染、错误检测、错误隐藏以及资源保留。在H.264/AVC中指定了若干SEI消息，并且用户数据SEI消息支持团体和公司为了它们自己的使用而指定SEI消息。H.264/AVC包含用于指定的SEI消息的语法和语义，但是没有定义用于对接收方的消息进行处理的过程。因此，当编码器创建SEI消息时它们必须遵循H.264/AVC标准，而对于为了输出顺序一致性而处理SEI消息则并不需要解码器与H.264/AVC标准一致。在H.264/AVC中包括SEI消息的语法和语义的原因之一是为了允许不同***规范同一地解释补充信息并且因而互操作。旨在让***规范可以在编码端和在解码端两者中要求使用特定SEI消息，并且附加地可以指定用于处理接收方的特定SEI消息的过程。

经编码图像包括对该图像进行解码所必需的VCL NAL单元。经编码图像可以是主编码图像或者冗余编码图像。主编码图像在有效比特流的解码过程中使用，而冗余编码图像是冗余表示，其仅当主编码图像无法被成功解码时才应当被解码。

访问单元包括主编码图像和与其相关联的那些NAL单元。访问单元内的NAL单元的出现顺序被限定如下。可选访问单元定界符NAL单元可以指示访问单元的开始。其后接有0个或更多个SEI NAL单元。接着出现主编码图像的经编码片或者片数据分块，其后接有0个或者更多个冗余编码图像的经编码片。

经编码视频序列被定义为按照解码顺序的连续访问单元序列，该顺序为从一个IDR访问单元(含该单元)到下一IDR访问单元(不含该单元)或者到该比特流的末端，以更早出现的情况为准。

在H.264/AVC的最新发布(ITU-T推荐H.264(11/2007)，“Advanced video coding for generic audiovisual services”)的附录G中指定了SVC。

在可分级视频编码中，视频信号可以被编码为构建的基础层以及一个或多个增强层。增强层增强时间分辨率(即，帧速率)、空间分辨率或者简单地增强由另一层或其部分代表的视频内容的质量。每个层连同其所有从属层是在某个空间分辨率、时间分辨率和质量级别的视频信号的一个表示。在本文中，将可分级层连同其所有从属层称为“可分级层表示”。对应于可分级层表示的可分级比特流的部分可以被提取和解码以产生在某个保真度的原始信号的表示。

在某些情况中，可以在某个位置乃至任意位置之后将增强层中的数据截短，每个截短位置可以包括表示逐渐增强的视觉质量的附加数据。此类分级可以被称为细粒度(粒度)(fine-grained(granularity))分级(FGS)。应当指出，在最新的SVC草案中已经放弃了对FGS的支持，但该支持在较早的SVC草案中可用，例如，在JVT-U201，“Joint Draft 8 of SVC Amendment”(21st JVT meeting，Hangzhou，China，October 2006，其可从http://ftp3.itu.ch/av-arch/jvt-site/2006_10_Hangzhou/JVT-U201.zip获得)中可用。与FGS相反，由不能被截短的那些增强层提供的分级被称为粗粒度(粒度)(coarse-grained(granularity))分级(CGS)。其共同地包括传统的质量(SNR)可分级性和空间可分级性。SVC草案标准还支持所谓的中等粒度(粒度)(medium-grained(granularity))分级(MGS)，其中通过使quality_id语法元素大于0，将质量增强图像类似地编码为SNR可分级层图像但是由高级语法元素类似地指示为FGS层图像。

SVC使用层间预测机制，其中某些信息可以从除了当前重新构建的层或下一较低层以外的层预测。可以被层间预测的信息包括帧内纹理(intra texture)、运动和残留数据。层间运动预测包括块编码模式、头信息等的预测，其中来自较低层的运动可以用于较高层的预测。在帧内编码的情况下，可以根据周围宏块或者来自较低层的同等位置的宏块来进行预测。这些预测技术没有使用来自较早编码的访问单元的信息并且因此被称为帧内预测技术。此外，来自较低层的残留数据也可以用于当前层的预测。

SVC指定被称为单循环解码的概念。其通过使用受限的帧内纹理预测模式而被支持，从而层间帧内纹理预测可以被应用于宏块(MB)，对于该宏块，基础层的相应块位于帧内MB内。同时，基础层中的这些帧内MB使用受限帧内预测(例如，使语法元素“constrained_intra_pred_flag”等于1)。在单循环解码中，解码器仅针对期望用于回放的可分级层(称为“期望层”或者“目标层”)执行运动补偿和完全图像重建，从而极大地降低了解码复杂性。除了期望层之外的所有层均不需要被完全解码，这是因为对于期望层的重建而言不需要不用于层间预测(无论是层间帧内纹理预测、层间运动预测还是层间残留预测)的MB的全部数据或部分数据。

对于大多数图像的解码需要单个解码循环，而第二解码循环选择性地应用于重建基础表示，其需要用作预测参考而不是用于输出或者显示，并且仅针对所谓的关键图像(针对关键图像，“store_base_rep_flag”等于1)而被重建。

SVC草案中的可分级结构以三个语法元素表征：“temporal_id”、“dependency_id”和“quality_id”。语法元素“temporal_id”用于指示时间可分级层级或间接地指示帧速率。包括较小最大“temporal_id”值的图像的可分级层表示比包括较大最大“temporal_id”的图像的可分级层表示具有更小的帧速率。给定的时间层通常取决于较低时间层(即，具有较小“temporal_id”值的时间层)而并不取决于任何较高时间层。语法元素“dependency_id”用于指示CGS层间编码从属层级(其如前文所提及，包括SNR和空间可分级性两者)。在任何时间层位置，较小“dependency_id”值的图像可以用于针对具有较大“dependency_id”值的图像的编码的层间预测。语法元素“quality_id”用于指示FGS或者MGS层的质量级别层级。在任何时间位置，并且伴随相同的“dependency_id”值，具有等于QL的“quality_id”的图像使用具有等于QL-1的“quality_id”的图像用于层间预测。具有大于0的“quality_id”的经编码片可以被编码为可截短FGS片或者不可截短MGS片。

为简单起见，一个访问单元中具有相同的“dependency_id”值的所有数据单元(例如，SVC上下文中的网络抽象层单元或者NAL单元)被称为从属单元或者从属表示。在一个从属单元内，具有相同的“quality_id”值的所有数据单元被称为质量单元或者层表示。

基础表示(也称为经解码基础图像)是通过对具有等于0的“quality_id”并且“store_base_rep_flag”设置为等于1的从属单元的视频编码层(VCL)NAL单元进行解码而产生的经解码图像。增强表示(也称为经解码图像)是通过常规解码过程而产生的，在该过程中对为了最高从属表示而存在的所有的层表示进行解码。

在SVC比特流中，每个H.264/AVC VCL NAL单元(NAL单元类型在1至5的范围中)之前是前缀NAL单元。兼容的H.264/AVC解码器实现方式忽略前缀NAL单元。前缀NAL单元包括“temporal_id”值并且因此对基础层进行解码的SVC解码器可以从前缀NAL单元得知时间可分级层级。此外，前缀NAL单元包括用于基础表示的参考图像标记命令。

SVC使用与H.264/AVC相同的机制来提供时间可分级性。时间可分级性通过给予调整帧速率的灵活性而在时间域中提供对视频质量的精细化。在随后的段落中提供对时间可分级性的评述。

向视频编码标准引入的最早的可分级性是在MPEG-1 Visual中伴随B图像的时间可分级性。在这个B图像概念中，从两个图像双向预测出B图像，一个图像在B图像之前而另一个图像在B图像之后，它们二者都按照显示顺序。在双向预测中，对两个参考图像中的两个预测块进行采样宽度求平均以获得最终的预测块。传统上，B图像是非参考图像(即，其不由其他图像用于图像间预测参考)。因此，B图像可以被丢弃以实现具有较低帧速率的时间可分级点。在MPEG-2 Video、H.263和MPEG-4 Visual中保留了同样的机制。

在H.264/AVC中，B图像或者B片的概念已经被改变。B片的定义如下：使用至多两个运动向量和参考索引预测每个块的样本值，可以使用帧内预测从同一片内的经解码样本或使用帧间预测从之前解码的参考图像进行解码的片。

传统的B图像概念的双向预测性质和非参考图像性质两者均不再有效。可以从按照显示顺序的相同方向上的两个参考图像预测B片中的块，并且包括B片的图像可以由其他图像参考以供图像间预测。

在H.264/AVC、SVC和MVC中，时间可分级性可以通过使用非参考图像和/或层级图像间预测结构实现。通过丢弃非参考图像，仅使用非参考图像能够实现类似于使用MPEG-1/2/4中的传统B图像的时间可分级性。层级编码结构可以实现更灵活的时间可分级性。

现在参考图1，其示出了具有4级时间可分级性的示例性层级编码结构。显示顺序由被表示为图像顺序计数(POC)210的值指示。I或P图像(诸如I/P图像212，也被称为关键图像)被编码成按照解码顺序的图像组(GOP)214的第一图像。当关键图像(例如，关键图像216、218)被帧间编码时，之前的关键图像212、216被用作针对图像间预测的参考。这些图像对应于时间可分级结构中的最低时间级别220(在图中表示为TL)并且与最低帧速率相关联。较高时间级别的图像可以仅使用相同或者更低时间级别的图像以供图像间预测。使用此类层级编码结构，可以通过丢弃某些时间级别值和超过部分的图像来实现对应于不同帧速率的不同时间可分级性。在图1中，图像0、8和16是最低时间级别的，而图像1、3、5、7、9、11、13和15是最高时间级别的。其他图像被分层地分配有其他时间级别。这些不同时间级别的图像组成不同帧速率的比特流。当对所有时间级别进行解码时，获得30Hz的帧速率。通过丢弃某些时间级别的图像可以获得其他帧速率。最低时间级别的图像与3.75Hz的帧速率相关联。具有较低时间级别或者较低帧速率的时间可分级层也被称为较低时间层。

以上描述的层级B图像编码结构是最典型的时间可分级性的编码结构。然而，应当注意，灵活得多的编码结构是可能的。例如，随着时间的推移GOP尺寸可能不是恒定的。在另一示例中，时间增强层图像并不必须被编码为B片，它们也可以被编码为P片。

在H.264/AVC中，可以通过子序列信息补充增强信息(SEI)消息用信令发送时间级别。在SVC中，在网络抽象层(NAL)单元头中通过语法元素“temporal_id”用信令发送时间级别。在可分级性信息SEI消息中用信令发送针对每个时间级别的比特率和帧速率信息。

子序列代表可以被去除而不会影响剩余比特流的解码的相互从属图像的数目。经编码比特流中的图像可以按照多种方式组织为子序列。在大多数应用中，单一结构的子序列就足够了。

如前文所提及，CGS包括空间可分级性和SNR可分级性两者。空间可分级性被初始地设计用于支持具有不同分辨率的视频的表示。对于每个时间实例，在同一访问单元中对VCL NAL单元进行编码并且这些VCL NAL单元可以对应于不同的分辨率。在解码期间，低分辨率VCL NAL单元提供运动场(motion field)和残留，其可以可选地被高分辨率图像的最终解码和重建所继承。当与更早的视频压缩标准比较时，SVC的空间可分级性被概括为支持基础层成为增强层的经修剪和经缩放版本。

与FGS质量层类似地用“quality_id”指示MGS质量层。对于每个从属单元(具有相同的“dependency_id”)，存在具有等于0的“quality_id”的层并且可以有“quality_id”大于0的其它层。这些“quality_id”大于0的层是MGS层或者FGS层，这取决于片是否被编码为可截短的片。

在FGS增强层的基本形式中，仅使用层间预测。因此，FGS增强层可以被自由地截短而不会在经解码序列中引起任何错误传播。然而，FGS的基本形式遭受低压缩效率之害。该问题由于仅有低质量图像用于帧间预测参考而产生。因此，已经提议将FGS增强图像用做帧间预测参考。然而，当某些FGS数据被丢弃时，这引起编码-解码不匹配，也称为漂移(drift)。

SVC的一个重要特征在于FGS NAL单元可以被自由地放弃或者截短，并且MGS NAL单元可以被自由地放弃(但是无法被截短)而不会影响比特流的一致性。如以上讨论的，当这些FGS或者MGS数据在编码期间用于帧间预测参考时，数据的放弃或者截短将导致解码器侧中和编码器侧中的经解码图像之间的不匹配。这种不匹配也称为漂移。

为了控制由于对FGS或者MGS数据的放弃或者截短而产生的漂移，SVC应用以下解决方案：在某个从属单元中，将基本表示(通过仅对“quality_id”等于0的CGS图像和所有从属的较低层数据进行解码)存储在经解码图像缓冲器中。当对具有相同“dependency_id”值的随后的从属单元进行编码时，包括FGS或者MGS NAL单元在内的所有NAL单元使用基本表示以供帧间预测参考。因此，在较早的访问单元中由于FGS或者MGS NAL单元的放弃或者截短而产生的所有漂移均在这一访问单元中被停止。对于具有相同“dependency_id”值的其他从属单元，为了高编码效率，所有NAL单元均使用经解码图像以供帧间预测参考。

每个NAL单元在NAL单元头中包括语法元素“use_base_prediction_flag”。当这一元素的值等于1时，对NAL单元的解码在帧间预测过程中使用参考图像的基本表示。语法元素“store_base_rep_flag”指定是(当等于1时)否(当等于0时)存储当前图像的基本表示以供将来的图像用于帧间预测。

具有大于0的“quality_id”的NAL单元不包含关于参考图像列表构建和加权预测的语法元素，即，不存在语法元素“num_ref_active_lx_minus1”(x＝0或者1)、参考图像列表重新排序语法表以及加权预测语法表。因此，MGS或者FGS层在需要时必须从同一从属单元的具有等于0的“quality_id”的NAL单元继承这些语法元素。

通过使用基本表示和经解码图像的加权组合预测FGS数据，漏预测技术利用基本表示和经解码图像(对应于最高经解码“quality_id”)两者。加权因数可以用于控制增强层图像中的潜在漂移的衰减。在H.C.Huang，C.N.Wang和T.Chiang，“A robust finegranularity scalability using trellis-based predictive leak，”(IEEE Trans.Circuits Syst.Video Technol.，vol.12，pp.372-385，Jun.2002)中可以找到关于漏预测的更多信息。

当使用漏预测时，SVC的FGS特征通常被称为自适应参考FGS(AR-FGS)。AR-FGS是用于在编码效率与漂移控制之间进行平衡的工具。AR-FGS通过加权因数的MB级别自适应和片级别信令发送来支持漏预测。关于AR-FGS的成熟版本的更多细节可以在以下文献中找到：JVT-W119：Yiliang Bao，Marta Karczewicz，Yan Ye“CE1report：FGS simplification，”(JVT-W119，23rd JVT meeting，San Jose，USA，April 2007，可以从ftp3.itu.ch/av-arch/jvt-site/2007_04_SanJose/JVT-W119.zip获得)。

随机访问是指解码器在除了流的开端之外的点开始对流进行解码以及恢复经解码图像的精确的或者近似的表示的能力。随机访问点和恢复点表征了随机访问操作。随机访问点是在该处可以发起解码的任何经编码图像。按照输出顺序的位于恢复点或者在恢复点之后的所有经解码图像在内容上是正确的或者近似正确的。如果随机访问点与恢复点相同，则随机访问操作是即时的，否则是逐步的。

随机访问点支持本地存储的视频流中的寻找、快进和快退操作。在视频点播流(video on-demand streaming)中，服务器可以通过从最接近寻找操作的所请求目的地的随机访问点开始传输数据来响应该寻找请求。在不同比特率的经编码流之间切换是通常在单播流中使用以供因特网对传输比特率和预期的网络吞吐量进行匹配并且避免网络中的拥塞的方法。在随机访问点可以切换到另一流。此外，随机访问点支持调谐到广播或者多播。另外，随机访问点可以被编码为对来源序列中的场景切换(scene cut)的响应或者编码为对帧内图像更新请求的响应。

传统上，每个帧内图像是经编码序列中的随机访问点。针对帧间预测引入多个参考图像使得帧内图像可能不足以用于随机访问。例如，按照解码顺序在帧内图像之前的经解码图像可以用作对于按照解码顺序在帧内图像之后的帧间预测的参考图像。因此，如在H.264/AVC标准中指定的IDR图像或者具有与IDR图像类似性质的帧内图像必须被用作随机访问点。封闭图像组(GOP)是这样的图像组：即，在其中所有图像均可以被正确解码。在H.264/AVC中，封闭GOP从IDR访问单元开始(或者伴随将所有之前的参考图像标记为未使用的存储器管理控制操作，从帧内经编码图像开始)。

开放图像组(GOP)是这样的图像组：即，在其中按照输出顺序在初始帧内图像之前的图像可能无法被正确解码但在初始帧内图像之后的图像可被正确解码。H.264/AVC解码器可以识别从H.264/AVC比特流中的恢复点SEI消息开始开放GOP的帧内图像。在开始开放GOP的初始帧内图像之前的图像被称为引导图像(leading picture)。存在两种类型的引导图像：可解码的和不可解码的。可解码引导图像是这样的引导图像：即，当从开始开放GOP的初始帧内图像开始解码时其可以被正确解码。换言之，可解码引导图像仅使用按照解码顺序的初始帧内图像或者后续图像作为帧间预测中的参考。不可解码引导图像是这样的引导图像：即，当从开始开放GOP的初始帧内图像开始解码时其无法被正确解码。换言之，不可解码引导图像使用按照解码顺序的在开始开放GOP的初始帧内图像之前的图像作为帧间预测中的参考。ISO基本媒体文件格式(版本3)的草案修正案1包括对于指示可解码和不可解码引导图像的支持。

应当注意，在随机访问的上下文中使用的术语GOP与在SVC的上下文中使用的不同。在SVC中，GOP是指从具有等于0(含)的temporal_id的图像到具有等于0(不含)的temporal_id的下一图像的图像组。在随机访问上下文中，GOP是无论按照解码顺序的任何较早图像是否已经被解码，都可以被解码的图像组。

逐步解码刷新(GDR)是指在非IDR图像开始解码以及在对某个数量的图像进行解码之后恢复在内容上正确的经解码图像的能力。即，GDR可以用于从非帧内图像实现随机访问。用于帧间预测的某些参考图像可能在随机访问点与恢复点之间不可用，并且因此在逐步解码刷新周期中的经解码图像的某些部分无法被正确重建。然而，这些图像不用于在恢复点处或在恢复点之后的预测，其结果是从恢复点开始的无错经解码图像。

很明显地，与即时解码刷新相比，逐步解码刷新对于编码器和解码器两者而言都更加不便。然而，由于以下两个事实，逐步解码刷新在容易出现错误的环境中可能是期望的：第一，经解码帧内图像通常显著地大于经解码非帧内图像。这使得帧内图像比非帧内图像更容易出现错误，并且错误很可能随时间传播，直到损坏的宏块位置被帧内编码。第二，在容易出现错误的环境中使用帧内编码的宏块以停止误差传播。因此，在例如运作在容易出现错误的传输信道上的视频会议和广播视频应用中组合用于随机访问和用于误差传播阻止的帧内宏块编码是有意义的。在逐步解码刷新中利用这种结论。

可以使用隔离区域编码(isolated region coding)方法来实现逐步解码刷新。图像中的隔离区域可以包含任何宏块位置，并且图像可以包含不重叠的0个或更多个隔离区域。残余区域是未被图像的任何隔离区域覆盖的图像区域。当对隔离区域进行编码时，不能跨其边界进行图像内预测。可以从同一图像的隔离区域预测残余区域。

可以在不存在同一经编码图像的任何其他隔离区域或者残余区域的情况下对经编码隔离区域进行解码。可能必须对图像在残余区域之前的所有隔离区域进行解码。隔离区域或者残余区域包括至少一个片。

将根据彼此来预测隔离区域的图像编组为隔离区域图像组。一个隔离区域可以从同一隔离区域图像组内的其他图像中的相应隔离区域帧间预测出，而从其他隔离区域或者隔离区域图像组外的帧间预测是不允许的。残余区域可以从任何隔离区域帧间预测。耦合的隔离区域的形状、位置和尺寸可以从隔离区域图像组中的一个图像到下一图像演进。

演进的隔离区域可以用于提供逐步解码刷新。在图像中的随机访问点建立新的演进隔离区域，并且隔离区域中的宏块被帧内编码。隔离区域的形状、尺寸和位置从一个图像到下一图像演进。一个隔离区域可以从逐步解码刷新周期中的较早图像中的相应隔离区域帧间预测出。当隔离区域覆盖整个图像区时，当从随机访问点开始解码时获得在内容上完全正确的图像。这一过程也可以概括为包括最终覆盖整个图像区的不止一个演进隔离区域。

可能存在诸如恢复点SEI消息之类的特制频带内信令以指示用于解码器的逐步随机访问点和恢复点。此外，恢复点SEI消息包括是否在随机访问点和恢复点之间使用演进隔离区域以提供逐步解码刷新的指示。

RTP用于传输连续媒体数据，诸如基于因特网协议(IP)的网络中的经编码音频和视频流。实时传输控制协议(RTCP)是RTP的配套，即当网络和应用基础结构允许使用RTCP时，应当使用RTCP来补充RTP。RTP和RTCP通常通过用户数据报协议(UDP)传递，UDP又通过因特网协议(IP)传递。RTCP用于监控网络提供的服务质量以及传递关于在正进行的会话中的参与者的信息。RTP和RTCP设计用于范围从一对一通信到数千个端点的大型多播组的会话。为了控制由多方会话中的RTCP分组产生的总比特率，由单个端点传输的RTCP分组的传输间隔与会话中的参与者数目成比例。每个媒体编码格式具有特定RTP净荷格式，其指定如何将媒体数据构建到RTP分组的净荷中。

可用媒体文件格式标准包括ISO基本媒体文件格式(ISO/IEC14496-12)、MPEG-4文件格式(ISO/IEC 14996-14，也称为MP4格式)、AVC文件格式(ISO/IEC 14496-15)、3GPP文件格式(3GPPTS 26.244，也称为3GP格式)和DVB文件格式。ISO文件格式是用于衍生所有上述文件格式(除了ISO文件格式自身以外)的基础。这些文件格式(包括ISO文件格式自身)被称为ISO文件格式族。

图2示出了根据ISO基本媒体文件格式的简化文件结构230。ISO基本媒体文件格式中的基本构造块(building block)被称为盒(box)。每个盒具有头和净荷。盒头指示盒的类型以及以字节为单位的盒的大小。一个盒可以封入其它盒，并且ISO文件格式指定在某种类型的盒中允许哪些盒类型。此外，某些盒必须存在于每个文件中，而其他盒是可选的。此外，对于某些盒类型，允许在一个文件中存在不止一个盒。可以推断出ISO基本媒体文件格式指定盒的层级结构。

根据ISO文件格式族，文件包括被分别封入独立的盒(媒体数据(mdat)盒与电影(moov)盒)中的媒体数据和元数据。为使文件具有可操作性，这些盒必须全都存在。电影盒可以包含一个或者多个轨道，并且每个轨道位于一个轨道盒中。轨道可以是以下类型之一：媒体、提示(hint)、定时元数据。媒体轨道是指根据媒体压缩格式(及其对ISO基本媒体文件格式的封装)格式化的样本。提示轨道是指提示样本，其包含用于针对通过所指示的通信协议的传输来构建分组的细则指令(cookbook instruction)。细则指令可以包含用于分组头构建并且包括分组净荷构建的指导。在分组净荷构建中，位于其他轨道或者项目中的数据可以被参考，即，通过参考来指示在分组构建过程期间将特定轨道或者项目中的哪部分数据复制到分组中。定时元数据轨道是指描述所参考的媒体和/或提示样本的样本。为了表示一个媒体类型，通常选择一个媒体轨道。轨道的样本隐式地与按照样本的所指示的解码顺序递增1的样本编号相关联。

轨道中的第一样本与样本编号1相关联。应当注意，这一假定影响以下某些公式，并且对于本领域技术人员而言，相应地针对样本编号的其他起始偏移(诸如0)而修改公式是显而易见的。

应当注意，ISO基本媒体文件格式并未将表示限制为包含在一个文件中，而是可以包含在几个文件中。一个文件包含用于整个表示的元数据。这种文件也可以包含所有媒体数据，因此该表示是自包含的。其他文件(如果使用的话)并不需要格式化为ISO基本媒体文件格式，而是用于包含媒体数据，并且还可以包含未使用媒体数据或者其他信息。ISO基本媒体文件格式仅涉及表示文件的结构。媒体数据文件的格式限于ISO基本媒体文件格式或其衍生格式之处仅仅在于媒体文件中的媒体数据必须被按照ISO基本媒体文件格式或其衍生格式所指定的那样进行格式化。

当将内容记录至ISO文件时可以使用电影片段，以便在一旦记录应用崩溃、耗尽磁盘或者发生某些其他事件发生时避免丢失数据。如果没有电影片段，则可能发生数据丢失，这是因为文件格式要求将所有元数据(电影盒)写入文件的一个连续区域。此外，当记录文件时，可能不存在足够量的随机访问存储器(RAM)以缓存针对可用存储尺寸的电影盒，并且在电影被关闭时重新计算电影盒的内容过于缓慢。此外，电影片段可以使用常规ISO文件分析器支持文件的同时记录和回放。最后，对于渐进的下载(即，当使用电影片段并且初始电影盒与具有相同媒体内容但没有使用电影片段进行构建的文件相比更小时，文件的同时接收和回放)需要较小持续时间的初始缓冲。

电影片段特征使得能够将传统上会位于moov盒中的元数据分为多个片，其中每个对应于轨道的某个时段。换言之，电影片段特征使得能够交织文件元数据和媒体数据。因此，可以限制moov盒的大小并且可以实现上述用例。

如果电影片段的媒体样本与moov盒位于同一文件中，则它们通常位于mdat盒中。然而，对于电影片段的元数据，提供了moof盒。其包括在回放时间的某个持续时间内之前已经在moov盒中的信息。moov盒独立地表示有效电影，但是除此之外，其包括指示电影片段将在同一文件中后接的mvex盒。电影片段及时扩展与moov盒相关联的表示。

可以包括在moof盒中的元数据限于可以包括在moov盒中的元数据的子集并且在某些情况下被不同地编码。可以包括在moof盒中的盒的细节可以从ISO基本媒体文件格式规范中找到。

现在参照图3和图4，其示出了对盒中的样本编组的使用。在ISO基本媒体文件格式及其衍生格式(诸如AVC文件格式和SVC文件格式)中的样本分组是基于编组准则的对轨道中将成为一个样本组的成员的每个样本的分配。样本编组过程中的样本组不限于是连续的样本并且可以包括非相邻样本。由于对于轨道中的样本可能存在不止一种样本编组，每个样本编组均具有类型字段以指示编组的类型。样本编组由两种链接的数据结构表示：(1)SampleToGroup盒(sbgp盒)表示向样本组分配样本；以及(2)SampleGroupDescription盒(sgpd盒)包含每个样本组的描述该组的性质的样本组条目。基于不同的分组准则，可以存在SampleToGroup盒和SampleGroupDescription盒的多种实例。它们由用于指示编组的类型的类型字段来区分。

图3提供了指示样本分组盒的嵌套结构的简化的盒层级。样本组盒(SampleGroupDescription盒和SampleToGroup盒)位于样本表(stbl)盒内，其封入到电影(moov)盒内的媒体信息(minf)盒、媒体(mdia)盒和轨道(trak)盒中(按照此顺序)。

允许SampleToGroup盒位于电影片段中。因此，可以片段接片段地完成样本编组。图4示出了包含有包括SampleToGroup盒的电影片段的文件的示例。

纠错是指完美地恢复有错误数据使得如同没有错误曾经存在于所接收的比特流中一样的能力。错误隐藏是指隐藏由于传输错误产生的劣化从而使得它们在重建的媒体信号中变得几乎不能被察觉的能力。

前向纠错(FEC)是指发射机向所传输数据添加冗余(通常被称为奇偶校验或者修复符号)以支持接收机在即使有传输错误的情况下恢复所传输数据的那些技术。在***FEC代码中，原始比特流表现为与经编码符号中的一样，而使用非***代码进行的编码并不重建原始比特流作为输出。将在其中附加冗余提供用于对丢失内容进行近似估算的装置的方法分类为前向错误隐藏技术。

在信源编码层之下操作的前向错误控制方法通常是不知晓编解码器或媒体的，即冗余是这样的：其不需要分析语法或者对经编码媒体进行解码。在不知晓媒体的前向错误控制中，纠错代码(诸如Reed-Solomon代码)用于修改发送器侧的信源信号，从而使得所传输信号变得鲁棒(即，即使某些错误攻击了所传输的信号，接收方也可以恢复信源信号)。如果所传输的信号包含这样的信源信号，则纠错代码是***的，否则它是非***的。

不知晓媒体的前向错误控制方法通常由以下因子表征：

k＝在其上计算代码的块中的元素(通常是字节或者分组)的数目；

n＝被发送的元素的数目；

因此n-k是纠错代码带来的开销；

k’＝在不存在传输错误的条件下需要被接收以重建源块的元素的必需数目；以及

t＝代码可以恢复的(每个块的)被擦除元素的数目

不知晓媒体的错误控制方法还可以按照自适应方式应用(其也可以是知晓媒体的)，从而使得仅使用纠错代码处理一部分源样本。例如，视频比特流的非参考图像可以不受保护，因为攻击非参考图像的任何传输错误均不向其他图像传播。

知晓媒体的前向错误控制方法和不知晓媒体的前向错误控制方法中重建源块所不需要的n-k’个元素的冗余表示在本文中被统称为前向错误控制开销。

当传输为时间片形式的或者当FEC编码已经应用在多路访问单元上时，本发明可应用于接收器。因此，在本部分中介绍两个***：数字视频广播-手持(DVB-H)和3GPP多媒体广播/多播服务(MBMS)。

DVB-H基于DVB-地面(DVB-T)并与其兼容。DVB-H中关于DVB-T的扩展使得在手持设备中接收广播服务成为可能。

在图5中呈现了用于DVB-H的协议栈。IP分组被封装到用于在介质访问(MAC)子层上传输的多协议封装(MPE)部分。每个MPE部分包括头、作为净荷的IP数据报以及用于净荷完整性验证的32字节循环冗余校验(CRC)。MPE部分头包含寻址数据和其他数据。MPE部分可以被逻辑地布置到逻辑链接控制(LLC)子层中的应用数据表，在该LLC子层上计算Reed-Solomon(RS)FEC代码并且形成MPE-FEC部分。以下更为详细地说明用于MPE-FEC构建的过程。MPE和MPE-FEC部分被映射到MPEG-2传输流(TS)分组上。

MPE-FEC被包括在DVB-H中用于对抗在物理层中无法被有效纠正的长突发错误(long burst error)。由于Reed-Solomon代码是***代码(即，源数据在FEC编码中保持不变)，因此MPE-FEC解码对于DVB-H终端而言是可选的。在IP分组上计算MPE-FEC修复数据并且并将其封装到MPE-FEC部分中，其以这样的方式传输：即，不知道MPE-FEC的接收器可以仅仅接收未受保护的数据而忽略接下来的修复数据。

为了计算MPE-FEC修复数据，IP分组按列填充到N x 191矩阵中，其中该矩阵的每个单元包含一个字节并且N表示矩阵中的行的数目。该标准将N的值限定为256、512、768或1024之一。针对每行计算RS代码并将其连结起来，从而使得矩阵的最终大小为N x255这一大小。矩阵的N x 191部分被称为应用数据表(ADT)并且矩阵的接下来的N x 64部分被称为RS数据表(RSDT)。ADT不需要被完全填充，必须使用ADT来避免两个MPE-FEC帧之间的IP分组碎裂，并且其还可以被用于控制比特率和错误保护强度。ADT的未填充部分被称为补白(padding)。为了控制FEC保护的强度，无需传输RSDT的所有64列，即RSDT可以被穿刺(puncture)。在图6中示出了MPE-FEC帧的结构。

移动设备具有有限的功率源。在对标准全带宽DVB-T信号进行的接收、解码和解调中消耗的功率将在短时间内使用大量电池寿命。对MPE-FEC帧的时间分片用于解决这一问题。数据被突发地接收，从而使得使用控制信号的接收器在没有要接收的脉冲(burst)时保持不活动。以与在脉冲中携带的媒体流的比特率相比显著更高的比特率发送该脉冲。

MBMS可以被功能性地分为载体服务和用户服务。MBMS载体服务指定IP层之下的传输过程，而MBMS用户服务指定IP层之上的协议和过程。MBMS用户服务包括两种递送方法：下载和流式。本部分提供了MBMS流式递送方法的简短概述。

MBMS的流式递送方法使用基于RTP的协议栈。由于服务的广播/多播性质，没有使用诸如中继之类的交互式错误控制特征。作为替代，MBMS包括用于流媒体的应用层FEC方案。该方案基于具有两种分组类型(FEC源分组和FEC修复分组)的FEC RTP净荷格式。FEC源分组包含根据后接有源FEC净荷ID字段的媒体RTP净荷格式的媒体数据。FEC修复分组包含修复FEC净荷ID和FEC编码符号(即，修复数据)。FEC净荷ID指示净荷与哪个FEC源块相关联以及FEC源块中的分组的头和净荷的位置。FEC源块包含条目，每个条目具有1字节的流标识符、2字节长度的后接UDP净荷，以及UDP净荷，即，包括RTP头但不包括任何底层分组头的RTP分组。对于每对目的地UDP端口数目和目的地IP地址是唯一的流标识符支持对具有相同FEC编码的多个RTP流的保护。这与由相同时间段内的单一RTP流组成的FEC源块相比支持更大的FEC源块，并且因此可以改进错误鲁棒性。然而，接收器必须接收全部的捆绑流(bundled flow)(即RTP流)，即使只有流的子集属于相同的多媒体服务。

发送器中的处理可以被概况如下：由媒体编码器和封装器生成的原始媒体RTP分组被修改成指示FEC净荷的RTP净荷类型并且附加有源FEC净荷ID。使用普通RTP机制发送经修改的RTP分组。原始媒体RTP分组还被复制到FEC源块中。一旦FEC源块被RTP分组填充，则应用FEC编码算法来计算同样使用普通RTP机制发送的FEC修复分组的数目。***Raptor代码被用作MBMS的FEC编码算法。

在接收器处，与相同FEC源块相关联的所有FEC源分组和FEC修复分组被收集并且FEC源块被重建。如果存在丢失的FEC源分组，则可以基于FEC修复分组和FEC源块来应用FEC解码。当所接收的FEC修复分组的恢复能力足够时，FEC解码导致任何丢失的FEC源分组的重建。继而由媒体净荷解封装器和解码器常规地处理所接收或者所恢复的媒体分组。

自适应媒体播放是指根据其捕捉速率以及因此预期的播放速率对媒体播放的速率进行自适应。在文献记载中，自适应媒体播放主要用于消除低延迟会话应用(网络电话、视频电话和多方语音/视频会议)中的传输延迟抖动以及调整来源与播放设备之间的时钟漂移。在流式和电视类的广播应用中，初始缓冲用于消除潜在的延迟抖动以及因此自适应媒体播放未用于这些目的(但仍可以用于时钟漂移调整)。音频时标修改(参见以下)在文献记载中中还用于水印、数据嵌入以及视频浏览。

实时媒体内容(通常是音频和视频)可以被分类为连续的或者半连续的。连续媒体连续地并且活跃地改变，示例为电视节目或者电影的音乐和视频流。半连续媒体的特征在于具有不活跃时段。具有静音检测的语音是广泛使用的半连续媒体。从自适应媒体播放的观点来说，这两种媒体内容类型的主要差异在于半连续媒体的不活跃时段的持续时间可以被容易地调整。相反，连续音频信号必须按照察觉不到的方式进行修改，例如通过对各种时标修改方法进行采样。对于连续和半连续音频两者的一个自适应音频播放算法的参考是Y.J.Liang，

和B.Girod，“Adaptive playout scheduling usingtime-scale modification in packet voice communications”(Proceedingsof IEEE International Conference on Acoustics，Speech，and SignalProcessing，vol.3，pp.1445-1448，May 2001)。用于连续音频信号的时标修改的各种方法可以在该文献中找到。根据[J.Laroche，“Autocorrelation method for high-quality time/pitch-scaling”，Proceedings of IEEE Workshop on Applications of Signal Processing toAudio and Acoustics，pp.131-134，Oct.1993]，发现多达15％的时标修改几乎不生成可听伪差。应当注意，视频的自适应播放是没有问题的，这是因为通常根据音频播放时钟对经解码视频图像进行定速。

已经注意到，自适应媒体播放不仅对于消除传输延迟抖动而言是需要的，而且其还需要在使用中与前向纠错方案一起被优化。换言之，当对媒体的播放进度进行确定时，必须考虑接收针对FEC块的所有数据的固有延迟。关于此主题的一篇文章是J.Rosenberg，Q.Lili和H.Schulzrinne，“Integrating packet FEC into adaptive voiceplayout buffer algorithms on the Internet”(Proceedings of the IEEEComputer and Communications Societies Conference(INFOCOM)，vol.3，pp.1705-1714)。就发明人所知，在科学文献中仅仅针对会话应用考虑了针对FEC块接收延迟和传输延迟抖动而联合设计的自适应媒体播放算法。

建议使用由H.264/AVC和SVC支持的多级时间分级层级，这是由于它们的压缩效率显著提高。然而，多级层级还导致解码的开始与渲染的开始之间的显著延迟。该延迟是由于经解码图像必须从其解码顺序重新排序成输出/显示顺序这一事实而造成的。因此，当从随机位置对流进行访问时，启动延迟增加，并且类似地，与非层级时间分级的情况相比，对多播或者广播的调谐延迟增加。

图7(a)-图7(c)示出了具有5个时间级别(也称为GOP尺寸16)的典型层级可分级比特流。在时间级别0处的图像根据时间级别0处的先前图像来预测。时间级别N(N＞0)处的图像根据按照输出顺序在时间级别＜N处的先前和随后的图像来预测。假设在这一示例中，对一个图像的解码持续一个图像间隔。尽管这是幼稚的假设，其也能服务于说明问题而不丧失一般性的目的。

图7a示出了按照输出顺序的示例序列。在盒中封入的值指示图像的frame_num值。斜体字的值指示非参考图像而其他图像是参考图像。

图7b示出了按照解码顺序的示例序列。图7c示出了当假设输出时间线与解码时间线一致时按照输出顺序的示例序列。换言之，在图7c中，图像的最早输出时间在跟随图像的解码的下一图像间隔中。可以看到，流回放的开始比流解码的开始晚5个图像间隔。如果以25Hz对图像进行采样，则图像间隔是40毫秒，并且回放延迟0.2秒。

层级时间可分级性在现代视频编码(H.264/AVC和SVC)中的应用改进了压缩效率但由于将经解码图像从编码(解码)顺序重新排序为输出顺序而增加了解码延迟。在层级时间可分级性中可以省略对所谓的子序列的解码。根据本发明的实施方式，当解码或者传输在随机访问后开始、在流起始处开始或者当调谐到广播/多播时，省略对所选择子序列的解码或者传输。因此，避免了用于将这些所选择的经解码图像重新排序成它们的输出顺序的延迟并且减小了启动延迟。因此，本发明的实施方式可以在访问视频流或者切换广播的信道时改进响应时间(并且因而改进用户体验)。

本发明的实施方式可应用于其中对比特流的开头的访问快于导致以普通速率回放的比特流的自然解码速率的播放器。此类播放器的示例是来自大容量存储器的流回放、接收时分复用突发传输(诸如DVB-H移动电视)以及对其中已在若干媒体帧上应用前向纠错(FEC)并且执行FEC解码的流的接收(例如，MBMS接收器)。

播放器选择不对比特流的哪个子序列进行解码。

本发明的实施方式还可以由服务器或者发送器应用以供单播递送。当接收器开始接收比特流或者从期望的位置访问比特流时，发送器选择向接收器传递比特流的哪个子序列。

本发明的实施方式还可以由创建指令以供从所选择的随机访问位置访问多媒体文件的文件生成器应用。该指令可以在本地回放中应用或者在封装比特流以供单播递送时应用。

当接收器加入多播或者广播时也可以应用本发明的实施方式。作为对加入多播或者广播的响应，接收器可以通过单播递送获得关于为了加速启动而应当对哪个子序列进行解码的指令。在某些实施方式中，关于为了加速启动而应当对哪个子序列进行解码的指令可以包括在多播或者广播流中。

现在参考图8，其示出了本发明的一个实施方式的示例实现方式。在块810处，在处理单元可以访问的那些访问单元中标识第一可解码访问单元。可以按照例如以下方式中的一种或多种方式来定义可解码访问单元：

-IDR访问单元；

-具有IDR从属表示的SVC访问单元，其dependency_id小于访问单元的最大dependency_id；

-包含锚定图像的MVC访问单元；

-包含恢复点SEI消息的访问单元，即，开始开放GOP(当recovery_frame_cnt等于0时)或者逐步解码刷新时段(当recovery_frame_cnt大于0时)的访问单元；

-包含冗余IDR图像的访问单元；

-包含与恢复点SEI消息相关联的冗余经编码图像的访问单元。

在最宽泛的意义上，可解码访问单元可以是任何访问单元。继而，可以例如忽略在解码过程中丢失的预测参考或者由缺省值来代替。

在其中标识第一可解码访问单元的访问单元取决于本发明所实现于的功能块。如果本发明应用于对大容量存储器中的比特流进行访问的播放器或者发送器，则第一可解码访问单元可以是从期望的访问位置开始的任何访问单元或者其可以是位于或先于期望访问位置的第一可解码访问单元。如果本发明应用于访问所接收的比特流的播放器，则第一可解码访问单元是第一所接收数据脉冲或者FEC源矩阵中的访问单元之一。

第一可解码访问单元可以通过包括以下的多种方式标识：

-视频比特流中的指示，诸如nal_unit_type等于5，idr_flag等于1，或者比特流中存在的恢复点SEI消息。

-由传输协议指示，诸如SVC RTP净荷格式的PACSI NAL单元的A比特。A比特指示可以执行在非IDR层表示(nal_unit_type不等于5并且idr_flag不等于1的层表示)的空间层切换还是CGS。在具有某些图像编码结构的情况下，非IDR帧内层表示可以用于随机访问。与仅使用IDR层表示相比较，可以实现更高的编码效率。用于指示非IDR帧内层表示的随机可访问性的H.264/AVC或者SVC解决方案使用恢复点SEI消息。A比特提供对这一信息的直接访问而不需要分析恢复点SEI消息，该SEI消息可能深埋在SEI NAL单元中。此外，SEI消息可能不存在于比特流中。

-在容器文件中指示。例如，可以在与ISO基本媒体文件格式兼容的文件中使用同步样本盒、阴影同步样本盒、随机访问恢复点样本编组，轨道片段随机访问盒。

-在经分组化的基本流中指示。

再次参考图8，在块820处，对第一可解码访问单元进行处理。处理的方法取决于图8的示例过程所实现于其中的功能块。如果过程实现于播放器中，则处理包括解码。如果过程实现于发送器中，则处理可以包括将访问单元封装为一个或多个传输分组并且传输访问单元以及(潜在假设的)对针对访问单元的传输分组进行接收和解码。如果过程实现于文件创建器中，则处理包括编写(例如写入文件中)关于应当在加速的启动过程中解码或者传递哪个子序列的指令。

在块830处，初始化并且启动输出时钟。与输出时钟的启动同时发生的附加操作可以取决于该过程实现于其中的功能块。如果过程实现于播放器中，则产生于对第一可解码访问单元的解码的经解码图像可以同步于输出时钟的开始进行显示。如果过程实现于发送器中，则产生于对第一可解码访问单元的解码的(假设的)经解码图像可以同步于输出时钟的开始进行(假设的)显示。如果过程实现于文件创建器中，则输出时钟可能不实时表示挂钟滴答声(wallclock ticking)，而是可以与访问单元的解码或者合成时间同步。

在各种的实施方式中，块820和块830的操作的顺序可以互换。

在块840处，做出关于按照解码顺序的下一访问单元是否可以在输出时钟达到下一访问单元的输出时间之前进行处理的确定。处理的方法取决于过程实现于其中的功能块。如果过程实现于播放器中，则处理包括解码。如果过程实现于发送器中，则处理通常包括将访问单元封装为一个或多个传输分组并且传输访问单元以及(潜在假设的)对针对访问单元的传输分组进行接收和解码。如果过程实现于文件创建器中，则根据指令是针对播放器还是发送器而创建，相应地如上所述针对播放器或者发送器定义处理。

应当注意，如果过程实现于创建用于比特流传输的指令的发送器或者文件创建器中，则解码顺序可以由不需要与解码顺序相同的传输顺序来代替。

在另一实施方式中，当过程实现于创建用于传输的指令的发送器或者文件创建器中时，对输出时钟和处理进行不同解释。在该实施方式中，将输出时钟视为传输时钟。在块840处，确定访问单元的预定解码时间是否先于访问单元的输出时间(即，传输时间)出现。基本原则在于，访问单元应当在其解码时间之前被传输或者被命令传输(例如，在文件内)。术语“处理”包括将访问单元封装为一个或者多个传输分组并且传递访问单元，其在文件创建器的情况下是当遵循在文件中给出的指令时发送器将进行的假设操作。

如果在块840处做出的确定是按照解码顺序的下一访问单元可以在输出时钟达到与下一访问单元相关联的输出时间之前被处理，则过程进行到块850。在块850处，对下一访问单元进行处理。按照与块820中相同的方式定义处理。在块850处进行处理之后，将指向按照解码顺序的下一访问单元的指针递增一个访问单元，并且过程返回块840。

另一方面，如果在块840处做出的确定是按照解码顺序的下一访问单元无法在输出时钟达到与下一访问单元相关联的输出时间之前被处理，则过程进行到块860。在块860处，省略对按照解码顺序的下一访问单元的处理。此外，在解码中省略对依赖于下一访问单元的访问单元的处理。换言之，不处理以按照解码顺序的下一访问单元为根的子序列。继而，将指向按照解码顺序的下一访问单元的指针递增一个访问单元(假设被省略的访问单元不再存在于解码顺序中)，并且过程返回块840。

如果在比特流中不再存在访问单元，则过程在块840处停止。

在下文中，作为示例，将图8的过程示出为应用于图7的序列。在图9a中，示出了被选择用于处理的访问单元。在图9b中，呈现了产生于对图9a中的访问单元的解码的经解码图像。图9a和图9b以这样的方式水平对齐：即，经解码图像可以在图9b中的解码器输出中出现的最早时隙是相对于图9a中的相应访问单元的处理时隙的下一时隙。

在图8的块810处，将frame_num等于0的访问单元标识为第一可解码访问单元。

在图8的块820处，对frame_num等于0的访问单元进行处理。

在图8的块830处，输出时钟开始，并且输出产生于对frame_num等于0的访问单元的(假设的)解码的经解码图像。

针对frame_num等于1、2和3的访问单元反复重复图8的块840和块850，因为可以在输出时钟到达它们的输出时间之前对它们进行处理。

当frame_num等于4的访问单元是解码顺序中的下一个时，其输出时间已经过去了。因此，跳过frame_num等于4的访问单元和frame_num等于5的包含非参考图像的访问单元(图8的块860)。

继而，针对按照解码顺序的所有后续访问单元反复重复图8的块840和块850，因为可以在输出时钟到达它们的输出时间之前对它们进行处理。

在本示例中，当应用图8的过程时，图像渲染的开始与之前描述的传统方式相比早4个图像间隔。当图像速率是25Hz时，在启动延迟中的节省是160毫秒。启动延迟中的节省伴随着在比特流开始处的更长图像间隔的缺点。

在备选实现方式中，在输出时钟开始前处理不止一个帧。输出时钟可以不从第一经解码访问单元的输出时间开始，而是可以选择较晚的访问单元。相应地，当输出时钟开始时，同时传输或者播放所选择的较晚帧。

在一个实施方式中，即使访问单元可以在其输出时间之前被处理，也可以不选择该访问单元用于处理。如果省略了在相同时间级别中对多个连续子序列的解码，则情况尤为如此。

图10示出了根据本发明的实施方式的另一示例序列。在本示例中，产生于frame_num等于2的访问单元的经解码图像是被输出/传输的第一个图像。省略对包含依赖于frame_num等于3的访问单元的访问单元的子序列的解码，并且还省略对第一GOP的后一半内的非参考图像的解码。因此，第一GOP的输出图像速率是正常图像速率的一半，但显示过程比之前描述的传统解决方案中早两个帧间隔开始(在25Hz的图像速率时为80毫秒)。

当对比特流的处理开始自开始开放GOP的帧内图像时，省略对不可解码引导图像的处理。此外，也可以省略对可解码引导图像的处理。此外，省略按照输出顺序的在开始开放GOP的帧内图像之后出现的一个或多个子序列。

图11a示出了示例序列，其按照解码顺序的第一访问单元包含开始开放GOP的帧内图像。将针对此图像的frame_num选择为等于1(但是假如随后的frame_num值已经相应地发生了变化，则frame_num的任何其他值也是同样有效的)。图11a中的序列与图7a中的序列相同但是不存在初始IDR访问单元(例如，由于接收在初始IDR访问单元的传输之后开始而没有接收到)。经解码图像具有从2(含)到8(含)的frame_num，并且frame_num等于9的经解码非参考图像因而出现在按照输出顺序在frame_num等于1的经解码图像之前并且为不可解码引导图像。如可从图11b观察到的，因而省略对它们的解码。此外，以上关于图8所呈现的过程应用于剩余访问单元。因此，省略对frame_num等于12的访问单元以及frame_num等于13的包含非参考图像的访问单元的处理。在图11c中呈现了在图11b所处理的访问单元以及在解码器输出处所获得的图像序列。在本示例中，经解码图像输出比传统的实现方式早开始19个图像间隔(即，在25Hz的图像速率时为760毫秒)。

如果没有输出按照输出顺序的最早经解码图像(例如，作为类似于在图10和图11a-图11c中示出的处理的结果)，则根据本发明的实施方式所实现于其中的功能块，可能必须执行附加操作。

-如果本发明的实施方式实现于实时(即，平均而言不快于解码或者回放速率)接收视频比特流和与视频比特流同步的一个或多个比特流的播放器中，则可能必须省略对其他比特流的第一访问单元中的某些访问单元的处理以便具有所有流的同步播放，并且可能必须调整流的回放速率(减速)。如果没有调整回放速率，则下一接收的传输脉冲或者下一经解码FEC源块可能晚于第一接收的传输脉冲或者第一经解码FEC源块的最后经解码样本可用，即，在回放中可能存在间隔或者中断。可以使用任何自适应媒体播放算法。

-如果本发明的实施方式实现于编写用于传输流的指令的发送器或者文件创建器中，则选择来自与视频比特流同步的比特流的第一访问单元以尽可能接近地匹配输出时间中的第一经解码图像。

如果本发明的实施方式应用于其中第一可解码访问单元包含逐步解码刷新时段的第一图像的序列，则只有temporal_id等于0的访问单元被解码。此外，在逐步解码刷新时段内只有可靠隔离区域可被解码。

如果使用质量、空间或者其他可分级性方式对访问单元进行编码，则只有选定的从属表示和层表示可以被解码，以便加速解码过程并且进一步减少启动延迟。

现在将描述使用ISO基本媒体文件格式实现的本发明的实施方式的示例。

当访问从同步样本开始的轨道时，如果某些子序列没有被解码，则对经解码图像的输出可以更早开始。根据本发明的实施方式，样本编组机制可以用于指示是否应当按照随机访问处理加速的经解码图像缓冲(DPB)的样本。备选启动序列包含从同步样本开始的某个时段内的轨道的样本的子集。通过处理样本的该子集，处理样本的输出可以比当处理所有样本的情况中更早开始。‘alst’样本组描述条目指示备选启动序列中的样本的数目，在其后所有样本都应当被处理。在媒体轨道的情况中，处理包括分析和解码。在提示轨道的情况中，处理包括根据提示样本中的指令形成分组以及潜在地传输所形成的分组。

roll_count指示备选启动序列中样本的数目。如果roll_count等于0，则相关联的样本不属于任何备选启动序列并且first_output_sample的语义未指定。对于一个备选启动序列，映射到这个样本组条目的样本的数目应当等于roll_count。

first_output_sample指示旨在针对备选启动序列中的样本中的输出的第一样本的索引。开始备选启动序列的同步样本的索引为1，并且对于按照解码顺序的备选启动序列中的每个样本，将索引递增1。

sample_offset[i]指示相对于源自解码时间到样本盒或者轨道片段头盒的样本的传统解码时间的备选启动序列中的第i个样本的解码时间差。开始备选启动序列的同步样本是它的第一个样本。

在另一实施方式中，sample_offset[i]是标记的合成时间偏移(相对于源自解码时间到样本盒或者轨道片段头盒的样本的正常解码时间)。

在另一实施方式中，可以使用DVB样本编组机制并且给出sample_offset[i]作为index_payload而不是在样本组描述条目中提供sample_offset[i]。这种解决方案可以减少所需的样本组描述条目的数目。

在一个实施方式中，根据本发明的文件分析器如下所述从非连续位置访问轨道。选择从其开始处理的同步样本。所选择的同步样本可以位于期望的非连续位置，可以是相对于期望的非连续位置的最接近的之前的同步样本，或者是相对于期望的非连续位置的最接近的后续同步样本。基于相应的样本组标识备选启动序列内的样本。处理备选启动序列内的样本。在媒体轨道的情况下，处理包括解码以及潜在地包括渲染。在提示轨道的情况下，处理包括根据提示样本中的指令形成分组以及潜在地传输所形成的分组。可以如sample_offset[i]的值所指示的那样修改处理的时序。

以上讨论的指示(即，roll_count、first_output_sample以及sample_offset[i])可以包括在比特流中(例如作为SEI消息)、包括在分组净荷结构中、包括在分组头结构中、包括在分组化基本流结构中以及包括在文件格式中或者由其他方式指示。在本部分中讨论的指示可以例如由编码器创建、由分析比特流的单元创建或者由文件创建器创建。

在一个实施方式中，根据本发明的解码器从可解码访问单元(AU)开始解码。解码器例如通过SEI消息接收关于备选启动序列的信息。如果访问单元被指示为属于备选启动序列，则解码器选择它们以供解码并且跳过对不在备选启动序列中的那些访问单元的解码(只要备选启动序列还持续)。当完成了备选启动序列的解码后，解码器对所有访问单元进行解码。

为了协助解码器、接收器或者播放器选择从解码中省略哪个子序列，可以提供比特流的时间可分级性结构的指示。一个示例是指示是否使用如图2中所示的常规“二分(bifuractive)”嵌套结构以及存在多少时间级别(或者GOP尺寸是多少)的标志(flag)。指示的另一示例是temporal_id值的序列，其中每个指示按照解码顺序的访问单元的temporal_id。任何图像的temporal_id可以通过重复temporal_id值的所指示序列来推断出，即，temporal_id值的序列指示temporal_id值的重复行为。根据本发明的解码器、接收器或者播放器基于指示选择所省略的和经解码的子序列。

可以指示用于输出的预期的第一经解码图像。这一指示协助解码器、接收器或者播放器如由发送器或者文件创建器期望的那样运作。例如，可以指示frame_num等于2的经解码图像是在图10的示例中预期用于输出的第一个。否则，解码器、接收器或者播放器可以首先输出frame_num等于0的经解码图像并且输出过程将与由发送器或者文件创建器预期的不同并且启动延迟中的节省可能不是最理想的。

可以指示用于从相关联的第一可解码访问单元开始解码(而不是更早，例如从比特流的起始处)的HRD参数。这些HRD参数指示当解码从相关联的第一可解码访问单元开始时可应用的初始CPB和DPB延迟。

因此，根据本发明的实施方式，可以实现高达几百毫秒的对时间可分级视频比特流的解码的调谐/启动延迟的减少。从比特率方面来说，时间可分级视频比特流可以提高压缩效率达至少25％。

图12示出了在其中可以使用本发明的各种实施方式的***10，其包括多个可以通过一个或多个网络进行通信的通信设备。***10可以包括有线或者无线网络的任何组合，该有线或者无线网络包括但不限于移动电话网络、无线局域网(LAN)、蓝牙个域网、以太网LAN、令牌环LAN、广域网、因特网等。***10可以同时包括有线和无线通信设备。

为了举例，图12中示出的***10包括移动电话网络11和因特网28。到因特网28的连接可以包括但不限于远距离无线连接、短距离无线连接，而各种有线连接包括但不限于电话线、电缆线、电源线等。

***10的示例性通信设备可以包括但不限于采取以下形式的电子设备12：移动电话、组合式个人数字助理(PDA)和移动电话14、PDA 16、集成消息设备(IMD)18、台式计算机20、笔记本计算机22等。通信设备可以是固定的或者如当由正在移动的个人携带时那样是移动的。通信设备也可以位于运输模式中，包括但不限于汽车、卡车、出租车、公共汽车、火车、船、飞机、自行车、摩托车等。某些或者全部通信设备可以通过到基站24的无线连接25来发送和接收呼叫和消息以及与服务提供商进行通信。基站24可以连接到网络服务器26，网络服务器16允许移动电话网络11与因特网28之间的通信。***10可以包括附加通信设备和不同类型的通信设备。

通信设备可以使用各种传输技术进行通信，这些技术包括但不限于码分多址(CDMA)、全球移动通信***(GSM)、通用移动电信服务(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议/因特网协议(TCP/IP)、短消息服务(SMS)、多媒体消息服务(MMS)、电子邮件、即时消息服务(IMS)、蓝牙、IEEE 802.11等。在实现本发明的各种实施方式中涉及的通信设备可以使用包括但不限于无线电、红外线、激光、电缆连接等各种介质进行通信。

图13和图14示出了一个有代表性的电子设备28，根据本发明的各种实施方式，电子设备28可以用作网络节点。然而，应当理解，本发明的范围并非旨在限制到一种特定类型的设备。图13和图14的电子设备28包括外壳30、采取液晶显示器形式的显示器32、小键盘34、麦克风36、听筒38、电池40、红外线端口42、天线44、根据一个实施方式采取UICC形式的智能卡46、读卡器48、无线电接口电路52、编解码器电路54、控制器56和存储器58。上述组件使电子设备28能够向根据本发明的实施方式可以位于网络上的其他设备发送各种消息或从其接收各种消息。单个电路和元件全都是本领域中公知的类型，例如在诺基亚系列移动电话中的类型。

图15是在其中可以实现各种实施方式的一般多媒体通信***的图示。如图15中所示，数据源100按照模拟、未压缩数字、经压缩数字格式或这些格式的任何组合提供源信号。编码器110将源信号编码为经编码媒体比特流。应当注意，待解码比特流可以直接地或者间接地从位于几乎任何类型的网络内的远程设备接收。附加地，比特流可以从本地硬件或者软件接收。编码器110可以能够对诸如音频和视频之类的不止一种媒体类型进行编码，或者可能需要不止一个编码器110对源信号的不同媒体类型进行编码。编码器110还可以获得合成产生的输入(诸如图形和文本)，或者其可以能够产生合成媒体的经编码比特流。在下文中，仅仅考虑对一种媒体类型的一个经编码媒体比特流的处理以简化描述。然而，应当注意，典型的实时广播服务包括若干个流(通常至少一个音频、视频和文本字幕流)。还应当注意，该***可以包括许多编码器，但在图15中仅仅描绘了一个编码器110以在不缺少一般性的情况下简化描述。应当进一步理解，虽然在此包括的正文和示例可以具体描述编码过程，但本领域技术人员将理解，相同的概念和原理同样适用于相应的解码过程并且反之亦然。

向存储器120传递经编码媒体比特流。存储器120可以包括任何类型的大容量存储器以存储经编码媒体比特流。存储器120中的经编码媒体比特流的格式可以是基本自包含比特流格式，或者一个或多个经编码媒体比特流可以被封装为容器文件。某些***“现场”操作，即省略存储器并且从编码器110直接向发送器130传递经编码媒体比特流。继而，在需要时向发送器130(也称为服务器)传递经编码媒体比特流。在传输中使用的格式可以是基本自包含比特流格式、分组流格式或者可以被封装为容器文件的一个或多个经编码媒体比特流。编码器110、存储器120和发送器130可以位于同一物理设备中，或者它们可以被包括在分离的设备中。编码器110和发送器130可以使用现场实时内容进行操作，在该情况中经编码媒体比特流通常不被永久存储，而是在内容编码器110和/或发送器130中缓存一小段时间，从而消除处理延迟、传递延迟和经编码比特流中的变化。

发送器130使用通信协议栈发送经编码媒体比特流。该栈可以包括但不限于实时传输协议(RTP)、用户数据报协议(UDP)以及因特网协议(IP)。当通信协议栈为面向分组时，发送器130将经解码媒体比特流封装为分组。例如，当使用RTP时，发送器130根据RTP净荷格式将经编码媒体比特流封装为RTP分组。通常，每种媒体类型具有专用的RTP净荷格式。应当再次注意，***可以包含不止一个发送器130，但是为简单起见，以下描述仅考虑一个发送器130。

如果针对存储器120或者为了向发送器130输入数据而将媒体内容封装为容器文件，发送器130可以包括或者操作地附接到“发送文件分析器”(在图中未示出)。特别地，如果容器文件没有照这样被传输但是至少一个所包含的经编码媒体比特流被封装以供通过通信协议传输，则发送文件分析器定位经编码媒体比特流的应通过通信网络传递的适当部分。发送文件分析器还可以有助于创建针对通信协议的正确格式，诸如分组头和净荷。多媒体容器文件可以包含封装指令(诸如ISO基本媒体文件格式中的提示轨道)以对通信协议上的至少一个包含的媒体流进行封装。

发送器130可以或可以不通过通信网络连接到网关140。网关140可以执行不同类型的功能，诸如将根据一个通信协议栈的分组流翻译为另一通信协议栈，合并或者分开数据流，以及根据下行链路和/或接收器能力来操控数据流，诸如根据占优的下行链路网络状况控制转发的流的比特率。网关140的示例包括MCU、电路交换和分组交换视频电话之间的网关。蜂窝式一键通(PoC)服务器、数字视频广播-手持(DVB-H)***中的IP封装器、或者将广播传输本地转发到家庭无线网络的机顶盒。当使用RTP时，网关140被称为RTP混合器或者RTP翻译器并且通常充当RTP连接的端点。

该***包括一个或者多个接收器150，其通常能够对所传输的信号进行接收、解调并将其解封装为经编码媒体比特流。向记录存储器155传递经编码媒体比特流。记录存储器155可以包括任何类型的大容量存储器以存储经编码媒体比特流。记录存储器155可以备选地或者附加地包括计算存储器，诸如随机访问存储器。记录存储器155中的经编码媒体比特流的格式可以是基本自包含比特流格式，或者一个或者多个经编码媒体比特流可以被封装为容器文件。如果存在相互相关联的多个经编码媒体比特流(诸如音频流和视频流)，则通常使用容器文件并且接收器150包括或者附接到从输入流产生容器文件的文件生成器。某些***“现场”操作，即省略记录存储器155并且从接收器150直接向解码器160传递经编码媒体比特流。在某些***中，在记录存储器155中仅仅维持所记录流的最新部分，例如所记录流的最近10分钟摘录，而从记录存储器155丢弃任何更早记录的数据。

从记录存储器155向解码器160传递经编码媒体比特流。如果存在相互关联并且被封装为容器文件的多个经编码媒体比特流(诸如音频流和视频流)，则文件分析器(图中未示出)用于从容器文件解封装每个经编码媒体比特流。记录存储器155或者解码器160可以包括文件分析器，或者文件分析器附接到记录存储器155或者解码器160。

经编码媒体比特流通常进一步由解码器160处理，其输出为一个或多个未压缩媒体流。最后，渲染器170可以使用例如扬声器或者显示器再现未压缩媒体流。接收器150、记录存储器155、解码器160以及渲染器170可以位于同一物理设备中，或者它们可以被包括在分离的设备中。

在此描述的各种实施方式在方法步骤或者过程的一般上下文中进行了描述，在一个实施方式中该方法步骤或者过程可以由计算机程序产品来实现，该产品体现在计算机可读介质中，其包括由联网环境中的计算机执行的计算机可执行指令(诸如程序代码)。计算机可读介质可以包括可移除和不可移除存储设备，其包括但不限于只读存储器(ROM)、随机访问存储器(RAM)、压缩盘(CD)、数字多功能盘(DVD)等。通常，程序模块可以包括执行特定任务或者实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。计算机可执行指令、相关联的数据结构以及程序模块代表用于执行在此公开的方法的步骤的程序代码的示例。此类可执行指令的特定序列或者相关联的数据结构代表用于实现在此类步骤或者过程中描述的功能的相应动作的示例。

本发明的实施方式可以在软件、硬件、应用逻辑或者软件、硬件和应用逻辑的组合中实现。该软件、应用逻辑和/或硬件可以例如位于芯片组、移动设备、台式计算机、膝上型计算机或者服务器上。各种实施方式的软件和web实现可以使用具有基于规则的逻辑以及其他逻辑的标准编程技术来实现，从而实现各种数据库搜索步骤或者过程、关联步骤或者过程、比较步骤或者过程以及决策步骤或者过程。各种实施方式也可以完全地或者部分地在网络元件或者模块内实现。应当注意，如在此以及在以下的权利要求书中使用的，词语“组件”和“模块”旨在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收人工输入的设备。

已经出于说明和描述的目的呈现了本发明的实施方式的上述描述。其并非旨在是详尽的或者将本发明限制到所公开的精确形式，修改或者变型根据以上教示是可能的或者可以通过对本发明的实践而获得。实施方式被选择和描述以便说明本发明的原理及其实际应用，从而使得本领域技术人员能够按照各种实施方式并且运用适合于所预期的特定使用的各种修改来利用本发明。

Claims

1.一种方法，包括：

接收包括访问单元序列的比特流；

对所述比特流中的第一可解码访问单元进行解码；

确定所述比特流中跟随所述第一可解码访问单元的下一可解码访问单元在所述下一可解码访问单元的输出时间之前是否能够被解码；

基于确定所述下一可解码访问单元在所述下一可解码访问单元的所述输出时间之前无法被解码而跳过对所述下一可解码访问单元的解码；以及

跳过对依赖于所述下一可解码访问单元的任何访问单元的解码。

2.根据权利要求1所述的方法，还包括：

从所述比特流中选择经编码数据单元的第一集合，

其中子比特流包括所述比特流的、包括所述经编码数据单元的第一集合在内的部分，所述子比特流可解码为经解码数据单元的第一集合，并且所述比特流可解码为经解码数据单元的第二集合，

其中第一缓冲资源足以将所述经解码数据单元的第一集合布置为输出顺序，第二缓冲资源足以将所述经解码数据单元的第二集合布置为输出顺序，并且所述第一缓冲资源少于所述第二缓冲资源。

3.根据权利要求2所述的方法，其中所述第一缓冲资源和所述第二缓冲资源是相对于用于经解码数据单元缓冲的初始时间而言的。

4.根据权利要求2所述的方法，其中所述第一缓冲资源和所述第二缓冲资源是相对于用于经解码数据单元缓冲的初始缓冲占用而言的。

5.根据权利要求1所述的方法，其中每个访问单元是IDR访问单元、SVC访问单元或者包含锚定图像的MVC访问单元之一。

6.一种装置，包括：

处理器；以及

存储器单元，其可通信地连接至所述处理器并且包括：

用于接收包括访问单元序列的比特流的计算机代码；

用于对所述比特流中的第一可解码访问单元进行解码的计算机代码；

用于确定所述比特流中跟随所述第一可解码访问单元在所述下一可解码访问单元的下一可解码访问单元的输出时间之前是否能够被解码的计算机代码；

用于基于确定所述下一可解码访问单元在所述下一可解码访问单元的所述输出时间之前无法被解码而跳过对所述下一可解码访问单元的解码的计算机代码；以及

用于跳过对依赖于所述下一可解码访问单元的任何访问单元的解码的计算机代码。

7.根据权利要求6所述的装置，还包括：

用于从所述比特流中选择经编码数据单元的第一集合的计算机代码，

8.根据权利要求7所述的装置，其中所述第一缓冲资源和所述第二缓冲资源是相对于用于经解码数据单元缓冲的初始时间而言的。

9.根据权利要求7所述的装置，其中所述第一缓冲资源和所述第二缓冲资源是相对于用于经解码数据单元缓冲的初始缓冲占用而言的。

10.根据权利要求6所述的装置，其中每个访问单元是IDR访问单元、SVC访问单元或者包含锚定图像的MVC访问单元之一。

11.一种计算机可读介质，具有存储在其上的计算机程序，所述计算机程序包括：

用于接收包括访问单元序列的比特流的计算机代码；

12.根据权利要求11所述的计算机可读介质，还包括：

13.根据权利要求12所述的计算机可读介质，其中所述第一缓冲资源和所述第二缓冲资源是相对于用于经解码数据单元缓冲的初始时间而言的。

14.根据权利要求12所述的计算机可读介质，其中所述第一缓冲资源和所述第二缓冲资源是相对于用于经解码数据单元缓冲的初始缓冲占用而言的。

15.根据权利要求11所述的计算机可读介质，其中每个访问单元是IDR访问单元、SVC访问单元或者包含锚定图像的MVC访问单元之一。