CN105900401B

CN105900401B - 用于对层间依赖性进行编码的方法、装置和计算机程序

Info

Publication number: CN105900401B
Application number: CN201580003969.7A
Authority: CN
Inventors: 弗兰克·德诺奥; 弗雷德里克·梅兹; 西里尔·康克拉托; 简·勒菲弗
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-01-07
Filing date: 2015-01-07
Publication date: 2020-03-06
Anticipated expiration: 2035-01-07
Also published as: WO2015104303A3; JP2017508334A; KR20220034931A; US20190014162A1; US10320867B2; EP3092796A2; KR102521495B1; US11412017B2; EP3713234A1; JP6572222B2; EP3092796B1; CN105900401A; US20160330255A1; KR20160105793A; WO2015104303A2

Abstract

封装包括定时样本的多层分区定时媒体数据。各定时样本编码到第一层和至少一个第二层，至少一个定时样本包括至少一个子样本，各子样本编码到第一层或至少一个第二层。该封装方法包括：从定时样本中的至少一个定时样本获得属于第一层的至少一个子样本；创建包括所获得的至少一个子样本的第一轨；从定时样本中的至少一个定时样本获得属于第二层的至少另一子样本；创建包括所获得的至少另一子样本的第二轨；以及生成与第二轨相关联的描述性元数据(800,850)。所述描述性元数据包括：第一描述符(800)，其包括在被设置为1的情况下表示所获得的属于第一层的至少一个子样本是完整帧的参数full_frame；以及第二描述符(850)，用于用信号表示所获得的属于第二层的至少另一子样本和属于第一层的至少一个子样本之间的依赖性链接(851～853)，其中第二描述符参考第一描述符。

Description

用于对层间依赖性进行编码的方法、装置和计算机程序

技术领域

本发明通常涉及如下领域：例如根据如MPEG标准化组织所定义的基媒体文件格式(Base Media File Format)来对定时媒体数据进行封装，从而提供便于该媒体数据的互换、管理、编辑和呈现的灵活且可扩展格式、并且改善特别是与压缩视频流中的用户所选择的关注区域的HTTP(HyperText Transfer Protocol，超文本传输协议)和RTP(Real-timeTransport Protocol，实时传输协议)流传输有关的流传递。更特别地，本发明涉及用于在对包含诸如空间区块(tile)等的多层分区数据的基本流进行封装时对层间依赖性进行编码、从而使得能够进行数据特别是一个或多个区块的高效流传输或提取的方法、装置和计算机程序。

背景技术

视频编码是将一系列视频图像变换成紧凑型数字化位流以使得可以传输或存储视频图像的方式。编码装置用于对视频图像进行编码，而关联的解码装置可用于重建位流以供显示和观看。一般目的是形成大小小于原始视频信息的大小的位流。这样有利地减少了针对用以传输或存储位流码的传输网络或存储装置所要求的容量。为了进行传输，通常根据典型地添加头部和校验位的传输协议来对视频位流进行封装。视频流传输机制经由因特网和移动网络得以广泛部署和使用，以经由诸如3GPP的自适应HTTP流传输(AHS)(例如，Microsoft的平滑流传输或Apple的HTTP实时流传输)等的HTTP(超文本传输协议)来流传输音频/视频媒体。

近来，运动图片专家组(MPEG)发布了用以统一并取代现有的经由HTTP的流传输解决方案的新标准。被称为“经由HTTP的动态自适应流传输(DASH)”的该新标准意图支持基于标准web服务器的经由HTTP的媒体流传输模型，其中在这些标准web服务器中，智能(即，用以进行流传输的媒体数据的选择、以及位流针对用户选择、网络条件和客户端性能的动态适应)排他地依赖于客户端选择和装置。

在该模型中，以数据片段并且以表示要呈现的定时媒体数据的组织的被称为“媒体呈现描述(MPD)”的清单来组织媒体呈现。特别地，清单包括供下载数据片段所使用的资源标识符，并且提供用以选择并组合这些数据片段以获得有效媒体呈现的上下文。资源标识符通常是有可能与字节范围相组合的HTTP-URL(统一资源定位符)。基于清单，客户端装置根据其需求、其性能(例如，所支持的编解码器、显示大小、帧频、质量等级等)并且依赖于网络条件(例如，可用带宽)，来随时确定要从媒体数据服务器下载哪些媒体片段。

要注意，存在HTTP的替代协议(例如，实时传输协议(RTP))。

另外，视频分辨率不断提高、即从标准清晰度(SD)提高至高清晰度(HD)再提高至超高清晰度(例如，4K2K或8K4K，也就是说视频包括4,096×2,400个像素或7,680×4,320个像素的图像)。然而，特别是在视频具有超高清晰度的情况下，并非所有的接收和视频解码装置都具有用以以全分辨率访问视频的资源(例如，网络访问带宽或CPU(中央处理单元))，并且并非所有的用户都需访问这种视频。在这种上下文中，提供用以仅访问一些关注区域(ROI)、也就是说仅访问整个视频序列的一些空间子部分的能力，这是特别有利的。

用以访问属于视频的帧的空间子部分的已知机制包括：将视频的各帧组织为通常被称为区块的独立可解码的空间区域的排列。诸如SVC(Scalable Video Coding，可分级视频编码)或HEVC(High Efficiency Video Coding，高效率视频编码)等的一些视频格式提供了针对区块定义的支持。用户定义的ROI可以覆盖一个或多个连续区块。

因此，为了根据HTTP协议对用户选择的ROI进行流传输，以能够对一个或多个区块进行空间访问并且能够组合所访问区块的方式来提供编码视频位流的定时媒体数据的封装，这很重要。

需要重申，编码视频位流通常被构造为与完整帧相对应的一组连续时间样本，其中这些时间样本是根据解码顺序进行组织的。使用文件格式来封装并描述这些编码位流。

为了进行例示，国际标准化组织基媒体文件格式(ISO BMFF)是描述编码定时媒体数据位流以供本地存储或者供经由网络或经由另一位流传递机构进行传输的众所周知的灵活且可扩展的格式。该文件格式是面向对象的。该文件格式包括被称为框(box)的构建块，其中这些框是顺次或层级组织的，并且定义诸如定时参数和结构参数等的编码定时媒体数据位流的参数。根据该文件格式，定时媒体数据位流包含在被称为mdat框的数据结构中，其中该mdat框是在被称为轨框的另一数据结构中所定义的。轨表示样本的定时序列，其中样本对应于与一个时间戳相关联的所有数据、也就是说与一个帧相关联的所有数据或与共用同一时间戳的多个帧相关联的所有数据。

对于诸如SVC格式的视频等的可分级视频，可以通过使用多个依赖轨来高效地表示分层媒体数据组织，其中各轨表示可分级性的特定级别的视频。为了避免轨之间的数据重复，可以使用提取器。根据标准文件格式，提取器(extractor)是直接包括在位流中的、使得能够从其它位流高效地提取网络抽象层(NAL)单元的数据结构。例如，增强层轨的位流可以包括参考来自基本层轨的NAL单元的提取器。然后，在从文件格式中提取这种增强层轨的情况下，必须利用提取器正参考的数据来替换这些提取器。

在使用嵌入有这些机制的ISO BMFF来描述子信息并且容易地访问该子信息或高效地将位流组织成多个片段的情况下，可以采用若干策略。

例如，在作者为Kofler等人的标题为“Implications of the ISO Base MediaFile Format on Adaptive HTTP Streaming of H.264/SVC”的文章中，提出用于考虑到ISO BMFF的可能性以及限制来对可分级视频位流(H264/SVC)进行组织以供HTTP流传输的三个不同策略：

a)包含特定文件头部的一个文件，该特定文件头部包括文件类型框“ftyp”和包含所有的ISO BMFF元数据(包括轨定义)的动画框“moov”，其中该一个文件还包括包含整个编码位流的一个mdat框。该组织适合本地存储，但不适用于客户端可能仅需要整个位流的一部分的HTTP流传输；

b)包含多个适于分割的moof/mdat框的单一文件。该格式使得能够进行渐进式下载。Moof框等同于分割级别的moov框。根据该方案，使用分割媒体文件，将可分级位流分割成以不同可分级性级别来表示视频的多个依赖轨。使用提取器来参考来自其它轨的NAL单元。在使用针对各区块的轨的情况下，必须预先准备所有可寻址轨并且无法独立选择轨。如果要显示多个区块，则必须解码多个位流并且分数次对基本层进行解码；

c)多个片段文件，其中各文件是利用其自身的URL可访问并且是独立可下载的。各片段通常包括用作一种文件头部的片段类型框(styp)、可选片段索引框(sidx)以及一个或多个片段。再次地，各片段包括moof和mdat框。根据该方案，使用片断媒体文件，将各轨存储在其自身的片段中，其中关联位流与可分级性的一个级别相关联。在需要的情况下，使用提取器来参考来自依赖轨的所需位流。这种编码方案特别适合独立对轨进行流传输。这很好地适用于DASH标准，但由于要对多个位流进行解码并由此针对各轨需要一个解码器，因而不适合区块流传输。此外，在选择一个以上的区块的情况下，存在基本层的位流的潜在重复。

在应用于空间区块的情况下，这些策略均不允许在HTTP流传输的上下文中对特定区块进行高效访问。实际上，利用现有的文件格式定义，仍将需要访问编码位流中的多个非连续字节范围，或者，为了显示与给定时间间隔相对应的多个帧的空间区块，这将导致位流重复。

为了解决这些问题，提供了适合处理多层视频流中的空间区块的高效数据组织和轨描述方案，从而无论利用客户端应用程序选择何种轨组合，都确保了ISO BMFF解析的结果始终得到针对视频解码器的有效视频基本位流，这样需要低的描述开销。

发明内容

根据本发明的第一组方面，提供如方面1所述的一种用于在服务器中对多层分区定时媒体数据进行封装的方法、如方面8所定义的一种用于在客户端装置中对多层分区定时媒体数据进行去封装(或解析)的方法、如方面15所定义的一种由计算机或处理器所执行的使得所述计算机或处理器执行封装方法的程序、同样如方面15所定义的一种由计算机或处理器所执行的使得所述计算机或处理器执行去封装(解析)方法的程序、如方面16所定义的一种用于存储封装程序和/或去封装(解析)程序的计算机可读存储介质、如方面17所定义的一种用于对多层分区定时媒体数据进行封装的装置、如方面24所定义的一种用于对多层分区定时媒体数据进行去封装(或解析)的装置、如方面31所定义的一种包括利用封装方法进行封装后的多层分区定时媒体数据的至少一部分的媒体片段文件、如方面32所定义的一种用于存储媒体片段文件的计算机可读存储介质、以及如方面33所定义的一种用于承载利用封装方法进行封装后的多层分区定时媒体数据的至少一部分的信号。

根据本发明的第二组方面，提供如方面34所定义的一种用于在服务器中对多层分区定时媒体数据进行封装的方法、如方面47所定义的一种用于在客户端装置中对多层分区定时媒体数据进行去封装(或解析)的方法、如方面60所定义的一种由计算机或处理器所执行的使得所述计算机或处理器执行封装方法的程序、同样如方面60所定义的一种由计算机或处理器所执行的使得所述计算机或处理器执行去封装(或解析)方法的程序、如方面61所定义的一种用于存储封装程序和/或去封装(或解析)程序的计算机可读存储介质、如方面62所定义的一种用于对多层分区定时媒体数据进行封装的装置、如方面75所定义的一种用于对多层分区定时媒体数据进行去封装(或解析)的装置、如方面88所定义的一种包括利用封装方法进行封装后的多层分区定时媒体数据的至少一部分的媒体片段文件、如方面89所定义的一种用于存储媒体片段文件的计算机可读存储介质、以及如方面90所定义的一种承载利用封装方法进行封装后的多层分区定时媒体数据的至少一部分的信号。

在第一组和/或第二组的方面的实施例中，多层意味着两个以上的层、例如基本层和增强层，样本意味着与一个时间戳相关联的所有数据(例如，基本层中的帧和增强层中的帧)，并且子样本是诸如区块或区块集合等的空间子样本。区块意味着例如帧中的矩形区块，并且区块集合意味着任何数量的区块的组合。

本发明的第三组方面涉及提取器。这些方面包括一种用于例如在服务器中对多层分区定时媒体数据进行封装的方法，所述多层分区定时媒体数据包括定时样本，各定时样本被编码到基本层和至少一个增强层中，至少一个定时样本包括至少一个区块，各区块被编码到所述基本层或所述至少一个增强层中，所述方法包括以下步骤：

创建基本层区块轨；

创建包括指向所述基本层区块轨中的数据的第一提取器的基本层基本轨；以及

创建包括指向所述基本层基本轨中的所述第一提取器的第二提取器的增强层轨，

由此通过跟随从所述增强层轨中的所述第二提取器向所述基本层基本轨中的所述第一提取器向所述基本层区块轨中的数据自身的提取器路径，能够获得所述基本层区块轨中的所述数据。

所述增强层轨优选是增强层基本轨。

封装方法还可以包括创建增强层区块轨，所述增强层基本轨还包括指向所述增强层区块轨中的数据的第三提取器。

本发明的第三组方面的变形例还涉及提取器。这些方法包括一种用于例如在服务器中对多层定时媒体数据进行封装的方法，所述多层定时媒体数据包括定时样本，各定时样本被编码到基本层和至少两个增强层中，所述方法包括以下步骤：

创建基本层轨；

创建包括指向所述基本层轨中的数据的第一提取器的增强层轨；以及

创建包括指向所述增强层轨中的所述第一提取器的第二提取器的另一增强层轨，

由此，通过跟随从所述另一增强层轨中的所述第二提取器向所述第一增强层轨中的所述第一提取器向所述基本层轨的数据的提取器路径，能够获得所述基本层轨中的所述数据。本发明的第三组方面还包括一种用于例如在客户端装置中对多层分区定时媒体数据进行去封装(或解析)的方法，所述多层分区定时媒体数据包括定时样本，各定时样本被编码到基本层和至少一个增强层中，至少一个定时样本包括至少一个区块，各区块被编码到所述基本层或所述至少一个增强层中，所述方法包括以下步骤：

获得基本层区块轨；

获得包括指向所述基本层区块轨中的数据的第一提取器的基本层基本轨；

获得包括指向所述基本层基本轨中的所述第一提取器的第二提取器的增强层轨；以及

通过跟随从所述增强层轨中的所述第二提取器向所述基本层基本轨中的所述第一提取器向所述基本层区块轨中的数据自身的提取器路径，获得所述基本层区块轨中的所述数据。

优选地，所述增强层轨是增强层基本轨。

去封装(或解析)方法还可以包括以下步骤：

接收增强层区块轨，所述增强层基本轨还包括指向所述增强层区块轨中的数据的第三提取器；以及

通过跟随从所述增强层基本轨中的所述第三提取器向所述增强层区块轨中的所述增强层区块轨中的数据自身的提取器路径，来获得所述增强层区块轨中的所述数据。

本发明的第三组方面的变形例还包括一种用于例如在客户端中对多层定时媒体数据进行去封装的方法，所述多层定时媒体数据包括定时样本，各定时样本被编码到基本层和至少两个增强层中，所述方法包括以下步骤：

获得基本层轨；

获得包括指向所述基本层轨中的数据的第一提取器的增强层轨；以及

获得包括指向所述增强层轨中的所述第一提取器的第二提取器的另一增强层轨，

由此通过跟随从所述另一增强层轨中的所述第二提取器向所述增强层轨中的所述第一提取器向所述基本层轨的数据的提取器路径，能够获得所述基本层轨中的所述数据。

本发明的第三组方面还包括一种用于对多层分区定时媒体数据进行封装的装置，所述多层分区定时媒体数据包括定时样本，各定时样本被编码到基本层和至少一个增强层中，至少一个定时样本包括至少一个区块，各区块被编码到所述基本层或所述至少一个增强层中，所述装置包括：

用于创建基本层区块轨的部件；

用于创建包括指向所述基本层区块轨中的数据的第一提取器的基本层基本轨的部件；以及

用于创建包括指向所述基本层基本轨中的所述第一提取器的第二提取器的增强层轨的部件，

所述增强层轨优选是增强层基本轨。

封装装置还可以包括用于创建增强层区块轨的部件，所述增强层基本轨还包括指向所述增强层区块轨中的数据的第三提取器。

本发明的第三组方面的变形例还包括一种用于例如在服务器中对多层定时媒体数据进行封装的装置，所述多层定时媒体数据包括定时样本，各定时样本被编码到基本层和至少两个增强层中，所述装置包括：

用于创建基本层轨的部件；

用于创建包括指向所述基本层轨中的数据的第一提取器的增强层轨的部件；以及

用于创建包括指向所述增强层轨中的所述第一提取器的第二提取器的另一增强层轨的部件，

由此，通过跟随从所述另一增强层轨中的所述第二提取器向所述增强层轨中的所述第一提取器向所述基本层轨的数据的提取器路径，能够获得所述基本层轨中的所述数据。

本发明的第三组方面还包括一种用于对多层分区定时媒体数据进行去封装(或解析)的装置，所述多层分区定时媒体数据包括定时样本，各定时样本被编码到基本层和至少一个增强层中，至少一个定时样本包括至少一个区块，各区块被编码到所述基本层或所述至少一个增强层中，所述装置包括：

用于获得基本层区块轨的部件；

用于获得包括指向所述基本层区块轨中的数据的第一提取器的基本层基本轨的部件；

用于获得包括指向所述基本层基本轨中的所述第一提取器的第二提取器的增强层轨的部件；以及

优选地，所述增强层轨是增强层基本轨。

去封装(或解析)装置还可以包括：

用于接收增强层区块轨的部件，所述增强层基本轨还包括指向所述增强层区块轨中的数据的第三提取器；以及

用于通过跟随从所述增强层基本轨中的所述第三提取器向所述增强层区块轨中的所述增强层区块轨中的数据自身的提取器路径来获得所述增强层区块轨中的所述数据的部件。

本发明的第三组方面的变形例还包括一种用于例如在客户端中对多层定时媒体数据进行去封装的装置，所述多层定时媒体数据包括定时样本，各定时样本被编码到基本层和至少两个增强层中，所述装置包括：

用于获得基本层轨的部件；

用于获得包括指向所述基本层轨中的数据的第一提取器的增强层轨的部件；以及

用于获得包括指向所述增强层轨中的所述第一提取器的第二提取器的另一增强层轨的部件，

由此通过跟随从所述另一增强层轨中的所述第二提取器向所述增强层轨中的所述第一提取器向所述基本层轨的数据的提取器路径，能够获得所述基本层轨中的所述数据。此外，第三组方面的其它方面及其变形例可以提供：一种程序，其在由计算机或处理器执行的情况下，使得所述计算机或所述处理器执行封装方法；一种程序，其在由计算机或处理器执行的情况下，使得所述计算机或所述处理器执行去封装(或解析)方法；一种计算机可读存储介质，用于存储封装程序和/或去封装(或解析)程序；一种媒体片段文件，其包括利用封装方法进行封装后的多层分区定时媒体数据的至少一部分；一种计算机可读存储介质，用于存储所述媒体片段文件；以及一种信号，用于承载利用封装方法进行封装后的多层分区定时媒体数据的至少一部分。

根据本发明的另一方面，提供一种用于在服务器中对分区定时媒体数据进行封装的方法，所述分区定时媒体数据包括定时样本，各定时样本定义帧，至少一个定时样本包括至少一个子样本，所述方法包括：

从所述定时样本中的至少一个定时样本中获得至少一个子样本；

创建包括所获得的至少一个子样本的轨；以及

生成与所创建的轨相关联的描述性元数据，所述描述性元数据包括在被设置的情况下、表示所获得的至少一个子样本是完整帧的参数。

面对这些制约，本发明人提供一种用于在服务器中对多层区块化定时媒体数据进行封装并且用于从封装在多个媒体片段文件中的多层区块化定时媒体数据提供定时媒体数据位流的方法和装置。

本发明的广义目的是改善如上所述的现有技术的不足之处。

根据本发明的第一方面，提供一种用于在服务器中对多层分区定时媒体数据进行封装的方法，所述多层分区定时媒体数据包括定时样本，各定时样本被编码到第一层和至少一个第二层中，至少一个定时样本包括至少一个子样本，各子样本被编码到所述第一层或所述至少一个第二层中，所述方法包括以下步骤：

创建包括所获得的至少一个子样本的轨；以及

生成与所创建的轨相关联的描述性元数据，所述描述性元数据包括用于用信号表示所获得的至少一个子样本和至少另一子样本之间的依赖性链接的描述符，所述依赖性链接描述：

在所获得的至少一个子样本和所述至少另一子样本属于同一层的情况下、所获得的至少一个子样本和所述至少另一子样本之间的层内依赖性；以及

在所获得的至少一个子样本和所述至少另一子样本属于不同层的情况下、所获得的至少一个子样本和所述至少另一子样本之间的层间依赖性。

因此，本发明使得能够组合多层视频流的不同部分、特别是不同区块，并且无论客户端装置所下载的部分或区块的所选择集合如何、都能够在解析时创建有效文件格式和基本流。

因此，本发明的方法适合多层视频流的独立部分或区块的高效流传输，使用现有工具来容易地归并到标准、特别是MPEG-4第15部分标准中，支持区块级别的动态层间依赖性，从区块化去相关，适合一个以上的部分或区块选择(即，任意的ROI)，并且限制使用提取器处理层间依赖性所引入的开销。

要注意，层的子样本可以链接至另一层的一个或多个子样本或者不同层的多个子样本。

在实施例中，多层分区定时媒体数据是多层区块化定时媒体数据，其中子样本是空间子样本。

在实施例中，与所创建的轨相关联的描述性元数据包括表示所获得的至少一个子样本是否包括属于同一层的至少一个子样本的集合的参数，其中该同一层包括定时样本中的至少一个定时样本的所有媒体数据。

在实施例中，与所创建的轨相关联的描述性元数据包括表示在与所创建的轨相关联的描述性元数据中如何描述至少另一子样本的参数。

在实施例中，所述方法还包括以下步骤：创建所创建的轨的子样本的至少两个子样本组，其中与所创建的轨相关联的描述性元数据包括各个子样本组的定义，各个子样本组的定义包括相应子样本组的各子样本的依赖性链接。

在实施例中，所述方法还包括以下步骤：创建所创建的轨的子样本的至少一个子样本组，其中与所创建的轨相关联的描述性元数据包括包含不属于所创建的子样本组的所创建的轨的各子样本的依赖性链接的第一定义、以及所创建的子样本组的定义，其中被称为第二定义的所创建的子样本组的定义包括该子样本组的各子样本的依赖性链接。

在实施例中，将依赖性链接组织成列表，列表的数量等于用于对样本进行编码的层的数量，各列表是按层的递减或递增顺序进行组织的、或者与层标识符相关联。

在实施例中，将依赖性链接组织成包括各样本和各层的所有依赖性链接的一个列表。

在实施例中，根据层标识符来识别各层，其中将依赖性链接组织成包括同位置的子样本的层标识符的一个列表。

在实施例中，所述方法还包括以下步骤：

创建至少包括至少一个第一样本的项的第一轨，其中所述第一轨的样本的项属于所述第一层；

创建包括至少一个第二子样本的第二轨，其中所述至少一个第二子样本是所述至少一个第一样本的至少一个项的子样本，所述第一轨包括指向所述至少一个第二子样本的至少一个第一提取器；

被称为第三轨的包括所获得的至少一个子样本的所创建的轨包括指向所述至少一个第一样本的至少一个项的至少一个第三提取器，其中所获得的至少一个子样本属于所述至少一个第二层。

在实施例中，所述方法还包括以下步骤：

创建包括至少一个第三样本的项的第三轨，其中所述第三轨的样本的项属于所述至少一个第二层；

包括所获得的至少一个子样本的所创建的轨被称为第四轨，所述第三轨包括指向所述至少一个第一样本的至少一个项的至少一个第三提取器和指向所述第四轨的所获得的至少一个子样本的至少一个第三附加提取器，所获得的至少一个子样本是所述至少一个第三样本的至少一个项的子样本。

在实施例中，所述方法还包括以下步骤：

创建至少包括至少一个第三样本的项的第三轨，其中所述第三轨的样本的项属于所述至少一个第二层；

在实施例中，根据基于样本的项的大小或者所创建的提取器所指向的层的子样本的大小的标准的值来创建提取器。

在实施例中，通过对所创建的各个轨进行封装所得到的媒体片段文件符合如国际标准化组织所定义的基媒体文件格式。

根据本发明的第二方面，提供一种用于在服务器或客户端装置中从封装在至少一个媒体片段文件中的多层分区定时媒体数据提供多层定时媒体数据位流的方法，所述多层分区定时媒体数据包括定时样本，各定时样本被编码到第一层和至少一个第二层中，至少一个定时样本包括被编码到所述第一层或所述至少一个第二层中的至少一个子样本，所述至少一个媒体片段文件包括至少一个轨，所述至少一个轨包括从所述定时样本中的至少一个定时样本中所获得的至少一个子样本，所述至少一个媒体片段文件与同所述至少一个轨相关联的描述性元数据相关联，所述描述性元数据包括用于用信号表示所述至少一个子样本和至少另一子样本之间的依赖性链接的描述符，所述依赖性链接描述：在所获得的至少一个子样本和所述至少另一子样本属于同一层的情况下、所获得的至少一个子样本和所述至少另一子样本之间的层内依赖性；以及在所获得的至少一个子样本和所述至少另一子样本属于不同层的情况下、所获得的至少一个子样本和所述至少另一子样本之间的层间依赖性，所述方法包括以下步骤：

选择表示子样本的信息项；

请求包括所选择的子样本的所述至少一个轨，其中所选择的子样本与所选择的信息项相对应；

接收所述至少一个媒体片段文件和所述描述性元数据；以及

识别所述至少另一子样本以生成所述多层定时媒体数据位流。

在实施例中，所述方法还包括以下步骤：从与所述至少一个轨相关联的所述描述性元数据获得表示所获得的至少一个子样本是否包括属于同一层的至少一个子样本的集合的参数，其中该层包括所述定时样本中的所述至少一个定时样本的所有媒体数据。

在实施例中，所述方法还包括以下步骤：从与所述至少一个轨相关联的所述描述性元数据获得表示在与所述至少一个轨相关联的所述描述性元数据中如何描述所述至少另一子样本的参数。

在实施例中，所述方法还包括以下步骤：从与所述至少一个轨相关联的所述描述性元数据获得所述至少一个轨的至少两个子样本组的定义，其中所获得的定义包括相应的子样本组的各子样本的依赖性链接。

在实施例中，所述方法还包括以下步骤：从与所述至少一个轨相关联的所述描述性元数据获得包括所述至少一个子样本组的各子样本的依赖性链接的被称为第一定义的所述至少一个轨的子样本的至少一个子样本组的定义、以及包括不属于所述至少一个子样本组的所述至少一个轨的各子样本的依赖性链接的第二定义。

在实施例中，将依赖性链接组织成包括各子样本和各层的所有依赖性链接的一个列表。

在实施例中，所述方法还包括以下步骤：

获得至少包括至少一个第一样本的项的第一轨，其中所述第一轨的样本的项属于所述第一层；

获得包括至少一个第二子样本的第二轨，其中所述至少一个第二子样本是所述至少一个第一样本的子样本，所述第一轨包括指向所述至少一个第二子样本的至少一个第一提取器；

被称为第三轨的包括所获得的至少一个子样本的轨包括指向所述至少一个第一样本的至少一个第三提取器，其中所获得的至少一个子样本属于所述至少一个第二层。

在实施例中，所述方法还包括以下步骤：

获得包括至少一个第三样本的项的第三轨，其中所述第三轨的样本的项属于所述至少一个第二层；

包括所获得的至少一个子样本的轨被称为第四轨，所述第三轨包括指向所述至少一个第一样本的至少一个项的至少一个第三提取器和指向所述第四轨的所获得的至少一个子样本的至少一个第三附加提取器，所获得的至少一个子样本是所述至少一个第三样本的至少一个项的子样本。

在实施例中，所述方法还包括以下步骤：

获得至少包括至少一个第三样本的项的第三轨，其中所述第三轨的样本的项属于所述至少一个第二层；

在实施例中，根据基于样本的项的大小或者所创建的提取器所指向的层的子样本的大小的标准的值来识别提取器。

在实施例中，根据依赖性链接的参数来确定所识别的提取器所指向的数据的提取。

根据本发明的第三方面，提供一种用于在服务器中对多层分区定时媒体数据进行封装的装置，所述多层分区定时媒体数据包括定时样本，各定时样本被编码到第一层和至少一个第二层中，至少一个定时样本包括至少一个子样本，各子样本被编码到所述第一层或所述至少一个第二层中，所述装置包括处理器，所述处理器被配置为执行以下步骤：

创建包括所获得的至少一个子样本的轨；以及

根据实施例，所述处理器还被配置成：所述多层分区定时媒体数据是多层区块化定时媒体数据，所述子样本是空间子样本。

根据实施例，所述处理器还被配置成：与所创建的轨相关联的描述性元数据包括表示所获得的至少一个子样本是否包括属于同一层的至少一个子样本的集合的参数，其中该层包括所述定时样本中的至少一个定时样本的所有媒体数据。

根据实施例，所述处理器还被配置成：与所创建的轨相关联的描述性元数据包括表示与所创建的轨相关联的描述性元数据中描述所述至少另一子样本的参数。

根据实施例，所述处理器还被配置为执行以下步骤：创建所创建的轨的子样本的至少两个子样本组，其中与所创建的轨相关联的描述性元数据包括各个子样本组的定义，各个子样本组的定义包括相应子样本组的各子样本的依赖性链接。

根据实施例，所述处理器还被配置为执行以下步骤：创建所创建的轨的子样本的至少一个子样本组，其中与所创建的轨相关联的描述性元数据包括包含不属于所创建的子样本组的所创建的轨的各子样本的依赖性链接的第一定义、以及被称为第二定义的所创建的子样本组的定义，其中被称为第二定义的所创建的子样本组的定义包括该子样本组的各样本的依赖性链接。

根据实施例，所述处理器还被配置成：将依赖性链接组织成列表，列表的数量等于用于对样本进行编码的层的数量，各列表是按层的递减或递增顺序进行组织的、或者与层标识符相关联。

根据实施例，所述处理器还被配置成：将依赖性链接组织成包括各子样本和各层的所有依赖性链接的一个列表。

根据实施例，所述处理器还被配置成：根据层标识符来识别各层，其中将依赖性链接组织成包括同位置的子样本的层标识符的一个列表。

根据实施例，所述处理器还被配置为执行以下步骤：

根据实施例，所述处理器还被配置成：根据基于样本的项的大小或者所创建的提取器所指向的层的子样本的大小的标准的值来创建提取器。

根据实施例，所述处理器还被配置成：通过对所创建的各个轨进行封装所得到的媒体片段文件符合如国际标准化组织所定义的基媒体文件格式。

根据本发明的第四方面，提供一种用于在服务器或客户端装置中从封装在至少一个媒体片段文件中的多层分区定时媒体数据提供多层定时媒体数据位流的装置，所述多层分区定时媒体数据包括定时样本，各定时样本被编码到第一层和至少一个第二层中，至少一个定时样本包括被编码到所述第一层或所述至少一个第二层中的至少一个子样本，所述至少一个媒体片段文件包括至少一个轨，所述至少一个轨包括从所述定时样本中的至少一个定时样本中所获得的至少一个子样本，所述至少一个媒体片段文件与同所述至少一个轨相关联的描述性元数据相关联，所述描述性元数据包括用于用信号表示所述至少一个子样本和至少另一子样本之间的依赖性链接的描述符，所述依赖性链接描述：在所获得的至少一个子样本和所述至少另一子样本属于同一层的情况下、所获得的至少一个子样本和所述至少另一子样本之间的层内依赖性；以及在所获得的至少一个子样本和所述至少另一子样本属于不同层的情况下、所获得的至少一个子样本和所述至少另一子样本之间的层间依赖性，所述装置包括处理器，所述处理器被配置为执行以下步骤：

选择表示子样本的信息项；

接收所述至少一个媒体片段文件和所述描述性元数据；以及

根据特定实施例，所述处理器还被配置成：所述多层分区定时媒体数据是多层区块化定时媒体数据，所述子样本是空间子样本。

根据特定实施例，所述处理器还被配置为执行以下步骤：从与所述至少一个轨相关联的所述描述性元数据获得表示所获得的至少一个子样本是否包括属于同一层的至少一个子样本的集合的参数，其中该层包括所述定时样本中的所述至少一个定时样本的所有媒体数据。

根据特定实施例，所述处理器还被配置为执行以下步骤：从与所述至少一个轨相关联的所述描述性元数据获得表示在与所述至少一个轨相关联的所述描述性元数据中如何描述所述至少另一子样本的参数。

根据特定实施例，所述处理器还被配置为执行以下步骤：从与所述至少一个轨相关联的所述描述性元数据获得所述至少一个轨的至少两个子样本组的定义，其中所获得的定义包括相应的子样本组的各子样本的依赖性链接。

根据特定实施例，所述处理器还被配置为执行以下步骤：从与所述至少一个轨相关联的所述描述性元数据获得包括所述至少一个子样本组的各子样本的依赖性链接的被称为第一定义的所述至少一个轨的子样本的至少一个子样本组的定义、以及包括不属于所述至少一个子样本组的所述至少一个轨的各子样本的依赖性链接的第二定义。

根据特定实施例，所述处理器还被配置成：将依赖性链接组织成列表，列表的数量等于用于对样本进行编码的层的数量，各列表是按层的递减或递增顺序进行组织的、或者与层标识符相关联。

根据特定实施例，所述处理器还被配置成：将依赖性链接组织成包括各样本和各层的所有依赖性链接的一个列表。

根据特定实施例，所述处理器还被配置成：根据层标识符来识别各层，其中将依赖性链接组织成包括同位置的子样本的层标识符的一个列表。

根据特定实施例，所述处理器还被配置为执行以下步骤：

根据特定实施例，所述处理器还被配置成：根据基于样本的项的大小或者所创建的提取器所指向的层的子样本的大小的标准的值来识别提取器。

根据特定实施例，所述处理器还被配置成：根据依赖性链接的参数来确定所识别的提取器所指向的数据的提取。

根据特定实施例，所述处理器还被配置成：通过对所创建的各个轨进行封装所得到的媒体片段文件符合如国际标准化组织所定义的基媒体文件格式。

如这里以上所述的封装的方法和装置在特定实施例中还可以包括经由网络来传输封装数据(包括所生成的任何元数据)、或者存储这种封装数据。去封装(或解析)的方法和装置在特定实施例中还包括输出解析后的位流以供解码和/或显示。

根据本发明的第五方面和第六方面，提供一种包括上述的装置的视频编码器和视频解码器。

因此，本发明的视频编码器和视频解码器适合多层视频流的独立部分或区块的高效流传输，使用现有工具来容易地归并到标准、特别是MPEG-4第15部分标准中，支持区块级别的动态层间依赖性，从区块化去相关，适合一个以上的部分或区块选择(即，任意的ROI)，并且限制使用提取器处理层间依赖性所引入的开销。

由于本发明可以以软件来实现，因此本发明可以体现为计算机可读代码以提供至可编程设备的任何适当载体介质上。有形载体介质可以包括诸如软盘、CD-ROM、硬盘驱动器、磁带装置或固态存储器装置等的存储介质。瞬态载体介质可以包括诸如电气信号、电子信号、光学信号、声学信号、磁信号或者例如微波或RF信号的电磁信号等的信号。

附图说明

在研究附图和具体实施方式时，本领域技术人员将明白本发明的更多优点。意图是这里还包含了任何附加优点。

现在将仅通过示例方式并且参考以下附图来说明本发明的实施例，其中：

包括图1a、1b和1c的图1示出HEVC位流中的区块和条带片段的示例；

包括图2a和2b的图2示出将区块封装在多个轨中的示例；

包括图3a、3b和3c的图3示出HEVC可分级位流的结构的不同示例；

图4示出用户为了进行显示所选择的区块的时间管；

图5示出在使用多层HEVC方案时、使用参考图片的集合来对视频数据进行编码；

包括图6a、6b、6c和6d的图6示出不同类型的层间区块预测；

图7示出使得能够进行层间依赖性描述的区块描述符的示例；

包括图8a和8b的图8示出分别使得能够描述向其它区块的解码依赖性的、根据本发明的特定实施例进行修改后的单个层区块描述符以及区块集合描述符；

图9示出多层区块化所用的区块集合描述符的示例；

图10示出用信号表示(signal)区块轨中的层间依赖性的示例；

图11示出将HEVC位流封装作为包括基本轨和独立区块轨的轨集合的示例；

图12示出在HEVC位流包括四个区块的情况下的轨之间的依赖性的简化概述，其中各区块存储在单独区块轨中；

图13示出在可分级HEVC位流包括基本层和增强层的情况下的轨之间的依赖性的简化概述，其中基本层和增强层呈区块化；

图14示出在使用递归提取器时、在可分级HEVC位流包括基本层和增强层的情况下的轨之间的依赖性的简化概述，其中基本层和增强层呈区块化；

图15示出在服务器装置中可以执行的、用于对多层区块化视频位流进行高效封装的步骤的示例；

图16示出在位流读取器中可以执行的、用于对编码后的多层区块化视频位流进行去封装的步骤的示例；

图17示出用于从包括递归提取器的轨中提取视频数据的算法的示例；以及

图18表示可以实现一个或多个实施例的步骤的服务器或客户端装置的框图。

具体实施方式

根据特定实施例，将诸如包括定时样本(例如，图像)的多层区块化定时媒体数据(例如，可分级区块化视频数据)等的多层分区定时媒体数据作为多个定时媒体数据轨(典型为基本轨和区块轨)的集合进行传输。此外，根据特定实施例，基本轨包括基本层基本轨和至少一个增强层基本轨，并且区块轨包括基本层区块轨和增强层区块轨。各定时媒体数据轨包括多个定时样本的一个空间子样本(例如，多个NAL单元)。使用提取器来描述轨依赖性(区块化、层间和/或层内依赖性)。定时媒体数据轨的这种集合使得能够进行多层空间视频区块的选择、合成和高效流传输。可以将各轨作为媒体片段文件的集合从服务器装置传输至客户端装置。可以使用初始化片段文件来传输对媒体片段文件进行解码所需的元数据。

有利地，区块描述被视为与层依赖性描述分开，使得随时间经过的依赖性的变化不需要再次描述整体区块化和依赖性。可以使用提取器、特别是递归提取器来对层间依赖性进行编码，其中通过依赖性声明来控制递归。

本发明的实施例例如还可应用于已知为HEVC的视频格式。

根据HEVC标准，可以将图像从空间上分割成区块、条带和条带片段。在该标准中，区块与利用水平边界和垂直边界(即，行和列)所定义的图像的矩形区域相对应。区块包含整数个编码树单元(CTU)。因此，区块可以高效地用于例如通过定义关注区域的位置和大小来识别关注区域。然而，HEVC位流的结构及其作为网络抽象层(NAL)单元的封装不是与区块有关地组织的、而是基于条带。

在HEVC标准中，条带是条带片段的集合，其中条带片段的集合中的第一个条带片段是独立条带片段、即头部内所存储的一般信息未参考另一条带片段中的信息的条带片段。条带片段的集合中的其它条带片段(在存在的情况下)是依赖条带片段(即，头部内所存储的一般信息参考独立条带片段中的信息的条带片段)。

条带片段包含整数个连续的(按光栅扫描顺序)编码树单元。因此，条带片段可以具有矩形形状或不具有矩形形状，因此不适合表示关注区域。由于在条带片段头部之后为条带片段数据，因此将条带片段编码在HEVC位流中。独立条带片段和依赖条带片段在头部方面不同：由于依赖条带片段依赖于独立条带片段，因此其头部的信息量小于独立条带片段的头部的信息量。独立条带片段和依赖条带片段这两者都包含相应位流中的用于定义区块或用作为熵解码同步点的进入点的列表。

包括图1a、1b和1c的图1示出区块和条带片段的示例。更精确地，图1a示出利用垂直边界105-1和105-2以及水平边界110-1和110-2分割成九个部分的图像(100)。标记为115-1～115-9的这九个部分各自表示特定区块。

图1b示出包含利用垂直边界105’定界的两个垂直区块的图像(100’)。图像100’包括单一条带(无附图标记)，其中该一个条带包含五个条带片段、一个独立条带片段120-1(利用阴影线表示)和四个依赖条带片段120-2～120-5。

图1c示出利用垂直边界105”定界的两个垂直区块的图像(100”)。左侧区块包括两个条带：第一个条带包含一个独立条带片段(120’-1)和一个依赖条带片段(120’-2)，并且第二条带也包含一个独立条带片段(120’-3)和一个依赖条带片段(120’-4)。右侧区块包括包含一个独立条带片段(120’-5)和一个依赖条带片段(120’-6)的一个条带。

根据HEVC标准，按照可以总结为如下的规则(必须满足一个或者两个条件)，条带片段链接至区块。

-条带片段中的所有CTU都属于同一区块(即，条带片段不能属于多个区块)；以及

-区块中的所有CTU都属于同一条带片段(即，可以将区块分割成多个条带片段，只要这些条带片段各自仅属于该区块即可)。

为了明确，以下考虑一个区块包含仅具有一个独立条带片段的一个条带。然而，可以利用如图1b和1c所示的结构那样的其它结构来执行本发明的实施例。

如上所述，尽管可以将区块视为针对关注区域的适当支持，但条带片段是实际放置在NAL单元中以经由通信网络进行传输并聚合以形成访问单位(即，文件格式级别的编码图片或样本)的实体。

需要重申的是，根据HEVC标准，将NAL单元的类型编码在可以如下进行定义的NAL单元头部的两个字节中：

用于对条带片段进行编码的NAL单元由于条带片段地址句法元素而包括表示第一个CTU在条带片段中的地址的条带片段头部。可以按照如下定义这些条带片段头部：

在PPS(Picture Parameter Set，图片参数集)NAL单元中设置区块化信息。然后，可以根据这些参数来推导条带片段和区块之间的关系。

在(按照定义)在区块边界上重置空间预测的情况下，没有什么防止区块使用来自参考帧中的不同区块的时间预测结果。因此，为了构建独立区块，在编码期间有利地将针对预测单位的运动矢量限制在区块内部，以保持在参考帧中的同位置区块中。另外，优选在区块边界上禁用环路滤波器(去块和样本自适应偏移(SAO)滤波器)，以使得在对仅一个区块进行解码的情况下不引入误差漂移。要注意，在HEVC标准中可利用环路滤波器的这种控制。将该控制设置在具有已知为loop_filter_across_tiles_enabled_flag的标志的条带片段头部中。通过明确地将该标志设置为零，区块边界处的像素无法依赖于落在相邻区块的边界上的像素。在满足与运动矢量和环路滤波器有关的这两个条件的情况下，可以将区块视为“独立可解码区块”或“独立区块”。

在将视频位流编码作为一组独立区块的情况下，该视频位流使得能够在不存在丢失参考数据或传播重建误差的风险的情况下，针对各帧进行基于区块的解码。然后，该结构使得能够仅重建例如可以与原始视频的如图4所示的关注区域(包括区块3和7)相对应的空间部分。可以将这种结构表示为视频位流中的补充信息，从而表示基于区块的解码是可靠的。

可以使用MPEG-4第12部分标准的现有样本分组机制来对区块进行封装。因此，利用作为特定一种标准VisualSampleGroupEntry(视觉样本组条目)描述符的区块描述符来创建特定样本组描述。样本分组机制用于表示轨中的样本的分区。这些样本分组机制依赖于以下两个框的使用：SampleToGroup(样本到组)框(“sbgp”)，用于描述样本向样本组的分配；以及SampleGroupDescription(样本组描述)框(“sgpd”)，用于描述特定样本组内的样本的共通特性。经由类型字段(“grouping_type”)利用一个SampleToGroup框和一个SampleGroupDescription框的组合来定义特定类型的样本分组。多个样本分组实例(即，SampleToGroup框和SampleGroupDescription框的对)可以基于不同的分组标准而共存。

使用与样本的区块化有关的特殊分组标准。被称为“trif”的该特殊分组类型描述区块的性质并且是根据标准VisualSampleGroupEntry所推导出的。该特殊分组类型可被称为TileRegionSampleGroupEntry(区块区域样本组条目)，并且按照如下进行定义：

根据该特殊类型的组条目，参数groupID是针对该组所描述的区块的唯一标识符。在基区域的亮度样本中，使用参数horizontal_offset和vertical_offset来分别设置利用区块所表示的矩形区域的左上角像素相对于HEVC帧的左上角像素的水平偏移和垂直偏移。在HEVC帧的亮度样本中，使用参数region_width和region_height来分别设置利用区块所表示的矩形区域的宽度和高度。参数independent是2位字，其中该2位字如以上参考独立区块的定义指定如下内容：区块包括与仅属于相同区块的样本有关的解码依赖性。为了进行例示并且参考用于描述区块组织的SEI消息(补充增强信息)的标准使用，可以使用已知为tile_section_exact_match_flag的标志来设置independent标志的值，其中可以按照如下设置该independent标志的含义：

-如果参数independent等于0，则该区块与相同帧或前一帧中的其它区块之间的编码依赖性是在区块集合级别进行描述的或者是未知的；

-如果参数independent等于1，则在该区块和任何参考帧中的具有不同groupID的其它区块之间不存在时间编码依赖性，但在该区块和参考帧中的具有相同groupID的区块之间可以存在编码依赖性；以及

-如果参数independent等于2，则在该区块和同一帧中的其它区块之间不存在编码依赖性，并且在该区块和参考帧中的任何其它区块之间不存在编码依赖性；

预留independent参数值3。

可选地，将描述针对各区块的平均位率的参数设置在区块描述符中、或者设置在描述区块样本条目的mp4框(例如，作为具有MPEG4BitRateBox(MPEG4位率框)的利用4字符代码“hvt1”表示的特定VisualSampleEntry(视觉样本条目)的HEVCTileSampleEntry(HEVC区块样本条目)205)中。该参数可用于将各区块的位率信息存储在该框中，从而提供至流传输客户端以进行基于带宽的适应性改变。关于mp4框中的大部分，可以利用可选的额外框来扩展HEVCTileSampleEntry框，以匹配特定应用需求。

通过针对各区块轨定义具有“trif”grouping_type和TileRegionGroupEntry的一个SampleGroupDescription框(“sgpd”)来在动画头部(“moov”框)中一次给出各区块的性质。还可以针对各轨片段定义区块性质。可以将这种mp4轨定义为视频区块轨或区块轨。根据HEVC标准，HEVC区块轨是如下的视频区块轨，其中针对该视频区块轨，存在向承载该轨中的区块所属于的HEVC层的其它NALU(通常是诸如各种参数集合等的设置信息)的HEVC轨的参考。该参考可以使用在MPEG-4第15部分标准中已定义的值(诸如“sbas”4字符代码等)或者诸如“tbas”等的更具体值，以表示区块基本轨。

一个区块轨应具有一个且仅一个(图8a所示的)TileRegionGroupEntry且不具有TileSetGroupEntry(区块集合组条目)、或者具有一个且仅一个TileSetGroupEntry以及得出该区块集合所依据的一个或多个依赖TileRegionGroupEntry，其中TileSetGroupEntry是TileRegionGroupEntry的扩展以描述区块的集合。要注意，向这些组各自分配唯一标识符，其中该唯一标识符可用于使NALU关联至组。如“tbas”轨参考所示，区块区域和区块集合共用范围由基本HEVC层指定的groupID的同一命名空间(即，在具有相同基本层的任何轨中，不应存在具有相同groupID的两个区块区域或区块集合)。

包括图2a和2b的图2示出将区块封装在多个轨中的示例。

图2a示出区块结构的示例。为了进行例示，该区块结构包括四个区块(区块1～区块4)，其中各区块的大小的宽度是310个像素且其高度是256个像素。

图2b示出根据MPEG-4文件格式来将图2a所示的四个区块封装在独立轨中的示例。如图所示，将各区块封装在其自身的轨中，这样使得能够进行高效数据寻址并且得到将视频封装为5个轨：用于封装各区块的附图标记为201、202、203和204的四个区块轨；以及所有区块轨共通的一个参数集轨210(在本说明书中还称为基本轨)。

各区块轨(201、202、203和204)的描述基于诸如TileRegionGroupEntry框206等的TileRegionGroupEntry框(利用“trif”参考来标识)。

这里，“trif”框使用默认样本分组机制(具有属性default_sample_description_index＝1，在图中表示为def_sample_descr_index)以使区块轨的所有样本都关联至适当的TileRegionGroupEntry或TileSetGroupEntry。例如，在轨1(附图标记201)中在TileRegionGroupEntry框206中描述与区块1相对应的NAL单元221。

这里，由于给定轨中的所有样本都映射到该轨所描述的区块，因此这里不需要NALUMapEntry(NALU映射条目)描述符。附图标记221和222分别指定包含时间1～时间S(在轨片段的情况下媒体文件或媒体片段的持续时间)内的针对区块1和区块4的数据的数据块。

实际上，轨样本不是传统的视频样本，这是因为在本实施例中这些轨样本是区块样本：区块轨中所存储的样本是如ISO/IEC 23008-2(HEVC)所定义的针对一个或多个区块的条带的完整集合。这样排除了参数集、SEI消息和其它非VCL NAL单元。如果样本中的VCLNAL单元表示样本中所包含的编码条带是瞬时解码刷新(IDR)条带、清理随机访问(CRA)条带或断开链接访问(BLA)条带，则区块轨中所存储的HEVC样本被视为同步样本。如此，这些轨样本不具有与传统样本将具有的大小相同的大小：根据图2a的示例，传统的HEVC样本将具有640×512个像素的大小，而这里各区块轨中所存储的HEVC样本将具有320×256个像素的大小。为了避免解析时的模糊性，利用新类型的VisualSampleEntry描述符即HEVCTileSampleEntry描述符(诸如与轨1(利用4字母代码“hvt1”来指定)相关联的HEVCTileSampleEntry描述符205等)来用信号表示区块样本。

从形式上，HEVC视频轨的样本条目是各轨头部的样本描述框中所声明的HEVCSampleEntry(HEVC样本条目)。这里，由于使用表示相同视频流的多个轨，因此各区块轨包括轨中的样本实际是完整视频流的子部分的样本的指示，从而表示这些样本是HEVCTileSampleEntry类型的样本(各轨的样本描述框“stsd”中的各“hvt1”框)。然后，区块轨的解码不涉及任何布局操作，并且在视频解码器存储器中的相同场所对区块进行解码，仿佛对所有区块进行解码一样。然后，将区块轨的轨头部中的布局信息设置成与如利用“tbas”轨参考类型标识的关联基本轨的轨头部信息相同。否则，应忽略区块轨。另外，区块轨中的视觉信息没有不同于其相关的基本轨中的视觉信息。特别地，在样本描述中不必重新定义如清理孔径框“clap”或像素样本高宽比“pasp”那样的信息。

对于样本描述类型“hvt1”，区块轨中的样本和样本描述框均不能包含PS、SPS或PPS NAL单元。在可分级性的情况下或者在诸如图2b的专用轨210等的专用轨中，这些NAL单元必须在样本中或者在包含基本层(如利用轨参考所识别)的轨的样本描述框中。

针对规则HEVC样本所定义的子样本和样本分组针对HEVC区块样本具有相同的定义。优选使用附图标记为211的类型“scal”的轨参考框“tref”(或者用信号表示基于提取器的区块化依赖性的任何其它4字节代码)来描述参数集合/基本轨210和区块轨之间的依赖性。

HEVC视频编码标准支持针对多视图或可分级应用的多层视频编码。在这种情况下，可以使用给定层作为一个或多个其它层的参考数据。

包括图3a、3b和3c的图3示出HEVC可分级位流的结构的不同示例。

图3a是包括基本层300和增强层305的空间可分级视频位流的示例。根据基本层300对增强层310进行编码。在这种视频位流格式中，由于基本层和增强层中的任何层均不包含区块，因此存在图片与图片依赖性。

图3b示出包括基本层310和增强层315的可分级视频位流的另一示例。根据该示例，增强层315是特别包括区块320的区块化增强层。在这种视频位流格式中，由于增强层的区块依赖于基本层，因此存在区块与图片依赖性。

图3c仍示出包括基本层325和增强层330的可分级视频位流的另一示例。根据该示例，基本层325是特别包括区块335和340的区块化基本层，并且增强层330是特别包括区块345和区块集合350的区块化增强层。可以利用增强层330从空间上增强基本层325。在这种视频位流格式中，由于增强层的区块依赖于基本层的区块，因此存在区块与区块依赖性。由于增强层的区块集合依赖于基本层的区块，因此还存在区块集合与区块依赖性。为了进行例示，区块345依赖于区块340并且区块集合350依赖于区块335。可以存在诸如区块与区块集合依赖性或者区块集合与区块集合依赖性等的其它依赖性。

要注意，对于可能进行了区块化或可能没有进行区块化的基本层的顶部的也可能进行了区块化或可能没有进行区块化的SNR可分级层，存在相似的结构。

图4示出用户为了进行显示所选择的区块的时间管。更精确地，图4表示第一个视频帧n和第二个视频帧n+m(其中，n和m是整数值)，其中第一个视频帧和第二个视频帧各自包括编号为1～12的十二个区块。为了进行例示，在这十二个区块中，要显示第三个区块和第七个区块(如粗线所示)。视频帧n和n+m属于与给定时间段相对应的一系列连续帧。因此，连续显示帧n～帧n+m中的各帧的第三个区块和第七个区块。

然而，将符合标准mp4文件格式的视频位流的数据组织为与所有帧相对应的时间样本。因此，在如以上通过参考图4所述在给定时间段内要访问这些帧的特定空间区域的情况下，要求针对各帧访问多个小的字节范围。从所生成的请求的数量和数据开销方面而言，这在HTTP流传输中效率低。这对于RTP流传输所用的位流提取而言也是不够高效的，这是因为该位流提取需要多个小文件寻求操作。

因此，为了在ROI流传输所用的压缩视频中提供更为高效的访问，要重新组织定时媒体数据位流，以使得将特定区块的数据组织为给定时间段(即，连续帧的集合)内的连续字节范围(形成管)。

因此，在仅要显示视频帧的空间子部分的情况下，必须针对各管并且针对各时间段使用一个HTTP请求来仅下载与所选择的空间区域相对应的区块的管(例如，图2中的区块3和7)。同样，在RTP流传输中，服务器可以更加高效地从诸如硬盘等的源中提取与区块的管相对应的更大的数据块。

如图5所示，HEVC标准的多层扩展影响预测模式、特别是参考图片的构造。

图5示出在使用多层HEVC方案或相似方案的情况下、使用参考图片的集合来对视频数据进行编码。

在要对图片500进行编码的情况下，可以使用不同的预测结果。这些预测结果是从通常为以下的各种参考图片集合内所存储的参考图片中所选择的：与在要编码的当前图片之前的短期图片相对应的参考图片的集合501、与在要编码的当前图片之后的短期图片相对应的参考图片的集合502、与在要编码的当前图片之前的长期图片相对应的参考图片的集合503、以及层间参考图片的集合504。

要注意，尽管短期参考图片集合和长期参考图片集合共通地用于对单层HEVC进行处理，但多层扩展提供层间参考图片集合中的、都与要编码的当前图片相关联的至少两个附加参考图片列表。

利用NumActiveRefLayerPics参数505给出层间参考图片的集合的列表中所存在的最大数量的图片。

为了进行例示，可以根据图片顺序计数(POC)和/或LayerId值来向参考图片编索引。

在条带片段头部中使用层间参考图片的集合的列表中所存在的最大数量的图片，以向为了预测当前图片500而可以使用的各层间参考图片提供其层标识符的值：NAL单元headers_layer_identifier。然后，针对条带(或在一个区块对应于一个条带的情况下的区块)，可以推导出层间依赖性的列表。这样会影响区块的“独立可解码”性质。如此，该层间依赖性信息应与在以文件格式进行封装时的区块的描述相关联，以确保在重放时或在流传输中，还存在来自依赖层的应用程序数据以进行所选择的区块的正确解码和显示。

在HEVC的多层扩展(ISO/IEC 23008-2附录F)中，定义被称为“层间制约区块集合SEI消息”的特定SEI消息以表示在利用区块对层进行编码时对层间预测处理的制约。如下所述针对给定层定义该SEI消息：“除非针对某层有效的每个PPS的tile_boundaries_aligned_flag等于1[在VPS VUI(视频参数集合,视频可用性信息)中]、或者满足了利用tile_boundaries_aligned_flag＝1将表示的条件，否则针对该层不应存在层间制约区块集合SEI消息”。

这种SEI消息“表示制约层间帧间预测处理，使得所标识的各区块集合外部的样本值、以及使用所标识的区块集合外部的一个或多个样本值所推导出的分数样本位置处的样本值均不用于所标识的区块集合内的任何样本的帧间预测”。

更具体地，利用值是进行了如下所述定义的特定ilc_idc标志(ilc_idc[i])来给出针对各区块集合i的预测制约：

-0：未确定；

-1：表示在CVS内，所标识的第i个区块集合外部的样本、以及使用所标识的第i个区块集合外部的一个或多个样本所推导出的分数样本位置处的样本均不用于nuh_layer_id等于ictsNuhLayerId的所标识的第i个区块集合内的任何样本的帧间预测，其中ictsNuhLayerId是该消息的nuh_layer_id的值；

-2：表示在CVS内，不根据层间预测图片来预测nuh_layer_id等于ictsNuhLayerId的所标识的第i个区块集合中的预测块；以及

-3：预留。

即使在参考图片的集合中存在层间参考图片，也不必使用这些层间参考图片。此外，为了计算成本节省，编码器决定仅使用来自相同当前层的信息来对区块进行编码，并且有时例如决定随机访问帧以使用来自下层的信息。

包括图6a、6b、6c和6d的图6示出不同类型的层间区块预测。根据例示示例，视频流的各帧包括至少两个层(层i和层i+1，其中层i+1是层i的增强层)。

根据图6a所示的示例，针对各帧的增强层的各区块使用帧内预测和帧间预测这两者。

例如，帧600的增强层i+1的区块601如箭头603所示、依赖于同一帧600的下层i的相应区块602，并且如箭头605所示、依赖于前一帧的增强层i+1的相应区块604。

如附图标记603表示的层间预测指示表示层i+1的区块依赖于层i的相应区块、层i的区块的集合、或者层i的整个图片。层i+1的仅一部分区块可以依赖于下层中的一个或多个区块。

此外，如图3b～3d所示，依赖性随时间的经过而在视频序列中改变，其中编码器仅在由帧610、611、620、621、630和631表示的随机访问点上使用层间预测。

根据图6b所示的示例，层i+1的各区块依赖于前一帧的同一增强层i+1的相应区块、或者下层i的一个或多个区块。根据图6c和6d所示的示例，层i+1的各区块依赖于前一帧的同一增强层i+1的相应区块、以及/或者下层i的一个或多个区块。

有鉴于这些不同的依赖性方案，应动态地设置针对采用文件格式的区块描述符的依赖性间信号表示。因此，为了提供区块描述的灵活性并且为了支持各种编码器选择，优选依赖性间信号表示与区块描述自身分离。

图7示出使得能够进行层间依赖性描述的区块描述符的示例。

如图所示，TileRegionGroupEntry描述符700和701在给定示例中包括用于访问可分级性信息以及区块或图片依赖性信息的dependentGroupID(依赖组ID)参数703和layerGroupID(层组UD)参数704。根据给定示例，将分级性信息存储在HEVCLayerDefinitionBox(HEVC层定义框)描述符702内，并且将区块或图片依赖性信息存储在TileRegionGroupEntry描述符701内。

HEVCLayerDefinitionBox描述符702示出HEVCLayerDefinitionBox描述符(或HEVCLayerDefinitionBox框)的参数的示例，其中这些参数包括标识符、依赖性信号表示机制和来自于视频基本位流的附加性质。为了进行例示，附加性质包括visualWidth(视觉宽度)和visualHeight(视觉高度)参数。然而，附加性质还可以包括诸如帧频、位率以及配置文件和级别信息等的其它参数。这些附加性质还可以包括描述可分级性层的高级句法信息。

可以如下所述定义修改后的TileRegionGroupEntry描述符701的新的修改后的参数：

-dependentGroupID(附图标记703)，其给出区块集合(如由TileSetGroupEntry描述符来定义)的区块(如由TileRegionGroupEntry描述符来定义)、或者该区块所依赖于的HEVC层(如由HEVCLayerDefinitionBox描述符(例如，HEVCLayerDefinitionBox描述符802)来定义)的标识符。在依赖性源自于轨参考框的情况下，优选将该参数设置为0；

-layerGroupID(附图标记704)，其给出该区块所属于的HEVC层(如由HEVCLayerDefinitionBox描述符来定义)的标识符。在依赖性源自于轨参考框的情况下，将该参数设置为0；以及

-region_width和region_height，其分别定义layerGroupID参数(在其值不同于零的情况下)所标识的层中的从亮度样本方面利用区块表示的矩形区域、或者如本领域技术人员众所周知的并且包含在“moov”框中的“stsd”框的视觉样本条目中所指示的帧的宽度和高度。

在修改对groupID参数进行编码所使用的位的数量的情况下，相似的添加的修改后的参数还适用于TileSetGroupEntry描述符(由于组合区块化结构和可分级性结构并且使用单个命名空间，因此要增加groupID参数的值的数量)。

所需的另一改变涉及dependencyTileGroupID(依赖性区块组ID)属性的解释，其中该dependencyTileGroupID属性可以定义区块集合(如由TileSetGroupEntry描述符来定义)的区块(如由TileRegionGroupEntry描述符来定义)、或者该区块集合所依赖于的HEVC层(如由HEVCLayerDefinitionBox描述符来定义)的标识符。如果dependencyTileGroupID属性的值等于零，则依赖性源自于轨参考框。

为了进行例示，可以如下所述定义HEVCLayerDefinitionBox描述符(附图标记702)的参数：

-groupID，其是利用组所描述的针对层的唯一标识符。在NALUMapEntry(“nalm”)框中，针对特殊使用而预留了值0；

-dependentGroupID，其表示层所依赖于的HEVC层(如由HEVCLayerDefinitionBox描述符来定义)的groupID标识符。如果dependentGroupID参数的值等于零，则依赖性源自于上述的轨参考框“stsd”。这例如是在可分级HVC(SHE VC)位流增强AVC|H264轨的情况；

-visualWidth，其给出亮度样本中的编码图片或视图的宽度的值；以及

-visualHeight，其给出亮度样本中的编码图片或视图的高度的值。

使区块化参考层描述符并且使层描述符能够参考区块或层描述符的优点在于在groupID标识符的使用期间始终提供统一且灵活的依赖性信号表示。通过使区块、区块集合和HEVC层的groupID标识符所用的标识符命名空间统一、并且通过引入两个依赖性标识符(参数dependentGroupID和layerGroupID)，可以简单地定义以下依赖性：

-区块化层之间的依赖性；

-非区块化层之间的依赖性；

-非区块化增强层和区块化基本层之间的依赖性；以及

-区块化增强层和非区块化基本层之间的依赖性。

然而，如果两个参数703和704分别针对给定区块提供与另一区块有关的依赖性信息和与该区块的层有关的信息，则这种解决方案的限制是该解决方案不支持如HEVC中所描述的参考图片列表机制所要求的多个依赖性。此外，在层间依赖性信号表示嵌入在区块描述符自身中的情况下，在每次层间依赖性改变时应重复进行区块信号表示。实际上，由于同一区块可能随时间的经过(至少针对各GOP)而具有不断改变的依赖性，因此要针对每个可能的依赖性重复区块化结构、或者要引入明确的依赖性分组。

可以使用如图8b所示的TileSetGroupEntry(“tsif”)类型的区块描述符来描述包括层间依赖性的区块依赖性。

通常使用TileSetGroupEntry类型的区块描述符来基于(层间)编码依赖性定义区块的集合。然而，由于TileSetGroupEntry描述符使得能够使用各个区块描述符(区块ID＝TileSetGroupEntry中的groupID)来描述区块集合，因此可以表示区块集合由单个区块构成。因此，之后的依赖性列表使得能够列出可能来自不同层的任何数量的区块。因而，可以在“tsif”样本描述框中列出区块与下层中的其它区块ID的依赖性。

为了将诸如通过参考图3所述等的HEVC可分级位流封装在mp4文件中，后者应包括以下：

-针对基本层的各区块：标记为“独立”(ilc_idc值等于1(或者仅针对IDR为2))的一个区块区域、也就是说可以在无需来自该层中的另一区块的时间依赖性的情况下进行解码的区块区域；

-针对增强层的各区块：标记为“独立”(ilc_idc值等于1)的一个区块区域、也就是说可以在无需来自该层中的其它区块的时间依赖性的情况下进行解码的区块区域；

-针对增强层的各区块：由单一区块和与基本块的依赖性构成的一个区块集合；以及

-具有两个条目的NALUMapEntry(“nalrm”)样本组描述框：

-将NALU映射至“tsif”组的一个条目，其中描述区块间依赖性(包括层间依赖性)的使用；以及

-将NALU映射至独立区块的“trif”组的一个条目(即，不具有与其它非同位置区块的依赖性的区块)。

为了处理区块层和非区块层之间的依赖性的描述(如通过参考图3a和3b所述)，可以扩展区块描述设计以使得能够利用描述符来描述非区块层，由此可以通过单个描述工具(TileSetGroupEntry描述符)来表示层(无论是否区块化)之间的所有依赖性。

包括图8a和8b的图8示出分别使得能够描述与其它区块的解码依赖性的、根据本发明的特定实施例进行修改后的单个层区块描述符800和区块集合描述符850。

表示为801的independent(独立)参数指定当前帧和同一层的参考帧中的所定义的区块和其它区块之间的编码依赖性。如图8b所示，利用描述符TileSetGroupEntry的dependency_list参数851来表示区块间依赖性(在存在的情况下)。

被称为full_frame参数并且表示为802的新参数在被设置的情况下，表示所定义的区块实际是完整帧，其中在这种情况下，将表示为803的参数region_width和region_height设置到亮度成分的层大小。在这种情况下，将参数independent设置为1。这样使得无论跨层的区块化结构如何(是否区块化)，都能够使用参考full_frame参数设置为1的“trif”样本组的“tsif”样本组(即，以统一的方式)来表示层的区块与非区块化层的依赖性。

如图8b所示，可以将依赖性定义为区块标识符(附图标记852)的集合、或者自身可以使用与表示矩形的左上顶点和右下顶点(附图标记853)相对应的两个点来定义的参考区域。

由于图8b中的表示为851的区块集合描述符的dependency_list参数表示区块集合是否是自包含的、但不能区分层内依赖性和层间依赖性。因此为了避免在可分级性的情况下的任何模糊(dependency_list参数可以表示当前层中的区块集合不依赖于基本层、或者跨层的区块的集合是自包含的)并且针对对区块轨进行封装/解析时的互操作性，可以如图9所示向dependency_list参数赋予特定含义。

图9示出针对多层区块化的区块集合描述符900的示例。

根据例示示例，将区块集合描述符900的dependency_list参数编码在三个位以上上，其中各位具有特定含义。

如分别利用附图标记901、902和903所示，开头的两个最低有效位表示在声明了部分类型的情况下、是否可以利用类型来声明依赖性。二进制值00表示没有依赖性被用信号表示(测试901)，值01表示仅层内依赖性被用信号表示(测试902)，值10表示仅层间依赖性被用信号表示(测试903)，并且最后，值11表示层内依赖性和层间依赖性这两者都被用信号表示(存在902和903)。然后，第三个最低有效位表示依赖性的列表是被提供作为区块组标识符(值0)的列表、还是被提供作为区域。

区块集合描述符900与如下的简单示例相对应：在无需提供任何层信息的情况下，用信号表示层间区块依赖性，如此针对dependency_list参数仅需要3位。可以使用附加位(优选最多总共5位)来提供层间区块依赖性的更精确描述。

根据特定实施例(未示出)，在存在层间依赖性(第二个最低有效位设置为1)的情况下使用第四位，以表示是否利用层(例如，值1)来组织依赖性。然后，根据表示依赖性是被描述为区块组标识符的列表还是被描述为区域的信号表示模式(由dependency_list的第三个最低有效位给出的列表或区域，附图标记904)，创建单(第3位值为1)或双列表(第3位值为0)。双列表包含层数、以及针对各层的当前层处的该区块所依赖于的区块组标识符的列表。单列表仅包含层数，并且针对各层，提供当前层的当前区块所依赖于的区域。然后，解析器假定按从当前层向基本层的降序来组织层。代替依赖性的简单列表，然后解析器具有当前区块轨所依赖于的轨的指示。这样限制了轨的集合中的要映射的搜索空间。

根据可被视为前一实施例的改进的另一实施例(未示出)，在将第四位设置为1的情况下、即在利用层来描述层间区块依赖性的情况下，使用第五位。在这种情况下，第五位针对各层用信号表示层标识符信息的项。例如，将具有以下参数(假定将第三位设置为1以将依赖性描述为区块组标识符的列表)：

上述示例中的layer_ID可以取NAL单元头部中所包含的值：nuh_layer_id。处理如此封装的文件的解析器必须通过解析描述该特定层的专用框(例如，来自MPEG-4第15部分标准的TierInfoBox、MPEG贡献中的、图7的HEVCLayerDefinitionBox 702中的、或者来自提供层信息的任何元数据框的如由Nokia所建议的LayerInfoBox)来求出层相关信息。该框可以经由其ID来进行识别。这样有助于mp4解析器更快速地使依赖区块关联至层信息框或例如图7的HEVCLayerDefinitionBox 702那样的层描述。

在将第五位设置为0的情况下，没有提供层标识符。在这种情况下，假定按降序组织层，则针对各层，可以指定区块组标识符的列表或者区域。在给定层处不存在依赖性的情况下，利用dependency_tile_count＝0或者topLeftDependencyTileGroupId(左上方依赖性区块组Id)和bottomRightDependencyTileGroupId(右下方依赖性区块组Id)这两者都等于0来进行表示。

此外，根据另一实施例，在利用层ID信息(第四位和第五位的值为1)来针对各层组织层间依赖性、并且这些层间依赖性被组织为区块组标识符(第三位设置为0)的列表的情况下，应解释为与所识别的层中的同一帧中的同位置区块集合的依赖性。在这种情况(即，通用情况)下，由于不具有前一示例的最后循环，因此描述较短。这通过将dependency_tile_count放入值0xFFFF来用信号进行表示。在将层间区块依赖性用信号表示为区域(第三位设置为1)的情况下，可以通过将TileSetGroupEntry的topLeftDependencyTileGroupID和bottomRightDependencyTileGroupID都设置为0xFFFF来表示层间依赖同位置区块的信号表示。在将视频基本流中的VPS的tile_boundaries_aligned_flag设置为1的情况下，解析器可以依赖于区块索引来求出同位置区块、或者可以应用从TileRegionGroupEntry获得的当前区块大小或所参考的区块大小相对于当前区块位置803的比率，以求出依赖层中的同位置区块的位置。

无论层间区块依赖性的所选择的信号表示如何，都可以从层间制约区块集合SEI消息(在存在的情况下)读取信息。该SEI消息按照定义表示针对给定层中的各区块集合、该区块集合是否具有与其它层的依赖性(ilc_idc参数)。然后，通过读取该信息，mp4写入器能够设置描述给定区块集合的TileSetGroupEntry的依赖性列表的第二位。为了判断当前区块集合可以依赖于哪个层，mp4写入器可以读取direct_dependency_flag参数中的视频参数集(VPS)的扩展中所包含的其它信息。该阵列提供从一个层向另一层的直接依赖性的列表。然后，例如针对各层(第四位设置为1)，通过针对direct_dependency_flag参数具有值1(这表示从当前层向该给定的第二层的依赖性)的各层创建区块依赖性的输入列表，可以构建区块间层依赖性的列表。在ilc_idc参数的值表示自包含区块集合的情况下，最后实施例可用于dependency_tile_count区块的特定值-1，从而用信号表示依赖区块是当前层中的同位置区块。否则，区块制约可以从表示区块的运动制约的另一SEI消息获得。

上述解决方案针对一组样本或者给定轨或轨片断的一组NALU提供层间区块依赖性信号表示。为了使其更灵活且更动态、例如为了处理图6所示的不同类型的层间区块预测，可以考虑多个解决方案。

根据图10所示的第一个解决方案，可以使用NALU MapEntry来进行根据层间预测的样本的映射。为了清楚，仅例示包含区块轨的集合的mp4文件的头部1000，其中各区块轨包括一个区块和S个样本，并且各样本包括N个NAL单元。

此外，为了清楚，利用描述相应样本的性质的样本框表1002来例示仅一个区块轨描述1001的示例。轨标识符(例如，轨头部框(这里未示出)的track_ID参数)表示是增强层1的区块轨。

样本条目框1003将样本描述为HEVC区块样本(HEVCTileSampleEntry)，并且SampleGroupDescription框1004表示组条目的“nalm”分组类型且定义样本组。如图所示，将区块样本分割成分别与具有层间依赖性的区块样本和不具有层间或层内依赖性的区块样本的两个集合1005和1006。样本的这些集合分别映射SampleGroupDescription框1007中所定义的NALUMapEntry 1008和1009。

如利用附图标记1013(依赖性参数：dependency_list＝2)和1012(当前区块所依赖于的区块的参考即groupID＝T01)所示，第一个NALU映射1008将关联的NAL单元映射至描述层间区块依赖性的TileSetGroupEntry 1010。将其它NAL单元映射至没有定义任何层间或层内依赖性的TileRegionGroupEntry1011。将视频数据放置在“mdat”框1020中作为各自传送区块数据的样本1021～1023的列表。

根据与基于专用服务器和mp4写入器以及专用客户端装置和mp4解析器的使用的特定实施例相对应的第二解决方案，控制编码器以生成规则层间预测图案，并且控制mp4写入器以生成与诸如图6b和6c所示的等的随机访问点一致的区块轨片断。在ISO/IEC JTC1/SC29/WG11MPEG/N14727,Sapporo,Japan,July 2014的最新版本中，这些点可选地被称为流访问点或SAP。通过使用规则层间预测图案，mp4写入器通过使用默认样本分组将所有样本映射至TileSetGroupEntry来生成更加紧凑的描述，其中该TileSetGroupEntry参考描述区块的TileRegionGroupEntry，并且该TileSetGroupEntry描述针对在图6b和6c中标记为610、611和620、621的随机访问样本的基本层的依赖性。由于可以去除NALU映射1008和1007，因此与通过参考图10所述的解决方案相比，依赖性描述在字节大小方面更加紧凑。

作为代替，使用ISO BMFF的默认样本分组机制来将轨中的所有样本映射到TileSetGroupEntry。在“sync”或“ras”类型的样本组描述框中描述随机访问样本610、611和620、621，从而提供均包含特定VisualSampleEntries的随机访问点。被描述为随机访问点的条目是层间区块依赖性适用于的样本。预留了dependency_list的特定值以提供这些随机访问样本的层间依赖性：

可选地，在选择区域模式描述的情况下，可以如下所述使用值2和4：

在本实施例中，dependency_list参数使用值3或4，以表示针对样本是IDR(帧内解码刷新)、CRA(清理随机访问)或BLA(断开链接访问)图片(即，随机访问样本)的情况给出区块依赖性的附加列表。参数idr_dependency_tile_count和idr_dependencyTileGroupID指定区块区域、以及在该区块所属于的样本是IDR、CRA或BLA图片的情况下该区块集合所依赖的区块集合的列表。参数idr_TopLeftDependencyTileGroupId和idr_BottomRightDependencyTileGroupId分别指定依赖层中的左上方区块和右下方区块的标识符。

与前述实施例相同，可以针对各层利用信号表示来扩展该参数。

对于向视频内容的高效时间访问，ISO BMFF定义被称为提取器的工具。提取器是使得能够从其它轨高效地提取NAL单元的文件格式内部结构。直接***位流中的这些结构使用由各编码格式针对应用程序和传输层所预留的专用NAL单元类型(例如，ISO/IEC14496-10视频的类型31)。这些结构使得能够在无需重复数据的情况下将视频数据组织到多个轨中。

提取器最初是针对诸如符合SVC或MVC格式的视频数据等的可分级视频数据所设计的。在这些格式中，可以通过使用多个依赖轨来高效地表示分层媒体数据组织，其中各轨表示可分级性的特定级别的视频。例如，增强层轨的位流可以包括参考来自基本层轨的NAL单元的提取器。在从文件格式中提取这种增强层轨的情况下，利用提取器正参考的数据来替换这些提取器。

最近，还以HEVC文件格式定义了提取器以将多层HEVC和HEVC区块高效地封装在单独轨中。因此，如通过参考图11(1120-1和1120-12)所述，利用被称为“区块轨”的特定轨来表示要编索引的各个独立区块。

然而，在将区块化和可分级性混合的情况下，所需的提取器的数量可能大大增长。如此，在优选实施例中，区块轨应不使用提取器。利用如图11所示的、与完整帧中的HEVC位流相对应的基本轨(1115)(经由包含针对各个区块轨的“scal”定义的动画框“moov”的轨参考框“tref”来)来参考区块轨。仅该包含关联层的基本轨可以使用提取器来表示如何重建原始位流。由于“tbas”轨参考(1150)，因此利用轨来标识基本轨。

区块轨中所存储的HEVC样本是如ISO/IEC 23008-2所定义的针对一个或多个区块的条带的完整集合、即形成这些条带的VCL NAL单元。这意味者区块样本不应包含任何参数集合、SEI消息或其它非VCL NAL单元。相反，基本轨包含与初始化数据相对应的各种参数集(例如，视频参数集、序列参数集和/或图片参数集)。基本轨还包含指向区块轨中的样本的提取器(即，特定类型的NAL单元)。

如上所述，提取器可以是具有以下句法的文件格式内部结构：

提取器用作向来自其它轨的数据的指针或参考，并且代替两个轨中的数据重复，使得能够参考依赖轨来构建紧凑轨。提取器优选使用NAL单元句法。因此，提取器包括结构与NAL单元头部相同的头部，其中该头部特别包括与NAL单元类型有关的信息。例如，将该NAL单元类型设置为当前与HEVC中的预留NAL单元类型相对应的值“49”。在该头部之后是轨参考框(tref)中的索引(表示为track_ref_index)，其中该索引使得能够检索包含与提取器所参考的轨相对应的轨的标识符(track_id)的tref框的类型“scal”的条目。第三个参数是提取器所参考的样本相比当前样本的时间偏移(sample_offset)。第四个参数和第五个参数(表示为data_offset和data_length)分别提供复制源自于的位置(优选以字节为单位)以及要复制的数据量(预留值0以表示复制整个所参考的NAL单元)。

图11示出将HEVC位流封装为包括基本轨(1115)和独立区块轨(1120)的一组轨的示例。

如图所示，封装后的位流1100包括：初始化片段文件1105，其包含提供针对轨的定义的动画框(“moov”)；以及媒体片段文件1010，其表示基本轨1115和12个区块轨1120-1～1120-12(区块轨1120-1～1120-12各自与视频序列中的一个区块相关联)。

基本轨1115包括：片段类型框“styp”(未示出)；至少一个动画片断框“moof”1125，其包括诸如轨片段类型和标识符等的元数据；以及至少一个媒体数据框“mdat”1130，其针对各视频数据样本包括PPS和向视频数据的参考。

同样，区块轨1120-1～1120-12各自包括：片段类型框“styp”(未示出)；至少一个动画片断框“moof”，其包括诸如轨片段类型和标识符等的元数据；以及至少一个媒体数据框“mdat”，其包括以NAL单元(NALU)为单位进行封装的压缩视频数据。

在初始化片段文件1105的轨参考框“tref”1135(在具有标识符id＝1的基本轨的定义中，更精确为初始化片段文件1105的动画框“moov”)中参考具有标识符2～13的区块轨1120-1～1120-12。

如图所示，基本轨1115包括用作向来自其它轨的数据的指针或参考的提取器。为了进行例示，示出多个参数，其中在这些参数中，区块轨的索引(track_ref_index)、数据偏移(data_offset)和数据长度(data_length)与基本轨1115的提取器1135-1和1135-p相对应。

仍然为了进行例示，在对基本轨1115的NAL单元1135-1进行处理的情况下，判断为NAL单元1135-1表示提取器类型的NAL单元(NALUnitHeader等于十六进制值6200)。因此，处理NAL单元1135-1，以恢复相应的压缩视频数据。为此，获得其区块轨索引(即，track_ref_index＝1)。根据该索引，可以根据初始化片段文件1105中所存储的区块轨定义来恢复区块轨标识符。在给定示例中，由于索引等于1，因此选择“tref”框的第一个区块轨标识符(id＝2)。接着，使用该标识符来访问相应的区块轨，然后使用提取器1135-1的数据偏移(即，要用作信息源的所识别出的轨中的样本的相对索引)和数据长度(即，要复制的字节的数量、例如在data_length＝0的情况下的整个NALU)参数，来从区块轨1120-1中提取压缩视频数据(即，在给定示例中为编码条带片段NALU1140)。

在进行了处理之后，利用提取器所参考的数据来替换该提取器。根据图11所示的示例，提取器1135-1的解析和处理使得能够利用编码条带片段NALU 1140来进行替换，由此形成HEVC兼容位流。

要注意，用于存储HEVC提取器的参数的语义可以接近SVC标准中所定义的语义。因此，对于参考HEVC NAL单元的提取器，可以应用以下：

-如在ISO/IEC 23008-2所规定的，设置已知为forbidden_zero_bit的参数；

-将已知为nal_unit_type的参数设置为49(当前FDIS中的预留码)；

-从提取器所参考的第一个NALU复制已知为nuh_layer_id和nuh_temporal_id_plus1的参数(参考HEVC NAL单元的HEVC轨中的提取器不参考具有不同的nuh_layer_id值和nuh_temporal_id_plus1值的多个NAL单元)；以及

-将已知为sample_offset的参数设置为0。

还要注意，根据特定实施例，仅可以对HEVC序列的区块的子集进行解码。在这种情况下，可以使用TileRegionGroupEntry和TileSetGroupEntry样本组描述中所存储的区块依赖性信息，以在对HEVC区块轨进行解码时丢弃不需要的区块轨或忽略一些提取器。

图12示出在HEVC位流包括四个区块的情况下的轨之间的依赖性的简化概述，其中将各区块存储在单独的区块轨中。

如上所述，表示为BT的基本HEVC轨1210包含所有区块、特别是各种参数集(例如，视频参数集、序列参数集和/或图片参数集)共通的数据。基本HEVC轨1210参考“tref”框中的“scal”类型来用信号表示针对区块轨的依赖性。针对各样本，基本HEVC轨1210还包含指向分别表示为TT1、TT2、TT3和TT4的各区块轨1220-1～1220-4的提取器(利用箭头表示)。如图所示，各区块轨参考“tbas”类型来识别HEVC基本轨。

在考虑诸如可分级HEVC格式(SHVC)等的区块化和多层位流这两者的情况下，如下所述，多个位流结构是可以的：

-基本层和增强层这两者均未进行区块化；

-基本层进行了区块化，但增强层并未进行区块化；

-基本层并未进行区块化，但增强层进行了区块化；以及

-基本层和增强层这两者均进行了区块化。

使用提取器使得能够对视频数据进行高效组织以处理区块化和可分级性(多层)这两者。

图13示出在可分级HEVC位流包括基本层和增强层的情况下的轨之间的依赖性的简化概述，其中基本层和增强层均进行了区块化(在该示例中为四个区块)。

如通过参考图11和12所述来组织基本层。表示为BLBT的基本层基本轨通过参考“seal”类型来用信号表示针对表示为BLTT1～BLTT4的四个关联基本层区块轨的依赖性。反过来，各基本层区块轨通过参考“tbas”类型来识别基本层基本轨。

基本层基本轨中的各样本包括样本中的所有区块(例如，参数集、各种SEI消息)要共享的数据。基本层基本轨中的各样本还包括指向构成该样本的各基本层区块轨的关联区块样本的一个提取器。

相同的原理适用于增强层。然而，由于根据当前标准中的提取器的定义、提取器不能直接或间接参考另一提取器，因此依赖性的结构更加复杂。

实际上，表示为ELBT的增强层基本轨必须使用提取器来参考基本层基本轨、基本层区块轨和表示为ELTT1～ELTT4的增强层区块轨。因此，增强层基本轨的样本包括以下：

-指向基本层基本轨的共通数据的一个提取器(提取器1)；

-指向各基本层区块轨的一个提取器(提取器2～5)；

-可选地，指向基本层基本轨的任何SEI后缀消息的提取器(提取器6*)；

-对于增强层而言常见的NAL单元；

-针对各增强层区块轨的一个提取器(提取器7～10)；以及

-可选地，SEI后缀消息。

符合当前规格的该结构在增强层基本轨的各样本中需要大量提取器。例如，在考虑25Hz的2×2区块化的情况下，传输增强层基本轨的提取器所需的带宽是24kbps(10个提取器×12字节×25Hz×8位)。

由于针对所有上层的任何给定层的区块重复相同的提取器图案，因此与提取器有关的开销随着各上层而增加。

为了避免提取器的这种倍增，如图14所示，可以使用递归提取器。

递归提取器是可以指向一个或多个提取器的提取器。在从文件格式中提取轨的情况下，该轨所包含的所有提取器被这些提取器正参考的数据替换。如果所参考的数据还包含提取器，则这些提取器逻辑上也被这些提取器正参考的数据替换，等等。可以使用提取器定义中的参数data_length的值作为提示，以判断是否潜在存在要递归地解决的一些提取器。data_length参数通常给出要复制的字节数。因此，如果data_length参数等于如由“stsz”或“trun”表所表示的所参考样本的大小，则应递归地解决所参考样本中所存在的提取器。在提取器路径中不能存在任何循环。

另外，如果仅必须对视频序列的完整区块的子集进行解码，则可以使用TileRegionGroupEntry和TileSetGroupEntry样本组描述中的区块依赖性信息，以在对基本轨进行解码时忽略一些提取器。

如图14所示，通过使用递归提取器，增强层基本轨仅需参考基本层基本轨，而无需明确参考与基本层基本轨相关联的基本层区块轨。换句话说，代替明确地参考来自基本层的各区块，增强层针对各样本仅具有一个基本层提取器。因此，增强层基本轨的样本包括：

-指向基本层基本轨的相应样本的一个提取器(提取器1)(包括向基本层区块轨的提取器)；

-针对增强层而言常见的NAL单元；

-针对各增强层区块轨的一个提取器(提取器2～5)；以及

-可选地，SEI后缀消息。

与基于非递归提取器的使用的解决方案相比，使用递归提取器使得能够减少所需的提取器的数量。例如，在考虑25Hz的2×2区块化的情况下，传输增强层基本轨的提取器所需的带宽是12kbps(5个提取器×12字节×25Hz×8位)，从而得到50％的节省。此外，由于需要仅一个向下层的提取器，因此添加新的层仅略微增加了封装开销。

图15示出在服务器装置中可以执行的、用于对多层区块化视频位流进行高效封装的步骤的示例。

如图所示，第一步骤(步骤1501)涉及使用提供区块化和可分级性特征的编码器、例如符合可分级HEVC标准的编码器来对视频位流进行编码。编码后的位流包括表示层和/或区块的NAL单元。

在下一步骤(步骤1502)中，服务器装置针对各层，识别与区块相关联的所有NAL单元，并且创建包含子样本的区块轨，其中这些子样本包括与给定层中的给定区块相对应的所有NAL单元。例如，服务器装置可以依赖于子图片级别SEI消息以识别NAL单元与不同图片区域的关联，并且依赖于用于识别如针对HEVC标准化委员会所提出的(提议JCTVC-K0128)、各ROI的位置和大小的序列级别SEI消息。因而，可以针对给定层并且在给定时间段内创建区块的管。可以使用TileRegionGroupEntry和TileSetGroupEntry样本组描述结构来识别区块信息和依赖性(如前面所述)。

接着，服务器装置针对各层创建包含所有区块共通的NAL单元的基本轨、针对下级可分级性基本轨(在存在的情况下)的递归提取器、以及向着当前层的各个区块轨的提取器(步骤1503)。优选以如下方式对提取器和共通的NAL单元进行排序：在提取器被这些提取器正参考的数据替换的情况下，如此得到的位流是包括按降序排序的完整视频样本的有效位流。

接着，服务器装置根据ISO BMF表示生成包含时间周期的片段文件并且优选存储这些片段文件(步骤1504)。将各个视频媒体轨(基本轨和区块轨)存储在单独的片段文件中。在另一实施例中，将所有的媒体轨存储在单个ISOBMF文件中。

在步骤1505中，服务器装置按照要求将封装数据提供至请求客户端装置。

在实施例中，在将编码数据封装在多个片段文件中的情况下，在请求时将后者提供至客户端装置。在这种情况下，服务器装置可以是对HTTP请求作出响应的传统HTTP服务器。

可选地，例如针对RTP流传输，服务器装置提取与层相对应的位流和客户端装置所请求的关注区域的区块，并且例如使用RTP协议来发送这两者。

视频位流提取可以在服务器或客户端发生。

在无需文件格式封装的情况下，在仅将视频位流发送至客户端装置时，通常在服务器处发生视频位流提取。特别是在客户端装置使用RTP协议来将编码后的位流推至客户端装置的情况下是这种情况。在这种情况下，服务器装置从封装后的一个或多个ISO BMF文件中提取视频位流，并且将使用诸如RTP协议等的推式协议来将该视频位流流传输至客户端装置。

在将视频位流作为ISO BMF文件片段进行交换的情况下，在客户端处发生视频位流提取。在这种情况下，客户端装置例如使用诸如DASH等的HTTP流传输协议来从服务器装置下载所需的媒体片段。视频位流提取可以使用先前经由表单与服务器装置所交换的媒体呈现的描述来仅选择显示用户的关注区域所需的媒体片段。所需的媒体片段与所请求的空间或时间层、覆盖用户的关注区域的区块、以及所有基本层和这些基本层依赖于的区块。视频位流提取使所接收到的媒体片段串联以构建视频位流提取可以提取所请求的视频位流所依据的符合ISO BMF文件。

图16示出在位流读取器中(或者在例如视频播放器的客户端装置中、或者在例如RTP服务器的服务器装置中)可以执行的、用于对编码后的多层区块化视频位流进行去封装的步骤的示例。

在第一步骤(步骤1600)中，位流读取器读取初始化数据、例如符合MPEG-4标准的封装位流(通常是“moov”框的内容)的初始化数据。

接着，在步骤1601和1602中，通过分析轨头部、样本表、以及TileRegionGroupEntry和TileSetGroupEntry样本组描述来识别可利用的不同轨、样本和区块。

在识别出了适合从用户接收到的请求的、层和与关注区域相对应的区块之后(步骤1603)，提取数据(步骤1604)并且将这些数据提供至视频解码器以供解码和(通常为)显示(步骤1605)。

可以根据图17所示的算法来提取数据。

图17示出用于从包括递归提取器的轨中提取视频数据的算法的示例。

一旦在步骤1603(图16)中识别出了要处理(通常为显示)的层，则位流读取器将当前层的标识符记录作为顶层的标识符(步骤1701)，并且从与所请求的层相关联的基本轨获得下一NAL单元(步骤1702)。为了进行例示，所请求的层可以是通过参考图14所述的增强层基本轨。

然后，进行测试以判断是否可利用NAL单元(步骤1703)。如果可利用NAL单元，则进行另一测试以判断该NAL单元是否是提取器(步骤1704)。如果NAL单元不是提取器，则将数据提供至解码器(步骤1705)并且算法分支到步骤1702以获得下一NAL单元(在存在的情况下)。

相反，如果NAL单元是提取器，则进行另一测试，以判断提取器的参数data_length是否等于如利用“stsz”或“trun”表指示的所参考样本的大小(步骤1706)。

如果提取器的参数data_length等于所参考的样本的大小，则递归地解决所参考的样本中所存在的提取器。为此，将当前层的标识符作为前一层的标识符存储在存储器中，并且将当前层的标识符设置为提取器所指向的轨的层的标识符(步骤1707)。接着，算法分支到步骤1702以将图17所示的算法应用于提取器所指向的数据。

相反，如果参数data_length不等于所参考的样本的大小，则进行另一测试(步骤1708)，以判断提取器所指向的数据是否与用户所选择的关注区域有关(例如，如果提取器指向区块轨，则提取器检查区块的坐标是否位于所选择的区域内)、或者判断是否由于其它数据依赖于提取器所指向的数据因而需要该数据(例如，提取器指向如TileSetGroupEntry样本组描述中所述的、在当前所选择的另一区块轨的依赖性列表中列出的区块轨)。如果满足这些条件其中之一，则对提取器进行求解并且该提取器被所指向的数据替换(步骤1709)。否则，忽略提取器(步骤1710)。接着，算法分支到步骤1702以获得下一NAL单元(在存在的情况下)。

如果在步骤1703中不可利用NAL单元，则进行测试以判断当前层的标识符是否是在算法的开头(顶层)所选择的层的标识符。如果当前层不是在算法的开头所选择的层，则执行利用前一层继续(步骤1712)。相反，如果当前层是在算法的开头所选择的层，则算法停止。

图18表示可以实现一个或多个实施例的步骤的服务器或客户端装置1800的框图。

优选地，装置1800包括：通信总线1802；中央处理单元(CPU)1804，其能够执行在对装置通电时来自程序ROM 1806的指令、以及与通电之后来自主存储器1808的软件应用程序有关的指令。主存储器1808例如是经由通信总线1802用作CPU 1804的工作区域的随机存取存储器(RAM)型，并且其存储容量可以利用连接至扩展端口(未示出)的可选RAM来扩展。例如可以从硬盘(HD)1810或程序ROM 1806将与软件应用程序有关的指令加载至主存储器1808。这种软件应用程序在由CPU 1804执行的情况下，使得在服务器中进行参考图15所述的步骤并且在服务器或客户端装置中进行参考图16和17所述的步骤。

附图标记1812是网络接口，其中该网络接口1812使得能够将装置1800连接至通信网络1814。软件应用程序在由CPU 1804执行的情况下，被配置为对经由网络接口所接收到的请求作出反映，并且将数据流和请求经由网络提供至其它装置。

附图标记1816表示用以向用户显示信息和/或从用户接收输入的用户接口。

这里，应当指出，作为变形，用于管理多媒***流的接收或发送的装置1800可以包括能够实现如参考图15、16和17所述的方法的一个或多个专用集成电路(ASIC)。这些集成电路例如且非限制性地集成于用于生成或显示视频序列以及/或者用于收听音频序列的设备中。

本发明的实施例可以嵌入诸如照相机、智能电话或用作TV所用的远程控制器的平板电脑等的装置中，以例如放大特定关注区域。还可以从相同的装置使用这些实施例，以通过选择特定关注区域来具有TV节目的个性化浏览体验。用户对这些装置的另一使用是将他/她偏好的视频中的所选择的子部分与其它所连接的装置共享。这些实施例还可用在智能电话或平板电脑中，以监视在处于监控下的建筑物的特定区域中发生了什么，只要监控照相机支持本发明的生成部分即可。

当然，为了满足本地和特定要求，本领域技术人员可以向上述解决方案应用许多修改和改变，然而所有这些修改和改变均包括在如所附权利要求书所定义的本发明的保护范围内。

Claims

1.一种媒体文件生成方法，包括以下步骤：

获得视频数据；

基于所获得的视频数据来生成一个或多个视频轨；以及

生成TileRegionGroupEntry描述符，该TileRegionGroupEntry描述符至少包括以下之一：

(i)与和所述一个或多个视频轨中的至少一个视频轨相对应的空间区块相关联的描述性参数，所述描述性参数在被设置的情况下表示与所述TileRegionGroupEntry描述符相关联的各空间区块是完整图片，以及

(ii)用于所述描述性参数未被设置的空间区块的水平和垂直偏移参数，其中，所述水平和垂直偏移参数表示利用所述空间区块所表示的矩形区域的左上角像素相对于基区域的左上角像素的偏移，其中，所述基区域是与所述TileRegionGroupEntry描述符相关联的空间区块所属的区域，以及

基于所生成的视频轨和所生成的TileRegionGroupEntry描述符生成一个或多个媒体文件。

2.根据权利要求1所述的方法，其中，所述描述性参数在未被设置的情况下表示所相关联的空间区块是局部图片。

3.根据权利要求1所述的方法，其中，所述描述性参数是VisualSampleGroupEntry(“trif”)描述符。

4.一种媒体文件处理方法，所述方法包括：

基于视频数据和TileRegionGroupEntry描述符来获得具有一个或多个视频轨的媒体文件，该TileRegionGroupEntry描述符至少包括以下之一：

通过使用所述TileRegionGroupEntry描述符，基于包含在所述媒体文件中的视频轨的至少一个视频轨来再现所述视频数据。

5.根据权利要求4所述的方法，其中，所述描述性参数在未被设置的情况下表示所相关联的空间区块是局部图片。

6.根据权利要求4所述的方法，其中，所述描述性参数是VisualSampleGroupEntry(“trif”)描述符。

7.一种用于生成媒体文件的装置，所述装置包括微处理器，所述微处理器被配置成执行以下步骤：

获得视频数据；

基于所获得的视频数据来生成一个或多个视频轨；以及

8.根据权利要求7所述的装置，其中，所述描述性参数在未被设置的情况下表示所相关联的空间区块是局部图片。

9.根据权利要求7所述的装置，其中，所述描述性参数是VisualSampleGroupEntry(“trif”)描述符。

10.一种用于处理媒体文件的装置，所述装置包括微处理器，所述微处理器被配置成执行以下步骤：

11.根据权利要求10所述的装置，其中，所述描述性参数在未被设置的情况下表示所相关联的空间区块是局部图片。

12.根据权利要求10所述的装置，其中，所述描述性参数是VisualSampleGroupEntry(“trif”)描述符。

13.一种计算机可读存储介质，其用于存储用于使处理器执行根据权利要求1至6中任一项所述的方法的程序。