CN113615205B

CN113615205B - 用于用信号通知封装媒体内容的可用部分的方法、装置和计算机程序

Info

Publication number: CN113615205B
Application number: CN202080019971.4A
Authority: CN
Inventors: 弗兰克·德诺奥; 弗雷德里克·梅兹
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-03-12
Filing date: 2020-03-02
Publication date: 2024-05-10
Anticipated expiration: 2040-03-02
Also published as: CN113615205A; GB2582155A; GB2582155B; US20220150557A1; JP2022522575A; US11575951B2; GB201903394D0; JP7241874B2; WO2020182524A1

Abstract

根据实施例，本发明提供用于由服务器提供媒体内容的方法，该媒体内容包括媒体成分，各个媒体成分包括初始化数据和媒体数据，该方法由服务器执行，并且包括：‑对于多个媒体成分的预选择，获得如下的指示：客户端应当使用多个媒体成分中的哪些初始化数据来处理该预选择的媒体成分中的媒体数据；以及‑在媒体呈现描述中描述预选择，对预选择的描述包括对多个媒体成分中的各个媒体成分的引用和所获得的指示。

Description

用于用信号通知封装媒体内容的可用部分的方法、装置和计算机程序

相关申请的交叉引用

本申请根据35U.S.C.§119(a)-(d)要求于2019年3月12日提交的标题为“用于用信号通知封装媒体内容的可用部分的方法、装置和计算机程序”(“method,device,andcomputer program for signalling available portions of encapsulated mediacontent”)的英国专利申请GB1903394.3的权益。以上引用的专利申请通过引用整体并入本文。

技术领域

本发明涉及用于用信号通知封装媒体内容的可用部分的方法、装置和计算机程序，使得可以优化封装媒体内容的部分的传输。

背景技术

本发明涉及例如根据由MPEG标准化组织定义的ISO基础媒体文件格式来封装、解析和流式传输媒体内容，以提供促进媒体内容组的交换、管理、编辑和呈现的灵活且可扩展的格式，并且使用自适应http流式传输协议改进其例如在IP网络(诸如因特网等)上的递送。

国际标准化组织基础媒体文件格式(ISO BMFF，ISO/IEC 14496-12)是众所周知的灵活且可扩展的格式，其描述用于本地存储或者经由网络或经由其它位流递送机制进行传输的编码定时媒体数据位流。该文件格式具有若干扩展，例如ISO/IEC 14496-15第15部分，其描述用于基于NAL(网络抽象层)单元的各种视频编码格式的封装工具。这种编码格式的示例是AVC(高级视频编码)、SVC(可分级视频编码)、HEVC(高效视频编码)或L-HEVC(分层HEVC)。该文件格式是面向对象的。它由被称为框的构造块(或者各自由四字符代码所标识的数据结构)组成，这些构造块被顺次地或分层地组织，并且定义编码定时媒体数据位流的描述参数(诸如，定时和结构参数等)。在文件格式中，随着时间的整体呈现被称为动画。动画由在媒体或呈现文件的顶层处的(具有四字符代码‘moov’的)动画框来描述。该动画框表示初始化信息容器，该容器包含用于描述呈现的各种框的集合。可以在逻辑上将其分割为由(具有四字符代码‘trak’的)轨框表示的轨。各个(由轨标识符(track_ID)唯一标识的)轨表示属于呈现的媒体数据的定时序列(例如，视频的帧)。在各个轨内，各个定时数据单元被称为样本；这可能是视频、音频或定时元数据的帧。隐式、顺次地编号样本。实际样本数据是在与动画框级别相同的被称为(具有四字符代码‘mdat’的)媒体数据框的框中。动画还可以分段，例如在时间上组织为包含用于整个呈现的信息的动画框，随后是动画段和媒体数据框对的列表。在动画段(具有四字符代码‘moof’的框)内，存在轨段(具有四字符代码‘traf’的框)的集合，每个动画段为零个或更多个轨段。轨段依次包含零个或更多个轨运行框(‘trun’)，轨运行框各自记录该轨段的样本的连续运行。

利用ISOBMFF封装的媒体数据可以用于利用HTTP的自适应流式传输。例如，MPEGDASH(“基于HTTP的动态自适应流式传输”)和平滑流式传输是使得能够实现基于段或分段的媒体文件递送的HTTP自适应流式传输协议。MPEG DASH标准(参见“ISO/IEC 23009-1，基于HTTP的动态自适应流式传输(DASH)，第1部分：媒体呈现描述和段格式”)使得有可能在媒体呈现的(一个或多个)内容的紧凑描述与HTTP地址之间建立链接(例如，URL)。通常，在被称为清单文件或描述文件的文件中描述这种关联。在DASH的上下文中，该清单文件是也被称为MPD文件(用于媒体呈现描述)的文件。当客户端装置得到MPD文件时，客户端能够容易地确定媒体内容的各个编码和可递送版本的描述。通过读取或解析清单文件，客户端知道在媒体呈现中所提出的媒体内容成分的种类，并且知道用于下载相关联的媒体内容成分的HTTP地址。因此，可以决定要(例如，经由HTTP请求)下载并播放(在接收到媒体数据段之后解码并播放)哪些媒体内容成分。DASH定义了若干类型的段，主要是初始化段、媒体段或索引段。初始化段包含用于描述媒体内容的设置信息和元数据，通常至少是ISOBMFF媒体文件的‘ftyp’和‘moov’框。媒体段包含媒体数据。例如，它可以是ISOBMFF文件的一个或多个‘moof’加‘mdat’框或ISOBMFF文件的‘mdat’框中的字节范围。媒体段可以进一步细分为子段(也与一个或多个完整的‘moof’加‘mdat’框相对应)。DASH清单可以向文件提供段URL或基础URL，该文件具有到段的字节范围，以供流式传输客户端通过HTTP请求来对这些段进行寻址。

图1示出从服务器向客户端的流式传输媒体数据的示例。

如图所示，服务器100包括经由网络接口(未表示)连接至通信网络110的封装模块105，客户端120的解封装模块115也经由网络接口(未表示)连接至通信网络110。

服务器100处理数据(例如，视频和/或音频数据)以用于流式传输或用于存储。为此，服务器100获得或接收包括例如原始图像序列125的数据，使用媒体编码器(例如，视频编码器)(未表示)将图像序列编码成媒体数据(即，位流)，并且使用封装模块105将该媒体数据封装在一个或多个媒体文件或媒体段130中。封装模块105包括用于封装媒体数据的写入器或包装器中的至少一者。媒体编码器可以在封装模块105内实现以对接收到的数据进行编码，或者可以与封装模块105分离。

客户端120用于处理从通信网络110接收到的数据，例如用于处理媒体文件130。在接收到的数据已经在解封装模块115(也称为解析器)中被解封装之后，与媒体数据位流相对应的解封装数据(或解析数据)被解码，形成例如可以存储、显示或输出的音频和/或视频数据。媒体解码器可以在解封装模块115内实现，或者其可以与解封装模块115分离。媒体解码器可以被配置为并行地解码一个或多个视频位流。

应当注意，媒体文件130可以以不同方式通信到解封装模块115。特别地，封装模块105可以生成具有媒体描述(例如，DASH MPD)的媒体文件130，并且在从客户端120接收到请求时将其直接通信(或流式传输)至解封装模块115。

为了说明起见，媒体文件130可以根据ISO基础媒体文件格式(ISOBMFF、ISO/IEC14496-12和ISO/IEC 14496-15标准)将媒体数据(例如，经编码的音频或视频)封装到框中。

图2示出客户端所选择的表示的流式传输DASH段的示例。

根据DASH并且如图所示，当客户端(例如，图1中的客户端120)选择用于流式传输的表示时，其请求初始化段，例如，初始化段(InitializationSegment)205。为了说明起见，当根据ISO基本媒体文件格式(ISO/IEC 14496-12)来封装媒体数据时，初始化段包括在‘moov’框及其子框中。

在接收到包含在初始化段中的信息项时，客户端设置其(一个或多个)媒体解码器(其可以是参考图1所描述的解封装模块115的一部分)。一旦设置完成，客户端就请求由服务器基于段进行流式传输的与所选表示相对应的数据段，例如媒体段(MediaSegment)210-1和210-2。根据示例200，媒体段具有等于“Delta_t”的持续时间。由客户端在适当的时间发出请求，使得媒体从一个段(例如，210-1)平滑地播放到另一段(例如，210-2)。

按照定义，由一个或多个媒体段(诸如媒体段210-1和210-2等)跟随初始化段205的级联200得到符合(或合规的)位流。

虽然用于请求和发送媒体数据的这些文件格式和这些方法已被证明是有效的，但是持续需要改进对要发送给客户端的数据的选择、以及改进用信号通知所发送的数据，以减少请求带宽以及促进客户端对数据进行解封装和解码。

已经设计本发明以应对前述问题中的一个或多个问题。

发明内容

根据本发明的第一方面，提供用于由服务器提供媒体内容的方法，所述媒体内容包括媒体成分，各个媒体成分包括初始化数据和媒体数据，所述方法由所述服务器执行，并且包括：

-对于多个媒体成分的预选择，获得如下的指示：客户端应当使用所述多个媒体成分中的哪些初始化数据来处理所述预选择的所述媒体成分中的媒体数据；以及

-在媒体呈现描述中描述所述预选择，所述预选择的描述包括对所述多个媒体成分中的各个媒体成分的引用和所获得的指示。

因此，本发明的方法使得有可能从客户端的角度适当地选择要从服务器发送至客户端的数据，同时促进客户端对数据进行解封装和解码。另外，本发明的方法使得有可能确保与流式传输客户端之间的互操作性和一致体验。媒体包装器针对在流式传输清单中声明的预选择，用信号通知媒体成分的整个集合是得到单个初始化段还是得到初始化段的集合、例如每个媒体成分一个初始化段。在DASH MPD中可用的该附加的用信号通知使流式传输客户端知道为了能够恰当地设置其解码器要首先获取什么。

根据实施例，所获得的指示用信号通知：属于多个媒体成分中的单个媒体成分的初始化数据应当用于处理预选择的媒体成分中的媒体数据。

根据实施例，对应当使用初始化数据的单个媒体成分的引用是预先确定的。

根据实施例，所获得的指示进一步用信号通知：由所述预选择引用的媒体成分中的媒体数据不能独立于由预选择引用的其它媒体成分中的另一媒体数据来处理。

根据实施例，所获得的指示用信号通知：应当使用来自多个媒体成分中的若干媒体成分的初始化数据来处理预选择的媒体成分中的媒体数据。

根据实施例，该方法进一步包括在流式传输服务器上发布媒体呈现描述以供扩散到客户端。

根据本发明的第二方面，提供用于由客户端处理媒体内容的方法，所述媒体内容包括媒体成分，各个媒体成分包括初始化数据和媒体数据，所述方法由所述客户端执行，并且包括：

-获得媒体呈现描述，所述媒体呈现描述包括对多个媒体成分的预选择的描述，对预选择的描述包括对所述多个媒体成分中的媒体成分的引用以及如下的指示：所述客户端应当使用所述多个媒体成分中的哪些初始化数据来处理所述预选择的媒体成分中的媒体数据；以及

-解析所获得的媒体呈现描述以得到应当使用所述多个媒体成分中的哪些初始化数据的指示。

本发明的第二方面具有与上述第一方面类似的优点。

根据实施例，该方法进一步包括请求多个媒体成分中应当使用的初始化数据，并且根据多个媒体成分中应当使用的初始化数据来初始化客户端的至少一个解码器。

根据实施例，应当使用初始化数据的单个媒体成分与自适应集中的同多个媒体成分中的媒体成分相对应的主自适应集的表示相关联。

根据实施例，媒体内容与分区的媒体数据相对应。

根据实施例，媒体呈现描述符合MPEG DASH标准。

根据实施例，各个媒体成分与属于自适应集的表示相关联，多个媒体成分中的各个媒体成分与属于同包括如下的表示的自适应集不同的自适应集的表示相关联，该表示与多个媒体成分中的其它媒体成分相关联。

根据本发明的第三方面，提供用于提供或处理封装媒体数据的装置，所述装置包括处理单元，所述处理单元被配置为执行上述方法中的各个步骤。

本发明的第三方面具有与上述第一方面类似的优点。

根据本发明的第四方面，提供承载针对媒体内容的信息数据集的信号，所述信息数据集包括媒体呈现描述，所述媒体内容包括媒体成分，各个媒体成分包括初始化数据和媒体数据，所述媒体呈现描述至少包括所述媒体内容中的多个媒体成分的预选择的描述以及如下的指示：客户端应当使用所述多个媒体成分中的哪些初始化数据来处理所述预选择的所述媒体成分中的媒体数据。

本发明的第四方面具有与上述第一方面类似的优点。

根据本发明的第五方面，提供媒体存储装置，用于存储承载针对媒体内容的信息数据集的信号，所述信息数据集包括媒体呈现描述，所述媒体内容包括媒体成分，各个媒体成分包括初始化数据和媒体数据，所述媒体呈现描述至少包括所述媒体内容中的多个媒体成分的预选择的描述以及如下的指示：客户端应当使用所述多个媒体成分中的哪些初始化数据来处理所述预选择的所述媒体成分中的媒体数据。

本发明的第五方面具有与上述第一方面类似的优点。

根据本发明的方法的至少一部分可以是计算机实现的。因而，本发明可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或者组合软件和硬件方面的实施例的形式，其在本文中可以全部统称为“电路”、“模块”或“***”。此外，本发明可以采取体现在任意有形表达介质中的计算机程序产品的形式，该有形表达介质具有体现在该介质中的计算机可用程序代码。

由于本发明可以在软件中实现，因此本发明可以体现为在任意合适载体介质上的提供给可编程设备的计算机可读代码。有形载体介质可以包括诸如软盘、CD-ROM、硬盘驱动器、磁带装置或固态存储器装置等的存储介质。瞬态载体介质可以包括诸如电信号、电子信号、光信号、声学信号、磁信号或电磁信号等的信号(例如，微波或RF信号)。

附图说明

现在将仅通过举例并参考以下附图来描述本发明的实施例，在附图中：

图1示出从服务器向客户端流式传输媒体数据的示例；

图2示出数据流式传输的示例；

图3示出根据MPEG DASH规范的DASH中的媒体呈现的典型描述；

图4示出描述特别是三个自适应集和一个预选择的媒体呈现描述的一部分的示例；

图5、6和7示出根据本发明的实施例的描述特别是三个自适应集和一个预选择、并且描述要使用的初始化段的信号通知(signalization)的媒体呈现描述的一部分的示例；

图8示出根据本发明实施例的媒体服务器包装和准备具有多个成分的媒体数据的流式传输的方法步骤的示例；

图9和10示出由服务器进行的步骤的示例，该步骤用于描述流式传输客户端的与预选择和在预选择内声明的自适应集有关的预期行为，特别是用于用信号通知要使用的初始化段；

图11示出用于由根据本发明实施例的客户端在接收到流式传输清单时处理媒体数据的步骤的示例；

图12和13示出用于由客户端解释根据本发明实施例的预选择的描述的步骤的示例；以及

图14示意性地示出被配置为实现本发明的至少一个实施例的处理装置。

具体实施方式

发明人已注意到，在可以使用媒体成分的预选择的音频广播方面存在先进的使用实例，并且在媒体成分的预选择可能有用的自适应视频流式传输方面(例如依赖于视口的流式传输或基于区块的流式传输)也可能存在使用实例。

在这样的情况下，存在选择要发送到客户端的数据和/或用信号通知所发送的数据的特定需要。当将媒体内容的流式传输视为多个流或多个部分时，尤其如此。这样的内容的示例是多流音频，其中可以使用若干音频流(音乐、不同语言的对话、声音效果等)来表示音频场景。表示音频场景的一部分的各个音频流可以被描述为MPD中的一个自适应集(AdaptationSet)。然后，各个部分可以被视为媒体呈现的媒体成分。视频的另一示例是区块视频或视频的空间部分或矩形区域，其可以用于全向或广角视频流式传输。各个空间部分、区块或区域可以在MPD中被描述为一个自适应集，并且被视为视频场景中的一个媒体成分。使用的一个示例是OMAF(ISO/IEC 23090-2)中的视口相关流式传输或者更一般地是基于区块的流式传输。

根据实施例，本发明使得可以利用分区的视频(特别是区块视频)，针对基于HTTP的自适应流式传输使得客户端有可能选定媒体成分的预选择，例如，预选择视频的空间部分(或区块)，以在给定客户端需要和客户端上下文的情况下获得和渲染视频。这是通过使得客户端有可能选定媒体成分的预选择、并且通过适当地用信号通知与所选定的预选择相对应的封装数据来获得的。

为了说明起见，本文中所描述的许多实施例是基于HEVC标准或其扩展。然而，本发明的实施例还适用于已经可用的其它编码标准(诸如AVC等)或者尚未可用或开发的其它编码标准(诸如在规范下的MPEG通用视频编码(VVC)等)。在特定的实施例中，视频编码器支持区块并且可以控制编码以生成可独立解码的区块、区块集或者区块组(有时也称为运动约束区块集)。

需要回想起的是，清单(例如MPD)是文档，通常是XML文件(或者甚至是纯文本文件，用于HTTP实时流式传输(HTTP Live Streaming))，其描述对于给定媒体呈现可以访问的所有媒体内容成分。DASH客户端可以使用MPD中所提供的元数据通过与流式传输服务器通信来选择媒体成分。这样的描述可以包括媒体内容成分的类型(例如，音频、音频信道、视频、音-视频、视频的一部分、元数据或文本)、媒体段的持续时间以及与媒体段相关联的地址(例如，URL)，也就是说，可以从中获得媒体内容成分的地址。媒体内容成分可以被描述为相同内容的替代版本，或者被描述为相同内容的部分(例如，具有空间关系描述符(SRD)的视频的空间部分、关注区域或区块，或者虚拟现实或全向媒体内容中的视口)，或者被描述为用于描述意在一起呈现或显示的内容成分的“媒体体验”的部分。

通常，MPD基于图3所示的分层数据模型。

图3示出根据MPEG DASH规范的DASH中的媒体呈现的典型描述。

如图所示，它主要由一个或多个时间段(标记为300)组成，这些时间段各自由时间段(Period)元素描述，各个时间段元素具有开始时间和持续时间。进而，各个时间段元素主要由一个或若干个自适应集元素(标记为301)组成。

自适应集元素提供与一个或多个媒体内容成分及其各种编码替换方案(如附图标记302所示)有关的信息。相同媒体内容成分的各个编码替换方案称为表示(Representation)，其通常由标记为303的一个或若干个媒体段和/或初始化段组成。

如上所述，创建可以由用户根据其需要和其上下文(例如，在带宽和处理资源方面)来选择的媒体成分的集合可能是有用的。媒体成分的集合包括若干个媒体成分，该媒体成分例如是与特定自适应集的特定表示相关联的段，例如，图3中标记为303的段与自适应集1的表示1相对应。

图4示出特别地描述三个自适应集和一个预选择的媒体呈现描述的一部分的示例。预选择是媒体成分的子集，通常是捆绑体(bundle)中的预期被联合消耗的自适应集的组合。捆绑体是可以由单个解码器实例联合消耗的媒体成分的集合。MPD中可能存在多个预选择。在这种情况下，客户端根据一些预选择属性或描述符(例如，作用(Role)、评级(Rating)等)来确定哪个预选择更好地适应客户端的需求或能力。

媒体呈现描述(图4中标记为400)的自适应集(图4中标记为405-1至405-3)各自可以包含一个或多个替代表示，如参考图3所描述的，各个表示被描述为具有至少一个初始化段以及(各自可经由给定URL来访问的)一个或多个媒体段的段的列表。

如图所示，媒体呈现描述400还包含预选择(图4中的预选择410)的声明，该媒体呈现描述400在所示示例中包含三个自适应集。

为了说明起见，假设自适应集405-1是预选择中的主自适应集，因为其是在(使用预选择成分(preselectionComponents)属性的)预选择的媒体成分的列表中声明的第一个自适应集。自适应集405-2和405-3是(与主自适应集相反的)部分自适应集。

观察到，客户端可能无法从图4所示的清单的一部分来确定解码器所期望的正确段级联。特别地，客户端不能确定在播放预选择时应当下载和使用哪些初始化段(即，客户端需要自适应集405-1至405-3中的各个初始化段的级联？或者，仅需要来自主自适应集的初始化段(即，自适应集405-1)？)。另外，注意，客户端也可以仅选择标识符id＝1的自适应集、标识符id＝2的自适应集或标识符id＝3的自适应集作为要单独播放的媒体流。于是，由一个或多个媒体段跟随初始化段的通常级联也将得到合规的位流。

图5示出根据本发明实施例的特别地描述三个自适应集和一个预选择、并且描述要使用的初始化段的信号通知的媒体呈现描述的一部分的第一示例。

如图所示，媒体呈现描述500包含标记为505-1至505-3的三个自适应集，这三个自适应集与参考图4所描述的三个自适应集405-1至405-3类似。

媒体呈现描述500还包括与图4的预选择410相比被扩展的标记为510的预选择，该预选择具有例如被称为“init”并且被标记为515的新属性。该属性旨在描述用于预选择的初始化模式。

根据所示的示例，该属性的值指示“preselect_only”，这意味着用于预选择510的段的正确级联是在媒体呈现描述500下所示出的那一个。在该示例中，针对整个预选择，仅一个初始化段是相关的，例如来自主自适应集505-1的一个表示的该一个初始化段。这可能是主自适应集对应于区块基础轨或者对应于提取器轨的情况、以及部分自适应集对应于区块轨(例如，当用HEVC编码视频时的‘hvt1’区块轨、或者当在独立HEVC位流中编码各个区块时的‘hvc1’区块轨)的情况。

在媒体呈现描述500下所示的级联将得到符合位流(例如，当封装到ISOBMFF中时，级联的段可以由ISOBMFF解析器读取)。符合位流包括标记为520的初始化段(例如，主自适应集的初始化段(即，给定示例中的自适应集505-1的初始化段))、以及来自属于预选择的自适应集的如利用标记为525-1至525-3的相应URL所定义的媒体段(即，给定示例中的自适应集505-1至505-3的媒体段)。注意，媒体段的URL是使用$time$参数的模板URL。当然，它们可以是使用$Number$的模板。它们也可以在不改变本发明的情况下声明为SegmentList(段列表)来代替SegmentTemplate(段模板)。

根据所示的示例，部分自适应集505-2和505-3可以由它们自身选择和播放或者仅在预选择内可选择和可播放。在前一情况下，这意味着对于部分自适应集中的给定表示，该表示的由一个或多个对应媒体段跟随初始化段的级联将得到符合位流。

注意，可以定义值“preselect_only”，使得禁止单独选择标识符id＝1的自适应集、标识符id＝2的自适应集、或标识符id＝3的自适应集。这种定义意味着，针对这些自适应集中的各个自适应集，由一个或多个媒体段跟随初始化段的级联可能不会得到符合位流。各个自适应集可以具有附加或专用信号通知，以指示在预选择之外该自适应集不可选择(例如，隐藏)或不可播放，或者指示该自适应集不可单独选择或播放(例如，使用OMAF的SubPicCompositionId：@noSingleSelection＝true)。

图6示出根据本发明实施例的特别地描述三个自适应集和一个预选择、并且描述要使用的初始化段的信号通知的媒体呈现描述的一部分的第二示例。

如图所示，媒体呈现描述600包含标记为605-1至605-3的三个自适应集合，这些自适应集合与分别参考图4和5所描述的三个自适应集合405-1至405-3和505-1至505-3类似。

如媒体呈现描述500那样，媒体呈现描述600还包含标记为610的预选择，该预选择包括图6中标记为615的相同的新属性“init”。再次，这个新属性旨在描述用于预选择的初始化模式。在媒体呈现描述600下示出用于预选择610的段的级联。

根据所示的示例，该属性的值指示“AS_only”，这意味着各个自适应集可以在预选择610中使用或独立使用(因为服务器构建段以使得段在自适应集级别上的级联得到符合位流)。

该示例可以对应于例如具有如数字视频广播(DVB)规范中所描述的多个音频流的一些音频使用情况。在这种情况下，自适应集605-1至605-3各自包含一个或多个表示，该表示各自描述音频流。各个表示声明初始化段以及一个或多个媒体段。

根据图6所示的示例，段(如在媒体呈现描述600下所示)是按每个表示或适应集级联的。这意味着在预选择中的各个自适应集具有其自己的初始化段。例如，如利用相应URL625-1所定义的那样，自适应集605-1的初始化段与自适应集605-1的媒体段级联，并且如利用相应URL 625-3所定义的那样，自适应集605-3的初始化段与自适应集605-3的媒体段级联(这对于自适应集605-2以及对于在预选择中声明的任意自适应集都是相同的)。然后，这些流可以被提供给编码器接口，该编码器接口将这些单独的流合并成多流(例如，用于如ISO/IEC 23008-3中的音频流的MPEG-H 3D音频流)。

附图标记620所描绘的基于自适应集的级联将各自得到符合位流。具有被设置为“AS_only”的初始化模式属性的预选择不会防止在预选择之外、单独选择和播放各个自适应集。

图7示出根据本发明实施例的特别地描述三个自适应集和一个预选择、并且描述要使用的初始化段的信号通知的媒体呈现描述的一部分的第三示例。

如图所示，媒体呈现描述700包含标记为705-1至705-3的三个自适应集，这三个自适应集与参考图4、5和6所描述的三个自适应集类似。

如媒体呈现描述500和600那样，媒体呈现描述700还包含标记为710的预选择，该预选择包括图7中标记为715的相同的新属性“init”。再次，该新属性旨在描述用于预选择的初始化模式。在媒体呈现描述700下示出用于预选择710的段的可能的级联。

根据所示的示例，该属性的值指示“preselect_or_AS”，这意味着级联750或761至763全部得到符合位流。级联750(即，来自主自适应集的一个单个初始化段，该初始化段跟随有来自预选择的自适应集的媒体段725-1、725-2、725-3等的连续级联)与预选择内的媒体成分或媒体部分的流式传输相对应。级联761至763与单独的(即，在预选择之外的)一个媒体成分的流式传输相对应。作为示例，761至763可以各自与作为独立位流、轨或表示来编码和提供的视频流中的一个关注区域相对应。封装750可以与在原始视频流中组合在一起的这些关注区域相对应。

图8示出根据本发明实施例的用于由服务器包装和准备具有多个媒体成分的媒体数据的流式传输的方法的步骤的示例。

如图所示，第一步骤(步骤800)涉及封装到若干个媒体成分(步骤805)(例如，封装到若干个ISOBMFF轨)中的一个或多个位流中的数据编码(通常是数据压缩)。封装媒体成分或这些封装媒体成分的一些子集可以根据不同组合来组合。这些组合中的一些组合被标识为是特别相关的，并且因此可以被提议作为预选择。

为了使得客户端能够选定预选择(即，媒体成分的预定组合)，这些预选择由服务器在媒体呈现描述中指示(步骤810)。通过这样做，服务器简化了流式传输客户端的用于媒体数据选择的可能选择。此外，预选择的定义更好地描述内容创建者的意图，从而在媒体呈现中提供优选的入口点。为此，服务器将注释放置在媒体呈现描述中，以定义用于初始化段的规则。

图9和10提供在媒体呈现描述中用信号通知预选择的示例。

接着，在流式传输服务器上发布媒体文件或段及其描述，以扩散到客户端(步骤815)。

图9示出由服务器进行的步骤的第一示例，该步骤用于描述流式传输客户端的与预选择和在预选择内声明的自适应集有关的预期行为，特别是如参考图8中的步骤810所描述的用信号通知要使用的初始化段。

如图所示，第一步骤(步骤900)涉及确定所考虑的预选择是否将与单个初始化段一起使用，也就是说，要使用的初始化段的数量是等于1还是大于1。这取决于内容。例如，对于区块视频，测试可以是真(true)，而对于多个音频流，测试可以是假(false)。

如果所考虑的预选择将与单个初始化段一起使用，则负责写入媒体呈现描述的服务器模块在预选择元素中添加属性，以指示仅要使用一个初始化段(步骤905)。默认地，即，当在预选择中没有给定将使用单个初始化段的指示时，要使用的初始化是来自主自适应集的初始化段。根据实施例，如果要使用的初始化段不是来自主自适应集的初始化段，则用信号通知要使用的初始化段(步骤910)。例如，这可以使用预选择元素中的另一属性“initSegment”来用信号通知。新的属性“initSegment”将提供在preselectionComponent属性中所声明的自适应集id的列表中存在的一个自适应集的id：

<Preselection single_init＝“true”preselectoonComponents＝”1 2 3initSegment＝”2”.../>.

在该示例中，要用于级联预选择的媒体成分的段的单个初始化段是来自id＝“2”的自适应集的初始化段。

要使用的初始化段的不正确描述的示例如下：

<Preselection single_init＝“true”preselectionComponents＝”1 2 3initSegment＝”4”.../>.

在这种情况下，客户端应当忽略该预选择。MPD模式确认器(schema validator)不应当接受这种声明，并且应当将该MPD视为无效。

在变形中，initSegment属性的值可以提供自适应集id的preselectionComponent列表中的索引(基于1的索引)。例如，在preselectionComponent等于“1245123”的预选择中，initSegment＝“2”将指示应当考虑自适应集id＝“45”的初始化段。

接着，利用预选择所包含的媒体成分的列表来描述预选择(步骤915)。

图10示出由服务器进行的步骤的第二示例，该步骤用于描述流式传输客户端的与预选择和在预选择内声明的自适应集有关的预期行为，特别是用于如参考图8中的步骤810所描述的那样用信号通知要使用的初始化段。

如图所示，第一步骤(步骤1000)涉及确定预选择是否将与若干个初始化段一起使用。这取决于内容。再次，这取决于应用和媒体流的性质。

如果预选择将与若干个初始化段一起使用，则在正被描述的预选择元素的属性中设置特有的init_mode参数的值(步骤1005)。该特有init_mode参数值指示对于预选择的各个自适应集中的各个表示，将考虑相应的初始化段，例如，如参考图6所描述的那样(其中，init_mode由“init”属性表示)。为了说明起见，init_mode参数的值可以设置为2。另一方面，如果预选择将与单个初始化段一起使用，则服务器进一步检查是否可以在预选择之外播放部分自适应集(步骤1015)。

如果仅可以在预选择中播放部分自适应集，则服务器将特有的init_mode参数的值设置为指示仅应当考虑来自主自适应集(或来自将被用信号通知(步骤1030)的另一单个初始化段)的初始化段的值(步骤1020)，例如，如参考图5所描述的，其中，init_mode由“init”属性表示。为了说明起见，init_mode参数的值可以设置为1。

另一方面，如果可以在预选择之外播放部分自适应集，则将特有的init_mode参数值设置为指示客户端可以使用如参考图7所描述的级联(其中，init_mode由“init”属性表示)并且得到符合位流(步骤1025)。该初始化段默认为是来自主自适应集的初始化段或者可选地来自预选择元素的initSegment属性中所指示的自适应集的初始化段。为了说明起见，init_mode参数的值可以设置为3。可以使用参考图9中的步骤910所描述的可选的initSegment属性来用信号通知步骤1030，该步骤1030提供不是用于主自适应集的该初始化段的初始化段。

接着，用预选择所包含的媒体成分的列表来描述预选择(步骤1035)。

如上所述并且根据实施例，预选择元素被扩展有新属性，该新属性可以例如是布尔属性(如参考图9所述)或者采用枚举或预定义的值的属性(如参考图10所述)。

指示初始化模式的新属性可以是可选的，并且当该新属性不存在时，客户端将假设如参考图6所描述的级联。当属性是布尔(例如，“single_init”)时，以下语义定义预选择元素的新属性。

当属性设置为真时，该属性指示：主自适应集(可选地，来自initSegment属性所指示的自适应集)的初始化段(其跟随有在预选择中声明的各个自适应集的媒体段)的级联将表示根据DASH位流级联规则的符合段序列，并且该符合段序列符合在针对该表示的@mimeType属性中指定的媒体类型。需要回想起的是，媒体段可以按任何顺序级联，而没有必要一定按预选择中的声明顺序级联。

当属性设置为假或不存在时，该属性指示：预选择中的各个自适应集的初始化段和媒体段的各个级联应表示根据DASH位流级联规则的符合段序列，并且该符合段序列符合在针对该表示的@mimeType属性中指定的媒体类型。

还应注意，在预选择中声明的各个部分自适应集的表示可以得到或可以不得到一致段序列。这可以通过查看存在或不存在预选择描述符来确定。如果存在本质属性(Essential Property)描述符，则不能在预选择之外选择和播放自适应集。当作为补充属性(SupplementalProperty)存在时，可以在预选择之外选择和播放自适应集。

预选择类型(PreselectionType)的XML方案可以如下更新(可选属性为粗体)：

如上所述(特别地参考图5、6和7)，新的预选择的属性的显式值的示例如下：“preselect_only”或“AS_only”或“preselect_or_AS”。这些值可以用值1、2和3编码，其各自对应于这三个初始化模式中的一者。自然地，在新应用将需要附加值的情况下，可以通过保留附加值来容易地扩展该机制(通过使用布尔属性的情况将不是这种情况)。

在该变体中，预选择类型的XML方案可以如下更新(可选属性为粗体)：

/>

其中，初始化模式类型(InitializationModeType)如下定义：

在预选择中声明的不同初始化模式的语义定义如下：

initMode属性指示要由DASH客户端应用的级联规则。当值是“preselect_only”或用于指示应仅使用来自预选择中的一个自适应集的一个初始化段的任意值时，主自适应集(可选地，来自initSegment属性所指示的自适应集)的初始化段(其跟随有在预选择中声明的各个自适应集的媒体段)的级联将表示根据DASH位流级联规则的符合段序列，并且该符合段序列符合在针对该表示的@mimeType属性中指定的媒体类型。需要回想起的是，媒体段可以按任何顺序级联，而没有必要一定按预选择中的声明顺序级联。此外，该值指示可以不在预选择之外选择或播放自适应集，即，媒体段的序列和初始化段在各个自适应集的基础上的级联可能不会得到符合位流。

当值是“AS_only”或用于指示各个自适应集将使用其自身的初始化段的任意值时，预选择中的各个自适应集的初始化段和媒体段的各个级联将表示根据DASH位流级联规则的符合段序列，并且该符合段序列符合在针对该表示的@mimeType属性中指定的媒体类型。

当值设置为“Preselect_or_AS”时，预选择中的各个自适应集的初始化段和媒体段的级联将表示符合段序列，并且主自适应集(可选地，来自initSegment属性所指示的自适应集)的初始化段(其跟随有在预选择中声明的各个自适应集的媒体段)的级联将表示符合段序列。根据DASH规则，符合段序列得到符合位流。

预选择描述符也可以扩展有这些新属性，其中与预选择元素相同的语义将适用于这些新属性。

图11示出根据本发明实施例的用于使客户端在接收到流式传输清单时处理媒体数据的步骤的示例。

在获得媒体呈现描述(步骤1100)之后，客户端检查媒体呈现描述是否包含预选择(1105)。如果没有预选择，则客户端基于独立的自适应集来运行标准内容选择和自适应流式传输(步骤1110)。客户端初始化其(一个或多个)解码器(步骤1115)，解析(一个或多个)媒体成分(例如，(一个或多个)媒体轨)(步骤1120)，解码(一个或多个)媒体流(步骤1125)，并且显示或存储媒体呈现(步骤1130)。

另一方面，如果媒体呈现描述包含一个或多个预选择，则客户端可以选择用于流式传输相应呈现的预选择(步骤1135)。接着，客户端解析所选择的预选择的描述，以获得该预选择的媒体成分的列表(步骤1140)。该步骤可以提供与初始化段有关的指示，以考虑播放预选择。

根据所获得的描述，客户端初始化其(一个或多个)解码器(步骤1115)，并且如果初始化成功，则客户端从预选择中的各个预选择中得到媒体段，并且解析、解码以及在客户端的用户界面上渲染相应轨(步骤1120至1130)。

在步骤1140期间执行的步骤的示例如图12和13所示。

图12示出用于由客户端解释根据本发明实施例的预选择的描述的步骤的第一示例。

如图所示，在客户端已经获得对所选择的预选择的描述(步骤1200)之后，客户端检查预选择的属性是否指示用信号通知单个初始化段的使用(步骤1205)。

如果预选择的属性指示用信号通知单个初始化段的使用，则客户端请求来自主自适应集(步骤1210，或者可选地来自initSegment属性所指示的一个自适应集)的一个表示的初始化段，并且忽略来自部分自适应集的表示的那些初始化段。另一方面，如果在预选择中没有用信号通知要使用单个初始化段，则客户端请求在预选择中声明的每个自适应集的一个初始化段(步骤1215)。

然后，客户端的解析/解封装模块处理这些初始化段，以向(一个或多个)媒体解码器提供信息并且进行媒体解码器的设置或初始化。客户端可以假设可由自身选择和播放来自预选择的任意自适应集。各个自适应集还可以具有预选择描述符(PreselectionDescriptor)，该预选择描述符指示客户端是否将支持该预选择以能够选择和播放该自适应集，如参考图9所描述的那样。

图13示出在用信号通知要使用的(一个或多个)初始化段的属性可以采取初始化模式(例如，“init”或“initMode”属性)的显式值的情况下，由客户端解释根据本发明实施例的预选择的描述的步骤的第二示例。

如图所示，在获得对所选择的预选择的描述(步骤1300)之后，客户端从预选择元素描述中读取提供与初始化模式有关的信息的属性(例如，“init”或“initMode”属性)的值(步骤1305)。

如果值指示“preselect_only”(即，仅预选择模式)，则客户端请求来自主自适应集(步骤1310，或者可选地来自initSegment属性所指示的一个自适应集)的一个表示的初始化段，并且忽略来自部分自适应集的表示的初始化段。另一方面，如果该值不指示仅预选择模式，则客户端检查该值是否指示每个自适应集的初始化段(步骤1315)。

如果该值指示每个自适应集的初始化(即“AS_only”)，则客户端请求在预选择中声明的每个自适应集的一个初始化段(步骤1320)。另一方面，如果该值不指示仅预选择模式并且不指示每个自适应集的初始化(即，“AS_only”)，则客户端可以决定播放来自预选择的任意自适应集或整个预选择(步骤1325)。在前一种情况下，仅需要所选择的自适应集的一个表示的初始化段。在后一种情况下，仅需要得到主自适应集(或者可选地，initSegment属性所指示的一个自适应集)的一个表示的初始化段。

然后，客户端的解析/解封装模块处理这些初始化段，以向(一个或多个)媒体解码器提供信息并且进行媒体解码器的设置或初始化。

图14是用于实现本发明的一个或多个实施例的计算装置1400的示意性框图。计算装置1400可以是诸如微计算机、工作站或轻型便携式装置等的装置。计算装置1400包括通信总线，该通信总线连接到：

-中央处理单元(CPU)1404，诸如微处理器等；

-随机存取存储器(RAM)1408，用于存储本发明实施例的方法的可执行代码以及适于记录变量和参数的寄存器，该变量和参数是用于实现用于发送媒体数据的方法所必需的，该随机存取存储器的存储器容量可以例如通过连接到扩展端口的可选RAM来扩展；

-只读存储器(ROM)1406，用于存储用于实施本发明实施例的计算机程序；

-网络接口1412，其通常转而连接到通信网络1414，通过该通信网络来发送或接收要处理的数字数据。网络接口1412可以是单个网络接口，或者由不同的网络接口(例如，有线和无线接口，或者不同种类的有线或无线接口)的集合构成。在CPU 1404中所运行的软件应用的控制下，将数据写入网络接口以用于发送，或者从网络接口读取数据以用于接收；

-用户界面(UI)1416，用于从用户接收输入或向用户显示信息；

-硬盘(HD)1410；

-I/O模块1418，用于从/向外部装置(诸如，视频源或显示器等)接收/发送数据。

可执行代码既可以存储在只读存储器1406中，也可以存储在硬盘1410上，或者可以存储在例如可移动数字介质(诸如，盘等)上。根据变体，可以借助于通信网络经由网络接口1412来接收程序的可执行代码，以使程序的可执行代码在被执行之前存储在通信装置1400的存储部件(诸如，硬盘1410等)其中之一中。

中央处理单元1404适于控制和指导根据本发明实施例的一个或多个程序的指令或部分软件代码的执行，这些指令存储在前述存储部件其中之一中。在接通电源之后，CPU1404能够在例如从程序ROM 1406或硬盘(HD)1410加载了与软件应用有关的来自主RAM存储器1408的指令之后执行这些指令。这样的软件应用在由CPU 1404执行时，使得进行先前图中所示的流程图的步骤。

在本实施例中，设备是使用软件来实现本发明的可编程设备。然而，可替换地，本发明可以以硬件(例如，以专用集成电路或ASIC的形式)实现。

尽管以上已经参考具体实施例描述了本发明，但是本发明不限于具体实施例，并且对本领域技术人员来说，在本发明的范围内的修改将是明显的。

在参考前述说明性实施例时本领域技术人员将想到许多进一步的修改和变形建议，这些实施例仅作为示例给出并且不意在限制本发明的范围，该范围仅由所附权利要求确定。特别地，在适当的情况下，可以互换来自不同实施例的不同特征。

在权利要求中，“包括”一词不排除其它元素或步骤，并且不定冠词“a”或“an”不排除复数。仅仅在相互不同的从属权利要求中限定不同特征的这一事实并不指示不能有利地使用这些特征的组合。

Claims

1.一种用于由装置生成媒体呈现描述即MPD的方法，所述方法包括：

获得用于标识级联规则的信息项，所述级联规则要用于处理多个媒体成分的预选择，各个媒体成分包括媒体数据；以及

生成用于描述所述预选择的所述媒体呈现描述，所述媒体呈现描述包括对所述预选择的各个媒体成分的引用，并且包括所获得的信息项；

其中，所述媒体成分中的至少一些包括初始化数据，

所述级联规则表征来自所述预选择的哪些媒体成分要被用于获得初始化数据，所获得的初始化数据与所述预选择的所述多个媒体成分中的媒体数据级联，以及

所述级联规则使得能够获得符合媒体类型的位流。

2.根据权利要求1所述的方法，其中，所述级联规则用信号通知：属于所述多个媒体成分中的单个媒体成分的初始化数据应当用于处理所述预选择的媒体成分中的媒体数据。

3.根据权利要求2所述的方法，其中，对应当使用初始化数据的所述单个媒体成分的引用是预先确定的。

4.根据权利要求1所述的方法，其中，所述媒体呈现描述包括数据，该数据用于指示：所述预选择所引用的媒体成分中的媒体数据是否能够独立于所述预选择所引用的其它媒体成分中的另一媒体数据来处理。

5.根据权利要求1所述的方法，其中，所述级联规则用信号通知：来自所述多个媒体成分中的若干个媒体成分的初始化数据应当用于处理所述预选择的媒体成分中的媒体数据。

6.根据权利要求1至5中任一项所述的方法，其中，所描述的预选择引用来自多个自适应集的表示的集合，其中，所述多个自适应集中的各个自适应集描述一个或多个媒体成分。

7.根据权利要求2所述的方法，其中，所描述的预选择引用来自多个自适应集的表示的集合，其中，所述多个自适应集中的各个自适应集描述一个或多个媒体成分。

8.根据权利要求7所述的方法，其中，用于标识级联规则的信息项用信号通知：属于所描述的预选择的第一自适应集的初始化数据应当由处理所生成的媒体呈现描述的装置使用，其中，所述初始化数据应当与所描述的预选择中所包括的其它自适应集的媒体数据级联，所述其它自适应集不同于所述第一自适应集。

9.根据权利要求1所述的方法，其中，所述初始化数据对应于初始化段，并且其中，所述媒体数据对应于一个或多个媒体段。

10.根据权利要求9所述的方法，其中，所述初始化段包括动画框，其中，所述媒体段包括动画分段框和媒体数据框。

11.一种用于由装置处理媒体内容的方法，所述媒体内容包括媒体成分，所述方法由所述装置执行，并且包括：

获得媒体呈现描述，所述媒体呈现描述包括对多个媒体成分的预选择的描述，所述预选择的描述包括对所述多个媒体成分中的媒体成分的引用以及用于标识要用于处理所述预选择的级联规则的信息项；以及

解析所获得的媒体呈现描述，以得到用于标识所述级联规则的信息项；

其中，所述媒体成分中的至少一些包括初始化数据，

所述级联规则使得能够获得符合媒体类型的位流。

12.根据权利要求11所述的方法，所述方法还包括根据所述级联规则来标识所述多个媒体成分中的初始化数据，请求所标识的初始化数据，以及根据所标识的初始化数据来初始化所述装置的至少一个解码器。

13.根据权利要求12所述的方法，其中，所述级联规则用信号通知：属于所述多个媒体成分中的单个媒体成分的初始化数据应当用于处理所述预选择的媒体成分中的媒体数据。

14.根据权利要求13所述的方法，其中，所述媒体呈现描述包括数据，该数据用于指示所述预选择所引用的媒体成分中的媒体数据是否能够独立于所述预选择所引用的其它媒体成分中的另一媒体数据被处理。

15.一种存储有计算机程序的指令的非暂时性计算机可读存储介质，所述指令由处理器或计算机执行以实现根据权利要求1或权利要求11所述的方法的各个步骤。

16.一种用于生成媒体呈现描述的装置，所述装置包括处理单元，所述处理单元被配置为执行根据权利要求1所述的方法的各个步骤。

17.一种用于处理媒体内容的装置，所述装置包括处理单元，所述处理单元被配置为执行根据权利要求11所述的方法的各个步骤。