CN107251562B - 检索媒体数据的方法及装置、发信媒体信息的方法及装置 - Google Patents

检索媒体数据的方法及装置、发信媒体信息的方法及装置 Download PDF

Info

Publication number
CN107251562B
CN107251562B CN201680008760.4A CN201680008760A CN107251562B CN 107251562 B CN107251562 B CN 107251562B CN 201680008760 A CN201680008760 A CN 201680008760A CN 107251562 B CN107251562 B CN 107251562B
Authority
CN
China
Prior art keywords
media segment
media
representation
segment
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680008760.4A
Other languages
English (en)
Other versions
CN107251562A (zh
Inventor
托马斯·斯托克哈默
王业奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN107251562A publication Critical patent/CN107251562A/zh
Application granted granted Critical
Publication of CN107251562B publication Critical patent/CN107251562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/611Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for multicast or broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/438Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving encoded video stream packets from an IP network
    • H04N21/4383Accessing a communication channel
    • H04N21/4384Accessing a communication channel involving operations to reduce the access time, e.g. fast-tuning for reducing channel switching latency
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26616Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for merging a unicast channel into a multicast channel, e.g. in a VOD application, when a client served by unicast channel catches up a multicast channel to save bandwidth
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明揭示一种客户端装置,其包含一或多个处理器,所述一或多个处理器经配置以从清单文件确定媒体内容的表示中所包含的多个区段类型、由所述区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述区段类型中的每一者的区段的位置,其中所述区段类型中的至少一者提供开始从所述表示检索数据的点;从所述清单文件确定所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的区段;及从所述表示检索所述所确定区段。

Description

检索媒体数据的方法及装置、发信媒体信息的方法及装置
本申请案主张在2015年2月10日申请的美国临时申请案第62/114,423号及在2015年6月22日申请的美国临时申请案第62/183,054号的权益,所述美国临时申请案中的每一者的全部内容特此以引用的方式并入本文中。
技术领域
本发明涉及经编码视频数据的存储及输送。
背景技术
数字视频能力可并入到广泛范围的装置中,所述装置包含数字电视、数字直播***、无线广播***、个人数字助理(PDA)、膝上型或桌面计算机、数字摄影机、数字记录装置、数字媒体播放器、视频游戏设备、视频游戏主机、蜂窝式或卫星无线电电话、视频电话会议装置及其类似者。数字视频装置实施视频压缩技术(例如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)、ITU-T H.265/高效率视频译码(HEVC)所定义的标准及此些标准的扩展中所描述的那些技术)以更高效地传输及接收数字视频信息。
视频压缩技术执行空间预测及/或时间预测以减少或移除视频序列中的固有冗余。对于基于块的视频译码,可将视频帧或图块分割成宏块。可对每一宏块进行进一步分割。使用相对于邻近宏块的空间预测对帧内译码(I)帧或图块中的宏块进行编码。帧间译码(P或B)帧或图块中的宏块可使用相对于同一帧或图块中的邻近宏块的空间预测或相对于其它参考帧的时间预测。
在已将视频数据编码之后,可将视频数据包化以进行传输或存储。视频数据可组译到符合于各种标准中的任一者(例如国际标准化组织(ISO)基本媒体文件格式及其扩展(例如AVC))的视频文件中。
发明内容
一般来说,本发明描述可用于达成低等待时间视频(及/或其它媒体数据)流化的技术。举例来说,媒体内容可包含各种表示,所述表示充当彼此的替代方案。根据本发明的技术,一个表示可包含相对频繁的流接入点(SAP),而另一替代表示可包含相对不频繁的SAP。清单文件(例如经由HTTP的动态自适性流化(DASH)的媒体呈现描述(MPD))可发信区段的类型(或区段符合于的格式),以及此些区段的位置(或此些区段在对应表示中发生的相对频率)。客户端装置可使用清单文件来确定表示中的一者具有相对频繁的SAP,且接着从所述表示检索区段或区段的数个部分直到可从不同目标表示获得SAP为止。目标表示可归因于具有较少(即,较不频繁)SAP而具有相对较高质量。在一些实例中,可经由例如单播或广播的不同检索机制而获得不同表示。举例来说,初始表示可为经由单播获得,而目标表示可为经由广播获得。
在一个实例中,一种方法包含:从清单文件确定媒体内容的表示中所包含的多个区段类型、由所述区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述区段类型中的每一者的区段的位置,其中所述区段类型中的至少一者提供开始从所述表示检索数据的点;从所述清单文件确定所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的区段;及从所述表示检索所述所确定区段。
在另一实例中,一种用于检索媒体数据的客户端装置包含一或多个处理器,所述一或多个处理器经配置以从清单文件确定媒体内容的表示中所包含的多个区段类型、由所述区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述区段类型中的每一者的区段的位置,其中所述区段类型中的至少一者提供开始从所述表示检索数据的点;从所述清单文件确定所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的区段;及从所述表示检索所述所确定区段。
在另一实例中,一种用于检索媒体数据的客户端装置包含用于从清单文件确定媒体内容的表示中所包含的多个区段类型、由所述区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述区段类型中的每一者的区段的位置的装置,其中所述区段类型中的至少一者提供开始从所述表示检索数据的点;用于从所述清单文件确定所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的区段的装置;及用于从所述表示检索所述所确定区段的装置。
在另一实例中,一种计算机可读存储媒体在上面存储有指令,所述指令在执行时致使处理器从清单文件确定媒体内容的表示中所包含的多个区段类型、由所述区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述区段类型中的每一者的区段的位置,其中所述区段类型中的至少一者提供开始从所述表示检索数据的点;从所述清单文件确定所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的区段;及从所述表示检索所述所确定区段。
在另一实例中,一种发信媒体信息的方法包含:建构指示以下各项的清单文件:媒体内容的表示中所包含的多个区段类型、由所述区段类型中的每一者所提供的一或多个功能、符合于所述表示中的所述区段类型中的每一者的区段的位置,其中所述区段类型中的至少一者提供开始从所述表示检索数据的点,及所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的区段;将所述清单文件发送到客户端装置;及响应于来从所述客户端装置对符合于提供开始从所述表示检索数据的所述点的所述类型的区段的请求,将提供开始从所述表示检索数据的所述点的所述区段发送到所述客户端装置。
在另一实例中,一种用于发信媒体信息的服务器装置包含一或多个处理器,所述一或多个处理器经配置以建构指示以下各项的清单文件:媒体内容的表示中所包含的多个区段类型、由所述区段类型中的每一者所提供的一或多个功能、符合于所述表示中的所述区段类型中的每一者的区段的位置,其中所述区段类型中的至少一者提供开始从所述表示检索数据的点,及所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的区段;将所述清单文件发送到客户端装置;及响应于来从所述客户端装置的对符合于提供开始从所述表示检索数据的所述点的所述类型的区段的请求,将提供开始从所述表示检索数据的所述点的所述区段发送到所述客户端装置。
在另一实例中,一种用于发信媒体信息的服务器装置包含用于建构指示以下各项的清单文件的装置:媒体内容的表示中所包含的多个区段类型、由所述区段类型中的每一者所提供的一或多个功能、符合于所述表示中的所述区段类型中的每一者的区段的位置,其中所述区段类型中的至少一者提供开始从所述表示检索数据的点,及所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的区段;用于将所述清单文件发送到客户端装置的装置;及用于响应于来从所述客户端装置的对符合于提供开始从所述表示检索数据的所述点的所述类型的区段的请求而将提供开始从所述表示检索数据的所述点的所述区段发送到所述客户端装置的装置。
在另一实例中,一种计算机可读存储媒体上面存储有指令,所述指令在经执行时致使服务器装置的处理器建构指示以下各项的清单文件:媒体内容的表示中所包含的多个区段类型、由所述区段类型中的每一者所提供的一或多个功能、符合于所述表示中的所述区段类型中的每一者的区段的位置,其中所述区段类型中的至少一者提供开始从所述表示检索数据的点,及所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的区段;将所述清单文件发送到客户端装置;及响应于来从所述客户端装置的对符合于提供开始从所述表示检索数据的所述点的所述类型的区段的请求而将提供开始从所述表示检索数据的所述点的所述区段发送到所述客户端装置。
在以下随附图式及描述中阐述一或多个实例的细节。其它特征、目的及优点从描述及图式且从权利要求书将为显而易见。
附图说明
图1为说明用于快速联结流的实例使用状况的概念图。
图2为说明各种类型的媒体区段之间的关系的维恩(Venn)图。
图3为说明表示及ISO基本媒体文件格式(BMFF)文件的实例结构的概念图。
图4为说明实施用于经由网络流化媒体数据的技术的实例***的框图。
图5A为说明实例多媒体内容的要素的概念图。
图5B为说明根据本发明的技术的媒体呈现描述的实例内容的概念图。
图6为说明可对应于表示的区段(例如图5A的区段中的一者)的实例视频文件的要素的框图。
图7为说明用于根据本发明的技术的使用状况的实例区段给予的概念图。
图8为说明根据本发明的技术的包含以可调式HEVC(SHVC)的快速调谐的使用状况的概念图。
图9为说明根据本发明的技术的包含以流接入点(SAP)类型3的快速调谐的实例使用状况的概念图。
图10为说明包含快速调谐及混杂化的实例使用状况的概念图。
图11为说明包含快速调谐、混杂化及开放GOP的实例使用状况的概念图。
图12为说明包含快速调谐及混杂化与开放GOP的另一实例使用状况的概念图。
图13为说明包含快速调谐及极低等待时间的实例使用状况的概念图。
图14为说明包含快速调谐及极低等待时间的另一实例使用状况的概念图。
图15为说明根据本发明的技术的用于检索媒体内容的表示的区段的实例方法的流程图。
具体实施方式
一般来说,本发明描述用于基于(例如)根据ISO基本媒体文件格式(ISOBMFF)及经由HTTP的动态自适性流化(DASH)格式化的媒体内容的低等待时间视频流的技术。DASH描述于例如以下各项中:第3代合作伙伴计划;技术规范群组服务及***方面;透明端对端包切换式流化服务(PSS);3GPP文件格式(3GP)(版本12)V12.2.0(2013年12月)。本发明描述用于定义及发信数据的各种方法,所述数据可符合于新DASH简档(例如,高级直播简档)及可实现低等待时间视频流的一些新类型的媒体区段,包含广播及多播中减少的频道获取及频道改变时间,同时可能实现高效率视频译码结构。
视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1视觉部分、ITU-T H.262或ISO/IEC MPEG-2视觉部分、ITU-T H.263、ISO/IEC MPEG-4视觉部分、ITU-T H.264或ISO/IECMPEG-4AVC(包含其可调式视频译码(SVC)及多视角视频译码(MVC)延伸),以及也称作ITU-TH.265及ISO/IEC 23008-2的高效率视频译码(HEVC)(包含其可调式译码延伸(即,可调式高效率视频译码,SHVC)及多视角扩展(即,多视角高效率视频译码,MV-HEVC))。
随机存取是指对从并非位流中的第一经译码图像的经译码图像开始的视频位流进行解码。对位流的随机存取可用于例如广播及流化的许多视频应用中(例如)供用户随时调谐程序、在不同频道之间切换,跳到视频的特定部分,或切换到不同位流用于进行流调适(比特率、帧速率、空间分辨率等等的流调适)。此特征可通过以规则间隔将随机存取图像或随机存取点***到视频位流中许多次来实现。
位流拼接是指两个或多于两个位流或其部分的序连。举例来说,第一位流可附加有第二位流,可能有对所述位流中的一者或两者的一些修改以产生经拼接位流。第二位流中的第一经译码图像也称作拼接点。因此,在经拼接位流中的拼接点之后的图像源自第二位流,而在经拼接位流中的拼接点之前的图像源自第一位流。
位流的拼接可通过位流拼接器执行。位流拼接器通常为轻量级且相较于编码器智能程度低得多。举例来说,位流拼接器可能未配备有熵解码及编码能力。
位流切换可用于自适性流化环境。在所切换到的位流中的某一图像处执行的位流切换操作实际上为拼接点为位流切换点(即,来自所切换到的位流的第一图像)的位流拼接操作。单独表示也可称作(或提供)各别位流。
可将如ITU-T H.264/AVC(高级视频译码)或高效率视频译码(HEVC)中所规定的瞬时解码刷新(IDR)图像用于随机存取。然而,由于以解码次序在IDR图像之后的图像无法将在IDR图像之前解码的图像用于参考(以进行图像间预测),因此依赖于IDR图像以进行随机存取的位流可具有显著较低的译码效率。
为改良译码效率,将清洁随机存取(CRA)图像的概念引入于HEVC中以允许以解码次序在CRA图像之后但以输出次序在CRA图像之前的图像使用在CRA图像之前经解码的图像作为参考。以解码次序在CRA图像之后但以输出次序在CRA图像之前的图像称作与CRA图像相关联的前导图像(或CRA图像的前导图像)。如果解码从当前CRA图像之前的IDR或CRA图像开始,那么CRA图像的前导图像可正确地解码。然而,在发生从CRA图像起的随机存取时,CRA图像的前导图像可为不可解码的。因此,前导图像通常在随机存取解码期间被摒弃。为了防止来自取决于解码开始的位置而可能为不可用的参考图像的错误传播,以解码次序及输出次序两者皆在CRA图像之后的所有图像不应使用以解码次序或输出次序在CRA图像之前的任何图像(其包含前导图像)作为参考。
断链存取(BLA)图像的概念在引入CRA图像之后经进一步引入于HEVC中且基于CRA图像的概念。BLA图像通常源自于CRA图像的位置处的位流拼接,且在所拼接位流中,拼接点CRA图像改变成BLA图像。
IDR图像、CRA图像及BLA图像统称为随机存取点(RAP)图像。IDR图像对应于所谓基于封闭图像群组(GOP)的RAP,而CRA及BLA图像对应于习知所谓基于开放图像群组(GOP)的RAP。
BLA图像与CRA图像之间的一个差异如下。对于CRA图像,相关联前导图像在解码从以解码次序在CRA图像之前的RAP图像开始情况下可正确地解码,且在从CRA图像起的随机存取在发生时(即,在解码从CRA图像开始时,或换句话说,在CRA图像为位流中的第一图像时)可不正确地解码。对于BLA图像,在所有状况下,甚至在解码从以解码次序在BLA图像之前的RAP图像开始时,相关联前导图像仍可为不可解码的。
文件格式标准包含ISO基本媒体文件格式(ISOBMFF、ISO/IEC 14496-12)及从ISOBMFF导出的其它格式,包含MPEG-4文件格式(ISO/IEC 14496-14)、3GPP文件格式(3GPPTS 26.244)及AVC文件格式(ISO/IEC 14496-15)。
ISOBMFF用作以下两者的基础:许多译码解码囊封格式,例如AVC文件格式;以及许多多媒体容器格式,例如MPEG-4文件格式、3GPP文件格式(3GP)及DVB文件格式。
除例如音频及视频的连续媒体外,例如影像的静态媒体以及元数据还可存储在符合于ISOBMFF的文件中。根据ISOBMFF结构化的文件可用于许多用途,包含本端媒体文件播放,远程文件的渐进式下载、用于经由HTTP的动态自适性流化(DASH)的区段、用于欲流化的内容及其包化指令的容器,及对所接收实时媒体流化的记录。
方块为ISOBMFF中的基础语法结构,包含四字符译码方块类型、方块的字节计数,及有效负载。ISOBMFF文件由一系列方块组成,且方块可含有其它方块。影片方块(“moov”)含有针对文件中存在的连续媒体流的元数据,每一媒体流在文件中表示为轨迹。针对轨迹的元数据经封围于轨迹方块(“trak”)中,而轨迹的媒体内容经封围于媒体数据方块(“mdat”)中或直接封围于单独文件中。轨迹的媒体内容由例如音频或视频存取单元的一系列样本组成。
ISOBMFF规定以下类型的轨迹:媒体轨迹,其含有基础媒体流;提示轨迹,其包含媒体传输指令或表示所接收包流;及定时元数据轨迹,其包括时间同步元数据。
尽管起初经设计用于存储,但ISOBMFF已证明为对于流化(例如,对于渐进式下载或DASH)是极其有价值的。出于流化目的,可使用ISOBMFF中定义的影片片段。
针对每一轨迹的元数据包含样本描述项列表,每一样本描述项提供轨迹中所使用的译码或囊封格式及用于处理所述格式所需要的初始化数据。每一样本与轨迹的样本描述项中的一者相关联。
ISOBMFF实现通过各种机制规定样本特定元数据。样本表方块(“stbl”)内的特定方块已被标准化以对共同需求做出回应。举例来说,使用同步样本方块(“stss”)来列举轨迹的随机存取样本。样本分组机制实现将根据四字符分组类型的样本映射到共享与文件中的样本群组描述项相同的所规定性质的样本群组中。ISOBMFF中已规定数种分组类型。
本发明的技术可应用于符合于根据以下各者中的任一者囊封的视频数据的视频文件:ISOBMFF、可调式视频译码(SVC)文件格式、高级视频译码(AVC)文件格式、第三代合作伙伴计划(3GPP)文件格式,及/或多视角视频译码(MVC)文件格式或其它类似视频文件格式。
ISO/IEC 23001-7定义对ISO基本媒体文件格式的共同加密。在此标准的状况下,加密是基于基础流。另外,标准允许AES-128CTR及CBC模式。为了在随机存取点处将媒体解密,需要所有DRM相关信息,所述信息包含保护方案特定信息以及初始化向量。
ISO/IEC 23009-1中规定的经由HTTP的动态自适性流化(DASH)为针对HTTP(自适性)流化应用的标准。其主要规定也大体称作清单文件的媒体呈现描述(MPD)的格式及媒体区段格式。MPD描述服务器上可用的媒体且使得DASH客户端自动下载其所关注的媒体时间的媒体版本。
用于基于DASH的HTTP流化的实例程序包含以下步骤:
1)客户端获得流化内容(例如,影片)的MPD。MPD包含关于流化内容的不同替代表示(例如,比特率、视频分辨率、帧速率、音频语言)以及HTTP资源(初始化区段及媒体区段)的URL的信息。
2)基于MPD中的信息及客户端的本端信息(例如,网络带宽、解码/显示能力及用户偏好),客户端一次一个区段(或其部分)地请求所要表示。
3)在客户端检测到网络带宽改变时,客户端请求不同表示的具有更好匹配比特率的区段,理想地从以随机存取点开始的区段开始。
在HTTP流化“会话”期间,为了对用以向后搜寻过去位置或向前搜寻未来位置的用户请求作出响应,客户端请求从接近于所要位置且理想地以随机存取点开始的区段开始的过去或未来区段。使用者也可请求以快进内容,此情形可通过请求足够用于解码仅帧内译码视频图像或仅视频流的时间子集的数据来实现。
最新ISOBMFF规范规定供DASH使用的六种类型的流接入点(SAP)。前两种SAP类型(类型1及2)对应于H.264/AVC及HEVC中的IDR图像。第三种SAP类型(类型3)对应于开放GOP随机存取点,因此对应于HEVC中的BLA或CRA图像。
在HTTP流化中,例如根据DASH,频繁使用的操作包含HEAD、GET及部分GET。HEAD操作检索与给定统一资源定位符(URL)或统一资源名称(URN)相关联的文件的标头,而非检索与URL或URN相关联的有效负载。GET操作检索与给定URL或URN相关联的整个文件。部分GET操作接收字节范围作为输入参数并检索文件的多个连续字节,其中所述多个字节对应于所接收的字节范围。因此,影片片段可经提供用于HTTP流化,这是因为部分GET操作可获取一或多个个别影片片段。在影片片段中,可存在不同轨迹的若干轨迹片段。在HTTP流化中,媒体呈现可为可由客户端存取的结构化数据集合。客户端可请求并下载媒体数据信息以向用户呈现流化服务。
在使用HTTP流化来流化3GPP数据的实例中,可存在用于多媒体内容的视频及/或音频数据的多个表示。如下文所阐释,不同表示可对应于不同译码特性(例如,视频译码标准的不同简档或等级)、不同译码标准或译码标准的扩展(例如,多视图及/或可调式扩展),或不同比特率。此些表示的指令清单可定义于媒体呈现描述(MPD)数据结构中。媒体呈现可对应于对于HTTP流化客户端装置可存取的结构化数据集合。HTTP流化客户端装置可请求并下载媒体数据信息以向客户端装置的用户呈现流化服务。媒体呈现可描述于MPD数据结构中,所述MPD数据结构可包含MPD的更新。
媒体呈现可含有一系列一或多个时段。时段可由MPD中的Period要素定义。每一时段可在MPD中具有属性start。MPD可包含针对每一时段的start属性及availableStartTime属性。对于直播服务,时段的start属性与MPD属性availableStartTime的总和可规定呈UTC格式的时段的可用性时间,特定来说,对应时段中的每一表示的第一媒体区段。对于选播服务,第一时段的start属性可为0。对于任一其它时段,start属性可规定对应时段的开始时间相对于第一时段的开始时间之间的时间偏移。每一时段可延伸直到下一时段的开始为止,或直到媒体呈现的结束(在最后时段的状况下)为止。时段开始时间可为精确的。所述时段开始时间可反映播放所有之前时段的媒体所产生的实际时间。
每一时段可含有相同媒体内容的一或多个表示。表示可为音频或视频数据的多个替代经编码版本中的一者。表示可因编码类型(例如)因视频数据的比特率、分辨率及/或译码解码以及音频数据的比特率、语言及/或译码解码而不同。术语表示可用于指对应于多媒体内容的特定时段且以特定方式编码的经编码音频或视频数据的段。
特定时段的表示可指派到由MPD中指示表示所属于的自适应集合的属性所指示的群组。通常将相同自适应集合中的表示认为是彼此的替代方案,这是因为客户端装置可在这些表示之间动态且无缝地切换(例如)以执行带宽自适应。举例来说,可将特定时段的视频数据的每一表示指派到相同自适应集合,使得表示中的任一者可经选择以用于进行解码以呈现对应时段的多媒体内容的媒体数据(例如,视频数据或音频数据)。在一些实例中,一个时段内的媒体内容可由来自群组0(如果存在)的一个表示或来自每一非零群组的至多一个表示的组合来表示。时段的每一表示的计时数据可相对于时段的开始时间表达。
表示可包含一或多个区段。每一表示可包含初始化区段,或表示的每一区段可正自初始化。当存在时,初始化区段可含有用于存取表示的初始化信息。通常,初始化区段不含有媒体数据。区段可由例如统一资源定位符(URL)、统一资源名称(URN)或统一资源识别符(URI)的识别符独特地参考。MPD可为每一区段提供识别符。在一些实例中,MPD还可提供呈range属性形式的字节范围,所述属性可对应于可由URL、URN或URI存取的文件内的区段的数据。
不同表示可经选择以用于对不同类型的媒体数据的大体上同时检索。举例来说,客户端装置可选择从其检索区段的音频表示、视频表示及定时文本表示。在一些实例中,客户端装置可选择特定自适应集合以用于执行带宽自适应。即,客户端装置可选择包含视频表示的自适应集合、包含音频表示的自适应集合及/或包含定时文本(timed text)的自适应集合。替代地,客户端装置可选择某些类型的媒体(例如,视频)的自适应集合,及直接选择其它类型的媒体(例如,音频及/或定时文本)的表示。
常规DASH技术中可出现各种问题。举例来说,对于低等待时间视频流化服务,例如分布低等待时间直播服务,可尽可能快速地产生每一区段以在源服务器上可用是关系重大的。换句话说,短区段在此些情境中为有必要的。当前,存在用于产生短区段的两个选项:
1)使用ISOBMFF直播简档:此意谓每一区段必需以类型1或2的SAP开始,但区段在一个自适应集合中必须全部具有相同持续时间。换句话说,必须使用IDR图像来提供RAP,不可使用对应于SAP类型3的开放GOP RAP。因此,视频译码效率不得不折衷。
2)使用ISOBMFF主简档:然而,此意谓切换点(SAP类型1或2)上的任何基于MPD的发信皆为不可能的且客户端需要剖析区段以便找出如何存取样本。
另外,可出现区段过负载问题。即,在核心DASH规范中,区段为必须包含整数数目个影片片段的递送单元。在不失一般性的情况下,假定区段含有单个影片片段。影片片段自身仅具有在以解码次序提供整数数目个样本方面的约束。
在核心DASH中,可出于产生可寻址且可递送单元的目的来产生区段而无进一步限制。然而,在限制简档(例如,ISO直播简档)中,使用相同时间的区段来实现表示切换。后一者添加显著限制:
●每一区段必须以封闭GOP开始
●区段在一个表示内的呈现时间上必须不重叠
这些两个限制导致降低的译码效率,尤其在区段为相对短的情况下。
此外,对于广播应用,对递送单元的随机存取为关系重大的。区段的持续时间确定对于频道获取及频道改变为关系重大的随机访问时间。对于随机存取,更高效开放GOP为足够的,且区段可甚至在一定程度上具有呈现时间重叠,此情形可在存取时导致降低的播出质量(一些经舍弃帧),但仍允许对流的快速存取。
如下文所论述的本发明的技术可解决区段的不同功能方面且将区段区分成不同类别。
图1为说明用于快速联结流的实例使用状况的概念图。在此实例中,一些区段为经由广播可获得。而其它区段为经由单播可获得。特定来说,标记为“8”及“9”的区段是经由广播可获得,而标记为7A到7D、8A到8D及9A到9D的区段是经由单播可获得。在此使用状况下,客户端装置经由单播检索区段7D及8A到8D(其中区段8A到8D包含与经由广播可获得的区段8相同的媒体数据),且接着经由广播接收区段9。特定来说,客户端装置在调谐时间2调谐到广播中,所述调谐时间2是在经由广播传输区段8期间。因此,客户端装置不可经由广播接收区段8,因此替代地,客户端装置在经由广播接收区段9之前检索区段7D及8A到8D。因此,客户端装置在检索区段8D之后从广播切换到单播。因此,在播出媒体数据时,客户端装置播出来自区段7D及8A到8D(经由单播接收)的媒体数据,接着切换以播出来自区段9(经由广播接收)的媒体数据。
此使用状况证实通过单播的“快速调谐”。在此状况下,服务提供商想要分布具有高SAP频率(通常,类型3是可能的)的一个表示以便进行快速存取。然而,在调谐之后,客户端想要切换到更高效且具有较少IDR帧的表示。所切换到的表示可甚至具有不同区段大小。此情境可为单播时的状况,但也处于混合状况。所述情境展示于图1中。在此图中,使得较短区段经由单播可获得,每一区段包含IDR帧。如果客户端在某一时间且在无单播支持的情况下联结程序,则将花费一些时间直到区段被接收到且可开始以进行播放(图1中的区段9)为止。这归因于需要接收整个区段(以便恰当地初始化(例如)媒体解码器以解码所述区段的媒体数据)的事实。
在此状况下,单播表示经供应有四分之一的区段持续时间。客户端可立即选择播出单播短区段直到高效(长区段、长IDR帧距离)广播表示经由广播到达。MPD中发信这些能力(随机存取点及切换点的位置)是关系重大的,但现今是不可能的。
另一类似使用状况涉及借助SHVC的快速调谐。可存在具有低RAP频率及甚至低区段大小的基本层及具有较大GOP频率的增强层的供应。接着应如关于图1所论述达成上述情形。发信这些特征现今并不可能。
另一所要使用状况为高效时间移位缓冲器的使用。在某些状况下,可以小区段在直播边缘处供应表示,但客户端一移动到时间移位缓冲器,区段大小就增加。表示仍应位于一个自适应集合中以表达无缝切换能力,但不应迫使表示具有相同区段大小及/或相同切换点/随机存取点频率。上述情形同样适用于记录直播事件以供未来选播使用。
另一使用状况涉及借助开放GOP的快速调谐。开放GOP可通常对应于包含可相对于GOP外部的图像进行预测的图像的GOP。此情形与独立式的封闭GOP相反,这是因为GOP的所有图像是从GOP内的其它图像预测。举例来说,开放GOP可以帧间预测图像(或帧间预测关键帧)开始,而封闭GOP可以帧内预测图像开始。
借助开放GOP的快速调谐的状况可为广播快速调谐的典型状况。问题是存在想要快速调谐、跨越表示切换且可能提供低等待时间的状况。此情形可导致发信的复杂使用状况,即发信区段、开放GOP、封闭GOP、区段对准等等。
另一使用状况涉及针对连续性的快速向下切换。此状况对于广播快速调谐情境也可为典型的。问题是存在想要快速调谐、跨越表示切换且可能提供低等待时间的状况。此情形可导致发信的复杂使用状况,即发信区段、开放GOP、封闭GOP、区段对准等等。
另一使用状况涉及区段可用性。为了减少等待时间,不仅区段需要为短的,而且区段的产生与发布之间的时间也需要为短的。为了避免HTTP 404错误,区段可用性时间需要对于接收者可用(例如,发信到所述接收者)。区段模板提供用以宣告可用性时间的模式,但此情形要求区段在确切时间可用,且因此在宣告区段可用性开始时间时需要考虑区段持续时间的变化,且编码器需要遵循此模式。如果未迫使内容提供商产生具有区段可用性时间的IDR帧,则其可更容易使IDR帧放置发生变化且可更准确地宣告区段可用性时间。此方面应在发信区段持续时间中考虑。
在不同使用状况中,切换、递送及随机存取的不同特征为或多或少地相关,但其可需要提供在一个内容供应项目内。存在应予以考虑的若干情境:
●具有低频道获取时间连同以较低频率切换到单播表示的能力的广播散布的部署。
●经由与广播同步的单播在直播边缘递送低等待时间版本。
●仅以长于递送单元的随机存取频率经由广播递送低等待时间版本。
●需要考虑的可变区段持续时间。
本发明的技术可允许这些各种使用状况(单独地或以任一组合),且可克服上文所论述的问题中的任一者或全部。
图2为说明各种类型的媒体区段之间的关系的维恩图200。媒体区段可用于例如以下各项的DASH中的各种用途中的任一者或全部:
●表示切换
○封闭GOP通常为必要的。
○区段在一个表示内在时间上必须不重叠。
○区段跨越一个自适应集合中的不同表示必须被对准。
●随机存取
○开放GOP通常为必要的。
○如果准许开放GOP随机存取,那么区段在一个表示内在时间上可重叠。
●递送单元
○无对随机存取或切换的要求。
○区段必须包含整数数目个影片片段。
为了解决不同方面,可根据图2考虑四种不同区段类型(或格式):
●递送单元区段格式202:仅无任何约束的片段。(在图2中由具有实线轮廓的椭圆表示)。
●随机存取区段格式204:用于调谐的开放GOP。(在图2中由具有虚线轮廓的椭圆表示)。
●不重叠区段格式206:客户端装置可切换到此格式的区段而无任何问题。(在图2中由具有点线轮廓的椭圆表示)。
●切换区段格式208:客户端装置可切换到此格式的区段。(在图2中由具有双点虚线轮廓的椭圆表示)。
图3为说明表示210及ISO BMFF文件212A到212C的实例结构的概念图。图3还展示包含moof(影片片段)方块及影片数据(mdat)方块的ISO BMFF文件212A的分解图。图3的实例ISO BMFF文件212A在概念上类似于下文更详细描述的图6的影片片段164。考虑影片片段为媒体数据的递送单元为关系重大的。影片片段经产生,使得其含有一系列moof方块及mdat方块,(例如)如图3中所展示。
图4为说明实施用于经由网络流化媒体数据的技术的实例***10的框图。在此实例中,***10包含内容准备装置20、服务器装置60及客户端装置40。客户端装置40及服务器装置60通过可包括因特网的网络74以通信方式耦合。在一些实例中,内容准备装置20及服务器装置60还可通过网络74或另一网络耦合,或可直接以通信方式耦合。在一些实例中,内容准备装置20及服务器装置60可包括相同装置。
在图4的实例中,内容准备装置20包括音频源22及视频源24。音频源22可包括(例如)麦克风,所述麦克风产生表示将由音频编码器26编码的所捕获音频数据的电信号。替代地,音频源22可包括存储先前所记录音频数据的存储媒体、例如计算机化合成器的音频数据产生器,或任一其它音频数据源。视频源24可包括产生将由视频编码器28编码的视频数据的视频摄影机、编码有先前所记录视频数据的存储媒体、例如计算机图形源的视频数据产生单元,或任一其它视频数据源。内容准备装置20不必在所有实例中以通信方式耦合到服务器装置60,但可将多媒体内容存储到由服务器装置60读取的单独媒体。
原始音频及视频数据可包括模拟或数字数据。模拟数据可在由音频编码器26及/或视频编码器28编码之前经数字化。音频源22可在发言参与者正在发言时从所述发言参与者获得音频数据,且视频源24可同时获得发言参与者的视频数据。在其它实例中,音频源22可包括计算机可读存储媒体,所述计算机可读存储媒体包括所存储音频数据,且视频源24可包括计算机可读存储媒体,所述计算机可读存储媒体包括所存储视频数据。以此方式,本发明中所描述的技术可应用于直播、流化、实时音频及视频数据或应用于经存档、预记录音频及视频数据。
对应于视频帧的音频帧通常为含有与含在视频帧内的由视频源24捕获(或产生)的视频数据同时地由音频源22捕获(或产生)的音频数据的音频帧。举例来说,在发言参与者通常通过发言来产生音频数据时,音频源22捕获音频数据,且视频源24同时(即,在音频源22正捕获音频数据时)捕获发言参与者的视频数据。因此,音频帧可在时间上对应于一或多个特定视频帧。因此,对应于视频帧的音频帧通常对应于同时捕获音频数据及视频数据且音频帧及视频帧分别包括同时捕获的音频数据及视频数据的情形。
在一些实例中,音频编码器26可在每一经编码音频帧中编码有表示记录所述经编码音频帧的音频数据的时间的时间戳,且类似地,视频编码器28可在每一经编码视频帧中编码有表示记录所述经编码视频帧的视频数据的时间的时间戳。在此些实例中,对应于视频帧的音频帧可包括:包括时间戳的音频帧及包括相同时间戳的视频帧。内容准备装置20可包含音频编码器26及/或视频编码器28可依据其产生时间戳或音频源22及视频源24可使用以使音频数据及视频数据分别与时间戳相关联的内时钟。
在一些实例中,音频源22可将对应于记录音频数据的时间的数据发送到音频编码器26,且视频源24可将对应于记录视频数据的时间的数据发送到视频编码器28。在一些实例中,音频编码器26可在经编码音频数据中编码顺序识别符以指示经编码音频数据的相对时间次序但未必指示记录音频数据的绝对时间,且类似地,视频编码器28还可使用顺序识别符来指示经编码视频数据的相对时间次序。类似地,在一些实例中,可映射顺序识别符或以其它方式使其与时间戳相关。
音频编码器26通常产生经编码音频数据的流,而视频编码器28产生经编码视频数据的流。每一个别数据(音频抑或视频)流可称作基础流。基础流为表示的单个经数字译码(可能经压缩)的分量。举例来说,表示的经译码的视频或音频部分可为基础流。基础流可在囊封于视频文件中的前转换成包化基础流(PES)。在同一表示内,流ID可用于将属于一个基础流的PES包与属于另一基础流的PES包区分开。基础流的基本数据单元为包化基础流(PES)包。因此,经译码视频数据通常对应于基础视频流。类似地,音频数据对应于一或多个各别基础流。
例如ITU-T H.264/AVC及高效率视频译码(HEVC)的许多视频译码标准定义无错误位流的语法、语义及解码程序,其中的任一者符合于特定简档或等级。视频译码标准通常未规定编码器,但编码器的任务是保证所产生位流对解码器来说是符合标准的。在视频译码标准的上下文中,“简档”对应于算法、特征或工具的子集及应用于其的约束。如由H.264标准所定义,例如,“简档”是由H.264标准规定的整个位流语法的子集。“等级”对应于解码器资源耗用的限制(例如,解码器存储器及计算),其与图像的分辨率、比特率及块处理速率相关。简档可以profile_idc(简档指示符)值进行发信,而等级可以level_idc(等级指示符)值进行发信。
举例来说,H.264标准认识到,在由给定简档的语法强加的界限内,取决于由位流中的语法要素取得的值(例如经解码图像的规定大小),仍有可能要求编码器及解码器的效能的大的变化。H.264标准进一步认识到,在许多应用中,实施能够处置特定简档内的语法的所有假设使用的解码器是既不实际且不经济的。因此,H.264标准将“等级”定义为强加于位流中的语法要素的值的特定约束集合。这些约束可为对值的简单限制。替代地,这些约束可采用对值的算术组合(例如,图像宽度×图像高度×每秒所解码的图像的数目)的约束的形式。H.264标准进一步规定,个别实施可支持针对每一所支持简档的不同等级。
符合于简档的解码器通常支持所述简档中定义的所有特征。举例来说,作为译码特征,B图像译码在H.264/AVC的基准简档中并不被支援,但在H.264/AVC的其它简档中被支持。符合于等级的解码器应能够解码不需要超过等级中定义的限制的资源的任一位流。简档及等级的定义可有助于可解释性。举例来说,在视频传输期间,可针对整个传输会话协商并同意一对简档及等级定义。更具体来说,在H.264/AVC中,等级可定义对以下各项的限制:需要处理的宏块的数目、经解码图像缓冲器(DPB)的大小、经译码图像缓冲器(CPB)的大小、垂直运动向量范围、每两个连续MB的运动向量的最大数目,及B块是否可具有小于8×8个像素的子宏块分割。以此方式,解码器可确定解码器是否能够恰当地解码位流。
在图4的实例中,内容准备装置20的囊封单元30接收包括来自视频编码器28的经译码视频数据的基础流及包括来自音频编码器26的经译码音频数据的基础流。在一些实例中,视频编码器28及音频编码器26可各自包含用于由经编码数据形成PES包的包器。在其它实例中,视频编码器28及音频编码器26可各自与用于由经编码数据形成PES包的各别包器介接。在又其它实例中,囊封单元30可包含用于由经编码的音频数据及视频数据形成PES包的包器。
视频编码器28可以各种方式对多媒体内容的视频数据进行编码以产生处于各种比特率且具有例如以下各项的各种特性的多媒体内容的不同表示:像素分辨率、帧速率、与各种译码标准的符合性、与用于各种译码标准的各种简档及/或简档的等级的符合性、具有一或多个视角的表示(例如,用于二维或三维播放),或其它此类特性。如本发明中所使用,表示可包括音频数据、视频数据、文本数据(例如,用于隐藏字幕)或其它此类数据中的一者。表示可包含基础流,例如音频基础流或视频基础流。每一PES包可包含识别PES包所属于的基础流的stream_id。囊封单元30负责将基础流组译到各种表示的视频文件(例如,区段)中。
囊封单元30接收来自音频编码器26及视频编码器28的表示的基础流的PES包且由所述PES包形成对应网络抽象层(NAL)单元。在H.264/AVC(高级视频译码)的实例中,经译码视频区段组织成NAL单元,所述NAL单元提供解决例如视频电话、存储、广播或串流的应用的“网络亲和性”视频表示。NAL单元可分类成视频译码层(VCL)NAL单元及非VCL NAL单元。VCL单元可含有核心压缩引擎且可包含块、宏块,及/或图块层级数据。其它NAL单元可为非VCLNAL单元。在一些实例中,可包含一或多个NAL单元的存取单元中可含有通常呈现为主要经译码图像的一个时间实例中的经译码图像。
非VCL NAL单元除其它外还可包含参数集NAL单元及SEI NAL单元。参数集可含有序列层级标头信息(在序列参数集(SPS)中)及不频繁改变的图像层级标头信息(在图像参数集(PPS)中)。借助参数集(例如,PPS及SPS),不需要针对每一序列或图像重复不频繁改变的信息,因此译码效率可得以改良。此外,参数集的使用可实现重要标头信息的频带外传输,从而避免对用于错误恢复的冗余传输的需求。在频带外传输实例中,参数集NAL单元可在不同于其它NAL单元(例如SEI NAL单元)的频道上传输。
补充增强信息(SEI)可含有解码来自VCL NAL单元的经译码图像样本不必要的信息,但可辅助与解码、显示、错误恢复及其它用途相关的程序。非VCL NAL单元中可含有SEI讯息。SEI讯息为一些标准规范的标准化部分,且因此对标准顺应解码器实施并非始终为强制的。SEI讯息可为序列层级SEI讯息或图像层级SEI讯息。一些序列层级信息可含在SEI讯息中,例如SVC的实例中的可扩充性信息SEI讯息及MVC中的视图可扩充性信息SEI讯息。这些实例SEI讯息可传递关于(例如)操作点的提取及操作点的特性的信息。另外,囊封单元30可形成清单文件,例如描述表示的特性的媒体呈现描述符(MPD)。囊封单元30可根据可扩展标记语言(XML)将MPD格式化。
囊封单元30可将针对多媒体内容的一或多个表示的数据连同清单文件(例如,MPD)提供到输出接口32。输出接口32可包括网络接口或用于写入到存储媒体的接口,例如通用串行总线(USB)接口、CD或DVD写入器或刻录机、通到磁性或快闪存储媒体的接口,或用于存储或传输媒体数据的其它接口。囊封单元30可将多媒体内容的表示中的每一者的数据提供到输出接口32,所述输出接口可经由网络传输或存储媒体将数据发送到服务器装置60。在图4的实例中,服务器装置60包含存储各种多媒体内容64的存储媒体62,每一多媒体内容包含各别清单文件66及一或多个表示68A到68N(表示68)。在一些实例中,输出接口32还可将数据直接发送到网络74。
在一些实例中,可将表示68分成自适应集合。即,表示68的各种子集可包含各别共同特性集,例如译码解码器、简档及等级、分辨率、视图的数目、区段的文件格式、可识别待与将(例如)通过扬声器解码及呈现的表示及/或音频数据一起显示的文本的语言或其它特性的文本类型信息、可描述自适应集合中的表示的场景的摄影机角度或真实世界摄影机视角的摄影机角度信息、描述对特定观众的内容适用性的评级信息,或其类似者。
清单文件66可包含指示对应于特定自适应集合的表示68的子集的数据,以及自适应集合的共同特性。清单文件66还可包含表示自适应集合的个别表示的个别特性(例如比特率)的数据。以此方式,自适应集合可提供简化的网络带宽自适应。可使用清单文件66的自适应集合要素的子要素来指示自适应集合中的表示。
服务器装置60包含请求处理单元70及网络接口72。在一些实例中,服务器装置60可包含多个网络接口。此外,服务器装置60中的任一或所有特征可实施于内容递送网络的其它装置上,例如路由器、网桥、代理装置、切换器,或其它装置上。在一些实例中,内容递送网络的中间装置可快取多媒体内容64的数据,且包含大体上符合于服务器装置60的那些组件的组件。一般来说,网络接口72经配置以经由网络74发送并接收数据。
请求处理单元70经配置以接收来自例如客户端装置40的客户端装置的对存储媒体62的数据的网络请求。举例来说,请求处理单元70可实施超文本传送协议(HTTP)版本1.1,如RFC 2616“Hypertext Transfer Protocol-HTTP/1.1”(R.Fielding等人,网络工作组,IETF,1999年6月)中所描述。即,请求处理单元70可经配置以接收HTTP GET或部分GET请求,且回应于所述请求而提供多媒体内容64的数据。所述请求可(例如)使用区段的URL来规定表示68中的一者的区段。在一些实例中,请求还可规定区段的一或多个字节范围,因此包括部分GET请求。请求处理单元70可进一步经配置以对HTTP HEAD请求服务以提供表示68中的一者的区段的标头数据。在任一状况下,请求处理单元70可经配置以处理所述请求以将所请求数据提供到例如客户端装置40的请求装置。
另外或替代地,请求处理单元70可经配置以经由例如eMBMS之广播或多播协议递送媒体数据。内容准备装置20可以与所描述大体上相同的方式产生DASH区段及/或子区段,但服务器装置60可使用eMBMS或另一广播或多播网络输送协议来递送这些区段或子区段。举例来说,请求处理单元70可经配置以从客户端装置40接收多播群组联结请求。即,服务器装置60可将与多播群组相关联的因特网协议(IP)地址通告到与特定媒体内容(例如,直播事件的广播)相关联的包含客户端装置40的客户端装置。客户端装置40继而可提交用以联结多播群组的请求。此请求可遍及网络74(例如,构成网络74的路由器)被传播,使得致使路由器将以与多播群组相关联的IP地址为目的地的讯务引导到例如客户端装置40的订用客户端装置。
如图4的实例中所说明,多媒体内容64包含可对应于媒体呈现描述(MPD)的清单文件66。清单文件66可含有对不同替代表示68(例如,具有不同质量的视频服务)的描述,且描述可包含(例如)译码解码器信息、简档值、等级值、比特率及表示68的其它描述特性。客户端装置40可检索媒体呈现的MPD以确定如何存取表示68的区段。
特定来说,检索单元52可检索客户端装置40的配置数据(未展示)以确定视频解码器48的解码能力及视频输出44的再现能力。配置数据还可包含以下各项中的任一者或全部:由客户端装置40的用户选择的语言偏好、对应于由客户端装置40的用户设置的深度偏好的一或多个摄影机视角,及/或由客户端装置40的用户选择的评级偏好。检索单元52可包括(例如)经配置以提交HTTP GET及部分GET请求的网页浏览器或媒体客户端。检索单元52可对应于由客户端装置40的一或多个处理器或处理单元(未展示)执行的软件指令。在一些实例中,关于检索单元52所描述的功能性的全部或部分可以硬件或硬件、软件及/或固件的组合来实施,其中可提供必需硬件以执行软件或固件之指令。
检索单元52可比较客户端装置40的解码及再现能力与由清单文件66的信息指示的表示68的特性。检索单元52可最初检索清单文件66的至少部分以确定表示68的特性。举例来说,检索单元52可请求清单文件66的描述一或多个自适应集合的特性的部分。检索单元52可选择具有可由客户端装置40的译码及再现能力满足的特性的表示68(例如,自适应集合)的子集。检索单元52可接着确定自适应集合中的表示的比特率,确定网络带宽的当前可用量且从具有可由网络带宽满足的比特率的表示中的一者检索区段。
一般来说,较高比特率表示可产生较高质量视频播放,而较低比特率表示可在可用网络带宽减少时提供足够质量视频播放。因此,在可用网络带宽相对高时,检索单元52可从相对高比特率表示检索数据,而在可用网络带宽较低时,检索单元52可从相对低比特率表示检索数据。以此方式,客户端装置40可经由网络74流化多媒体数据同时还适应于网络74的改变的网络带宽可用性。
另外或替代地,检索单元52可经配置以根据例如eMBMS或IP多播的广播或多播网络协议接收数据。在此些实例中,检索单元52可提交请求以联结与特定媒体内容相关联的多播网络群组。在联结多播群组之后,检索单元52可接收多播群组的数据而无需将其它请求发布到服务器装置60或内容准备装置20。检索单元52可提交请求以在不再需要多播群组的数据时离开多播群组(例如)以停止播放或将频道改变到不同多播群组。
网络接口54可接收所选择表示的区段的数据并将所述数据提供到检索单元52,所述检索单元可继而将所述区段提供到解囊封单元50。解囊封单元50可将视频文件的要素解囊封成构成PES流,将PES流解包以检索经编码数据,并视经编码数据为音频流抑或视频流的部分(例如,如由流的PES包头所指示)将经编码数据发送到音频解码器46或视频解码器48。音频解码器46将经编码音频数据解码并将经解码音频数据发送到音频输出42,而视频解码器48将经编码视频数据解码并将经解码视频数据发送到视频输出44,所述经解码视频数据可包含流的多个视图。
根据本发明的技术,清单文件66可发信区段可符合的本文中还称作区段的类型的各种区段格式。清单文件66还可发信符合于每一格式的区段的位置(即,各种类型的区段中的每一者的位置)。举例来说,清单文件66可发信各种类型的区段中的每一者在表示68中的每一者中发生的频率。
使用清单文件66,客户端装置40可达成媒体数据的低等待时间播放。举例来说,表示68中的一者(例如,表示68A)可包含处于相对高频率的SAP,如由清单文件66所指示,而表示68中的另一者(例如,表示68N)可包含处于相对低频率的SAP。特定来说,SAP可形成符合于特定格式(例如,随机存取媒体区段格式及/或切换媒体区段格式)的区段的部分。此外,表示68可用于经由不同传输服务进行的检索。举例来说,表示68A可为经由单播可得的,而表示68N可为经由广播可得的。
根据本发明的技术的一些实例,客户端装置40可根据以上实例确定表示68A包含相对高频率的SAP(例如,高度频繁的随机存取媒体区段及/或高度频繁的切换媒体区段),如由清单文件66所指示。此外,客户端装置40可确定表示68N包含相对低频率的SAP,但还具有相对较高质量。因此,为了起始媒体数据检索,客户端装置40可通过从表示68A检索媒体区段开始,直到客户端装置40可切换到表示68N(例如,在68N的随机存取媒体区段或切换媒体区段处),如由清单文件66所指示。下文关于(例如)图7到14描述各种描述这些技术的实例的详细使用状况。
视频编码器28、视频解码器48、音频编码器26、音频解码器46、囊封单元30、检索单元52及解囊封单元50各自可实施为各种合适的处理电路中的任一者(如可适用),例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任一组合。视频编码器28及视频解码器48中的每一者可包含在一或多个编码器或解码器中,所述编码器及解码器中的任一者可整合为组合式视频编码器/解码器(CODEC)的部分。同样地,音频编码器26及音频解码器46中的每一者可包含在一或多个编码器或解码器中,音频编码器及音频解码器中的任一者可整合为组合式CODEC的部分。包含视频编码器28、视频解码器48、音频编码器26、音频解码器46、囊封单元30、检索单元52及/或解囊封单元50的设备可包括集成电路、微处理器,及/或例如蜂窝式电话的无线通信装置。
客户端装置40、服务器装置60及/或内容准备装置20可经配置以根据本发明的技术操作。出于实例的目的,本发明描述关于客户端装置40及服务器装置60的这些技术。然而,应理解,替代服务器装置60(或除服务器装置60外),内容准备装置20还可经配置以执行这些技术。
囊封单元30可形成NAL单元,所述NAL单元包括识别NAL单元属于的程序的标头以及有效负载(例如,音频数据、视频数据或描述NAL单元对应于的输送或程序流的数据)。举例来说,在H.264/AVC中,NAL单元包含1字节标头及具有变化大小的有效负载。在有效负载中包含视频数据的NAL单元可包括各种粒度等级的视频数据。举例来说,NAL单元可包括视频数据块、多个块、视频数据的图块,或视频数据整个图像。囊封单元30可接收来自视频编码器28的呈基础流的PES包形式的经编码视频数据。囊封单元30可使每一基础流与对应程序相关联。
囊封单元30还可组译来自多个NAL单元的存取单元。一般来说,存取单元可包括用于表示视频数据的帧以及对应于所述帧的音频数据(在此音频数据可用时)的一或多个NAL单元。存取单元通常包含一个输出时间实例的所有NAL单元,例如,一个时间实例的所有音频及视频数据。举例来说,如果每一视图具有20个帧/秒(fps)的帧速率,那么每一时间实例可对应于0.05秒的时间间隔。在此时间间隔期间,可同时再现相同存取单元(相同时间实例)的所有视图的特定帧。在一个实例中,存取单元可包括一个时间实例中的经译码图像,所述经译码图像可呈现为主要经编码图像。
因此,存取单元可包括共同时间实例的所有音频及视频帧,例如,对应于时间X的所有视图。本发明还将特定视图的经编码图像称作“视图分量”。即,视图分量可包括特定时间的特定视图的经编码图像(或帧)。因此,存取单元可定义为包括共同时间实例的所有视图分量。存取单元的解码次序未必需要与输出或显示次序相同。
媒体呈现可包含媒体呈现描述(MPD),所述媒体呈现描述可含有不同替代表示(例如,具有不同质量的视频服务)的描述,且描述可包含(例如)译码解码器信息、简档值及等级值。MPD为例如清单文件66的清单文件的一个实例。客户端装置40可检索媒体呈现的MPD以确定如何存取各种呈现的影片片段。影片片段可位于视频文件的影片片段方块(moof方块)中。
清单文件66(其可包括例如MPD)可通告表示68的区段的可用性。即,MPD可包含指示表示68中的一者的第一区段变得可用的挂钟时间的信息以及指示表示68内的区段的持续时间的信息。以此方式,客户端装置40的检索单元52可基于在特定区段之前的区段的开始时间以及持续时间而确定每一区段可用的时间。
在囊封单元30已基于所接收数据将NAL单元及/或存取单元组译到视频文件中的后,囊封单元30将视频文件传递到输出接口32以供输出。在一些实例中,囊封单元30可本地存储视频文件或经由输出接口32将视频文件发送到远程服务器,而非将视频文件直接发送到客户端装置40。输出接口32可包括(例如)传输器,收发器,用于将数据写入到(例如)光驱、磁性媒体碟机(例如,软盘驱动器)的计算机可读媒体的装置,通用串行总线(USB)端口,网络接口或其它输出接口。输出接口32将视频文件输出到计算机可读媒体,例如,传输信号、磁性媒体、光学媒体、存储器、快闪磁盘驱动器或其它计算机可读媒体。
网络接口54可经由网络74接收NAL单元或存取单元且经由检索单元52将NAL单元或存取单元提供到解囊封单元50。解囊封单元50可将视频文件的要素解囊封成构成PES流,将PES流解包以检索经编码数据,并视经编码数据为音频流抑或视频流的部分(例如,如由流的PES包头所指示)将经编码数据发送到音频解码器46或视频解码器48。音频解码器46将经编码音频数据解码并将经解码音频数据发送到音频输出42,而视频解码器48将经编码视频数据解码并将经解码视频数据发送到视频输出44,所述经解码视频数据可包含流的多个视图。
根据本发明的技术,内容准备装置20、服务器装置60及/或客户端装置40中的任一者或全部可经配置以执行用于根据新DASH简档(例如,高级直播简档)定义、发信及/或处理媒体数据的各种方法。同样地,这些装置中的任一者或全部可经配置以处理新类型的媒体区段,此情形可实现包含广播及多播中的减少的频道改变时间的等待时间视频流,同时实现高效率视频译码结构。通常,论述可单独地或以任一组合的方式执行的以下方面:
●定义不同媒体区段类型及其结构。
●审阅当前属性。
●解决方案考虑因素。
●MPD发信。
●在区段中发信类型。
●在MPD中发信类型。
●实现针对不同使用状况的自适应集合。
在一些实例中,内容准备装置20、服务器装置60及客户端装置40可经配置以利用符合于以下格式中的任一者的媒体区段:递送单元媒体区段格式、随机存取媒体区段格式、不重叠区段格式,及/或切换媒体区段格式。下文更详细地描述这些格式。
符合于递送单元媒体区段格式的媒体区段可定义如下:
●每一媒体区段应含有一或多个完整的独立影片片段。完整的独立影片片段为影片片段(“moof”)方块及含有不使用由影片片段方块中执行的轨迹参考的外部数据参考的所有媒体样本的媒体数据(“mdat”)方块。
●每一“moof”方块应含有至少一个轨迹片段。
●“moof”方块不应使用外部数据参考,应设置旗标“default-base-is-moof”,且应使用data-offset,即,不应使用“base-data-offset-present”。此设置组合可称作媒体数据的影片片段相关寻址。
●每一媒体区段可在区段类型方块(“styp”)中载运“dums”作为兼容标签。此标签的符合性要求可如本发明中所定义。
符合于随机存取媒体区段格式的媒体区段定义如下:
●媒体区段应符合于如上文所规定的递送单元媒体区段格式。
●随机存取媒体区段中的每一影片片段中的第一存取单元应对应于类型1、2,或3(例如,包含IDR、CRA,或BLA图像)的SAP的ISAU
●媒体区段应载运足够信息以存取流中的媒体,例如,与初始化区段(如果可用)组合的所有必要加密。
●每一“traf”方块(轨迹片段方块)应含有“tfdt”方块(轨迹片段解码时间方块)。
●每一媒体区段可在区段类型方块(“styp”)中载运“rams”作为兼容标签。此标签的符合性要求在此次子句中定义。
●每一媒体区段可含有一或多个“sidx”方块。若存在,则第一“sidx”方块应放置在任一“moof”方块之前且第一区段索引方块应对整个区段进行批注。
符合于不重叠区段格式的媒体区段可定义如下:
●媒体区段应符合于如上文所规定的递送单元媒体区段格式。
●在区段及其之前区段满足不重叠性质的意义上,区段应满足如ISO/IEC 23009-1的4.5.3中所定义的不重叠性质。
符合于切换媒体区段格式的媒体区段可定义如下:
●媒体区段应符合于如上文所规定的随机存取媒体区段格式。
●切换媒体区段中的第一影片片段中的第一样本应对应于类型1或2(例如,IDR图像)的SAP的ISAU
●每一媒体区段可在区段类型方块(“styp”)中载运“swms”作为兼容标签。此标签的符合性要求在此次子句中定义。
各种格式的区段可执行不同功能。举例来说,递送单元媒体区段通常执行递送媒体数据的功能。作为另一数据,随机存取媒体区段执行将随机存取点(包含初始化数据)提供到包含随机存取媒体区段的表示的功能。不重叠区段可执行指示表示之间的区段对准的功能,其可实现简单表示切换。切换媒体区段提供允许表示切换的功能,而无需包含针对随机存取媒体区段将需要的额外初始化数据。
此外,内容准备装置20、服务器装置60及客户端装置40可经配置以处理(例如)清单文件66(例如MPD)中的表示上文所论述的格式的数据及/或根据本发明的技术的其它数据。以下特征可在清单文件66中单独或以任一组合方式发信:
●表示中的每一媒体区段的类型,明确地发信或经由模式发信。
●在一个自适应集合中具有不同区段大小但仍具有对准的切换点(即,切换媒体区段同时开始)的能力。
●minBufferTime及带宽的计算的结果(应在随机存取点处开始)。
针对表示68中的每一者,且可能在预设自适应集层级处,可在清单文件66中发信以下各项:
●表示中的模式:
○每一区段具有类型递送单元媒体区段,每第N区段为随机存取媒体区段,每第M区段为切换区段,其中M>=N。某一缩写及默认值可为可行的。
■此可以新属性(rams频率及swms频率)来发信。
○允许表达模式而无需更新MPD的其它缩写模式。
●区段时刻表中的模式
○在每一要素的区段时刻表中添加可选类型字段。
■区段类型。
○类型字段还可将模式表达为上文的模式。
○使得能够通过区段时刻表中的S要素的更新来发信不规则性。
●明确
○在明确清单中添加允许发信区段模式的字段,可能与一些模式交替。
○此还可包含区段持续时间的发信。
状况可能为共同自适应集合中的表示具有不同区段持续时间。然而,切换的问题为跨越表示的切换点需要对准以变实现无缝切换。可如上文所论述发信切换点的位置。还可考虑以下发信:
●所有表示具有位于相同位置处的切换点且其经对准。此可以单个旗标发信。
●当在特定时间(在此状况下,MPD时间,其可为复杂的)发信切换点时,则此切换点与表示中的所有其它切换点对准。此还可以单个旗标发信,且如上文所论述可使用相同旗标。
●在一些实例中,甚至在不存在后续切换媒体区段的状况下,仍不存在重叠,使得客户端装置40可从不重叠点切换到切换媒体区段。
●另外可在清单文件66中发信切换点的其它更明确发信。
如上文所提到,在一些实例中,内容准备装置20、服务器装置60,及/或客户端装置40可经配置以利用DASH的高级直播简档。高级直播简档可包含上文所定义的所有特征及区段类型。高级直播简档可由统一资源名称(URN)识别:“urn:mpeg:dash:profile:advanced-live:2015”。
在一些实例中,如果高级直播简档用于自适应集合中,则:
●每一切换媒体区段应在区段类型方块(“styp”)中载运“swms”作为兼容标签。
●不载运“swms”的每一随机存取媒体区段应在区段类型方块(“styp”)中载运“rams”作为兼容标签。
本发明认识到MPD属性的习知发信的以下问题及限制:
1.区段可用性时间的发信:
●@duration或区段时刻表:
■提议为在新简档中简化且出于此目的仅使用区段时刻表,这是因为其为@duration的超集。
■然而,区段时刻表由于其准许例外状况而为更复杂的。
■还需要解释区段时刻表中的时间为确切区段持续时间(在内容创作中准许较少灵活性)抑或无漂移持续时间,且仅发信区段可用性时间。
■值得注意的是,通过@timescale的恰当应用,可解决此问题。
2.从性质(即,不重叠)切换的发信
●提供在自适应集合中将区段对准设置为真。
■问题为此情形意谓每一区段需要具有相同持续时间。
■不重叠需要按更精细粒度表达。
3.随机存取的发信
●SAP的开始经设置为1、2或3:
■问题为此并未予以极其明确陈述。
■还必须设置其它要求,参见随机存取区段的延伸定义。
4.切换点的发信。
●以SAP开始经设置为1或2:
■问题为此并未予以极其明确陈述。
○可应用其它类型的切换,但此将要求更多想法。应添加某灵活性。
5.区段URL的发信
●基于编号的模板
■问题为基本上存在每一区段在每一自适应集合中的每一表示中具有相同编号的假设。应注意,此并非要求,而是很可能在实施中予以假设。如果做出改变以在一个自适应集合中具有不同大小的区段,那么不再存在编号对应性。
■目前为简单起见,不使用编号。
●基于时间的模板
■问题为基本上存在每一区段在每一自适应集合中的每一表示中具有相同时间的假设。应注意,此并非要求,而是很可能在实施中予以假设。
■然而,还应注意,此可在共同时刻表上表达。且时刻表相较于编号更适于表达不同表示之间的关系。
●区段清单
■问题为此处列表位置对准区段且状况可为命名为任意的。客户端需要维持自适应集合中的每一表示的清单与次序的确切映射。
按需要用于指派不同片的本发明的技术。在一些实例中,服务器装置60及客户端装置40可根据以下方法来配置:
●将持续时间/区段时刻表指派到递送单元,这是因为其表达区段在服务器处可用的时间。
○时间依据媒体时间可能并不准确,但用于计算区段可用性开始时间。
○此计时针对一个自适应集合中的不同表示可不同。举例来说,可存在相较于其它表示通过更多递送单元可获得的表示。参见使用状况论述。
○需要关于如何基于以上信号计算区段可用性开始时间的清除指令。现有模型为有效的,但如果将根据本发明的技术使用用于区段可用性开始时间计算的现有模型,那么现有模型开业者(practitioner)应确保恰当地使用现有模型。
○此包含可针对某些表示或baseURL通过可用性时间偏移来调整区段可用性时间。
○需要阐明的另一重要问题为不规则区段持续时间如何影响可用性开始时间及发信。通常,区段应具有相同大小。
●随机存取可在不同表示中不同。
○需要阐明的是,随机存取是否仅在区段开始处为时间合理的或其是否还可位于区段的中间。
○根据4.2.2,所述随机存取当前位于区段的开始处,但如果随机存取点为不规则放置,那么上述情形可导致不规则区段大小。
○此情形再次影响等待时间,这是因为区段可用性较难预测。
○然而,作为工作假设,4.2.2模型应维持随机存取位于区段的开始处。
●随机存取可在两个域中(在时间中或在区段编号中)发信。
○为了达成共同工具,可使用基于时间的方法。
●在核心实验中论述至少两种切换方法:
○位流切换:
■DASH客户端并不知晓表示的内部结构。其仅知晓其可编接表示的位置且将此作为单个位流馈送到媒体解码器。编码器确保表示经编码使得在囊封及媒体流层级上满足此性质。
■此将基本上准许客户端产生如下序列/位流:
●自适应集合的初始化区段
●表示1的媒体区段1
●…
●表示1的媒体区段X
●表示2的媒体区段X+1
●…
○切换为由媒体中的特定性质实现。此为在DASH中所进行的操作。产生关于可如何在文件播出等级上进行切换的一些规则。基本规则为知晓区段对准是否经设置为真,SAP的开始为1或2,以下序列提供无缝切换:
■初始化区段表示1
■表示1的媒体区段1
■…
■表示1的媒体区段X
■初始化区段表示2
■表示2的媒体区段X+1
■…
○以开放GOP或需要对媒体处理的更详细理解的其它方面进行切换。
可基于上文论述将延伸及限制应用于清单文件66(例如,MPD),其中延伸及限制可适用于新工具。举例来说,可单独地或以任一组合方式应用以下延伸:
●在表示层级上添加以@timescale等级表达的新属性@randomAccessPeriod(或用以表达随机存取时段的任一其它手段)。$Time$下降到@timescale与@randomAccessPeriod的乘积的整数倍的任何区段是随机存取区段,即,其准许存取此表示的自适应集合。
○随机存取可进一步经限定,(例如)什么时段何种SAP类型(即,SAP类型1、2或3)可用。应注意,3将意谓所经历SAP类型也可为1或2。
●添加具有两个关于自适应集合层级的属性(可存在一或多个)的新要素切换媒体区段(或用以表达切换的任一其它手段):
○以@timescale等级表达的@period。$Time$下降到@timescale的乘积的整数倍且提供切换机会的任一时间位置,即,所述时间位置准许切换到此表示。
○启用表达切换类型的@类型。定义至少两种类型,即位流切换及媒体层级切换。可定义其它类型,例如开放GOP切换。
用以表达此切换的另一方式将为使用描述符类型,其中描述符表达切换的类型及切换频率的值。
●在区段时刻表及S要素中,提供额外属性@reset,其通过预设而设置为假。重设意谓此时重设随机存取时段及切换时段的周期性。此允许添加IDR且基本上以更任意时间重设区段时刻表。
以上情境未必支持区段模板提供上文所论述的区段可用性的使用状况。为了还解决此使用状况,可添加以下延伸:
●添加具有两个关于表示层级的属性(可存在一或多个)的新要素切换(或用以表达切换的任一其它手段或要素):
○以@timescale等级表达的@period。$Time$下降到@timescale的乘积的整数倍且提供切换到机会的任一时间位置,即,所述时间位置准许切换到此表示。
○启用表达切换类型的@类型。定义至少两种类型,即位流切换及媒体层级切换。可定义其它类型,例如开放GOP切换。
以下限制经提议以应用于高级直播简档以便实现更高级使用状况:
●将单个@timescale用于一个自适应集合中的所有表示。
●使用区段时刻表来发信区段持续时间(为简单起见)。
○仅使用$Time$来发信URL(现在为简单起见)。
○关于区段持续时间的计时为准确的(工作假设,需要理解结果)。
■区段持续时间的准确性可由使用中的@timescale(注释)控制,例如,如果时间标度仅为实际采样率的1/5,那么具有关于准确采样率的某一灵活性。
○区段时刻表是按表示以允许不同表示中的不同区段持续时间。然而,其可在自适应集合层级上默认。
○区段时刻表可使用开放式@r(-1)或封闭式@r(>=0)。
●区段对准及SAP的开始可用于回向兼容部署,但通常应不使用。发信必须始终由@randomAccessPeriod及切换要素提供。
●需要确保如果自适应集合含有一个以上表示,那么在自适应集合层级上为表示提供切换逻辑。
尽管主要关于DASH描述,但本发明的技术还可用于其它媒体格式,例如MPEG-2TS(输送流)或WebM。
以此方式,客户端装置40表示用于检索媒体数据的装置的实例,所述装置包括一或多个处理器,所述一或多个处理器经配置以检索符合于递送单元媒体区段格式、随机存取媒体区段格式、不重叠区段格式或切换媒体区段格式中的至少一者的媒体区段,且至少部分基于媒体区段符合于递送单元媒体区段格式、随机存取媒体区段格式、不重叠区段格式抑或切换媒体区段格式来处理媒体区段。
客户端装置40还表示用于检索媒体数据的装置的实例,所述装置包括一或多个处理器,所述处理器经配置以接收清单文件,所述清单文件包含指示表示中的各种类型的媒体区段的模式的数据;及至少部分地基于模式检索媒体区段中的一或多者。
此外,客户端装置40表示用于检索媒体数据的装置的实例,所述装置包含一或多个处理器,所述一或多个处理器经配置以从清单文件确定媒体内容的表示中所包含的多个区段类型、由所述区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述区段类型中的每一者的区段的位置,其中所述区段类型中的至少一者提供开始从所述表示检索数据的点;从所述清单文件确定所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的区段;及从所述表示检索所述所确定区段。
类似地,服务器装置60及内容准备装置20表示用于发送媒体数据的装置的实例,所述装置包括一或多个处理器,所述处理器经配置以形成符合于递送单元媒体区段格式、随机存取媒体区段格式、不重叠区段格式或切换媒体区段格式中的至少一者的媒体区段,并将媒体区段发送到客户端装置。
服务器装置60及内容准备装置20也表示用于发送媒体数据的装置的实例,所述装置包括一或多个处理器,所述处理器经配置以将包含指示表示中的各种类型的媒体区段的模式的数据的清单文件发送到客户端装置,及响应于一或多个请求至少部分地基于模式而将媒体区段中的一或多者发送到客户端装置。
服务器装置60及内容准备装置20还表示用于发信媒体信息的装置的实例,所述装置包含一或多个处理器,所述一或多个处理器经配置以建构指示以下各项的清单文件:媒体内容的表示中所包含的多个区段类型、由所述区段类型中的每一者所提供的一或多个功能、符合于所述表示中的所述区段类型中的每一者的区段的位置,其中所述区段类型中的至少一者提供开始从所述表示检索数据的点,及所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的区段;将所述清单文件发送到客户端装置;及响应于来从所述客户端装置的对符合于提供开始从所述表示检索数据的所述点的所述类型的区段的请求,将提供开始从所述表示检索数据的所述点的所述区段发送到所述客户端装置。
图5A为说明实例多媒体内容102的要素的概念图。多媒体内容102可对应于多媒体内容64(图4),或存储于存储媒体62中的另一多媒体内容。在图5A的实例中,多媒体内容102包含媒体呈现描述(MPD)104及多个表示110A到110N(表示110)。表示110A包含可选标头数据112及区段114A到114N(区段114),而表示110N包含可选标头数据122及区段124A到124N(区段124)。为方便起见,使用字母N来指定表示110中的每一者中的最后影片片段。在一些实例中,表示110之间可存在不同数目个影片片段。
MPD 104可包括与表示110分离的数据结构。MPD 104可对应于图4的清单文件66。同样地,表示110可对应于图4的表示68。一般来说,MPD 104可包含大体描述表示110的例如译码及再现特性的特性的数据、自适应集合、MPD 104对应的简档、文本类型信息、摄影机角度信息、评级信息、技巧模式(trick mode)信息(例如指示包含时间子序列的表示的信息),及/或针对检索远程时段的信息(例如,针对播放期间到媒体内容中的目标广告***的信息)。
标头数据112(当存在时)可描述区段114的特性,例如,随机存取点(RAP,也称作流接入点(SAP))的时间位置,区段114的随机存取点包含随机存取点、区段114内的到随机存取点的字节偏移、区段114的统一资源定位符(URL),或区段114的其它方面。标头数据122(当存在时)可描述区段124的类似特性。另外或替代地,此些特性可完全包含在MPD 104内。
区段114、124包含一或多个经译码视频样本,经译码视频样本中的每一者可包含视频数据的帧或图块。区段114的经译码码视频样本中的每一者可具有类似特性,例如,高度、宽度及带宽要求。此些特性可由MPD 104的数据描述,尽管图5A的实例中未说明此数据。MPD 104可通过添加本发明中所描述的发信信息中的任一者或全部而包含如由3GPP规范所描述的特性。
区段114、124中的每一者可与独特统一资源定位符(URL)相关联。因此,可使用例如DASH的流化网络协议来独立地检索区段114、124中的每一者。以此方式,例如客户端装置40的目的地装置可使用HTTP GET请求来检索区段114或124。在一些实例中,客户端装置40可使用HTTP部分GET请求来检索区段114或124的特定字节范围。
图5B为说明根据本发明的技术的媒体呈现描述(MPD)104的实例内容的概念图。一般来说,除MPD 104中所发信的其它数据外,在图5B的实例中,MPD 104包含时段信息130、自适应集合信息132及表示信息134A到134N(表示信息134)。尽管此实施例中仅展示单个集合的自适应集合信息132,但应理解,一般来说,可包含多个集合的自适应集合信息。同样地,尽管仅展示单个集合的时段信息130,但应理解,一般来说,可包含多个集合的时段信息。
根据本发明的技术,表示信息134A包含区段类型信息136A、区段功能信息138A及区段位置140A。同样地,表示信息134N包含区段类型信息136N、区段功能信息138N及区段位置140N。一般来说,区段类型信息136A、136N描述分别对应于表示信息134A、134N的表示中所包含的各种类型的区段。举例来说,区段类型136A、136N可包含递送单元媒体区段类型(或格式)、随机存取媒体区段类型(或格式)、不重叠区段类型(或格式)及切换媒体区段类型(或格式)中的任一者或全部。
区段功能信息138A、138N通常描述由各种区段类型执行的功能。举例来说,区段功能信息138A、138N可描述由以下各项中的任一者或全部执行的功能:递送单元媒体区段类型(或格式)、随机存取媒体区段类型(或格式)、不重叠区段类型(或格式)及切换媒体区段类型(或格式),假定此些类型/格式存在于对应区段类型信息136A、136N中。区段功能信息138A、138N可指示递送单元媒体区段类型通常用于载运媒体数据,随机存取媒体区段类型用于提供随机存取点(其包含初始化信息),不重叠区段类型指示此些区段不与同一表示或其它表示的其它区段重叠,且切换媒体区段类型允许自适应集合内的表示之间的切换。
区段位置信息140A、140N可通常发信对应表示内的各种类型的区段的位置(或定位)。举例来说,区段位置信息140A、140N可发信递送单元媒体区段类型、随机存取媒体区段类型、不重叠区段类型及/或切换媒体区段类型中的每一者的区段在对应表示内发生的频率。区段位置信息140A、140N可指示呈模式形式的此信息(例如,每第N区段为类型X区段)。另外或替代地,区段位置信息140A、140N可明确地列出个别区段的位置。
图6为说明可对应于表示的区段(例如图5A的区段114、124中的一者)的实例视频文件150的要素的框图。区段114、124中的每一者可包含大体上符合于图6的实例中所说明的数据的布置的数据。可认为视频文件150囊封区段。如上文所描述,根据ISO基本媒体文件格式及其延伸的视频文件将数据存储于一系列称作“方块”的对象中。在图6的实例中,视频文件150包含文件类型(FTYP)方块152、影片(MOOV)方块154、区段索引(sidx)方块162、影片片段(MOOF)方块164及影片片段随机存取(MFRA)方块166。尽管图6表示视频文件的实例,但应理解,根据ISO基本媒体文件格式及其延伸,其它媒体文件可包含类似于视频文件150的数据结构化的其它类型的媒体数据(例如,音频数据、定时文本数据或其类似者)。
文件类型(FTYP)方块152通常描述视频文件150的文件类型。文件类型方块152可包含识别描述视频文件150的最佳使用的规范的数据。文件类型方块152可替代地放置在MOOV方块154、影片片段方块164及/或MFRA方块166之前。
在一些实例中,例如视频文件150的区段可包含在FTYP方块152之前的MPD更新方块(未展示)。MPD更新方块可包含指示将更新对应于包含视频文件150的表示的MPD的信息,连同用于更新MPD的信息。举例来说,MPD更新方块可为待用于更新MPD的资源提供URI或URL。作为另一实例,MPD更新方块可包含用于更新MPD的数据。在一些实例中,MPD更新方块可紧在视频文件150的区段类型(STYP)方块(未展示)之后,其中STYP方块可定义视频文件150的区段类型。下文更详细论述的图7提供关于MPD更新方块的额外信息。
在图6的实例中,MOOV方块154包含影片标头(MVHD)方块156、轨迹(TRAK)方块158及一或多个影片延伸(MVEX)方块160。一般来说,MVHD方块156可描述视频文件150的一般特性。举例来说,MVHD方块156可包含描述起初产生视频文件150的时间、最后修改视频文件150的时间、视频文件150的时间标度、视频文件150的播放持续时间的数据,或大体描述视频文件150的其它数据。
TRAK方块158可包含关于视频文件150的轨迹的数据。TRAK方块158可包含描述对应于TRAK方块158的轨迹的特性的轨迹标头(TKHD)方块。在一些实例中,TRAK方块158可包含经译码视频图像,而在其它实例中,轨迹的经译码视频图像可包含在可由TRAK方块158及/或SIDX方块162的数据所参考的影片片段164中。
在一些实例中,视频文件150可包含一个以上轨迹。因此,MOOV方块154可包含等于视频文件150中的轨迹的数目的数目个TRAK方块。TRAK方块158可描述视频文件150的对应轨迹的特性。举例来说,TRAK方块158可描述对应轨迹的时间及/或空间信息。在囊封单元30(图4)在视频文件(例如视频文件150)中包含参数集轨迹时,类似于MOOV方块154的TRAK方块158的TRAK方块可描述参数集轨迹的特性。囊封单元30可在描述参数集轨迹的TRAK方块内发信序列层级SEI讯息于参数集轨迹中的存在。
除包含在MOOV方块154(如果存在)内的视频数据外,MVEX方块160可描述对应影片片段164的特性以(例如)发信视频文件150包含影片片段164。在流化视频数据的上下文中,经译码视频图像可包含在影片片段164中而非MOOV方块154中。因此,所有经译码视频样本可包含在影片片段164中而非在MOOV方块154中。
MOOV方块154可包含等于视频文件150中的影片片段164的数目的数目个MVEX方块160。MVEX方块160中的每一者可描述影片片段164的对应影片片段的特性。举例来说,每一MVEX方块可包含描述影片片段164中的对应影片片段的持续时间的影片延伸标头方块(MEHD)方块。
如上文所提及,囊封单元30可将序列数据集存储在不包含实际译码视频数据的视频样本中。视频样本可通常对应于存取单元,所述存取单元为特定时间实例处的经译码图像的表示。在AVC的上下文中,经译码图像包含含有用以建构存取单元的所有像素的信息的一或多个VCL NAL单元,及例如SEI讯息的其它相关联非VCL NAL单元。因此,囊封单元30可在影片片段164中的一者中包含序列数据集,所述序列数据集可包含序列层级SEI讯息。囊封单元30可进一步在对应于影片片段164中的一者的MVEX方块160中的一者内将序列数据集及/或序列层级SEI讯息的存在发信为存在于影片片段164中的一者中。
SIDX方块162为视频文件150的可选要素。即,符合于3GPP文件格式或其它此些文件格式的视频文件未必包含SIDX方块162。根据3GPP文件格式的实例,SIDX方块可用于识别区段(例如,视频文件150内所含的区段)的子区段。3GPP文件格式将子区段定义为“一或多个连续影片片段方块与对应(多个)媒体数据方块的独立集合且含有影片片段方块所参考的数据的媒体数据方块必须在所述影片片段方块之后且在含有关于相同轨迹的信息的下一影片片段方块之前”。3GPP文件格式还指示SIDX方块“含有对由所述方块文件加注的(子)区段的子区段的参考序列。所参考子区段在呈现时间上为连续的。类似地,由区段索引方块参考的字节在区段内始终为连续的。所参考大小给出所参考材料中的字节的数目的计数。”
SIDX方块162通常提供表示视频文件150中所包含的区段的一或多个子区段的信息。举例来说,此信息可包含子区段开始及/或结束的播放时间、子区段的字节偏移、子区段是否包含流接入点(SAP)(例如,以其开始)、SAP的类型(例如,SAP为瞬时解码器刷新(IDR)图像、清洁随机存取(CRA)图像、断链存取(BLA)图像抑或其类似者)、SAP(依据播放时间及/或字节偏移)在子区段中的位置,及其类似者。
影片片段164可包含一或多个经译码视频图像。在一些实例中,影片片段164可包含一或多个图像群组(GOP),所述图像群组中的每一者可包含多个经译码视频图像,例如帧或图像。另外,如上文所描述,影片片段164在一些实例中可包含序列数据集。影片片段164中的每一者可包含影片片段标头方块(MFHD,图6中未展示)。MFHD方块可描述对应影片片段的特性,例如影片片段的序号。影片片段164可以序号的次序包含在视频文件150中。
MFRA方块166可描述视频文件150的影片片段164内的随机存取点。此可辅助执行技巧模式,例如执行对由视频文件150囊封的区段内的特定时间位置(即,播放时间)的寻求。在一些实例中,MFRA方块166通常为任选的且不需要包含在视频文件中。同样地,例如客户端装置40的客户端装置未必需要参考MFRA方块166来正确地解码并显示视频文件150的视频数据。MFRA方块166可包含等于视频文件150的轨迹的数目或(在一些实例中)等于视频文件150的媒体轨迹(例如,非提示轨迹)的数目的数目个轨迹片段随机存取(TFRA)方块(未展示)。
在一些实例中,影片片段164可包含一或多个流接入点(SAP),例如IDR图像。同样地,MFRA方块166可提供SAP的视频文件150内的位置的指示。因此,视频文件150的时间子序列可由视频文件150的SAP形成。时间子序列也可包含其它图像,例如取决于SAP的P帧及/或B帧。时间子序列的帧及/或图块可布置在区段内,使得可恰当地解码取决于子序列的其它帧/图块的时间子序列的帧/图块。举例来说,在数据的阶层布置中,用于对其它数据的预测的数据也可包含在时间子序列中。
高级直播简档为侧重于直播服分布的预期新简档。未必认为所预期简档与延伸共同简档回向兼容。然而,认为内容提供商可在认为必要的情况下产生内容的回向兼容版本。下文所论述的图表示本发明的技术可应用于其的各种使用状况。
图7为说明针对根据本发明的技术的使用状况的实例区段供应的概念图。特定来说,图7说明自适应集合230,其包含表示232及表示234。表示232包含区段236A到236E,其包含IDR区段236A及IDR区段236E;而表示234包含区段238A到238A,其包含IDR区段238A及IDR区段238E。
此使用状况包含低等待时间视频流化服务及切换。假定区段为0.5秒持续时间(依据播放时间)且帧速率为50帧/秒(FPS)。在此实例中,且基于本发明的技术,建置及发信可如下:
●每第四区段为切换/IDR(瞬时解码器刷新)区段
●每一区段为递送单元
对于根据图7的自适应集合230,发信可如下:
●AdaptationSet
○@timescale=50
○SegmentTimeline.S:@t=0,@d=25,@r=-1
○@randomAccessPeriod=100
○切换:@period=100,@type=”media”
○SegmentTemplate@media=”http://example.com/$RepresentationID$”
/segment_$Time$.mp4
■表示:@id=232
■表示:@id=234
关于图1描述包含低等待时间视频流化服务及切换的根据本发明的技术的另一使用状况。图1说明在此使用状况的状况下供应的区段。假定短区段为0.5秒持续时间且帧速率为50FPS。基于上文所论述的技术,对于此使用状况的建置及发信可如下:
●每一区段为随机存取区段。
●广播表示中的区段为单播表示中的那些区段的大小的四倍。
●广播/单播重叠的位置处的区段为切换区段。
对于根据图7的自适应集合230,发信可如下:
●AdaptationSet
○@timescale=50
○切换:@period=100,@type=”media”
○SegmentTemplate@media=”http://example.com/$RepresentationID$”
/segment_$Time$.mp4
■表示:@id=1,@randomAccessPeriod=100
●SegmentTimeline.S:@t=0,@d=100,@r=-1
■表示:@id=2,@randomAccessPeriod=25
●SegmentTimeline.S:@t=0,@d=25,@r=-1
图8为说明根据本发明的技术的包含以可调式HEVC(SHVC)快速调谐的使用状况的概念图。图8的实例说明包含基本层(单播)表示242及增强层(广播)表示244的自适应集合240。基本层表示242包含区段246A到246E(区段246),而增强层表示244包含区段248A、248B(区段248)。假定短区段为0.5秒持续时间且帧速率为50FPS。基于上文所描述的技术,建置及发信可如下:
●区段246、248中的每一者为随机存取区段(尽管区段246A在图8中经展示为包含IDR,但随机存取点未必被认为是IDR,这是因为可存在其它功能入口点。开放GOP可为足够的。)
●增强层表示244(即,广播表示)中的区段248为基本层表示242(即,单播表示)中的区段246的时间持续时间的四倍。
对于根据图8的实例的自适应集合240,发信可如下:
●AdaptationSet
○@timescale=50
○切换:@period=100,@type=”media”
○SegmentTemplate@media=”http://example.com/$RepresentationID$”
/segment_$Time$.mp4
■表示:@id=242,@randomAccessPeriod=25
●SegmentTimeline.S:@t=0,@d=25,@r=-1
■表示:@id=244,@randomAccessPeriod=100,@dependencyID=242
●SegmentTimeline.S:@t=0,@d=100,@r=-1
图9为说明根据本发明的技术的包含以流接入点(SAP)类型3的快速调谐的实例使用状况的概念图。特定来说,在图9的实例中,自适应集合254包含表示250,所述表示包含区段252A到252E,所述区段中的每一者包含开放GOP。尽管图9中未展示,但自适应集合254还可包含除表示250外的表示。假定短区段为0.5秒持续时间且帧速率为50FPS。对于根据图9的实例的自适应集合254,发信可如下:
●AdaptationSet
○@timescale=50
○@randomAccessPeriod=25
○SegmentTimeline.S:@t=0,@d=25,@r=-1
○SegmentTemplate@media=”http://example.com/$RepresentationID$”/
segment_$Time$.mp4
■表示:@id=250
图10为说明包含快速调谐及混杂化的实例使用状况的概念图。特定来说,在此实例中,自适应集合260包含表示262及表示264。表示262包含区段266A到266F(区段266),而表示264包含区段268A到268F(区段268)。假定短区段为0.5秒持续时间且帧速率为50FPS。基于上文所论述的技术,建置及发信可如下:
●每一区段为随机存取区段。
●每第四区段为用于媒体切换的切换区段。
对于根据图10的自适应集合260,发信可如下:
●AdaptationSet
○@timescale=50
○SegmentTimeline.S:@t=0,@d=25,@r=-1
○@randomAccessPeriod=25
○切换:@period=100,@type=”media”
○SegmentTemplate@media=”http://example.com/$RepresentationID$”/
segment_$Time$.mp4
■表示:@id=262
■表示:@id=264
图11为说明包含快速调谐、混杂化及开放GOP的实例使用状况的概念图。图11中展示与图10中的区段供应相同的区段供应。另外,图11的实例说明区段遍历270,其表示由例如客户端装置40(图1)的客户端装置所检索的区段。即,客户端装置40可起初检索表示262的区段266A,接着切换到表示264(例如,由于可用网络带宽的改变)。为了进行切换,客户端装置40可检索区段268B。在此实例中,区段266A为IDR区段,而区段268B为开放GOP区段。根据本发明的技术,因为区段268B为开放GOP区段,所以客户端装置40可在268B处实现切换,而无需等待表示264的IDR区段(例如,区段268E)。客户端装置40还检索表示264的区段268C。随后,客户端装置40再次切换表示,此次切换到表示262,从而检索也是开放GOP区段的区段266D。在此实例中,客户端装置40根据区段遍历270从表示262检索区段266E及266F。
切换可在类型3的SAP处发生。假定短区段为0.5秒持续时间且帧速率为50FPS。基于上文所论述的技术,建置及发信可如下:
●每一区段为随机存取区段。
●每第四区段为用于媒体切换的切换区段。
●每个区段为用于开放GOP切换的切换区段。
对于根据图11的自适应集合260,发信可如下:
●AdaptationSet
○@timescale=50
○SegmentTimeline.S:@t=0,@d=25,@r=-1
○@randomAccessPeriod=25
○切换:@period=100,@type=”media”
○切换:@period=25,@type=”open GOP”
○SegmentTemplate@media=”http://example.com/$RepresentationID
$”/segment_$Time$.mp4
■表示:@id=262
■表示:@id=264
图12为说明包含快速调谐及混杂化以及开放GOP的另一实例使用状况的概念图。在此实例中,自适应集合280包含单播表示282及多播表示284。单播表示282包含区段286A到286F(区段286),而广播表示284包含区段288A、288B(区段288)。假定短区段为0.5秒持续时间且帧速率为50FPS。基于上文所论述的技术,建置及发信可如下:
●每一区段为随机存取区段。
●广播表示284中的区段288为单播表示282中的区段286的持续时间的4倍。
●广播/单播重叠的位置处的区段(例如,区段286A、286E、288A、288B)为切换区段。
对于根据图12的自适应集合280,发信可如下:
●AdaptationSet
○@timescale=50
○切换:@period=100,@type=”media”
○SegmentTemplate@media=”http://example.com/$RepresentationID
$”/segment_$Time$.mp4
■表示:@id=282,@randomAccessPeriod=100
●SegmentTimeline.S:@t=0,@d=100,@r=-1
■表示:@id=284,@randomAccessPeriod=25
●SegmentTimeline.S:@t=0,@d=25,@r=-1
图13为说明包含快速调谐及极其低等待时间的实例使用状况的概念图。在此实例中,自适应集合290包含单播表示292及广播表示294。单播表示292包含区段296A到296F(区段296),而广播表示294包含区段298A、298B(区段298)。假定短区段为0.5秒持续时间且帧速率为50FPS。基于上文所论述的技术,建置及发信可如下:
●每一区段为随机存取区段。
●广播表示294中的区段298为单播表示292中的区段296的持续时间的4倍。
●广播/单播重叠的位置处的区段(例如,区段296A、296E、298A、298B)为切换区段。
此外,并非表示292的所有区段296提供用于切换的信息。举例来说,区段296C允许从广播表示294切换到单播表示292(例如,在广播服务变得不可用的条件下)。然而,区段296B、296D及296F符合于递送单元媒体区段格式,且不包含切换点。此允许将区段296B、296D及296F的更多位分配到非帧内预测帧(例如,帧间预测帧),(例如)使得这些帧可以较高质量译码。
对于根据图13的自适应集合290,发信可如下:
●AdaptationSet
○@timescale=50
○切换:@period=100,@type=”media”
○SegmentTemplate@media=”http://example.com/$RepresentationID
$”/segment_$Time$.mp4
■表示:@id=292,@randomAccessPeriod=100
●SegmentTimeline.S:@t=0,@d=100,@r=-1
■表示:@id=294,@randomAccessPeriod=50
●SegmentTimeline.S:@t=0,@d=25,@r=-1
图14为说明包含快速调谐及极其低等待时间的另一实例使用状况的概念图。在此实例中,自适应集合300包含表示302及表示304。表示302包含区段306A到306F(区段306),而表示304包含区段308A到308F(区段308)。假定短区段为0.5秒持续时间且帧速率为50FPS。基于上文所论述的技术,建置及发信可如下:
●表示302中的区段306中的每一者为随机存取区段。
即,如图14中所展示,区段306中的每一者包含IDR图像。然而,表示304的区段308A及308E包含IDR图像,而区段308B、308C、308D及308F不包含IDR图像。此情形允许例如客户端装置40(图1)的客户端装置通过以下操作而迅速调谐到自适应集合300的媒体内容:检索区段306中的最近可用者,接着在包含IDR的区段308中的下一者可用时切换到表示304。
对于根据图14的自适应集合300,发信可如下:
●AdaptationSet
○@timescale=50
○切换:@period=100,@type=”media”
○SegmentTimeline.S:@t=0,@d=25,@r=-1
○SegmentTemplate@media=”http://example.com/$RepresentationID
$”/segment_$Time$.mp4
■表示:@id=302,@randomAccessPeriod=25
●切换:@period=25,@type=”media”
■表示:@id=304,@randomAccessPeriod=100
●切换:@period=100,@type=”media”
以此方式,本发明的技术包含
●额外新区段类型。
●针对切换及@randomAccessPeriod的额外MPD发信。
●对不同类型的切换的定义。
○媒体切换:区段对准及SAP类型1或2。
○位流切换:准许序连。
○开放GOP切换
●添加批注延伸及限制的简档。
●对关于回向兼容性的任何问题批注。
●提供更多详细实例。
仍存在开放式问题及替代方案。以下问题仍然保持为开放的:
●作为对本发明的技术的添加或替代方案的基于编号的发信是可能的,其可提供某些暗示及益处。
●作为对本发明的技术的添加或替代方案的不同类型的开放GOP切换也是可能的,其可并行重新取样或不重新取样。
●可关于上文所论述的那些媒体格式而使用额外或替代媒体格式。
●在一些实例中,除完整区段外或替代完整区段,还可使用子区段。例如上文图6中所展示的区段索引方块(SIDX)可发信子区段的位置,及/或可发信额外信息(例如,在文件元数据中及/或在清单文件中,例如在MPD中)。
图15为说明根据本发明的技术的用于检索媒体内容的表示的区段的实例方法的流程图。图15的方法经描述为由图4的服务器装置60及客户端装置40执行。然而,应理解,方法可由其它装置执行。举例来说,归因于服务器装置的方法的全部或部分可由图4的内容准备装置20执行(例如,除图4的服务器装置60外或替代所述服务器装置)。同样地,归因于客户端装置的方法的全部或部分可由客户端装置的中间软件单元执行,所述中间软件单元经配置以经由广播及/或单播传输接收媒体数据。
在此实例中,服务器装置60最初接收经译码媒体流(320)。在一些实例中,服务器装置60从内容准备装置20接收经译码媒体流,而在其它实例中,服务器装置60可包含一或多个编码器以编码原始媒体数据以形成经译码媒体流。
在此实例中,服务器装置60接着确定经译码媒体流内的区段的类型及位置(322)。在一些实例中,服务器装置60可形成区段(即,可独立检索的文件),而在其它实例中,服务器装置60可接收区段作为经译码媒体流的部分并进行分析,且基于所述区段的特性而确定其类型。上文论述各种类型的区段的特性,例如递送单元媒体区段、随机存取媒体区段、不重叠区段及切换媒体区段。因此,服务器装置60可分析每一区段以确定这些区段类型中的哪些区段类型匹配所分析的区段的特性。此外,服务器装置60可确定经译码媒体流内的每一类型的区段的位置。举例来说,服务器装置60可确定每一区段类型发生的频率。作为实例,关于图7,包含IDR的区段(即,随机存取媒体区段)在表示232、234中的每一者的每第四区段发生。
在此实例中,服务器装置60接着建构发信区段的类型及位置的清单文件(例如MPD)(324)。替代地,服务器装置60可从内容准备装置20接收根据本发明的技术部分或完整建构的清单文件。服务器装置60可建构清单文件以包含信息(即,“信号”),即由清单文件表示的每一自适应集合的每一对应表示内的区段的类型及位置。服务器装置60可建构清单文件以包含类似于上文关于图7到14的实例所论述的所述数据的数据。应理解,清单文件与表示及表示自身的媒体数据分离。举例来说,清单文件可用于与对由清单文件所描述的媒体数据(例如,区段或区段的部分)所做出的请求分离的请求。
服务器装置60可接着将清单文件输出(326)(例如)到客户端装置40。在一些实例中,客户端装置40可最初(例如)经由对清单文件的单播请求而请求清单文件。在其它实例中,客户端装置40可订用广播传输,且服务器装置60可经由广播周期性地输出清单文件。在任一状况下,客户端装置40可接收由服务器装置60输出的清单文件(328)。
客户端装置40可接着从清单文件而确定区段的类型及位置(330)。举例来说,客户端装置40可确定清单文件指示特定自适应集合包含表示,所述表示包含(例如)递送单元媒体区段、随机存取媒体区段、不重叠区段及切换媒体区段。客户端装置40还可确定这些类型的区段中的每一者的位置。举例来说,客户端装置40可从清单文件而确定这些类型的区段中的全部或部分发生的频率。
客户端装置40可确定表示中从其开始检索媒体数据的一者。客户端装置40可执行上文所论述的各种使用状况中的任一者。为了达成低等待时间播放,客户端装置40可确定表示中的哪一者(如果存在)具有包含流接入点(SAP)(例如,IDR帧)的最频繁区段。此表示可包含可用于经由单播进行检索的区段。客户端装置40可经配置以最初从单播表示检索此些区段,接着在广播表示的下一可用SAP处切换到广播表示(再次,如清单文件所指示)。
在任一状况下,客户端装置40可确定表示的提供开始点的区段(332)。如上文所论述,区段可包括随机存取媒体区段,即符合于随机存取媒体区段格式。同样地,客户端装置40可(例如)根据由清单文件规定的模板而确定用于所确定区段的统一资源定位符(URL)。客户端装置40可接着(例如)通过将对URL的HTTP Get或部分Get请求发出到服务器装置60而请求所确定区段(334)。
服务器装置60可接着接收请求(336)且接着响应于所述请求而将所请求区段发送到客户端装置40(338)。在接收到区段(340)之后,客户端装置40可最初缓冲所接收区段的数据,接着最终将所接收区段的数据解码并呈现(342)。
如上文所论述,在最初检索表示的所确定区段之后,客户端装置40可确定是否且何时切换到不同表示。举例来说,最初表示可包含极其频繁的SAP,且目标表示可包含相对不频繁SAP。客户端装置40可继续从初始表示请求区段直到到达包含目标表示的SAP(例如,随机存取媒体区段或切换媒体区段)的区段。接着,客户端装置40可开始从目标表示请求区段(在目标表示经由单播可获得的条件下)或订用正输送目标表示的媒体数据的广播服务(在目标表示经由广播可获得的条件下)。
以此方式,图15表示包含以下步骤的方法的实例:从清单文件确定媒体内容的表示中所包含的多个区段类型、由所述区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述区段类型中的每一者的区段的位置,其中所述区段类型中的至少一者提供开始从所述表示检索数据的点;从所述清单文件确定所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的区段;及从所述表示检索所述所确定区段。
图15还表示包含以下步骤的方法的实例:建构指示以下各项的清单文件:媒体内容的表示中所包含的多个区段类型、由所述区段类型中的每一者所提供的一或多个功能、符合于所述表示中的所述区段类型中的每一者的区段的位置,其中所述区段类型中的至少一者提供开始从所述表示检索数据的点,及所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的区段;将所述清单文件发送到客户端装置;及响应于来从所述客户端装置对符合于提供开始从所述表示检索数据的所述点的所述类型的区段的请求,将提供开始从所述表示检索数据的所述点的所述区段发送到所述客户端装置。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任一组合来实施。如果以软件实施,那么功能可作为一或多个指令或程序代码存储在计算机可读媒体上或经由其传输且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体,或包含促进(例如)根据通信协议将计算机程序从一个位置传送到另一位置的任一媒体的通信媒体。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、程序代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
通过实例的方式且非限制地,此些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储装置、闪存或可用于以存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。此外,任一连接恰当地称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输指令,那么所述同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术皆包含于媒体的定义中。然而,应理解计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,但替代地为针对非暂时性有形存储媒体。如本文中所使用,磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘通过激光以光学方式再生数据。上述各项的组合还应包含在计算机可读媒体的范围内。
指令可由例如以下各者的一或多个处理器执行:一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、场可编程逻辑阵列(FPGA)或其它等效积体或离散逻辑电路。因此,如本文中所使用的术语“处理器”可为指前述结构或适于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可提供在经配置以用于编码及解码或并入于组合式译码解码器中的专用硬件及/或软件模块内。此外,技术可以一或多个电路或逻辑组件来完全实施。
本发明的技术可以广泛的各种装置或设备(包含无线手机、集成电路(IC)或IC组(例如,芯片组))实施。各种组件、模块或单元在本发明中经描述以强调经配置以执行所揭示技术的装置的功能方面,而未必需要由不同硬件单元实现。确切来说,如上文所描述,各种单元可以译码解码硬件单元组合或通过互操作硬件单元的集合(包含如上文所描述的一或多个处理器)结合适合软件及/或固件而提供。
已描述了各种实例。这些及其它实例是在以下权利要求书的范围内。

Claims (36)

1.一种检索媒体数据的方法,所述方法包括:
从清单文件确定媒体内容的表示中所包含的多个媒体区段类型、由所述媒体区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述媒体区段类型中的每一者的媒体区段的位置,其中所述媒体区段类型中的至少一者提供开始从所述表示检索数据的点,并且其中所述多个媒体区段类型包含:
递送单元媒体区段格式,其指示对应媒体区段包含媒体数据;
随机存取媒体区段格式,其指示对应媒体区段提供可开始从所述表示检索数据的点;
不重叠媒体区段格式,其指示对应媒体区段不与所述表示中的其它媒体区段及包含所述表示的自适应集合中的其它表示中的其它媒体区段的开始时间及结束时间重叠;及
切换媒体区段格式,其指示对应媒体区段提供检索可从所述自适应集合中的所述其它表示切换到所述表示而不需要重新初始化的点;
从所述清单文件确定所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的媒体区段;以及
从所述表示检索所确定的媒体区段。
2.根据权利要求1所述的方法,其中所述递送单元媒体区段格式指示对应媒体区段:
在所述媒体区段的媒体区段类型方块中含有“dums”值;
包含一或多个独立影片片段,其中每一独立影片片段包括影片片段(“moof”)方块及媒体数据(“mdat”)方块,所述媒体数据(“mdat”)方块含有不使用由所述影片片段方块中的轨迹参考的外部数据参考的媒体样本;
所述moof方块中的每一者含有至少一个轨迹片段;
所述moof方块中的每一者不使用外部参考;
所述媒体区段的“default-base-is-moof”旗标经设置为真;且
所述媒体区段的“base-data-offset-present”旗标经设置为假。
3.根据权利要求1所述的方法,其中所述随机存取媒体区段格式指示对应媒体区段:
包括随机存取媒体区段,所述媒体区段的每一影片片段中的序数第一存取单元对应于类型1、2或3的流接入点SAP的ISAU;且
包含用以在所述媒体区段之后的位流中存取媒体数据的所有必要信息。
4.根据权利要求3所述的方法,其中所述随机存取媒体区段格式指示对应媒体区段包括瞬时解码器刷新IDR图像、断链存取BLA图像或清洁随机存取CRA图像中的至少一者。
5.根据权利要求1所述的方法,其中所述随机存取媒体区段格式指示对应媒体区段包含一或多个媒体区段索引(“sidx”)方块,且其中序数第一sidx方块在所述媒体区段的所有moof方块之前且描述由所述随机存取媒体区段格式指示的整个的对应媒体区段。
6.根据权利要求1所述的方法,其中所述切换媒体区段格式指示所述对应媒体区段的序数第一影片片段中的序数第一样本对应于类型1或2的流接入点SAP的ISAU
7.一种用于检索媒体数据的客户端装置,所述客户端装置包括一或多个处理器,所述一或多个处理器经配置以:
从清单文件确定媒体内容的表示中所包含的多个媒体区段类型、由所述媒体区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述媒体区段类型中的每一者的媒体区段的位置,其中所述媒体区段类型中的至少一者提供开始从所述表示检索数据的点,并且其中所述多个媒体区段类型包含:
递送单元媒体区段格式,其指示对应媒体区段包含媒体数据;
随机存取媒体区段格式,其指示对应媒体区段提供可开始从所述表示检索数据的点;
不重叠媒体区段格式,其指示对应媒体区段不与所述表示中的其它媒体区段及包含所述表示的自适应集合中的其它表示中的其它媒体区段的开始时间及结束时间重叠;及
切换媒体区段格式,其指示对应媒体区段提供检索可从所述自适应集合中的所述其它表示切换到所述表示而不需要重新初始化的点;
从所述清单文件确定所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的媒体区段;及
从所述表示检索所确定的媒体区段。
8.根据权利要求7所述的客户端装置,其中所述递送单元媒体区段格式指示对应媒体区段:
在所述媒体区段的媒体区段类型方块中含有“dums”值;
包含一或多个独立影片片段,其中每一独立影片片段包括影片片段(“moof”)方块及媒体数据(“mdat”)方块,所述媒体数据(“mdat”)方块含有不使用由所述影片片段方块中的轨迹参考的外部数据参考的媒体样本;
所述moof方块中的每一者含有至少一个轨迹片段;
所述moof方块中的每一者不使用外部参考;
所述媒体区段的“default-base-is-moof”旗标经设置为真;且
所述媒体区段的“base-data-offset-present”旗标经设置为假。
9.根据权利要求7所述的客户端装置,其中所述随机存取媒体区段格式指示对应媒体区段:
包括随机存取媒体区段,所述媒体区段的每一影片片段中的序数第一存取单元对应于类型1、2或3的流接入点SAP的ISAU;且
包含用以在所述媒体区段之后的位流中存取媒体数据的所有必要信息。
10.根据权利要求9所述的客户端装置,其中所述随机存取媒体区段格式指示对应媒体区段包括瞬时解码器刷新IDR图像、断链存取BLA图像或清洁随机存取CRA图像中的至少一者。
11.根据权利要求7所述的客户端装置,其中所述随机存取媒体区段格式指示对应媒体区段包含一或多个媒体区段索引(“sidx”)方块,且其中序数第一sidx方块在所述媒体区段的所有moof方块之前且描述由所述随机存取媒体区段格式指示的整个的对应媒体区段。
12.根据权利要求7所述的客户端装置,其中所述切换媒体区段格式指示所述对应媒体区段的序数第一影片片段中的序数第一样本对应于类型1或2的流接入点SAP的ISAU
13.一种用于检索媒体数据的客户端装置,所述客户端装置包括:
用于从清单文件确定媒体内容的表示中所包含的多个媒体区段类型、由所述媒体区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述媒体区段类型中的每一者的媒体区段的位置的装置,其中所述媒体区段类型中的至少一者提供开始从所述表示检索数据的点,并且其中所述多个媒体区段类型包含:
递送单元媒体区段格式,其指示对应媒体区段包含媒体数据;
随机存取媒体区段格式,其指示对应媒体区段提供可开始从所述表示检索数据的点;
不重叠媒体区段格式,其指示对应媒体区段不与所述表示中的其它媒体区段及包含所述表示的自适应集合中的其它表示中的其它媒体区段的开始时间及结束时间重叠;及
切换媒体区段格式,其指示对应媒体区段提供检索可从所述自适应集合中的所述其它表示切换到所述表示而不需要重新初始化的点;
用于从所述清单文件确定所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的媒体区段的装置;及
用于从所述表示检索所确定的媒体区段的装置。
14.根据权利要求13所述的客户端装置,其中所述递送单元媒体区段格式指示对应媒体区段:
在所述媒体区段的媒体区段类型方块中含有“dums”值;
包含一或多个独立影片片段,其中每一独立影片片段包括影片片段(“moof”)方块及媒体数据(“mdat”)方块,所述媒体数据(“mdat”)方块含有不使用由所述影片片段方块中的轨迹参考的外部数据参考的媒体样本;
所述moof方块中的每一者含有至少一个轨迹片段;
所述moof方块中的每一者不使用外部参考;
所述媒体区段的“default-base-is-moof”旗标经设置为真;且
所述媒体区段的“base-data-offset-present”旗标经设置为假。
15.根据权利要求13所述的客户端装置,其中所述随机存取媒体区段格式指示对应媒体区段:
包括随机存取媒体区段,所述媒体区段的每一影片片段中的序数第一存取单元对应于类型1、2或3的流接入点SAP的ISAU;且
包含用以在所述媒体区段之后的位流中存取媒体数据的所有必要信息。
16.根据权利要求15所述的客户端装置,其中所述随机存取媒体区段格式指示对应媒体区段包括瞬时解码器刷新IDR图像、断链存取BLA图像或清洁随机存取CRA图像中的至少一者。
17.根据权利要求13所述的客户端装置,其中所述随机存取媒体区段格式指示对应媒体区段包含一或多个媒体区段索引(“sidx”)方块,且其中序数第一sidx方块在所述媒体区段的所有moof方块之前且描述由所述随机存取媒体区段格式指示的整个的对应媒体区段。
18.根据权利要求13所述的客户端装置,其中所述切换媒体区段格式指示所述对应媒体区段的序数第一影片片段中的序数第一样本对应于类型1或2的流接入点SAP的ISAU
19.一种在上面存储有指令的计算机可读存储媒体,所述指令在执行时致使处理器:
从清单文件确定媒体内容的表示中所包含的多个媒体区段类型、由所述媒体区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述媒体区段类型中的每一者的媒体区段的位置,其中所述媒体区段类型中的至少一者提供开始从所述表示检索数据的点,并且其中所述多个媒体区段类型包含:
递送单元媒体区段格式,其指示对应媒体区段包含媒体数据;
随机存取媒体区段格式,其指示对应媒体区段提供可开始从所述表示检索数据的点;
不重叠媒体区段格式,其指示对应媒体区段不与所述表示中的其它媒体区段及包含所述表示的自适应集合中的其它表示中的其它媒体区段的开始时间及结束时间重叠;及
切换媒体区段格式,其指示对应媒体区段提供检索可从所述自适应集合中的所述其它表示切换到所述表示而不需要重新初始化的点;
从所述清单文件确定所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的媒体区段;及
从所述表示检索所确定的媒体区段。
20.根据权利要求19所述的计算机可读存储媒体,其中所述递送单元媒体区段格式指示对应媒体区段:
在所述媒体区段的媒体区段类型方块中含有“dums”值;
包含一或多个独立影片片段,其中每一独立影片片段包括影片片段(“moof”)方块及媒体数据(“mdat”)方块,所述媒体数据(“mdat”)方块含有不使用由所述影片片段方块中的轨迹参考的外部数据参考的媒体样本;
所述moof方块中的每一者含有至少一个轨迹片段;
所述moof方块中的每一者不使用外部参考;
所述媒体区段的“default-base-is-moof”旗标经设置为真;且
所述媒体区段的“base-data-offset-present”旗标经设置为假。
21.根据权利要求19所述的计算机可读存储媒体,其中所述随机存取媒体区段格式指示对应媒体区段:
包括随机存取媒体区段,所述媒体区段的每一影片片段中的序数第一存取单元对应于类型1、2或3的流接入点SAP的ISAU;且
包含用以在所述媒体区段之后的位流中存取媒体数据的所有必要信息。
22.根据权利要求21所述的计算机可读存储媒体,其中所述随机存取媒体区段格式指示对应媒体区段包括瞬时解码器刷新IDR图像、断链存取BLA图像或清洁随机存取CRA图像中的至少一者。
23.根据权利要求19所述的计算机可读存储媒体,其中所述随机存取媒体区段格式指示对应媒体区段包含一或多个媒体区段索引(“sidx”)方块,且其中序数第一sidx方块在所述媒体区段的所有moof方块之前且描述由所述随机存取媒体区段格式指示的整个的对应媒体区段段。
24.根据权利要求19所述的计算机可读存储媒体,其中所述切换媒体区段格式指示所述对应媒体区段的序数第一影片片段中的序数第一样本对应于类型1或2的流接入点SAP的ISAU
25.一种发信媒体信息的方法,所述方法包括:
建构指示以下各项的清单文件:媒体内容的表示中所包含的多个媒体区段类型、由所述媒体区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述媒体区段类型中的每一者的媒体区段的位置,其中所述媒体区段类型中的至少一者提供开始从所述表示检索数据的点;及所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的媒体区段,并且其中所述多个媒体区段类型包含:
递送单元媒体区段格式,其指示对应媒体区段包含媒体数据;
随机存取媒体区段格式,其指示对应媒体区段提供可开始从所述表示检索数据的点;
不重叠媒体区段格式,其指示对应媒体区段不与所述表示中的其它媒体区段及包含所述表示的自适应集合中的其它表示中的其它媒体区段的开始时间及结束时间重叠;及
切换媒体区段格式,其指示对应媒体区段提供检索可从所述自适应集合中的所述其它表示切换到所述表示而不需要重新初始化的点;
将所述清单文件发送到客户端装置;及
响应于来自所述客户端装置的对符合于提供开始从所述表示检索数据的所述点的所述类型的所述媒体区段的请求,将提供开始从所述表示检索数据的所述点的所述媒体区段发送到所述客户端装置。
26.根据权利要求25所述的方法,其中所述递送单元媒体区段格式指示对应媒体区段:
在所述媒体区段的媒体区段类型方块中含有“dums”值;
包含一或多个独立影片片段,其中每一独立影片片段包括影片片段(“moof”)方块及媒体数据(“mdat”)方块,所述媒体数据(“mdat”)方块含有不使用由所述影片片段方块中的轨迹参考的外部数据参考的媒体样本;
所述moof方块中的每一者含有至少一个轨迹片段;
所述moof方块中的每一者不使用外部参考;
所述媒体区段的“default-base-is-moof”旗标经设置为真;且
所述媒体区段的“base-data-offset-present”旗标经设置为假。
27.根据权利要求25所述的方法,其中所述随机存取媒体区段格式指示对应媒体区段:
包括随机存取媒体区段,所述媒体区段的每一影片片段中的序数第一存取单元对应于类型1、2或3的流接入点SAP的ISAU;且
包含用以在所述媒体区段之后的位流中存取媒体数据的所有必要信息。
28.根据权利要求25所述的方法,其中所述随机存取媒体区段格式指示对应媒体区段包含一或多个媒体区段索引(“sidx”)方块,且其中序数第一sidx方块在所述媒体区段的所有moof方块之前且描述由所述随机存取媒体区段格式指示的整个的对应媒体区段。
29.根据权利要求25所述的方法,其中所述切换媒体区段格式指示所述对应媒体区段的序数第一影片片段中的序数第一样本对应于类型1或2的流接入点SAP的ISAU
30.一种用于发信媒体信息的服务器装置,所述服务器装置包括一或多个处理器,所述处理器经配置以:
建构指示以下各项的清单文件:媒体内容的表示中所包含的多个媒体区段类型、由所述媒体区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述媒体区段类型中的每一者的媒体区段的位置,其中所述媒体区段类型中的至少一者提供开始从所述表示检索数据的点;及所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的媒体区段,并且其中所述多个媒体区段类型包含:
递送单元媒体区段格式,其指示对应媒体区段包含媒体数据;
随机存取媒体区段格式,其指示对应媒体区段提供可开始从所述表示检索数据的点;
不重叠媒体区段格式,其指示对应媒体区段不与所述表示中的其它媒体区段及包含所述表示的自适应集合中的其它表示中的其它媒体区段的开始时间及结束时间重叠;及
切换媒体区段格式,其指示对应媒体区段提供检索可从所述自适应集合中的所述其它表示切换到所述表示而不需要重新初始化的点;
将所述清单文件发送到客户端装置;及
响应于来自所述客户端装置的对符合于提供开始从所述表示检索数据的所述点的所述类型的所述媒体区段的请求,将提供开始从所述表示检索数据的所述点的所述媒体区段发送到所述客户端装置。
31.根据权利要求30所述的服务器装置,其中所述递送单元媒体区段格式指示对应媒体区段:
在所述媒体区段的媒体区段类型方块中含有“dums”值;
包含一或多个独立影片片段,其中每一独立影片片段包括影片片段(“moof”)方块及媒体数据(“mdat”)方块,所述媒体数据(“mdat”)方块含有不使用由所述影片片段方块中的轨迹参考的外部数据参考的媒体样本;
所述moof方块中的每一者含有至少一个轨迹片段;
所述moof方块中的每一者不使用外部参考;
所述媒体区段的“default-base-is-moof”旗标经设置为真;且
所述媒体区段的“base-data-offset-present”旗标经设置为假。
32.根据权利要求30所述的服务器装置,其中所述随机存取媒体区段格式指示对应媒体区段:
包括随机存取媒体区段,所述媒体区段的每一影片片段中的序数第一存取单元对应于类型1、2或3的流接入点SAP的ISAU;且
包含用以在所述媒体区段之后的位流中存取媒体数据的所有必要信息。
33.根据权利要求30所述的服务器装置,其中所述随机存取媒体区段格式指示对应媒体区段包含一或多个媒体区段索引(“sidx”)方块,且其中序数第一sidx方块在所述媒体区段的所有moof方块之前且描述所述随机存取媒体区段格式指示的整个的对应媒体区段。
34.根据权利要求30所述的服务器装置,其中所述切换媒体区段格式指示所述对应媒体区段的序数第一影片片段中的序数第一样本对应于类型1或2的流接入点SAP的ISAU
35.一种用于发信媒体信息的服务器装置,所述服务器装置包括:
用于建构指示以下各项的清单文件的装置:媒体内容的表示中所包含的多个媒体区段类型、由所述媒体区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述媒体区段类型中的每一者的媒体区段的位置,其中所述媒体区段类型中的至少一者提供开始从所述表示检索数据的点;及所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的媒体区段,并且其中所述多个媒体区段类型包含:
递送单元媒体区段格式,其指示对应媒体区段包含媒体数据;
随机存取媒体区段格式,其指示对应媒体区段提供可开始从所述表示检索数据的点;
不重叠媒体区段格式,其指示对应媒体区段不与所述表示中的其它媒体区段及包含所述表示的自适应集合中的其它表示中的其它媒体区段的开始时间及结束时间重叠;及
切换媒体区段格式,其指示对应媒体区段提供检索可从所述自适应集合中的所述其它表示切换到所述表示而不需要重新初始化的点;
用于将所述清单文件发送到客户端装置的装置;及
用于响应于来自所述客户端装置的对符合于提供开始从所述表示检索数据的所述点的所述类型的所述媒体区段的请求而将提供开始从所述表示检索数据的所述点的所述媒体区段发送到所述客户端装置的装置。
36.一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使服务器装置的处理器:
建构指示以下各项的清单文件:媒体内容的表示中所包含的多个媒体区段类型、由所述媒体区段类型中的每一者所提供的一或多个功能及符合于所述表示中的所述媒体区段类型中的每一者的媒体区段的位置,其中所述媒体区段类型中的至少一者提供开始从所述表示检索数据的点;及所述表示的符合于提供开始从所述表示检索数据的所述点的所述类型的媒体区段,并且其中所述多个媒体区段类型包含:
递送单元媒体区段格式,其指示对应媒体区段包含媒体数据;
随机存取媒体区段格式,其指示对应媒体区段提供可开始从所述表示检索数据的点;
不重叠媒体区段格式,其指示对应媒体区段不与所述表示中的其它媒体区段及包含所述表示的自适应集合中的其它表示中的其它媒体区段的开始时间及结束时间重叠;及
切换媒体区段格式,其指示对应媒体区段提供检索可从所述自适应集合中的所述其它表示切换到所述表示而不需要重新初始化的点;
将所述清单文件发送到客户端装置;及
响应于来自所述客户端装置的对符合于提供开始从所述表示检索数据的所述点的所述类型的所述媒体区段的请求而将提供开始从所述表示检索数据的所述点的所述媒体区段发送到所述客户端装置。
CN201680008760.4A 2015-02-10 2016-02-10 检索媒体数据的方法及装置、发信媒体信息的方法及装置 Active CN107251562B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201562114423P 2015-02-10 2015-02-10
US62/114,423 2015-02-10
US201562183054P 2015-06-22 2015-06-22
US62/183,054 2015-06-22
US15/019,804 US10270823B2 (en) 2015-02-10 2016-02-09 Low latency video streaming
US15/019,804 2016-02-09
PCT/US2016/017325 WO2016130657A1 (en) 2015-02-10 2016-02-10 Low latency video streaming

Publications (2)

Publication Number Publication Date
CN107251562A CN107251562A (zh) 2017-10-13
CN107251562B true CN107251562B (zh) 2020-03-20

Family

ID=56567242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680008760.4A Active CN107251562B (zh) 2015-02-10 2016-02-10 检索媒体数据的方法及装置、发信媒体信息的方法及装置

Country Status (13)

Country Link
US (1) US10270823B2 (zh)
EP (1) EP3257255B1 (zh)
JP (1) JP6655091B2 (zh)
KR (1) KR102168596B1 (zh)
CN (1) CN107251562B (zh)
AU (1) AU2016219369B2 (zh)
BR (1) BR112017017152A2 (zh)
EA (1) EA201791558A1 (zh)
ES (1) ES2767288T3 (zh)
HU (1) HUE047298T2 (zh)
TN (1) TN2017000306A1 (zh)
TW (1) TWI686077B (zh)
WO (1) WO2016130657A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10454985B2 (en) 2015-03-04 2019-10-22 Qualcomm Incorporated File format based streaming with dash formats based on LCT
WO2016204712A1 (en) * 2015-06-16 2016-12-22 Intel IP Corporation Adaptive video content for cellular communication
US10554713B2 (en) * 2015-06-19 2020-02-04 Microsoft Technology Licensing, Llc Low latency application streaming using temporal frame transformation
TWI599218B (zh) * 2016-07-29 2017-09-11 元智大學 即時影音傳輸系統
US10484701B1 (en) * 2016-11-08 2019-11-19 Amazon Technologies, Inc. Rendition switch indicator
EP3560206A1 (en) * 2016-12-22 2019-10-30 Fraunhofer Gesellschaft zur Förderung der Angewand Media streaming with fast tuning and fast channel switching
CN106658042B (zh) * 2016-12-28 2019-07-02 广州华多网络科技有限公司 一种数据推送方法及相关客户端、服务器
US10440085B2 (en) * 2016-12-30 2019-10-08 Facebook, Inc. Effectively fetch media content for enhancing media streaming
US10476943B2 (en) 2016-12-30 2019-11-12 Facebook, Inc. Customizing manifest file for enhancing media streaming
US9872062B1 (en) * 2017-02-22 2018-01-16 Wyse Technology L.L.C. Enforcing synchronization by embedding audio within video frame data
GB2560953A (en) * 2017-03-30 2018-10-03 Nokia Technologies Oy Video Streaming
US10924822B2 (en) 2017-04-04 2021-02-16 Qualcomm Incorporated Segment types as delimiters and addressable resource identifiers
US11665219B2 (en) 2017-07-10 2023-05-30 Qualcomm Incorporated Processing media data using a generic descriptor for file format boxes
JP6271072B1 (ja) * 2017-10-10 2018-01-31 パナソニック株式会社 端末装置、映像配信システムおよび映像配信方法
US10432970B1 (en) * 2018-06-14 2019-10-01 Telefonaktiebolaget Lm Ericsson (Publ) System and method for encoding 360° immersive video
US10862940B1 (en) * 2018-07-31 2020-12-08 Glance Networks, Inc. Low latency live video on a communication session
US11284134B2 (en) * 2018-08-08 2022-03-22 Comcast Cable Communications, Llc Media content enhancement based on content importance
US10779017B2 (en) * 2018-12-10 2020-09-15 Warner Bros. Entertainment Inc. Method and system for reducing drop-outs during video stream playback
JP7238155B2 (ja) 2019-03-14 2023-03-13 ノキア テクノロジーズ オサケユイチア ビデオコーディングおよびデコーディングのための装置、方法、およびコンピュータプログラム
US11831879B2 (en) * 2019-09-20 2023-11-28 Comcast Cable Communications, Llc Methods, systems, and apparatuses for enhanced adaptive bitrate segmentation
US11765444B2 (en) 2020-07-01 2023-09-19 Qualcomm Incorporated Streaming media data including an addressable resource index track
CN113691886B (zh) * 2021-08-25 2024-05-07 三星电子(中国)研发中心 流媒体文件的下载方法和装置
WO2023028332A1 (en) * 2021-08-27 2023-03-02 AirMettle, Inc. Partitioning, processing, and protecting media data
CN118044207A (zh) * 2021-09-30 2024-05-14 抖音视界有限公司 用于视频流式传输的方法、装置和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013021098A1 (en) * 2011-08-09 2013-02-14 Nokia Corporation Method and apparatus for forced playback in http streaming
WO2013166411A1 (en) * 2012-05-03 2013-11-07 United Video Properties, Inc. Systems and methods for preventing access to a media asset segment during a fast-access playback operation
CN103782601A (zh) * 2011-07-05 2014-05-07 诺基亚公司 用于视频编码和解码的方法和设备
CN104333746A (zh) * 2009-02-12 2015-02-04 Lg电子株式会社 广播接收机及其3d字幕数据处理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9049497B2 (en) * 2010-06-29 2015-06-02 Qualcomm Incorporated Signaling random access points for streaming video data
US8918533B2 (en) 2010-07-13 2014-12-23 Qualcomm Incorporated Video switching for streaming video data
US8806050B2 (en) * 2010-08-10 2014-08-12 Qualcomm Incorporated Manifest file updates for network streaming of coded multimedia data
US9253233B2 (en) * 2011-08-31 2016-02-02 Qualcomm Incorporated Switch signaling methods providing improved switching between representations for adaptive HTTP streaming
US8935425B2 (en) * 2011-10-05 2015-01-13 Qualcomm Incorporated Switching between representations during network streaming of coded multimedia data
US9843844B2 (en) * 2011-10-05 2017-12-12 Qualcomm Incorporated Network streaming of media data
JP2014239291A (ja) * 2013-06-06 2014-12-18 ソニー株式会社 コンテンツ供給装置、コンテンツ供給方法、プログラム、端末装置、およびコンテンツ供給システム
US20150026358A1 (en) * 2013-07-19 2015-01-22 Futurewei Technologies, Inc. Metadata Information Signaling And Carriage In Dynamic Adaptive Streaming Over Hypertext Transfer Protocol

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104333746A (zh) * 2009-02-12 2015-02-04 Lg电子株式会社 广播接收机及其3d字幕数据处理方法
CN103782601A (zh) * 2011-07-05 2014-05-07 诺基亚公司 用于视频编码和解码的方法和设备
WO2013021098A1 (en) * 2011-08-09 2013-02-14 Nokia Corporation Method and apparatus for forced playback in http streaming
WO2013166411A1 (en) * 2012-05-03 2013-11-07 United Video Properties, Inc. Systems and methods for preventing access to a media asset segment during a fast-access playback operation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
流媒体自适应播放***的设计与实现;严丽娜;《中国优秀硕士学位论文全文数据库》;20120715(第7期);I136-640 *

Also Published As

Publication number Publication date
AU2016219369B2 (en) 2019-10-31
EP3257255B1 (en) 2019-10-16
US20160234536A1 (en) 2016-08-11
HUE047298T2 (hu) 2020-04-28
TWI686077B (zh) 2020-02-21
CN107251562A (zh) 2017-10-13
KR102168596B1 (ko) 2020-10-21
JP6655091B2 (ja) 2020-02-26
WO2016130657A1 (en) 2016-08-18
TW201633783A (zh) 2016-09-16
AU2016219369A1 (en) 2017-07-27
TN2017000306A1 (en) 2019-01-16
BR112017017152A2 (pt) 2018-04-03
EP3257255A1 (en) 2017-12-20
US10270823B2 (en) 2019-04-23
EA201791558A1 (ru) 2017-12-29
ES2767288T3 (es) 2020-06-17
KR20170116027A (ko) 2017-10-18
JP2018510545A (ja) 2018-04-12

Similar Documents

Publication Publication Date Title
CN107251562B (zh) 检索媒体数据的方法及装置、发信媒体信息的方法及装置
AU2016226206B2 (en) File format based streaming with dash formats based on LCT
US10397295B2 (en) Processing continuous multi-period content
US11665219B2 (en) Processing media data using a generic descriptor for file format boxes
EP3095247B1 (en) Robust live operation of dash
TW202037177A (zh) 用於串流媒體資料之服務描述
OA18391A (en) Low latency video streaming.
EA045713B1 (ru) Способ и клиентское устройство для извлечения мультимедийных данных из серверного устройства

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant