TWI686077B - 低延遲視訊串流 - Google Patents

低延遲視訊串流 Download PDF

Info

Publication number
TWI686077B
TWI686077B TW105104379A TW105104379A TWI686077B TW I686077 B TWI686077 B TW I686077B TW 105104379 A TW105104379 A TW 105104379A TW 105104379 A TW105104379 A TW 105104379A TW I686077 B TWI686077 B TW I686077B
Authority
TW
Taiwan
Prior art keywords
media
segment
section
format
representation
Prior art date
Application number
TW105104379A
Other languages
English (en)
Other versions
TW201633783A (zh
Inventor
湯瑪士 史塔克漢莫
王益魁
Original Assignee
美商高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商高通公司 filed Critical 美商高通公司
Publication of TW201633783A publication Critical patent/TW201633783A/zh
Application granted granted Critical
Publication of TWI686077B publication Critical patent/TWI686077B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/611Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for multicast or broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/438Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving encoded video stream packets from an IP network
    • H04N21/4383Accessing a communication channel
    • H04N21/4384Accessing a communication channel involving operations to reduce the access time, e.g. fast-tuning for reducing channel switching latency
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26616Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for merging a unicast channel into a multicast channel, e.g. in a VOD application, when a client served by unicast channel catches up a multicast channel to save bandwidth
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本發明揭示一種用戶端裝置,其包括一或多個處理器,該一或多個處理器經組態以自一資訊清單檔案判定媒體內容之一表示中所包括之複數個區段類型、由該等區段類型中之每一者所提供之一或多個功能及符合於該表示中之該等區段類型中之每一者的區段之位置,其中該等區段類型中之至少一者提供開始自該表示擷取資料的一點;自該資訊清單檔案判定該表示之符合於提供開始自該表示擷取資料之該點之該類型的一區段;及自該表示擷取該所判定區段。

Description

低延遲視訊串流
本申請案主張在2015年2月10日申請之美國臨時申請案第62/114,423號及在2015年6月22日申請之美國臨時申請案第62/183,054號之權益,該等美國臨時申請案中之每一者的全部內容特此以引用的方式併入本文中。
本發明係關於經編碼視訊資料之儲存及輸送。
數位視訊能力可併入至廣泛範圍之裝置中,該等裝置包括數位電視、數位實況系統、無線廣播系統、個人數位助理(PDA)、膝上型或桌上型電腦、數位攝影機、數位記錄裝置、數位媒體播放器、視訊遊戲裝置、視訊遊戲主機、蜂巢式或衛星無線電電話、視訊電話會議裝置及其類似者。數位視訊裝置實施視訊壓縮技術(諸如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分進階視訊寫碼(AVC)、ITU-T H.265/高效率視訊寫碼(HEVC)所定義之標準及此等標準之延伸中所描述之彼等技術)以更高效地傳輸及接收數位視訊資訊。
視訊壓縮技術執行空間預測及/或時間預測以減少或移除視訊序列中之固有冗餘。對於基於區塊之視訊寫碼,可將視訊圖框或圖塊分割成巨集區塊。可對每一巨集區塊進行進一步分割。使用相對於鄰近 巨集區塊之空間預測對框內寫碼(I)圖框或圖塊中之巨集區塊進行編碼。框間寫碼(P或B)圖框或圖塊中之巨集區塊可使用相對於同一圖框或圖塊中之鄰近巨集區塊之空間預測或相對於其他參考圖框之時間預測。
在已將視訊資料編碼之後,可將視訊資料封包化以進行傳輸或儲存。視訊資料可組譯至符合於各種標準中之任一者(諸如國際標準組織(ISO)基本媒體檔案格式及其延伸(諸如AVC))之視訊檔案中。
一般而言,本發明描述可用於達成低延遲視訊(及/或其他媒體資料)串流之技術。舉例而言,媒體內容可包括各種表示,該等表示充當彼此之替代方案。根據本發明之技術,一個表示可包括相對頻繁之串流存取點(SAP),而另一替代表示可包括相對不頻繁之SAP。資訊清單檔案(諸如經由HTTP之動態自適性串流(DASH)之媒體呈現描述(MPD))可傳訊區段之類型(或區段符合於之格式),以及此等區段之位置(或此等區段在對應表示中發生之相對頻率)。用戶端裝置可使用資訊清單檔案來判定表示中之一者具有相對頻繁之SAP,且接著自彼表示擷取區段或區段之數個部分直至可自不同目標表示獲得SAP為止。目標表示可歸因於具有較少(亦即,較不頻繁)SAP而具有相對較高品質。在一些實例中,可經由諸如單播或廣播之不同擷取機制而獲得不同表示。舉例而言,初始表示可係經由單播獲得,而目標表示可係經由廣播獲得。
在一項實例中,一種方法包括:自資訊清單檔案判定媒體內容之表示中所包括之複數個區段類型、由該等區段類型中之每一者所提供之一或多個功能及符合於該表示中之該等區段類型中之每一者的區段之位置,其中該等區段類型中之至少一者提供開始自該表示擷取資料的點;自該資訊清單檔案判定該表示之符合於提供開始自該表示擷 取資料之該點之該類型的區段;及自該表示擷取該所判定區段。
在另一實例中,一種用於擷取媒體資料之用戶端裝置包括一或多個處理器,該一或多個處理器經組態以自資訊清單檔案判定媒體內容之表示中所包括之複數個區段類型、由該等區段類型中之每一者所提供之一或多個功能及符合於該表示中之該等區段類型中之每一者的區段之位置,其中該等區段類型中之至少一者提供開始自該表示擷取資料的點;自該資訊清單檔案判定該表示之符合於提供開始自該表示擷取資料之該點之該類型的區段;及自該表示擷取該所判定區段。
在另一實例中,一種用於擷取媒體資料之用戶端裝置包括用於自資訊清單檔案判定媒體內容之表示中所包括之複數個區段類型、由該等區段類型中之每一者所提供之一或多個功能及符合於該表示中之該等區段類型中之每一者的區段之位置的構件,其中該等區段類型中之至少一者提供開始自該表示擷取資料的點;用於自該資訊清單檔案判定該表示之符合於提供開始自該表示擷取資料之該點之該類型的區段之構件;及用於自該表示擷取該所判定區段的構件。
在另一實例中,一種電腦可讀儲存媒體在上面儲存有指令,該等指令在執行時致使處理器自資訊清單檔案判定媒體內容之表示中所包括之複數個區段類型、由該等區段類型中之每一者所提供之一或多個功能及符合於該表示中之該等區段類型中之每一者的區段之位置,其中該等區段類型中之至少一者提供開始自該表示擷取資料的點;自該資訊清單檔案判定該表示之符合於提供開始自該表示擷取資料之該點之該類型的區段;及自該表示擷取該所判定區段。
在另一實例中,一種傳訊媒體資訊之方法包括:建構指示以下各項之資訊清單檔案:媒體內容之表示中所包括之複數個區段類型、由該等區段類型中之每一者所提供之一或多個功能、符合於該表示中之該等區段類型中之每一者的區段之位置,其中該等區段類型中之至 少一者提供開始自該表示擷取資料的點,及該表示之符合於提供開始自該表示擷取資料之該點之該類型的區段;將該資訊清單檔案發送至用戶端裝置;及回應於來自該用戶端裝置對符合於提供開始自該表示擷取資料之該點之該類型之區段的請求,將提供開始自該表示擷取資料之該點之該區段發送至該用戶端裝置。
在另一實例中,一種用於傳訊媒體資訊之伺服器裝置包括一或多個處理器,該一或多個處理器經組態以建構指示以下各項之資訊清單檔案:媒體內容之表示中所包括之複數個區段類型、由該等區段類型中之每一者所提供之一或多個功能、符合於該表示中之該等區段類型中之每一者的區段之位置,其中該等區段類型中之至少一者提供開始自該表示擷取資料的點,及該表示之符合於提供開始自該表示擷取資料之該點之該類型的區段;將該資訊清單檔案發送至用戶端裝置;及回應於來自該用戶端裝置之對符合於提供開始自該表示擷取資料之該點之該類型之區段的請求,將提供開始自該表示擷取資料之該點之該區段發送至該用戶端裝置。
在另一實例中,一種用於傳訊媒體資訊之伺服器裝置包括用於建構指示以下各項之資訊清單檔案的構件:媒體內容之表示中所包括之複數個區段類型、由該等區段類型中之每一者所提供之一或多個功能、符合於該表示中之該等區段類型中之每一者的區段之位置,其中該等區段類型中之至少一者提供開始自該表示擷取資料的點,及該表示之符合於提供開始自該表示擷取資料之該點之該類型的區段;用於將該資訊清單檔案發送至用戶端裝置的構件;及用於回應於來自該用戶端裝置之對符合於提供開始自該表示擷取資料之該點之該類型之區段的請求而將提供開始自該表示擷取資料之該點之該區段發送至該用戶端裝置的構件。
在另一實例中,一種電腦可讀儲存媒體上面儲存有指令,該等 指令在經執行時致使伺服器裝置之處理器建構指示以下各項之資訊清單檔案:媒體內容之表示中所包括之複數個區段類型、由該等區段類型中之每一者所提供之一或多個功能、符合於該表示中之該等區段類型中之每一者的區段之位置,其中該等區段類型中之至少一者提供開始自該表示擷取資料的點,及該表示之符合於提供開始自該表示擷取資料之該點之該類型的區段;將該資訊清單檔案發送至用戶端裝置;及回應於來自該用戶端裝置之對符合於提供開始自該表示擷取資料之該點之該類型之區段的請求而將提供開始自該表示擷取資料之該點之該區段發送至該用戶端裝置。
在以下隨附圖式及描述中闡述一或多個實例之細節。其他特徵、目的及優點自描述及圖式且自申請專利範圍將為顯而易見。
10‧‧‧系統
20‧‧‧內容準備裝置
22‧‧‧音訊源
24‧‧‧視訊源
26‧‧‧音訊編碼器
28‧‧‧視訊編碼器
30‧‧‧囊封單元
32‧‧‧輸出介面
40‧‧‧用戶端裝置
42‧‧‧音訊輸出
44‧‧‧視訊輸出
46‧‧‧音訊解碼器
48‧‧‧視訊解碼器
50‧‧‧解囊封單元
52‧‧‧擷取單元
54‧‧‧網路介面
60‧‧‧伺服器裝置
62‧‧‧儲存媒體
64‧‧‧多媒體內容
66‧‧‧資訊清單檔案
68A‧‧‧表示
68N‧‧‧表示
70‧‧‧請求處理單元
72‧‧‧網路介面
74‧‧‧網路
102‧‧‧多媒體內容
104‧‧‧媒體呈現描述
110A‧‧‧表示
110N‧‧‧表示
112‧‧‧標頭資料
114A‧‧‧區段
114B‧‧‧區段
114N‧‧‧區段
122‧‧‧標頭資料
124A‧‧‧區段
124B‧‧‧區段
124N‧‧‧區段
130‧‧‧時段資訊
132‧‧‧自適應集合資訊
134A‧‧‧表示資訊
134N‧‧‧表示資訊
136A‧‧‧區段類型資訊
136N‧‧‧區段類型資訊
138A‧‧‧區段功能資訊
138N‧‧‧區段功能資訊
140A‧‧‧區段位置
140N‧‧‧區段位置
150‧‧‧視訊檔案
152‧‧‧檔案類型方塊
154‧‧‧影片方塊
156‧‧‧影片標頭方塊
158‧‧‧播放軌方塊
160‧‧‧影片延伸方塊
162‧‧‧區段索引方塊
164‧‧‧影片片段方塊
166‧‧‧影片片段隨機存取方塊
200‧‧‧範恩圖
202‧‧‧遞送單元區段格式
204‧‧‧隨機存取區段格式
206‧‧‧不重疊區段格式
208‧‧‧切換區段格式
210‧‧‧表示
212A‧‧‧國際標準組織基本媒體檔案格式檔案
212B‧‧‧國際標準組織基本媒體檔案格式檔案
212C‧‧‧國際標準組織基本媒體檔案格式檔案
230‧‧‧自適應集合
232‧‧‧表示
234‧‧‧表示
236A‧‧‧區段/瞬時解碼再新(IDR)區段
236B‧‧‧區段/瞬時解碼再新(IDR)區段
236C‧‧‧區段/瞬時解碼再新(IDR)區段
236D‧‧‧區段/瞬時解碼再新(IDR)區段
236E‧‧‧區段/瞬時解碼再新(IDR)區段
238A‧‧‧區段/瞬時解碼再新(IDR)區段
238B‧‧‧區段/瞬時解碼再新(IDR)區段
238C‧‧‧區段/瞬時解碼再新(IDR)區段
238D‧‧‧區段/瞬時解碼再新(IDR)區段
238E‧‧‧區段/瞬時解碼再新(IDR)區段
240‧‧‧自適應集合
242‧‧‧基本層(單播)表示
244‧‧‧增強層表示
246A‧‧‧區段
246B‧‧‧區段
246C‧‧‧區段
246D‧‧‧區段
246E‧‧‧區段
248A‧‧‧區段
248B‧‧‧區段
250‧‧‧表示
252A‧‧‧區段
252B‧‧‧區段
252C‧‧‧區段
252D‧‧‧區段
252E‧‧‧區段
254‧‧‧自適應集合
260‧‧‧自適應集合
262‧‧‧表示
264‧‧‧表示
266A‧‧‧區段
266B‧‧‧區段
266C‧‧‧區段
266D‧‧‧區段
266E‧‧‧區段
266F‧‧‧區段
268A‧‧‧區段
268B‧‧‧區段
268C‧‧‧區段
268D‧‧‧區段
268E‧‧‧區段
268F‧‧‧區段
270‧‧‧區段遍歷
280‧‧‧自適應集合
282‧‧‧單播表示
284‧‧‧多播表示
286A‧‧‧區段
286B‧‧‧區段
286C‧‧‧區段
286D‧‧‧區段
286E‧‧‧區段
286F‧‧‧區段
288A‧‧‧區段
288B‧‧‧區段
290‧‧‧自適應集合
292‧‧‧單播表示
294‧‧‧廣播表示
296A‧‧‧區段
296B‧‧‧區段
296C‧‧‧區段
296D‧‧‧區段
296E‧‧‧區段
296F‧‧‧區段
298A‧‧‧區段
298B‧‧‧區段
300‧‧‧自適應集合
302‧‧‧表示
304‧‧‧表示
306A‧‧‧區段
306B‧‧‧區段
306C‧‧‧區段
306D‧‧‧區段
306E‧‧‧區段
306F‧‧‧區段
308A‧‧‧區段
308B‧‧‧區段
308C‧‧‧區段
308D‧‧‧區段
308E‧‧‧區段
308F‧‧‧區段
圖1係說明用於快速聯結串流之實例使用狀況的概念圖。
圖2係說明各種類型之媒體區段之間的關係的範恩(Venn)圖。
圖3係說明表示及ISO基本媒體檔案格式(BMFF)檔案之實例結構的概念圖。
圖4係說明實施用於經由網路串流媒體資料之技術之實例系統的方塊圖。
圖5A係說明實例多媒體內容之要素的概念圖。
圖5B係說明根據本發明之技術之媒體呈現描述之實例內容的概念圖。
圖6係說明可對應於表示之區段(諸如圖5A之區段中之一者)之實例視訊檔案之要素的方塊圖。
圖7係說明用於根據本發明之技術之使用狀況之實例區段給予的概念圖。
圖8係說明根據本發明之技術之包括以可調式HEVC(SHVC)之快 速調諧之使用狀況的概念圖。
圖9係說明根據本發明之技術的包括以串流存取點(SAP)類型3之快速調諧之實例使用狀況的概念圖。
圖10係說明包括快速調諧及混雜化之實例使用狀況的概念圖。
圖11係說明包括快速調諧、混雜化及開放GOP之實例使用狀況的概念圖。
圖12係說明包括快速調諧及混雜化與開放GOP之另一實例使用狀況的概念圖。
圖13係說明包括快速調諧及極低延遲之實例使用狀況的概念圖。
圖14係說明包括快速調諧及極低延遲之另一實例使用狀況的概念圖。
圖15係說明根據本發明之技術的用於擷取媒體內容之表示之區段之實例方法的流程圖。
一般而言,本發明描述用於基於(例如)根據ISO基本媒體檔案格式(ISOBMFF)及經由HTTP之動態自適性串流(DASH)格式化之媒體內容之低延遲視訊串流的技術。DASH描述於例如以下各項中:第3代合作夥伴計劃;技術規範群組服務及系統態樣;透明端對端封包切換式串流服務(PSS);3GPP檔案格式(3GP)(版本12)V12.2.0(2013年12月)。本發明描述用於定義及傳訊資料之各種方法,該資料可符合於新DASH設定檔(例如,進階實況設定檔)及可實現低延遲視訊串流之一些新類型之媒體區段,包括廣播及多播中減少之頻道獲取及頻道改變時間,同時可能實現高效率視訊寫碼結構。
視訊寫碼標準包括ITU-T H.261、ISO/IEC MPEG-1視覺部分、ITU-T H.262或ISO/IEC MPEG-2視覺部分、ITU-T H.263、ISO/IEC MPEG-4視覺部分、ITU-T H.264或ISO/IEC MPEG-4 AVC(包括其可調式視訊寫碼(SVC)及多視角視訊寫碼(MVC)延伸),以及亦稱作ITU-T H.265及ISO/IEC 23008-2之高效率視訊寫碼(HEVC)(包括其可調式寫碼延伸(亦即,可調式高效率視訊寫碼,SHVC)及多視角延伸(亦即,多視角高效率視訊寫碼,MV-HEVC))。
隨機存取係指對自並非位元串流中之第一經寫碼圖像之經寫碼圖像開始之視訊位元串流進行解碼。對位元串流之隨機存取可用於諸如廣播及串流之許多視訊應用中(例如)供使用者隨時調諧程式、在不同頻道之間切換,跳至視訊之特定部分,或切換至不同位元串流用於進行串流調適(位元速率、圖框速率、空間解析度等等的串流調適)。此特徵可藉由以規則間隔將隨機存取圖像或隨機存取點***至視訊位元串流中許多次來實現。
位元串流接合係指兩個或兩個以上位元串流或其部分之序連。舉例而言,第一位元串流可藉由第二位元串流附加,可能有對該等位元串流中之一者或兩者之一些修改以產生經接合位元串流。第二位元串流中之第一經寫碼圖像亦稱作接合點。因此,在經接合位元串流中之接合點之後的圖像源自第二位元串流,而在經接合位元串流中之接合點之前的圖像源自第一位元串流。
位元串流之接合可藉由位元串流接合器執行。位元串流接合器通常係輕量級且相較於編碼器智慧程度低得多。舉例而言,位元串流接合器可能未配備有熵解碼及編碼能力。
位元串流切換可用於自適性串流環境。在所切換至之位元串流中之某一圖像處執行之位元串流切換操作實際上係接合點為位元串流切換點(亦即,來自所切換至之位元串流之第一圖像)的位元串流接合操作。單獨表示亦可稱作(或提供)各別位元串流。
可將如ITU-T H.264/AVC(進階視訊寫碼)或高效率視訊寫碼 (HEVC)中所規定之瞬時解碼再新(IDR)圖像用於隨機存取。然而,由於以解碼次序在IDR圖像之後的圖像無法將在IDR圖像之前解碼之圖像用於參考(以進行圖像間預測),因此依賴於IDR圖像以進行隨機存取之位元串流可具有顯著較低之寫碼效率。
為改良寫碼效率,將清潔隨機存取(CRA)圖像之概念引入於HEVC中以允許以解碼次序在CRA圖像之後但以輸出次序在CRA圖像之前的圖像使用在CRA圖像之前經解碼之圖像作為參考。以解碼次序在CRA圖像之後但以輸出次序在CRA圖像之前的圖像稱作與CRA圖像相關聯之前導圖像(或CRA圖像之前導圖像)。若解碼自當前CRA圖像之前的IDR或CRA圖像開始,則CRA圖像之前導圖像可正確地解碼。然而,在發生自CRA圖像起之隨機存取時,CRA圖像之前導圖像可係不可解碼的。因此,前導圖像通常在隨機存取解碼期間被摒棄。為了防止來自取決於解碼開始之位置而可能係不可用之參考圖像的錯誤傳播,以解碼次序及輸出次序兩者皆在CRA圖像之後的所有圖像不應使用以解碼次序或輸出次序在CRA圖像之前的任何圖像(其包括前導圖像)作為參考。
斷鏈存取(BLA)圖像之概念在引入CRA圖像之後經進一步引入於HEVC中且係基於CRA圖像之概念。BLA圖像通常源自於CRA圖像之位置處之位元串流接合,且在所接合位元串流中,接合點CRA圖像改變成BLA圖像。
IDR圖像、CRA圖像及BLA圖像統稱為隨機存取點(RAP)圖像。IDR圖像對應於所謂基於封閉圖像群組(GOP)之RAP,而CRA及BLA圖像對應於習知所謂基於開放圖像群組(GOP)之RAP。
BLA圖像與CRA圖像之間的一個差異係如下。對於CRA圖像,相關聯前導圖像在解碼自以解碼次序在CRA圖像之前的RAP圖像開始情況下可正確地解碼,且在自CRA圖像起之隨機存取在發生時(亦即, 在解碼自CRA圖像開始時,或換言之,在CRA圖像係位元串流中之第一圖像時)可不正確地解碼。對於BLA圖像,在所有狀況下,甚至在解碼自以解碼次序在BLA圖像之前的RAP圖像開始時,相關聯前導圖像仍可係不可解碼的。
檔案格式標準包括ISO基本媒體檔案格式(ISOBMFF、ISO/IEC 14496-12)及自ISOBMFF導出之其他格式,包括MPEG-4檔案格式(ISO/IEC 14496-14)、3GPP檔案格式(3GPP TS 26.244)及AVC檔案格式(ISO/IEC 14496-15)。
ISOBMFF用作以下兩者之基礎:許多寫碼解碼囊封格式,諸如AVC檔案格式;以及許多多媒體容器格式,諸如MPEG-4檔案格式、3GPP檔案格式(3GP)及DVB檔案格式。
除諸如音訊及視訊之連續媒體外,諸如影像之靜態媒體以及後設資料亦可儲存在符合於ISOBMFF之檔案中。根據ISOBMFF結構化之檔案可用於許多用途,包括本端媒體檔案播放,遠端檔案之漸進式下載、用於經由HTTP之動態自適性串流(DASH)之區段、用於欲串流之內容及其封包化指令之容器,及對所接收即時媒體串流之記錄。
方塊係ISOBMFF中之基礎語法結構,包括四字元寫碼方塊類型、方塊之位元組計數,及有效負載。ISOBMFF檔案由一系列方塊組成,且方塊可含有其他方塊。影片方塊(「moov」)含有針對檔案中存在之連續媒體串流之後設資料,每一媒體串流在檔案中表示為播放軌。針對播放軌之後設資料經封圍於播放軌方塊(「trak」)中,而播放軌之媒體內容經封圍於媒體資料方塊(「mdat」)中或直接封圍於單獨檔案中。播放軌之媒體內容由諸如音訊或視訊存取單元之一系列樣本組成。
ISOBMFF規定以下類型之播放軌:媒體播放軌,其含有基礎媒體串流;提示播放軌,其包括媒體傳輸指令或表示所接收封包串流; 及定時後設資料播放軌,其包含時間同步後設資料。
儘管起初經設計用於儲存,但ISOBMFF已證明為對於串流(例如,對於漸進式下載或DASH)係極其有價值的。出於串流目的,可使用ISOBMFF中定義之影片片段。
針對每一播放軌之後設資料包括樣本描述項清單,每一樣本描述項提供播放軌中所使用之寫碼或囊封格式及用於處理彼格式所需要之初始化資料。每一樣本與播放軌之樣本描述項中之一者相關聯。
ISOBMFF實現藉助各種機制規定樣本特定後設資料。樣本表方塊(「stbl」)內之特定方塊已被標準化以對共同需求做出回應。舉例而言,使用同步樣本方塊(「stss」)來列舉播放軌之隨機存取樣本。樣本分組機制實現將根據四字元分組類型之樣本映射至共用與檔案中之樣本群組描述項相同之所規定性質的樣本群組中。ISOBMFF中已規定數種分組類型。
本發明之技術可應用於符合於根據以下各者中之任一者囊封之視訊資料的視訊檔案:ISOBMFF、可調式視訊寫碼(SVC)檔案格式、進階視訊寫碼(AVC)檔案格式、第三代合作夥伴計劃(3GPP)檔案格式,及/或多視角視訊寫碼(MVC)檔案格式或其他類似視訊檔案格式。
ISO/IEC 23001-7定義對ISO基本媒體檔案格式之共同加密。在此標準之狀況下,加密係基於基礎串流。另外,標準允許AES-128 CTR及CBC模式。為了在隨機存取點處將媒體解密,需要所有DRM相關資訊,該資訊包括保護方案特定資訊以及初始化向量。
ISO/IEC 23009-1中規定之經由HTTP之動態自適性串流(DASH)係針對HTTP(自適性)串流應用之標準。其主要規定亦大體稱作資訊清單檔案之媒體呈現描述(MPD)之格式及媒體區段格式。MPD描述伺服器上可用之媒體且使得DASH用戶端自動下載其所關注之媒體時間的 媒體版本。
用於基於DASH之HTTP串流之實例程序包括以下步驟:
1)用戶端獲得串流內容(例如,影片)之MPD。MPD包括關於串流內容之不同替代表示(例如,位元速率、視訊解析度、圖框速率、音訊語言)以及HTTP資源(初始化區段及媒體區段)之URL的資訊。
2)基於MPD中之資訊及用戶端之本端資訊(例如,網路頻寬、解碼/顯示能力及使用者偏好),用戶端一次一個區段(或其一部分)地請求所要表示。
3)在用戶端偵測到網路頻寬改變時,用戶端請求不同表示之具有更好匹配位元速率之區段,理想地自以隨機存取點開始之區段開始。
在HTTP串流「工作階段」期間,為了對用以向後搜尋過去位置或向前搜尋未來位置之使用者請求作出回應,用戶端請求自接近於所要位置且理想地以隨機存取點開始之區段開始的過去或未來區段。使用者亦可請求以快進內容,此情形可藉由請求足夠用於解碼僅框內寫碼視訊圖像或僅視訊串流之時間子集的資料來實現。
最新ISOBMFF規範規定供DASH使用之六種類型之串流存取點(SAP)。前兩種SAP類型(類型1及2)對應於H.264/AVC及HEVC中之IDR圖像。第三種SAP類型(類型3)對應於開放GOP隨機存取點,因此對應於HEVC中之BLA或CRA圖像。
在HTTP串流中,例如根據DASH,頻繁使用之操作包括HEAD、GET及部分GET。HEAD操作擷取與給定統一資源定位符(URL)或統一資源名稱(URN)相關聯之檔案之標頭,而非擷取與URL或URN相關聯之有效負載。GET操作擷取與給定URL或URN相關聯之整個檔案。部分GET操作接收位元組範圍作為輸入參數並擷取檔案之多個連續位元組,其中該多個位元組對應於所接收之位元組範圍。因此,影片片段 可經提供用於HTTP串流,此係因為部分GET操作可獲取一或多個個別影片片段。在影片片段中,可存在不同播放軌之若干播放軌片段。在HTTP串流中,媒體呈現可係可由用戶端存取之結構化資料集合。用戶端可請求並下載媒體資料資訊以向使用者呈現串流服務。
在使用HTTP串流來串流3GPP資料之實例中,可存在用於多媒體內容之視訊及/或音訊資料之多個表示。如下文所闡釋,不同表示可對應於不同寫碼特性(例如,視訊寫碼標準之不同設定檔或等級)、不同寫碼標準或寫碼標準之延伸(諸如,多視圖及/或可調式延伸),或不同位元速率。此等表示之資訊清單可定義於媒體呈現描述(MPD)資料結構中。媒體呈現可對應於對於HTTP串流用戶端裝置可存取之結構化資料集合。HTTP串流用戶端裝置可請求並下載媒體資料資訊以向用戶端裝置之使用者呈現串流服務。媒體呈現可描述於MPD資料結構中,該MPD資料結構可包括MPD之更新。
媒體呈現可含有一系列一或多個時段。時段可由MPD中之Period要素定義。每一時段可在MPD中具有屬性start。MPD可包括針對每一時段之start屬性及availableStartTime屬性。對於實況服務,時段之start屬性與MPD屬性availableStartTime的總和可規定呈UTC格式之時段之可用性時間,特定而言,對應時段中之每一表示之第一媒體區段。對於選播服務,第一時段之start屬性可為0。對於任一其他時段,start屬性可規定對應時段之開始時間相對於第一時段之開始時間之間的時間偏移。每一時段可延伸直至下一時段之開始為止,或直至媒體呈現之結束(在最後時段之狀況下)為止。時段開始時間可係精確的。該等時段開始時間可反映播放所有之前時段之媒體所產生之實際時間。
每一時段可含有相同媒體內容之一或多個表示。表示可係音訊或視訊資料之多個替代經編碼版本中之一者。表示可因編碼類型(例 如)因視訊資料之位元速率、解析度及/或寫碼解碼以及音訊資料之位元速率、語言及/或寫碼解碼而不同。術語表示可用於係指對應於多媒體內容之特定時段且以特定方式編碼之經編碼音訊或視訊資料之段。
特定時段之表示可指派至由MPD中指示表示所屬於之自適應集合的屬性所指示的群組。通常將相同自適應集合中之表示認為係彼此之替代方案,此係因為用戶端裝置可在此等表示之間動態且無縫地切換(例如)以執行頻寬自適應。舉例而言,可將特定時段之視訊資料之每一表示指派至相同自適應集合,使得表示中之任一者可經選擇以用於進行解碼以呈現對應時段之多媒體內容之媒體資料(諸如,視訊資料或音訊資料)。在一些實例中,一個時段內之媒體內容可由來自群組0(若存在)之一個表示或來自每一非零群組之至多一個表示之組合來表示。時段之每一表示之計時資料可相對於時段之開始時間表達。
表示可包括一或多個區段。每一表示可包括初始化區段,或表示之每一區段可正自初始化。當存在時,初始化區段可含有用於存取表示之初始化資訊。通常,初始化區段不含有媒體資料。區段可由諸如統一資源定位符(URL)、統一資源名稱(URN)或統一資源識別符(URI)的識別符獨特地參考。MPD可為每一區段提供識別符。在一些實例中,MPD亦可提供呈range屬性形式之位元組範圍,該屬性可對應於可由URL、URN或URI存取之檔案內之區段之資料。
不同表示可經選擇以用於對不同類型之媒體資料之大體上同時擷取。舉例而言,用戶端裝置可選擇自其擷取區段之音訊表示、視訊表示及定時文字表示。在一些實例中,用戶端裝置可選擇特定自適應集合以用於執行頻寬自適應。即,用戶端裝置可選擇包括視訊表示之自適應集合、包括音訊表示之自適應集合及/或包括定時文字(timed text)之自適應集合。替代地,用戶端裝置可選擇某些類型之媒體(例 如,視訊)之自適應集合,及直接選擇其他類型之媒體(例如,音訊及/或定時文字)之表示。
習用DASH技術中可出現各種問題。舉例而言,對於低延遲視訊串流服務,諸如分佈低延遲實況服務,可儘可能快速地產生每一區段以在原始伺服器上可用係關係重大的。換言之,短區段在此等情境中係有必要的。當前,存在用於產生短區段之兩個選項:
1)使用ISOBMFF實況設定檔:此意謂每一區段必需以類型1或2之SAP開始,但區段在一個自適應集合中必須全部具有相同持續時間。換言之,必須使用IDR圖像來提供RAP,不可使用對應於SAP類型3之開放GOP RAP。因此,視訊寫碼效率不得不折衷。
2)使用ISOBMFF主設定檔:然而,此意謂切換點(SAP類型1或2)上之任何基於MPD之傳訊皆係不可能的且用戶端需要剖析區段以便找出如何存取樣本。
另外,可出現區段過負載問題。即,在核心DASH規範中,區段係必須包括整數數目個影片片段之遞送單元。在不失一般性之情況下,假定區段含有單個影片片段。影片片段自身僅具有在以解碼次序提供整數數目個樣本方面的約束。
在核心DASH中,可出於產生可定址且可遞送單元之目的來產生區段而無進一步限制。然而,在限制設定檔(例如,ISO實況設定檔)中,使用相同時間之區段來實現表示切換。後一者添加顯著限制:
˙每一區段必須以封閉GOP開始
˙區段在一個表示內之呈現時間上必須不重疊
此等兩個限制導致降低之寫碼效率,尤其在區段係相對短之情況下。
此外,對於廣播應用,對遞送單元之隨機存取係關係重大的。區段之持續時間判定對於頻道獲取及頻道改變為關係重大之隨機存取 時間。對於隨機存取,更高效開放GOP係足夠的,且區段可甚至在一定程度上具有呈現時間重疊,此情形可在存取時導致降低之播出品質(一些經捨棄圖框),但仍允許對串流之快速存取。
如下文所論述的本發明之技術可解決區段之不同功能態樣且將區段區分成不同類別。
圖1係說明用於快速聯結串流之實例使用狀況的概念圖。在此實例中,一些區段係經由廣播可獲得。而其他區段係經由單播可獲得。特定而言,標記為「8」及「9」之區段係經由廣播可獲得,而標記為7A至7D、8A至8D及9A至9D之區段係經由單播可獲得。在此使用狀況下,用戶端裝置經由單播擷取區段7D及8A至8D(其中區段8A至8D包括與經由廣播可獲得之區段8相同之媒體資料),且接著經由廣播接收區段9。特定而言,用戶端裝置在調諧時間2調諧至廣播中,該調諧時間2係在經由廣播傳輸區段8期間。因此,用戶端裝置不可經由廣播接收區段8,因此替代地,用戶端裝置在經由廣播接收區段9之前擷取區段7D及8A至8D。因此,用戶端裝置在擷取區段8D之後自廣播切換至單播。因此,在播出媒體資料時,用戶端裝置播出來自區段7D及8A至8D(經由單播接收)之媒體資料,接著切換以播出來自區段9(經由廣播接收)的媒體資料。
此使用狀況證實藉助單播之「快速調諧」。在此狀況下,服務提供者想要分佈具有高SAP頻率(通常,類型3係可能的)之一個表示以便進行快速存取。然而,在調諧之後,用戶端想要切換至更高效且具有較少IDR圖框之表示。所切換至之表示可甚至具有不同區段大小。此情境可係單播時之狀況,但亦處於混合狀況。該情境展示於圖1中。在此圖中,使得較短區段經由單播可獲得,每一區段包括一IDR圖框。若用戶端在某一時間且在無單播支援之情況下聯結程式,則將花費一些時間直至區段被接收到且可開始以進行播放(圖1中之區段9)為 止。此係歸因於需要接收整個區段(以便恰當地初始化(例如)媒體解碼器以解碼該區段之媒體資料)之事實。
在此狀況下,單播表示經供應有四分之一的區段持續時間。用戶端可立即選擇播出單播短區段直至高效(長區段、長IDR圖框距離)廣播表示經由廣播到達。MPD中傳訊此等能力(隨機存取點及切換點之位置)係關係重大的,但現今係不可能的。
另一類似使用狀況涉及藉助SHVC之快速調諧。可存在具有低RAP頻率及甚至低區段大小之基本層及具有較大GOP頻率之增強層的供應。接著應如關於圖1所論述達成上述情形。傳訊此等特徵現今並不可能。
另一所要使用狀況係高效時間移位緩衝器之使用。在某些狀況下,可以小區段在實況邊緣處供應表示,但用戶端一移動至時間移位緩衝器,區段大小就增加。表示仍應位於一個自適應集合中以表達無縫切換能力,但不應迫使表示具有相同區段大小及/或相同切換點/隨機存取點頻率。上述情形同樣適用於記錄實況事件以供未來選播使用。
另一使用狀況涉及藉助開放GOP之快速調諧。開放GOP可通常對應於包括可相對於GOP外部之圖像進行預測之圖像的GOP。此情形與係獨立式之封閉GOP相反,此係因為GOP之所有圖像係自GOP內之其他圖像預測。舉例而言,開放GOP可以框間預測圖像(或框間預測關鍵圖框)開始,而封閉GOP可以框內預測圖像開始。
藉助開放GOP之快速調諧之狀況可係廣播快速調諧之典型狀況。問題係存在想要快速調諧、跨越表示切換且可能提供低延遲的狀況。此情形可導致傳訊之複雜使用狀況,即傳訊區段、開放GOP、封閉GOP、區段對準等等。
另一使用狀況涉及針對連續性之快速向下切換。此狀況對於廣 播快速調諧情境亦可係典型的。問題係存在想要快速調諧、跨越表示切換且可能提供低延遲的狀況。此情形可導致傳訊之複雜使用狀況,即傳訊區段、開放GOP、封閉GOP、區段對準等等。
另一使用狀況涉及區段可用性。為了減少延遲,不僅區段需要係短的,而且區段之產生與發佈之間的時間亦需要係短的。為了避免HTTP 404錯誤,區段可用性時間需要對於接收者可用(例如,傳訊至該接收者)。區段模板提供用以宣告可用性時間之型樣,但此情形要求區段在確切時間可用,且因此在宣告區段可用性開始時間時需要考慮區段持續時間之變化,且編碼器需要遵循此型樣。若未迫使內容提供者產生具有區段可用性時間之IDR圖框,則其可更容易使IDR圖框放置發生變化且可更準確地宣告區段可用性時間。此態樣應在傳訊區段持續時間中考量。
在不同使用狀況中,切換、遞送及隨機存取之不同特徵係或多或少地相關,但其可需要提供在一個內容供應項目內。存在應予以考量之若干情境:
˙具有低頻道獲取時間連同以較低頻率切換至單播表示之能力的廣播散佈的部署。
˙經由與廣播同步之單播在實況邊緣遞送低延遲版本。
˙僅以長於遞送單元之隨機存取頻率經由廣播遞送低延遲版本。
˙需要考慮之可變區段持續時間。
本發明之技術可允許此等各種使用狀況(單獨地或以任一組合),且可克服上文所論述之問題中之任一者或全部。
圖2係說明各種類型之媒體區段之間的關係的範恩圖200。媒體區段可用於諸如以下各項的DASH中之各種用途中的任一者或全部:
˙表示切換
o 封閉GOP通常係必要的。
o 區段在一個表示內在時間上必須不重疊。
o 區段跨越一個自適應集合中之不同表示必須被對準。
˙隨機存取
o 開放GOP通常係必要的。
o 若准許開放GOP隨機存取,則區段在一個表示內在時間上可重疊。
˙遞送單元
o 無對隨機存取或切換之要求。
o 區段必須包括整數數目個影片片段。
為了解決不同態樣,可根據圖2考量四種不同區段類型(或格式):
˙遞送單元區段格式202:僅無任何約束之片段。(在圖2中由具有實線輪廓之橢圓表示)。
˙隨機存取區段格式204:用於調諧之開放GOP。(在圖2中由具有虛線輪廓之橢圓表示)。
˙不重疊區段格式206:用戶端裝置可切換至此格式之區段而無任何問題。(在圖2中由具有點線輪廓之橢圓表示)。
˙切換區段格式208:用戶端裝置可切換至此格式之區段。(在圖2中由具有雙點虛線輪廓之橢圓表示)。
圖3係說明表示210及ISO BMFF檔案212A至212C之實例結構的概念圖。圖3亦展示包括moof(影片片段)方塊及影片資料(mdat)方塊之ISO BMFF檔案212A的分解圖。圖3之實例ISO BMFF檔案212A在概念上類似於下文更詳細描述之圖6之影片片段164。考量影片片段係媒體資料之遞送單元為關係重大的。影片片段經產生,使得其含有一系列moof方塊及mdat方塊,(例如)如圖3中所展示。
圖4係說明實施用於經由網路串流媒體資料之技術之實例系統10的方塊圖。在此實例中,系統10包括內容準備裝置20、伺服器裝置60及用戶端裝置40。用戶端裝置40及伺服器裝置60藉由可包含網際網路之網路74以通信方式耦接。在一些實例中,內容準備裝置20及伺服器裝置60亦可藉由網路74或另一網路耦接,或可直接以通信方式耦接。在一些實例中,內容準備裝置20及伺服器裝置60可包含相同裝置。
在圖4之實例中,內容準備裝置20包含音訊源22及視訊源24。音訊源22可包含(例如)麥克風,該麥克風產生表示將由音訊編碼器26編碼之所捕獲音訊資料的電信號。替代地,音訊源22可包含儲存先前所記錄音訊資料之儲存媒體、諸如電腦化合成器之音訊資料產生器,或任一其他音訊資料源。視訊源24可包含產生將由視訊編碼器28編碼之視訊資料的視訊攝影機、編碼有先前所記錄視訊資料之儲存媒體、諸如電腦圖形源之視訊資料產生單元,或任一其他視訊資料源。內容準備裝置20不必在所有實例中以通信方式耦接至伺服器裝置60,但可將多媒體內容儲存至由伺服器裝置60讀取之單獨媒體。
原始音訊及視訊資料可包含類比或數位資料。類比資料可在由音訊編碼器26及/或視訊編碼器28編碼之前經數位化。音訊源22可在發言參與者正在發言時自該發言參與者獲得音訊資料,且視訊源24可同時獲得發言參與者之視訊資料。在其他實例中,音訊源22可包含電腦可讀儲存媒體,該電腦可讀儲存媒體包含所儲存音訊資料,且視訊源24可包含電腦可讀儲存媒體,該電腦可讀儲存媒體包含所儲存視訊資料。以此方式,本發明中所描述之技術可應用於實況、串流、即時音訊及視訊資料或應用於經歸檔、預記錄音訊及視訊資料。
對應於視訊圖框之音訊圖框通常係含有與含在視訊圖框內之由視訊源24捕獲(或產生)之視訊資料同時地由音訊源22捕獲(或產生)之音訊資料的音訊圖框。舉例而言,在發言參與者通常藉由發言來產生 音訊資料時,音訊源22捕獲音訊資料,且視訊源24同時(亦即,在音訊源22正捕獲音訊資料時)捕獲發言參與者之視訊資料。因此,音訊圖框可在時間上對應於一或多個特定視訊圖框。因此,對應於視訊圖框之音訊圖框通常對應於同時捕獲音訊資料及視訊資料且音訊圖框及視訊圖框分別包含同時捕獲之音訊資料及視訊資料的情形。
在一些實例中,音訊編碼器26可在每一經編碼音訊圖框中編碼有表示記錄該經編碼音訊圖框之音訊資料之時間的時戳,且類似地,視訊編碼器28可在每一經編碼視訊圖框中編碼有表示記錄該經編碼視訊圖框之視訊資料之時間的時戳。在此等實例中,對應於視訊圖框之音訊圖框可包含:包含時戳之音訊圖框及包含相同時戳之視訊圖框。內容準備裝置20可包括音訊編碼器26及/或視訊編碼器28可產生時戳所自或音訊源22及視訊源24可使用以使音訊資料及視訊資料分別與時戳相關聯的內時鐘。
在一些實例中,音訊源22可將對應於記錄音訊資料之時間的資料發送至音訊編碼器26,且視訊源24可將對應於記錄視訊資料之時間的資料發送至視訊編碼器28。在一些實例中,音訊編碼器26可在經編碼音訊資料中編碼順序識別符以指示經編碼音訊資料之相對時間次序但未必指示記錄音訊資料之絕對時間,且類似地,視訊編碼器28亦可使用順序識別符來指示經編碼視訊資料之相對時間次序。類似地,在一些實例中,可映射順序識別符或以其他方式使其與時戳相關。
音訊編碼器26通常產生經編碼音訊資料之串流,而視訊編碼器28產生經編碼視訊資料之串流。每一個別資料(音訊抑或視訊)串流可稱作基礎串流。基礎串流係表示之單個經數位寫碼(可能經壓縮)之分量。舉例而言,表示之經寫碼之視訊或音訊部分可係基礎串流。基礎串流可在囊封於視訊檔案中之前轉換成封包化基礎串流(PES)。在同一表示內,串流ID可用於將屬於一個基礎串流之PES封包與屬於另一 基礎串流之PES封包區分開。基礎串流之基本資料單元係封包化基礎串流(PES)封包。因此,經寫碼視訊資料通常對應於基礎視訊串流。類似地,音訊資料對應於一或多個各別基礎串流。
諸如ITU-T H.264/AVC及高效率視訊寫碼(HEVC)之許多視訊寫碼標準定義無錯誤位元串流之語法、語義及解碼程序,其中之任一者符合於特定設定檔或等級。視訊寫碼標準通常未規定編碼器,但編碼器的任務係保證所產生位元串流對解碼器而言係符合標準的。在視訊寫碼標準之內容脈絡中,「設定檔」對應於演算法、特徵或工具之子集及應用於其之約束。如由H.264標準所定義,例如,「設定檔」係由H.264標準規定之整個位元串流語法之子集。「等級」對應於解碼器資源耗用之限制(諸如,解碼器記憶體及計算),其與圖像之解析度、位元速率及區塊處理速率相關。設定檔可以profile_idc(設定檔指示符)值進行傳訊,而等級可以level_idc(等級指示符)值進行傳訊。
舉例而言,H.264標準認識到,在由給定設定檔之語法強加之界限內,取決於由位元串流中之語法要素取得之值(諸如經解碼圖像之規定大小),仍有可能要求編碼器及解碼器之效能之大的變化。H.264標準進一步認識到,在許多應用中,實施能夠處置特定設定檔內之語法之所有假設使用之解碼器係既不實際且不經濟的。因此,H.264標準將「等級」定義為強加於位元串流中之語法要素之值的特定約束集合。此等約束可係對值之簡單限制。替代地,此等約束可採用對值之算術組合(例如,圖像寬度×圖像高度×每秒所解碼之圖像之數目)之約束的形式。H.264標準進一步規定,個別實施可支援針對每一所支援設定檔之不同等級。
符合於設定檔之解碼器通常支援該設定檔中定義之所有特徵。舉例而言,作為寫碼特徵,B圖像寫碼在H.264/AVC之基準設定檔中並不被支援,但在H.264/AVC之其他設定檔中被支援。符合於等級之 解碼器應能夠解碼不需要超過等級中定義之限制之資源的任一位元串流。設定檔及等級之定義可有助於可解釋性。舉例而言,在視訊傳輸期間,可針對整個傳輸工作階段協商並同意一對設定檔及等級定義。更具體而言,在H.264/AVC中,等級可定義對以下各項之限制:需要處理之巨集區塊之數目、經解碼圖像緩衝器(DPB)之大小、經寫碼圖像緩衝器(CPB)之大小、垂直運動向量範圍、每兩個連續MB之運動向量之最大數目,及B區塊是否可具有小於8×8個像素之子巨集區塊分割。以此方式,解碼器可判定解碼器是否能夠恰當地解碼位元串流。
在圖4之實例中,內容準備裝置20之囊封單元30接收包含來自視訊編碼器28之經寫碼視訊資料之基礎串流及包含來自音訊編碼器26之經寫碼音訊資料之基礎串流。在一些實例中,視訊編碼器28及音訊編碼器26可各自包括用於由經編碼資料形成PES封包的封包器。在其他實例中,視訊編碼器28及音訊編碼器26可各自與用於由經編碼資料形成PES封包之各別封包器介接。在又其他實例中,囊封單元30可包括用於由經編碼之音訊資料及視訊資料形成PES封包的封包器。
視訊編碼器28可以各種方式對多媒體內容之視訊資料進行編碼以產生處於各種位元速率且具有諸如以下各項之各種特性之多媒體內容的不同表示:像素解析度、圖框速率、與各種寫碼標準之符合性、與用於各種寫碼標準之各種設定檔及/或設定檔之等級之符合性、具有一或多個視角之表示(例如,用於二維或三維播放),或其他此類特性。如本發明中所使用,表示可包含音訊資料、視訊資料、文字資料(例如,用於隱藏字幕)或其他此類資料中之一者。表示可包括基礎串流,諸如音訊基礎串流或視訊基礎串流。每一PES封包可包括識別PES封包所屬於之基礎串流的stream_id。囊封單元30負責將基礎串流組譯至各種表示之視訊檔案(例如,區段)中。
囊封單元30接收來自音訊編碼器26及視訊編碼器28之表示之基 礎串流之PES封包且由該等PES封包形成對應網路抽象層(NAL)單元。在H.264/AVC(進階視訊寫碼)之實例中,經寫碼視訊區段組織成NAL單元,該等NAL單元提供解決諸如視訊電話、儲存、廣播或串流之應用的「網路親和性」視訊表示。NAL單元可分類成視訊寫碼層(VCL)NAL單元及非VCL NAL單元。VCL單元可含有核心壓縮引擎且可包括區塊、巨集區塊,及/或圖塊層級資料。其他NAL單元可係非VCL NAL單元。在一些實例中,可包括一或多個NAL單元之存取單元中可含有通常呈現為主要經寫碼圖像的一個時間執行個體中之經寫碼圖像。
非VCL NAL單元除其他外亦可包括參數集NAL單元及SEI NAL單元。參數集可含有序列層級標頭資訊(在序列參數集(SPS)中)及不頻繁改變之圖像層級標頭資訊(在圖像參數集(PPS)中)。藉助參數集(例如,PPS及SPS),不需要針對每一序列或圖像重複不頻繁改變之資訊,因此寫碼效率可得以改良。此外,參數集之使用可實現重要標頭資訊之頻帶外傳輸,從而避免對用於錯誤恢復之冗餘傳輸的需求。在頻帶外傳輸實例中,參數集NAL單元可在不同於其他NAL單元(諸如SEI NAL單元)之頻道上傳輸。
補充增強資訊(SEI)可含有解碼來自VCL NAL單元之經寫碼圖像樣本不必要之資訊,但可輔助與解碼、顯示、錯誤恢復及其他用途相關之程序。非VCL NAL單元中可含有SEI訊息。SEI訊息係一些標準規範之標準化部分,且因此對標準順應解碼器實施並非始終為強制的。SEI訊息可係序列層級SEI訊息或圖像層級SEI訊息。一些序列層級資訊可含在SEI訊息中,諸如SVC之實例中之可擴充性資訊SEI訊息及MVC中之視圖可擴充性資訊SEI訊息。此等實例SEI訊息可傳遞關於(例如)操作點之提取及操作點之特性的資訊。另外,囊封單元30可形成資訊清單檔案,諸如描述表示之特性之媒體呈現描述符(MPD)。 囊封單元30可根據可延伸標記語言(XML)將MPD格式化。
囊封單元30可將針對多媒體內容之一或多個表示之資料連同資訊清單檔案(例如,MPD)提供至輸出介面32。輸出介面32可包含網路介面或用於寫入至儲存媒體之介面,諸如通用串列匯流排(USB)介面、CD或DVD寫入器或燒錄機、通至磁性或快閃儲存媒體之介面,或用於儲存或傳輸媒體資料之其他介面。囊封單元30可將多媒體內容之表示中之每一者之資料提供至輸出介面32,該輸出介面可經由網路傳輸或儲存媒體將資料發送至伺服器裝置60。在圖4之實例中,伺服器裝置60包括儲存各種多媒體內容64之儲存媒體62,每一多媒體內容包括各別資訊清單檔案66及一或多個表示68A至68N(表示68)。在一些實例中,輸出介面32亦可將資料直接發送至網路74。
在一些實例中,可將表示68分成自適應集合。即,表示68之各種子集可包括各別共同特性集,諸如寫碼解碼器、設定檔及等級、解析度、視圖之數目、區段之檔案格式、可識別待與將(例如)藉由揚聲器解碼及呈現之表示及/或音訊資料一起顯示之文字之語言或其他特性之文字類型資訊、可描述自適應集合中之表示之場景之攝影機角度或真實世界攝影機視角的攝影機角度資訊、描述對特定觀眾之內容適用性的評級資訊,或其類似者。
資訊清單檔案66可包括指示對應於特定自適應集合之表示68之子集之資料,以及自適應集合之共同特性。資訊清單檔案66亦可包括表示自適應集合之個別表示之個別特性(諸如位元速率)之資料。以此方式,自適應集合可提供簡化之網路頻寬自適應。可使用資訊清單檔案66之自適應集合要素之子要素來指示自適應集合中之表示。
伺服器裝置60包括請求處理單元70及網路介面72。在一些實例中,伺服器裝置60可包括複數個網路介面。此外,伺服器裝置60中之任一或所有特徵可實施於內容遞送網路之其他裝置上,諸如路由器、 橋接器、代理裝置、切換器,或其他裝置上。在一些實例中,內容遞送網路之中間裝置可快取多媒體內容64之資料,且包括大體上符合於伺服器裝置60之彼等組件的組件。一般而言,網路介面72經組態以經由網路74發送並接收資料。
請求處理單元70經組態以接收來自諸如用戶端裝置40之用戶端裝置的對儲存媒體62之資料的網路請求。舉例而言,請求處理單元70可實施超文字傳送協定(HTTP)版本1.1,如RFC 2616「Hypertext Transfer Protocol-HTTP/1.1」(R.Fielding等人,網路工作組,IETF,1999年6月)中所描述。即,請求處理單元70可經組態以接收HTTP GET或部分GET請求,且回應於該等請求而提供多媒體內容64之資料。該等請求可(例如)使用區段之URL來規定表示68中之一者之區段。在一些實例中,請求亦可規定區段之一或多個位元組範圍,因此包含部分GET請求。請求處理單元70可進一步經組態以對HTTP HEAD請求服務以提供表示68中之一者之區段之標頭資料。在任一狀況下,請求處理單元70可經組態以處理該等請求以將所請求資料提供至諸如用戶端裝置40的請求裝置。
另外或替代地,請求處理單元70可經組態以經由諸如eMBMS之廣播或多播協定遞送媒體資料。內容準備裝置20可以與所描述大體上相同之方式產生DASH區段及/或子區段,但伺服器裝置60可使用eMBMS或另一廣播或多播網路輸送協定來遞送此等區段或子區段。舉例而言,請求處理單元70可經組態以自用戶端裝置40接收多播群組聯結請求。即,伺服器裝置60可將與多播群組相關聯之網際網路協定(IP)位址通告至與特定媒體內容(例如,實況事件之廣播)相關聯的包括用戶端裝置40之用戶端裝置。用戶端裝置40繼而可提交用以聯結多播群組之請求。此請求可遍及網路74(例如,構成網路74之路由器)被傳播,使得致使路由器將以與多播群組相關聯之IP位址為目的地之訊 務引導至諸如用戶端裝置40之訂用用戶端裝置。
如圖4之實例中所說明,多媒體內容64包括可對應於媒體呈現描述(MPD)之資訊清單檔案66。資訊清單檔案66可含有對不同替代表示68(例如,具有不同品質之視訊服務)之描述,且描述可包括(例如)寫碼解碼器資訊、設定檔值、等級值、位元速率及表示68之其他描述特性。用戶端裝置40可擷取媒體呈現之MPD以判定如何存取表示68之區段。
特定而言,擷取單元52可擷取用戶端裝置40之組態資料(未展示)以判定視訊解碼器48之解碼能力及視訊輸出44之再現能力。組態資料亦可包括以下各項中之任一者或全部:由用戶端裝置40之使用者選擇之語言偏好、對應於由用戶端裝置40之使用者設定之深度偏好之一或多個攝影機視角,及/或由用戶端裝置40之使用者選擇之評級偏好。擷取單元52可包含(例如)經組態以提交HTTP GET及部分GET請求之網頁瀏覽器或媒體用戶端。擷取單元52可對應於由用戶端裝置40之一或多個處理器或處理單元(未展示)執行之軟體指令。在一些實例中,關於擷取單元52所描述之功能性之全部或部分可以硬體或硬體、軟體及/或韌體之組合來實施,其中可提供必需硬體以執行軟體或韌體之指令。
擷取單元52可比較用戶端裝置40之解碼及再現能力與由資訊清單檔案66之資訊指示之表示68的特性。擷取單元52可最初擷取資訊清單檔案66之至少一部分以判定表示68之特性。舉例而言,擷取單元52可請求資訊清單檔案66之描述一或多個自適應集合之特性的部分。擷取單元52可選擇具有可由用戶端裝置40之寫碼及再現能力滿足之特性的表示68(例如,自適應集合)之子集。擷取單元52可接著判定自適應集合中之表示之位元速率,判定網路頻寬之當前可用量且自具有可由網路頻寬滿足之位元速率之表示中之一者擷取區段。
一般而言,較高位元速率表示可產生較高品質視訊播放,而較低位元速率表示可在可用網路頻寬減少時提供足夠品質視訊播放。因此,在可用網路頻寬相對高時,擷取單元52可自相對高位元速率表示擷取資料,而在可用網路頻寬較低時,擷取單元52可自相對低位元速率表示擷取資料。以此方式,用戶端裝置40可經由網路74串流多媒體資料同時亦適應於網路74之改變之網路頻寬可用性。
另外或替代地,擷取單元52可經組態以根據諸如eMBMS或IP多播之廣播或多播網路協定接收資料。在此等實例中,擷取單元52可提交請求以聯結與特定媒體內容相關聯之多播網路群組。在聯結多播群組之後,擷取單元52可接收多播群組之資料而無需將其他請求發佈至伺服器裝置60或內容準備裝置20。擷取單元52可提交請求以在不再需要多播群組之資料時離開多播群組(例如)以停止播放或將頻道改變至不同多播群組。
網路介面54可接收所選擇表示之區段的資料並將該資料提供至擷取單元52,該擷取單元可繼而將該等區段提供至解囊封單元50。解囊封單元50可將視訊檔案之要素解囊封成構成PES串流,將PES串流解封包以擷取經編碼資料,並視經編碼資料係音訊串流抑或視訊串流之部分(例如,如由串流之PES封包標頭所指示)將經編碼資料發送至音訊解碼器46或視訊解碼器48。音訊解碼器46將經編碼音訊資料解碼並將經解碼音訊資料發送至音訊輸出42,而視訊解碼器48將經編碼視訊資料解碼並將經解碼視訊資料發送至視訊輸出44,該經解碼視訊資料可包括串流之複數個視圖。
根據本發明之技術,資訊清單檔案66可傳訊區段可符合的本文中亦稱作區段之類型的各種區段格式。資訊清單檔案66亦可傳訊符合於每一格式之區段之位置(亦即,各種類型之區段中之每一者之位置)。舉例而言,資訊清單檔案66可傳訊各種類型之區段中之每一者 在表示68中之每一者中發生之頻率。
使用資訊清單檔案66,用戶端裝置40可達成媒體資料之低延遲播放。舉例而言,表示68中之一者(例如,表示68A)可包括處於相對高頻率之SAP,如由資訊清單檔案66所指示,而表示68中之另一者(例如,表示68N)可包括處於相對低頻率之SAP。特定而言,SAP可形成符合於特定格式(例如,隨機存取媒體區段格式及/或切換媒體區段格式)之區段之部分。此外,表示68可用於經由不同傳輸服務進行之擷取。舉例而言,表示68A可係經由單播可得的,而表示68N可係經由廣播可得的。
根據本發明之技術之一些實例,用戶端裝置40可根據以上實例判定表示68A包括相對高頻率之SAP(例如,高度頻繁之隨機存取媒體區段及/或高度頻繁之切換媒體區段),如由資訊清單檔案66所指示。此外,用戶端裝置40可判定表示68N包括相對低頻率之SAP,但亦具有相對較高品質。因此,為了起始媒體資料擷取,用戶端裝置40可藉由自表示68A擷取媒體區段開始,直至用戶端裝置40可切換至表示68N(例如,在68N之隨機存取媒體區段或切換媒體區段處),如由資訊清單檔案66所指示。下文關於(例如)圖7至圖14描述各種描述此等技術之實例之詳細使用狀況。
視訊編碼器28、視訊解碼器48、音訊編碼器26、音訊解碼器46、囊封單元30、擷取單元52及解囊封單元50各自可實施為各種適合處理電路中之任一者(如可適用),諸如一或多個微處理器、數位信號處理器(DSP)、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、離散邏輯電路、軟體、硬體、韌體或其任一組合。視訊編碼器28及視訊解碼器48中之每一者可包括在一或多個編碼器或解碼器中,該編碼器及解碼器中之任一者可整合為組合式視訊編碼器/解碼器(CODEC)之部分。同樣地,音訊編碼器26及音訊解碼器46中之每一 者可包括在一或多個編碼器或解碼器中,音訊編碼器及音訊解碼器中之任一者可整合為組合式CODEC之部分。包括視訊編碼器28、視訊解碼器48、音訊編碼器26、音訊解碼器46、囊封單元30、擷取單元52及/或解囊封單元50之設備可包含積體電路、微處理器,及/或諸如蜂巢式電話的無線通信裝置。
用戶端裝置40、伺服器裝置60及/或內容準備裝置20可經組態以根據本發明之技術操作。出於實例之目的,本發明描述關於用戶端裝置40及伺服器裝置60之此等技術。然而,應理解,替代伺服器裝置60(或除伺服器裝置60外),內容準備裝置20亦可經組態以執行此等技術。
囊封單元30可形成NAL單元,該等NAL單元包含識別NAL單元屬於之程式之標頭以及有效負載(例如,音訊資料、視訊資料或描述NAL單元對應於之輸送或程式串流的資料)。舉例而言,在H.264/AVC中,NAL單元包括1位元組標頭及具有變化大小之有效負載。在有效負載中包括視訊資料之NAL單元可包含各種粒度等級之視訊資料。舉例而言,NAL單元可包含視訊資料區塊、複數個區塊、視訊資料之圖塊,或視訊資料整個圖像。囊封單元30可接收來自視訊編碼器28之呈基礎串流之PES封包形式之經編碼視訊資料。囊封單元30可使每一基礎串流與對應程式相關聯。
囊封單元30亦可組譯來自複數個NAL單元之存取單元。一般而言,存取單元可包含用於表示視訊資料之圖框以及對應於該圖框之音訊資料(在此音訊資料可用時)的一或多個NAL單元。存取單元通常包括一個輸出時間執行個體之所有NAL單元,例如,一個時間執行個體之所有音訊及視訊資料。舉例而言,若每一視圖具有20個圖框/秒(fps)之圖框速率,則每一時間執行個體可對應於0.05秒之時間間隔。在此時間間隔期間,可同時再現相同存取單元(相同時間執行個體)之 所有視圖之特定圖框。在一項實例中,存取單元可包含一個時間執行個體中之經寫碼圖像,該經寫碼圖像可呈現為主要經編碼圖像。
因此,存取單元可包含共同時間執行個體之所有音訊及視訊圖框,例如,對應於時間X之所有視圖。本發明亦將特定視圖之經編碼圖像稱作「視圖分量」。即,視圖分量可包含特定時間之特定視圖之經編碼圖像(或圖框)。因此,存取單元可定義為包含共同時間執行個體之所有視圖分量。存取單元之解碼次序未必需要與輸出或顯示次序相同。
媒體呈現可包括媒體呈現描述(MPD),該媒體呈現描述可含有不同替代表示(例如,具有不同品質之視訊服務)之描述,且描述可包括(例如)寫碼解碼器資訊、設定檔值及等級值。MPD係諸如資訊清單檔案66之資訊清單檔案的一項實例。用戶端裝置40可擷取媒體呈現之MPD以判定如何存取各種呈現之影片片段。影片片段可位於視訊檔案之影片片段方塊(moof方塊)中。
資訊清單檔案66(其可包含例如MPD)可通告表示68之區段之可用性。即,MPD可包括指示表示68中之一者之第一區段變得可用之掛鐘時間的資訊以及指示表示68內之區段之持續時間的資訊。以此方式,用戶端裝置40之擷取單元52可基於在特定區段之前的區段之開始時間以及持續時間而判定每一區段可用之時間。
在囊封單元30已基於所接收資料將NAL單元及/或存取單元組譯至視訊檔案中之後,囊封單元30將視訊檔案傳遞至輸出介面32以供輸出。在一些實例中,囊封單元30可本端儲存視訊檔案或經由輸出介面32將視訊檔案發送至遠端伺服器,而非將視訊檔案直接發送至用戶端裝置40。輸出介面32可包含(例如)傳輸器,收發器,用於將資料寫入至(諸如)光碟機、磁性媒體碟機(例如,軟碟機)之電腦可讀媒體的裝置,通用串列匯流排(USB)埠,網路介面或其他輸出介面。輸出介面 32將視訊檔案輸出至電腦可讀媒體,諸如,傳輸信號、磁性媒體、光學媒體、記憶體、快閃磁碟機或其他電腦可讀媒體。
網路介面54可經由網路74接收NAL單元或存取單元且經由擷取單元52將NAL單元或存取單元提供至解囊封單元50。解囊封單元50可將視訊檔案之要素解囊封成構成PES串流,將PES串流解封包以擷取經編碼資料,並視經編碼資料係音訊串流抑或視訊串流之部分(例如,如由串流之PES封包標頭所指示)將經編碼資料發送至音訊解碼器46或視訊解碼器48。音訊解碼器46將經編碼音訊資料解碼並將經解碼音訊資料發送至音訊輸出42,而視訊解碼器48將經編碼視訊資料解碼並將經解碼視訊資料發送至視訊輸出44,該經解碼視訊資料可包括串流之複數個視圖。
根據本發明之技術,內容準備裝置20、伺服器裝置60及/或用戶端裝置40中之任一者或全部可經組態以執行用於根據新DASH設定檔(例如,進階實況設定檔)定義、傳訊及/或處理媒體資料之各種方法。同樣地,此等裝置中之任一者或全部可經組態以處理新類型之媒體區段,此情形可實現包括廣播及多播中之減少之頻道改變時間的延遲視訊串流,同時實現高效率視訊寫碼結構。通常,論述可單獨地或以任一組合之方式執行的以下態樣:
˙定義不同媒體區段類型及其結構。
˙審閱當前屬性。
˙解決方案考量因素。
˙MPD傳訊。
˙在區段中傳訊類型。
˙在MPD中傳訊類型。
˙實現針對不同使用狀況之自適應集合。
在一些實例中,內容準備裝置20、伺服器裝置60及用戶端裝置 40可經組態以利用符合於以下格式中之任一者之媒體區段:遞送單元媒體區段格式、隨機存取媒體區段格式、不重疊區段格式,及/或切換媒體區段格式。下文更詳細地描述此等格式。
符合於遞送單元媒體區段格式之媒體區段可定義如下:
˙每一媒體區段應含有一或多個完整的獨立影片片段。完整的獨立影片片段係影片片段(「moof」)方塊及含有不使用由影片片段方塊中執行之播放軌參考之外部資料參考之所有媒體樣本的媒體資料(「mdat」)方塊。
˙每一「moof」方塊應含有至少一個播放軌片段。
˙「moof」方塊不應使用外部資料參考,應設定旗標「default-base-is-moof」,且應使用data-offset,亦即,不應使用「base-data-offset-present」。此設定組合可稱作媒體資料之影片片段相關定址。
˙每一媒體區段可在區段類型方塊(「styp」)中攜載「dums」作為相容標籤。此標籤之符合性要求可如本發明中所定義。
符合於隨機存取媒體區段格式之媒體區段定義如下:
˙媒體區段應符合於如上文所規定之遞送單元媒體區段格式。
˙隨機存取媒體區段中之每一影片片段中之第一存取單元應對應於類型1、2,或3(例如,包括IDR、CRA,或BLA圖像)之SAP之ISAU
˙媒體區段應攜載足夠資訊以存取串流中之媒體,例如,與初始化區段(若可用)組合之所有必要加密。
˙每一「traf」方塊(播放軌片段方塊)應含有「tfdt」方塊(播放軌片段解碼時間方塊)。
˙每一媒體區段可在區段類型方塊(「styp」)中攜載「rams」作為相容標籤。此標籤之符合性要求在此次子句中定義。
˙每一媒體區段可含有一或多個「sidx」方塊。若存在,則第 一「sidx」方塊應放置在任一「moof」方塊之前且第一區段索引方塊應對整個區段進行註解。
符合於不重疊區段格式之媒體區段可定義如下:
˙媒體區段應符合於如上文所規定之遞送單元媒體區段格式。
˙在區段及其之前區段滿足不重疊性質之意義上,區段應滿足如ISO/IEC 23009-1之4.5.3中所定義之不重疊性質。
符合於切換媒體區段格式之媒體區段可定義如下:
˙媒體區段應符合於如上文所規定之隨機存取媒體區段格式。
˙切換媒體區段中之第一影片片段中之第一樣本應對應於類型1或2(例如,IDR圖像)之SAP之ISAU
˙每一媒體區段可在區段類型方塊(「styp」)中攜載「swms」作為相容標籤。此標籤之符合性要求在此次子句中定義。
各種格式之區段可執行不同功能。舉例而言,遞送單元媒體區段通常執行遞送媒體資料之功能。作為另一資料,隨機存取媒體區段執行將隨機存取點(包括初始化資料)提供至包括隨機存取媒體區段之表示的功能。不重疊區段可執行指示表示之間的區段對準之功能,其可實現簡單表示切換。切換媒體區段提供允許表示切換之功能,而無需包括針對隨機存取媒體區段將需要之額外初始化資料。
此外,內容準備裝置20、伺服器裝置60及用戶端裝置40可經組態以處理(例如)資訊清單檔案66(諸如MPD)中之表示上文所論述之格式之資料及/或根據本發明之技術之其他資料。以下特徵可在資訊清單檔案66中單獨或以任一組合方式傳訊:
˙表示中之每一媒體區段之類型,明確地傳訊或經由型樣傳訊。
˙在一個自適應集合中具有不同區段大小但仍具有對準之切換點(亦即,切換媒體區段同時開始)之能力。
˙minBufferTime及頻寬之計算的結果(應在隨機存取點處開始)。
針對表示68中之每一者,且可能在預設自適應集層級處,可在資訊清單檔案66中傳訊以下各項:
˙表示中之型樣:
o 每一區段具有類型遞送單元媒體區段,每第N區段係隨機存取媒體區段,每第M區段係切換區段,其中M>=N。某一縮寫及預設值可係可行的。
■此可以新屬性(rams頻率及swms頻率)來傳訊。
o 允許表達型樣而無需更新MPD的其他縮寫型樣。
˙區段時刻表中之型樣
o 在每一要素之區段時刻表中添加可選類型欄位。
■區段類型。
o 類型欄位亦可將型樣表達為上文之型樣。
o 使得能夠藉助區段時刻表中之S要素之更新來傳訊不規則性。
˙明確
o 在明確清單中添加允許傳訊區段型樣之欄位,可能與一些型樣交替。
o 此亦可包括區段持續時間之傳訊。
狀況可能係共同自適應集合中之表示具有不同區段持續時間。然而,切換之問題係跨越表示之切換點需要對準以變實現無縫切換。可如上文所論述傳訊切換點之位置。亦可考量以下傳訊:
˙所有表示具有位於相同位置處之切換點且其經對準。此可以單個旗標傳訊。
˙當在特定時間(在此狀況下,MPD時間,其可係複雜的)傳訊切換點時,則此切換點與表示中之所有其他切換點對準。此亦可以單 個旗標傳訊,且如上文所論述可使用相同旗標。
˙在一些實例中,甚至在不存在後續切換媒體區段之狀況下,仍不存在重疊,使得用戶端裝置40可自不重疊點切換至切換媒體區段。
˙另外可在資訊清單檔案66中傳訊切換點之其他更明確傳訊。
如上文所提到,在一些實例中,內容準備裝置20、伺服器裝置60,及/或用戶端裝置40可經組態以利用DASH之進階實況設定檔。進階實況設定檔可包括上文所定義之所有特徵及區段類型。進階實況設定檔可由統一資源名稱(URN)識別:「urn:mpeg:dash:profile:advanced-live:2015」。
在一些實例中,若進階實況設定檔用於自適應集合中,則:
˙每一切換媒體區段應在區段類型方塊(「styp」)中攜載「swms」作為相容標籤。
˙不攜載「swms」之每一隨機存取媒體區段應在區段類型方塊(「styp」)中攜載「rams」作為相容標籤。
本發明認識到MPD屬性之習知傳訊之以下問題及限制:
1.區段可用性時間之傳訊:
˙@duration或區段時刻表:
■提議係在新設定檔中簡化且出於此目的僅使用區段時刻表,此係因為其係@duration之超集。
■然而,區段時刻表由於其准許例外狀況而係更複雜的。
■亦需要解釋區段時刻表中之時間係確切區段持續時間(在內容創作中准許較少靈活性)抑或無漂移持續時間,且僅傳訊區段可用性時間。
■值得注意的是,藉由@timescale之恰當應用,可解決此問題。
2.自性質(亦即,不重疊)切換之傳訊
˙藉由在自適應集合中將區段對準設定為真。
■問題係此情形意謂每一區段需要具有相同持續時間。
■不重疊需要按更精細粒度表達。
3.隨機存取之傳訊
˙SAP之開始經設定為1、2或3:
■問題係此並未予以極其明確陳述。
■亦必須設定其他要求,參見隨機存取區段之延伸定義。
4.切換點之傳訊。
˙以SAP開始經設定為1或2:
■問題係此並未予以極其明確陳述。
o 可應用其他類型之切換,但此將要求更多想法。應添加某靈活性。
5.區段URL之傳訊
˙基於編號之模板
■問題係基本上存在每一區段在每一自適應集合中之每一表示中具有相同編號的假設。應注意,此並非要求,而是很可能在實施中予以假設。若做出改變以在一個自適應集合中具有不同大小之區段,則不再存在編號對應性。
■目前為簡單起見,不使用編號。
˙基於時間之模板
■問題係基本上存在每一區段在每一自適應集合中之每一表示中具有相同時間的假設。應注意,此並非要求,而是很可能在實施中予以假設。
■然而,亦應注意,此可在共同時刻表上表達。且時刻表相較於編號更適於表達不同表示之間的關係。
˙區段清單
■問題係此處清單位置對準區段且狀況可係命名係任意的。用戶端需要維持自適應集合中之每一表示之清單與次序的確切映射。
按需要用於指派不同片的本發明之技術。在一些實例中,伺服器裝置60及用戶端裝置40可根據以下方法來組態:
˙將持續時間/區段時刻表指派至遞送單元,此係因為其表達區段在伺服器處可用之時間。
o 時間依據媒體時間可能並不準確,但用於計算區段可用性開始時間。
o 此計時針對一個自適應集合中之不同表示可不同。舉例而言,可存在相較於其他表示藉助更多遞送單元可獲得之表示。參見使用狀況論述。
o 需要關於如何基於以上信號計算區段可用性開始時間的清除指令。現有模型係有效的,但若將根據本發明之技術使用用於區段可用性開始時間計算之現有模型,則現有模型開業者(practitioner)應確保恰當地使用現有模型。
o 此包括可針對某些表示或baseURL藉由可用性時間偏移來調整區段可用性時間。
o 需要闡明之另一重要問題係不規則區段持續時間如何影響可用性開始時間及傳訊。通常,區段應具有相同大小。
˙隨機存取可在不同表示中不同。
o 需要闡明的是,隨機存取是否僅在區段開始處係時間合理的或其是否亦可位於區段之中間。
o 根據4.2.2,該隨機存取當前位於區段之開始處,但若隨機存取點係不規則放置,則上述情形可導致不規則區段大小。
o 此情形再次影響延遲,此係因為區段可用性較難預測。
o 然而,作為工作假設,4.2.2模型應維持隨機存取位於區段之開始處。
˙隨機存取可在兩個域中(在時間中或在區段編號中)傳訊。
o 為了達成共同工具,可使用基於時間之方法。
˙在核心實驗中論述至少兩種切換方法:
o 位元串流切換:
■DASH用戶端並不知曉表示之內部結構。其僅知曉其可編接表示之位置且將此作為單個位元串流饋送至媒體解碼器。編碼器確保表示經編碼使得在囊封及媒體串流層級上滿足此性質。
■此將基本上准許用戶端產生如下序列/位元串流:
˙自適應集合之初始化區段
˙表示1之媒體區段1
˙…
˙表示1之媒體區段X
˙表示2之媒體區段X+1
˙…
o 切換係由媒體中之特定性質實現。此係在DASH中所進行之操作。產生關於可如何在檔案播出等級上進行切換之一些規則。基本規則係知曉區段對準是否經設定為真,SAP之開始係1或2,以下序列提供無縫切換:
■初始化區段表示1
■表示1之媒體區段1
■…
■表示1之媒體區段X
■初始化區段表示2
■表示2之媒體區段X+1
■…
o 以開放GOP或需要對媒體處理之更詳細理解之其他態樣進行切換。
可基於上文論述將延伸及限制應用於資訊清單檔案66(例如,MPD),其中延伸及限制可適用於新工具。舉例而言,可單獨地或以任一組合方式應用以下延伸:
˙在表示層級上添加以@timescale等級表達的新屬性@randomAccessPeriod(或用以表達隨機存取時段之任一其他手段)。$Time$下降至@timescale與@randomAccessPeriod之乘積的整數倍的任何區段係隨機存取區段,亦即,其准許存取此表示之自適應集合。
o 隨機存取可進一步經限定,(例如)什麼時段何種SAP類型(亦即,SAP類型1、2或3)可用。應注意,3將意謂所經歷SAP類型亦可係1或2。
˙添加具有兩個關於自適應集合層級之屬性(可存在一或多個)的新要素切換媒體區段(或用以表達切換之任一其他手段):
o 以@timescale等級表達之@period。$Time$下降至@timescale之乘積之整數倍且提供切換機會之任一時間位置,亦即,該時間位置准許切換至此表示。
o 啟用表達切換類型之@類型。定義至少兩種類型,即位元串流切換及媒體層級切換。可定義其他類型,諸如開放GOP切換。
用以表達此切換之另一方式將係使用描述符類型,其中描述符表達切換之類型及切換頻率之值。
˙在區段時刻表及S要素中,提供額外屬性@reset,其藉由預設而設定為假。重設意謂此時重設隨機存取時段及切換時段之週期性。此允許添加IDR且基本上以更任意時間重設區段時刻表。
以上情境未必支援區段模板提供上文所論述之區段可用性之使 用狀況。為了亦解決此使用狀況,可添加以下延伸:
˙添加具有兩個關於表示層級之屬性(可存在一或多個)的新要素切換(或用以表達切換之任一其他手段或要素):
o 以@timescale等級表達之@period。$Time$下降至@timescale之乘積之整數倍且提供切換至機會之任一時間位置,亦即,該時間位置准許切換至此表示。
o 啟用表達切換類型之@類型。定義至少兩種類型,即位元串流切換及媒體層級切換。可定義其他類型,諸如開放GOP切換。
以下限制經提議以應用於進階實況設定檔以便實現更進階使用狀況:
˙將單個@timescale用於一個自適應集合中之所有表示。
˙使用區段時刻表來傳訊區段持續時間(為簡單起見)。
o 僅使用$Time$來傳訊URL(現在為簡單起見)。
o 關於區段持續時間之計時係準確的(工作假設,需要理解結果)。
■區段持續時間之準確性可由使用中之@timescale(註釋)控制,例如,若時間標度僅係實際取樣速率的1/5,則具有關於準確取樣速率之某一靈活性。
o 區段時刻表係按表示以允許不同表示中之不同區段持續時間。然而,其可在自適應集合層級上預設。
o 區段時刻表可使用開放式@r(-1)或封閉式@r(>=0)。
˙區段對準及SAP之開始可用於回溯相容部署,但通常應不使用。傳訊必須始終由@randomAccessPeriod及切換要素提供。
˙需要確保若自適應集合含有一個以上表示,則在自適應集合層級上為表示提供切換邏輯。
儘管主要關於DASH描述,但本發明之技術亦可用於其他媒體格 式,諸如MPEG-2 TS(輸送串流)或WebM。
以此方式,用戶端裝置40表示用於擷取媒體資料之裝置之實例,該裝置包含一或多個處理器,該一或多個處理器經組態以擷取符合於遞送單元媒體區段格式、隨機存取媒體區段格式、不重疊區段格式或切換媒體區段格式中之至少一者的媒體區段,且至少部分基於媒體區段符合於遞送單元媒體區段格式、隨機存取媒體區段格式、不重疊區段格式抑或切換媒體區段格式來處理媒體區段。
用戶端裝置40亦表示用於擷取媒體資料之裝置之實例,該裝置包含一或多個處理器,該等處理器經組態以接收資訊清單檔案,該資訊清單檔案包括指示表示中之各種類型之媒體區段之型樣的資料;及至少部分地基於型樣擷取媒體區段中之一或多者。
此外,用戶端裝置40表示用於擷取媒體資料之裝置之實例,該裝置包括一或多個處理器,該一或多個處理器經組態以自資訊清單檔案判定媒體內容之表示中所包括之複數個區段類型、由該等區段類型中之每一者所提供之一或多個功能及符合於該表示中之該等區段類型中之每一者的區段之位置,其中該等區段類型中之至少一者提供開始自該表示擷取資料的點;自該資訊清單檔案判定該表示之符合於提供開始自該表示擷取資料之該點之該類型的區段;及自該表示擷取該所判定區段。
類似地,伺服器裝置60及內容準備裝置20表示用於發送媒體資料之裝置之實例,該裝置包含一或多個處理器,該等處理器經組態以形成符合於遞送單元媒體區段格式、隨機存取媒體區段格式、不重疊區段格式或切換媒體區段格式中之至少一者之媒體區段,並將媒體區段發送至用戶端裝置。
伺服器裝置60及內容準備裝置20亦表示用於發送媒體資料之裝置之實例,該裝置包含一或多個處理器,該等處理器經組態以將包括 指示表示中之各種類型之媒體區段之型樣之資料的資訊清單檔案發送至用戶端裝置,及回應於一或多個請求至少部分地基於型樣而將媒體區段中之一或多者發送至用戶端裝置。
伺服器裝置60及內容準備裝置20亦表示用於傳訊媒體資訊之裝置之實例,該裝置包括一或多個處理器,該一或多個處理器經組態以建構指示以下各項之資訊清單檔案:媒體內容之表示中所包括之複數個區段類型、由該等區段類型中之每一者所提供之一或多個功能、符合於該表示中之該等區段類型中之每一者的區段之位置,其中該等區段類型中之至少一者提供開始自該表示擷取資料的點,及該表示之符合於提供開始自該表示擷取資料之該點之該類型的區段;將該資訊清單檔案發送至用戶端裝置;及回應於來自該用戶端裝置之對符合於提供開始自該表示擷取資料之該點之該類型之區段的請求,將提供開始自該表示擷取資料之該點之該區段發送至該用戶端裝置。
圖5A係說明實例多媒體內容102之要素的概念圖。多媒體內容102可對應於多媒體內容64(圖4),或儲存於儲存媒體62中之另一多媒體內容。在圖5A之實例中,多媒體內容102包括媒體呈現描述(MPD)104及複數個表示110A至110N(表示110)。表示110A包括可選標頭資料112及區段114A至114N(區段114),而表示110N包括可選標頭資料122及區段124A至124N(區段124)。為方便起見,使用字母N來指定表示110中之每一者中之最後影片片段。在一些實例中,表示110之間可存在不同數目個影片片段。
MPD 104可包含與表示110分離之資料結構。MPD 104可對應於圖4之資訊清單檔案66。同樣地,表示110可對應於圖4之表示68。一般而言,MPD 104可包括大體描述表示110的諸如寫碼及再現特性之特性的資料、自適應集合、MPD 104對應之設定檔、文字類型資訊、攝影機角度資訊、評級資訊、技巧模式(trick mode)資訊(例如指示包 括時間子序列之表示的資訊),及/或針對擷取遠端時段的資訊(例如,針對播放期間至媒體內容中之目標廣告***的資訊)。
標頭資料112(當存在時)可描述區段114之特性,例如,隨機存取點(RAP,亦稱作串流存取點(SAP))之時間位置,區段114之隨機存取點包括隨機存取點、區段114內之至隨機存取點之位元組偏移、區段114之統一資源定位符(URL),或區段114之其他態樣。標頭資料122(當存在時)可描述區段124之類似特性。另外或替代地,此等特性可完全包括在MPD 104內。
區段114、124包括一或多個經寫碼視訊樣本,經寫碼視訊樣本中之每一者可包括視訊資料之圖框或圖塊。區段114之經寫碼碼視訊樣本中之每一者可具有類似特性,例如,高度、寬度及頻寬要求。此等特性可由MPD 104之資料描述,儘管圖5A之實例中未說明此資料。MPD 104可藉助添加本發明中所描述之傳訊資訊中之任一者或全部而包括如由3GPP規範所描述之特性。
區段114、124中之每一者可與獨特統一資源定位符(URL)相關聯。因此,可使用諸如DASH之串流網路協定來獨立地擷取區段114、124中之每一者。以此方式,諸如用戶端裝置40之目的地裝置可使用HTTP GET請求來擷取區段114或124。在一些實例中,用戶端裝置40可使用HTTP部分GET請求來擷取區段114或124之特定位元組範圍。
圖5B係說明根據本發明之技術之媒體呈現描述(MPD)104之實例內容的概念圖。一般而言,除MPD 104中所傳訊之其他資料外,在圖5B之實例中,MPD 104包括時段資訊130、自適應集合資訊132及表示資訊134A至134N(表示資訊134)。儘管此實施例中僅展示單個集合之自適應集合資訊132,但應理解,一般而言,可包括複數個集合之自適應集合資訊。同樣地,儘管僅展示單個集合之時段資訊130,但應理解,一般而言,可包括複數個集合之時段資訊。
根據本發明之技術,表示資訊134A包括區段類型資訊136A、區段功能資訊138A及區段位置140A。同樣地,表示資訊134N包括區段類型資訊136N、區段功能資訊138N及區段位置140N。一般而言,區段類型資訊136A、136N描述分別對應於表示資訊134A、134N之表示中所包括之各種類型之區段。舉例而言,區段類型136A、136N可包括遞送單元媒體區段類型(或格式)、隨機存取媒體區段類型(或格式)、不重疊區段類型(或格式)及切換媒體區段類型(或格式)中之任一者或全部。
區段功能資訊138A、138N通常描述由各種區段類型執行之功能。舉例而言,區段功能資訊138A、138N可描述由以下各項中之任一者或全部執行之功能:遞送單元媒體區段類型(或格式)、隨機存取媒體區段類型(或格式)、不重疊區段類型(或格式)及切換媒體區段類型(或格式),假定此等類型/格式存在於對應區段類型資訊136A、136N中。區段功能資訊138A、138N可指示遞送單元媒體區段類型通常用於攜載媒體資料,隨機存取媒體區段類型用於提供隨機存取點(其包括初始化資訊),不重疊區段類型指示此等區段不與同一表示或其他表示之其他區段重疊,且切換媒體區段類型允許自適應集合內之表示之間的切換。
區段位置資訊140A、140N可通常傳訊對應表示內之各種類型之區段之位置(或定位)。舉例而言,區段位置資訊140A、140N可傳訊遞送單元媒體區段類型、隨機存取媒體區段類型、不重疊區段類型及/或切換媒體區段類型中之每一者的區段在對應表示內發生之頻率。區段位置資訊140A、140N可指示呈型樣形式之此資訊(例如,每第N區段係類型X區段)。另外或替代地,區段位置資訊140A、140N可明確地列出個別區段之位置。
圖6係說明可對應於表示之區段(諸如圖5A之區段114、124中之 一者)之實例視訊檔案150之要素的方塊圖。區段114、124中之每一者可包括大體上符合於圖6之實例中所說明之資料之配置的資料。可認為視訊檔案150囊封區段。如上文所描述,根據ISO基本媒體檔案格式及其延伸之視訊檔案將資料儲存於一系列稱作「方塊」之物件中。在圖6之實例中,視訊檔案150包括檔案類型(FTYP)方塊152、影片(MOOV)方塊154、區段索引(sidx)方塊162、影片片段(MOOF)方塊164及影片片段隨機存取(MFRA)方塊166。儘管圖6表示視訊檔案之實例,但應理解,根據ISO基本媒體檔案格式及其延伸,其他媒體檔案可包括類似於視訊檔案150之資料結構化的其他類型之媒體資料(例如,音訊資料、定時文字資料或其類似者)。
檔案類型(FTYP)方塊152通常描述視訊檔案150之檔案類型。檔案類型方塊152可包括識別描述視訊檔案150之最佳使用之規範的資料。檔案類型方塊152可替代地放置在MOOV方塊154、影片片段方塊164及/或MFRA方塊166之前。
在一些實例中,諸如視訊檔案150之區段可包括在FTYP方塊152之前的MPD更新方塊(未展示)。MPD更新方塊可包括指示將更新對應於包括視訊檔案150之表示之MPD的資訊,連同用於更新MPD之資訊。舉例而言,MPD更新方塊可為待用於更新MPD之資源提供URI或URL。作為另一實例,MPD更新方塊可包括用於更新MPD之資料。在一些實例中,MPD更新方塊可緊在視訊檔案150之區段類型(STYP)方塊(未展示)之後,其中STYP方塊可定義視訊檔案150之區段類型。下文更詳細論述之圖7提供關於MPD更新方塊之額外資訊。
在圖6之實例中,MOOV方塊154包括影片標頭(MVHD)方塊156、播放軌(TRAK)方塊158及一或多個影片延伸(MVEX)方塊160。一般而言,MVHD方塊156可描述視訊檔案150之一般特性。舉例而言,MVHD方塊156可包括描述起初產生視訊檔案150之時間、最後修 改視訊檔案150之時間、視訊檔案150之時間標度、視訊檔案150之播放持續時間之資料,或大體描述視訊檔案150之其他資料。
TRAK方塊158可包括關於視訊檔案150之播放軌之資料。TRAK方塊158可包括描述對應於TRAK方塊158之播放軌之特性的播放軌標頭(TKHD)方塊。在一些實例中,TRAK方塊158可包括經寫碼視訊圖像,而在其他實例中,播放軌之經寫碼視訊圖像可包括在可由TRAK方塊158及/或SIDX方塊162之資料所參考之影片片段164中。
在一些實例中,視訊檔案150可包括一個以上播放軌。因此,MOOV方塊154可包括等於視訊檔案150中之播放軌之數目的數目個TRAK方塊。TRAK方塊158可描述視訊檔案150之對應播放軌之特性。舉例而言,TRAK方塊158可描述對應播放軌之時間及/或空間資訊。在囊封單元30(圖4)在視訊檔案(諸如視訊檔案150)中包括參數集播放軌時,類似於MOOV方塊154之TRAK方塊158之TRAK方塊可描述參數集播放軌之特性。囊封單元30可在描述參數集播放軌之TRAK方塊內傳訊序列層級SEI訊息於參數集播放軌中的存在。
除包括在MOOV方塊154(若存在)內之視訊資料外,MVEX方塊160可描述對應影片片段164之特性以(例如)傳訊視訊檔案150包括影片片段164。在串流視訊資料之內容脈絡中,經寫碼視訊圖像可包括在影片片段164中而非MOOV方塊154中。因此,所有經寫碼視訊樣本可包括在影片片段164中而非在MOOV方塊154中。
MOOV方塊154可包括等於視訊檔案150中之影片片段164之數目的數目個MVEX方塊160。MVEX方塊160中之每一者可描述影片片段164之對應影片片段之特性。舉例而言,每一MVEX方塊可包括描述影片片段164中之對應影片片段之持續時間的影片延伸標頭方塊(MEHD)方塊。
如上文所提及,囊封單元30可將序列資料集儲存在不包括實際 寫碼視訊資料之視訊樣本中。視訊樣本可通常對應於存取單元,該存取單元係特定時間執行個體處之經寫碼圖像之表示。在AVC之內容脈絡中,經寫碼圖像包括含有用以建構存取單元之所有像素之資訊的一或多個VCL NAL單元,及諸如SEI訊息之其他相關聯非VCL NAL單元。因此,囊封單元30可在影片片段164中之一者中包括序列資料集,該序列資料集可包括序列層級SEI訊息。囊封單元30可進一步在對應於影片片段164中之一者之MVEX方塊160中之一者內將序列資料集及/或序列層級SEI訊息之存在傳訊為存在於影片片段164中之一者中。
SIDX方塊162係視訊檔案150之可選要素。即,符合於3GPP檔案格式或其他此等檔案格式之視訊檔案未必包括SIDX方塊162。根據3GPP檔案格式之實例,SIDX方塊可用於識別區段(例如,視訊檔案150內所含之區段)之子區段。3GPP檔案格式將子區段定義為「一或多個連續影片片段方塊與對應(多個)媒體資料方塊之獨立集合且含有影片片段方塊所參考之資料之媒體資料方塊必須在彼影片片段方塊之後且在含有關於相同播放軌之資訊之下一影片片段方塊之前」。3GPP檔案格式亦指示SIDX方塊「含有對由該方塊文件加注之(子)區段之子區段之參考序列。所參考子區段在呈現時間上係連續的。類似地,由區段索引方塊參考之位元組在區段內始終係連續的。所參考大小給出所參考材料中之位元組之數目之計數。」
SIDX方塊162通常提供表示視訊檔案150中所包括之區段之一或多個子區段的資訊。舉例而言,此資訊可包括子區段開始及/或結束之播放時間、子區段之位元組偏移、子區段是否包括串流存取點(SAP)(例如,以其開始)、SAP之類型(例如,SAP係瞬時解碼器再新(IDR)圖像、清潔隨機存取(CRA)圖像、斷鏈存取(BLA)圖像抑或其類似者)、SAP(依據播放時間及/或位元組偏移)在子區段中之位置,及 其類似者。
影片片段164可包括一或多個經寫碼視訊圖像。在一些實例中,影片片段164可包括一或多個圖像群組(GOP),該等圖像群組中之每一者可包括多個經寫碼視訊圖像,例如圖框或圖像。另外,如上文所描述,影片片段164在一些實例中可包括序列資料集。影片片段164中之每一者可包括影片片段標頭方塊(MFHD,圖6中未展示)。MFHD方塊可描述對應影片片段之特性,諸如影片片段之序號。影片片段164可以序號之次序包括在視訊檔案150中。
MFRA方塊166可描述視訊檔案150之影片片段164內之隨機存取點。此可輔助執行技巧模式,諸如執行對由視訊檔案150囊封之區段內之特定時間位置(亦即,播放時間)之尋求。在一些實例中,MFRA方塊166通常係可選的且不需要包括在視訊檔案中。同樣地,諸如用戶端裝置40之用戶端裝置未必需要參考MFRA方塊166來正確地解碼並顯示視訊檔案150之視訊資料。MFRA方塊166可包括等於視訊檔案150之播放軌之數目或(在一些實例中)等於視訊檔案150之媒體播放軌(例如,非提示播放軌)之數目的數目個播放軌片段隨機存取(TFRA)方塊(未展示)。
在一些實例中,影片片段164可包括一或多個串流存取點(SAP),諸如IDR圖像。同樣地,MFRA方塊166可提供SAP之視訊檔案150內之位置之指示。因此,視訊檔案150之時間子序列可由視訊檔案150之SAP形成。時間子序列亦可包括其他圖像,諸如取決於SAP之P圖框及/或B圖框。時間子序列之圖框及/或圖塊可配置在區段內,使得可恰當地解碼取決於子序列之其他圖框/圖塊的時間子序列之圖框/圖塊。舉例而言,在資料之階層配置中,用於對其他資料之預測之資料亦可包括在時間子序列中。
進階實況設定檔係側重於實況服分佈之預期新設定檔。未必認 為所預期設定檔與延伸共同設定檔回溯相容。然而,認為內容提供者可在認為必要之情況下產生內容之回溯相容版本。下文所論述之圖表示本發明之技術可應用於其之各種使用狀況。
圖7係說明針對根據本發明之技術的使用狀況之實例區段供應的概念圖。特定而言,圖7說明自適應集合230,其包括表示232及表示234。表示232包括區段236A至236E,其包括IDR區段236A及IDR區段236E;而表示234包括區段238A至238A,其包括IDR區段238A及IDR區段238E。
此使用狀況包括低延遲視訊串流服務及切換。假定區段為0.5秒持續時間(依據播放時間)且圖框速率係50圖框/秒(FPS)。在此實例中,且基於本發明之技術,建置及傳訊可如下:
˙每第四區段係切換/IDR(瞬時解碼器再新)區段
˙每一區段係遞送單元
對於根據圖7之自適應集合230,傳訊可係如下:
˙AdaptationSet
o @timescale=50
o SegmentTimeline.S:@t=0,@d=25,@r=-1
o @randomAccessPeriod=100
o 切換:@period=100,@type=”media”
o SegmentTemplate@media=”http://example.com/$RepresentationID$”/segment_$Time$.mp4
■表示:@id=232
■表示:@id=234
關於圖1描述包括低延遲視訊串流服務及切換的根據本發明之技術的另一使用狀況。圖1說明在此使用狀況之狀況下供應的區段。假定短區段係0.5秒持續時間且圖框速率係50FPS。基於上文所論述之 技術,對於此使用狀況之建置及傳訊可係如下:
˙每一區段係隨機存取區段。
˙廣播表示中之區段係單播表示中之彼等區段之大小的四倍。
˙廣播/單播重疊之位置處之區段係切換區段。
對於根據圖7之自適應集合230,傳訊可係如下:
˙AdaptationSet
o @timescale=50
o 切換:@period=100,@type=”media”
o SegmentTemplate@media=”http://example.com/$RepresentationID$”/segment_$Time$.mp4
■表示:@id=1,@randomAccessPeriod=100
˙SegmentTimeline.S:@t=0,@d=100,@r=-1
■表示:@id=2,@randomAccessPeriod=25
˙SegmentTimeline.S:@t=0,@d=25,@r=-1
圖8係說明根據本發明之技術之包括以可調式HEVC(SHVC)快速調諧之使用狀況的概念圖。圖8之實例說明包括基本層(單播)表示242及增強層(廣播)表示244之自適應集合240。基本層表示242包括區段246A至246E(區段246),而增強層表示244包括區段248A、248B(區段248)。假定短區段係0.5秒持續時間且圖框速率係50FPS。基於上文所描述之技術,建置及傳訊可係如下:
˙區段246、248中之每一者係隨機存取區段(儘管區段246A在圖8中經展示為包括IDR,但隨機存取點未必被認為係IDR,此係因為可存在其他功能入口點。開放GOP可係足夠的。)
˙增強層表示244(亦即,廣播表示)中之區段248係基本層表示242(亦即,單播表示)中之區段246之時間持續時間的四倍。
對於根據圖8之實例之自適應集合240,傳訊可如下:
˙AdaptationSet
o @timescale=50
o 切換:@period=100,@type=”media”
o SegmentTemplate@media=”http://example.com/$RepresentationID$”/segment_$Time$.mp4
■表示:@id=242,@randomAccessPeriod=25
˙SegmentTimeline.S:@t=0,@d=25,@r=-1
■表示:@id=244,@randomAccessPeriod=100,@dependencyID=242
˙SegmentTimeline.S:@t=0,@d=100,@r=-1
圖9係說明根據本發明之技術的包括以串流存取點(SAP)類型3之快速調諧之實例使用狀況的概念圖。特定而言,在圖9之實例中,自適應集合254包括表示250,該表示包括區段252A至252E,該等區段中之每一者包括開放GOP。儘管圖9中未展示,但自適應集合254亦可包括除表示250外之表示。假定短區段係0.5秒持續時間且圖框速率係50FPS。對於根據圖9之實例之自適應集合254,傳訊可係如下:
˙AdaptationSet
o @timescale=50
o @randomAccessPeriod=25
o SegmentTimeline.S:@t=0,@d=25,@r=-1
o SegmentTemplate@media=”http://example.com/$RepresentationID$”/segment_$Time$.mp4
■表示:@id=250
圖10係說明包括快速調諧及混雜化之實例使用狀況的概念圖。特定而言,在此實例中,自適應集合260包括表示262及表示264。表示262包括區段266A至266F(區段266),而表示264包括區段268A至 268F(區段268)。假定短區段係0.5秒持續時間且圖框速率係50FPS。基於上文所論述之技術,建置及傳訊可如下:
˙每一區段係隨機存取區段。
˙每第四區段係用於媒體切換之切換區段。
對於根據圖10之自適應集合260,傳訊可如下:
˙AdaptationSet
o @timescale=50
o SegmentTimeline.S:@t=0,@d=25,@r=-1
o @randomAccessPeriod=25
o 切換:@period=100,@type=”media”
o SegmentTemplate@media=”http://example.com/$RepresentationID$”/segment_$Time$.mp4
■表示:@id=262
■表示:@id=264
圖11係說明包括快速調諧、混雜化及開放GOP之實例使用狀況的概念圖。圖11中展示與圖10中之區段供應相同之區段供應。另外,圖11之實例說明區段遍歷270,其表示由諸如用戶端裝置40(圖1)之用戶端裝置所擷取之區段。即,用戶端裝置40可起初擷取表示262之區段266A,接著切換至表示264(例如,由於可用網路頻寬之改變)。為了進行切換,用戶端裝置40可擷取區段268B。在此實例中,區段266A係IDR區段,而區段268B係開放GOP區段。根據本發明之技術,因為區段268B係開放GOP區段,所以用戶端裝置40可在268B處實現切換,而無需等待表示264之IDR區段(例如,區段268E)。用戶端裝置40亦擷取表示264之區段268C。隨後,用戶端裝置40再次切換表示,此次切換至表示262,從而擷取亦係開放GOP區段之區段266D。在此實例中,用戶端裝置40根據區段遍歷270自表示262擷取區段266E及 266F。
切換可在類型3之SAP處發生。假定短區段係0.5秒持續時間且圖框速率係50FPS。基於上文所論述之技術,建置及傳訊可係如下:
˙每一區段係隨機存取區段。
˙每第四區段係用於媒體切換之切換區段。
˙每個區段係用於開放GOP切換之切換區段。
對於根據圖11之自適應集合260,傳訊可係如下:
˙AdaptationSet
o @timescale=50
o SegmentTimeline.S:@t=0,@d=25,@r=-1
o @randomAccessPeriod=25
o 切換:@period=100,@type=”media”
o 切換:@period=25,@type=”open GOP”
o SegmentTemplate@media=”http://example.com/$RepresentationID$”/segment_$Time$.mp4
■表示:@id=262
■表示:@id=264
圖12係說明包括快速調諧及混雜化以及開放GOP之另一實例使用狀況的概念圖。在此實例中,自適應集合280包括單播表示282及多播表示284。單播表示282包括區段286A至286F(區段286),而廣播表示284包括區段288A、288B(區段288)。假定短區段係0.5秒持續時間且圖框速率係50FPS。基於上文所論述之技術,建置及傳訊可係如下:
˙每一區段係隨機存取區段。
˙廣播表示284中之區段288係單播表示282中之區段286之持續時間的4倍。
˙廣播/單播重疊之位置處之區段(例如,區段286A、286E、 288A、288B)係切換區段。
對於根據圖12之自適應集合280,傳訊可如下:
˙AdaptationSet
o @timescale=50
o 切換:@period=100,@type=”media”
o SegmentTemplate@media=”http://example.com/$RepresentationID$”/segment_$Time$.mp4
■表示:@id=282,@randomAccessPeriod=100
˙SegmentTimeline.S:@t=0,@d=100,@r=-1
■表示:@id=284,@randomAccessPeriod=25
˙SegmentTimeline.S:@t=0,@d=25,@r=-1
圖13係說明包括快速調諧及極其低延遲之實例使用狀況的概念圖。在此實例中,自適應集合290包括單播表示292及廣播表示294。單播表示292包括區段296A至296F(區段296),而廣播表示294包括區段298A、298B(區段298)。假定短區段係0.5秒持續時間且圖框速率係50FPS。基於上文所論述之技術,建置及傳訊可如下:
˙每一區段係隨機存取區段。
˙廣播表示294中之區段298係單播表示292中之區段296之持續時間的4倍。
˙廣播/單播重疊之位置處之區段(例如,區段296A、296E、298A、298B)係切換區段。
此外,並非表示292之所有區段296提供用於切換之資訊。舉例而言,區段296C允許自廣播表示294切換至單播表示292(例如,在廣播服務變得不可用之條件下)。然而,區段296B、296D及296F符合於遞送單元媒體區段格式,且不包括切換點。此允許將區段296B、296D及296F之更多位元分配至非框內預測圖框(例如,框間預測圖 框),(例如)使得此等圖框可以較高品質寫碼。
對於根據圖13之自適應集合290,傳訊可係如下:
˙AdaptationSet
o @timescale=50
o 切換:@period=100,@type=”media”
o SegmentTemplate@media=”http://example.com/$RepresentationID$”/segment_$Time$.mp4
■表示:@id=292,@randomAccessPeriod=100
˙SegmentTimeline.S:@t=0,@d=100,@r=-1
■表示:@id=294,@randomAccessPeriod=50
˙SegmentTimeline.S:@t=0,@d=25,@r=-1
圖14係說明包括快速調諧及極其低延遲之另一實例使用狀況的概念圖。在此實例中,自適應集合300包括表示302及表示304。表示302包括區段306A至306F(區段306),而表示304包括區段308A至308F(區段308)。假定短區段係0.5秒持續時間且圖框速率係50FPS。基於上文所論述之技術,建置及傳訊可如下:
˙表示302中之區段306中之每一者係隨機存取區段。
即,如圖14中所展示,區段306中之每一者包括IDR圖像。然而,表示304之區段308A及308E包括IDR圖像,而區段308B、308C、308D及308F不包括IDR圖像。此情形允許諸如用戶端裝置40(圖1)之用戶端裝置藉由以下操作而迅速調諧至自適應集合300之媒體內容:擷取區段306中之最近可用者,接著在包括IDR之區段308中之下一者可用時切換至表示304。
對於根據圖14之自適應集合300,傳訊可係如下:
˙AdaptationSet
o @timescale=50
o 切換:@period=100,@type=”media”
o SegmentTimeline.S:@t=0,@d=25,@r=-1
o SegmentTemplate@media=”http://example.com/$RepresentationID$”/segment_$Time$.mp4
■表示:@id=302,@randomAccessPeriod=25
˙切換:@period=25,@type=”media”
■表示:@id=304,@randomAccessPeriod=100
˙切換:@period=100,@type=”media”
以此方式,本發明之技術包括
˙額外新區段類型。
˙針對切換及@randomAccessPeriod之額外MPD傳訊。
˙對不同類型之切換的定義。
o 媒體切換:區段對準及SAP類型1或2。
o 位元串流切換:准許序連。
o 開放GOP切換
˙添加註解延伸及限制之設定檔。
˙對關於回溯相容性之任何問題註解。
˙提供更多詳細實例。
仍存在開放式問題及替代方案。以下問題仍然保持為開放的:
˙作為對本發明之技術之添加或替代方案之基於編號之傳訊係可能的,其可提供某些暗示及益處。
˙作為對本發明之技術之添加或替代方案之不同類型之開放GOP切換亦係可能的,其可並行重新取樣或不重新取樣。
˙可關於上文所論述之彼等媒體格式而使用額外或替代媒體格式。
˙在一些實例中,除完整區段外或替代完整區段,亦可使用子 區段。諸如上文圖6中所展示之區段索引方塊(SIDX)可傳訊子區段之位置,及/或可傳訊額外資訊(例如,在檔案後設資料中及/或在資訊清單檔案中,諸如在MPD中)。
圖15係說明根據本發明之技術之用於擷取媒體內容之表示之區段之實例方法的流程圖。圖15之方法經描述為由圖4之伺服器裝置60及用戶端裝置40執行。然而,應理解,方法可由其他裝置執行。舉例而言,歸因於伺服器裝置之方法之全部或部分可由圖4之內容準備裝置20執行(例如,除圖4之伺服器裝置60外或替代該伺服器裝置)。同樣地,歸因於用戶端裝置之方法之全部或部分可由用戶端裝置之中間軟體單元執行,該中間軟體單元經組態以經由廣播及/或單播傳輸接收媒體資料。
在此實例中,伺服器裝置60最初接收經寫碼媒體串流(320)。在一些實例中,伺服器裝置60自內容準備裝置20接收經寫碼媒體串流,而在其他實例中,伺服器裝置60可包括一或多個編碼器以編碼原始媒體資料以形成經寫碼媒體串流。
在此實例中,伺服器裝置60接著判定經寫碼媒體串流內之區段之類型及位置(322)。在一些實例中,伺服器裝置60可形成區段(即,可獨立擷取之檔案),而在其他實例中,伺服器裝置60可接收區段作為經寫碼媒體串流之部分並進行分析,且基於該等區段之特性而判定其類型。上文論述各種類型之區段之特性,諸如遞送單元媒體區段、隨機存取媒體區段、不重疊區段及切換媒體區段。因此,伺服器裝置60可分析每一區段以判定此等區段類型中之哪些區段類型匹配所分析之區段之特性。此外,伺服器裝置60可判定經寫碼媒體串流內之每一類型之區段之位置。舉例而言,伺服器裝置60可判定每一區段類型發生之頻率。作為實例,關於圖7,包括IDR之區段(即,隨機存取媒體區段)在表示232、234中之每一者之每第四區段發生。
在此實例中,伺服器裝置60接著建構傳訊區段之類型及位置之資訊清單檔案(諸如MPD)(324)。替代地,伺服器裝置60可自內容準備裝置20接收根據本發明之技術部分或完整建構之資訊清單檔案。伺服器裝置60可建構資訊清單檔案以包括資訊(即,「信號」),即由資訊清單檔案表示之每一自適應集合之每一對應表示內之區段之類型及位置。伺服器裝置60可建構資訊清單檔案以包括類似於上文關於圖7至圖14之實例所論述之彼資料的資料。應理解,資訊清單檔案與表示及表示自身之媒體資料分離。舉例而言,資訊清單檔案可用於與對由資訊清單檔案所描述之媒體資料(例如,區段或區段之部分)所做出之請求分離的請求。
伺服器裝置60可接著將資訊清單檔案輸出(326)(例如)至用戶端裝置40。在一些實例中,用戶端裝置40可最初(例如)經由對資訊清單檔案之單播請求而請求資訊清單檔案。在其他實例中,用戶端裝置40可訂用廣播傳輸,且伺服器裝置60可經由廣播週期性地輸出資訊清單檔案。在任一狀況下,用戶端裝置40可接收由伺服器裝置60輸出之資訊清單檔案(328)。
用戶端裝置40可接著自資訊清單檔案而判定區段之類型及位置(330)。舉例而言,用戶端裝置40可判定資訊清單檔案指示特定自適應集合包括表示,該等表示包括(例如)遞送單元媒體區段、隨機存取媒體區段、不重疊區段及切換媒體區段。用戶端裝置40亦可判定此等類型之區段中之每一者之位置。舉例而言,用戶端裝置40可自資訊清單檔案而判定此等類型之區段中之全部或部分發生之頻率。
用戶端裝置40可判定表示中自其開始擷取媒體資料之一者。用戶端裝置40可執行上文所論述之各種使用狀況中之任一者。為了達成低延遲播放,用戶端裝置40可判定表示中之哪一者(若存在)具有包括串流存取點(SAP)(例如,IDR圖框)之最頻繁區段。此表示可包括可 用於經由單播進行擷取之區段。用戶端裝置40可經組態以最初自單播表示擷取此等區段,接著在廣播表示之下一可用SAP處切換至廣播表示(再次,如資訊清單檔案所指示)。
在任一狀況下,用戶端裝置40可判定表示之提供開始點之區段(332)。如上文所論述,區段可包含隨機存取媒體區段,即符合於隨機存取媒體區段格式。同樣地,用戶端裝置40可(例如)根據由資訊清單檔案規定之模板而判定用於所判定區段之統一資源定位符(URL)。用戶端裝置40可接著(例如)藉由將對URL之HTTP Get或部分Get請求發出至伺服器裝置60而請求所判定區段(334)。
伺服器裝置60可接著接收請求(336)且接著回應於該請求而將所請求區段發送至用戶端裝置40(338)。在接收到區段(340)之後,用戶端裝置40可最初緩衝所接收區段之資料,接著最終將所接收區段之資料解碼並呈現(342)。
如上文所論述,在最初擷取表示之所判定區段之後,用戶端裝置40可判定是否且何時切換至不同表示。舉例而言,最初表示可包括極其頻繁之SAP,且目標表示可包括相對不頻繁SAP。用戶端裝置40可繼續自初始表示請求區段直至到達包括目標表示之SAP(例如,隨機存取媒體區段或切換媒體區段)之區段。接著,用戶端裝置40可開始自目標表示請求區段(在目標表示經由單播可獲得之條件下)或訂用正輸送目標表示之媒體資料之廣播服務(在目標表示經由廣播可獲得之條件下)。
以此方式,圖15表示包括以下步驟之方法的實例:自資訊清單檔案判定媒體內容之表示中所包括之複數個區段類型、由該等區段類型中之每一者所提供之一或多個功能及符合於該表示中之該等區段類型中之每一者的區段之位置,其中該等區段類型中之至少一者提供開始自該表示擷取資料的點;自該資訊清單檔案判定該表示之符合於提 供開始自該表示擷取資料之該點之該類型的區段;及自該表示擷取該所判定區段。
圖15亦表示包括以下步驟之方法的實例:建構指示以下各項之資訊清單檔案:媒體內容之表示中所包括之複數個區段類型、由該等區段類型中之每一者所提供之一或多個功能、符合於該表示中之該等區段類型中之每一者的區段之位置,其中該等區段類型中之至少一者提供開始自該表示擷取資料的點,及該表示之符合於提供開始自該表示擷取資料之該點之該類型的區段;將該資訊清單檔案發送至用戶端裝置;及回應於來自該用戶端裝置對符合於提供開始自該表示擷取資料之該點之該類型之區段的請求,將提供開始自該表示擷取資料之該點之該區段發送至該用戶端裝置。
在一或多個實例中,所描述功能可以硬體、軟體、韌體或其任一組合來實施。若以軟體實施,則功能可作為一或多個指令或程式碼儲存在電腦可讀媒體上或經由其傳輸且由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體,其對應於諸如資料儲存媒體之有形媒體,或包括促進(例如)根據通信協定將電腦程式自一個位置傳送至另一位置之任一媒體的通信媒體。以此方式,電腦可讀媒體通常可對應於(1)非暫時性之有形電腦可讀儲存媒體或(2)諸如信號或載波之通信媒體。資料儲存媒體可係可由一或多個電腦或一或多個處理器存取以擷取用於實施本發明中所描述之技術之指令、程式碼及/或資料結構的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
藉由實例之方式且非限制地,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存裝置、快閃記憶體或可用於以儲存呈指令或資料結構之形式的所要程式碼且可由電腦存取之任何其他媒體。此外,任一連接恰當地稱作電腦可讀媒體。舉例而言,若使用同軸電纜、光纖纜 線、雙絞線、數位用戶線(DSL)或諸如紅外線、無線電及微波等無線技術自網站、伺服器或其他遠端源傳輸指令,則該同軸電纜、光纖纜線、雙絞線、DSL或諸如紅外線、無線電及微波等無線技術皆包括於媒體之定義中。然而,應理解電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,但替代地係針對非暫時性有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位多功能光碟(DVD)、軟碟及藍光光碟,其中磁碟通常以磁性方式再生資料,而光碟藉由雷射以光學方式再生資料。上述各項之組合亦應包括在電腦可讀媒體之範疇內。
指令可由諸如以下各者之一或多個處理器執行:一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效積體或離散邏輯電路。因此,如本文中所使用之術語「處理器」可係指前述結構或適於實施本文中所描述之技術之任何其他結構中之任一者。另外,在一些態樣中,本文中所描述之功能性可提供在經組態以用於編碼及解碼或併入於組合式寫碼解碼器中之專用硬體及/或軟體模組內。此外,技術可以一或多個電路或邏輯元件來完全實施。
本發明之技術可以廣泛之各種裝置或設備(包括無線手機、積體電路(IC)或IC組(例如,晶片組))實施。各種組件、模組或單元在本發明中經描述以強調經組態以執行所揭示技術之裝置之功能態樣,而未必需要由不同硬體單元實現。確切而言,如上文所描述,各種單元可以寫碼解碼硬體單元組合或藉由交互操作硬體單元之集合(包括如上文所描述之一或多個處理器)結合適合軟體及/或韌體而提供。
已描述了各種實例。此等及其他實例係在以下申請專利範圍之範疇內。

Claims (13)

  1. 一種擷取媒體資料之方法,該方法包含:自一伺服器裝置接收包含資訊之一資訊清單檔案,該資訊指示包含於一媒體內容之一表示中之媒體區段符合複數個區段類型之哪一類型,其中媒體區段之該複數個類型包括:一遞送單元媒體區段格式,其中符合該遞送單元媒體區段格式之一媒體區段含有一或多個完整的獨立影片片段;一隨機存取媒體區段格式,其中符合該隨機存取媒體區段格式之一媒體區段符合該遞送單元媒體區段格式,及其中在該區段之該等影片片段之每一者中之一第一存取單元係類型1、2或3之一國際標準組織(ISO)基本媒體檔案格式串流存取點(SAP)之一ISAU;一不重疊媒體區段格式,其中符合該不重疊媒體區段格式之一媒體區段符合該遞送單元媒體區段格式且不與該表示中之其他區段及包括該表示之一自適應集合中之其他表示中之其他區段之開始時間及結束時間重疊;及一切換媒體區段格式,其中符合該切換媒體區段格式之一媒體區段符合該隨機存取媒體區段格式,及其中一第一影片片段之一第一樣本係類型1或2之一ISO基本媒體檔案格式SAP之一ISAU;自該資訊判定包含於該媒體內容之該表示中之媒體區段符合該複數個區段類型的哪一類型;及使用該經判定之類型自該伺服器裝置擷取該媒體內容之媒體區段。
  2. 一種針對一媒體內容之媒體區段之擷取而傳訊媒體資訊之方 法,該方法包含:建構一資訊清單檔案,該資訊清單檔案指示包含於該媒體內容之一表示中之媒體區段符合複數個區段類型之哪一類型,其中媒體區段之該複數個類型包括:一遞送單元媒體區段格式,其中符合該遞送單元媒體區段格式之一媒體區段含有一或多個完整的獨立影片片段;一隨機存取媒體區段格式,其中符合該隨機存取媒體區段格式之一媒體區段符合該遞送單元媒體區段格式,及其中在該區段之該等影片片段之每一者中之一第一存取單元係類型1、2或3之一國際標準組織(ISO)基本媒體檔案格式串流存取點(SAP)之一ISAU;一不重疊區段格式,其中符合該不重疊媒體區段格式之一媒體區段符合該遞送單元媒體區段格式且不與該表示中之其他區段及包括該表示之一自適應集合中之其他表示中之其他區段之開始時間及結束時間重疊;及一切換媒體區段格式,其中符合該切換媒體區段格式之一媒體區段符合該隨機存取媒體區段格式,及其中一第一影片片段之一第一樣本係類型1或2之一ISO基本媒體檔案格式SAP之一ISAU;將該資訊清單檔案發送至一用戶端裝置;及回應於來自該用戶端裝置之對符合媒體區段之該複數個類型之一者之一媒體區段的一請求,將符合媒體區段之該類型之一媒體區段發送至該用戶端裝置。
  3. 如請求項1或2之方法,其中符合該遞送單元媒體區段格式之一媒體區段在該區段之一區段類型方塊中含有一「dums」值,該等獨立影片片段之每一者包含一影片片段(「moof」)方塊及一媒體資料(「mdat」)方塊,該媒體資料(「mdat」)方塊含有不使用由該影片片段方塊中之一播放軌參考之外部資料參考之媒體樣 本,該等moof方塊中之每一者含有至少一個播放軌片段,該等moof方塊中之每一者不使用外部參考,該媒體區段之一「default-base-is-moof」旗標經設定為真,且該媒體區段之一「base-data-offset-present」旗標經設定為假。
  4. 如請求項1或2之方法,其中符合該隨機存取媒體區段格式之一媒體區段包括用以在該等區段之後的一位元串流中存取媒體資料的所有必要資訊。
  5. 如請求項4之方法,其中符合該隨機存取媒體區段格式之一媒體區段包含一瞬時解碼器再新(IDR)圖像、一斷鏈存取(BLA)圖像或一清潔隨機存取(CRA)圖像中之至少一者。
  6. 如請求項1或2之方法,其中符合該隨機存取媒體區段格式之一媒體區段包括一或多個區段索引(「sidx」)方塊,及一序數第一sidx方塊在該媒體區段之所有moof方塊之前且描述該整個媒體區段。
  7. 一種用於擷取媒體資料之用戶端裝置,該用戶端裝置包含:用於接收之構件,用於自一伺服器裝置接收包含資訊之一資訊清單檔案,該資訊指示包含於一媒體內容之一表示中之媒體區段符合複數個區段類型之哪一類型,其中媒體區段之該複數個類型包括:一遞送單元媒體區段格式,其中符合該遞送單元媒體區段格式之一媒體區段含有一或多個完整的獨立影片片段;一隨機存取媒體區段格式,其中符合該隨機存取媒體區段格式之一媒體區段符合該遞送單元媒體區段格式,及其中在該區段之該等影片片段之每一者中之一第一存取單元係類型1、2或3之一國際標準組織(ISO)基本媒體檔案格式串流存取點(SAP)之一ISAU; 一不重疊媒體區段格式,其中符合該不重疊媒體區段格式之一媒體區段符合該遞送單元媒體區段格式且不與該表示中之其他區段及包括該表示之一自適應集合中之其他表示中之其他區段之開始時間及結束時間重疊;及一切換媒體區段格式,其中符合該切換媒體區段格式之一媒體區段符合該隨機存取媒體區段格式,及其中一第一影片片段之一第一樣本係類型1或2之一ISO基本媒體檔案格式SAP之一ISAU;用於判定之構件,用於自該資訊判定包含於該媒體內容之該表示中之媒體區段符合該複數個區段類型的哪一類型;及用於使用該經判定之類型自該伺服器裝置擷取該媒體內容之媒體區段之構件。
  8. 一種針對一媒體內容之媒體區段之擷取而傳訊媒體資訊之伺服器裝置,該伺服器裝置包含:用於建構一資訊清單檔案之構件,該資訊清單檔案指示包含於該媒體內容之一表示中之媒體區段符合複數個區段類型之哪一類型,其中媒體區段之該複數個類型包括:一遞送單元媒體區段格式,其中符合該遞送單元媒體區段格式之一媒體區段含有一或多個完整的獨立影片片段;一隨機存取媒體區段格式,其中符合該隨機存取媒體區段格式之一媒體區段符合該遞送單元媒體區段格式,及其中在該區段之該等影片片段之每一者中之一第一存取單元係類型1、2或3之一國際標準組織(ISO)基本媒體檔案格式串流存取點(SAP)之一ISAU;一不重疊區段格式,其中符合該不重疊媒體區段格式之一媒體區段符合該遞送單元媒體區段格式且不與該表示中之其他區段及包括該表示之一自適應集合中之其他表示中之 其他區段之開始時間及結束時間重疊;及一切換媒體區段格式,其中符合該切換媒體區段格式之一媒體區段符合該隨機存取媒體區段格式,及其中一第一影片片段之一第一樣本係類型1或2之一ISO基本媒體檔案格式SAP之一ISAU;用於將該資訊清單檔案發送至一用戶端裝置之構件;及用於回應於來自該用戶端裝置之對符合媒體區段之該複數個類型之一者之一媒體區段的一請求,將符合媒體區段之該類型之一媒體區段發送至該用戶端裝置之構件。
  9. 如請求項7或8之裝置,其中符合該遞送單元媒體區段格式之一媒體區段在該區段之一區段類型方塊中含有一「dums」值,該等獨立影片片段之每一者包含一影片片段(「moof」)方塊及一媒體資料(「mdat」)方塊,該媒體資料(「mdat」)方塊含有不使用由該影片片段方塊中之一播放軌參考之外部資料參考之媒體樣本,該等moof方塊中之每一者含有至少一個播放軌片段,該等moof方塊中之每一者不使用外部參考,該媒體區段之一「default-base-is-moof」旗標經設定為真,且該媒體區段之一「base-data-offset-present」旗標經設定為假。
  10. 如請求項7或8之裝置,其中符合該隨機存取媒體區段格式之一媒體區段包括用以在該等區段之後的一位元串流中存取媒體資料的所有必要資訊。
  11. 如請求項7或8之裝置,其中符合該隨機存取媒體區段格式之一媒體區段包含一瞬時解碼器再新(IDR)圖像、一斷鏈存取(BLA)圖像或一清潔隨機存取(CRA)圖像中之至少一者。
  12. 如請求項7或8之裝置,其中符合該隨機存取媒體區段格式之一媒體區段包括一或多個區段索引(「sidx」)方塊,且其中一序數第一sidx方塊在該媒體區段之所有moof方塊之前且描述該整個媒 體區段。
  13. 一種在上面儲存有指令的電腦可讀儲存媒體,該等指令在執行時致使一處理器執行根據請求項第1至6項中任一項之方法。
TW105104379A 2015-02-10 2016-02-15 低延遲視訊串流 TWI686077B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201562114423P 2015-02-10 2015-02-10
US62/114,423 2015-02-10
US201562183054P 2015-06-22 2015-06-22
US62/183,054 2015-06-22
US15/019,804 2016-02-09
US15/019,804 US10270823B2 (en) 2015-02-10 2016-02-09 Low latency video streaming

Publications (2)

Publication Number Publication Date
TW201633783A TW201633783A (zh) 2016-09-16
TWI686077B true TWI686077B (zh) 2020-02-21

Family

ID=56567242

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105104379A TWI686077B (zh) 2015-02-10 2016-02-15 低延遲視訊串流

Country Status (13)

Country Link
US (1) US10270823B2 (zh)
EP (1) EP3257255B1 (zh)
JP (1) JP6655091B2 (zh)
KR (1) KR102168596B1 (zh)
CN (1) CN107251562B (zh)
AU (1) AU2016219369B2 (zh)
BR (1) BR112017017152A2 (zh)
EA (1) EA201791558A1 (zh)
ES (1) ES2767288T3 (zh)
HU (1) HUE047298T2 (zh)
TN (1) TN2017000306A1 (zh)
TW (1) TWI686077B (zh)
WO (1) WO2016130657A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10454985B2 (en) 2015-03-04 2019-10-22 Qualcomm Incorporated File format based streaming with dash formats based on LCT
US10681107B2 (en) * 2015-06-16 2020-06-09 Apple Inc. Adaptive video content for cellular communication
US10554713B2 (en) * 2015-06-19 2020-02-04 Microsoft Technology Licensing, Llc Low latency application streaming using temporal frame transformation
TWI599218B (zh) * 2016-07-29 2017-09-11 元智大學 即時影音傳輸系統
US10484701B1 (en) * 2016-11-08 2019-11-19 Amazon Technologies, Inc. Rendition switch indicator
WO2018115267A1 (en) * 2016-12-22 2018-06-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Media streaming with fast tuning and fast channel switching
CN106658042B (zh) * 2016-12-28 2019-07-02 广州华多网络科技有限公司 一种数据推送方法及相关客户端、服务器
US10440085B2 (en) * 2016-12-30 2019-10-08 Facebook, Inc. Effectively fetch media content for enhancing media streaming
US10476943B2 (en) 2016-12-30 2019-11-12 Facebook, Inc. Customizing manifest file for enhancing media streaming
US9872062B1 (en) * 2017-02-22 2018-01-16 Wyse Technology L.L.C. Enforcing synchronization by embedding audio within video frame data
GB2560953A (en) * 2017-03-30 2018-10-03 Nokia Technologies Oy Video Streaming
US10924822B2 (en) 2017-04-04 2021-02-16 Qualcomm Incorporated Segment types as delimiters and addressable resource identifiers
US11665219B2 (en) 2017-07-10 2023-05-30 Qualcomm Incorporated Processing media data using a generic descriptor for file format boxes
JP6271072B1 (ja) * 2017-10-10 2018-01-31 パナソニック株式会社 端末装置、映像配信システムおよび映像配信方法
US10432970B1 (en) * 2018-06-14 2019-10-01 Telefonaktiebolaget Lm Ericsson (Publ) System and method for encoding 360° immersive video
US10862940B1 (en) * 2018-07-31 2020-12-08 Glance Networks, Inc. Low latency live video on a communication session
US11284134B2 (en) * 2018-08-08 2022-03-22 Comcast Cable Communications, Llc Media content enhancement based on content importance
US10779017B2 (en) * 2018-12-10 2020-09-15 Warner Bros. Entertainment Inc. Method and system for reducing drop-outs during video stream playback
CN113647114B (zh) * 2019-03-14 2023-10-10 诺基亚技术有限公司 用于视频编码和解码的设备、方法和计算机程序
CN114270436A (zh) * 2019-07-19 2022-04-01 英迪股份有限公司 无线通信***中的自适应音频处理方法、设备、计算机程序及其记录介质
US11831879B2 (en) * 2019-09-20 2023-11-28 Comcast Cable Communications, Llc Methods, systems, and apparatuses for enhanced adaptive bitrate segmentation
US11765444B2 (en) 2020-07-01 2023-09-19 Qualcomm Incorporated Streaming media data including an addressable resource index track
GB2599170B (en) * 2020-09-29 2024-05-29 Canon Kk Method, device, and computer program for optimizing indexing of portions of encapsulated media content data
CN113691886B (zh) * 2021-08-25 2024-05-07 三星电子(中国)研发中心 流媒体文件的下载方法和装置
WO2023028332A1 (en) * 2021-08-27 2023-03-02 AirMettle, Inc. Partitioning, processing, and protecting media data
CN118044207A (zh) * 2021-09-30 2024-05-14 抖音视界有限公司 用于视频流式传输的方法、装置和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110317760A1 (en) * 2010-06-29 2011-12-29 Qualcomm Incorporated Signaling video samples for trick mode video representations
US20120016965A1 (en) * 2010-07-13 2012-01-19 Qualcomm Incorporated Video switching for streaming video data
US20130091251A1 (en) * 2011-10-05 2013-04-11 Qualcomm Incorporated Network streaming of media data

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2371140B1 (en) * 2009-02-12 2017-03-01 LG Electronics Inc. Broadcast receiver and 3d subtitle data processing method thereof
US9456015B2 (en) * 2010-08-10 2016-09-27 Qualcomm Incorporated Representation groups for network streaming of coded multimedia data
US20130170561A1 (en) * 2011-07-05 2013-07-04 Nokia Corporation Method and apparatus for video coding and decoding
US20130042100A1 (en) * 2011-08-09 2013-02-14 Nokia Corporation Method and apparatus for forced playback in http streaming
US9253233B2 (en) * 2011-08-31 2016-02-02 Qualcomm Incorporated Switch signaling methods providing improved switching between representations for adaptive HTTP streaming
US8935425B2 (en) * 2011-10-05 2015-01-13 Qualcomm Incorporated Switching between representations during network streaming of coded multimedia data
WO2013166411A1 (en) * 2012-05-03 2013-11-07 United Video Properties, Inc. Systems and methods for preventing access to a media asset segment during a fast-access playback operation
JP2014239291A (ja) * 2013-06-06 2014-12-18 ソニー株式会社 コンテンツ供給装置、コンテンツ供給方法、プログラム、端末装置、およびコンテンツ供給システム
US20150026358A1 (en) * 2013-07-19 2015-01-22 Futurewei Technologies, Inc. Metadata Information Signaling And Carriage In Dynamic Adaptive Streaming Over Hypertext Transfer Protocol

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110317760A1 (en) * 2010-06-29 2011-12-29 Qualcomm Incorporated Signaling video samples for trick mode video representations
US20120016965A1 (en) * 2010-07-13 2012-01-19 Qualcomm Incorporated Video switching for streaming video data
US20130091251A1 (en) * 2011-10-05 2013-04-11 Qualcomm Incorporated Network streaming of media data

Also Published As

Publication number Publication date
AU2016219369A1 (en) 2017-07-27
AU2016219369B2 (en) 2019-10-31
EA201791558A1 (ru) 2017-12-29
TW201633783A (zh) 2016-09-16
KR20170116027A (ko) 2017-10-18
EP3257255B1 (en) 2019-10-16
HUE047298T2 (hu) 2020-04-28
TN2017000306A1 (en) 2019-01-16
JP2018510545A (ja) 2018-04-12
CN107251562A (zh) 2017-10-13
EP3257255A1 (en) 2017-12-20
CN107251562B (zh) 2020-03-20
WO2016130657A1 (en) 2016-08-18
US10270823B2 (en) 2019-04-23
KR102168596B1 (ko) 2020-10-21
US20160234536A1 (en) 2016-08-11
ES2767288T3 (es) 2020-06-17
BR112017017152A2 (pt) 2018-04-03
JP6655091B2 (ja) 2020-02-26

Similar Documents

Publication Publication Date Title
TWI686077B (zh) 低延遲視訊串流
KR102469676B1 (ko) Lct에 기초한 dash 포맷들을 이용하는 파일 포맷 기반 스트리밍
KR101558116B1 (ko) 코딩된 멀티미디어 데이터의 네트워크 스트리밍 동안의 표현들 사이의 전환
JP2019521584A (ja) Httpを介した動的適応型ストリーミングにおけるバーチャルリアリティビデオのシグナリング
TW202037177A (zh) 用於串流媒體資料之服務描述
KR102076064B1 (ko) Dash의 강건한 라이브 동작
US11665219B2 (en) Processing media data using a generic descriptor for file format boxes
KR20160136343A (ko) 연속적인 멀티-주기 콘텐츠의 프로세싱
TW201743614A (zh) 樣本條目及隨機存取
TWI820227B (zh) 用於媒體資料之網路串流之初始化集合
TW202127897A (zh) 用於串流傳輸媒體資料的多解碼器介面
TW202337225A (zh) 用於適應性流送的動態解析度改變提示
EA045713B1 (ru) Способ и клиентское устройство для извлечения мультимедийных данных из серверного устройства
OA18391A (en) Low latency video streaming.