TWI712309B - 容器檔案及視訊位元串流中關注區域之增強信令傳輸 - Google Patents

容器檔案及視訊位元串流中關注區域之增強信令傳輸 Download PDF

Info

Publication number
TWI712309B
TWI712309B TW107123001A TW107123001A TWI712309B TW I712309 B TWI712309 B TW I712309B TW 107123001 A TW107123001 A TW 107123001A TW 107123001 A TW107123001 A TW 107123001A TW I712309 B TWI712309 B TW I712309B
Authority
TW
Taiwan
Prior art keywords
video
data
virtual reality
video data
area
Prior art date
Application number
TW107123001A
Other languages
English (en)
Other versions
TW201907706A (zh
Inventor
益魁 王
Original Assignee
美商高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商高通公司 filed Critical 美商高通公司
Publication of TW201907706A publication Critical patent/TW201907706A/zh
Application granted granted Critical
Publication of TWI712309B publication Critical patent/TWI712309B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/10Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23605Creation or processing of packetized elementary streams [PES]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Geometry (AREA)
  • Databases & Information Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

提供用於指定區域資訊之系統與方法,該區域資訊諸如一推薦檢視區之一源及本質及多個推薦檢視區當中的一優先級。虛擬實境視訊資料可表示一虛擬環境之一360度視圖。在各種實例中,可判定該虛擬實境視訊資料之一區域,其中該區域包括該360度視圖之一子部分。可產生用於該區域之一資料結構,其中該資料結構包括描述該區域之參數。該等參數可包括與該區域相關聯之一源。該虛擬實境視訊資料及該資料結構可儲存於一檔案中。

Description

容器檔案及視訊位元串流中關注區域之增強信令傳輸
本申請案係關於虛擬實境(VR)視訊內容以諸如基於ISO之媒體檔案格式(ISOBMFF)及/或自ISOBMFF導出之檔案格式的一或多個媒體檔案格式之儲存。舉例而言,本申請案係關於用於以向後相容方式信令傳輸VR視訊內容(在一些實例中包括一或多個VR視訊特定細節)之識別的方法及系統。
視訊寫碼標準包括ITU-T H.261;ISO/IEC MPEG-1 Visual;ITU-T H.262或ISO/IEC MPEG-2 Visual;ITU-T H.263;ISO/IEC MPEG-4 Visual;ITU-T H.264或ISO/IEC MPEG-4 AVC,包括其稱為可調式視訊寫碼(SVC)之可調式視訊寫碼延伸及其多視圖視訊寫碼延伸即多視圖視訊寫碼(MVC)延伸;及亦稱為ITU-T H.265及ISO/23008-2的高效率視訊寫碼(HEVC),包括其可調式寫碼延伸(亦即,可調式高效率視訊寫碼SHVC)及多視圖延伸(亦即,多視圖高效率視訊寫碼MV-HEVC)。
虛擬實境(VR)描述可在看起來真實或實體方式內交互之一三維之電腦產生的環境。一虛擬實境呈現可包括包含360度視圖之視訊。在各種實例中,可指定可用360度之一區域並將其指示為具有特殊意義。舉例而言,一內容建立者可定義檢視者應集中的一區域(例如,該視訊之一「導演剪輯版(director's cut)」)。作為另一實例,可將一區域指示為以統計方式經最常檢視的。
在各種實施中,提供用於指定區域資訊之系統與方法,該區域資訊諸如一推薦檢視區之一源及本質及多個推薦檢視區當中的一優先級。在各種實施中,一種方法可實施用於處理虛擬實境視訊資料之技術,該方法包括一電腦實施方法、一裝置及/或一非暫時性電腦可讀媒體。此等技術可包括獲得該虛擬實境視訊資料,其中該虛擬實境視訊資料表示一虛擬環境之一360度視圖。該等技術可進一步包括判定該虛擬實境視訊資料之一區域,其中該區域包括該360度視圖之一子部分。該等技術可進一步包括產生用於該區域之一資料結構,該資料結構包括描述該區域之參數,其中該等參數包括指示與該區域相關聯之一源的一參數。該等技術可進一步包括產生用於儲存該虛擬實境視訊資料之一檔案。該等技術可進一步包括將該虛擬實境視訊資料儲存於該檔案中。該等技術可進一步包括將該資料結構儲存於該檔案中。
在一些態樣中,該區域可在檢視該虛擬實境視訊資料時被用作一檢視區。
在一些態樣中,該檔案為一容器檔案,其中該容器檔案根據一格式進行組織,且其中該資料結構儲存於由該格式描述之一邏輯框(box)結構中。在一些態樣中,允許該邏輯框結構中之區域值的一數目大於一。在此等態樣中,當該虛擬實境視訊資料包括多於一個區域時,用於該區域及該多於一個區域的參數可儲存於同一時控後設資料軌中。在一些態樣中,該邏輯框結構中之區域值的一數目被限制為一。在此等態樣中,當該虛擬實境視訊資料包括多於一個區域時,用於該多於一個區域的參數儲存於不同時控後設資料軌中。
在一些態樣中,該虛擬實境視訊資料作為一經編碼位元串流儲存於該檔案中。在此等態樣中,該資料結構儲存於該經編碼位元串流之一訊息元素中。
在一些態樣中,與該區域相關聯之該源為一內容建立者。在一些態樣中,與該區域相關聯之該源指示該區域為該虛擬實境視訊資料之一最多檢視之區域。
下文提供本發明之某些態樣及實施。此等態樣及實施例之一些可獨立地應用,且其中之一些可以將對熟習此項技術者顯而易見之組合來應用。在以下描述中,出於解釋之目的,闡述特定細節以便提供對本發明之實施之透徹理解。然而,將顯而易見的是,可在無此等特定細節之情況下實踐各種實施。圖式及描述不意欲為限定性的。
隨後描述僅提供例示性實施且並不意欲限制本發明的範疇、適用性或組態。確切而言,例示性實施之隨後描述將為熟習此項技術者提供能夠實施例示性實施之描述。應理解,可在不脫離如所附申請專利範圍中所闡述之本發明之精神及範疇的情況下對元件之功能及配置做出各種改變。
在以下描述中,給定特定細節以提供對實例之透徹理解。然而,一般熟習此項技術者應理解,實例可在無需此等特定細節之情況下實踐。舉例而言,電路、系統、網路、處理程序及其他組件可以方塊圖形式展示為組件以免以不必要的細節混淆實例。在其他情況下,已在無不必要之細節的情況下展示熟知電路、處理程序、演算法、結構及技術以便避免混淆實例。
又,應注意,個別實施例可描述為被描繪為流程圖(flowchart)、流程圖(flow diagram)、資料流程圖、結構圖或方塊圖之處理程序。儘管流程圖可能將操作描述為順序處理程序,但許多操作可並行地或同時加以執行。另外,可重新配置操作之次序。處理程序在其操作完成時終止,但可具有不包括於圖中之額外步驟。處理程序可對應於方法、函數、過程、次常式、子程式等。當處理程序對應於函數時,其終止可對應於函數傳回至調用函數或主函數。
術語「電腦可讀媒體」包括但不限於攜帶型或非攜帶型儲存器件、光儲存器件,及能夠儲存、含有或攜載指令及/或資料之各種其他媒體。電腦可讀媒體可包括非暫時性媒體,其中可儲存資料並且不包括載波及/或無線地或經由有線連接傳播之暫時電子信號。非暫時性媒體之實例可包括(但不限於)磁碟或磁帶、諸如緊密光碟(CD)或數位化通用光碟(DVD)之光學儲存媒體、快閃記憶體、記憶體或記憶體器件。電腦可讀媒體可具有儲存於其上之程式碼及/或機器可執行指令,該等程式碼及/或機器可執行指令可表示程序、函數、子程式、程式、常式、次常式、模組、軟體套件、類別,或指令、資料結構或程式語句之任何組合。一碼段可藉由傳遞及/或接收資訊、資料、論證、參數或記憶體內容耦接至另一碼段或硬體電路。資訊、論證、參數、資料等可經由包括記憶體共用、訊息傳遞、符記傳遞、網路傳輸或類似者之任何合適方式傳遞、轉遞或傳輸。
此外,可由硬體、軟體、韌體、介體、微碼、硬體描述語言或其任何組合實施實施例。當實施於軟體、韌體、介體或微碼中時,用以執行必要任務之程式碼或碼段(例如,電腦程式產品)可儲存於電腦可讀或機器可讀媒體中。處理器可執行必要任務。
虛擬實境(VR)描述可在看起來真實或實體方式內交互之一三維之電腦產生的環境。大體而言,體驗虛擬實境環境之使用者使用諸如頭戴顯示器(HMD)且視需要亦衣物(例如,配備有感測器之手套)的電子裝備以與虛擬環境交互。隨著使用者在真實世界中移動,在虛擬環境中顯現之影像亦改變,從而向使用者給予使用者正在虛擬環境內移動之感知。在一些狀況下,虛擬環境包括與使用者之移動相關之聲音,從而向使用者給予聲音來源於特定方向或來源之聲音。虛擬實境視訊可以極高品質被擷取且顯現,從而潛在地提供真實沉浸式虛擬實境體驗。虛擬實境應用包括遊戲、訓練、教育、體育視訊及線上購物外加其他。
檔案格式標準可定義用於將視訊(且,亦可能為音訊)資料封裝及解封裝至一或多個檔案中的格式,諸如VR視訊或其他類型之視訊。檔案格式標準包括國際標準化組織(ISO)基本媒體檔案格式(定義於ISO/IEC 14496-12中之ISOBMFF);及自ISOBMFF導出之其他檔案格式,包括運動圖像專家組(MPEG) MPEG-4檔案格式(定義於ISO/IEC 14496-15中)、第三代合作夥伴計劃(3GPP)檔案格式(定義於3GPP TS 26.244中),及視訊編解碼器之進階視訊寫碼(AVC)及高效率視訊寫碼(HEVC)家族的檔案格式(皆定義於ISO/IEC 14496-15中)。ISO/IEC 14496-12及14496-15之最新版本的草案本文可分別在http://phenix.int-evry.fr/mpeg/doc_end_user/documents/111_Geneva/wg11/w15177-v6-w15177.zip及http://wg11.sc29.org/doc_end_user/documents/115_Geneva/ wg11/w16169-v2-w16169.zip處得到。
ISOBMFF用作用於許多編解碼器囊封格式(例如,AVC檔案格式或任何其他合適之編解碼器囊封格式)以及用於許多多媒體容器格式(例如,MPEG-4檔案格式、3GPP檔案格式(3GP)、DVB檔案格式或任何其他合適之多媒體容器格式)之基礎。ISOBMFF基本檔案格式可用於連續媒體,其亦被稱作串流媒體。
除了連續媒體(例如,音訊及視訊)之外,靜態媒體(例如,影像)及後設資料可儲存於遵循ISOBMFF之檔案中。根據ISOBMFF結構化的檔案可用於許多目的,包括本機媒體檔案播放、遠端檔案之漸進式下載、用作HTTP動態自適應串流(DASH)之區段、用作待串流傳輸的內容之容器(在此狀況下容器包括封包化指令)、用於記錄接收之即時媒體串流,或其他用途。
邏輯框為ISOBMFF中之基本語法結構。邏輯框包括四字元寫碼邏輯框類型、邏輯框之位元組計數及有效負載。ISOBMFF檔案包括一序列之邏輯框,且邏輯框可含有其他邏輯框。電影邏輯框(「moov」)含有用於存在於檔案中之連續媒體串流的後設資料,每一媒體串流在檔案中表示為軌。將用於軌之後設資料圍封於軌邏輯框(「trak」)中,而將軌之媒體內容圍封於媒體資料邏輯框(「mdat」)中或直接圍封於單獨檔案中。用於軌之媒體內容包括一序列樣本,諸如音訊或視訊存取單元。
ISOBMFF指定以下類型之軌:媒體軌,其含有基本媒體串流;提示軌,其包括媒體傳輸指令或表示接收之封包串流;及計時後設資料軌,其包含時間同步之後設資料。
儘管最初經設計用於儲存器,但ISOBMFF已經證實為對於串流傳輸(例如,對於漸進式下載或DASH)而言極為寶貴。為了串流傳輸目的,可使用在ISOBMFF中定義之電影片段。
每一軌之後設資料包括樣本描述項之清單,每一項提供在軌中使用之寫碼或囊封格式及對於處理彼格式需要之初始化資料。各樣本與軌之樣本描述項中之一者相關聯。
ISOBMFF實現藉由各種機構指定樣本特定後設資料。樣本表邏輯框(「stbl」)內之特定邏輯框已經標準化以對普通需求作出回應。舉例而言,同步樣本邏輯框(「stss」)用以列舉軌之隨機存取樣本。樣本分群機構實現根據四字元分群類型將取樣映射成共用指定為檔案中之樣本群組描述項之同一性質的樣本之群組。已在ISOBMFF中指定若干分群類型。
隨著更多器件及系統為消費者提供消耗數位視訊資料之能力,對高效視訊寫碼技術之需要變得更加重要。需要視訊寫碼來減少處置存在於數位視訊資料中之大量資料所必要的儲存及傳輸要求。各種視訊寫碼技術可用於將視訊資料壓縮成使用較低位元速率同時維持高視訊品質之形式。
圖1為繪示包括編碼器件104及解碼器件112之系統100之實例的方塊圖。編碼器件104可為源器件之部分,且解碼器件112可為接收器件之部分。源器件及/或接收器件可包括電子器件,諸如,行動或靜止電話手機(例如,智慧型電話、蜂巢式電話或其類似者)、桌上型電腦、膝上型電腦或筆記型電腦、平板電腦、機上盒、電視、攝影機、顯示器件、數位媒體播放器、視訊遊戲控制台、視訊串流器件或任何其他合適的電子器件。在一些實例中,源器件及接收器件可包括用於無線通信之一或多個無線收發器。本文中所描述之寫碼技術適用於各種多媒體應用中之視訊寫碼,包括串流視訊傳輸(例如,經由網際網路)、電視廣播或傳輸、編碼數位視訊以供儲存於資料儲存媒體上、解碼儲存於資料儲存媒體上之數位視訊或其他應用。在一些實例中,系統100可支援單向或雙向視訊傳輸以支援諸如視訊會議、視訊串流、視訊播放、視訊廣播、遊戲及/或視訊電話之應用。
藉由使用視訊寫碼標準或協定以產生經編碼視訊位元串流,編碼器件104 (或編碼器)可用以編碼視訊資料,包括虛擬實境視訊資料。視訊寫碼標準包括ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual及ITU-T H.264 (亦稱為ISO/IEC MPEG-4 AVC),包括其可調式視訊寫碼及多視圖視訊寫碼延伸(分別稱為SVC及MVC)。已由ITU-T視訊寫碼專家組(VCEG)及ISO/IEC運動圖像專家組(MPEG)之視訊寫碼聯合協作小組(JCT-VC)完成較近期的視訊寫碼標準(高效率視訊寫碼(HEVC))。對HEVC之各種延伸處理多層視訊寫碼,且亦正由JCT-VC開發,包括對HEVC之多視圖延伸(稱作MV-HEVC)及對HEVC之可調式延伸(稱作SHVC)或任何其他合適寫碼協定。
本文中所描述之實施使用HEVC標準或其延伸來描述實例。然而,本文中所描述之技術及系統亦可適用於其他寫碼標準,諸如AVC、MPEG、其延伸或已可用或尚不可用或尚未開發之其他合適的寫碼標準。因此,雖然可參考特定視訊寫碼標準描述本文中所描述之技術及系統,但一般熟習此項技術者將瞭解,描述不應解譯為僅適用於彼特定標準。
視訊源102可將視訊資料提供至編碼器件104。視訊源102可為源器件之部分,或可為除源器件以外的器件之部分。視訊源102可包括視訊擷取器件(例如,視訊攝影機、攝影機電話、視訊電話或其類似者)、含有經儲存視訊之視訊存檔、提供視訊資料之視訊伺服器或內容提供者、自視訊伺服器或內容提供者接收視訊之視訊饋入介面、用於產生電腦圖形視訊資料之電腦圖形系統、此等源之組合或任何其他合適的視訊源。視訊源102之一個實例可包括網際網路協定攝影機(IP攝影機)。IP攝影機為可用於監測、住家安全或其他合適應用的數位視訊攝影機之類型。不同於類比閉路電視(CCTV)攝影機,IP攝影機可經由電腦網路及網際網路發送及接收資料。
來自視訊源102之視訊資料可包括一或多個輸入圖像或訊框。圖像或訊框為作為視訊之部分的靜態影像。編碼器件104之編碼器引擎106 (或編碼器)編碼視訊資料以產生經編碼視訊位元串流。在一些實例中,經編碼視訊位元串流(或「視訊位元串流」或「位元串流」)為一系列之一或多個經寫碼視訊序列。經寫碼視訊序列(CVS)包括一系列存取單元(AU),其始於在基礎層中具有隨機存取點圖像且具有某些屬性之AU,直至且不包括在基礎層中具有隨機存取點圖像且具有某些屬性之下一AU。舉例而言,開始CVS的隨機存取點圖像之某些性質可包括等於1之一RASL旗標(例如,NoRaslOutputFlag)。否則,隨機存取點圖像(具有等於0之RASL旗標)不開始CVS。存取單元(AU)包括一或多個經寫碼圖像及對應於共用相同輸出時間之經寫碼圖像的控制資訊。圖像之經寫碼圖塊在位元串流層級囊封至稱為網路抽象層(NAL)單元之資料單元中。舉例而言,HEVC視訊位元串流可包括一或多個CVS,該一或多個CVS包括NAL單元。兩種類別之NAL單元存在於HEVC標準中,包括視訊寫碼層(VCL) NAL單元及非VCL NAL單元。VCL NAL單元包括經寫碼圖像資料之一個圖塊或圖塊區段(如下描述),且非VCL NAL單元包括關於一或多個經寫碼圖像之控制資訊。
NAL單元可含有形成視訊資料之經寫碼表示(諸如,視訊中之圖像的經寫碼表示)的位元序列(例如,經編碼視訊位元串流、位元串流之CVS或其類似者)。編碼器引擎106藉由將每一圖像分割成多個圖塊而產生圖像之經寫碼表示。圖塊接著被分割成明度樣本及色度樣本之寫碼樹型區塊(CTB)。明度樣本之CTB及色度樣本之一或多個CTB連同樣本之語法被稱為寫碼樹型單元(CTU)。CTU為用於HEVC編碼之基本處理單元。CTU可經***成具有不同大小之多個寫碼單元(CU)。CU含有被稱為寫碼區塊(CB)之明度及色度樣本陣列。
明度及色度CB可進一步被***成預測區塊(PB)。PB為使用用於框間預測之相同運動參數的明度或色度分量的樣本之區塊。該明度PB及一或多個色度PB連同相關聯語法形成預測單元(PU)。在位元串流中針對每個PU信令傳輸運動參數集合,且該運動參數集合用於明度PB及一或多個色度PB之框間預測。CB亦可被分割成一或多個變換區塊(TB)。TB表示色彩分量之樣本之正方形區塊,對該正方形區塊應用同一二維變換以用於寫碼預測殘餘信號。變換單元(TU)表示明度及色度樣本之TB以及對應語法元素。
CU之大小對應於寫碼節點之大小,且可為正方形形狀。舉例而言,CU之大小可為8×8樣本、16×16樣本、32×32樣本、64×64樣本或達至相應CTU之大小的任何其他適當大小。片語「N×N」在本文中用以指代視訊區塊就垂直及水平尺寸而言的像素尺寸(例如,8像素×8像素)。可按列及行來配置區塊中之像素。在一些實施例中,區塊在水平方向上可不具有與在垂直方向上相同的數目個像素。與CU相關聯之語法資料可描述例如將CU分割成一或多個PU。分割模式可在CU經框內預測模式編碼抑或經框間預測模式編碼之間有所不同。PU可被分割成非正方形形狀。與CU相關聯之語法資料亦可描述(例如)根據CTU將CU分割成一或多個TU。TU可為正方形或非正方形形狀。
根據HEVC標準,可使用變換單元(TU)來執行變換。TU可針對不同CU而變化。可基於給定CU內之PU的大小而對TU設定大小。TU可與PU大小相同或小於PU。在一些實例中,可使用被稱為殘餘四分樹(RQT)之四分樹結構將對應於CU之殘餘樣本再分成較小單元。RQT之葉節點可對應於TU。可變換與TU相關聯之像素差值以產生變換係數。變換係數可隨後由編碼器引擎106量化。
一旦視訊資料之圖像被分割成CU,編碼器引擎106便使用預測模式來預測每一PU。接著自原始視訊資料中減去預測以得到殘餘(下文描述)。對於每一CU,可使用語法資料在位元串流內部信令傳輸預測模式。預測模式可包括框內預測(或圖像內預測)或框間預測(或圖像間預測)。使用框內預測時,使用(例如)DC預測以發現PU之平均值、使用平坦預測以使平坦表面擬合於PU、使用方向預測以自相鄰資料外插或使用任何其他合適類型之預測,自同一圖像中之相鄰影像資料預測每一PU。使用框間預測時,使用運動補償預測自一或多個參考圖像(按輸出次序在當前圖像之前或之後)中之影像資料預測每一PU。可(例如)以在CU層級決定是否使用圖像間預測抑或圖像內預測來寫碼圖像區域。在一些實例中,圖像之一或多個圖塊被指派圖塊類型。圖塊類型包括I圖塊、P圖塊及B圖塊。I圖塊(訊框內,可獨立地解碼)為僅僅藉由框內預測寫碼的圖像之圖塊,且因此可獨立地解碼,此係由於I圖塊僅僅需要訊框內之資料以預測圖塊之任一區塊。P圖塊(單向預測訊框)為可藉由框內預測及藉由單向框間預測寫碼之圖像的圖塊。P圖塊內之每一區塊係藉由框內預測或框間預測而寫碼。當應用框間預測時,區塊僅僅藉由一個參考圖像而預測,且因此參考樣本僅僅來自一個訊框之一個參考區域。B圖塊(雙向預測性訊框)為可藉由框內預測及框間預測寫碼的圖像之圖塊。B圖塊之區塊可使用兩個參考圖像進行雙向預測,其中每一圖像貢獻一個參考區域,且該等兩個參考區域之樣本集合經加權(例如,用相等權重)以產生經雙向預測之區塊的預測信號。如上文所解釋,一個圖像之圖塊被獨立寫碼。在一些狀況下,圖像可僅作為一個圖塊而被寫碼。
PU可包括與預測處理程序相關之資料。舉例而言,當使用框內預測編碼PU時,PU可包括描述用於PU之框內預測模式的資料。作為另一實例,當使用框間預測來編碼PU時,PU可包括定義用於PU之運動向量的資料。定義PU之運動向量之資料可描述(例如)運動向量之水平分量、運動向量之垂直分量、運動向量之解析度(例如,四分之一像素精確度或八分之一像素精確度)、運動向量所指向的參考圖像,及/或運動向量之參考圖像清單(例如,清單0、清單1或清單C)。
編碼器件104可接著執行變換及量化。舉例而言,在預測之後,編碼器引擎106可計算對應於PU之殘餘值。殘餘值可包含像素差值。在預測執行之後可能剩餘的任何殘餘資料係使用區塊變換進行變換,該區塊變換可基於離散餘弦變換、離散正弦變換、整數變換、小波變換或其它合適之變換功能。在一些狀況下,一或多個區塊變換(例如,大小32×32、16×16、8×8、4×4或其類似者)可應用於每一CU中之殘餘資料。在一些實施例中,TU可用於藉由編碼器引擎106實施的變換及量化處理程序。給定的具有一或多個PU之CU亦可包括一或多個TU。如下文進一步詳細描述,可使用區塊變換將殘餘值變換成變換係數,且接著可使用TU來量化及掃描殘餘值以產生用於熵寫碼之串列化變換係數。
在一些實施例中,在使用CU之PU進行框內預測性或框間預測性寫碼之後,編碼器引擎106可計算CU之TU的殘餘資料。PU可包含空間域(或像素域)中之像素資料。在應用區塊變換之後,TU可包含變換域中之係數。如先前所提及,殘餘資料可對應於未經編碼圖像之像素與對應於PU之預測值之間的像素差值。編碼器引擎106可形成包括CU之殘餘資料的TU,且接著可變換TU以產生CU之變換係數。
編碼器引擎106可執行變換係數之量化。量化藉由量化變換係數以減少用以表示係數之資料的量而提供進一步壓縮。舉例而言,量化可減少與係數中之一些或所有相關聯的位元深度。在一個實例中,具有n位元值之係數可在量化期間經降值捨位為m位元值,其中n大於m。
一旦執行量化,經寫碼視訊位元串流便包括經量化變換係數、預測資訊(例如,預測模式、運動向量或其類似者)、分割資訊,及任何其他合適的資料,諸如其他語法資料。接著可藉由編碼器引擎106對經寫碼視訊位元串流之不同元素進行熵編碼。在一些實例中,編碼器引擎106可利用預定義掃描次序掃描經量化變換係數以產生可經熵編碼的串列化向量。在一些實例中,編碼器引擎106可執行自適應掃描。在掃描經量化變換係數以形成向量(例如,一維向量)之後,編碼器引擎106可熵編碼向量。舉例而言,編碼器引擎106可使用上下文自適應性可變長度寫碼、上下文自適應性二進位算術寫碼、基於語法之上下文自適應性二進位算術寫碼、機率區間分割熵寫碼或另一合適的熵編碼技術。
編碼器件104之輸出端110可經由通信鏈路120將組成經編碼視訊位元串流資料之NAL單元發送至接收器件之解碼器件112。解碼器件112之輸入端114可接收NAL單元。通信鏈路120可包括由無線網路、有線網路或有線網路與無線網路之組合提供的通道。無線網路可包括任何無線介面或無線介面之組合,且可包括任何適合之無線網路(例如,網際網路或其他廣域網路、基於封包之網路、WiFiTM 、射頻(RF)、UWB、WiFi-Direct、蜂巢式、長期演進(LTE)、WiMaxTM 或其類似者)。有線網路可包括任何有線介面(例如,光纖、乙太網路、電力線乙太網路、經由同軸電纜之乙太網路、數位信號線(DSL)或其類似者)。可使用各種設備來實施有線及/或無線網路,該等設備諸如基地台、路由器、存取點、橋接器、閘道器、交換器或其類似者。可根據通信標準(諸如,無線通信協定)調變經編碼視訊位元串流資料,且將其傳輸至接收器件。
在一些實例中,編碼器件104可將經編碼視訊位元串流資料儲存於儲存器108中。輸出端110可自編碼器引擎106或自儲存器108檢索經編碼視訊位元串流資料。儲存器108可包括多種分佈式或本機存取之資料儲存媒體中之任一者。舉例而言,儲存器108可包括硬碟機、儲存光碟、快閃記憶體、揮發性或非揮發性記憶體或用於儲存經編碼視訊資料之任何其他合適的數位儲存媒體。
解碼器件112之輸入端114接收經編碼視訊位元串流資料,且可將視訊位元串流資料提供至解碼器引擎116,或提供至儲存器118以供稍後由解碼器引擎116使用。解碼器引擎116可藉由熵解碼(例如,使用熵解碼器)且提取組成經編碼視訊資料之一或多個經寫碼視訊序列的元素,來解碼經編碼視訊位元串流資料。解碼器引擎116可接著重新按比例調整經編碼視訊位元串流資料且對經編碼視訊位元串流資料執行反變換。殘餘資料接著經傳遞至解碼器引擎116之預測級。解碼器引擎116隨後預測像素之區塊(例如,PU)。在一些實例中,預測被加至反變換之輸出(殘餘資料)。
解碼器件112可將經解碼視訊輸出至視訊目的地器件122,視訊目的地器件可包括用於將經解碼視訊資料顯示給內容之消費者的顯示器或其他輸出器件。在一些態樣中,視訊目的地器件122可為包括解碼器件112的接收器件之部分。在一些態樣中,視訊目的地器件122可為不同於接收器件的單獨器件之部分。
補充增強資訊(SEI)訊息可包括於視訊位元串流中。舉例而言,SEI訊息可用於攜載並非為由解碼器件112解碼位元串流所必需的資訊(例如,後設資料)。此資訊用於改良經解碼輸出之顯示或處理(例如,此類資訊可由解碼器側實體使用以改良內容之可視性)。
在一些實施例中,視訊編碼器件104及/或視訊解碼器件112可分別與音訊編碼器件及音訊解碼器件整合。視訊編碼器件104及/或視訊解碼器件112亦可包括實施上文所描述之寫碼技術所必要的其他硬體或軟體,諸如一或多個微處理器、數位信號處理器(DSP)、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、離散邏輯、軟體、硬體、韌體或其任何組合。視訊編碼器件104及視訊解碼器件112可整合為各別器件中之組合式編碼器/解碼器(編解碼器)之部分。
對HEVC標準之延伸包括多視圖視訊寫碼延伸(被稱作MV-HEVC)及可調式視訊寫碼延伸(被稱作SHVC)。MV-HEVC及SHVC延伸共用分層寫碼之概念,其中不同層包括於經編碼視訊位元串流中。經寫碼視訊序列中之每一層係由唯一層識別符(ID)定址。層ID可存在於NAL單元之標頭中以識別NAL單元所相關聯之層。在MV-HEVC中,不同層可表示視訊位元串流中之同一場景的不同視圖。在SHVC中,提供以不同空間解析度(或圖像解析度)或不同重建構保真度表示視訊位元串流的不同可調式層。可調式層可包括基礎層(層ID=0)及一或多個增強層(層ID=1, 2, … n)。基礎層可符合HEVC之第一版本的設定檔,且表示位元串流中之最低可用層。與基礎層相比,增強層具有增加之空間解析度、時間解析度或訊框速率及/或重建構保真度(或品質)。增強層經階層式組織,且可(或可不)取決於較低層。在一些實例中,可使用單一標準編解碼器來寫碼不同層(例如,使用HEVC、SHVC或其他寫碼標準編碼所有層)。在一些實例中,可使用多標準編解碼器來寫碼不同層。舉例而言,可使用AVC來寫碼基礎層,而可使用對HEVC標準之SHVC及/或MV-HEVC延伸來寫碼一或多個增強層。一般而言,層包括一組VCL NAL單元及對應的一組非VCL NAL單元。NAL單元被指派特定層ID值。在層可取決於較低層的意義上,層可為階層式的。
如先前所描述,HEVC位元串流包括NAL單元之群組,包括VCL NAL單元及非VCL NAL單元。除了其他資訊以外,非VCL NAL單元亦可含有具有與經編碼視訊位元串流相關之高層級資訊的參數集。舉例而言,參數集可包括視訊參數集(VPS)、序列參數集(SPS)及圖像參數集(PPS)。參數集之目標之實例包括位元速率效率、錯誤復原(error resiliency)及提供系統層介面。每一圖塊參考單一作用中PPS、SPS及VPS以存取解碼器件112可用於解碼圖塊之資訊。可針對每一參數集寫碼識別符(ID),包括VPS ID、SPS ID及PPS ID。SPS包括SPS ID及VPS ID。PPS包括PPS ID及SPS ID。每一圖塊標頭包括PPS ID。使用ID,可識別針對給定圖塊之作用中參數集。
VCL NAL單元包括形成經寫碼視訊位元串流之經寫碼圖像資料。各種類型之VCL NAL單元經定義於HEVC標準中。在單層位元串流中,如第一HEVC標準中所定義,含於AU中的VCL NAL單元具有相同NAL單元類型值,其中NAL單元類型值定義AU之類型及AU內的經寫碼圖像之類型。舉例而言,特定AU之VCL NAL單元可包括瞬時解碼再新(IDR) NAL單元(值19),使得AU為IDR AU且AU之經寫碼圖像為IDR圖像。給定類型之VCL NAL單元係關於含於VCL NAL單元(例如,VCL NAL單元中的圖像之圖塊或圖塊區段)中的圖像,或其部分。三類圖像經定義於HEVC標準中,包括前置圖像、後置圖像及框內隨機存取(IRAP)圖像(亦稱作「隨機存取圖像」)。在多層位元串流中,AU內的圖像之VCL NAL單元具有相同NAL單元類型值及相同類型經寫碼圖像。舉例而言,含有類型IDR之VCL NAL單元的圖像被稱為AU中之IDR圖像。在另一實例中,當AU含有為基礎層(層ID等於0)處之IRAP圖像的圖像時,AU為IRAP AU。
如上文所論述編碼之視訊位元串流可寫入或封裝於一或多個檔案中,以便將位元串流自編碼器件104傳送至解碼器件112。舉例而言,輸出端110可包括檔案寫入引擎,其經組態以產生含有位元串流之一或多個檔案。輸出端110可經由通信鏈路120傳輸一或多個檔案至解碼器器件112。替代或另外地,一或多個檔案可儲存於儲存媒體上(例如,磁帶、磁碟或硬碟機或某其他媒體),以供稍後傳輸至解碼器件112。
解碼器件112可包括(例如)在輸入端114中之檔案剖析引擎。檔案剖析引擎可讀取經由通信鏈路120或自儲存媒體接收之檔案。檔案剖析引擎可進一步自檔案提取樣本,並重建構位元串流以用於由解碼器引擎116解碼。在一些狀況下,經重建構位元串流可與由編碼器引擎106產生的位元串流相同。在一些狀況下,編碼器引擎106可已產生具有用於解碼位元串流之若干可能選項的位元串流,在該狀況下,經重建構位元串流可包括所有可能選項中之僅一者或少於所有可能選項。
如上文所論述經編碼之視訊位元串流可使用ISOBMFF、自ISOBMFF導出之檔案格式、某其他檔案格式及/或包括ISOBMFF之檔案格式的組合來寫入或封裝至一或多個檔案中。檔案可使用視訊播放器器件播放,可經傳輸且接著經顯示,及/或被儲存。
圖2繪示根據ISOBMFF格式化之含有用於視訊呈現之資料及後設資料的ISO基本媒體檔案200之實例。ISOBMFF經設計而以靈活且可延伸格式含有時控媒體資訊,該時控媒體資訊促進媒體之互換、管理、編輯及呈現。媒體之呈現對於含有呈現之系統可為「本機的」,或呈現可係經由網路或其他串流遞送機構。
如ISOBMFF規格中所定義之「呈現」為常常藉由已由視訊擷取器件依序擷取相關或由於某其他原因相關的圖像序列。本文中,呈現亦可被稱作電影或視訊呈現。呈現可包括音訊。單一呈現可含於一或多個檔案中,其中一個檔案含有用於整個呈現之後設資料。後設資料包括資訊,諸如時序及成框資料、描述詞、指標、參數,及描述呈現之其他資訊。後設資料自身並不包括視訊及/或音訊資料。除含有後設資料之檔案以外的檔案無需根據ISOBMFF而格式化,且僅僅需要經格式化以使得此等檔案可藉由後設資料參考。
ISO基本媒體檔案之檔案結構為物件定向式結構,且檔案中之個別物件之結構可直接自物件之類型來推斷。ISOBMFF規格將ISO基本媒體檔案中之物件稱作「邏輯框」。ISO基本媒體檔案經建構為可含有其他邏輯框之一系列邏輯框。邏輯框大體包括提供邏輯框之大小及類型的標頭。大小描述邏輯框之整個大小,包括標頭、欄位及含於邏輯框內之所有邏輯框。播放器器件不能識別之類型的邏輯框通常被忽略並跳過。
如藉由圖2之實例所繪示,在檔案之頂部層級,ISO基本媒體檔案200可包括檔案類型邏輯框210、電影邏輯框220及一或多個電影片段邏輯框230a、230n。在此層級可被包括但在此實例中並未表示之其他邏輯框包括自由空間邏輯框、後設資料邏輯框及媒體資料邏輯框外加其他。
ISO基本媒體檔案可包括藉由邏輯框類型「ftyp」識別之檔案類型邏輯框210。檔案類型邏輯框210識別最適合於剖析檔案之ISOBMFF規格。「最」在此情況下意謂,ISO基本媒體檔案200可能已根據特定ISOBMFF規格格式化,但很可能與規格之其他反覆相容。此最合適規格被稱作主要品牌(major brand)。播放器器件可使用主要品牌來判定器件是否能夠解碼並顯示檔案之內容。檔案類型邏輯框210亦可包括版本號,該版本號可用以指示ISOBMFF規格之版本。檔案類型邏輯框210亦可包括相容品牌之清單,該清單包括檔案相容之其他品牌的清單。ISO基本媒體檔案可與大於一個主要品牌相容。
當ISO基本媒體檔案200包括檔案類型邏輯框210時,存在僅一個檔案類型邏輯框。ISO基本媒體檔案200可省略檔案類型邏輯框210以便與早期播放器器件相容。當ISO基本媒體檔案200不包括檔案類型邏輯框210時,播放器器件可假定預設主要品牌(例如「mp41」)、次要版本(例如,「0」)及相容品牌(例如,「mp41」)。檔案類型邏輯框210通常儘可能早地置放於ISO基本媒體檔案200中。
ISO基本媒體檔案可進一步包括電影邏輯框220,其可含有後設資料以供呈現。電影邏輯框220係藉由邏輯框類型「moov」識別。ISO/IEC 14496-12規定,呈現可包括僅一個電影邏輯框220,不管含於一個檔案抑或多個檔案中。通常,電影邏輯框220靠近ISO基本媒體檔案之開始。電影邏輯框220包括電影標頭邏輯框222,且可包括一或多個軌邏輯框224以及其他邏輯框。
藉由邏輯框類型「mvhd」識別之電影標頭邏輯框222可包括與媒體無關且與作為整體之呈現相關的資訊。舉例而言,電影標頭邏輯框222可包括資訊,諸如建立時間、修改時間、時間標度及/或針對呈現之持續時間以及其他。電影標頭邏輯框222亦可包括識別呈現中之下一軌的識別符。舉例而言,在所繪示之實例中,識別符可指向由電影邏輯框220含有之軌邏輯框224。
藉由邏輯框類型「trak」識別之軌邏輯框224可含有用於呈現之軌的資訊。呈現可包括一或多個軌,其中每一軌獨立於呈現中之其他軌。每一軌可包括對於軌中之內容特定之時間及空間資訊,且每一軌可與媒體邏輯框相關聯。軌中之資料可為媒體資料,在此狀況下,軌為媒體軌;或資料可為用於串流傳輸協定之封包化資訊,在此狀況下,軌為提示軌。舉例而言,媒體資料包括視訊及音訊資料。在所繪示之實例中,實例軌邏輯框224包括軌標頭邏輯框224a及媒體邏輯框224b。軌邏輯框可包括其他邏輯框,諸如軌參考邏輯框、軌群組邏輯框、編輯邏輯框、使用者資料邏輯框、後設邏輯框及其他邏輯框。
藉由邏輯框類型「tkhd」識別之軌標頭邏輯框224a可指定含於軌邏輯框224中之軌的特性。舉例而言,軌標頭邏輯框224a可包括軌之建立時間、修改時間、持續時間、軌識別符、層識別符、群組識別符、音量、寬度及/或高度,以及其他。對於媒體軌,軌標頭邏輯框224a可進一步識別軌是否經啟用,軌是否應作為呈現之部分而播放,或軌是否可用以預覽呈現,外加其他。軌之呈現通常假定為處於呈現之開始處。軌邏輯框224可包括此處未繪示之編輯清單邏輯框,該編輯清單邏輯框可包括顯式時刻表圖。時刻表圖可指定軌之偏移時間外加其他,其中偏移指示軌之在呈現開始之後的開始時間。
在所繪示之實例中,軌邏輯框224亦包括由邏輯框類型「mdia」識別之媒體邏輯框224b。媒體邏輯框224b可含有物件及關於軌中之媒體資料之資訊。舉例而言,媒體邏輯框224b可含有處置程式參考邏輯框,其可識別軌之媒體類型及藉以呈現軌中之媒體之處理程序。作為另一實例,媒體邏輯框224b可含有媒體資訊邏輯框,其可指定軌中媒體的特性。媒體資訊邏輯框可進一步包括樣本表,其中每一樣本描述包括(例如)該樣本的資料之位置的媒體資料(例如,視訊或音訊資料)塊。樣本之資料儲存於下文進一步論述之媒體資料邏輯框中。如同大部分其他邏輯框,媒體邏輯框224b亦可包括媒體標頭邏輯框。
在所繪示之實例中,實例ISO基本媒體檔案200亦包括呈現之多個片段230a、230b、230c、230n。片段230a、230b、203c、230n並非ISOBMFF邏輯框,而是描述電影片段邏輯框232及該電影片段邏輯框232所參考之媒體資料邏輯框238。電影片段邏輯框232及媒體資料邏輯框238係頂層邏輯框,但此處分組在一起以指示電影片段邏輯框232與媒體資料邏輯框238之間的關係。
由邏輯框類型「moof」標識之電影片段邏輯框232可藉由包括將以其他方式儲存於電影邏輯框220中之額外資訊來延伸呈現。使用電影片段邏輯框232,可逐漸地構建呈現。電影片段邏輯框232可包括電影片段標頭邏輯框234及軌片段邏輯框236以及此處未繪示之其他邏輯框。
藉由邏輯框類型「mfhd」識別之電影片段標頭邏輯框234可包括序號。播放器器件可使用序號來驗證片段230a包括資料之下一片段以供呈現。在一些狀況下,檔案之內容或用於呈現之檔案可無序地被提供至播放器器件。舉例而言,網路封包可以不同於最初傳輸封包之次序的次序頻繁地到達。在此等狀況下,序號可輔助播放器器件判定片段之正確次序。
電影片段邏輯框232亦可包括藉由邏輯框類型「traf」識別之一或多個軌片段邏輯框236。電影片段邏輯框232可包括一組軌片段(每軌零或多個片段)。軌片段可含有零或多個軌行程,其中之每一者描述軌的樣本之連續行程。除添加樣本至軌外,軌片段可用以將空的時間添加至軌。
藉由邏輯框類型「mdat」識別之媒體資料邏輯框238含有媒體資料。在視訊軌中,媒體資料邏輯框238將含有視訊訊框。媒體資料邏輯框可替代地或另外地包括音訊資料。呈現可包括含於一或多個個別檔案中之零或大於零的媒體資料邏輯框。媒體資料藉由後設資料描述。在所繪示之實例中,媒體資料邏輯框238中之媒體資料可藉由包括於軌片段邏輯框236中之後設資料來描述。在其他實例中,媒體資料邏輯框中之媒體資料可藉由電影邏輯框220中之後設資料來描述。後設資料可藉由檔案200內之絕對偏移參考特定媒體資料,以使得媒體資料邏輯框238內之媒體資料標頭及/或自由空間可被跳過。
ISO基本媒體檔案200中之其他片段230b、230c、230n可含有類似於針對第一片段230a繪示之彼等的邏輯框,及/或可含有其他邏輯框。
除支援媒體之本機播放外,ISOBMFF包括對經由網路串流傳輸媒體資料的支援。包括一個電影呈現之檔案可包括稱為提示軌之額外軌,其含有可輔助串流傳輸伺服器形成並傳輸檔案作為封包的指令。舉例而言,此等指令可包括用於伺服器以供發送之資料(例如標頭資訊)或對媒體資料之區段的參考。檔案可包括用於不同串流傳輸協定之單獨提示軌。提示軌亦可在不需要重新格式化檔案之情況下添加至檔案。
用於對媒體資料進行串流傳輸之一種方法為經由超文字傳送協定(HTTP)或DASH (界定於ISO/IEC 23009-1:2014)之動態自適應串流。被稱為MPEG-DASH之DASH為啟用媒體內容使用習知HTTP網頁伺服器之高品質串流傳輸的自適應位元速率串流傳輸技術。DASH藉由將媒體內容打斷成一系列基於HTTP之小檔案區段來操作,其中每一區段含有短時間間隔之內容。使用DASH,伺服器可以不同位元速率提供媒體內容。正播放媒體之用戶端器件可在下載下一區段時自替代性位元速率做出選擇,且因此適應於改變網路條件。DASH使用網際網路之HTTP網頁伺服器基礎架構來經由全球資訊網遞送內容。DASH獨立於用以編碼並解碼媒體內容之編解碼器,且因此與諸如H.264及HEVC之編解碼器外加其他一起操作。
ISOBMFF規格指定適用於DASH之六種類型串流存取點(SAP)。前兩種SAP類型(類型1及2)對應於H.264/AVC及HEVC中之瞬時解碼再新(IDR)圖像。舉例而言,IDR圖像為圖像內(intra-picture,I-picture)圖像,其在解碼器處完全再新或重新初始化解碼處理程序且開始新的經寫碼視訊序列。在一些實例中,IDR圖像及按解碼次序在IDR圖像之後的任何圖像不可取決於按解碼次序在IDR圖像之前出現的任何圖像。
第三SAP類型(類型3)對應於開放GOP(圖像群組)隨機存取點,因此對應於HEVC中之斷鏈存取(BLA)或清潔隨機存取(CRA)圖像。舉例而言,CRA圖像亦為I圖像。CRA圖像可能並不再新解碼器,且可能不開始新CVS,從而允許CRA圖像之前置圖像取決於按解碼次序在CRA圖像之前出現的圖像。隨機存取可藉由解碼以下各者在CRA圖像處進行:CRA圖像、並不取決於按解碼次序在CRA圖像之前出現之任何圖像的與CRA圖像相關聯之前置圖像,及按解碼次序及輸出次序兩者在CRA之後的所有關聯圖像。在一些狀況下,CRA圖像可能並不具有相關聯前置圖像。在一些實施例中,在多層狀況下,屬於具有大於0之層ID之層的IDR或CRA圖像可為P圖像或B圖像,但此等圖像可僅使用來自屬於與IDR或CRA圖像相同之存取單元且具有小於含有IDR或CRA圖像之層的層ID的其他圖像之層間預測。
第四種SAP類型(類型4)對應於漸次性解碼再新(GDR)隨機存取點。
雖然為靈活且可延伸的且廣泛用以儲存並傳輸各種類型之媒體,但ISOBMFF並不包括用於儲存虛擬實境視訊或識別ISO基本媒體檔案之內容為包括虛擬實境內容的機構。播放器器件可因此不能判定檔案之內容包括虛擬實境視訊。不能顯示虛擬實境內容之播放器器件可無論如何顯示內容,從而導致失真呈現。
虛擬實境(VR)為虛擬存在於藉由顯現經由沉浸使用者之移動而相關的自然及/或合成影像及聲音所建立的非實體世界中,從而允許該使用者與彼非實體世界互動之能力。在顯現器件中的最新進展(諸如頭戴式顯示器(HMD)),及VR視訊(常常亦稱作360度視訊)建立情況下,可提供顯著體驗品質。VR應用包括遊戲、訓練、教育、運動視訊、線上購物、成年人娛樂等。
虛擬實境系統可包括視訊擷取器件及視訊顯示器件,且可能亦包括諸如伺服器、資料儲存器及資料傳輸裝備之其他中間器件。視訊擷取器件可包括攝影機集合,即多個攝影機之集合,每一攝影機指向或定向於不同方向且擷取不同視圖。攝影機集合之攝影機可理想地總體覆蓋圍繞該攝影機集合的所有視圖。舉例而言,可使用六個攝影機擷取位於攝影機集合之位置中心的完整360度視圖。一些視訊擷取器件可使用主要擷取側對側視圖之較少攝影機,諸如視訊擷取器件。
為提供順暢360度視圖,藉由攝影機集合中的攝影機中之每一者擷取的視訊通常進行影像縫合,其中藉由多個個別攝影機拍攝的視訊圖像在時域中同步且在空間域中縫合為球面視訊,但經繪製為矩形格式,諸如等矩形(例如,類似世界地圖)、立方圖或其他圖。在一些狀況下,在360度視訊產生之狀況下的影像縫合可涉及組合或合併視訊訊框重疊或將以其他方式連接所在之區域中的鄰近攝影機之視訊訊框。結果將為大體球面訊框,但類似於麥卡托(Mercator)投影,經合併之資料可以平坦樣式表示。舉例而言,經合併視訊訊框中之像素可經映射至立方體形狀或某其他三維平面形狀(例如,角錐形、八面體、十面體等)之平面上。視訊擷取及視訊顯示器件大體上按光柵原理操作,意謂視訊訊框作為像素柵格處置,因此,正方形或矩形平面通常用以表示球面環境。
映射至平面表示之虛擬實境視訊訊框可經編碼(或經壓縮)以供儲存及/或傳輸。編碼及/或壓縮可使用視訊編解碼器(例如,H.265/HEVC相容編解碼器、H.264/AVC相容編解碼器或其他合適編解碼器)實現,且產生經壓縮之視訊位元串流或位元串流群組。本文中進一步詳細地描述使用視訊編解碼器對視訊資料編碼。
一或多個經編碼視訊位元流可以媒體格式或檔案格式經儲存及/或囊封。一或多個所儲存位元串流可(例如)經由網路傳輸至接收器器件,該接收器器件可解碼並顯現視訊以供顯示。此接收器器件可為視訊顯示器件、播放器器件、解碼器器件或其他合適器件。舉例而言,虛擬實境系統可自經編碼視訊資料產生經囊封檔案(例如,使用國際標準組織(ISO)基本媒體檔案格式及/或所推導之檔案格式)。舉例而言,視訊編解碼器可編碼視訊資料,且囊封引擎可藉由將視訊資料囊封於一或多個ISO格式媒體檔案中而產生媒體檔案。替代或另外地,一或多個所儲存位元串流可自儲存媒體被直接提供至接收器器件。
接收器器件亦可實施編解碼器以解碼及/或解壓縮經編碼視訊位元串流。接收器器件可支援媒體或檔案格式,其用以將視訊位元串流封裝至一檔案(或多個檔案)中、提取視訊(及亦可能音訊)資料以產生經編碼視訊資料。舉例而言,接收器器件用經囊封視訊資料剖析媒體檔案以產生經編碼視訊資料,且接收器器件中之編解碼器可解碼經編碼視訊資料。
接收器器件接著可將經解碼視訊信號發送至顯現器件(例如,視訊顯示器件)。顯現器件包括(例如)頭戴式顯示器(HMD)、虛擬實境電視,及/或其他180度或360度顯示器件。大體而言,頭戴式顯示器能夠追蹤穿戴者之頭部之移動及/或穿戴者之眼睛的移動。頭戴顯示器可使用追蹤資訊來顯現對應於穿戴者正觀察之方向的360度視訊之部分,使得穿戴者以與穿戴者將體驗真實世界相同之方式體驗虛擬環境。顯現器件可以擷取視訊之相同訊框速率或以不同訊框速率顯現視訊。
藉由MPEG開發的全向媒體應用程式格式(OMAF)定義允用全向媒體應用程式之媒體應用程式格式(諸如具有360度視訊及相關聯音訊的虛擬實境應用程式)。除其他之外,OMAF指定投影方法之清單,其可用於球面或360度視訊至二維矩形視訊之轉換,以及關於如何使用ISO基本媒體檔案格式(ISOBMFF)儲存全向媒體及相關聯後設資料的描述。另外,OMAF指定如何使用HTTP動態自適應串流(DASH)囊封、信令傳輸(例如,標示或指示)且串流傳輸全向媒體。OMAF亦指定可用於壓縮及播放全向媒體信號之視訊及音訊編解碼器及媒體寫碼組態。
提議採納OMAF作為ISO/IEC 23090-2,且草案規格可在http://wg11.sc29.org/doc_end_user/documents/119_Torino/wg11/m40849-v1-m40849_OMAF_text_Berlin_output.zip處得到。
OMAF規格描述用於信令傳輸區域後設資料之格式,然而,容器檔案之規格可能不足以提供用於信令傳輸區域資料的描述。
OMAF規格在條目7.4中包括區域後設資料信令傳輸之規格。在此上下文中信令傳輸指代在結構化資料集(諸如經編碼位元串流或根據格式進行建構之檔案)中指示資訊。舉例而言,如繪示為隨後實例的條目7.4描述可用以指示關於360度視訊之區域的資訊的資料結構。此等區域在本文中亦被稱作球面區域,且可表示小於整個360度視訊資料。條目7.4提供用於諸如使用時控後設資料軌信令傳輸球面區域之事物的規格,包括推薦檢視區時控後設資料。推薦檢視區時控後設資料軌可指示:應在使用者未控制檢視定向或已釋放對檢視定向之控制時顯示檢視區。舉例而言,推薦檢視區時控後設資料軌可用以表達導演剪輯版。
在OMAF規格之條目7.4.2中,球面區域時控後設資料軌之樣本項定義、語法及語義如下進行指定:
精確地,一個SphereRegionConfigBox應存在於樣本項中:SphereRegionConfigBox指定藉由該等樣本指定之球面區域的形狀。當該等樣本中之球面區域的水平範圍及垂直範圍不改變時,其可在樣本項中進行指示。 class SphereRegionSampleEntry(type) extends MetaDataSampleEntry(type) { SphereRegionConfigBox(); // mandatory Box[] other_boxes; // optional } class SphereRegionConfigBox extends FullBox('rosc', version = 0, flags) { unsigned int(8) shape_type; bit(7) reserved = 0; unsigned int(1) dynamic_range_flag; if (dynamic_range_flag == 0) { unsigned int(32) static_hor_range; unsigned int(32) static_ver_range; } unsigned int(8) num_regions; }
shape_type 等於0指定球面區域係藉由如圖3中所繪示之四個大圓指定(藉由四個大圓指定之球面區域)。
shape_type 等於1指定球面區域係藉由如圖4中所繪示之兩個偏航圓及兩個節圓指定(藉由兩個偏航圓及兩個節圓指定之球面區域)。
shape_type 值大於1之經預留。
dynamic_range_flag 等於0指定球面區域之水平範圍及垂直範圍在參考此樣本項之所有樣本中保持不變。dynamic_range_flag等於1指定球面區域之水平範圍及垂直範圍係以樣本格式進行指示。
static_hor_rangestatic_ver_range 以2−16 度為單位分別指定參考此樣本項之每一樣本的球面區域之水平範圍及垂直範圍。static_hor_range及static_ver_rnge指定穿過球面區域之中心點的範圍,如藉由圖3或圖4所繪示。static_hor_range應介於0至720 * 216 之範圍內,包括端點。static_ver_range應介於0至180 * 216 之範圍內,包括端點。當static_hor_range及static_ver_range兩者均等於0時,參考此樣本項之每一樣本的球面區域為球面表面上的一點。
num_regions 指定參考此樣本項之樣本中的球面區域之數目。num_regions應等於1。num_regions之其他值預留。
在OMAF規格之條目7.4.3中,球面區域時控後設資料軌之樣本定義、語法及語義如下進行指定:
每一樣本指定一球面區域。SphereRegionSample結構可以所推導之軌格式延伸。 aligned(8) SphereRegionStruct(range_included_flag) { signed int(32) center_yaw; signed int(32) center_pitch; singed int(32) center_roll; if (range_included_flag) { unsigned int(32) hor_range; unsigned int(32) ver_range; } unsigned int(1) interpolate; bit(7) reserved = 0; } aligned(8) SphereRegionSample() { for (i = 0; i < num_regions; i++) SphereRegionStruct(dynamic_range_flag) }
當SphereRegionStruct()包括於SphereRegionSample()結構中時,以下應用:
center_yawcenter_pitchcenter_roll 指定相對於全域座標軸以2−16 度為單位的檢視區定向。center_yaw及center_pitch指示檢視區之中心,且center_roll指示檢視區之滾動角度。center_yaw應介於−180 * 216 至180 * 216 −1之範圍內,包括端點。center_pitch應介於−90 * 216 至90 * 216 之範圍中,包括端點。center_roll應介於−180 * 216 至180 * 216 −1之範圍內,包括端點。
hor_rangever_range (若存在)以2−16 度為單位分別指定藉由此樣本指定的球面區域之水平範圍及垂直範圍。hor_range及ver_range指定穿過球面區域之中心點的範圍,如藉由圖3或圖4所繪示。hor_range應介於0至720 * 216 之範圍內,包括端點。ver_range應介於0至180 * 216 之範圍內,包括端點。
藉由此樣本指定之球面區域如下進行推導:
−若hor_range及ver_range兩者均等於0時,則藉由此樣本指定的球面區域為球面表面上的一點。
−否則,球面區域使用如下所推導之變數cYaw1、cYaw2、cPitch1及cPitch2進行定義: cYaw1 = (center_yaw - (range_included_flag ? hor_range : static_hor_range) ÷ 2) ÷65536 cYaw2 = (center_yaw + (range_included_flag ? hor_range : static_hor_range)÷ 2) ÷65536 cPitch1 = (center_pitch - (range_included_flag ? ver_range : static_ver_range) ÷ 2) ÷65536 cPitch2 = (center_pitch + (range_included_flag ? ver_range : static_ver_range) ÷ 2) ÷65536 球面區域如下進行定義:
−當shape_type等於0時,球面區域係藉由用四個點cYaw1、cYaw2、cPitch1、cPitch2定義之四個大圓及用center_pitch及center_yaw定義之中心點進行指定且如圖3中所示。
−當shape_type等於1時,球面區域係藉由用四個點cYaw1、cYaw2、cPitch1、cPitch2定義之兩個偏航圓及兩個節圓以及用center_pitch及center_yaw定義之中心點進行指定,且如圖4中所示。
令目標媒體樣本為參考媒體軌中之媒體樣本,其中組成時間大於或等於此樣本之組成時間,且小於下一樣本之組成時間。
interpolate 等於0指定此樣本中的center_yaw、center_pitch、center_roll、hor_range(若存在)及ver_range(若存在)的值應用於目標媒體樣本。interpolate等於1指定應用於目標媒體樣本的center_yaw、center_pitch、center_roll、hor_range(若存在)及ver_range(若存在)之值自此樣本及前一樣本中之對應欄位的值線性內插。
同步樣本、軌之第一樣本及軌片段之第一樣本的interpolate之值應等於0。
在OMAF規格之條目7.4.5中,推薦檢視區時控後設資料軌如下進行指定:
推薦檢視區時控後設資料軌指示:應在使用者未控制檢視定向或已釋放對檢視定向之控制時顯示檢視區。
應注意:推薦檢視區時控後設資料軌可用於指示導演剪輯版。
應使用樣本項類型「rcvp」。
應使用SphereRegionSample之樣本語法。
shape_type應在樣本項之SphereRegionConfigBox中等於0。
static_hor_range及static_ver_range(若存在)或hor_range及ver_range(若存在)分別指示推薦檢視區之水平視場及垂直視場。
center_yaw及center_pitch指示推薦檢視區之中心點。center_roll指示推薦檢視區之滾動角度。
MPEG文件m40783之項13提議如下文在OMAF之上下文中所描述的所謂最多檢視之檢視區區域後設資料。
最多檢視之檢視區時控後設資料軌指示對於每一圖像,已經最多檢視之檢視區。
應使用樣本項類型「mvvp」。
應使用RegionOnSphereSample之樣本語法。
shape_type應在樣本項之RegionOnSphereConfigBox中等於0。
static_hor_range及static_ver_range(若存在)或hor_range及ver_range(若存在)分別指示最多檢視之檢視區的水平視場及垂直視場。
center_yaw及center_pitch指示最多檢視之檢視區的中心點。center_roll指示最多檢視之檢視區的滾動角度。
在標題為「Berlin OMAF AHG meeting agenda and minutes」之MPEG文件m40805中,應注意,建議將一些指示添加至可用以指示後設資料之源及本質的推薦檢視區信令傳輸:例如,1)根據導演剪輯版;2)根據以統計方式最多檢視之檢視區;3)藉由特定個人或使用者等等。
視訊編碼規格可能不足以提供用於在視訊位元串流中信令傳輸區域後設資料的描述。
JCTVC-AA1005 (可在http://phenix.int-evry.fr/jct/doc_end_user/documents/27_Hobart/ wg11/JCTVC-AA1005-v1.zip處得到)指定全向檢視區SEI訊息(在JCTVC-AA1005之條目D.2.42及D.3.42中)。彼SEI訊息之語法及語義如下,其中CLVS表示經寫碼層級視訊序列:
語法
Figure 107123001-A0304-0001
語義
全向檢視區SEI訊息指定對應於經推薦以供顯示之檢視區的以四個大圓為界之球面座標幾何形狀之一或多個區域的座標。用於全向檢視區SEI訊息的參考球面座標系統與用於omni_projection_type等於0之全向投影指示SEI訊息的相同。
omni_viewport_id 含有可用以識別一或多個推薦檢視區區域之目的的識別數目。
自0至511 (包括端點)的omni_viewport_id之值可被用作由應用判定。自512至1023的omni_viewport_id之值經預留以供未來藉由ITU-T | ISO/IEC使用。遇到範圍介於512至1023 (包括端點)之間的omni_viewport_id之值的解碼器應忽略該值。
omni_viewport_cancel_flag 等於1指示SEI訊息按輸出次序取消任何先前全向檢視區SEI訊息之存留。omni_viewport_cancel_flag等於0指示隨後為全向檢視區資訊。
omni_viewport_persistence_flag 指定當前層的全向檢視區SEI訊息之存留。
omni_viewport_persistence_flag等於0指定全向檢視區SEI訊息僅僅應用於當前經解碼圖像。
令picA為當前圖像。omni_viewport_persistence_flag等於1指定全向檢視區SEI訊息按輸出次序持續用於當前層,直至以下條件中之一或多者為真為止:
-當前層之新CLVS開始。
-位元串流結束。
-存取單元中之當前層中的含有適用於當前層之全向檢視區SEI訊息的圖像picB經輸出,對於該圖像,PicOrderCnt(picB)大於PicOrderCnt(picA),其中PicOrderCnt(picB)及PicOrderCnt(picA)分別為緊接在調用picB之圖像次序計數的解碼處理程序之後的picB及picA之PicOrderCntVal值。
當omni_projection_information_cancel_flag等於0的全向投影指示SEI訊息不存在於應用於當前圖像之CLVS中,且按解碼次序先於全向檢視區SEI訊息時,omni_viewport_cancel_flag等於0之全向檢視區SEI訊息不應存在於應用於當前圖像之CLVS中。解碼器應忽略omni_viewport_cancel_flag等於0之全向檢視區SEI訊息,其按解碼次序並非緊跟著應用於當前圖像之CLVS中的omni_projection_information_cancel_flag等於0之全向投影指示SEI訊息。
omni_viewport_cnt_minus1 指定藉由SEI訊息指示之推薦檢視區區域的數目。
omni_viewport_yaw_center [i]以2 16 度為單位指示圍繞向上向量的第i個推薦檢視區區域之中心。omni_viewport_yaw_center[i]之值應介於−180 * 216 (亦即,−11796480)至180 * 216 −1 (亦即,11796479)之範圍內,包括端點。
omni_viewport_pitch_center [i]以2 16 度為單位指示圍繞omni_viewport_yaw_center (亦即,偏航旋轉之後的右側向量)的第i個推薦檢視區區域之中心。omni_viewport_pitch_center[i]之值應介於−90 * 216 (亦即,−5898240)至90 * 216 (亦即,5898240)之範圍內,包括端點。
omni_viewport_roll_center [i]以2 16 度為單位指示圍繞omni_viewport_pitch_center (亦即,偏航及間距旋轉之後的轉遞向量)的第i個推薦檢視區區域之中心。omni_viewport_roll_center[i]之值應介於−180 * 216 (亦即,−11796480)至216 −1 (亦即,11796479)之範圍內,包括端點。
omni_viewport_yaw_range [i]以2 16 度為單位指示範圍為偏航之值的投影經映射經解碼圖像之第i個推薦檢視區區域的大小。omni_viewport_yaw_range[i]之值應介於1至360 * 216 (亦即,23592960)之範圍內,包括端點。
omni_viewport_pitch_range [i]以2 16 度為單位指示範圍為間距之值的投影經映射經解碼圖像之第i個推薦檢視區區域的大小。omni_viewport_pitch_range[i]之值應介於1至180 * 216 (亦即,11796480)之範圍內,包括端點。
如上文所描述,區域後設資料可允許內容建立者指定360度或全向視訊中之關注區域。關注區域可為內容建立者希望出於一個原因或另一原因突出顯示的360度視訊之一部分。舉例而言,當檢視者被動地觀測視訊(例如,檢視者未控制置放於檢視者之前的視訊之部分)時,關注區域可被呈現於檢視者之初級檢視區(例如,位於檢視者正前方的檢視區中。在本文中,術語「關注區域」、「球面區域」及「推薦檢視區」可被互換地使用。
描述可如何記錄360度視訊之各種規格缺少用於信令傳輸全向視訊之區域後設資料的規格。舉例而言,不存在呈容器檔案格式任一者之經明確定義且公認的規格,或用於信令傳輸球面區域(例如,對球面區域之描述,可能包括該球面區域為何為關注區域)之源及本質或推薦檢視區時控後設資料的視訊位元串流編碼規格。作為另一實例,當每一樣本指定多於一個球面區域時(例如,每一球面區域為推薦檢視區),在該等球面區域之任何兩者之間,哪一者相比其他者相對更重要或推薦更多係未知的。作為另一實例,推薦檢視區之源及本質可包括許多源及描述,此外,推薦檢視區為導演剪輯版或以統計方式經最多檢視。舉例而言,推薦檢視區可能已藉由名人或特定網站指定,可能在特定上下文中係顯著的,及/或可能出於其他原因被推薦。在此實例中,精確指定推薦檢視區之源及本質可能繁重且可能不必要,且應採納用於信令傳輸除導演剪輯版或以統計方式經最多檢視的以外的源及本質的簡單方法。
提供用於指定區域資訊之系統與方法,該區域資訊諸如一推薦檢視區之一源及本質及多個推薦檢視區當中的一優先級。該等方法中之一些或全部可獨立地應用,且該等方法中之一些或全部可以組合應用。
作為第一實例,可提供用於信令傳輸與推薦檢視區相關聯之源及本質及推薦檢視區時控後設資料的規格,該規格可應用於容器檔案及/或視訊位元串流。在此實例中,規格可在上文所描述之SphereRegionConfigBox語法中包括添加一欄位迴路,每一球面區域添加一個(例如,藉由應用有樣本項之樣本所指定的),以指示球面區域之源。在推薦檢視區之上下文中(例如,當樣本項類型為「rcvp」時),此欄位之值可指示導演剪輯版(例如,當該值等於0時)、藉由統計經最多檢視的(例如,當該值等於1時),或另一源及本質。在一些實例中,允許SphereRegionConfigBox中的num_regions欄位之值大於1。在此等實例中,可在相同時控後設資料軌中攜載不同球面區域。在一些實例中,num_regions欄位之值可能仍需要等於1。在此等實例中,將在不同時控後設資料軌中攜載不同球面區域。
替代或另外地,在第一實例中,可將一欄位添加至全向檢視區SEI訊息語法,每一檢視區添加一個,以指示檢視區之源及本質。此欄位之值可指示導演剪輯版(例如,當該值等於0時)、藉由統計經最多檢視的(例如,當該值等於1時),或另一源及本質。
作為第二實例,可提供規格以指定多個球面區域中之哪一者相比其他者更重要。在此實例中,規格可在SphereRegionConfigBox語法中包括添加一欄位迴路,每一球面區域添加一個(例如,藉由將應用有樣本項之樣本指定),以指示球面區域之優先級。在推薦檢視區之上下文中(亦即,當樣本項類型為「rcvp」時),作為一實例,檢視區之較低優先級值指示檢視區之較高程度推薦。舉例而言,在一些狀況下,具有優先級值0之檢視區為經最多推薦之檢視區。
替代或另外地,在第二實例中,可將一欄位添加至全向檢視區SEI訊息語法,每一檢視區添加一個,以指示檢視區之優先級。作為一實例,檢視區之較低優先級值可指示檢視區之較高推薦。舉例而言,在一些狀況下,具有優先級值0之檢視區為經最多推薦之檢視區。
作為第三實例,可提供一規格以指示推薦檢視區之原因(例如,除作為導演剪輯版之檢視區或以統計方式最多檢視之檢視區之外的源及本質)。在此實例中,規格可在SphereRegionConfigBox語法中包括針對每一球面區域添加欄位迴路(其可被稱作源欄位),如上文第一實例中所描述,以指示球面區域之源。在此實例中,當源欄位為特定值(例如,二)時,可將另一欄位添加至SphereRegionConfigBox以指示全球資源識別碼(URI)。在此實例中,URI可提供用以產生球面區域資訊之方法的唯一名稱。
替代或另外地,在第三實例中,當源欄位之值等於特定值(例如,二)時,可將欄位添加至全向檢視區SEI訊息語法。在此實例中,額外欄位可指示提供用以產生檢視區資訊之方法之描述的URI的一URI。
在一些狀況下,替代地或與如上文所述之第一、第二及第三實例組合,在第四實例中,可提供定義新SEI訊息之規格(例如,被命名為全向CLVS檢視區SEI訊息或另一合適的名稱)。在此實例中,新SEI訊息可信令傳輸用於推薦檢視區之資訊,且此資訊可在整個經寫碼層級視訊序列(CLVS)上靜態。在一些實例中,如上文在第一、第二及第三實例中所描述的進行信令傳輸之資訊可實際上在新SEI訊息中信令傳輸。另外,在一些實例中,omni_viewport_id語法元素可自全向檢視區SEI訊息移除。此外,在一些狀況下,omni_viewport_cnt_minus1語法元素可在全向檢視區SEI訊息及新SEI訊息兩者中信令傳輸(在新SEI訊息中具有不同語法元素名稱)。相較於omni_viewport_cnt_minus1語法元素僅僅在新SEI訊息中信令傳輸的狀況,此避免全向檢視區SEI訊息對新SEI訊息之語法剖析依賴性。以此方式,大部分靜態資訊無需在全向檢視區SEI訊息中重複,該等全向檢視區SEI訊息攜載橫跨CLVS中之圖像的每一球面區域之動態位置及大小。
在一些狀況下,替代地或與如上文所述之第一、第二及第三實例組合,在第五實例中,可提供用於在OMAF中信令傳輸推薦檢視區之規格。在此實例中,代替改變SphereRegionConfigBox之語法,將新邏輯框定義為含有相同資訊,且在樣本項類型為「rcvp」時將新邏輯框直接包括至相同項語法中。
現提供如上文所述之第四及第五實例的實例實施例。僅僅提供此等實施例作為對於此等實例的實例實施,且其他實施係可能的。第四實例之實例實施例
出於繪示之目的提供上文所描述之第四實例的說明性詳細實施例。
在此實例中被命名為全向CLVS檢視區SEI訊息的新SEI訊息之語法及語義如下:
語法
Figure 107123001-A0304-0002
語義
全向CLVS檢視區SEI訊息指定應用於藉由CLVS中之全向檢視區SEI訊息指定之所有檢視區的資訊。
當omni_projection_information_cancel_flag等於0的全向投影指示SEI訊息不存在於應用於當前圖像之CLVS中,且按解碼次序先於全向CLVS檢視區SEI訊息時,全向CLVS檢視區SEI訊息不應存在於應用於當前圖像之CLVS中。解碼器應忽略全向CLVS檢視區SEI訊息,其按解碼次序並非緊跟著應用於當前圖像之CLVS中的omni_projection_information_cancel_flag等於0之全向投影指示SEI訊息。
令當前全向投影指示SEI訊息為應用於當前圖像之CLVS中的omni_projection_information_cancel_flag等於0之全向投影指示SEI訊息。全向CLVS檢視區SEI訊息中之資訊自當前圖像持續,直至CLVS中按解碼次序之最後一個圖像為止,其中當前全向投影指示SEI訊息應用於該CLVS。
在遵守本說明書之此版本之位元串流中,ocv_reserved_zero_4bits 應等於0。ocv_reserved_zero_4bits之其他值經預留以供未來藉由ITU-T | ISO/IEC使用。解碼器應忽略ocv_reserved_zero_4bits之值。
omni_clvs_viewport_cnt_minus1 加1指定藉由全向CLVS檢視區SEI訊息及相關聯全向檢視區SEI訊息指示的推薦檢視區區域之數目。全向CLVS檢視區SEI訊息之相關聯全向檢視區SEI訊息為應用於CLVS之相同圖像集的omni_viewport_cancel_flag等於0之全向檢視區SEI訊息,其中全向CLVS檢視區SEI訊息將應用於該CLVS。
omni_clvs_viewport_priority [i]指示藉由此SEI訊息及相關聯全向檢視區SEI訊息指定之第i個檢視區區域的優先級。omni_clvs_viewport_priority[i]之下限值指示檢視區之較高推薦。優先級值為0的檢視區為經最多推薦之檢視區。
omni_clvs_viewport_source [i]指定藉由此SEI訊息及相關聯全向檢視區SEI訊息指定的第i個檢視區區域之源,如下表中: omni_clvs_viewport_source[i]值之表
Figure 107123001-A0304-0003
在遵守本說明書之此版本的位元串流中,omni_clvs_viewport_source[i]之值應介於0至2的範圍內(包括端點)。omni_clvs_viewport_source[i]之其他值經預留供ITU-T | ISO/IEC未來使用。解碼器應允許大於或等於3的omni_clvs_viewport_source[i]之值出現在語法中,且應忽略大於或等於3的omni_clvs_viewport_source[i]之值。
viewport_generating_uri [i][ViewportGeneratingUriIdx]為在UTF-8字元中進行編碼的以空值結束之字串的第ViewportGeneratingUriIdx個位元組,從而指定用以產生藉由此SEI訊息及相關聯全向檢視區SEI訊息所指定的第i個檢視區區域的方法之描述的全球資源識別碼(URI)。
全向檢視區SEI訊息之語法及語義變化如下(其中語法及語義之添加經指示於「<insert >」與「<insertend >」符號之間(例如,「<insert >added text<insertend >」),且刪除經展示於「<delete >」與「<deleteend >」符號之間(例如,「<delete >deleted text<deleteend >」)):
Figure 107123001-A0304-0004
全向檢視區SEI訊息指定對應於經推薦以供顯示之檢視區的以四個大圓為界之球面座標幾何形狀之一或多個區域的座標。用於全向檢視區SEI訊息的參考球面座標系統與用於omni_projection_type等於0之全向投影指示SEI訊息的相同。
<delete> omni_viewport_id 含有可用以識別一或多個推薦檢視區區域之目的的識別數目。
自0至511 (包括端點)的omni_viewport_id之值可被用作由應用判定。自512至1023的omni_viewport_id之值經預留以供未來藉由ITU-T | ISO/IEC使用。遇到範圍介於512至1023 (包括端點)之間的omni_viewport_id之值的解碼器應忽略該值。<deleteend>
omni_viewport_cancel_flag 等於1指示SEI訊息按輸出次序取消任何先前全向檢視區SEI訊息之存留。omni_viewport_cancel_flag等於0指示隨後為全向檢視區資訊。
omni_viewport_persistence_flag 指定當前層的全向檢視區SEI訊息之存留。
omni_viewport_persistence_flag等於0指定全向檢視區SEI訊息僅僅應用於當前經解碼圖像。
令picA為當前圖像。omni_viewport_persistence_flag等於1指定全向檢視區SEI訊息按輸出次序持續用於當前層,直至以下條件中之一或多者為真為止:
-當前層之新CLVS開始。
-位元串流結束。
-存取單元中之當前層中的含有適用於當前層之全向檢視區SEI訊息的圖像picB經輸出,對於該圖像,PicOrderCnt(picB)大於PicOrderCnt(picA),其中PicOrderCnt(picB)及PicOrderCnt(picA)分別為緊接在調用picB之圖像次序計數的解碼處理程序之後的picB及picA之PicOrderCntVal值。
<insert> 當全向CLVS檢視區SEI訊息不存在於應用於當前圖像之CLVS中,且按解碼次序先於全向檢視區SEI訊息時,omni_viewport_cancel_flag等於0之全向檢視區SEI訊息不應存在於應用於當前圖像之CLVS中。解碼器應忽略omni_viewport_cancel_flag等於0之全向檢視區SEI訊息,其按解碼次序並非緊跟著應用於當前圖像之CLVS中的全向CLVS檢視區SEI訊息。<insertend>
<delete> 當omni_projection_information_cancel_flag等於0的全向投影指示SEI訊息不存在於應用於當前圖像之CLVS中,且按解碼次序先於全向檢視區SEI訊息時,omni_viewport_cancel_flag等於0之全向檢視區SEI訊息不應存在於應用於當前圖像之CLVS中。解碼器應忽略omni_viewport_cancel_flag等於0之全向檢視區SEI訊息,其按解碼次序並非緊跟著應用於當前圖像之CLVS中的omni_projection_information_cancel_flag等於0之全向投影指示SEI訊息。<deleteend>
在遵守本說明書之此版本之位元串流中,<insert>ov_reserved_zero_2bits 應等於0。ov_reserved_zero_2bits之其他值經預留以供未來藉由ITU-T | ISO/IEC使用。解碼器應忽略ov_reserved_zero_2bits之值。<insertend>
omni_viewport_cnt_minus1insert >加1<insertend >指定藉由SEI訊息指示之推薦檢視區區域的數目。<insert> omni_viewport_cnt_minus1之值應等於CLVS中的全向CLVS檢視區SEI訊息之omni_clvs_viewport_cnt_minus1。<insertend> 第五實例之實例實施例
出於說明之目的提供上文所描述之第五實例的說明性詳細實施例。
OMAF之語義變化如下(其中語法及語義之添加經指示於「<insert >」與「<insertend >」符號之間(例如,「<insert >added text<insertend >」),且刪除經展示於「<delete >」與「<deleteend >」符號之間(例如,「<delete >deleted text<deleteend >」)):
num_regions指定參考此樣本項之樣本中的球面區域之數目。<delete> num_regions應等於1。num_regions之其他值預留。<deleteend>
最新OMAF草案規格之條目7.4.5中的推薦檢視區之定義變化如下(其中黃色所強調的被加上,且紅色刪除字體被除去,其他部分保持不變):
推薦檢視區時控後設資料軌指示:應在使用者未控制檢視定向或已釋放對檢視定向之控制時顯示檢視區。
應注意:推薦檢視區時控後設資料軌可用於指示導演剪輯版<insert >,藉由統計的最多檢視之檢視區,或藉由URI<insertend >所指定之其他構件產生。
應使用樣本項類型「rcvp」。
<insert> 此樣本項類型之樣本項如下進行指定: class RcvpSampleEntry() extends SphereRegionSampleEntry('rcvp'){ RecommendedViewportInfoBox(); // mandatory } class RecommendedViewportInfoBox extends FullBox('rvif', version = 0, flags) { for (i = 0; i < num_regions; i++) { unsigned int(8) region_priority[i]; unsigned int(8) region_source[i]; if (region_source[i] == 2) string region_generating_uri[i]; } }
region_priority[i]指示第i個推薦檢視區之優先級。下限值指示對推薦檢視區之較高推薦。region_priority[i]值為0的推薦檢視區經最多推薦。
region_source[i]指定第i個推薦檢視區之源,如下表中: region_source[i]值之表
Figure 107123001-A0304-0005
region_generating_uri[i]提供用以產生第i個推薦檢視區之方法的描述的URI。<insertend>
應使用SphereRegionSample之樣本語法。
shape_type應在樣本項之SphereRegionConfigBox中等於0。
static_hor_range及static_ver_range(若存在)或hor_range及ver_range(若存在)分別指示推薦檢視區之水平視場及垂直視場。
center_yaw及center_pitch指示推薦檢視區之中心點。center_roll指示推薦檢視區之滾動角度。
圖5為繪示用於處理虛擬實境視訊資料之處理程序500的實例之流程圖。實例處理程序500可藉由視訊寫碼系統實施,諸如圖1中所繪示的系統。
在步驟502,圖6之處理程序500包括獲得虛擬實境視訊資料,其中虛擬實境視訊資料表示虛擬環境之360度視圖。在一些實例中,虛擬實境視訊資料中之視訊訊框可表示為球面形狀,從而使得每一視訊訊框可包括完整的360度資料。在一些實例中,虛擬實境視訊資料可經映射至二維矩形格式,其可更易於藉由經組態以處理二維視訊資料之系統處理。
在步驟504,處理程序500包括判定虛擬實境視訊資料之區域,其中該區域包括360度視圖之一子部分。在一些實例中,該區域可被用作檢視虛擬實境視訊資料時的檢視區。
在一些實例中,該區域可使用四個大圓進行指定。在此上下文中,大圓為圍繞虛擬實境視訊資料之球面表示而繪製的線,其中該線包含球面之周界。為指定一區域,第一線及第二線可在兩個點處相交,且在交叉點之間的所有點處等距,從而使得第一線與第二線之間的區域可包括於該區域中。第三線及第四線可用以進一步劃定該區域。第三線及第四線亦可在兩個點處相交,且在交叉點之間的所有點處等距。第三線及第四線可經定向,使得第三線與第四線之間的區域與第一線與第二線之間的區域重疊。重疊區域可因此形成該區域。舉例而言,第一線及第二線與第三線及第四線可重疊,其中第一線與第二線彼此距離最遠,且第三線與第四線彼此距離最遠,從而使得重疊區域大致為矩形形狀。換言之,第一線與第二線相交的點可與第三線與第四線相交的點呈90度,從而使得藉由四條線之交叉點形成的區域形成該區域。
在一些實例中,該區域可使用兩個偏航圓及兩個節圓指定。舉例而言,在給定虛擬實境視訊資料之球面表示上的第一點及與該第一點呈180度的第二點,第一偏航圓可自第一點至第二點並返回第一點而圍繞球面。第二偏航圓亦可以距離第一偏航圓之偏移(例如,由偏航值定義)圍繞球面,從而使得一空間形成於第一偏航圓與第二偏航圓之間。在此實例中,可使用作為第一節圓之中心的第一點,在球面之表面上繪製第一節圓,其中間距值可指示自第一點至該第一節圓之角度。可使用作為第一節圓之中心的第一點及較大間距值,在球面之表面上繪製第二節圓。在此實例中,藉由兩個偏航圓及兩個節圓之交叉點形成的區域可為區域。
在步驟506,處理程序500包括產生用於該區域之資料結構,該資料結構包括描述該區域之參數,其中該等參數包括指示與該區域相關聯之源的參數。該資料結構可為(例如)使用物件導向程式設計語言指定之物件類別。作為另一實例,該資料結構可為使用程式設計語言定義之結構。作為另一實例,該資料結構可為如由視訊編碼標準使用之語法資料結構。
在一些狀況下,解碼器可基於指定區域之源以不同方式處理該區域。在一些實例中,與該區域相關聯之源為內容建立者。在此等實例中,顯示器件可在(例如)檢視者未控制檢視區或向系統撤回檢視區之控制時,給予區域優先級。在一些實例中,與區域相關聯之源指示該區域為虛擬實境視訊資料的最多檢視之區域。舉例而言,顯示器件可記錄藉由視訊資料之檢視者最常檢視的檢視區。此資訊接著可用以將最常檢視之檢視區指定為關注區域。
在步驟508,處理程序500包括產生用於儲存虛擬實境視訊資料之檔案。檔案可用以儲存及/或輸送虛擬實境資料。在一些實例中,檔案可藉由視訊寫碼器件進一步處理以顯示虛擬實境視訊資料。
在步驟510,處理程序500包括將虛擬實境視訊資料儲存於檔案中。舉例而言,可將來自虛擬實境視訊資料之訊框寫入至檔案。在一些實例中,視訊訊框可在被寫入檔案之前自三維表示映射至二維表示。在一些實例中,視訊訊框可在被寫入至檔案之前進行編碼。
在步驟512,處理程序500包括將資料結構儲存於檔案中。舉例而言,資料結構可作為後設資料儲存於檔案中,該後設資料可自檔案讀取且藉由視訊顯示器件解譯。
在一些實例中,檔案為容器檔案,其可根據一格式進行組織。舉例而言,容器檔案可根據ISOBMFF檔案格式規格或另一檔案格式規格進行格式化。在此實例及其他實例中,資料結構可儲存於藉由該格式描述的邏輯框結構中。舉例而言,資料結構可儲存於媒體資料邏輯框中。在一些實例中,允許邏輯框結構中之區域值的數目大於一。在此等實例中,當虛擬實境視訊資料包括多於一個區域時,多個區域之參數可儲存於同一時控後設資料軌中。在一些實例中,邏輯框結構中之區域值的數目被限制為一。在此等實例中,當虛擬實境視訊資料包括多於一個區域時,該多於一個區域的參數儲存於不同時控後設資料軌中。
在一些實例中,虛擬實境視訊資料儲存於檔案中作為經編碼位元串流。在此等實例中,資料結構可儲存於經編碼位元串流之訊息元素中,諸如SEI訊息。
編碼器件104及解碼器件112之特定細節分別展示於圖6及圖7中。圖6為繪示可實施本發明中所描述之技術中之一或多者的實例編碼器件104之方塊圖。編碼器件104可(例如)產生本文中所描述之語法結構(例如,VPS、SPS、PPS或其他語法元素之語法結構)。編碼器件104可執行視訊圖塊內之視訊區塊的框內預測及框間預測寫碼。如先前所描述,框內寫碼至少部分地依賴於空間預測以減少或移除給定視訊訊框或圖像內之空間冗餘。框間寫碼至少部分地依賴於時間預測以減少或移除視訊序列之鄰近或周圍訊框內的時間冗餘。框內模式(I模式)可指若干基於空間之壓縮模式中之任一者。框間模式(諸如,單向預測(P模式)或雙向預測(B模式))可指若干基於時間之壓縮模式中的任一者。
編碼器件104包括分割單元35、預測處理單元41、濾波器單元63、圖像記憶體64、求和器50、變換處理單元52、量化單元54及熵編碼單元56。預測處理單元41包括運動估計單元42、運動補償單元44及框內預測處理單元46。對於視訊區塊重建構,編碼器件104亦包括反量化單元58、反變換處理單元60及求和器62。濾波器單元63意欲表示一或多個迴路濾波器,諸如解區塊濾波器、自適應性迴路濾波器(ALF)及樣本自適應性偏移(SAO)濾波器。雖然濾波器單元63在圖6中展示為迴路內濾波器,但在其他組態中,濾波器單元63可實施為後迴路濾波器。後處理器件57可對由編碼器件104產生之經編碼視訊資料執行額外處理。在一些情況下,本發明之技術可藉由編碼器件104實施。然而,在其他情況下,本發明之技術中的一或多者可藉由後處理器件57實施。
如圖6中所展示,編碼器件104接收視訊資料,且分割單元35將資料分割成視訊區塊。分割亦可包括分割成圖塊、圖塊區段、影像塊或其他較大單元,以及例如根據LCU及CU之四分樹結構的視訊區塊分割。編碼器件104一般繪示編碼待編碼之視訊圖塊內的視訊區塊的組件。圖塊可劃分成多個視訊區塊(且可能劃分成被稱作影像塊之視訊區塊集合)。預測處理單元41可基於錯誤結果(例如,寫碼速率及失真程度,或其類似者)選擇複數個可能寫碼模式中之一者(諸如,複數個框內預測寫碼模式中之一者或複數個框間預測寫碼模式中之一者)以用於當前視訊區塊。預測處理單元41可將所得經框內或框間寫碼區塊提供至求和器50以產生殘餘區塊資料且提供至求和器62以重建構經編碼區塊以用作參考圖像。
預測處理單元41內之框內預測處理單元46可執行當前視訊區塊相對於與待寫碼之當前區塊在相同之訊框或圖塊中之一或多個相鄰區塊的框內預測寫碼,以提供空間壓縮。預測處理單元41內之運動估計單元42及運動補償單元44執行當前視訊區塊相對於一或多個參考圖像中之一或多個預測性區塊之框間預測性寫碼,以提供時間壓縮。
運動估計單元42可經組態以根據視訊序列之預定圖案來判定用於視訊圖塊之框間預測模式。預定圖案可將序列中之視訊圖塊指定為P圖塊、B圖塊或GPB圖塊。運動估計單元42及運動補償單元44可高度整合,但出於概念目的而單獨繪示。由運動估計單元42執行之運動估計為產生運動向量之處理,該等運動向量估計視訊區塊之運動。運動向量(例如)可指示當前視訊訊框或圖像內之視訊區塊的預測單元(PU)相對於參考圖像內之預測性區塊的移位。
預測性區塊為就像素差而言被發現緊密地匹配待寫碼的視訊區塊之PU之區塊,該像素差可由絕對差和(SAD)、平方差和(SSD)或其他差度量判定。在一些實例中,編碼器件104可計算儲存於圖像記憶體64中之參考圖像的次整數像素位置的值。舉例而言,編碼器件104可內插參考圖像之四分之一像素位置、八分之一像素位置或其他分數像素位置之值。因此,運動估計單元42可執行關於全像素位置及分數像素位置之運動搜尋且輸出具有分數像素精確度之運動向量。
運動估計單元42藉由比較PU之位置與參考圖像之預測性區塊的位置而計算經框間寫碼圖塊中之視訊區塊的PU的運動向量。參考圖像可選自第一參考圖像清單(清單0)或第二參考圖像清單(清單1),該等清單中之每一者識別儲存於圖像記憶體64中之一或多個參考圖像。運動估計單元42將所計算之運動向量發送至熵編碼單元56及運動補償單元44。
由運動補償單元44執行之運動補償可涉及基於由運動估計(可能執行內插至子像素精確度)判定之運動向量而提取或產生預測性區塊。在接收到當前視訊區塊之PU的運動向量之後,運動補償單元44可在一參考圖像清單中找到運動向量所指向之預測性區塊的位置。編碼器件104藉由自正經寫碼之當前視訊區塊之像素值減去預測性區塊之像素值從而形成像素差值來形成殘餘視訊區塊。像素差值形成用於區塊之殘餘資料,且可包括明度及色度差分量兩者。求和器50表示執行此減法運算之一或多個組件。運動補償單元44亦可產生與視訊區塊及視訊圖塊相關聯之語法元素,以供解碼器件112用於解碼視訊圖塊之視訊區塊。
如上文所描述,作為由運動估計單元42及運動補償單元44所執行之框間預測的替代例,框內預測處理單元46可對當前區塊進行框內預測。特定而言,框內預測處理單元46可判定框內預測模式以用以編碼當前區塊。在一些實例中,框內預測處理單元46可使用各種框內預測模式(例如,在單獨編碼遍次期間)編碼當前區塊,且框內預測單元處理46 (或在一些實例中,模式選擇單元40)可自所測試模式選擇將使用的適當框內預測模式。舉例而言,框內預測處理單元46可使用對各種所測試框內預測模式之速率-失真分析來計算速率-失真值,且可在所測試模式間選擇具有最佳速率-失真特性之框內預測模式。速率-失真分析大體上判定經編碼區塊與原始未經編碼區塊(其經編碼以產生經編碼區塊)之間的失真(或錯誤)量,以及用以產生經編碼區塊之位元速率(亦即,位元之數目)。框內預測處理單元46可自各種經編碼區塊之失真及速率計算比率以判定哪一框內預測模式展現區塊之最佳速率-失真值。
在任何狀況下,在選擇用於區塊之框內預測模式後,框內預測處理單元46可將指示用於區塊之所選擇框內預測模式的資訊提供至熵編碼單元56。熵編碼單元56可編碼指示所選擇框內預測模式之資訊。編碼器件104可將各種區塊之編碼上下文之定義以及待用於上下文中之每一者的最可能的框內預測模式、框內預測模式索引表及經修改框內預測模式索引表之指示包括於經傳輸位元串流組態資料中。位元串流組態資料可包括複數個框內預測模式索引表及複數個經修改框內預測模式索引表(亦被稱作碼字映射表)。
在預測處理單元41經由框間預測或框內預測產生當前視訊區塊之預測性區塊之後,編碼器件104藉由自當前視訊區塊減去預測性區塊而形成殘餘視訊區塊。殘餘區塊中之殘餘視訊資料可包括於一或多個TU中且被應用於變換處理單元52。變換處理單元52使用諸如離散餘弦變換(DCT)或概念上類似變換之變換將殘餘視訊資料變換成殘餘變換係數。變換處理單元52可將殘餘視訊資料自像素域轉換至變換域(諸如,頻域)。
變換處理單元52可將所得變換係數發送至量化單元54。量化單元54量化變換係數以進一步減少位元速率。量化處理程序可減小與係數中之一些或所有相關聯的位元深度。可藉由調整量化參數來修改量化程度。在一些實例中,量化單元54可接著執行對包括經量化變換係數之矩陣的掃描。替代性地,熵編碼單元56可執行掃描。
在量化之後,熵編碼單元56對經量化變換係數進行熵編碼。舉例而言,熵編碼單元56可執行上下文自適應性可變長度寫碼(CAVLC)、上下文自適應性二進位算術寫碼(CABAC)、基於語法之上下文自適應性二進位算術寫碼(SBAC)、機率區間分割熵(PIPE)寫碼或另一熵編碼技術。在由熵編碼單元56進行熵編碼之後,經編碼位元串流可傳輸至解碼器件112,或經存檔以供稍後由解碼器件112傳輸或檢索。熵編碼單元56亦可熵編碼正經寫碼之當前視訊圖塊的運動向量及其他語法元素。
反量化單元58及反變換處理單元60分別應用反量化及反變換以重建構像素域中之殘餘區塊以供稍後用作參考圖像之參考區塊。運動補償單元44可藉由將殘餘區塊與參考圖像清單內之參考圖像中之一者的預測性區塊相加來計算參考區塊。運動補償單元44亦可將一或多個內插濾波器應用於經重建構殘餘區塊以計算次整數像素值以用於運動估計。求和器62將經重建構殘餘區塊與由運動補償單元44產生之運動補償預測區塊相加以產生用於儲存於圖像記憶體64中之參考區塊。參考區塊可由運動估計單元42及運動補償單元44用作參考區塊以框間預測後續視訊訊框或圖像中之區塊。
以此方式,圖6之編碼器件104表示經組態以產生經編碼視訊位元串流之語法的視訊編碼器之實例。編碼器件104可(例如)產生如上文所描述之VPS、SPS及PPS參數集。編碼器件104可執行本文中所描述之技術中的任一者,包括上文關於圖6及圖7所描述的處理程序。本發明之技術已大體上關於編碼器件104加以描述,但如上文所提及,本發明之技術中的一些亦可藉由後處理器件57實施。
圖7為繪示實例解碼器件112之方塊圖。解碼器件112包括熵解碼單元80、預測處理單元81、反量化單元86、反變換處理單元88、求和器90、濾波器單元91及圖像記憶體92。預測處理單元81包括運動補償單元82及框內預測處理單元84。在一些實例中,解碼器件112可執行大體上與關於來自圖6之編碼器件104描述的編碼遍次互逆的解碼遍次。
在解碼處理程序期間,解碼器件112接收經編碼視訊位元串流,其表示經編碼視訊圖塊之視訊區塊及藉由編碼器件104發送的相關聯語法元素。在一些實施例中,解碼器件112可自編碼器件104接收經編碼視訊位元串流。在一些實施例中,解碼器件112可自諸如以下各者之網路實體79接收經編碼視訊位元串流:伺服器、媒體感知網路元件(MANE)、視訊編輯器/剪接器或經組態以實施上文所描述之技術中之一或多者的其他此器件。網路實體79可或可不包括編碼器件104。本發明中所描述之技術中的一些可在網路實體79將經編碼視訊位元串流傳輸至解碼器件112之前由網路實體79實施。在一些視訊解碼系統中,網路實體79及解碼器件112可為單獨器件之部分,而在其他情況下,關於網路實體79所描述之功能性可由包含解碼器件112之相同器件執行。
解碼器件112之熵解碼單元80熵解碼位元串流以產生經量化係數、運動向量及其他語法元素。熵解碼單元80將運動向量及其他語法元素轉遞至預測處理單元81。解碼器件112可接收視訊圖塊層級及/或視訊區塊層級的語法元素。熵解碼單元80可處理並剖析諸如VPS、SPS及PPS之一或多個參數集中之固定長度語法元素及可變長度語法元素兩者。
當視訊圖塊被寫碼為經框內寫碼(I)圖塊時,預測處理單元81之框內預測處理單元84可基於經信令傳輸框內預測模式及來自當前訊框或圖像之先前經解碼區塊的資料而產生當前視訊圖塊之視訊區塊的預測資料。當視訊訊框經寫碼為經框間寫碼(亦即,B、P或GPB)圖塊時,預測處理單元81之運動補償單元82基於自熵解碼單元80接收到之運動向量及其他語法元素產生用於當前視訊圖塊之視訊區塊的預測性區塊。可自參考圖像清單內的參考圖像中之一者產生預測性區塊。解碼器件112可基於儲存於圖像記憶體92中之參考圖像使用預設建構技術來建構參考訊框清單(清單0及清單1)。
運動補償單元82藉由剖析運動向量及其他語法元素來判定用於當前視訊圖塊之視訊區塊的預測資訊,並使用該預測資訊以產生經解碼當前視訊區塊之預測性區塊。舉例而言,運動補償單元82可使用參數集中之一或多個語法元素以判定用於寫碼視訊圖塊之視訊區塊之預測模式(例如,框內預測或框間預測)、框間預測圖塊類型(例如,B圖塊、P圖塊或GPB圖塊)、圖塊之一或多個參考圖像清單之建構資訊、圖塊之每一框間編碼視訊區塊之運動向量、圖塊之每一框間寫碼視訊區塊之框間預測狀態,及用以解碼當前視訊圖塊中之視訊區塊的其他資訊。
運動補償單元82亦可執行基於內插濾波器之內插。運動補償單元82可使用如在編碼視訊區塊期間由編碼器件104使用的內插濾波器來計算參考區塊之次整數像素的內插值。在此狀況下,運動補償單元82可自所接收語法元素判定由編碼器件104使用之內插濾波器,且可使用內插濾波器來產生預測性區塊。
反量化單元86反量化或解量化位元串流中所提供且由熵解碼單元80解碼之經量化變換係數。反量化處理程序可包括使用由編碼器件104針對視訊圖塊中之每一視訊區塊計算的量化參數來判定量化程度及同樣應應用之反量化程度。反變換處理單元88將反變換(例如,反DCT或其他合適之反變換)、反整數變換或概念上類似的反變換處理程序應用於變換係數以便在像素域中產生殘餘區塊。
在運動補償單元82基於運動向量及其他語法元素而產生當前視訊區塊之預測性區塊之後,解碼器件112藉由將來自反變換處理單元88之殘餘區塊與由運動補償單元82產生之對應預測性區塊求和而形成經解碼視訊區塊。求和器90表示執行此求和運算之一或多個組件。若需要,亦可使用迴路濾波器(在寫碼迴路中或在寫碼迴路後)以使像素轉變平滑,或以其他方式改良視訊品質。濾波器單元91意欲表示一或多個迴路濾波器,諸如,解塊濾波器、自適應迴路濾波器(ALF)及樣本自適應偏移(SAO)濾波器。儘管濾波器單元91在圖7中展示為迴路內濾波器,但在其他組態中,濾波器單元91可實施為後迴路濾波器。給定訊框或圖像中之經解碼視訊區塊接著儲存於圖像記憶體92中,該圖像記憶體儲存用於後續運動補償之參考圖像。圖像記憶體92亦儲存經解碼視訊以供稍後呈現於顯示器件(諸如,圖1中所展示之視訊目的地器件122)上。
在前述描述中,參考其特定實施例描述申請案之態樣,但熟習此項技術者將認識到本發明不限於此。因此,儘管本文中已詳細描述申請案之說明性實施例,但應理解,本發明概念可以其他方式不同地體現並使用,且所附申請專利範圍意欲解釋為包括除先前技術所限制外的此等變化。上文所描述之發明之各種特徵及態樣可單獨地或聯合地使用。另外,實施例可用於超出本文所描述之彼等環境及應用之任何數目個環境及應用,而不脫離本說明書之更廣精神及範疇。因此,本說明書及圖式被視為說明性而非限定性。出於說明之目的,以特定次序描述方法。應瞭解,在替代實施例中,可以與所描述之次序不同之次序來執行該等方法。
在組件被描述為「經組態以」執行某些操作之情況下,可(例如)藉由設計電子電路或其他硬體以執行操作、藉由程式化可程式化電子電路(例如,微處理器或其他適合之電子電路)以執行操作或其任何組合來實現此組態。
結合本文中所揭示之實施例而描述之各種說明性邏輯區塊、模組、電路及演算法步驟可被實施為電子硬體、電腦軟體或兩者之組合。為了清楚地繪示硬體與軟體之此可互換性,各種說明性組件、區塊、模組、電路及步驟已在上文大體按其功能性加以了描述。此功能性實施為硬體抑或軟體取決於特定應用及強加於整個系統之設計約束而定。熟習此項技術者可針對每一特定應用以不同方式實施所描述之功能性,但不應將此等實施決策解釋為導致脫離本發明之範疇。
因此,本文中描述之技術可以硬體、軟體、韌體或其任何組合實施。此等技術可實施於多種器件中之任何者中,諸如,通用電腦、無線通信器件手機或具有多種用途(包括在無線通信器件手機及其他器件中之應用)之積體電路器件。可將描述為模組或組件之任何特徵共同實施於整合式邏輯器件中或分開實施為離散但可互操作之邏輯器件。若以軟體實施,則該等技術可至少部分由包含包括當經執行時執行以上描述方法中之一或多者之指令之程式碼的電腦可讀資料儲存媒體實現。電腦可讀資料儲存媒體可形成電腦程式產品之部分,電腦程式產品可包括封裝材料。電腦可讀媒體可包含記憶體或資料儲存媒體,諸如,隨機存取記憶體(RAM),諸如,同步動態隨機存取記憶體(SDRAM)、唯讀記憶體(ROM)、非揮發性隨機存取記憶體(NVRAM)、電可抹除可程式化唯讀記憶體(EEPROM)、快閃記憶體、磁性或光學資料儲存媒體及其類似者。另外或替代地,該等技術可至少部分地由電腦可讀通信媒體實現,該電腦可讀通信媒體攜載或傳達呈指令或資料結構之形式且可由電腦存取、讀取及/或執行的程式碼,諸如,傳播之信號或波。
程式碼可由可包括一或多個處理器之處理器執行,諸如,一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效積體或離散邏輯電路。此處理器可經組態以執行本發明中所描述之技術中之任一者。通用處理器可為微處理器;但在替代例中,處理器可為任何習知處理器、控制器、微控制器或狀態機。處理器亦可實施為計算器件之組合,(例如)DSP與微處理器之組合,複數個微處理器,一或多個微處理器結合DSP核心,或任何其他此組態。因此,如本文中所使用之術語「處理器」可指前述結構中之任一者、前述結構之任何組合或適合於實施本文中所描述之技術的任何其他結構或裝置。此外,在一些態樣中,本文中描述之功能性可提供於經組態用於編碼及解碼之專用軟體模組或硬體模組,或併入於組合之視訊編碼器-解碼器(編解碼器)中。
本文中所論述之寫碼技術可體現於實例視訊編碼及解碼系統中。系統包括藉由目的地器件提供待稍後經解碼之經編碼視訊資料的源器件。詳言之,源器件經由電腦可讀媒體將視訊資料提供至目的地器件。源器件及目的地器件可包含廣泛範圍之器件中之任一者,包括桌上型電腦、筆記型(例如,膝上型)電腦、平板電腦、機上盒、諸如所謂的「智慧型」手機之電話手機、所謂的「智慧型」平板電腦、電視、攝影機、顯示器件、數位媒體播放器、視訊遊戲控制台、視訊串流器件或其類似者。在一些狀況下,源器件及目的地器件可經裝備以用於無線通信。
目的地器件可經由電腦可讀媒體接收待解碼之經編碼視訊資料。電腦可讀媒體可包含能夠將經編碼視訊資料自源器件移動至目的地器件的任何類型之媒體或器件。在一個實例中,電腦可讀媒體可包含通信媒體以使得源器件能夠即時地將經編碼視訊資料直接傳輸至目的地器件。可根據通信標準(諸如,無線通信協定)調變經編碼視訊資料,且將經編碼視訊資料傳輸至目的地器件。通信媒體可包含任何無線或有線通信媒體,諸如射頻(RF)頻譜或一或多個實體傳輸線。通信媒體可形成基於封包之網路(諸如,區域網路、廣域網路或諸如網際網路之全域網路)之部分。通信媒體可包括路由器、交換器、基地台或可用於促進自源器件至目的地器件之通信的任何其他裝備。
在一些實例中,經編碼資料可自輸出介面輸出至儲存器件。類似地,可藉由輸入介面自儲存器件存取經編碼資料。儲存器件可包括多種分散式或本機存取之資料儲存媒體中之任一者,諸如,硬碟機、藍光光碟、DVD、CD-ROM、快閃記憶體、揮發性或非揮發性記憶體或用於儲存經編碼視訊資料之任何其他合適之數位儲存媒體。在另一實例中,儲存器件可對應於檔案伺服器或可儲存由源器件產生之經編碼視訊的另一中間儲存器件。目的地器件可經由串流傳輸或下載自儲存器件存取所儲存之視訊資料。檔案伺服器可為能夠儲存經編碼視訊資料且將彼經編碼視訊資料傳輸至目的地器件的任何類型之伺服器。實例檔案伺服器包括網頁伺服器(例如,用於網站)、FTP伺服器、網路附加儲存(NAS)器件或本機磁碟機。目的地器件可經由任何標準資料連接(包括網際網路連接)來存取經編碼視訊資料。此可包括無線通道(例如,Wi-Fi連接)、有線連接(例如,DSL、電纜數據機等)或適合於存取儲存於檔案伺服器上之經編碼視訊資料的兩者之組合。自儲存器件的經編碼視訊資料之傳輸可為串流傳輸、下載傳輸或其組合。
本發明之技術不必限於無線應用或設定。該等技術可應用於支援多種多媒體應用中之任一者的視訊寫碼,諸如,空中電視廣播、有線電視傳輸、衛星電視傳輸、網際網路串流視訊傳輸(諸如,經由HTTP動態自適應串流(DASH))、經編碼至資料儲存媒體上之數位視訊、儲存於資料儲存媒體上的數位視訊之解碼或其他應用。在一些實例中,系統可經組態以支援單向或雙向視訊傳輸從而支援諸如視訊串流、視訊播放、視訊廣播及/或視訊電話之應用。
在一個實例中,源器件包括視訊源、視訊編碼器及輸出介面。目的地器件可包括輸入介面、視訊解碼器及顯示器件。源器件之視訊編碼器可經組態以應用本文中所揭示之技術。在其他實例中,源器件及目的地器件可包括其他組件或配置。舉例而言,源器件可自外部視訊源(諸如,外部攝影機)接收視訊資料。同樣,目的地器件可與外部顯示器件介接,而非包括整合式顯示器件。
以上實例系統僅為一項實例。用於平行地處理視訊資料之技術可由任何數位視訊編碼及/或解碼器件來執行。儘管本發明之技術一般由視訊編碼器件執行,但該等技術亦可由視訊編碼器/解碼器(通常被稱作「編解碼器」)執行。此外,本發明之技術亦可由視訊預處理器執行。源器件及目的地器件僅為源器件產生經寫碼視訊資料以供傳輸至目的地器件之此類寫碼器件的實例。在一些實例中,源器件及目的地器件可以大體上對稱之方式操作,使得該等器件中之每一者包括視訊編碼及解碼組件。因此,實例系統可支援視訊器件之間的單向或雙向視訊傳輸,例如用於視訊串流、視訊播放、視訊廣播或視訊電話。
視訊源可包括視訊擷取器件,諸如視訊攝影機、含有先前擷取之視訊的視訊存檔及/或用以自視訊內容提供者接收視訊之視訊饋入介面。作為另一替代例,視訊源可產生基於電腦圖形之資料作為源視訊,或實況視訊、存檔視訊及電腦產生之視訊的組合。在一些狀況下,若視訊源為視訊攝影機,則源器件及目的地器件可形成所謂的攝影機電話或視訊電話。然而,如上文所提及,本發明所描述之技術一般可適用於視訊寫碼,且可適用於無線及/或有線應用。在每一狀況下,可由視訊編碼器編碼所擷取、經預擷取或電腦產生之視訊。經編碼視訊資訊接著可由輸出介面輸出至電腦可讀媒體上。
如所提及,電腦可讀媒體可包括暫態媒體,諸如無線廣播或有線網路傳輸;或儲存媒體(亦即,非暫時性儲存媒體),諸如硬碟、隨身碟、緊密光碟、數位視訊光碟、藍光光碟或其他電腦可讀媒體。在一些實例中,網路伺服器(圖中未示)可自源器件接收經編碼視訊資料,且(例如)經由網路傳輸將經編碼視訊資料提供至目的地器件。類似地,諸如光碟衝壓設施之媒體生產設施的計算器件可自源器件接收經編碼視訊資料且生產含有經編碼視訊資料之光碟。因此,在各種實例中,電腦可讀媒體可理解為包括各種形式之一或多個電腦可讀媒體。
目的地器件之輸入介面自電腦可讀媒體接收資訊。電腦可讀媒體之資訊可包括由視訊編碼器定義之語法資訊(其亦由視訊解碼器使用),該語法資訊包括描述區塊及其他經寫碼單元(例如,圖像群組(GOP))之特性及/或處理的語法元素。顯示器件將經解碼視訊資料顯示給使用者,且可包含多種顯示器件中之任一者,諸如陰極射線管(CRT)、液晶顯示器(LCD)、電漿顯示器、有機發光二極體(OLED)顯示器或另一類型之顯示器件。已描述本發明之各種實施例。
35‧‧‧分割單元41‧‧‧預測處理單元42‧‧‧運動估計單元44‧‧‧運動補償單元46‧‧‧框內預測處理單元50‧‧‧求和器52‧‧‧變換處理單元54‧‧‧量化單元56‧‧‧熵編碼單元57‧‧‧後處理器件58‧‧‧反量化單元60‧‧‧反變換處理單元62‧‧‧求和器63‧‧‧濾波器單元64‧‧‧圖像記憶體79‧‧‧網路實體80‧‧‧熵解碼單元81‧‧‧預測處理單元82‧‧‧運動補償單元84‧‧‧框內預測處理單元86‧‧‧反量化單元88‧‧‧反變換處理單元90‧‧‧求和器91‧‧‧濾波器單元92‧‧‧圖像記憶體100‧‧‧系統102‧‧‧視訊源104‧‧‧編碼器件106‧‧‧編碼器引擎108‧‧‧儲存器110‧‧‧輸出端112‧‧‧解碼器件114‧‧‧輸入端116‧‧‧解碼器引擎118‧‧‧儲存器120‧‧‧通信鏈路122‧‧‧視訊目的地器件200‧‧‧ISO基本媒體檔案210‧‧‧檔案類型邏輯框220‧‧‧電影邏輯框222‧‧‧電影標頭邏輯框224‧‧‧軌邏輯框224a‧‧‧軌標頭邏輯框224b‧‧‧媒體邏輯框230a‧‧‧電影片段邏輯框230b‧‧‧片段230c‧‧‧片段230n‧‧‧片段232‧‧‧電影片段邏輯框234‧‧‧電影片段標頭邏輯框236‧‧‧軌片段邏輯框238‧‧‧媒體資料邏輯框500‧‧‧處理程序502‧‧‧步驟504‧‧‧步驟506‧‧‧步驟508‧‧‧步驟510‧‧‧步驟512‧‧‧步驟
下文參考以下圖式詳細描述本發明之說明性實施例:
圖1為繪示包括編碼器件及解碼器件之系統之實例的方塊圖;
圖2繪示含有用於視訊呈現之資料及後設資料的ISO基本媒體檔案之實例;
圖3包括360度視訊訊框之三維說明及藉由四個大圓指定的360度視訊訊框之球面區域;
圖4包括360度視訊訊框之三維說明,及藉由兩個偏航圓及兩個節圓指定的360度視訊訊框之球面區域;
圖5為繪示用於處理虛擬實境視訊資料之處理程序之實例的流程圖;
圖6為繪示實例編碼器件之方塊圖;及
圖7為繪示實例解碼器件之方塊圖。

Claims (24)

  1. 一種處理虛擬實境視訊資料之方法,其包含:獲得該虛擬實境視訊資料,其中該虛擬實境視訊資料表示一虛擬環境之一360度視圖;判定該虛擬實境視訊資料之複數個區域,其中該複數個區域之一第一區域包括該360度視圖之一第一子部分且該複數個區域之一第二區域包括該360度視圖之一第二子部分;針對該複數個區域產生一資料結構,該資料結構包括描述該複數個區域之參數,其中該等參數包括指示與該複數個區域之該第一區域相關聯之一源的一第一參數及指示與該複數個區域之該第二區域相關聯之一源的一第二參數,用於該第一參數之一第一數值(numerical value)指示用於該複數個區域之該第一區域之一第一源且用於該第二參數之一第二數值指示用於該複數個區域之該第二區域之一第二源;產生用於儲存該虛擬實境視訊資料之一檔案;將該虛擬實境視訊資料儲存於該檔案中;及將該資料結構儲存於該檔案中。
  2. 如請求項1之方法,其中該第一區域及該第二區域係經組態以在該虛擬實境視訊資料經檢視時被用作檢視區(viewports)。
  3. 如請求項1之方法,其中該檔案為一容器檔案,其中該容器檔案根據一格式進行組織,且其中該資料結構儲存於由該格式描述之一邏輯框結構 (box structure)中。
  4. 如請求項3之方法,其中允許該邏輯框結構中之區域的一數目大於一,且其中,當該虛擬實境視訊資料包括多於一個區域時,用於該區域及該多於一個區域的參數可儲存於同一時控後設資料軌中。
  5. 如請求項3之方法,其中該邏輯框結構中之區域的一數目被限制為一,且其中,當該虛擬實境視訊資料包括多於一個區域時,用於該多於一個區域的參數儲存於不同時控後設資料軌中。
  6. 如請求項1之方法,其中該虛擬實境視訊資料作為一經編碼位元串流儲存於該檔案中,且其中該資料結構儲存於該經編碼位元串流之一訊息元素中。
  7. 如請求項1之方法,其中該第一源或該第二源之至少一者為一內容建立者。
  8. 如請求項1之方法,其中該第一數值或該第二數值之至少一者為該虛擬實境視訊資料之一最多檢視之區域。
  9. 一種用於處理虛擬實境視訊資料之裝置,其包含:一記憶體,其經組態以儲存視訊資料;及一處理器,其經組態以: 獲得該虛擬實境視訊資料,其中該虛擬實境視訊資料表示一虛擬環境之一360度視圖;判定該虛擬實境視訊資料之複數個區域,其中該複數個區域之一第一區域包括該360度視圖之一第一子部分且該複數個區域之一第二區域包括該360度視圖之一第二子部分;針對該複數個區域產生一資料結構,該資料結構包括描述該複數個區域之參數,其中該等參數包括指示與該複數個區域之該第一區域相關聯之一源的一第一參數及指示與該複數個區域之該第二區域相關聯之一源的一第二參數,用於該第一參數之一第一數值指示用於該複數個區域之該第一區域之一第一源且用於該第二參數之一第二數值指示用於該複數個區域之該第二區域之一第二源;產生用於儲存該虛擬實境視訊資料之一檔案;將該虛擬實境視訊資料儲存於該檔案中;及將該資料結構儲存於該檔案中。
  10. 如請求項9之裝置,其中該第一區域及該第二區域係經組態以在該虛擬實境視訊資料經檢視時被用作一檢視區。
  11. 如請求項9之裝置,其中該檔案為一容器檔案,其中該容器檔案根據一格式進行組織,且其中該資料結構儲存於由該格式描述之一邏輯框結構中。
  12. 如請求項11之裝置,其中允許該邏輯框結構中之區域的一數目大於 一,且其中,當該虛擬實境視訊資料包括多於一個區域時,用於該區域及該多於一個區域的參數可儲存於同一時控後設資料軌中。
  13. 如請求項11之裝置,其中該邏輯框結構中之區域的一數目被限制為一,且其中,當該虛擬實境視訊資料包括多於一個區域時,用於該多於一個區域的參數儲存於不同時控後設資料軌中。
  14. 如請求項9之裝置,其中該虛擬實境視訊資料作為一經編碼位元串流儲存於該檔案中,且其中該資料結構儲存於該經編碼位元串流之一訊息元素中。
  15. 如請求項9之裝置,其中該第一源或該第二源之至少一者為一內容建立者。
  16. 如請求項9之裝置,其中該第一數值或該第二數值之至少一者指示該區域為該虛擬實境視訊資料之一最多檢視之區域。
  17. 一種非暫時性電腦可讀媒體,其上儲存有在由一處理器執行時使得該處理器執行用於處理虛擬實境視訊資料之操作的指令,該等操作包括:判定該虛擬實境視訊資料之複數個區域,其中該複數個區域之一第一區域包括360度視圖之一第一子部分且該複數個區域之一第二區域包括該360度視圖之一第二子部分;針對該複數個區域產生一資料結構,該資料結構包括描述該複數個 區域之參數,其中該等參數包括指示與該複數個區域之該第一區域相關聯之一源的一第一參數及指示與該複數個區域之該第二區域相關聯之一源的一第二參數,用於該第一參數之一第一數值指示用於該複數個區域之該第一區域之一第一源且用於該第二參數之一第二數值指示用於該複數個區域之該第二區域之一第二源;產生用於儲存該虛擬實境視訊資料之一檔案;將該虛擬實境視訊資料儲存於該檔案中;及將該資料結構儲存於該檔案中。
  18. 如請求項17之非暫時性電腦可讀媒體,其中該第一區域及該第二區域係經組態以在該虛擬實境視訊資料經檢視時被用作一檢視區。
  19. 如請求項17之非暫時性電腦可讀媒體,其中該檔案為一容器檔案,其中該容器檔案根據一格式進行組織,且其中該資料結構儲存於由該格式描述之一邏輯框結構中。
  20. 如請求項19之非暫時性電腦可讀媒體,其中允許該邏輯框結構中之區域的一數目大於一,且其中,當該虛擬實境視訊資料包括多於一個區域時,用於該區域及該多於一個區域的參數可儲存於同一時控後設資料軌中。
  21. 如請求項19之非暫時性電腦可讀媒體,其中該邏輯框結構中之區域的一數目被限制為一,且其中,當該虛擬實境視訊資料包括多於一個區域 時,用於該多於一個區域的參數儲存於不同時控後設資料軌中。
  22. 如請求項17之非暫時性電腦可讀媒體,其中該虛擬實境視訊資料作為一經編碼位元串流儲存於該檔案中,且其中該資料結構儲存於該經編碼位元串流之一訊息元素中。
  23. 如請求項17之非暫時性電腦可讀媒體,其中該第一源或該第二源之至少一者為一內容建立者。
  24. 如請求項17之非暫時性電腦可讀媒體,其中該第一數值或該第二數值之至少一者為該虛擬實境視訊資料之一最多檢視之區域。
TW107123001A 2017-07-05 2018-07-03 容器檔案及視訊位元串流中關注區域之增強信令傳輸 TWI712309B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762528926P 2017-07-05 2017-07-05
US62/528,926 2017-07-05
US16/025,801 US10679415B2 (en) 2017-07-05 2018-07-02 Enhanced signaling of regions of interest in container files and video bitstreams
US16/025,801 2018-07-02

Publications (2)

Publication Number Publication Date
TW201907706A TW201907706A (zh) 2019-02-16
TWI712309B true TWI712309B (zh) 2020-12-01

Family

ID=64902840

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107123001A TWI712309B (zh) 2017-07-05 2018-07-03 容器檔案及視訊位元串流中關注區域之增強信令傳輸

Country Status (9)

Country Link
US (1) US10679415B2 (zh)
EP (1) EP3649555B1 (zh)
JP (2) JP6874169B2 (zh)
KR (1) KR102185811B1 (zh)
CN (1) CN110809758B (zh)
AU (1) AU2018298046B2 (zh)
BR (1) BR112019027833A2 (zh)
TW (1) TWI712309B (zh)
WO (1) WO2019010198A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190052129A (ko) 2016-10-04 2019-05-15 김기백 영상 데이터 부호화/복호화 방법 및 장치
US20190238888A1 (en) 2017-07-17 2019-08-01 Ki Baek Kim Image data encoding/decoding method and apparatus
JP7146747B2 (ja) * 2016-11-17 2022-10-04 インテル コーポレイション パノラマビデオのための提案されるビューポート指示
WO2018131813A1 (en) * 2017-01-10 2018-07-19 Samsung Electronics Co., Ltd. Method and apparatus for generating metadata for 3d images
CN111034191A (zh) * 2017-08-18 2020-04-17 联发科技股份有限公司 用于减少基于投影的帧中的伪影的方法和装置
US10827159B2 (en) * 2017-08-23 2020-11-03 Mediatek Inc. Method and apparatus of signalling syntax for immersive video coding
EP3987792A4 (en) * 2019-06-21 2022-09-28 Telefonaktiebolaget Lm Ericsson (Publ) VIDEO CODING LAYER RATE INCREASED INDICATION
CN112423108B (zh) * 2019-08-20 2023-06-30 中兴通讯股份有限公司 码流的处理方法、装置、第一终端、第二终端及存储介质
US11816757B1 (en) * 2019-12-11 2023-11-14 Meta Platforms Technologies, Llc Device-side capture of data representative of an artificial reality environment
CN115299052A (zh) 2020-03-19 2022-11-04 字节跳动有限公司 对参考图片列表条目的约束
EP4154536A4 (en) 2020-05-21 2024-07-03 Alibaba Group Holding Ltd PARTITIONING INTO MOSAICS AND SLICES DURING VIDEO PROCESSING
KR20230013051A (ko) * 2020-05-22 2023-01-26 바이트댄스 아이엔씨 코딩된 비디오의 nal 유닛의 순서
WO2021251185A1 (ja) * 2020-06-11 2021-12-16 ソニーグループ株式会社 情報処理装置および方法
EP4176587A1 (en) * 2020-07-03 2023-05-10 Telefonaktiebolaget LM ERICSSON (PUBL) Media content insertion in a virtual enviroment
KR20220010907A (ko) 2020-07-20 2022-01-27 삼성전자주식회사 3d(ar) 미디어 랜덤 액세스를 위한 방법 및 장치
CN115686182B (zh) * 2021-07-22 2024-02-27 荣耀终端有限公司 增强现实视频的处理方法与电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090164883A1 (en) * 2007-12-19 2009-06-25 Apple Inc. Multi-Source Web Clips
US20160049007A1 (en) * 2014-08-15 2016-02-18 Daqri, Llc Spatial data visualization
US20160155470A1 (en) * 2014-01-10 2016-06-02 Panasonic Intellectual Property Management Co., Ltd. File producing method, file producing device, and recording medium

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5298201B2 (ja) * 2008-10-07 2013-09-25 テレフオンアクチーボラゲット エル エム エリクソン(パブル) メディアコンテナファイル
US10440329B2 (en) 2009-05-22 2019-10-08 Immersive Media Company Hybrid media viewing application including a region of interest within a wide field of view
EP3008896B1 (en) 2013-07-15 2021-03-31 Sony Corporation Extensions of motion-constrained tile sets sei message for interactivity
WO2015126144A1 (ko) * 2014-02-18 2015-08-27 엘지전자 주식회사 파노라마 서비스를 위한 방송 신호 송수신 방법 및 장치
US10397666B2 (en) * 2014-06-27 2019-08-27 Koninklijke Kpn N.V. Determining a region of interest on the basis of a HEVC-tiled video stream
US9997199B2 (en) 2014-12-05 2018-06-12 Warner Bros. Entertainment Inc. Immersive virtual reality production and playback for storytelling content
US20160373771A1 (en) 2015-06-18 2016-12-22 Qualcomm Incorporated Design of tracks and operation point signaling in layered hevc file format
WO2017064689A1 (en) 2015-10-17 2017-04-20 Arivis Ag Direct volume rendering in virtual and/or augmented reality
US11019257B2 (en) * 2016-05-19 2021-05-25 Avago Technologies International Sales Pte. Limited 360 degree video capture and playback
WO2018038523A1 (ko) * 2016-08-25 2018-03-01 엘지전자 주식회사 전방향 비디오를 전송하는 방법, 전방향 비디오를 수신하는 방법, 전방향 비디오 전송 장치, 전방향 비디오 수신 장치
US10623635B2 (en) * 2016-09-23 2020-04-14 Mediatek Inc. System and method for specifying, signaling and using coding-independent code points in processing media contents from multiple media sources
US10580167B1 (en) * 2017-01-24 2020-03-03 Amazon Technologies, Inc. Excluding masked regions of virtual reality (VR) frames from encoder processing
US11532128B2 (en) * 2017-03-23 2022-12-20 Qualcomm Incorporated Advanced signaling of regions of interest in omnidirectional visual media

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090164883A1 (en) * 2007-12-19 2009-06-25 Apple Inc. Multi-Source Web Clips
US20160155470A1 (en) * 2014-01-10 2016-06-02 Panasonic Intellectual Property Management Co., Ltd. File producing method, file producing device, and recording medium
US20160049007A1 (en) * 2014-08-15 2016-02-18 Daqri, Llc Spatial data visualization

Also Published As

Publication number Publication date
EP3649555A1 (en) 2020-05-13
KR20200027480A (ko) 2020-03-12
US10679415B2 (en) 2020-06-09
CN110809758B (zh) 2023-11-24
TW201907706A (zh) 2019-02-16
US20190012839A1 (en) 2019-01-10
JP6874169B2 (ja) 2021-05-19
AU2018298046B2 (en) 2021-02-11
CN110809758A (zh) 2020-02-18
EP3649555B1 (en) 2023-06-28
WO2019010198A1 (en) 2019-01-10
KR102185811B1 (ko) 2020-12-03
AU2018298046A1 (en) 2019-12-19
BR112019027833A2 (pt) 2020-07-07
JP2020526958A (ja) 2020-08-31
JP2021100256A (ja) 2021-07-01

Similar Documents

Publication Publication Date Title
TWI712309B (zh) 容器檔案及視訊位元串流中關注區域之增強信令傳輸
US11062738B2 (en) Signalling of video content including sub-picture bitstreams for video coding
TWI712313B (zh) 感興趣區之發信號之系統及方法
US10917564B2 (en) Systems and methods of generating and processing files for partial decoding and most interested regions
US11532128B2 (en) Advanced signaling of regions of interest in omnidirectional visual media
US10389999B2 (en) Storage of virtual reality video in media files