TW202131695A - 用於視訊資料之編碼方案 - Google Patents

用於視訊資料之編碼方案 Download PDF

Info

Publication number
TW202131695A
TW202131695A TW109145157A TW109145157A TW202131695A TW 202131695 A TW202131695 A TW 202131695A TW 109145157 A TW109145157 A TW 109145157A TW 109145157 A TW109145157 A TW 109145157A TW 202131695 A TW202131695 A TW 202131695A
Authority
TW
Taiwan
Prior art keywords
depth map
video
map
generate
decoded
Prior art date
Application number
TW109145157A
Other languages
English (en)
Inventor
巴特洛繆斯 威爾赫摩斯 戴米爾納斯 桑尼威爾特
克莉斯汀 維爾甘
Original Assignee
荷蘭商皇家飛利浦有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 荷蘭商皇家飛利浦有限公司 filed Critical 荷蘭商皇家飛利浦有限公司
Publication of TW202131695A publication Critical patent/TW202131695A/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/003Aspects relating to the "2D+depth" image format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Graphics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

提供編碼及解碼視訊資料之方法。在一編碼方法中,將包含一或多個來源視圖的來源視訊資料編碼至一視訊位元串流中。在編碼之前,對該等來源視圖中之至少一者之深度資料進行非線性濾波及降取樣。在解碼之後,對該經解碼深度資料進行升取樣及非線性濾波。

Description

用於視訊資料之編碼方案
本發明係關於視訊編碼。具體而言,其係關於用於編碼及解碼沈浸式視訊(immersive video)的方法及設備。
沈浸式視訊(亦稱為六自由度(six-degree-of-freedom, 6DoF)視訊)係三維(3D)場景的視訊,其允許針對在位置及定向上變化的視點來重建場景之視圖。其代表三自由度(3DoF)視訊的進一步發展,其允許針對任意定向的視點來重建視圖,但僅限於空間上的某一固定點。在3DoF中,自由度係角度的,亦即,俯仰、翻滾、及偏擺。3DoF視訊支援頭部旋轉;換言之,觀看該視訊之使用者可以場景中之任何方向來觀看,但無法移動至場景中之不同位置。6DoF視訊支援頭部旋轉且額外地支援場景中之位置(場景係從該位置觀看)的選擇。
為了產生6DoF,視訊需要多個攝影機來記錄場景。各攝影機產生影像資料(在此背景中通常稱為紋理資料)及對應的深度資料。對於各像素,深度資料表示藉由給定攝影機觀察到對應影像像素資料的深度。該多個攝影機之各者提供場景之各別視圖。在許多應用中,將所有視圖的所有紋理資料及深度資料皆傳輸可能並不實際或並非有效率的。
為了減少視圖之間的冗餘,目前已提出的做法是針對視訊串流之各框來修整視圖並將其包裝至「紋理輿圖(texture atlas)」中。此方法嘗試減少或消除多個視圖之間的重疊部分,從而改善效率。不同視圖之非重疊部分(其在修整後仍保留)可稱為「補片(patch)」。此方法之一實例係描述於Alvaro Collet等人的著作「High-quality streamable free-viewpoint video」,ACM Trans. Graphics (SIGGRAPH), 34(4), 2015。
所欲的係改善沈浸式視訊之品質及編碼效率。如上所述,使用修整(即,去除冗餘紋理補片)之方法以產生紋理輿圖,可有助於降低像素率。然而,修整視圖通常需要無誤差的詳細分析,並且會導致對於終端使用者而言降低的品質。因此,需要穩健且簡單的方式來降低像素率。
本發明由申請專利範圍定義。
根據本發明之一態樣的實例,提供一種編碼視訊資料之方法,該視訊資料包含一或多個來源視圖,各來源視圖包含一紋理圖及一深度圖,該方法包含: 接收該視訊資料; 處理至少一個來源視圖之該深度圖,以產生一經處理深度圖,該處理包含: 非線性濾波,及 降取樣;及 編碼該至少一個來源視圖之該經處理深度圖及該紋理圖,以產生一視訊位元串流。
較佳地,在該降取樣之前執行該非線性濾波之至少一部分。
發明人已發現,在降取樣之前執行深度圖之非線性濾波可有助於避免、減少、或減輕由該降取樣所引入之誤差。具體而言,非線性濾波可有助於防止小或細的前景物體因為降取樣的緣故而從該深度圖部分或完全消失。已發現,與線性濾波相比,非線性濾波在這方面可係較佳的,因為線性濾波可能會在前景物體與背景之間的邊界處引入中間深度值。這使得解碼器難以區別物體邊界與大深度梯度。
視訊資料可包含6DoF沈浸式視訊。
該非線性濾波可包含擴大該深度圖中的至少一個前景物體之區。
在降取樣之前擴大該前景物體可有助於確保該前景物體在該在降取樣程序後更佳地存留,換言之,即更佳地保留在該經處理深度圖中。
一前景物體可經識別為在一相對小深度處的一局部像素群組。背景可經識別為在相對大深度處的像素。例如,可藉由施加一臨限至該深度圖中之該等深度值,來局部地區別前景物體之周邊像素與該背景。
該非線性濾波可包含形態濾波,特別是灰階形態濾波,例如最大值濾波器(max filter)、最小值濾波器(min filter)、或另一序數濾波器(ordinal filter)。當該深度圖含有具有特殊意義的深度位準時(例如,深度位準為零代表無效之深度),則無論其實際值為何,較佳地應將此類深度位準視為前景。如此一來,這些位準在子取樣之後被較佳地保留,其區亦可因此被放大。
該非線性濾波可包含施加使用一機器學習演算法所設計的一濾波器。
該機器學習演算法可經訓練以在已對經處理深度圖進行編碼及解碼之後,減少或最小化一經重建深度圖之一重建誤差。
經訓練之濾波器可類似地有助於保留經處理(經降取樣)深度圖中的前景物體。
該方法可進一步包含使用一機器學習演算法來設計一濾波器,其中該濾波器經設計以在已對該經處理深度圖進行編碼及解碼之後,減少一經重建深度圖之一重建誤差,且其中該非線性濾波包含施加該經設計之濾波器。
非線性濾波可包含藉由一類神經網路處理,且該濾波器之設計可包含訓練該類神經網路。
該非線性濾波可藉由包含複數個層之一類神經網路來執行,且該降取樣可在該等層之兩者之間執行。
該降取樣可藉由類神經網路之一最大值匯集(max-pooling)(或最小值匯集(min-pooling))層來執行。
該方法可包含根據複數組處理參數來處理該深度圖,以產生各別複數個經處理深度圖,該方法進一步包含:選擇在已對該各別經處理深度圖進行編碼及解碼之後減少一經重建深度圖之一重建誤差的該組處理參數;及產生識別所選擇之該組參數之一後設資料位元串流。
這可允許針對一給定應用或針對一給定視訊序列來最佳化該等參數。
該等處理參數可包括所執行之該非線性濾波之一定義及/或該降取樣之一定義。替代地或額外地,該等處理參數可包括當重建該深度圖時在一解碼器處待執行的處理操作之一定義。
對於各組處理參數而言,該方法可包含:根據該組處理參數產生該各別經處理深度圖;編碼該經處理深度圖以產生一經編碼深度圖;解碼該經編碼深度圖;從該經解碼深度圖重建該深度圖;及比較該經重建深度圖與該至少一個來源視圖之該深度圖,以判定該重建誤差。
根據另一態樣,提供一種解碼視訊資料之方法,該視訊資料包含一或多個來源視圖,該方法包含: 接收一視訊位元串流,該視訊位元串流包含用於至少一個來源視圖的一經編碼深度圖及一經編碼紋理圖; 解碼該經編碼深度圖以產生一經解碼深度圖; 解碼該經編碼紋理圖以產生一經解碼紋理圖;及 處理該經解碼深度圖以產生一經重建深度圖,其中該處理包含: 升取樣;及 非線性濾波。
該方法可進一步包含在處理該經解碼深度圖以產生該經重建深度圖的該步驟之前,偵測該經解碼深度圖具有低於該經解碼紋理圖的一解析度。
在一些編碼方案中,可僅在某些情況中(或僅針對某些視圖)降取樣該深度圖。藉由比較該經解碼深度圖之解析度與該經解碼紋理圖之解析度,該解碼方法可判定是否在該編碼器處施加降取樣。此可避免需要一後設資料位元串流中之後設資料以指示哪些深度圖進行了降取樣及該等深度圖經降取樣的程度。(在此實例中,假設該紋理圖係以全解析度予以編碼。)
為了產生該經重建深度圖,該經解碼深度圖可經升取樣至與該經解碼紋理圖相同的解析度。
較佳地,在該解碼方法中的該非線性濾波經調適以補償在該編碼方法中所施加的該非線性濾波之效應。
該非線性濾波可包含縮減該深度圖中的至少一個前景物體之區。當在編碼期間的該非線性濾波包括增加該至少一個前景物體之該區時,這可係適當的。
該非線性濾波可包含形態濾波,特別是灰階形態濾波,例如最大值濾波器、最小值濾波器、或另一序數濾波器。
在解碼期間的該非線性濾波較佳地補償或逆轉在編碼期間的該非線性濾波之效應。例如,如果編碼期間的該非線性濾波包含一最大值濾波器(灰階擴張(grayscale dilation)),則在解碼期間的該非線性濾波可包含一最小值濾波器(灰階侵蝕(grayscale erosion)),且反之亦然。當該深度圖含有具有特殊意義的深度位準時(例如,深度位準為零代表無效之深度),則無論其實際值為何,較佳地應將此類深度位準視為前景。
較佳地,在該升取樣之後執行該非線性濾波之至少一部分。可選地,在該升取樣之後執行該非線性濾波之全部。
該經解碼深度圖的該處理可至少部分地基於該經解碼紋理圖。發明人已認知到,該紋理圖含有可協助重建該深度圖的有用資訊。具體地,在前景物體之邊界已在編碼期間被該非線性濾波改變的情況中,分析該紋理圖可有助於補償或逆轉該等改變。
該方法可包含:升取樣該經解碼深度圖;識別在該經升取樣深度圖中的至少一個前景物體之周邊像素;基於該經解碼紋理圖,判定該等周邊像素較相似於該前景物體或較相似於該背景;及將非線性濾波僅施加至經判定為較相似於該背景的周邊像素。
以此方式,該紋理圖係用於協助識別由於在編碼期間的該非線性濾波而已從背景轉換成前景的像素。在解碼期間的該非線性濾波可有助於將這些所識別像素恢復成該背景之一部分。
該非線性濾波可包含平滑化至少一個前景物體之邊緣。
該平滑化可包含:識別在該經升取樣深度圖中的至少一個前景物體之周邊像素;針對各周邊像素,分析在該周邊像素周圍的一鄰域中的前景與背景像素之數目及/或配置;基於該分析之結果,辨識自該物體投射至該背景的離群周邊像素;及將非線性濾波僅施加至該等所識別周邊像素。
該分析可包含:計數在該鄰域中的背景像素之數目,其中如果在該鄰域中的背景像素之該數目高於一預定義臨限,則將一周邊像素識別為該物體的一離群者。
替代地或額外地,該分析可包含:識別在該鄰域中的前景及背景像素之一空間圖案,其中如果該周邊像素之鄰域之該空間圖案匹配一或多個預定義空間圖案,則將該周邊像素識別為一離群者。
該方法可進一步包含接收與該視訊位元串流相關聯之一後設資料位元串流,該後設資料位元串流識別一組參數,該方法可選地進一步包含根據所識別之該組參數處理該經解碼深度圖。
該等處理參數可包括待執行之該非線性濾波之一定義及/或該升取樣之一定義。
該非線性濾波可包含施加使用一機器學習演算法所設計的一濾波器。
該機器學習演算法可經訓練以在已對經處理深度圖進行編碼及解碼之後,減少或最小化一經重建深度圖之一重建誤差。
可在與該視訊位元串流相關聯之一後設資料位元串流中定義該濾波器。
亦提供一種電腦程式,其包含當該程式在一處理系統上運行時用於使該處理系統實施如上文所概述之一方法的電腦程式碼。
該電腦程式可儲存在電腦可讀儲存媒體上。此可係一非暫時性儲存媒體。
根據另一態樣,提供一種視訊編碼器,其經組態以編碼視訊資料,該視訊資料包含一或多個來源視圖,各來源視圖包含一紋理圖及一深度圖,該視訊編碼器包含: 一輸入,其經組態以接收該視訊資料; 一視訊處理器,其經組態以處理至少一個來源視圖之該深度圖,以產生一經處理深度圖,該處理包含: 非線性濾波,及 降取樣; 一編碼器,其經組態以編碼該至少一個來源視圖之該紋理圖及該經處理深度圖,以產生一視訊位元串流;及 一輸出,其經組態以輸出該視訊位元串流。
根據又另一態樣,提供一種視訊解碼器,其經組態以解碼視訊資料,該視訊資料包含一或多個來源視圖,該視訊解碼器包含: 一位元串流輸入,其經組態以接收一視訊位元串流,其中該視訊位元串流包含用於至少一個來源視圖之一經編碼深度圖及一經編碼紋理圖; 一第一解碼器,其經組態以從該視訊位元串流解碼該經編碼深度圖,以產生一經解碼深度圖; 一第二解碼器,其經組態以從該視訊位元串流解碼該經編碼紋理圖,以產生一經解碼紋理圖; 一重建處理器,其經組態以處理該經解碼深度圖以產生一經重建深度圖,其中該處理包含: 升取樣;及 非線性濾波, 及一輸出,其經組態以輸出該經重建深度圖。
本發明的此等及其他態樣將參考下文描述的(多個)實施例闡明且將係顯而易見的。
將參考圖式描述本發明。
應該理解到,詳細說明與特定實例雖然指示了設備、系統、與方法的例示性實施例,但僅意圖用於說明的目的,而不意圖限制本發明的範圍。從以下描述、所附申請專利範圍、與附圖,將更佳地理解本發明的設備、系統、與方法的這些與其他特徵、態樣、與優點。應該理解到,圖式僅是示意性的,且未按比例繪製。也應該理解到,整個圖式使用相同的元件符號來表示相同或相似的部分。
揭示編碼及解碼沈浸式視訊之方法。在一編碼方法中,將包含一或多個來源視圖的來源視訊資料編碼至一視訊位元串流中。在編碼之前,對該等來源視圖中之至少一者之深度資料進行非線性濾波及降取樣。對深度圖進行降取樣有助於減少待傳輸之資料量,且因此有助於減少位元率。然而,發明人已發現,光是降取樣便會導致細或小的前景物體(諸如纜線)從經降取樣深度圖消失。本發明之實施例試圖減輕此效應,並在深度圖中保留小及細的物體。
本發明之實施例可適用於實施技術標準的部分,諸如ISO/IEC 23090-12 MPEG-I Part 12 Immersive Video。在可能的情況下,在本文中所使用的用語係選為與MPEG-I Part 12中所使用的用語一致。儘管如此,將理解本發明之範圍不限於MPEG-I Part 12,也不限於任何其他技術標準。
闡述下列定義/解釋係有幫助的:
「3D場景(3D scene)」係指全域參考座標系統中之視覺內容。
「輿圖(atlas)」係在包裝程序後來自一或多個視圖表示的補片之聚集,成為含有一紋理分量圖片及一對應的深度分量圖片之圖片對。
「輿圖分量(atlas component)」係一輿圖之一紋理或深度分量。
「攝影機參數(camera parameter)」界定用以從3D場景產生視圖表示的投射。
「修整(pruning)」係一識別並擷取跨視圖的遮擋區域之程序,其產生補片。
「演現器(renderer)」係用以從3D場景表示(對應於觀看位置及定向)建立視埠或全向視圖之程序的實施例。
「來源視圖(source view)」係在其對應於一視圖表示的格式之編碼前的來源視訊材料,該來源視訊材料可已藉由真實攝影機之3D場景的擷取或藉由虛擬攝影機使用來源攝影機參數投射至表面上來獲取。
「目標視圖(target view)」係定義為在所欲觀看位置及定向處的透視視埠或全向視圖。
「視圖表示(view representation)」包含紋理分量及對應的深度分量之2D樣本陣列,表示使用攝影機參數之3D場景至表面上之投射。
機器學習演算法係任何自訓練演算法,其處理輸入資料以產生或預測輸出資料。在本發明之一些實施例中,輸入資料包含從一位元串流解碼的一或多個視圖,且輸出資料包含一目標視圖的一預測/重建。
用於本發明中之合適的機器學習演算法對於所屬技術領域中具有通常知識者將係顯而易見的。合適的機器學習演算法之實例包括決策樹演算法及人工類神經網路。其他機器學習演算法(諸如邏輯式迴歸、支援向量機、或天真貝氏(Naïve Bayesian)模型)係合適的替代方案。
人工類神經網路(或,簡稱,類神經網路)之結構係由人腦所啟發。類神經網路包含層,各層包含複數個神經元。各神經元包含一數學運算。具體而言,各神經元可包含單一類型的轉換之不同加權組合(例如,相同類型的轉換、S形等,但具有不同權重)。在處理輸入資料的過程中,各神經元的數學運算係在輸入資料上執行以產生一數值輸出,且類神經網路中之各層的輸出係饋入一或多個其他層中(例如,循序地)。最終層提供輸出。
訓練機器學習演算法之方法係熟知的。一般而言,此類方法包含獲得訓練資料集,該訓練資料集包含訓練輸入資料項目及對應的訓練輸出資料項目。將一經初始化機器學習演算法施加至各輸入資料項目,以產生預測的輸出資料項目。預測的輸出資料項目與對應的訓練輸出資料項目之間的一誤差係用以修改機器學習演算法。可重複此程序直到誤差收斂,且該等預測的輸出資料項目係充分地類似(例如,±1%)於訓練輸出資料項目。此通常已知為監督式學習技術。
例如,在該機器學習演算法係從一類神經網路形成的情況下,各神經元之數學運算(的權重)可係修改直到誤差收斂。修改類神經網路之已知方法包括梯度下降、倒傳遞(backpropagation)演算法等。
卷積類神經網路(CNN、或ConvNet)係深度類神經網路的一類別,最常施加於分析視覺影像。CNN係多層感知器的正規化版本。
圖1以簡化形式繪示用於編碼及解碼沈浸式視訊的系統。使用攝影機10之陣列以擷取一場景之複數個視圖。各攝影機擷取習知影像(在本文中稱為紋理圖)及其前方視圖之深度圖。包含紋理及深度資料的成組視圖係提供至一編碼器300。該編碼器編碼紋理資料及深度資料兩者至一習知視訊位元串流(在此情況下係一高效率視訊編碼(HEVC)位元串流)中。此伴隨一後設資料位元串流,以向一解碼器400通知該視訊位元串流之不同部分的意義。例如,後設資料向該解碼器告知該視訊位元串流中的哪些部分對應於紋理圖及哪些部分對應於深度圖。取決於編碼方案的複雜度及靈活性,可需要較多或較少的後設資料。例如,一個極簡單的方案可極充分地決定位元串流之結構,使得在解碼器端處解包裝需要少量或不需要後設資料。隨著位元串流之可選可行性的數量越大,將需要越大量的後設資料。
解碼器400解碼經編碼視圖(紋理及深度),其將該等經解碼視圖傳遞至一合成器500。合成器500耦接至一顯示裝置,諸如一虛擬實境頭戴裝置550。頭戴裝置550請求合成器500根據頭戴裝置550之當前位置及定向使用該等經解碼視圖來合成及演現3D場景的一特定視圖。
圖1所示之系統的一個優點在於,其能夠使用習知的2D視訊編碼解碼器來編碼及解碼紋理及深度資料。然而,一個缺點是要編碼、傳輸、及解碼大量資料。因此,減少資料速率係所欲的,同時盡可能避免降低經重建視圖之品質。
圖2繪示根據第一實施例之一編碼方法。圖3繪示可經組態以實行如圖2之方法的一視訊編碼器。該視訊編碼器包含經組態以接收視訊資料的一輸入310。一視訊處理器320經耦合至該輸入且經組態以接收由該輸入接收的深度圖。一編碼器330經配置以接收來自視訊處理器320的經處理深度圖。一輸出370經配置以接收及輸出由編碼器330所產生之一視訊位元串流。視訊編碼器300亦包括一深度解碼器340、一重建處理器350、及一最佳化器360。將結合待以下文參考圖4描述的編碼方法之第二實施例來更詳細地描述這些組件。
參照圖2及圖3,第一實施例之方法始於步驟110,其中輸入310接收包括一紋理圖及一深度圖的視訊資料。在步驟120及130中,視訊處理器320處理該深度圖,以產生一經處理深度圖。該處理包含:在步驟120中,該深度圖之非線性濾波;及在步驟130中,該經濾波深度圖之降取樣。在步驟140中,編碼器330編碼該經處理深度圖及該紋理圖,以產生一視訊位元串流。然後,經由輸出370輸出該所產生之視訊位元串流。
在輸入310處接收的來源視圖可係藉由攝影機10之陣列所擷取的視圖。然而,此並非必要,且來源視圖不需要與由攝影機所擷取之視圖相同。在輸入310處接收的一些或所有來源視圖可係經合成的或以其他方式處理的來源視圖。在輸入310所接收的來源視圖數目可大於或小於由攝影機10之陣列所擷取之視圖數目。
在圖2之實施例中,在一單一步驟中結合非線性濾波120及降取樣130。使用「最大值匯集2×2’」降比例濾波器(down-scaling filter)。此意謂在該處理深度圖中之各像素採用在原始輸入深度圖中的四個像素之2×2鄰域中的最大像素值。此非線性濾波及降取樣之選擇係由下列兩項洞察所推斷: 1.     降比例之結果不應含有中間的(即,居中的)深度位準。此類中間深度位準會在例如使用一線性濾波器時產生。發明人已認知到,在解碼器端處合成視圖之後,中間深度位準經常產生錯誤結果。 2.     應將在深度圖中表示之細的前景物體保留。在其他情況中,一相對細的物體會消失至背景。應注意的是,假設情況為:將前景(即,近處物體)編碼為高(亮)位準,並將背景(即,遠處物體)編碼為低(暗)位準(視差慣例)。替代地,當使用z座標編碼慣例(z座標隨著與透鏡之距離增加而增加)時,「最小值匯集2×2」降比例器將具有相同效果。
此處理操作有效地使所有局部前景物體之大小增加,並因此保留小及細的物體。然而,解碼器應較佳地知道所施加的操作,因為其較佳地應消除所引入的偏差並縮小所有物體,以使深度圖與紋理再次對準。
根據本實施例,減少用於視訊解碼器之記憶體需求。原始像素率係:1Y + 0.5CrCb + 1D,其中Y=輝度通道,CrCb=色度通道,D=深度通道。根據本實例,使用四(2×2)的因數的降取樣,該像素率變成:1Y + 0.5CrCb + 0.25D。因此可達成30%的像素率減少。大多數實務的視訊解碼器係4:2:0,且不包括單色模式。在這種情況中,達成37.5%的像素減少。
圖4係繪示根據第二實施例之一編碼方法的流程圖。該方法的開始與圖2之方法相似,其中在步驟110中,該視訊編碼器之輸入310接收來源視圖。在步驟120a及130a中,視訊處理器320根據複數組處理參數來處理深度圖,以產生各別複數個經處理深度圖(各深度圖對應於一組處理參數)。在此實施例中,該系統旨在測試這些深度圖之各者,以判定哪個深度圖將在解碼器端處產生最佳品質。在步驟140a中,由編碼器330編碼經處理深度圖之各者。在步驟154中,深度解碼器340解碼各經編碼深度圖。該等經解碼深度圖係傳遞至重建處理器350。在步驟156中,重建處理器350自該等經解碼深度圖重建深度圖。然後,在步驟158中,最佳化器360比較各經重建圖與來源視圖之原始深度圖,以判定一重建誤差。該重建誤差量化該原始深度圖與該經重建深度圖之間的差異。基於該比較之結果,最佳化器360選擇導致具有最小重建誤差之經重建深度圖的該組參數。此組參數係選擇以用於產生視訊位元串流。輸出370輸出對應於所選擇之該組參數的一視訊位元串流。
應注意的是,下文將參考解碼方法(參見圖5至圖8)以更詳細地描述深度解碼器340與重建處理器350的操作。
有效地,視訊編碼器300實施一解碼器迴圈(decoder in-the-loop),以允許其預測將如何在遠端解碼器處解碼位元串流。視訊編碼器300選擇將在遠端解碼器處給出最佳效能的該組參數(就針對一給定目標位元率或像素率來最小化重建誤差而言)。可如由圖4之流程圖所建議地疊代執行最佳化,其中在由最佳化器360進行比較158之後在各反覆中更新非線性濾波120a及/或降取樣130a之參數。替代地,視訊解碼器可測試固定複數個參數組,且此可循序或以平行方式完成。例如,在一高度平行實施方案中,在視訊編碼器300中可存在N個編碼器(及解碼器),該等編碼器之各者經組態以測試一組參數以用於編碼深度圖。此可增加在可用時間中可測試的參數組數目,但會造成編碼器300之複雜度及/或大小增加。
所測試之參數可包括非線性濾波120a之參數、降取樣130a之參數、或兩者。例如,該系統可在一或兩個維度下採用各種因數之降取樣來進行實驗。同樣地,該系統可採用不同非線性濾波器來進行實驗。例如,可使用其他類型的序數濾波器,而非使用最大值濾波器(其將一局部鄰域中之最大值指派給各像素)。例如,非線性濾波器可分析一給定像素周圍的局部鄰域,且可將該鄰域中之第二最高值指派給該像素。此可提供與最大值濾波器相似的效果,同時有助於避免對單一離群值的敏感度。非線性濾波器之核心大小係可變化的另一參數。
應注意的是,在該視訊解碼器處處理之參數亦可被包括在參數組中(如將於下文更詳細描述者)。依此方式,該視訊編碼器可針對編碼與解碼兩者來選擇一組參數,該組參數有助於最佳化品質對位元率/像素率。可針對一給定場景、或針對一給定視訊序列、或更一般地透過多種場景及視訊序列的一訓練集來進行該最佳化。最佳參數組可按序列、按位元率、及/或按所允許之像素率而改變。
可將用於使該視訊解碼器適當地解碼視訊位元串流的有用或必要的參數嵌入與視訊位元串流相關聯之一後設資料位元串流中。此後設資料位元串流可連同視訊位元串流一起或與視訊位元串流分開地傳輸/輸送至該視訊解碼器。
圖5係根據一實施例之解碼視訊資料之方法的流程圖。圖6係對應之視訊解碼器400的方塊圖。解碼器400包含:一輸入410;一紋理解碼器424;一深度解碼器426;一重建處理器450;及一輸出470。輸入410經耦接至紋理解碼器424及深度解碼器426。重建處理器450經配置以接收來自紋理解碼器424的經解碼紋理圖,並從深度解碼器426接收經解碼深度圖。重建處理器450經配置以提供經重建深度圖至輸出470。
圖5之方法始於步驟210,其中輸入410接收一視訊位元串流及可選地一後設資料位元串流。在步驟224中,紋理解碼器424從該視訊位元串流解碼一紋理圖。在步驟226中,深度解碼器426從該視訊位元串流解碼一深度圖。在步驟230及240中,重建處理器450處理該經解碼深度圖,以產生一經重建深度圖。此處理包含升取樣230及非線性濾波240。該處理(具體而言,非線性濾波240)亦可取決於該經解碼紋理圖的內容,如將於下文更詳細描述者。
現在將參照圖8以更詳細描述圖5之方法的一個實例。在此實施例中,升取樣230包含最靠近相鄰者的升取樣,其中在該經升取樣深度圖中的2×2像素之區塊中的各像素被指派來自該經解碼深度圖的像素中之一者的值。此「最靠近相鄰者2×2」升比例器將該深度圖放大成其原始大小。如同在編碼器處的最大值匯集運算,在解碼器處的此程序避免產生中間深度位準。如與編碼器處的原始深度圖相比較,該經放大深度圖之特性係可預先預測的:該「最大值匯集」降比例濾波器傾向於擴大前景物體之區。因此,在該經升取樣深度圖中的一些深度像素係反而應是背景的前景像素;然而,通常不存在反而應是前景的背景深度像素。換言之,在升比例後,物體有時太大但通常不會太小。
在本實施例中,為了消除偏差(大小已增加之前景物體),經升比例深度圖之非線性濾波240包含一顏色調適性、條件式的侵蝕濾波(圖8中的步驟242、244、及240a)。侵蝕部分(最小運算子(minimum operator))確保物體的大小縮小,而顏色調適確保深度邊緣最後位於正確的空間位置處(即,全尺寸紋理圖中的轉變指示邊緣應處於的位置)。由於侵蝕濾波起作用(即,像素經侵蝕或未經侵蝕)之非線性方式的緣故,所得物體邊緣可能有雜訊。相鄰邊緣像素可針對一最小不同的輸入而給定對於「侵蝕或未侵蝕」分類的不同結果。此類雜訊對於物體邊緣平滑度具有不良影響。發明人已認知到,此類平滑度對於足夠感知品質的視圖合成結果是重要的要求。因此,非線性濾波240亦包含一輪廓平滑度濾波(步驟250),以平滑化深度圖中的邊緣。
現在將更詳細描述根據本實施例之非線性濾波240。圖7展示表示在非線性濾波240之前的濾波器核心的經升取樣深度圖之經放大的小區。灰色方形指示前景像素;黑色方形指示背景像素。一前景物體之周邊像素係標示為X。這些像素可表示在編碼器處由非線性濾波所導致的前景物體之經延伸/擴大區。換言之,該等周邊像素X不確定是否真的是前景或背景像素。
執行適應性侵蝕的步驟係: 1.     尋找局部前景邊緣,即,前景物體之周邊像素(在圖7中標記為X)。此可藉由施加一局部臨限來區分前景像素與背景像素來完成。然後,將周邊像素識別為與背景像素相鄰的前景像素(在此實例中,以4-連通的意義而言)。在步驟242中,此係藉由重建處理器450來完成。為了效率,一深度圖可含有來自多個攝影機視圖的經包裝區域。忽略此類區域之邊界上的邊緣,因為這些邊緣不指示物體邊緣。 2.     針對所識別之邊緣像素(例如,在圖7中的5×5核心之中央像素),判定5×5核心中的平均前景紋理顏色及平均背景紋理顏色。此係僅基於「可信賴」像素(以點●標記)來完成。換言之,平均前景紋理及平均背景紋理之計算將排除不確定的邊緣像素X,亦排除來自施加例如其他攝影機視圖的可能相鄰補片區域的像素。 3.     判定與前景的相似度:即,前景信賴度:
Figure 02_image001
其中:D 指示介於中央像素之顏色與背景或前景像素之平均顏色之間的(例如,歐氏)顏色距離。如果中央像素相對地較相似於鄰域中的平均前景顏色,則此信賴度度量將接近1。如果中央像素相對地較相似於鄰域中的平均背景顏色,則此信賴度度量將接近0。在步驟244中,重建處理器450判定所識別周邊像素與前景的相似度。 4.     將C foreground <臨限的所有周邊像素標記為X。(例如,0.5) 5.     侵蝕所有經標記像素,即,採用一局部(例如,3×3)鄰域中的最小值。在步驟240a中,重建處理器450施加此非線性濾波至經標記周邊像素(與前景相比,該等經標記周邊像素較相似於背景)。
如上文所提及,此程序可係有雜訊的,且可能會導致深度圖中的鋸齒狀邊緣。用來平滑化在深度圖中所表示之物體邊緣的步驟係: 1.     尋找局部前景邊緣,即,前景物體之周邊像素(如圖7中標記為X者)。 2.     針對這些邊緣像素(例如,在圖7中之中央像素),計數在所關注像素周圍的一3×3核心中的背景像素數目。 3.     標記計數>臨限的所有邊緣像素。 4.     侵蝕所有經標記像素,即,採用一局部(例如,3×3)鄰域中的最小值。在步驟250中,此步驟係由重建處理器450執行。
此平滑化將傾向於將離群或突出的前景像素轉換成背景像素。
在上述實例中,該方法使用在一3×3核心中的背景像素數目來識別一給定像素是否係投射自前景物體的一離群周邊像素。亦可使用其他方法。例如,作為一替代或除了計數像素數量外,可分析在該核心中的前景與背景像素之位置。如果背景像素全部都在所討論的像素之一側上,則其可能更加可能係一前景像素。另一方面,如果背景像素散佈在所討論的像素四周,則此像素可係一離群者或雜訊,且更加可能真的是一背景像素。
可依一二進位方式將該核心中的像素分類為前景或背景。針對各像素使用一二進位旗標進行此編碼,其中一邏輯「1」指示背景且「0」指示前景。然後,可藉由n位元二進位數來描述鄰域(即,核心中的像素),其中n係所關注像素周圍的核心中的像素數目。建構二進位數之一例示性方式係如下表中所指示:
b7 = 1 b6 = 0 b5 = 1
b4 = 0    b3 = 0
b2 = 1 b1 = 0 b0 = 1
在此實例中,b = b7 b6 b5 b4 b3 b2 b1 b0 = 101001012 = 165。(應注意的是,上文參考圖5所描述之演算法對應於計數b中非零位元的數目(=4)。)
訓練包含計數所關注像素(核心中的中央像素)係前景或背景之頻率的b之各值。假設假警報及未命中之成本相同,如果該像素更有可能(在該訓練集中)是一前景像素而非一背景像素,則將該像素判定為前景像素,且反之亦然。
解碼器實施方案將建構b並從一查找表(look up table, LUT)提取答案(即所關注像素係前景,或所關注像素係背景)。
在編碼器及解碼器兩者處非線性濾波深度圖的方法(例如,分別地是擴張與侵蝕,如上文所述)係反直覺的,因為通常預期其將資訊從深度圖移除。然而,發明人已驚訝地發現,對於一給定位元率,由非線性降取樣方法所產生之較小深度圖可經編碼(使用習知的視訊編碼解碼器)且品質較高。此品質增益超過重建之損失;因此,淨效應係增加端對端品質,同時降低像素率。
如上文參照圖3及圖4所述,可行的是,在視訊編碼器內實施一解碼器,以最佳化非線性濾波及降取樣之參數,從而降低重建誤差。在此情況中,在視訊編碼器300中的深度解碼器340與視訊解碼器400中的深度解碼器426實質上相同;且在視訊編碼器300處的重建處理器350與視訊解碼器400中的重建處理器450實質上相同。由這些各別組件實行實質上相同的程序。
如上文所述,當在視訊編碼器處之非線性濾波及降取樣之參數已經選擇以減少重建誤差時,可在輸入至視訊解碼器的一後設資料位元串流中指示所選擇之參數。重建處理器450可使用在後設資料位元串流中所指示的參數來協助正確重建深度圖。重建處理的參數可包括但不限於:一或兩個維度下的升取樣因數;用於識別前景物體之周邊像素的核心大小;用於侵蝕的核心大小;待施加之非線性濾波類型(例如,無論是否使用最小值濾波器或另一類型濾波器);用於識別前景像素以進行平滑化的核心大小;及用於平滑化之核心大小。
現將參照圖9說明一替代實施例。在此實施例中,使用一類神經網路架構來取代編碼器及解碼器之手動編碼(hand-coding)非線性濾波器。類神經網路經分離以模型化深度的降比例及升比例運算。此網路接受端對端訓練,並學習如何最佳地降比例及最佳地升比例。然而,在部署(即,針對真實序列的編碼及解碼)期間,第一部分係在視訊編碼器之前,且第二部分係用在視訊解碼器之後。因此,該第一部分提供用於編碼方法的非線性濾波120;且該第二部分提供用於解碼方法的非線性濾波240。
網路之第二部分的網路參數(權重)可使用位元串流來傳輸作為後設資料。應注意的是,不同組的類神經網路參數可與不同的編碼組態(不同的降比例因數、不同的目標位元率等)對應地來建立。這意謂用於深度圖的降比例濾波器將針對紋理圖之一給定位元率來最佳地表現。此可增加效能,因為紋理編碼假影改變輝度及色度特性,且特別是在物體邊界處,此變化將導致深度升比例之類神經網路的不同權重。
圖9展示此實施例之一實例架構,其中類神經網路係一卷積類神經網路(CNN)。圖中之符號具有下列意義:
Figure 02_image003
=輸入3通道的全解析度紋理圖
Figure 02_image005
=經編碼的全解析度紋理圖D =輸入1通道的全解析度深度圖
Figure 02_image007
=經降比例的深度圖
Figure 02_image009
=經降比例的經解碼深度圖
Figure 02_image011
=使用
Figure 02_image013
核心進行卷積
Figure 02_image015
=因數
Figure 02_image017
降比例
Figure 02_image019
=因數
Figure 02_image021
圖中之各垂直黑條表示輸入資料或中間資料之張力,亦即,至類神經網路之一層的輸入資料。各張力之尺寸係由三元組(p, w, h )所描述,其中wh 分別係影像之寬度及高度,且p 係資料的平面或通道數目。據此,輸入紋理圖具有尺寸(3,w ,h ),該三個平面對應於三個顏色通道。經降取樣深度圖具有尺寸(1,w /2,h /2)。
降比例Pk 可包含因數k降比例平均、或核心大小k之最大值匯集或最小值匯集運算。降比例平均運算會引入一些中間值,但類神經網路後來的層可修正此問題(例如,基於紋理資訊)。
應注意的是,在訓練階段中,未使用經解碼深度圖
Figure 02_image009
。而是,使用未經壓縮之降比例深度圖
Figure 02_image007
。此原因在於,類神經網路的訓練階段需要計算不可能用於非線性視訊編碼器功能的導數。此近似值將可能實際上係有效的,尤其是對於較高品質(較高位元率)。在推斷階段(即,用於處理真實視訊資料)中,未經壓縮之降比例深度圖
Figure 02_image007
顯然無法用於視訊解碼器。因此,使用經解碼深度圖
Figure 02_image009
。亦應注意的是,經解碼全解析度紋理圖係用在訓練階段以及推斷階段
Figure 02_image005
。不需要計算導數,因為這是協助程式(helper)資訊,而非藉由類神經網路來處理之資料。
由於在用戶端裝置處可能存在複雜度限制,故網路之第二部分(在視訊解碼之後)將僅含有少數卷積層。
使用此深度學習方法之基礎在於訓練資料之可用性。在此情況中,這些訓練資料容易獲得。在視訊編碼之前,在輸入側處使用未經壓縮之紋理影像與全解析度深度圖。網路之第二部分使用經解碼紋理及降比例深度圖(經由網路之前半部分作為訓練的輸入),且藉由比對亦用作輸入的基準真相(ground-truth)全解析度深度圖來評估誤差。所以本質上,來自高解析度來源深度圖的補片用作為輸入且用作為至類神經網路的輸出。因此,該網路具有自動編碼器架構及UNet架構兩者的一些態樣。然而,所建議的架構不僅是這些方法之一組合。例如,經解碼紋理圖進入網路之第二部分作為協助程式資料,以最佳地重建高解析度深度圖。
在圖9所繪示之實例中,在視訊編碼器300處的類神經網路之輸入包含紋理圖
Figure 02_image003
及深度圖D 。在類神經網路之兩個其他層之間執行降取樣P 2 。在降取樣之前,有三個類神經網路層,而在其之後,則有兩層。在視訊編碼器300處的類神經網路之部分之輸出包含降比例深度圖
Figure 02_image007
。在步驟140中,此係由編碼器320進行編碼。
在視訊位元串流中,經編碼深度圖被輸送至視訊解碼器400。在步驟226中,該經編碼深度圖係由深度解碼器426來進行解碼。此產生經降比例的經解碼深度圖
Figure 02_image009
。此係經升取樣(U2 ),以在視訊解碼器400處待於類神經網路之部分中使用。至類神經網路之此部分的另一輸入係由紋理解碼器424所產生的經解碼全解析度紋理圖
Figure 02_image005
。類神經網路之此第二部分具有三層,其產生一經重建評估
Figure 02_image023
作為輸出,比較該經重建評估與原始深度圖D 以產生一所得誤差e
如將從前文明白指出,類神經網路處理可由視訊處理器320在視訊編碼器300處實施,及由重建處理器450在視訊解碼器400處實施。在所示之實例中,在視訊編碼器300處藉由類神經網路之部分以整合方式執行非線性濾波120及降取樣130。在視訊解碼器400處,在進行藉由類神經網路執行的非線性濾波240之前,分開地執行升取樣230。
應該理解到,展示於圖9中之類神經網路層之配置係非限制性,且可在其他實施例中改變。在實例中,網路產生2×2經降取樣深度圖。當然,亦可使用不同縮放比例因數。
在上文所述之數個實施例中,參考在編碼器處進行的最大值濾波、最大值匯集、擴張或類似運算。應該理解到,這些實施例假設:將深度編碼為1/d(或其他相似的逆相關),其中d距攝影機之距離。運用此假設,深度圖中的高值指示前景物體,而深度圖中的低值指示背景。因此,藉由施加最大值或擴張類型運算,該方法傾向於擴大前景物體。在解碼器處,對應的逆程序可係施加一種最小值或侵蝕類型運算。
當然,在其他實施例中,深度可編碼為d或log d(或與d具有直接相關關係的另一變數)。此意指以d之低值來表示前景物體,並以d之高值來表示背景。在此類實施例中,可在編碼器處執行最小值濾波、最小值匯集、侵蝕或類似運算。再次,此將傾向於擴大前景物體,其即為目標。在解碼器處,對應的逆程序可係施加最大值或擴張類型運算。
圖2、圖4、圖5、圖8、及圖9之編碼及解碼方法、以及圖3及圖6之編碼器及解碼器可在硬體或軟體、或兩者之混合(例如,作為在硬體裝置上運行的韌體)中實施。在實施例部分或全部實施以軟體的情況下,程序流程圖中所繪示的功能性步驟可係由經適當程式化的實體運算裝置(諸如一或多個中央處理單元(central processing unit, CPU)、圖形處理單元(graphics processing unit, GPU)、或類神經網路加速器(neural network accelerator, NNA))來執行。各程序(及如流程中所繪示之其個別組成步驟)可由相同或不同的運算裝置來執行。根據實施例,一種電腦可讀儲存媒體儲存一電腦程式,該電腦程式包含電腦程式碼,該電腦程式碼經組態以當該程式在一或多個實體運算裝置上運行時使該一或多個實體運算裝置執行如上所述之編碼或解碼方法。
儲存媒體可包括揮發性及非揮發性電腦記憶體,諸如RAM、PROM、EPROM、及EEPROM。各種儲存媒體可係固定在一運算裝置內或可係可轉移的,使得儲存在其上之一或多個程式可載入一處理器中。
根據一實施例之後設資料可儲存在一儲存媒體上。根據一實施例之一位元串流可儲存在相同儲存媒體或不同儲存媒體上。後設資料可嵌入位元串流中,但此並非必要。同樣地,後設資料及/或位元串流(其中後設資料在位元串流中或與其分開)可傳輸作為經調變至電磁載波上之一信號。該信號可根據用於數位通訊的標準來定義。該載波可係一光學載波、一射頻波、一毫米波、或一近場通訊波。其可係有線的或無線的。
在實施例部分或全部以硬體實施的情況中,圖3及圖6之方塊圖中所展示的方塊可係分開的實體組件、或單一實體組件的邏輯子分割,或可全部以一整合方式實施在一個實體組件中。圖式中所展示之一個方塊的功能可在一實施方案中的多個組件之間分割,或者圖式中所展示之多個方塊的功能可組合在一實施方案中的單一組件中。例如,雖然圖6將紋理解碼器424及深度解碼器46展示為分開的組件,但其等的功能可由單一統合的解碼器組件來提供。
一般而言,編碼及解碼資料之方法、實施這些方法的電腦程式、以及視訊編碼器與解碼器的實例係由以下實施例所指示。實施例: 1.             一種編碼視訊資料之方法,該視訊資料包含一或多個來源視圖,各來源視圖包含一紋理圖及一深度圖,該方法包含: 接收(110)該視訊資料; 處理至少一個來源視圖之該深度圖,以產生一經處理深度圖,該處理包含: 非線性濾波(120),及 降取樣(130);及 編碼(140)該至少一個來源視圖之該經處理深度圖及該紋理圖,以產生一視訊位元串流。 2.             如實施例1之方法,其中該非線性濾波包含擴大該深度圖中的至少一個前景物體之區。 3.             如實施例1或實施例2之方法,其中該非線性濾波包含施加使用一機器學習演算法所設計的一濾波器。 4.             如前述實施例中任一項之方法,其中該非線性濾波係藉由包含複數個層之一類神經網路來執行,且該降取樣係在該等層之兩者之間執行。 5.             如前述實施例中任一項之方法,其中該方法包含根據複數組處理參數來處理(120a、130a)該深度圖,以產生各別複數個經處理深度圖, 該方法進一步包含: 選擇在已對該各別經處理深度圖進行編碼及解碼之後減少一經重建深度圖之一重建誤差的該組處理參數;及 產生識別所選擇之該組參數之一後設資料位元串流。 6.             一種解碼視訊資料之方法,該視訊資料包含一或多個來源視圖,該方法包含: 接收(210)一視訊位元串流,該視訊位元串流包含用於至少一個來源視圖的一經編碼深度圖及一經編碼紋理圖; 解碼(226)該經編碼深度圖,以產生一經解碼深度圖; 解碼(224)該經編碼紋理圖,以產生一經解碼紋理圖;及 處理該經解碼深度圖以產生一經重建深度圖,其中該處理包含: 升取樣(230),及 非線性濾波(240)。 7.             如實施例6之方法,其進一步包含在處理該經解碼深度圖以產生該經重建深度圖的該步驟之前,偵測該經解碼深度圖具有低於該經解碼紋理圖的一解析度。 8.             如實施例6或實施例7之方法,其中該非線性濾波包含縮減該深度圖中的至少一個前景物體之區。 9.             如實施例6至8中任一項之方法,其中該經解碼深度圖的該處理係至少部分地基於該經解碼紋理圖。 10.           如實施例6至9中任一項之方法,其包含: 升取樣(230)該經解碼深度圖; 識別(242)在該經升取樣深度圖中的至少一個前景物體之周邊像素; 基於該經解碼紋理圖,判定(244)該等周邊像素較相似於該前景物體或較相似於該背景;及 將非線性濾波(240a)僅施加至經判定為較相似於該背景的周邊像素。 11.           如實施例中任一項之方法,其中該非線性濾波包含平滑化(250)至少一個前景物體之邊緣。 12.           如實施例6至11中任一項之方法,其進一步包含接收與該視訊位元串流相關聯之一後設資料位元串流,該後設資料位元串流識別一組參數, 該方法進一步包含根據所識別之該組參數處理該經解碼深度圖。 13.           一種電腦程式,其包含當該程式在一處理系統上運行時用於使該處理系統實施如實施例1至12中任一項之實施例的電腦程式碼。 14.           一種視訊編碼器(300),其經組態以編碼視訊資料,該視訊資料包含一或多個來源視圖,各來源視圖包含一紋理圖及一深度圖,該視訊編碼器包含: 一輸入(310),其經組態以接收該視訊資料; 一視訊處理器(320),其經組態以處理至少一個來源視圖之該深度圖,以產生一經處理深度圖,該處理包含: 非線性濾波(120),及 降取樣(130); 一編碼器(330),其經組態以編碼該至少一個來源視圖之該紋理圖及該經處理深度圖,以產生一視訊位元串流;及 一輸出(360),其經組態以輸出該視訊位元串流。 15.           一視訊解碼器(400),其經組態以解碼視訊資料,該視訊資料包含一或多個來源視圖,該視訊解碼器包含: 一位元串流輸入(410),其經組態以接收一視訊位元串流,其中該視訊位元串流包含用於至少一個來源視圖之一經編碼深度圖及一經編碼紋理圖; 一第一解碼器(426),其經組態以從該視訊位元串流解碼該經編碼深度圖,以產生一經解碼深度圖; 一第二解碼器(424),其經組態以從該視訊位元串流解碼該經編碼紋理圖,以產生一經解碼紋理圖; 一重建處理器(450),其經組態以處理該經解碼深度圖以產生一經重建深度圖,其中該處理包含: 升取樣(230),及 非線性濾波(240), 及一輸出(470),其經組態以輸出該經重建深度圖。
適用於本發明之實施例中的硬體組件包括,但不限於,習知微處理器、特殊應用積體電路(application specific integrated circuit, ASIC)、及場可程式化閘陣列(field-programmable gate array, FPGA)。一或多個方塊可實施為用以實行一些功能的專用硬體、及一或多個程式化微處理器、以及用以執行其他功能的相關聯電路系統之組合。
更具體而言,本發明由隨附之申請專利範圍來定義。
在實踐所主張的發明時,所屬技術領域中具有通常知識者可藉由研究圖式、本揭露、及所附申請專利範圍而理解與實現所揭示之實施例的變化。在申請專利範圍中,詞語「包含(comprising)」不排除其他元素或步驟,且不定冠詞「一(a)」或「一(an)」不排除複數個。單一處理器或其他單元可滿足申請專利範圍中所述之數個項目的功能。在相互不同的附屬項中所敘述的某些測量的這一事實並未指示此等測量之組合無法用以得利。若電腦程式係於上文討論,則其可儲存/分布在合適的媒體上,諸如光學儲存媒體或固態媒體,其連同其他硬體來供應或作為其他硬體的部分,但亦可以其他形式來分布,諸如經由網際網路或其他有線或無線電信系統。若用語「經調適以(adapted to)」使用在申請專利範圍或說明書中,應注意用語「經調適以(adapted to)」意圖等效於用語「經組態以(configured to)」。申請專利範圍中的任何元件符號不應解釋為限制範圍。
10:攝影機 110:步驟;接收 120:步驟;非線性濾波 120a:步驟;非線性濾波 130:步驟;降取樣 130a:步驟;降取樣 140:步驟;編碼 140a:步驟 154:步驟 156:步驟 158:步驟;比較 210:步驟;接收 224:步驟;解碼 226:步驟;解碼 230:步驟;升取樣 240:步驟;非線性濾波 240a:步驟;非線性濾波 242:步驟;識別 244:步驟;判定 250:步驟;平滑化 300:編碼器;視訊編碼器 310:輸入 320:視訊處理器;編碼器 330:編碼器 340:深度解碼器 350:重建處理器 360:最佳化器;輸出 370:輸出 400:解碼器;視訊解碼器 410:輸入 424:紋理解碼器;第二解碼器 426:深度解碼器;第一解碼器 450:重建處理器 470:輸出 500:合成器 550:頭戴裝置
為更佳地瞭解本發明,並更清楚展示可如何使其生效,現在將僅通過實例方式來參考隨附圖式,其中: 〔圖1〕繪示使用現有視訊編碼解碼器來編碼及解碼沈浸式視訊的實例; 〔圖2〕係根據一實施例之編碼視訊資料之方法的流程圖; 〔圖3〕係根據一實施例之視訊編碼器的方塊圖; 〔圖4〕係繪示根據一進一步實施例之編碼視訊資料之方法的流程圖; 〔圖5〕係根據一實施例之解碼視訊資料之方法的流程圖; 〔圖6〕係根據一實施例之一視訊解碼器的方塊圖; 〔圖7〕繪示根據一實施例之用於在一解碼方法中選擇性地施加非線性濾波至特定像素之方法; 〔圖8〕係繪示根據一進一步實施例之解碼視訊資料之方法的流程圖;及 〔圖9〕繪示根據一實施例之將類神經網路處理用於編碼及解碼視訊資料的使用。
110:步驟;接收
120:步驟;非線性濾波
130:步驟;降取樣
140:步驟;編碼

Claims (13)

  1. 一種編碼視訊資料之方法,該視訊資料包含一或多個來源視圖,各來源視圖包含一紋理圖及一深度圖,該方法包含: 接收(110)該視訊資料; 處理至少一個來源視圖之該深度圖,以產生一經處理深度圖,該處理包含: 該深度圖之非線性濾波(120)以產生一經非線性濾波深度圖,及 降取樣(130)該經非線性濾波深度圖,以產生該經處理深度圖;及 編碼(140)該至少一個來源視圖之該經處理深度圖及該紋理圖,以產生一視訊位元串流, 其中該非線性濾波包含擴大該深度圖中的至少一個前景物體之區。
  2. 如請求項1之方法,其中該非線性濾波包含施加使用一機器學習演算法所設計的一濾波器。
  3. 如前述請求項中任一項之方法,其中該非線性濾波係藉由包含複數個層之一類神經網路來執行,且該降取樣係在該等層之兩者之間執行。
  4. 如前述請求項中任一項之方法,其中該方法包含根據複數組處理參數來處理(120a、130a)該深度圖,以產生各別複數個經處理深度圖, 其中該等處理參數包括下列中之至少一者:所執行之該非線性濾波之一定義、所執行之該降取樣之一定義、及當重建該深度圖時在一解碼器處待執行的處理操作之一定義, 該方法進一步包含: 選擇在已對該各別經處理深度圖進行編碼及解碼之後減少一經重建深度圖之一重建誤差的該組處理參數;及 產生識別所選擇之該組參數之一後設資料位元串流。
  5. 一種解碼視訊資料之方法,該視訊資料包含一或多個來源視圖,該方法包含: 接收(210)一視訊位元串流,該視訊位元串流包含用於至少一個來源視圖的一經編碼深度圖及一經編碼紋理圖; 解碼(226)該經編碼深度圖,以產生一經解碼深度圖; 解碼(224)該經編碼紋理圖,以產生一經解碼紋理圖;及 處理該經解碼深度圖以產生一經重建深度圖,其中該處理包含: 升取樣(230)該經解碼深度圖,以產生一經升取樣深度圖;及 該經升取樣深度圖之非線性濾波(240),以產生該經重建深度圖, 其中該非線性濾波包含縮減該深度圖中的至少一個前景物體之區。
  6. 如請求項5之方法,其進一步包含在處理該經解碼深度圖以產生該經重建深度圖的該步驟之前,偵測該經解碼深度圖具有低於該經解碼紋理圖的一解析度。
  7. 如請求項5至6中任一項之方法,其中該經解碼深度圖的該處理係至少部分地基於該經解碼紋理圖。
  8. 如請求項5至7中任一項之方法,其包含: 升取樣(230)該經解碼深度圖; 識別(242)在該經升取樣深度圖中的至少一個前景物體之周邊像素; 基於該經解碼紋理圖,判定(244)該等周邊像素較相似於該前景物體或較相似於該背景;及 將非線性濾波(240a)僅施加至經判定為較相似於該背景的周邊像素。
  9. 如請求項5至8中任一項之方法,其中該非線性濾波包含平滑化(250)至少一個前景物體之邊緣。
  10. 如請求項5至9中任一項之方法,其進一步包含接收與該視訊位元串流相關聯之一後設資料位元串流,該後設資料位元串流識別一組參數,該組參數包括待執行之該非線性濾波之一定義及/或該升取樣之一定義, 該方法進一步包含根據所識別之該組參數處理該經解碼深度圖。
  11. 一種電腦程式,其包含當該程式在一處理系統上運行時用於使該處理系統實施如請求項1至10中任一項之方法的電腦程式碼。
  12. 一種視訊編碼器(300),其經組態以編碼視訊資料,該視訊資料包含一或多個來源視圖,各來源視圖包含一紋理圖及一深度圖,該視訊編碼器包含: 一輸入(310),其經組態以接收該視訊資料; 一視訊處理器(320),其經組態以處理至少一個來源視圖之該深度圖,以產生一經處理深度圖,該處理包含: 該深度圖之非線性濾波(120)以產生一經非線性濾波深度圖,及 降取樣(130)該經非線性濾波深度圖,以產生該經處理深度圖; 一編碼器(330),其經組態以編碼該至少一個來源視圖之該紋理圖及該經處理深度圖,以產生一視訊位元串流;及 一輸出(360),其經組態以輸出該視訊位元串流, 其中該非線性濾波包含擴大該深度圖中的至少一個前景物體之區。
  13. 一視訊解碼器(400),其經組態以解碼視訊資料,該視訊資料包含一或多個來源視圖,該視訊解碼器包含: 一位元串流輸入(410),其經組態以接收一視訊位元串流,其中該視訊位元串流包含用於至少一個來源視圖之一經編碼深度圖及一經編碼紋理圖; 一第一解碼器(426),其經組態以從該視訊位元串流解碼該經編碼深度圖,以產生一經解碼深度圖; 一第二解碼器(424),其經組態以從該視訊位元串流解碼該經編碼紋理圖,以產生一經解碼紋理圖; 一重建處理器(450),其經組態以處理該經解碼深度圖以產生一經重建深度圖,其中該處理包含: 升取樣(230)該經解碼深度圖,以產生一經升取樣深度圖;及 該經升取樣深度圖之非線性濾波(240),以產生該經重建深度圖, 及一輸出(470),其經組態以輸出該經重建深度圖, 其中該非線性濾波包含縮減該深度圖中的至少一個前景物體之區。
TW109145157A 2019-12-18 2020-12-18 用於視訊資料之編碼方案 TW202131695A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP19217418.3 2019-12-18
EP19217418.3A EP3840389A1 (en) 2019-12-18 2019-12-18 Coding scheme for video data using down-sampling/up-sampling and non-linear filter for depth map

Publications (1)

Publication Number Publication Date
TW202131695A true TW202131695A (zh) 2021-08-16

Family

ID=68944588

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109145157A TW202131695A (zh) 2019-12-18 2020-12-18 用於視訊資料之編碼方案

Country Status (11)

Country Link
US (1) US20230051960A1 (zh)
EP (2) EP3840389A1 (zh)
JP (1) JP2023506911A (zh)
KR (1) KR20220113800A (zh)
CN (1) CN114868401A (zh)
AR (1) AR120833A1 (zh)
BR (1) BR112022011828A2 (zh)
CA (1) CA3164785A1 (zh)
MX (1) MX2022007492A (zh)
TW (1) TW202131695A (zh)
WO (1) WO2021123072A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210192019A1 (en) * 2019-12-18 2021-06-24 Booz Allen Hamilton Inc. System and method for digital steganography purification
US11875810B1 (en) * 2021-09-29 2024-01-16 Amazon Technologies, Inc. Echo cancellation using neural networks for environments with unsynchronized devices for audio capture and rendering
WO2023050381A1 (en) * 2021-09-30 2023-04-06 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Image and video coding using multi-sensor collaboration
WO2023123497A1 (en) * 2021-12-31 2023-07-06 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Collaborative video processing mechanism and methods of operating the same
EP4246988A1 (en) * 2022-03-16 2023-09-20 Koninklijke Philips N.V. Image synthesis
GB2625720A (en) * 2022-12-21 2024-07-03 V Nova Int Ltd Immersive Video Data Processing
CN116303731B (zh) * 2023-05-22 2023-07-21 四川互慧软件有限公司 医院标准主数据的对码方法、装置及电子设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100806201B1 (ko) * 2006-10-30 2008-02-22 광주과학기술원 깊이영상의 계층적 분해를 이용한 삼차원 비디오 생성방법, 이를 위한 장치, 및 그 시스템과 기록 매체
KR101484487B1 (ko) * 2007-10-11 2015-01-28 코닌클리케 필립스 엔.브이. 깊이-맵을 프로세싱하는 방법 및 디바이스
US20120269458A1 (en) * 2007-12-11 2012-10-25 Graziosi Danillo B Method for Generating High Resolution Depth Images from Low Resolution Depth Images Using Edge Layers
KR20130086911A (ko) * 2012-01-26 2013-08-05 삼성전자주식회사 3차원 비디오를 위한 영상 처리 방법 및 장치
US20130202194A1 (en) * 2012-02-05 2013-08-08 Danillo Bracco Graziosi Method for generating high resolution depth images from low resolution depth images using edge information
CN103514580B (zh) * 2013-09-26 2016-06-08 香港应用科技研究院有限公司 用于获得视觉体验优化的超分辨率图像的方法和***
AU2014218390B2 (en) * 2014-08-27 2017-01-12 Canon Kabushiki Kaisha Method, system and apparatus for forming a high resolution depth map
CN108259917A (zh) * 2016-12-28 2018-07-06 ***通信集团山东有限公司 基于深度时域下采样的三维视频编解码方法及***
CN107610049B (zh) * 2017-08-21 2021-01-05 华侨大学 基于稀疏正则化技术和加权引导滤波的图像超分辨率方法
US10701334B2 (en) * 2017-10-11 2020-06-30 Adobe Inc. Virtual reality parallax correction
FI20195670A1 (en) * 2019-08-12 2021-02-13 3R Cycle Oy Method and device for disassembly of electronics
EP3799433A1 (en) * 2019-09-24 2021-03-31 Koninklijke Philips N.V. Coding scheme for immersive video with asymmetric down-sampling and machine learning
KR102436512B1 (ko) * 2019-10-29 2022-08-25 삼성전자주식회사 부호화 방법 및 그 장치, 복호화 방법 및 그 장치

Also Published As

Publication number Publication date
MX2022007492A (es) 2022-07-01
US20230051960A1 (en) 2023-02-16
CN114868401A (zh) 2022-08-05
EP4078982A1 (en) 2022-10-26
KR20220113800A (ko) 2022-08-16
EP3840389A1 (en) 2021-06-23
AR120833A1 (es) 2022-03-23
JP2023506911A (ja) 2023-02-20
WO2021123072A1 (en) 2021-06-24
BR112022011828A2 (pt) 2022-08-30
CA3164785A1 (en) 2021-06-24

Similar Documents

Publication Publication Date Title
TW202131695A (zh) 用於視訊資料之編碼方案
Kaplanyan et al. DeepFovea: Neural reconstruction for foveated rendering and video compression using learned statistics of natural videos
US10977809B2 (en) Detecting motion dragging artifacts for dynamic adjustment of frame rate conversion settings
US20220014723A1 (en) Enhancing performance capture with real-time neural rendering
CN113994691A (zh) 用于对图像执行人工智能编码和人工智能解码的设备和方法
US11792453B2 (en) Coding scheme for immersive video with asymmetric down-sampling and machine learning
KR20210067783A (ko) 전자 장치, 그 제어 방법 및 시스템
EP4128772A1 (en) Scalable coding of video and associated features
Liu et al. Arbitrary-scale super-resolution via deep learning: A comprehensive survey
US11989820B2 (en) Arbitrary view generation
US20210125403A1 (en) Arbitrary view generation
CN116601958A (zh) 虚拟视点绘制、渲染、解码方法及装置、设备、存储介质
JP7410289B2 (ja) 任意ビューの生成
US11727536B2 (en) Method and apparatus for geometric smoothing
KR102421719B1 (ko) 저복잡도 신경망을 이용한 영상의 ai 부호화 장치 및 방법, ai 복호화 장치 및 방법
WO2023217867A1 (en) Variable resolution variable frame rate video coding using neural networks
FR3096538A1 (fr) Procédé et dispositif de traitement de données de vidéo multi-vues