TW201421972A

TW201421972A - 立體視訊的編碼方法及其系統

Info

Publication number: TW201421972A
Application number: TW101143960A
Authority: TW
Inventors: Jih-Sheng Tu; Jung-Yang Kao
Original assignee: Ind Tech Res Inst
Priority date: 2012-11-23
Filing date: 2012-11-23
Publication date: 2014-06-01
Also published as: CN103841396A; US20140146134A1

Abstract

一種立體視訊的編碼方法與一種立體視訊編碼系統。此編碼方法包括：取得立體視訊的一個景深圖，其中景深圖包括多個像素，並且每一個像素包括一個景深值；辨識景深圖中一物件的第一輪廓；根據每一個像素是否位於第一輪廓上來改變所述的景深值以產生一個輪廓位元圖；壓縮此輪廓位元圖以產生第一位元串，並且解壓縮第一位元串以產生一個重建輪廓位元圖；根據重建輪廓位元圖內對應於該物件的第二輪廓，取得上述景深值中在物件內的多個取樣像素；以及編碼每一個取樣像素的一位置與景深值。藉此，立體視訊的壓縮比會被提升。

Description

立體視訊的編碼方法及其系統

本發明是有關於一種編碼方法，且特別是有關於一種立體視訊的編碼方法與立體視訊編碼系統。

立體影像是由不同視角的影像所組成的。當人的左眼與右眼看到不同視角的影像時，其大腦會自動地合成出一個立體影像。

圖1是繪示一種立體顯示器的系統示意圖。

請參照圖1，對於某一個場景，立體顯示器110會顯示每一個視角V1~V9對應的像素值。使用者121的右眼可觀察到視角V1的像素值，而使用者121的左眼可觀察到視角V2的像素值。藉此，使用者121可以觀察到一個立體視訊。另一方面，使用者122會觀察到視角V8與V9上的像素值而得到另一個立體視訊。藉此，使用者121與使用者122可以觀察到不同視角的立體影像。一般來說，透過一個紋理影像(彩色影像)與一個深度圖(灰階影像)可以產生對應不同視角的像素值。在圖1中，紋理影像141是屬於視角V1、紋理影像142是屬於V5，而紋理影像143是屬於視角V9；另一方面，景深圖151是對應於紋理影像141，景深圖152是對應於紋理影像142，並且景深圖153是對應於紋理影像143。一個合成器可以根據紋理影像141~142，以及景深圖151~152模擬出視角V2~V4上的像素值；此合成器也可以根據紋理影像142~143以及景深圖152~153模擬出視角V6~V8上的像素值。

一般的視訊壓縮演算法(如H.264)可用來壓縮紋理影像。然而，如何壓縮景深圖，為此領域技術人員所關心的議題。

本揭露的範例實施例提出一種立體視訊的編碼方法與立體視訊編碼系統，可用以編碼立體視訊與其中的景深圖。

本揭露一範例實施例提出一種立體視訊的編碼方法，適用於一視訊編碼裝置。此編碼方法包括：取得立體視訊的一個景深圖，其中景深圖包括多個像素，並且每一個像素包括一個景深值；辨識景深圖中一物件的第一輪廓；根據每一個像素是否位於第一輪廓上改變所述的景深值以產生一個輪廓位元圖；壓縮此輪廓位元圖以產生第一位元串，並且解壓縮第一位元串以產生一個重建輪廓位元圖；根據重建輪廓位元圖內對應於該物件的第二輪廓，取得上述像素中在物件內的多個取樣像素；以及編碼每一個取樣像素的一位置與景深值。

以另外一個角度來說，本揭露一範例實施例提出一種立體視訊編碼系統，包括景深估算模組、輪廓估算模組、位元圖產生模組、壓縮模組、解壓縮模組、取樣模組與熵值編碼模組。景深估算模組是用以取得立體視訊的一景深圖。此景深圖包括多個像素，並且每一個像素包括一景深值。輪廓估算模組是耦接至景深估算模組，用以辨識景深圖中一物件的第一輪廓。位元圖產生模組是耦接至輪廓估算模組，用以根據每一個像素是否位於第一輪廓上來改變景深值以產生一輪廓位元圖。壓縮模組是耦接至位元圖產生模組，用以壓縮輪廓位元圖以產生第一位元串。解壓縮模組是耦接至壓縮模組，用以解壓縮第一位元串以產生一重建輪廓位元圖。取樣模組是耦接至景深估算模組與解壓縮模組，用以根據重建輪廓位元圖內對應該物件的第二輪廓，取得所述像素中在物件內的多個取樣像素。熵值編碼模組是耦接至取樣模組，用以編碼每一個取樣像素的位置與景深值。

基於上述，本揭露範例實施例所提出的編碼方法與立體視訊編碼系統，是以物件為基礎的方式(object-based)來壓縮景深圖，並且可以根據少數的取樣像素重建出景深圖。藉此，立體視訊的壓縮比會被提升。

為讓本發明之上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖2是根據一範例實施例繪示立體視訊編碼系統的示意圖。

請參照圖2，立體視訊編碼系統200包括了景深估算模組210、輪廓估算模組220、位元圖產生模組230、壓縮模組240、解壓縮模組250、取樣模組260與熵值編碼模組270。立體視訊編碼系統200是用以接收影像281與影像282，其中影像281與影像282是屬於不同的視角。立體視訊編碼系統200會產生位元串290，用以表示一段立體視訊。

景深估算模組210是用以根據影像281與影像282所取的立體視訊的一個景深圖。此景深圖中會包括多個像素，並且每一個像素至少包括一個景深值。輪廓估算模組220是耦接至景深估算模組210，用以辨識出此景深圖中的一個物件以及此物件的輪廓。由於一個物件通常具有接近的景深，因此物件中的景深值會彼此相似。位元圖產生模組230是耦接至輪廓估算模組220，用以根據每一個像素是否位於輪廓上來改變這些像素的景深值，以產生一個輪廓位元圖。壓縮模組240是耦接至位元圖產生模組230，用以壓縮此輪廓位元圖以產生一個第一位元串。而解壓縮模組250是耦接至壓縮模組240，用以解壓縮此第一位元串以產生一個重建輪廓位元圖。取樣模組260是耦接至景深估算模組210與解壓縮模組250，用以根據重建輪廓位元圖中對應該物件的輪廓，取得上述像素中在物件內的多個取樣像素。熵值編碼模組270是耦接至取樣模組260，用以編碼每一個取樣像素的位置與景深值，以產生第二位元串。此外，壓縮模組240也會編碼一個紋理影像(例如，影像281或影像282)，藉此產生一個第三位元串。在此範例實施例中，第一位元串、第二位元串與第三位元串會組成位元串290，用以表示一段立體視訊。此外，立體視訊編碼系統200也可以根據更多視角的影像來產生位元串290，本揭露並不在此限。

在一範例實施例中，立體視訊編碼系統200是以軟體的方式實作，也就是說，立體視訊編碼系統200中的每一個模組包括多個指令，並且這些指令會儲存在一個記憶體；一個處理器會執行這些指令以產生位元串290。然而，在一範例實施例中，立體視訊編碼系統200是以硬體的方式實作，亦即，立體視訊編碼系統200中的每一個模組可被實作為一或多個電路；而立體視訊編碼系統200可被配置在一個電子裝置上。本發明並不限制用軟體或是硬體的方式來實作立體視訊編碼系統200。

圖3與圖4是根據一範例實施例繪示一景深圖的示意圖。

請參照圖3，舉例來說，景深估算模組210會執行一個演算法來取得景深圖300，而景深圖300中的每一個位置都對應於一個像素，而每個像素至少包括一個景深值。在一範例實施例中，一個區域的景深值越小(在圖3中表示有網底的區域)，表示此區域離攝影機越遠。景深估算模組210可用任意的演算法取得景深圖300，本揭露並不在此限。例如，景深估算模組210會取得兩張影像中相配對的特徵點，並且根據這些特徵點的位置產生景深值，該特徵點乃是指屬於影像281的像素點，與在影像282同一水平線上所尋找到相配點(例如顏色最相近的某點)；當像素點與相配點間的位移較大時，表示該像素點距離鏡頭較近，而當位移較小時，表示該像素點距離鏡頭較遠，可以利用位移量的大小以及攝影機的其它參數，就能計算出景深值，但不限於此。

請參照圖4，輪廓估算模組220會辨識出景深圖300中的物件的輪廓。例如，輪廓估算模組220會執行邊緣偵測(edge detection)、物件分割(object partition)或是分群(clustering)等演算法以取得物件310以及物件310的輪廓320。在此是以物件310為例，但輪廓估算模組220也可以辨識出數目更多的物件，本揭露並不在此限。

位元圖產生模組230會根據一個像素是否位於輪廓320上來改變此像素的景深值以產生一個輪廓位元圖。例如，請參照圖5，圖5是根據一範例實施例繪示產生輪廓位元圖的流程圖。在步驟S502中，位元圖產生模組230會取得景深圖300中的一個像素。在步驟S504中，位元圖產生模組230會判斷此像素是否位於輪廓320上。若是，在步驟S506中，位元圖產生模組230會改變此像素的景深值至一個預設值與偏移值的相加。若不是，在步驟S508中，位元圖產生模組230會改變此像素的景深值至預設值。接著，在步驟S510中，位元圖產生模組230會判斷是否已處理完所有的像素。若步驟S510的判斷結果為是，則位元圖產生模組230會結束此流程；若否，位元圖產生模組230會回到步驟S502，繼續處理下一個像素。在一範例實施例中，預設值為128，而偏移值是不為0的整數。因此，在執行完圖5的各步驟以後，輪廓位元圖中僅會有兩種數值。然而，在其他範例實施例中，預設值與偏移值可為其他的數值，本揭露並不在此限。

在一範例實施例中，壓縮模組240會用一個視訊壓縮演算法壓縮此輪廓位元圖以產生第一位元串。此視訊壓縮演算法包括空間-頻率轉換(spatial-frequency transformation)與量化運算(quantization operation)。例如，此視訊壓縮演算法為H.264壓縮演算法、高效率視訊編碼(High Efficiency Video Coding，HEVC)演算法。在其他範例實施例中，壓縮模組240也可以將輪廓位元圖以二元字串的型態進行壓縮。例如，壓縮模組240會把輪廓的部分標記成位元”1”，非輪廓的部分標記成位元”0”，藉此形成二元字串。然後，壓縮模組240用可變長度編碼(variable length coding,VLC)演算法，或是二元算術編碼(binary arithmetic coding,BAC)演算法來編碼該二元字串，藉此壓縮此輪廓位元圖，本揭露並不在此限。

值得注意的是，由於輪廓位元圖中僅有兩種數值，並且在一個物件中的所有景深值會相同(即，預設值)，因此輪廓位元圖的壓縮比會被提高。在一範例實施例中，位元圖產生模組230可以根據立體視訊的一個位元率來設定此偏移值，藉此讓偏移值與位元率之間為反比關係。詳細來說，當位元率越高時，表示量化參數(quantization parameter，QP)越小，因此即使偏移值被設定的很小也不容易產生失真(distortion)。相反地，若位元率越彽，表示量化參數越大，因此偏移值必須被設定的大一點，藉此讓輪廓位元圖中兩個不同的數值不會被量化為同一個數值。

在壓縮模組240壓縮完輪廓位元圖並產生第一位元串以後，此第一位元串會被送到一個解碼端。而為了讓解碼端與立體視訊編碼系統200之間可以同步。解壓縮模組250會解壓縮第一位元串以產生一個重建輪廓位元圖。然而，由於壓縮模組240是根據視訊壓縮演算法來產生第一位元串，因此重建輪廓位元圖與輪廓位元圖之間並不會完全相同。請參照圖6，圖6是根據一範例實施例繪示重建輪廓位元圖的示意圖。重建輪廓位元圖600中的輪廓610是對應於物件310且是破碎以及不連續。因此，解壓縮模組250會修補輪廓610，使得輪廓610有封閉範圍(closing region)。例如，解壓縮模組250會對重建輪廓位元圖600執行二值化運算、線條偵測、以及細線化運算。然而，在其他範例實施例中，解壓縮模組250也可以用其他演算法來修補輪廓610，本揭露並不在此限。

圖7是根據一範例實施例繪示取得取樣像素的示意圖。

請參照圖6與圖7，接下來，取樣模組260會根據重建輪廓位元圖600的輪廓610，取得位於物件310內的像素中的多個取樣像素。在一範例實施例中，取樣模組260會取得物件310中在一個方向上多個像素的景深值。若在一方向上的景深值為單調遞增(monotonically increasing)或單調遞減(monotonically decreasing)，取樣模組260會取得在此方向上的至少兩個端點像素為取樣像素。若一方向上的景深值不為單調遞增或單調遞減(即，包括了遞增與遞減兩種變化)，則取得模組260會取得物件內的像素中在此方向上的至少兩個端點像素與至少一個中間像素做為取樣像素。舉例來說，取樣模組260會取得方向710上多個像素的像素值，在此假設方向710上的景深值為單調遞增。因此取樣模組260會將方向710上的兩個端點像素711與712設定為取樣像素。端點像素711與712即為在方向710最左邊與最右邊的兩個像素。另一方面，取樣模組260會取得方向720上的景深值，在此假設方向720上的景深值不為單調遞增或單調遞減(例如，先遞減以後再遞增)。因此，取樣模組260會取得方向720上的兩個端點像素721與722，以及一個中間像素723。端點像素721與722即為方向721上最上面與最下面的兩個像素。而中間像素723的景深值為方向720上所有的景深值中最大或是最小的一個景深值。然而，在其他範例實施例中，取樣模組260可以在其他方向上取得取樣像素，也可以取得數目更多的中間像素為取樣像素，本揭露並不在此限。

在取得取樣像素以後，熵值編碼模組270會編碼這些取樣像素的位置與景深值以產生第二位元串。此第二位元串會被傳送到一個解碼端，而解碼端會重建出這些取樣像素的位置與景深值。另一方面，解碼端也會取得重建輪廓位元圖。根據重建輪廓位元圖與這些取樣像素，解碼端會內插出物件310內所有的景深值。在一範例實施例中，解碼端會用線性的方式內插出取樣像素以外的其他像素的景深值。然而，解碼端也可以根據取樣像素的位置與景深值計算出一個多項式函數(polynomial function)或是指數函數(exponential function)，並且根據此多項式函數或指數函數計算出其他的景深值。

圖8是根據一範例實施例繪示編碼與解碼立體視訊的示意圖。

請參照圖8，在壓縮程序800中，立體視訊801是由多個視角的攝影機所拍攝的(例如，由左攝影機、中攝影機以及右攝影機所拍攝)。立體視訊801中某一視角的景深會被估測(步驟802)以產生一個景深圖。在步驟803中，辨識此景深圖中一個物件的輪廓。在步驟804中，根據辨識出的輪廓產生輪廓位元圖。在步驟805中，壓縮此輪廓位元圖以產生第一位元串806。在步驟807中，解壓縮此第一位元串806以產生重建輪廓位元圖。在步驟808中，根據景深圖與重建輪廓位元圖取得取樣像素。在步驟809中，對這些取樣像素的位置與深度值作熵值編碼以產生第二位元串810。另一方面，在步驟811中，壓縮立體視訊801中的紋理影像以產生第三位元串812。多工器813會根據第一位元串806、第二位元串810與第三位元串812產生代表立體視訊801的第四位元串，並且傳送至網路或儲存單元814。

在解壓縮程序820中，解多工器821會從網路或儲存單元814取得此第四位元串，並且解碼出第一位元串806、第二位元串810與第三位元串812。在步驟822中，根據第三位元串812解壓縮出紋理影像。在步驟823，對第二位元串810做熵值解碼，以取得取樣像素的位置與景深圖。在步驟824，根據第一位元串806解壓縮出輪廓位元圖。步驟825中，根據輪廓位元圖與取樣像素內插出一個物件內的景深值，藉此重建出景深圖。步驟826中，根據紋理影像與景深圖合成出不同視角的影像。

圖9是根據一範例實施例繪示立體視訊的編碼方法的流程圖。

請參照圖9，在步驟S902中，取得立體視訊的景深圖。在步驟S904中，辨識景深圖中物件的輪廓。在步驟S906中，根據像素是否位於輪廓上改變景深值以產生輪廓位元圖。在步驟S908中，壓縮輪廓位元圖以產生第一位元串，並且解壓縮第一位元串以產生重建輪廓位元圖。在步驟S910中，根據重建輪廓位元圖內對應於該物件的輪廓，取得所述像素中在物件內的多個取樣像素。在步驟S912中，編碼取樣像素的位置與景深值。然而，圖9中各步驟已詳細說明如上，在此便不再贅述。值得注意的是，此立體視訊的編碼方法可用於一個視訊編碼裝置。而此視訊編碼裝置可被實作為個人電腦、筆記型電腦、伺服器、智慧型手機、平板電腦、數位相機或是任意形式的嵌入式系統，本揭露並不在此限。

綜上所述，本揭露範例實施例所提出的立體視訊的編碼方法與立體視訊編碼系統，可以用物件為基礎的方式編碼景深圖。並且，代表輪廓的輪廓位元圖是用視訊壓縮演算法來編碼，使得可相容於二維的視訊編碼。此外，景深圖可用數個取樣像素來重建，藉此進一步提升壓縮比。

雖然本揭露已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，故本發明之保護範圍當視後附之申請專利範圍所界定者為準。

110‧‧‧立體顯示裝置

V1~V9‧‧‧視角

121、122‧‧‧使用者

141~143‧‧‧紋理影像

151~153‧‧‧景深圖

200‧‧‧立體視訊編碼系統

210‧‧‧景深估算模組

220‧‧‧輪廓估算模組

230‧‧‧位元圖產生模組

240‧‧‧壓縮模組

250‧‧‧解壓縮模組

260‧‧‧取樣模組

270‧‧‧熵值編碼模組

281、282‧‧‧影像

290‧‧‧位元串

300‧‧‧景深圖

310‧‧‧物件

320‧‧‧輪廓

S502、S504、S506、S508、S510‧‧‧產生輪廓位元圖的流程圖

600‧‧‧重建輪廓位元圖

610‧‧‧輪廓

710、720‧‧‧方向

711、712、721、722‧‧‧端點像素

723‧‧‧中間像素

800‧‧‧壓縮程序

801‧‧‧立體視訊

802~805、807~809、811、821~826‧‧‧步驟

806‧‧‧第一位元串

810‧‧‧第二位元串

812‧‧‧第三位元串

813‧‧‧多工器

814‧‧‧網路或儲存單元

821‧‧‧解多工器

S902、S904、S906、S908、S910、S912‧‧‧立體視訊的編碼方法的步驟

圖1是繪示一種立體顯示器的系統示意圖。

圖2是根據一範例實施例繪示立體視訊編碼系統的示意圖。

圖3與圖4是根據一範例實施例繪示一景深圖的示意圖。

圖5是根據一範例實施例繪示產生輪廓位元圖的流程圖。

圖6是根據一範例實施例繪示重建輪廓位元圖的示意圖。

圖7是根據一範例實施例繪示取得取樣像素的示意圖。

圖8是根據一範例實施例繪示編碼與解碼立體視訊的示意圖。

圖9是根據一範例實施例繪示立體視訊的編碼方法的流程圖。

Claims

一種立體視訊的編碼方法，適用於一視訊編碼裝置，該編碼方法包括：取得該立體視訊的一景深圖，其中該景深圖包括多個像素，並且每一該些像素包括一景深值；辨識該景深圖中一物件的一第一輪廓；根據每一該些像素是否位於該第一輪廓上改變該些景深值以產生一輪廓位元圖；壓縮該輪廓位元圖以產生一第一位元串，並且解壓縮該第一位元串以產生一重建輪廓位元圖；根據該重建輪廓位元圖內對應於該物件的一第二輪廓，取得該些像素中在該物件內的多個取樣像素；以及編碼每一該些取樣像素的一位置與該景深值。
如申請專利範圍第1項所述之編碼方法，其中根據每一該些像素是否位於該第一輪廓上改變該些景深值以產生該輪廓位元圖的步驟包括：若該些像素中的一第一像素位於該第一輪廓上，改變該第一像素的該景深值至一預設值與一偏移值的相加；以及若該第一像素不位於該第一輪廓上，改變該第一像素的該景深值至該預設值。
如申請專利範圍第2項所述之編碼方法，其中該偏移值與該立體視訊的一位元率之間為一反比關係。
如申請專利範圍第1項所述之編碼方法，其中解壓縮該第一位元串以產生該重建輪廓位元圖的步驟還包括：修補該第二輪廓，使得該第二輪廓有一封閉範圍。
如申請專利範圍第1項所述之編碼方法，其中根據該重建輪廓位元圖，取得該景深圖中該物件內的多個取樣像素的步驟包括：取得該物件內在一方向上的多個第二景深值；若該些第二景深值為單調遞增或單調遞減，取得該物件內在該方向上的至少兩端點像素為該些取樣像素；以及若該些第二景深值不為單調遞增或單調遞減，取得該物件內在該方向上的該至少兩端點像素與至少一中間像素為該些取樣像素。
如申請專利範圍第5項所述之編碼方法，更包括：根據該些取樣像素與該第二輪廓，內插出該物件內的該些景深值。
如申請專利範圍第1項所述之編碼方法，其中壓縮該輪廓位元圖以產生該第一位元串的步驟包括：以一視訊壓縮演算法壓縮該輪廓位元圖以產生該第一位元串，其中該視訊壓縮演算法包括一空間-頻率轉換與一量化運算。
一種立體視訊編碼系統，包括：一景深估算模組，用以取得該立體視訊的一景深圖，其中該景深圖包括多個像素，並且每一該些像素包括一景深值；一輪廓估算模組，耦接至該景深估算模組，用以辨識該景深圖中一物件的一第一輪廓；一位元圖產生模組，耦接至該輪廓估算模組，用以根據每一該些像素是否位於該第一輪廓上改變該些景深值以產生一輪廓位元圖；一壓縮模組，耦接至該位元圖產生模組，用以壓縮該輪廓位元圖以產生一第一位元串；一解壓縮模組，耦接至該壓縮模組，用以解壓縮該第一位元串以產生一重建輪廓位元圖；一取樣模組，耦接至該景深估算模組與該解壓縮模組，用以根據該重建輪廓位元圖內對應該物件的一第二輪廓，取得該些像素中在該物件內的多個取樣像素；以及一熵值編碼模組，耦接至該取樣模組，用以編碼每一該些取樣像素的一位置與該景深值。
如申請專利範圍第8項所述之立體視訊編碼系統，若該些像素中的一第一像素位於該第一輪廓上，該位元圖產生模組用以改變該第一像素的該景深值至一預設值與一偏移值的相加，若該第一像素不位於該第一輪廓上，該位元圖產生模組用以改變該第一像素的該景深值至該預設值。
如申請專利範圍第9項所述之立體視訊編碼系統，其中該偏移值與該立體視訊的一位元率之間為一反比關係。
如申請專利範圍第8項所述之立體視訊編碼系統，該解壓縮模組還用以修補該第二輪廓，使得該第二輪廓有一封閉範圍。
如申請專利範圍第8項所述之立體視訊編碼系統，其中該取樣模組更用以取得該物件內在一方向上的多個第二景深值，若該些第二景深值為單調遞增或單調遞減，該取樣模組取得該物件內在該方向上的至少兩端點像素做為該些取樣像素，若該些第二景深值不為單調遞增或單調遞減，該取樣模組取得該物件內在該方向上的該至少兩端點像素與至少一中間像素做為該些取樣像素。
如申請專利範圍第8項所述之立體視訊編碼系統，其中該解壓縮模組以一視訊壓縮演算法壓縮該輪廓位元圖以產生該第一位元串，其中該視訊壓縮演算法包括一空間-頻率轉換與一量化運算。