TWI449033B

TWI449033B - 用以編碼係數節段之音訊編碼器和方法、用以解碼已編碼音訊流之音訊解碼器和方法、及電腦程式

Info

Publication number: TWI449033B
Application number: TW098121850A
Authority: TW
Inventors: 馬庫斯穆爾特斯; 柏哈德吉瑞爾; 古拉米福契斯; 史蒂芬吉爾斯伯格; 尼可拉斯瑞德貝曲; 維奇洛貝西葛路波
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2008-07-11
Filing date: 2009-06-29
Publication date: 2014-08-11
Also published as: US12039985B2; CN102089813B; DK3573056T3; ES2731424T3; KR20110040822A; US20190189136A1; US10685659B2; JP5606433B2; JP2011527443A; BR122021008239B1; EP3300076A1; EP4224472A1; EP4376305A2; ES2934052T3; KR101456641B1; EP4224472B1; CA2729925C; BRPI0910796A2; US11670310B2; US11942101B2

Description

用以編碼係數節段之音訊編碼器和方法、用以解碼已編碼音訊流之音訊解碼器和方法、及電腦程式

本發明係於音訊編碼領域，特別係於基於上下文之熵編碼領域。

發明背景

傳統音訊編碼構想包括用於冗餘減少的熵編碼方案。典型地，熵編碼係應用於對基於頻域之編碼方案之已量化的頻譜係數、或基於時域之編碼方案之已量化的時域樣本。此等熵編碼方案典型係使用傳送一碼字組合一相對應的碼簿指數，其允許解碼器詢查碼簿某一頁用於解碼相對應於該頁上的所傳送的碼字之已編碼資訊字。於若干編碼構想中，雖言如此，碼簿指數的傳送並非強制性，例如用於由符號上下文可測定的碼簿指數之情況，例如為熵編碼，說明於Meine,Edler，「對子頻帶音訊編碼之改良型量化及無損耗編碼」；及Meine,“Vektorquantisierung undarithmetische CodierungMPEG-4 AAC”,Dissertation,Gottfried Wilhelm LeibnitzHannover,Hanover 2007。

用於基於頻域或基於頻譜域之音訊編碼，上下文可描述符號或統計性質，例如位於時間及/或頻率之前的已量化頻譜係數。於若干習知構想中，此等符號可用於編碼器端及解碼器端，且基於此等符號可於編碼器端及解碼器端二者同步判定碼簿或上下文。

第9圖示例顯示上下文之實例及其相依性。第9圖顯示一時間頻率平面，其中指示多個符號。符號S_n,m 表示於時間n及頻率m的符號。第9圖示例顯示用於編碼某個符號，其上下文係用來測定相關聯的碼簿。例如用於符號S_n0,m0 ，將為任何具有n<n0及任何m或具有n=n0及m<m0之全部符號。

於實際實務上，上下文並非無限，反而受限制。於第9圖所述實例中，符號S_0,3 之上下文例如為S_0,2 、S_0,1 、S_-1,5 、S_-1,4 、S_-1,3 、S_-1,2 、S_-1,1 、S_-2,5 、S_-2,4 、S_-2,3 、S_-2,2 、S_-2,1 。

對基於頻率之音訊編碼時間變化例，可使用信號自適應濾波器組或所謂的區塊變換例如述於Edler,B.,“Codierung von Audiosignalen mitTransformation und adaptiven Fensterfunktionen”,Frequenz,Ausgabe 43，1989年9月。

換言之，於此等音訊編碼構想中隨著時間的經過可能發生頻率/時間解析度改變。普遍的音訊編碼構想為所謂的AAC(AAC=進階音訊編碼)，其中使用兩種區塊長度，編碼例如128個或1024個已變換的係數分別表示256個或2048個以視窗化時域樣本之頻率組件。

此等構想允許介於不同解析度間切換，取決於某些信號特性，例如暫態的出現或音調或該信號是否為音樂狀或語音狀等。於介於不同時間/頻率解析度間切換，例如介於不同AAC區塊類型間切換之情況下，上下文不一致。習知構想或技藝界現況實務可利用該上下文的重置，亦即基本上切換至其中並無任何上下文可利用的狀態，其中上下文係由草稿暫存建立。此種辦法例如於AAC可有足夠良好效果，原因在於其保證一列中至少兩個長區塊或八個短區塊，此處假設切換只有罕見發生。

但習知重置上下文之構想就編碼效率而言一般並非最佳，原因在於每次上下文被重置時，隨後之碼簿選擇係基於設計用作為對未知的上下文之備用解決之道之數值。一般隨後選擇低於最佳之碼簿。對於其中切換只有罕見出現之情況，編碼效率之缺點可忽略。但對於有較為頻繁切換的情況，如此導致編碼效率的顯著耗損。另一方面，對較低資料率/取樣率，強力期望更頻繁切換，原因在於特別為此種情況期望變換長度對信號特性有最佳自適應性。另一方面，當頻繁切換時，編碼效率顯著減低。

發明概要

本發明之目的係提供於音訊編碼中介於不同變換長度間之切換來提供改良型編碼效率之構想。

該目的可藉如申請專利範圍第1項之音訊編碼器、如申請專利範圍第8項之音訊編碼方法、如申請專利範圍第9項之音訊解碼器及如申請專利範圍第16項之音訊解碼方法達成。

本發明係基於於時間/頻率解析度隨著時間而改變之情況下，於基於上下文之編碼諸如基於上下文之熵編碼，其可應用至不同時間/頻率解析度時，可利用上下文映射機制，藉此達成改良型編碼效率。本發明發現當介於不同時間或頻率解析度間切換時由具有舊解析度之係數可導算出具有新解析度之係數之上下文。本發明發現當切換於音訊編碼之時間/頻率解析度時，內插、外推、次取樣、降取樣、升取樣等可用於上下文的自適應及/或導算。

本發明之實施例提供一種映射方法，其將具有舊解析度之已儲存的上下文之頻率係數或頻譜係數映射至目前上下文或目前訊框之頻率解析度。換言之，先前上下文資訊可用於碼簿判定，亦即用於導算新上下文資訊。實施例允許區塊長度的更頻繁切換，因而允許對信號特性之更佳自適應而未損耗編碼效率。

圖式簡單說明

將使用附圖說明本發明之實施例之細節，附圖中

第1圖顯示音訊編碼器之實施例；第2圖顯示音訊解碼器之實施例；第3圖顯示上下文升取樣之實施例；第4圖顯示上下文降取樣之實施例；第5圖示例顯示音訊切換時間及頻率解析度；第6圖顯示一個實施例之實務；第7a圖顯示一種編碼方法之實施例之流程圖；第7b圖示例顯示一個實施例之一般上下文更新程序；第7c圖用於改變解析度之實施例之上下文更新程序；第8圖顯示一種解碼方法之實施例之流程圖；及第9圖顯示業界現況時間頻率編碼方案。

較佳實施例之詳細說明

第1圖顯示用於編碼係數節段之音訊編碼器100之實施例，該等係數節段表示一已取樣音訊信號之不同的時間或頻率解析度。音訊編碼器100包含一處理器110用於基於先前節段之先前已編碼係數對目前節段之目前已編碼係數導算出編碼上下文，該先前已編碼係數表示與目前已編碼係數不同的時間或頻率解析度。音訊解碼器之實施例進一步包含一熵編碼器120用於基於該編碼上下文將目前係數作熵編碼來獲得已編碼之音訊流。

於實施例中，係數可相對應於音訊樣本、量化音訊樣本、頻譜係數或頻率係數、定規係數、變換係數或濾波係數等或其任一種組合。

於實施例中，音訊編碼器100進一步包含用於由音訊流提供係數節段之裝置，該等係數形成於各係數間變化之頻譜解析度之音訊信號之頻譜表示法。該提供節段之裝置可自適應用於測定基於不同時域訊框長度或不同音訊訊框之節段，亦即具有不同長度或每個頻寬不同係數數目之音訊信號，亦即具有不同頻譜或頻率解析度。該提供裝置可自適應用於測定1024或128時間、頻率或頻譜係數之節段。

於實施例中，處理器110自適應用於基於目前及先前係數或節段之頻域或頻譜域表示式而導算出編碼上下文。換言之，於實施例中，連續節段可於不同時域及/或頻域或頻譜域表示。處理器110自適應用於例如基於前一節段及/或目前節段之鄰近頻譜係數，而導算出目前節段之每個頻率帶或頻譜帶之編碼上下文。於實施例中，該等節段初步係於時域決定，例如，經由將輸入音訊流視窗化決定。基於此等時域節段或係數，可利用變換決定頻率或頻譜域節段或係數。每個頻帶或頻譜帶，節段可就能量、振幅與相位、振幅與符號等，於頻域或或頻譜域表示，亦即節段可於不同頻帶或頻譜帶再分割。然後於若干實施例中，處理器110可導算出每個頻帶或頻譜帶之編碼上下文。

處理器110及熵編碼器120可建置成當屬於上下文之一先前節段包含比目前節段更精細的頻譜或頻率解析度時，基於先前節段之頻率或頻譜係數降取樣運算。於實施例中，處理器110及熵編碼器120可建置成當屬於上下文之一先前節段包含比目前節段更粗糙的頻譜或頻率解析度時，基於先前節段之頻率或頻譜係數升取樣運算。

實施例可提供一種用於編碼表示一經取樣之音訊信號的不同時間或頻率解析度之係數節段之方法。該方法包含基於得自一先前節段之一先前已編碼或先前係數及選擇性地也可基於目前已編碼或目前係數，對一目前節段之目前已編碼或目前係數導算出編碼上下文之步驟，其中該先前已編碼或先前係數表示與目前已編碼或目前係數不同的時間或頻率解析度。該方法進一步包含基於該編碼上下文對目前係數進行熵編碼來獲得已編碼音訊流之步驟。

相對應地，實施例可包含一音訊編碼器200，其實施例顯示於第2圖。音訊編碼器200自適應用於解碼一已編碼音訊流來獲得表示一經取樣之音訊信號不同的時間或頻率解析度之係數節段，該音訊編碼器200包含一處理器210用以基於先前已解碼或先前係數而對一目前已解碼或目前係數導算出編碼上下文，該先前已解碼或先前係數表示與目前已解碼係數不同的時間或頻率解析度。此外，音訊編碼器200包含一熵編碼器220，用於基於該編碼上下文及已編碼之音訊流對目前係數進行熵編碼。

於實施例，音訊編碼器200可包含熵編碼器220，其自適應用於基於不同時域視窗長度或不同音訊框長度測定已解碼係數節段。熵編碼器220可自適應用於測定例如1024或128個時域樣本或頻率或頻譜係數之節段。相對應地，處理器210可自適應用於基於先前節段及/或目前節段之係數之頻域或頻譜域表示法而導算出編碼上下文。

於實施例中，處理器210可自適應用於例如基於先前節段或選擇性地得自目前節段之鄰近頻譜係數，來導算出目前節段之每個頻帶或頻譜帶之編碼上下文。換言之，該等節段可於頻域或頻譜域處理，可對每個頻帶或頻譜帶進行。相對應地，處理器210則可自適應用於導算出頻帶或頻譜帶特定上下文。

熵編碼器220可自適應用於基於熵或可變長度編碼法則來對目前係數做熵解碼。

當先前節段包含比目前節段每個頻寬更多係數(亦即更細緻的頻譜或頻率解析度)時，處理器210可自適應用於基於先前節段之頻率或頻譜係數之降取樣而導算出編碼上下文。於額外實施例中，當先前節段包含比目前節段每個頻寬更少的係數(亦即更粗糙的頻譜或頻率解析度)時，處理器210及熵編碼器220可建置用於基於先前節段之頻譜係數之升取樣運算。

結果實施例可提供用於解碼一已編碼音訊流來獲得表示已解碼音訊樣本之係數節段之方法。該解碼方法包含基於先前節段之先前已解碼或先前係數，對目前節段之目前已解碼或目前係數導算出編碼上下文之一步驟，該先前已解碼或先前係數表示與目前已解碼係數不同的時間或頻率解析度。此外，該方法包含基於編碼上下文及已編碼的音訊信號對目前係數做熵解碼之步驟。選擇性地，該方法可包含由該已編碼之音訊流測定已編碼之音訊係數節段之一步驟，該等節段表示不同數目之音訊係數。

第3圖示例顯示處理器110、210如何基於M_c,舊係數前一節段而導算出M_c,新係數之目前節段之編碼上下文，其中該前一節段包含與目前節段不同數目的音訊係數。於第3圖所示實施例中，節段係數之數目M決定該節段之頻率或頻譜解析度。該實施例也包含一種映射方法，其將前一節段之M_c,舊係數映射至具有與目前節段之相同上下文頻率或頻譜解析度之M_c,新係數。第3圖顯示於二節段中之二係數集合，亦即表示M_c,舊係數S_n,0 、S_n,1 、S_n,2 等之原先前一節段310；及相對應地，具有較高解析度亦即M_c,新係大於M_c,舊之所映射的先前節段320，其表示M_c,新係數S_n,0 、S_n,1 、S_n,2 、S_n,3 等。

通常可區別兩個實施例，取決於目前節段之上下文解析度係高於或低於前一節段之上下文解析度而定。第3圖示例顯示一個實施例，其中M_c,舊係數之前一節段解析度係低於M_c,新係數之目前節段解析度。第3圖顯示前一節段310之係數及所映射的先前節段320之符號。由第3圖可知，M_c,新係數之目前節段解析度係高於只有M_c,舊係數之前一節段310之解析度。於一個實施例中，前一節段310係升取樣至M_c,新係數節段320，用以匹配該目前節段之頻率或頻譜解析度。如此包括以符號複製及除法機制的純粹升取樣，例如重複各個數值M_c,新次，隨後對每個M_c,舊只維持一個係數對所得已升取樣的節段做除法。也可使用其它內插或外推機制。

於實施例中，可於例如時間n對需要對目前節段測定上下文之全部先前節段310進行映射，換言之，考慮多個先前節段，亦即於時間n-1、n-2等之先前節段。通常實施例可考慮多個時槽或多個先前節段，不同實務或不同實施例界定一個完整上下文所需的時槽數目可能不同。

第4圖示例顯示另一個實施例，其中先前節段410之係數降取樣至節段420，用來運算目前節段之上下文，亦即其中先前節段410之係數M_c,舊數目係高於目前節段之係數M_c,新數目。第4圖採用類似第3圖之示例說明，如此於各個節段410及420顯示多個係數。如第4圖所示，M_c,舊係大於M_c,新。因此，M_c,舊係數被次取樣來匹配M_c,新係數之目前節段的頻率或頻譜解析度，換言之，於實施例中，具有較高解析度之先前節段可經次取樣來匹配具有較低解析度之目前節段解析度。於實施例中，可包括使用係數複製及除法機制之純粹降取樣，例如重複各個數值M_c,新次，隨後藉將每個M_c,舊只維持一個係數進行所得經升取樣節段之除法。於其它實施例中，可考慮濾波運算，例如求兩個或多個相鄰值的平均值。

第5圖示例顯示另一個實施例，其中進行不同解析度間之切換。第5圖顯示時間/頻率平面，其中顯示三個隨後音訊係數節段，亦即510、520及530。各個節段510、520及530各自係與係數之單一集合相對應。於第5圖所示實施例中，假設第二節段520為第一節段510及第三節段530之兩倍長度。當於時域分段例如於AAC進行時，藉由使用不同視窗可達成。於第5圖所示實施例中，假設取樣率維持恆定，換言之，較長的第二節段520之每個頻寬包含比第一節段510或第三節段530多兩倍的音訊係數。

第5圖顯示於此種情況下，頻域或頻譜域之解析度係以於時域之節段之延伸度定標。換言之，於時域之視窗愈短，則於頻域或頻譜域之解析度愈低。當評估用於編碼於頻域或頻譜域樣本之上下文時，第5圖顯示當如所考慮之實例中編碼第二節段520時，編碼需具有節段510之較高解析度版本，必需導算出節段510的雙倍解析度。於其它實施例中，當使用其它時間-頻域變換或濾波器組時，可獲得時域解析度與頻域解析度間之其它關係。

根據一實施例，於第一節段510期間編碼之係數提供例如利用中間升取樣來決定第二節段520之上下文之基礎。換言之，來自於第一節段510之上下文內容可藉例如就內插法或外推法進行第一節段510之升取樣獲得，俾便導算出具有較高解析度之第二節段520之上下文。

如第5圖所示，當由第二節段520切換至第三節段530時，由於現在解析度已經降低，故上下文組成元件也已經改變。根據一實施例，於第二節段520期間編碼之係數可用來利用中間降取樣而導算出第三節段之上下文。例如可以求平均值進行，或單純使用每第二個數值或其它降取樣手段來進行。

即使當發生解析度或視窗長度改變時，經由考慮由先前節段導算出之過去上下文，此等實施例可達成編碼效率增高之優點。以升取樣或降取樣，例如使用內插或外推濾波或求平均等，上下文組成元件可自適應於新解析度。

以下將就頻譜無雜訊編碼呈現更特定實施例。頻譜無雜訊編碼可用於音訊編碼中進一步減少已量化頻譜的冗餘。頻譜無雜訊編碼係基於算術編碼結合動態上下文自適應。

無雜訊編碼可基於已量化的頻譜值，且可使用由例如四個先前已解碼的鄰近元組導算出上下文相依性累積頻率表。第6圖顯示另一個實施例。第6圖顯示時間頻率平面，其中順著時間軸，三個時槽標示為n、n-1及n-2。此外，第6圖顯示四個頻帶或頻譜帶，標示為m-2、m-1、m及m+1。第6圖顯示於各個時間-頻率槽框內部，表示欲編碼或欲解碼的樣本元組。第6圖顯示三類型不同的元組，其中具有虛線或點線邊界的框指示欲編碼或欲解碼的剩餘元組；具有實心邊界的白框指示先前已編碼或已解碼的元組；而有實心邊界的灰框指示先前已編/解碼元組，用來判定欲編碼或欲解碼之目前元組之上下文。

注意前述實施例中指稱之先前節段及目前節段可與本實施例之一元組相對應，換言之，節段可於頻域或頻譜域逐頻帶處理。如第6圖所示，於一目前元組鄰近(亦即於時域及頻域或頻譜域)之多個元組或節段可考慮用來導算出上下文。然後累積頻率表由算術編碼器用來產生可變長度二進制碼。算術編碼器可產生對一給定符號集合之二進制碼及其個別機率。經由將該符號集合所在的機率間隔映射至一碼字可產生二進制碼。算術編碼器可與前述實施例中之熵編碼器120或熵編碼器220相對應。

於本實施例中，可基於4元組(亦即對四個頻譜係數指數)進行基於上下文之算術編碼，該4元組也標示為q(n,m)，表示量化後之頻譜係數，係於頻域或頻譜域臨界且於一個步驟經熵編碼。根據前文說明，可基於編碼上下文進行編碼。如第6圖所示，除了經編碼的4元組(亦即目前節段)之外，考慮四個先前已編碼之4元組來導算出上下文。此等四個4元組決定上下文且為先前於頻域及/或先前於時域。

第7a圖顯示對用於頻譜係數之編碼方案之USAC(USAC=通用語音及音訊編碼器)上下文相依性算術編碼器之流程圖。編碼方法係依據目前4元組加上上下文決定，此處該上下文係用於選擇算術編碼器之機率分布，且用於預測頻譜係數之振幅。第7a圖中框705表示上下文測定，其係基於與q(n-1,m)、q(n,m-1)、q(n-1,m-1)、及q(n-1,m+1)之t0、t1、t2及t3，亦即第6圖之有實心邊界的灰框。

通常於實施例中，熵編碼器自適應用於以頻譜係數4元組單位編碼目前節段，且用於基於編碼上下文預測4元組之振幅範圍。

於本實施例中，編碼方案包含若干階段。首先，使用算術編碼器及特定機率分布編碼文字的碼字。該碼字表示四個相鄰的頻譜係數(a、b、c、d)，但a、b、c、d各自係限於下述範圍：

-5<a、b、c、d<4。

通常，於實施例中，熵編碼器120可自適應用於視需要經常藉一預定因數除該4元組來帶入於預測範圍或預定範圍的除法結果，且用於當該4元組不在預測範圍時，編碼需要的除法次數、除法餘數、及除法結果；以及用於以其它方式編碼除法餘數及除法結果。

後文中若項目(a、b、c、d)亦即任何係數a、b、c、d超過本實施例之給定範圍，則通常可考慮視需要經常以一個因數(例如2或4)除(a、b、c、d)，用來讓所得碼字匹配給定範圍。以因數2之除法係相當於二進制位移至右側亦即(a、b、c、d)>>1。此種縮小係於整數表示法進行，亦即可能喪失資訊。藉位移向右可能喪失的最低有效位元被儲存，後來使用算術編碼器及一致機率分布編碼。位移至右側之過程係對全部四個頻譜係數(a、b、c、d)進行。

於一般實施例中，熵編碼器120可自適應用於使用群組指數ng編碼除法結果或4元組，群組指數ng係指機率分布係基於編碼上下文之一組一個或多個碼字；於該組包含多於一個碼字時元件指數ne，該元件指數ne係指該組內部之碼字，元件指數可假設為均勻分布；且熵編碼器120可自適應用於藉多個逸出符號來編碼除法數目，逸出符號為特殊群組指數ng，其只用於指示除法且用於使用算術編碼法則基於均勻分布而編碼除法的餘數。熵編碼器120可自適應，使用包含該逸出符號之一符號字母及與一組可用群組指數、包含該相對應元件符號之一符號字母、及包含該不同餘數值之一符號字母的群組符號，來將一符號序列編碼成已編碼音訊流。

於第7a圖之實施例中，用於編碼文字碼字之機率分布也是範圍縮小步驟數目之估值可由上下文導算出。舉例言之，共8⁴ =4096個全部碼字共跨據544群組，包含一個或多個元件。碼字可以群組指數ng及群組元件ne表示於位元流。二數值可使用某些機率分布使用算術編碼器編碼。於一個實施例中，ng之機率分布可由上下文導算出，而ne之機率分布可假設為一致。ng與ne的組合可清晰識別為一個碼字。除法的餘數亦即位元面位移出也可假設為均勻分布。

第7a圖中，於步驟710，提供4元組q(n，m)，亦即(a、b、c、d)或目前節段，且藉設定為0而初始化參數1ev。

於步驟715，由上下文估算(a、b、c、d)之範圍。根據本估算，(a、b、c、d)可減少1ev0階，亦即被因數2^1ev0 除。1ev0最小有效位元面儲存供後來於步驟750用。

於步驟720，檢查(a、b、c、d)是否超過給定範圍，若是，則於步驟725，(a、b、c、d)之範圍以因數4縮小。換言之，於步驟725，(a、b、c、d)朝右位移2，已移動的位元面儲存供後來於步驟750使用。

為了指示本縮小步驟，於步驟730，ng設定為544，亦即ng=544用作為逸出碼字。然後本碼字於步驟755寫至位元流，此處為了用於步驟730導算出該碼字，使用帶有由上下文導算出之機率分布的算術編碼器。當本縮小步驟係首度應用時，亦即若lev==lev0，則上下文略微自適應。當此縮小步驟應用多於一次時，拋棄上下文，進一步使用內設的分布。然後以步驟720繼續處理。

若於步驟720檢測的範圍匹配，更特別若(a、b、c、d)匹配於範圍條件，則(a、b、c、d)映射群組ng，且若適用時映射至群組元件指數ne。本映射為明確，亦即(a、b、c、d)可由ng及ne導算出。然後於步驟735，群組指數ng使用由已自適應的/已拋棄的上下文導算出之機率分布，藉算術編碼器編碼。然後於步驟755，群組指數ng***位元流。於隨後步驟740，檢查於群組中之元件數目是否大於1。若有所需，亦即若ng指示的該群組係由多於一個元件所組成，則於步驟745，假設本實施例為已知機率分布，藉算術編碼器編碼群組元件指數ne。

於隨後步驟745，元件群組指數ne於步驟755***位元流。最後，於步驟750，全部儲存的位元面係使用算術編碼器編碼，假設為一致機率分布。然後已編碼且已儲存的位元面也於步驟755***位元流。

於實施例中，熵編碼器220適合用於基於由編碼上下文導算出之機率分布而將得自已編碼音訊流之群組指數ng解碼，其中群組指數ng表示一組一個或多個碼字；以及若群組指數ng指示一組包含多於一個碼字，則用於基於一致機率分布，解碼得自該已編碼音訊流之元件指數ne；以及用於基於群組指數ng及元件指數ne，導算出目前節段之頻譜係數之4元組，藉此獲得以頻譜係數之元組之頻譜域表示法。

於實施例中，熵編碼器220可自適應用於基於使用包含與一可用的群組指數ng集合相對應之一逸出符號及群組符號之一符號字母，由編碼上下文所導算出之機率分布，解碼得自該已編碼音訊流之一序列符號；用於基於該序列符號中之一群組符號相對應的一可用群組指數ng，且基於元件指數ne，導算出頻譜係數之初步4元組；以及依據於該符號序列中之多個逸出符號而定，使用一因數乘以該初步4元組來獲得頻譜係數之元組。

熵編碼器220進一步自適應用於基於使用算術編碼法則之一致機率分布來解碼得自該已編碼音訊流之餘數；及用於將該餘數加至該已相乘的初步4元組來獲得頻譜係數之4元組。

熵編碼器220可自適應用於當逸出符號係由已編碼之音訊流解碼時，將該4元組乘以預定因數，逸出符號為只用於指示乘法之特定群組指數ng；以及用於基於使用算術編碼法則之一致機率分布來解碼得自該已編碼音訊流之餘數；該熵編碼器220可進一步自適應用於將餘數加至已相乘的4元組來獲得目前節段。

後文將說明USAC上下文相依性算術編碼器解碼方案之一個實施例。與編碼方案之前述實施例相對應，考慮與以無雜訊地編碼之已量化頻譜係數相對應之4元組。此外，假設4元組係始於最低頻率係數或頻譜係數傳送，且進行至最高頻率係數或頻譜係數。該等係數例如係與AAC係數相對應，儲存於陣列，假設無雜訊編碼碼字之傳送順序為當以所接收且儲存於陣列的順序解碼時，bin為最快速遞增指數，而g為最緩慢遞增指數。於一個碼字內部，解碼順序為a、b、c、d。

第7b圖示例顯示一個實施例之概略上下文更新程序。本實施例中將考慮根據位元深度預測機制之上下文自適應細節。第7b圖顯示以位元面顯示4元組(a、b、c、d)之可能範圍之一面760。位元深度亦即需要表示4元組之位元面數目可利用稱作為lev0變數的計算(也指示於第7b圖)藉目前4元組之上下文預測。然後4元組被2^lev0 除，亦即lev=lev0位元面被移除且儲存供後來根據前述步驟715使用。

若4元組係於-5<a、b、c、d<4之範圍，則正確預測或過度估算所預測的位元深度lev0。然後遵照前文說明，藉群組指數ng、元件指數ne及lev剩餘位元面，可編碼該4元組。然後完成目前4元組之編碼。元件指數ne之編碼於第7b圖係以一致機率分布762指示，後文將經常性用於編碼元件指數，此處於第7b圖中，參數r表示除法後該4元組之餘數，及p(r)表示相對應之一致機率密度函數。

若4元組非於-5<a、b、c、d<4之範圍，則基於編碼上下文764之預測過低，逸出符號(ng=544)經編碼766，以及根據第7a圖之步驟730，該4元組被除以4及lev遞增2。上下文自適應如後。若lev==lev0+2，則對應於第7b圖之768，上下文略微自適應。可於上下文表示法設定一旗標t，然後新的機率分布模型用於編碼未來符號ng。

若lev>lev0+2，另一個逸出符號根據第7b圖之步驟770編碼，上下文完全被復置，參考第7a圖之772，如第7a圖之步驟730被拋棄。不再使用上下文自適應，原因在於考慮其係對目前4元組編碼無關。當不再有上下文可資利用時所使用的內設機率模型隨後用於未來ng符號，於第7b圖以步驟774及776指示。然後對其它元組重複處理程序。

要言之，上下文自適應為一種降低上下文自適應編碼中之上下文顯著性之機制。當預測的lev0與實際lev不匹配時，可觸發上下文自適應。由已編碼的逸出符號數目(ng=544)容易檢測得，參考第7b圖的766及770，因此也可以類似方式於解碼器進行。

經由於上下文狀態表示法t觸發一旗標，可進行上下文自適應。經由使用由目前4元組之前一個及/或目前訊框及/或節段導算出之上下文(儲存於表q[][])，藉函數get_state()算出數值t，作為lev0。上下文之狀態可以24位元表示。於實施例中，共有1905800個可能狀態。此等狀態可只藉21個位元表示。t之第23位元及第24位元保留用於將上下文狀態自適應。根據第23位元及第24位元之數值，get_pk()將輸出不同機率分布模型。於一個實施例中，先前被lev0除之後，當4元組被4除時，t之第23個位元可設定為1，亦即lev==lev0+2。

結果，上下文狀態t與機率分布模型pki間之映射對lev==lev0+2與對lev==lev0不同。經由對訓練序列之總統計學進行最佳化，於訓練期期間預先定義上下文狀態t與模型pki間之映射。當lev>lev0+2時，上下文及t可設定為0。然後Get_pk()輸出內設機率分布模型pki，係與t=0相對應。

下文將說明一個實施例中之上下文映射細節。於本實施例中之上下文最終復置之後，上下文映射為於上下文自適應編碼中的第一個運算。係以二步驟進行。

首先，於編碼前，儲存於前一個訊框之大小為previous_1g/4之上下文表qs[]係映射於與目前訊框大小相對應的大小1g/4之一上下文表q[0][]。映射係於arith_map_context函數進行，以如下虛擬碼舉例說明：

由虛擬碼可知，對全部編碼策略而言，映射方式可能並非恰相同。於本實施例中，當AAC(進接音訊編碼)用於(core_mode==0)一係數時，映射係與使用TCX(基於變換編碼)(core_mode==1)時不同。差異中之一者係來自於如何處理表格界線。於AAC中，映射始於指數0(表中的第一個數值)；而TCX之映射係始於指數1(表中的第二個數值)，了解第一個數值經常性設定為「未知」(用於復置上下文的特定狀態)。previous_lg對lg之比將決定於本實施例中進行升取樣(比值<1)或降取樣(比值>1)的順序。第7c圖示例顯示當由大小1024/4之已儲存上下文表，參考第7c圖之左手邊780，變換至512/4大小，參考第7c圖之右手邊782時TCX的情況。可知雖然對目前上下文782，使用1之逐階遞增，但對所儲存之上下文780，係使用前述比值之逐階遞增。

第7c圖示例顯示用於解析度改變之實施例之上下文更新程序。一旦完成映射，進行上下文自適應編碼。編碼結束時，目前訊框元件儲存於用於下一個訊框之表qs[]。可於arith_update_context()進行，係藉如下虛擬碼舉例說明：

於本實施例中，儲存係根據核心編碼器(AAC或TCX)而以不同方式進行。於TCX中，上下文經常係儲存於1024/4個數值之表qs[]。可進行此種額外映射，原因在於AMR-WB+(自適應多速率寬頻編碼解碼器)之閉環決策之故。於該閉環決策中，需要編碼器狀態的若干拷貝程序用於測試TCX與ACELP(算術編碼激勵線性預測)之各項可能的組合。當對表qs[]之全部TCX模式共享相同大小時，狀態拷貝更容易實施。然後使用映射來由1g/4系統性變換至1024/4。另一方面，於此階段期間，AAC只儲存上下文而未進行映射。

第8圖示例顯示解碼方案之該實施例之流程圖。於步驟805，相對應於步驟705，基於t0、t1、t2及t3導算出上下文。於步驟810，由上下文估算第一縮小程度lev0，變數lev設定為lev0。隨後步驟815中，由位元流讀取群組ng，用於解碼ng的機率分布係由上下文導算出。於步驟815，隨後可由位元流解碼群組ng。

於步驟820，判定ng是否等於544，相當於逸出值。若是，則變數lev可於返回步驟815之前增加2之因數。當本分支係首次使用時，亦即若lev==lev0，則機率分布各自的上下文可據此自適應；若該分支並非初次使用，遵照前文說明之上下文自適應機制，參考第7b圖及第7c圖，機率分布可各自拋棄。於步驟820，於群組指數ng不等於544之情況下，於隨後步驟825，判定群組中之元件數目是否大於1；若是，則於步驟830，假設一致機率分布，由位元流讀取且解碼群組元件ne。元件指示ne係使用算術編碼及一致機率分布而由該位元流導算出。

於步驟835，藉表中之詢查處理，例如參考dgroups[ng]及acod_ne[ne]，由ng及ne導算出文字碼字(a,b,c,d)。

於步驟840，對全部lev措施位元面，使用算術編碼且假設一致機率分布，由該位元流讀取位元面。然後藉將(a、b、c、d)朝左偏移且加上位元面bp：((a、b、c、d)<<=1)∣=bp。此處理程序重複lev次。

最後，於步驟845，可提供4元組q(n,m)亦即(a、b、c、d)。

後文提供根據一個實施例之虛擬碼及實施細節。將使用下列定義。

(a、b、c、d)　欲解碼的4元組

Ng　4元組之最有效逐2位元面之群組指數，此處0<=ng<=544。最末值544係對應於逸出符號ARITH_ESCAPE。

ne　一個群組中之元件指數。ne係位於0與各群組mm之基數間。一群組中之元件最大數目為73。

lev　其餘位元面之位準。係對應於比最有效之逐2位元面較為非有效之位元面數目。

egroups　[a][b][c][d]群組指數表。允許將該4元組(a、b、c、d)之最有效逐2位元面映射至544群組。

mm　該群組之基數

og　該群組之補償值

dgroups[]　將群組指數ng映射至各群組基數mm(頭8個位元)及該群組補償值og於dgvectors[](末8個位元)。

dgvectors[]　將群組補償值og及元件指數ne映射至4元組(a、b、c、d)之最有效逐2位元面。

arith_cf_ng_hash[]　將上下文狀態雜湊表映射至累積頻率表指數pki。

arith_cf_ng[pki][545]　用於群組指數符號ng之累積頻率模型。

arith_cf_ne[]　用於元件指數符號ne之累積頻率。

r　比最高有效逐2位元面更非有效的4元組位元面。

arith_cf_r[]　最低有效位元面符號r之累積頻率。

後文首先考慮解碼處理程序。4元組之已量化頻譜係數係無雜訊地編碼，始於最低頻率或頻譜係數傳送，而進行至最高頻率或頻譜係數。得自AAC之係數儲存於陣列x_ac_quant[g][win][sfb][bin]，無雜訊編碼碼字之傳送順序為當其係以接收於儲存於陣列之順序解碼時，bin為最快速遞增指數，而g為最緩慢遞增指數。於碼字內部，解碼順序為a、b、c、d。得自TCX之係數直接儲存於陣列x_tcx_invquant[win][bin]，而無雜訊編碼碼字之傳送順序使得該等碼字係以其接收且儲存於該陣列之順序解碼，bin為最快速遞增的指數，而win為最緩慢遞增的指數。於碼字內部，解碼順序為a、b、c、d。首先，旗標arith_reset_flag判定上下文是否需要復置。若旗標為真，則呼叫下列函數：

無雜訊解碼器輸出有符號的已量化的頻譜係數之4元組。首先，基於環繞該欲解碼4元組之四個先前已解碼群組，計算上下文狀態。上下文狀態係以函數arith_get_context()給定：

一旦該狀態為已知，4元組之最有效逐2位元面所屬群組係使用被饋以與該上下文狀態相對應之適當累積頻率表之arith_decode()解碼。該對應關係係藉函數arith_get_pk()做出：

然後以與由arith_get_pk()送返之指數相對應之累積頻率表，呼叫arith_decode()函數。算術編碼器為產生帶有定標標籤之整數實施例。以下虛擬C碼說明所使用之演繹法則。

雖然已解碼群組指數ng為逸出符號ARITH_ESCAPE，但額外群組指數ng被解碼，變數lev被遞增2。一旦已解碼的群組指數並非逸出符號ARITH_ESCAPE，則藉詢查表dgroups[]可推定該群組內部的元件數目mm及群組補償值og：

mm=dgroups[nq]＆255

og=dgroups[nq]>>8

然後藉呼叫arith_decode()帶有累積頻率表(arith_cf_ne+((mm*(mm-1))>>1)[]解碼元件指數ne。一旦元件指數被解碼，則可以表dgvector[]導算出該4元組之最有效逐2位元面：

經由呼叫帶有累積頻率表arith_cf_r之arith_decode()lev次，可由最高有效位準至最低有效位準解碼剩餘位元面。已解碼位元面r允許藉以下方式精緻該解碼4元組：

一旦4元組(a、b、c、d)完全解碼，藉呼叫函數arith_update_context()更新上下文表q及qs。

依據本發明方法之若干實務要求，本發明方法可於硬體或軟體實施。可使用數位儲存媒體實施，特別為碟片、DVD、或CD，其上儲存有可電子讀取控制信號，該信號與可程式電腦協力合作因而執行本發明方法。因此大致上本發明為一種具有用於機器可讀取載體之程式碼之電腦程式產品，該程式碼可於該電腦程式於電腦上跑時運算用以執行本發明方法。因此，換言之，本發明方法為一種具有程式碼之電腦程式，用以當該電腦程式於電腦上跑時，執行本發明方法中之至少一者。

100．．．音訊編碼器

110．．．處理器

120．．．熵編碼器

200．．．音訊解碼器

210．．．處理器

220．．．熵解碼器

310．．．先前節段

320．．．目前節段

410．．．先前節段

420．．．節段

510、520、530．．．節段

705-755．．．步驟

760-776．．．步驟

760．．．平面

762．．．一致機率分布

764．．．編碼上下文

766．．．編碼逸出符號

768．．．上下文略為自適應

780．．．已儲存的上下文表

782．．．已儲存的上下文表

805-845．．．步驟

第1圖顯示音訊編碼器之實施例；

第2圖顯示音訊解碼器之實施例；

第3圖顯示上下文升取樣之實施例；

第4圖顯示上下文降取樣之實施例；

第5圖示例顯示音訊切換時間及頻率解析度；

第6圖顯示一個實施例之實務；

第7a圖顯示一種編碼方法之實施例之流程圖；

第7b圖示例顯示一個實施例之一般上下文更新程序；

第7c圖用於改變解析度之實施例之上下文更新程序；

第8圖顯示一種解碼方法之實施例之流程圖；及

第9圖顯示業界現況時間頻率編碼方案。

100‧‧‧音訊編碼器

110‧‧‧處理器

120‧‧‧熵編碼器

Claims

一種用以編碼係數節段之音訊編碼器，該等係數節段表示一經取樣的音訊信號之不同時間或頻率解析度，該音訊編碼器包含：一處理器，用於基於一先前節段之先前已編碼係數而導算出對一目前節段之目前已編碼係數之一編碼上下文，該先前已編碼係數表示與該目前已編碼係數之不同時間或頻率解析度；及一熵編碼器，用於基於該編碼上下文將該目前已編碼係數進行熵編碼而獲得一已編碼音訊流。
如請求項1之音訊編碼器，進一步包含用於提供得自一音訊流之該等係數節段之裝置，該等係數形成於各節段間各異的頻譜解析度，由該音訊流所表示之一音訊信號之一頻譜表示型態。
如請求項2之音訊編碼器，其中該熵編碼器係適於以頻譜係數之一元組為單位編碼該目前已編碼係數，且用以基於該編碼上下文預測該元組之範圍。
如請求項3之音訊編碼器，其中該熵編碼器係適於視需要經常以一預定因數除該元組來讓該除法結果匹配一預定範圍；且當該元組並未位於該預定範圍時編碼所需多次除法、除法餘數及除法結果；以及用於以其它方式編碼除法餘數及除法結果。
如請求項4之音訊編碼器，其中該熵編碼器係適於使用一群組指數編碼該除法結果或該元組，該群組指數係指其機率分布係基於該編碼上下文之一組一個或多個碼字；以及當該群組包含多於一個碼字時，用於基於一致機率分布，使用一元件指數編碼，該元件指數係指於該群組內部之一碼字；以及用於藉多個逸出符號編碼除法數目，一逸出符號為只用於指示除法之特定群組指數；以及用於使用算術編碼法則，基於一致機率分布編碼該除法之餘數。
如請求項5之音訊編碼器，其中該熵編碼器係適於使用包含該逸出符號及與一可用群組指數相對應之群組符號之一符號字母、包含相對應之元件指數之一符號字母、及包含不同餘數值之一符號字母，將一序列符號編碼成該已編碼音訊流。
如請求項1之音訊編碼器，其中該處理器及該熵編碼器係建置來於前一節段顯示比目前節段更細緻的頻譜解析度時，基於前一節段之頻譜係數的降取樣運算；及/或其中該處理器及該熵編碼器係建置來於前一節段顯示比目前節段更粗糙的頻譜解析度時，基於前一節段之頻譜係數的升取樣運算。
一種用以編碼係數節段之方法，該等係數節段表示一經取樣的音訊信號之不同時間或頻率解析度，該方法包含下列步驟：基於一先前節段之先前已編碼係數而導算出對一目前節段之目前已編碼係數之一編碼上下文，該先前已編碼係數表示與該目前已編碼係數之不同時間或頻率解析度；及基於該編碼上下文將該目前已編碼係數進行熵編碼而獲得一已編碼音訊流。
一種用以解碼已編碼音訊流之音訊解碼器，該音訊解碼器解碼一已編碼音訊流來獲得表示一經取樣的音訊信號之不同時間或頻率解析度之係數節段，該音訊解碼器包含：一處理器，用於基於一先前節段之先前已解碼係數而導算出對一目前節段之目前已解碼係數之一編碼上下文，該先前已解碼係數表示與該目前已解碼係數之不同時間或頻率解析度；及一熵解碼器，用於基於該編碼上下文和該已編碼音訊流將該目前已解碼係數進行熵解碼。
如請求項9之音訊解碼器，其中該處理器係適於基於該先前係數導算出該編碼上下文，該等係數形成於各節段間各異的頻譜解析度，由該音訊流所表示之一音訊信號之一頻譜表示型態。
如請求項9之音訊解碼器，其中該處理器係適於基於先前於前一節段已解碼且選擇性地於本節段已解碼之鄰近頻譜係數，對目前已解碼係數就每個頻譜帶導算出編碼上下文。
如請求項11之音訊解碼器，其中該熵解碼器係適於基於由該編碼上下文所導算出之一機率分布而解碼得自該已編碼音訊流之一群組指數，其中該群組指數表示一群組一個或多個碼字；以及用於若該群組指數指示包含多於一個碼字之一組，則基於一致機率分布，解碼得自該已編碼音訊流之一元件指數；及用於基於該群組指數及該元件指數，導算出目前節段之頻譜係數之一元組，藉此獲得以頻譜係數元組之頻譜域表示型態。
如請求項12之音訊解碼器，其中該熵解碼器係適於使用包含一逸出符號及與一可用群組指數集合相對應之群組符號之一符號字母，基於由該編碼上下文所導算出之機率分布，解碼得自該已編碼音訊流之一符號序列；用於基於該符號序列之一群組符號相對應之一可用群組指數且基於該元件指數，導算出頻譜係數之一初步元組；以及用於以取決於該符號序列中之多個逸出符號之一因數乘以該初步元組來獲得該頻譜係數之元組。
如請求項13之音訊解碼器，其中該熵解碼器係適於使用一算術編碼法則，基於一致機率分布，解碼得自該已編碼音訊流之一除法餘數；以及用於將該餘數加至該已相乘的初步元組來獲得頻譜係數之該元組。
如請求項9之音訊解碼器，其中該處理器及該熵解碼器係建置來於前一節段顯示比目前節段更細緻的頻譜解析度時，基於前一節段之頻譜係數的降取樣運算；及/或其中該處理器及該熵解碼器係建置來於前一節段顯示比目前節段更粗糙的頻譜解析度時，基於前一節段之頻譜係數的升取樣運算。
一種用以解碼已編碼音訊流之方法，此方法解碼一已編碼音訊流而獲得表示已解碼音訊樣本之係數節段，該方法包含下列步驟：基於一先前節段之先前已解碼係數而導算出對一目前節段之目前已解碼係數之一編碼上下文，該先前已解碼係數表示與該目前已解碼係數之不同時間或頻率解析度；及基於該編碼上下文及已編碼音訊流將該目前已解碼係數進行熵解碼。
一種電腦程式，具有一程式碼用以於該程式碼於一電腦或一處理器上運行時執行如請求項8或16之方法中之一者。