TWI441168B

TWI441168B - 用以解碼多個編碼的訊框以獲得取樣的音訊信號之訊框之音訊解碼器和方法及電腦程式

Info

Publication number: TWI441168B
Application number: TW098123431A
Authority: TW
Inventors: Jeremie Lecomte; Philippe Gournay; Stefan Bayer; Markus Multrus; Nikolaus Rettelbach
Original assignee: Fraunhofer Ges Forschung
Priority date: 2008-07-11
Filing date: 2009-07-10
Publication date: 2014-06-11
Also published as: JP2011527459A; BR122021009252B1; AU2009267394A1; ES2558229T3; CN102105930A; RU2498419C2; EP2311034A1; JP5369180B2; MX2011000369A; ZA201100090B; RU2011104004A; US20110173008A1; CN102105930B; EP2311034B1; MY156654A; KR101227729B1; CA2730315C; CO6351832A2; TW201009815A; WO2010003663A1

Description

用以解碼多個編碼的訊框以獲得取樣的音訊信號之訊框之音訊解碼器和方法及電腦程式

本發明是音訊編碼/解碼之領域，特別的是有關使用多個編碼域之音訊編碼觀念之領域。

在習知技術中，諸如MP3或AAC之頻域編碼方案是已知的。這些頻域編碼器是基於一時域/頻域轉換、一隨後的量化階段與一編碼階段，其中，在該隨後的量化階段中，使用來自一心裡聲學模組的資訊來控制該量化誤差，且在該編碼階段中，使用編碼表來熵編碼該量化的頻譜係數與相對應的端資訊。

另一方面，存在如在3GPP TS 26.290中所描述之非常適合諸如該AMR-WB+之語音處理之編碼器。此類語音編碼方案執行一時域信號之一LP(LP=線性預測)濾波。這樣的一LP濾波自該輸入時域信號之一線性預測分析取得。接著該產生的LP濾波器係數遭量化/編碼並作為端資訊被傳送。該過程被稱為LPC(LPC=線性預測編碼)。在該濾波器的輸出，使用該ACELP編碼器之該合成性分析階段或可選擇地使用一轉換編碼器來編碼被稱為激發信號之預測殘餘信號或預測誤差信號，其中該轉換編碼器使用具有一重疊之傅立葉轉換。使用一閉迴路或一開迴路演算法來決定使用該ACELP編碼或該轉換編碼的激發編碼(也稱為TCX編碼)。

頻域音訊編碼方案，諸如將一AAC編碼方案與一頻帶複製(spectral band replication)技術結合之高效AAC編碼方案，也可與被稱為“MPEG環繞”之一聯合立體聲或一多通道編碼工具相結合。

另一方面，諸如AMR-WB+之語音編碼器也具有一高頻加強階段與一立體聲功能。

頻域編碼方案的優點在於它們針對音樂信號以低位元率顯示一高品質。然而，問題是在低位元率的語音信號之品質。語音編碼方案針對甚至是在低位元率的語音信號顯示有高品質，但對在低位元率的音樂顯示了差的品質。

頻域編碼方案經常利用所謂的MDCT(MDCT=改良的離散餘弦轉換)。該MDCT最初已在IEEE Trans. ASSP,ASSP-34(5):1153-1161,1986，J.Princen、A.Bradley的“Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation”中描述。該MDCT或MDCT濾波器組現今已廣泛使用且是高效能的音訊編碼器。這種信號處理提供如下優點：

在處理區塊間之平滑交錯淡出：即使在每個處理區塊中的信號不同地變化(例如由於頻譜係數的量化)，因為該視窗化的重疊/相加操作，沒有由於自區塊至區塊之突然的轉換出現區塊偽影。

關鍵取樣：在該濾波器組之輸出的頻譜值數目等於在其輸入的時域輸入值數目，且必須傳送額外的負擔值。

該MDCT濾波器組提供一高頻選擇性及編碼增益。

這些優良性質藉由利用時域混疊消除來實現。藉由將兩相鄰視窗化的信號重疊相加來在該合成完成該時域混疊消除。如果在該MDCT之該分析與該等合成階段沒有使用量化，則獲得了對該原始信號之完美重建。然而，該MDCT是供針對特定地適於音樂信號之編碼方案使用。此類頻域編碼方案如前所述，針對語音信號在低位元率具有降低的品質，而特定適用的語音編碼器在與其相當的位元率下具有一較高的品質，或甚至對於與頻域編碼方案相比之下具有相同品質時，具有明顯較低的位元率。

諸如在技術規格書3GPP TS 26.290 V6.3.0,2005-06“Extended Adaptive Multi-rate-Wideband(AMR-WB+)codec”中所定義之AMR-WB+(AMR-WB+=自適應多速率寬頻擴展)編解碼器之語音編碼技術沒有使用該MDCT，因此沒有得到MDCT之該等傑出性質的優點，該MDCT之傑出性質一方面依賴一關鍵取樣處理及另一方面依賴自一區塊至另一區塊之交越。因此，在沒有與位元率有關的任何損失的情況下，透過該MDCT獲得自一區塊至另一區塊之交越，以及MDCT之該關鍵取樣性質還沒有在語音編碼器中獲得。

當人們將語音編碼器與音訊編碼器結合至一單一混合編碼方案中時，仍存在著在低位元率及高品質下如何獲得自一編碼模式至另一編碼模式之切換的問題。

習知的音訊編碼方案通常設計為在一音訊檔案或一通訊開始時啟動。利用這些習知的方案，例如預測濾波器之濾波器結構在該編碼或解碼程序開始的某一時間達到一穩定狀態。然而，對於例如一方面利用基於轉換的編碼及另一方面利用依據該輸入之一先前分析的語音編碼之一切換音訊編碼系統，該等各自濾波器結構不是被主動且持續更新的。例如，語音編碼器可在一短時間週期被請求頻繁地重新啟動。一旦重新啟動，一啟動週期再次開始，內部狀態被重置為零。例如一語音編碼器到達一穩定狀態所需要的期間可能是關鍵的，特別地對於轉換之品質而言。

當在該基於轉換的編碼器與該語音編碼器之間轉換或切換時，例如AMR-WB+(參見技術規格書3GPP TS 26.290 V6.3.0,2005-06“Extended Adaptive Multi-rate-Wideband(AMR-WB+)codec”)之習知方案，是對該語音編碼器使用一完全重置。

該AMR-WB+在此條件下是最佳化，即：當該信號淡入時，假設不存在中間的停止或重置，其只啟動一次。因此，該編碼器之所有的該等記憶體可根據一逐訊框準則被更新。如果在一信號的中間使用該AMR-WB+，必須調用一重置，且所有在該編碼或解碼端上所使用的記憶體被設定為零。因此，習知的方案有著在到達該語音編碼器之一穩定狀態之前花了太長期間與在該等非穩定階段引入極大失真之問題。

習知方案之另一缺點在於當切換編碼域引入負擔時，它們利用冗長的重疊片段，這不利地影響編碼效率。

本發明之目的是使用編碼域切換來提供音訊編碼的一改良構想。

該目的藉由依據申請專利範圍第1項所述之一音訊編碼器、依據申請專利範圍第7項所述之針對音訊編碼之方法、依據申請專利範圍第8項所述之一音訊解碼器、依據申請專利範圍第14項所述之針對音訊解碼之方法與依據申請專利範圍第15項所述之電腦程式來實現。

本發明是基於此發現，即：透過在重置後考慮一相對應的濾波器之狀態資訊，上面提到的問題可在一解碼器中解決。例如，重置後，當某一濾波器之該等狀態已被設定為零時，該濾波器之該啟動或預熱程序可遭縮短，如果該濾波器不是自零開始，即所有的狀態或記憶體設定為零，而被饋送關於某一狀態之資訊，則自其開始可實現一較短啟動或預熱週期。

本發明之另一發現是可在該編碼器或該解碼器端產生關於一切換狀態之資訊。例如，當在一基於預測的編碼觀念與一基於轉換的編碼觀念之間切換時，可在切換前提供額外的資訊以使得該解碼器在實際上必須使用該預測合成濾波器的輸出之前將其帶至一穩定狀態。

換言之，本發明之發現是，特別當在一切換音訊編碼器中在該轉換域至該預測域間切換時，在一實際切換至該預測域不久前之關於濾波器狀態的額外資訊可解決產生切換偽影之問題。

本發明之另一發現是，關於該切換之此類資訊可只在該解碼器產生，透過在該實際切換發生不久前考慮該解碼器輸出及基本上關於該輸出執行編碼處理，以在該切換不久前判定關於濾波器或記憶體狀態之資訊。一些實施例隨即可使用習知的編碼器並僅僅透過解碼器處理減小切換偽影之問題。將該資訊考慮進來，例如，預測濾波器可在該實際切換之前遭預熱，例如透過分析一相對應的轉換域解碼器之輸出。

圖式簡單說明

使用多個附圖將詳細描述本發明之實施例，其中：第1圖顯示一音訊編碼器之一實施例；第2圖顯示一音訊解碼器之一實施例；第3圖顯示被一實施例所使用的一視窗形狀；第4a與4b圖說明MDCT與時域混疊；第5圖說明針對時域混疊消除之一實施例之一方塊圖；第6a-6g圖說明在一實施例中供時域混疊消除所處理的信號；第7a-7g圖說明當使用一線性預測解碼器時，在一實施例中針對一時域混疊消除之一信號處理鏈；第8a-8g圖說明在具有時域混疊消除之一實施例中之一信號處理鏈；及第9a與9b說明在實施例中在該編碼器與解碼器端上之信號處理。

第1圖顯示一音訊編碼器100之一實施例。該音訊編碼器100適於編碼一取樣的音訊信號之訊框以獲得編碼的訊框，其中一訊框包含一些時域音訊取樣。該音訊編碼器之該實施例包含一預測編碼分析級110，該預測編碼分析級110基於音訊取樣之一訊框來判定一合成濾波器之係數之資訊與一預測域訊框之資訊。在實施例中，該預測域訊框可與一激發訊框或一激發訊框的一濾波版本相對應。以下，當基於音訊取樣之一訊框編碼一合成濾波器之係數之資訊與一預測域訊框之資訊時，可稱為預測域編碼。

此外，該音訊編碼器100之該實施例包含一頻域轉換器120，該頻域轉換器120用來將音訊取樣之一訊框轉換成頻域以獲得一訊框頻譜。以下，當編碼一訊框頻譜時可稱為轉換域編碼。此外，該音訊編碼器100之該實施例包含一編碼域判定器130，該編碼域判定器130用來判定針對一訊框編碼的資料是基於該等係數之資訊與該預測域訊框之資訊還是基於該訊框頻譜。該音訊編碼器100之該實施例包含一控制器140，當該編碼域判定器判定一目前訊框之編碼的資料基於該等係數之資訊與該預測域訊框之資訊，當一先前訊框之編碼的資料基於一先前訊框頻譜遭編碼時，該控制器140用來判定關於一切換係數之資訊。該音訊編碼器100之該實施例進一步包含一冗餘減少編碼器150，該冗餘減少編碼器150用來編碼該預測域訊框之資訊、該等係數之資訊、該切換域係數之資訊及/或該訊框頻譜。換言之，該編碼域判定器130判定該編碼域，而當自該轉換域切換至該預測域時，該控制器140提供關於該切換係數之資訊。

在第1圖中，用虛線顯示了一些連接。這些代表實施例中不同的選擇。例如，該等切換係數之資訊可單純地藉由一直執行該預測編碼分析級110來獲得，以使在其輸出始終可得係數之資訊與預測域訊框之資訊。然後在該編碼域判定器130已作出一切換判定之後，該控制器140指示該冗餘減少編碼器150何時將來自該預測編碼分析級110之輸出編碼或何時將頻域轉換器120的訊框頻譜輸出編碼。當自該轉換域切換至該預測域時，該控制器140可因此控制該冗餘減少編碼器150以編碼該切換係數之資訊。

如果發生該切換，該控制器140可指示該冗餘減少編碼器150編碼一重疊訊框和訊框頻譜，在一先前訊框期間，該控制器140可以針對該先前訊框之一位元流包含該等係數之資訊與包含該預測域訊框之資訊之一方式來控制該冗餘減小編碼器150。換言之，在實施例中，該控制器可使得該等編碼的訊框包括上面描述的該資訊之一方式來控制該冗餘減少編碼器150。在其它實施例中，該編碼域判定器130可判定改變該編碼域且在該預測編碼分析級110與該頻域轉換器120之間切換。

在這些實施例中，該控制器140可內部地實施一些分析以提供該等切換係數。在實施例中，關於一切換係數之資訊可與關於濾波器狀態之資訊、自適應的碼簿內容、記憶體狀態、關於一激發信號之資訊、LPC係數等相對應。關於該切換係數之資訊可包含致能一預測合成級220之一預熱或初始化之任何資訊。

該編碼域判定器130基於亦在第1圖用該虛線所示之音訊信號之該等訊框或取樣決定出何時切換該編碼域的決策。在其它實施例中，可基於該等資訊係數、關於預測域訊框之資訊及/或訊框頻譜來做該決策。

一般地，實施例將不限定該編碼域判定器130判定何時改變該編碼域所採用之方式，較重要的是由該編碼域判定器130來判定該等編碼域變化，在此期間出現上面描述的該等問題，且其中在一些實施例中，該音訊編碼器100以至少部分補償上面描述的該等不利影響之一方式而調整。

在實施例中，該編碼域判定器130可適於基於該等音訊訊框之一信號性質或多個性質來判定。如已知，一音訊信號之音訊性質可決定編碼效率，即對於一音訊信號之某些特性，使用基於轉換的編碼可能較有效，而對於其他特性，使用預測域編碼可能較有利。在一些實施例中，當該信號極有聲調或無聲時，該編碼域判定器130可能適於判定來使用基於轉換的編碼。如果該信號是暫態或一類似聲音的信號，該編碼域判定器130可適於判定來使用如所述針對該編碼之一預測域訊框。

依據第1圖中之該等其它的虛線與箭頭，可給該控制器140提供係數之資訊、該預測域訊框之資訊與該訊框頻譜，且該控制器140可適於根據該資訊來決定關於該切換係數之資訊。在其它實施例中，該控制器140可將一資訊提供給該預測編碼分析級110以決定該切換係數。在實施例中，該等切換係數可與關於係數之資訊相對應，而在其它實施例中，它們可以一不同的方式來決定。

第2圖說明一音訊解碼器200之一實施例。該音訊解碼器200之該實施例適於解碼已編碼的訊框以獲得一取樣的音訊信號之訊框，其中一訊框包含一些時域音訊取樣。該音訊解碼器200之該實施例包含一冗餘恢復解碼器210，該冗餘恢復解碼器210用來解碼該已編碼的訊框以獲得關於一預測域訊框之資訊、一合成濾波器的係數之資訊及/或一預測頻譜。此外，該音訊解碼器200之該實施例包含一預測合成級220與一時域轉換器230，該預測合成級220用來基於該合成濾波器的該等係數之資訊與該預測域訊框之資訊決定音訊取樣之一預測的訊框，該時域轉換器230適於將該訊框頻譜轉換成時域以自該訊框頻譜獲得一轉換的訊框。該音訊解碼器200之該實施例進一步包含一結合器240，該結合器240用來將該轉換的訊框與該預測的訊框結合以獲得該取樣的音訊信號之該等訊框。

另外，該音訊解碼器200之該實施例包含一控制器250，該控制器250用來控制一切換過程，當一先前訊框基於該轉換的訊框且一目前訊框基於該預測的訊框時，該切換過程產生，該控制器250遭組配用來將切換係數提供給該預測合成級220供訓練、初始化或預熱該預測合成級220，以使當該切換過程發生時，初始化該預測合成級220。

依據第2圖所示之該等虛線，該控制器250可適於控制該音訊解碼器200之該等元件中之部分或所有元件。該控制器250可例如適於支配該冗餘恢復解碼器210以回復切換係數之額外資訊或該先前預測域訊框之資訊等。在其它實施例中，該控制器250可適於憑自身得到該等切換係數之資訊，例如透過由該結合器240提供該等解碼的訊框，透過基於該結合器240之輸出實施一LP分析。接著該控制器250可適於支配或控制該預測合成級220與一時域轉換器230以建立上面描述的重疊訊框、時間、時域分析與時域分析消除等。

在下面，考慮一基於LPC的包括預測器與內部濾波器之域編解碼器，在一啟動期間該預測器與內部濾波器需要某一時間來到達確保一準確濾波器合成之一狀態。換言之，在該音訊編碼器100之實施例中，該預測編碼分析級110可適於基於一LPC分析決定該合成濾波器的係數之資訊與該預測域訊框之資訊。在該音訊解碼器200之實施例中，該預測合成級220可適於基於一LPC合成濾波器決定該等預測的訊框。

在第一LPD(LPD=線性預測域)訊框之開始，使用一矩形視窗並將該基於LPD的編解碼器重置為一零狀態，顯然地不為這些過渡提供理想的選擇，因為沒有留下足夠的時間來供該LPD編解碼器來建立一優良信號，這將引入區塊偽影。

在實施例中，為了處理自一非LPD模式至一LPD模式之轉換，可使用重疊視窗。換言之，在該音訊編碼器100之實施例中，該頻域轉換器120可適於基於一FFT(FFT=快速傅立葉轉換)或一MDCT(MDCT=改良離散餘弦轉換)來轉換音訊取樣之訊框。在該音訊解碼器200之實施例中，該時域轉換器230可適於基於一IFFT(IFFT=反FFT)或一IMDCT(IMDCT=反MDCT)將該等訊框頻譜轉換成時域。

此外，實施例可在亦稱為該基於轉換的模式之一非LPD模式或亦稱為該預測分析與合成之一LPD模式中執行。一般地，實施例可使用重疊視窗，特別地當使用MDCT與IMDCT時。換言之，在該非LPD模式中，可使用具有時域混疊(TDA=時域混疊)的重疊視窗。此外，當自該非LPD模式切換至該LPD模式時，可補償該最後的非LPD訊框之該時域混疊。實施例在實施LPD編碼之前可在該原始信號中引入時域混疊，然而，時域混疊可能不與諸如ACELP(ACELP=代數碼簿激發線性預測)之基於預測的時域編碼相容。實施例可在該LPD片段之開始引入一人工混疊並以與ACELP至非LPD轉換相同的方式來施予時域消除。換言之，在實施例中預測分析與合成可基於一ACELP。

在一些實施例中，自該合成信號而非該原始信號來產生人工混疊。由於該合成信號不準確，特別地在該LPD啟動，這些實施例可藉由引入人工TDA略補償該等區域偽影，然而，人工TDA之引入可能伴隨著偽影的減少產生不正確之錯誤。

第3圖說明在一實施例中的一切換過程。在第3圖所示之實施例中，假設該切換過程自該非LPD模式，例如該MDCT模式，切換至該LPD模式。如第3圖所示，考慮2048取樣之一總視窗長度。在第3圖的左手邊，說明延伸貫穿512取樣之該MDCT視窗之上升邊緣。在MDCT與IMDCT之過程期間，該MDCT視窗之上升邊緣的這512取樣將折叠與下一512取樣如第3圖中所指出的為MDCT核心，該MDCT核心包含在該完整的2048取樣視窗內之位於中心的該等1024取樣。下面將詳細解釋，當該上述訊框亦在該非LPD模式中遭編碼時，由MDCT及IMDCT之該過程所引入之時域混疊不是嚴重的，因為時域混疊可由各自的連續重疊MDCT視窗固有地補償是該MDCT之有利性質之一。

然而，當切換至該LPD模式時，即現在考慮第3圖所示之該MDCT視窗之右手邊部分，此類時域混疊消除並非自動地實施，因為在LPD模式中解碼之第一訊框不會自動地具有該時域混疊來補償先前的MDCT訊框。因此，在一重疊區域，實施例可引入一人工時域混疊，如第3圖所示，在以該MDCT核心視窗之末端為中心的128取樣之區域中，即以第1536取樣為中心。換言之，在第3圖中，假設人工時域混疊被引入至開始處，即在此實施例中該LPD模式訊框之第一128取樣，以補償在該最後MDCT訊框之末端所引入的時域混疊。

在該較佳實施例中，施以該MDCT以獲得自在一域中的一編碼操作至在一不同其它域中的一編碼操作之關鍵取樣切換，即在該頻域轉換器120及/或該時域轉換器230之實施例中實施該MDCT。然而，也可施以所有其它的轉換。然而，由於該MDCT是該較佳實施例，參考第4a與第4b圖將詳細的討論該MDCT。

第4a圖說明一視窗470，其具有左邊的一上升部分及右邊的一下降部分，其中可將此視窗劃分成a、b、c、d四部分。自圖可見，在所示的50%重疊/相加情況下，視窗470只具有混疊部分。特定地，第一部分具有與一先前視窗469之第二部分相對應的自零至N取樣，且在視窗470之取樣N與取樣2N間延伸的第二半部與視窗471之第一部分重疊，視窗471在所說明的實施例中是視窗i+1，而視窗470是視窗i。

該MDCT操作可看作視窗化及該折叠操作及一後續轉換操作且特定地一後續DCT(DCT=離散餘弦轉換)操作之串聯，其中是施以類型四的DCT(DCT-IV)。特定地，藉由計算該折叠區塊之該第一部分N/2為-c_R -d與計算該折叠輸出之N/2取樣之第二部分為a-b_R ，來獲取該折叠操作，其中R為反向運算符。因此，該折叠操作產生了N個輸出值而接收了2N個輸入值。

亦在第4a圖以方程式說明了在該解碼器端上的一相對應的展開操作。

一般地，在(a、b、c、d)上的一MDCT操作產生與(-c_R -d,a-b_R )之DCT-Ⅳ完全相同的輸出值，如第4a圖所示。

相對應地，及使用該展開操作，一IMDCT操作產生該展開操作之該輸出，該操作施於一DCT-Ⅳ反轉換之輸出。

因此，藉由在該編碼器端執行一折叠操作來引入時間混疊。接著，使用需要N個輸入值之一DCT-Ⅳ區塊轉換將視窗化與折叠操作之結果轉換成頻域。

在該解碼器端，使用一DCT-Ⅳ操作將N個輸入值轉換回到時域，且因此此反轉換操作之該輸出被改變為一展開操作以獲得2N個輸出值，而該等2N個輸出值是混疊的輸出值。

為了移除由該折叠操作所引入且仍存在於該展開操作之後之該混疊，該重疊/相加操作可實現時域混疊消除。

因此，當將在該重疊的一半中的該先前IMDCT結果加入至該展開操作之結果中時，在第4a圖下方方程式中的相反項相消，且可純粹獲得例如b與d，因此恢復該原始資料。

為了獲得針對該視窗化的MDCT之一TDAC，存在被稱為“Princen-Bradley”條件之一需求，“Princen-Bradley”條件意思是該等視窗係數針對該等被結合至與對每一取樣導致一(1)之該時域混疊消除器中之相對應的取樣升至2。

在第4a圖說明，例如針對長視窗或短視窗用到該AAC-MDCT(AAC=高階音訊編碼，Advanced Audio Coding)中之該視窗序列的同時，第4b圖說明一不同的視窗函數，該不同的視窗函數除了混疊部分之外，還具有一非混疊部分。

第4b圖說明一分析視窗函數472，該分析視窗函數472具有一為零部分a1與d2、具有一混疊部分472a、472b且具有一非混疊部分472c。

延伸通過c2、d1之該混疊部分472b具有在473b處表示之一後續視窗473之一相對應的混疊部分。相對應地，視窗473額外地包含一非混疊部分473a。當第4b圖與第4a圖相比較時，很明顯的是，由於存在有視窗472的零部分a1、d1和視窗473的零部分c1之事實，因此此兩視窗都接收一非混疊部分，且在該混疊部分的視窗函數比第4a圖較陡。鑒於此，在第4b圖中，該混疊部分472a對應於L_k ，該非混疊部分472c對應於部分M_k ，且該混疊部分472b對應於R_k 。

當該折叠操作用於被視窗472視窗化之一取樣區塊時，獲得了如第4b圖所述之情況。延伸通過第一N/4取樣之左部分具有混疊。延伸通過N/2取樣之第二部分免受混疊，因為該折叠操作用於具有零值的視窗部分，且最後N/4取樣又受混疊效應。由於該折叠操作，該折叠操作之輸出值數目等於N，而輸入為2N，儘管實際上由於使用視窗472之該視窗化操作，實施例中N/2值遭設定為零。

現在，該DCT-Ⅳ用於該折叠操作之結果，但是，重要地，在自一編碼模式至另一編碼模式之轉換的混疊部分472a與非混疊部分不同地遭處理，儘管這兩部分屬於音訊取樣之同一區塊，且重要地，是遭輸入到相同的區塊轉換操作。

第4b圖另外說明視窗472、473、474之一視窗序列，其中該視窗473是自確實存在非混疊部分之情況至只存在混疊部分之情況的一過渡視窗。這藉由非對稱的成形該視窗函數來獲得。視窗473之右邊部分與在第4a圖之該視窗序列中的該等視窗之右邊部分相類似，而該左邊部分具有一非混疊部分及該相對應的零部分(在c1)。因此，第4b圖說明自MDCT-TCX至AAC之轉換，當要使用完全重疊視窗來實施AAC時，或可選擇地，說明了自AAC至MDCT-TCX之轉換，當視窗474以一完全重疊方式視窗化一TCX資料區塊時，其一方面是針對MDCT-TCX且另一方面是針對MDCT-AAC之常規操作，當沒有理由自一模式切換至另一模式時。

因此，視窗473可被稱為“一停止視窗”，其另外具有該較佳特性，即此視窗之長度等於至少一相鄰視窗之長度，以便於維持該一般區塊型樣或訊框光柵，當一區塊遭設定為具有與視窗係數相同的數目，即2N取樣，例如在第4a圖或第4b圖中。

下面將詳細描述人工時域混疊與時域混疊消除之方法。第5圖顯示了可在一實施例中遭使用之一方塊圖，其顯示一信號處理鏈。第6a至6g圖與第7a至7g圖說明取樣信號，其中第6a至6g圖在假設使用該原始信號的情況下說明時域混疊消除之原理過程，其中第7a至7g圖說明信號取樣，該等信號取樣基於該第一LPD訊框在一完全重置之後產生且沒有任何調整之假設來決定。

換言之，第5圖說明在自非LPD模式至LPD模式的情況下，針對在LPD模式中的該第一訊框引入人工時域混疊與時域混疊消除之過程之一實施例。第5圖顯示的是，首先在區塊510將一視窗化施於該目前LPD訊框上。如第6a、6b圖與第7a、7b圖所說明，該視窗化與該等各自信號之一淡入相對應。如在第5圖之該視窗化區塊510上之該小視圖所述，假定將視窗化用到L_k 取樣。該視窗化隨後是產生L_k /2取樣之一折叠操作520。在第6c與7c圖中說明該折叠操作之結果。可看見的是，由於取樣數目的減少，在該等各自的信號之開始處存在延伸經過L_k /2取樣之一零週期。

在方塊510中的該等視窗化與在方塊520中的該等折叠操作可概述為透過MDCT引入之該時域混疊。然而，透過IMDCT進行反轉換時出現進一步的混疊效應。由該IMDCT引發的效應在第5圖中用方塊530與540來概述，這又可概述為反時域混疊。如第5圖所示，接著在方塊530實施展開，這導致取樣數目翻兩倍，即產生L_k 取樣結果。在第6d與7d圖顯示該等各自的信號。自第6d與7d圖可見的是，該等取樣數目已變兩倍，且已引入時間混疊。該展開操作530隨後是另一視窗化操作540以淡入該等信號。在第6e與7e圖中顯示該第二次視窗化540之該等結果。最後，在第6e與7e圖中顯示之該等人工時域混疊的信號被重疊，並被加入到在該非LPD模式中編碼之該先前訊框，這在第5圖中用區塊550來表示，及在第6c與7f中顯示該等各自的信號。

換言之，在該音訊解碼器200之實施例中，該結合器240可適於實施在第5圖中的方塊550之該等功能。

在第6g與7g圖中顯示該等產生的信號。總之，在這兩種情況中，該各自訊框之該左邊部分遭視窗化，用第6a、6b、7a與7b圖來表示。接著該視窗之該左邊部分遭折叠，這在第6c與7c圖中表示。展開後，參照6d與7d，施以另一視窗化，參照第6e與7e圖。第6f與7f圖顯示具有該先前非LPD訊框之形態之該目前過程訊框，及第6g與7g圖顯示在一重疊與相加操作後的結果。自第6a至第6g圖，可見到的是，在將一人工TDA用在該LPD訊框上並與該先前訊框重疊與相加後，實施例可取得完美重建。然而，在該第二種情況下，即在第7a至7g圖所述之該情況，重建並不完美。如上已述，假設在該第二種情況下，完全重置該LPD模式，即該LPC合成之狀態與記憶體遭設定為零。這導致該合成信號在該第一取樣期間不準確。在此情況下，該人工TDA加上該重疊相加產生失真與偽影，而非一完美重建，參照第6g與7g圖。

第6a至6g圖與第8a至8g圖說明針對人工時域混疊與時域混疊消除，使用該原始信號與使用該LPD啟動信號之另一情況之間的另一比較，然而，在第8a至8g圖中，假設LPD啟動週期比第7a至7g圖中的較長。第6a至6g圖與第8a至8g圖說明如已針對第5圖所解釋之該等相同操作已應用於其上之取樣信號圖。比較第6g圖與第8g圖，可見的是，引入到在第8g圖中顯示之信號中的失真與偽影比在第7g圖中的那些更加明顯。顯示在第8g圖中的信號在一相對長的時間內包含許多失真。只是出於比較的目的，當考慮針對時域混疊消除的該原始信號時，第6g圖顯示該完美重建。

本發明之實施例可加快例如一LPD核心編解碼器之啟動週期，分別地如該預測編碼分析級110、該預測合成級220之一實施例。實施例可更新所有相關的記憶體與狀態以使得降低一合成信號盡可能接近原始信號，並減少如第7g與8g圖所示之該等失真。此外，在實施例中，較長重疊與相加週期可遭致能，這可能是因為該改良的引入時域混疊與時域混疊消除。

如上已作描述，在第一或目前LPD訊框之開始處使用一矩形視窗並將基於LPD的編解碼器重置為一零狀態，可能不是轉換的理想選擇。可能出現失真與偽影，因為沒有留下足夠的時間來供該LPD編解碼器建立一優良信號。類似的考量適用於將編解碼器之內部狀態變數設定為任何定義的初始值，因為這樣的一編碼器之一穩定狀態視多信號性質而定，且來自任何預先定義但固定的初始狀態之啟動時間可長。

在該音訊編碼器100之實施例中，該控制器140可適於基於一LPC分析來決定關於一合成濾波器之係數的資訊與關於一切換預測域訊框之資訊。換言之，實施例可使用一矩形視窗且重置該LPD編解碼器之內部狀態。在一些實施例中，該編碼器可包含關於濾波器記憶體及/或為ACELP所使用之一自適應碼簿、關於自該先前非LPD訊框至該編碼的訊框中的合成取樣之資訊，並將這些資訊提供給該解碼器。換言之，該音訊編碼器100之實施例可解碼該先前非LPD訊框，執行一LPC分析並將該LPC分析濾波器用到該非LPD合成信號用來藉此將資訊提供給該解碼器。

如上所述，該控制器140可適於判定關於該切換係數之資訊以使該資訊可表示重疊該先前訊框之音訊取樣的一訊框。

在實施例中，該音訊編碼器100可適於使用該冗餘減少編碼器150來編碼關於切換係數之此類資訊。作為一實施例的一部分，透過傳輸或包括位元流中在該先前訊框上運算之LPC之額外的參數資訊，可增強該重新啟動程序。額外的該組LPC係數在下面可稱為LPC0。

在一實施例中，該編解碼器可使用針對每一訊框遭估計或決定之四個LPC濾波器(即LPC1至LPC4)在其LPD核心編碼模式中操作。在一實施例中，在自非LPD編碼至LPD編碼之轉換，也可決定或估計與以該先前訊框之末端為中心之一LPC分析相對應之一額外的LPC濾波器LPC0。換言之，在一實施例中，重疊該先前訊框之該等音訊取樣之訊框可以先前訊框之末端為中心。

在該音訊解碼器200之實施例中，該冗餘恢復解碼器210可適於解碼來自該等編碼的訊框的切換係數之資訊。因此，該預測合成級220可適於決定與該先前訊框重疊之一切換預測的訊框。在另一實施例中，該切換預測的訊框可以該先前訊框之末端為中心。

在實施例中，與該非LPD片段或訊框之末端相對應之LPC濾波器即LPC0可用來內插該等LPC係數或如果是一ACELP用來運算該零輸入響應。

如上所述，此LPC濾波器可以一向前的方式來估計，即基於該輸入信號估計，受該編碼器量化並傳送至該解碼器。在其它實施例中，該LPC濾波器可以一向後的方式來受估計，即由該解碼器基於過去合成的信號。向前估計可使用額外的位元率且也可致能一較有效且可靠的啟動週期。

換言之，在其它實施例中，在該音訊解碼器200之一實施例中的控制器250可適於分析該先前訊框以獲得針對一合成濾波器的係數之先前訊框資訊及/或一預測域訊框之一先前訊框資訊。該控制器更可適用於提供先前訊框係數的資訊給該預測合成級220作為切換係數。該控制器250可進一步將關於該預測域訊框之先前訊框資訊提供給該預測合成級220來供訓練。

在該音訊編碼器100於其中提供關於該等切換係數之資訊的實施例中，在該位元流中的該位元數目可輕微增加。在該解碼器實施分析可不增加在該位元流中的該等位元數目。然而，在該解碼器實施分析可引入額外的複雜性。因此，在實施例中，該LPC分析之該解析度可藉由減少該頻譜動態來加強，即該信號之該等訊框可透過預加強(pre-emphasis)濾波器來首先預處理。可在該解碼器200之實施例及該音訊編碼器100中應用該反低頻加強，以允許獲得接下來之訊框之編碼所必須之一激發信號或預測域訊框。所有這些濾波器可給出一零狀態響應，即由於當前輸入的一濾波器之輸出，儘管沒有過去的輸入被提供，即儘管在一完全重置後在該濾波器中的狀態資訊遭設定為零。一般地，當該LPD編碼模式正常化運行時，在該先前訊框之濾波之後，用該最後狀態來更新在該濾波器中的該狀態資訊。在實施例中，為了設定該LPD之該內部濾波器狀態，該LPD之該內部濾波器狀態以已針對該第一LPD訊框之一方式編碼，所有的該等濾波器與預測器遭初始化來針對該第一訊框在該最佳或改良的模式中運行，該音訊編碼器100可提供關於該切換係數/該等切換係數之資訊或可在一解碼器200實施額外的處理。

一般地，針對該分析之濾波器與預測器，如由該預測編碼分析級110在該音訊編碼器100中實施，與針對該合成之在該音訊解碼器200端所使用之該等濾波器與預測器不同。

針對該分析，例如該預測編碼分析級110，可以該先前訊框之該等適當的原始取樣來饋送該所有或至少一些這些濾波器以更新該等記憶體。第9a圖說明針對該分析使用之一濾波器結構之一實施例，該第一濾波器是一預加強濾波器1002，該預加強濾波器1002可用來加強該LPC分析濾波器1006之該解析度，即該預測編碼分析級110。在實施例中，該LPC分析濾波器1006可使用在該分析視窗內之該等高通濾波語音取樣來運算或評估該等短期濾波器係數。換言之，在實施例中，該控制器140可適於基於該先前訊框的一解碼訊框頻譜之一高通濾波版本來判定關於該切換係數之資訊。以一類似的方式，假定在該音訊解碼器200之該實施例中實施該分析，該控制器250可適於分析該先前訊框之一高通濾波的版本。

如第9a圖所述，一感知加權濾波器1004在該LP分析濾波器1006之前。在實施例中，可在碼簿之該合成式分析搜尋中使用該感知加權濾波器1004。該濾波器可採用該等共振峰之雜訊遮罩性質，例如聲道共振，透過較少加權在接近該等共振峰頻率的區域中之該誤差而較多加權在遠離他們的區域中之該誤差。在實施例中，該冗餘減少編碼器150可適於基於一碼簿來編碼，該碼簿自適應於該各自的預測域訊框/該等各自的預測域訊框。相對應地，該冗餘引入解碼器210可適於基於自適應於該等訊框之該等取樣之一碼簿來解碼。

第9b圖說明在該合成情況下之該信號處理之一方塊圖。在該合成情況下，在實施例中，可以該先前訊框之該等適當的合成取樣來饋送該等濾波器中之所有或至少一濾波器以更新該等記憶體。在該音訊解碼器200之該實施例中，這可能是直接的，因為該先前非LPD訊框之該合成是直接可得的。然而，在該音訊編碼器100之一實施例中，合成可不按預設來實施，及相對應地該等合成取樣可能不可得。因此，在該音訊編碼器100之實施例中，該控制器140可適於解碼該先前非LPD訊框。一旦該非LPD訊框已遭解碼，在兩實施例中，即該音訊編碼器100與該音訊編碼器200，可依據第9b圖方塊1012來實施該先前訊框之合成。此外，該LP合成濾波器1012之該輸出可輸入到一反感知加權濾波器1014，在此之後應用一去加強濾波器(de-emphasis)1016。在實施例中，可使用一適應的碼簿且可以來自該先前訊框之該等合成取樣來填該適應的碼簿。在進一步的實施例中，該自適應的碼簿可包含適於每個子訊框之激發向量。該自適應的碼簿可取自該長期濾波器狀態。一滯後值可作為在該自適應碼簿中的一索引來使用。在實施例中，為了填充該自適應碼簿，可藉由將該量化加權信號濾波至具有零記憶體的該反加權濾波器來最終運算該激發信號或殘留信號。該激發在該編碼器100中可能尤其是需要的，以更新該長期預測器記憶體。

本發明之實施例可提供此優點，即：藉由提供額外的參數及/或以由該基於轉換的編碼器所編碼之先前訊框的取樣來饋送一編碼器或解碼器之該等內部記憶體，可推進或加速濾波器之一重新啟動程序。

實施例可提供藉由更新所有或部分該等相關的記憶體、產生一合成信號來加速一LPC核心編解碼器之該啟動程序之優點，該合成信號可比當使用習知的觀念特別地當使用完全重置時較接近該原始信號。此外，實施例可允許一較長重疊及相加視窗並因而致能了時域混疊消除的改良使用。實施例可提供該優點，即：可縮短一語音編碼器之一不穩定的相，可減少在自一基於轉換的編碼器至一語音編碼器之轉換期間所產生的偽影。

視該等發明的方法之某些實施需求而定，該等發明的方法可在硬體或軟體中實施。可使用具有電子可讀取控制信號儲存於其上之一數位儲存媒體，特定地一磁碟、一DVD、一CD來執行該實施，該電子可讀取的控制信號與一可規劃的電腦系統相協作以使該等各自的方法受執行。

一般來說，因此本發明是具有儲存於一機器可讀取載體上的一程式碼之一電腦程式產品，當該電腦程式產品在一電腦上執行時，該程式碼可操作的用來執行該等方法當中之一方法。

換言之，當該電腦程式在一電腦上執行時，該等發明的方法因此是具有用來執行至少該等發明的方法當中之一方法之一程式碼之一電腦程式。

儘管前面參考特定實施例已顯示及描述了本發明，但是此領域中具有通常知識者要明白的是，在不背離本發明之精神與範圍的情況下可在形式及細節上作各種其它改變。要明白的是在不背離本文所揭露之該較廣泛的觀念的情況下，在適應不同的實施例上可作各種改變並由後附的申請專利範圍來理解各種改變。

100．．．音訊編碼器

110．．．預測編碼分析級

120．．．頻域轉換器

130．．．編碼域判定器

140．．．控制器

150．．．減少冗餘編碼器

200．．．音訊解碼器

210．．．冗餘恢復解碼器

220．．．預測合成級

230．．．時域轉換器

240‧‧‧結合器

250‧‧‧控制器

469、470、471、472、473、474‧‧‧視窗

472a、472b‧‧‧混疊部分

472c‧‧‧非混疊部分

510‧‧‧視窗化方塊、方塊

520‧‧‧折叠操作

530‧‧‧展開操作

540‧‧‧視窗化操作

550‧‧‧加入操作

1002‧‧‧預加強濾波器

1004‧‧‧感知加權濾波器

1006‧‧‧LPC分析濾波器

1012‧‧‧LP合成濾波器

1014‧‧‧反感知加權濾波器

1016‧‧‧去加強濾波器

第1圖顯示一音訊編碼器之一實施例；

第2圖顯示一音訊解碼器之一實施例；

第3圖顯示為一實施例所使用之一視窗形狀；

第4a與4b圖說明MDCT與時域混疊；

第5圖說明針對時域混疊消除之一實施例之一方塊圖；

第6a-6g圖說明在一實施例中供時域混疊消除所處理的信號；

第7a-7g圖說明當使用一線性預測解碼器時，在一實施例中針對一時域混疊消除之一信號處理鏈；

第8a-8g圖說明在具有時域混疊消除之一實施例中之一信號處理鏈；及

第9a與9b說明在實施例中在該編碼器與解碼器端上之信號處理。

200‧‧‧音訊解碼器

210‧‧‧冗餘恢復解碼器

220‧‧‧預測合成級

230‧‧‧時域轉換器

240‧‧‧結合器

250‧‧‧控制器

Claims

一種用以解碼多個編碼的訊框以獲得一取樣的音訊信號之訊框之音訊解碼器，其中一訊框包含一些時域音訊取樣，該音訊編碼器包含：一冗餘恢復解碼器，其用來解碼該等編碼的訊框以獲得一預測域訊框之資訊、針對一合成濾波器之係數之資訊及/或一訊框頻譜；一預測合成級，其用來基於針對該合成濾波器之該等係數之該資訊與該預測域訊框之該資訊，決定音訊取樣之一預測的訊框；一時域轉換器，其用來將該訊框頻譜轉換成時域以自該訊框頻譜獲得一轉換的訊框；一結合器，其用來將該轉換的訊框與該預測的訊框相結合以獲得該取樣的音訊信號之該等訊框；及一控制器，其用來控制一切換過程，當一先前訊框是基於一轉換的訊框且一目前訊框是基於一預測的訊框時，該切換過程發生，該控制器遭組配用來將一切換係數提供給該預測合成級，以訓練該預測合成級，使得當該切換過程發生時，該預測合成級遭初始化。
如申請專利範圍第1項所述之音訊解碼器，其中該冗餘恢復解碼器適於解碼來自該等編碼的訊框之關於該切換係數之一資訊。
如申請專利範圍第1項或第2項中之任一項所述之音訊解碼器，其中該預測合成級適於基於一LPC合成決定該預測訊框，及/或其中該時域轉換器適於基於一反FFT或一反MDCT將該訊框頻譜轉換成時域。
如申請專利範圍第1至2項中之任一項所述之音訊解碼器，其中該控制器適於分析該先前訊框以獲得針對一合成濾波器之係數之一先前訊框資訊與一預測域訊框之一先前訊框資訊，且其中該控制器適於將關於該合成濾波器之係數之該先前訊框資訊提供給該預測合成級作為切換係數，及/或其中該控制器適於進一步將關於該預測域訊框之該先前訊框資訊提供給該預測合成級供訓練。
如申請專利範圍第1至2項中之任一項所述之音訊解碼器，其中該預測合成級適於決定以該先前訊框之末端為中心之一切換預測訊框。
如申請專利範圍第1至2項中之任一項所述之音訊解碼器，其中該控制器適於分析該先前訊框的一高通濾波版本。
如申請專利範圍第1至2項中之任一項所述之音訊解碼器，其中該控制器經組配以提供該切換係數，使得該切換係數基於該先前訊框之一LPC分析而用於該預測合成級之初始化，因此當該切換過程發生時可使得該預測合成級被初始化。
一種用以解碼多個編碼的訊框以獲得一取樣音訊信號之訊框的方法，其中一訊框包含一些時域音訊取樣，該方法包含以下步驟：解碼該等編碼的訊框以獲得一預測域訊框之資訊與針對一合成濾波器之係數之資訊及/或一訊框頻譜；基於針對該合成濾波器之該等係數之該資訊與該預測域訊框之該資訊，決定音訊取樣之一預測的訊框；將該訊框頻譜轉換成時域以獲得自該訊框頻譜之一轉換的訊框；將該轉換的訊框與該預測的訊框相結合以獲得該取樣的音訊信號之該等訊框；及控制一切換過程，當一先前訊框是基於該轉換的訊框且一目前訊框是基於該預測的訊框時，該切換過程發生；當該切換過程發生時，提供一切換係數供訓練以使一預測合成級遭初始化。
一種具有一程式碼之電腦程式，當一電腦程式在一電腦或處理器上執行時，該程式碼用來執行如申請專利範圍第8項所述之方法。