TWI423252B - 多模式音訊信號解碼器、多模式音訊信號編碼器、使用基於線性預測編碼之雜訊塑形的方法與電腦程式 - Google Patents

多模式音訊信號解碼器、多模式音訊信號編碼器、使用基於線性預測編碼之雜訊塑形的方法與電腦程式 Download PDF

Info

Publication number
TWI423252B
TWI423252B TW099134191A TW99134191A TWI423252B TW I423252 B TWI423252 B TW I423252B TW 099134191 A TW099134191 A TW 099134191A TW 99134191 A TW99134191 A TW 99134191A TW I423252 B TWI423252 B TW I423252B
Authority
TW
Taiwan
Prior art keywords
mode
linear prediction
audio content
encoded
audio
Prior art date
Application number
TW099134191A
Other languages
English (en)
Other versions
TW201137860A (en
Inventor
Max Neuendorf
Guillaume Fuchs
Nikolaus Rettelbach
Tom Baeckstroem
Jeremie Lecomte
Juergen Herre
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of TW201137860A publication Critical patent/TW201137860A/zh
Application granted granted Critical
Publication of TWI423252B publication Critical patent/TWI423252B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

多模式音訊信號解碼器、多模式音訊信號編碼器、使用基於線性預測 編碼之雜訊塑形的方法與電腦程式 技術領域
依據本發明的實施例係有關於一種用以基於一音訊內容的一編碼表示型態來提供該音訊內容的一解碼表示型態之多模式音訊信號解碼器。
依據發明的進一步實施例係有關於一種用以基於一音訊內容的一輸入表示型態來提供該音訊內容的一編碼表示型態之多模式音訊信號編碼器。
依據發明的進一步實施例係有關於一種用以基於一音訊內容的一編碼表示型態來提供該音訊內容的一解碼表示型態之方法。
依據發明的進一步實施例係有關於一種用以基於一音訊內容的一輸入表示型態來提供該音訊內容的一編碼表示型態之方法。
依據發明的進一步實施例係有關於實施該等方法的電腦程式。
發明背景
下面將闡述一些發明背景以便促進理解發明及其優點。
在過去十年中,在產生數位地儲存及分配音訊內容的可行性上已花費大力氣。此方面上的一重大成就是定義國際標準ISO/IEC 14496-3。此標準的第3部分有關於音訊內容 的編碼與解碼,及第3部分的第4分部有關於一般音訊編碼。ISO/IEC 14496第3部分第4分部定義了用以編碼及解碼一般音訊內容的一概念。此外,已提出了進一步的改進以便提高品質及/或減小需要的位元率。
再者,已發現的是,基於頻域之音訊編碼器的性能針對包含語音的音訊內容不是最佳的。最近,已提出了一統一語音及音訊編解碼器,其將來自兩世界(即語音編碼與音訊編碼(例如,參見參考文獻[1]))的技術有效率組合。
在此一音訊編碼器中,一些音訊訊框在頻域中編碼及一些音訊訊框在線性預測域中編碼。
然而,已發現難以在不犧牲大量位元率的情況下於在不同域中編碼之諸訊框間轉變。
鑑於此情況,期望產生一種用以編碼及解碼包含語音與一般音訊之音訊內容的概念,這允許有效率實現在使用不同模式編碼之諸部分間轉變。
發明概要
依據發明的一實施例產生一種用以基於一音訊內容的一編碼表示型態來提供該音訊內容的一解碼表示型態之多模式音訊信號解碼器,該音訊信號解碼器包含一頻譜值決定器,其組配來獲得針對該音訊內容的複數部分之諸組解碼頻譜係數。該多模式音訊信號解碼器亦包含一頻譜處理器,其組配來,針對在線性預測模式中編碼的該音訊內容的一部分依一組線性預測域參數將一頻譜塑形應用於一組 解碼頻譜係數或其一預處理形態,及針對在頻域模式中編碼的該音訊內容的一部分依一組比例因數參數將一頻譜塑形應用於一組解碼頻譜係數或其一預處理形態。該多模式音訊信號解碼器亦包含一頻域至時域轉換器,其組配來,針對在線性預測模式中編碼之該音訊內容的一部分基於頻譜塑形的一組解碼頻譜係數獲得該音訊內容的一時域表示型態,及針對在頻域模式中編碼之該音訊內容的一部分基於頻譜塑形的一組解碼頻譜係數獲得該音訊內容的一時域表示型態。
此多模式音訊信號解碼器是基於此觀測結果:在不同模式中編碼之音訊內容的諸部分間的有效率轉變可藉由執行頻域中的一頻譜塑形而獲得,亦即,針對在頻域模式中編碼之音訊內容的諸部分與針對在線性預測模式中編碼之音訊內容的諸部分,對諸組解碼頻譜係數的頻譜塑形。藉由這麼做,針對在線性預測模式中編碼之音訊內容的一部分基於頻譜塑形的一組解碼頻譜係數獲得之一時域表示型態,與針對在頻域模式中編碼之音訊內容的一部分基於頻譜塑形的一組解碼頻譜係數獲得之一時域表示型態在「同一域中」(例如,是同一轉換類型的頻域至時域轉換的輸出值)。因而,在線性預測模式中編碼之音訊內容的一部分的時域表示型態與在頻域模式中編碼之音訊內容的一部分的時域表示型態可有效率組合而沒有不可接受的失真。舉例而言,典型頻域至時域轉換器的混疊消除特性可由在同一域中(例如,都表示一音訊內容域中的一音訊內容)的頻域至 時域轉換信號利用。因而,可獲得在不同模式中編碼之音訊內容的諸部分間的良好品質轉變而無需大量位元率來允許此類轉變。
在一較佳實施例中,多模式音訊信號解碼器進一步包含一疊加器,其組配來將在線性預測模式中編碼之該音訊內容的一部分的一時域表示型態與在頻域模式中編碼之該音訊內容的一部分重疊及相加。藉由使在不同域中編碼之音訊內容的諸部分重疊,可實現優點,該優點在多模式音訊信號解碼器的兩種模式中都可藉由將頻譜塑形的諸組解碼頻譜係數輸入於頻域至時域轉換器中而獲得。藉由在頻域至時域轉換之前在多模式音訊信號解碼器的兩模式中都執行頻譜塑形,在不同模式中編碼之音訊內容的諸部分的時域表示型態通常包含非常好的重疊及相加特性,這允許良好品質轉變而無需額外旁側資訊。
在一較佳實施例中,該頻域至時域轉換器組配來,針對在線性預測模式中編碼之該音訊內容的一部分使用一重疊轉換獲得該音訊內容的一時域表示型態,及針對在頻域模式中編碼之該音訊內容的一部分使用一重疊轉換獲得該音訊內容的一時域表示型態。在此情況中,疊加器較佳地組配來使在該等模式的不同模式中編碼之該音訊內容的後續部分的時域表示型態重疊。因此,可獲得平滑轉變。由於對兩種模式都在頻域中應用一頻譜塑形,頻域至時域轉換器在兩種模式中提供的時域表示型態相容及允許良好品質轉變。使用重疊轉換帶來轉變之品質與位元率效率間的 一改進折衷,因為重疊轉換即使在出現量化誤差時也允許平滑轉變同時避免重大位元率開銷。
在一較佳實施例中,頻域至時域轉換器組配來應用同一轉換類型的重疊轉換以針對在該等模式的不同模式中編碼之該音訊內容的諸部分獲得該音訊內容的時域表示型態。在此情況中,疊加器組配來使在該等模式的不同模式中編碼之該音訊內容的後續部分的該時域表示型態重疊及相加,使得由該重疊轉換引起的一時域混疊減少或消除。此概念是基於此事實:藉由在頻域中應用比例因數參數及線性預測域參數二者,頻域至時域轉換器對兩模式的輸出信號都在同一域(音訊內容域)中。因此,可利用混疊消除,其通常藉由將同一轉換類型的重疊轉換應用於一音訊信號表示型態的後續及部分重疊部分來獲得。
在一較佳實施例中,該疊加器組配來使,如由一相關聯重疊轉換提供、在該等模式的一第一模式中編碼之該音訊內容的一第一部分的一視窗化時域表示型態,或其一量值縮放而頻譜未失真形態,與由一相關聯重疊轉換提供、在該等模式的一第二模式中編碼之該音訊內容的一第二後續部分的一視窗化時域表示型態,或其一量值縮放而頻譜未失真形態重疊及相加。藉由在合成重疊轉換的輸出信號避免應用不為音訊內容的後續部分所用全部不同編碼模式共用的任一信號處理(例如,一濾波等等),由重疊轉換的混疊消除特性可採用全部優點。
在一較佳實施例中,該頻域至時域轉換器組配來提供 在該等模式的不同模式中編碼之該音訊內容的諸部分的時域表示型態,使得該等提供之時域表示型態在同一域中,因為它們是線性組合的,除了一視窗化轉變操作外,未將一信號塑形濾波操作應用於所提供時域表示型態中的一或兩者。換言之,頻域至時域轉換的輸出信號對兩模式都是音訊內容的時域表示型態(及對一激發域至時域轉換濾波操作,不是激發信號)。
在一較佳實施例中,頻域至時域轉換器組配來執行一反向修正離散餘弦轉換,以針對在線性預測模式中編碼之該音訊內容的一部分及針對在頻域模式中編碼之該音訊內容的一部分,獲得一音訊信號域中該音訊內容的一時域表示型態作為該反向修正離散餘弦轉換的結果。
在一較佳實施例中,多模式音訊信號解碼器包含一LPC濾波器係數決定器,其組配來針對在線性預測模式中編碼之該音訊內容的一部分基於該等線性預測編碼濾波器係數的一編碼表示型態來獲得解碼的線性預測編碼濾波器係數。在此情況中,多模式音訊信號解碼器亦包含一濾波器係數轉換器,其組配來將該等解碼的線性預測編碼濾波器係數轉換成一頻譜表示型態,以便獲得與不同頻率相關聯的增益值。因此,LPC濾波器係數可充當線性預測域參數。多模式音訊信號解碼器亦包含一比例因數決定器,其組配來針對在一頻域模式中編碼之該音訊內容的一部分基於該等比例因數值的一編碼表示型態獲得解碼的比例因數值(其充當比例因數參數)。頻譜處理器包含一頻譜修正器, 其組配來將與在線性預測模式中編碼之該音訊內容的一部分相關聯之一組解碼頻譜係數或其一預處理形態,與線性預測模式增益值相組合,以便獲得(解碼)頻譜係數的一增益值處理(及,因而頻譜塑形)形態,其中解碼頻譜係數或其預處理形態的貢獻依增益值來加權。再者,頻譜修正器組配來將與在頻域模式中編碼之音訊內容的一部分相關聯之一組解碼頻譜係數或其一預處理形態,與解碼比例因數值相組合,以便獲得(解碼)頻譜係數的一比例因數處理(頻譜塑形)形態,其中該等解碼頻譜係數或其預處理形態的貢獻依該等比例因數值來加權。
藉由使用此方法,在多模式音訊信號解碼器的兩模式都可獲得一已知雜訊塑形同時仍確保頻域至時域轉換器在於不同模式中編碼之音訊信號的諸部分間轉變時提供具有良好轉變特性的輸出信號。
在一較佳實施例中,係數轉換器組配來使用一奇離散傅立葉轉換將表示一線性預測編碼濾波器(LPC濾波器)的一時域脉衝響應之解碼LPC濾波器係數轉換成頻譜表示型態。濾波器係數轉換器組配來,由解碼LPC濾波器係數的頻譜表示型態獲取線性預測模式增益值,使得該等增益值是頻譜表示型態之係數量值的一函數。因而,在線性預測模式中執行的頻譜塑形接管一線性預測編碼濾波器的雜訊塑形功能。因此,解碼頻譜表示型態(或其預處理形態)的量化雜訊被修改使得量化雜訊對,解碼LPC濾波器係數的頻譜表示型態相對大之「重要」頻率相對小。
在一較佳實施例中,濾波器係數轉換器及組合器組配來使得一指定解碼頻譜係數或其一預處理形態對指定頻譜係數之一增益處理形態的貢獻由與指定解碼頻譜係數相關聯之一線性預測模式增益值的一量值決定。
在一較佳實施例中,頻譜值決定器組配來將一反向量化應用於解碼量化頻譜係數,以便獲得解碼及反向量化的頻譜係數。在此情況中,頻譜修正器組配來,藉由依與一指定解碼頻譜係數相關聯之一線性預測模式增益值的一量值調整該指定解碼頻譜係數的一有效量化步驟來執行一量化雜訊塑形。因此,在頻譜域中執行的雜訊塑形適於LPC濾波器係數描述的信號特性。
在一較佳實施例中,多模式音訊信號解碼器組配來使用一中間線性預測模式開始訊框以便自一頻域模式訊框轉變至一組合線性預測模式/代數碼激發線性預測模式訊框。在此情況中,音訊信號解碼器組配來獲得該線性預測模式開始訊框的一組解碼頻譜係數。再者,音訊解碼器組配來依與之相關聯的一組線性預測域參數將一頻譜塑形應用於針對線性預測模式開始訊框的該組解碼頻譜係數或其一預處理形態。音訊信號解碼器亦組配來基於頻譜塑形的一組解碼頻譜係數獲得線性預測模式開始訊框的一時域表示型態。音訊解碼器亦組配來將具有一相對長左側轉變斜坡及一相對短右側轉變斜坡之一開始視窗應用於該線性預測模式開始訊框的該時域表示型態。藉由這麼做,產生一頻域模式訊框與一組合線性預測模式/代數碼激發線性預 測模式訊框間的轉變,這包含與前一頻域模式訊框的良好重疊及相加特性且同時使線性預測域係數可為後續組合線性預測模式/代數碼激發預測模式訊框使用。
在一較佳實施例中,多模式音訊信號解碼器組配來使在該線性預測模式開始訊框之前的一頻域模式訊框之一時域表示型態的一右側部分,與該線性預測模式開始訊框之一時域表示型態的一左側部分重疊,以獲得一時域混疊的減小或消除。此實施例是基於此觀測結果:良好時域混疊消除特性係藉由在頻域中執行對線性預測模式開始訊框的一頻譜塑形而獲得,因為前一頻域模式訊框的頻譜塑形亦在頻域中執行。
在一較佳實施例中,音訊信號解碼器組配來使用與該線性預測模式開始訊框相關聯之線性預測域參數,以便初始化一代數碼激發線性預測模式解碼器來至少解碼該組合線性預測模式/代數碼激發線性預測模式訊框的一部分。以此方式,不需要傳輸一些習知方法中存在的額外一組線性預測域參數。線性預測模式開始訊框允許即使對一相對長重疊週期也產生始於前一頻域模式開始訊框的一良好轉變,及初始化一代數碼激發線性預測(ACELP)模式解碼器。因而,能以非常高的效率獲得具有良好音訊品質的轉變。
依據發明的另一實施例產生一種用以基於一音訊內容的一輸入表示型態來提供該音訊內容的一編碼表示型態之多模式音訊信號編碼器,該音訊編碼器包含一時域至時間 頻率域轉換器,其組配來處理該音訊內容的該輸入表示型態以獲得該音訊內容的一頻域表示型態。該音訊編碼器進一步包含一頻譜處理器,其組配來,針對在線性預測模式中編碼之該音訊內容的一部分依一組線性預測域參數將一頻譜塑形應用於一組頻譜係數或其一預處理形態。該音訊信號編碼器亦組配來針對在頻域模式中編碼的該音訊內容的一部分依一組比例因數參數將一頻譜塑形應用於一組頻譜係數或其一預處理形態。
上述多模式音訊信號編碼器是基於此觀測結果:如果音訊內容針於在線性預測模式中編碼之音訊內容的諸部分及針於在頻域模式中編碼之音訊內容的諸部分都轉換成頻域(亦標示為時間頻率域),可獲得允許具有低失真的一簡單音訊解碼之一有效率音訊編碼。再者,已發現的是,藉由針於在線性預測模式中編碼之音訊內容的一部分及針於在頻域模式中編碼之音訊內容的一部分都將一頻譜塑形應用於一組頻譜係數(或其一預處理形態)可減小量化誤差。如果在不同模式中使用不同類型參數來決定頻譜塑形(即,線性預測模式中線性預測域參數,及頻域模式中比例因數參數),雜訊塑形可適於音訊內容的目前處理部分的特性同時仍將時域至頻域轉換應用於不同模式中的同一音訊信號(的諸部分)。因此,多模式音訊信號編碼器針對具有一般音訊部分及語音音訊部分兩者的音訊信號藉由選擇性將適當類型頻譜塑形應用於諸組頻譜係數而能夠提供一良好編碼性能。換言之,針對被識別為似語音的一音訊訊框,可將 基於一組線性預測域參數的一頻譜塑形應用於一組頻譜係數,及針對識別為一般音訊類型而非一語音類型的一音訊訊框,可將基於一組比例因數參數的一頻譜塑形應用於一組頻譜係數。
總之,多模式音訊信號編碼器允許編碼具有時間可變特性(一些時間部分為似語音及其它部分為一般音訊)之一音訊內容,其中針對在不同模式中編碼之音訊內容的諸部分,以相同方式將音訊內容的時域表示型態被轉換成頻域。藉由應用基於不同參數(線性預測域參數對比例因數參數)的一頻譜塑形,考慮音訊內容的不同部分的不同特性,以便獲得針對後續量化之頻譜塑形的頻譜係數。
在一較佳實施例中,時域至頻域轉換器組配來,針對在線性預測模式中編碼之該音訊內容的一部分及針對在頻域模式中編碼之該音訊內容的一部分將在一音訊信號域中之一音訊內容的一時域表示型態轉換成該音訊內容的一頻域表示型態。藉由針對頻域模式與線性預測模式都基於同一輸入信號執行時域至頻域轉換(在一轉換操作的意思上講,如舉例而言,一MDCT轉換操作或一基於濾波器組的頻率分離操作),能以特別良好效率執行一解碼器側重疊及相加操作,這促進了解碼器側的信號重建,及避免需要在不同模式間有一轉變時傳輸額外資料。
在一較佳實施例中,時域至頻域轉換器組配來針對在不同模式中編碼之該音訊內容的諸部分應用同一轉換類型的分析重疊轉換來獲得頻域表示型態。再者,使用同一轉 換類型的重疊轉換允許簡單重建音訊內容同時避免區塊假影。特別地,在沒有顯著負擔的情況下使用一臨界取樣是可能的。
在一較佳實施例中,頻譜處理器組配來,依使用對在線性預測模式中編碼之該音訊內容的一部分的一基於互相關的分析而獲得的一組線性預測域參數,或依使用對在頻域模式中編碼之該音訊內容的一部分的一心理聲學模型分析而獲得一組比例因數參數,選擇性將該頻譜塑形應用於該組頻譜係數或其一預處理形態。藉由這麼做,針對音訊內容的似語音部分,其中基於互相關的分析提供有意義雜訊塑形資訊,及針對音訊內容的一般音訊部分,其中心理聲學模型分析提供有意義雜訊塑形資訊,都可實現一適當雜訊塑形。
在一較佳實施例中,音訊信號編碼器包含一模式選擇器,其組配來分析該音訊內容以便決定是在線性預測模式抑或是在頻域模式中編碼該音訊內容的一部分。因此,可選擇適當的雜訊塑形概念同時在一些情況中保持此類型的時域至頻域轉換不受影響。
在一較佳實施例中,多模式音訊信號編碼器組配來編碼一音訊訊框,其介於一頻域模式訊框與一組合線性預測模式/代數碼激發線性預測模式訊框之間作為一線性預測模式開始訊框。多模式音訊信號編碼器組配來將具有一相對長左側轉變斜坡及一相對短右側轉變斜坡之一開始視窗應用於該線性預測模式開始訊框的該時域表示型態,以獲 得一視窗化時域表示型態。多模式音訊信號編碼器組配來獲得該線性預測模式開始訊框之該視窗化時域表示型態的一頻域表示型態。多模式音訊信號編碼器亦組配來獲得該線性預測模式開始訊框的一組線性預測域參數,並依該組線性預測域參數將一頻譜塑形應用於該線性預測模式開始訊框之該視窗化時域表示型態的該頻域表示型態,或其一預處理形態。音訊信號編碼器亦組配來編碼該組線性預測域參數及該線性預測模式開始訊框的該視窗化時域表示型態之頻譜塑形的頻域表示型態。以此方式,獲得一轉變音訊訊框的編碼資訊,該轉變音訊訊框的該編碼資訊可用來重建音訊內容,其中有關轉變音訊訊框的編碼資訊允許一平滑左側轉變及同時允許初始化一ACELP模式解碼器來解碼一後續音訊訊框。由多模式音訊信號編碼器之不同模式間的轉變所引起的開銷被最小化。
在一較佳實施例中,多模式音訊信號編碼器組配來使用與該線性預測模式開始訊框相關聯之該線性預測域參數以便初始化一代數碼激發線性預測模式編碼器來至少編碼後接該線性預測模式開始訊框的該組合轉換編碼激發線性預測模式/代數碼激發線性預測模式訊框的一部分。因此,獲得用於線性預測模式開始訊框且亦在表示音訊內容之一位元串流中編碼之線性預測域參數被再用,以編碼使用ACELP模式的一後續音訊訊框。這增加了編碼效率,且在沒有額外ACELP初始旁側資訊的情況下亦允許有效率解碼。
在一較佳實施例中,多模式音訊信號編碼器包含一線性預測編碼濾波器係數決定器,其組配來分析在一線性預測模式中編碼之該音訊內容的一部分或其一預處理形態,以決定與在該線性預測模式中編碼之該音訊內容的該部分相關聯之LPC濾波器係數。多模式音訊信號編碼器亦包含一濾波器係數轉換器,其組配來將該等線性預測編碼濾波器係數轉換成一頻譜表示形態,以便獲得與不同頻率相關聯之線性預測模式增益值。多模式音訊信號編碼器亦包含一比例因數決定器,其組配來分析在頻域模式中編碼之該音訊內容的一部分,或其一預處理部分,以決定與在頻域模式中編碼之該音訊內容的該部分相關聯之比例因數。多模式音訊信號編碼器亦包含一組合器配置,其組配來將在線性預測模式中編碼之該音訊內容的一部分的一頻域表示形態或其一預處理形態,與該線性預測模式增益值相組合,以獲得增益處理頻譜成分(亦標示為係數),其中該音訊內容之該頻域表示型態的該等頻譜成分的貢獻依該線性預測模式增益值來加權。組合器亦組配來將將在頻域模式中編碼之該音訊內容的一部分的一頻域表示形態或其一預處理形態,與該等比例因數相組合,以獲得增益處理頻譜成分,其中該音訊內容之該頻域表示型態的該等頻譜成分(或頻譜係數)的貢獻依該等比例因數來加權。
在此實施例中,該增益處理頻譜成分形成頻譜塑形的諸組頻譜係數(或頻譜成分)。
依據發明的另一實施例產生一種用以基於一音訊內容 的一編碼表示型態來提供該音訊內容的一解碼表示型態之方法。
依據發明的又一實施例產生一種用以基於一音訊內容的一輸入表示型態來提供該音訊內容的一編碼表示型態之方法
依據發明的再一實施例產生一種用以執行該等方法當中的一或多個方法之電腦程式。
該等方法及該電腦程式是基於與上面所討論裝置相同的觀測結果。
圖式簡單說明
本發明的實施例將隨後參考附圖來描述,其中:第1a-b圖繪示依據本發明之一實施例之一音訊信號編碼器的一方塊示意圖;第2圖繪示一參考音訊信號編碼器的一方塊示意圖;第3圖繪示依據本發明之一實施例之一音訊信號編碼器的一方塊示意圖;第4圖繪示一TCX視窗的一LPC係數內插的一圖解;第5圖繪示用以基於解碼LPC濾波器係數獲取線性預測域增益值之一函數的一電腦程式碼;第6圖繪示用以將一組解碼頻譜係數與線性預測模式增益值(或線性預測域增益值)相組合之一電腦程式碼;第7圖繪示針對將所謂的“LPC”作為負擔發送之一切換式時域/頻域(TD/FD)編解碼器之不同訊框及相關聯的資訊之一示意表示型態; 第8圖繪示針對使用用以轉變的“LPC2MDCT”而自頻域切換至線性預測域編碼器之訊框與相關聯參數的一示意表示型態;第9圖繪示包含TCX及一頻域編碼器的一基於LPC的雜訊塑形之一音訊信號編碼器的一示意表示型態;第10圖繪示TCX MDCT在信號域中執行之一統一語音及音訊編碼(USAC)的一統一視圖;第11a-b圖繪示依據發明之一實施例之一音訊信號解碼器的一方塊示意圖;第12a-b圖繪示TCX-MDCT在信號域中之一USAC解碼器的一統一視圖;第13a-b圖繪示可依據第7及12圖在音訊信號解碼器中執行之處理步驟的一示意表示型態;第14圖繪示依據第11及12圖的音訊信號解碼器的後續音訊訊框的一處理的一示意表示型態;第15圖繪示一表格,其表示為變數MOD[]的函數之一些頻譜係數;第16圖繪示表示視窗序列及轉換視窗的一表格。第17a圖繪示發明之一實施例中的一音訊視窗轉變的一示意表示型態;第17b圖繪示發明之一延伸實施例中的一音訊視窗轉變的一表格;第18圖繪示依一編碼LPC濾波器係數獲取線性預測域增益值g[k]的一處理流程。
實施例之詳細說明
1.依據第1圖的音訊信號編碼器
下面將參考第1圖討論依據發明的一實施例之一音訊信號編碼器,第1圖繪示此一多模式音訊信號編碼器100的一方塊示意圖。多模式音訊信號編碼器有時亦簡要標示為一音訊編碼器。
音訊編碼器100組配來接收一音訊內容的一輸入表示表示型態110,該輸入表示表示型態110典型地是一時域表示型態。音訊編碼器100基於輸入表示表示型態110提供音訊內容的一編碼表示型態。例如,音訊編碼器100提供一位元串流112,其是一編碼音訊表示型態。
音訊編碼器100包含一時域至頻域轉換器120,其組配來接收音訊內容的輸入表示型態110或其一預處理形態110’。時域至頻域轉換器120基於輸入表示型態110、110’提供音訊內容的一頻域表示型態122。頻域表示型態122可採用一序列諸組頻譜係數的形式。例如,時域至頻域轉換器可以是一基於視窗的時域至頻域轉換器,其基於輸入音訊內容的一第一訊框的時域樣本來提供一第一組頻譜係數,及基於輸入音訊內容的一第二訊框的時域樣本來提供一第二組頻譜係數。輸入音訊內容的第一訊框可例如與輸入音訊內容的第二訊框重疊約50%。一時域視窗化可被應用來自第一音訊訊框獲取第一組頻譜係數,及一視窗化亦可被應用來自第二音訊訊框獲取第二組頻譜係數。因而, 時域至頻域轉換器可組配來執行對輸入音訊資訊之視窗化部分(例如,重疊訊框)的重疊轉換。
音訊編碼器100亦包含一頻譜處理器130,其組配來接收音訊內容的頻域表示型態122(或可取捨地,其一頻譜後處理形態122’),並基於其提供一序列頻譜塑形的諸組頻譜係數132。頻譜處理器130可組配來,依針對在線性預測模式中編碼的音訊內容的一部分(例如,一訊框)之一組線性預測域參數134將一頻譜塑形應用於一組頻譜係數122或其一預處理形態122’,以獲得頻譜塑形的一組頻譜係數132。頻譜處理器130亦可組配來,依針對在頻域模式中編碼的音訊內容的一部分(例如,一訊框)之一組比例因數參數136將一頻譜塑形應用於一組頻譜係數122或其一預處理形態122’,以獲得針對在頻域模式中編碼的音訊內容的該部分之頻譜塑形的一組頻譜係數132。頻譜處理器130可例如包含一參數提供器138,其組配來提供該組線性預測域參數134及該組比例因數參數136。例如,參數提供器138可使用一線性預測分析器提供該組線性預測域參數134,及使用一心理聲學模型處理器提供該組比例因數參數136。然而,提供線性預測域參數134或該組比例因數參數136的其它可行性亦可應用。
音訊編碼器100包含一量化編碼器140,其組配來接收針對音訊內容的每一部分(例如,針對每一訊框)之頻譜塑形的一組頻譜係數132(如由頻譜處理器130提供)。可選擇地,量化編碼器140可接收頻譜塑形的一組頻譜係數132的一後 處理形態132’。量化編碼器140組配來提供頻譜塑形的一組頻譜係數132(或可取捨地其一預處理形態)的一編碼形態142。量化編碼器140可例如組配來,針對在線性預測模式中編碼的音訊內容的一部分提供頻譜塑形的一組頻譜係數132的一編碼形態142,及針對在頻域模式中編碼的音訊內容的一部分亦提供頻譜塑形的一組頻譜係數132的一編碼形態142。換言之,同一量化編碼器140可用來編碼頻譜塑形的諸組頻譜係數,而不論音訊內容的一部分是在線性預測模式抑或在頻域模式中編碼。
此外,音訊編碼器100能可取捨地包含一位元串流酬載格式器150,其組配來基於頻譜塑形的諸組頻譜係數的編碼形態142提供位元串流112。然而,位元串流酬載格式器150當然可包括在位元串流112中的額外編碼資訊,以及組態資訊控制資訊等等。舉例而言,一可取捨編碼器160可接收編碼的該組線性預測域參數134及/或該組比例因數參數136並將其一編碼形態提供至位元串流酬載格式器150。因此,針對在線性預測模式中編碼之音訊內容的一部份,該組線性預測域參數134的一編碼形態可被包括於位元串流112,及針對在頻域中編碼之音訊內容的一部份,該組比例因數參數136的一編碼形態可被包括於位元串流112。
音訊信號編碼器100進一步可取捨地包含一模式控制器170,其組配來決定音訊內容的一部分(例如,音訊內容的一訊框)是在線性預測模式抑或是在頻域模式中編碼。為此目的,模式控制器170可接收音訊內容的輸入表示型態 110、其預處理形態110’或其頻域表示型態122。模式控制器170可例如使用一語音檢測演算法來判定音訊內容的似語音(speech-like)部分並提供一模式控制信號172,模式控制信號172響應於檢測一似語音部分在線性預測模式中編碼音訊內容的該部分。相反,如果模式控制器發現音訊內容的一指定部分不是似語音的,模式控制器170提供模式控制信號172使得模式控制信號172指示在頻域模式中編碼音訊內容的該部分。
下面將詳細討論音訊編碼器100的總體功能。多模式音訊信號編碼器100組配來有效率編碼音訊內容的似語音及不似語音部分二者。為此目的,音訊編碼器100至少包含兩模式,即線性預測模式與頻域模式。然而,音訊編碼器110之時域至頻域轉換器120組配來在線性預測模式與頻域模式都將音訊內容的相同時域表示型態(例如,輸入表示型態110或其預處理形態110’)轉換成頻域中。然而,針對不同操作模式,頻域表示型態122的一頻率解析度可不同。頻域表示型態122不是立即被量化及編碼,而是在量化及編碼之前被頻譜塑形。頻譜塑形係以將量化解碼器140所引入量化雜訊的影響保持足夠小之一方式來執行,以便避免過度失真。在線性預測模式中,頻譜塑形依獲自於音訊內容的一組線性預測域參數134來執行。在此情況中,如果線性預測域參數之一頻域表示型態的一相對應頻譜係數包含一相對較大值,頻譜塑形可例如被執行使得頻譜係數被加重(被加權較高)。換言之,頻域表示型態122的頻譜係數是依據線 性預測域參數之一頻譜域表示型態的相對應頻譜係數來加權。因此,線性預測域參數之頻譜域表示型態的相對應頻譜係數取相對較大值之頻域表示型態122的頻譜係數,因頻譜塑形的該組頻譜係數132中的較高加權而用相對較高解析度來量化。換言之,存在依據線性預測域參數134(例如,依據線性預測域參數134的一頻譜域表示型態)的一頻譜塑形帶來一良好雜訊塑形之音訊內容部分,因為頻域表示型態132的頻譜係數(其對量化雜訊更敏感)在頻譜塑形中被加權較高,使得由量化編碼器140引入的有效量化雜訊實際上減少。
相比之下,在頻域中編碼的音訊內容部分歷經一不同的頻譜塑形。在此情況中,例如使用一心理聲學模型處理器來決定比例因數參數136。心理聲學模型處理器評估頻域表示型態122之頻譜成分的一頻譜遮罩及/或時間遮罩。此對頻譜遮罩及時間遮罩的評估被用來決定頻域表示型態122的哪些頻譜成分(例如,頻譜係數)應以高有效量化精度來編碼,及頻域表示型態122的哪些頻譜成分(例如,頻譜係數)應以相對低有效量化精度來編碼。換言之,心理聲學模型處理器可例如決定不同成分的心理聲學相關,並指示心理聲學上較不重要的頻譜成分應以低或甚至很低的量化精度來量化。因此,頻譜塑形(其由頻譜處理器130執行)可依據心理聲學模型處理器所提供的比例因數參數136來對頻域表示型態122(或其後處理形態122’)的頻譜成分(例如,頻譜係數)加權。心理聲學上重要的頻譜成分在頻譜塑 形中被指定一高加權,使得它們被量化解碼器140以高量化精度來有效量化。因此,比例因數可描述不同頻率或頻帶的一心理聲學相關。
總之,音訊編碼器100可至少在兩不同模式間切換,即一線性預測模式及一頻域模式。音訊內容的重疊部分可在不同模式中編碼。為此目的,當在不同模式中編碼音訊內容的後續(例如,緊接後續)部分時,使用同一音訊信號之不同(但較佳重疊)部分的頻域表示型態。頻域表示型態122的頻譜域成分是依針對在頻域模式中編碼的音訊內容的一部分之一組線性預測域參數,或依針對在頻域模式中編碼的音訊內容的一部分之比例因數參數而頻譜塑形。用來決定在時域至頻域轉換與量化/編碼間執行的一適當頻譜塑形之不同概念允許對不同類型音訊內容(似語音及非似語音)擁有一良好編碼效率及低失真雜訊塑形。
2.依據第3圖的音訊編碼器
下面將參考第3圖描述依據發明之另一實施例之一音訊編碼器300。第3圖繪示此一音訊編碼器300的一方塊示意圖。應注意的是,音訊編碼器300是參考音訊編碼器200的一改進形態,參考音訊編碼器200的一方塊示意圖在第2圖繪示。
2.1依據第2圖的參考音訊信號編碼器
換言之,為促進理解依據第3圖的音訊編碼器300,參考於第2圖中繪示之USAC編碼器的方塊功能圖,將首先描述參考統一語音及音訊編碼編碼器(USAC編碼器)200。參 考音訊編碼器200組配來接收一音訊內容的一輸入表示型態210(通常為一時域表示型態),並基於其提供該音訊內容的一編碼表示型態212。音訊編碼器200包含例如一開關或分配器220,其組配來將音訊內容的輸入表示型態210提供至一頻域編碼器230及/或一線性預測域編碼器240。頻域編碼器230組配來接收音訊內容的輸入表示型態210’並基於其提供一編碼的頻譜表示型態232及一編碼的比例因數資訊234。線性預測域編碼器240組配來接收輸入表示型態210”並基於其提供一編碼的激發242及一編碼的LPC濾波器係數資訊244。頻域編碼器230包含例如一修改的離散餘弦轉換時域至頻域轉換器230a,其提供音訊內容的一頻譜表示型態230b。頻域編碼器230亦包含一心理聲學分析工具230c,其組配來分析音訊內容的頻譜遮罩及時間遮罩並提供比例因數230d及編碼的比例因數資訊234。頻域編碼器230亦包含一縮放器(scaler)230e,其組配來依據比例因數230d來縮放時域至頻域轉換器230a提供的頻譜值,藉此獲得音訊內容的一縮放頻譜表示型態230f。頻域編碼器230亦包含一量化器230g,其組配來量化音訊內容的縮放頻譜表示型態230f,及一熵編碼器230h,其組配來熵編碼量化器230g所提供之音訊內容的量化縮放頻譜表示型態。熵編碼器230h隨後提供編碼的頻譜表示型態232。
線性預測域編碼器240組配來基於輸入音訊表示型態210”提供一編碼的激發242及一編碼的LPC濾波器係數資訊244。LPD編碼器240包含一線性預測分析工具240a,其 組配來基於音訊內容的輸入表示型態210”提供LPC濾波器係數240b及編碼的LPC濾波器係數資訊244。LPC編碼器240亦包含一激發編碼,其包含兩平行支路,即一TCX支路250及一ACELP支路260。這些支路是可切換的(例如,使用一開關270),以提供一轉換編碼激發252或一代數編碼激發262。TCX支路250包含一基於LPC的濾波器250a,其組配來接收音訊內容的輸入表示型態210”及LP分析工具240a所提供的LPC濾波器係數240b二者。基於LPC的濾波器250a提供一濾波器輸出信號250b,其可描述一基於LPC的濾波器所需要的刺激以便提供十分類似於音訊內容的輸入表示型態210”之一輸出信號。TCX支路亦包含一修改的離散餘弦轉換(MDCT),其組配來接收刺激信號250b並基於其提供刺激信號250b的一頻域表示型態250d。TCX支路亦包含一量化器250e,其組配來接收頻域表示型態250b並提供其的一量化形態250f。TCX支路亦包含熵編碼器250g,其組配來接收刺激信號250b之頻域表示型態250d的量化形態250f,並基於其提供轉換編碼激發信號252。
ACELP支路260包含一基於LPC的濾波器260a,其組配來接收LP分析工具240a所提供的LPC濾波器係數240b及亦接收音訊內容的輸入表示型態210”。基於LPC的濾波器260a組配來基於它們提供一刺激信號260b,刺激信號260b例如描述一解碼器側基於LPC的濾波器所需要的一刺激以便提供十分類似於音訊內容的輸入表示型態210”之一重建信號。ACELP支路260亦包含一ACELP 260c,其組配來使 用一適當的代數編碼演算法來編碼刺激信號260b。
綜上所述,在一切換音訊編解碼器,如舉例而言,參考文獻[1]中所述依據MPEG-D統一語音及音訊編碼工作草案(USAC)之一音訊編解碼器中,一輸入信號的相鄰部分可由不同編碼器處理。舉例而言,依據統一語音及音訊編碼工作草案(USAC WD)之音訊編解碼器可在基於例如參考文獻[2]中所述所謂高階音訊編碼(AAC)之一頻域編碼器,與基於例如參考文獻[3]中所述所謂AMR-WB+概念之線性預測域(LPD)編碼器(即,TCX及ACELP)之間切換。USAC編碼器在第2圖中示意繪示。
已發現的是,不同編碼器之間轉變的設計是用以能夠在不同編碼器之間無縫切換之一重要或甚至必要的問題。亦發現的是,由於在切換結構中所匯集之編碼技術的不同本質,通常難以實現此類轉變。然而,已發現的是,不同編碼器所共享的共用工具可使轉變簡化。現在參考依據第2圖的參考音訊編碼器200,可看到的是,在USAC中,頻域編碼器230在信號域中計算一修改的離散餘弦轉換(MDCT),同時轉換編碼的激發支路(TCX)在LPC殘餘域中計算一修改的離散餘弦轉換(MDCT 250c)(使用LPC殘餘250b)。再者,此兩編碼器(即,頻域編碼器230及TCX支路250)共享在一不同域中應用的同一種濾波器組。因而,當自一編碼器(例如,頻域編碼器230)進行至另一編碼器(例如,TCX編碼器250)時,參考音訊編碼器200(其可以是一USAC音訊編碼器)無法完全利用MDCT的重大性質,特別 是時域混疊消除(TDAC)。
再次參考依據第2圖的參考音訊編碼器200,亦可看到的是,TCX支路250及ACELP支路260共享一線性預測編碼(LPC)工具。這是ACELP的一關鍵特徵,ACELP是一源模型編碼器,其中LPC被用來模型化語音的聲道。對於TCX,LPC被用來對MDCT係數250d所引入的量化雜訊塑形。這藉由在執行MDCT 250c之前於時域中對輸入信號210”濾波(例如,使用基於LPC的濾波器250a)來進行。再者,LPC在藉由獲得饋入ACELP的適應性碼簿中之一激發信號而轉變至ACELP期間於TCX中使用。這額外允許獲得下一ACELP訊框的內插LPC諸組係數。
2.2依據第3圖的音訊信號編碼器
下面將描述依據第3圖的音訊信號編碼器300。為此目的,將參考依據第2圖的參考音訊信號編碼器200,因為依據第3圖的音訊信號編碼器300與依據第2圖的參考音訊信號編碼器200具有某些相類之處。
音訊信號編碼器300組配來接收一音訊內容的一輸入表示型態310,並基於其提供該音訊內容的一編碼表示型態312。音訊信號編碼器300組配來可在一頻域模式,其中一部分音訊內容的一編碼表示型態由一頻域編碼器330提供,與一線性預測模式,其中一部分音訊內容的一編碼表示型態由線性預測域編碼器340提供,之間切換。在不同模式中編碼的音訊內容部分在一些實施例中可重疊,而在其它實施例中可不重疊。
頻域編碼器3針對在頻域模編碼之訊內容的一部分接收音訊內容的輸入表示型態310’,並基於其提供一編碼頻譜表示型態332。線性預測域編碼器340針對在線性預測模式中編碼之音訊內容的一部分接收音訊內容的輸入表示型態310”,並基於其提供一編碼激發342。開關320能可取捨地用來將輸入表示型態310提供至頻域編碼器330及/或至線性預測域編碼器340。
頻域編碼器亦提供一編碼比例因數資訊334。線性預測域編碼器340提供一編碼LPC濾波器係數資訊344。
輸出側多工器380組配來,針對在頻域中編碼之音訊內容的一部分提供編碼的頻譜表示型態332及編碼的比例因數資訊334作為音訊內容的編碼表示型態312,及針對在線性預測模式中編碼之音訊內容的一部分提供編碼的激發342及編碼的LPC濾波器係數資訊344作為音訊內容的編碼表示型態312。
頻域編碼器330包含一修改的離散餘弦轉換330a,其接受音訊內容的時域表示型態310’並轉換音訊內容的時域表示型態310’以獲得音訊內容之一經MDCT轉換的頻域表示型態330b。頻域編碼器330亦包含一心理聲學分析工具330c,其組配來接收音訊內容的時域表示型態310’並基於其提供比例因數330d及編碼的比例因數資訊334。頻域編碼器330亦包含一組合器330e,其組配來將比例因數330e應用於音訊內容的經MDCT轉換頻域表示型態330b,以便用不同的比例因數值來縮放音訊內容之MDCT轉換頻域表示型 態330b的不同頻譜係數。因此,獲得了音訊內容之MDCT轉換頻域表示型態330b的一頻譜塑形形態330f,其中頻譜塑形依比例因數330d來執行,其中相對大比例因數330d所關聯之頻譜區域在相對較小比例因數330d所關聯之頻譜區域上被加重。頻域編碼器330亦包含一量化器,其組配來接收音訊內容之MDCT轉換頻域表示型態330b的縮放(頻譜塑形)形態330f,並提供其一量化形態330h。頻域編碼器330亦包含一熵編碼器330i,其組配來接收量化形態330h並基於其提供編碼的頻譜表示型態332。量化器330g及熵編碼器330i可視為一量化編碼器。
線性預測域編碼器340包含一TCX支路350及一ACELP支路360。此外,LPD編碼器340包含一LP分析工具340a,其一般由TCX支路350及一ACELP支路360使用。LP分析工具340a提供LPC濾波器係數340b及編碼的LPC濾波器係數資訊344。
TCX支路350包含一MDCT轉換器350a,其組配來接收時域表示型態310”作為一MDCT轉換輸入。需要注意的是,頻域編碼器的MDCT 330a及TCX支路350的MDCT 350a接收音訊內容之同一時域表示型態的(不同)部分作為轉換輸入信號。
因此,如果音訊內容的後續及重疊部分(例如,訊框)在不同模式中編碼,頻域編碼器的MDCT 330a及TCX支路350的MDCT 350a可接收具有一時間重疊之時域表示型態作為轉換輸入信號。換言之,頻域編碼器的MDCT 330a及 TCX支路350的MDCT 350a接收「在相同域中」的轉換輸入信號,亦即皆為表示音訊內容的時域信號。這與音訊編碼器200相反,在音訊編碼器200中,頻域編碼器230的MDCT 230a接收音訊內容的一時域表示型態,而TCX支路250的MDCT 250c接收一信號的一殘餘時域表示型態或激發信號250b,而不是音訊內容自身的一時域表示型態。
TCX支路350進一步包含一濾波器係數轉換器350b,其組配來將LPC濾波器係數340b轉換成頻譜域中以獲得增益值350c。濾波器係數轉換器350b有時也標示為一「線性預測至MDCT轉換器」。TCX支路350亦包含一組合器350d,其接收音訊內容的MDCT轉換表示型態及增益值350c並基於其提供音訊內容之MDCT轉換表示型態的一頻譜塑形形態350e。為此目的,組合器350d依增益值350c來對音訊內容之MDCT轉換表示型態的頻譜係數加權以便獲得頻譜塑形形態350e。TCX支路350亦包含一量化器350f,其組配來接收音訊內容之MDCT轉換表示型態的頻譜塑形形態350e,並提供其一量化形態350g。TCX支路350亦包含一熵編碼器350h,其組配來提供量化形態350g的一熵編碼(例如,算術編碼)形態作為編碼激發342。
ACELP支路包含一基於LPC的濾波器360a,其接收由LP分析工具340a提供的LPC濾波器係數340b,及音訊內容的時域表示型態310”。基於LPC的濾波器360a發揮與基於LPC的濾波器260a相同的功能並提供與激發信號260b等效的一激發信號360b。ACELP支路360針對使用ACELP模式 (其是線性預測模式的一子模式)編碼之音訊內容的一部分提供一編碼激發342。
有關音訊編碼器300的總體功能,可以說一部分音訊內容可在頻域模式中、在TCX模式(其是線性預測模式的一第一子模式)中或在ACELP模式(其是線性預測模式的一第二子模式)中編碼。如果一部分音訊信號在頻域模式中或在TCX模式中編碼,使用頻域編碼器的MDCT 330a或TCX支路的MDCT 350a將該部分音訊內容首先轉換至頻域中。MDCT 330a與MDCT 350a皆在音訊內容的時域表示型態上操作,及在有頻域模式與TCX模式間的一轉變時甚至至少部分地在音訊內容的相同部分上操作。在頻域模式中,依心理聲學分析工具330c所提供的比例因數對由MDCT轉換器330a提供的頻域表示型態執行頻譜塑形,及在TCX模式中,依LP分析工具340a提供的LPC濾波器係數對由MDCT 350a提供的頻域表示型態執行頻譜塑形。量化器330g可與量化器350f類似或甚至相同,及熵編碼330i可與熵編碼350h類似或甚至相同。再者,MDCT轉換330a可與MDCT轉換350a類似或甚至相同。然而,在頻域編碼器330及TCX支路350中可使用MDCT轉換的不同大小。
再者,可見到的是,LPC濾波器係數340b被TCX支路350及ACELP支路360二者使用。這促進在TCX模式中編碼之音訊內容部分與在ACELP模式中編碼之音訊內容部分之間的轉變。
綜上所述,本發明之一實施例由,在統一語音及音訊 編碼(USAC)的背景中於時域中執行對TCX的MDCT 350a及在頻域中應用基於LPC的濾波(組合器350d)組成。LPC分析工具(例如,LP分析工具340a)如前一樣運行(例如,如在音訊信號編碼器200中),及係數(例如,係數340b)仍照常傳輸(例如,以編碼的LPC濾波器係數344的形式)。然而,雜訊塑形不再是藉由在時域中應用一濾波器而是藉由在頻域中應用一加權(這例如由組合器350d執行)來完成。頻域中的雜訊塑形係藉由將LPC係數(例如,LPC濾波器係數340b)轉換至MDCT域中(這可由濾波器係數轉換器350b執行)來實現。詳情參考第3圖,第3圖繪示了在頻域中應用TCX的基於LPC的雜訊塑形之概念。
2.3有關LPC係數的計算及應用的細節
下面將描述LPC係數的計算及應用。例如使用LPC分析工具340a對當前TCX視窗計算適當的一組LPC係數。一TCX視窗可以是音訊內容的時域表示型態的一視窗化部分,其在TCX模式中編碼。LPC分析視窗位於LPC編碼器訊框的末端邊界,如第4圖所示。
參考第4圖,一TCX訊框,亦即在TCX模式中編碼的一音訊訊框被繪示。一橫座標410描述時間,及一縱座標420描述一視窗函數的量值。
一內插被執行以計算對應於TCX視窗的重心之該組LPC係數340b。該內插在導抗頻譜頻率(ISF域)中執行,其中LPC係數通常被量化及編碼。內插係數接著在大小為SizeR+SizeM+SizeL之TCX視窗的中間居中。
詳情參考第4圖,第4圖繪示針對一TCX視窗之LPC係數內插的一圖解。
內插的LPC係數接著如在TCX中那樣加權(詳情見參考文獻[3]),以得到符合心理聲學考量的一適當雜訊塑形。獲得的內插及加權LPC係數(亦用lpc_coeffs簡要標示)使用一方法最後被轉換成MDCT比例因數(亦標示為線性預測模式增益值),該方法的一虛擬程式碼在第5及6圖中繪示。
第5圖繪示用以基於輸入LPC係數(“lpc_coeffs”)提供MDCT比例因數(mdct_scaleFactors)之一函數“LPC2MDCT”的一虛擬程式碼。如可見,函數“LPC2MDCT”接收LPC係數“lpc_coeffs”、一LPC階數值“lpc_order”及視窗大小值“sizeR”、“sizeM”、“sizeL”作為輸入變數。在一第一步驟,一陣列“InRealData[i]”的項用LPC係數的一調變形態填充,如參考數字510所示。如可見,具有指數在0與lpc_order-1之間之陣列“InRealData”的項與陣列“InImagData”的項設為由相對應LPC係數“lpcCoeffs[i]”決定、由一餘弦項或一正弦項調變之值。具有指數ilpc_order之陣列“InRealData”與“InImagData”的項設為0。
因此,陣列“InRealData[i]”與“InImagData[i]”描述一時域響應的一實部與一虛部,該時序響應由LPC係數決定、用一複調變項(cos(i.π/sizeN)-j.sin(i.π/sizeN))調變。
之後,應用一複快速傅立葉轉換,其中陣列“InRealData[i]”與“InImagData[i]”描述複快速傅立葉轉換的輸入信號。複快速傅立葉轉換的一結果由陣列 “OutRealData”與“OutImagData”提供。因此,陣列“OutRealData”與“OutImagData”描述頻譜係數(具有頻率指數i),該頻譜係數表示由時域濾波器係數描述的LPC濾波器響應。
之後,計算具有頻率指數i且用“mdct_scaleFactors[i]”標示之所謂的MDCT比例因數。一MDCT比例因數“mdct_scaleFactors[i]”被計算為相對應頻譜係數(由項“OutRealData[i]”與“OutImagData[i]”描述)的絕對值的倒數。
應注意的是,在參考數字510所示的複數值調變操作及在參考數字520所示的複快速傅立葉轉換的執行實際上被認為是一奇離散傅立葉轉換(ODFT)。奇離散傅立葉轉換具有下列公式: 其中N=sizeN,其二倍於MDCT的大小。
在上面公式中,LPC係數lpc_coeffs[n]發揮轉換輸入函數x(n)的作用。輸出函數X0(k)用值“OutRealData[k]”(實部)及“OutImagData[k]”(虛部)表示。
函數“complex_fft()”是一習知複離散傅立葉轉換(DFT)的一快速實施形態。獲得的MDCT比例因數(“mdct_scaleFactors”)是正值,它們進而被用來縮放輸入信號的MDCT係數(由MDCT 350a提供)。縮放將依據第6圖所示的虛擬程式碼來執行。
2.4有關視窗化及重疊的細節
在第7及8圖中描述後續訊框間的視窗化及重疊。
第7圖繪示由將LPC0作為負擔發送之一切換式時域/頻域編解碼器所執行的視窗化。第8圖繪示在使用用以轉變的“lpc2mdct”來從一頻域編碼器切換至一時域編碼器時所執行的視窗化。
現在參考第7圖,一第一音訊訊框710在頻域模式中編碼並使用一視窗712來視窗化。
使用標示為一「開始視窗」之一視窗718來視窗化第二音訊訊框716,第二音訊訊框716與第一音訊訊框710重疊將近50%,且在頻域模式中編碼。開始視窗具有一長左側轉變斜坡718a及一短右側轉變斜坡718c。
在線性預測模式中編碼的一第三音訊訊框722使用一線性預測模式視窗724來視窗化,該線性預測模式視窗724包含匹配右側轉變斜坡718c的一短左側轉變斜坡724a及一短右側轉變斜坡724c。在頻域模式中編碼的一第四音訊訊框728係使用具有一相對短左側轉變斜坡730a及一相對長右側轉變斜坡730c之一「停止視窗」來視窗化。
在自頻域模式轉變至線性預測模式時,亦即,第二音訊訊框716與第三音訊訊框722之間的轉變,習知發送額外一組LPC係數(亦標示為“LPC0”)來實現到線性預測域編碼模式的適當轉變。
然而,依據本發明的一實施例產生一種具有用以在頻域模式與線性預測模式間轉變的一新類型開始視窗之音訊 編碼器。現在參考第8圖,可看到的是,一第一音訊訊框810使用所謂的「長視窗」812來視窗化且在頻域模式中編碼。「長視窗」812包含一相對長右側轉變斜坡812b。一第二音訊訊框816使用一線性預測域開始視窗818來視窗化,線性預測域開始視窗818包含匹配視窗812的右側轉變斜坡812b之一相對長左側轉變斜坡818a。線性預測域開始視窗818亦包含一相對短右側轉變斜坡818b。第二音訊訊框816在線性預測模式中編碼。因此,決定第二音訊訊框816的LPC濾波器係數,及第二音訊訊框816的時域樣本使用一MDCT亦被轉換成頻譜表示型態。針對第二音訊訊框816已決定的LPC濾波器係數進而在頻域應用且用來基於音訊內容的時域表示型態來頻譜塑形由MDCT所提供的頻譜係數。
使用與前面所述視窗724相同的一視窗824來視窗化一第三音訊視窗822。第三音訊訊框822在線性預測模式中編碼。使用實質上與視窗730相同的一視窗830來視窗化一第四音訊訊框828。
參考第8圖所述的概念帶來以下優點:經由使用視窗818而在線性預測模式中編碼的一中間(部分重疊)第二音訊訊框816來進行,使用一所謂「長視窗」而在頻域模式中編碼之音訊訊框810,與使用視窗824而在線性預測模式中編碼之一第三音訊訊框822之間的轉變。由於第二音訊訊框通常被編碼使得頻譜塑形在頻域中執行(亦即,使用濾波器係數轉換器350b),可獲得使用具有一相對長右側轉變斜坡812b之一視窗而在頻域中編碼之音訊訊框810與第二音訊 訊框816之間的一良好重疊與相加。此外,編碼的LPC濾波器係數代替比例因數值被傳輸用於第二音訊訊框816。這將第8圖的轉變與第7圖的轉變區分開,在第7圖的轉變中,除了比例因數值外還傳輸額外LPC係數(LPC0)。因此,在不傳輸附加額外資料,如舉例而言第7圖情況中傳輸的LPC0係數的情況下,能以良好品質執行第二音訊訊框816與第三音訊訊框822之間的轉變。因而,在不傳輸額外資訊的情況下,初始化用於第三音訊訊框822中之線性預測域編解碼器所需要的資訊是可得的
總之,在關於第8圖所述實施例中,線性預測域開始視窗818可使用一基於LPC的雜訊塑形來代替習知比例因數(其例如傳輸用於音訊訊框716)。LPC分析視窗818對應於開始視窗718,及不需要發送額外設置LPC係數(如舉例而言,LPC0係數),如第8圖中所述。在此情況中,用解碼線性預測域編碼器開始視窗818的計算LPC殘餘可易於饋送ACELP的適應性碼簿(其可用於編碼至少一部份第三音訊訊框822)。
綜上所述,第7圖繪示一切換式時域/頻域編解碼器的功能,其需要發送稱為LP0的額外一組LPC係數集合作為負擔。第8圖繪示使用用於轉變之所謂的“LPC2MDCT”而自一頻域編碼器至一線性預測域編碼器的切換。
3.依據第9圖的音訊信號編碼器
下面將參考第9圖描述一音訊信號編碼器900,第9圖適於實施就第8圖所述的概念。依據第9圖的音訊信號編碼器 900非常類似於依據第3圖的音訊信號300,使得相同的裝置及信號用相同的參考數字來標示。這裡將省略對此類相同裝置及信號的討論,而參考對音訊信號編碼器300的討論。
然而,音訊信號編碼器900與音訊信號編碼器300相比的擴充之處在於,頻域編碼器930的組合器330e可選擇性將比例因數330d或線性預測域增益值350c應用於頻譜塑形。為此目的,使用一開關930j,其允許將比例因數330d或線性預測域增益值350c饋送至組合器330e以供頻譜係數330b的頻譜塑形。因而,音訊信號編碼器900甚至知曉三種操作模式,即:
1.頻域模式:音訊內容的時域表示型態使用MDCT 330a被轉換成頻域中,及一頻譜塑形依比例因數330d而應用於音訊內容的頻域表示型態330b。對於使用頻域模式編碼的一音訊訊框,頻譜塑形的頻域表示型態330f之一量化及編碼形態332與一編碼比例因數資訊334被包括於位元串流中。
2.線性預測模式:在線性預測模式中,決定一部分音訊內容的LPC濾波器係數340b,及使用該LPC濾波器係數340b決定一轉換編碼激發(第一子模式)或一ACELP編碼激發,視哪種編碼激發看似更加位元率有效率而定。對於在線性預測模式中編碼的一音訊訊框,編碼激發342及編碼LPC濾波器係數資訊344被包括於位元串流中。
3.具有基於LPC濾波器係數的頻譜塑形之頻域模式:可選擇地,在一第三可能模式中,音訊內容可由頻域編碼器 930處理。然而,代之比例因數330d,線性預測域增益值350c被應用於組合器330e中的頻譜塑形。因此,音訊內容之頻譜塑形頻域表示型態330f的一量化及熵編碼形態332被包括於位元串流中,其中頻譜塑形頻域表示型態330f依據由線性預測域編碼器340所提供的線性預測域增益值350c來頻譜塑形。此外,對於此一音訊訊框,一編碼的LPC濾波器係數資訊344被包括於位元串流中。
藉由使用上述第三模式,可能實現就第8圖中的第二音訊訊框816已描述的轉變。這裡應指出的是,如果頻域編碼器930所使用MDCT的尺度對應於TCX支路350所使用MDCT的尺度,及如果頻域編碼器930所使用的量化330g對應於TCX支路350所使用的量化350f,及如果頻域編碼器使用的熵編碼330i與TCX支路使用的熵編碼350h對應,使用頻譜塑形取決於線性預測域增益值之頻域編碼器930來編碼一音訊訊框與使用一線性預測域編碼器來編碼音訊訊框816等效。換言之,音訊訊框816的編碼可藉由適應TCX支路350來完成,使得MDCT 350a接管MDCT 330a的特性,及使得量化350f接管量化330g的特性及使得熵編碼350h接管熵編碼330i的特性,或藉由在頻域編碼器930中應用線性預測域增益值350c來完成。此兩解決方案等效且造成對開始視窗816的處理如就第8圖所討論的那樣進行。
4.依據第10圖的音訊信號解碼器
下面將參考第10圖描述帶有在信號域中執行的TCX MDCT之USAC(統一語音及音訊編碼)的一統一視圖。
這裡應注意的是,在依據發明的一些實施例中,TCX支路350及頻域編碼器330、930幾乎共享所有相同的編碼工具(MDCT 330a、350a;組合器330e、350d;量化器330g、350f;熵編碼器330i、350h)且可視為一單一編碼器,如在第10圖中描繪。因而,依據本發明的實施例允許切換式編碼器USAC的一更統一結構,其中僅可限定兩種編解碼器(頻域編碼器及時域編碼器)。
現在參考第10圖,可看到的是,音訊信號編碼器1000組配來接收音訊內容的一輸入表示型態1010並基於其提供音訊內容的一編碼表示型態102。如果一部分音訊內容在頻域模式中或在線性預測模式的一TCX子模式中編碼,音訊內容的輸入表示型態1010(典型地一時域表示型態)輸入至一MDCT 1030a。MDCT 1030提供時域表示型態1010的一頻域表示型態1030b。頻譜表示型態1030b輸入至組合器1030e,其將頻域表示型態1030b與頻譜塑形值1040a組合,以獲得頻域表示型態1030b的一頻譜塑形形態1030f。頻譜塑形表示型態1030f係使用一量化器1030g來量化以獲得其一量化形態1030h,及量化形態1030h被送至一熵編碼器(例如,算術編碼器)1030i。熵編碼器1030i頻譜塑形頻域表示型態1030f的一量化及熵編碼表示型態,該量化及編碼表示型態用1032來標示。對於頻域模式及線性預測模式的TCX子模式,MDCT 1030a、組合器1030e、量化器1030g及熵編碼器1030i形成一常見信號處理路徑。
音訊信號編碼器1000包含一ACELP信號處理路徑 1060,其亦接收音訊內容的時域表示型態並基於其使用一LPC濾波器係數資訊1040b提供一編碼激發1062。可視為可取捨之ACELP信號處理路徑包含一基於LPC的濾波器1060a,其接受音訊內容的時域表示型態1010並將一殘餘信號或激發信號1060b提供至ACELP編碼器1060c。ACELP編碼器基於殘餘信號或激發信號1060b提供編碼的激發1062。
音訊信號編碼器1000亦包含一常見信號分析器1070,其組配來接收音訊內容的時域表示型態1010並基於其提供頻譜塑形資訊1040a及LPC濾波器係數濾波器資訊1040b以及解碼一目前音訊訊框所需要旁側資訊的一編碼形態。因此,常見信號分析器1070在目前音訊訊框於頻域模式中編碼時使用一心理聲學分析1070a提供頻譜塑形資訊1040a,且在目前音訊訊框於頻域模式中編碼時提供一編碼比例因數資訊。用於頻譜塑形的比例因數資訊由心理聲學分析1070a提供,及對於在頻域模式中編碼的一音訊訊框,描述比例因數1070b之一編碼比例因數資訊被包括於位元串流中。
對於在線性預測模式的TCX子模式中編碼的一音訊訊框,常見信號分析1070使用一線性預測分析1070c來獲取頻譜塑形資訊1040a。線性預測分析1070c生成一組LPC濾波器係數,它們由線性預測至MDCT區塊1070d轉換成一頻譜表示型態。因此,頻譜塑形資訊1040a獲自於如上所討論LP分析1070c所提供的LPC濾波器係數。因而,對於在線性預測模式的轉換編碼激發子模式中編碼的一音訊訊框,常見 信號分析器1070基於線性預測分析1070c(而非基於心理聲學分析1070a)來提供頻譜塑形資訊1040a且亦提供一編碼LPC濾波器係數資訊而非一編碼比例因數資訊以供包括於位元串流1012中。
再者,對於在線性預測模式之ACELP子模式中編碼的一音訊訊框,常見信號分析器1070的線性預測分析1070c將LPC濾波器係數資訊1040b提供至ACELP信號處理支路1060之基於LPC的濾波器1060a。在此情況中,常見信號分析器1070提供一編碼LPC濾波器係數資訊以供包括於位元串流1012中。
綜上所述,相同的信號處理路徑被用於頻域模式及用於線性預測模式的TCX子模式。然而,視窗化在MDCT之前或與其結合應用,及MDCT 1030a的尺度可依編碼模式而變化。但是,頻域模式與線性預測模式的TCX子模式的不同之處在於,在頻域模式中一編碼比例因數資訊被包括於位元串流中,而在線性預測模式中一編碼LPC濾波器係數資訊被包括於位元串流中。
在線性預測模式的ACELP子模式中,一ACELP編碼激發及一編碼LPC濾波器係數資訊被包括於位元串流中。
5.依據第11圖的音訊信號解碼器
5.1解碼器概述
下面將描述一音訊信號解碼器,其能夠解碼由上面所述音訊信號編碼器提供之一音訊內容的編碼表示型態。
依據第11圖的音訊信號解碼器1100組配來接收一音訊 內容的編碼表示型態1110,並基於其提供音訊內容的一解碼表示型態1112。音訊信號解碼器1100包含一可取捨位元串流酬載去格式器1120,其組配來接收包含音訊內容的編碼表示型態1110之一位元串流並自該位元串流擷取音訊內容的編碼表示型態,藉此獲得音訊內容的一擷取編碼表示型態1110’。可取捨位元串流酬載去格式器1120可自位元串流擷取一編碼比例因數資訊、一編碼LPC濾波器係數資訊及一額外控制資訊或信號增強旁側資訊。
音訊信號解碼器1100亦包含一頻譜值決定器1130,其組配來獲得針對音訊內容的複數部分(例如,重疊或非重疊音訊訊框)之複數組解碼頻譜係數1132。諸組解碼頻譜係數能使用一預處理器1140來可取捨預處理,藉此產生預處理的諸組解碼頻譜係數1132’。
音訊信號解碼器1100亦包含一頻譜處理器1150,其組配來,針對在線性預測模式中編碼之一部分音訊內容(例如,一音訊訊框),依一組線性預測域參數1152來將一頻譜塑形應用於一組解碼頻譜係數1132或其一預處理形態1132’,而針對在頻域模式中編碼之一部分音訊內容(例如,一音訊訊框),依一組比例因數參數1154來將一頻譜塑形應用於一組解碼頻譜係數1132或其一預處理形態1132’。因此,頻譜處理器1150獲得頻譜塑形的諸組解碼頻譜係數1158。
音訊信號解碼器1100亦包含一頻域至時域轉換器1160,其組配來,針對在線性預測模式中編碼之一部分音 訊內容,接收頻譜塑形的一組解碼頻譜係數1158並基於頻譜塑形的該組解碼頻譜係數1158獲得音訊內容的一時域表示型態1162。頻域至時域轉換器1160亦組配來,針對在頻域模式中編碼之一部分音訊內容,基於頻譜塑形的各自組解碼頻譜係數1158獲得音訊內容的一時域表示型態1162。
音訊信號解碼器1100亦包含一可取捨時域處理器1170,其可取捨地執行對音訊內容之時域表示型態1162的一時域後處理以獲得音訊內容的解碼表示型態1112。然而,在沒有時域後處理器1170的情況下,音訊內容的解碼表示型態1112可與頻域至時域轉換器1160提供之音訊內容的時域表示型態1162相同。
5.2進一步細節
下面將描述音訊解碼器1100的進一步細節,這些細節可視為對音訊信號解碼器的可取捨改進。
應注意的是,音訊信號解碼器1100是一多模式音訊信號解碼器,其能夠處理一編碼音訊信號表示型態,其中音訊內容的後續部分(例如,重疊或非重疊音訊訊框)使用不同模式編碼。下面,音訊訊框將視為一部分音訊內容的一簡單範例。由於音訊內容被再細分成音訊訊框,使在相同模式中編碼之後續(部分重疊或非重疊)音訊訊框的解碼表示型態之間,及還有在不同模式中編碼之後續(重疊或非重疊)音訊訊框之間,平滑轉變是特別重要的。較佳地,即使在一些情況中及/或對於一些轉變,重疊十分小,音訊信號解碼器110也處理後續音訊訊框重疊近50%的音訊表示型態。
由於此原因,音訊信號解碼器1100包含一疊加器,其組配來重疊及相加在不同模式中編碼之後續音訊訊框的時域表示型態。疊加器例如可為頻域至時域轉換器1160的一部分,或可配置在頻域至時域轉換器1160的輸出。為了在重疊後續音訊訊框時獲得高效率及良好品質,時域至頻域轉換器組配來使用一重疊轉換來獲得在線性預測模式中(例如,在其轉換編碼激發子模式中)編碼之一音訊訊框的一時域表示型態,及亦使用一重疊轉換來獲得在頻域模式中編碼之一音訊訊框的一時域表示型態。在此情況中,疊加器組配來使在不同模式中編碼之後續音訊訊框的時域表示型態重疊。藉由使用時域至頻域轉換的此類合成重疊轉換,其對於在不同模式中編碼的音訊訊框可較佳地為同一轉換類型,一臨界取樣可被使用及由重疊及相加操作所產生的負擔可最小化。同時,後續音訊訊框之時域表示型態的重疊部分間有一時域混疊消除。應指出的是,於在不同模式中編碼之諸後續音訊訊框間的轉變時有一時域混疊消除的可能性由下列事實引起:在不同模式的同一域中應用一頻域至時域轉換,使得針對在一第一模式中編碼的一第一音訊訊框之頻譜塑形的一組解碼頻譜係數執行的一合成重疊轉換的輸出,可與針對在一第二模式中編碼的一後續音訊訊框之頻譜塑形的一組解碼頻譜係數執行的一重疊轉換的輸出直接組合(亦即,不用一中間的濾波操作而組合)。因而,針對在第一模式中編碼之一音訊訊框所執行的重疊轉換的輸出與針對在第二模式中編碼之一音訊訊框的重疊 轉換的輸出之一線性組合被執行。當然,一適當的重疊視窗化可作為重疊轉換過程的一部分或在重疊轉換過程之後而執行。
因此,僅透過在不同模式中編碼之後續音訊訊框的諸時域表示型態間的重疊及相加操作來獲得一時域混疊消除。
換言之,重要的是,頻域至時域轉換器1160提供針對兩種模式都在同一域中的時域輸出信號。頻域至時域轉換(例如,結合一相關聯轉變視窗化的重疊轉換)的輸出信號針對不同模式都在同一域中之事實意味著,時域至頻域轉換的輸出信號即使是在不同模式間轉變也可線性組合。例如,頻域至時域轉換的輸出信號皆為描述一揚聲器信號的時間演進之一音訊內容的時域表示型態。換言之,後續音訊訊框之音訊內容的時域表示型態1162可被一般處理以便獲取揚聲器信號。
再者,應注意的是,頻譜處理器1150可包含一參數提供器1156,其組配來基於自位元串流1110擷取的資訊,例如基於一編碼比例因數資訊及一編碼LPC濾波器參數資訊,來提供該組線性預測域參數1152及該組比例因數參數1154。參數提供器1156可例如包含一LPC濾波器係數決定器,其組配來針對在線性預測模式中編碼之一部分音訊內容基於LPC濾波器的一編碼表示型態獲得解碼LPC濾波器係數。再者,參數提供器1156可包含一濾波器係數轉換器,其組配來將解碼LPC濾波器係數轉換成一頻譜表示型態, 以便獲得與不同頻率相關聯之線性預測模式增益值。線性預測模式增益值(有時用g[k]標示)可認為是一組線性預測域參數1152。
參數提供器1156可進一步包含一比例因數決定器,其組配來針對在頻域模式中編碼之一音訊訊框基於比例因數值的一編碼表示型態獲得解碼比例因數值。解碼比例因數值可充當一組比例因數參數1154。
因此,可視為頻譜修改的頻譜塑形組配成,將與在線性預測模式中編碼之一音訊訊框相關聯之一組解碼頻譜係數1132或其一預處理形態1132’,同線性預測模式增益值(認為是該組線性預測域參數1152)組合,以便獲得解碼頻譜係數1132的一增益處理(頻譜塑形)形態1158,其中解碼頻譜係數1132或其預處理形態1132’的貢獻依線性預測模式增益值而加權。此外,頻譜修正器可組配來將與在頻域模式中編碼之一音訊訊框相關聯的一組解碼頻譜係數1132或其預處理形態1132’同比例因數值(其認為是該組比例因數參數1154)組合以便獲得解碼頻譜係數1132的一比例因數處理(頻譜塑形)形態1158,其中解碼頻譜係數1132或其預處理形態1132’的貢獻依比例因數值(該組比例因數參數1154)而加權。因此,一第一類頻譜塑形,即依一組線性預測域參數的頻譜塑形,是在線性預測模式中執行,及一第二類頻譜塑形,即依一組比例因數參數的頻譜塑形是在頻域模式中執行。因此,對於似語音音訊訊框(其中頻譜塑形較佳地依該組線性預測域參數1152執行)及對於一般音訊,例如頻譜 塑形較佳地依該組比例因數參數1154執行的非似語音音訊訊框,時域表示型態1162上量化雜訊的一不利影響被保持得小。然而,藉由對似語音及非似語音音訊訊框二者,亦即對於在線性預測模式中編碼的音訊訊框及對於在頻域模式中編碼的音訊訊框,使用頻譜塑形來執行雜訊塑形,多模式音訊解碼器1100包含一低複雜度結構及同時允許在不同模式中編碼之音訊訊框的時域表示型態1162的一混疊消除重疊及相加。
其它細節將在下面討論。
6.依據第12圖的音訊信號解碼器
第12圖繪示依據發明之一進一步實施例之一音訊信號解碼器1200的一方塊示意圖。第12圖繪示帶有信號域中的一轉換編碼激發修正離散餘弦轉換(TCX-MDCT)之一統一語音及音訊編碼(USAC)解碼器的一統一視圖。
依據第12圖的音訊信號解碼器1200包含一位元串流去多工器1210,其可發揮位元串流酬載去格式器的功能。位元串流去多工器1210自表示一音訊內容的一位元串流擷取音訊內容的一編碼表示型態,其可包含編碼頻譜值及額外資訊(例如,一編碼比例因數資訊及一編碼LPC濾波器參數資訊)。
音訊信號解碼器1200亦包含開關1216、1218,其組配來將由位元串流去多工器提供之音訊內容的編碼表示型態的成分分配至音訊信號解碼器1200的不同成分處理區塊。例如,音訊信號解碼器1200包含一組合頻域模式/TCX子模 式支路1230,其自開關1216接收一編碼頻域表示型態並基於其提供音訊內容的一時域表示型態1232。音訊信號解碼器1200亦包含一ACELP解碼器1240,其組配來自開關1216接收一ACELP編碼激發資訊1238並基於其提供音訊內容的一時域表示型態。
音訊信號解碼器1200亦包含一參數提供器1260,其組配來,自開關針對在頻域模式中編碼的一音訊訊框接收一編碼比例因數資訊1254,及針對在線性預測模式中編碼的一音訊訊框接收一編碼LPC濾波器係數資訊1256,線性預測模式包含TCX子模式及ACELP子模式。參數提供器1260進一步組配來自開關1218接收控制資訊1258。參數提供器1260組配來為組合頻域模式/TCX子模式支路1230提供一頻譜塑形資訊。此外,參數提供器1260組配來將一LPC濾波器係數資訊1264提供至ACELP解碼器1240。
組合頻域模式/TCX子模式支路1230可包含一熵解碼器1230a,其接收編碼頻域資訊1228並基於其提供饋送至一反向量化器1230c的一解碼頻域資訊1230b。反向量化器1230c基於解碼頻域資訊1230b提供一解碼及反向量化的頻域資訊1230d,例如,為諸組解碼頻譜係數的形式。一組合器1230e組配來將解碼及反向量化的頻域資訊1230d與頻譜塑形資訊1262組合,以獲得頻譜塑形頻域資訊1230f。一反向修正離散餘弦轉換1230g接收頻譜塑形頻域資訊1230f,並基於其提供音訊內容的時域表示型態1232。
熵解碼器1230a、反向量化器1230c及反向修正離散餘 弦轉換1230g皆能可取捨地接收一些控制資訊,這些控制可被包括於位元串流中或由參考提供器1260自位元串流獲取。
參數提供器1260包含一比例因數解碼器1260a,其接收編碼比例因數資訊1254並提供一解碼比例因數資訊1260b。參數提供器1260亦包含一LPC係數解碼器1260c,其組配來接收解碼LPC濾波器係數資訊1256並基於其將一解碼LPC濾波器係數資訊1260d提供至一濾波器係數轉換器1260e。再者,LPC係數解碼器1260c將LPC濾波器係數資訊1264提供至ACELP解碼器1240。濾波器係數轉換器1260e組配來將LPC濾波器係數1260d轉換成頻域(亦標示為頻譜域)中且隨後自LPC濾波器係數1260d獲取線性預測模式增益值1260f。再者,參數提供器1260組配來例如使用一開關1260g選擇性提供解碼比例因數1260b或線性預測模式增益值1260f作為頻譜塑形資訊1262。
這裡應注意的是,依據第12圖的音訊信號編碼器可以由級間的一些額外預處理步驟及後處理步驟來補充。針對不同模式,預處理步驟及後處理步驟可不同。
下面將描述一些細節。
7.依據第13圖的信號流
下面將參考第13圖描述一可能的信號流。依據第13圖的信號流可出現於依據第12圖的音訊信號解碼器1200中。
應注意的是,為簡便起見,依據第13圖的信號流1300僅描述頻域模式及線性預測模式之TCX子模式中的操作。 然而,線性預測模式之ACELP子模式中的解碼可如就第12圖所作討論來進行。
常見頻域模式/TCX子模式支路1230接收編碼頻域資訊1228。編碼頻域資訊1228可包含所謂的算術編碼頻譜資料ac_spectral_data”,其自頻域模式中的一頻域通道串流(“fd_channel_stream”)擷取。編碼頻域資訊1228可包含一所謂的TCX編碼(“tcx_coding”),其自TCX子模式中的一線性預測域通道串流(“lpd_channel_stream”)擷取。可由熵解碼器1230a執行一熵解碼1330a。例如,可使用一算術解碼器來執行熵解碼1330a。因此,針對頻域編碼音訊訊框獲得量化頻譜係數“x_ac_quant”,而針對在TCX模式中編碼的音訊訊框,獲得量化TCX模式頻譜係數“x_tcx_quant”。在一些實施例中量化頻域模式頻譜係數及量化TCX模式頻譜係數可以是整數。熵解碼例如能以一上下文敏感方式來聯合解碼諸組解碼頻譜係數。再者,編碼某一頻譜係數需要的位元數目可依頻譜係數量值而變化,使得編碼具有一相對較大量值的頻譜係數需要更多碼字位元。
之後將例如使用反向量化器1230c執行量化頻域模式頻譜係數與量化TCX模式頻譜係數的反向量化1330c。反向量化可由下列公式來描述:
因此,針對在頻域模式中編碼的音訊訊框,獲得反向量化頻域模式頻譜係數(“x_ac_invquant”),及針對在TCX子模式中編碼的音訊訊框獲得反向量化TCX模式頻譜係數 (“x_tcx_invquant”)。
7.1在頻域中編碼之音訊訊框的處理
下面將總結頻域模式中的處理。在頻域模式中,一雜訊填充被可取捨應用於反向量化頻域模式頻譜係數,以獲得反向量化頻域模式頻譜係數1330d(“x_ac_invquant”)的一雜訊填充形態1342。接著,可執行對反向量化頻域模式頻譜係數之雜訊填充形態1342的一縮放,其中縮放用1344標示。在縮放中,比例因數參數(亦簡要標示為比例因數或sf[g][sfb])被應用以縮放反向量化頻域模式頻譜係數1342(“x_ac_invquant”)。例如,不同比例因數可與不同頻帶(頻率範圍或比例因數頻帶)的頻譜係數相關聯。因此,反向量化頻譜係數1342可與相關聯比例因數相乘以獲得縮放頻譜係數1346。縮放1344可較佳地如國際標準ISO/IEC 14496-3第4分部子條款4.6.2及4.6.3所述來執行。縮放1344可例如使用組合器1230e來執行。因此,獲得頻域模式頻譜係數的一縮放(及因而頻譜塑形)形態1346“x_rescal”,其可等效於頻域表示型態1230f。因此,一mid/side處理1348與一時間雜訊塑形處理1350的一組合能基於頻域模式頻譜係數的縮放形態1346可取捨執行,以獲得縮放頻域模式頻譜係數1346的一後處理形態1352。可取捨mid/side處理1348例如可在如ISO/IEC 14496-3:2005,information technology-coding of audio-visual objects第3部分:音訊、第4分部、子條款4.6.8.1中所述來執行。可取捨時間雜訊塑形可如ISO/IEC 14496-3:2005,information technology-coding of audio-visual objects第3部分:音訊、第4分部、子條款4.6.9中所述來執行。
之後,一反向修正離散餘弦轉換1354可應用於頻域模式頻譜係數的縮放形態1346或其後處理形態1352。因而,獲得目前處理音訊訊框之音訊內容的一時域表示型態1356。時域表示型態1356亦用xi,n標示。如一簡單化假設,可假設每音訊訊框有一時域表示型態xi,n。然而,在多個視窗(例如,所謂的「短視窗」)與一單一音訊訊框相關聯的一些情況中,每音訊訊框可有複數時域表示型態xi,n
之後,一視窗化1358被應用於時域表示型態1356,以獲得一視窗化時域表示型態1360,其亦用xi,n標示。因此,在每訊框有一視窗的一簡化情況中,對在頻域模式中編碼之每一音訊訊框獲得一視窗化時域表示型態1360。
7.2在TCX模式中編碼之音訊訊框的處理
下面將描述對在TCX模式中完全或部分編碼之一音訊訊框的處理。關於此問題,應注意的是,一音訊訊框可劃分成複數(例如四個)子訊框,它們可在線性預測模式的不同子模式中編碼。舉例而言,一音訊訊框的子訊框能在線性預測模式的TCX子模式或在線性預測模式的ACELP子模式中選擇性編碼。因此,子訊框中的每一個可被編碼使得獲得音訊品質與位元率間的一最佳編碼效率或一最佳折衷。舉例而言,對於在線性預測模式中編碼之一音訊訊框,使用名為“mod[]”的一陣列之一信令可被包括於位元串流中以指示該音訊訊框的哪些子訊框在TCX子模式中編碼及哪 些在ACELP子模式中編碼。然而,應指出的是,若假定整個訊框在TCX模式中編碼,本概念可最容易理解。一音訊訊框包含兩TCX子訊框之其它情況可視為該概念的一可取捨延伸。
現在假定整個訊框在TCX模式中編碼,可看到的是,一雜訊填充1370被應用於反向量化TCX模式頻譜係數1330d,其亦標示為“quant[]”。因此,獲得雜訊填充的一組TCX模式頻譜係數1372,其亦標示為“r[i]”。此外,一所謂的頻譜去塑形1374被應用於雜訊填充的該組TCX模式頻譜係數1372,以獲得頻譜去塑形的一組TCX模式頻譜係數1376,其亦標示為“r[i]”。之後,應用一頻譜塑形1378,其中該頻譜塑形係依線性預測域增益值來執行,線性預測增益值獲自於描述一線性預測編碼(LPC)濾波器之一濾波器響應的編碼LPC係數。頻譜塑形1378例如可使用組合器1230e來執行。因此,獲得重建的一組TCX模式頻譜係數1380,其亦用“rr[i]”來標示。之後,基於重建的該組TCX模式頻譜係數1380執行一反向量化MDCT 1382,以獲得在TCX模式中編碼之一訊框(或可選擇地,一子訊框)的一時域表示型態1384。之後,一縮放1386被應用於在TCX模式中編碼之一訊框(或一子訊框)的時域表示型態1384,以獲得在TCX模式中編碼之訊框(或子訊框)的一縮放時域表示型態1388,其中再縮放時域表示型態亦用“xw[i]”標示。應指出的是,再縮放1386通常是在TCX模式中編碼之一訊框或在TCX模式中編碼之子訊框的所有時域值的一相等縮放。因 此,再縮放1386通常不帶來一頻率失真,因為它不是頻率選擇性的。
在再縮放1386之後,一視窗化1390被應用於在TCX模式中編碼之一訊框(或一子訊框)的再縮放時域表示型態1388。因此,獲得視窗化時域樣本1392(其亦用“zi,n”標示),其表示在TCX模式中編碼之一訊框(或一子訊框)的音訊內容。
7.3重疊及相加處理
一序列訊框的時域表示型態1360、1392係使用一重疊及相加處理1394來組合。在重疊及相加處理中,一第一音訊訊框之一右側(時間上稍晚)部分的時域樣本與一後續第二音訊訊框之一左側(時間上稍早)部分的時域樣本重疊及相加。針對在相同模式中編碼之後續音訊訊框及針對在不同模式中編碼之後續音訊訊框皆執行此重疊及相加處理1394。即使後續音訊訊框因音訊解碼器的特定結構而在不同模式中(例如,在頻域模式中及在TCX模式中)編碼,一時域混疊消除也由重疊及相加處理1394執行,這避免了反向MDCT 1354的輸出與重疊及相加處理1394之間及還有反向MDCT 1382的輸出與重疊及相加處理1394之間的任何失真處理。換言之,除了視窗化1358、1390及再縮放1386(及可取捨地,一預加重濾波與一去重操作的一頻譜非失真組合)之外,反向MDCT處理1354、1382與重疊及相加處理1394之間沒有額外處理。
8.有關基於MDCT的TCX的細節
8.1基於MDCT的TCX工具說明
當核心模式是一線性預測模式(這由位元串流變數“core_mode”等於一之事實指示)時及當三TCX模式中的一或多個模式(例如,出自,用以提供512樣本包括256個重疊樣本的一TCX部分之一第一TCX模式,用以提供768個時域樣本包括256個重疊樣本之一第二TCX模式,及用以提供1280個TCX樣本包括256個重疊樣本之一第三TCX模式)被選為「線性預測域」編碼時,亦即如果“mod[x]”之四陣列項中的一者大於零(其中四陣列項mod[0]、mod[1]、mod[2]、mod[3]獲自於一位元串流變數並指示目前音訊訊框之四子訊框的LPC子模式,亦即指示一子訊框是在線性預測模式的ACELP子模式中編碼抑或是在線性預測模式的TCX子模式中編碼,及是使用一相對長TCX編碼、一中等長度TCX編碼抑或是一短長度TCX編碼),使用基於MDCT的TCX工具。換言之,如果目前音訊訊框的子訊框中的一者在線性預測模式的TCX子模式中編碼,則使用TCX工具。基於MDCT的TCX自一算術解碼器(其可用來實施熵解碼器1230a或熵解碼1330a)接收量化頻譜係數。量化係數(或其一反向量化形態1230b)由一舒適雜訊(其可由雜訊填充操作1370執行)首先完成。基於LPC的頻域雜訊塑形接著被應用於生成的頻譜係數(例如,使用組合器1230e,或頻譜塑形操作1378)(或其一頻譜去塑形形態),及一反向MDCT轉換(其可由MDCT 1230g或由反向MDCT操作1382實施)被執行以獲得時域合成信號。
8.2基於MDCT的TCX定義
下面將給出一些定義。
“lg”標示算術解碼器輸出的一些量化頻譜係數(例如,對於在線性預測模式中編碼之一音訊訊框)。
位元串流變數“noise_factor”標示一雜訊層級量化指數。
變數「雜訊層級」標示加入重建頻譜中之雜訊的一層級。
變數“noise[]”標示所產生雜訊的一向量。
位元串流變數“global_gain”標示一再縮放增益量化指數。
變數“g”標示一再縮放增益。
變數“rms”標示合成時域信號“x[]”的均方根。
變數“x[]”標示合成時域信號。
8.3解碼過程
基於MDCT的TCX向算術解碼器1230a請求由mod[]值(亦即,由變數mod[]的值)決定的一些量化頻譜係數lg。此值(亦即,變數mod[]的值)亦定義將在反向MDCT 1230中(或由反向MDCT處理1382及相對應視窗化1390)應用的視窗長度及形狀。視窗由三部分組成:L樣本的一左側重疊(亦標示為左側轉變斜坡)、M樣本的一中間部分及R樣本的一右重疊部分(亦標示為右側轉變斜坡)。為獲得長度為2*lg的一MDCT視窗,在左側加入ZL個零及在右側加入ZR個零。
在自一“short_window”轉變或轉變至一 “short_window”的情況中,相對應重疊區域L或R可需要減至128(樣本)以便適於“short_window”的一可能較短視窗斜坡。因此,區域M及相對應零區域ZL或ZR可能各需擴充64樣本。
換言之,一般有256樣本=L=R的一重疊。在FD模式至LPD模式的情況中減至128。
第15圖的圖式繪示作為mod[]的函數之一些頻譜係數,以及左零區域ZL、左重疊區域L、中間部分M、右重疊區域R及右零區域ZR的一些時域樣本。
MDCT視窗由下式指定:
下面將給出WSIN_LEFT,L與WSIN_RIGHT R的定義。
在視窗化步驟1390應用MDCT視窗W(n),其可視作一視窗化反向MDCT(例如,反向MDCT 1230g)的一部分。
由算術解碼器1230a(或可選擇地,由反向量化1230c)傳送之量化頻譜係數(亦標示為“quant[]”)由一舒適雜訊完成。所加入雜訊的層級由解碼位元串流變數“noise_factor”如下決定:noise_level=0.0625*(8-noise_factor)
接著使用隨機傳送值-1或+1的一隨機函數(用 “random_sign()”標示)來計算亦用“noise[]”標示的一雜訊向量。下列關係保持:noise[i]=random_sign()*noise_level;“quant[]”與“noise[]”以“quant[]”中8個連續零值被“noise[]”的成分替代之一方式組合來形成亦用“r[]”標示的重建頻譜係數向量。依據下列公式來檢測連續8個零值。
如下獲得重建頻譜:
上述雜訊填充可作為熵解碼器1230a所執行的熵解碼與組合器1230e所執行組合之間的一後處理而執行。
一頻譜取塑形依據下列步驟被應用於重建頻譜(例如,重建頻譜1376r[i]):
1.對第一四分之一頻譜的每8維區塊,計算指數為m之8維區塊的能量Em
2.計算比值Rm=sqrt(Em/EI),其中I是區塊指數,具有所有Em的最大值
3.如果Rm<0.1,則設Rm=0.1
4.如果Rm<Rm-1,則設Rm=Rm-1
屬於第一四分之一頻譜的每一8維區塊接著乘以因數Rm
一頻譜去塑形將作為配置於熵解碼器1230a與組合器 1230e間之一信號路徑中的後處理而執行。頻譜去塑形例如可由頻譜去塑形1374執行。
在應用反向MDCT之前,獲取對應於MDCT區塊的兩末端(亦即,左與右折叠點)之兩量化LPC濾波器,計算它們的加權形態,及計算相對應的降低取樣(64點,不論轉換長度)頻譜。
換言之,在第一時段獲得第一組LPC濾波器係數及在第二時段決定第二組LPC濾波器係數。諸組LPC濾波器係數較佳地獲自於位元串流中所包括之LPC濾波器係數的一編碼表示型態。第一時段較佳地在目前TCX編碼訊框(或子訊框)的開始或之前,及第二時段較佳地在TCX編碼訊框(或子訊框)的末尾或之後。因此,有效的一組LPC濾波器係數藉由形成第一組LPC濾波器係數與第二組濾波器係數的一加權平均值而決定。
加權LPC頻譜是藉由將一奇離散傅立葉轉換(ODFT)應用於LPC濾波器係數來計算。一複調變在計算奇離散傅立葉轉換(ODFT)之前被應用於LPC(濾波器)係數,使得ODFT頻率槽與MDCT頻率槽(較佳地完美)對準。例如,一指定LPC濾波器(z)的加權LPC合成頻譜如下來計算:
其中
其中,,是由下式指定之加權LPC 濾波器的係數:其中γ 1=0.92
換言之,用值(其中n在0與lpc_order-1之間)表示之一LPC濾波器的一時域響應被轉換成頻譜域中,以獲得頻譜係數X0[k]。LPC濾波器的時域響應可獲自於描述線性預測編碼濾波器的時域係數a1至a16
增益g[k]可依據下列方程式由LPC係數(例如,a1至a16)的頻譜表示型態X0[k]計算:
其中M=64是應用所計算增益的頻帶數。
之後,依計算增益g[k](亦標示為線性預測模式增益值)獲得一重建頻譜1230f、1380、rr[i]。舉例而言,一增益值g[k]可與一頻譜係數1230d、1376r[i]相關聯。可選擇地,複數增益值可與一頻譜係數1230f、1380、rr[i]相關聯。一加權係數a[i]可獲自於一或多個增益值g[k],或加權係數a[i]在一些實施例中甚至可與一增益值g[k]相同。因此,一加權係數a[i]可與相關聯頻譜值r[i]相乘,以決定頻譜係數r[i]對經頻譜塑形頻譜係數rr[i]的貢獻。
例如,下面方程式可保持:rr[i]=g[k].r[i]。
然而,不同關係亦可使用。
上面,變數k等於i/(lg/64)以計入LPC頻譜被降低取樣之事實。重建頻譜rr[]被饋入一反向MDCT 1230g、1382。當 執行將在下面詳細描述的反向MDCT時,重建頻譜值rr[i]充當時間頻率值Xi,k,或時間頻率值spec[i][k]。下列關係可保持:Xi,k=rr[k];或spec[i][k]=rr[k]。
這裡應指出的是,在上面TCX支路對頻譜處理的討論中,變數i是一頻率指數。不同的是,在MDCT濾波器組及區塊切換的討論中,變數i是一視窗指數。熟於此技者由上下文將易於認識變數i是一頻率指數抑或是一視窗指數。
再者,應注意的是,如果一音訊訊框僅包含一視窗,一視窗指數可等於一訊框指數。如果一訊框包含多個視窗(有時是這種情況),每訊框可有多個視窗指數值。
非視窗化輸出信號x[]用增益g再縮放,增益g由解碼全域增益指數(“global_gain”)的一反向量化獲得:
其中rms如下計算:
再縮放合成時域信號進而等於:x w [n]=x[n].g
在再縮放之後,應用視窗化與重疊及相加。視窗化可使用如上所述的一視窗W(n)且計入第15圖所示的視窗化參數來執行。因此,如下獲得一視窗化時域信號表示型態zi,n: zi,n=xw[n].W(n)。
下面將描述在存在TCX編碼音訊訊框(或音訊子訊框)及ACELP編碼音訊訊框(或音訊子訊框)二者時有幫助的一概念。再者,應注意的是,傳輸用於TCX編碼訊框或子訊框的LPC濾波器係數意味著將應用一些實施例來初始化ACELP解碼。
對於mod[]分別為1、2、3,TCX合成體的長度由TCX訊框長度(沒有重疊):256、512或1024樣本指定。
之後,採用下列符號:x[]標示反向修正離散餘弦轉換的輸出,z[]標示時域中的解碼視窗化信號及out[]標示合成時域信號。
反向修正離散餘弦轉換的輸出接著如下來再縮放及視窗化:
N對應於MDCT視窗大小,亦即N=2lg
當前一編碼模式是FD模式或是基於MDCT的TCX時,在目前解碼視窗化信號z i,n 與前一解碼視窗化信號z i-1,n 間應用一習知重疊及相加,其中指數i對已解碼MDCT視窗計數。由下列公式獲得最終的時域合成out
z i-1,n 來自FD模式的情況中:
N_l是來自FD模式之視窗序列的大小。i_out為輸出緩衝out加標,並按個已寫樣本來增量。
z i-1,n 是來自基於MDCT的TCX的情況中:
Ni-1是前一MDCT視窗的大小,i_out為輸出緩衝out加標,並按(N+L-R)/2個已寫樣本來增量。
下面將描述用以減少自在ACELP模式中編碼之一訊框或子訊框轉變至在基於MDCT的TCX模式中編碼之一訊框或子訊框時的假影之一些可選擇方法。然而,應指出的是,亦可使用不同方法。
下面將簡要描述一第一方法。當來自ACELP,藉由將R減至0,一特定視窗能被用於下一TCX,及進而消除兩後續訊框間的重疊。
下面將簡要描述一第二方法(如在USAC WD5及較早前所述)。當來自ACELP時,藉由使M(中間長度)增加128樣本來擴大下一TCX視窗。在解碼器,視窗的右部分,亦即前R個非零解碼樣本,僅被丟棄及由解碼ACELP樣本替換。
重建合成體out[i out +n]進而透過預加重濾波器(1-0.68z -1)濾波。生成的預加重合成體進而由分析濾波器濾波以便獲得激發信號。所計算的激發更新ACELP適應性碼簿及允許在一後續訊框中自TCX切換至ACELP。分 析濾波器係數在一子訊框的基礎上內插。
9.有關濾波器組及區塊切換的細節
下面將詳細描述有關反向修正離散餘弦轉換及區塊切換,亦即後續訊框或子訊框間的重疊及相加,的細節。應注意的是,下面描述的反向修正離散餘弦轉換可應用於在頻域中編碼的音訊訊框及在TCX模式中編碼的音訊訊框或音訊子訊框。雖然上面已描述了在TCX模式中使用的視窗(W(n)),但下面將討論在頻域模式中使用的視窗:應注意的是,適當視窗的選擇,特別是在自頻率模式中編碼的一訊框轉變至在TCX模式中編碼的一後續訊框時,反之亦然,允許具有一時域混疊消除,使得在沒有位元率開銷的情況下可獲得具有低或無混疊的轉變。
9.1濾波器組及區塊切換-說明
信號的時間/頻率表示型態(例如,時間-頻率表示型態1158、1230f、1352、1380)藉由饋入濾波器組模組(例如,模組1160、1230g、1354-1358-1394、1382-1386-1390-1394)而映射至時域。此模組由一反向修正離散餘弦轉換(IMDCT)及一視窗及一重疊及相加函數組成。為了使濾波器組的時間/頻率解析度適應於輸入信號的特性,亦採用一區塊切換工具。N表示視窗長度,其中N是位元串流變數“window_sequence”的函數。對於每一通道,N/2個時域值Xi,k經由IMDCT被轉換成N個時域值。在應用視窗函數之後,對於每一通道,zi,n序列的第一半被加入前一區塊視窗化序列z(i-1),n的第二半以重建每一通道outi,n的輸出樣本。
9.2濾波器組及區塊切換-定義
下面將給出位元串流的一些定義。
位元串流變數“window_sequence”包含指示使用哪一視窗序列(亦即,區塊大小)的兩位元。位元串流變數“window_sequence”通常用於在頻域中編碼的音訊訊框。
位元串流變數“window_shape”包含指示選擇哪一視窗函數之一位元。
第16圖表格繪示基於五個轉換視窗的十一視窗序列(亦標示為window_sequences)。(ONLY_LONG_SEQUENCE,LONG_START_SEQUENCE,EIGHT_SHORT_SEQUENCE,LONG_STOP_SEQUENCE,STOP_START_SEQUENCE)。
下面,LPD_SEQUENCE指所謂線性預測域編解碼器中所有允許的視窗/編碼模式組合。在解碼一頻域編碼訊框的背景中,重要的是知曉只有一後接訊框在用LPD_SEQUENCE表示的LP域編碼模式中編碼。然而,當解碼LP域編碼訊框時,LPD_SEQUENCE中的準確結構受關注。
換言之,在線性預測模式中編碼的一音訊訊框可包含一單一TCX編碼訊框、複數TCX編碼子訊框或TCX編碼子訊框與ACELP編碼子訊框的一組合。
9.3濾波器組及區塊切換解碼過程
9.3.1濾波器組及區塊切換-IMDCT
IMDCT的分析表式是: 對於0 n<N
其中:
n=樣本指數
i=視窗指數
k=頻譜係數指數
N=基於window_sequence值的視窗長度
n0=(N/2+1)/2
反向轉換的合成視窗長度N是句法元素“window_sequence”及演算法上下文的一函數:視窗長度2048:
在第17a或17b圖表格的一指定表格單元中的一打鈎標記()指示在特定列中列出的一視窗序列可後接該特定行中列出的一視窗序列。
第17a圖列出一第一實施例的有意義區塊轉變。第17b圖的表格列出一額外實施例的有意義區塊轉變。下面將單獨闡述在依據第17b圖的實施例中的額外區塊轉變。
9.3.2濾波器組及區塊切換-視窗化及區塊切換
視位元串流變數(或元素)“window_sequence”及“window_shape”元素而定,使用不同的轉換視窗。如下所 述半視窗的一組合提供所有可能的視窗序列。
對於“window_shape”==1,視窗係數由如下凱撒貝索衍生(KBD)視窗(Kaiser-Bessel derived window)指定:對於 對於
其中:W’凱撒貝索核心視窗函數(亦參見[5])如下定義:對於
α=核心視窗alpha因數,
不然,對於“window_shape”==0,如下利用一正弦視窗:對於 對於
對於KBD及正弦視窗,視窗長度N可以是2048(1920)或256(240)。
如何獲得可能的視窗序列在此子條款的第a)-e)部分中闡述。
對於各種視窗序列,第一轉換視窗的左半部分的變數“window_shape”由變數“window_shape_previous_block”描述之前一區塊的視窗形狀決定。下列公式表達此事實: 其中 “window_shape_previous_block”是一變數,其等於前一區塊(i-1)的位元串流變數“window_shape”。
對於欲解碼的第一原始資料區塊“raw_data_block()”,視窗左與後半部分的變數“window_shape”相同。
在前一區塊使用LPD模式解碼的情況中,“window_shape_previous_block”設為0。
a)ONLY_LONG_SEQUENCE:
window_sequence==ONLY_LONG_SEQUENCE標示的視窗序列等於總視窗長度N_l為2048(1920)之,,LONG_WINDOW“類型一視窗。
對於window_shape==1,變數值,,ONLY_LONG_SEQUENCE“的視窗如下指定:
在視窗化之後,時域值(zi,n)可表示為:z i,n =w(n).x i,n
b)LONG_START_SEQUENCE:
對於自“ONLY_LONG_SEQUENCE”類型的一視窗轉變至左邊具有一低重疊(短視窗斜坡)半視窗(EIGHT_SHORT_SEQUENCE,LONG_STOP_SEQUENCE,STOP_START_SEQUENCE或LPD_SEQUENCE)之任一區塊,可使用“LONG_START_SEQUENCE”類型的視窗來獲得一正確重疊及相加。
在後接視窗序列不是“LPD_SEQUENCE”類型的一視窗的情況中:視窗長度N_lN_s分別設為2048(1920)及256(240)。
在後接視窗序列是“LPD_SEQUENCE”類型的一視窗的情況中:視窗長度N_lN_s分別設為2048(1920)及512(480)。
如果window_shape==1,視窗類型“LONG_START_SEQUENCE”的視窗如下指定:
如果window_shape==0,視窗類型為“LONG_START_SEQUENCE”的視窗看似:
視窗化時域值可用在a)中闡述的公式來計算。
c)EIGHT_SHORT
window_sequence==EIGHT_SHORT的視窗序列包含八重疊及相加SHORT_WINDOW,每個的長度N_s為256(240)。window_sequence連同前及後零的總長度是2048(1920)。首先單獨視窗化八短區塊中的每一個。短區塊號用變數j=0,...,M-1(M=N_l/N_s)來。
前一區塊的window_shape僅影響八短區塊(W0(n))中的第一個。如果window_shape==1,視窗函數可如下指定:
不然,如果window_shape==0,視窗函數可描述為:
如下描述生成視窗化時域值zi,n之EIGHT_SHORT window_sequence間的重疊及相加:
d)LONG_STOP_SEQUENCE
視窗序列需要自一視窗序列“EIGHT_SHORT_SEQUENCE”或一視窗類型“LPD_SEQUENCE”切換回到一視窗類型“ONLY_LONG_SEQUENCE”。
在前一視窗不是一LPD_SEQUENCE的情況中;視窗長度N_lN_s分別設為2048(1920)及256(240)。
在前一視窗不是一LPD_SEQUENCE的情況中;視窗長度N_lN_s分別設為2048(1920)及512(480)。
如果window_shape==1,視窗類型為“LONG_START_SEQUENCE”的視窗如下指定:
如果window_shape==0,“LONG_STOP_SEQUENCE”的視窗由下式決定:
視窗化時域值可用在a)中闡述的公式來計算。
e)STOP_START_SEQUENCE:
對於自右邊具有一低重疊(短視窗斜坡)半視窗之任一區塊至左邊具有一低重疊(短視窗斜坡)半視窗之任一區塊的區塊轉變及如果一單一長轉換期望用於目前訊框,視窗類型“LONG_START_SEQUENCE”可用來獲得一正確重疊及相加。
在後接視窗序列不是一“LPD_SEQUENCE”的情況中:視窗長度N_lN_sr分別設為2048(1920)及256(240)。
在後接視窗序列是一“LPD_SEQUENCE”的情況中:視窗長度N_lN_sr分別設為2048(1920)及512(480)。
在前一視窗序列不是一“LPD_SEQUENCE”的情況中:視窗長度N_lN_sr分別設為2048(1920)及256(240)。
在前一視窗序列是一“LPD_SEQUENCE”的情況中:視窗長度N_lN_sr分別設為2048(1920)及512(480)。
如果window_shape==1,視窗類型為“LONG_START_SEQUENCE”的視窗如下指定:
如果window_shape==0,視窗類型為“LONG_START_SEQUENCE”的視窗看似:
視窗化時域值可用在a)中闡述的公式來計算。
9.3.3濾波器組及區塊切換-與前一視窗序列的重疊及相加
除了EIGHT_SHORT視窗序列中的重疊及相加外,每一視窗序列(或每一訊框或子訊框)的第一(左)部分與前一視窗序列(或前一訊框或子訊框)的第一(右)部分重疊及相加,生成最終的時域值out i,n 。此操作的數學表式可描述如下:
在ONLY_LONG_SEQUENCE,LONG_START_SEQUENCE,EIGHT_SHORT_SEQUENCE,LONG_STOP_SEQUENCE,STOP_START_SEQUENCE的情 況中:;對於,N=2048(1920)
上面針對在頻域模式中編碼之諸音訊訊框之間的重疊及相加的方程式亦可用於在不同模式中編碼之音訊訊框的時域表示型態的重疊及相加。
可選擇地,重疊及相加可如下定義:
在ONLY_LONG_SEQUENCE,LONG_START_SEQUENCE,EIGHT_SHORT_SEQUENCE,LONG_STOP_SEQUENCE,STOP_START_SEQUENCE的情況中:
N_l是視窗序列的大小。i_out為輸出緩衝out加標,並按個已寫樣本增量。
在LPD_SEQUENCE的情況中:
下面將描述可用來減小混疊假影之一第一方法。當來自ACELP時,藉由將T減至0,一特定視窗杖被用於下一TCX,及進而消除兩後續訊框間的重疊區域。
下面將描述可用來減小混疊假影之一第二方法(如在USAC WD5及早前所述)。當來自ACELP時,藉由使M(中間長度)增加128樣本及還增加與TCX視窗相關聯之MDCT係數的數目來擴大下一TCX視窗。在解碼器,視窗的右部分,亦即前R個非零解碼樣本,僅被丟棄且用解碼ACELP樣本替 換。換言之,藉由提供額外MDCT係數(例如,1152來代替1024),混疊假影被減少。不同表述之,藉由提供額外MDCT係數(使得每一音訊訊框,MDCT係數的數目大於時域樣本數目的一半),可獲得時域表示型態的一無混疊部分,這消除了以頻譜的一非臨界取樣為代價對一專用混疊消除的需要。
不然,當前一解碼視窗化信號z i-1,n 來自基於MDCT的TCX時,執行一習知重疊及相加以獲得最終的時間信號out。當FD模式視窗序列是一LONG_START_SEQUENCE或一EIGHT_SHORT_SEQUENCE時,重疊及相加可用下列公式來表達。
N i-1 對應於在基於MDCT的TCX中應用之前一視窗的大小。i_out為輸出緩衝out加標,並按N_l+N_s)/4個已寫樣本增量。N_s/2應等於在第15圖表格中定義之前一基於MDCT的TCX的值L。
對於一STOP_START_SEQUENCE,FD模式與基於MDCT的TCX之間的重疊及相加如下列表式:
N i-1 對應於在基於MDCT的TCX中應用之前一視窗的大 小2lgi_out為緩衝out加標,並按(N_l+N_s)/4個已寫樣本增量。N_s/2應等於在第15圖表格中定義之前一基於MDCT的TCX的值L。
10.有關的計算的細節
下面將參照第18圖描述有關線性預測域增益值的計算的一些細節以促進理解。典型地,表示編碼音訊內容(在線性預測模式中編碼)的一位元串流包含編碼LPC濾波器係數。編碼LPC濾波器係數可例如由相對應碼字來描述且可描述用以恢復音訊內容之一線性預測濾波器。應注意的是,每LPC編碼音訊訊框所傳輸的諸組LPC濾波器係數的數目可變化。實際上,針對在線性預測模式中編碼之一音訊訊框,在位元串流中編碼之諸組LPC濾波器係數的實際數目取決於音訊內容(有時亦稱為「超框」)的ACELP-TCX模式組合。此ACELP-TCX模式組合可由一位元串流變數決定。然而,當然亦存在僅一TCX模式可用之情況,及亦存在沒有ACELP模式可用之情況。
位元串流通常被剖析以擷取對應於ACELP TCX模式組合所需要的各組LPC濾波器係數之量化指數。
在一第一處理步驟1810中,執行LPC濾波器的一反向量化。應指出的是,LPC濾波器(亦即,諸組LPC濾波器係數,例如,a1至a16)係使用線頻譜頻率(LSF)表示型態(其是LPC濾波器係數的一編碼表示型態)來量化。在第一處理步驟1810中,反向量化線頻譜頻率(LSF)獲自於編碼指數。
為此目的,可計算一第一級近似值及可計算一可取捨 代數向量量化(AVQ)改進。反向量化線頻譜頻率可藉由將第一級近似值與反向加權AVQ貢獻相加來重建。AVQ改進的出現可取決於LPC濾波器的實際量化模式。
可獲自於LPC濾波器係數的編碼表示型態之反向量化線頻譜頻率向量隨後轉換成線頻譜對參數的一向量,接著再次內插及轉換成LPC參數。在處理步驟1810中執行之反向量化程序生成線頻譜頻率域中的一組LPC參數。線頻譜頻率接著在一處理步驟1820被轉換至由線頻譜對描述的餘弦域。因此,獲得線頻譜對qi。對每一訊框或子訊框,線頻譜對係數qi(或其一內插形態)被轉換成線性預測濾波器係數ak,其用來合成訊框或子訊框中的重建信號。到線性預測域的轉換如下來進行。係數f1(i)及f2(i)可例如使用下列遞歸關係來獲取:
其中,初始值f 1(0)=1及f 1(-1)=0。係數f2(i)藉由用q 2i 替換q 2i-1來類似地計算。
一旦找出係數f 1(0)及f 1(-1),依據下式計算係數f 1’(i)及f 2’(i):i=1,...,8i=1,...,8
最後,透過下式由f 1’(i)及f’ 2(i)計算LP係數ai
總之,如上所闡述,使用處理步驟1830、1840、1850執行自線性預測對係數qi獲取LPC係數ai
在一處理步驟1860獲得係數,n=0...lpc_order-1,它們是一加權LPC濾波器的係數。當由係數ai獲取係數時,考量的是,係數ai是具有濾波器特性之一濾波器的時域係數,及係數是具有頻域響應之一濾波器的時域係數。再者,考量的是,下列關係保持:其中γ 1=0.92
鑑於上面內容,可看到的是,由編碼LPC濾波器係數可易於獲取係數,編碼LPC濾波器係數例如由位元串流中的各自指數表示。
亦應指出的是,上面已討論了在處理步驟1870中執行獲取xt[n]。類似地,上面已討論了X0[k]的計算。類似地,上面已討論了在步驟1890中執行之線性預測域增益值g[k]的計算。
11.頻譜塑形的可選擇解決方案
應指出的是,上面已描述了頻譜塑形的一概念,該概念應用於在線性預測域中編碼的音訊訊框,且基於LPC濾波器係數轉換至頻譜表示型態X0[k](由其獲取線性預測域增益值)。如上所討論,LPC濾波器係數係使用具有64個均勻隔開的頻率槽之一奇離散傅立葉轉換而轉換成一頻域表示型態X0[k]。然而,當然非必須獲得在頻率上均 等隔開的頻域值X0[k]。有時可推薦使用頻率上非線性隔開的頻域值X0[k]。舉例而言,頻域值X0[k]可在頻率上對數隔開或可依據一巴克量度(Bark scale)在頻率上隔開。頻域值X0[k]與線性預測域增益值g[k]的此一非線性隔開可造成聽覺印象與計算複雜度之間的一特別好的折衷。但是,未必實施線性預測域增益值之一非均勻頻率間隔的此一概念。
12.增強的轉變概念
下面將描述針對頻域中編碼之一音訊訊框與線性預測域中編碼之一音訊訊框間的轉變之一改進概念。此改進概念使用一所謂的線性預測模式開始視窗,其將在下面闡述。
首先參考第17a及17b圖,應注意的是,當在線性預測模式中編碼的一音訊訊框進行一轉變時,具有一相對短右側轉變斜坡之習知視窗被應用於在頻域模式中編碼之一音訊訊框的時域樣本。如自第17a圖可見,類型為“LONG_START_SEQUENCE”的一視窗、類型為“EIGHT_SHORT_SEQUENCE”的一視窗、類型為“STOP_START_SEQUENCE”的一視窗習知上於在線性預測域中編碼之一音訊訊框之前應用。因此,習知地,不可能自一頻域編碼音訊訊框(對其應用具有一相對長右側斜坡的一視窗)直接轉變至在線性預測模式中編碼之一音訊訊框。這是由於此事實:習知上,一頻域編碼音訊訊框(對其應用具有一相對長右側斜坡的一視窗)的長時域混疊部分造成嚴重問題。如自第17a圖可見,習知上不能自視窗類型“only_long_sequence”相關聯的一音訊訊框,或自視窗類 型“long_stop_sequence”相關聯的一音訊訊框轉變至在線性預測模式中編碼之一後續音訊訊框。
然而,在依據發明的一些實施例中,使用一種新類型的音訊訊框,即一線性預測模式開始視窗相關聯的一音訊訊框。
一種新類型音訊訊框(亦簡要標示為一線性預測模式開始訊框)在線性預測域模式的TCX子模式中編碼。線性預測模式開始訊框包含一單一TCX訊框(亦即,不再細分成TCX子訊框)。因此,針對線性預測模式開始訊框,以一編碼形式將多達1024個MDCT係數包括於位元串流中。換言之,與一線性預測開始訊框相關聯之MDCT係數的數目相同於與頻域編碼音訊訊框(視窗類型為“only_long_sequence”的一視窗與其相關聯)相關聯之MDCT係數的數目。此外,與線性預測模式開始訊框相關聯的視窗可為視窗類型“LONG_START_SEQUENCE”。因而,線性預測模式開始訊框可非常類似於類型為“long_start_sequence”的一視窗所關聯之頻域編碼訊框。然而,線性預測模式開始訊框與此一頻域編碼音訊訊框不同在於,頻譜塑形依線性預測域增益值而非依比例因數值來執行。因此,針對線性預測模式開始訊框,編碼線性預測編碼濾波器係數被包括於位元串流中。
由於針對在頻域模式中編碼之一音訊訊框及針對在線性預測模式中編碼之一音訊訊框二者,反向MDCT 1354、1382被應用於同一域(如上闡述)中,在頻域模式中編碼且具 有一相對長右側轉變斜坡(例如,1024樣本)之前一音訊訊框,與具有一相對長左側轉變斜坡(例如,1024樣本)之線性預測模式開始訊框間,可執行一時域混疊消除重疊及相加操作,其中轉變斜坡相匹配以供時間混疊消除。因而,線性預測模式開始訊框在線性預測模式中編碼(亦即,使用線性預測編碼濾波器係數)且較編碼音訊訊框的其它線性預測模式包含一顯著較長(例如,至少以2為倍數,或至少以4為倍數,或至少以8為倍數)左側轉變斜坡以產生額外轉變可能性。
因此,一線性預測模式開始訊框可替換具有視窗類型“long_sequence”的頻域編碼音訊訊框。線性預測模式開始訊框包含,MDCT濾波器係數被傳輸用於線性預測模式開始訊框之優點,MDCT濾波器係數可用於在線性預測模式中編碼的一後續音訊訊框。因此,不必將額外LPC濾波器係數資訊包括於位元串流中以便具有初始資訊供解碼後續線性預測模式編碼音訊訊框。
第14圖繪示此概念。第14圖繪示一序列四音訊訊框1410、1412、1414、1416的一圖形表示型態,它們都包含2048音訊樣本的一長度,且重疊約50%。第一音訊訊框1410使用一“only_long_sequence”視窗1420在頻域模式中編碼,第二音訊訊框1412使用等於“long_start_sequence”的一線性預測模式開始視窗在線性預測模式中編碼,第三音訊訊框1414使用例如上面針對mod[x]=3的一值而定義、用1424標示的一視窗在線性預測模式中編碼。應指出的是,線 性預測模式開始視窗1422包含長度為1024音訊樣本的一左側轉變斜坡及長度為256樣本的一右側轉變斜坡。視窗1424包含長度為256樣本的一左側轉變斜坡及長度為256樣本的一右側轉變斜坡。第四音訊訊框1416使用一“long_stop_sequence”視窗1426在頻域模式中編碼,視窗1426包含長度為256樣本的一左側轉變斜坡及長度為1024樣本的一右側轉變斜坡。
如在第14圖中可見,音訊訊框的時域樣本由反向修正離散餘弦轉換1460、1462、1464、1466來提供。對於在頻域模式中編碼的音訊訊框1410、1416,依比例因數及比例因數值執行頻譜塑形。對於在線性預測模式中編碼的音訊訊框1412、1414,依獲自於編碼線性預測編碼濾波器係數之線性預測域增益值執行頻譜塑形。在任一情況中,頻譜塑形由一解碼(及可取捨地,一反向量化)提供。
13.結論
總之,依據發明的實施例使用針對一切換式音訊編碼器在頻域中應用的一基於LPC的雜訊塑形。
依據發明的實施例在頻域中應用一基於LPC的濾波器來簡化在一切換式音訊編解碼器的背景中不同編碼器之間的轉變。
因此,一些實施例解決設計三編碼模式:頻域編碼、TCX(轉換編碼激發線性預測域)及ACELP(代數碼激發線性預測)間的有效率轉換之問題。然而,在一些其它實施例中,僅有該等模式中的兩模式,例如,頻域編碼及TCX模 式,是足夠的。
依據發明的實施例勝過下列可選擇解決方案:
●頻域編碼器與線性預測域編碼器之間的非臨界取樣轉變(例如,參見參考文獻[4])
●產生非臨界取樣、重疊大小與額外資訊間的折衷,不完全使用MDCT的能力(時域混疊消除TDAC)。
●當自頻域編碼器進行至LPD編碼器時需要發送額外LPC的一組係數。
●在不同域中應用一時域混疊消除(TDAC)(例如,參見參考文獻[5])。LPC濾波在折叠與DCT間的MDCT內執行:●時域混疊信號可能不適於濾波;及●當自頻域編碼器進行至LPD編碼器時必需發送額外LPC的一組係數。
●針對一非切換式編碼器(TwinVQ)計算MDCT域中的LPC係數(例如,參見參考文獻[6]);
●使用LPC只是作為用以使頻譜平坦之一頻譜包絡呈現。當切換至另一音訊編碼器時,不利用LPC來對量化雜訊塑形也不利用其來簡化轉變。
依據本發明的實施例在同一域中執行頻域編碼器及LPC編碼器MDCT而仍使用LPC來對MDCT域中的量化誤差塑形。這帶來一些優點:
●LPC仍可用來切換至一語音編碼器,如ACELP。
●在自/至TCX至/自頻域編碼器的轉換期間時域混疊消除(TDAC)是可能的,臨界取樣進而被維持。
●LPC仍用作ACELP周圍的雜訊塑形器,這使得可能使用同一目標函數來最大化TCX及ACELP,(例如,在一閉合迴路決策過程中之基於LPC的加權部分SNR)。
進一步總結,一重要層面是:
1.藉由在頻域中應用線性預測編碼大大簡化/統一了轉換編碼激發(TCX)與頻域(FD)間的轉變
2.藉由在TCX情況中維持LPC係數的傳輸,可如在其它實施中一樣有利地實現TCX與ACELP之間的轉變(當在時域中應用LPC濾波器時)。
實施選替方案
雖然在一裝置的脈絡中已描述了一些層面,但顯然這些層面也表示對相對應方法的說明,其中一區塊或裝置對應於一方法步驟或一方法步驟的一特徵。類似地,在一方法步驟的脈絡中所描述的層面也表示對一相對應裝置的一相對應區塊或項目或特徵之一說明,一些或所有方法步驟可由(或使用)一硬體裝置來執行,如舉例而言,微處理器、可程式化電腦或電子電路。在一些實施例中,某一或多個最重要方法步驟可由此一裝置來執行。
發明的編碼音訊信號可被儲存於一數位儲存媒體上或能以一傳輸媒介傳輸,諸如無線傳輸媒介或諸如網際網路之有線傳輸媒介。
視某些實施需求而定,發明實施例可在硬體或軟體中實施。使用儲存有電子可讀取控制信號之一數位儲存媒體,例如軟碟、DVD、藍光、CD、ROM、PROM、EPROM、 EEPROM或快閃記憶體可執行該實施,該等電子可讀取控制信號與一可程式化電腦系統合作(或能夠合作)使得各自的方法被執行。因此,該數位儲存媒體可以是電腦可讀取的。
依據發明的一些實施例包含具有電子可讀取控制信號的一資料載體,該等電子可讀取控制信號能夠與一可程式化電腦系統合作使得本文所予以描述之方法當中之一方法被執行。
大體上,本發明之實施例可作為具有一程式碼的一電腦程式產品而被實施,當該電腦程式產品運行於一電腦上時,該程式碼可操作用於執行該等方法當中之一方法。該程式碼可例如被儲存於一機器可讀取載體上。
其它實施例包含儲存於一機器可讀取媒體上、用於執行本文所予以描述之該等方法當中之一方法的電腦程式。
換言之,發明方法的一實施例因而是一電腦程式,具有當該電腦程式運行於一電腦上時用以執行本文所予以描述之該等方法當中之一方法的一程式碼。
發明方法的一進一步實施例因而是一資料載體(或一數位儲存媒體或一電腦可讀取媒體),其包含記錄於其上用以執行本文所予以描述之該等方法當中之一方法的電腦程式。該料載體、該數位儲存媒體或該記錄媒體通常是有形的及/或非過渡的。
發明方法的一進一步實施例因而是一資料串流或一信號序列,表示用於執行本文所予以描述之該等方法當中之 一方法的電腦程式。該資料串流或該信號序列可例如被組配來經由一資料通訊連接(例如經由網際網路)來被傳遞。
一進一步的實施例包含一處理裝置,例如一電腦,或一可程式化邏輯裝置,其被組配來或適於執行本文所予以描述之該等方法當中之一方法。
一進一步的實施例包含一種上面安裝有用以執行本文所予以描述之該等方法當中之一方法的電腦程式之電腦。
依據發明的一進一步實施例包含一裝置或一系統,其組配來將用以執行本文所予以描述之該等方法當中之一方法的一電腦程式傳輸(例如,電子地或光地)至一接收器。該接收器例如可以是電腦、行動裝置、記憶體裝置等等。裝置或系統例如可包含用以將該電腦程式傳輸至該接收器之一檔案伺服器。
在一些實施例中,一可程式化邏輯裝置(例如,一現場可程式化閘陣列)可被用來執行本文所予以描述之該等方法的一些或所有功能。在一些實施例中,一現場可程式化閘陣列可與一微處理器合作以便執行本文所予以描述之該等方法當中之一方法。大體上,該等方法較佳地被任一硬體裝置執行。
上述實施例僅僅是為了說明本發明的原理。要明白的是,對本文所予以描述之安排與細節的修改或改變對其他熟於此技者而言將是顯而易見的。因而,意圖是僅受後附的申請專利範圍之範圍限制而不受以對本文實施例的說明與闡述方式呈現之特定細節限制。
References:
[1] “Unified speech and audio coding scheme for high quality at low bitrates”, Max Neuendorf et al., in IEEE Int, Conf. Acoustics, Speech and Signal Processing, ICASSP, 2009
[2] Generic Coding of Moving Pictures and Associated Audio: Advanced Audio Coding. International Standard 13818-7, ISO/IEC JTC1/SC29/WG11 Moving Pictures Expert Group, 1997
[3] “Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec”, 3GPP TS 26.290 V6.3.0, 2005-06, Technical Specification
[4] “Audio Encoder and Decoder for Encoding and Decoding Audio Samples”, FH080703PUS, F49510, incorporated by reference,
[5] “Apparatus and Method for Encoding/Decoding an Audio Signal Usign an Aliasing Switch Scheme”, FH080715PUS, F49522, incorporated by reference
[6] “High-quality audio-coding at less than 64 kbits/s by using transform-domain weighted interleave vector quantization (Twin VQ)”, N. Iwakami and T. Moriya and S. Miki, IEEE ICASSP, 1995
100‧‧‧多模式音訊信號編碼器、音訊編碼器
110、210‧‧‧音訊內容的輸入表示型態
110’‧‧‧音訊內容的輸入表示型態的預處理形態
112、1012‧‧‧位元串流
120、230a‧‧‧時域至頻域轉換器
122、1030b‧‧‧頻域表示型態
122’‧‧‧一組頻譜係數的預處理形態、頻域表示型態的後處理形態
130‧‧‧頻譜處理器
132‧‧‧頻譜塑形的諸組頻譜係數、頻譜塑形的一組頻譜係數
132’‧‧‧頻譜塑形的一組頻譜係數的後處理形態
134‧‧‧線性預測域參數
136‧‧‧縮放因數參數
138‧‧‧參數提供器
140‧‧‧量化編碼器
142‧‧‧頻譜塑形的一組頻譜係數的編碼形態
150‧‧‧位元串流酬載格式器
160‧‧‧可取捨編碼器
170‧‧‧模式控制器
172‧‧‧模式控制信號
200‧‧‧參考統一語音及音訊編碼編碼器、參考音訊編碼器、參考音訊信號編碼器
210”‧‧‧輸入音訊表示型態、輸入表示型態
212、312、1012‧‧‧編碼表示型態
220‧‧‧開關、分配器
230、330‧‧‧頻域編碼器
230b、330b‧‧‧頻譜表示型態
230c、330c、1070a‧‧‧心理聲學分析
230d、330d、1070b‧‧‧縮放因數
230e‧‧‧縮放器
230f‧‧‧縮放頻譜表示型態
230g、250e、330g‧‧‧量化器
230h、250g、330i、350h‧‧‧熵編碼器
232、332‧‧‧編碼的頻譜表示型態
234、334‧‧‧編碼縮放因數資訊
240、340‧‧‧線性預測域編碼器
240a、340a‧‧‧線性預測分析工具、LPC分析工具
240b、340n‧‧‧LPC濾波器係數
242、342、1062‧‧‧編碼激發
244、344、1256‧‧‧編碼LPC濾波器係數資訊
250、350‧‧‧TCX支路
250a、260a、360a、1060a‧‧‧基於LPC的濾波器
250b、260b、360b‧‧‧刺激信號
250c、1030a‧‧‧MDCT
250d‧‧‧頻域表示型態、MDCT係數
250f‧‧‧量化形態
252‧‧‧轉換編碼激發、轉換編碼激發信號
260、360‧‧‧ACELP支路
260c、1060c‧‧‧ACELP編碼器
262‧‧‧代數編碼激發
270‧‧‧開關
300、1000‧‧‧音訊信號編碼器
310、310’、1010‧‧‧輸入表示型態
310”‧‧‧輸入表示型態、時域表示型態
312‧‧‧編碼表示型態
330e、1030e‧‧‧組合器
330f、1030f‧‧‧MDCT轉換頻域表示型態的頻譜塑形形態
330g、350f‧‧‧量化器
330h、1030h‧‧‧量化形態
350a‧‧‧MDCT轉換工具、MDCT
350b‧‧‧濾波器係數轉換器
350c‧‧‧增益值
350d‧‧‧組合器
350e‧‧‧頻譜塑形形態
350g‧‧‧量化形態
380‧‧‧輸出側多工器
410‧‧‧橫座標
420‧‧‧縱座標
510、520‧‧‧參數數字
710、810‧‧‧第一音訊訊框
716、816‧‧‧第二音訊訊框
712、824、830‧‧‧視窗
718‧‧‧視窗、開始視窗
718a‧‧‧長左側轉變斜坡
718c‧‧‧短右側轉變斜坡、右側轉變斜坡
722、822‧‧‧第三音訊訊框
724‧‧‧線性預測模式視窗、視窗
724a‧‧‧短左側轉變斜坡
724c‧‧‧短右側轉變斜坡
730‧‧‧視窗、停止視窗
810‧‧‧音訊訊框
812‧‧‧長視窗、視窗
812b‧‧‧相對長右側轉變斜坡、右側轉變斜坡
818‧‧‧線性預測域開始視窗、LPC分析視窗
818a‧‧‧相對長左側轉變斜坡
818b‧‧‧相對短右側轉變斜坡
828‧‧‧第四音訊訊框
900‧‧‧音訊信號編碼器
930‧‧‧頻域編碼器
930j‧‧‧開關
1010‧‧‧時域表示型態
1030g‧‧‧量化器
1030i‧‧‧熵編碼器
1032‧‧‧量化編碼表示型態
1040a‧‧‧頻譜塑形資訊
1040b‧‧‧LPC濾波器係數資訊
1060‧‧‧ACELP信號處理路徑、ACELP信號處理支路
1060b‧‧‧激發信號、殘餘信號
1070‧‧‧常見信號分析器
1070c‧‧‧線性預測分析工具
1070d‧‧‧線性預測至MDCT區塊
1100、1200‧‧‧音訊信號解碼器
1110‧‧‧音訊內容的編碼表示型態
1110’‧‧‧音訊內容的擷取編碼表示型態
1112‧‧‧音訊內容的解碼表示型態
1120‧‧‧可取捨位元串流酬載去格式器
1130‧‧‧頻譜值決定器
1132‧‧‧複數組解碼頻譜係數、一組解碼頻譜係數
1132’‧‧‧預處理諸組解碼頻譜係數、一組解碼頻譜係數的預處理形態
1140‧‧‧預處理器
1150‧‧‧頻譜處理器
1152‧‧‧一組線性預測域參數
1154‧‧‧一組縮放因數參數
1156‧‧‧參數提供器
1158‧‧‧頻譜塑形的諸組解碼頻譜係數
1160‧‧‧頻域至時域轉換器
1162‧‧‧時域表示型態
1170‧‧‧可取捨時域處理器、時域後處理器
1210‧‧‧位元串流去多工器
1216、1218‧‧‧開關
1228‧‧‧編碼頻域表示型態、編碼頻域資訊
1230‧‧‧組合頻域模式/TCX子模式支路
1230a‧‧‧熵解碼器
1230b‧‧‧解碼頻域資訊
1230c‧‧‧反向量化器
1230d‧‧‧反向量化頻域資訊
1230e‧‧‧組合器
1230f‧‧‧頻譜塑形頻域資訊
1230g‧‧‧反向修正離散餘弦轉換
1232、1242‧‧‧時域表示型態
1238‧‧‧ACELP編碼激發資訊
1240‧‧‧ACELP解碼器
1258‧‧‧控制資訊、解碼頻譜係數的增益處理形態、解碼頻譜係數的比例因數處理形態
1260‧‧‧參數提供器
1260a‧‧‧縮放因數解碼器
1260b‧‧‧解碼縮放因數資訊
1260c‧‧‧LPC係數解碼器
1260d‧‧‧LPC濾波器係數、LPC濾波器係數資訊
1260e‧‧‧濾波器係數轉換器
1260f‧‧‧線性預測模式增益值
1262‧‧‧頻譜塑形資訊
1300‧‧‧信號流程
1330c‧‧‧反向量化
1330d‧‧‧反向量化頻域模式頻譜係數
1340、1370‧‧‧雜訊填充
1342‧‧‧反向量化頻域模式頻譜係數的雜訊填充形態
1344‧‧‧縮放
1346‧‧‧縮放頻譜係數、縮放頻域模式頻譜係數
1348‧‧‧mid/side處理
1350‧‧‧時間雜訊塑形處理
1352‧‧‧縮放頻域模式頻譜係數的後處理形態
1356‧‧‧時域表示型態
1358‧‧‧視窗化
1360‧‧‧視窗化時域表示型態
1330d‧‧‧反向量化TCX模式頻譜係數
1372‧‧‧雜訊填充的一組TCX模式頻譜係數
1374‧‧‧頻譜去塑形
1372‧‧‧頻譜去塑形的一組TCX模式頻譜係數
1378‧‧‧頻譜塑形
1380‧‧‧重建的一組TCX模式頻譜係數
1382‧‧‧反向MDCT
1384‧‧‧時域表示型態
1386‧‧‧再縮放
1388‧‧‧再縮放時域表示型態
1390‧‧‧視窗化
1392‧‧‧視窗化時域樣本
1394‧‧‧重疊及相加處理
1412、1412、1414、1416‧‧‧音訊訊框
1420‧‧‧only_long_sequence視窗
1422‧‧‧線性預測模式開始視窗
1424‧‧‧視窗
1426‧‧‧long_stop_sequence視窗
1460、1462、1464、1466‧‧‧反向修正離散餘弦轉換
1810~1890‧‧‧處理步驟
第1a-b圖繪示依據本發明之一實施例之一音訊信號編碼器的一方塊示意圖;第2圖繪示一參考音訊信號編碼器的一方塊示意圖;第3圖繪示依據本發明之一實施例之一音訊信號編碼器的一方塊示意圖;第4圖繪示一TCX視窗的一LPC係數內插的一圖解; 第5圖繪示用以基於解碼LPC濾波器係數獲取線性預測域增益值之一函數的一電腦程式碼;第6圖繪示用以將一組解碼頻譜係數與線性預測模式增益值(或線性預測域增益值)相組合之一電腦程式碼;第7圖繪示針對將所謂的“LPC”作為負擔發送之一切換式時域/頻域(TD/FD)編解碼器之不同訊框及相關聯的資訊之一示意表示型態;第8圖繪示針對使用用以轉變的“LPC2MDCT”而自頻域切換至線性預測域編碼器之訊框與相關聯參數的一示意表示型態;第9圖繪示包含TCX及一頻域編碼器的一基於LPC的雜訊塑形之一音訊信號編碼器的一示意表示型態;第10圖繪示TCX MDCT在信號域中執行之一統一語音及音訊編碼(USAC)的一統一視圖;第11a-b圖繪示依據發明之一實施例之一音訊信號解碼器的一方塊示意圖;第12a-b圖繪示TCX-MDCT在信號域中之一USAC解碼器的一統一視圖;第13a-b圖繪示可依據第7及12圖在音訊信號解碼器中執行之處理步驟的一示意表示型態;第14圖繪示依據第11及12圖的音訊信號解碼器的後續音訊訊框的一處理的一示意表示型態;第15圖繪示一表格,其表示為變數MOD[]的函數之一些頻譜係數; 第16圖繪示表示視窗序列及轉換視窗的一表格。
第17a圖繪示發明之一實施例中的一音訊視窗轉變的一示意表示型態;第17b圖繪示發明之一延伸實施例中的一音訊視窗轉變的一表格;第18圖繪示依一編碼LPC濾波器係數獲取線性預測域增益值g[k]的一處理流程。
1100‧‧‧音訊信號解碼器
1110‧‧‧音訊內容的編碼表示型態
1110’‧‧‧音訊內容的擷取編碼表示型態
1112‧‧‧音訊內容的解碼表示型態
1120‧‧‧可取捨位元串流酬載去格式器
1130‧‧‧頻譜值決定器
1132‧‧‧複數組解碼頻譜係數、一組解碼頻譜係數
1132’‧‧‧預處理諸組解碼頻譜係數、一組解碼頻譜係數的預處理形態
1140‧‧‧預處理器
1150‧‧‧頻譜處理器
1152‧‧‧一組線性預測域參數
1154‧‧‧一組比例因數參數
1158‧‧‧頻譜塑形的諸組解碼頻譜係數
1160‧‧‧頻域至時域轉換器
1162‧‧‧時域表示型態
1170‧‧‧可取捨時域處理器、時域後處理器

Claims (26)

  1. 一種用以基於音訊內容的編碼表示型態來提供該音訊內容的解碼表示型態之多模式音訊信號解碼器,該音訊信號解碼器包含:一頻譜值決定器,其組配來獲得針對該音訊內容的複數部分之數組解碼頻譜係數;一頻譜處理器,其組配來,針對在線性預測模式中編碼的該音訊內容的一部分,依一組線性預測域參數,將一頻譜塑形應用於一組解碼頻譜係數或其一預處理形態,及針對在頻域模式中編碼的該音訊內容的一部分,依一組比例因數參數,將一頻譜塑形應用於一組解碼頻譜係數或其一預處理形態,及一頻域至時域轉換器,其組配來,針對在線性預測模式中編碼之該音訊內容的一部分,基於頻譜塑形的一組解碼頻譜係數獲得該音訊內容的一時域表示型態,及針對在頻域模式中編碼之該音訊內容的一部分,基於頻譜塑形的一組解碼頻譜係數獲得該音訊內容的一時域表示型態。
  2. 如申請專利範圍第1項所述之多模式音訊信號解碼器,其中該多模式音訊信號解碼器進一步包含一疊加器,其組配來將在線性預測模式中編碼之該音訊內容的一部分的一時域表示型態與在頻域模式中編碼之該音訊內容的一部分重疊及相加。
  3. 如申請專利範圍第2項所述之多模式音訊信號解碼器, 其中該頻域至時域轉換器組配來,針對在線性預測模式中編碼之該音訊內容的一部分,使用一重疊轉換獲得該音訊內容的一時域表示型態,及針對在頻域模式中編碼之該音訊內容的一部分,使用一重疊轉換獲得該音訊內容的一時域表示型態,及其中該疊加器組配來使在該等模式的不同模式中編碼之該音訊內容的後續部分的時域表示型態重疊。
  4. 如申請專利範圍第3項所述之多模式音訊信號解碼器,其中該頻域至時域轉換器組配來,針對在該等不同模式中編碼之該音訊內容的部分,應用同一轉換類型的重疊轉換來獲得該音訊內容的時域表示型態;及其中,該疊加器組配來使在該等不同模式中編碼之該音訊內容的後續部分的該時域表示型態重疊及相加,使得由該重疊轉換引起的一時域混疊減少或消除。
  5. 如申請專利範圍第4項所述之多模式音訊信號解碼器,其中該疊加器組配來使,如由一相關聯重疊轉換提供、在該等模式的一第一模式中編碼之該音訊內容的一第一部分的一視窗化時域表示型態,或其一量值縮放而頻譜未失真形態,與如由一相關聯重疊轉換提供、在該等模式的一第二模式中編碼之該音訊內容的一第二後續部分的一視窗化時域表示型態,或其一量值縮放而頻譜未失真形態,重疊及相加。
  6. 如申請專利範圍第1至5項中任一項所述之多模式音訊信號解碼器,其中該頻域至時域轉換器組配來提供在該 等不同模式中編碼之該音訊內容的部分的時域表示型態,使得該等所提供的時域表示型態在同一域中,因為它們是線性組合的,除了一視窗化轉變操作外,並未將一信號塑形濾波操作應用於該等提供之時域表示型態中的一或兩者。
  7. 如申請專利範圍第1項所述之多模式音訊信號解碼器,其中該頻域至時域轉換器組配來執行一反向修正離散餘弦轉換,以針對在線性預測模式中編碼之該音訊內容的一部分及針對在頻域模式中編碼之該音訊內容的一部分,獲得一音訊信號域中該音訊內容的一時域表示型態作為該反向修正離散餘弦轉換的結果。
  8. 如申請專利範圍第1項所述之多模式音訊信號解碼器,其包含:一線性預測編碼濾波器係數決定器,其組配來針對在線性預測模式中編碼之該音訊內容的一部分,基於線性預測編碼濾波器係數的一編碼表示型態來獲得解碼的線性預測編碼濾波器係數;一濾波器係數轉換器,其組配來將該等解碼的線性預測編碼濾波器係數轉換成一頻譜表示型態,以便獲得與不同頻率相關聯的線性預測模式增益值;一比例因數決定器,其組配來針對在一頻域模式中編碼之該音訊內容的一部分,基於比例因數值的一編碼表示型態獲得解碼的比例因數值;其中該頻譜處理器包含一頻譜修正器,其組配來將 與在線性預測模式中編碼之該音訊內容的一部分相關聯之一組解碼頻譜係數或其一預處理形態,與該等線性預測模式增益值相組合,以便獲得該等解碼頻譜係數的一增益處理形態,其中該等解碼頻譜係數或其預處理形態的貢獻依該等線性預測模式增益值來加權,及亦組配來將與在頻域模式中編碼之該音訊內容的一部分相關聯之一組解碼頻譜係數或其一預處理形態,與該等比例因數值相組合,以便獲得該等解碼頻譜係數的一比例因數處理形態,其中該等解碼頻譜係數或其預處理形態的貢獻依該等比例因數值來加權。
  9. 如申請專利範圍第8項所述之多模式音訊信號解碼器,其中該濾波器係數轉換器組配來使用一奇離散傅立葉轉換將表示一線性預測編碼濾波器的一時域脉衝響應之該等解碼線性預測編碼濾波器係數轉換成一頻譜表示型態;及其中該濾波器係數轉換器組配來,由該等解碼線性預測編碼濾波器係數的該頻譜表示型態獲取該等線性預測模式增益值,使得該等增益值是該頻譜表示型態之係數量值的一函數。
  10. 如申請專利範圍第8項所述之多模式音訊信號解碼器,其中該濾波器係數轉換器及該組合器組配來使得一指定解碼頻譜係數或其一預處理形態對該指定頻譜係數之一增益處理形態的貢獻由與該指定解碼頻譜係數相關聯之一線性預測模式增益值的一量值決定。
  11. 如申請專利範圍第1項所述之多模式音訊信號解碼器,其中該頻譜處理器組配來使得一指定解碼頻譜係數或其一預處理形態對該指定頻譜係數之一增益處理形態的貢獻的加權,隨增加與該指定解碼頻譜係數相關聯之一線性預測模式增益值的量值而增加,或使得一指定解碼頻譜係數或其一預處理形態對該指定頻譜係數之一增益處理形態的貢獻的加權,隨增加該解碼線性預測編碼濾波器係數之一頻譜表示型態的一相關聯頻譜係數的量值而減小。
  12. 如申請專利範圍第1項所述之多模式音訊信號解碼器,其中該頻譜值決定器組配來將一反向量化應用於解碼量化頻譜係數,以便獲得解碼及反向量化的頻譜係數;及其中該頻譜處理器組配來,藉由依與一指定解碼頻譜係數相關聯之一線性預測模式增益值的一量值,調整針對該指定解碼頻譜係數的一有效量化步驟來執行一量化雜訊塑形。
  13. 如申請專利範圍第1項所述之多模式音訊信號解碼器,其中該音訊信號解碼器組配來使用一中間線性預測模式開始訊框,以便自一頻域模式訊框轉變至一組合線性預測模式/代數碼激發線性預測模式訊框,其中該音訊信號解碼器組配來獲得該線性預測模式開始訊框的一組解碼頻譜係數,以依與之相關聯的一組線性預測域參數將一頻譜 塑形應用於該線性預測模式開始訊框的該組解碼頻譜係數或其一預處理形態,以基於經頻譜塑形的一組解碼頻譜係數獲得該線性預測模式開始訊框的一時域表示型態,及以將一開始視窗應用於該線性預測模式開始訊框的該時域表示型態,該開始視窗具有一相對長左側轉變斜坡及一相對短右側轉變斜坡。
  14. 如申請專利範圍第13項所述之多模式音訊信號解碼器,其中該音訊信號解碼器組配來使在該線性預測模式開始訊框之前的一頻域模式訊框之一時域表示型態的一右側部分,與該線性預測模式開始訊框之一時域表示型態的一左側部分重疊,以減小或消除一時域混疊。
  15. 如申請專利範圍第13項所述之多模式音訊信號解碼器,其中該音訊信號解碼器組配來使用與該線性預測模式開始訊框相關聯之線性預測域參數,以便初始化一代數碼激發線性預測模式解碼器來至少解碼接在該線性預測模式開始訊框後面之該組合線性預測模式/代數碼激發線性預測模式訊框的一部分。
  16. 一種用以基於音訊內容的輸入表示型態來提供該音訊內容的編碼表示型態之多模式音訊信號編碼器,該音訊信號編碼器包含:一時域至頻域轉換器,其組配來處理該音訊內容的該輸入表示型態以獲得該音訊內容的一頻域表示型態;一頻譜處理器,其組配來,針對將在線性預測模式 中編碼之該音訊內容的一部分,依一組線性預測域參數,將一頻譜塑形應用於一組頻譜係數或其一預處理形態,及針對將在頻域模式中編碼的該音訊內容的一部分,依一組比例因數參數,將一頻譜塑形應用於一組頻譜係數或其一預處理形態,及一量化編碼器,其組配來,針對將在線性預測模式中編碼之該音訊內容的該部分提供經頻譜塑形的一組頻譜係數的一編碼形態,及針對將在頻域模式中編碼之該音訊內容的該部分提供經頻譜塑形的一組頻譜係數的一編碼形態。
  17. 如申請專利範圍第16項所述之多模式音訊信號編碼器,其中該時域至頻域轉換器組配來針對將在線性預測模式中編碼之在一音訊信號域中之一音訊內容的一部分及針對將在頻域模式中編碼之該音訊內容的一部分二者將該音訊內容的一時域表示型態轉換成該音訊內容的一頻域表示型態。
  18. 如申請專利範圍第16或17項所述之多模式音訊信號編碼器,其中該時域至頻域轉換器組配來針對將在不同模式中編碼之該音訊內容的部分,應用同一轉換類型的重疊轉換來獲得頻域表示型態。
  19. 如申請專利範圍第16項所述之多模式音訊信號編碼器,其中該頻譜處理器組配來,依一組線性預測域參數,或依一組比例因數參數,選擇性地將該頻譜塑形應用於該組頻譜係數或其一預處理形態,該組線性預測域 參數係對將在線性預測模式中編碼之該音訊內容的一部分進行基於互相關的分析而獲得,而該組比例因數參數係對將在頻域模式中編碼之該音訊內容的一部分進行心理聲學模型分析而獲得。
  20. 如申請專利範圍第19項所述之多模式音訊信號編碼器,其中該音訊信號編碼器包含一模式選擇器,其組配來分析該音訊內容以便決定是在線性預測模式抑或是在頻域模式中編碼該音訊內容的一部分。
  21. 如申請專利範圍第16項所述之多模式音訊信號編碼器,其中該多通道音訊信號編碼器組配來編碼一音訊訊框,其介於一頻域模式訊框與一組合轉換編碼激發線性預測模式/代數碼激發線性預測模式訊框之間作為一線性預測模式開始訊框,其中該多模式音訊信號編碼器組配來:將具有一相對長左側轉變斜坡及一相對短右側轉變斜坡之一開始視窗應用於該線性預測模式開始訊框的該時域表示型態,以獲得一視窗化時域表示型態,以獲得該線性預測模式開始訊框之該視窗化時域表示型態的一頻域表示型態,以獲得該線性預測模式開始訊框的一組線性預測域參數,以依該組線性預測域參數,將一頻譜塑形應用於該線性預測模式開始訊框之該視窗化時域表示型態的該頻域表示型態,或其一預處理形態,及 以編碼該組線性預測域參數及該線性預測模式開始訊框的該視窗化時域表示型態之經頻譜塑形的頻域表示型態。
  22. 如申請專利範圍第21項所述之多模式音訊信號編碼器,其中該多模式音訊信號編碼器組配來使用與該線性預測模式開始訊框相關聯之該等線性預測域參數,以便初始化一代數碼激發線性預測模式編碼器來至少編碼接在該線性預測模式開始訊框後面的該組合轉換編碼激發線性預測模式/代數碼激發線性預測模式訊框的一部分。
  23. 如申請專利範圍第16項所述之多模式音訊信號編碼器,該音訊信號編碼器包含:一線性預測編碼濾波器係數決定器,其組配來分析將在一線性預測模式中編碼之該音訊內容的一部分或其一預處理形態,以決定與將在該線性預測模式中編碼之該音訊內容的該部分相關聯之線性預測編碼濾波器係數;一濾波器係數轉換器,其組配來將該等線性預測編碼濾波器係數轉換成一頻譜表示形態,以便獲得與不同頻率相關聯之線性預測模式增益值;一比例因數決定器,其組配來分析將在頻域模式中編碼之該音訊內容的一部分,或其一預處理形態,以決定與將在頻域模式中編碼之該音訊內容的該部分相關聯之比例因數; 一組合器配置,其組配來將要在線性預測模式中編碼之該音訊內容的一部分的一頻域表示形態或其一預處理形態,與該等線性預測模式增益值相組合,以獲得增益處理頻譜成分,其中該音訊內容之該頻域表示型態的該等頻譜成分的貢獻依該等線性預測模式增益值來加權,及將將在頻域模式中編碼之該音訊內容的一部分的一頻域表示形態或其一預處理形態,與該等比例因數相組合,以獲得增益處理頻譜成分,其中該音訊內容之該頻域表示型態的該等頻譜成分的貢獻依該等比例因數來加權,其中該等增益處理頻譜成分形成經頻譜塑形的數組頻譜係數。
  24. 一種用以基於音訊內容的編碼表示型態來提供該音訊內容的解碼表示型態之方法,該方法包含以下步驟:獲得針對該音訊內容的複數部分之數組解碼頻係數;針對在一線性預測模式中編碼之該音訊內容的一部分,依一組線性預測域參數將一頻譜塑形應用於一組解碼頻譜係數或一預處理形態,及針對在一頻域模式中編碼之該音訊內容的一部分,依一組比例因數參數將一頻譜塑形應用於一組解碼頻譜係數或一預處理形態;及針對在該線性預測模式中編碼之該音訊內容的一部分,基於經頻譜塑形的一組解碼頻譜係數來獲得該音 訊內容的一時域表示型態,及針對在該頻域模式中編碼之該音訊內容的一部分,基於經頻譜塑形的一組解碼頻譜係數來獲得該音訊內容的一時域表示型態。
  25. 一種用以基於音訊內容的輸入表示型態來提供該音訊內容的編碼表示型態之方法,該方法包含以下步驟:處理該音訊內容的該輸入表示型態,以獲得該音訊內容的一頻域表示型態;針對將在線性預測模式中編碼之該音訊內容的一部分,依一組線性預測域參數,將一頻譜塑形應用於一組頻譜係數或其一預處理形態;針對將在頻域模式中編碼之該音訊內容的一部分,依一組比例因數參數,將一頻譜塑形應用於一組頻譜係數或其一預處理形態;針對將在線性預測模式中編碼之該音訊內容的該部分,使用一量化編碼來提供經頻譜塑形的一組頻譜係數之一編碼表示型態;及針對將在頻域模式中編碼之該音訊內容的該部分使用一量化編碼來提供經頻譜塑形的一組頻譜係數之一編碼形態。
  26. 一種用以在運行於一電腦上時執行如申請專利範圍第24或25項所述之方法的電腦程式。
TW099134191A 2009-10-08 2010-10-07 多模式音訊信號解碼器、多模式音訊信號編碼器、使用基於線性預測編碼之雜訊塑形的方法與電腦程式 TWI423252B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US24977409P 2009-10-08 2009-10-08

Publications (2)

Publication Number Publication Date
TW201137860A TW201137860A (en) 2011-11-01
TWI423252B true TWI423252B (zh) 2014-01-11

Family

ID=43384656

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099134191A TWI423252B (zh) 2009-10-08 2010-10-07 多模式音訊信號解碼器、多模式音訊信號編碼器、使用基於線性預測編碼之雜訊塑形的方法與電腦程式

Country Status (18)

Country Link
US (1) US8744863B2 (zh)
EP (1) EP2471061B1 (zh)
JP (1) JP5678071B2 (zh)
KR (1) KR101425290B1 (zh)
CN (1) CN102648494B (zh)
AR (1) AR078573A1 (zh)
AU (1) AU2010305383B2 (zh)
BR (2) BR112012007803B1 (zh)
CA (1) CA2777073C (zh)
ES (1) ES2441069T3 (zh)
HK (1) HK1172727A1 (zh)
MX (1) MX2012004116A (zh)
MY (1) MY163358A (zh)
PL (1) PL2471061T3 (zh)
RU (1) RU2591661C2 (zh)
TW (1) TWI423252B (zh)
WO (1) WO2011042464A1 (zh)
ZA (1) ZA201203231B (zh)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313359B1 (en) 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
EP2311032B1 (en) * 2008-07-11 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
MX2012004569A (es) 2009-10-20 2012-06-08 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, metodo para codificar informacion de audio, metodo para decodificar informacion de audio y programa de computacion que usa la deteccion de un grupo de valores espectrales previamente decodificados.
WO2011086066A1 (en) 2010-01-12 2011-07-21 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a modification of a number representation of a numeric previous context value
CA3045686C (en) 2010-04-09 2020-07-14 Dolby International Ab Audio upmixer operable in prediction or non-prediction mode
JP2012032648A (ja) * 2010-07-30 2012-02-16 Sony Corp 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置
GB2487399B (en) * 2011-01-20 2014-06-11 Canon Kk Acoustical synthesis
RU2606552C2 (ru) 2011-04-21 2017-01-10 Самсунг Электроникс Ко., Лтд. Устройство для квантования коэффициентов кодирования с линейным предсказанием, устройство кодирования звука, устройство для деквантования коэффициентов кодирования с линейным предсказанием, устройство декодирования звука и электронное устройство для этого
EP2700173A4 (en) 2011-04-21 2014-05-28 Samsung Electronics Co Ltd METHOD FOR QUANTIFYING LINEAR PREDICTIVE ENCODING COEFFICIENTS, METHOD FOR SOUND ENCODING, METHOD FOR DEQUANTIFYING LINEAR PREDICTIVE ENCODING COEFFICIENTS, METHOD FOR DECODING SOUND, AND RECORDING MEDIUM
ES2805308T3 (es) * 2011-11-03 2021-02-11 Voiceage Evs Llc Mejora del contenido insonoro para decodificador CELP de tasa baja
US20190379931A1 (en) 2012-02-21 2019-12-12 Gracenote, Inc. Media Content Identification on Mobile Devices
JP6065452B2 (ja) * 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
PT2936486T (pt) * 2012-12-21 2018-10-19 Fraunhofer Ges Forschung Adição de ruído de conforto para modelagem do ruído de fundo em baixas taxas de bits
CN109448745B (zh) * 2013-01-07 2021-09-07 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
JP6148811B2 (ja) * 2013-01-29 2017-06-14 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 周波数領域におけるlpc系符号化のための低周波数エンファシス
RU2660605C2 (ru) * 2013-01-29 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Концепция заполнения шумом
SG11201506542QA (en) * 2013-02-20 2015-09-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
JP6146069B2 (ja) 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
CA3029037C (en) 2013-04-05 2021-12-28 Dolby International Ab Audio encoder and decoder
BR112015031606B1 (pt) * 2013-06-21 2021-12-14 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para desvanecimento de sinal aperfeiçoado em diferentes domínios durante ocultação de erros
CN105408956B (zh) 2013-06-21 2020-03-27 弗朗霍夫应用科学研究促进协会 用于获取音频信号的替换帧的频谱系数的方法及相关产品
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
EP2830060A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling in multichannel audio coding
CN105556600B (zh) * 2013-08-23 2019-11-26 弗劳恩霍夫应用研究促进协会 用于混迭误差信号来处理音频信号的装置及方法
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
CN111009249B (zh) * 2013-10-18 2021-06-04 弗劳恩霍夫应用研究促进协会 编码器/解码器、编码/解码方法和非瞬时性存储介质
MX356164B (es) 2013-11-13 2018-05-16 Fraunhofer Ges Forschung Codificador para codificar una señal de audio, sistema de audio de transmisión y método para determinar valores de corrección.
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
WO2015108358A1 (ko) * 2014-01-15 2015-07-23 삼성전자 주식회사 선형 예측 부호화 계수를 양자화하기 위한 가중치 함수 결정 장치 및 방법
EP2916319A1 (en) 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
ES2689120T3 (es) * 2014-03-24 2018-11-08 Nippon Telegraph And Telephone Corporation Método de codificación, codificador, programa y soporte de registro
US9685164B2 (en) * 2014-03-31 2017-06-20 Qualcomm Incorporated Systems and methods of switching coding technologies at a device
KR20160146910A (ko) * 2014-05-15 2016-12-21 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 신호 분류 및 코딩
CN106409304B (zh) * 2014-06-12 2020-08-25 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
CN110444219B (zh) * 2014-07-28 2023-06-13 弗劳恩霍夫应用研究促进协会 选择第一编码演算法或第二编码演算法的装置与方法
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
TWI771266B (zh) * 2015-03-13 2022-07-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
ES2911515T3 (es) * 2017-04-10 2022-05-19 Nokia Technologies Oy Codificación de audio
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
WO2019091576A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
KR20200099561A (ko) 2017-12-19 2020-08-24 돌비 인터네셔널 에이비 통합 음성 및 오디오 디코딩 및 인코딩 개선을 위한 방법, 장치 및 시스템
KR102250835B1 (ko) * 2019-08-05 2021-05-11 국방과학연구소 수동 소나의 협대역 신호를 탐지하기 위한 lofar 또는 demon 그램의 압축 장치
CN113571073A (zh) * 2020-04-28 2021-10-29 华为技术有限公司 一种线性预测编码参数的编码方法和编码装置
KR20220066749A (ko) * 2020-11-16 2022-05-24 한국전자통신연구원 잔차 신호의 생성 방법과 그 방법을 수행하는 부호화기 및 복호화기

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424939B1 (en) * 1997-07-14 2002-07-23 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method for coding an audio signal
US20070282603A1 (en) * 2004-02-18 2007-12-06 Bruno Bessette Methods and Devices for Low-Frequency Emphasis During Audio Compression Based on Acelp/Tcx
US20090299757A1 (en) * 2007-01-23 2009-12-03 Huawei Technologies Co., Ltd. Method and apparatus for encoding and decoding

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001052241A1 (en) 2000-01-11 2001-07-19 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device
US7876966B2 (en) * 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
DE102004007191B3 (de) * 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
WO2006049204A1 (ja) * 2004-11-05 2006-05-11 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、符号化方法及び復号化方法
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
KR100923156B1 (ko) * 2006-05-02 2009-10-23 한국전자통신연구원 멀티채널 오디오 인코딩 및 디코딩 시스템 및 방법
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8041578B2 (en) * 2006-10-18 2011-10-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
KR101412255B1 (ko) * 2006-12-13 2014-08-14 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치, 복호 장치 및 이들의 방법
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
MY146431A (en) * 2007-06-11 2012-08-15 Fraunhofer Ges Forschung Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
EP2063417A1 (en) * 2007-11-23 2009-05-27 Deutsche Thomson OHG Rounding noise shaping for integer transform based encoding and decoding
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
EP2311032B1 (en) 2008-07-11 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
KR101250309B1 (ko) 2008-07-11 2013-04-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 에일리어싱 스위치 기법을 이용하여 오디오 신호를 인코딩/디코딩하는 장치 및 방법
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
PL3352168T3 (pl) * 2009-06-23 2021-03-08 Voiceage Corporation Postępowe tłumienie aliasingu w dziedzinie czasu z zastosowaniem w ważonej albo pierwotnej dziedzinie sygnału
MX2012004648A (es) * 2009-10-20 2012-05-29 Fraunhofer Ges Forschung Codificacion de señal de audio, decodificador de señal de audio, metodo para codificar o decodificar una señal de audio utilizando una cancelacion del tipo aliasing.
EP2676266B1 (en) * 2011-02-14 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Linear prediction based coding scheme using spectral domain noise shaping

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424939B1 (en) * 1997-07-14 2002-07-23 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method for coding an audio signal
US20070282603A1 (en) * 2004-02-18 2007-12-06 Bruno Bessette Methods and Devices for Low-Frequency Emphasis During Audio Compression Based on Acelp/Tcx
US20090299757A1 (en) * 2007-01-23 2009-12-03 Huawei Technologies Co., Ltd. Method and apparatus for encoding and decoding

Also Published As

Publication number Publication date
CN102648494A (zh) 2012-08-22
EP2471061A1 (en) 2012-07-04
ZA201203231B (en) 2013-01-30
BR112012007803A2 (pt) 2020-08-11
PL2471061T3 (pl) 2014-03-31
MX2012004116A (es) 2012-05-22
AR078573A1 (es) 2011-11-16
KR20120063543A (ko) 2012-06-15
BR122021023896B1 (pt) 2023-01-10
MY163358A (en) 2017-09-15
BR112012007803B1 (pt) 2022-03-15
US8744863B2 (en) 2014-06-03
RU2012119291A (ru) 2013-11-10
RU2591661C2 (ru) 2016-07-20
ES2441069T3 (es) 2014-01-31
HK1172727A1 (en) 2013-04-26
WO2011042464A1 (en) 2011-04-14
US20120245947A1 (en) 2012-09-27
AU2010305383B2 (en) 2013-10-03
CA2777073A1 (en) 2011-04-14
TW201137860A (en) 2011-11-01
AU2010305383A1 (en) 2012-05-10
JP2013507648A (ja) 2013-03-04
CA2777073C (en) 2015-11-24
CN102648494B (zh) 2014-07-02
EP2471061B1 (en) 2013-10-02
KR101425290B1 (ko) 2014-08-01
JP5678071B2 (ja) 2015-02-25

Similar Documents

Publication Publication Date Title
TWI423252B (zh) 多模式音訊信號解碼器、多模式音訊信號編碼器、使用基於線性預測編碼之雜訊塑形的方法與電腦程式
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
KR102075361B1 (ko) 다채널 신호를 인코딩하기 위한 오디오 인코더 및 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더
KR101411759B1 (ko) 오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법
KR101565634B1 (ko) 음성/음악 통합 신호의 부호화/복호화 장치
EP2044589B1 (en) Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
JP5695074B2 (ja) 音声符号化装置および音声復号化装置
US9552822B2 (en) Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (USAC)
CN101878504A (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
Quackenbush Coding of natural audio in MPEG-4
CN103137135B (zh) Lpc系数量化方法和装置及多编码核音频编码方法和设备
BR122021023890B1 (pt) Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear