TWI453731B - 音訊編碼器與解碼器、用於編碼已取樣音訊信號之訊框及用於解碼已編碼訊框之方法、及電腦程式產品 - Google Patents
音訊編碼器與解碼器、用於編碼已取樣音訊信號之訊框及用於解碼已編碼訊框之方法、及電腦程式產品 Download PDFInfo
- Publication number
- TWI453731B TWI453731B TW098121864A TW98121864A TWI453731B TW I453731 B TWI453731 B TW I453731B TW 098121864 A TW098121864 A TW 098121864A TW 98121864 A TW98121864 A TW 98121864A TW I453731 B TWI453731 B TW I453731B
- Authority
- TW
- Taiwan
- Prior art keywords
- frame
- prediction domain
- audio
- window
- prediction
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 35
- 230000005236 sound signal Effects 0.000 title claims description 31
- 238000004590 computer program Methods 0.000 title claims description 8
- 230000005284 excitation Effects 0.000 claims description 42
- 238000001228 spectrum Methods 0.000 claims description 41
- 230000015572 biosynthetic process Effects 0.000 claims description 34
- 238000003786 synthesis reaction Methods 0.000 claims description 34
- 238000005070 sampling Methods 0.000 claims description 24
- 230000008676 import Effects 0.000 claims description 23
- 230000002441 reversible effect Effects 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 18
- 230000000630 rising effect Effects 0.000 claims description 14
- 238000005259 measurement Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 11
- 230000001131 transforming effect Effects 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 41
- 230000007704 transition Effects 0.000 description 32
- 230000003595 spectral effect Effects 0.000 description 24
- 230000003044 adaptive effect Effects 0.000 description 17
- 230000001953 sensory effect Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 230000004044 response Effects 0.000 description 11
- 238000013139 quantization Methods 0.000 description 10
- 230000009897 systematic effect Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 230000001755 vocal effect Effects 0.000 description 8
- 230000007774 longterm Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000005562 fading Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 239000003638 chemical reducing agent Substances 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- FMTDIUIBLCQGJB-SEYHBJAFSA-N demeclocycline Chemical compound C1([C@@H](O)[C@H]2C3)=C(Cl)C=CC(O)=C1C(=O)C2=C(O)[C@@]1(O)[C@@H]3[C@H](N(C)C)C(O)=C(C(N)=O)C1=O FMTDIUIBLCQGJB-SEYHBJAFSA-N 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000021317 sensory perception Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 206010042772 syncope Diseases 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本發明係關於來源編碼,特別係關於音訊來源編碼,其中音訊信號係藉具有不同的編碼演繹法則之兩個不同的音訊編碼器處理。
於低位元率音訊及語音編碼技術上下文中,傳統上採用若干不同的編碼技術來達成此等信號之低位元率編碼,具有於一給定位元率之最佳可能主觀品質。一般音樂/聲音信號用之編碼器係針對經由根據遮蔽臨界之曲線,成形量化誤差之頻譜形狀(及時間形狀)而最佳化主觀品質,該遮蔽臨界之曲線係利用感官式模型(「感官式音訊編碼」)而由該輸入信號估算。另一方面,當基於人語音的產生模型,亦即採用線性預測編碼(LPC)來模型化人聲道的共振效應連同殘餘激勵信號之有效編碼時,已經顯示可極為有效地處理於極低位元率之語音的編碼。
由於此二不同辦法的結果,一般音訊編碼器,例如MPEG-1層3(MPEG=動畫專家群)或MPEG-2/4進階音訊編碼(AAC)由於缺乏探勘語音來源模型。因而無法如同專用的基於LPC之語音編碼器般,對於極低資料率之語音信號也發揮良好效果。相反地,基於LPC之語音編碼器當應用於一般音樂信號時,無法達成令人臣服的結果,原因在於其無法根據遮蔽臨界值曲線而彈性成形編碼失真之頻譜封
包。後文將說明一種構想,其將基於LPC編碼及感官式音訊編碼之優點組合入單一框架,如此說明可有效用於一般音訊信號及語音信號二者之統一音訊編碼。
傳統上,感官式音訊編碼器使用基於濾波器組之辦法來有效編碼音訊信號及根據遮蔽曲線之估值而成形量化失真。
第16a圖顯示單聲感官式編碼系統之基本方塊圖。分析濾波器組1600係用來將時域樣本映射入已次取樣的頻譜組分。依據頻譜組分之數目而定,係統也稱作為子頻帶編碼器(少數子頻帶例如32個)或變換編碼器(大量頻率線例如512條)。感官式(「心理聲學」)模型1602用來估計實際時間相依性遮蔽臨界值。頻譜(「子頻帶」或「譜域」)組分經過量化及編碼1604,使得量化雜訊被隱藏於實際傳輸的信號下方,而於解碼後無法被查覺。此項目的係經由改變頻譜值隨著對時間及頻率量化之解析度達成。
已量化且已經熵編碼頻譜係數或子頻帶值除了旁資訊之外,輸入位元流格式化器1606,其提供適合被傳輸或儲存之已編碼音訊信號。方塊1606之輸出位元流可透過網際網路傳送或可儲存於任何機器可讀取資料載體。
於解碼器端,解碼器輸入介面1610接收該已編碼的位元流。方塊1610將已熵編碼且已量化的頻譜/子頻帶值與旁資訊分離。已編碼頻譜值輸入設置於1610與1620間之熵解碼器諸如霍夫曼解碼器,此種熵解碼器之輸出信號為已量化的頻譜值。此等已量化之頻譜值輸入再量化器,其如第16圖於1620指示,執行「反向」量化。方塊1620之輸出信
號輸入合成濾波器組1622,其執行合成濾波,包括頻率/時間變換且典型地執行時域頻疊抵消操作,諸如重疊及加法及/或合成端視窗化操作來最終獲得該輸出音訊信號。
傳統上,有效語音編碼曾經基於線性預測編碼(LPC)來模型化人聲帶的共振效果連同殘餘激勵信號的有效編碼。LPC參數及激勵參數二者由編碼器傳輸至解碼器。本原理舉例說明於第17a圖及第17b圖。
第17a圖指示基於線性預測編碼之一種編碼/解碼系統之編碼器端。語音輸入信號係輸入LPC分析器1701,於其輸出信號中提供LPC濾波係數。基於此等LPC濾波係數,調整LPC濾波器1703。LPC濾波器輸出已頻譜白化的音訊信號,也稱作為「預測誤差信號」。此種以頻譜白化音訊信號係輸入殘餘/激勵編碼器1705,其產生激勵參數。如此,語音輸入信號一方面被編碼成激勵參數,而另一方面被編碼成LPC係數。
於第17b圖示例顯示之解碼器端,激勵參數輸入激勵解碼器1707,其產生一激勵信號,該信號可輸入LPC合成濾波器。LPC合成濾波器係使用所傳輸的LPC濾波係數調整。如此,LPC合成濾波器1709產生已重建的或已合成的語音輸出信號。
隨著時間的經過,有關有效的且具感官說服力的呈現殘餘(激勵)信號已經提出多種方法,諸如多脈衝激勵(MPE)、規則脈衝激勵(RPE)及代碼激勵線性預測(CELP)。
線性預測編碼試圖基於觀察某個數目之過去值作為過
去觀察之線性組合,來產生一序列目前樣本值之估值。為了減少輸入信號的冗餘,編碼器LPC濾波器「白化」輸入信號於其頻譜封包,亦即為信號的頻譜封包之反向模型。相反地,解碼器LPC合成濾波器為信號的頻譜封包模型。特別,已知眾所周知之自動迴歸(AR)線性預測分析利用全極點近似值來模型化信號的頻譜封包。
典型地,窄頻語音編碼器(亦即具有8kHz取樣率之語音編碼器)係採用具有8至12階之LPC濾波器。由於LPC濾波器之本質,一致頻率解析度跨全頻率範圍為有效。此點並未與感官頻率尺規相對應。
為了組合傳統基於LPC/CELP編碼(用於語音信號之品質為最佳)與傳統基於濾波器組之感官式音訊編碼辦法(用於音樂信號之品質為最佳)之強度,曾經提示介於此二架構間的組合式編碼。於AMR-WB+(AMR-WB=自適應性多速率寬頻)編碼器中,B.Bessette,R.Lefebvre,R.Salami,「使用混成ACELP/TCX技術之通用語音/音訊編碼」,Proc.IEEE ICASSP 2005,301-304頁2005年,兩種交錯編碼核心係於LPC殘餘信號操作。一種係基於ACELP(ACELP=代數代碼激勵線性預測),如此極為有效用於語音信號的編碼。另一種編碼核心係基於TCX(TCX=變換編碼激勵),亦即基於濾波器組之編碼辦法類似傳統音訊編碼技術,俾便達成音樂信號的良好品質。依據輸入信號之特性,短時間選用兩種編碼模式之一來傳輸LPC殘餘信號。藉此方式,80毫秒持續時間的訊框可分割成40毫秒或20毫秒的子訊框,其中介
於兩種編碼模式間作判定。
AMR-WB+(AMR-WB+=擴充自適應性多速率寬頻編碼譯碼器),例如參考3GPP(3GPP=第三代伴侶計畫)技術說明書號碼26.290,版本6.3.0,2005年6月可介於兩種主要不同模式ACELP與TCX間切換。於ACELP模式中,時域信號藉代數代碼激勵編碼。於TCX模式中,使用快速傅立葉變換(FFT=快速傅立葉變換),LPC已加權信號(由該信號於解碼器導算出激勵信號)之頻譜值係基於向量量化編碼。
經由嘗試與解碼兩個選項且比較結果所得之信號對雜訊比(SNR=信號對雜訊比)可作使用哪一個模式的決策判定。
此種情況也稱作為閉環決策,原因在於有封閉控制環,分別評估編碼效能及/或效率,及然後藉拋棄另一者而選用有較佳SNR之一者。
眾者周知用於音訊及語音編碼應用,不含視窗化之區塊變換為不可行。因此對TCX模式,信號以低重疊視窗視窗化,具有1/8重疊。此重疊區為必須,俾便淡出於一先前區塊或訊框,同時淡入下一個區塊或訊框,例如用來遏止於接續音訊訊框中因量化雜訊未交互相關所造成的假信號。藉此方式比較非臨界取樣之額外處理資料量維持合理地低量,且閉環決策所需解碼重建目前訊框之至少7/8樣本。
於TCX模式中,AMR-WB+導入1/8額外處理資料量,亦即欲編碼的頻譜值數目比輸入樣本數目高1/8。如此產生額外處理資料量增加的缺點。此外,由於接續訊框的1/8抖峭重疊區,相對應之帶通濾波器的頻率響應為其缺點。
為了對接續訊框之代碼額外處理資料量及重疊作更進一步說明,第18圖示例顯示視窗參數之定義。第18圖所示視窗於左手側有個上升緣部,標示為「L」,也稱作為左重疊區;一中心區標示為「1」,也稱作為1區或分路部;及一下降緣部,標示為「R」也稱作為右重疊區。此外,第18圖顯示一箭頭指示於一訊框內部之完好重建區「PR」。第18圖顯示一箭頭指示變換核心之長度,標示為「T」。
第19圖顯示AMR=WB+視窗序列之一線圖,於底部顯示根據第18圖之視窗參數表。第19圖頂部所示視窗序列為ACELP、TCX20(用於20毫米時間之一訊框)、TCX20、TCX40(用於40毫米時間之一訊框)、TCX80(用於80毫米時間之一訊框)、TCX20、TCX20、ACELP、ACELP。
由該視窗序列可見不等重疊區,其恰重疊中心部M的1/8。於第19圖底部之表也顯示變換長度「T」經常比新穎完好重建樣本「PR」區大1/8。此外,須注意不僅對ACELP至TCX變化為如此,對TCXx至TCXx(此處「x」指示有任意長度之TCX訊框)變換亦如此。如此,於各區塊導入1/8額外處理資料量,換言之未曾達到臨界取樣。
當由TCX切換至ACELP時,於重疊區視窗樣本由FFT-TCX訊框拋棄,例如於第19圖頂部以1900標示區。當由ACELP切換至TCX時,於第19圖頂部也以虛線1910指示之視窗化零輸入響應(ZIR=零輸入響應)於編碼器移除用於視窗化,而於解碼器加入用於復原。當由TCX切換至TCX訊框時,以視窗化樣本用於交叉衰減。由於TCX訊框可被
量化,接續訊框間之不同量化誤差或量化雜訊可有不同及/或可獨立無關。當由一個訊框切換至下一訊框而無交叉衰減時,可能出現顯著假信號,如此需要交叉衰減來達成某種品質。
由第19圖底部之表可知,交叉衰減區隨著訊框長大的長度而增長。第20圖提供另一個表示例說明於AMR-WB+中可能的變遷之不同視窗的示例說明。當由TCX變遷至ACELP時,拋棄重疊樣本,當由ACELP變遷至TCX時,來自ACELP之零輸入響應於編碼器移除而於解碼器增加用於復原。
AMR-WB+之顯著缺點為經常性導入1/8額外處理資料量。
本發明之目的係提供音訊編碼之更有效的構想。
該目的可藉如申請專利範圍第1項之音訊編碼器、如申請專利範圍第14項之用於音訊編碼之方法、如申請專利範圍第16項之音訊解碼器及如申請專利範圍第25項之用於音訊解碼之方法達成。
本發明之實施例係基於發現若使用時間頻疊導入變換例如用於TCX編碼,則可進行更有效的編碼。時間頻疊導入變換允許達成臨界取樣,同時相鄰訊框間仍然可交叉衰減。舉例言之,於一個實施例中,修改型離散餘弦變換(MDCT=修改型離散餘弦變換)用於變換重疊時域訊框至頻域訊框。由於本特定變換對2N個時域樣本值產生N個頻域樣本,故即使時域訊框可能重疊達成50%仍可維持臨界
取樣。於解碼器或反向時間頻疊導入變換,重疊及加法階段自適應於組合時間頻疊重疊樣本及逆變換時域樣本,因而可進行時域頻疊抵消(TDAC=時域頻疊抵消)。
實施例可用於以低重疊視窗例如AMR-WB+編碼之切換的頻域及時域內容。實施例可使用MDCT替代非臨界取樣的濾波器組。藉此方式,基於例如MDCT之臨界取樣性質可優異地減少因非臨界取樣導致之額外管理資料量。此外,可有較長的重疊而未導入額外管理資料量。實施例提供優點,基於較長的重疊,可更順利進行交叉衰減,換言之於解碼器的聲音品質增高。
於一個細節實施例中,於一AMR-WB+TCX模式之FFT可由MDCT置換,同時保有AMR-WB+之功能,特別為基於閉環或開環決策而介於ACELP模式與TCX模式間之切換。實施例可使用於非臨界取樣方式之MDCT於ACELP訊框後的第一個TCX訊框,隨後對全部隨後的TCX訊框以臨界取樣方式使用MDCT。實施例可使用類似未經修改AMR-WB+具有低重疊視窗之MDCT,保有閉環決策的特徵,但具有較長的重疊。如此可提供比較未經修改的TCX視窗更佳的頻率響應之優勢。
將使用附圖說明本發明之實施例之細節,附圖中:第1圖顯示音訊編碼器之實施例;第2a-2j圖顯示用於時域頻疊導入變換實施例之方程式;第3a圖顯示音訊編碼器之另一個實施例;
第3b圖顯示音訊編碼器之另一個實施例;第3c圖顯示音訊編碼器之又另一個實施例;第3d圖顯示音訊編碼器之又另一個實施例;第4a圖顯示用於有聲語音之時域語音信號之樣本;第4b圖示例顯示有聲語音信號樣本之頻譜;第5a圖示例顯示無聲語音樣本之時域信號;第5b圖顯示無聲語音信號樣本之頻譜;第6圖顯示藉合成分析ACELP之實施例;第7圖示例顯示提供短期預測資訊及預測誤差信號之編碼器端ACELP階段;第8a圖顯示音訊編碼器之一個實施例;第8b圖顯示音訊編碼器之另一個實施例;第8c圖顯示音訊編碼器之另一個實施例;第9圖顯示視窗功能之一個實施例;第10圖顯示視窗功能之另一個實施例;第11圖顯示先前技術視窗功能及一個實施例之視窗功能之線圖及延遲圖;第12圖示例顯示視窗參數;第13a圖顯示視窗功能結果及根據視窗參數表之結果;第13b圖顯示基於MDCT之實施例可能的變遷;第14a圖顯示於一實施例中可能之變遷表;第14b圖示例顯示根據一個實施例由ACELP變遷至TCX80之變遷視窗;第14c圖顯示根據一個實施例由TCXx訊框變遷至
TCX20訊框至TCXx訊框之變遷視窗之實施例;第14d圖示例顯示根據一個實施例由ACELP變遷至TCX20之變遷視窗之實施例;第14e圖顯示根據一個實施例由ACELP變遷至TCX20之變遷視窗之實施例;第14f圖示例顯示根據一個實施例由TCXx訊框變遷至TCX80訊框至TCXx訊框之變遷視窗之實施例;第15圖示例顯示根據一個實施例ACELP至TCX80之變遷;第16圖示例顯示習知編碼器及解碼器實例;第17a,b圖示例顯示LPC編碼及解碼;第18圖示例顯示先前技術交叉衰減視窗;第19圖示例顯示先前技術之AMR-WB+視窗結果;第20圖示例顯示於AMR-WB+用於介於ACELP及TCX間傳輸之視窗。
後文將說明本發明之實施例之細節。須注意下列實施例並未囿限本發明之範圍,反而為多個不同實施例間可能的實現或實施。
第1圖顯示自適應於編碼已取樣之音訊信號訊框來獲得一編碼訊框之音訊編碼器10,其中一訊框包含多個時域音訊樣本。音訊編碼器10包含一預測編碼分析階段12用於測定合成濾波器之係數資訊及基於音訊樣本訊框之一預測域訊框,例如該預測域訊框可基於一激勵訊框,該預測域訊框可包含LPC域信號之樣本或加權樣本,由此可獲得合
成濾波器之激勵信號。換言之,於實施例中,預測域訊框可基於一激勵訊框,其包含合成濾波器之一激勵信號樣本。於實施例中,預測域訊框可與激勵訊框之已濾波版本相對應。例如感官式濾波可應用至激勵訊框來獲得預測域訊框。於其他實施例中,高通濾波或低通濾波可應用於激勵訊框來獲得預測域訊框。又有其他實施例中,預測域訊框可直接與激勵訊框相對應。
音訊編碼器10進一步包含一時間頻疊導入變換器14用於將重疊的預測域訊框變換至頻域而獲得預測域訊框頻譜,其中該時間頻疊導入變換器14係自適應於以臨界取樣方式變換重疊的預測域訊框。音訊編碼器10進一步包含一冗餘減少編碼器16用於編碼該預測域訊框頻譜而獲得基於該等係數之已編碼訊框及已編碼預測域訊框頻譜。
冗餘減少編碼器16適合使用霍夫曼編碼或熵編碼俾便編碼預測域訊框頻譜及/或該等係數之資訊。
於實施例中,時間頻疊導入變換器14自適應於變換重疊的預測域訊框,使得預測域訊框頻譜之樣本平均數目係等於一個預測域訊框中之樣本平均數目,藉此達成臨界取樣變換。此外,時間頻疊導入變換器14自適應於根據修改型離散餘弦變換(MDCT=修改型離散餘弦變換)來變換重疊的預測域訊框。
於後文中,將藉助於第2a-2j圖示例說明之方程式進一步說明MDCT之細節。修改型離散餘弦變換(MDCT)為基於型IV離散餘弦變換(DCT-IV=離散餘弦變換型IV)之傅立葉
相關變換,具有額外重疊性質,亦即設計成於大型資料組之接續的方塊上執行,此處隨後方塊重疊,因此例如一個方塊的後半重合下一個方塊的前半。除了DCT的能量精簡品質之外,此種重疊讓MDCT用於信號壓縮應用特別具有吸引力,原因在於有助於避免因區塊邊界所造成的假信號。如此,DMCT用於MP3(MP3=MPEG2/4層3)、AC-3(AC-3=藉杜比之音訊編碼譯碼器3)、Ogg Vorbis及AAC(AAC=進階音訊編碼)用於音訊壓縮。
MDCT係由Princen、Johnson及Bradley於1987年提出遵循更早期(1986年)由Princen及Bradley發展MDCT的時域頻疊抵消(TDAC)潛在原理之工作,進一步容後詳述。也存在有基於離散正弦變換之類似變換,亦即MDST及其他罕見使用的基於不同型DCT或DCT/DST(DST=離散正弦變換)組合之MDCT,其也可用於藉時間頻疊導入變換器14之實施例。
於MP3,MDCT並未直接應用於音訊信號,反而係應用於32頻帶多相正交濾波器(PQF=多相正交濾波器)組之輸出信號。此種MDCT輸出信號藉頻疊減少公式後處理來減少PQF濾波器組的典型頻疊。此種濾波器組與MDCT之組合稱作為混成濾波器組或子頻帶MDCT。另一方面,通常使用純粹MDCT;只有(罕見使用的)MPEG-4 AAC-SSR變化法(新力公司(Sony))使用四頻帶PQF組接著為MDCT。ATRAC(ATRAC=自適應性變換音訊編碼)使用堆疊正交鏡射濾波器(QMF)接著為MDCT。
至於重疊變換,MDCT比較其他傅立葉相關變換有點
不尋常,原因在於其具有為輸入信號之半數的輸出信號(而非相等)。特定言之,MDCT為線性函數F:R2N
->RN
,此處R表示實數集合。2N個實數x0
,...,x2N-1
根據第2a圖之公式變換成N個實數X0
,...,XN-1
。
於本變換之前的規度化係數(此處為1),為任意習用的係數,各次處理間不同。只有後文MDCT與IMDCT之規度化乘積受限制。
反向MDCT稱作為IMDCT。由於有不同數目的輸入信號及輸出信號,最初可能認為MDCT應該無法反向。但經由增加隨後重疊區塊之重疊的IMDCT,造成誤差抵消,擷取原先資料,可達成完美的反向;本技術稱作為時域頻疊抵消(TDAC)。
IMDCT根據第2b圖之公式將N個實數X0
,...,XN-1
變換成2N個實數y0
,...,y2N-1
。類似DCT-IV之正交變換,反向也具有正向變換之相同形式。
於有尋常視窗規度化之視窗化MDCT之情況下(參見後文),於IMDCT之前的規度化係數可乘以2,亦即變成2/N。
雖然MDCT公式的直接應用要求O(N2
)操作,但可如同於快速傅立葉變換(FFT),藉遞歸因數化運算而只以O(N log N)複雜度運算之。也可透過其他變換典型為DFT(FFT)或DCT組合O(N)前處理步驟及後處理步驟運算MDCT。此外,容後詳述,任何DCT-IV之演繹法則即刻提供運算有偶數尺寸之MDCT及IMDCT之方法。
於典型信號壓縮應用中,經由使用視窗函數wn
(n=0,...
2N-1)於前述MDCT公式及IMDCT公式中乘以xn
及yn
俾便讓該等函數於該等點更順利變成零而俾於n=0及n=2N邊界的不連續,可進一步改良變換性質。換言之,於MDCT之前而於IMDCT之後,資料經視窗化。原則上,x及y可有不同的視窗函數,視窗函數也可由一個區塊變化至下一個區塊,特別對組合不同尺寸資料區塊的情況尤為如此,但為求簡化,首先考慮相等尺寸區塊之相同視窗功能之最常見情況。
變換維持可反向,亦即對對稱性視窗wn
=W2N-1-n
,可進行TDAC,只要w滿足根據第2c圖之Princen-Bradley條件即可。
常見多種不同視窗函數,例如第2d圖顯示用於MP3及MPEG-2 AAC及第2e圖顯示用於Vorbis。AC-3顯示Kaiser-Bessel導算出之(KBD=Kaiser-Bessel導算出之)視窗,MPEG-4 AAC也可使用KBD視窗。
注意應用於MDCT之視窗可與用於其他類型信號分析之視窗不同,原因在於其必須滿足Princen-Bradley條件。本差異之理由之一為MDCT視窗應用兩次,應用於MDCT(分析濾波器)及IMDCT(合成濾波器)二者。
經由檢視定義可知,用於偶數的N,MDCT大致上係等於DCT-IV,此處輸入信號位移N/2,兩個N區塊之資料一次變換。經由更小心檢驗此種相等情況,容易導算出類似TDAC之重要性質。
為了定義與DCT-IV之精準關係,必須實現DCT-IV係以
交錯偶/奇邊界條件相對應,於其左邊界為偶數(約為n=1/2),於其右邊界為奇數(約為n=N-1/2)等(替代對DFT之週期性邊界)。係遵照第2f圖顯示之身分。如此,若其輸入信號為長度N的陣列x,可設想將本陣列擴充至(x、-xR
、-x、xR
、...)等,此處xR
表示於相反順序的x。
考慮有2N個輸入信號及N個輸出信號之MDCT,此處輸入信號可平分於四個區塊(a、b、c、d),各自大小為N/2。若位移N/2(由MDCT定義中之+N/2項),則(b、c、d)擴充超過N個DCT-IV輸入信號末端,因此根據前文說明之邊界條件必須「反摺」。
如此,2N個輸入信號之MDCT(a、b、c、d)恰等於N個輸入之DCT-IV:(-cR
-d、a-bR
),此處R表示如前述的顛倒。藉此方式,任何運算DCT-IV之演繹法則皆可應用於MDCT。
同理,如前述之IMDCT公式恰為DCT-IV之1/2(本身反向),此處輸出信號位移N/2且擴充(透過邊界條件)至長度2N。反向DCT-IV單純回到前文說明之輸入信號(-cR
-d、a-bR
)。當透過邊界條件位移與擴充時,獲得第2g圖所示結果。如此半數IMDCT輸出信號為冗餘。
現在瞭解TDAC如何作用。假設運算隨後50%重疊的2N區塊之MDCT(c、d、e、f)。則IMDCT類似前文說明將獲得:(-cR
-d、d-cR
、e+fR
、e+fR
)/2。加上於重疊半數之先前IMDCT結果,顛倒各項互相抵消,獲得單純(c、d),復原原先的資料。
現在已經明白「時域頻疊抵消」一詞的起源。使用擴充超過邏輯DCT-IV邊界之輸入資料,造成欲頻疊資料係恰
以超過尼奎斯特(Nyquist)頻率之該等頻率頻疊至較低頻之相同方式頻疊,但此頻疊係發生於時域而非發生於頻域。因此組合c-dR
等,當相加時抵消的組合具有精確的正號。
對於奇數N(實際上罕用),N/2並非整數,因此MDCT必非單純DCT-IV之位移置換。此種情況下,額外位移一個樣本的一半表示MDCT/IMDCT變成等於DCT-III/II,而分析係類似前文說明。
於前文已經對尋常MDCT證實TDAC性質,顯示於重疊半數中加上隨後區塊之IMDCT可復原原先資料。此種視窗化MDCT之反向性質之導算只略微較複雜。
由前文回想當(a,b,c,d)及(c,d,e,f)經MDCT化、IMDCT化且加上重疊一半時,獲得(c+dR
,cR
+d)/2+(c-dR
,d-cR
)/2=(c,d)亦即原先資料。
現在提示將MDCT輸入信號及IMDCT輸出信號二者乘以長度2N之視窗函數。如前文說明,假設對稱性視窗函數,因此具有形式(w,z,zR
,wR
),此處w及z為長度-N/2向量及R表示如前述之倒數。則Princen-Bradley條件可寫成
乘法及加法係逐一元素進行,或相等地
顛倒w及z。
因此,替代MDCT(a、b、c、d),MDCT(wa、zb、zR
c、wR
d)經MDCT化,全部乘法皆係以逐一元素進行。當藉視窗函數經IMDCT化時再度相乘(逐一元素)時,最後N個半數結果顯示於第2h圖。
注意乘以1/2不再存在,原因在於於視窗化情況下,IMDCT規度化差異達因數2。同理,(c,d,e,f)之視窗化MDCT及IMDCT於頭N半數獲得根據第2i圖所示結果。當兩半加總時,回復原先資料,獲得第2j圖之結果。
第3a圖顯示音訊編碼器10之另一個實施例。於第3a圖所示實施例中,時間頻疊導入變換器14包含一視窗濾波器17用於施加視窗函數至重疊預測域訊框;及一變換器18用於將視窗化重疊預測域訊框變換成預測域頻譜。根據前述多個視窗函數,其中部分函數進一步詳細說明如後。
音訊編碼器10之另一個實施例顯示於第3b圖。於第3b圖所示實施例中,時間頻疊導入變換器14包含一處理器19用於檢測一事件,且若事件被檢測時提供視窗順序資訊,其中該視窗濾波器17自適應於根據該視窗順序資訊應用視窗函數。舉例言之,依據由所取樣的音訊信號訊框分析得的某些信號性質可能發生該事件。例如根據例如信號、調性、暫態等自動交互相關性質,可應用不同的視窗長度或不同的視窗邊緣等。換言之,可能發生不同事件作為所取樣的音訊信號之訊框之不同性質,處理器19可依據該音訊信號之訊框性質而提供依序列不同的視窗。後文將說明視窗序列之序列及參數之進一步細節。
第3c圖顯示音訊編碼器10之另一個實施例。於第3d圖所示實施例中,預測域訊框不僅提供予時間頻疊導入變換器14同時也提供予碼簿編碼器13,其自適應於基於預定碼簿編碼預測域訊框來獲得一碼簿已編碼的訊框。此外,第3c圖所示實施例包含一判定器用於判定是否使用碼簿已編碼訊框或已編碼訊框來基於編碼效率測量值獲得最終的已編碼訊框。第3c圖所示實施例也稱作閉環情節。於本情節中,為了由二分支獲得已編碼訊框,判定器15可能具有一個分支係基於變換而另一個分支係基於碼簿。為了判定編碼效率測量值,判定器可解碼得自二分支之已編碼訊框,然後經由評估得自不同分支之誤差統計數字而判定編碼效率測量值。
換言之,判定器15自適應於顛倒編碼程序,亦即對二分支進行全解碼。已經全解碼的訊框,判定器15自適應於比較已解碼樣本與原先樣本,於第3c圖以虛線箭頭指示。於第3c圖所示實施例中,判定器15也被提供預測域訊框,允許解碼得自冗餘減少編碼器16之已編碼訊框,也解碼來自碼簿編碼器13之碼簿已編碼訊框,且將結果與原先已編碼的預測域訊框比較。於一個實施例中,經由比較差異,可測定例如信號對雜訊比或統計誤差或最小誤差等編碼效率測量值。若干實施例中,也關係個別碼速率,亦即編碼訊框要求的位元數目。然後判定器15自適應於基於該編碼效率測量值,選擇得自冗餘減少編碼器16之已編碼訊框或碼簿已編碼訊框作為最終已編碼訊框。
第3d圖顯示音訊編碼器10之另一個實施例。於第3d圖所示實施例中,有個開關20耦合至判定器15,用於基於編碼效率測量值介於時間頻疊導入變換器14與碼簿編碼器13間切換預測域訊框。判定器15自適應於基於所取樣之音訊信號的訊框測定編碼效率,俾便測定開關20之位置,亦即使用具有時間頻疊導入變換器14及冗餘減少編碼器16之基於變換的編碼分支,或使用具有碼簿編碼器13之基於碼簿的編碼分支。如前文說明,編碼效率測量值可基於所取樣之音訊信號之訊框性質測定,亦即訊框性質的本身例如該訊框係較為像音調或較為像雜訊測定。
第3d圖所示實施例之組態也稱作為開環組態,原因在於判定器15可基於輸入訊框判定而無須得知個別編碼分支的結果。於又另一實施例中,判定器可基於預測域訊框判定,於第3d圖以虛線箭頭指示。換言之,一個實施例中,判定器15可能並非基於所取樣之音訊信號訊框判定,反而係基於預測域訊框判定。
後文將舉例說明判定器15之決策過程。大致上,經由應用信號處理操作可介於音訊信號之脈衝狀部分與穩態信號之穩態部分間區別,其中測量脈衝狀特性,也測量穩態狀特性。此等測量例如可經由分析音訊信號之波形進行。為了達成此項目的,可進行任何基於變換的處理或LPC處理或任何其他處理。一種直覺的方式係判定該部分是否為脈衝狀,例如觀察時域波形,且判定此時域波形是否於規則間隔或不規則間隔具有波峰,規則間隔的波峰甚至更自適應於語音狀編碼器,亦即用於碼簿編碼器。注意,甚至於語音內部可區別有聲部分及無聲部分。碼簿編碼器13可更有效用於有聲信號部分或有聲訊框,其中基於變換的分支包含時間頻疊導入變換器14及冗餘減少編碼器16之基於變換的分支更自適應於無聲訊框。通常基於變換的編碼較為自適應於並非屬有聲信號的穩態信號。
舉例言之,分別參考第4a及4b圖、第5a及第5b圖。舉例說明討論脈衝狀信號節段或信號部分及穩態信號節段或信號部分。大致上,判定器15自適應於基於不同標準判定例如穩態、暫態、頻譜白度等。後文將實例標準作為一個實施例之一部分。特定言之,有聲語音示例說明於第4a圖之實例及第4b圖之頻域,討論作為脈衝狀信號部分的實例,而作為穩態信號部分之實例的無聲語音節段係關聯第5a及5b圖作討論。
語音通常可分類為有聲、無聲或混合。經取樣的有聲節段及無聲節段之時域及頻域作圖顯示於第4a、4b、5a及5b圖。有聲語音於時域為準週期性,而於頻域為調協結構化;無聲語音為仿隨機且寬頻。此外,有聲節段之能量通常係高於無聲節段之能量。有聲語音之短期頻譜係以其精細及共振峰結構為特徵。精細諧波結構係由於語音之準週期性的結果,且可歸因於聲帶的振動。共振峰結構也稱作為頻譜封包,係由於聲音來源與聲道交互作用的結果。聲道包含咽及口腔。「配合」有聲語音之短期頻譜的頻譜封包形狀係與聲道及由於聲門脈衝導致頻譜傾斜(6分貝/八音度)的傳輸特性有關。
頻譜封包係以一組波峰稱作為共振峰為特徵。共振峰為聲道的共振模式。一般聲道有3至5個低於5kHz的共振峰。通常出現低於3kHz的前三個共振峰之振幅及位置就語音的合成及感官知覺而言相當重要。較高共振峰對寬頻且無聲語音的呈現相當重要。語音之性質係與實體語音產生系統相關,說明如下。以振動聲帶產生的準週期性聲門空氣脈衝激勵聲道,產生有聲語音。週期性脈衝之頻率稱作為基本頻率或音高。強制空氣通過聲道的狹窄部分產生無聲語音。鼻音係由於鼻道與聲道的聲學耦合的結果,而爆裂音係由突然間減少堆積於聲道閉合處後方的空氣壓而產生。
如此,音訊信號之穩態部分可為如第5a圖所示於時域的穩態部分或於頻率的穩態部分,由於時域的穩態部分並未顯示持久重複脈衝,故係與第4a圖所示脈衝狀部分不同。如後詳述,穩態部分與脈衝狀部分間之差異也使用LPC法進行,該方法將聲道及聲道的激勵模型化。當考慮信號的頻域時,脈衝狀信號顯示顯著出現個別共振峰,亦即第4b圖的顯著峰,而穩態頻譜具有如第5b圖所示之寬頻譜;或於諧波信號之情況下,相當連續的雜訊底位準具有明顯峰表示例如音樂信號中可能出現的特殊音調,但不具有如第4b圖中之脈衝狀信號的彼此間規則距離。
此外,脈衝狀部分及穩態部分可能以定時方式發生,亦即表示音訊信號於時間上之一部分為穩態,而音訊信號於時間上之另一部分為脈衝狀。另外或此外,一個信號的特性於不同頻帶可能不同。如此,判定音訊信號而穩態或為脈衝狀之判定也可以頻率選擇進行,因此某個頻帶或若干個頻帶被視為穩態,而其他頻帶被視為脈衝狀。此種情況下,音訊信號之某個時間部分包括一脈衝狀部分或一穩態部分。
回頭參考第3d圖所示實施例,判定器15可分析音訊框、預測域訊框或激勵信號,俾便判定其是否相當脈衝狀,換言之較為適合碼簿編碼器13或為穩態,亦即較為適合基於變換之編碼分支。
隨後將就第6圖討論藉合成分析之CELP編碼器。CELP編碼器之細節,也參考「語音編碼:輔助教學綜論」Andreas Spaniers,IEEEE議事錄,84卷,第10期,1994年10月,1541-1582頁。第6圖示例說明之CELP編碼器包括一長期預測組件60及一短期預測組件62。此外,使用以64指示之碼簿。感官式加權濾波器W(z)實施於66,而誤差最小化控制器提供於68。S(n)為輸入音訊信號。於經過感官式加權後,已加權信號輸入減法器69,計算已加權合成信號(方塊66的輸出信號)與實際已加權預測誤差信號Sw
(n)間之誤差。
通常短期預測A(z)係以LPC分析階段計算,容後詳述。依據本資訊而定,長期預測AL
(z)包括長期預測增益b及延遲T(也稱作為音高增益及音高延遲)。CELP演繹法則使用例如高斯序列之碼簿編碼激勵訊框或預測域訊框。ACELP演繹法則,此處「A」標示「代數」具有特定代數設計的碼簿。
碼簿含有或多或少個向量,此處各個向量具有根據樣本數目的長度。增益因數g定規激勵向量,而激勵樣本係藉長期合成濾波器及短期合成濾波器濾波。「最佳化」向量係選擇讓感官式加權均方誤差為最小化。CELP的搜尋過程由第6圖示例說明之藉合成分析方案顯然易明。須注意,第6圖只示例說明藉分析合成CELP之實例,該等實施例並非限於第6圖所示結構。
於CELP中,長期預測器經常實施為含有前一個激勵信號之自適應性碼簿。長期預測延遲及增益係以自適應性碼薄指數及增益表示,也係藉最小化均方加權誤差作選擇。於此種情況下,激勵信號係由兩個增益規度化向量相加所組成,一個向量來自自適應性碼簿而另一個向量來自固定式碼簿。於AMR-WB+之感官加權濾波器係基於LPC濾波器,如此感官式加權信號為LPC域信號形式。於AMR-WB+使用的變換域編碼器中,變換應用於已加權信號。於解碼器,經由通過由合成濾波器及加權濾波器之反向所組成之濾波器,濾波該已解碼且已加權的信號,獲得激勵信號。
重建的TCX目標x(n)可通過零態反向加權合成濾波器濾波
來找出可應用之合成濾波器之激勵信號。注意每個子訊框或每個訊框之內插式LP濾波器係用於濾波。一旦判定激勵,信號可藉通過合成濾波器1/Â濾波激勵信號,以及然後藉例如通過濾波器1/(1-0.68z-1
)解除加強而重建該信號。注意激勵也可用來更新ACELP自適應性碼簿,允許於隨後訊框由TCX切換至ACELP。也須注意藉TCX訊框長度(不含重
疊)可獲得TCX合成長度:對1、2或3之mod[]分別為256、512或1024樣本。
隨後將根據第7圖之實施例,於該根據實施例中使用LPC分析及LPC合成於判定器15,討論預測編碼分析階段12之實施例之函數。
第7圖示例說明LPC分析區塊12之實施例之進一步細節。音訊信號輸入濾波測定方塊,該方塊決定濾波器資訊A(z)亦即合成濾波器之係數之資訊。本資訊經量化且輸出作為解碼器要求的短期預測資訊。於減法器786中,該信號的目前樣本輸入其中,扣掉目前樣本的預測值,因此對此樣本於線784產生預測誤差信號。注意預測誤差信號也稱作為激勵信號或激勵訊框(通常係於編碼之後)。
用於解碼已編碼訊框來獲得已取樣音訊信號訊框之音訊解碼器80之實施例顯示於第8a圖,其中一個訊框包含多個時域樣本。音訊解碼器80包含冗餘擷取解碼器82用於解碼該等已編碼訊框來獲得用於合成濾波器及預測域訊框頻譜之係數資訊,或預測頻譜域訊框。音訊解碼器80進一步包含反向時間頻疊導入變換器84用於將預測頻譜域訊框變換時域而獲得重疊預測域訊框,其中反向時間頻疊導入變換器84係自適應於由連續的預測域訊框頻譜測定重疊的預測域訊框。此外,音訊解碼器80包含一重疊/加法組合器86,用於組合重疊的預測域訊框而用於以臨界取樣方式用以組合多個重疊的預測域訊框而獲得一個預測域訊框。該預測域訊框由基於LPC之已加權信號組成。重疊/加法組合
器86也包括一變換器用於將預測域訊框變換為激勵訊框。音訊解碼器80進一步包含一預測合成階段88,用以基於係數及激勵訊框而決定合成訊框。
重疊/加法組合器86自適應於組合重疊的預測域訊框,使得於一預測域訊框之樣本平均數係等於該預測域訊框頻譜之樣本的平均數。於實施例中,反向時間頻疊導入變換器84自適應於根據前述細節,根據IMDCT,將預測域訊框頻譜變換為時域。
於方塊86中,通常於「重疊/加法組合器」之後視需要可有「激勵復原」於實施例,第8a-c圖以括弧括出指示。於實施例中,重疊/加法可於LPC已加權域進行,然後通過已加權合成濾波器之反向濾波,已加權信號可變換成激勵信號。
此外,於實施例中,預測合成階段88自適應於基於線性預測亦即LPC來決定訊框。音訊解碼器80之另一個實施例顯示於第8b圖。第8b圖所示音訊解碼器80具有類似於第8a圖所示音訊解碼器80之組件,但第8b圖所示反向時間頻疊導入變換器84進一步包含一變換器84a,用於將預測域訊框頻譜變換成已變換的重疊預測域訊框;及包含一視窗化濾波器84b,用於應用視窗功能與該已變換的重疊預測域訊框而獲得重疊的預測域訊框。
第8c圖顯示具有類似於第8b圖所示之組件之音訊解碼器80的另一個實施例。於第8c圖所示實施例中,反向時間頻疊導入變換器84進一步包含一處理器84c,用於檢測一事件,及若該事件檢測為視窗化濾波器84b,且視窗化濾波器
84b自適應於根據視窗順序資訊應用視窗功能,則處理器84c用於提供視窗順序資訊。該事件可為由已編碼訊框或任何旁資訊所導算出的或所提供的指示。
於音訊編碼器10及音訊解碼器80之實施例中,個別視窗化濾波器17及84自適應於根據視窗順序資訊施加視窗功能。第9圖顯示一般矩形視窗,其中該視窗順序資訊包含一第一零部分,其中該視窗遮蔽樣本;一第二分路部分,其中一訊框亦即預測域訊框或重疊的預測域訊框之多個樣本可未經修改地通過;及一第三零部分,及再度於一訊框終點遮蔽樣本。換言之,可應用視窗功能,該視窗功能於第一零部分遏止一訊框的多個樣本,於第二分路部分通過樣本,及然後於第三零部分遏止於一訊框終點的樣本。於本上下文中,遏止也表示於視窗之分路部分的起點及/或終點附接上一零序列。第二分路部分可使得視窗功能單純具有1之值,亦即樣本未經修改而通過,亦即視窗功能通過該訊框的多個樣本切換。
第10圖顯示視窗順序或視窗功能之另一個實施例,其中該視窗順序進一步包含介於第一零部分與第二分路部分間之一上升緣,及介於第二分路部分與第三零部分間之一下降緣。上升緣部分也視為淡入部分,而下降緣部分可視為淡出部分。於實施例中,第二分路部分包含對絲毫也未修改之LPC域訊框樣本之一序列樣本。
換言之,基於MDCT之TCX可由算術解碼器請求多個量化頻譜係數,lg,其係由最末模式的mod[]及
last_lpd_mode值決定。此二值也定義將應用於反向MDCT之視窗長度及視窗形狀。視窗可由三個部分組成,左側重疊L個樣本部分、中間M個樣本部分及右側重疊R個樣本部分。為了獲得長2*lg之MDCT視窗,可於左側加上ZL個零及於右側加上ZR個零。
下表顯示對若干實施例的頻譜係數數目呈last_lpd_mode及mod[]之函數:
MDCT視窗係藉如下獲得
實施例可提供經由應用不同視窗函數,MDCT、IMDCT分別之編碼延遲比較原先的MDCT降低之優點。為了提供本優點之進一步細節,第11圖顯示四幅線圖,其中頂部的第一圖顯示基於傳統用於MDCT的三角形視窗函數之系統性延遲,以時間單位T表示,該傳統視窗函數係顯示於第11圖由頂部算起的第二幅線圖。
此處考慮系統性延遲,為當一樣本到達解碼器階段時所經過的延遲,假設並無編碼或傳輸該等樣本的延遲。換言之,第11圖所示之系統性延遲考慮於編碼開始前累積一訊框之樣本可能激起的編碼延遲。如前文說明,為了解碼於T之樣本,0至2T間之樣本必須變換。如此對於T之樣本獲得另一個T之系統性延遲。但於該樣本可解碼後不久的樣本前方,第二視窗的全部樣本必須可使用,該等樣本係取中於2T。因此,系統性延遲跳至2T,於第二視窗中心降回T。第11圖由頂部算起的第三幅線圖顯示由一實施例所提供之視窗函數順序。可知比較第11圖頂部算起第二幅線圖之業界現況的視窗,視窗之非零部分重疊區已經減少2△t。換言之,用於該等實施例之視窗函數係如同先前技術之視窗一般廣或一般寬,但具有一第一零部分及一第三零部分變成可預測。
換言之,解碼器已知有一第三零部分,因此解碼可比編碼更早開始。因此,如第11圖底部所示,系統性延遲減少2△t。換言之,解碼器無須等候零部分而可節省2△t。當然顯然於解碼程序後,全部樣本有相同的系統性延遲。第11圖之線圖只驗證樣本到達解碼器所經歷的系統性延遲。換言之,解碼後之總系統性延遲對先前技術辦法將為2T,而對實施例中之視窗為2T-2△t。
後文將考慮一個實施例,此處MDCT用於AMR-WB+編碼解碼器替代FFT。因此,將根據第12圖說明視窗之細節,定義「L」為左重疊區或上升緣部,「M」為1區或第二分路部分,及「R」為右重疊區或下降緣部。此外,考慮第一零部及第三零部。同一訊框完美重建區標示為「PR」以箭頭指示於第12圖。此外,「T」指示變換核心長度之箭頭,係與頻域樣本數目亦即時域樣本數目的半數相對應,包含第一零部分、上升緣部「L」、第二零分路部分「M」及下降緣部「R」及第三零部分。當使用MDCT時,頻率樣本數目可減少,此處對FFT或離散餘弦變換(DCT=離散餘弦變換)之頻率樣本數目。
T=L+M+R
係與MDCT之變換編碼器長度作比較
T=L/2+M+R/2。
第13a圖於頂部顯示AMR-WB+用之視窗函數順序之一實例之頂部線圖,由左至右,第13a圖頂部之線圖顯示ACELP訊框、TCX20、TCX20、TCX40、TCX80、TCX20、TCX20、ACELP及ACELP。虛線顯示前文說明之零輸入響應。
於第13a圖底部,有個用於不同視窗部分之參數表,此處於本實施例中,當任一個TCXx訊框接在另一TCXx訊框後方時,左重疊部或上升緣部L=128。當ACELP訊框接在TCXx訊框後方時使用類似的視窗。若TCX20或TCX40訊框接在ACELP訊框後方,則左重疊部可忽略,亦即L=0。當由ACELP變遷至TCX80時,可使用L=128之重疊部。由第13a圖表中之線圖可知,基本原理係留在非臨界取樣,只要有足夠用於同訊框完美重建所需的額外處理資料量且儘可能快速切換至臨界取樣即可。換言之,唯有ACELP訊框後的第一個TCX訊框維持以本實施例非臨界取樣。
於第13a圖底部表中,強調相較於第19圖所述習知AMR-WB+之表的差異。強調的參數指示本發明之實施例的優點,其中重疊區擴充,故可更順利進行交叉衰減,與視窗的頻率響應改良,同時維持臨界取樣。
由第13a圖底部之表可知,只有對ACELP變遷之TCX導入額外處理資料量,換言之唯有對此種變遷T>PR,亦即達成非臨界取樣。對全部TCXx至TCXx(「x」指示任何訊框時間)變遷,變換長度T係等於新的完美重建樣本的數目,亦即達成臨界取樣。第13b圖示例顯示對全部可能AMR-WB+之具有基於MDCT實施例之全部可能的變遷,帶有全部視窗之線圖代表圖之一表。如第13a圖之表指示,視窗之左部L確實不再取決於前一個TCX訊框之長度。第14b圖之線圖代表圖也顯示當介於不同TCX訊框間切換時可維持臨界取樣。對TCX至ACELP之變遷,可知產生128個樣本之額外處理資料量。因視窗左側並非取決於前一個TCX訊框之長度,第13b圖所示表格可簡化,如第14a圖所示。第14a圖再度顯示對全部可能的變遷之視窗之代表性線圖,此處由TCX訊框之變遷摘述於一列。
第14b圖示例顯示由ACELP變遷至TCX80視窗之進一步細節。第14b圖之視圖顯示樣本數於橫座標而視窗函數於縱座標。考慮MDCT之輸入信號,左側零部由樣本1到樣本512。上升緣部介於樣本513至樣本640間,第二分路部介於641至1664,下降緣部介於1665至1792,第三零部介於1793至2304。至於前文MDCT之討論,於本實施例中,2304個時域樣本變換成1152個頻域樣本。根據前文說明,本視窗之時域頻疊區段係介於樣本513至樣本640間,換言之於跨L=128個樣本延伸的上升緣部。另一個時域頻疊區段係介於樣本1665與樣本1792間之延伸,亦即R=128個樣本之下降緣部。由於第一零部及第三零部,有個非頻疊區段,此處允許大小M=1024個介於樣本641與樣本1664間的完美重建。第14b圖中,虛線指示的ACELP訊框結束於樣本640。就TCX80視窗介於513至640間之上升緣部樣本有不同選項。其中一個選項係首先拋棄樣本而留在ACELP訊框。另一個選項係使用ACELP輸出信號俾便對TCX80訊框進行時域頻疊抵消。
第14c圖示例顯示由任何以「TCXx」表示之TCX訊框變遷至TCX20訊框,及變遷回任何TCXx訊框。第14b圖至第14f圖使用已經就第14b圖所述之相同代表性線圖。於環繞第14c圖之樣本256的中心,顯示TCX20視窗。512個時域樣本藉MDCT變換至256個頻域樣本。時域樣本對第一零部使用64樣本,對第三零部也使用64個樣本。大小M=128之非頻疊區段環繞TCX20視窗中心。樣本65至樣本192間之左重疊部或上升緣部可與前一個視窗之下降緣部(如虛線指示)組合用於時域頻疊抵消。完好重建區獲得尺寸PR=256。由於全部TCX視窗之全部上升緣部為L=128及配合全部下降緣部R=128前方的TCX訊框及後方的TCX訊框可具有任一種大小。當由ACELP變遷至TCX20時,如第14d圖指示,可使用不同視窗。由第14d圖可知,上升緣部選擇為L=0,亦即矩形緣。完美重建面積PR=256。第14e圖顯示當由ACELP變遷至TCX40之類似線圖作為另一個實例;第14f圖示例顯示由任何TCXx視窗變遷至TCX80至任何TCXx視窗。
要言之,第14b圖至第14f圖顯示MDCT之重疊區經常為128個樣本,但當由ACELP變遷至TCX20、TCX40或ACELP時除外。
當由TCX變遷至ACELP或由ACELP變遷至TCX80時可有多個選項。於一個實施例中,由MDCT TCX訊框取樣之視窗可於重疊區拋棄。於另一個實施例中,已訊框化樣本可用於交叉衰減,且可用於基於重疊區的已頻疊ACELP樣本,抵消MDCT TCX樣本中之時域頻疊。又另一實施例中,可進行交叉衰減而未抵消時域頻疊。於ACELP至TCX之變遷,零輸入響應(ZIR=零輸入響應可於編碼器移除用於視窗化,而於解碼器加入用於復原。於圖式中,藉虛線指示於ACELP視窗後方的TCX視窗。本實施例中,當由TCX變遷至TCX時,已視窗化樣本可用於交叉衰減。
當由ACELP變遷至TCX80時,訊框長度較長,且可重疊ACELP訊框,可使用時域頻疊抵消或拋棄法。
當由ACELP變遷至TCX80時,前一個ACELP訊框可導入環振。由於LPC濾波的使用,環振可辨識為來自前一個訊框之誤差傳播。用於TCX40及TCX20之ZIR方法可考慮環振。於實施例中,用於TCX80之變化法係使用具有1088變換長度之ZIR法,亦即未重疊ACELP訊框。於另一個實施例中,可維持相同1152變換長度,可利用恰在ZIR之前的重疊區歸零,如第15圖所示。第15圖顯示ACELP變遷至TCX80,帶有重疊區歸零且使用ZIR法。ZIR部分再度係藉ACELP視窗終點之後的虛線指示。
要言之,本發明之實施例提供當前方為TCX訊框時,可對全部TCX訊框進行臨界取樣的優勢。比較習知辦法,可達成減少1/8額外處理資料量。此外,實施例提供下述優點,接續訊框間之變遷區或重疊區經常為128個樣本,亦即比習知AMR-WB+更長。改良式重疊區也提供改良式頻率響應及更平順的交叉衰減。使用整體編碼及解碼方法可達成更佳信號品質。
依據本發明方法之若干實施要求,本發明方法可於硬體或以軟體實施。實施可使用數位儲存媒體進行,特別為有可電子讀取控制信號儲存於其上的碟片、DVD、快閃記憶體或CD,該等信號與可規劃電腦系統協力合作因而可執行本發明方法。因此通常,本發明為有程式碼儲存於可機器讀取載體上之一電腦程式產品,當該電腦程式產品於電腦上運轉時,該程式碼可操作用於執行本發明方法。換言之,因此本發明方法為具有程式當電腦程式於電腦上運轉時可用於執行至少一種本發明方法之一種電腦程式。
10‧‧‧音訊編碼器
12‧‧‧預測編碼分析階段
13‧‧‧碼薄編碼器
14‧‧‧時間頻疊導入變換器
15‧‧‧判定器
16‧‧‧冗餘減少編碼器
17‧‧‧視窗化濾波器
18‧‧‧變換器
19‧‧‧處理器
20‧‧‧開關
60‧‧‧長期預測組件
62‧‧‧短期預測組件
64‧‧‧碼簿
66‧‧‧感官式加權濾波器
68‧‧‧誤差最小化控制器
69‧‧‧加權信號輸入減法器
80‧‧‧音訊解碼器
82‧‧‧冗餘擷取解碼器
84‧‧‧反向時間頻疊導入變換器
84a‧‧‧變換器
84b‧‧‧視窗化濾波器
84c‧‧‧處理器
86‧‧‧重疊/加法組合器
88‧‧‧預測合成階段
784‧‧‧預測誤差信號
786‧‧‧減法器
1600‧‧‧分析濾波器組
1602‧‧‧感官式模型、心理聲學模型
1604‧‧‧量化及編碼
1606‧‧‧位元流格式化器
1610‧‧‧解碼器輸入介面
1620‧‧‧反向量化
1622‧‧‧合成濾波器組
1701‧‧‧LPC分析器
1703‧‧‧LPC濾波器
1705‧‧‧殘餘/激勵編碼器
1707‧‧‧激勵解碼器
1709‧‧‧LPC合成濾波器
1900‧‧‧重疊區
1910‧‧‧視窗化零輸入響應
第1圖顯示音訊編碼器之實施例;
第2a-2j圖顯示用於時域頻疊導入變換實施例之方程式;
第3a圖顯示音訊編碼器之另一個實施例;
第3b圖顯示音訊編碼器之另一個實施例;
第3c圖顯示音訊編碼器之又另一個實施例;
第3d圖顯示音訊編碼器之又另一個實施例;
第4a圖顯示用於有聲語音之時域語音信號之樣本;
第4b圖示例顯示有聲語音信號樣本之頻譜;
第5a圖示例顯示無聲語音樣本之時域信號;
第5b圖顯示無聲語音信號樣本之頻譜;
第6圖顯示藉合成分析ACELP之實施例;
第7圖示例顯示提供短期預測資訊及預測誤差信號之編碼器端ACELP階段;
第8a圖顯示音訊編碼器之一個實施例;
第8b圖顯示音訊編碼器之另一個實施例;
第8c圖顯示音訊編碼器之另一個實施例;
第9圖顯示視窗功能之一個實施例;
第10圖顯示視窗功能之另一個實施例;
第11圖顯示先前技術視窗功能及一個實施例之視窗功能之線圖及延遲圖;
第12圖示例顯示視窗參數;
第13a圖顯示視窗功能結果及根據視窗參數表之結果;
第13b圖顯示基於MDCT之實施例可能的變遷;
第14a圖顯示於一實施例中可能之變遷表;
第14b圖示例顯示根據一個實施例由ACELP變遷至TCX80之變遷視窗;
第14c圖顯示根據一個實施例由TCXx訊框變遷至TCX20訊框至TCXx訊框之變遷視窗之實施例;第14d圖示例顯示根據一個實施例由ACELP變遷至TCX20之變遷視窗之實施例;第14e圖顯示根據一個實施例由ACELP變遷至TCX20之變遷視窗之實施例;第14f圖示例顯示根據一個實施例由TCXx訊框變遷至TCX80訊框至TCXx訊框之變遷視窗之實施例;第15圖示例顯示根據一個實施例ACELP至TCX80之變遷;第16圖示例顯示習知編碼器及解碼器實例;第17a,b圖示例顯示LPC編碼及解碼;第18圖示例顯示先前技術交叉衰減視窗;第19圖示例顯示先前技術之AMR-WB+視窗結果;第20圖示例顯示於AMR-WB+用於介於ACELP及TCX間傳輸之視窗。
10‧‧‧音訊編碼器
12‧‧‧預測編碼分析階段
14‧‧‧時間頻疊導入變換器
16‧‧‧冗餘減少編碼器
Claims (21)
- 一種音訊編碼器,該音訊編碼器適應於編碼一經取樣的音訊信號之訊框來獲得已編碼訊框,其中一訊框包含多個時域音訊樣本,該音訊編碼器包含:一預測編碼分析階段,用於基於音訊樣本之一訊框決定一合成濾波器及一預測域訊框之係數之資訊;一時間頻疊導入變換器,用於將重疊的預測域訊框變換成頻域來獲得預測域訊框頻譜,其中該時間頻疊導入變換器係適應於以臨界取樣方式變換該等重疊的預測域訊框;及一冗餘減少編碼器,用於編碼該預測域訊框頻譜來獲得基於該等係數及該經編碼預測域訊框頻譜之已編碼訊框,其中該時間頻疊導入變換器包含用於施加視窗化函數予重疊的預測域訊框之一視窗化濾波器,及用於將已視窗化的重疊的預測域訊框變換成該預測域訊框頻譜之一變換器;及其中該時間頻疊導入變換器包含一處理器用以檢測一事件,且若該處理器檢測到該事件則用於提供一視窗順序資訊;及其中該視窗化濾波器係適應於根據該視窗順序資訊應用該視窗化函數。
- 如申請專利範圍第1項之音訊編碼器,其中一預測域訊框係基於包含用於該合成濾波器之一激勵信號之樣本之一激勵訊框。
- 如申請專利範圍第1或2項之音訊編碼器,其中該時間頻疊導入變換器係適應於變換重疊預測域訊框,使得該預測域訊框頻譜之樣本平均數係等於預測域訊框之樣本平均數。
- 如申請專利範圍第1項之音訊編碼器,其中該時間頻疊導入變換器係適應於根據修改型離散餘弦變換(MDCT)而變換重疊的預測域訊框。
- 如申請專利範圍第1項之音訊編碼器,其中該視窗順序資訊包含一第一零部分、一第二分路部分及一第三零部分。
- 如申請專利範圍第5項之音訊編碼器,其中該視窗順序資訊包含介於該第一零部分與該第二分路部分間之一上升緣部,及介於該第二分路部分與該第三零部分間之一下降緣部。
- 如申請專利範圍第6項之音訊編碼器,其中該第二分路部分包含一序列之1,以用於不修改該預測域訊框頻譜之樣本。
- 如申請專利範圍第1項之音訊編碼器,其中該預測編碼分析階段係適應於基於線性預測編碼(LPC)而判定該等係數之資訊。
- 如申請專利範圍第1項之音訊編碼器,進一步包含一碼簿編碼器,其用於基於一預定的碼簿而編碼該等預測域訊框來獲得一碼簿已編碼預測域訊框。
- 如申請專利範圍第9項之音訊編碼器,進一步包含一判定器,其用於判定是否使用碼簿已編碼預測域訊框或已 編碼預測域訊框來獲得基於編碼效率測量值之一最終已編碼訊框。
- 如申請專利範圍第1項之音訊編碼器,進一步包含耦接至該判定器之一開關,其用於基於該編碼效率測量值而於該時間頻疊導入變換器與該碼薄編碼器間切換該等預測域訊框。
- 一種用於編碼已取樣音訊信號之訊框之方法,該方法可獲得已編碼訊框,其中一訊框包含多個時域音訊樣本,該方法包含下列步驟基於音訊樣本之一訊框,決定用於一合成濾波器之係數之資訊;基於該音訊樣本之訊框決定一預測域訊框;以臨界取樣方式導入時間頻疊,將重疊的預測域訊框變換至頻域來獲得預測域訊框頻譜;及編碼該預測域訊框頻譜來獲得基於該等係數與該已編碼預測域訊框頻譜之已編碼訊框,其中該變換步驟包含使用一視窗化濾波器來施加視窗化函數予重疊的預測域訊框,及將已視窗化的重疊的預測域訊框變換成該預測域訊框頻譜;及其中該變換步驟更包含檢測一事件,且若檢測到該事件則提供一視窗順序資訊;及其中該視窗化濾波器係適應於根據該視窗順序資訊應用該視窗化函數。
- 一種電腦程式,其具有一程式碼用於當該程式碼於一電腦或一處理器上運轉時執行如申請專利範圍第12項之 方法。
- 一種音訊解碼器,該音訊解碼器用於解碼已編碼訊框來獲得一已取樣音訊信號之訊框,其中一訊框包含多個時域音訊樣本,該音訊解碼器包含:一種冗餘擷取解碼器,用於解碼該等已編碼訊框來獲得一用於合成濾波器之係數之資訊及預測域訊框頻譜;一反向時間頻疊導入變換器,用於將該預測域訊框頻譜變換至時域來獲得重疊的預測域訊框,其中該反向時間頻疊導入變換器係適應於由接續的預測域訊框頻譜決定重疊的預測域訊框,其中該反向時間頻疊導入變換器進一步包含一變換器,其用於將預測域訊框頻譜變換成已變換的重疊的預測域訊框;及一視窗化濾波器,其用於施加一視窗函數至該等已變換的重疊預測域訊框而獲得該等重疊的預測域訊框;其中該反向時間頻疊導入變換器包含一處理器,其用於檢測一事件,且若檢測得該事件,則用於提供一視窗順序資訊予該視窗化濾波器;以及其中該視窗化濾波器係適應於根據該視窗順序資訊施加該視窗函數;及其中該視窗順序資訊包含一第一零部分、一第二分路部分及一第三零部分;一重疊/加法組合器,用來以臨界取樣方式組合重疊的預測域訊框而獲得一預測域訊框;及一預測合成階段,用於基於該等係數及該預測域訊框而決定音訊樣本之訊框。
- 如申請專利範圍第14項之音訊解碼器,其中該重疊/加法組合器係適應於組合重疊的預測域訊框,使得一預測域訊框中之樣本之平均數係等於一預測域訊框頻譜中之樣本的平均數。
- 如申請專利範圍第14或15項之音訊解碼器,其中該反向時間頻疊導入變換器係適應於根據反向修改型離散餘弦變換(IMDCT)而將該預測域訊框頻譜變換至時域。
- 如申請專利範圍第14項之音訊解碼器,其中該預測合成階段係適應於基於線性預測編碼(LPC)而決定音訊樣本之一訊框。
- 反向如申請專利範圍第17項之音訊解碼器,其中該視窗順序資訊更包含介於該第一零部分與該第二分路部分間之一上升緣部,及介於該第二分路部分與該第三零部分間之一下降緣部。
- 如申請專利範圍第18項之音訊解碼器,其中該第二分路部分包含一序列之1,以用於修改該預測域訊框之樣本。
- 一種用於解碼已編碼訊框之方法,該方法可獲得一已取樣音訊信號之訊框,其中一訊框包含多個時域音訊樣本,該方法包含下列步驟:解碼該等已編碼訊框來獲得用於一合成濾波器之係數之資訊及預測域訊框頻譜;將該預測域訊框頻譜變換至時域來由接續的預測域訊框頻譜獲得重疊的預測域訊框,其中該變換步驟包含: 將預測域訊框頻譜變換成已變換的重疊的預測域訊框;藉一視窗化濾波器施加一視窗函數至該等已變換的重疊預測域訊框而獲得該等重疊的預測域訊框;檢測一事件,且若檢測得該事件,用於提供一視窗順序資訊予該視窗化濾波器;其中該視窗化濾波器係適應於根據該視窗順序資訊施加該視窗函數;其中該視窗順序資訊包含一第一零部分、一第二分路部分及一第三零部分;以臨界取樣方式組合重疊的預測域訊框來獲得一預測域訊框;基於該等係數及該預測域訊框來決定該訊框。
- 一種電腦程式產品,用於當電腦程式於一電腦或處理器上運轉時執行如申請專利範圍第20項之方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US7986208P | 2008-07-11 | 2008-07-11 | |
US10382508P | 2008-10-08 | 2008-10-08 | |
EP08017661.3A EP2144171B1 (en) | 2008-07-11 | 2008-10-08 | Audio encoder and decoder for encoding and decoding frames of a sampled audio signal |
PCT/EP2009/004015 WO2010003491A1 (en) | 2008-07-11 | 2009-06-04 | Audio encoder and decoder for encoding and decoding frames of sampled audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201011739A TW201011739A (en) | 2010-03-16 |
TWI453731B true TWI453731B (zh) | 2014-09-21 |
Family
ID=44259219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW098121864A TWI453731B (zh) | 2008-07-11 | 2009-06-29 | 音訊編碼器與解碼器、用於編碼已取樣音訊信號之訊框及用於解碼已編碼訊框之方法、及電腦程式產品 |
Country Status (8)
Country | Link |
---|---|
US (1) | US8595019B2 (zh) |
CO (1) | CO6351833A2 (zh) |
HK (1) | HK1158333A1 (zh) |
IL (1) | IL210332A0 (zh) |
MX (1) | MX2011000375A (zh) |
MY (1) | MY154216A (zh) |
TW (1) | TWI453731B (zh) |
ZA (1) | ZA201009257B (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008072732A1 (ja) * | 2006-12-14 | 2008-06-19 | Panasonic Corporation | 音声符号化装置および音声符号化方法 |
MX2011000369A (es) * | 2008-07-11 | 2011-07-29 | Ten Forschung Ev Fraunhofer | Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas. |
PL3002750T3 (pl) * | 2008-07-11 | 2018-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Koder i dekoder audio do kodowania i dekodowania próbek audio |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
EP2446539B1 (en) * | 2009-06-23 | 2018-04-11 | Voiceage Corporation | Forward time-domain aliasing cancellation with application in weighted or original signal domain |
WO2011059254A2 (en) * | 2009-11-12 | 2011-05-19 | Lg Electronics Inc. | An apparatus for processing a signal and method thereof |
EP2524374B1 (en) * | 2010-01-13 | 2018-10-31 | Voiceage Corporation | Audio decoding with forward time-domain aliasing cancellation using linear-predictive filtering |
US9275650B2 (en) | 2010-06-14 | 2016-03-01 | Panasonic Corporation | Hybrid audio encoder and hybrid audio decoder which perform coding or decoding while switching between different codecs |
EP3422346B1 (en) | 2010-07-02 | 2020-04-22 | Dolby International AB | Audio encoding with decision about the application of postfiltering when decoding |
PT3239978T (pt) | 2011-02-14 | 2019-04-02 | Fraunhofer Ges Forschung | Codificação e descodificação de posições de pulso de faixas de um sinal de áudio |
KR101424372B1 (ko) * | 2011-02-14 | 2014-08-01 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 랩핑 변환을 이용한 정보 신호 표현 |
PL2676268T3 (pl) | 2011-02-14 | 2015-05-29 | Fraunhofer Ges Forschung | Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej |
PT2676270T (pt) | 2011-02-14 | 2017-05-02 | Fraunhofer Ges Forschung | Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade |
AR085794A1 (es) | 2011-02-14 | 2013-10-30 | Fraunhofer Ges Forschung | Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral |
ES2613747T3 (es) | 2013-01-08 | 2017-05-25 | Dolby International Ab | Predicción basada en modelo en un banco de filtros críticamente muestreado |
BR112015017632B1 (pt) | 2013-01-29 | 2022-06-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Aparelho e método para gerar um sinal melhorado da frequência utilizando nivelamento temporal de sub-bandas |
CN105378835B (zh) | 2013-02-20 | 2019-10-01 | 弗劳恩霍夫应用研究促进协会 | 使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法 |
EP2830058A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frequency-domain audio coding supporting transform length switching |
KR101498113B1 (ko) * | 2013-10-23 | 2015-03-04 | 광주과학기술원 | 사운드 신호의 대역폭 확장 장치 및 방법 |
CN104751849B (zh) | 2013-12-31 | 2017-04-19 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
EP2922056A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
EP2922055A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
EP2922054A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation |
CN107369454B (zh) * | 2014-03-21 | 2020-10-27 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
CN106448688B (zh) * | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
TWI602172B (zh) * | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
CN107004417B (zh) * | 2014-12-09 | 2021-05-07 | 杜比国际公司 | Mdct域错误掩盖 |
US9842611B2 (en) * | 2015-02-06 | 2017-12-12 | Knuedge Incorporated | Estimating pitch using peak-to-peak distances |
EP3067889A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for signal-adaptive transform kernel switching in audio coding |
EP3067886A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
EP3107096A1 (en) | 2015-06-16 | 2016-12-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downscaled decoding |
DE102018208118A1 (de) * | 2018-05-23 | 2019-11-28 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Authentifizieren einer über einen Bus übertragenen Nachricht |
CN112384976A (zh) * | 2018-07-12 | 2021-02-19 | 杜比国际公司 | 动态eq |
EP3644313A1 (en) * | 2018-10-26 | 2020-04-29 | Fraunhofer Gesellschaft zur Förderung der Angewand | Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction |
CN111444382B (zh) * | 2020-03-30 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、计算机设备以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW466843B (en) * | 1999-06-17 | 2001-12-01 | Sony Corp | Decoding method and apparatus and program furnishing medium |
TW493161B (en) * | 1999-09-22 | 2002-07-01 | Conexant Systems Inc | System of encoding and decoding speech signals |
US20040044534A1 (en) * | 2002-09-04 | 2004-03-04 | Microsoft Corporation | Innovations in pure lossless audio compression |
TW591606B (en) * | 2001-11-14 | 2004-06-11 | Matsushita Electric Ind Co Ltd | Encoding device, decoding device, and system thereof |
WO2004082288A1 (en) * | 2003-03-11 | 2004-09-23 | Nokia Corporation | Switching between coding schemes |
US20070147518A1 (en) * | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
US20080027719A1 (en) * | 2006-07-31 | 2008-01-31 | Venkatesh Kirshnan | Systems and methods for modifying a window with a frame associated with an audio signal |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1062963C (zh) | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
US5781888A (en) * | 1996-01-16 | 1998-07-14 | Lucent Technologies Inc. | Perceptual noise shaping in the time domain via LPC prediction in the frequency domain |
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
US20020040299A1 (en) | 2000-07-31 | 2002-04-04 | Kenichi Makino | Apparatus and method for performing orthogonal transform, apparatus and method for performing inverse orthogonal transform, apparatus and method for performing transform encoding, and apparatus and method for encoding data |
FR2813722B1 (fr) * | 2000-09-05 | 2003-01-24 | France Telecom | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
US7516064B2 (en) | 2004-02-19 | 2009-04-07 | Dolby Laboratories Licensing Corporation | Adaptive hybrid transform for signal analysis and synthesis |
US7599833B2 (en) * | 2005-05-30 | 2009-10-06 | Electronics And Telecommunications Research Institute | Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same |
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
CN101589623B (zh) | 2006-12-12 | 2013-03-13 | 弗劳恩霍夫应用研究促进协会 | 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法 |
US8032359B2 (en) * | 2007-02-14 | 2011-10-04 | Mindspeed Technologies, Inc. | Embedded silence and background noise compression |
MX2011000369A (es) * | 2008-07-11 | 2011-07-29 | Ten Forschung Ev Fraunhofer | Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas. |
AU2009267477B2 (en) * | 2008-07-11 | 2013-06-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method for encoding a symbol, method for decoding a symbol, method for transmitting a symbol from a transmitter to a receiver, encoder, decoder and system for transmitting a symbol from a transmitter to a receiver |
MY152252A (en) * | 2008-07-11 | 2014-09-15 | Fraunhofer Ges Forschung | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
PL3002750T3 (pl) * | 2008-07-11 | 2018-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Koder i dekoder audio do kodowania i dekodowania próbek audio |
ES2592416T3 (es) * | 2008-07-17 | 2016-11-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Esquema de codificación/decodificación de audio que tiene una derivación conmutable |
CA2750795C (en) * | 2009-01-28 | 2015-05-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, encoded audio information, methods for encoding and decoding an audio signal and computer program |
US8457975B2 (en) * | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
KR20100115215A (ko) * | 2009-04-17 | 2010-10-27 | 삼성전자주식회사 | 가변 비트율 오디오 부호화 및 복호화 장치 및 방법 |
WO2011034376A2 (en) * | 2009-09-17 | 2011-03-24 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
ES2441069T3 (es) * | 2009-10-08 | 2014-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación |
KR101137652B1 (ko) * | 2009-10-14 | 2012-04-23 | 광운대학교 산학협력단 | 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법 |
WO2011048118A1 (en) * | 2009-10-20 | 2011-04-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications |
CA2862715C (en) * | 2009-10-20 | 2017-10-17 | Ralf Geiger | Multi-mode audio codec and celp coding adapted therefore |
MX2012004648A (es) * | 2009-10-20 | 2012-05-29 | Fraunhofer Ges Forschung | Codificacion de señal de audio, decodificador de señal de audio, metodo para codificar o decodificar una señal de audio utilizando una cancelacion del tipo aliasing. |
-
2009
- 2009-06-04 MX MX2011000375A patent/MX2011000375A/es active IP Right Grant
- 2009-06-29 TW TW098121864A patent/TWI453731B/zh active
-
2010
- 2010-12-23 ZA ZA2010/09257A patent/ZA201009257B/en unknown
- 2010-12-29 IL IL210332A patent/IL210332A0/en active IP Right Grant
-
2011
- 2011-01-07 MY MYPI2011000096A patent/MY154216A/en unknown
- 2011-01-11 US US13/004,475 patent/US8595019B2/en active Active
- 2011-02-10 CO CO11015756A patent/CO6351833A2/es active IP Right Grant
- 2011-11-21 HK HK11112582.6A patent/HK1158333A1/zh unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW466843B (en) * | 1999-06-17 | 2001-12-01 | Sony Corp | Decoding method and apparatus and program furnishing medium |
TW493161B (en) * | 1999-09-22 | 2002-07-01 | Conexant Systems Inc | System of encoding and decoding speech signals |
TW591606B (en) * | 2001-11-14 | 2004-06-11 | Matsushita Electric Ind Co Ltd | Encoding device, decoding device, and system thereof |
US20040044534A1 (en) * | 2002-09-04 | 2004-03-04 | Microsoft Corporation | Innovations in pure lossless audio compression |
WO2004082288A1 (en) * | 2003-03-11 | 2004-09-23 | Nokia Corporation | Switching between coding schemes |
US20070147518A1 (en) * | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
US20080027719A1 (en) * | 2006-07-31 | 2008-01-31 | Venkatesh Kirshnan | Systems and methods for modifying a window with a frame associated with an audio signal |
Also Published As
Publication number | Publication date |
---|---|
US20110173011A1 (en) | 2011-07-14 |
US8595019B2 (en) | 2013-11-26 |
TW201011739A (en) | 2010-03-16 |
IL210332A0 (en) | 2011-03-31 |
MY154216A (en) | 2015-05-15 |
ZA201009257B (en) | 2011-10-26 |
CO6351833A2 (es) | 2011-12-20 |
HK1158333A1 (zh) | 2012-07-13 |
MX2011000375A (es) | 2011-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI453731B (zh) | 音訊編碼器與解碼器、用於編碼已取樣音訊信號之訊框及用於解碼已編碼訊框之方法、及電腦程式產品 | |
JP5551692B2 (ja) | 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム | |
EP2311032B1 (en) | Audio encoder and decoder for encoding and decoding audio samples | |
TWI463486B (zh) | 音訊編碼器/解碼器、音訊編碼/解碼方法、電腦程式產品及電腦可讀儲存媒體 | |
CA2739736A1 (en) | Multi-resolution switched audio encoding/decoding scheme | |
AU2013200679B2 (en) | Audio encoder and decoder for encoding and decoding audio samples | |
EP3002751A1 (en) | Audio encoder and decoder for encoding and decoding audio samples |