TWI520128B - 多解析度切換音訊編碼/解碼方案(一) - Google Patents
多解析度切換音訊編碼/解碼方案(一) Download PDFInfo
- Publication number
- TWI520128B TWI520128B TW102120721A TW102120721A TWI520128B TW I520128 B TWI520128 B TW I520128B TW 102120721 A TW102120721 A TW 102120721A TW 102120721 A TW102120721 A TW 102120721A TW I520128 B TWI520128 B TW I520128B
- Authority
- TW
- Taiwan
- Prior art keywords
- signal
- audio
- encoding
- branch
- converter
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims description 114
- 238000012545 processing Methods 0.000 claims description 95
- 238000004422 calculation algorithm Methods 0.000 claims description 80
- 238000006243 chemical reaction Methods 0.000 claims description 75
- 230000003595 spectral effect Effects 0.000 claims description 74
- 238000000034 method Methods 0.000 claims description 62
- 238000013139 quantization Methods 0.000 claims description 36
- 230000002441 reversible effect Effects 0.000 claims description 32
- 238000004458 analytical method Methods 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 19
- 230000015572 biosynthetic process Effects 0.000 claims description 18
- 238000003786 synthesis reaction Methods 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 14
- 239000002131 composite material Substances 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 3
- 230000001052 transient effect Effects 0.000 claims 1
- 230000005284 excitation Effects 0.000 description 58
- 230000006870 function Effects 0.000 description 47
- 238000001228 spectrum Methods 0.000 description 47
- 238000010586 diagram Methods 0.000 description 23
- 238000007781 pre-processing Methods 0.000 description 23
- 230000007704 transition Effects 0.000 description 20
- 238000001914 filtration Methods 0.000 description 19
- 230000005540 biological transmission Effects 0.000 description 13
- 239000000523 sample Substances 0.000 description 10
- 230000002123 temporal effect Effects 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000007774 longterm Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000005562 fading Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 210000001260 vocal cord Anatomy 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 206010021403 Illusion Diseases 0.000 description 2
- IXKSXJFAGXLQOQ-XISFHERQSA-N WHWLQLKPGQPMY Chemical compound C([C@@H](C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N1CCC[C@H]1C(=O)NCC(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(O)=O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)NC(=O)[C@@H](N)CC=1C2=CC=CC=C2NC=1)C1=CNC=N1 IXKSXJFAGXLQOQ-XISFHERQSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 101100379142 Mus musculus Anxa1 gene Proteins 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003446 memory effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000001028 reflection method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本發明係有關於音訊編碼,且特定地有關於低位元率音訊編碼方案。
在習知技術中,諸如MP3或AAC之頻域編碼方案是已知的。這些頻域編碼器是基於一時域/頻域轉換、一隨後的量化階段,其中在該隨後的量化階段中,使用來自一感知模組的資訊來控制該量化誤差,及一編碼階段,其中該量化的頻譜係數與對應的旁側資訊使用編碼表被熵編碼。
另一方面有非常適合於語音處理的編碼器,諸如在3GPP TS 26.290中所描述之AMR一WB+。此類語音編碼方案執行一時域信號之一線性預測(LP)濾波。此一LP濾波獲自於該輸入時域信號之一線性預測分析。接著該產生的LP濾波器係數被量化/編碼並當作旁側資訊被傳輸。該過程被稱為線性預測編碼(LPC)。在該濾波器的輸出,也稱為激發信號之預測殘餘信號或預測誤差信號使用ACELP編碼器之綜合分析級,或可選擇地使用一轉換編碼器來編碼,該轉換編碼器使用具有一重疊之傅立葉轉換。使用一閉迴路或一開迴路演算法來決定使用ACELP編碼或轉換編碼的激勵編碼(也稱為TCX編碼)。
頻域音訊編碼方案,諸如將一AAC編碼方案與一頻帶複製(SBR)技術結合之高效AAC(HE-AAC)編碼方案,也可與被稱為“MPEG環繞”之一聯合立體聲或一多聲道編碼工具相結合。
另一方面,諸如AMR-WB+之語音編碼器也具有一高頻延伸級與一立體聲功能。
頻域編碼方案的優點在於它們對低位元率音樂信號顯示一高品質。然而,低位元率的語音信號品質卻有問題。
語音編碼方案對甚至是低位元率的語音信號顯示有高品質,但對低位元率的其它信號顯示出不良品質。
本發明之目的乃在提供解決上述所提及問題之方法及實施該方法之設備。本發明之目的可藉於本發明之獨立項申請專利範圍所敘述之方法、用本發明之一目的是提供一改良的編碼/解碼概念。
此目的透過依據申請專利範圍第1項之一音訊編碼器、依據申請專利範圍第9項之一種音訊編碼方法、依據申請專利範圍第10項所述之一解碼器、依據申請專利範圍第19項之一種解碼方法、依據申請專利範圍第20項之一編碼信號或依據申請專利範圍第21項之一電腦程式來實現。
本發明是基於一發現,即:一混合或雙重模式切換的編碼(coding/encoding)方案之優點在於針對某一信號特性始終可選擇最佳的編碼演算法。換言之,本發明並不期望一種完美匹配所有信號特性的信號編碼演算法。此方案將始終是一折衷方案,由習知音訊編碼器與語音編
碼器之間的巨大差異可領會。取而代之的是,本發明將不同的編碼演算法,諸如一語音編碼演算法及一音訊編碼演算法結合在一切換方案中以便針對每一音訊信號部分選擇最佳的匹配編碼演算法。此外,這兩編碼支路包含一時間/頻率轉換器但在一編碼支路中提供了諸如一LPC處理器之一進一步的域轉換器,這也是本發明之一特徵。此域轉換器確認該第二支路比該第一編碼支路適於某一信號特性。然而,該域處理器的信號輸出也轉換成一頻譜表示也是本發明之一特徵。
兩轉換器,即,在該第一編碼支路中的該第一轉換器與在該第二編碼支路中的該第二轉換器,被組態為實施一多解析度轉換編碼,其中根據該音訊信號及特定地根據在該相對應的編碼支路中實際編碼的該音訊信號來設定該相對應的轉換器之解析度以便獲得品質與位元率之間之一良好折衷或考慮到某一固定品質、最低位元率或考慮到一固定位元率、最高品質。
依據本發明,該兩轉換器之時間/頻率解析度可較佳地彼此獨立設定以使得每一時間/頻率轉換器可最佳地匹配該相對應信號之該時間/頻率解析度需求。該位元效率,即有用位元與旁側資訊位元之間的關係對較長區塊大小/視窗長度較高。因此,兩轉換器較偏向於一較長的視窗長度是較佳的,因為,大體上相同數量的旁側資訊較之應用較短的區塊大小/視窗長度/轉換長度涉及該音訊信號之一較長的時間部分。較佳地,在該等編碼支路中的該時間/頻率解析度也受位於這些支路中的其它編碼/解碼工具影響。較佳地,包含該域轉換器諸如一LPC處理器之該第二編碼支路包含另一混合方案,諸如一ACELP支路及一TCX方案,其中該第二轉換器包括在該TCX方案中。較佳
地,位於該TCX支路中的該時間/頻率轉換器之解析度亦受該編碼決定影響,以使得在該第二編碼支路中的該信號的一部分在具有該第二轉換器的該TCX支路中或在不具有一時間/頻率轉換器的該ACELP支路中處理。
基本上,域轉換器與第二編碼支路,且特別是第二編碼支路中的第一處理支路及在第二編碼支路中的第二處理支路,均非必須是與語音相關的元件,諸如域轉換器的一LPC分析器、第二處理支路的一TCX編碼器及第一處理支路的一ACELP編碼器。當與語音及音樂不同的一音訊信號之其它信號特性被評估時,其它應用也是有用的。可使用任何域轉換器及編碼支路實施,及可用綜合分析方案找到最佳匹配演算法以使得,在該解碼器端針對該音訊信號之每一部分執行所有的編碼選擇並選擇最佳結果,其中該最佳結果可透過對該等編碼結果實施一目標函數來找到。接著,識別(對於一解碼器而言)針對該編碼音訊信號之某一部分的該基本編碼演算法的旁側資訊透過一編碼器輸出介面與該編碼的音訊信號附合,以使得該解碼器不必在意在該編碼器端上或在任何信號特性上的任何決策而只視該發射的旁側資訊而定選擇它的編碼支路。此外,該解碼器將不僅選擇正確的解碼支路,且亦基於在該編碼信號中編碼的旁側資訊選擇哪一時間/頻率解析度將應用在一對應的第一解碼支路及一對應的第二解碼支路中。
因此,本發明提供一編碼/解碼方案,該編碼/解碼方案結合了所有不同的編碼演算法的優點而避免了這些編碼演算法的缺點,當該信號部分將必須由並不適合於某一編碼演算法之一演算法編碼時出現這些缺點。此外,本發明避免了如果由在不同編碼支路中之不同音訊信號部分引起之該等不同的時間/頻率解析度需求還沒有說
明時將出現的任何缺點。取而代之的是,由於在兩支路中時間/頻率轉換器之可變的時間/頻率解析度,至少減少或甚至完全避免將在該情形中:即在相同時間/頻率解析度將用於兩編碼支路或其中針對任何編碼支路將只可能是一固定的時間/頻率解析度的情況下,出現之任何偽影(artifact)。
該第二開關再次在兩處理支路之間決定,但是在與該“外部”第一支路域不同的一域中。再次,一“內部”支路主要由一來源模型或SNR計算來啟動,及其它“內部”支路可透過一沉積模型及/或一感知模型來啟動即透過遮罩,或至少包括頻率/頻譜域編碼層面。示範地,一“內部”支路具有一頻域編碼器/頻譜轉換器及另一支路具有在其它域(諸如該LPC域)上編碼之一編碼器,其中此編碼器例如是在沒有進行一頻譜轉換的情況下處理一輸入信號之一CELP或ACELP量化器/定標器。
一進一步的較佳實施例是一音訊編碼器,該音訊編碼器包含定向諸如一頻譜域編碼支路之編碼支路之一第一資訊槽、定向諸如一LPC域編碼支路之編碼支路之一第二資訊槽來源或SNR及用於在該第一編碼支路與該第二編碼支路之間切換之一開關,其中該第二編碼支路包含到與該時域不同之一特定域(諸如產生一激發信號之一LPC分析級)中之一轉換器,及其中該第二編碼支路另外包含諸如LPC域處理支路之一特定域及諸如LPC頻譜域處理支路之一特定頻譜域及用於在該特定域編碼支路與該特定頻譜域編碼支路之間切換之一額外的開關。
本發明之一進一步的實施例是一音訊解碼器,該音訊解碼器包含一第一域(諸如一頻譜域解碼支路)、一第二域(諸如用於解碼在該第二域中的一信號(諸如一激發信號)之一LPC域解碼支路)及一第三域(諸如用於解碼在
一第三域(諸如一LPC頻譜域)中的一信號(諸如一激發信號)之一LPC頻譜解碼器支路),其中該第三域是藉由執行自該第二域的一頻率轉換而獲得,其中提供針對該第二域信號與該第三域信號之一第一開關,及其中提供用於在該第一域解碼器與針對該第二域或該第三域的解碼器之間切換之一第二開關。
3、4‧‧‧項
3a、3b、3c、3d‧‧‧訊框
10a‧‧‧LPC分析級
60‧‧‧長期預測分量
62‧‧‧短期預測分量
64‧‧‧碼簿
66、68‧‧‧區塊
69、86‧‧‧減法器
70‧‧‧全極點濾波器
72‧‧‧聲門模型
77‧‧‧增益級
78‧‧‧轉送路徑
79‧‧‧回饋路徑
80‧‧‧相加級
81、85‧‧‧預測濾波器
84‧‧‧線
87、88、89、411、536‧‧‧區塊
99‧‧‧音訊輸入信號
100‧‧‧共同預處理級
101‧‧‧聯合多聲道級、環繞/聯合立體聲裝置
101a‧‧‧降混器
101b‧‧‧聯合多聲道參數分析器
102‧‧‧頻寬延伸級
102a‧‧‧高頻帶分析器
102b‧‧‧低通濾波區塊
195‧‧‧音訊中間信號
200、521‧‧‧開關
300、525‧‧‧信號分析器、決策級、控制器
300a‧‧‧信號分析器
400‧‧‧第一編碼支路
410‧‧‧第一轉換器
410a、523a‧‧‧視窗化器
410b、523b‧‧‧轉換器
421‧‧‧量化器/定標器區塊、量化器/編碼器級、頻譜音訊編碼器
424‧‧‧量化器/定標器區塊
431‧‧‧第一解碼支路、頻譜音訊解碼器、解碼/解量化級
440‧‧‧第一解碼支路、可控制轉換器、第一域轉換器、時域轉換器、頻率/時間轉換器
440a、534a‧‧‧反向轉換器級
440b、534b‧‧‧合成視窗級
440c、534c‧‧‧重疊/相加級
450‧‧‧第一解碼支路
500‧‧‧第二編碼支路
510‧‧‧LPC處理器、域轉換器
522‧‧‧量化器/定標器區塊、第一處理支路
523‧‧‧第二轉換器
524‧‧‧進一步的編碼工具
526‧‧‧ACELP核心、ACELP區塊、ACELP時域編碼器
527‧‧‧TCX區塊、MDCT-TCX處理裝置
531‧‧‧第一反向處理支路、元件、反向量化器/編碼器、解碼/解量化級
532‧‧‧組合器、元件、開關
533‧‧‧第二反向處理支路、反向量化器/編碼器、解碼/解量化級、項
534‧‧‧第二反向處理支路、反向頻譜轉換器、頻率/時間轉換器、元件
537‧‧‧轉換器、TCX-1區塊
540‧‧‧第一轉換器、域轉換器、LPC合成級、解碼分支
550‧‧‧第二解碼分支
600‧‧‧結合器、開關
601‧‧‧模式檢測區塊、模式決策
609‧‧‧解碼音訊信號
699‧‧‧解碼音訊中間信號
701‧‧‧頻寬擴展區塊、頻寬擴展級
701a‧‧‧補節機
701b‧‧‧調整器
701c‧‧‧結合器
702‧‧‧聯合立體聲/環繞處理級、聯合多通道級、項
702a‧‧‧解碼器端、上混器
702b‧‧‧解碼器端、參數解碼器
799‧‧‧解碼音訊信號
800‧‧‧輸出介面、位元流多工器
801‧‧‧編碼器輸出信號
900‧‧‧輸入介面、位元流解多工器
1200‧‧‧心理聲學模組
1201‧‧‧時域雜訊修整工具、元件
1202‧‧‧M/S編碼工具、元件
1203‧‧‧M/S解碼工具
1204‧‧‧TNS解碼器工具
1205‧‧‧低音後濾波器
本發明之較佳實施例隨後針對該等附圖予以描述,其中:第1a圖是依據本發明之一第一層面之一編碼方案之一方塊圖;第1b圖是依據本發明之該第一層面之一解碼方案之一方塊圖;第1c圖是依據本發明之一進一步的層面之一編碼方案之一方塊圖;第2a圖是依據本發明之一第二層面之一編碼方案之一方塊圖;第2b圖是依據本發明之該第二層面之一解碼方案之一示意圖;第2c圖是依據本發明之一進一步的層面之一編碼方案之一方塊圖;第3a圖說明依據本發明之一進一步的層面之一編碼方案之一方塊圖;第3b圖說明依據本發明之該進一步的層面之一解碼方案之一方塊圖;第3c圖說明具有級聯開關之該編碼設備/方法之一示意表示;
第3d圖說明用於解碼之一設備或方法(其中使用了級聯組合器)之一示意圖;第3e圖說明一時域信號之一圖解及說明被包括在兩編碼信號中的短交錯淡出區域之該編碼信號之一相對應的表示;第4a圖說明具有定位在該編碼支路之前的一開關之一方塊圖;第4b圖說明具有定位在該編碼支路之後的該開關之一編碼方案之一方塊圖;第5a圖說明作為一準週期性或類似脉衝的信號段之一時域語音段之一波束形成;第5b圖說明第5a圖之該段之一頻譜;第5c圖說明無聲語音之一時域語音段,作為針對一類似雜訊段之一範例;第5d圖說明第5c圖之該時域波束之一頻譜;第6圖說明一綜合分析CELP編碼器之一方塊圖;第7a至7d圖說明有聲/無聲激發信號,作為針對類似脉衝信號之一範例;第7e圖說明提供短期預測資訊及該預測誤差(激發)信號之一編碼器端LPC級,;第7f圖說明用於產生一加權信號之一LPC裝置之一進一步的實施例;第7g圖說明透藉由實施如在第2b圖之該轉換器537中所需要之一反向加權操作及一隨後的激發分析來將一加權信號轉換成一激發信號之一實施;第8圖說明依據本發明之一實施例之一聯合多聲道演算法之一方塊圖;
第9圖說明一頻寬擴展演算法之一較佳實施例;第10a圖說明當執行一開迴路決策時對該開關之一詳細描述;及第10b圖說明檔在一閉合迴路決策模式中操作時該開關之一圖解。
第11A圖依據本發明之另一層面說明一音訊編碼器之一方塊圖;第11B圖說明一發明音訊解碼器之另一實施例之一方塊圖;第12A圖說明一發明編碼器之另一實施例;第12B圖說明一發明解碼器之另一實施例;第13A圖說明解析度與視窗/轉換長度之間之相互關係;第13B圖說明針對該第一編碼支路之一組轉換視窗之一概觀及自該第一至該第二編碼支路之一過渡;第13C圖說明多個不同視窗序列,包括針對該第一編碼支路的視窗序列及針對到該第二支路的一過渡之序列;第14A圖說明該第二編碼支路之一較佳實施例之該定框;第14B圖說明應用於該第二編碼支路之短視窗;第14C圖說明應用於該第二編碼支路之中等大小的視窗;第14D圖說明該第二編碼支路所應用的長視窗;第14E圖說明在一超訊框劃分中的ACELP
訊框及TCX訊框之一示範序列;第14F圖說明相對應於針對該第二編碼支路的不同時間/頻率解析度之不同的轉換長度;及第14G圖說明使用第14F圖的多個定義之一視窗之一建構。
第11A圖說明用於編碼一音訊信號之一音訊編碼器之一實施例。該編碼器包含一第一編碼支路400,該第一編碼支路400用於使用一第一編碼演算法來編碼一音訊信號以獲得一第一編碼信號。
該音訊編碼器此外包含一第二編碼支路500,該第二編碼支路500用於使用一第二編碼演算法來編碼一音訊信號以獲得一第二編碼信號。該第一編碼演算法與該第二編碼演算法不同。額外地,提供了用於在該第一編碼支路與該第二編碼支路之間切換之一第一開關以使得對於該音訊信號之一部分,該第一編碼信號或該第二編碼信號都在一編碼器輸出信號801中。
在第11A圖中說明的該音訊編碼器額外地包含一信號分析器300/525,該信號分析器300/525被組態為分析該音訊信號之一部分以決定該音訊信號之該部分在該編碼器輸出信號801中是表示為該第一編碼信號抑或該第二編碼信號。
該信號分析器300/525更進一步被組態為可變地決定在該第一編碼支路400中之一第一轉換器410或在該第二編碼支路500中之一第二轉換器523之一各自的時間/頻率解析度。當產生表示該音訊信號的該部分之該第一編碼信號或該第二編碼信號時,應用此時間/頻率解析度。
該音訊編碼器額外地包含一輸出介面800,該輸出介面800用於產生該編碼器輸出信號801,該編碼器輸出信號801包含對該音訊信號的該部分之一編碼表示及指示該音訊信號之該表示是該第一編碼信號抑或該第二編碼信號並指示用來解碼該第一編碼信號及該第二編碼信號的該時間/頻率解析度之一資訊。
該第二編碼支路較佳地與該第一編碼支路的不同在於:該第二編碼支路額外地包含用於將音訊信號自其在該第一編碼支路中被處理的域轉換成一不同的域之一域轉換器。較佳地,該域轉換器是一LPC處理器510,但是該域轉換器可以以任何其它方式來實施,只要該域轉換器與該第一轉換器410及該第二轉換器523不同。
該第一轉換器410是一時間/頻率轉換器,較佳地包含一視窗化器410a及一轉換器410b。該視窗化器410a將一分析視窗施於該輸入音訊信號,及該轉換器410b執行該視窗化信號至一頻譜表示之一轉換。
類似地,該第二轉換器523較佳地包含一視窗化器523a及一隨後連接的轉換器523b。該視窗化器523a接收該域轉換器510的信號輸出並輸出其視窗化的表示。由該視窗化器523a所施加之一分析視窗的結果被輸入至該轉換器523b以形成一頻譜表示。該轉換器可以是在軟體或硬體或一混合的硬體/軟體實施中實施一相對應的演算法之一FFT或較佳地MDCT處理器。可選擇地,該轉換器可以是一濾波器組實施,諸如一QMF濾波器組,其可能是基於對一原型濾波器的一實數值的或複雜的調變。對於特定濾波器組實施,應用一視窗。然而,對於其他濾波器組實施,針對基於一FFT或MDCT之一轉換演算法所需要的一視窗化是不是必需的。當使用一濾波器組實施時,則該濾
波器組是一可變解析度濾波器組且該解析度控制該濾波器組的頻率解析度及額外地該時間解析度或只有該頻率解析度而沒有該時間解析度。然而,當該轉換器作為一FFT或MDCT或任何其它相對應的轉換器實施時,則該頻率解析度連接至該時間解析度,原因在於一較大區塊長度獲得的該頻率解析度之一增加在時間上自動地對應於一較低的時間解析度,反之亦然。
額外地,該第一編碼支路可包含一量化/編碼器級421,及該第二編碼支路也可包含一或多個進一步的編碼工具524。
重要地,該信號分析器被組態為產生針對該第一轉換器510及該第二轉換器523之一解析度控制信號。因此,一獨立的解析度控制在兩編碼支路中都實施以擁有一方面提供一低位元率及另一方面提供考慮到該低位元率之一最高品質之一編碼方案。為了實現該低位元率目標,較長視窗長度或較長轉換長度是較佳的,但是在這些長長度將導致一偽影(由於低時間解析度)的情況下,應用導致一較低頻率解析度之較短視窗長度及較短轉換長度。較佳地,該信號分析器應用一統計分析或適合於該等編碼支路中該等相對應的演算法之任何其它分析。在該第一編碼支路是一頻域編碼支路(諸如一基於AAC的編碼器)及該第二編碼支路包含作為一域轉換器的一LPC處理器510之一實施模式中,該信號分析器執行一語音/音樂區分以透過控制該開關200使得該音訊信號之該語音部分被饋送至該第二編碼支路中。透過相對應地控制用該等開關控制線所指示的該開關200該音訊信號之一音樂部分被饋送至該第一該第一編碼支路400。可選擇地,如將在後面針對第1C圖或第4B圖討論,該開關也可以定位在該輸出介面800
的前面。
此外,該信號分析器可接收輸入至該開關200的音訊信號或由該開關200輸出的音訊信號。此外,該信號分析器執行一分析以不僅將該該音訊信號饋送至該相對應的編碼支路,而且決定在該相對應的編碼支路中該各自的轉換器之該適當的時間/頻率解析度,諸如如用連接該信號分析器與該轉換器的解析度控制線指示之該第一轉換器410及該第二轉換器523。
第11B圖包含匹配第11A圖中的該音訊編碼器之一音訊解碼器之一較佳實施例。
在第11B圖中的該音訊解碼器被組態為解碼一編碼的音訊信號,諸如由第11A圖中的該輸出介面800輸出的該編碼器輸出信號801。該編碼的信號包含依據一第一編碼演算法編碼之一第一編碼的音訊信號、依據一第二演算法編碼之一第二編碼信號(該第二編碼演算法與該第一編碼演算法不同)及指示該第一編碼演算法或該第二編碼演算法是否用於解碼該第一編碼信號及該第二編碼信號之資訊及針對該第一編碼音訊信號及該第二編碼音訊信號之一時間/頻率解析度資訊。
該音訊解碼器包含用於基於該第一編碼演算法解碼該第一編碼信號之一第一解碼支路431、440。此外,該音訊解碼器包含用於使用該第二編碼演算法解碼該第二編碼信號之一第二解碼支路。
該第一解碼支路包含用於自一頻譜域轉換成該時域之一第一可控制的轉換器440。該可控制的轉換器被組態以使用來自該第一編碼信號之該時間/頻率解析度資訊來控制以獲得該第一解碼信號。
該第二解碼支路包含用於自一頻譜表示轉換
成一時間表示之一第二可控制的轉換器,該第二可控制的轉換器534被組態為使用針對該第二編碼信號之該時間/頻率解析度資訊991來控制。
該解碼器額外地包含用於依據該時間/頻率解析度資訊來控制該第一轉換器540及該第二轉換器534之一控制器990。
此外,該解碼器包含用於使用該第二解碼信號產生一合成信號以消除由在第11A圖的該編碼器中的該域轉換器510所施加的域轉換之一域轉換器。
較佳地,該域轉換器540是一LPC合成處理器,使用包括在該編碼信號中之LPC濾波器資訊來控制,其中此LPC濾波器資訊已由第11A圖中的該LPC處理器510產生並作為旁側資訊已輸入至該編碼器輸出信號中。該音訊解碼器最後包含用於將由該第一域轉換器440輸出之該第一解碼信號與該合成信號組合以獲得一解碼的音訊信號609之一組合器600。
在該較佳實施中,該第一解碼支路額外地包含用於反向或至少部分地反向該相對應的編碼器級所執行的該等操作之一解量化器/解碼器級431。然而,清楚的是,量化不可反向,因為這是一損失操作。然而,一解量化器將反向在諸如一對數或壓伸量化之一量化中的某些不均勻。
在該第二解碼支路中,該相對應的級533申請取消級524所施加的某些編碼操作。較佳地,級524包含一均勻量化。因此,該相對應的級533將不具有用於取消某一均勻量化之一特定解量化級。
該第一轉換器440及該第二轉換器534可包含一相對應的反向轉換器級440a、534a、一合成視窗級
440b、534b及後續連接的重疊/相加級440c、534c。當該等轉換器及較特定地該等轉換器級440a、534a,實施諸如一改良的離散餘弦轉換之混疊引入轉換時,需要該等重疊/相加級。接著,該重疊/相加操作將執行一時域混疊消除(TDAC)。然而,當該轉換器應用諸如一反FFT之一非混疊引入轉換時,則不需要一重疊/相加級440c。在此一實施中,可施加用以避免區塊偽影之一交錯淡出操作。
類似地,該組合器600可以是一切換組合器或一交錯淡出組合器或當混疊用來避免區塊偽影時,由該組合器來實施一過渡視窗化操作,類似於在它的一支路內的一重疊/相加級。
第1a圖說明具有兩級聯開關之本發明之一實施例。一單聲信號、一立體聲信號或一多聲道信號輸入至該開關200中。該開關200由該決策級300控制。該決策級接收一信號作為一輸入來輸入至區塊200中。可選擇地,該決策級300也可接收被包括在該單聲信號、該立體聲信號或該多聲道信號中或至少與此一信號相關聯之一旁側資訊,在存在例如當最初產生該單聲信號、該立體聲信號或該多聲道信號時所產生的資訊的情況下。
該決策級300開動該開關200以將一信號饋送至在第1a圖之一上支路說明之該頻率編碼部分400中或在第1a圖之一下支路說明之該LPC域編碼部分500。該頻率域編碼支路的一關鍵元件是該頻譜轉換區塊410,該頻譜轉換區塊410可操作地用以將一共同的預處理級輸出信號(如後面討論)轉換成一頻譜域。該頻譜轉換區塊可包括一MDCT演算法、一QMF、一FFT演算法、一小波(Wavelet)分析或一濾波器組,諸如具有某一數目的濾波器組通道之一關鍵取樣濾波器組,其中在此濾波器組中的該等子頻帶
信號可以是一實數值的信號或複數值的信號。該頻譜轉換區塊410之輸出可使用一頻譜音訊編碼器421來編碼,如自該AAC編碼方案已知該頻譜音訊編碼器421可包括處理區塊。
大體上,在支路400中的該處理是在一基於感知的模型或資訊槽模型中之一處理。因此,此支路模擬人類聽覺系統接收聲音。於此相反,在支路500中的該處理係用以產生在該激發、殘餘或LPC域中的一信號。大體上,在支路500中的該處理是在一語音模型或一資訊產生模型中的一處理。對於語音信號,此模型是產生聲音的人類語音/聲音產生系統之一模型。然而,如果來自一不同來源需要一不同的聲音產生模型之一聲音要被編碼,則在支路500中的該處理可能不同。
在該下編碼支路500,一關鍵元件是一LPC裝置510,該LPC裝置510輸出用來控制一LPC濾波器的該等特性之一LPC資訊。此LPC資訊被傳輸至一解碼器。該LPC級510的輸出信號是一LPC域信號,由一激發信號及/或一加權信號組成。
該LPC裝置大體上輸出一LPC域信號,該LPC域信號可以是在該LPC域中的任何信號,諸如在第7e圖中的該激發信號或在第7f圖中的一加權信號或藉由將LPC濾波器係數施於一音訊信號而已產生之任何其它信號。此外,一LPC裝置也可決定這些係數且也可量化/編碼這些係數。
在該決策級中的該決策可以是信號適應性的以使得該決策級執行一音樂/語音區分並以音樂信號輸入至該上支路400中及語音信號輸入至該下支路500中之一方式來控制該開關200。在一實施例中,該決策級將它的決
策資訊饋送至一輸出位元流以使得一解碼器可使用此決策資訊來執行該等正確的解碼操作。
在第1b圖中說明了此一解碼器。由該頻譜音訊編碼器421輸出之該信號在傳輸之後輸入至一頻譜音訊解碼器431中。該頻譜音訊解碼器431的輸出被輸入至一時域轉換器440。類似地,第1a圖之該LPC域編碼支路500的輸出在該解碼器端被接收並由元件531、533、534及532來處理以獲得一LPC激發信號。該LPC激發信號輸入至一LPC合成級540,該LPC合成級540接收由該相對應的LPC合成級510所產生的該LPC資訊作為一進一步的輸入。該時域轉換器440之輸出及/或該LPC合成級540之輸出被輸入至一開關600。該開關透過一開關控制信號來被控制,該開關控制信號例如由該決策級300而產生或受外部提供,諸如由該最初的單聲信號、立體聲信號或多聲道信號之一創建器提供。該開關600之輸出是一完整的單聲信號、立體聲信號或多聲道信號。
到該開關200及該決策級300的該輸入信號可以是一單聲信號、立體聲信號或多聲道信號或一般地一音訊信號。視自該開關200輸入信號或自任何外部來源(諸如構成輸入至級200的該信號的基礎之該最初音訊信號之一產生器)所取得的決策而定,該開關在該頻率編碼支路400與該LPC編碼支路500之間切換。該頻率編碼支路400包含一頻譜轉換級410及一隨後連接的量化/編碼級421。該量化/編碼級可包括如自現代的頻域編碼器(諸如AAC編碼器)已知之任何功能。此外,在該量化/編碼級421中的該量化操作可透過產生感知資訊(諸如一感知遮罩臨限)之一感知模組來控制,其中此資訊被輸入至該級421。
在該LPC編碼支路中,該開關輸出信號透過
產生LPC旁側資訊及LPC域信號之一LPC分析級510來處理。該激發編碼器創造性地包含一額外的開關,用於在該LPC域中的一量化/編碼操作522或處理在該LPC頻譜域中的值之一量化/編碼級524之間切換該LPC域信號之進一步的處理。為此目的,在該量化/編碼級524的輸入提供一頻譜轉換器523。該開關521以一開迴路方式或一閉合迴路方式來控制,視例如在該AMR-WB+技術說明中予以描述的特定設定而定。
針對該閉合迴路控制模式,該編碼器額外地包括針對該LPC域信號之一反向量化器/編碼器531、針對該LPC頻譜域信號之一反向量化器/編碼器533及針對項533之輸出的一反向頻譜轉換器534。在該第二編碼支路之該等處理支路中的編碼及解碼信號都輸入至該開關控制裝置525。在該開關控制裝置525中,這兩輸出信號彼此相互比較及/或以一目標函數相比較或可基於這兩信號上失真的一比較來計算一目標函數,以使得使用具有較低失真的該信號來決定該開關應該使用哪一位置。另外,在兩支路提供非恒定的位元率的情況下,可選擇提供該較低位元率的該支路,甚至當此支路之信號雜訊比另一支路之該信號雜訊比較低時。另外,該目標函數可使用每一信號之該信號雜訊比及每一信號之一位元率及/或額外的準則(作為一輸入)來找到針對一特定目標的最佳決策。如果,例如,目標是使得該位元率應該足夠低,則該目標函數將極大地依賴於由元件531、534輸出之該兩信號的位元率。然而,當主要目標是針對某一位元率具有最佳品質時,則該開關控制525可能例如丟棄在被該允許的位元率以上之每一信號,及當兩信號在該被允許的位元率以下時,該開關控制將選擇具有較好信號雜訊比(即具有較小量化/編碼失真)的
信號。
依據本發明的該解碼方案(如前所述)在第1b圖中說明。對於各該三種可能的輸出信號種類,存在一特定的解碼/解量化級431、531或533。當級431輸出一時間頻譜時,使用該頻率/時間轉換器440將該時間頻譜轉換成該時域,級531輸出一LPC域信號及項533輸出一LPC頻譜。為了確保到開關532的該等輸入信號都在LPC域中,提供了該LPC頻譜/LPC轉換器534。使用一LPC合成級540將該開關532的輸出資料轉換回到該時域中,該LPC合成級540是透過編碼器端產生及傳輸的LPC資訊來控制。接著,在區塊540之後,這兩支路都具有依據一開關控制信號切換之時域資訊以最終獲得視輸入至第1a圖之該編碼方案中的信號而定之一音訊信號,諸如一單聲信號、一立體聲信號或一多聲道信號。
第1c圖說明具有與第4b圖的原理相類似之該開關521的一不同配置之一進一步的實施例。
第2a圖說明依據本發明之一第二層面之一較佳編碼方案。連接至該開關200輸入之一共同的預處理方案可包含一環繞/聯合立體聲區塊101,該環繞/聯合立體聲區塊101產生聯合立體聲參數及一單聲輸出信號作為一輸出,該單聲輸出信號藉由降混(downmix)具有兩或多個通道之該輸入信號而產生。一般地,在區塊101之輸出的該信號也可以是具有兩或多個通道之一信號,但是由於區塊101的降混功能,在區塊101之輸出的通道數將比輸入至區塊101的通道數較小。
共同的預處理方案可包含(不同於該區塊101或除了該區塊101以外)一頻寬延伸級102。在第2a圖的實施例中,區塊101之輸出被輸入至該頻寬擴展區塊102,在
第2a圖之該編碼器中該頻寬擴展區塊102在它的輸出輸出一限制頻帶的信號,諸如低頻信號或低通信號。較佳地,此信號也被下取樣(例如以二為因子)。此外,對於輸入至區塊102的該高頻帶的信號,頻寬擴展參數,諸如如自MPEG-4的HE-AAC概述已知之頻譜包絡參數、反向濾波參數、雜訊層參數等被產生並轉送至一位元流多工器800。
較佳地,該決策級300接收輸入至區塊101或輸入至區塊102的該信號以在例如一音樂模式或一語音模式之間決策。在該音樂模式選擇上編碼支路400,而在該語音模式選擇下編碼支路500。較佳地,該決策級額外地控制該聯合立體聲區塊101及/或該頻寬擴展區塊102以使這些區塊的功能適應該特定信號。因此,當該決策級定該輸入信號之某一時間部分是該第一模式諸如該音樂模式時,則區塊101及/或區塊102的特定特徵可用該決策級300來控制。另外,當該決策級300決定該信號在一語音模式或大體上在一第二LPC域模式時,則區塊101及102的特定特徵可依據該決策級輸出來控制。
較佳地,使用一MDCT操作即更特定地扭曲時間操作來完成該編碼支路400之該頻譜轉換,其中強度或一般地該扭曲強度可在零與一高扭曲強度之間控制。在一零扭曲強度中,在區塊411中的該MDCT操作是在技藝中已知之一直接MDCT操作。該時間扭曲強度連同時間扭曲旁側資訊可傳輸/輸入至該位元流多工器800中作為旁側資訊。
在該LPC編碼支路中,該LPC域編碼器可包括計算一音高(pitch)增益、一音高滯後及/或諸如一碼簿索引及增益之碼簿資訊之一ACELP核心526。自3GPP TS 26.290已知之該TCX模式引起該轉換域中一感知加權信號
之一處理。使用具有雜訊因子量化的一分割多速率格量化(代數VQ)來量化一傅立葉轉換的加權信號。在1024、512或256取樣視窗中計算一轉換。該激發信號藉由反向濾波該量化加權信號經過一反向加權濾波器來恢復。
在該第一編碼支路中,一頻譜轉換器較佳地包含一特定調節的MDCT操作,該MDCT操作具有某些視窗函數、由可由一單一向量量化級組成之一量化/熵編碼級隨後,但較佳地是與該頻率域編碼支路中該量化器/編碼器即第2a圖中的項421類似之一結合的純量量化器/熵編碼器。
在該第二編碼支路中,存在該LPC區塊510,其後是一開關521,該開關521又由一ACELP區塊526或一TCX區塊527隨後。ACELP在3GPP TS 26.190中予以描述及TCX在3GPP TS 26.290中予以描述。一般地,該ACELP區塊526接收如由在第7e圖中予以描述的一程序計算之一LPC激發信號。該TCX區塊527接收如參照第7f圖產生之一加權信號。
在TCX,該轉換施於藉由濾波該輸入信號經過一基於LPC的加權濾波器而運算之加權信號。在本發明之較佳實施例中使用的該加權濾波器由(1-A(z/γ))/(1-μz -1)給定。因此,該加權信號是一LPC域信號及其轉換是一LPC頻譜域。被ACELP區塊526處理之信號是該激發信號且與被該區塊527所處理的該信號不同,但這兩信號都在該LPC域中。
在在第2b圖中說明的該解碼器端,在區塊537該反向頻譜轉換之後,該加權濾波器的反向被應用,即(1-μz -1)/(1-A(z/γ))。接著,該信號被濾波經過(1-A(z))以進入該LPC激發域。因此,到LPC域區塊534及該TCX-1區
塊537的轉換包括反向轉換及接著濾波經過
以自該加權域轉換至該激發域。
雖然在第1a、1c、2a、2c圖中的項510說明一單一區塊,但是區塊510可輸出不同的信號,只要這些信號在該LPC域中。區塊510的實際模式,諸如該激發信號模式或該加權信號模式可視該實際的開關狀態而定。另外,該區塊510可具有兩並行處理裝置,其中一裝置類似於第7e圖而實施及另一裝置如第7f圖而實施。因此,在510之輸出的該LPC域可表示該LPC激發信號或該LPC加權信號或任何其它LPC域信號。
在第2a圖或第2c圖之該第二編碼支路(ACELP/TCX)中,該信號在編碼之前透過一濾波器1-0.68z -1來預加強。在第2b圖的該ACELP/TCX解碼器,該合成信號被該濾波器1/(1-0.68z -1)去加強。該預加強可以是該LPC區塊510的一部分,其中該信號在LPC分析及量化之前被預加強。類似地,去加強可以是該LPC合成區塊LPC-1 540的一部分。
第2c圖說明針對第2a圖的實施之一進一步的實施例,但卻具有類似於第4b圖的原理之該開關521之一不同的配置。
在一較佳實施例中,該第一開關200(見第1a圖或第2a圖)透過一開迴路決策來控制(如第4a圖中)及該第二開關透過一閉合迴路決策來控制(如第4b圖中)。
例如,第2c圖具有如在第4b圖中置於該ACELP及TCX支路之後之該第二開關。接著,在該第一處理支路中,該第一LPC域表示該LPC激發,及在該第二處理支路中,該第二LPC域表示該LPC加權信號。即,該第一LPC域信號藉由濾波經過(1-A(z))以轉換至該LPC殘
餘域來獲得,而該第二LPC域信號藉由濾波經過該濾波器(1-A(z/γ))/(1-μz -1)以轉換至該LPC加權域來獲得。
第2b圖說明與第2a圖之該編碼方案相對應之一解碼方案。由第2a圖之位元流多工器800產生的該位元流輸入至一位元流解多工器900。視例如自經由一模式檢測區塊601的位元流而取得的一資訊而定,控制一解碼器端開關600轉送來自該上支路的信號抑或來自該下支路的信號至該頻寬擴展區塊701。該頻寬擴展區塊701自該位元流解多工器900接收旁側資訊並基於開關600輸出的該低頻帶重建該高頻帶。
由區塊701產生的全頻帶信號輸入至重建兩立體聲通道或幾個多聲道之該聯合立體聲/環繞處理級702。一般地,區塊702將輸出比輸入至此區塊較多的通道。視應用而定,到區塊702的該輸入甚至可包括諸如在一立體聲模式中的兩通道或甚至可包括多個通道,只要此區塊的輸出具有比到此區塊的輸入較多的通道。
該開關200已顯示為在兩支路之間切換以使得只有一支路接收一信號來處理而另一支路並不接收一信號來處理。在一可選擇的實施例中,然而,該開關也可配置在例如該音訊編碼器421及該激發編碼器522、523、524之後,這意味著兩支路400、500並行地處理相同的信號。為了不使位元率翻倍,然而,只有由這些編碼支路400或500當中之一支路輸出的信號被選擇寫入至該輸出位元流中。該決策級接著將運作以使得寫入至該位元流中的該信號最小化某一成本函數,其中該成本函數可以是該產生的位元率或該產生的感知失真或一結合的比率/失真成本函數。因此,在此模式或是在多個圖中說明的模式中,該決策級也可在一閉合迴路模式中運作以確認最終只有該編碼
支路被寫入至對於一給定感知失真具有最低的位元率或對於一給定的位元率具有最低的感知失真之該位元流。在該閉合迴路模式中,該饋送輸入可自第1a圖中的該三個量化器/定標器區塊421、522及424之輸出而取得。
在具有兩開關(即該第一開關200及該第二開關521)之實施中,較佳的是,針對該第一開關的該時間解析度比針對該第二開關的該時間解析度較低。換言之,到該第一開關的該輸入信號之該等區塊(透過一開關操作而切換)比由在該LPC域中運作之該第二開關切換的該等區塊較大。示範地,該頻域/LPC域開關200可切換長度為1024取樣之區塊,及該第二開關521可切換每一具有256取樣之區塊。
雖然第1a圖至第10b圖中的一些說明為一裝置之一方塊圖,但是這些圖同時是一方法之一說明,其中多個方塊功能對應於多個方法步驟。
第3a圖說明用於產生一編碼的音訊信號作為該第一編碼支路400及一第二編碼支路500的一輸出之一音訊編碼器。此外,該編碼的音訊信號較佳地包括旁側資訊,諸如來自該共同預處理級的預處理參數或如針對前圖所作討論之開關控制資訊。
較佳地,該第一編碼支路是可操作的以依據一第一編碼演算法編碼一音訊中間信號195,其中該第一編碼演算法具有一資訊槽模型。該第一編碼支路400產生是該音訊中間信號195之一編碼的頻譜資訊表示之第一編碼輸出信號。
此外,該第二編碼支路500適於依據一第二編碼演算法來編碼該音訊中間信號195,該第二編碼演算法具有一資訊來源模型並針對表示該中間音訊信號之該資訊
來源模型產生(在一第二編碼器輸出信號中)編碼的參數。
該音訊編碼器更進一步包含用於預處理一音訊信號99以獲得該音訊中間信號195之共同預處理級。特定地,該共同預處理級可操作地用以處理該音訊輸入信號99以使得該音訊中間信號195(即該共同預處理演算法之輸出)是該音訊輸入信號之一壓縮版本。
用於產生一編碼的音訊信號之音訊編碼之一較佳的方法包含一步驟:依據一第一編碼演算法編碼400一音訊中間信號195,該第一編碼演算法具有一資訊槽模型並產生(在一第一輸出信號中)表示該音訊信號之編碼的頻譜資訊;一步驟:依據一第二編碼演算法編碼500一音訊中間信號195,該第二編碼演算法具有一資訊來源模型並產生(在一第二輸出信號中)針對表示該中間信號195之該資訊來源模型之編碼的參數及一步驟:共同地預處理100一音訊輸入信號99以獲得該音訊中間信號195,其中在共同預處理該步驟中,該音訊輸入信號99被處理以使得該音訊中間信號195是該音訊輸入信號99之一壓縮版本,其中該編碼的音訊信號針對該音訊信號之某一部分包括該第一輸出信號或該第二輸出信號。該方法較佳地包括進一步的步驟:使用該第一編碼演算法或使用該第二編碼演算法來編碼該音訊中間信號之某一部分或使用這兩種演算法來編碼該信號,並將該第一編碼演算法之結果或該第二編碼演算法之結果輸出在一編碼的信號中。
一般地,在該第一編碼支路400中使用的該音訊編碼演算法反映並模擬在一音訊槽中的情況。一音訊資訊的槽通常是人類耳朵。人類耳朵可被模擬為一頻率分析器。因此,該第一編碼支路輸出編碼的頻譜資訊。較佳地,該第一編碼支路更進一步包括用於額外地施以一感知
遮罩臨限之一感知模型。當量化音訊頻譜值時使用此感知遮罩臨限,其中較佳地,該量化被執行使得透過量化隱藏在該感知遮罩臨限以下之該等頻譜音訊值而引入一量化雜訊。
該第二編碼支路表示反映聲音產生之一資訊來源模型。因此,資訊來源模型可包括一語音模型,該語音模型透過一LPC分析級而反映,即透過將一時域信號轉換成一LPC域並透過隨後處理該LPC殘餘信號(即該激發信號)。然而,可選擇的聲音來源模型是用於表示某一樂器之聲音來源模型或任何其它聲音產生器,諸如存在在現實世界中的一特定聲音來源。當例如基於一SNR計算,即基於該等來源模型是最適於編碼一音訊信號之某一時間部分及/或頻率部分之一計算,可得幾個聲音來源模型時,可執行不同聲音來源模型之間的一選擇。然而,較佳地,在該時域中執行編碼支路之間的切換,即使用一模型編碼某一時間部分並使用另一編碼支路編碼該中間信號之某一不同的時間部分。
用某些參數來表示資訊來源模型。當考慮一現代語音編碼器諸如AMR-WB+時,至於該語音模型,該等參數是LPC參數及編碼的激發參數。該AMR-WB+包含一ACELP編碼器及一TCX編碼器。在此情況中,該等編碼的激發參數可以是全域增益、雜訊層及變化的長度編碼。
第3b圖說明相對應於第3a圖中說明的該編碼器之一解碼器。大體上,第3b圖說明用於解碼一編碼的音訊信號以獲得一解碼的音訊信號799之一解碼器。該解碼器包括用於解碼依據具有一資訊槽模型的一第一編碼演算法而編碼之一編碼的信號之該第一解碼支路450。該音訊解碼器更進一步包括用於解碼依據具有一資訊來源模型的
一第二編碼演算法而編碼之一編碼的資訊信號之一第二解碼支路550。該音訊解碼器更進一步包括用於將來自該第一解碼支路450與該第二解碼支路550的輸出信號相組合以獲得一組合的信號之一組合器。在第3b圖中說明之該組合的信號作為該解碼的音訊中間信號輸入至用於後處理該解碼的音訊中間信號699(由合器600輸出的該組合的信號)之一共同後處理級,以使得該共同預處理級之一輸出信號是該組合的信號之擴充版本。因此,該解碼音訊信號799較之該解碼的音訊中間信號699具有一增強的資訊內容。此資訊擴充在預/後處理參數的幫助下由該共同後處理級提供,該等預/後處理參數可自一編碼器傳輸至一解碼器或可自該解碼的音訊中間信號本身取得。然而,較佳地,預/後處理參數自一編碼器傳輸至一解碼器,因為此程序允許該解碼音訊信號之一改良的品質。
第3c圖說明用於解碼一音訊輸入信號195之一音訊解碼器,依據本發明之該較佳實施例,該音訊輸入信號195可等同於第3a圖的該中間音訊信號195。該音訊輸入信號195出現在一第一域中,該第一域例如可以是時域但其也可以是任何其它域,諸如一頻域、一LPC域、一LPC頻譜域或任何其它域。大體上,由一轉換演算法來執行自一域至另一域的轉換,諸如習知的時間/頻率轉換演算法或頻率/時間演算法中之任一者。
例如自該時域至該LPC域之一可選擇的轉換是濾波一時域信號之LPC的結果,其引起一LPC殘餘信號或激發信號。隨著可能出現的情況可使用產生在轉換前對大量的信號取樣具有影響的一濾波信號之任何其它的濾波操作作為一轉換演算法。因此,使用一基於LPC的加權濾波器對一音訊信號加權是一進一步的轉換,該轉換在該
LPC域中產生一信號。在一時間/頻率轉換中,對一單一頻譜值的修改對在轉換之前的所有時域值都具有影響。類似地,對任何時域取樣的修改將對每一頻域取樣具有影響。類似地,對在一LPC域情況中之激發信號之一取樣的一修改由於該LPC濾波器的長度將對在該LPC濾波之前的大量取樣具有影響。類似地,在一LPC轉換之前對一取樣的一修改將對此LPC轉換所獲得的許多取樣具有影響,由於該LPC濾波器之內在的記憶體效應。
第3c圖之該音訊編碼器包括產生一第一編碼信號之一第一編碼支路400。此第一編碼信號可以是在一第四域中,在該較佳實施例中,該第四域是該時間頻譜域,即當一時域信號經由一時間/頻率轉換被處理時所獲得的域。
因此,用於編碼一音訊信號之該第一編碼支路400使用一第一編碼演算法來獲得一第一編碼信號,其中此第一編碼演算法可或可不包括一時間/頻率轉換演算法。
該音訊編碼器更進一步包括用於編碼一音訊信號之一第二編碼支路500。該第二編碼支路500使用與該第一編碼演算法不同的一第二編碼演算法來獲得一第二編碼信號。
該音訊編碼器更進一步包括一第一開關200,該第一開關200用於在該第一編碼支路400與該第二編碼支路500之間切換以使得對於該音訊輸入信號之一部分,在區塊400之輸出的該第一編碼信號或在該第二編碼支路之輸出的該第二編碼信號被包括在一編碼器輸出信號中。因此,當對於該音訊輸入信號195之某一部分,在該第四域中的該第一編碼信號被包括在該編碼器輸出信號中
時,是在該第二域中的該第一處理信號或是在該第三域中的該第二處理信號之該第二編碼信號不被包括在該編碼器輸出信號中。這確保了此編碼器在位元率上是高效的。在實施例中,被包括在兩不同的編碼信號中的該音訊信號之任何時間部分較之如將針對第3e圖討論的一訊框之一訊框長度是小的。在一開關事件的情況下,這些小部分針對自一編碼信號至另一編碼信號之一交錯淡出是有用的以減少在沒有任何交錯淡出的情況下可能出現的偽影。因此,除開該交錯淡出的區域,用只有一單一域之一編碼信號來表示每一時域區塊。
如第3c圖所述,該第二編碼支路500包含用於將在該第一域中的該音訊信號(即信號195)轉換至一第二域中之一轉換器510。此外,該第二編碼支路500包含一第一處理支路522,該第一處理支路522用於處理在該第二域中的一音訊信號以獲得也在該第二域中之一第一處理的信號,使得該第一處理支路522沒有執行一域改變。
該第二編碼支路500更進一步包含一第二處理支路523、524,該第二處理支路523、524將在該第二域中的該音訊信號轉換至一第三域中並處理在該第三域中的該音訊信號以在該第二處理支路523、524的輸出獲得一第二處理的信號,其中該第三域與該第一域不同且也與該第二域不同。
此外,該第二編碼支路包含一第二開關521,該第二開關521用於在該第一處理支路522與該第二處理支路523、524之間切換以使得對於輸入至該第二編碼支路中的該音訊信號之一部分,在該第二域中的該第一處理信號或在該第三域中之該第二處理信號在該第二編碼信號中。
第3d圖說明用於解碼由第3c圖之該編碼器產生的一編碼的音訊信號之一相對應的解碼器。除開一可取捨的交錯淡出區域,該交錯淡出區域較之一訊框的長度較佳是短的以獲得盡可能在該關鍵取樣極限之一系統,用一第二域信號、一第三域信號或一第四域編碼信號來表示該第一域音訊信號之每一區塊。該編碼的音訊信號包括該第一編碼信號、在一第二域中之一第二編碼信號及在一第三域中之一第三編碼的信號,其中該第一編碼信號、該第二編碼信號及該第三編碼的信號都涉及該已解碼的音訊信號之不同的時間部分及其中對於一已解碼的音訊信號而言,該第二域、該第三域及該第一域彼此都是不同的。
該解碼器包含用於基於該第一編碼演算法解碼之一第一解碼支路。該第一解碼支路在第3d圖中的431、440說明及較佳地包含一頻率/時間轉換器。該第一編碼信號較佳地在一第四域中且轉換至針對該已解碼的輸出信號之該第一域中。
第3d圖之該解碼器更進一步包含一第二解碼支路,該第二解碼支路包含幾個元件。這些元件是一第一反向處理支路531,該第一反向處理支路531用於反向處理該第二編碼信號以在區塊531之輸出獲得在該第二域中之一第一反向處理的信號。該第二解碼支路更進一步包含一第二反向處理支路533、534,該第二反向處理支路533、534用於反向處理一第三編碼的信號以獲得在該第二域中之一第二反向處理的信號,其中該第二反向處理支路包含用於自該第三域轉換至該第二域之一轉換器。
該第二編碼支路更進一步包含一第一合器532,該第一組合器532用於將該第一反向處理的信號與該
第二反向處理的信號相組合以獲得在該第二域中的一信號,其中此已組合的信號在該第一時間瞬時只受該第一反向處理的信號影響及在一隨後時間瞬時只受該第二反向處理的信號影響。
該第二解碼支路更進一步包含用於將該已組合的信號轉換至該第一域之一轉換器540。
最後,在第3d圖中說明的該解碼器包含一第二組合器600,該第二組合器600用於將來自區塊431、440之該已解碼的第一信號與該轉換器540輸出信號相組合以獲得在該第一域中之一已解碼的輸出信號。再者,在該第一域中之該已解碼的輸出信號在該第一時間瞬時只受由該轉換器540輸出的信號影響及在一隨後時間瞬時只受由區塊431、440輸出的該第一已解碼的信號影響。
自一編碼器的視角在第3e圖中說明了此情況。第3e圖中的上部分在示意表示中說明一第一域音訊信號,諸如一時域音訊信號,其中該時間索引自左至右增加及項3可被認為表示第3c圖中的該信號195之一連串音訊取樣。第3e圖說明可透過在該第一編碼信號及該第一處理信號及第二處理信號(如在第3e圖中的項4說明)之間切換而產生之訊框3a、3b、3c、3d。該第一編碼信號、該第一處理的信號及該第二處理的信號都在不同的域中且為了確保在該等不同域之間的切換在該解碼器端不導致一偽影,該時域信號之訊框3a、3b具有指示為一交錯淡出區域之一重疊範圍,及此一交錯淡出區域在訊框3b及3c。然而,在訊框3d、3c之間不存在此交錯淡出區域,這意味著,訊框3d也由一第二處理的信號(即在該第三域中的一信號)來表示,及在訊框3c與3d之間不存在域改變。因此,大體上,在不存在域變化的情況下不提供一交錯淡出是較佳的,而
當存在一域變化(即該兩開關當中之一的一切換動作)時要提供一交錯淡出區域,即由兩隨後已編碼/處理信號編碼之該音訊信號的一部分。較佳地,交錯淡出是針對其它域變化而執行。
在該第一編碼信號或該第二處理的信號已透過具有例如50%重疊的一MDCT處理而產生之實施例中,每一時域取樣被包括在兩隨後訊框中。然而,由於該MDCT的多個特性,這並不導致一負擔,因為該MDCT是一關鍵取樣系統。在本文中,關鍵取樣意思是,頻譜值數目等於時域值數目。該MDCT的優點在於:在沒有一特定的交越區域的情況下提供交越效果以使得在沒有將違反關鍵取樣需求之任何負擔的情況下提供自一MDCT區塊至下一MDCT區塊之一交越。
較佳地,在該第一編碼支路中的該第一編碼演算法基於一資訊槽模型,及在該第二編碼支路中的該第二編碼演算法是基於一資訊來源模型或一SNR模型。一SNR模型是並不特定地有關於一特定聲音產生機制但是是可例如基於一閉合迴路決策自多個編碼模式中選擇之一模式。因此,一SNR模型是任何可得的編碼模型,但是其未必必須有關於該聲音產生器的實體組成,但是其是與該資訊槽模型不同之任何參數化的編碼模型,可透過一閉合迴路決策及特定地透過比較來自不同模型之不同的SNR結果來選擇。
如在第3c圖中所說明,提供一控制器300、525。此控制器可包括第1a圖之該決策級之多個功能且額外地可包括第1a圖之該開關裝置525的功能。大體上,該控制器是用於以一信號調節的方式來控制該第一開關及該第二開關。該控制器可操作地用以分析輸入至該第一開關
或由該第一或該第二編碼支路輸出之一信號或針對一目標函數來自該第一及該第二編碼支路編碼及解碼而獲得之信號。可選擇地或額外地,該控制器可操作地用以分析輸入至該第二開關或由該第一處理支路或該第二處理支路輸入或透過針對一目標函數來自該第一處理支路及該第二處理支路之處理及反向處理而獲得之信號。
在一實施例中,該第一編碼支路或該第二編碼支路包含一混疊引入時間/頻率轉換演算法,諸如與引入一混疊效果之一直接FFT轉換不同之一MDCT或一MDST演算法。此外,一或兩支路包含一量化器/熵編碼器區塊。特定地,只有該第二編碼支路之該第二處理支路包括引入一混疊操作之該時間/頻率轉換器,及該第二編碼支路之該第一處理支路包含一量化器及/或熵編碼器且不引入任何混疊效果。該混疊引入時間/頻率轉換器較佳地包含用於實施一分析視窗及一MDCT轉換演算法之一視窗化器。特定地,該視窗化器可操作地用於以一重疊方式將該視窗函數施於隨後訊框以使得一視窗化的信號之一取樣出現在至少兩隨後的視窗化訊框中。
在一實施例中,該第一處理支路包含一ACELP編碼器及一第二處理支路包含一MDCT頻譜轉換器及用於量化頻譜分量以獲得量化的頻譜分量之量化器,其中每一量化的頻譜分量為零或由該等多個不同的可能的量化器索引之一量化器索引來定義。
此外,較佳的是,該第一開關200以一開迴路方式運作而該第二開關以一閉合迴路方式運作。
如前所述,這兩編碼支路可操作地以按組方式來解碼該音訊信號,其中該第一開關或該第二開關以按組方式切換以使得一切換動作至少在一信號之一預定數目
的取樣之一區塊之後發生,該預定數目針對相對應的開關形成一訊框長度。因此,用於該第一開關切換的區組可能為例如2048或1028取樣的一區塊,及該訊框長度(該第一開關200基於其切換)是可變的但較佳地固定於這樣相當長的週期。
與此相反,即,當該第二開關521自一模式至另一模式切換時,針對該第二開關521的該區塊長度實質上比針對該第一開關的該區塊長度較小。較佳地,針對開關的這兩區塊長度被選擇以使得該較長區塊長度是該較短區塊長度的整數倍。在該較佳實施例中,該第一開關之該區塊長度是2048或1024及該第二開關之該區塊長度是1024或又較佳地512及更較佳地256及更較佳地128取樣,以使得當該第一開關僅切換一單一次時該第二開關最多可切換16次。然而,一較佳最大區塊長度比是4:1。
在一進一步的實施例中,該控制器300、525可操作地以相對於對音樂之一決策偏好對語音之一決策的一方式來執行針對該第一開關之一語音音樂區分。在此實施例中,即便當針對該第一開關之不到一訊框50%的一部分是語音及多於該訊框50%的該部分是音樂時也採用對語音之一決策。
此外,當該第一訊框之一相當小的部分是語音及特定地是該較小第二訊框之長度的50%之該第一訊框的一部分是語音時,該控制器可操作地已經切換至該語音模式。因此,即便當例如只有一區塊的6%或12%相對應於該第一開關之該訊框長度時,一較佳語音/偏好切換決策已經切換至語音。
此程序是較佳地以完全利用在一實施例中具有一有聲語音核心之該第一處理支路的位元率節省能力且
甚至對非語音的該大第一訊框之剩餘也不放鬆任何品質,由於該第二處理支路包括一轉換器及因此對於具有非語音信號的音訊信號也是有用的。較佳地,此第二處理包括一重疊MDCT,該重疊MDCT被關鍵取樣且即便在小視窗大小也提供一高效且免混疊操作,由於該時域混疊消除,諸如在該解碼器端的重疊及相加。此外,針對該第一編碼支路(較佳地是一類似AAC的MDCT編碼支路)之一大的區塊長度是有用的,因為非語音信號通常相當靜止及一長轉換視窗提供一高頻解析度及進而高品質,及額外地由於一感知控制的量化模組提供一位元率效率,該感知控制的量化模組在該第二編碼支路之該第二處理支路中也可施於該基於轉換的編碼模式。
就第3d圖解碼器圖解而言,較佳地,該傳輸信號包括一顯式的指示器作為如在第3e圖中所說明的旁側資訊4a。此旁側資訊4a由未在第3d圖中說明的一位元流剖析器來擷取以將該相對應的第一編碼信號、第一處理信號或第二處理信號轉送至該正確的處理器,諸如在第3d圖中之該第一解碼支路、該第一反向處理支路或該第二反向處理支路。因此,解碼信號不僅具有該編碼/解碼的信號而且包括相關於這些信號之旁側資訊。然而,在其它實施例中,可存在允許一解碼器端位元流剖析器在某些信號之間區分之一隱式傳訊。就第3e圖而言,概述的是,該第一處理信號或該第二處理信號是該第二編碼支路及進而該第二編碼信號之輸出。
較佳地,該第一解碼支路及/或該第二反向處理支路包括自該頻譜域轉換至該時域之一MDCT換。為此目的,提供一重疊相加器來執行一時域混疊消除功能,該域混疊消除功能與此同時提供一交錯淡出效果以避免區塊
化偽影。大體上,該第一解碼支路將在該第四域中編碼的一單一編碼轉換至該第一域中,而該第二反向處理支路執行自該第三域至該第二域的一轉換,及隨後連接至該第一組合器之該轉換器提供自該第二域至該第一域之一轉換以使得在該組合器600的輸入只有第一域信號,這在第3d圖實施例中表示該解碼的輸出信號。
第4a圖及第4b圖說明兩不同的實施例,它們在該開關200的定位上不同。在第4a圖中,該開關200定位在共同預處理級100之一輸出與該兩編碼的支路400、500之輸入之間。第4a圖實施例確保該音訊信號僅輸入至一單一編碼支路中,而並未連接至該共同預處理級的輸出之另一編碼支路沒有運作及因而被關掉或在一休眠模式。此實施例是較佳的在於:該非活動編碼支路並不消耗對行動應用(尤其是受電池供電及因而具有對電力消耗的一般限制之行動應用)是有用的電力及運算資源。
然而,另一方面,當電力消耗不是一問題時,第4b圖實施例可能是較佳的。在此實施例中,編碼支路400、500都一直是活動的,且只有針對某一時間部分及/或某一頻率部分之該已選定的編碼支路之輸出被轉送至可作為一位元流多工器800而實施之該位元流格式器。因此,在第4b圖實施例中,這兩編碼支路都一直是活動的,及由該決策級300所選定的一編碼支路之輸出進入該輸出位元流,而另一未選定的編碼支路400之輸出被丟棄,即沒有進入該輸出位元流,即該編碼的音訊信號。
較佳地,該第二編碼規則/解碼規則是一基於LPC的編碼演算法。在基於LPC的語音編碼中,給出準週期性類似脉衝激發信號段或信號部分與類似雜訊激發信號段或信號部分之間之一區別。這是針對如在第7b圖中之很
低位元率LPC語音編碼器(2.4 kbps)而執行。然而,在中等速率CELP編碼器中,該激發是針對來自一適應性碼簿及一固定碼簿之標度向量的相加而獲得。
準週期性類似脉衝激發信號段,即具有一特定音高的信號段,與類似雜訊的激發信號相比以不同的機制來編碼。當準週期性類似脉衝激發信號連接至有聲語音時,類似雜訊的信號有關於無聲的語音。
示範地,參考第5a圖至第5d圖。這裡,準週期性類似脉衝信號段或信號部分與類似雜訊信號段或信號部分是示範地討論。特定地,在第5a圖該時域及第5b圖該頻域中說明的一有聲語音是作為針對一準週期性類似脉衝信號部分之一範例而討論,及針對第5c圖及第5d圖而討論的一無聲語音段作為一類似雜訊信號部分之一範例。語音可大體上被分類為有聲的、無聲的或混合的。在第5a圖至第5d圖顯示了針對取樣的有聲及無聲段之時間及頻率域圖。有聲語音在時域中是準週期的且在頻域中是諧波建構的,而無聲語音是類似隨機的且寬頻。有聲語音之短時間頻譜以其細諧波共振峰結構為特徵。該細諧波結構是語音之準週期性的結果且有助於振動聲帶(vocal chord)。該共振峰結構(頻譜包絡)是由於來源與聲道(vocal tract)的交互作用。聲道由咽與口腔組成。由於聲門脉衝,“適合”有聲語音之短時間頻譜的該頻譜包絡之形狀與聲帶及頻譜傾斜(6 db/八音度)之轉移特性相關聯。該頻譜包絡以被稱為共振峰的一組峰值為特徵。該等共振峰是聲帶的該等共振模式。對於一般聲帶,存在三至五個共振峰在5 kHz以下。該前面三個共振峰之振幅及位置(通常出現在3 kHz以下)在語音合成級感知上都十分重要。對於寬頻帶及無聲語音表示較高共振峰也是重要的。語音的該等屬性有關於
如下的物理語音產生系統。有聲語音藉由用該震動聲帶所產生的準週期聲門空氣脉衝來激發聲道而產生。該等週期型的脉衝之頻率稱為基本頻率或音高。無聲語音藉由迫使空氣經過聲道內之一壓縮而產生。鼻音藉由突然釋放道內閉合后形成之空氣壓力而產生。
因此,該音訊信號之一類似雜訊部分不顯示如在第5c圖說明之任何類似脉衝的時域結構也不顯示及如在第5d圖中說明之諧波頻域結構,其與例如在第5a圖及第5b圖中所說明的該準週期性類似脉衝部分不同。然而,如隨後概述,在針對該激發信號的一LPC之後也可觀測到類似雜訊部分與準週期性類似脉衝部分之間的不同。該LPC是模擬聲道並自該信號擷取該等聲道之激發的一方法。
此外,準週期性類似脉衝部分及類似雜訊部分可以及時出現,即,這意味著,該音訊信號之一部分在時間上是雜訊的且該音訊信號之另一部分在時間上是準週期性的,即音調的。可選擇地或額外地,一信號之特性在不同頻帶中可不同。因此,該音訊信號是雜訊的還是音調的之決定也可是頻率選擇性地執行以使得某一頻帶或幾個頻帶被認為是雜訊的而其它頻帶被認為是音調的。在此情況中,該音訊信號之某一時間部分可能包括音調分量及雜訊分量。
第7a圖說明一語音產生系統之一線性模型。此系統假定一個二級激發,即,如第7c圖所示一脉衝序列針對有聲語音及如第7d圖所示一隨機雜訊針對無聲語音。聲道被模擬為處理由聲門模型72產生之第7c圖或第7d圖的脉衝之一全極點濾波器70。因此,第7a圖之系統可縮至具有一增益級之第7b圖的一全極點濾波器、一轉送
路徑、一回饋路徑79及一相加級80。在該回饋路徑79,存在一預測濾波器81,及可使用如下的z域功能來表示在第7b圖中說明的整個模擬來源合成系統:S(z)=g/(1-A(z)).X(z),其中g表示增益,A(z)是由一LP分析決定之預測濾波器,X(z)是激發信號,及S(z)是合成語音輸出。
第7c圖及第7d圖給出使用該線性來源系統模型之有聲及無聲語音合成之一圖形時域描述。此系統及在上面等式中的該等激發參數是未知的而必須根據語音取樣之一有限組來決定。使用該輸入信號之一線性預測及該等濾波器係數之一量化來獲得A(z)的該等係數。在一p階轉送線性預測器中,該語音序列之目前取樣是根據p通過取樣之一線性組合來預測。該等預測器係數可由習知演算法來決定,諸如禮賓生一杜賓(Levinson-Durbin)演算法或一般地一自動相關方法或一反射方法。
第7e圖說明該LPC分析區塊510之一較詳細的實施。該音訊信號輸入至決定該濾波器資訊(A(z))的一濾波器決定區塊。此資訊作為一解碼器需要的短期預測資訊而輸出。該實際預測濾波器85需要該短期預測資訊。在一減法器86中,該音訊信號之一目前取樣被輸入及針對該目前取樣之一預測值被相減以使得在線84產生該預測誤差信號。在第7c圖或第7d圖中很示意地說明了此類預測誤差信號取樣之一序列。因此,第7a、7b圖可被認為當作一修正的類似脉衝信號。
第7e圖說明計算該激發信號之一較佳方式,第7f圖說明計算該加權信號之一較佳方式。與第7e圖對比,當γ不是1時,該濾波器85不同。對於γ,A值小於1是較佳的。此外,出現該區塊87,及μ較佳的是小於
1的一數。大體上,在第7e圖及第7f圖中的該等元件可如在3GPP TS 26.190或3GPP TS 26.290中實施。
第7g圖說明可施於該解碼器端(諸如第2b圖中的元件537)上之一反向處理。特定地,區塊88自該加權信號產生一未加權信號及區塊89根據該未加權信號計算一激發。一般地,處理第7g圖中的該未加權信號以外的所有信號在該LPC域中,但該激發信號與該加權信號在同一域中是不同信號。區塊89輸出一激發信號,該激發信號隨後可連同區塊536的輸出而使用。接著,在第2b圖中的區塊540可執行該共同反向LPC轉換。
隨後地,將針對第6圖討論一綜合分析CELP編碼器以說明施於此演算法的多個修改。此CELP編碼器在1994年十月IEEE學報第82卷第10號第1541至1585頁Andreas Spaniasdi的“Speech Coding:A Tutorial Review”中詳細討論。在第6圖中說明的該CELP編碼器包括一長期預測分量60及一短期預測分量62。此外,使用在64指示之一碼簿。在66實施一感知加權濾波器W(z),及在68提供一誤差最小化控制器。s(n)是該時域輸入信號。在已被感知加權之後,該加權信號輸入至一減法器69中,計算在區塊66之輸出的該加權合成信號與原始加權信號sw(n)之間的誤差。一般地,該等短期預測濾波器係數A(z)由一LP分析級來計算且其係數在Â(z)上被量化,如在第7e圖中所示。對在該LPC分析級(在第7e圖中為10a)之輸出的該預測誤差信號計算包括該長期預測增益g及該向量量化索引(即碼簿參考)之該長期預測資訊AL(z)。該等LTP參數是音高延遲及增益。在CELP中,這通常是作為包含過去激發信號(而非殘餘)之一適應性碼簿而實施。該適應性CB延遲及增益是藉由最小化該均方加權誤差(閉迴路音高搜尋)而
發現。
接著,該CELP演算法對在該短期及長期預測之後使用例如Gaussian序列的一碼簿而獲得的該殘餘信號編碼。該ACELP演算法(其中“A”代表“代數的”)具有一特定代數設計的碼簿。
一碼簿可包含或多或少的向量,其中每一向量為一些取樣長。一增益因子g改變該碼向量的大小及該增益的碼由該長期預測合成濾波器及該短期預測合成濾波器濾波。該“最佳”碼向量被選擇以使得在該減法器69的輸出該感知加權均方誤差被最小化。如第6圖說明,由一綜合分析最佳化來完成該搜尋過程。
對於特定情況,當一訊框是無聲與有聲語音之一混合或當音樂中的語音出現時,一TCX編碼可較適於編碼該LPC域中的該激發。該TCX編碼在沒有對激發產生作任何假設的情況下處理該頻域中的該加權信號。該TCX於是比CELP編碼較一般且不限制於該激發之一有聲或一無聲來源模型。TCX仍是一來源導向的模型編碼,使用一線性預測濾波器模擬該等具語音特徵信號之該等共振峰。
在AMR-WB+-編碼中,自該AMR-WB+描述中得知進行不同TCX模式與ACELP之間之一選擇。該等TCX模式的不同在於針對不同模式按組離散傅立葉轉換的長度是不同的及該最佳模式可透過一綜合分析方法或一直接“前饋”模式來選擇。
如結合第2a圖及第2b圖討論,該共同預處理級100較佳地包括一聯合多聲道(環繞/聯合立體聲裝置)101及額外地一頻寬延伸級102。相對應地,該解碼器包括一頻寬延伸級701及一隨後的連接聯合多聲道級702。較佳地,就該編碼器而言,該聯合多聲道級101在該
頻寬延伸級102之前連接,而在該解碼器端,就該信號處理方向而言,該頻寬延伸級701在該聯合多聲道級702之前連接。然而,可選擇地,該共同預處理級可包括在沒有該隨後連接的頻寬延伸級的情況下之一聯合多聲道級或在沒有一連接的聯合多聲道級的情況下之一頻寬延伸級。
在第8圖的脈絡中說明了在該編碼器端101a、101b及在該解碼器端702a及702b上的一聯合多聲道級之一較佳範例。E數個原始輸入通道輸入至該降混器101a以使得該降混器產生K數個傳輸的通道,其中該數K大於或等於一及小於或等於E。
較佳地,該E個輸入通道輸入至產生參數資訊之一聯合多聲道參數分析器101b。用諸如一不同的編碼及隨後的霍夫曼(Huffman)編碼或可選擇地隨後的算術編碼來較佳地熵編碼此參數資訊。由區塊101b輸出之該編碼的參數資訊被傳輸至可以是第2b圖中項702的一部分之一參數解碼器702b。該參數解碼器702b對該傳輸的參數資訊解碼並將該解碼資訊轉送至該上混器702a。該上混器702a接收該K傳輸的通道並產生L數個輸出通道,其中該數L大於或等於K且小於或等於E。
參數資訊可包括內部通道位準差異、內部通道時間差異、內部通道相位差異及/或內部通道一致量測,如自BCC技術已知或如在MPEG環繞標準中已知或詳細描述。傳輸通道數可以是針對超低位元率應用之一單一單通道或可包括一相容的立體聲應用或可包括一相容的立體聲信號即兩通道。典型地,該E數個輸入通道可以是五個或可能更高。可選擇地,如在空間音訊對象編碼(SAOC)的脈絡中已知,該E數個輸入通道也可是E個音訊對象。
在一實施中,該降混器執行對該原始E個輸
入通道之一加權或未加權相加或對該E個輸入音訊對象之一想家。如果音訊對象作為輸入通道,該聯合多聲道參數分析器101b將計算音訊對象參數,諸如較佳地針對每一時間部分及更較佳地針對每一頻帶之該等音訊對象之間的一相關矩陣。為此目的,整個頻率範圍可劃分為至少10且較佳地32或64頻帶。
第9圖說明該頻寬延伸級102(在第2a圖中)與該相對應的頻寬延伸級701(在第2b圖中)之實施之一較佳實施例。在該解碼器端,該頻寬擴展區塊102較佳地包括一低通過濾波區塊102b、在該低通之後或是該反向QMF的一部分、只在該等QMF頻帶一半發揮作用之一降取樣器區塊及一高頻帶分析器102a。輸入至該頻寬擴展區塊102中的該原始音訊信號被低通濾波以產生該低頻信號,該低頻信號接著輸入至該等編碼支路及/或該開關。該低通濾波器具有可以在3kHz至10kHz之一範圍內的一截止頻率。此外,該頻寬擴展區塊102進一步包括一高頻帶分析器,該高頻帶分析器用於計算該等頻寬擴展參數,諸如一頻譜包絡參數資訊、一雜訊層參數資訊、一反向濾波參數資訊、有關於該高頻帶中某些諧波線之進一步的參數資訊及如在該MPEG-4標準有關於頻帶複製的章節中詳細討論之額外的參數。
在該解碼器端,該頻寬擴展區塊701包括一補節機(patcher)701a、一調整期701b及一組合器701c。該組合器701c將該解碼的低頻信號與該調整器701b輸出之該重建的及調整的高頻信號相組合。一補節機提供至該調整器701b的輸入,該補節機***作以自該低頻信號取得該高頻信號,諸如透過頻帶複製或一般地透過頻寬擴展。由該補節機所執行的該補節可以是以一諧波方式或一非諧波
方式執行的一補節。由該補節機701a所產生的該信號隨後被使用該傳輸的參數頻寬擴展資訊之該調整器701b調整。
如在第8圖及第9圖所示,在一較佳實施例中該等描述的區塊可具有一模式控制輸入。此模式控制輸入自該決策級300輸出信號取得。在此一較佳實施例中,一相對應的區塊之一特性可適於該決策級輸出,即無論在一較佳實施例中對語音之一決策或對音樂之一決策是針對該音訊信號之某一時間部分而作出。較佳地,該模式控制僅有關於這些區塊之該等功能之一或多個功能而非有關於區塊的所有功能。例如,該決策可僅影響該補節機701a而不影響在第9圖中的其它區塊,或例如可僅影響第8圖中的該聯合多聲道參數分析器101b而沒有第8圖中的其它區塊。此實施是較佳地以使得藉由在該共同預處理級中靈活地提供而獲得一較高靈活性且較高品質且較低位元率輸出信號。然而,另一方面,在該共同預處理級中針對這兩種信號之演算法的使用允許實施一高效編碼/解碼方案。
第10a圖及第10b圖說明該決策級300之兩不同的實施。在第10a圖中指示了一開迴路決策。這裡,在該決策級中的該信號分析器300a具有某些規則以決定該輸入信號之特定時間部分或某一頻率部分是否具有需要此信號部分由該第一編碼支路400或該第二編碼支路500來編碼之一特性。為此目的,該信號分析器300a可分析到該共同預處理級的該音訊輸入信號或可分析由該共同預處理級輸出的該音訊信號(即該音訊中間信號)或可分析在該共同預處理級中的一中間信號,諸如可以是一單通道信號或可以是具有k通道的一信號(在第8圖中所示)之降混信號之輸出。在該輸出端,該信號分析器300a產生用於控制在該編碼器端上的該開關200及在該解碼器端上的該相對應的
開關600或該組合器600之切換決策。
雖然沒有針對該第二開關521詳細討論,但是要強調的是,該第二開關521可以以與如針對第4a圖及第4b圖討論之該第一開關200相類似的一方式而被定位。因此,在第3c圖中開關521之一可選擇的位置在兩處理支路522、523、524之輸出以使得這兩處理支路並行運作且只有一處理支路的輸出經由未在第3c圖中說明之一位元流成型器寫入至一位元流。
此外,該第二組合器600可具有如在第4c圖中討論之一特定交錯淡出功能。可選擇地或額外地,該第一組合器532可能具有相同的交錯淡出功能。此外,這兩組合器可具有相同的交錯淡出功能或可具有不同的交錯淡出功能或可根本沒有交錯淡出功能以使得這兩組合器在沒有任何額外的交錯淡出功能的情況下切換。
如前面討論,可透過如針對第10a圖及第10b圖討論之一開迴路決策或一閉迴路決策來控制這兩開關,其中第3c圖中的該控制器300、525針對這兩開關可具有不同的或相同的功能。
此外,信號適應性的一時間扭曲功能可不僅存在於該第一編碼支路或第一解碼支路中而且也可存在在該編碼器端上與該解碼器上的該第二編碼支路之該第二處理支路中。視一處理的信號而定,這兩時間扭曲功能可具有相同的時間扭曲資訊以使得相同的時間扭曲施於在該第一域及該第二域中的該等信號上。這節省了處理量且可能在一些實例中是有用的,在隨後區塊具有一類似時間扭曲時間特性的情況中。然而,在可選擇的實施例中,較佳地具有獨立的時間扭曲估計器來針對該第一編碼支路及在該第二編碼支路中的該第二處理支路。
該發明的編碼音訊信號可儲存在一數位儲存媒體上或可在一傳輸媒體上傳輸,諸如一無線傳輸媒體或一有線傳輸媒體(諸如網際網路)。
在一不同的實施例中,第1a或2a圖之該開關200在兩編碼支路400、500之間切換。在一進一步的實施例中,可存在額外的編碼支路,諸如一第三編碼支路或甚至一第四編碼支路或甚至更多的編碼支路。在該解碼器端,第1b或2b圖之該開關600在兩編碼支路431、440與531、532、533、534、540之間切換。在一進一步的實施例中,可存在額外的解碼支路,諸如一第三解碼支路或甚至一第四解碼支路或甚至更多的解碼支路。類似地,當提供此類額外的編碼/解碼支路時,其它的開關521或532可在多於兩個的不同編碼演算法之間切換。
第12A圖說明一編碼器實施之一較佳實施例,及第12B圖說明該相對應的解碼器實施之一較佳實施例。除了前面用相對應的參數數討論的該等元件以外,第12A圖之該實施例說明一單獨的感知模組1200,且額外地說明在第11A圖區塊421說明之該進一步的編碼器工具的一較佳實施。這些額外的工具是一時域雜訊修整(temporal noise shaping,TNS)工具1201及一中/端(mid/side)編碼工具(M/S)1202。此外,元件421及524之額外的功能在區塊421/542說明,作為對頻譜值之比例調整(scaling)、雜訊填充分析、量化、算術編碼之一結合的實施。
在該相對應的解碼器實施地12B圖中,說明了額外的元件,它們一M/S解碼工具1203及一TNS解碼器工具1204。此外,在1205指示未在前面圖中說明之一低音後濾波器。該過渡視窗區塊532相對應於第2B圖中的該元件532,該元件532被說明為一開關但執行某種可以是一
過渡取樣交錯淡出或一關鍵取樣交錯淡出之一交錯淡出。後者是作為一MDCT操作而實施,其中兩時間混疊部分被重疊且相加。由於在沒有任何品質損失的情況下可減少總的位元率,此關鍵取樣過渡處理較佳地使用在適當的情況中。該額外的過度視窗化區塊600相對應於該第2B圖中的該組合器600,該組合器600也被說明為一開關,但是清楚的是,當在該第一支路已處理一區塊及在該第二分鐘已處理另一區塊時,此元件執行某種交錯淡出(關鍵取樣的或非關鍵取樣的)以避免區塊偽影及特定地切換偽影。然而,當在這兩支路中的該處理完美匹配其另一時,則該交錯淡出操作可“降級”為一硬切換(而一交錯淡出操作被理解為在這兩支路之間的一“軟”切換)。
在第12A及12B圖中的概念允許對具有語音及音訊內容之一隨意混合之信號編碼,此概念執行比得上或較好於可能特定於語音或一般音訊內容而裁剪之最佳編碼技術。該編碼器及解碼器之大體結構可描述為:存在由處理立體聲或多聲道處理之一MPEG環繞(MPEGS)功能單元及處理該輸入信號中較高音訊頻率之參數表示之一增強SBR(eSBR)組成之一共同預-後處理。接著,存在兩支路,一支路由一改良高階音訊編碼(AAC)工具路徑組成及另一支路由一基於線性預測編碼(LP或LPC域)的路徑組成,其接著以該LPC殘餘之一頻域表示或一時域表示為特徵。針對AAC及LPC之所有傳輸的頻譜都在量化及算術編碼之後的MDCT域中表示。該時域表示使用一ACELP激發編碼方案。針對該編碼器在第12A圖中及針對該解碼器在第12B圖中顯示了該基本結構。在此圖式中的資料流是自左至右,自頂至底。該解碼器的功能是在該位元流酬載中發現對該量化音訊頻譜或時域表示之描述且對該等量化值及
其它重建資訊解碼。
在傳輸頻譜資訊的情況下,該解碼器將重建該量化頻譜,透過在該位元流酬載中活動的任何工具來處理該重建的頻譜以得到如該輸入位元流酬載所描述的該實際信號頻譜,並最終將該頻域轉換成該時域。在該初始重建及該頻譜重建之比例調整之後,存在改良一或多個頻譜以提供較高效編碼之最佳工具。
在一傳輸的時域信號表示的情況下,該解碼器將重建該量化時間信號,透過在該位元流酬載中活動的任何工具來處理該重建的時間信號以得到如該輸入位元流酬載所描述的該實際時域信號。
對於在該信號資料上操作的各該工具,保留對“通過”的選擇,且在省略該處理的所有情況中,在其輸入的該頻譜或時間取樣直接通過該工具而無需改良。
在該位元流自時域至頻譜表示或自LP域至非LP域或反之亦然改變其信號表示的位置,該解碼器透過一適當的過渡重疊-相加視窗化之方法將有助於自一域至另一域的過渡。
在過渡處理之後,以相同方式來將eSBR及MPEGS處理施於這兩編碼路徑。
到該位元流酬載多工器工具的輸入是一位元流酬載。該多工器將該位元流酬載分離為針對每一工具的多個部分並提供給各該工具有關於該工具的位元流酬載資訊。
該位元流酬載多工器工具的輸出是:
●視在目前訊框中的該核心編碼類型而定,是:
●該量化及無雜訊地編碼頻譜,其用如下表示:
●比例因子資訊
●算術編碼頻譜線
●或是:線性預測(LP)參數以及一激發信號,該激發信號用如下內容中之一者表示:
●量化或算術編碼頻譜線(轉換編碼激發,TCX)或
●ACELP編碼時域激發
●該頻譜雜訊填充資訊(最佳的)
●該M/S決策資訊(最佳的)
●該時域雜訊修整(TNS)(最佳的)
●該濾波器組控制資訊
●該時間不扭曲(TW)控制資訊(最佳的)
●該增強頻帶複製(eSBR)控制資訊
●該MPEG環繞(MPEGS)控制資訊
該比例因子無雜訊解碼工具自該位元流酬載去多工器擷取資訊、分析該資訊,並解碼該霍夫曼及DPCM編碼比例因子。
到該比例因子無雜訊解碼工具的輸入是:
●針對該無雜訊編碼頻譜之比例因子資訊
該比例因子無雜訊解碼工具的輸出是:
●該比例因子之解碼的整數表示:
該頻譜無雜訊解碼工具自該位元流酬載去多工器擷取資訊、分析該資訊、解碼算術編碼的資料,並重建該量化頻譜。到此無雜訊解碼工具的輸入是:
●該無雜訊編碼頻譜
此無雜訊解碼工具的輸出是:
●該頻譜的該等量化值
該反向量化器工具擷取針對該頻譜的該等量化值,並將該整數值轉換成非比例調整的、重建的頻譜。此量化器是一壓伸量化器,其壓伸因子視該選定的核心編碼模式而定。
到該反向量化器工具的輸入是:
●針對該頻譜的該等量化值
該反向量化器工具的輸出是:
●該未比例調整、反向量化的頻譜
該雜訊填充工具用來填充在該解碼頻譜中的的頻譜間隙,這些頻譜間隙當頻譜值被量化為零時出現,例如由於對在該編碼器位元要求上的一極強限制。該雜訊填充工具的使用是最佳的。
到該雜訊填充工具的輸入是:
●該未比例調整、反向量化頻譜
●雜訊填充參數
●該比例因子之解碼整數表示
到該雜訊填充工具的輸出是:
●針對頻譜線先前被量化為零的該未比例調整、反
向量化頻譜值。
●該等比例因子之改良的整數表示
該解比例調整(rescaling)工具將該等比例因子之整數表示轉換為該等實際值,及用該等相關比例因子乘以該未比例調整反向量化的頻譜。
到該等比例因子的輸入是:
●該等比例因子之解碼整數表示
●該未比例調整、反向量化頻譜
該比例因子工具的輸出是:
●該未比例調整、反向量化頻譜
對該M/S工具的一概觀,請參考ISO/IEC 14496-3,分條款4.1.1.2。
對該時域雜訊修整(TNS)工具的一概觀,請參考ISO/IEC 14496-3,分條款4.1.1.2。
該濾波器組/區塊切換工具實施在該編碼器中執行之該頻率映射的反向。針對該濾波器組使用一反向改良離散餘弦轉換(IMDCT)。該IMDCT可被組態以支援120、128、240、256、320、480、512、576、960、1024或1152頻譜係數。
到該濾波器組工具的輸入是:
●該(反向量化)頻譜
●該濾波器組控制資訊
該濾波器工具的輸出是:
●該(等)時域重建音訊信號
當致能該時域扭曲模式時,該時間扭曲濾波器組/區塊切換工具替代該正常濾波器/區塊切換工具。該濾波器組與該正常濾波器組是相同的(IMDCT),額外地,該視窗化的時域取樣藉由隨時間變化的重取樣自該扭曲時域映射至該線性時域。
到該等時間扭曲濾波器組工具的輸入是:
●該反向量化頻譜
●該濾波器組控制資訊
●該時間扭曲控制資訊
該濾波器組工具的輸出是:
●該(等)線性時域重建音訊信號
該增強SBR(eSBR)工具再產生該音訊信號之該高頻。它是基於諧波之該等序列之複製,在編碼期間截斷。它調整該產生的高頻之頻譜包絡並施以反向濾波,且加入雜訊及正弦曲綫分量以再產生該原始信號之該等頻譜特性。
到該eSBR的輸入是:
●該量化包絡資料
●雜項控制資料
●來自該AAC核心解碼器的一時域信號
該eSBR的輸出是:
●一時域信號或
●一信號之一QMP域表示,例如在使用該MPEG環
繞工具的情況下。
該MPEG環繞(MPEGS)藉由將一複雜上混程序施於由適當空間參數控制之該(等)輸入信號可自一或多個輸入信號產生多個信號。在該USAC脈絡中,MPEGS透過傳輸參數旁側資訊以及一傳輸降混信號用來對一多聲道信號編碼。
到該MPEGS工具的輸入是:
●一降混時域信號或
●來自該eSBR工具的一降混信號之一QMF域表示
該MPEGS工具的輸出是:
●一多聲道時域信號
該信號分類器工具分析該原始輸入信號並藉以產生觸發該等不同編碼模式的選擇之控制資訊。該輸入
信號之分析是依賴實現並將試圖選擇針對一給定輸入信號訊框之該最佳核心編碼模式。該信號分類器的輸出也可(最佳地)用於影響其它工具的表現,例如MPEG環繞、增強SBR、時間扭曲濾波器組及其它的。
到該信號分類器工具的輸入是:
●該原始未改良輸入信號
●依賴參數之額外的實施
該信號分類器工具的輸出是:
●控制該核心編解碼器的選擇(非LP濾波頻域編碼、LP濾波頻域或LP濾波時域編碼)之一控制信號
依據本發明,在第12A圖區塊410中及第12A圖該轉換器523中的該時間/頻率解析度依賴於該音訊信號而控制。在第13A圖中說明視窗長度、轉換長度、時間解析度與頻率解析度之間的相互關係,其中變得清楚的是,對於一長視窗長度,該時間解析度變低但該頻率解析度變高,而對於一短視窗長度,該時間解析度變高但該頻率解析度變低。
在該第一編碼支路中(較佳地是用第12A圖的元件410、1201、1202、4021指示的該AAC編碼支路),可使用不同的視窗,其中該視窗形狀由一信號分析器決定,該信號分析器在該信號分類區塊300中被編碼但其也可以是一單獨的模組。該編碼器在第13B圖中說明之具有不同時間/頻率解析度的該等視窗中選擇一視窗。該第一長視窗、該第二長視窗、該第三長視窗、該第四長視窗、該第五長視窗、該第六長視窗之該時間/頻率解析度等於2048取樣值(對於1024的一轉換長度)。在第13B圖中第三線說
明的該短視窗具有相對應於其視窗大小之256取樣值的一時間解析度。這相對應於128的一轉換長度。
類似地,最後兩視窗具有等於2304的一視窗長度,這比在該第一線中的該視窗具有一較好的頻率解析度而一較低的時間解析度。在最後兩線中的該等視窗之該轉換長度等於1152。
在該第一編碼支路中,可建構根據在第13B圖中之該等轉換視窗而建立之不同的視窗序列。雖然在第13C圖中只說明了一短序列,同時其它“序列”只由一單一視窗組成,但是亦可建構由多個視窗組成之較大序列。注意的是,依據第13B圖,對於係數之較小數目,即960而非1024,該時間解析度也小於係數之該相對應的較高數目,諸如1024。
第14A至14G說明在該第二編碼支路中之不同的解析度/視窗大小。在本發明之一較佳實施例中,該第二編碼支路具有一第一處理支路(是一ACELP時域編碼器526),及該第二處理支路包含該濾波器組523。在此支路中,一例如2048取樣之一超訊框被再分為256取樣之訊框。可單獨使用256取樣之個別訊框以使得當應用具有百分之50重疊之一MDCT時可應用四視窗(每一視窗涵蓋兩訊框)之一序列。接著,如第14D圖中所說明,使用一高時間解析度。可選擇地,當該信號允許較長視窗時,可應用如在第14C圖中的該序列,其中應用針對每一視窗(中等視窗)具有1024取樣之一雙倍視窗大小,以使得一視窗涵蓋四訊框且存在百分之50的一重疊。
最後,當該信號是那樣使得一長視窗被使用時,此長視窗擴展4096取樣,也具有一百分之50的重疊。
在存在兩支路(其中一支路具有一ACELP編
碼器)的該較佳實施例中,在該超訊框中用“A”指示的該ACELP訊框之位置也可決定申請在第14E圖中用“T”指示之兩相鄰TCX訊框之視窗大小。基本上,人們感興趣於盡可能地使用長視窗。不過,當一單一T訊框在兩A訊框之間時,必須應用短視窗。當存在兩相鄰T訊框時應用中等視窗。然而,當存在三相鄰T訊框時,一相對應的較大視窗由於額外的複雜性可能不是高效的。因此,該第三T訊框雖然未被一A訊框居前,但可由一短視窗來處理。當整個超訊框只具有T訊框時則應用一長視窗。
第14F圖說明針對視窗的幾個選擇,其中該視窗大小始終是頻譜係數之該數目1g的2x,由於一較佳百分之50的重疊。然而,可應用針對所有編碼支路之其它重疊百分比以使得當沒有應用時域混疊時視窗大小及轉換長度之間的關係也可不同於二及甚至接近一。
第14G圖說明基於在第14F圖中給定的規則建構一視窗之規則。該值ZL說明在該視窗開始的零。該值L說明在一混疊區域中的多個視窗係數。在部分M中的該等值是未引入任何混疊之“1”值,由於在相對應於M的部分與具有零值的一相鄰視窗之一重疊。該部分M之後是一右重疊區域R,該右重疊區域R之後是零的一ZR區域,其將相對應於一隨後視窗之一部分M。
參考隨後所附附件,其描述了一發明的音訊編碼/解碼方案(特定地有關於該解碼器端)之一較佳及詳細實施。
在該頻域中完成量化及編碼。為此目的,在該編碼器中,該時間信號被映射成該頻域。該解碼器執行如在分條
款2中的該反向映射。視該信號而定,該編碼器藉由使用三不同的視窗大小:2304、2048與256可改變該時間/頻率解析度。為了在視窗之間切換,使用該等過渡視窗LONG_START_WINDOW、LONG_STOP_WINDOW,START_WINDOW_LPD、STOP_WINDOW_1152,STOP_START_WINDOW及STOP_START_WINDOW_1152。表格5.11列舉該等視窗,指定該相對應的轉換長度並示意地顯示該等視窗的形狀。使用三轉換長度:1152、1024(或960)(參考長轉換)及128(or 120)係數(參考短轉換)。
視窗序列由視窗以一raw_data_block始終包含表示1024(或960)輸出取樣之資料之一方式組成。該資料元件window_sequence指示實際上使用的該視窗序列。第13C圖列舉該等視窗序列是如何由個別視窗組成。參考分條款2索取關於該轉換及該等視窗之較詳細的資訊。
見ISO/IEC 14496-3,子部分4,分條款4.5.2.3.4
如在ISO/IEC 14496-3,子部分4,分條款4.5.2.3.4中所解釋,該等比例因子頻帶之寬度是建立在人類聽覺系統之該等關鍵頻帶之模仿上。由於此原因,在一頻譜中的比例因子頻帶之數目及它們的寬度視該轉換長度及該取樣頻率而定。在ISO/IEC 14496-3子部分4節4.5.4中的表格4.110至表格4.128列舉了在該等轉換長度1024(960)及128(120)上與該等取樣頻率上對每一比例因子頻帶的開始的偏移。原始
為LONG_WINDOW,LONG_START_WINDOW及LONG_STOP_WINDOW而設計之該等表格也可用於START_WINDOW_LPD及STOP_START_WINDOW。表格4至表格10是針對STOP_WINDOW_1152及STOP_START_WINDOW_1152的該等偏移表格。
該lpd_channel_stream()位元流元件包含所有必需的資訊來對“線性預測域”編碼信號之一訊框解碼。它包含針對在該LPC域中編碼(即包括一LPC濾波步驟)之編碼信號的一訊框之酬載。接著在一ACELP模組的幫助下或在該MDCT轉換域中(“轉換編碼激發”,TCX)表示此濾波器之殘餘(所謂的“激發”)。為了允許密切適應於該等信號特性,一訊框被劃分為大小相等的四較小單元,每一較小單元用ACELP或TCX編碼方案來編碼。
此過程類似於在3GPP TS 26.290中所描述的該編碼方案。繼承此文件的是一略微不同的術語,其中一“超訊框”表示1024取樣之一信號段,而一“訊框”準確地是該信號段的四分之一,即256取樣。這些訊框中的每一訊框被進一步再分為長度相等四“子訊框”。請注意的是,本分章採用此術語。
acelp_core_mode 在ACELP作為一lpd編碼模式而使用的情況下,此位元欄位指示準確的位元分配方案。
lpd_mode 該位元欄位模式定義針對在lpd_channel_stream()的一超訊框(相對應於一AAC訊框)中之各該四訊框之該等編碼模式。該等編碼模式被儲存在該陣列mod[]中且自0至3取值。自下面的表格1可決定自lpd_mode至mod[]的映射。
mod[0..3] 在該陣列mod[]中的該等值指示在每一訊框中之該各自的編碼模式:
acelp_coding() 包含對ACELP激發之一訊框解碼的所有資料之語法元件。
tcx_coding() 包含對基於MDCT轉換編碼激發(TCX)之一訊框解碼的所有資料之語法元件。
first_tcx_flag 指示目前處理的TCX訊框是否是該超訊框中的第一訊框之旗標。
lpc_data() 包含對解碼目前訊框所需要的所有LPC濾波器參數設定解碼之語法元件。
first_lpd_flag 指示目前訊框是否是在LPC域中編碼之超訊框的一序列中的第一個訊框。依據表格3自該位元流元件core_mode(在一channel_pair_element的情況下是
core_mode0及core_mode1)的歷史也可決定此旗標。
last_lpd_mode 指示前面解碼的訊框之lpd_mode。
在該lpd_channel_stream中解碼的順序是:
獲取acelp_core_mode
獲取lpd_mode並據其決定輔助變量mod[]的內容
獲取acelp_coding或tcx_coding資料,視輔助變量
mod[]的內容而定
獲取lpc_data
與節5.2.2中[8]相類似,在一lpd_channel_stream酬載之一超訊框中存在26允許的ACELP或TCX的結合。這26模式結合中的每一模式結合在該位元流元件lpd_mode中被標誌。在表格1及表格2中顯示了在一子訊框中的每一訊框之lpd_mode至實際編碼模式的映射。
1.7比例因子頻帶表格參考對於所有其它的比例因子頻帶表格請參考ISO/IEC 14496-3子部分4節4.5.4表格4.129至表格4.147。
1.8量化為了量化在該編碼器中的該等AAC頻譜係數,使用一非均勻量化器。因此,該解碼器在對該等比例因子霍夫曼解碼(見分條款6.3)及對該頻譜資料無雜訊解碼(見分條款
6.1)之後必須執行反向非均勻量化。
為了量化該等TCX頻譜係數,使用一均勻量化器。在對該頻譜資料無雜訊解碼之後在該解碼器不需要反向量化。
透過將該信號的時間/頻率表示饋送至該濾波器模組將其映射至該時域上。此模組由一反向改良離散餘弦轉換(IMDCT)及一視窗及一重疊函數相加函數組成。為了使該濾波器組的該時間/頻率解析度適於該輸入信號之該等特性,也使用一區塊切換工具。N表示該視窗長度其中N是該window_sequence的一函數(見分條款1.1)。對於每一通道,透過IMDCT,N/2時間-頻率值被轉換成N時域值xi,n。在施以該視窗函數之後,對於每一通道,該zi,n序列的第一半被加入至前面區塊視窗化序列z(i-1),n的第二半來重建針對每一通道outi,n的該等輸出取樣。
window_sequence 指示使用哪一視窗序列(即區塊大小)之2位元。
window_shape 指示選擇哪一視窗函數之1位元。
第13C圖顯示八window_sequences(ONLY_LONG_SEQUENCE、LONG_START_SEQUENCE、EIGHT_SHORT_SEQUENCE、LONG_STOP_SEQUENCE,STOP_START_SEQUENCE、
STOP_1152_SEQUENCE,LPD_START_SEQUENCE、STOP_START_1152_SEQUENCE)。
在後面中,LPD_SEQUENCE指在所謂的線性預測域編解碼器(見節1.3)中的所有允許的視窗/編碼模式組合。在對一頻域編碼訊框解碼的脈絡中,知道只有一後面的訊框用由一LPD_SEQUENCE表示之該等LP域編碼模式編碼是重要的。然而,當對該LP域編碼訊框解碼時,在該LPD_SEQUENCE中的準確結構受注意。
該IMDCT的分析表式是:
其中:n=取樣指數
i=視窗指數
k=頻譜係數指數
N=基於該window_sequence值的視窗長度
n0=(N/2+1)/2
用於反向轉換之該分析視窗長度N是該語法元件window_sequence及該演算法脈絡之一函數。其定義如下:視窗長度2304:
視窗長度2408:
該等重大區塊過渡如下:
自ONLY_LONG_SEQUENCE至
自LONG_START_SEQUENCE至
自LONG_STOP_SEQUENCE至
自EIGHT_SHORT_SEQUENCE至
自LPD_SEQUENCE至
自STOP_START_SEQUENCE至
自LPD_START_SEQUENCE至
自STOP_1152_SEQUENCE至
自STOP_START_1152_SEQUENCE至
視window_sequence及window_shape元件而定,使用不同的轉換視窗。如下描述的多個半視窗之一組合提供所有可能的window_sequences。
對於window_shape==1,該等視窗係數由凱撒貝索衍生視窗(Kaiser-Bessel derived(KBD)window)給定,如下:
其中:w'、凱撒貝索內核視窗函數(也見[5])如下定義:
α=內核视窗alpha因子,
不然,對於window_shape==0,如下使用一正弦函數:
針對KBD及該正弦視窗的該視窗長度N可以是2048(1920)或256(240)。在STOP_1152_SEQUENCE及STOP_START_1152_SEQUENCE的情況下,N仍可以是2048或256,該等視窗傾斜是類似的,但該平頂區域較長。
只有在LPD_START_SEQUENCE的情況下,該視窗的右部分是64取樣的一正弦視窗。
在此分條款的部分a)-h)解釋了如何獲取可能的該等視窗序列。
對於所有種類的window_sequences,該第一轉換視窗之左半之window_shape由前面區塊的視窗形狀來決定。如下公式表示此事實:
其中:window_shape_previous_block:前一區塊(i-1)的window_shape。對於要被解碼的該第一raw_data_block(),該視窗之左及右半之window_shape是相同的。
該window_sequence==ONLY_LONG_SEQUENCE
等於具有2048(1920)的一總視窗長度N_l之LONG_WINDOW。
對於window_shape==1,針對ONLY_LONG_SEQUENCE的該視窗如下給定:
如果window_shape==0針對ONLY_LONG_SEQUENCE的該視窗可描述如下:
視窗化後,該等時域值(zi,n)可表達為;z i,n =w(n).x i,n ;
需要該LONG_START_SEQUENCE來獲得一正確的重疊且加入自一ONLY_LONG_SEQUENCE至一EIGHT_SHORT_SEQUENCE之一區塊過渡。
視窗長度N_l及N_s分別被設定為2048(1920)及256(240)。
如果window_shape==1,針對LONG_START_SEQUENCE的視窗可如下給定:
如果window_shape==0,則針對LONG_START_SEQUENCE的該視窗看起來像:
可用在a)說明的該公式計算該視窗化時域值。
該window_sequence==EIGHT_SHORT包含八重疊的及加入的SHORT_WINDOW,每一SHORT_WINDOW具有256(240)的一長度N_s。該window_sequence的總長度以及前導及後置零是2048(1920)。各該八區塊首先被單獨視窗化。用變量j=0,...,M-1(M=N_l/N_s)來作為該段區塊數的指數。
前面區塊的window_shape只影響該八短區塊(W0(n))中的第一短區塊。如果window_shape==1,該等視窗函數可如下給定:
不然,如果window_shape==0,該等視窗函數可被描述為:
該EIGHT_SHORT window_sequence之間的重疊及相加(產生該視窗化時域值zi,n)描述如下:
此window_sequence需要自一EIGHT_SHORT_SEQUENCE切回至一ONLY_LONG_SEQUENCE。
如果window_shape==1,針對LONG_STOP_SEQUENCE的視窗如下給定:
如果window_shape==0,針對LONG_START_SEQUENCE的視窗由如下決定:
可用在a)中說明的該公式計算該等視窗化的時域值。
當只需要一ONLY_LONG_SEQUENCE時,針對自一EIGHT_SHORT_SEQUENCE至一EIGHT_SHORT_SEQUENCE的一區塊過渡需要該STOP_START_SEQUENCE來獲得一正確的重疊及相加。
視窗長度N_l及N_s分別被設定為2048(1920)及256(240)。
如果window_shape==1,針對STOP_START_SEQUENCE的視窗如下給定:
如果window_shape==0,針對STOP_START_SEQUENCE的視窗看起來像:
可用在a)中說明的該公式計算該等視窗化的時域值。
針對自一ONLY_LONG_SEQUENCE至一LPD_SEQUENCE的一區塊過渡需要該LPD_SEQUENCE來獲得一正確的重疊及相加。
視窗長度N_l及N_s分別被設定為2048(1920)及256(240)。
如果window_shape==1,針對LPD_START_SEQUENCE的視窗如下給定:
如果window_shape==0,針對LPD_START_SEQUENCE的視窗看起來像:
可用在a)中說明的該公式計算該等視窗化的時域值。
針對自一LPD_SEQUENCE至ONLY_LONG_SEQUENCE的一區塊過渡需要該STOP_1152_SEQUENCE來獲得一正確的重疊及相加。
視窗長度N_l及N_s分別被設定為2048(1920)及256(240)。
如果window_shape==1,針對STOP_1152_SEQUENCE的視窗如下給定:
如果window_shape==0,針對STOP_1152_SEQUENCE的視窗如下給定:
可用在a)中說明的該公式計算該等視窗化的時域值。
當只需要一ONLY_LONG_SEQUENCE時,針對自一LPD_SEQUENCE至一EIGHT_SHORT_SEQUENCE的一區塊過渡需要該STOP_START_1152_SEQUENCE來獲得一正確的重疊及相加。
視窗長度N_l及N_s分別被設定為2048(1920)及256(240)。
如果window_shape==1,針對STOP_START_SEQUENCE的該視窗如下給定:
如果window_shape==0,針對STOP_START_SEQUENCE的該視窗看起來像:
可用在a)中說明的該公式計算該等視窗化的時域值。
除了在EIGHT_SHORT window_sequence中的重疊及相加以外,每一window_sequence的該第一(左)部分與前面window_sequence的該第二(右)部分重疊及相加產生最終的時域值out i,n 。此操作的數學表式可如下描述:在ONLY_LONG_SEQUENCE、LONG_START_SEQUENCE,EIGHT_SHORT_SEQUENCE、LONG_STOP_SEQUENCE、STOP_START_SEQUENCE、LPD_START_SEQUENCE的情
況下:
及在STOP_1152_SEQUENCE STOP_START_1152_SEQUENCE的情況下:
在LPD_START_SEQUENCE的情況下,下一序列是LPD_SEQUENCE。一SIN或KBD視窗施於LPD_SEQUENCE以取得一良好重疊及相加。
在STOP_1152_SEQUENCE、STOP_START_1152_SEQUENCE的情況下,前面序列是LPD_SEQUENCE。一TDAC施於LPD_SEQUENCE以取得一良好重疊及相加。
視該window_shape元件而定,使用不同的過度取樣轉換視窗原型,該過度取樣視窗的長度是:N OS =2.n_long.os_factor_win
對於window_shape==1,該等視窗係數由凱撒貝索衍生(KBD)視窗如下給定:
其中,W'、凱撒貝索衍生內核視窗函數(也見[5])如下定義:
α=內核視窗alpha因子,α=4
不然,對於window_shape==0,如下使用一正弦視窗:
對於各種window_sequences,針對左視窗所使用的原型由前一區塊的視窗形狀而決定。下面的公式表達此事實:
同樣地,針對右視窗形狀的原型由如下公式來決定:
由於已決定該等過渡長度,僅必須表明EIGHT_SHORT_SEQUENCE與所有其它之間的差別:a)EIGHT SHORT SEQUENCE:下面類似c-code的部分描述一EIGHT_SHORT_SEQUENCE之視窗化及內部重疊-相加:
當該core_mode等於1且當該三TCX模式之一或多個模式被選定為該“線性預測域”編碼,即mod[]之該4陣列項中之一項大於0時,使用該基於MDCT的TCX工具。該基於MDCT的TCX自該算術解碼器接收該等量化頻譜係數。在施以一反向MDCT轉換以獲得一時域加權合成(其接著被饋送至該加權合成LPC濾波器)之前,由一舒適雜訊來首先完成該等量化係數。
該基於MDCT的TCX向該算術解碼器請求多個量化頻譜係數lg,其由該mod[]及last_lpd_mode值決定。這兩
值也定義將施於該反向MDCT中的該視窗長度及形狀。該視窗由三部分組成:L取樣的一左端重疊、M取樣的若干之一中間部分及R取樣的一右重疊部分。為了獲得長度為2*lg的一MDCT視窗,在該左端加ZL零及在該右端加ZR零,如在針對表格3的第14G圖/第14F圖中所示。
該MDCT視窗由如下給定
由該算術解碼器傳送之該等量化頻譜係數、quant[]由一舒適雜訊完成。該注入雜訊之等級由該解碼noise_factor如下決定:noise_level=0.0625*(8-noise_factor)
接著使用一隨機函數、random_sign()、隨機傳送的值-1或+1來運算一雜訊向量、noise[]。
noise[i]=random_sign()*noise_level;以在quant[]中的該等多連串8連續零被noise[]中的該等分量替代之一方式來結合該quant[]及noise[]以形成該重建的頻譜係數向量r[]。依據該公式來檢測一連串8非零:
人們如下獲得該重建頻譜:
在實施該反向MDCT之前,依據如下步驟實施一頻譜去成形(de-shaping):
1.針對該頻譜的第一個四分之一之每一8維區塊,計算該8維區塊在指數m時的能量E m
2.運算比率R m =sqrt(E m /E I ),其中I是具有所有E m 中的最大值之區塊指數
3.如果R m <0.1,則設定R m =0.1
4.如果R m <R m-1 ,則設定R m =R m-1
接著用因子Rm乘以屬於頻譜的第一個四分之一之每一8維區塊。
在一反向MDCT中饋送該重建頻譜。該非視窗化的輸出信號x[]被增益g解比例調整,該增益g是透過該解碼global_gain指數之一反向量化而獲得:
g=10 global_gain/28/(2.rms)
其中rms被計算為:
那麼該解比例調整合成時域信號等於:x w [i]=x[i].g
在解比例調整之後,施以該視窗化及重疊相加。
該重建TCX目標x(n)接著透過該零狀態反向加權合成濾波器(z)(1-αz -1)/((z/λ)濾波以找尋該合成濾波器。注意的是,在該濾波中對每一訊框使用該***的LP濾波器。一旦決定該激發,該信號藉由將該激發濾波經過合成濾波器1/(z)且接著藉由濾波經過如上描述的該濾波器1/(1-0.68z-1)來去加強而被重建。
注意的是,在一隨後訊框中,該激發也需要更新該ACELP適應性碼簿並允許自TCX至ACELP之切換。還要注意的是,該TCX合成的長度由分別針對1、2、3的mod[]之該TCX訊框長度(沒有重疊):256、512或1024取樣而給定。
[1] ISO/IEC 11172-3:1993, Information technology-Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s, Part 3: Audio.
[2] ITU-T Rec.H.222.0(1995) | ISO/IEC 13818-1:2000, Information technology-Generic coding of moving pictures
and associated audio information:-Part 1: Systems.
[3] ISO/IEC 13818-3:1998, Information technology-Generic coding of moving pictures and associated audio information:-Part 3: Audio.
[4] ISO/IEC 13818-7:2004, Information technology-Generic coding of moving pictures and associated audio information:-Part 7: Advanced Audio Coding (AAC).
[5] ISO/IEC 14496-3:2005, Information technology-Coding of audio-visual objects-Part 1: Systems
[6] ISO/IEC 14496-3:2005, Information technology-Coding of audio-visual objects-Part 3: Audio
[7] ISO/IEC 23003-1:2007, Information technology-MPEG audio technologies-Part 1: MPEG Surround
[8] 3GPP TS 26.290 V6.3.0, Extended Adaptive Multi-Rate-Wideband (AMR-WB+) codec; Transcoding functions
[9] 3GPP TS 26.190, Adaptive Multi-Rate-Wideband (AMR-WB) speech codec; Transcoding functions
[10] 3GPP TS 26.090, Adaptive Multi-Rate (AMR) speech codec; Transcoding functions
定義可在ISO/IEC 14496-3子部分1分條款1.3(術語及定義)及3GPP TS 26.290節3(定義及縮語)中找到。
雖然在一設備的脈絡中已描述了一些層面,
但是清楚的是,這些層面也表示該相對應的方法之一描述,其中一區塊或裝置對應於一方法步驟或一方法步驟之一特徵。類似地,在一方法步驟的脈絡中描述的層面也表示一相對應的設備之一相對應的區塊或項或特徵。
該發明的編碼的音訊信號可儲存在一數位儲存媒體上或可在一傳輸媒體上傳輸,諸如一無線傳輸媒體或一有線傳輸媒體(諸如網際網路)。
視某些實施需求而定,本發明之實施例可在硬體或軟體中實施,該實施可使用一數位儲存媒體而執行,例如一軟碟、一DVD、一CD、一ROM、一PROM、一EPROM、一EEPROM或一快閃(FLASH)記憶體,這些數位儲存媒體其上具有電氣可讀取控制信號儲存,藉以與一可規劃電腦系統協作(或能夠協助)以使得本文所描述的該等方法中之一方法被執行。
依據本發明的一些實施例包含具有電氣可讀取控制信號之一資料載體,該等電氣可讀取控制信號能夠與一可規劃電腦系統協作以使得本文所描述的該等方法中之一方法被執行。
其它實施例包含儲存於一機器可讀取載體上用於執行本文所描述的該等方法中之一方法之電腦程式。
換言之,本發明的方法之一實施例因而是具有用於執行本文所描述的該等方法中之一方法之一電腦程式碼之一電腦程式,當該電腦程式在一電腦上執行時。
本發明的方法之一進一步的實施例因而是一資料載體(或一數位儲存媒體或一電腦可讀取媒體),其包含:記錄於其上用於執行本文所描述的該等方法中之一方法之一該電腦程式。
本發明的方法之一進一步的實施例因而是表
示用於執行本文所描述的該等方法中之一方法之該電腦程式之一資料流或一信號序列。該資料流或該信號序列可例如被組態以透過一資料通訊連接(例如透過網際網路)而被傳送。
一進一步的實施例包含一處理裝置,例如一電腦或一可規劃邏輯裝置,其被組態或被改作以執行本文所描述該等方法中之一方法。
一進一步的實施例包含一電腦,該電腦具有安裝於其上之用於執行本文所描述該等方法中之一方法之該電腦程式。
在一些實施例中,一可規劃邏輯裝置(例如一欄位可規劃閘陣列)可用來執行該等方法之該等功能中之一些或所有功能。在一些實施例中,一欄位可規劃閘陣列可與一微處理器協作以執行本文所描述該等方法中之一方法。大體上,該等方法較佳地由任何硬體設備而執行。
上面描述的該等實施例僅僅是說明本發明的原理。要明白的是,對本文描述的該等配置及該等細節的修改或變化對熟於此技者而言將是明顯的。因此,意圖是僅受後附的申請專利範圍之範圍而限制而不受作為本文該等實施例的描述及解釋而出現之該等特定細節限制。
200‧‧‧開關
300、525‧‧‧信號分析器
400‧‧‧第一編碼支路
410‧‧‧第一轉換器
410a、523a‧‧‧視窗化器
410b、523b‧‧‧轉換器
421‧‧‧量化器/編碼器級
500‧‧‧第二編碼支路
510‧‧‧LPC處理器、域轉換器
523‧‧‧第二轉換器
524‧‧‧進一步的編碼工具
800‧‧‧輸出介面
801‧‧‧編碼器輸出信號
Claims (19)
- 一種用於編碼音訊信號之音訊編碼器,其包含:一第一編碼支路,其用於使用一第一編碼演算法來編碼一音訊信號以獲得一第一編碼信號,該第一編碼支路包含用於將一輸入信號轉換成一頻譜域之第一轉換器;一第二編碼支路,其用於使用一第二編碼演算法來編碼一音訊信號以獲得一第二編碼信號,其中該第一編碼演算法與該第二編碼演算法不同,該第二編碼支路包含用於將一輸入信號自一輸入域轉換成一輸出域之一域轉換器及用於將一輸入信號轉換成一頻譜域之一第二轉換器;一開關,其用於在該第一編碼支路與該第二編碼支路之間切換以使得對於一部分音訊輸入信號而言,該第一編碼信號或該第二編碼信號在一編碼器輸出信號中;一信號分析器,其用於分析該部分之音訊信號以決定該部分之音訊信號在該編碼器輸出信號中是表示為該第一編碼信號或該第二編碼信號,其中該信號分析器進一步組配來當表示該部分音訊信號之該第一編碼信號或該第二編碼信號被產生時可變地決定該第一轉換器及該第二轉換器之一各自的時間/頻率解析度;以及一輸出介面,其用於產生一編碼器輸出信號,該編碼器輸出信號包含該第一編碼信號及該第二編碼信號及一指示該第一編碼信號與該第二編碼信號之一指 示,及指示施加用於編碼該第一編碼信號及用於編碼該第二編碼信號的該時間/頻率解析度之一指示。
- 如申請專利範圍第1項所述之音訊編碼器,其中該信號分析器組配來將該部分音訊信號分類為一類似語音的音訊信號或一類似音樂的音訊信號,且用於在一音樂信號的情況下執行一暫態檢測以決定該第一轉換器之時間/頻率解析度或用於執行一合成式分析處理以決定該第二轉換器之時間/頻率解析度。
- 如申請專利範圍第1或2項所述之音訊編碼器,其中該第一轉換器與該第二轉換器包含一可變的視窗化轉換處理器,該可變的視窗化轉換處理器包含具有一可變視窗大小的一視窗函數及具有一可變轉換長度之一轉換函數,及其中該信號分析器組配來基於信號分析來控制該視窗大小及/或該轉換長度。
- 如申請專利範圍第1項所述之音訊編碼器,其中該第二編碼器支路包含用於處理在由該域轉換器所決定的域中的一音訊信號之一第一處理支路及包含該第二轉換器之一第二處理支路,其中該信號分析器組配來將該音訊信號之該部分細分為一系列子部分,且其中該信號分析器組配來依該第一處理支路所處理的該子部分相對於由該第二處理支路所處理的該部分之一子部分之位置決定該第二轉換器之該時間/頻率解析度。
- 如申請專利範圍第4項所述之音訊編碼器,其中該第一處理支路包含一ACELP編碼器,其中該第二處理支路包含一MDCT-TCX處理裝置,其中該信號分析器組配來將該第二轉換器之該時間解析度設定為由一子部分之一長度決定之一第一值或由乘上大於一的一整數值的該子部分之一長度決定之一第二值,該第二值係小於該第一值。
- 如申請專利範圍第1項所述之音訊編碼器,其中該信號分析器組配來決定在涵蓋多個大小相等的音訊取樣區塊之一恒定光柵中的一信號分類,及用於將一區塊根據該音訊信號細分為一可變數目的區塊,其中該子區塊之一長度決定第一時間/頻率解析度或第二時間/頻率解析度。
- 如申請專利範圍第1項所述之音訊編碼器,其中該第二編碼支路包含:一第一處理支路,用於處理一音訊信號;一第二處理支路,該第二處理支路包含該第二轉換器;及一進一步的開關,其用於在該第一處理支路與該第二處理支路之間切換以使得對於輸入至該第二編碼支路之該音訊信號之一部分而言,一第一處理信號或一第二處理信號在該第二編碼信號中。
- 一種對音訊信號進行音訊編碼的方法,其包含以下步驟:在一第一編碼支路中使用一第一編碼演算法來編碼一音訊信號以獲得一第一編碼信號,該第一編碼支路 包含用於將一輸入信號轉換成一頻譜域之第一轉換器;在一第二編碼支路中使用一第二編碼演算法來編碼一音訊信號以獲得一第二編碼信號,其中該第一編碼演算法與該第二編碼演算法不同,該第二編碼支路包含用於將一輸入信號自一輸入域轉換成一輸出域之一域轉換器及用於將一輸入信號轉換成一頻譜域之一第二轉換器;在該第一編碼支路與該第二編碼支路之間切換以使得對於一部分之音訊輸入信號,該第一編碼信號或該第二編碼信號在一編碼器輸出信號中;分析該部分之音訊信號以決定該部分音訊信號在該編碼器輸出信號中是表示為該第一編碼信號或該第二編碼信號,當表示該部分之音訊信號的該第一編碼信號或該第二編碼信號被產生時,可變地決定該第一轉換器及該第二轉換器之一各自的時間/頻率解析度;以及產生一編碼器輸出信號,該編碼器輸出信號包含該第一編碼信號及該第二編碼信號及指示該第一編碼信號與該第二編碼信號之一指示,及指示施加用於編碼該第一編碼信號與用於編碼該第二編碼信號之該時間/頻率解析度之一指示。
- 一種用於解碼一編碼信號之音訊解碼器,該編碼信號包含一第一編碼信號、一第二編碼信號、指示該第一編碼信號及該第二編碼信號之一指示及用來解碼該第一編 碼信號及第二編碼音訊信號之一時間/頻率解析度指示,該音訊解碼器包含:一第一解碼支路,其用於使用一第一可控制的頻率/時間轉換器來解碼該第一編碼信號,該第一可控制的頻率/時間轉換器組配來使用該第一編碼信號之該時間/頻率解析度指示而受控制,以獲得一第一解碼信號;一第二解碼支路,其用於使用一第二可控制的頻率/時間轉換器來解碼該第二編碼信號,該第二可控制的頻率/時間轉換器組配來使用該第二編碼信號之該時間/頻率解析度指示而受控制;一控制器,其用於使用該時間/頻率解析度指示來控制該第一頻率/時間轉換器及該第二頻率/時間轉換器;一域轉換器,其用於使用該第二解碼信號來產生一合成信號;以及一組合器,其用於將該第一解碼信號與該合成信號組合以獲得一解碼的音訊信號。
- 如申請專利範圍第9項所述之音訊解碼器,其中該第二解碼支路包含一第一反向處理支路,該第一反向處理支路用於反向處理被額外地包括在該編碼信號中之一第一處理信號以獲得一第一反向處理信號;其中該第二可控制的頻率/時間轉換器位於一第二反向處理支路中,該第二反向處理支路組配來反向處理在與該第一反向處理信號之域相同之一域中之該第二編碼信號以獲得一第二反向處理信號; 一進一步的組合器,其用於將該第一反向處理信號與該第二反向處理信號相組合以獲得一組合信號;及其中該組合信號被輸入至該組合器中。
- 如申請專利範圍第9項所述之音訊解碼器,其中該第一頻率/時間轉換器及該第二頻率/時間轉換器是時域混疊消除轉換器,該時域混疊消除轉換器具有用於消除包含在該第一編碼信號及該第二編碼信號中的一時域混疊之一重疊/相加單元。
- 如申請專利範圍第9項所述之音訊解碼器,其中該編碼信號包含識別一編碼信號是否是該第一編碼信號及該第二編碼信號之編碼模式指示,及其中該解碼器進一步包含一輸入介面,該輸入介面用以解譯該編碼模式指示以決定該編碼信號是要被饋送至該第一解碼支路或至該第二解碼支路。
- 如申請專利範圍第9項所述之音訊解碼器,其中該第一編碼信號被算術編碼,且其中該第一編碼支路包含一算術解碼器。
- 如申請專利範圍第9項所述之音訊解碼器,其中該第一編碼支路包含一解量化器,該解量化器具有一非均勻解量化特性,其用於消除當產生該第一編碼信號時所施加的一非均勻量化之一結果,其中該第二編碼支路包含一使用不同解量化特性之解量化器,或其中該第二編碼支路不包含一解量化器。
- 如申請專利範圍第9項所述之音訊解碼器,其中該控制 器組配來藉由對每一轉換器施以多個可能不同離散頻率/時間解析度中之一離散頻率/時間解析度來控制該第一頻率/時間轉換器及該第二頻率/時間轉換器,該第二轉換器之多個可能不同頻率/時間解析度高於該第一轉換器之多個可能不同頻率/時間解析度的數目。
- 如申請專利範圍第9項所述之音訊解碼器,其中該域轉換器是使用一LPC濾波器資訊來產生該合成信號之一LPC合成處理器,該LPC濾波器資訊被包含在該編碼信號中。
- 一種用以對編碼信號進行音訊解碼的方法,該編碼信號包含一第一編碼信號、一第二編碼信號、一指示該第一編碼信號與該第二編碼信號之指示,及一用來解碼該第一編碼信號及第二編碼音訊信號之時間/頻率解析度指示,該方法包含以下步驟:由一第一解碼支路使用一第一可控制頻率/時間轉換器來解碼該第一編碼信號,該第一可控制頻率/時間轉換器組配來使用該第一編碼信號之該時間/頻率解析度指示而受控制,以獲得一第一解碼信號;由一第二解碼支路使用一第二可控制頻率/時間轉換器來解碼該第二編碼信號,該第二可控制頻率/時間轉換器組配來使用該第二編碼信號之該時間/頻率解析度指示而受控制;使用該時間/頻率解析度指示來控制該第一頻率/時間轉換器及該第二頻率/時間轉換器; 由一域轉換器使用該第二解碼信號產生一合成信號;以及將該第一解碼信號與該合成信號相組合以獲得一解碼音訊信號。
- 一種儲存有編碼音訊信號之電腦可讀取媒體,該編碼音訊信號包含:一第一編碼信號;一第二編碼信號,其中用該第一編碼信號或該第二編碼信號來表示一音訊信號之一部分;一指示該第一編碼信號與該第二編碼信號之指示;一用來解碼該第一編碼信號之一第一時間/頻率解析度之指示,以及一用來解碼該第二編碼信號之一第二時間/頻率解析度之指示。
- 一種當運行於一處理器上用於執行如申請專利範圍第8項或第17項所述之方法之電腦程式。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10382508P | 2008-10-08 | 2008-10-08 | |
EP08017663 | 2008-10-08 | ||
EP09002271A EP2144230A1 (en) | 2008-07-11 | 2009-02-18 | Low bitrate audio encoding/decoding scheme having cascaded switches |
PCT/EP2009/007205 WO2010040522A2 (en) | 2008-10-08 | 2009-10-07 | Multi-resolution switched audio encoding/decoding scheme |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201344679A TW201344679A (zh) | 2013-11-01 |
TWI520128B true TWI520128B (zh) | 2016-02-01 |
Family
ID=42101010
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW098133982A TWI419148B (zh) | 2008-10-08 | 2009-10-07 | 多解析度切換音訊編碼/解碼方案 |
TW102120721A TWI520128B (zh) | 2008-10-08 | 2009-10-07 | 多解析度切換音訊編碼/解碼方案(一) |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW098133982A TWI419148B (zh) | 2008-10-08 | 2009-10-07 | 多解析度切換音訊編碼/解碼方案 |
Country Status (14)
Country | Link |
---|---|
EP (2) | EP2345030A2 (zh) |
JP (1) | JP5555707B2 (zh) |
KR (3) | KR20130069833A (zh) |
CN (1) | CN102177426B (zh) |
AR (1) | AR076060A1 (zh) |
BR (1) | BRPI0914056B1 (zh) |
CA (1) | CA2739736C (zh) |
CO (1) | CO6362072A2 (zh) |
MX (1) | MX2011003824A (zh) |
MY (1) | MY154633A (zh) |
RU (1) | RU2520402C2 (zh) |
TW (2) | TWI419148B (zh) |
WO (1) | WO2010040522A2 (zh) |
ZA (1) | ZA201102537B (zh) |
Families Citing this family (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2460158A4 (en) | 2009-07-27 | 2013-09-04 | METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL | |
WO2011034377A2 (en) * | 2009-09-17 | 2011-03-24 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
TW201214415A (en) * | 2010-05-28 | 2012-04-01 | Fraunhofer Ges Forschung | Low-delay unified speech and audio codec |
CN102934161B (zh) * | 2010-06-14 | 2015-08-26 | 松下电器产业株式会社 | 音频混合编码装置以及音频混合解码装置 |
IL295473B2 (en) | 2010-07-02 | 2023-10-01 | Dolby Int Ab | After–selective bass filter |
JP5600805B2 (ja) | 2010-07-20 | 2014-10-01 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 最適化されたハッシュテーブルを用いるオーディオエンコーダ、オーディオデコーダ、オーディオ情報を符号化するための方法、オーディオ情報を復号化するための方法およびコンピュータプログラム |
TR201903388T4 (tr) | 2011-02-14 | 2019-04-22 | Fraunhofer Ges Forschung | Bir ses sinyalinin parçalarının darbe konumlarının şifrelenmesi ve çözülmesi. |
TWI483245B (zh) | 2011-02-14 | 2015-05-01 | Fraunhofer Ges Forschung | 利用重疊變換之資訊信號表示技術 |
RU2586838C2 (ru) | 2011-02-14 | 2016-06-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Аудиокодек, использующий синтез шума в течение неактивной фазы |
EP2676268B1 (en) | 2011-02-14 | 2014-12-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
EP2676270B1 (en) | 2011-02-14 | 2017-02-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Coding a portion of an audio signal using a transient detection and a quality result |
AU2012217215B2 (en) | 2011-02-14 | 2015-05-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for error concealment in low-delay unified speech and audio coding (USAC) |
EP3503098B1 (en) | 2011-02-14 | 2023-08-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method decoding an audio signal using an aligned look-ahead portion |
AR085895A1 (es) | 2011-02-14 | 2013-11-06 | Fraunhofer Ges Forschung | Generacion de ruido en codecs de audio |
MY165853A (en) | 2011-02-14 | 2018-05-18 | Fraunhofer Ges Forschung | Linear prediction based coding scheme using spectral domain noise shaping |
TWI488176B (zh) * | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 音訊信號音軌脈衝位置之編碼與解碼技術 |
US8977543B2 (en) | 2011-04-21 | 2015-03-10 | Samsung Electronics Co., Ltd. | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore |
CN105513602B (zh) | 2011-04-21 | 2019-08-06 | 三星电子株式会社 | 用于语音信号或音频信号的解码设备和方法及量化设备 |
BR112013033900B1 (pt) | 2011-06-30 | 2022-03-15 | Samsung Electronics Co., Ltd | Método para gerar um sinal estendido de largura de banda para decodificação de áudio |
JP6239521B2 (ja) | 2011-11-03 | 2017-11-29 | ヴォイスエイジ・コーポレーション | 低レートcelpデコーダに関する非音声コンテンツの向上 |
US9043201B2 (en) * | 2012-01-03 | 2015-05-26 | Google Technology Holdings LLC | Method and apparatus for processing audio frames to transition between different codecs |
EP2849180B1 (en) * | 2012-05-11 | 2020-01-01 | Panasonic Corporation | Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal |
RU2656681C1 (ru) * | 2012-11-13 | 2018-06-06 | Самсунг Электроникс Ко., Лтд. | Способ и устройство для определения режима кодирования, способ и устройство для кодирования аудиосигналов и способ, и устройство для декодирования аудиосигналов |
EP2936486B1 (en) | 2012-12-21 | 2018-07-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Comfort noise addition for modeling background noise at low bit-rates |
AU2013366642B2 (en) | 2012-12-21 | 2016-09-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals |
CN109448745B (zh) * | 2013-01-07 | 2021-09-07 | 中兴通讯股份有限公司 | 一种编码模式切换方法和装置、解码模式切换方法和装置 |
RU2660605C2 (ru) | 2013-01-29 | 2018-07-06 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Концепция заполнения шумом |
CN105190748B (zh) * | 2013-01-29 | 2019-11-01 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、***、方法及存储介质 |
RU2608447C1 (ru) | 2013-01-29 | 2017-01-18 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов |
PL2936484T3 (pl) * | 2013-01-29 | 2018-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie i sposób do przetwarzania zakodowanego sygnału i koder i sposób do generowania zakodowanego sygnału |
CA2899542C (en) | 2013-01-29 | 2020-08-04 | Guillaume Fuchs | Noise filling without side information for celp-like coders |
WO2014159898A1 (en) | 2013-03-29 | 2014-10-02 | Dolby Laboratories Licensing Corporation | Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals |
EP2804176A1 (en) | 2013-05-13 | 2014-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
KR101895198B1 (ko) | 2013-05-24 | 2018-09-07 | 돌비 인터네셔널 에이비 | 오디오 인코더 및 디코더 |
EP2830058A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frequency-domain audio coding supporting transform length switching |
TWI557726B (zh) * | 2013-08-29 | 2016-11-11 | 杜比國際公司 | 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法 |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
CN106448688B (zh) * | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
EP2980791A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions |
RU2701060C2 (ru) * | 2014-09-30 | 2019-09-24 | Сони Корпорейшн | Передающее устройство, способ передачи, приемное устройство и способ приема |
EP3067887A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
KR102398124B1 (ko) * | 2015-08-11 | 2022-05-17 | 삼성전자주식회사 | 음향 데이터의 적응적 처리 |
US10134412B2 (en) * | 2015-09-03 | 2018-11-20 | Shure Acquisition Holdings, Inc. | Multiresolution coding and modulation system |
JP6804528B2 (ja) | 2015-09-25 | 2020-12-23 | ヴォイスエイジ・コーポレーション | ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム |
EP3182411A1 (en) | 2015-12-14 | 2017-06-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an encoded audio signal |
CN105632542B (zh) * | 2015-12-23 | 2019-05-28 | 小米科技有限责任公司 | 音频播放方法及装置 |
US9959877B2 (en) * | 2016-03-18 | 2018-05-01 | Qualcomm Incorporated | Multi channel coding |
SG11201808684TA (en) | 2016-04-12 | 2018-11-29 | Fraunhofer Ges Forschung | Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band |
US10362423B2 (en) | 2016-10-13 | 2019-07-23 | Qualcomm Incorporated | Parametric audio decoding |
CN107404625B (zh) * | 2017-07-18 | 2020-10-16 | 海信视像科技股份有限公司 | 终端的音效处理方法及装置 |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483884A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
BR112020012648A2 (pt) | 2017-12-19 | 2020-12-01 | Dolby International Ab | métodos e sistemas de aparelhos para aprimoramentos de decodificação de fala e áudio unificados |
US10957331B2 (en) * | 2018-12-17 | 2021-03-23 | Microsoft Technology Licensing, Llc | Phase reconstruction in a speech decoder |
US10847172B2 (en) | 2018-12-17 | 2020-11-24 | Microsoft Technology Licensing, Llc | Phase quantization in a speech encoder |
CN113574889B (zh) | 2019-03-14 | 2024-01-12 | 北京字节跳动网络技术有限公司 | 环路整形信息的信令和语法 |
US20230179764A1 (en) * | 2021-12-06 | 2023-06-08 | Tencent America LLC | Arrangement of adaptive loop filter coefficients for fast vectorized transpositions |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3317470B2 (ja) * | 1995-03-28 | 2002-08-26 | 日本電信電話株式会社 | 音響信号符号化方法、音響信号復号化方法 |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5848391A (en) * | 1996-07-11 | 1998-12-08 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method subband of coding and decoding audio signals using variable length windows |
DE19706516C1 (de) * | 1997-02-19 | 1998-01-15 | Fraunhofer Ges Forschung | Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen |
RU2214047C2 (ru) * | 1997-11-19 | 2003-10-10 | Самсунг Электроникс Ко., Лтд. | Способ и устройство для масштабируемого кодирования/декодирования аудиосигналов |
JP3211762B2 (ja) * | 1997-12-12 | 2001-09-25 | 日本電気株式会社 | 音声及び音楽符号化方式 |
ATE302991T1 (de) * | 1998-01-22 | 2005-09-15 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US6963842B2 (en) * | 2001-09-05 | 2005-11-08 | Creative Technology Ltd. | Efficient system and method for converting between different transform-domain signal representations |
DE10217297A1 (de) * | 2002-04-18 | 2003-11-06 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten |
US7043423B2 (en) * | 2002-07-16 | 2006-05-09 | Dolby Laboratories Licensing Corporation | Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding |
US7424434B2 (en) * | 2002-09-04 | 2008-09-09 | Microsoft Corporation | Unified lossy and lossless audio compression |
KR101169596B1 (ko) * | 2003-04-17 | 2012-07-30 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 신호 합성 |
WO2005027094A1 (fr) * | 2003-09-17 | 2005-03-24 | Beijing E-World Technology Co.,Ltd. | Procede et dispositif de quantification de vecteur multi-resolution multiple pour codage et decodage audio |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
FI118835B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Koodausmallin valinta |
US7596486B2 (en) * | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
US8744862B2 (en) * | 2006-08-18 | 2014-06-03 | Digital Rise Technology Co., Ltd. | Window selection based on transient detection and location to provide variable time resolution in processing frame-based data |
EP1984911A4 (en) * | 2006-01-18 | 2012-03-14 | Lg Electronics Inc | DEVICE AND METHOD FOR SIGNAL CODING AND DECODING |
KR101016224B1 (ko) * | 2006-12-12 | 2011-02-25 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 인코더, 디코더 및 시간 영역 데이터 스트림을 나타내는 데이터 세그먼트를 인코딩하고 디코딩하는 방법 |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
-
2009
- 2009-10-07 EP EP09736835A patent/EP2345030A2/en not_active Ceased
- 2009-10-07 TW TW098133982A patent/TWI419148B/zh active
- 2009-10-07 KR KR1020137011185A patent/KR20130069833A/ko not_active Application Discontinuation
- 2009-10-07 TW TW102120721A patent/TWI520128B/zh active
- 2009-10-07 KR KR1020137031257A patent/KR20130133917A/ko not_active Application Discontinuation
- 2009-10-07 BR BRPI0914056-5A patent/BRPI0914056B1/pt active IP Right Grant
- 2009-10-07 MY MYPI2011001560A patent/MY154633A/en unknown
- 2009-10-07 CA CA2739736A patent/CA2739736C/en active Active
- 2009-10-07 WO PCT/EP2009/007205 patent/WO2010040522A2/en active Application Filing
- 2009-10-07 KR KR1020117010644A patent/KR101403115B1/ko active IP Right Grant
- 2009-10-07 JP JP2011530415A patent/JP5555707B2/ja active Active
- 2009-10-07 RU RU2011117699/08A patent/RU2520402C2/ru active
- 2009-10-07 EP EP19213835.2A patent/EP3640941A1/en active Pending
- 2009-10-07 MX MX2011003824A patent/MX2011003824A/es active IP Right Grant
- 2009-10-07 CN CN200980140055.XA patent/CN102177426B/zh active Active
- 2009-10-08 AR ARP090103876A patent/AR076060A1/es active IP Right Grant
-
2011
- 2011-04-06 ZA ZA2011/02537A patent/ZA201102537B/en unknown
- 2011-05-06 CO CO11055712A patent/CO6362072A2/es active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
BRPI0914056A2 (pt) | 2015-11-03 |
EP2345030A2 (en) | 2011-07-20 |
WO2010040522A2 (en) | 2010-04-15 |
AU2009301358A8 (en) | 2011-05-26 |
AR076060A1 (es) | 2011-05-18 |
JP5555707B2 (ja) | 2014-07-23 |
TW201142827A (en) | 2011-12-01 |
BRPI0914056B1 (pt) | 2019-07-02 |
EP3640941A1 (en) | 2020-04-22 |
TW201344679A (zh) | 2013-11-01 |
MY154633A (en) | 2015-07-15 |
KR20110081291A (ko) | 2011-07-13 |
AU2009301358A1 (en) | 2010-04-15 |
CN102177426B (zh) | 2014-11-05 |
CA2739736A1 (en) | 2010-04-15 |
JP2012505423A (ja) | 2012-03-01 |
KR20130069833A (ko) | 2013-06-26 |
ZA201102537B (en) | 2011-12-28 |
KR101403115B1 (ko) | 2014-06-27 |
RU2011117699A (ru) | 2012-11-10 |
WO2010040522A3 (en) | 2010-09-02 |
KR20130133917A (ko) | 2013-12-09 |
CA2739736C (en) | 2015-12-01 |
RU2520402C2 (ru) | 2014-06-27 |
MX2011003824A (es) | 2011-05-02 |
TWI419148B (zh) | 2013-12-11 |
CN102177426A (zh) | 2011-09-07 |
CO6362072A2 (es) | 2012-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI520128B (zh) | 多解析度切換音訊編碼/解碼方案(一) | |
US11676611B2 (en) | Audio decoding device and method with decoding branches for decoding audio signal encoded in a plurality of domains | |
US8959017B2 (en) | Audio encoding/decoding scheme having a switchable bypass | |
TWI463486B (zh) | 音訊編碼器/解碼器、音訊編碼/解碼方法、電腦程式產品及電腦可讀儲存媒體 | |
AU2009301358B2 (en) | Multi-resolution switched audio encoding/decoding scheme |