TWI441170B - 音訊信號解碼器、音訊信號編碼器、用以將音訊信號解碼之方法、用以將音訊信號編碼之方法、及使用編碼脈絡之音高相依適應技術之電腦程式 - Google Patents

音訊信號解碼器、音訊信號編碼器、用以將音訊信號解碼之方法、用以將音訊信號編碼之方法、及使用編碼脈絡之音高相依適應技術之電腦程式 Download PDF

Info

Publication number
TWI441170B
TWI441170B TW100107905A TW100107905A TWI441170B TW I441170 B TWI441170 B TW I441170B TW 100107905 A TW100107905 A TW 100107905A TW 100107905 A TW100107905 A TW 100107905A TW I441170 B TWI441170 B TW I441170B
Authority
TW
Taiwan
Prior art keywords
frequency
context
audio signal
time
information
Prior art date
Application number
TW100107905A
Other languages
English (en)
Other versions
TW201207846A (en
Inventor
Stefan Bayer
Tom Baeckstroem
Ralf Geiger
Bernd Edler
Sascha Disch
Lars Villemoes
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of TW201207846A publication Critical patent/TW201207846A/zh
Application granted granted Critical
Publication of TWI441170B publication Critical patent/TWI441170B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

音訊信號解碼器、音訊信號編碼器、用以將音訊信號解碼之方法、用以將音訊信號編碼之方法、及使用編碼脈絡之音高相依適應技術之電腦程式
依據本發明的諸實施例與基於一編碼音訊信號表示提供一解碼音訊信號表示的一種音訊信號解碼器有關。
依據本發明的進一步實施例與提供一輸入音訊信號的一編碼表示的一種音訊信號編碼器有關。
根據本發明更進一步的實施例與一種基於一編碼音訊信號表示提供一解碼音訊信號表示的方法有關。
根據本發明的另一些實施例與一種提供輸入音訊信號的一編碼表示的方法有關。
根據本發明的更進一步實施例與電腦程式有關。
根據本發明的一些實施例與利用扭曲資訊適應一算術編碼器之脈絡的概念有關,該扭曲資訊可與一時間扭曲修正型離散餘弦轉換結合利用(簡稱為TW-MDCT)。
在下文中,將對時間扭曲音訊編碼範疇做一簡短的介紹,該一範疇的概念可與本發明的一些實施例結合應用。
近來來,已有將一音訊信號轉換成一頻域表示,並將頻域表示有效地,例如計入知覺遮蔽臨界編碼的技術研發。如果一組編碼頻譜係數被傳輸的區塊長度長,且如果僅有一相對少數的頻譜係數遠高於總體遮蔽臨界、而大量的頻譜係數接近或低於總體遮蔽臨界且因此可被忽略(或以最小的碼長度編碼),則此一音訊信號編碼概念特別有效率。適用該條件的頻譜有時稱為一稀疏頻譜。
舉例而言,以餘弦為基礎或以正弦為基礎的調制重疊轉換因其能量壓縮性質而經常被使用在信源編碼的應用中。亦即,對具有一固定基本頻率(音高)的諧波音,他們將信號能量集中到少數的頻譜成分(子能帶),導致一有效率的信號表示。
通常,一信號的(基本)音高應被理解成能與信號頻譜區別的最低主要頻率。在常用語音模式中,音高是由人類咽喉調制的激發信號頻率。若僅有一個單一基本頻率存在,頻譜將極其簡單,只包含基本頻率和泛音。此一頻譜可被高度有效地編碼。然而,對於具有變化音高的信號,對應於每一諧波成分的能量覆蓋數個轉換係數,因而導致一編碼效率的降低。
為了克服編碼效率的減少,要編碼的音訊信號在一非均勻時間網格上被有效地重取樣。在後續處理中,由非均勻重取樣獲得的樣本位置被處理成猶如他們表示一均時間網格上之值。此一運算一般是表示成「時間扭曲」。取樣次數可有利地依賴音高的時間變化被選擇,以使得音訊信號在音訊信號之調諧扭曲版本中的一音高變化小於音訊信號在原始版本(在時間扭曲之前)中的一音高變化。在音訊信號之時間扭曲後,音訊信號的時間扭曲版本轉換成頻域。音高相依之時間扭曲具有的效果為時間扭曲音訊信號的頻域表示典型地展現能量壓縮成遠比原初(非時間-扭曲音訊信號)之頻域表示為少的頻譜成分數目。
在解碼器端時間扭曲音訊信號的頻域表示被轉換至時域,以使得時間扭曲音訊信號的一時域表示可在解碼器端取得。然而,在解碼器端重建時間扭曲音訊信號的時域表示中,編碼器端輸入音訊信號的原始音高變化未被包含。因此,又另一藉由重取樣時間扭曲音訊信號之解碼器端重建時域表示的時間扭曲被應用。
為了要在解碼器獲得編碼器端輸入音訊信號的良好重建,需要使解碼器端時間扭曲至少大約是編碼器端時間扭曲的反運算。為了要獲得適當的時間扭曲,需要有一資料提供於解碼器以容許編碼器端時間扭曲之調整。
因為典型地需要將此資訊從音訊信號編碼器傳遞到音訊信號解碼器,理想地是保持此一傳輸所需要的位元率低,同時仍容許需要的時間扭曲資訊能在解碼器端可靠重整。
而且,當編碼或解碼頻譜值時編碼效率往往因使用一脈絡相依編碼器或一脈絡相依解碼器而增加。
然而,已經發現一音頻編碼器的一編碼效率在一基本頻率或一音高存有一變化下往往比較低,即使時間扭曲概念被應用亦然。
鑒於此一情況,希望有一種即使當存在一基本頻率變化仍允許一良好編碼效率的概念。
發明概要
依據本發明的一實施例創作一種音訊信號解碼器,該解碼器基於包括編碼頻譜表示及編碼時間扭曲資訊的一編碼音訊信號表示提供一解碼音訊信號表示。音訊信號解碼器包含一基於脈絡之頻譜值解碼器,該解碼器配置成依賴一脈絡狀態解碼描述一或更多頻譜值或一或更多頻譜值之一數字表示的至少一部分的一碼字,以獲得解碼頻譜值。音訊信號解碼器也包含一脈絡狀態決定器,配置成依賴一或更多先前解碼的頻譜值決定一現行的脈絡狀態。音訊信號解碼器也包含一時間扭曲頻域對時域轉換器,配置成根據一組與特定音框相關聯且由該基於脈絡頻譜值決定器提供的解碼頻譜值、並依賴該時間曲資訊提供一音框的一時間扭曲時域表示。脈絡狀態決定器配置成使脈絡狀態之決定適應後續音框之間的一基本頻率變化。
根據本發明之此一實施例是以一發現為基礎,即若脈絡狀態被適應後續音框之間的一基本頻率改變,則以一基於脈絡頻譜值的解碼器在一具有時間變化之音訊信號存在下所實現的編碼效率被改進,因為基本頻率隨時間的變化(在許多情況等同於音高變化)具有的效果為一特定音框之頻譜典型地相似於一先前音框(在特定音框之前)之頻譜的頻率比例縮放版本,使得依賴基本頻率變化決定脈絡的適應技術允許利用該相似性來改良編碼效率。
換言之,已發現基於脈絡頻譜值編碼的編碼效率(或解碼效率)在二個後續音框之間存在一基本頻率之一顯著改變時相對較差,且此一情況下編碼效率可藉由適應脈絡狀態之決定而被改善。此一決定脈絡狀態的適應技術允許利用先前音框與現行音框的頻譜之間的相似性,同時也考慮先前音框與現行音框之頻譜間的系統性差異,像是例如典型地出現在基本頻率隨著時間變化(即在二音框之間)下之頻譜的頻率比例縮放。
概括而言,依據本發明的此一實施例有助於在不需要另外的旁側資訊或者位元率之下改善編碼效率(假定描述基本頻率在後續音框之間變化的資訊利用一音訊信號編碼器或解碼器的時間扭曲功能可在一音訊位元流中使用)。
在一較佳實施例中,時間扭曲頻域對時域轉換器包含一標準(非時間扭曲)頻域對時域轉換器,配置為根據一組與特定音框相關聯且由基於脈絡解碼器提供的一組解碼頻譜值提供一特定音框的一時域表示,以及一時間扭曲重取樣器,配置為依賴時間扭曲資訊重取樣該特定音框的時域表示、或其一已處理版本,以獲得該特定音框之一重取樣(時間扭曲)時域表示。一時間扭曲頻域對時域轉換器的此一實施易於施行,原因是其依賴一「標準」頻域對時域轉換器,且包括一時間扭曲重取樣器為其功能擴充,該時間扭曲重取樣器的功能可以獨立於頻域對時域轉換器的功能外。因此,該頻域對時域轉換器可在一時間扭曲(或復原時間扭曲)停用之運算模式及一時間扭曲(或復原時間扭曲)現用之運算模式的兩種運算模式中被重複利用。
在一較佳實施例中,時間扭曲資訊描述音高隨時間的變化。在此實施例中,脈絡狀態決定器配置成從時間扭曲資訊導出一頻率伸展資訊(即,一頻率比例縮放資訊)扭曲資訊。而且,脈絡狀態決定器最好配置成沿著頻率軸依賴頻率伸展資訊伸展或壓縮與一先前音框相關聯的過去脈絡,以獲得用於一現行音框的一或更多頻譜值的基於脈絡解碼的一適應脈絡。已發現一描述一音高隨時間之變化的時間扭曲資訊非常適合導出頻率伸展資訊。而且,已經發現沿頻率軸伸展或壓縮與一先前音框相關聯之過去脈絡典型地產生一伸展或壓縮脈絡,其允許導出一有意義脈絡狀態資訊,該狀態資訊良好適應目前音框的頻譜且因而帶來一良好的編碼效率。
在一較佳實施例中,脈絡狀態決定器配置成從時間扭曲資訊導出一第一音框的一第一平均頻率資訊,且從時間扭曲資訊導出接著第一音框之後的一第二音框上的一第二平均頻率資訊。在此一情況,脈絡狀態決定器配置成在計算第二音框上之第二平均頻率資訊與第一音框上之第一平均頻率資訊之間的一比率,用以確定頻率伸展資訊。已發現典型地能夠容易從時間扭曲資訊導出平均頻率資訊,且亦發現第一與第二平均頻率資訊之間的比率允許一計算上有效的頻率伸展資訊導出。
在另一較佳實施例中,脈絡狀態決定器配置成從時間扭曲資訊導出一第一音框上的一第一平均時間扭曲資訊,且從時間扭曲資訊出一在第一音框之後的一第二音框上的第二平均時間扭曲資訊。在此一情況,脈絡狀態決定器配置成計算第一音框上之第一平均時間扭曲輪廓資訊與該第二音框上的第二平均時間扭曲資訊之間的比率,用以確定頻率伸展資訊。已發現計算第一與第二音框(可能重疊)上之時間扭曲輪廓的平均時在計算上特別有效,且第一平均時間扭曲輪廓資訊與第二平均時間扭曲輪廓資訊間的一比率提供充分正確的頻率伸展資訊。
在一較佳實施例中,脈絡狀態決定器配置成從一延伸在複數連續音框上的共同時間扭曲輪廓導出第一和第二平均頻率資訊或第一和第二平均時間扭曲輪廓資訊。已發現在複數連續音框上建立一共同時間扭曲輪廓不僅促進重取樣時間的正確和無失真計算,且也提供一非常好的基礎以供判斷二後續音框之間的基本頻率改變。因此,共同時間扭曲輪廓已被確認為一識別不同音框之間一隨著時間的相對頻率改變的極佳方法。
在一較佳實施例中,音訊信號解碼器包含一時間扭曲輪廓計算器,配置成根據時間扭曲資訊計算描述複數連續音框上的一相對音高之時間演變的時間扭曲輪廓資訊。在此一情況,脈絡狀態決定器配置成使用時間扭曲輪廓資訊導出頻率伸展資訊。已發現例如可針對一音框的每一取樣被定義的一時間扭曲輪廓資訊構成脈絡狀態決定之適應技術的一極佳基礎。
在一較佳實施例中,音訊信號解碼器包含一重取樣位置計算器。重取樣位置計算器配置成根據時間扭曲輪廓資訊計算重取樣位置以供時間扭曲重取樣器使用,以使得重取樣位置的一時間變化由時間扭曲輪廓資訊決定。已發現時間扭曲輪廓資訊對於頻率伸展資訊之決定及重取樣位置之決定的一般用途所具有的效果是,藉由應用頻率伸展資訊所獲得的一伸展脈絡被良好適應一現行音框之頻譜的特性,其中該現行音框的音訊信號至少接近利用計算之重取樣位置藉由重取樣操作被重建的先前音訊信號的一音訊信號延續。
在一較佳實施例中,脈絡狀態決定器配置成依賴複數個先前解碼的頻譜值(可能被脈絡記憶體結構所包含或描述)導出一數字的現行脈絡值,且依賴數字現行脈絡值選擇描述一碼值映射至一表示一或更多頻譜、或一或更多頻譜值之一數字表示的至少一部分之碼值的一映射規則。在此情況下,基於脈絡的頻譜值解碼器配置成使用脈絡狀態決定器所選擇的映射規則解碼描述一或更多頻譜值、或者一或更多頻譜值之一數字表示的至少一部分的碼值。已發現一種脈絡適應技術,其中一數字現行脈絡值由複數個先前解碼頻譜值導出,且其中一映射規則依據該數字(現行)脈絡值被選擇,因脈絡狀態例如數字(現行)脈絡值之決定的一適應技術而顯著獲益,因為藉由此一概念能避免一顯著不適當映射規則的選擇。相反地,如果脈絡狀態,即數字現行脈絡值的導出不依賴後續音框之間的基本頻率改變被適應,則一映射規則的錯誤選擇將在有一基本頻率改變之下時常發生於,使得一編碼增益可能減少。此一編碼增益的減少藉由所描述的機制而被避免。
在一較佳的實施例中,脈絡狀態決定器配置成建立及更新一初步脈絡記憶體結構,以使得初步脈絡記憶體結構的項目描述第一音框的一或更多頻譜值,其中初步脈絡記億體結構的項目的項目索引指示各別項目所關聯之頻域對時域轉換器的一頻率點或者一組毗連頻率點(例如,在提供第一音框的時域表示中)。脈絡狀態決定器更進一步被配置成根據初步脈絡記憶體結構獲得一頻率比例縮放脈絡記憶體結構以使得初步脈絡的一個具有第一索引的特定項目或者子項目被映射至頻率比例縮放脈絡記憶體結構之具有一第二頻率索引的對應項目或者子項目之上。第二頻率索引與該第一頻率索引是與該頻域對時域轉換器的一不同頻率點或一不同組毗連頻率點相關聯。
換言之,在對應於該頻域對時域轉換器之一第i頻譜點(或頻域對時域轉換器之第i組頻譜點)的一或更多頻譜值的基礎上所獲得之初步脈絡記憶體結構的一項目被映射至頻率比例縮放脈絡記憶體結構之一與頻域對時域換器的一第j頻率點(或者第j組頻率點)相關聯的一項目上,其中j不同於i。已發現此一將初步記憶體結構之項目映射至頻率比例縮放脈絡記憶體結構的項目上的概念提供一使脈絡狀態之決定適應基本頻率改變的一種計算上特別有效的方法。該脈絡之一頻率比例縮放可以利用此一概念被輕鬆達成。因此。由脈頻率比例縮放脈絡記憶體結構導出一數字現行脈絡值與從一無音高變化之常規(例如初步)脈絡記憶體結構導出一數字現行脈絡值可以是同樣的。因此,所描述的概念容許以最小的努力在一現存之音訊解碼器下實施脈絡適應技術。
在一較佳實施例中,脈絡狀態決定器配置成導出描述現行脈絡狀態之一脈絡狀態值用於一碼字之解碼,該碼字使用頻率比例縮放脈絡記憶體結構之值描述與一第三頻率索引相關聯之一第二音框的一或更多頻譜值、或第二音框的一或更多頻譜值之一數字表示的至少一部分,頻率比例縮放脈絡記憶體結構之該等值的頻率索引是與第亖頻率索引成一預定關係,該第三頻率索引指定欲利用現行脈絡狀態值被解碼之音框所關聯之頻域對時域解碼器的一頻率點或者一組毗連頻率點。
已經發現使用一或更多欲被解碼之頻譜值的預定(且最好是固定)相對環境(以頻率點的角度)導出脈絡狀態值(例如,一數字現行脈絡值)允許使該脈絡狀態值的計算保持適度簡單。藉由使用頻率比例縮放脈絡記憶體結構作為脈絡狀態值導出的一輸入,基本頻率的變化能有效率地被考慮。
在一較佳的實施例中,脈絡狀態決定器配置成將頻率比例縮放脈絡記憶體結構之具有一對應目標值頻率索引的每一複數個項目設定為初步脈絡記憶體結構具有對應來源頻率索引之一對應項目之值。脈絡狀態決定器配置成決定頻率比例縮放脈絡記憶體結構之一項目及初步脈絡記憶體結構之一對應項目的對應頻率索引,以使得該對應頻率索引之間的一比率是由初步脈絡記憶體結構之項目所關聯之一現行音框與解碼脈絡由頻率比例縮放脈絡記憶體結構之項目決定的一後續音框之間的基本頻率改變決定。藉由使用此一概念導出頻率比例縮放脈絡記憶體結構之項目,能保持小的複雜度同時仍可使頻率比例縮放脈絡記憶體結構適應基本頻率的變化。
在一較佳的實施例中,脈絡狀態決定器配置成建立初步脈絡記憶體結構以使得初步脈絡記憶體結構的每一複數項目是以一第一音框的複數頻譜為基礎,其中初步脈絡記憶體結構的項目的項目索引指示各別項目被關聯(相對第一音框)之頻域對時轉換的一組毗連頻率點。脈絡狀態決定器配置成從初步脈絡記憶體結構之項目擷取具有關聯之個別頻率點索引的初步頻率點個別脈絡值。除此之外,脈絡狀態決定器配置成獲得具有關聯之個別頻率點索引的頻率比例縮放頻率點個別脈絡值,以使得具有一第一頻率點索引之特定初步頻率點個別脈絡值被映射到一具有一第二頻率點索引的對應頻率比例縮放頻率點個別脈絡值,使得初步頻率點個別脈絡值的一頻率點個別映射被獲得。脈絡狀態決定器更進一步被配置為將複數個頻率比例縮放頻率點個別脈絡值組合成頻率比例縮放脈絡記憶體結構的一組合項目。因此,即使複數個頻率點被概括在脈絡記憶體結構的一個項目中,仍能夠使頻率比例縮放脈絡記憶體結構以一非常精細的方式適應基本頻率的變化。因此,脈絡對基本頻率改變之一特別精確的適應可被達成。
依據本發明的另一實施例創作一種音訊信號編碼器,提供包括一編碼頻譜表示與一編碼時間扭曲資訊的輸入音訊信號之一編碼表示。音訊信號編碼器包含一頻域表示提供者,其配置成提供表示依據一時間扭曲資被時間扭曲的輸入音訊信號的時間扭曲版本。音訊信號編碼器進一步包含一基於脈絡的頻譜值編碼器,配置成依賴一脈絡狀態編碼一描述頻域表示的一或更多頻譜值,或頻域表示之一或更多頻譜值之一數字表示的至少一部分的碼字,以獲得編碼頻譜表示之編碼頻譜值。音訊信號解碼器也包含配置成依賴一或更多個先前編碼的頻譜值決定一現行脈絡狀態的脈絡狀態決定器。脈絡狀態決定器配置成使脈絡狀態之決定適應後續音框之間的基本頻率改變。
此一音訊信號編碼器與上述的音訊信號解碼器是以同一概念與發現為基礎。同時,音訊信號編碼器能被增補有關於音訊信號解碼器所討論的任何一特徵及功能,其中先前編碼頻譜值擔任先前解碼頻譜值在脈絡狀態計算中的角色。
在一較佳的實施例中,脈絡狀態決定器配置成依賴複數先前編碼頻譜值導出一數字現行脈絡值,並依賴該數字現行脈絡值選擇描述一或更多頻譜值、或一或更多頻譜值之一數字表示的一部分映射至一碼值上的映射規則。在此情況下,基於脈絡的頻譜值編碼器配置成使用由脈絡狀態決定器選擇的映射規則提供描述一或更多頻譜值或一或更多頻譜值之一數字表示的至少一部分的碼值。依據本發明的另一實施例創作一種在一編碼音訊信號的基礎上提供一解碼音訊信號表示的方法。
依據本發明的又一實施例創作一種提供一輸入音訊信號的編碼表示的方法。
依據本發明之另一實施例創作一可執行該等方法之一的一種電腦程式。
諸方法及電腦程式是以與上述討論的音訊信號解碼器和音訊信號編碼的相同考慮為基礎。
此外,音訊信號編碼器,諸方法和電腦程式能以有關於音訊信號解碼器之上述及下文所描述的任何一功能和功能補充。
依據本發明的實施例接著將參照附圖被描述,其中:第1a圖繪示依據本發明的一實施例之一音訊信號編碼器的一方塊概略圖;第1b圖繪示依據本發明的一實施例之一音訊信號解碼器的一方塊概略圖;第2a1,2a2圖繪示依據本發明的另一實施例之音訊信號編碼器的一方塊概略圖;第2b1,2b2圖繪示依據發明的另一實施例之音訊信號解碼器的一方塊概略圖;第2c圖繪示依據發明的實施例之一使用在音頻編碼器中的算術編碼器的一方塊概略圖;第2d圖繪示依據發明的實施例之一使用在音訊信號解碼器中之算術解碼器的一方塊概略圖;第3a圖繪示一自適應脈絡(編碼/解碼)之圖示;第3b圖繪示一相對音高輪廓的圖示;第3c圖繪示時間扭曲修正型離散餘弦轉換(tw-mdct)的一伸展效果的圖示;第4a圖繪示使用在本發明之實施例中的一脈絡狀態決定器的方塊概略圖;第4b圖繪示可由依據第4圖之脈絡狀態決定器實施的一頻率壓縮的圖示;第4c圖繪示一用於伸展或壓縮一脈絡、可被應用在依據本發明的實施例中的一演算法的一虛擬程式碼表示;第4d和4e圖繪示一用於伸展或壓縮一脈絡、可被應用在依據本發明的實施例中的一演算法的一虛擬程式碼表示;第5a,5b圖繪示依據發明的一實施例之一音訊信號解碼器的方塊概略圖的一詳細摘錄部分;第6a,6b圖繪示依據發明的一實施例,一提供解碼音訊信號表示的映射程式之流程圖的一詳細摘錄部分;第7a1,7a2圖繪示使用在依據發明一實施例的一音訊解碼器中的資料元素和輔助元素的一定義的說明;第7b圖繪示被使用在依據發明一實施例的一音訊解碼器中之常數的定義說明;第8圖繪示一碼字索引映射至一對應的解碼時間扭曲值之上的一映射的表表示;第9圖繪示一用於在相等間隔之節點間線性內插之演算法的一虛擬程式碼表示;第10a圖繪示一輔助程式函數“warp_time_inv”的一虛擬程式碼表示;第10b圖繪示一輔助程式函數“warp_inv_vec”的一虛擬程式碼表示;第11a,11b圖繪示一用於計算一樣本位置向量和一過渡長度的演算法的一虛擬程式碼表示;第12圖繪示取決於一窗序列和一核心編碼器音框長度的合成窗長度N之值的表表示;第13圖繪示一容許窗序列的真值表表示;第14a,14b圖繪示一用於一「八個短序列」型態之窗序列的窗化及一內部重疊相加之演算法的一虛擬程式碼表示;第15圖繪示用於其他「八個短序列」窗序列之窗化及一內部重疊相加之演算法的一虛擬程式碼表示;第16圖繪示一用於重取樣的演算法的一虛擬程式碼表示;且第17圖繪示一用於狀態計算之脈絡圖示,其可被使用在依據本發明的一些實施例中;第18圖場繪示一定義的說明;第19圖繪示一演算法“arith_map_context()"的一虛擬程式碼表示;第20圖場繪示一演算法“arith_get_context()”的一虛擬程式碼表示;第21圖繪示一演算法“arith_get_pk()”的一虛擬程式碼表示;第22a,22b圖繪示一虛擬之“arith_decode()";第23圖繪示用於解碼一或更多較不顯著的位元平面的一演算法的一虛擬程式碼表示;第24圖繪示用於設定一系列算術解碼頻譜值的演算法的一虛擬程式碼表示項目一;第25圖繪示一函數“arith_update_context()”的一虛擬程式碼表示;第26圖場繪示一演算法“arith_finish_()"的一虛擬程式碼表示;第27a-27f圖繪示依據本發明一實施例圖的音頻流之語法元素的表示。
較佳實施例之詳細說明 1. 依據第1a圖之音訊信號編碼器
第1a圖依據本發明的一實施例繪示一音訊信號編碼器100的一方塊概略圖。
音訊信號編碼器100配置成接收一輸入音訊信號110且提供輸入音訊信號的一編碼表示112。輸入音訊信號的編碼表示112包含一編碼頻譜表示和一編碼時間扭曲資訊。
音訊信號編碼器100包含頻域表示提供者120,其配置成接收輸入音訊信號110和一時間扭曲資訊122。頻域表示提供者120(其可被視為一時間扭曲頻域表示提供者)配置成提供一表示依據時間扭曲資訊122被時間扭曲的輸入音訊信號110的一時間扭曲版本的一頻域表示124。音訊信號編碼器100也包含一基於脈絡頻譜值編碼器130,配置成依賴一脈絡狀態提供一描述頻域表示124的一或更多頻譜值、或頻域表示124的一或更多頻譜值之數字表示的至少一部分,以獲得編碼頻譜表示的編碼頻譜值。脈絡狀態例如可被一脈絡狀態資訊134描述。音訊信號編碼器100也包含脈絡狀態決定器140,配置成依賴一或更多先前編碼頻譜值24決定一現行脈絡狀態。脈絡狀態決定器140繼而可提供脈絡狀態資訊134給基於脈絡之頻譜值編碼器130,其中脈絡狀態資訊例如可採一數字現行脈絡值(用於選擇一映射規則或映射表)的形式、或一選擇映射規則或映射表之參考資料的形式。脈絡狀態決定器140配置成使脈絡狀態的決定適應對後續音框之間的一基本頻率改變。因此,脈絡狀態決定器可評估有關後續音框之間的基本頻率改變的一資訊。此一有關後續音框間之基本頻率改變的資訊例如可以是以頻域表示提供者120所使用的時間扭曲資訊122為基礎。
因此,音訊信號編碼器在音訊信號部分包括一隨時間變化之基本頻率、或一隨時間變化的音高的情況下可提供一特別高的編碼效率,因為脈絡狀態資訊134的衍生資訊被適應二個音框之間的基本頻率改變。因此,被基於脈絡頻譜值編碼器130使用的脈絡被良好適應頻域表示124的頻譜壓縮(相對於頻率)或頻譜擴展(相對於頻率),此在基本頻率由一音框改變至次一音框(即在二音框之間)時發生。因此,一脈絡狀態資訊134甚至在一基本頻率改變的情況下平均而言被良好適應於頻域表示124,進而產生基於脈絡頻譜值編碼器的良好編碼效率。已發現,若相反地脈絡狀態未被適應基本頻率的改變,則脈絡在基本頻率改變的情形中是不適當的,因此造成編碼效率的顯著降級。
因此,可以說音訊信號編碼器100在基本頻率改變的情形中典型地表現超越使用一基於脈絡頻譜值編碼的傳統音訊信號編碼器。
在此應指出者,使脈絡狀態的決定適應於後續音框(即從第一音框到第二、後續音框)之間的基本頻率改變的手段存在有許多不同的實施方式。例如,一項目是由頻域表示124定義或由其衍生的脈絡記憶體結構,(或更精確地,其內容)可在一描述脈絡狀態的數字現行脈絡值被導出之前在頻率上被伸展或壓縮。此等概念將在下文中詳細討論。或者,也可能改變(或適應)演算法以從脈絡記憶體結構的項目導出脈絡狀態資訊134,記憶體結構的項目是以頻域表示124為基礎。例如,此一非頻率比例縮放脈絡記憶體結構的哪一項目(複數項目)被考慮可以調整,儘管此一解決方案在本文中不予詳細討論。
2.依據第1b圖之音訊信號解碼器
第1b圖繪示一音訊信號解碼器150的一方塊概略圖配置成接收一編碼音訊信號表示152,可能包含一編碼頻譜表示和一編碼時間扭曲資訊。音訊信號解碼器150配置成根據編碼音訊信號表示152提供一解碼音訊信號表示154。
音訊信號解碼器150包含一基於脈絡的頻譜值解碼器160,配置成接收編碼頻譜表示的碼字且以之為基礎提供解碼頻譜值162。而且,基於脈絡的頻譜值解碼器160配置成接收一脈絡資訊164,舉例而言,該資訊可取採一選擇之映射規則或一選擇映射規則之參考資料的數字現行脈絡值的形式。基於脈絡之頻譜值解碼器160配置成依賴脈絡狀態(該狀態可被脈絡狀態資訊164描述)解碼一描述一或更多頻譜值、或一或更多頻譜值之一數字表示的至少一部分的碼字,以獲得解碼頻譜值162。音訊信號解碼器150也包含一時間扭曲頻域對時域轉換器180,配置成根據一組與基於脈絡頻譜值解碼器所提供之一特定音框相關聯的解碼頻譜值162決定一現行脈絡狀態。時間扭曲頻域對時域轉換器180配置成接收一時間扭曲資訊184以使得時間扭曲時域表示182的提供適應由編碼音訊信號表示152之編碼時間扭曲資訊描述的需要時間扭曲,如此則時間扭曲時域表示182構成解碼音訊信號表示154(或者,等效地,如果使用後處理,則形成解碼音訊信號表示的基礎,)
時間扭曲頻域對時域轉換器180例如可包含一頻域對時域轉換器,配置成根據與一特定音框相關聯且由基於脈絡頻譜值解碼器160提供的成組解碼頻譜值162提供一特定音框的時域表示。該時間扭曲頻域對時域轉換器也可以包含一時間扭曲重取樣器,配置成依賴時間扭曲資訊184對特定音框的時域表示,或其處理版本重取樣,以便獲得特定音框的重取樣時域表示182。
此外,脈絡狀態決定器170配置成將脈絡狀態(該狀態由脈絡狀態資訊164描述)之決定適應後續音框之間(即,從第一音框到第二後續音框的)的基本頻率改變。
音訊信號解碼器150是以有關對音訊信號編碼器100所作討論的發現為基礎。尤其,音訊信號解碼器配置成將脈絡狀態的決定適應後續音框之間的改變頻率,以使得脈絡狀態(且結果是由基於脈絡頻譜值解碼器160所使用、關於不同頻譜值之發生的統計或然率的假設)至少平均而言良好適應一使用該脈絡資訊被解碼的現行音框的頻譜。因此,由於在依據由脈絡狀態決定器170所提供的脈絡狀態選擇的選出脈絡與欲被解碼的頻譜值之間的良好匹配通常造成相對較短的碼字,故編碼該現行音框的頻譜值的碼字可以特別短,帶來一良好的位元率效率。
此外,因為無論如何皆包含在編碼音訊信號表示152中以供時間扭曲頻域對時域轉換器使用的時間扭曲資訊184可被脈絡狀態決定器170重複使用作為一有關後續音框之間基本頻率改變資訊,故脈絡狀態決定器170可有效率地實施。
因此,脈絡狀態的決定對後續音框之間基本頻率改變的適應技術甚至不需要任何另外的旁側資訊。因此,音訊信號解碼器150不需要任何另外的旁側資訊即可產生基於脈絡頻譜值解碼的改良編碼效率(而且給予編碼器100端的改良編碼效率),此構成位元率效率上的重大進步。
此外,應指出的是,不同的概念可被使用來將脈絡狀態的決定適應後續音框之間的基本頻率改變(即從一第一音框到一第二、後續音框)。舉例而言,其項目為基於解碼頻譜值162的一脈絡記憶體結構例如可在脈絡狀態資訊164由脈絡狀態決定器170自頻率比例縮放脈絡記憶體結構導出前使用一頻率比例縮放(例如,頻率伸展或者頻率壓縮)被適應。然而,可選擇地,一不同的運算法可被脈絡狀態決定器170用來導出脈絡狀態資訊164。例如,一脈絡記憶體結構的哪些項目被用來決定一脈絡狀態以用來解碼一具有特定碼字頻率索引的碼字可被適應。即使後者的概念尚未詳細地在本文中描述,該一概念當然可以被應用在依據本發明的一些實施例中。同時,不同的概念可被使用來決定基本頻率的改變。
3.依據第2a圖的音訊信號編碼器
第2a圖所示為依據本發明一實施例之音訊信號編碼器200的一方塊概略圖。應指出的是依據第2圖的音訊信號編碼器200與依據第1a圖的音訊信號編碼器100非常相似,因此同一方法及信號將被標示相同的參考數字且不再詳細解釋。
音訊信號編碼器200配置成接收一輸入音訊信號110且以該音訊信號110的基礎上提供一編碼音訊信號表示112。可自由選擇地,音訊信號編碼器200也配置成接收一外部產生的時間扭曲資訊214。
音訊信號編碼器200包含一頻域表示提供者120,其功能可與音訊信號編碼器100的頻域表示提供者120的功能完全相同。頻域表示提供者120提供表示一輸入音訊信號110的時間扭曲版本的頻域表示,該頻域表示以124標示。音訊信號編碼器200也包含一基於脈絡的頻譜值編碼器130和脈絡狀態決定器140,其操作係如相關於音訊信號編碼器100所討論者。因此,基於脈絡頻譜值編碼器130提供碼字(例如,acod_m),每一碼字代表編碼頻譜表示的一或更多頻譜值,或者一或更多頻譜值之一數字表示的至少一部分。
音訊信號編碼器可自由選擇地包含一時間扭曲分析器或基本頻率分析器或音高分析器220,其為配置成接收輸入音訊信號110且以之為基礎提供一時間扭曲輪廓資訊222,該資訊例如描述由頻域表示提供者120向輸入音訊信號110施加一時間扭曲,以便補償在一音框期間之一基本頻率改變,及/或輸入音訊信號110之一基本頻率的時間演變,及或輸入音訊信號110之一音高的時間演變。音訊信號編碼器200也包含一時間扭曲輪廓編碼器224,其配置成根據時間扭曲輪廓資訊222提供一編碼時間扭曲資訊226。編碼時間扭曲資訊226最好被包含在編碼音訊信號表示112中,且例如可採取(編碼)時間扭曲比率值“tw_ratio[i]]"的形式。
此外,應指出者是時間扭曲輪廓資訊222可被提供至頻域表示提供者120且亦被提供至脈絡狀態決定器140。
音訊信號編碼器200可能另外包含一音響心理學模型處理器228,配置成接收輸入音訊信號110,或其一預先處理版本,並執行一音響心理學的分析,舉例而言決定時域遮蔽效應及/或頻率遮蔽效應。因此,音響心理學模型處理器228可提供一控制資訊230,舉例而言代表輸入音訊信號的一不同頻帶的音響心理學關聯,在頻域音頻編碼器上廣為人知。
下文中,頻域表示提供者120的信號路徑將被簡短地描述。頻域表示提供者120包含可選擇的預先處理120a,可以可選擇地預先處理輸入音訊信號110,提供輸入音訊信號110的預先處理版本120b。頻域表示提供者120也包含一取樣器/重取樣器,配置成依賴一接收自一取樣位置計算器120e的取樣位置資訊120d而對該輸入音訊信號110、或其預處理版本120b取樣或重取樣。因此,取樣器/重取樣器120c可以對輸入音訊信號110(或其預先處理版本120b)應用一時變取樣或重取樣。藉由應用此一時變取樣(在有效樣本點之間具有時間變化的時間距離),一取樣或重取樣之時域表示120f被獲得,其中一音高或一基本頻率的時間變化相較於輸入音訊信號110被減少。取樣位置由取樣位置計算器120e依賴時間扭曲輪廓資訊222被計算。頻域表示提供者120也包含一窗程式120g,其中窗程式120g被配置成使取樣器或重取樣器120c所提供的取樣或重取樣時域表示120f窗化。窗化被執行以便減少或消除塊效應,藉此容許一音訊信號解碼器上的平順疊加演算操作。頻域表示提供者120也包含一時域對頻域轉換器120i,配置成接收窗化及取樣/重取樣的時域表示120h,且在其基礎上提供一頻域表示120j,該頻域表示120j例如包含輸入音訊信號110每音框的一組頻譜係數(其中該輸入音訊信號的音框舉例而言可以是重疊處理或非重疊處理,其中一大約50%的重疊在一些重疊音框實施例中是較佳者)。然而,應指出的是在一些實施例中,複數組頻譜係數可被提供給一單一音框。
頻域表示提供者120可選擇地包含一頻譜處理器120k,配置成執行一時間雜訊成形以及/或一長期預測以及/或任何其他形式的頻譜後處理,藉此獲得一後處理頻域表示120l。
頻域表示提供者120可選擇地包含一比例縮放器/量化器120m,其中比例縮放器/量化器120m關於舉例而言可以配置成依據音響心理學模型處理器228提供的控制資訊230比例縮放頻域表示120j或其後處理版本120l的不同頻率點(或頻帶)。因此,頻率點(或頻帶,包含複數頻率點)舉例而言可根據音響心理學相關性被比例縮放,以使得,具有高度音響心理學相關性的頻率點(或者頻帶)有效地藉由一基於脈絡頻譜值編碼器以高準確度被編碼,而具有低音響心理學相關性的頻率點(或者頻帶)則以低準確度被編碼。此外,應指出者為控制資訊230可以可選擇地調整時域對頻域轉換器及/或頻譜後處理的窗化參數。同時,控制資訊230可以一編碼形式被包含在編碼音訊信號表示112內,如熟習此技藝者所周知。
關於音訊信號編碼器200的功能,可以說一時間扭曲(在一時變非均勻取樣或者重取樣的意義上)由取樣器/重取樣器120c依據時間扭曲輪廓資訊220被應用。
因此,即使存在一具有音高時間變化而在未有時變取樣/重取樣時將產生一模糊頻譜的輸入音訊信號,仍可達成一具有顯著的頻譜波峰與波谷的頻域表示120j。此外,由基於脈絡頻譜值編碼器130使用的脈絡之導出依賴後續音框間之一基本頻率改變被適應,造成如上文所討論的一特別高編碼效率。除此之外,作為為取樣器/重取樣器120c之計算取樣位置計算以及脈絡狀態決定的適應兩者之基礎的時間扭曲輪廓資訊222使用時間扭曲輪廓編碼器224被編碼,以使得描述時間扭曲輪廓的編碼時間扭曲資訊226被包含在編碼音訊信號表示112之中。因此,編碼音訊信號表示112提供在一音訊信號解碼器端有效解碼該編碼輸入音訊信號110所需要的資訊。
此外,應指出者是音訊信號編碼器200的個別元件可以實質上執行音訊信號解碼器240的個別元件的一反轉功能,將在下文參照第2b圖被描述。
此外,本詳細說明也在整體描述中提到有關音訊信號解碼器的功能,使得音訊信號解碼器的功能能被理解。
同時也應予指出,音訊信號解碼器和個別的元件可作相當多的修改。舉例而言,一些功能可被結合像是例如取樣/重取樣,窗化網域對頻域轉換。而且,在適當處可加入另外的處理。
此外,依要求或需要,編碼音訊信號表示自然地可能包含另外的旁側資訊,當做需要或需要。
4.依據第2b圖之音訊信號解碼器
第2b圖繪示依據本發明一實施例之音訊信號解碼器240的一方塊概略圖。音訊信號解碼器240可能與依據第1b圖的音訊信號解碼器150非常類似,因此相同的方法和信號以相同的數字標示而不再詳細討論。
音訊信號解碼器240配置成例如以位元流的形式接收一編碼音訊信號表示152。編碼音訊信號表示152包含一例如碼字(舉例而言,acod_m)形式的編碼頻譜表示,代表一或更多頻譜值、或一或更多頻譜值之一數字表示的至少一部分。編碼音訊信號表示152也包含一編碼時間扭曲資訊。此外,音訊信號解碼器240配置成提供一解碼音訊信號表示154,舉例而言,音頻內容的一時域表示。
音訊信號解碼器240包含一基於脈絡的頻譜值解碼器160,其配置成接收代表來自編碼音訊信號表示152的頻譜值的碼字,且在其基礎上提供解碼頻譜值162。
並且,音訊信號解碼器240也包含一脈絡狀態決定器170,配置成提供脈絡狀態資訊164給基於脈絡的頻譜值解碼器160。該音訊信號解碼器240也包含一時間扭曲頻域對時域轉換器180,其接收解碼頻譜值162且提供解碼音訊信號表示154。
音訊信號解碼器240也包含一時間扭曲計算器(或者時間扭曲解碼器)250,配置成接收被包含在編碼音訊信號表示152之中的編碼時間扭曲資訊,且在其基礎上提供一解碼時間扭曲資訊254。編碼時間扭曲資訊例如可包含描述一基本頻率或一音高之一時間變化的碼字「tw_ratio[i]」。解碼時間扭曲資訊254例如可採取一扭曲輪廓資訊的形式。舉例而言,解碼時間扭曲資訊254可包含值「warp_value tb1[tw_ratio[i]」或值prei [n1,將在下文中加以討論。可任選地,音訊信號解碼器240也包含一時間扭曲輪廓計算器256,配置成從解碼時間扭曲輪廓資訊254導出一時間扭曲輪廓資訊258。時間扭曲資訊258例如可作為脈絡狀態決定器170、以及時間扭曲的頻域對時域轉換器180的一輸入資訊。
在下文中,關於時間扭曲的頻域對時域轉換器的一些細號節將被描述。轉換器180可任選地可包含一反量化器/比例重縮放器180a,其可配置成從基於脈絡的頻譜值解碼器160接收解碼頻譜值162並提供解碼頻譜值162之一反量化及/或比例重縮放版本180b。舉例而言,反量化器/比例重縮放器180可被配置成執行一運算,該運算至少大約與音訊信號編碼器200的比例縮放器/量化器120m相反。因此,一可任選的反量化器/比例重縮放器180可以接收一可對應於控制資訊230的控制資訊。
時間扭曲頻域對時域轉換器180可任選地包含一頻譜前處理器配置成的180c,配置成接收解碼頻譜值162或反量化/比例重縮放頻譜值180b且在其基礎上提供頻譜預處理之頻譜值180d。舉例而言,頻譜前處理器180c可執行一與音訊信號編碼器200的頻譜後處理器120k相較之下的反運算。
時間扭曲頻域對時域轉換器180也包含一頻域對時域轉換器180e,配置成接收解碼頻譜值162,反量化/比例重縮放頻譜值180b或頻譜預處理頻譜值180d,且在其基礎上提供一時域表示180f。舉例而言,頻域對時域轉換器可配置成執行一頻域對時域反轉換,舉例而言,一修正型離散餘弦反轉換(IMDCT)。頻域對時域轉換器180e例如可根據一組解碼頻譜值,或可選擇地,根據複數組解碼頻譜值提供編碼音訊信號之一音框的一時域表示。然而,編碼音訊信號的音框,舉例而言,在某些情況中可以在時間上重疊。然而,在一些其他情況下音框可能是非重疊的。
時間扭曲頻域對時域轉換器180也包含一窗程式180g,被配置成窗化時域表示180f且根據由頻域對時域轉換器180e所提供的時域表示180f提供一窗化時域表示180h。
時間扭曲頻域對時域轉換器180也包含一重取樣器180i,配置成重取樣該窗化時域表示180h,且以其為基礎提供一窗化且重取樣的時域表示180j。重取樣器180i配置成從一取樣位置計算器180l接收一取樣位置資訊180k。因此,重取樣器180i對編碼音訊信號表示的每一音框提供一窗化且重取樣的時域表示180j,其中後續音框可能重疊。
因此,一重疊器/相加器180m接收編碼音訊信號表示152的後續音框的窗化與重取樣時域表示180j,且重疊並相加該窗化及重取樣時域表示180j以獲得後續音框之間的平滑過渡。
時間扭曲頻域對時域轉換器可選擇地包含一時域後處理180o,配置成根據由重疊器/相加器180m提供的一組合音訊信號180n執行一後處理。
時間扭曲輪廓資訊258作為脈絡狀態決定器170之一輸入資訊,其配置成依賴時間扭曲輪廓資訊258適應脈絡狀態資訊164的導出。此外,時間扭曲頻域對時域轉換器180的取樣位置計算器180l也接收時間扭曲資訊且根據該時間扭曲輪廓資訊258提供取樣位置資訊180k,藉此適應由重取樣器180i依賴時間扭曲輪廓資訊描述的時間扭曲輪廓而執行的時變重取樣。
因此,一音高變化根據時間扭曲輪廓資訊258所描述的時間扭曲輪廓被引入由時域表示180f描述的時域信號。因此有可能根據具有一顯著波峰和波谷的稀疏頻譜180d提供具有隨時間之明顯音高變化(或基本頻率隨時間的一明顯改變)的音訊信號的一時域表示180j。此一頻譜可被以高位元率編碼而且結果造成編碼音訊信號表示152的一較低位元率需求。
此外,脈絡(或更普遍地,脈絡狀態資訊164的導出)也使用脈絡狀態決定器170依賴時間扭曲輪廓資訊258被適應。因此,編碼時間扭曲資訊252被重複使用兩次,且藉由容許一稀疏頻譜之編碼、及藉由容許脈絡狀態資訊在一時間扭曲或基本頻率隨時間的一變化存在下適應頻譜的特定特性,而有助於改進編碼效率。
關於音訊信號編碼器240的個別元件之功能的更進一步細節將在下文中被描述。
5.依據第2c圖之算術編碼器
在下文中,一算術編碼器290將被描述,他可代替基於脈絡頻譜值編碼器130m與音訊信號編碼器100或音訊信號編碼器200中之脈絡狀態決定器140m的組合。算術編碼器290配置成接收頻譜值291(舉例而言,頻域表示124的頻譜值)且根據這些頻譜值291提供碼字292a,292b。
換言之,算術編碼器290例如可以配置成接.收頻域音訊表示124的複數後處理及比例縮放且量化頻譜值291。算術編碼器包含一最高有效位元平面擷取器290a,其配置成由一頻譜值擷取一最高有效位元面m。在此應指出者是,最高有效位元平面可以包含一或甚至更多位元(例如,二或三位元),其為頻譜值的最高有效位元。
因此,最高有效位元平面擷取器290a提供一頻譜值的最高有效位元平面值290b。算術編碼器290也包含一第一碼字決定器290c,其配置成決定代表最高有效位元平面值m的算術碼字acod_m[pki][m]。
可任選地,第一碼字決定器290c也可能提供一或更多例如表示有多少較低有效位元平面可利用(且結果是指示最高有效位元平面的數字重量)的逸出碼字(在本文中也被標示成"ARITH_ESCAPE")。第一碼字決定器290c可以被配置成使用一具有(或被引用)一累積頻率表索引pki的選擇累積頻率表提供與一最高有效位元平面值m相關聯的碼字。
為了要決定哪一累積頻率表應被選擇,算術編碼器最好包含一例如可採用脈絡狀態決定器140之功能的狀態追蹤器290d。狀態追蹤器290d配置成追蹤算術編碼器的狀態,舉例而言,藉由觀察哪些頻譜值先前已被編碼。狀態追蹤器290d結果提供一可以是等同於脈絡狀態資訊134的狀態資訊290e,例如有時為一標示為"s"或"t"的狀態值的形式(其中狀態值s不應該與頻率伸展因數s夾雜)。
算術編碼器290也包含一累積頻率表選擇器290f,配置成接收狀態資訊290e且提供一描述選出的累積頻率表的資訊290g給碼字決定器290c。舉例而言,累積頻率表選擇器290f可提供描述哪一累積頻率表從一組例如64個累積頻率表中被選出的一累積頻率表索引"pki"。或者,累積頻率表選擇器290f可提供全部選出之累積頻率給碼字決定器290c。因此,碼字決定器290c可使用選出的累積頻率提供最高有效位元平面值m的碼字acod_m[pki][m],以使得編碼該最高有效位元平面之值m的實際碼字acod_m[pki][m]取決於m之值及累積頻率表索引pki,且結果取決於現行狀態資訊290e。關於編碼程序和獲得的碼字格式的進一步細節將在下文中被描述。此外,關於等同於脈絡狀態決定器140之狀態追蹤器290d的運算的細節將在下文被討論。
算術編碼器290進一步包含一較低有效位元平面擷取器290h,配置成比例縮放且量化頻域音訊表示291擷取一或更多的較低有效位元平面,如果一或更多欲被編碼的頻譜值超過僅使用最高有效位元平面可編碼之值的範圍。則較低有效位元平面可依需要包含一或更多位元。
因此,較低有效位元平面擷取器290h提供一較低有效位元平面資訊290i。
算術編碼器290也包含第二碼字決定器290j,配置成接收較低有效位元平面資訊290i並在其基礎上提供代表零、一或更多較低有效位元平面之內容的零、一或甚至更多碼字”acod_r”。第二碼字決定器290j可被配置成應用一算術編碼演算法或任一其他的編碼演算法以從該較低有效位元平面資訊290i導出較低有效位元平面的碼字"acod_r"。
在此應指出者,該較低有效位元平面的數目可依比例縮放且量化頻譜值291而變化,因此如果欲被編碼的比例縮放且量化頻譜比較小可能完全沒有較低有效位元,如此使得如果欲被編碼的現行比例縮放且量化頻譜值具有一中等範圍則可能有一較低有效位元平面,以及使得如果欲被編碼的比例縮放且量化頻譜值採一比較大的值,則可能有超過一較低有效位元平面。
總結上述,算術編碼器290配置成使用一階層編碼程序來編碼由資訊291描述的比例縮放且量化頻譜值。最高有效位元平面(舉例而言每頻譜值包含一、二或三位元)被編碼以獲得最高有效位元平面值的一算術碼字"acod_m[pki][m]"。一或更多的較低有效位元平面(每一較低有效位元平面例如包含一、二或三位元)被編碼以獲得一或更多碼字"acod_r"。當編碼最高有效位元平面時,最高有效位元平面的值m被映射到一碼字acod_m[pki][m]。64個不同的累積頻率表可用來依賴算術編碼170的一狀態值,即,依賴一先前編碼頻譜值來編碼值m。因此,碼字"acod_m[pki][m]"被獲得。除此之外,一或更多碼字"acod_r"被提供,且若一或更多較低有效位元平面存在則被包含至位元流中。
然而,依據本發明,等同於脈絡狀態資訊134之狀態資訊290e的導出被適應於由一第一音框到一後續第二音框(即在二個後續音框之間)的基本頻率改變。有關於此一可由狀態追蹤器290d執行的適應將在下文中被描述。
6.依據第2d圖之算術解碼器
第2d圖繪示算術解碼器295的一方塊概略圖,其可代替基於脈絡頻譜值解碼器160並取代依據第1d圖之音訊信號解碼器150以及依據第2b圖的音訊信號解碼器24。
算術解碼器295配置成接收一編碼頻域表示296,其例如可包含,碼字"acod_m"及"acod_r"形式的算術編碼頻譜資料。編碼頻域表示296可等同於輸入基於脈絡頻譜值解碼器160的碼字。此外,算術解碼器配置成提供一解碼頻域音訊表示297,其可等同於由基於脈絡頻譜值解碼器160所提供的解碼頻譜值162。
算術解碼器295包含一最高有效位元平面決定器295a,其配置成接收描述最高有效位元平面之值m的算術碼字acod_m[pki][m]。最高有效位元平面決定器295可被配置成使用一源於一組包含複數,例如64個累積頻率表中的一累積頻率表來從算術碼字"acod_m[pkil[m]”導出最高有效位元平面值m。
最高有效位元平面決定器295a被配置成根據碼字"acod_m"導出頻譜值的一最高有效位元平面之值295b。算術解碼器295更進一步包含一配置成接收代表一頻譜值的一或更多較低有效位元平面的一或更多碼字"acod_r"的較低有效位元平面決定器295c。因此,較低有效位元平面的決定器295c配置成提供一或更多較低有效位元平面的解碼值295d。算術解碼器295也包含一位元平面組合器295e,配置成接收頻譜值之最高有效位元平面的解碼值295b,以及如果較低有效位元平面可用在現行頻譜值時該頻譜值的一或更多較低有效位元平面的解碼值295b。因此,位元平面組合器295e提供編碼頻譜值,該編碼頻譜值是解碼頻域音訊表示297的一部分。自然地,算術解碼器295典型地被配置成提供複數頻譜值以便獲得與一音訊內容現行音框關聯的一整組解碼頻譜值。
算術解碼器295更進一步包含一累積頻率表選擇器295f,配置成例如依賴描述算術解碼器295的一狀態的狀態索引295g選擇64個累積頻率表中的一個。算術解碼器295更進一步包含一狀態追蹤器295h,配置成依賴先前解碼頻譜值追蹤算術解碼器的一狀態。
狀態追蹤器295h可對應於脈絡狀態決定器170。有關狀態追蹤器295h的細節將在下文中被描述。
因此,累積頻率表的選擇器295f配置成提供一選出累積頻率表之索引(舉例而言,pki),或一選出的累積頻率表本身,以便應用在依賴碼字"acod m"的最高有效位元平面值m解碼中。
因此,算術解碼器利用相鄰頻譜值的最高有效位元平面之值的不同組合的不同概率。不同的累積頻率表被選擇且依賴脈絡被應用。換言之,頻譜值之間的統計相關性藉由從一組包含例如64個不同累積頻率表中依賴一狀態索引295g選擇不同的累積頻率表而被利用(可能等同於脈絡狀態資訊164),該狀態索引295g是由觀察先前解碼的頻譜值被獲得。藉由依賴一有關基本頻率(或音高)改變資訊使狀態索引295g的導出適應後續音框間之一基本頻率改變(或音高改變)時一頻譜比例縮放被考慮。
7.適應脈絡之概念的概觀
在下文中,將提出使用時間扭曲資訊適應算術編碼器之脈絡的概念的概要陳述。
7.1背景資料
在下文中,一些背景資料將被提出以幫助瞭解本發明。應指出者是在參考文獻[3]中,一自適應脈絡算術編碼器(例如參見參考文獻[5])被使用來無失真地編碼量化頻譜點。
所使用的脈絡在第3a圖中被描述,該圖繪示此一自適應脈絡算術編碼圖示。在第3a圖中,可以看見來自先前音框的已解碼頻率點被用來決定欲被解碼之頻率點的脈絡。應指出者是脈絡和編碼是否以4元組或者線狀或其他n元組--n可能改變,被組織為無關緊要者。
再度參閱第3a圖,該圖繪示一自適應脈絡算術編碼或解碼法,應指出者,一橫坐標310描述時間而一縱坐標312描述頻率。此處應指出者是4元組的頻譜值使用一共同脈絡狀態依據第3a圖中所示之脈絡被解碼。例如,用於解碼一與具有時間索引k與頻率索引i之音框相關聯之頻譜值的4元組320的脈絡是基於一具有時間索引k和頻率引i-1的第一4元組322,一具有時間索引k-1和頻率索引i-1的第二4元組324,一具有時間索引k-1和頻率索引i之第三4元組326以及一具有時間索引k-1和頻率索引i+1的第四4元組328。應指出者是每一頻率索引i-1,i,i+1指定(或更精確地,被關聯於)時域對頻域轉換或頻域對時間轉換的四個頻率點。因此,用於四元組321之解碼的脈絡是以四元組322,324,326,328之頻譜值的頻譜值為基礎。因此,具有時間索引k-1的先前音框之具有元組頻率索引i-1,i和i+1的頻譜值被用來導出用於解碼具有時間索引k的現行音框(典型地與具有時間索引k之現行解碼音框之具有元組頻率索引i-1的頻譜值組合)之具有元組頻率索引i的頻譜值的脈絡。
已經發現時間扭曲轉換典型地導致具有基本頻率變化的諧波信號的較佳能量壓縮,導致頻譜展現一清楚的諧波結構而非多少模糊化的分音,其在未應用時間扭曲時可能發生。扭曲時間的另一效果是由連續音框的可能不同平均局部取樣頻率所引起。已經發現此一一效果造成具有另一固定諧波結構但不同基本頻率之一信號的連續頻譜沿頻率軸被伸展。
第3c圖之下方曲線圖390繪示一實例。該實例包含二連續音框(例如,在一具有一基本頻率的諧波信號被一時間編碼扭曲修正型離散餘弦轉換編碼器【TW-MDCT編碼器】編碼的情況下被指定為「最後音框」和「本音框」的音框)的曲線圖(舉例而言,一為頻率點之函數的dB大小)。
對應的相對音高演變能在第3b圖的一曲線圖370中找到,顯示一減少之相對音高以及因此一增加的諧波線之相對頻率。
此導致在應用時間扭曲演算法(舉例而言,時間扭曲取樣或重取樣)後之一諧波線的頻率增加。可以清楚看見的是現行音框(也指稱為「本音框」)之此一頻譜是最後音框之一近似複製,但是沿著頻率軸392伸展(根據修正型離散餘弦轉換的頻率點標記)。這也將意指,如果我們使用過去音框(也指稱為「最後音框」)當做算術編碼器的一脈絡(例如,用於現行音框(也指稱為「本音框」)的頻譜值解碼,因匹配分音現在將可能在不同頻率點中發生,故脈絡將會是次優的。
第3c圖之一上方曲線圖380將此(例如,使用一依賴脈絡算術編碼來編碼頻譜值的位元需求)繪示成與一通常被認為效果比算術編碼系統差的霍夫曼編碼系統相比較。由於次優的過去脈絡(例如可能是由「最後音框」定義的頻譜值,由第3c圖中的曲線圖390表示),在現行音框的分音位於過去音框中具有較低能量區域中的情況下,算術編碼系統耗用較多的位元,且反之亦然。另一方面,第3c圖的曲線圖380顯示,至少是在基本分音的情況下,如果脈絡良好,則位元分配在比較上低於使用霍夫曼編碼者(舉例而言,當使用一依賴脈絡的算術編碼時)。
綜上所述,第3b圖的曲線圖370繪示一相對音高輪廓的時間演變的一實例。一橫坐標372描述時間且一縱坐標374描述一相對音高pre1 與一相對頻率fre1 兩者。一第一曲線376描述相對音高的一時間演變,且一第二曲線377描述相對頻率的時間演變。可以看出,相對音高隨著時間經過而減少,而相對頻率則隨著時間經過增加。此外,應指出者是一先前音框(也指稱為「最後音框」)之一時間延長378a與一現行音框(也指稱為「本音框」)的一時間延長378b在第3b圖的曲線圖370中非重疊。然而,典型地,後續音框之時間延長378a,378b可以是重疊的。例如,重疊可能大約50%。
現在參考第3c圖,應指出者,曲線圖390顯示兩個後續音框的MDCT頻譜。一橫坐標392根據修正型離散餘弦轉換的頻率點描述頻率。一縱坐標394描述個別頻譜點的一相對大小(根據分貝)。可以看出,現行音框(「本音框」)之頻譜的頻譜波峰相對於先前音框(「最後音框」)之頻譜的對應頻譜波峰頻率上被移動(以一依賴頻率的方式)。因此,已經發現若脈絡是根據先前音框之頻譜值的原始版本被形成,用於現行音框之頻譜值基於脈絡編碼的該一脈絡未被良好適應,因為現行音框之的頻譜的頻譜波峰與(根據頻率)先前音框之頻譜的頻譜波峰不一致。因此,頻譜值基於脈絡編碼的位元率對需求比較高,而且可能甚至比在非基於脈絡的霍情況還要高。此可在第3c圖的曲線圖380中看出,其中一橫坐標描述頻率(根據修正型離散餘弦轉換之頻率點),且一縱坐標384描述頻譜值編碼需要的位元數目。
7.2.解決方案的討論
然而,依據本發明的實施例提供以上討論問題的一種解決方法。已經發現音高變化資訊能被用來導出一時間扭曲修正型離散餘弦轉換編碼器之連續頻譜之間的頻率伸展因數的一近似值(例如,在連續音框的頻譜之間)。已經發現此一伸展因數接著可用來沿頻率軸伸展過去脈絡以導出一較佳的脈絡且因此減少編碼一頻率線所需要的位元數目並增加編碼增益。
已發現如果此一伸展因數大約是最後音框與現行音框的平均頻率之比率,則可達成良好結果。此外,已發現此可逐行完成,或者如果算術編碼器將n-元組線編碼為一項目,逐元組完成。
換言之,脈絡的伸展可以被逐行完成(即,個別地根據修正型離散餘弦轉換之頻率點)或者逐元組的(即根據修正型離散餘弦轉換之複數頻譜點的元組或組)。此外,而且,伸展因數計算的解析度也能夠依賴改變實施例的需求改變。
7.3.導出伸展因數的實例
在下文中,導出伸展因數的一些概念將詳細地被描述。被描述在參考[3]中的時間扭曲修正型離散餘弦轉換方法,以及,或者,本文中所描述的時間扭曲修正型離散餘弦轉換方法,提供一所謂的平滑音高輪廓當作中間資訊。此一平滑化音高輪廓(其例如可以由陣列「warp_contour[]」之項目描述,或藉由陣列「new_warp_contour[]」及包含一些連續音框上之相對音高演變資訊的「past_warp_contour[]」之項目描述,所以對一音框內之每一樣本而言,相對音高的估計是已知的。而且此樣本的相對頻率僅是相對音高的倒數。
舉例而言,下列的關係可適用:
在以上方程式中,frel [n]指稱一特定時間索引n之相對音高,其可為一短期的相對音高(其中該時間索引n例如可指稱一個別樣本)。此外,frel [n]可指稱時間索引n的一相對頻率,且可以是一短期的相對頻率值
7.3.1第一替代選擇
一音框k(其中k是一音框索引)的平均相對頻率可被描述成此一音框k中的所有相對頻率的算術平均值:
在以上的方程式frel 中,平均值k指在具有時域框索引k的音框上的平均相對頻率。N指稱具有時域框索引k之音框的時域樣本數目。n是運行在具有音框索引k的現行音框之時域樣本的時域樣本索引n=0至n=N-1上之一變數。frel [n]指稱與具有一時域樣本時間索引n的時域樣本相關聯的局部相對頻率值。
由此(即對現行音框由frel,mean,k 的計算,且對先前音框由frel,meam,k-1 的計算),現行音框k的伸展因數s接著可被導出為:
7-3-2第二替代選擇
在下文中,計算伸展因數s的另一替代選擇被將描述。如果將相對音高平均接近一計入考慮,一較簡單且較不精確的伸展因數s估計(例如,當與第一替代選擇比較時)可被建立,所以相對音高和相對頻率的關係大約是線性的,且因而可省略反轉相對音高以獲得相對頻率的步驟,並使用平均相對音高:
在上述的方程式中,prel,mean,k 指稱具有時域框索引k之音框的一平均相對音高。N指稱具有時間音框索引k之音框的時域樣本的數目。運行變數n採取0與N-1之間的值且藉此運行在現行音框之具有時間索引n的時域樣本上。prei [n]指稱具有時間索引n之時間樣本的一(局部)相對音高值。例如,相對音高值prei [n]可等同於扭曲輪廓陣列”warp contour[]”的項目warp_contour[n]。
在此一情況,具有時域框k之音框的伸展因數s可被估計為:
在上列方程式中,prel,mean,k-i 指具有時間音框索引k-1之音框的一平均音高值,且可變prel,mean,k 描述具有時間音框k的音框之一平均相對音高值。
7.3.3更進一步的替代選擇
然而,應指出者是用於計算、或估計伸展因數s的顯著不同概念可被使用,其中伸展因數s典型地也描述第一音框和一後續第二音框之間的一基本頻率改變。舉例而言,第一音框與後績第二音框的頻譜可藉由一模式比較概念被比較,藉此導出伸展因數。然而,如前述所討論之使用扭曲輪廓資訊的頻率伸展因數s計算似乎在計算上特別有效率,使得這是一優先的選項。
8.關於脈絡狀態決定的細節 8.1.依據第4a和4b圖的實例
在下文中,關於脈絡狀態的決定的細節將被描述。基於此一目的,脈絡狀態決定器400的功能,一繪示在第4a圖中的該決定器一方塊概略圖將被描述。
脈絡狀態決定器400例如可以取代脈絡狀態決定器140或脈絡狀態決定器170。即便有關脈絡狀態決定器的細節將在下文中針對一音訊信號解碼器的情形描述,脈絡狀態決定器400也可以在一音訊信號編碼器的場合中被使用。
脈絡狀態決定器400配置成接收關於先前解碼頻譜值或有關先前編碼頻譜值之一資訊410。除此之外,脈絡狀態決定器400接收一時間扭曲資訊或時間扭曲輪廓資訊412。時間扭曲資訊或時間扭曲輪廓資訊412例如可能與時間扭曲資訊122相等,且因此可描述(至少隱含地)後續音框之間的基本頻率的一改變。時間扭曲資訊或時間扭曲輪廓資訊412或者可能與時間扭曲資訊184相等,且因而可描述後續音框之間的基本頻率的一改變。然而,時間扭曲資訊/時間扭曲輪廓資訊412或者可能與時間扭曲輪廓資訊222或時間扭曲輪廓資訊258相等。一般而言,可以說,時間扭曲資訊/時間扭曲輪廓資訊412能直接地或間接地描述後續音框之間的頻率改變。舉例而言,時間扭曲資訊/時間扭曲輪廓資訊212可描述扭曲輪廓,且因此可包含陣列"warp_contour[]"的項目,或可描述時間輪廓,且因而可包含陣列"time contour[]"的項目。
脈絡狀態決定器400提供脈絡狀態值420,該脈絡狀態值描述使用於編碼或解碼現行音框的頻譜值的脈絡,且可被基於脈絡頻譜值編碼器或基於脈絡頻譜值解碼器使用以選擇現行音框之頻譜值的編碼或解碼的映射規則。脈絡狀態值420例如可以與脈絡狀態資訊134或脈絡狀態資訊164相等。
脈絡狀態決定器400包含初步脈絡記憶體結構提供者430,配置成提供一初步脈絡記憶體結構432,像是例如陣列q[1][]。舉例而言,初步脈絡記憶體結構提供者430可被配置成依據第25和26圖執行演算法的功能,藉此提供一組,例如,陣列q[1][]的N/4項目q[1][i](對於i=0至i=M/4-1)。
一般而言,初步脈絡記憶體結構提供者430可配置成提供初步脈絡記憶體結構432的項目以使得一具有項目頻率索引i的項目是以一具有頻率索引i的一(單一)頻譜值為基礎,或以一組具有共同頻率索引i的頻譜值為基礎。然而,初步脈絡記憶體結構提供者430最好被配置為提供初步脈絡記憶體結構432,以使得初步脈絡記憶體結構432之一項目的頻率索引與該初步脈絡記憶體結構432之項目作為基礎的一或更多編碼頻譜值與解碼頻譜值的頻率索引之間有一固定的頻率索引關係。舉例而言,該預定索引關係可以是使得初步脈絡記憶體結構的項目q[1][i]以時域對頻域轉換器或頻域對時域轉換器之具有頻率點索引i(或i-const,其中const是一常數)的頻率點之頻譜值為基礎。然而,或者,初步脈絡記憶體結構432之一索引q[1][i]可以是基於時域對頻域轉換器或頻域對時域轉換器之具有頻率點索引4i-3,4i-2,4i-1及4i的頻率點的頻譜值(或頻率點索引的一被移轉範圍)。因此,初步脈絡記憶體結構432的每一項目可與音框之一預定頻率索引的頻譜值或複數預定頻率索引的一組頻譜值相關聯,初步脈絡記憶體結構432根據該頻譜值被建立。
脈絡狀態決定器400也包含一頻率伸展因數計算器434,配置成接收時間扭曲資訊/時間扭曲輪廓資訊412並在其基礎上提供一頻率伸展因數資訊436。舉例而言,頻率伸展因數計算器434可配置成從陣列warp_contour[]的項目(其中相對音高資訊prei [n]例如可與陣列warp_contour[]的一對應項目相等)導出一相對音高資訊prei [n][]。此外,頻率伸展因數計算器434可配置成應用上述方程式之一從二個後續音框的該相關音高資訊prei 導出頻率伸展因數資訊s。一般來說,頻率伸展因數計算器434可配置成提供頻率伸展因數資訊(例如,一值s,或相等地,一值m_ContextUpdateRatio),使得頻率伸展因數資訊描述一先前編碼或解碼音框與欲使用現行脈絡狀態值420被編碼或解碼之現行音框間的一基本頻率改變。
脈絡狀態決定器400也包含一頻率比例縮放脈絡記憶體結構提供者,配置成接收初步脈絡記憶體結構432並在其基礎上提供一頻率比例縮放脈絡記憶體結構。舉例而言,頻率比例縮放脈絡記憶體結構可由陣列q[1][]的一更新版本代表,該更新版本可以是承載初步脈絡記憶體結構432之陣列的一更新版本。
頻率比例縮放脈絡記憶體結構提供者可能配置成使用一頻率比例縮放從初步脈絡記憶體結構432導出頻率比例縮放脈絡記憶體結構。在頻率比例縮放中,初步脈絡記憶體結構432之一具有項目索引i的值可被複製,或移轉到頻率比例縮放脈絡記憶體結構440的一具有項目索引j的項目,其中頻率索引中i可能不同於頻率索引j。舉例而言,如果初步脈絡記憶體結構432之內容的一頻率伸展被執行,頻率比例縮放脈絡記憶體結構440之一具有項目索引j1 的項目可被設定成初步脈絡記憶體結構432之一具有項目索引i1 的項目之值,且頻率比例縮放脈絡記憶體結構440之一具有項目索引j2 的項目可被設定成初步脈絡記憶體結構432之一具有項目索引i1 的項目之值,其中J2 比i1 大,且其中ji比i1 大。對應的頻率索引(舉例而言,j1 和i1 、或J2 和i2 )之間的一比率可採一預定值(除圓化誤差以外)。同樣地,如果由初步脈絡記憶體結構432描述之內容的一頻率壓縮是由頻率比例縮放脈絡記憶體結構提供者438執行,頻率比例縮放脈絡記憶體結構440之一具有項目索引h的項目可被設定至初步脈絡記憶體結構432之一具有項目索引j3 之項目的值,且頻率比例縮放脈絡記憶體結構440之一具有項目索引J4 之項目可被設定成初步脈絡記憶體結構432之一具有項目索引n之項目的一值。在此一情況,項目索引J3 可能比項目索引i3 小,且項目索引J4 可能比項目索引i4 小。而且,對應的項目索引之間(舉例而言,項目索引J3 和i3 之間,或項目索引J4 和i4 之間)的一比率可能是常數(除了圓化誤差以外),而且可能由頻率伸展因數資訊436決定。關於頻率比例縮放脈絡記憶體結構提供者440的運算的更進一步的細節將在下文中被描述。
脈絡狀態決定器400也包含脈絡狀態值提供者442,配置成根據頻率比例縮放脈絡記憶體結構440提供脈絡狀態值420。舉例而言,脈絡狀態值提供者442可以配置成提供描述一具有頻率索引lo 的頻譜值根據頻率比例縮放脈絡記憶體結構440之項目解碼之脈絡的脈絡狀態值420,該頻率比例縮放脈絡記憶體結構440之項目的項目索引與頻率索引中lo 成一預定關係。舉例而言,脈絡狀態值提供者442可配置成提供脈絡狀態值420以供具有頻率索引lo 之頻譜值(或頻譜值的元組)根據具有頻率索引10 -1,10 和10 +1的頻率比例縮放脈絡記憶體結構440之項目解碼。
因此,脈絡狀態決定器400可有效提供脈絡狀態值420用於解碼具有一頻率索引l0 的頻譜值(或者頻譜值的元組),如果頻率比例縮放脈絡記憶體結構提供者438執行一頻率伸展,根據頻率索引各別小於l0 -1、小於l0 及小於l0 +1之初步脈絡記憶體結構432的項目解碼,在頻率比例縮放脈絡記憶體結構執行提供者438執行一頻率壓縮的情況下,根據頻率索引各別大於l0 -1、大於l0 及大於l0 +1之初步脈絡記憶體結構432的項目解碼。
因此,脈絡狀態決定器400配置成藉由根據一頻率比例縮放脈絡記憶體結構提供脈絡狀態值420以使脈絡適應後續音框之間的基本頻率間的改變,該頻率比例縮放脈絡記憶體結構為初步脈絡記憶體結構432的頻率比例縮放版本,依賴頻率伸展因數436被頻率比例縮放,轉而描述基本頻率隨時間的變化。
第4b圖繪示依據本發明的一實施例決定脈絡狀態的一圖示。第4b圖繪示初步脈絡記憶體結構432之項目的一示意圖,初步脈絡記憶體結構432是由以參考數字450標示之初步脈絡記憶體結構提供者430提供。例如,一具有頻率索引i1 +1的項目450a,一項目450b和一具有頻率索引i2 +2之項目450e被標示。然而,以參考數字452標示,當提供頻率比例縮放脈絡記憶體結構440時,一具有頻率索引i1 之項目452a被設定成採用具有頻率索引i1 +1之項目450a之值,且一具有頻率索引i2 -1之項目452c被設定成採用具有頻率索引i2 +2之項目450e之值。同樣地,頻率比例縮放脈絡記憶體結構440的其他項目可依賴初步脈絡記憶體結構430的項目被設定,其中,典型地,初步脈絡記憶體結構的一些項目在一頻率壓縮的情況被丟棄,且其中,典型地,初步脈絡記憶體結構432的一些項目在頻率伸展的情況下被複製到頻率比例縮放脈絡記憶體結構440的多於一項目。
此外,第4b圖說明脈絡狀態如何被決定而用於根據率比例縮放脈絡記憶體結構440(以參考數字452代表)的項目解碼具有時間索引k之音框的頻譜值。舉例而言,當決定用於解碼具有時間索引為k之音框的具有頻率索引i1 的頻譜值(或者頻譜值的元組)的脈絡狀態時,時間索引k之音框的一具有頻率索引i1 -1之脈絡值及具有時間索引k-1及頻率索引i1 -1,i1 與i1 +1之音框的頻率比例縮放脈絡記憶體結構之項目被評估。因此,具有時間索引k-1和頻率索引i1 -1,i1 +1和i2 +2的音框之初步脈絡記憶體結構的項目被有效地評估以決定用於解碼具有時間索引k及頻率索引i1 之音框的頻譜值(或頻譜值的元組)。因此,用於脈絡狀態之決定的頻譜值環境有效地被初步脈絡記憶體結構(或其內容)之頻率伸展或頻率壓縮改變。
8.2依據第4c圖實施
在下文中,一用於映射利用4元組之算術編碼器的脈絡的實例將參照第4e圖描述,該圖繪示一按元組的處理。
第4c圖繪示用於根據初步脈絡記憶體結構(例如,初步脈絡記憶體結構432)獲得頻率比例縮放脈絡記憶體結構(舉例而言,頻率比例縮放脈絡記憶體結構440)的演算法的一虛擬程式碼表示。
依據第4c圖之演算法460假定初步脈絡記憶體結構432以一陣列"self>base.m_qbuf">被儲存。此外,演算法460假定頻率伸展因數資訊436被儲存成一變數"self->base.m_ContextUpdateRatio"。
在第一步驟460a中,一些變數被初始化。尤其,一目標元組索引變數"nLinTupleIdx"以及來源元組索引變數"nWarpTupleIdx"被初始化成零。此外,一重排序緩衝區陣列"Tqi4"被初始化。
在一步驟460b中,初步脈絡記憶體結構的項目"self->base.m qbuf"被複製到重排序緩衝區陣列中。
其次,只要目標元組索引變數和來源元組索引變數小於一描述最大元組數目的變數nTuples,則複製演算法460c被重複。
在一步驟460ca中,四個頻率索引由來源元組索引變數(與一第一索引常數"firstIdx"組合)的一現行值決定的重排序緩衝區項目被複製到脈絡記憶體結構(self>base.m_qbuf[的][])的項目,該等項目的頻率索引是由目標元組索引變數(nLinTupleIdx)(與第一索引常數"firstIdx"組合)決定。
在步驟460cb中,目標元組索引變數被增加一。
在步驟460cc中,來源元組索引變數被設定成一值,是目標元組索引變數(nLinTupleIdx)的現行值與頻率伸展因數資訊(self->base.m ContextUpdateRatio)的乘積四捨五入成最接近的整數值。因此,若頻率伸展因數變數大於一,來源元組索引變數之值可大於目標元組索引變數之值,而若頻率伸展因數變數小於一,則小於目標元組索引變數之值。
因此,來源元組變數的一值被關聯於目標元組索引變數的每一值(如果目標元組索引變數的值和來源元組變數的值兩者皆小於固定的nTuples)。執行步驟460cb和460cc之後,從重排序緩衝區複製項目到脈絡記憶體結構在步驟460 ca中使用一來源元組和一目標元組之間的更新關聯被重複。
因此,依據第4c圖之演算法460執行頻率比例縮放脈絡記憶體結構提供者430a的功能,其中初步脈絡記憶體結構以陣列"self->base.m_qbuf"的原始項目代表且其中頻率比例縮放脈絡記憶體結構440由陣列"self->base.m_qbuf"的更新項目代表。
8.3.依據第4d和4e圖的實施
在下文中,映射一使用4元組之算術編碼器脈絡的實例將參考第4c圖被描述,該圖繪示一逐線的處理。
第4d和4e圖繪示執行一脈絡之頻率比例縮放(即,頻率伸展或頻率壓縮)的演算法的虛擬程式碼表示。
依據第4d和4e圖的演算法470接收陣列"self>base.m_qbuf[][]"(或至少該陣列之一參照)及頻率伸展因數資訊"self->base.m_ContextUpdateRatio"作為一輸入資訊。此外,演算法470接收一描述現用線之數目的變數"self->base.m_Icslnfo->mScaleFactorBandsTransmitted"當做一輸入資訊。此外,演算法470修改陣列self>base.m_qbuf[][],以使得該陣列的項目代表頻率比例縮放脈絡記憶體結構。
演算法470在步驟470a中包含複數變數之一初始化。尤其,一目標線索引變數(linLineIdx)和一來源線索引變數(warpLineIdx)被設定初始化為零。
在下文中,二組脈絡被處理,其包含不同的脈絡索引(以變數"contextIdx"標示)。然而,在其他的實施例中,僅處理一脈絡也是足夠的。
在一步驟470c中,一行臨時緩衝區陣列"ImeTmpBuf和一行重排序緩衝區陣列"lineReorderBuf”以零項目被初始化。在步驟470d中,與複數頻譜值元組的不同頻率點關聯的初步脈絡記憶體結構之項目被複製到行重排序緩衝區陣列。因此,具有後續頻率索引的行重排序緩衝區陣列之項目被設定成與不同頻率點相關聯的初步脈絡記憶體結構的項目。換言之,初步脈絡記憶體結構每頻譜值元組包含一項目self->base.m qbui[CurTuple][contextIdx],其中該項目包含與個別頻譜線(或頻譜點)相關聯的子項目a、b、c、d。每一子項目a、b、c、d在步驟470d被複製到個別項目緩衝陣列"lineReorderBuf[]"。
因此,線重排序緩衝區陣列的內容在一步驟470e中被複製到線時間緩衝區陣列"lineTmpBuff]"。
接著,目標線索引變數和來源線索引變數在一步驟470f中被初始化為採取零值。
接著,線重排序緩衝區陣列的項目"lineReorderBuf[warpLineIdx]"在步驟470g中複製到目標線索引變數"linLineIdx"的複數值的線暫存緩衝區陣列。只要目標線索引變數和來源線路索引變數是小於一表示有效(非零)頻譜線總數的變數"activeLines",步驟470g即被重複。由目標線索引變數"linLineIdx"之現行值指定的線暫存緩衝區陣列的一項目被設定成由來源線索引變數的現行值指定的線重排序緩衝區陣列之值。因此,目標線索引變數被增量一。來源線索引變數"warpLineIdx"設定成採取由目標線索引變數的現行值與頻率伸展因數資訊的乘積所決定的一值(由變數"self->base.m ContextUpdateRatio"代表)。
在目標線路索引變數和來源線路索引變數的更新之後,只要目標線路索引變數和來源線路索引變數二者比變數"activeLines"為小,步驟470g即被重複。
因此,初步脈絡記憶體的脈絡項目是以一線法而非按元組頻率比例縮放。
在一最後步驟470h中,元組表示根據線暫存緩衝區陣列的線項目被重建,元組表示"self>base.m_qbuf[的curTuple][contextIdx]"之項目a、b、c、d依據線暫存緩衝區陣列的四個項目"lineTmpBuft(curTuple-1)*4+0]"至"lineTmpBuff(curTuple-1)*4+3]"被設定,該等項目頻率上相鄰,此外,一元組能量欄位"e"可任由選擇地被設定成代表與各自元組相關聯頻譜值的一能量。而且,如果與該頻譜值相關聯之頻譜值的大小比較小,另一欄位"v"可任由選擇地被設定。
然而,應指出者,在步驟470h被執行的有關於新元組之計算的細節,乃主要取決於脈絡的實際表示且因此可顯著地改變。然而,大致而言,一以元組為基礎的表示是在步驟470h中根據步驟470h中的頻率比例縮放脈絡之一基於個別線的表示被建立。
總結而言,依據演算法470,一按元組之脈絡表示(陣列"self>base.m_qbuf[curTuple][contextIdx]"的項目)首先被分解成一頻率線法脈絡表示(或頻率點法的脈絡表示)(步驟470d),接著,頻率比例縮放以一逐線方式(步驟470g)被執行。最後,一按元組表示的脈絡(陣列"self>base.m_qbuf[curTuple][contextIdx]"的更新項目)根據逐線頻率比例縮放資訊被重建(步驟470h)。
9.頻域對時域解碼法演算法的詳細描述 9.1.概觀
在下文中,根據本發明一實施例之一音訊解碼器執行的一些演算法將被詳細地描述。為此一目的而參照第5a、5b、6a、6b、7a、7b、8、9、10a、10b、11、12、13、14、15及第16圖。
首先,參考第7a圖,該圖顯示資料元件之定義的說明以及輔助元件之定義的說明。此外,參見第7b圖,該圖顯示常數之定義的說明。
一般而言,可以說本文所描述的方法能用來解碼一根據一時間扭曲修正型離散餘弦轉換被編碼的音訊流。因此,當TW-MDCT對一音訊流(可以用一標誌指示,例如稱為"twMDCT"標誌,其可被包含在一特定的配置資訊中) 被啟用時,一時間扭曲濾波器排組和區塊更換可取代一音訊解碼器中的標準濾波器排組及區塊更換。修正型離散餘弦反轉換(IMCT)之外時間扭曲濾波器排和區塊更換包含一從一任意間隔時間柵對一標準規律間隔或線性間隔時間柵的時域對時域映射以及一對應的窗形狀適應。
在此應指出者,本文所描述的解碼演算法例如可由扭曲時間扭曲頻域對時域轉換器180依據頻譜的編碼表示、且亦可依據時間扭曲資訊184,252被執行。
9-2.定義
有關於資料元件的定義,輔助元件和常數,參考第7a和7b圖。
9.3.解碼程序-扭曲輪廓
扭曲輪廓節點的碼簿索引係依下列被解碼成個別節點的扭曲值。
然而,時間扭曲碼字"tw ratio[k'l"映射到解碼時間扭曲值之上,在此定名為"warp value tbl[tw ratio[k]",在根據本發明之實施例中可任由選擇地取決於取樣頻率。因此,依據本發明的一些實施例中沒有一單一的映射表,但有不同取樣頻率的個別映射表。
為得到樣本方式(n_long樣本)之新扭曲輪廓資料”new_warp_contour[]”,扭曲節點 值”warp_node_values[]”目前使用一演算法,一陳示在第9圖中的虛擬程式碼表示線性插值於等間隔(interp_dist相隔)節點之間。
在獲得此一音框(舉例而言,一現行音框)的完全扭曲輪廓之前,過去的緩衝值可比例重縮放,因此過去扭曲輪廓"past warp contour[]"的最後扭曲值=1。
past _warp _contour [i ]=past _warp _contour [i ].norm _fac for 0 i <2.n _long last _warp _sum =last _warp _sumnorm _fac cur _warp _sum =cur _warp _sumnorm _fac
完全扭曲輪廓”warp_contour[]”藉由連接過去扭曲輪廓”past_warp_contour”與新扭曲輪廓”new_warp_contour"而獲得,且新扭曲輪總和被計算成所有新扭曲輪廓值”new_warp_contour[]的一總和":
9.4.解碼程序-樣本位置和窗長度調整
在一線性時間標度上之樣本位置向量由扭曲輪廓"warp_contour[]"被計,為此,時間扭曲輪廓依據下列方程式被產生:
使用輔助函數"warp_inv_vec()"和"warp_time_inv()",他們的虛擬程式碼表示分別顯示在第10a和10b圖,樣本位置向量和過渡長度根據一演算法被計算,他的虛擬程式碼表示被顯示在第11圖中。
9.5.解碼程序-修正型離散餘弦反轉換(IMDCT)
在下文中,修正型離散餘弦反轉換將被簡短地描述
修正型離散餘弦反轉換的分析表示法如下: 其中:n=樣本索引
i=窗索引
k=頻譜係數索引
N=基於window_sequence值的窗長度
N0 =(N/2+1)/2
反轉換的合成窗長度是語法元素"window_sequence"(可被包含在位元流之中)"及演算脈絡的一函數。合成窗長度舉例而言可以依據第12圖的表被定義。
有意義的區塊過渡列在第13圖的表中。在一特定的表單位格中的勾號表示列在此一特定列中的一窗序列可接隨列在此一特定行中的一窗序列。
關於被允許的窗序列,應指出者,音訊解碼器可能是,舉例而言,在不同長度的窗之間是可轉變的。然而,窗長度的交換並不特別與本發明相關。然而,本發明可在假設 基礎上被理解成有一"only_long_sequence"型態的窗序列且核心編碼器音框長度等於1024。
此外,應指出者,音訊信號解碼器可在一頻域編碼模式和一時域編碼模式之間轉變。然而,此一可能性並不特別與本發明相關。本發明反而是適用在僅能處理頻域編碼模式的音訊信號解碼器中,例如參照第1b和2b圖所討論者。
9.6.解碼程序-窗化和區塊更換
下文中,可由時間扭曲頻域對時域轉換器180,且特別是藉由其窗程式180g執行的窗化和區塊更換將被描述。
視「窗形狀」(可能被包含在表示音訊信號的位元流中)而定,不同的過取樣轉換窗原型被使用,且過取樣窗的長度是N OS =2.n _long .OS_FACTOR_WIN
對於window_shape=1,窗係數由凱薩爾-貝塞爾導出(KBD)窗提供如下: 其中W’,凱薩爾-貝塞爾內核函數被定義如下:
α=內核窗α因數,α=4另外,對於窗形狀==0,一正弦窗依下列被使用
對於各種的窗序列,左方窗部份使用的原型是由先前區塊的窗形狀決定。下列的公式表達這一事實: 同樣地右方窗形狀的原型是由下列公式決定:
由於過渡長度已經被決定,僅需在”EIGHT_SHORT_SEQUENCE”型態的窗序列和所有其他窗序列之間加以區分。
假若現行音框為"EIGHT_SHORT_SEQUENCE"型態,一窗化與內部(音框-內部)重疊與相加被執行。第14圖的C代碼部分描述具有"EIGHT SHORT SEQUENCE"窗型態之音框的窗化及內部重疊相加。
關於任何其他型態的音框,一演算法可被使用,一虛 擬程式碼表示在第15圖中被顯示。
9.7.解碼程式-時間-改變重取樣
在下文中,時間改變重取樣將被描述,該重取樣可藉由時間扭曲頻域執行對時域轉換器180,且尤其是藉由重取樣器180i被執行。
窗化區塊z[]根據樣本位置(是由取樣位置計算器1801在解碼時間扭曲輪廓資訊258的基礎上提供)使用下列的脈衝回應被重取樣:
α=8在重取樣之前,窗化的區塊在兩端補零: 重取樣本身在第16圖之一虛擬程式碼中被描述。
9-8.解碼程序-重疊及相加先前窗序列
由時間扭曲頻域對時域轉換器180之重疊器/相加器180m執行的重疊及相加對所有序列皆相同,且可以用數學描述如下:
9.9.解碼程序-記憶體更新
在下文中,記憶體更新將被描述。即使沒有特定的方 法被顯示在第2b圖中,應指出者,記憶體更新可藉由時間扭曲頻域對時域轉換器180被執行。
解碼下一音框所需要之記憶體緩衝區係被更新如下:past _warp _contour [n ]=warp _contour [n +n _long ],for 0 n <2.n _long cur _warp _sum =new _warp _sum last _warp _sum =cur _warp _sum
在解碼第一音框前或如果最後一音框以一光學LPC頻域編碼器被編碼,記憶體狀態被設定如下:past _warp _contour [n ]=1,for 0 n <2.n _long cur _warp _sum =n _long last _warp _sum =n _long
9.10.解碼程序-結論
總結上述,一解碼程序已被描述,其可藉由時間扭曲頻域對時域轉換器180被執行。如同可見,一時域表示被提供給例如2048時域樣本的一音框,且後續的音框例如可以重疊大約50%,以使得後續音框之時域表示之間的一平滑過渡被確保。
一組,例如NUM_TW_NODES=16個解碼時間扭曲值可與每一音框(只要時間扭曲在該音框中是現用的)相關聯,不考慮音框的時域樣本實際取樣頻率
10.頻譜無雜訊編碼
在下文中,一些有關於頻譜的無雜訊編碼的細節將被描述,該編碼可藉由基於脈絡頻譜值解碼器160與脈絡狀態決定器170相組合被執行。應指出者,一對應的編碼可藉由脈絡頻譜值編碼器與脈絡狀態決定器140相組合被執行,其中一熟習此技藝之人將從解碼步驟之詳細討論中瞭解各別的編碼步驟。
10.1.頻譜無雜訊編碼-工具描述
頻譜無雜訊編碼被用來更進一步減少量化頻譜的冗餘。頻譜無雜訊編碼系統是以一與動態適應的脈絡組合的算術編碼為基礎。下文中討論的頻譜無雜訊編碼系統是以2元組為基礎,即二相鄰頻譜係數被合併。每一2元組被分割成符號-最高有效2位元法平面和剩餘的較低有效位元平面。最高有效二位元法平面,m,的無雜訊編碼使用來自四個先前解碼相鄰2元組的依賴脈絡累積頻率表。無雜訊編碼由量化頻譜值被饋給且使用來自(例如依據其被選擇)四個先前解碼相鄰2元組的依賴脈絡累積頻率表。此處,在時間與頻率上的鄰接被計入,如第16中所繪示,該圖陳示一狀態計算器之脈絡的圖形表示。累積的頻率表然後由算術編解碼器(編碼器或者解碼器)使用來產生一可變長度二進制碼。
然而,應指出者,不同大小的脈絡可被選擇。舉例而言,在元組環境中供解碼的一較小或較大的元組數目可在脈絡決定上被使用。同時,一元組可包含一較小或較大數目的頻譜值。或者,個別的頻譜值可被使用來獲得脈絡、而非元組。
算術編解碼器產生一特定符號組及他們各別之概率的二進制碼。二進制碼藉由映射一該組符號存在的概率區間至一碼字上被產生。
10.2頻譜的無雜訊編碼-定義
有關於變數,常數,等等的定義,參見第18圖,該圖顯示定義的說明。
10.3.解碼程序
量化頻譜係數"x_ac_dec[]"從最低頻率係數開始且進行至最高頻率係數被無雜訊地解碼。舉例而言,他們可藉多組集合成一所謂2-元組(a,b)的二連續係數a和b被解碼。
一頻域模式(如下文所描述)的解碼係數x_ac_dec[]接著被儲存在一陣列"x_ac_quant[g][win][sfb][bin]"中。無雜訊編碼碼字的傳輸順序為使他們當以儲存在陣列中的順序被解碼時,bin是最快速增量的索引且g是增量索引。在一碼字內,解碼順序是a且然後b。
可任由選擇地,一轉換-編碼-激發模式的係數也可被評估。即使上述實例只與頻域音頻編碼和頻域音訊解碼有關,本文中揭露的概念可實際上用於操作在轉換-編碼-激發域中的音頻編碼器和音訊解碼器。轉換編碼激發(TCX)的解碼係數x_ac_dec[]被直接儲存在一陣列x_tex_invquant中,且無雜訊編碼碼字的傳輸順序為使得當他們以接收及儲存在陣列中的順序被解碼時,bin是最快速增量的索引且win是最慢增量之索引。在一碼字中的解碼順序是a且然後b。
首先,選擇性的旗標" arith_reset_flag"決定是否脈絡必需被重置(或應該被重設)。如果旗標是TRUE,設定初值被執行。
解碼程序以一初始化階段開始,其中脈絡元素向量q藉由將儲存在陣列(或子陣列)q[1][]中的先前音框的脈絡元素複製及映射到q[0][]。q內的脈絡元素被儲存,例如以每2元組4位元被儲存。有關初始化階段的細節可參見演算法,該演算法的一虛擬程式碼表示在第19圖中被顯示。
繼初始化後,可依據第19圖的演算法執行,已在上文中討論的脈絡頻率比例縮放可被實行。例如,陣列(或子陣列)q[0][]可被視為初步脈絡記憶體結構432(或者除了有關大小與項目e和v的細節外可等於陣列self>base.m_qbufl[])。此外,頻率比例縮放脈絡可被儲存回到陣列q[0][](或儲存回陣列"self>base.m_qbuf[][]")。然而,可選擇地或附加地,陣列(或子陣列)q[1][]的內容可藉由裝置438被頻率比例縮放。
總結而言,無雜訊解碼器輸出2元組的無符號量化頻譜係數。在第一(或典型地,在頻率比例縮放之後),脈絡的狀態c根據2元組周圍的先前解碼頻譜係數被計算以解碼。因此,狀態使用僅由二個新的2元組組成的最後解碼二元組的脈絡狀態被增量更新。狀態例如使用17位元被編碼且藉由函數"arith_get_context[]"被轉回,該函數的一虛擬程式碼表示顯示在第20圖中。
以函數"arith_get_context[]"的轉回值獲得的脈絡狀態c決定用於解碼最有效2位元平面m的累積頻率表,c相對對應的累積頻率表索引pki的映射是由函數"arith_get_pk[]"執行。一虛擬程式碼表示顯示在第21圖中。
值m使用與累積的頻率表,"aritti_cf_m[pki][]"一起被呼叫的函數"arith_decode[]"解碼,其中pki對應於由函數"arith_get_pk[]"轉回的索引。算術編碼器是使用一種結合比例縮放之標籤產生方法的整數實現。依據第22圖的虛擬C-碼描述使用的演算法。
當解碼值m是逸出符號" ARITHJESCAPE"時,變數" lev"和" esc_nb"被增量一而另一值m被解碼。在此一情況中,函數"get_pk[]"再一次隨值c &esc_nb<被呼叫作為輸入自變量,其中esc_nb是先前對同一2元組被解碼的逸出符號的數目且以7為界。
一旦值m不是逸出符號" ARITH_ESCAPE",解碼器連續的m形成一" ARITH_STOP"符號。如果條件(esc nb>0&和m=0)為真," ARITH_STOP"被檢出且解碼程序被結束。解碼器直接跳到下文描述的地對被然後描述的符號解碼。該情況意指音框的其餘部分由零值組成。
如果未遇見" ARITH_STOP"符號,若目前的2元組存在剩餘的位元平面則接著被解碼。剩餘的位元平面藉由稱呼叫函數"arith_decode[]"lev多次從最高有效到最低有效水平被解碼。解碼的位元巷平面r允許根據一演算法精化先前解碼值a,b,該演算法的一虛擬程式碼繪示在第23圖中。
此時,2元組(a,b)的無符號值被完全解碼。其被儲存在保持頻譜係數的陣列"x_ac_dec[]"中,如第24圖的虛擬程式碼所示。
脈絡q也對下一2元組更新。應指出者,此一脈絡更新也可對最後的2元組更新。脈絡更新是由函數"artih update context[]"完成,該函數的一虛擬程式碼示於第25圖中。
音框的下一2元組接著以1增量i且重做上述的相同程序而被解碼。尤其,脈絡的頻率比例縮放可能被執行,且上述程序接著可以從函數"arith_get_context[]"重新開始。當1g/2元組在音框內被解碼或者當停止符號"ARITH_STOP"出現時,頻譜振幅的解碼程序終止且記號的解碼開始。
一旦所有的無符號量化頻譜係數被解碼,相符的記號被加上。對於" x_ac_dec"的每一非零量化值,一位元被讀取。如果讀取位元等於一,量化值為正,無任何措施被採取且含符號值等於先前解碼的無符號值。否則,解碼係數為負,且二的補數取自於無符號值。正負號位元從低值被讀取到高頻。
解碼法藉由呼叫函數"arith_finish[]"被完成,該函數的一虛擬程式碼示於第26圖。剩餘的頻譜係數設成零值。各別的脈絡狀態對應地被更新。
概括上述,頻譜值的一基於脈絡(或者依賴脈絡)解碼被執行,其中個別的頻譜值可被解碼,或其中頻譜值可按元組解碼(如上文所說明)。如本文中所討論者,脈絡可以是頻率比例縮放的,以便在基本頻率(或,相等地,音高)時間變化的情況下獲得一良好的編碼/解碼性能。
11.依據第27a-27f圖的音頻流
在下文中,一音頻流將被描述成包含一或更多音訊信號通道以及一或更多時間扭曲輪廓的編碼表示。下文中所描述之音頻流例如可傳送編碼音訊信號表示112或編碼音訊信號表示152。
第27a圖繪示所謂" USAC_raw_data_block"資料流元素的一圖示,可能包含一信號通道元素(SCE)、一通道對元件(CPE)或一或更多單一通道元素及/或一或更多的通道對元素的組合。
" USAC_raw_data_block"典型地可包含一編碼音訊資料區塊。雖然另外的時間扭曲輪廓資訊時可被提供成一分開的資料流元素。然而,將一些時間扭曲輪廓資料編碼成" USAC原資料區塊"自然也是可能的。
如同可從27b看到,一單一通道元素典型地包含一頻域通道流(" fd_channel_stream"),將被詳細地參照第27d圖解釋。
如同可從第27c圖看到,一通道對元件(“channel_pair_element”)典型地包含複數頻域通道流。同時,通道對元素可包含時間扭曲資訊,像是例如一時間扭曲啟動旗標(" tw_MDCT"),可在一配置資料流元素或在"USAC_raw_data_block"中被傳輸,且其確定是否時間扭曲資訊被包含在通道對元素之中。舉例而言,如果"tw_MDCT"旗標指出時間扭曲是現用的,通道對元素可包含一旗標("common_tw"),指示是否對於通道對元素的音頻通道有一共同時間扭曲。如果該旗標("common_tw")指示對於多數音頻通道有一共同的時間扭曲,則一共同時間扭曲資訊("tw_data")被包括在通道對元件中,例如與頻域通道流分開。
現在參考第27d圖,頻域通道流被描述。如同由第27圖可見,頻域通道流,舉例而言,包含一總體增益資訊。同時,如果時間扭曲是現用的(旗標"tw_MDCT”現用)且如果多個音訊信號沒有共同的時間扭曲資訊(旗標"common_tw"停用),則頻域通道流包含時間扭曲資料。
此外,一頻頻域通道流也包含比例縮放因數資料("scale_factor_data")及編碼頻譜資料(例如,算術編碼頻譜資料" ac_spectral_data ")
現在參考第27e圖,時間扭曲資料的語法被簡略地討論。時間扭曲資料例如可任由選擇地包含旗標(舉例而言," tw_data_present"或者" active_pitch data ")指示時間扭曲資料是否存在。如果時間扭曲資料存在(即,時間扭曲輪廓非平坦),時間扭曲資料可能包含複數編碼時間扭曲比值(例如,"tw_ratio[i]"或者" pitch Idx[i]")的序列,該序列,舉例而言,可如上述討論根據依賴取樣率之碼簿表被編碼。
因此,時間扭曲資料可能包含一指示沒有時間扭資料可利用的旗標,可能以一音音訊信號編碼器設定,如果時間扭曲輪廓是恆定的(時間扭曲比率大約等於1.000)。相對照地,如果時間扭曲輪廓是變化的,後續時間扭曲輪廓節點之間的比率可使用碼簿索引被編碼,組成"tw_ratio "資訊。
第27f圖繪示算術編碼頻譜資料" ac_spectral_data()"之語法的一圖示。算術編碼頻譜資料依賴一獨立旗標(此處為:" indepFlag")編碼,該旗標如果為現用表示算術編碼資料與先前音框的算術編碼資料無關。如果獨立旗標"indepFlag"是現用的,一算術重設旗標" arith_reset_flag"被設定成現用。否則,算術重設旗標之值是由算術編碼頻譜資料中的一位元確定。
此外,算術編碼頻譜資料區塊"ac_spectial_data()”包含一或更多個單元的算術編碼資料,其中算術編碼資料的單元數目" arith_data()"取決於現行音框中之區塊(或窗)的數目。在一長區塊模式中,每音框只有一窗。然而,在一短區塊模式中,舉例而言,每音框可能有八個窗。每一單元之算術編碼頻譜資料" arith_data"包含一組頻譜係數,其可供作為一舉例而言藉由一反轉換180e執行的頻域對時域轉換的輸入。
每單位算術編碼資料" arith_data"的頻譜係數的數目,舉例而言,獨立於取樣頻率,但是可依賴區塊長度模式(短區塊模式" EIGHT_SHORT_SEQUENCE"或長的區塊模式"ONLY_LONG_SEQUENCE")。
12.結論
概括上述,有關時間扭曲修正型離散餘弦轉換方面的改進已經被討論。本文以一時間扭曲修正型離散轉換編碼器(舉例而言參考文獻[1]和[2])的背景描述發明且包含一用於性能改善之扭曲MDCT轉換編碼器的方法。此一時間扭曲修正型離散餘弦轉換編碼器的一種實施在進行中MPEG USAC音頻編碼標準化工作(舉例而言參見參考文獻[3])中被實現。所使用的TW-MDCT實施細節例如可在參考文獻[4]中找到。
然而,對於所提到概念的改良是在本文中被提出。
13.實施替代選擇
雖然某些層面已在一裝置背景中被描述,清楚的是這些層面也代表對應方法的描述,其中一方塊或裝置對應於一方法步驟或一方法步驟之特徵。類似地,在一方法步驟脈絡中所描述的層面也代表一對應方塊或項目或一對應裝置之特徵的描述。方法步驟的一些或全部可藉由(或使用)一硬體裝置執行,像是例如一微處理機、一可程式電腦或一電子電路。在一些實施例中,最重要的方法步驟中的某一或一者以上可藉由此種裝置執行。
本發明之編碼音訊可被儲存在一數位儲存媒體中,或可在一傳輸媒體諸如一無線傳輸媒體或一有線傳輸媒體,諸如網際網路上被傳輸。
視特定實施需求而定,本發明的實施例能在硬體或軟體中被實施。實施可利用一數位儲存媒體被執行,舉例而言,一軟式磁碟、一數位影像光碟、一光碟、一唯讀記憶體、一可程式唯讀記憶體、一可抹除程式化唯讀記憶體,或者快閃記憶體,其上儲存有電子可讀控制信號,其與一可程式的電腦系統合作(或能夠合作)以使得各別的方法被執行。因此,數位儲存媒體可為電腦可讀的。
依據本發明的一些實施例包含一具有電子可讀控制信號的資料載體,該控制信號能夠與一可程式的電腦系統合作,使得本文中所描述的諸方法中之一者被執行。
通常,本發明的實施例可被實施成一具有程式碼的電腦程式產品,程式碼在電腦程式於一電腦上執行時可操作內來執行諸方法中之一者。程式碼例如可被儲存在一機器可讀的載體上。
其他的實施例包含執行本文所描述之諸方法之一的電腦程式,儲存在一機器可讀的載體上。
換句話說,本發明方法的一實施例因此是一具有程式碼的電腦程式,當電腦程式在一電腦上執行時該程式碼用來實施本文所述之諸方式中之一。
本發明方法的又一實施例因此是一資料載體(或一數位儲存介體,或一電腦可讀媒體)包含被儲存於其上可供執行本文所描述的諸方法之一的電腦程式。該資料載體、數位儲存媒體或被記錄的媒體典型地是實體及非暫態的。
本發明方法的另一實施例因此是一資料流或一代表用來執行本文所描述衣諸方法之一的電腦程式的信號序列。資料流或信號序列例如可配置成經由一資料通訊連接,例如經由網際網路被轉移。
另一實施例包含一處理設備,例如一電腦、或一可程式的邏輯裝置,該邏輯裝置被配置或適應為執行本文所描述的諸方法中之一。
又一實施例包含其上安裝有用於執行本文描述的諸方法之一的電腦程式的電腦。
根據本發明的另一實施例包含配置成配置成傳送(舉例而言,電子地或者光學地)將一用以執行本文中所描述諸方法中之一的電腦程式到一接收器之一裝置或一系統。該接收器,舉例而言,可以是一電腦、一行動裝置、一記憶體裝置等等。裝置或系統例如可包含一將電腦程式傳送至接收器的檔案伺服器。
在一些實施例中,一可程式邏輯裝置(例如現場可程式邏輯閘陣列)可被使用來執行本文描述方法的一些或全部功能。在一些實施例中,一現場可程式邏輯閘陣列可與一微處理器合作俾執行本文所描述的諸方法之一。通常,方法最好由任一硬體裝置執行。
上述的實施例僅供說明本發明的原理。可以瞭解本文所述之配置及細節的修改與變化對於熟習此技藝者是顯而易見的。因此僅意圖被隨後的專利申請範圍所限制,而不受本文中的實施例描述與說明提出的特定細節所限。
參考文獻
[1] Bernd Edler et.al., “Time Warped MDCT”, US 61/042,314, Provisional application for patent,
[2] L. Villemoes, “Time Warped Transform Coding of Audio Signals”, PCT/EP2006/010246, International. patent application, November 2005.
[3] “WD6 of USAC”, ISO/IEC JTC1/SC29/WG11 N11213, 2010
[4] Bernd Edler et. al., “A Time-Warped MDCT Approach to Speech Transform Coding”, 126th AES Convention, Munich, May 2009, preprint 7710
[5] Nikolaus Meine, “Vektorquantisierung und kontextabhängige arithmetische Codierung für MPEG-4 AAC”, VDI, Hannover, 2007
100...音訊信號編碼器
110...輸入音訊信號
112...輸入音訊信號編碼表示
120...頻域表示提供者
120a...預先處理
120b...預先處理版本
120e...取樣位置計算器
120c...取樣器/重取樣器
120f...取樣或重取樣之時域表示
120g...窗程式
120h...取樣/重取樣的時域表示
120i...時域對頻域轉換器
120j...頻域表示
120l...後處理頻域表示
120m...比例縮放器/量化器
120j...比例縮放頻域表示
120k...頻譜後處理器
120l...後處理版本
122...時間扭曲資訊
124...頻域表示
130...基於脈絡頻譜值編碼器
130 m...基於脈絡頻譜值編碼器
134...脈絡狀態資訊
140...脈絡狀態決定器
140m...脈絡狀態決定器
150...音訊信號解碼器
152...編碼音訊信號表示
154...解碼音訊信號表示
160...基於脈絡的頻譜值解碼器
162...解碼頻譜值
164...脈絡資訊
170...脈絡狀態決定器
180...時間扭曲頻域對時域轉換器
180a...反量化器/比例重縮放器
180b...反量化及/或比例重縮放版本
180c...頻譜前處理器
180d...頻譜預處理之頻譜值
180e...頻域對時域轉換器
180f...時域表示
180g...窗程式
180f...窗化時域表示
180h...窗化時域表示
180i...重取樣器
180j...窗化且重取樣時域表示
180l...取樣位置計算器
180k...取樣位置資訊
180m...重疊器/相加器
180n...組合音訊信號
180o...時域後處理
182...時間扭曲時域表示
184...時間扭曲資訊
200...音訊信號編碼器
212...時間扭曲資訊/時間扭曲輪廓資訊
214...時間扭曲資訊
220...時間扭曲輪廓資訊
222...時間扭曲輪廓資訊
224...時間扭曲輪廓編碼器
226...編碼時間扭曲資訊
228...音響心理學模型處理器
230...控制資訊
240...音訊信號解碼器
250...時間扭曲計算器/時間扭曲解碼器
252...編碼時間扭曲資訊
254...解碼時間扭曲資訊
256...時間扭曲輪廓計算器
258...時間扭曲輪廓資訊
290...算術編碼器
290c...第一碼字決定器
290d...狀態追蹤器
290e...狀態資訊
290f...累積頻率表選擇器
290g...描述選出累積頻率表的信息
290f...累積頻率表選擇器
290e...現行狀態信息
290h...較低效位元平面擷取器
290h...較低效位元平面擷取器
290i...較低效位元平面資訊
290j...第二碼字決定器
290a...最高有效位元平面擷取器
290b...最高有效位元平面值
291...比例縮放且量化頻譜值
290d...狀態追蹤器
290e...狀態資訊
295...算術解碼器
295a...最高有效位元平面決定器
295b...最高有效位元平面之值
295c...較低效位元平面決定器
295d...較低效位元平面的解碼值
295e...位元平面組合器
295f...累積頻率表選擇器
295g...狀態索引
295h...狀態追蹤器
296...編碼頻域表示
297...解碼頻域音訊表示
378a...先前音框時間延長
378b...現行音框時間延長
400...脈絡狀態決定器
410...關於先前解碼頻譜值/先前編碼頻譜值之資訊
412...時間扭曲資訊或時間扭曲輪廓資訊
420...脈絡狀態值
430...初步脈絡記憶體結構提供者
430a...頻率比例縮放脈絡記憶體結構提供者
432...初步脈絡記憶體結構
434...頻率伸展因數計算器
436...頻率伸展因數資訊
438...頻率比例縮放脈絡記憶體結構提供者
440...頻率比例縮放脈絡記憶體結構
442...脈絡狀態值提供者
460...演算法
460c...複製演算法
470...演算法
第1a圖繪示依據本發明的一實施例之一音訊信號編碼器的一方塊概略圖;第1b圖繪示依據本發明的一實施例之一音訊信號解碼 器的一方塊概略圖;第2a1,2a2圖繪示依據本發明的另一實施例之音訊信號編碼器的一方塊概略圖;第2b1,2b2圖繪示依據發明的另一實施例之音訊信號解碼器的一方塊概略圖;第2c圖繪示依據發明的實施例之一使用在音頻編碼器中的算術編碼器的一方塊概略圖;第2d圖繪示依據發明的實施例之一使用在音訊信號解碼器中之算術解碼器的一方塊概略圖;第3a圖繪示一自適應脈絡(編碼/解碼)之圖示;第3b圖繪示一相對音高輪廓的圖示;第3c圖繪示時間扭曲修正型離散餘弦轉換(tw-mdct)的一伸展效果的圖示;第4a圖繪示使用在本發明之實施例中的一脈絡狀態決定器的方塊概略圖;第4b圖繪示可由依據第4圖之脈絡狀態決定器實施的一頻率壓縮的圖示;第4c圖繪示一用於伸展或壓縮一脈絡、可被應用在依據本發明的實施例中的一演算法的一虛擬程式碼表示;第4d和4e圖繪示一用於伸展或壓縮一脈絡、可被應用在依據本發明的實施例中的一演算法的一虛擬程式碼表示;第5a,5b圖繪示依據發明的一實施例之一音訊信號解碼器的方塊概略圖的一詳細摘錄部分;第6a,6b圖繪示依據發明的一實施例,一提供解碼音訊信號表示的映射程式之流程圖的一詳細摘錄部分;
第7a1,7a2圖繪示使用在依據發明一實施例的一音訊解碼器中的資料元素和輔助元素的一定義的說明;
第7b圖繪示被使用在依據發明一實施例的一音訊解碼器中之常數的定義說明;
第8圖繪示一碼字索引映射至一對應的解碼時間扭曲值之上的一映射的表表示;
第9圖繪示一用於在相等間隔之節點間線性內插之演算法的一虛擬程式碼表示;
第10a圖繪示一輔助程式函數“warp_time_inv”的一虛擬程式碼表示;
第10b圖繪示一輔助程式函數“warp_inv_vec”的一虛擬程式碼表示;
第11a,11b圖繪示一用於計算一樣本位置向量和一過渡長度的演算法的一虛擬程式碼表示;
第12圖繪示取決於一窗序列和一核心編碼器音框長度的合成窗長度N之值的表表示;
第13圖繪示一容許窗序列的真值表表示;
第14a,14b圖繪示一用於一「八個短序列」型態之窗序列的窗化及一內部重疊相加之演算法的一虛擬程式碼表示;
第15圖繪示用於其他「八個短序列」型態窗序列之窗化及一內部重疊相加之演算法的一虛擬程式碼表示;
第16圖繪示一用於重取樣的演算法的一虛擬程式碼表示;且
第17圖繪示一用於狀態計算之脈絡圖示,其可被使用在依據本發明的一些實施例中;
第18圖場繪示一定義的說明;
第19圖繪示一演算法“arith_map_context()"的一虛擬程式碼表示;
第20圖場繪示一演算法“arith_get_context()”的一虛擬程式碼表示;
第21圖繪示一演算法“arith_get_pk()”的一虛擬程式碼表示;
第22a,22b圖繪示一虛擬之“arith_decode()";
第23圖繪示用於解碼一或更多較不顯著的位元平面的一演算法的一虛擬程式碼表示;
第24圖繪示用於設定一系列算術解碼頻譜值的演算法的一虛擬程式碼表示項目一;
第25圖繪示一函數“arith_update_context()”的一虛擬程式碼表示;
第26圖場繪示一演算法“arith_finish_()"的一虛擬程式碼表示;
第27a-27f圖繪示依據本發明一實施例圖的音頻流之語法元素的表示。
110...輸入音訊信號
112...輸入音訊信號編碼表示
120...頻域表示提供者
120a...預先處理
120b...預先處理版本
120e...取樣位置計算器
120c...取樣器/重取樣器
120f...取樣或重取樣之時域表示
120g...窗程式
120h...取樣/重取樣的時域表示
120i...時域對頻域轉換器
120i...頻域表示
120l...後處理頻域表示
120m...比例縮放器/量化器
120j...比例縮放頻域表示
120k...頻譜後處理器
120l...後處理版本
122...時間扭曲資訊
124...頻域表示
130...基於脈絡頻譜值編碼器
130 m...基於脈絡頻譜值編碼器
134...脈絡狀態資訊
140...脈絡狀態決定器
140m...脈絡狀態決定器
150...音訊信號解碼器
152...編碼音訊信號表示
154...解碼音訊信號表示
160...基於脈絡的頻譜值解碼器
162...解碼頻譜值
164...脈絡資訊
170...脈絡狀態決定器
180...時間扭曲頻域對時域轉換器
180a...反量化器/比例重縮放器
180b...反量化及/或比例重縮放版本
180c...頻譜前處理器
180d...頻譜預處理之頻譜值
180e...頻域對時域轉換器
180f...時域表示
180g...窗程式
180f...窗化時域表示
180h...窗化時域表示
180i...重取樣器
180j...窗化且重取樣時域表示
180l...取樣位置計算器
180k...取樣位置資訊
180m...重疊器/相加器
180n...組合音訊信號
180o...時域後處理
182...時間扭曲時域表示
184...時間扭曲資訊
200...音訊信號編碼器
212...時間扭曲資訊/時間扭曲輪廓資訊
214...時間扭曲資訊
220...時間扭曲輪廓資訊
222...時間扭曲輪廓資訊
224...時間扭曲輪廓編碼器
226...編碼時間扭曲資訊
228...音響心理學模型處理器
230...控制資訊
230...控制資訊
240...音訊信號解碼器
250...時間扭曲計算器/時間扭曲解碼器
252...編碼時間扭曲資訊
254...解碼時間扭曲資訊
256...時間扭曲輪廓計算器
258...時間扭曲輪廓資訊
290...算術編碼器
290c...第一碼字決定器
290d...狀態追蹤器
290e...狀態資訊
290f...累積頻率表選擇器
290g...描述選出累積頻率表的信息
290f...累積頻率表選擇器
290e...現行狀態信息
290h...較低效位元平面擷取器
290h...較低效位元平面擷取器
290i...較低效位元平面資訊
290j...第二碼字決定器
290a...最高有效位元平面擷取器
290b...最高有效位元平面值
291...比例縮放且量化頻譜值
290d...狀態追蹤器
290e...狀態資訊
295...算術解碼器
295a...最高有效位元平面決定器
295b...最高有效位元平面之值
295c...較低效位元平面決定器
295d...較低效位元平面的解碼值
295e...位元平面組合器
295f...累積頻率表選擇器
295g...狀態索引
295h...狀態追蹤器
296...編碼頻域表示
297...解碼頻域音訊表示

Claims (17)

  1. 一種音訊信號解碼器,用於根據包含一編碼頻譜表示及一編碼時間扭曲資訊的一編碼音訊信號表示提供一解碼音訊信號表示,該音訊信號解碼器包含:一基於脈絡的頻譜值解碼器,其組配來取決於一脈絡狀態解碼一描述一或更多頻譜值或一或更多頻譜值之一數字表示的至少一部份的碼字,以便獲得解碼頻譜值;一脈絡狀態決定器,組配來取決於一或更多先前解碼頻譜值決定一現行脈絡狀態;一時間扭曲頻域對時域轉換器,組配來根據一組與一特定音框相關聯且由基於脈絡之頻譜值解碼器所提供的解碼頻譜值並取決於該時間扭曲資訊提供該特定音框的時間扭曲時域表示;其中該脈絡狀態決定器組配來使該脈絡狀態之決定適應後續音框之間的一基本頻率改變。
  2. 依據申請專利範圍第1項之音訊信號解碼器,其中該時間扭曲資訊描述一音高隨時間的變化;且其中該脈絡狀態決定器組配來從該時間扭曲資訊導出一頻率伸展資訊;以及其中該脈絡狀態決定器組配來取決於該頻率伸展資訊沿頻率軸伸展或壓縮與先前音框關聯之一前脈絡,以獲得用於一現行音框之一或更多頻譜值的基於脈絡解碼的一適應脈絡。
  3. 依據申請專利範圍第2項之音訊信號解碼器,其中該脈絡狀態決定器組配來從該時間扭曲資訊導出一第一音框上的第一平均頻率資訊,且從該時間扭曲資訊導出一接在該第一音框之後的第二音框上的第二平均頻率資訊;且其中該脈絡狀態決定器組配來計算該第二音框上之第二平均頻率資訊與該第一音框上之第一平均頻率資訊間的一比率,用以決定該頻率伸展資訊。
  4. 依據申請專利範圍第2項之音訊信號解碼器,其中該脈絡狀態決定器組配來從該時間扭曲資訊決定一第一音框上的第一平均時間扭曲輪廓資訊,且其中該脈絡狀態決定器組配來從該時間扭曲資訊導出一接在該第一音框之後的第二音框上的第二平均時間扭曲輪廓資訊,以及其中該脈絡狀態決定器組配來計算該第一音框上之第一平均時間扭曲輪廓資訊與該第二音框上之第二平均時間扭曲輪廓資訊之間的一比率,用以確定頻率伸展資訊。
  5. 依據申請專利範圍第3項或申請專利範圍第4項之音訊信號解碼器,其中該脈絡狀態決定器組配來從延伸在複數個連續音框上的一共同時間扭曲輪廓導出該等第一和第二平均頻率資訊或者該等第一和第二平均時間扭曲輪廓資訊。
  6. 依據申請專利範圍第3項之音訊信號解碼器,其中該音 訊信號解碼器包含一組配來根據該時間扭曲資訊計算一時間扭曲輪廓資訊的時間扭曲計算器,該時間扭曲輪廓資訊描述複數個連續音框上之一相對音高的時間演變,且其中該脈絡狀態決定器組配來使用該時間扭曲輪廓資訊導出該頻率伸展資訊。
  7. 依據申請專利範圍第6項之音訊信號解碼器,其中該音訊信號解碼器包含一重取樣位置計算器,其中該重取樣位置計算器組配來根據該時間扭曲輪廓資訊計算可供時間扭曲重取樣器使用的重取樣位置,以使該等重取樣位置的時間變化由該時間扭曲輪廓資訊決定。
  8. 依據申請專利範圍第1項的音訊信號解碼器,其中該脈絡狀態決定器組配來取決於複數個先前解碼頻譜值導出描述該脈絡狀態之一數字現行脈絡值,且取決於該數字現行脈絡值選擇一映射規則,該映射規則描述一碼值在一表示一或更多頻譜值、或一或更多頻譜值之一數字表示的一部分的符號碼(符號)上的映射,其中該基於脈絡的頻譜值解碼器組配來使用由該脈絡狀態決定器選擇的映射規則解碼該描述一或更多頻譜值、或一或更多頻譜值之數字表示的至少一部分的碼值。
  9. 依據申請專利範圍第8項之音訊信號解碼器,其中該脈絡狀態決定器組配來建立且更新一初步脈絡記憶體結 構,以使該初步脈絡記憶體結構之項目描述第一音框的一或更多頻譜值,其中該初步脈絡記憶體結構之項目的項目索引表示該各別項目所關聯之頻域對時域轉換器的一頻率點或一組毗連頻率點;其中該脈絡狀態決定器組配來根據該初步脈絡記憶體結構獲得一頻率比例縮放脈絡記憶體結構,用於解碼一接在該第一音框之後的第二音框,以使得一具有第一頻率索引的初步脈絡記憶體結構之一特定項目或一子項目被映射至具有第二頻率索引之頻率比例縮放脈絡記憶體結構的一對應項目或子項目之上,其中該第二頻率索引與不同於該第一頻率索引之頻域對時域轉換器之一頻率點或一組毗連頻率點相關聯。
  10. 依據申請專利範圍第9項之音訊信號解碼器,其中該脈絡狀態決定器組配來導出一描述該現行脈絡狀態的脈絡狀態值用於解碼一碼字,該碼字描述該第二音框的一或更多頻譜值,或第二音框的一或更多頻譜值之一數字表示的至少一部份,其使用該頻率比例縮放脈絡記憶體結構之值關聯第三頻率索引,該頻率比例縮放脈絡記憶體結構之該等值的頻率索引與該第三頻率索引是成一預定關係,其中該第三頻率索引指定該頻域對時域轉換器的一頻率點或一組毗連頻率點,欲使用現行脈絡狀態被解碼的第二音框之一或更多頻譜值與該一頻率點或一組毗連頻率點相關聯。
  11. 依據申請專利範圍第9項之音訊信號解碼器,其中該脈絡狀態決定器組配來將具有一對應目標頻率索引之頻率比例縮放脈絡記憶體結構的複數項目之每一項目設定成具有一對應來源頻率索引之初步脈絡記憶體結構的一對應項目的一值,其中該脈絡狀態決定器組配來決定該頻率比例縮放脈絡記憶體結構的一項目和該初步脈絡記憶體結構之一對應項目的對應頻率索引,以使得該等對應頻率索引之間的一比率是由該初步脈絡記憶體結構之項目所關聯的一現行音框與解碼脈絡由該頻率比例縮放脈絡記憶體結構之項目決定的一後續音框之間的基本頻率改變所決定。
  12. 依據申請專利範圍第9項之音訊信號解碼器,其中該脈絡狀態決定器組配來建立該初步脈絡記憶體結構以使得該初步脈絡記憶體結構的複數個項目的每一項目是以第一音框的複數頻譜值為基礎,其中該初步脈絡記憶體結構之項目的項目索引指示各別項目所關聯之頻域對時域轉換器的一組毗連頻率點;其中該脈絡狀態決定器組配來從該初步脈絡記憶體結構之項目擷取具有關聯之個別頻率點索引的初步頻率點個別脈絡值;其中該脈絡狀態決定器組配來獲得具有關聯之個別頻率點索引的頻率比例縮放頻率點個別脈絡值,以使得具有一第一頻率點索引之特定初步頻率點個別脈絡 值被映射至具有一第二頻率點索引之對應頻率比例縮放頻率點個別脈絡值上,使得該初步頻率點個別脈絡值的一頻率點個別映射被獲得;且其中該脈絡狀態決定器組配來將複數頻率比例縮放頻率點個別脈絡值組合成為該頻率比例縮放脈絡記憶體結構之一組合項目。
  13. 一種用以提供包括一編碼頻譜表示與一編碼時間扭曲資訊之輸入音訊信號的編碼表示的音訊信號編碼器,該音訊信號編碼器包含:一頻域表示提供者,組配來依據該時間扭曲資訊提供代表該輸入音訊信號之一時間扭曲版本的一頻域表示;一基於脈絡的頻譜值編碼器,組配來取決於一脈絡狀態提供描述該頻域表示的一或更多頻譜值、或該頻域表示之一或更多頻譜值的一數字表示的至少一部分的一碼字,以獲得該編碼頻譜表示之編碼頻譜值;以及一脈絡狀態決定器,組配來取決於一或更多先前編碼之頻譜值決定一現行的脈絡狀態,其中該脈絡狀態決定器組配來使該脈絡狀態之決定適應後續音框之間的一基本頻率改變。
  14. 依據申請專利範圍第13項之音訊信號編碼器,其中該脈絡狀態決定器係組配來取決於複數個先前編碼頻譜值導出一數字現行脈絡值,且取決於該數字現行脈絡值選擇一描述一或更多頻譜值、或一或更多頻譜值之一數字 表示的一部分映射至一碼值上的一映射規則,其中該基於脈絡的頻譜值編碼器係組配來使用由該脈絡狀態決定器所選擇的映射規則提供該描述一或更多頻譜值、或一或更多頻譜值之一數字表示的至少一部分的碼值。
  15. 一種根據包括一編碼頻譜表示與一編碼時間扭曲資訊之一編碼音訊信號表示提供一解碼音訊信號表示的方法,該方法包含:取決於一脈絡狀態解碼一描述一或更多頻譜值、或一或更多頻譜值之一數字表示的至少一部分之碼字,以便獲得解碼頻譜值;取決於一或更多個先前解碼之頻譜值決定一現行脈絡狀態;根據一組與特定音框相關聯且由該基於脈絡頻譜值解碼器所提供的解碼頻譜值並取決於該時間扭曲資訊提供該特定音框的一時間扭曲時域表示;其中該脈絡狀態的決定被適應於後續音框之間的一基本頻率改變。
  16. 一種用於提供包括一編碼頻譜表示與一編碼時間扭曲資訊之一輸入音訊信號的編碼表示的方法,該方法包含:依據該時間扭曲資訊提供一表示該輸入音訊信號的時間扭曲版本之頻域表示;取決於一脈絡狀態提供一描述該頻域表示之一或 更多頻譜值、或該頻域表示之一或更多頻譜值的一數字表示的至少一部分之碼字,以便獲得該編碼頻譜表示之編碼頻譜值;以及取決於一或更多先前編碼頻譜值決定一現行脈絡狀態,其中該脈絡狀態的決定被適應於後續音框之間的一基本頻率改變。
  17. 一種電腦程式,當該電腦程式在一電腦上執行時用以實施依據申請專利範圍第15項或申請專利範圍第16項的方法。
TW100107905A 2010-03-10 2011-03-09 音訊信號解碼器、音訊信號編碼器、用以將音訊信號解碼之方法、用以將音訊信號編碼之方法、及使用編碼脈絡之音高相依適應技術之電腦程式 TWI441170B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US31250310P 2010-03-10 2010-03-10

Publications (2)

Publication Number Publication Date
TW201207846A TW201207846A (en) 2012-02-16
TWI441170B true TWI441170B (zh) 2014-06-11

Family

ID=43829343

Family Applications (2)

Application Number Title Priority Date Filing Date
TW100107904A TWI455113B (zh) 2010-03-10 2011-03-09 音訊信號解碼器、音訊信號編碼器、用以提供解碼音訊信號表示型態之方法及電腦程式與用以提供音訊信號之編碼表示型態之方法及電腦程式
TW100107905A TWI441170B (zh) 2010-03-10 2011-03-09 音訊信號解碼器、音訊信號編碼器、用以將音訊信號解碼之方法、用以將音訊信號編碼之方法、及使用編碼脈絡之音高相依適應技術之電腦程式

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW100107904A TWI455113B (zh) 2010-03-10 2011-03-09 音訊信號解碼器、音訊信號編碼器、用以提供解碼音訊信號表示型態之方法及電腦程式與用以提供音訊信號之編碼表示型態之方法及電腦程式

Country Status (16)

Country Link
US (2) US9129597B2 (zh)
EP (2) EP2532001B1 (zh)
JP (2) JP5625076B2 (zh)
KR (2) KR101445296B1 (zh)
CN (2) CN102884573B (zh)
AR (2) AR084465A1 (zh)
AU (2) AU2011226143B9 (zh)
BR (2) BR112012022744B1 (zh)
CA (2) CA2792500C (zh)
ES (2) ES2461183T3 (zh)
HK (2) HK1179743A1 (zh)
MX (2) MX2012010439A (zh)
PL (2) PL2532001T3 (zh)
RU (2) RU2586848C2 (zh)
TW (2) TWI455113B (zh)
WO (2) WO2011110591A1 (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2083418A1 (en) * 2008-01-24 2009-07-29 Deutsche Thomson OHG Method and Apparatus for determining and using the sampling frequency for decoding watermark information embedded in a received signal sampled with an original sampling frequency at encoder side
US20120029926A1 (en) * 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
CN103035249B (zh) * 2012-11-14 2015-04-08 北京理工大学 一种基于时频平面上下文的音频算术编码方法
US20140358565A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
RU2663361C2 (ru) 2013-06-21 2018-08-03 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Блок управления джиттер-буфером, аудиодекодер, способ и компьютерная программа
MY171256A (en) 2013-06-21 2019-10-07 Fraunhofer Ges Forschung Time scaler, audio decoder, method and a computer program using a quality control
RU2638734C2 (ru) * 2013-10-18 2017-12-15 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодирование спектральных коэффициентов спектра аудиосигнала
KR101782278B1 (ko) * 2013-10-18 2017-10-23 텔레폰악티에볼라겟엘엠에릭슨(펍) 스펙트럼의 피크 위치의 코딩 및 디코딩
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
MX353200B (es) * 2014-03-14 2018-01-05 Ericsson Telefon Ab L M Método y aparato de codificación de audio.
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) * 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN105070292B (zh) * 2015-07-10 2018-11-16 珠海市杰理科技股份有限公司 音频文件数据重排序的方法和***
CA2987808C (en) * 2016-01-22 2020-03-10 Guillaume Fuchs Apparatus and method for encoding or decoding an audio multi-channel signal using spectral-domain resampling
EP3306609A1 (en) 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
KR102383195B1 (ko) 2017-10-27 2022-04-08 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 디코더에서의 노이즈 감쇠
WO2020207593A1 (en) * 2019-04-11 2020-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program
US20210192681A1 (en) * 2019-12-18 2021-06-24 Ati Technologies Ulc Frame reprojection for virtual reality and augmented reality
US11776562B2 (en) * 2020-05-29 2023-10-03 Qualcomm Incorporated Context-aware hardware-based voice activity detection
WO2022079049A2 (en) * 2020-10-13 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects or apparatus and method for decoding using two or more relevant audio objects
CN114488105B (zh) * 2022-04-15 2022-08-23 四川锐明智通科技有限公司 一种基于运动特征及方向模板滤波的雷达目标检测方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
JP4196235B2 (ja) * 1999-01-19 2008-12-17 ソニー株式会社 オーディオデータ処理装置
KR20010072035A (ko) * 1999-05-26 2001-07-31 요트.게.아. 롤페즈 오디오 신호 송신 시스템
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US20040098255A1 (en) * 2002-11-14 2004-05-20 France Telecom Generalized analysis-by-synthesis speech coding method, and coder implementing such method
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
JP4364544B2 (ja) * 2003-04-09 2009-11-18 株式会社神戸製鋼所 音声信号処理装置及びその方法
CN101171626B (zh) * 2005-03-11 2012-03-21 高通股份有限公司 通过修改残余对声码器内的帧进行时间扭曲
EP1864281A1 (en) * 2005-04-01 2007-12-12 QUALCOMM Incorporated Systems, methods, and apparatus for highband burst suppression
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
CN101361112B (zh) * 2006-08-15 2012-02-15 美国博通公司 隐藏丢包后解码器状态的更新
EP2054879B1 (en) 2006-08-15 2010-01-20 Broadcom Corporation Re-phasing of decoder states after packet loss
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
ES2379761T3 (es) 2008-07-11 2012-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Proporcinar una señal de activación de distorsión de tiempo y codificar una señal de audio con la misma
WO2010003479A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and audio decoder
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding

Also Published As

Publication number Publication date
TW201207846A (en) 2012-02-16
HK1181540A1 (zh) 2013-11-08
BR112012022741A2 (pt) 2020-11-24
BR112012022741B1 (pt) 2021-09-21
EP2532001B1 (en) 2014-04-02
AU2011226140B2 (en) 2014-08-14
HK1179743A1 (zh) 2013-10-04
AR084465A1 (es) 2013-05-22
JP2013521540A (ja) 2013-06-10
MX2012010469A (es) 2012-12-10
BR112012022744A2 (pt) 2017-12-12
TW201203224A (en) 2012-01-16
EP2532001A1 (en) 2012-12-12
AR080396A1 (es) 2012-04-04
RU2607264C2 (ru) 2017-01-10
EP2539893B1 (en) 2014-04-02
US9129597B2 (en) 2015-09-08
KR20120128156A (ko) 2012-11-26
JP5456914B2 (ja) 2014-04-02
JP2013522658A (ja) 2013-06-13
US20130117015A1 (en) 2013-05-09
AU2011226143B9 (en) 2015-03-19
WO2011110591A1 (en) 2011-09-15
AU2011226143B2 (en) 2014-08-28
ES2458354T3 (es) 2014-05-05
RU2012143340A (ru) 2014-04-20
CN102884572A (zh) 2013-01-16
US9524726B2 (en) 2016-12-20
CA2792500A1 (en) 2011-09-15
KR101445296B1 (ko) 2014-09-29
PL2539893T3 (pl) 2014-09-30
RU2012143323A (ru) 2014-04-20
US20130073296A1 (en) 2013-03-21
ES2461183T3 (es) 2014-05-19
WO2011110594A1 (en) 2011-09-15
BR112012022744B1 (pt) 2021-02-17
CN102884573B (zh) 2014-09-10
MX2012010439A (es) 2013-04-29
CA2792504A1 (en) 2011-09-15
EP2539893A1 (en) 2013-01-02
CN102884572B (zh) 2015-06-17
AU2011226143A1 (en) 2012-10-25
CA2792500C (en) 2016-05-03
PL2532001T3 (pl) 2014-09-30
RU2586848C2 (ru) 2016-06-10
CN102884573A (zh) 2013-01-16
TWI455113B (zh) 2014-10-01
AU2011226140A1 (en) 2012-10-18
CA2792504C (en) 2016-05-31
KR101445294B1 (ko) 2014-09-29
KR20130018761A (ko) 2013-02-25
JP5625076B2 (ja) 2014-11-12

Similar Documents

Publication Publication Date Title
TWI441170B (zh) 音訊信號解碼器、音訊信號編碼器、用以將音訊信號解碼之方法、用以將音訊信號編碼之方法、及使用編碼脈絡之音高相依適應技術之電腦程式
EP2573765B1 (en) Audio encoder and decoder
KR101411780B1 (ko) 이전의 디코딩된 스펙트럼 값들의 그룹의 검출을 이용하는 오디오 인코더, 오디오 디코더, 오디오 정보를 인코딩하기 위한 방법, 오디오 정보를 디코딩하기 위한 방법 및 컴퓨터 프로그램
CN111179953B (zh) 编码音频的编码器、音频发送***和确定校正值的方法
EP3217398B1 (en) Advanced quantizer
US9536533B2 (en) Linear prediction based audio coding using improved probability distribution estimation
CA3182037A1 (en) Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
US8825494B2 (en) Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program
TWI793666B (zh) 對多頻道音頻信號的頻道使用比例參數的聯合編碼的音頻解碼器、音頻編碼器和相關方法以及電腦程式
RU2662921C2 (ru) Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения
CN110291583B (zh) 用于音频编解码器中的长期预测的***和方法