TWI435317B - 音訊信號編碼器、音訊信號解碼器、用以提供音訊內容之編碼表示型態之方法、用以提供音訊內容之解碼表示型態之方法及使用於低延遲應用之電腦程式 - Google Patents

音訊信號編碼器、音訊信號解碼器、用以提供音訊內容之編碼表示型態之方法、用以提供音訊內容之解碼表示型態之方法及使用於低延遲應用之電腦程式 Download PDF

Info

Publication number
TWI435317B
TWI435317B TW099135557A TW99135557A TWI435317B TW I435317 B TWI435317 B TW I435317B TW 099135557 A TW099135557 A TW 099135557A TW 99135557 A TW99135557 A TW 99135557A TW I435317 B TWI435317 B TW I435317B
Authority
TW
Taiwan
Prior art keywords
audio content
window
domain
audio
encoded
Prior art date
Application number
TW099135557A
Other languages
English (en)
Other versions
TW201137861A (en
Inventor
Ralf Geiger
Markus Schnell
Jeremie Lecomte
Konstantin Schmidt
Guillaume Fuchs
Nikolaus Rettelbach
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of TW201137861A publication Critical patent/TW201137861A/zh
Application granted granted Critical
Publication of TWI435317B publication Critical patent/TWI435317B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

音訊信號編碼器、音訊信號解碼器、用以提供音訊內容之編碼表示型態之方法、用以提供音訊內容之解碼表示型態之方法及使用於低延遲應用之電腦程式 發明領域
依據本發明之實施例係有關一種用以基於音訊內容之輸入表示型態而提供該音訊內容之編碼表示型態之音訊信號編碼器。
依據本發明之實施例係有關一種用以基於音訊內容之編碼表示型態而提供該音訊內容之解碼表示型態之音訊信號解碼器。
依據本發明之實施例係有關一種用以基於音訊內容之輸入表示型態而提供該音訊內容之編碼表示型態之方法。
依據本發明之實施例係有關一種用以基於音訊內容之編碼表示型態而提供該音訊內容之解碼表示型態之方法。
依據本發明之實施例係有關一種用以執行該等方法之電腦程式。
依據本發明之實施例係有關一種用於帶有低延遲之統一語音及音訊編碼之新穎編碼方案。
發明背景
後文中將簡短解說本發明之背景,方便協助瞭解本發明及其優點。
過去十年間,大量努力致力於以良好位元率效率而可能數位式儲存與配送音訊內容。此一方面有一項重大成就係國際標準ISO/IEC 14496-3的定義。此一標準的第三部分係有關音訊內容的編碼及解碼,而第三部分的第四次部分係有關一般音訊編碼。ISO/IEC 14496第三部分,第四次部分定義一般音訊內容的編碼及解碼構想。此外,業已提示進一步改良來改善品質及/或減低所要求的位元率。
此外,已經發展音訊編碼器及音訊解碼器其特別適合用於編碼及解碼語音信號。此等語音最佳化音訊編碼器係描述於例如第三代協作項目計畫的技術規格「3GPP TS 26.090」、「3GPP TS 26.190」、及「3GPP TS 26.290」。
業已發現有多項應用其中期望低的編碼及解碼延遲。舉例言之,及時多媒體應用期望低度延遲,原因在於顯著延遲將導致此項應用給使用人不愉悅的印象。
但也發現品質與位元率間之良好折衷,偶爾要求取決於音訊內容而在不同編碼模間作切換。業已發現音訊內容的變異導致期望在編碼模間作改變,例如變換編碼激勵線性預測域模與碼激勵線性預測域模(例如代數碼激勵線性預測域模)間改變,或頻域模與碼激勵線性預測域模間改變。原因在於實際上有些音訊內容(或接續音訊內容之某些部分)可於該等模中之一者以較高編碼效率編碼,而其它音訊內容(或相同接續音訊內容之某些部分)可於該等模中之一不同者以較佳編碼效率編碼。
有鑑於此種情況,發現期望在不同模間切換而無需大量位元率窗外間接管理資料量用於切換,且未顯著地有損音訊品質(例如呈現切換「喀嚓(click)」形式)。此外,發現不同模間的切換須與具有低編碼及解碼延遲的目的為可相容性。
有鑑於此種情況,本發明之目的係形成一種用於多模音訊編碼的構想,當在不同編碼模間切換時,其獲致位元率效率、音訊品質與延遲間的良好折衷。
發明概要
依據本發明之實施例形成一種用以基於一音訊內容之輸入表示型態提供該音訊內容之編碼表示型態之音訊信號編碼器。該音訊信號編碼器包含一變換域路徑,其係組配來基於欲以變換域模編碼之該音訊內容部分之時域表示型態,而獲得一頻譜係數集合及雜訊成形資訊(例如定標因數資訊或線性預測域參數資訊),使得頻譜係數描述該音訊內容之一雜訊成形(例如經定標因數處理或經線性預測域雜訊成形)版本之頻譜。該變換域路徑包含一時域至頻域變換器,其係組配來開窗該音訊內容之一時域表示型態或其前處理版本,而獲得該音訊內容之開窗表示型態,且施加時域至頻域變換來自該音訊內容之開窗時域表示型態導算出一頻譜係數集合。該音訊信號編碼器也包含一碼激勵線性預測域路徑(簡短標示為CELP路徑),其係組配來基於欲以碼激勵線性預測域模(也簡短標示為CELP模)編碼的音訊內容部分(例如代數碼激勵線性預測域模),獲得一碼激勵資訊(例如代數碼激勵資訊)及一線性預測域參數資訊。該時域至頻域變換器係組配來若音訊內容之目前部分係被該欲以變換域模編碼的音訊內容之一隨後部分所跟隨,且若該音訊內容之目前部分係被欲以CELP模編碼的音訊內容之一隨後部分所跟隨,則施加一預定非對稱分析窗用於欲以變換域模編碼的音訊內容且係接在欲以變換域模編碼的音訊內容部分後方之目前部分的開窗。該音訊信號編碼器係組配來若該音訊內容之目前部分(其係以變換域模編碼)係為欲以CELP模編碼的該音訊內容之隨後部分所跟隨,則選擇性地提供頻疊抵消資訊。
依據本發明之實施例係基於發現藉由在變換域模與CELP模間切換,可獲得編碼效率(例如以平均位元率表示)、音訊品質與編碼延遲間的良好折衷,其中欲以變換域模編碼的音訊內容部分的開窗係與其中編碼該音訊內容之隨後部分的模不相干地,及其中藉由選擇性提供頻疊抵消資訊而使得頻疊假影(artifacts)的減少或抵消變成可能,該頻疊假影係來自於使用開窗而其並未特別調適變遷朝向以CELP模編碼的該音訊內容部分。如此,藉由選擇性提供頻疊抵消資訊,可能使用一窗用於以變換域模編碼的音訊內容部分(例如訊框或次訊框)的開窗,該等窗包含與該等音訊內容之隨後部分的時間重疊(或甚至頻疊抵消重疊)。如此允許一序列以變換域模編碼的音訊內容之隨後部分的良好編碼效率,原因在於此等窗的使用獲致音訊內容之隨後部分間的時間重疊,形成可能具有特別有效的重疊及增上的解碼器端。此外,若音訊內容之目前部分係被該欲以變換域模編碼的音訊內容之一隨後部分所跟隨,且若該音訊內容之目前部分係被欲以CELP模編碼的音訊內容之一隨後部分所跟隨,則藉由使用相同窗對欲以變換域模編碼的音訊內容且係接在以變換域模編碼的該音訊內容部分後方之該部分開窗,可將延遲維持於低延遲。換言之,得知其中音訊內容之隨後部分的編碼模並非選擇一窗用於音訊內容之目前部分的開窗所必須。如此,編碼延遲維持於小值,原因在於用於音訊內容之隨後部分編碼的編碼模已知之前,可執行音訊內容之目前部分的開窗。雖言如此,藉由使用開窗而導入的假影,可於解碼器端使用頻疊抵消資訊而予抵消,該窗並非完美適合用於自以變換域模編碼的音訊內容部分變遷至以CELP模編碼的該音訊內容部分。
如此,獲得良好平均編碼效率,即便自以變換域模編碼的音訊內容部分變遷至以CELP模編碼的該音訊內容部分的變遷要求若干額外頻疊抵消資訊亦如此。藉由提供頻疊抵消資訊,音訊品質維持於低品質;而藉由做出與其中音訊內容之隨後部分的編碼模不相干的窗的選擇,延遲可維持於小值。要言之,如前文討論之音訊編碼器組合良好位元率效率與低編碼延遲,而仍然允許良好音訊品質。
於較佳實施例,該時域至頻域變換器係組配來若該音訊內容之目前部分係被欲以變換域模編碼的音訊內容之一隨後部分所跟隨,且若該音訊內容之目前部分係被欲以CELP模編碼的音訊內容之一隨後部分所跟隨,則施加相同窗用於欲以變換域模編碼的音訊內容且係接在欲以變換域模編碼的音訊內容部分後方之目前部分的開窗。
於較佳實施例,該預定非對稱窗包含一左半窗及一右半窗,其中該左半窗包含一左側變遷斜坡,其中該等窗值係自零單調地增加至一窗中心值(位在該窗中心的一值);及一過衝部分,其中該等窗值係大於該窗中心值,及其中該窗包含一最大值。該右半窗包含一右側變遷斜坡,其中該等窗值係自該窗中心值單調地減至零,及一右側零部分。藉由使用此種非對稱窗,編碼延遲維持特小。又,經由強調使用過衝部的左半窗,在變遷朝向以CELP模編碼的該音訊內容部分的頻疊假影維持為較小。如此,頻疊抵消資訊可以位元率有效方式編碼。
於較佳實施例,該左半窗包含不大於零窗值的1%,及該右側零部分包含該右半窗的該等窗值之至少20%長度。發現此種窗特別適合應用音訊編碼器於變換域模與CELP模間的切換。
於較佳實施例,預定非對稱分析窗之右半窗的該等窗值係小於窗中心值,使得預定非對稱分析窗之右半窗不具有過衝部分。業已發現此種窗形狀導致在朝向以CELP模編碼的該音訊內容部分變遷處的較小頻疊假影。
於較佳實施例,預定非對稱分析窗之非零部分為較短,比訊框長度至少短10%。如此,延遲維持特小。
於較佳實施例,音訊信號編碼器係組配來使得欲以變換域模編碼的音訊內容之隨後部分包含至少40%的時間重疊。此種情況下,音訊編碼器也較佳係組配來使得該欲以變換域模編碼的音訊內容之目前部分及該欲以碼激勵線性預測域模編碼的該音訊內容之隨後部分包含時間重疊。該音訊信號編碼器係組配來選擇性地提供頻疊抵消資訊,使得該頻疊抵消資訊允許提供頻疊抵消信號用以自以變換域模編碼的音訊內容部分變遷至以CELP模編碼的該音訊內容部分時抵消頻疊假影。藉由提供欲以變換域模編碼的音訊內容之隨後部分(例如訊框或次訊框)間的有效重疊,可使用重疊的變換,類似例如修正離散餘弦變換用於時域至頻域變換,其中藉以變換域模編碼的隨後訊框間的重疊,而此種重疊變換的時域頻疊減少或甚至完全消除。但於自以變換域模編碼的音訊內容部分變遷至以CELP模編碼的該音訊內容部分,也有某些時間重疊,但其並未導致完美頻疊抵消(或甚至並未導致任何頻疊抵消)。時間重疊係用來避免在以不同模編碼的音訊內容部分間變遷時,訊框的過度修正。但為了減少或消除頻疊假影,其係來自於在以不同模編碼的音訊內容部分間變遷時的重疊,提供頻疊抵消資訊。此外,由於預定非對稱分析窗的非對稱性,頻疊維持較小,使得頻疊抵消資訊可以位元率有效方式編碼。
於較佳實施例,該音訊信號編碼器係組配來選擇一窗用於音訊內容之目前部分(其較佳係以變換域模編碼)的開窗,而與用來編碼時間上重疊該音訊內容之目前部分之該音訊內容之隨後部分所使用的模不相干地,使得該音訊內容之目前部分(其較佳係以變換域模編碼)的開窗表示型態重疊該音訊內容之隨後部分,即便該音訊內容之隨後部分係以CELP模編碼亦如此。該音訊信號編碼器係組配來回應於檢測得該音訊內容之隨後部分欲以CELP模編碼而提供頻疊抵消資訊,其中該頻疊抵消資訊表示將藉該音訊內容之隨後部分的變換域模表示型態所表示(或含括於)的頻疊抵消信號組分。另外,頻疊抵消係基於自以變換域模編碼的音訊內容部分變遷至以CELP模編碼的該音訊內容部分時的頻疊抵消資訊而達成,該頻疊抵消(另外,亦即於以變換域模編碼的音訊內容之隨後部分存在下)係藉由重疊及加總以變換域模編碼的音訊內容兩部分之時域表示型態而達成。如此,經由使用用頻疊抵消資訊,在該模切換之前的音訊內容部分開窗可保持不受影響,而協助減少延遲。
於較佳實施例,該時域至頻域變換器係組配來施加預定非對稱分析窗用於欲以變換域模編碼的音訊內容且係接在欲以CELP模編碼的該音訊內容部分後方的目前部分的開窗,使得與其中該音訊內容之先前部分的編碼模不相干地,及與其中該音訊內容之隨後部分的編碼模不相干地,欲以變換域模編碼的音訊內容部分係使用相同的預定非對稱分析窗開窗。也施加開窗使得該欲以變換域模編碼的音訊內容之目前部分的開窗表示型態在時間上係重疊欲以CELP模編碼的該音訊內容之先前部分。如此可獲得特別簡單的開窗方案,其中以變換域模編碼的音訊內容部分經常性地(例如整塊音訊內容)使用相同的預定非對稱分析窗編碼。如此,無需傳訊使用哪一型分析窗而可提高位元率效率。又,可維持極小的編碼器複雜度(及解碼器複雜度)。發現如前文討論之非對稱分析窗極為適合用於自變換域模變換至CELP模,及自CELP模變換至變換域模。
於較佳實施例,該音訊信號編碼器係組配來若該音訊內容之目前部分係接在以CELP模編碼的該音訊內容之先前部分後方,則選擇性地提供頻疊抵消資訊。業已發現頻疊抵消資訊的提供也可用於此種變換,及允許確保良好音訊品質。
於較佳實施例,該時域至頻域變換器係組配來施加與該預定非對稱分析窗不同的一專用非對稱變遷分析窗用於欲以變換域模編碼的音訊內容且係接在以CELP模編碼的該音訊內容部分後方之目前部分的開窗。又,業已發現變換後,使用專用預定非對稱分析窗不會導致顯示額外延遲,原因在於是否須使用專用預定非對稱分析窗的判定可基於需要判定時已可取得的資訊做判定。如此,可減少頻疊抵消資訊量,或於某些情況下,甚至可去除任何頻疊抵消資訊的需要。
於較佳實施例,碼激勵線性預測域路徑(CELP路徑)為代數碼激勵線性預測域路徑(ACELP路徑),其係組配來基於欲以代數碼激勵線性預測域模(ACELP模)(其係用作為碼激勵線性預測域模)編碼的音訊內容部分,而獲得代數碼激勵資訊及線性預測域參數資訊。
依據本發明之實施例形成一種用以基於一音訊內容之編碼表示型態而提供該音訊內容之解碼表示型態之音訊信號解碼器。該音訊信號解碼器包含一變換域路徑,其係組配來基於一頻譜係數集合及一雜訊成形資訊而獲得以變換域模編碼的音訊內容部分的時域表示型態。該變換域路徑包含一頻域至時域變換器,其係組配來施加頻域至時域變換及開窗,而自該頻譜係數集合或自其前處理版本來導算出該音訊內容之一開窗時域表示型態。該音訊信號解碼器也包含一碼激勵線性預測域路徑,其係組配來基於碼激勵資訊及線性預測域參數資訊而獲得以碼激勵線性預測域模編碼的該音訊內容之時域表示型態。該頻域至時域變換器係組配來若該音訊內容之目前部分係為以變換域模編碼的音訊內容之隨後部分所跟隨,且若該音訊內容之目前部分係為以CELP模編碼的該音訊內容之隨後部分所跟隨,則施加一預定非對稱合成窗,用於以變換域模編碼的音訊內容且係接在以變換域模編碼的該音訊內容之先前部分後方之目前部分的開窗。該音訊信號解碼器係組配來若以變換域模編碼的音訊內容之目前部分係為以CELP模編碼的該音訊內容之隨後部分所跟隨,則基於頻疊抵消資訊而選擇性地提供頻疊抵消信號。
此種音訊信號解碼器係基於發現藉由使用相同的預定非對稱合成窗用於以變換域模編碼的音訊內容部分,而與該音訊內容之隨後部分是否係與以變換域模編碼或以CELP模編碼無關,可獲得編碼效率、音訊品質與編碼延遲間的良好折衷。藉由使用非對稱合成窗,可改良音訊信號解碼器的低延遲特性。藉由具有施加至以變換域模編碼的音訊內容之隨後部分之各窗間的重疊,可維持高的編碼效率。雖言如此,於以不同模編碼的音訊內容部分間變遷的情況下,因重疊所導致的頻疊假影可藉頻疊抵消信號抵消,該頻疊抵消信號係在自以變換域模編碼的音訊內容部分(例如訊框或次訊框)變遷至以CELP模編碼的該音訊內容部分時選擇性地提供。此外,須指出此處所述音訊信號解碼器包含前述音訊信號編碼器的相同優點,及此處所述音訊信號解碼器極為適合用於與前文討論的音訊信號編碼器協力合作。
於較佳實施例,該頻域至時域變換器係組配來若該音訊內容之目前部分係為以變換域模編碼的音訊內容之隨後部分所跟隨,且若該音訊內容之目前部分係為以CELP模編碼的該音訊內容之隨後部分所跟隨,則施加相同窗用於以變換域模編碼的音訊內容且係接在以變換域模編碼的該音訊內容之先前部分後方之目前部分的開窗。
於較佳實施例,該預定非對稱合成窗包含一左半窗及一右半窗。該左半窗包含一左側零部分及一左側變遷斜坡,其中該等窗值係自零單調地增加至一窗中心值。該右半窗包含一過衝部分,其中該等窗值係大於該窗中心值,及其中該窗包含一最大值。該右半窗也包含一右側變遷斜坡,其中該等窗值係自該窗中心值單調地減低至零。業已發現此種預定非對稱合成窗的選擇導致特低的延遲,原因在於存在有左側零部分允許與該音訊內容之目前部分的時域音訊信號不相干地,直至該零部分(右側)端(該音訊內容先前部分之)一音訊信號的重建。如此,可以較小延遲而呈現音訊內容。
於較佳實施例,該左側零部分包含占該左半窗的窗值至少20%之長度,及該右半窗包含不大於零窗值之1%。業已發現此種非對稱窗極為適合用於低延遲應用,及此種預定非對稱合成窗也極為適合用於與前述優異的預定非對稱分析窗協力合作。
於較佳實施例,該預定非對稱合成窗之左半窗之窗值係小於該窗中心值,使得於預定非對稱合成窗之左半窗並無過衝部分。如此,組合前述非對稱分析窗,可達成良好低延遲的音訊內容重建。又,該窗包含良好頻率響應。
於較佳實施例,預定非對稱窗之非零部分係比一訊框長度至少短10%。
於較佳實施例,該音訊信號解碼器係組配來使得以變換域模編碼的音訊內容之隨後部分包含至少40%之時間重疊。該音訊信號解碼器也係組配來使得以變換域模編碼的音訊內容之目前部分及以碼激勵線性預測域模編碼之音訊內容的隨後部分包含時間重疊。該音訊信號解碼器係組配來基於該頻疊抵消資訊而選擇性地提供頻疊抵消信號,使得於自(以變換域模編碼的)該音訊內容之目前部分變遷至以CELP模編碼的該音訊內容之隨後部分,該頻疊抵消信號減少或抵消頻疊假影。藉由以變換域模編碼的音訊內容之隨後部分間的有效重疊,可獲得平滑變遷,且可抵消頻疊假影,頻疊假影可能係來自於使用重疊變換(類似例如修正離散餘弦反變換)。如此,藉由使用有效重疊,可促進一序列以變換域模編碼的音訊內容部分之隨後部分(例如訊框或次訊框)間的編碼效率及平順變遷。為了避免定框(framing)的不一致性,且為了允許與音訊內容之隨後部分的編碼模不相干地使用預定非對稱合成窗,接受以變換域模編碼的音訊內容之目前部分與以CELP模編碼的該音訊內容之隨後部分間存在有時間重疊。雖言如此,出現在此種變遷的汆影係藉頻疊抵消信號抵消。如此,可獲得變遷時的良好音訊品質,同時維持低度編碼延遲,及具有高的平均編碼效率。
於較佳實施例,該音訊信號解碼器係組配來與用於音訊內容之隨後部分的編碼模不相干地,選擇用於該音訊內容之目前部分開窗用的一窗,該音訊內容之隨後部分係與該音訊內容之目前部分時間重疊,使得該音訊內容之目前部分的開窗表示型態在時間上重疊該音訊內容之隨後部分(的表示型態),即便該音訊內容之隨後部分係以CELP模編碼亦如此。該音訊信號解碼器也係組配來回應於檢測得該音訊內容之其次部分係以CELP模編碼,而於自以變換域模編碼的音訊內容之目前部分變遷至以CELP模編碼的該音訊內容之其次(隨後)部分時,提供頻疊抵消信號減少或抵消頻疊假影。如此,若音訊內容之目前部分係為以變換域模編碼的音訊內容部分所跟隨,則可藉一隨後音訊框的時域表示型態抵消的此等頻疊假影,若音訊內容之目前部分確實被有以CELP模編碼的該音訊內容部分所跟隨,則係使用頻疊抵消信號抵消。由於此項機制,即便音訊內容之隨後部分係以CELP模編碼,仍可防止變遷品質的降級。
於較佳實施例,頻域至時域變換器係組配來施加該預定非對稱合成窗用於以變換域模編碼的音訊內容且係接在以CELP模編碼的該音訊內容部分後方之目前部分的開窗,使得以變換域模編碼的音訊內容部分係使用相同的預定非對稱合成窗開窗,而與其中該音訊內容之先前部分的編碼模不相干地,及與其中該音訊內容之隨後部分的編碼模也不相干。該預定非對稱合成窗之施加使得以變換域模編碼的音訊內容之目前部分之開窗時域表示型態在時間上係重疊以CELP模編碼的該音訊內容之先前部分之時域表示型態。如此,相同預定非對稱合成窗係用於以變換域模編碼的音訊內容部分,而與音訊內容之兩相鄰先前部分及隨後部分的編碼模不相干。如此,可能達成特別簡單的音訊信號解碼器之實施。又,無需使用合成窗類型的任何傳訊,其可減低位元率的需求。
於較佳實施例,該音訊信號解碼器係組配來,若音訊內容之目前部分係接在以CELP模編碼的該音訊內容之先前部分後方,則基於頻疊抵消資訊而選擇性地提供頻疊抵消信號。業已發現偶爾期望在自以CELP模編碼的音訊內容部分變遷至以變換域模編碼的該音訊內容部分時,也使用頻疊抵消資訊來處理頻疊。業已發現此種構想可帶來位元率效率與延遲特性間的良好折衷。
於另一個較佳實施例,該頻域至時域變換器係組配來施加與該預定非對稱合成窗不同的一專用非對稱變遷合成窗,用於以變換域模編碼的音訊內容且係接在以CELP模編碼的該音訊內容部分後方之目前部分的開窗。業已發現可藉此種構想而避免頻疊假影的存在。又,業已發現在變遷之後使用專用窗不會嚴重損害低延遲特性,原因在於此種專用窗的選擇上所需要的資訊在此種專用合成窗施加之時已可取得利用。
於較佳實施例,該碼激勵線性預測域路徑(CELP路徑)為一代數碼激勵線性預測域路徑(ACELP路徑),其係組配來基於代數碼激勵資訊及線性預測域參數資訊,而獲得以代數碼激勵線性預測域模(ACELP模)(其係用作為碼激勵線性預測域模)編碼之該音訊內容的時域表示型態。於多種情況下,藉由使用代數碼激勵線性預測域路徑作為碼激勵線性預測域路徑,可達成特高的編碼效率。
依據本發明之其它實施例形成一種基於一音訊內容之輸入表示型態而提供該音訊內容之編碼表示型態之方法;及一種基於一音訊內容之編碼表示型態而提供該音訊內容之解碼表示型態之方法。依據本發明之其它實施例形成一種用於執行該等方法中之至少一者的電腦程式。
該等方法及該等電腦程式係基於與前述音訊信號編碼器及前述音訊信號解碼器相同的發現,且可補償以就音訊信號編碼器及音訊信號解碼器所討論的全一項特徵及函數性。
較佳實施例之詳細說明
後文中,將敘述依據本發明之若干實施例。
此處須注意於後文所述實施例中,將描述代數碼激勵線性預測域路徑(ACELP路徑)作為碼激勵線性預測域路徑 (CELP路徑)之實例,及代數碼激勵線性預測域模(ACELP模)將描述作為碼激勵線性預測域模(CELP模)之實例。又,代數碼激勵資訊將描述作為碼激勵資訊。
雖言如此,但不同類型的碼激勵線性預測域路徑將用來替代此處所述ACELP路徑。舉例言之,替代ACELP路徑,碼激勵線性預測域路徑之任何其它變化例皆可使用,類似例如RCELP路徑、LD-CELP路徑或VSELP路徑。
要言之,不同的構想可用來實施碼激勵線性預測域路徑,其共通地具有:透過線性預測的語音產生來源濾波器模型其係用在音訊編碼器端及用在音訊解碼器端;及碼激勵資訊係在編碼器端藉直接編碼適用於激勵(或刺激)線性預測模(例如線性預測合成濾波器)用來重建欲以CELP模編碼的該音訊內容之一激勵信號(也標示為刺激信號)而導算出,而未執行變換成頻域;及激勵信號係在音訊解碼器端而自碼激勵資訊直接導算出,而未執行頻域至時域變換,用以重建適用於激勵(或刺激)線性預測模(例如線性預測合成濾波器)用來重建欲以CELP模編碼的該音訊內容之一激勵信號(也標示為刺激信號)。
換言之,於音訊信號編碼器及於音訊信號解碼器的CELP路徑典型地組合了線性預測域模型(或濾波器)(該模型或濾波器可較佳係組配來模型化聲道)與激勵信號(或刺激信號,或殘餘信號)的「時域」編碼或解碼。於該「時域」編碼或解碼,激勵信號(或刺激信號,或殘餘信號)可使用適當碼字組而直接編碼或解碼(未執行該激勵信號之時域至 頻域變換,或未執行該激勵信號之頻域至時域變換)用於激勵信號之編碼及解碼,可使用不同類型的碼字組。舉例言之,霍夫曼碼字組(或霍夫曼編碼方案,或霍夫曼解碼方案)可用於激勵信號樣本的編碼或解碼(使得霍夫曼碼字組可形成碼激勵資訊)。但另外,不同的適應性及/或固定式碼簿可用於激勵信號的編碼或解碼,選擇性地組合了向量量化或向量編碼/解碼(使得碼字組形成碼激勵資訊)。於若干實施例,代數碼簿可用於激勵信號(ACELP)的編碼或解碼,但不同型碼簿也適用。
搞要言之,存在有多種不同用於激勵信號之「直接」編碼的構想,其全部皆可用於CELP路徑。因此使用ACELP構想編碼及解碼(容後詳述)只可視為寬廣多項實施CELP路徑之可能性中的一個實例。
1.依據第1圖之音訊信號編碼器
後文中,依據本發明之實施例之音訊信號編碼器100將參考第1圖作說明,該圖顯示此種音訊信號編碼器100之方塊示意圖。音訊信號編碼器100係組配來接收一音訊內容之輸入表示型態110,及基於此而提供該音訊內容之編碼表示型態112。音訊信號編碼器100包含一變換域路徑120,其係組配來接收欲以變換域模編碼的音訊內容部分(例如訊框或次訊框)之一時域表示型態122,及基於該欲以變換域模編碼的音訊內容部分之該時域表示型態122,而獲得一頻譜係數集合124(其可以編碼形式提供)及一雜訊成形資訊126。變換路徑120係組配來提供頻譜係數124,使得該等頻 譜係數描述該音訊內容之一雜訊成形版本之頻譜。
音訊信號編碼器100也包含一代數碼激勵線性預測域路徑(簡稱作ACELP路徑)140,其係組配來接收欲以ACELP模編碼的該音訊內容部分之一時域表示型態142,及基於該欲以代數碼激勵線性預測域模(也簡稱作ACELP模)編碼的音訊內容部分,而獲得代數碼激勵資訊144及線性預測域參數資訊146。音訊信號編碼器100也包含頻疊抵消資訊提供160,其係組配來提供頻疊抵消資訊164。
變換域路徑包含一時域至頻域變換器130,其係組配來開窗該音訊內容之一時域表示型態122(或更精確言之,欲以變換域模編碼的音訊內容部分之一時域表示型態)或其前處理版本,來獲得該音訊內容之開窗表示型態(或更精確言之,欲以變換域模編碼的音訊內容部分之一開窗表示型態),及應用時域至頻域變換來自該音訊內容之開窗(時域)表示型態導算出一頻譜係數集合124。該時域至頻域變換器130係組配來若該音訊內容之目前部分係被欲以變換域模編碼的音訊內容之一隨後部分所跟隨,且若該音訊內容之目前部分係被欲以ACELP模編碼的音訊內容之一隨後部分所跟隨,則施加預定非對稱分析窗用於欲以變換域模編碼的該音訊內容且接在欲以變換域模編碼的音訊內容部分後方之目前部分的開窗。
該音訊信號編碼器或更精確言之,頻疊抵消資訊提供160係組配來若音訊內容之目前部分(其係推定以變換域模編碼)係為欲以ACELP模編碼的該音訊內容之隨後部分所 跟隨,則選擇性地提供頻疊抵消資訊。相反地,若音訊內容之目前部分(以變換域模編碼)係為欲以變換域模編碼的該音訊內容之另一部分所跟隨,則可未提供頻疊抵消資訊。
如此,同一個預定非對稱分析窗用於欲以變換域模編碼的該音訊內容部分的開窗,而與音訊內容之隨後部分是否欲以以變換域模編碼或以ACELP模編碼無關。預定非對稱分析窗典型地提供音訊內容之隨後部分(例如訊框或次訊框)間之重疊,其典型地導致良好編碼效率,及可能於音訊信號解碼器執行有效重疊及加法運算來藉此避免塊狀假影。但若音訊內容之兩個隨後(且部分重疊)部分係以變換域模編碼,則典型地也可能藉重疊及加法運算來於編碼器端消除頻疊假影。相反地,即便在以變換域模編碼的該音訊內容部分與欲以ACELP模編碼的該音訊內容之隨後部分間的變遷時使用預定非對稱分析窗,也會帶來後述挑戰,重疊及加法頻疊抵消用在以變換域模編碼的該音訊內容之隨後部分間的變遷效果良好,但此處重疊及加法頻疊抵消不再有效,原因在於典型地只有不具重疊(及更特別不具淡入開窗或淡出開窗)的時間上銳度受限制的樣本區塊才係以ACELP模編碼。
但發現可使用用在以變換域模編碼的該音訊內容之隨後部分間之變遷時的相同非對稱分析窗,甚至係用在以變換域模編碼的該音訊內容部分與以ACELP模編碼的該音訊內容之隨後部分間,只要在此變遷時選擇性地提供頻疊抵消資訊即可。
如此,時域至頻域變換器130並不要求知曉其中音訊內容之隨後部分之編碼模來判定哪一個分析窗須用於音訊內容之目前時間部分的分析。結果,延遲可維持極小而仍然使用非對稱分析窗,該窗提供足夠重疊來允許於解碼器端的有效重疊及加法運算。此外,可自變換域模切換至ACELP模而未顯著危害音訊品質,原因在於在此種變遷提供頻疊抵消資訊164來考慮實際上預定非對稱分析窗並未完美地適應用於此種變遷。
後文中,將解說音訊信號編碼器100之若干進一步細節。
1.1.有關變換域路徑之細節 1.1.1.依據第2a圖之變換域路徑
第2a圖顯示變換域路徑200之方塊示意圖,該變換域路徑200可替代變換域路徑120,及其可視為頻域路徑。
變換域路徑200接收欲以頻域模編碼之一音訊框的時域表示型態210,其中頻域模為變換域模之一實例。變換域路徑200係組配來基於該時域表示型態210而提供編碼頻譜係數集合214及編碼定標因數資訊216。變換域路徑200包含時域表示型態210之一選擇性前處理220,來獲得該時域表示型態210之一前處理版本220a。變換域路徑200也包含開窗221,其中預定非對稱分析窗(說明如前)係施加至時域表示型態210或其前處理版本220a,來獲得欲以頻域模編碼之該音訊內容部分之開窗時域表示型態221a。變換域路徑200也包含時域至頻域變換222,其中頻域表示型態222a係自欲以頻域模編碼之該音訊內容部分之開窗時域表示型態221 導算出。變換域路徑200也包含頻譜處理223,其中頻譜成形係應用至形成該頻域表示型態222a之頻域係數或頻譜係數。如此,例如以頻域係數或頻譜係數形式獲得頻譜定標頻域表示型態223a。量化及編碼224應用至頻譜定標(亦即頻譜成形)頻域表示型態223a,來獲得編碼頻譜係數集合240。
變換域路徑200也包含心理聲學分析225,其係組配來就頻率遮蔽效應及時間遮蔽效應而分析該音訊內容,來判定音訊內容之哪些組分(例如哪些頻譜係數)須以較高解析度編碼,而哪些組分(例如些頻譜係數)以較低解析度編碼即足。如此,心理聲學分析225例如可提供定標因數225a,其描述例如多個定標因數頻帶的心理聲學相關性。舉例言之,(較)大定標因數可能與(較)高心理聲學相關性的定標因數頻帶相關聯,而(較)小定標因數可能與(較)低心理聲學相關性的定標因數頻帶相關聯。
於頻譜處理223,頻譜係數222a係依據定標因數225a加權。舉例言之,不同定標因數頻帶之頻譜係數222a係依據與該等個別定標因數頻帶相關聯的定標因數225a加權。如此,於頻譜成形頻域表示型態223a,具有高心理聲學相關性的定標因數頻帶之頻譜係數的加權係高於具有較心理聲學相關性的定標因數頻帶之頻譜係數。據此,具有高心理聲學相關性的定標因數頻帶之頻譜係數,係藉量化/編碼224而以較高量化準確度有效量化,原因在於頻譜處理223的較高加權緣故。具有較低心理聲學相關性的定標因數頻 帶之頻譜係數,係藉量化/編碼224而以較低解析度有效量化,原因在於頻譜處理223的較低加權緣故。
結果,變換域路徑200提供編碼頻譜係數集合214及編碼定標因數資訊216,其為定標因數225a之編碼表示型態。編碼定標因數資訊216有效組成雜訊成形資訊,原因在於編碼定標因數資訊216描述於頻譜處理223的頻譜係數222a之定標,其有效地測定跨不同定標因數頻帶之量化雜訊的分布。
有關其進一步細節,請參考所謂「進階音訊編碼」的參考文獻,其中描述於頻域模中一音訊框之時域表示型態。
此外,須注意變換域路徑200典型地處理時間上重疊的音訊框。較佳,時域至頻域變換222包含重疊變換的執行,類似例如修正離散餘弦變換(MDCT)。如此,對具有N個時域樣本之一音訊框只提供約N/2個頻譜係數222a。如此,例如N/2個頻譜係數的編碼集合214不足以完美(或近完美)重建N個時域樣本之一訊框。反而,典型地要求兩個隨後訊框的重疊來完美地(或至少近完美地)重建該音訊內容之時域表示型態。換言之,典型地要求在解碼器端兩個隨後音訊框之頻譜係數的編碼集合214,來抵消以頻域模編碼的兩個隨後訊框之時間重疊區之頻疊。
但有關於自以頻域模編碼之一訊框至以ACELP模編碼之一訊框的頻疊如何抵消之進一步細節容後詳述。
1.1.2.依據第2b圖之變換域路徑
第2b圖顯示變換域路徑230之方塊示意圖,該變換域路徑230可替代變換域路徑120。
可被考慮作為變換編碼激勵線性預測域路徑的變換域路徑230,接收欲以變換編碼激勵線性預測域模(也簡稱作TCX-LPD模)編碼的音訊框之時域表示型態240,其中該TCX-LPD模為變換域模的實例。變換域路徑230係組配來提供編碼頻譜係數集合244及編碼線性預測域參數246,其可被考慮作為雜訊成形資訊。變換域路徑230選擇性地包含前處理250,其係組配來提供時域表示型態240之前處理版本250a。變換域路徑也包含線性預測域參數計算251,其係組配來基於時域表示型態240運算線性預測域濾波參數251a。線性預測域參數計算251例如可組配來執行時域表示型態240的相關性(correlation)分析,而獲得線性預測域濾波參數。舉例言之,線性預測域參數計算251可如第三代協作項目計畫的文件「3GPP TS 26.090」、「3GPP TS 26.190」、及「3GPP TS 26.290」所述。
變換域路徑230也包含基於LPC之濾波262,其中時域表示型態240或其前處理版本250a,其係使用依據線性預測域濾波參數251a而組配的濾波器濾波。如此,藉基於線性預測域濾波參數251a濾波262獲得濾波時域信號262a。濾波時域信號262a係於開窗263而開窗來獲得開窗時域信號263a。該開窗時域信號263a係藉時域至頻域變換264而轉成頻域表示型態,來獲得一頻譜係數集合264a作為時域至頻域變換264結果。該頻譜係數集合264a隨後係於量化/編碼265而經量化及編碼,來獲得編碼頻譜係數集合244。
變換域路徑230也包含線性預測域濾波參數251a之量 化及編碼266,來提供編碼線性預測域參數246。
有關變換域路徑230之函數性,可謂線性預測域參數計算251提供線性預測域濾波參數251a,其施加於濾波262。濾波時域信號262a乃時域表示型態240之或其前處理版本250a之頻譜成形版本。概略言之,可謂濾波262執行雜訊成形,使得比較時域表示型態240所表示的音訊內容對可理解性較不重要的時域表示型態240頻譜組分,時域表示型態240所描述的音訊信號對可理解性較重要的時域表示型態240組分係作較高加權。如此,對音訊內容的可理解性較為重要的時域表示型態240之頻譜組分的頻譜係數264a係強調優於對音訊內容的可理解性較不重要的頻譜組分的頻譜係數264a。
結果,與較為重要的時域表示型態240之頻譜組分相關聯的頻譜係數將以比較較低重要性的頻譜組分之頻譜係數更高的量化準確度而量化。如此,由量化/編碼250所引起的量化雜訊係經成形,使得(就音訊內容的可理解性而言)較重要的頻譜組分比(就音訊內容的可理解性而言)較不重要的頻譜組分受量化雜訊的影響較不嚴重。
如此,編碼線性預測域參數246可考慮作為雜訊成形資訊,其係以編碼形式描述濾波262,其已經應用於成形量化雜訊。
此外,須注意較佳重疊變換用於時域至頻域變換264。舉例言之,修正離散餘弦變換(MDCT)用於時域至頻域變換器264。如此,由變換域路徑所提供的編碼頻譜係數244之 數目係小於音訊框之時域樣本數目。舉例言之,編碼N/2頻譜係數集合244可提供用於包含N時域樣本的一音訊框。基於與該音訊框相關聯的編碼N/2頻譜係數集合244,不可能達成該音訊框的N時域樣本之完美(或近完美)重建。反而,兩個隨後音訊框之已重建時域表示型態間的重疊及加法要求抵消時域頻疊,該情況係由下述事實所引起,較少數例如N/2頻譜係數係與N時域樣本之音訊框相關聯。如此,典型地要求在解碼器端,重疊以TCX-LPD模編碼的兩個隨後音訊框之時域表示型態,來抵消該二隨後訊框間的時間重疊區的頻疊假影。
但以TCX-LPD模編碼的與以ACELP模編碼的隨後音訊框間之變遷的頻疊抵消機制容後詳述。
1.1.3.依據第2c圖之變換域路徑
第2c圖顯示變換域路徑260之方塊示意圖,該路徑於某些實施例可替代變換域路徑120,可視為變換碼激勵線性預測域路徑。
變換域路徑260係組配來接收欲以TCX-LPD模編碼的一音訊框之時域表示型態,且基於此而提供編碼頻譜係數集合274及編碼線性預測域參數276,其可考慮為雜訊成形資訊。變換域路徑260包含選擇性前處理280,其可與前處理250相同,及提供時域表示型態270之前處理版本。變換域路徑260也包含線性預測域參數計算281,其可與線性預測域參數計算251相同,及其提供線性預測域濾波參數281a。變換域路徑260也包含線性預測域至頻域變換282, 其係組配來來接收線性預測域濾波參數281a,及基於此而提供線性預測域濾波參數的頻域表示型態282b。變換域路徑260也包含開窗283,其係組配來接收270或其前處理版本280a,及提供時域至頻域變換284之開窗時域信號283a。時域至頻域變換284提供一頻譜係數集合284a。該頻譜係數集合284係於頻譜處理285經頻譜處理。舉例言之,該等頻譜係數284a各自係依據線性預測域濾波參數之頻域表示型態282a之相關聯值而定標。如此,獲得一已定標(亦即頻譜已成形)頻譜係數集合285a。量化及編碼286係施加至該已定標頻譜係數集合285a來獲得已編碼頻譜係數集合274。如此,其頻域表示型態282a之相關聯值包含較大值的頻譜係數284a在頻譜處理285中被給予較高權值;其頻域表示型態282a之相關聯值包含較小值的頻譜係數284a在頻譜處理285中被給予較小權值;其中該等權值係藉頻域表示型態282a之值測定。
選擇性地,變換域路徑260執行與變換域路徑230相似的頻譜成形,即便頻譜成形係藉頻譜處理285執行而非藉濾波器排組262執行亦如此。
再度,線性預測域濾波參數281a係於量化/編碼288經量化及編碼而獲得已編碼之線性預測域參數276。已編碼之線性預測域參數276係以編碼形式描述藉頻譜處理285執行的雜訊成形。
再度,須注意時域至頻域變換284較佳係使用重疊變換執行,使得編碼頻譜係數集合274比較一個音訊框的例如N 個時域樣本數目,典型地包含較小數例如N/2頻譜係數。如此,基於單一編碼頻譜係數集合274,不可能完美(或近完美)重建以TCX-LPD訊框編碼的音訊框。反而,以TCX-LPD訊框編碼的兩個隨後音訊框之時域表示型態典型地於音訊信號解碼器重疊及相加來抵消頻疊假影。
但後文將說明自以TCX-LPD訊框編碼的音訊框變遷至以ACELP模編碼的音訊框時,用於頻疊假影抵消的構想。
1.2.有關代數碼激勵線性預測域路徑之細節
後文中,將敘述有關代數碼激勵線性預測域路徑140之若干細節。
ACELP路徑140包含線性預測域參數計算150,某些情況下,可能與線性預測域參數計算251及線性預測域參數計算281相同。ACELP路徑140也包含ACELP激勵運算152,其係組配來依據欲以ACELP模編碼的該音訊內容部分之時域表示型態142,及也依據由線性預測域參數計算150所提供的線性預測域參數150aa(其可為線性預測域濾波參數)而提供ACELP激勵資訊152。ACELP路徑140也包含ACELP激勵資訊152之編碼154來獲得代數碼激勵資訊154。此外,ACELP路徑140包含線性預測域參數資訊150a之量化及編碼156來獲得已編碼之線性預測域參數資訊146。須注意ACELP路徑可包含相似於或甚至等於如第三代協作項目計畫的文件「3GPP TS 26.090」、「3GPP TS 26.190」、及「3GPP TS 26.290」所述函數性。但於若干實施例也可應用基於時域表示型態142所提供的代數碼激勵資訊144及線性預測域 參數資訊146之構想。
1.3.有關頻疊抵消資訊提供之細節
後文中,將解說有關頻疊抵消資訊提供160之若干細節,其係用來提供頻疊抵消資訊164。
須注意較佳頻疊抵消資訊係在自以變換域模編碼的該音訊內容部分(例如以頻域模或以以TCX-LPD模)變遷至以ACELP模編碼的該音訊內容之隨後部分時選擇性地提供;而頻疊抵消資訊的提供係在自以變換域模編碼的該音訊內容部分變遷至也以變換域模編碼的該音訊內容部分時刪除。頻疊抵消資訊164例如可編碼適用於抵消頻疊假影的信號,該頻疊假影係包括於基於頻譜係數集合124及雜訊成形資訊126,藉由個別解碼(不含與以變換域模編碼的該音訊內容之隨後部分之時域表示型態的重疊及加法)該音訊內容部分所獲得的該音訊內容部分之時域表示型態。
如前述,藉由基於頻譜係數集合124及基於雜訊成形資訊126而解碼單一音訊框所得的時域表示型態包含時域頻疊,該時域頻疊係藉由使用時域至頻域變換中及也於音訊解碼器的頻域至時域變換器的重疊變換所引起。
頻疊抵消資訊提供160例如也包含合成結果運算170,其係組配來運算一合成結果信號170a,使得該合成結果信號170a描述合成結果,其也將基於頻譜係數集合124及基於雜訊成形資訊126而個別解碼音訊內容的目前部分而於音訊信號解碼器獲得。合成結果信號170a可饋至誤差運算172,其也接收該音訊內容的輸入表示型態110。誤差運算 172可比較合成結果信號170a與該音訊內容的輸入表示型態110,及提供誤差信號172a。誤差信號172a描述藉音訊信號解碼器可獲得的合成結果與音訊內容之輸入表示型態110間之差。至於主要促成誤差信號172典型地係由時域頻疊判定,誤差信號172極為適合用於解碼器端的頻疊抵消。頻疊抵消資訊提供160也包含誤差編碼174,其中該誤差信號172a係編碼來獲得頻疊抵消資訊164。如此,誤差信號172a係以下述方式編碼,該方式選擇性地調整適應誤差信號172a的預期信號特性,來獲得頻疊抵消資訊164,使人頻疊抵消資訊係以位元率有效方式描述該誤差信號172a。如此,頻疊抵消資訊164允許解碼器端的頻疊抵消信號的重建,其係適用於自以變換域模編碼的音訊內容部分變遷至以ACELP模編碼的該音訊內容隨後部分時,減少或甚至消除頻疊假影。
不同編碼構想可用於誤差編碼174。舉例言之,誤差信號172a可藉頻域編碼(其包含時域至頻域變換,來獲得頻譜值,及該頻譜值之量化及編碼)編碼。可應用不同型量化雜訊之雜訊成形。但另外,可使用不同音訊編碼構想來編碼誤差信號172a。
此外,可於音訊解碼器導出的額外誤差抵消信號可考慮於誤差運算172。
2.依據第3圖之音訊信號解碼器
後文中,將描述音訊信號解碼器,其係組配來接收由音訊信號解碼器100所提供的編碼音訊表示型態112,及解 碼該編碼音訊內容表示型態。第3圖顯示依據本發明之實施例此種音訊信號解碼器300之方塊示意圖。
音訊信號解碼器300係組配來接收音訊內容之編碼表示型態310,及基於此而提供音訊內容之解碼表示型態312。
音訊信號解碼器300包含變換域路徑320,其係組配來接收一頻譜係數集合322及一雜訊成形資訊324。該變換域路徑320係組配來基於該頻譜係數集合322及該雜訊成形資訊324而獲得以變換域模(例如頻域模或變換碼激勵線性預測域模)編碼的該音訊內容部分之一時域表示型態326。音訊信號解碼器300也包含代數碼激勵線性預測域路徑340。代數碼激勵線性預測域路徑340係組配來接收代數碼激勵資訊342及線性預測域參數資訊344。代數碼激勵線性預測域路徑340係組配來基於代數碼激勵資訊342及線性預測域參數資訊344而獲得以代數碼激勵線性預測域模編碼的音訊內容部分之一時域表示型態346。
音訊信號解碼器300進一步包含一頻疊抵消信號提供器360,其組配以接收一頻疊抵消資訊362,並基於此頻疊抵消資訊362以提供一頻疊抵消信號364。
音訊信號解碼器300進一步係組配來例如使用一380,組合以變換域模編碼的該音訊內容部分之時域表示型態326與以ACELP模編碼的該音訊內容部分之時域表示型態346,而獲得音訊內容解碼表示型態312。
變換域路徑320包含頻域至時域變換器330,其係組配來施加頻域至時域變換332及開窗334,來自該頻譜係數集 合322或其前處理版本導算出該音訊內容之時域表示型態。頻域至時域變換器330係組配來若該音訊內容之目前部分係為以變換域模編碼的音訊內容之隨後部分所跟隨且若該音訊內容之目前部分係為以ACELP模編碼的該音訊內容之隨後部分所跟隨,則施加相同窗用於以變換域模編碼的音訊內容且接在以變換域模編碼的該音訊內容之先前部分後方之目前部分的開窗。
音訊信號解碼器(或更精確言之,頻疊抵消低號提供器360)係組配來若(以變換域模編碼的)該音訊內容之目前部分係以ACELP模編碼的該音訊內容之隨後部分所跟隨,則基於頻疊抵消資訊362而選擇性地提供頻疊抵消信號364。
有關音訊信號解碼器300之函數性,可謂音訊信號解碼器300可提供音訊內容之解碼表示型態312,其部分係以不同模編碼,換言之,以變換域模或ACELP模編碼。對以變換域模編碼的該音訊內容部分(例如訊框或次訊框),變換域路徑320提供一時域表示型態326。但以變換域模編碼的該音訊內容之一訊框的時域表示型態326可包含時域頻疊,原因在於頻域至時域變換器330典型地使用反重疊變換來提供該時域表示型態326。於反重疊變換中,例如可為修正離散餘弦反變換(IMDCT),一頻譜係數集合322可對映至該訊框之時域樣本,其中該訊框之時域樣本數目可大於與該訊框相關聯的頻譜係數322數目。舉例言之,可能有N/2頻譜係數與該音訊框相關聯,而藉變換域路徑320對該訊框提供N時域樣本。如此,藉由重疊及加法(例如於組合380)對以 變換域編碼的兩個隨後訊框所得(時移)時域表示型態,獲得實質上不含頻疊的時域表示型態。
但於自以變換域模編碼的音訊內容部分(例如訊框或次訊框)變遷至以ACELP模編碼的該音訊內容部分時,頻疊抵消較為困難。較佳,以變換域模編碼的一訊框或一次訊框之該時域表示型態在時間上延伸入其(非零)時域樣本係藉ACELP分支提供的時間部分(典型地呈區塊形式)。又,以變換域模編碼的該音訊內容部分且係位在以ACELP模編碼的該音訊內容之隨後部分前方,典型地包含某種程度的時域頻疊,但該時域頻疊無法藉ACELP分支對以ACELP模編碼的該音訊內容部分所提供的時域樣本所抵消(但若音訊內容之隨後部分係以變換域模編碼,則該時域頻疊可藉時域分支所提供的時域表示型態實質上抵消)。
但於自以變換域模編碼的音訊內容部分變遷至以ACELP模編碼的該音訊內容部分時的頻疊,藉頻疊抵消信號提供器360所提供的頻疊抵消信號364所減少或甚至消除。為了達成此項目的,頻疊抵消信號提供器360評估頻疊抵消資訊,及基於此而提供時域頻疊抵消信號。頻疊抵消信號364係加總至例如藉變換域路徑對以變換域模編碼的該音訊內容部分所提供的N時域樣本之例如,時域表示型態右半(或較短的右側部)來減少或甚至消除時域頻疊。頻疊抵消信號364可加至如下二者:加至其中以ACELP模編碼的該音訊內容部分之(非零)時域表示型態346未重疊以變換域模編碼的該音訊內容之時域表示型態的一時間部分;及加至 其中以ACELP模編碼的該音訊內容部分之(非零)時域表示型態346重疊以變換域模編碼的該音訊內容之時域表示型態的一時間部分。於以變換域模編碼的該音訊內容部分與以ACELP模編碼的該音訊內容之隨後部分間可獲得平順變遷(沒有「喀嚓」假影)。使用頻疊抵消信號,可於此種變遷時減少或甚至消除頻疊假影。
結果,音訊信號解碼器300可有效處理一序列以變換域模編碼的該音訊內容部分(例如訊框)。此種情況下,時域頻疊藉以變換域模編碼的隨後(時間上重疊)訊框之(例如N時域樣本之)時域表示型態之重疊及加法所抵消。如此,並無任何額外重疊而獲得平順變遷。舉例言之,經由評估每個音訊框N/2頻譜係數,及經由50%時框重疊,可使用臨界取樣。對此序列以變換域模編碼的音訊框獲得極佳編碼效率,同時避免大塊假影。
又,藉由使用相同的預定非對稱合成窗,可維持合理夠小的延遲,而與以變換域模編碼的該音訊內容之目前部分係為以變換域模編碼的該音訊內容之隨後部分所跟隨,抑或係為以ACELP模編碼的該音訊內容之隨後部分所跟隨無關。
此外,藉由使用基於頻疊抵消資訊而提供的頻疊抵消信號,以變換域模編碼的該音訊內容部分與以ACELP模編碼的該音訊內容之隨後部分間變遷的音訊品質可維持夠高,即便未使用特別調整適應的合成窗亦如此。
如此,音訊信號解碼器300提供編碼效率、音訊品質與 編碼延遲間的良好折衷。
2.1.有關變換域路徑之細節
後文中,將舉出有關變換域路徑320之細節。為了達成此項目的,將敘述變換域路徑320之實施例。
2.1.1.依據第4a圖之變換域路徑
第4a圖顯示變換域路徑400之方塊示意圖,其於依據本發明之若干實施例可替代變換域路徑320,及其可考慮作為頻域路徑。
變換域路徑400係組配來接收頻譜係數之編碼集合412及編碼定標因數資訊414。變換域路徑400係組配來以頻域模編碼的該音訊內容部分之時域表示型態416。
變換域路徑400包含解碼及反量化420,其接收該已編碼之頻譜係數集合412,及基於此而提供已解碼且已反量化之頻譜係數集合420a。變換域路徑400也包含解碼及反量化421,其接收編碼定標因數資訊414,及基於此而提供已解碼且已反量化定標因數資訊421a。
變換域路徑400也包含頻譜處理422,該頻譜處理422例如包含已解碼且已反量化之頻譜係數集合420a之定標因數逐頻帶定標(scale-factor-band-wise scaling)。如此獲得已定標的(亦即已經頻譜成形的)頻譜係數集合422a。於頻譜處理422,(較)小定標因數可施用至具有較高心理聲學相關性的此種定標因數頻帶,而(較)大定標因數可施用至具有較小的心理聲學相關性的此種定標因數頻帶。如此,比較具有較低心理聲學相關性的定標因數頻帶之頻譜係數的有效量化 雜訊,可達成具有較高心理聲學相關性的定標因數頻帶之頻譜係數具有較小的有效量化雜訊。於頻譜處理,頻譜係數420a可乘以個別相關聯的定標因數,來獲得已定標的頻譜係數422a。
變換域路徑400也可包含頻域至時域變換423,其係組配來接收已定標頻譜係數422a,及基於此而提供時域信號423a。舉例言之,頻域至時域變換可為反重疊變換,類似例如修正離散餘弦反變換。如此,頻域至時域變換423可基於N/2個已定標(已頻譜成形)頻譜係數422a提供例如N個時域樣本之時域表示型態423a。變換域路徑400也包含開窗424,其係施加至時域信號423a。舉例言之,如前述及容後詳述之預定非對稱合成窗可施加至時域信號423a而自其中導算出一開窗時域信號424a。選擇性地,可對該開窗時域信號424a施加後處理425來獲得以頻域模編碼的音訊內容部分之時域表示型態426。
如此,可考慮作為頻域路徑之變換域路徑420係組配來使用在頻譜處理422時施用的基於定標因數的量化雜訊成形,提供以頻域模編碼之音訊內容部分之時域表示型態416。較佳,對一組N/2個頻譜係數提供N個時域樣本之時域表示型態,其中由於下述事實,(對一給定訊框)時域表示型態之時域樣本數目係大於(例如2之因數或不同因數)該已編碼頻譜係數集合412(對該給定訊框)之頻譜係數數目,故該時域表示型態416包含若干頻疊。
但如前文討論,時域頻疊係藉以頻域編碼之音訊內容 之隨後部分間之重疊及加法運算而減少或抵消;或於以頻域模編碼之音訊內容部分與以ACELP模編碼的該音訊內容部分間變遷的情況下,係藉頻疊抵消信號364的加法而減少或抵消。
2.1.2.依據第4b圖之變換域路徑
第4b圖顯示變換碼激勵線性預測域路徑430之方塊示意圖,其為變換域路徑及其可替代變換域路徑320。
TCX-LPD路徑430係組配來接收已編碼之頻譜係數集合442及已編碼之線性預測域參數444,其可考慮作為雜訊成形資訊。TCX-LPD路徑430係組配來基於已編碼之頻譜係數集合442及已編碼之線性預測域參數444而提供以TCX-LPD模編碼的音訊內容部分之時域表示型態446。
TCX-LPD路徑430包含已編碼之頻譜係數集合442之解碼及反量化450,由於解碼及反量化結果,提供已解碼及反量化之頻譜係數集合450a。已解碼及反量化之頻譜係數集合450a輸入頻域至時域變換451,其基於已解碼及反量化之頻譜係數提供時域信號451a。頻域至時域變換451例如可包含基於已解碼及反量化之頻譜係數450a而執行反重疊變換,來由於該反重疊變換結果提供時域信號451a。舉例言之,可執行修正離散餘弦反變換來自已解碼及反量化之頻譜係數集合450a導算出時域信號451a。於重疊變換之情況下,時域表示型態451a之時域樣本數目(例如N)可大於輸入頻域至時域變換的頻譜係數450a數目(例如N/2),使得例如響應於N/2頻譜係數450a,可提供該時域信號451a之N個時 域樣本。
TCX-LPD路徑430也包含開窗452,其中施加合成窗函數用於該時域信號451a之開窗,來導算出已開窗時域信號452a。舉例言之,預定非對稱合成窗可應用於開窗452來獲得已開窗時域信號452a作為時域信號451a的開窗版本。TCX-LPD路徑430也包含解碼及反量化453,其中自已編碼線性預測域參數444導算出已解碼線性預測域參數資訊453a。已解碼線性預測域參數資訊例如可包含(或描述)線性預測濾波器之濾波係數。濾波係數例如可如第三代協作項目計畫的文件「3GPP TS 26.090」、「3GPP TS 26.190」、及「3GPP TS 26.290」所述解碼。如此,濾波係數453a可用來基於線性預測碼濾波454而濾波開窗時域信號452a。換言之,用來自開窗時域信號452a導算出濾波時域信號454a的濾波(例如有限脈衝響應濾波)係數可依據描述該等濾波係數的已解碼線性預測域參數資訊453a而調整。如此開窗時域信號452a,可用作為基於線性預測碼濾波454(其係依據濾波係數453a而調整)之刺激信號。
選擇性地,後處理455可應用來自濾波時域信號454a導算出以TCX-LPD模編碼的音訊內容部分之時域表示型態446。
摘要而言,藉編碼線性預測域參數444描述的濾波454係應用來自濾波刺激信號452a,其係藉已編碼頻譜係數集合442描述,導算出以TCX-LPD模編碼的音訊內容部分之時域表示型態446。據此,對此等信號獲得良好編碼效率,此 等信號相同可預測,亦即,其極為適應性地用於線性預測濾波器。對於此等信號,刺激可藉一編碼頻譜係數集合442而有效編碼,而信號的其它相關性特性可由濾波454考慮,濾波係依據線性預測濾波係數453a測定。
但須注意藉由應用重疊變換於頻域至時域變換451,將時域頻疊導入時域表示型態446。時域頻疊可藉以TCX-LPD模編碼的音訊內容隨後部分之(時移)時域表示型態446的重疊及加法而抵消。時域頻疊另外可在以不同模組編的音訊內容部分間變遷時,使用頻疊抵消信號364而減少或抵消。
2.1.3.依據第4c圖之變換域路徑
第4c圖顯示變換域路徑460之方塊示意圖,於依據本發明之若干實施例其可替代變換域路徑320。
變換域路徑460係使用頻域雜訊成形的變換碼激勵線性預測域路徑(TCX-LPD路徑)。TCX-LPD路徑460係組配來接收一編碼頻譜係數集合472及已編碼線性預測域參數474,其可視為雜訊成形資訊。TCX-LPD路徑460係組配來基於編碼頻譜係數集合472及已編碼線性預測域參數474,而提供以TCX-LPD模編碼的音訊內容部分之時域表示型態476。
TCX-LPD路徑460包含解碼/反量化480,其係組配來接收已編碼頻譜係數集合472,及基於此而提供已解碼及反量化之頻譜係數480a。TCX-LPD路徑460也包含解碼/反量化481,其係組配來接收已編碼頻譜係數集合472,及基於此而提供已解碼及反量化之線性預測域參數481a,類似例如 線性預測編碼(LPC)濾波器之濾波係數。TCX-LPD路徑460也包含線性預測域至頻域變換482,其係組配來接收該已解碼及反量化之線性預測域參數481,而提該線性預測域參數481a的頻域表示型態482a。舉例言之,頻域表示型態482a可為藉線性預測域參數481a描述的濾波響應之頻域表示型態。TCX-LPD路徑460進一步包含頻譜處理483,其係組配來依據線性預測域參數481的頻域表示型態482a而定標頻譜係數480a,來獲得一已定標的頻譜係數集合483a。舉例言之,各個頻譜係數480a可乘以定標因數,其係根據(或依據)頻域表示型態482a之頻譜係數中之一個或多個判定。如此,頻譜係數480a之權值係藉已編碼線性預測域參數482所描述的線性預測編碼濾波器的頻譜響應而有效測定。例如,對於線性預測濾波器包含較大頻率響應之該等頻率之頻譜係數480a,於頻譜處理483,可以小型定標因數定標,使得與該頻譜係數480a相關聯的量化雜訊減低。相反地,對於線性預測濾波器包含較小頻率響應之該等頻率之頻譜係數480a,於頻譜處理483,可以較高定標因數定標,使得此等頻譜係數480a的有效量化雜訊較高。如此頻譜處理483有效獲致依據已編碼線性預測域參數472的量化雜訊成形。
已定標之頻譜係數483a輸入頻域至時域變換484來獲得時域信號484a。頻域至時域變換484例如可包含重疊變換,類似例如修正離散餘弦反變換。據此,時域表示型態484a可為基於已定標(亦即已頻譜成形)之頻譜係數483a的此種頻域至時域變換執行的結果。須注意時域表示型態 484a可包含時域樣本數目係大於輸入該頻域至時域變換的已定標之頻譜係數483a數目。據此,時域樣本484a包含時域頻疊組分,其係藉以TCX-LPD模編碼的音訊內容隨後部分(例如訊框或次訊框)之時域表示型態476的重疊及加法而抵消;或於以不同模編碼的音訊內容部分間變遷的情況下,係藉頻疊抵消信號364而抵消。
TCX-LPD路徑460可包含開窗485,其係應用於開窗時域信號484a來自其中導算出一已開窗時域信號485a。於該開窗485,於依據本發明之若干實施例可使用預定非對稱合成窗,容後詳述。
選擇性地,可應用後處理486來自該已開窗時域信號485a導算出時域表示型態476。
摘述TCX-LPD路徑460之函數性,可謂於TCX-LPD路徑460中心部分的頻譜處理483,雜訊成形係應用於已解碼及反量化之頻譜係數480a,其雜訊成形係依據線性預測域參數調整。隨後,使用頻域至時域變換484,基於已定標之雜訊成形頻譜係數483a提供已開窗時域信號485a,其中較佳係使用導入若干頻疊的重疊變換。
2.2.有關ACELP路徑之細節
後文中,將描述有關ACELP路徑340之若干細節。
須注意ACELP路徑340與ACELP路徑140比較時可執行反函數性。ACELP路徑340包含代數碼激勵資訊342的解碼350。解碼350包含對激勵信號運算之已解碼的代數碼激勵資訊350a及後處理351,其又轉而提供ACELP激勵信號 351a。ACELP路徑也包含線性預測域參數之解碼352。解碼352接收線性預測域參數資訊344,及基於此而提供線性預測域參數352a,類似例如線性預測濾波器(也標示為LPC濾波器)之濾波係數。ACELP路徑也包含合成濾波353,其係組配來依據該352a而濾波激勵信號351a。如此,由於合成濾波353結果而獲得合成時域信號353a,其於後處理354選擇性地經後處理來導算出以ACELP模編碼的該音訊內容部分之時域表示型態346。
ACELP路徑係組配來提供以ACELP模編碼的該音訊內容之時間有限部分的時域表示型態。舉例言之,時域表示型態346可自我一致地表示音訊內容部分的時域信號。換言之,時域表示型態346可不含時域頻疊,且可能受塊狀窗所限。如此,時域表示型態346即足以重建明確劃界的時間區塊(具有塊狀窗形狀)的音訊信號,即便須小心在此區塊邊界並無大塊假影亦如此。
進一步細節容後詳述。
2.3.有關頻疊抵消信號提供器之細節
後文中,將描述有關頻疊抵消信號提供器360之若干細節。頻疊抵消信號提供器360係組配來接收頻疊抵消資訊362,及執行該頻疊抵消資訊362的解碼370而獲得已解碼的頻疊抵消資訊370a。頻疊抵消信號提供器360也係組配來基於已解碼的頻疊抵消資訊370a而執行頻疊抵消信號364之重建。
頻疊抵消信號提供器360可以不同形式編碼,討論如 前。舉例言之,頻疊抵消資訊362可以頻域表示型態或以線性預測域表示型態編碼。如此,不同的量化雜訊成形構想可應用於頻疊抵消信號的重建372。於某些情況下,得自以頻域模編碼之音訊內容部分的定標因數可應用於頻疊抵消信號364的重建。於若干其它情況下,線性預測域參數(例如線性預測濾波係數)可應用於頻疊抵消信號364之重建372。另外或此外,例如除了頻域表示型態之外,雜訊成形資訊可含括於已編碼之頻疊抵消資訊362。此外,來自於變換域路徑320或來自ACELP分支340之額外資訊可選擇性地用於頻疊抵消信號364的重建372。此外,開窗也可用於頻疊抵消信號的重建372,容後詳述。
要言之,不同的信號解碼構想可用來依據頻疊抵消資訊362之格式,基於頻疊抵消資訊362而提供頻疊抵消信號364。
3.開窗及頻疊抵消構想
後文中,有關可應用於音訊信號編碼器100及音訊信號解碼器300之開窗之頻疊抵消構想容後詳述。
後文中,將提供於低延遲統一語音及音訊編碼(USAC)之窗序列狀態之描述。
於低延遲統一語音及音訊編碼(USAC)發展之目前實施例,未使用具有延伸重疊至過去的得自進階音訊編碼加強低延遲(AAC-ELD)之低延遲窗。反而係使用正弦窗或與ITU-T G.718標準(例如於時域至頻域變換器130及/或頻域至時域變換器330)所使用相同的或相似的低延遲窗。此種 G.718窗具有類似進階音訊編碼加強低延遲窗(AAC-ELD窗)的非對稱形狀來減少延遲,但只有二時間重疊(2x重疊),亦即與標準正弦窗相同的重疊。隨後各圖(特別第5至9圖)顯示正弦窗與G.718窗間之差異。
須注意下列各圖中,假設訊框長度為400樣本來使得圖中格柵更加配合窗。但實際系統中以512訊框長度為佳。
3.1.正弦窗與G.718分析窗間之比較(第5至9圖)
第5圖顯示正弦窗(以虛線表示)與G.718分析窗(以實線表示)之比較。參考第5圖,其顯示正弦窗與G.718分析窗之窗值的線圖型,須注意橫座標510描述以具有0至400樣本指標之時域樣本表示時間,及縱座標512描述窗值(例如可為標準化窗值)。
如第5圖可知,實線520表示之G.718分析窗為非對稱性。如圖可知,左半窗(時域樣本0至199)包含一變遷斜坡522,其中窗值自0單調地增至窗中心值1;及一過衝部分524,其中窗值係大於窗中心值1。於過衝部分524,窗包含最大值524a。G.718分析窗520也包含於中心526之中心值1。G.718分析窗520也包含一右半窗(時域樣本201至400)。右半窗包含一右側變遷斜坡520a,其中窗值自窗中心值1單調地減至0。右半窗也包含右側零部分530。須注意G.718分析窗520可用時域至頻域變換器130,來開窗具有400樣本之訊框長度的一部分(例如訊框或次訊框),其中該訊框之最末50個樣本因G.718分析窗的右側零部分530之故而不加以考慮。如此,時域至頻域變換可始於訊框的全部400個樣本可 利用之前。反而利用目前分析訊框的350個樣本即足以開始時域至頻域變換。
又,包含(只)在右半窗的過衝部分524之該窗520之非對稱形狀,極為適合用於音訊信號編碼器/音訊信號解碼器處理連鎖中的低延遲信號的重建。
綜上所述,第5圖顯示正弦窗(虛線)與G.718分析窗(實線)之比較,其中於G.718分析窗520右側的50個樣本導致編碼器(比較使用正弦窗的編碼器)中的50個樣本的延遲縮減。
第6圖顯示正弦窗(虛線)與G.718合成窗(實線)之比較。橫座標610描述以時域樣本表示時間,其中該時域樣本具有0至400樣本指標,及縱座標612描述(標準化)窗值。
如圖可知,可用於頻域至時域變換器330開窗的G.718合成窗620包含一左半窗及一右半窗。左半窗(樣本0至199)包含左側零部分622及左側變遷斜坡624,其中該等窗值自零(樣本50)單調地增至窗中心值例如1。G.718合成窗620也包含中心窗值1(樣本200)。右側窗部分(樣本201至400)包含過衝部分628,其包含最大值628a。右半窗(樣本201至400)也包含右側變遷斜坡630,其中窗值係自窗中心值(1)單調地降至零。
G.718合成窗620可應用於變換域路徑320開窗來開窗以變換域模編碼的音訊框之400樣本。G.718窗左側之50個樣本(左側零部分622)導致解碼器中另外50個樣本的延遲減少(例如比較包含400個樣本之非零時間延伸的一窗)。延遲減少係來自於下述事實,在音訊內容之目前部分之時域表 示型態獲得之前,前一個音訊框之音訊內容可輸出至音訊內容之目前部分的第50個樣本位置。如此,前一個音訊框(或次音訊訊框)與目前音訊框(或次音訊框)間之(非零)重疊區係縮減左側零部分622之長度,其當提供解碼音訊表示型態時導致延遲縮減。但隨後訊框可位移50%(例如達200個樣本)。額外細節討論如下。
綜上所述,第6圖顯示正弦窗(虛線)與G.718合成窗(實線)之比較。G.718合成窗左側的50個樣本導致解碼器中另50個樣本的延遲縮減。G.718合成窗620可用於例如頻域至時域變換器330、開窗424、開窗452或開窗485。
第7圖顯示一序列正弦窗之線圖表示型態。橫座標710描述以音訊樣本值為單位表示之時間,及縱座標712描述標準化窗值。如圖可知,第一正弦窗720係與具有例如400音訊樣本(樣本指標0至399)之訊框長度的第一音訊框722相關聯。第二正弦窗730係與具有例如400音訊樣本(樣本指標200至599)之訊框長度的第二音訊框732相關聯。如圖可知,第二音訊框732係相對於第一音訊框722偏移200樣本。又,第一音訊框722及第二音訊框732包含例如200音訊樣本(樣本指標200至399)之時間重疊。換言之,第一音訊框722及第二音訊框732包含約50%(具有例如±1樣本之公差)之時間重疊。
第8圖顯示一序列G.718分析窗之線圖表示型態。橫座標810描述以時域音訊樣本為單位表示之時間,及縱座標812描述標準化窗值。第一G.718分析窗820係與自樣本0延 伸至樣本399的第一音訊框822相關聯。第二G.718分析窗830係與自樣本200延伸至樣本599的第二音訊框832相關聯。如圖可知,第一G.718分析窗820及第二G.718分析窗830包含例如150樣本(±1樣本)之時間重疊(只考慮非零窗值時)。有關此一議題,須注意第一G.718分析窗820係與自樣本0延伸至樣本399的第一音訊框822相關聯。但第一G.718分析窗820包含例如50樣本之右側零部分(右側零部分530),使得分析窗820、830之重疊(以非零窗值為單位測量)減至150樣本值(±1樣本值)。如第8圖可,兩相鄰音訊框822、832間有時間重疊(共200樣本值±1樣本值),兩個(及不多於2)窗820、830的非零部分間也有時間重疊(共150樣本值±1樣本值)。
須注意第8圖所示G.718分析窗序列可藉頻域至時域變換器130施用,及藉變換域路徑200、230、260施用。
第9圖顯示一序列G.718合成窗之線圖表示型態。橫座標910描述以時域音訊樣本為單位表示之時間,及縱座標912描述標準化合成窗值。
依據第9圖之G.718合成窗序列包含第一G.718合成窗920及第二G.718合成窗930。第一G.718合成窗920係第一訊框922(音訊樣本0至399)相關聯,其中該G.718合成窗920之左側零部分(相對應於左側零部分622)涵蓋多個例如約50個在第一訊框922起點之樣本。如此,第一G.718合成窗之非零部分自樣本50延伸至約樣本399。第二G.718合成窗930係與第二音訊框932其係自音訊樣本200延伸至音訊樣本599 相關聯。如圖可知,第二G.718合成窗930之左側零部分係自樣本200延伸至249,結果涵蓋多個例如約50個在第二音訊框932起點之樣本。第二G.718合成窗930之非零部分自樣本250延伸至約樣本599。如圖可知,介於第一G.718合成窗與第二G.718合成窗930之非零區間自樣本250至樣本399有重疊。額外G.718合成窗間之間隔均勻,如第9圖可知。
3.2.正弦窗及ACELP之序列
第10圖顯示一序列正弦窗(實線)及ACELP(標記方形線)之線圖表示型態。如圖可知,第一變換域音訊框1012自樣本0延伸至399,第二變換域音訊框1022自樣本200延伸至599,第一ACELP音訊框1032自樣本400延伸至799帶有樣本500至700間之非零值,第二ACELP音訊框1042自樣本600延伸至999帶有樣本700至900間之非零值,第三變換域音訊框1052自樣本800延伸至樣本1199,及第四變換域音訊框1062自樣本1000延伸至樣本1399。如圖可知,第二變換域音訊框1022與第一ACELP音訊框1032之非零部分間有時間重疊(樣本500至600間)。同理,第二ACELP音訊框1042之非零部分與第三變換域音訊框1052間有時間重疊(樣本800至900間)。
正向頻疊抵消信號1070(以虛線表示,且簡稱作FAC)係提供於自第二變換域音訊框1022至第一ACELP音訊框1032之變遷,及也提供於自第二ACELP音訊框1042至第三變換域音訊框1052之變遷。
如第10圖可知,變遷允許藉助於虛線顯示的正向頻疊 抵消1070、1072(FAC)而完美重建(或至少近似完美重建)。須注意正向頻疊抵消窗1070、1072之形狀僅供舉例說明之用而非反映正確值。用於對稱窗(諸如正弦窗),此項技術類似或甚至與也用於MPEG統一語音及音訊編碼(USAC)的技術相同。
3.3.模變換之開窗-第一選項
後文中,將參考第11及12圖敘述以變換域模編碼的該音訊框與以ACELP模編碼的該音訊框間變換的第一選項。
第11圖顯示依據低延遲統一語音及音訊編碼(USAC)開窗之示意表示型態。第11圖顯示一序列G.718分析窗(實線)、ACELP(以方形標記之線)及正向頻疊抵消(虛線)之線圖表示型態。
第11圖中,橫座標1110描述以(時域)音訊樣本為單位表示之時間,及縱座標1112描述標準化窗值。以變換域模編碼的第一音訊框係自樣本0延伸至399且標示以元件符號1122。第二音訊框係以變換域模編碼,及自樣本200延伸至599,標示以1132。第三音訊框係以ACELP模編碼,及自樣本400延伸至799,標示以1142。第四音訊框也係以ACELP模編碼,及自樣本600延伸至999,標示以1152。第五音訊框係以變換域模編碼,及自樣本800延伸至1199,標示以1162。第六音訊框係以變換域模編碼,及自樣本1000延伸至1399,標示以1172。
如圖可知,第一音訊框1122之音訊樣本係使用G.718分析窗1120開窗,其例如可與第5圖所示G.718分析窗520相 同。同理,第二音訊框1132之音訊樣本(時域樣本)係使用G.718分析窗1130開窗,其包含與G.718分析窗1120在樣本200至350間之非零重疊區,如第11圖可知。對音訊框1142,具有500至700之樣本指標的一區塊音訊樣本係以ACELP模編碼。但具有400至500及也具有700至800間之樣本指標的音訊樣本並未考慮於與第三音訊框相關聯的ACELP參數(代數碼激勵資訊及線性預測域參數資訊)。如此,與第三音訊框1142相關聯的ACELP參數(代數碼激勵資訊144及線性預測域參數資訊146)只允許具有500至700之樣本指標的音訊樣本重建。同理,具有700至900之樣本指標的一區塊音訊樣本係與第四音訊框1152相關聯的以ACELP資訊編碼。換言之,對以ACELP模編碼的音訊框1142、1152,只有在個別音訊框1142、1152中心的時間有限的音訊樣本區塊被考慮於ACELP編碼。相反地,對以ACELP模編碼之音訊框,延長的左側零部分(例如約100樣本)及延長的右側零部分(例如約100樣本)在ACELP編碼中未被考慮。如此,須注意一個音訊框之ACELP編碼編碼約200個非零時域樣本(例如第三訊框1142之樣本500至700,及第四訊框1152之樣本700至900)。相反地,每個音訊框有較高數目的非零音訊樣本係以變換域模編碼。舉例言之,對一個音訊框有約350音訊樣本係以變換域模編碼(例如第一音訊框1122之音訊樣本0至349,及第二音訊框1132之音訊樣本200至549)。此外,G.718分析窗1160施加來開窗該等時域樣本用於第五音訊框1162之變換域模編碼。G.718分析窗1170施加來開窗該等 時域樣本用於第六音訊框1172之變換域模編碼。
如圖可知,G.718分析窗1130之右側變遷斜坡(非零部分)時間上重疊第三音訊框1142編碼之一區塊1140(非零)音訊樣本。但實際上G.718分析窗1130之右側變遷斜坡並未重疊一接續G.718分析窗之左側,結果導致時域頻疊組分的出現。但此種時域頻疊組分係使用正向頻疊抵消開窗(FAC開窗1136)測定,及以頻疊抵消資訊164形式編碼。換言之,出現在自以變換域模編碼的音訊框變遷至以ACELP模編碼的隨後音訊框變遷時的時域頻疊係使用FAC窗1136測定,及編碼而獲得頻疊抵消資訊164。FAC窗1136可應用於音訊信號編碼器100之誤差運算172或誤差編碼174。如此,頻疊抵消資訊164可以編碼形式表示出現在自第二音訊框1132至第三音訊框1142變遷處,其中該正向頻疊抵消窗1136可用來加權該頻疊(例如以音訊信號編碼器所得頻疊估值)。
同理,頻疊可出現在自以ACELP模編碼的第四音訊框1152變遷至以變換域模編碼的第五音訊框1162時。由G.718分析窗1162左側變遷斜坡並未重疊前一個G.718分析窗之右側變遷斜坡反而係重疊以ACELP模編碼的一區塊時域音訊樣本的事實,造成在此變遷時的頻疊例如係經測定(例如使用合成結果運算170及誤差運算172)及使用誤差編碼174編碼而獲得頻疊抵消資訊164。於頻疊信號之編碼174,可應用正向頻疊抵消窗1156。
要言之,頻疊抵消資訊選擇性地提供於自第二訊框1132至第三訊框1142之變遷,及也提供於自第四訊框1152 至第五訊框1162之變遷。
進一步摘要言之,第11圖顯示低延遲統一語音及音訊編碼之第一選項。第11圖顯示一序列G.718分析窗(實線)、ACELP(以方形標記之線)及正向頻疊抵消(FAC)(虛線)。發現對非對稱窗諸如G.718窗,該窗組合FAC帶來比習知構想的顯著改良。更特別達成編碼延遲、音訊品質與編碼效率間的良好折衷。
第12圖顯示與依據第11圖之構想相對應的一序列用於合成的線圖表示型態。換言之,第12圖顯示定框及開窗之線圖表示型態,其可用於依據第3圖之音訊信號解碼器300。
橫座標1210描述以(時域)音訊樣本表示的時間,及縱座標1212描述標準化窗值。第一音訊框1222係以變換域模編碼,自音訊樣本0延伸至399;第二音訊框1232係以變換域模編碼,自音訊樣本200延伸至599;第三音訊框1242係以ACELP模編碼,自音訊樣本400延伸至799;第四音訊框1252係以ACELP模編碼,自音訊樣本600延伸至999;第五音訊框1262係以變換域模編碼,自音訊樣本800延伸至1199;及第六音訊框1272係以變換域模編碼,自音訊樣本1000延伸至1399。藉頻域至時域變換423、451、484提供予第一音訊框1222的音訊樣本係使用第一G.718合成窗1220開窗,該窗可與依據第6圖之G.718合成窗620相同。同理,提供予第二音訊框1232之音訊樣本係使用G.718合成窗1230開窗。據此,具有音訊樣本指標0至399之音訊樣本,或更精確言之,具有音訊樣本指標50至399之非零音訊樣本係提供予第一 音訊框1222(亦即基於與第一音訊框1222相關聯的頻譜係數集合322及與第一音訊框1222相關聯的雜訊成形資訊324)。同理,具有音訊樣本指標200至599之音訊樣本提供予第二音訊框1232(帶有具樣本指標250至599之非零音訊樣本)。如此,提供予第一音訊框1222之(非零)音訊樣本與提供予第二音訊框1232之(非零)音訊樣本間有時間重疊。提供予第一音訊框1222之音訊樣本係與提供予第二音訊框1232之音訊樣本重疊及相加來藉此抵消頻疊。但具有音訊樣本指標200至599之音訊樣本提供予第二音訊框1232係使用第二G.718合成窗1230開窗。對以ACELP模編碼之第三音訊框1242,(非零)時域音訊樣本只提供於有限區塊1240內,原因在於其典型用於ACELP編碼。但提供予第二音訊框1232且使用G.718合成窗1230之右側變遷斜坡開窗的時域樣本係延伸入由區塊1240所界定的時間區,區塊1240之(非零)時域樣本只藉ACELP路徑340提供。但藉ACELP路徑340提供的時域樣本並不足以抵消G.718合成窗1230右半窗內的頻疊。但頻疊抵消信號係提供用以抵消於自以變換域模編碼的第二音訊框1232變遷至以ACELP模編碼的第三音訊框1242處的頻疊(亦即在第二音訊框1232與第三音訊框1242間之重疊區,其係自樣本400延伸至樣本599,或至少延伸入該重疊區之一部分)。該頻疊抵消信號係基於頻疊抵消資訊362提供,其可擷取自表示該編碼音訊內容的位元串流。頻疊抵消資訊經解碼(步驟370),及基於已解碼的頻疊抵消資訊362而重建頻疊抵消信號(步驟372)。正向頻疊抵消 窗1236係應用於頻疊抵消信號364的重建。據此,頻疊抵消信號減少或甚至消除位在以變換域模編碼之第二音訊框1232與以ACELP模編碼的第三音訊框1242間之變遷的頻疊,該頻疊通常係藉以變換域模編碼之隨後音訊框的(已開窗)時域樣本抵消(於不存在有變遷時)。
第四音訊框1252係以ACELP模編碼。據此,一區塊1250時域樣本係提供予第四音訊框1252。但須注意非零音訊樣本只藉ACELP分支340提供予第四音訊框1252中心部分。此外,延長的左側零部分(音訊樣本600至700)及延長的右側零部分(音訊樣本900至1000)係經由ACELP路徑提供予第四音訊框1152。
提供予第五音訊框1262之時域表示型態係使用G.718合成窗1260開窗。G.718合成窗1260之左側非零部分(變遷斜坡)時間上重疊藉ACELP路徑340提供予第四音訊框1252的非零音訊樣本之時間部分。如此,藉ACELP路徑340提供予第四音訊框1252的音訊樣本係與藉變換域模路徑提供予第五音訊框1262之音訊樣本重疊及相加。
此外,於自第四音訊框1252變遷至第五音訊框1262時(例如於第四音訊框1252與第五音訊框1262時間重疊期間),基於頻疊抵消資訊362,藉頻疊抵消信號提供器360提供頻疊抵消信號364。於重建頻疊抵消信號中,可施加頻疊抵消窗1256。據此,頻疊抵消信號364極為適合用於抵消頻疊,同時維持重疊及相加第四音訊框1252與第五音訊框1262之時域樣本的可能。
3.4.模變遷之開窗-第二選項
後文中,將敘述以不同模編碼之音訊框變遷的修正開窗。
須注意自變換域模變遷至ACELP模時,依據第13及14圖之開窗方案係與依據第11及12圖的開窗方案相同。但自ACELP模變遷至變換域模時,依據第13及14圖之開窗方案係與依據第11及12圖的開窗方案不同。
第13圖顯示低延遲統一語音及音訊編碼之第二選項之線圖表示型態。第13圖顯示G.718分析窗(實線)、ACELP(以方形標記之線)及正向頻疊抵消(虛線)之線圖表示型態。
正向頻疊抵消只用於自變換編碼器變遷至ACELP。用於自ACELP變遷至變換編碼器,使用矩形窗形於變遷窗左側來變換編碼模。
現在參考第13圖,橫座標1310描述以時域音訊樣本表示之時間,而縱座標1312描述標準化窗值。第一音訊框1322係以變換域模編碼,第二音訊框1332係以變換域模編碼,第三音訊框1342係以ACELP模編碼,第四音訊框1352係以ACELP模編碼,第五音訊框1362係以變換域模編碼,及第六音訊框1372也係以變換域模編碼。
須注意第一訊框1322、第二訊框1332及第三訊框1342之編碼係與參考第11圖所述第一訊框1122、第二訊框1132及第三訊框1142相同。但須注意如第13圖可知,第四音訊框1352中心部分1350之音訊樣本只使用ACELP分支340編碼。換言之,具有樣本指標700至900之時域樣本被考慮用於第四音訊框1352的ACELP資訊144、146的提供。為了第 五音訊框1362相關聯的變換域資訊124、126,於時域至頻域變換器130施加專用變遷分析窗1360(例如用於開窗221、263、283)。據此,編碼第四音訊框1352時藉ACELP路徑140編碼的時域樣本(在自ACELP編碼模變遷至變換域編碼模之前),在使用變換域路徑120編碼第五音訊框1362時不加以考慮。
專用變遷分析窗1360包含一左側變遷斜坡(於若干實施例可為一階級增高,而於若干其它實施例可為極為陡峭增高)、一恆定(非零)窗部及一右側變遷斜坡。但該專用變遷分析窗1360並未包含一過衝部分。反而專用變遷分析窗1360之窗值係限於G.718分析窗中之一者的窗中心值。也須注意專用變遷分析窗1360之右半窗或右側變遷斜坡可與另一個G.718分析窗的右半窗或右側變遷斜坡相同。
接在第五音訊框1362之後的第六音訊框1372係使用G.718分析窗1370開窗,該窗係與用於第一音訊框1322及第二音訊框1332開窗的G.718分析窗1320、1330相同。更特別G.718分析窗1370之左側變遷斜坡時間上重疊專用變遷分析窗1360的右側變遷斜坡。
綜上所述,在以ACELP域編碼的前一個音訊框之後,專用變遷分析窗1360應用於以變換域編碼的音訊框之開窗。此種情況下,以ACELP域編碼的前一個音訊框1352的音訊樣本(例如具有樣本指標700至900的音訊樣本),由於專用變遷分析窗1360形狀原故而不考慮用於以變換域編碼的隨後音訊框1362的編碼。為了達成此項目的,專用變遷分 析窗1360包含用於以ACELP模編碼之音訊樣本(例如用於ACELP區塊1350之音訊樣本)的零部分。
據此,自ACELP模至變換域模間之變遷並無頻疊。但須施加專用窗形型,亦即專用變遷分析窗1360。
現在參考第14圖,將敘述解碼構想,其係適用於參考第13圖討論的編碼構想。
第14圖顯示與依據第13圖之分析相對應的一序列合成之線圖表示型態。換言之,第14圖顯示該序列合成窗其可用於依據第3圖之音訊信號解碼器300之線圖表示型態。橫座標1410描述以音訊樣本為單位表示之時間及縱座標1412描述標準化窗值。第一音訊框1422係以變換域模編碼而使用G.718合成窗1420解碼,第二音訊框1432係以變換域模編碼而使用G.718合成窗1430解碼,第三音訊框1442係以ACELP模編碼及解碼來獲得一ACELP區塊1440,第四音訊框1452係以ACELP模編碼及解碼來獲得一ACELP區塊1450,第五音訊框1462係以變換域模編碼而使用專用變遷合成窗1460解碼,及第六音訊框1472係以變換域模編碼而使用G.718合成窗1470解碼。
須注意第一音訊框1422、第二音訊框1432及第三音訊框1442之解碼係與已經參考第12圖描述音訊框1222、1232、1242之解碼相同。但於自以ACELP模編碼之第四音訊框1452至以變換域模編碼之第五音訊框1462變遷的解碼不同。
專用變遷合成窗1460與G.718合成窗1260不同,在於專 用變遷合成窗1460之左半窗經調整適合專用變遷合成窗1460具有用於藉ACELP路徑340提供的(非零)音訊樣本之零值。換言之,專用變遷合成窗1460包含零值,使得變換域路徑320只提供零時域樣本用於樣本時間情況,該等情況下ACELP路徑提供零時域樣本(亦即對區塊1450)。如此,避免對音訊框1452(非零時域樣本區塊1450)藉ACELP路徑所提供的(非零)時域樣本與對音訊框1462藉變換域路徑320所提供的時域樣本間之重疊。
此外,須注意除了左側零部分(樣本800至899),專用變遷合成窗1460包含一左側恆定部分(樣本900至999),其中窗值具中心窗值(例如窗值1)。如此,於專用變遷合成窗260之左側部避免或至少減少頻疊假影。專用變遷合成窗1460之右半窗較佳係與G.718合成窗之右半窗相同。
綜上所述,當使用變換域路徑320用於以變換域模編碼之音訊框且接在以CELP模編碼的前一個音訊框之後,提供以變換域模編碼之音訊內容部分的時域表示型態326時,專用變遷合成窗260用於開窗424、452、485。專用變遷合成窗1460包含左側零部分,例如占窗左半之50%(樣本800至899),及左側恆定部分占專用變遷合成窗1460左半之其餘50%(±1樣本)(樣本900至999)。專用變遷合成窗1460右半可與G.718合成窗右半相同,可包含過衝部分及右側變遷斜坡。如此可獲得以ACELP模編碼之訊框1452至以變換域模編碼之訊框1462間的無頻疊變遷。
進一步摘要,第13圖顯示低延遲統一語音及音訊編碼 之第二選項。第13圖顯示一序列G.718分析窗(實線)、ACELP(標記方形之線)及正向頻疊抵消(虛線)之線圖表示型態。正向頻疊抵消只用於自變換編碼器(變換域路徑)變遷至ACELP(ACELP路徑)。用於自ACELP變遷至變換編碼器,矩形(或階梯狀)窗形(例如樣本800至999)係用於變遷窗1360左側的變換編碼模。
第14圖顯示與第13圖之分析相對應的一序列合成之線圖表示型態。
3.5.選項之討論
二選項(亦即依據第11及12圖之選項及依據第13及14圖之選項)目前考慮用於低延遲統一語音及音訊編碼的發。第一選項(依據第11及12圖)具有下述優點,與良好頻率響應相同的窗係用於變換編碼的全部區塊。但缺點為必須編碼額外資料(例如正向頻疊抵消資訊)用於FAC部分。
第二選項具有下述優點,無需額外資料用於自ACELP變遷至變換編碼器的正向頻疊抵消(FAC)。但缺點為變遷窗(1360或1460)的頻率響應係比一般窗(1320、1330、1370;1420、1430、1470)的頻率響應更差。
3.6.模變遷之開窗-第三選項
後文中,將討論另一個選項。第三選項係使用矩形窗也用於變換編碼器至ACELP的變遷。但此種第三選項將造成額外延遲,原因在於變換編碼器與ACELP間的決策必須為事先已知的一個訊框。如此,此一選項對低延遲統一語音及音訊編碼而言並非最佳。雖言如此,第三選項可用於 若干實施例,此處延遲不具最高相關性。
4.其它實施例 4.1.綜論
後文中,將敘述具有低延遲的統一語音及音訊編碼(USAC)之另一個新穎編碼方案。特定言之,可用於頻域編解碼器AAC-ELD與時域編解碼器AMR-WB或AMR-WB+間的切換。該系統(或依據本發明之實施例)維持音訊編解碼器與語音編解碼器間內容相依性切換的優點,同時維持延遲對於通訊應用用途為夠低。利用用於AAC-ELD的低延遲濾波器排組(LD-MDCT)係藉變遷窗修正,其允許交叉衰減至及來自時域編解碼器,而比較AAC-ELD並未導入任何額外延遲。
須注意後文所述構想可用於依據第1圖之音訊信號編碼器100及/或用於依據第3圖之音訊信號解碼器300。
4.2.參考例1:統一語音及音訊編碼(USAC)
所謂的USAC編解碼器允許音樂模與語音模間的切換。於音樂模,利用類似進階音訊編碼(AAC)的基於MDCT之編解碼器。於語音模,利用類似適應性多率寬頻帶+(AMR-WB+)之編解碼器,於USAC編解碼器稱作「LPD模」。特別小心允許兩個模間的平順及有效變遷,容後詳述。
後文中,將描述自AAC變遷至AMR-WB+的構想。使用此種構想,切換至AMR-WB+前的最末訊框係使用類似進階音訊編碼(AAC)的「起始」窗的構想而開窗,但不具有與右側頻疊的時域。可利用64個樣本之變遷區,其中經AAC編 碼的樣本係交叉衰減至AMR-WB+編碼樣本。此點舉例說明於第15圖。第15圖於統一語音及音訊編碼自AAC變遷至AMR-WB+所使用的一窗之線圖表示型態。橫座標1510描述時間,及縱座標1512描述窗值。有關其細節,請參考第15圖。
後文中,將簡短敘述自AMR-WB+變遷至AAC的構想。當切換回進階音訊編碼(AAC)時,第一AAC訊框係使用AAC的「中止」窗相同的一窗開窗。藉此方式,於交叉衰減範圍導入時域頻疊,該頻疊係藉蓄意加總於時域編碼AMR-WB+信號的相對應負時域頻疊而抵消。顯示於第16圖,顯示自AMR-WB+變遷至AAC構想的線圖表示型態。橫座標1610描述以音訊樣本表示的時間,及縱座標1612描述窗值。有關其細節,請參考第16圖。
4.3.參考例2:MPEG-4增強的低延遲AAC(AAC-ELD)
所謂「增強的低延遲AAC」(也簡短標示為「AAC-ELD」或「進階音訊編碼增強的低延遲」)編解碼器係基於修正離散餘弦變換(MDCT)之特殊低延遲特性,也稱作「LD-MDCT」。於LD-MDCT重疊係延伸至4之因數,而非MDCT之2因數。此點之達成並無額外延遲,原因在於重疊係以非對稱方式加總,而且只利用來自過去的樣本。另一方面,預見至未來係在分析窗的右側減少達某個零值。分析窗及合成窗係分別顯示於第17及18圖,其中第17圖顯示於AAC-ELD之LD-MDCT之分析窗之線圖表示型態,及其中第18圖顯示於AAC-ELD之LD-MDCT之合成窗之線圖表示型態。第17圖中,橫座標1710描述以音訊樣本表示之時 間,及縱座標1712描述窗值。曲線1720描述分析窗之窗值。第18圖中,橫座標1810描述以音訊樣本表示之時間,及縱座標1812描述窗值,及曲線1820描述合成窗之窗值。
AAC-ELD編碼只利用此一窗,而未利用任何窗形狀或區塊長度的切換,其將導入延遲。此種單一窗(例如用於音訊信號編碼器依據第17圖之分析窗1720,及用於音訊信號解碼器依據第18圖之合成窗1820)對靜態信號及暫態信號二者用於任一型音訊樣本同等良好。
4.4.參考例之討論
後文中,將提供章節4.2及4.3所述參考例之簡短討論。
USAC編解碼器允許在音訊編解碼器與語音編解碼器間切換,但此項切換導入延遲。由於需要有個變遷窗來執行變遷成語音模,故需預見來判定下個訊框是否為語音訊框。若是,則目前訊框須以變遷窗開窗。如此,此種構想不適合用於通訊應用用途上要求的具有低延遲的編碼系統。
AAC-ELD編解碼器允許通訊應用用途上要求的低延遲,但用於以低位元率編碼的語音信號,此種編解碼器的效能比起也具有低延遲的專用語音編解碼器(例如AMR-WB)延遲滯後。
有鑑於此種情況,發現因而期望在AAC-ELD與語音編解碼器間切換來具有可供語音信號及音樂信號二者使用的最有效編碼模。也發現理想上此種切換不會對系統造成任何額外延遲的增加。
也發現對LD-MDCT,如同用於AAC-ELD,此種切換 成語音編解碼器不可能以直捷方式達成。也發現由語音節段之LD-MDCT窗所涵蓋的整個時域部分的編碼解決之道,將因LD-MDCT的四倍(4x)重疊而導致巨大的額外處理資料量。為了置換頻域編碼樣本之一個訊框(例如512頻率值),在時域編碼器須編碼4x512時域樣本。
有鑑於此,期望形成一種構想其可提供編碼效率、編碼延遲與音訊品質間的較佳折衷。
4.5.依據第19至23b圖之開窗構想
後文中,將敘述依據本發明之實施例之一種辦法,其允許AAC-ELD與時域編解碼器間之有效的且無延遲的切換。
於本章節所提示之辦法,係利用AAC-ELD之LD-MDCT(例如於時域至頻域變換器130或頻域至時域變換器330)且係藉變遷窗修訂,其允許有效切換至時域編解碼器而未導入任何額外的延遲。
窗序列實例示於第19圖。第19圖顯示AAC-ELD與時域編解碼器間切換用之窗序列實例。於第19圖,橫座標1910描述以音訊樣本表示之時間,及縱座標1912描述窗值。有關曲線表示之意義細節請參考第19圖之圖說。
舉例言之,第19圖顯示LD-MDCT分析窗1920a-1920e、LD-MDCT合成窗1930a-1930e、時域編碼信號之加權1940、及時域信號之時域頻疊之加權1950a、1950b。
後文中,將說明有關分析開窗之細節。為了進一步解說分析窗之序列,第20圖顯示不含合成窗之相同序列(或窗序列)(例如第19圖所示相同窗序列)。橫座標2010描述以音 訊樣本表示之時間,及縱座標2012描述窗值。換言之,第20圖顯示AAC-ELD與時域編解碼器間切換用之分析窗序列實例。有關曲線表示之意義細節請參考第20圖之圖說。
第20圖顯示LD-MDCT分析窗2020a-2020e、時域編碼信號之加權2040、及時域信號之時域頻疊之加權2050a、2050b。
第20圖可知由標準LD-MDCT窗2020a、2020b(如第17圖所示)直至時域編解碼器接管該交接點所組成的序列。自AAC-ELD至時域編解碼器的變遷無需特殊變遷窗。如此,對切換至時域編解碼器的判定無需預見(look-ahead),因此無需額外延遲。
自時域編解碼器變遷至AAC-ELD,需要特殊變遷窗2020c,但只有重疊時域編碼信號的(以時域編碼信號之加權2040指示)此窗的左側部係與標準AAC-ELD窗2020a、2020b、2020d、2020e不同。此一變遷窗2020c顯示於第21a圖,可與第21b圖之標準AAC-ELD分析窗作比較。
第21a圖顯示用於自時域編解碼器變遷至AAC-ELD的分析窗2020c之線圖表示型態。橫座標2110描述以音訊樣本表示之時間,及縱座標2112描述窗值。
曲線2120描述分析窗2020c之窗值呈於該窗內部位置之函數。
第21b圖顯示用於自時域編解碼器變遷至AAC-ELD的分析窗2020c、2120(實線)且與標準AAC-ELD的分析窗2020a、2020b、2020d、2020e、2170(虛線)作比較之線圖表 示型態。橫座標2160描述以音訊樣本表示之時間,及縱座標2162描述(標準化)窗值。
對第20圖之分析窗序列,進一步須注意接在變遷窗2020c之後的全部分析窗並未利用變遷窗2020c之非零部分左側的輸入表示型態。雖然此等窗係數(或窗值)係作圖於第20圖,但於實際處理上並未施用至輸入信號。此點係藉將變遷窗2020c之非零部分左側的分析開窗輸入緩衝器歸零而達成。
後文中,將說明有關合成開窗之細節。合成開窗可用於前述音訊解碼器。至於合成開窗,第22圖顯示相對應之序列。該序列類似分析開窗的時間反相版本,但因延遲考量故,應在此處個別說明。
換言之,第22圖顯示AAC-ELD與時域編解碼器間切換之合成窗序列實例之線圖表示型態。有關曲線表示之意義細節請參考第22圖之圖說。
第22圖中,橫座標2210描述以音訊樣本表示之時間,及縱座標2212描述窗值。第22圖顯示LD-MDCT合成窗2220a-2220e、時域編碼信號之加權2240、及時域信號之時域頻疊之加權2250a、2250b。
自AAC-ELD切換至時域編解碼器前,有個變遷窗2220c,其細節係如第23a圖之作圖。但此一變遷窗2220c並未於解碼器導入任何額外延遲,原因在於此一窗的左側部,亦即欲完成重疊-加法的部分,以及如此用於反LD-MDCT之時域輸出信號完美重建部分,係與標準 AAC-ELD合成窗(例如合成窗2220a、2220b、2220d、2220e)之左側部完全相同,如第23b圖可見。類似分析窗序列,此處也須注意位在變遷窗2220c前方的合成窗2220a、2220b部分,其可見係位在變遷窗2220c之非零部分的右側,實際上並未貢獻於輸出信號。於實際實施上,此點係藉由將變遷窗2220c之非零部分的右側之此等窗輸出值歸零而達成。
當自時域編解碼器切換返回AAC-ELD時無需特殊窗。標準AAC-ELD合成窗2220e可恰自AAC-ELD編碼信號部分起點開始使用。
第23a圖顯示自AAC-ELD變遷至時域編解碼器之合成窗2220c、2320之線圖表示型態。第23圖中,橫座標2310描述以音訊樣本表示之時間,及縱座標2312描述窗值。曲線2320描述合成窗2220c之窗值呈理想樣本位置之函數。
第23b圖顯示自AAC-ELD變遷至時域編解碼器之合成窗2220c(實線)之線圖表示型態,且與標準AAC-ELD合成窗2020a、2020b、2020d、2020e、2370(虛線)作比較。橫座標2360描述以音訊樣本表示之時間,及縱座標2362描述(標準化)窗值。
後文中,將描述時域編碼信號之加權。
雖然顯示於第20圖(分析窗序列)及第22圖(合成窗序列)二者,但時域編碼信號之加權僅施加一次,且較佳係於時域編碼及解碼亦即於解碼器300施加。但也可交替應用於編碼器,亦即在時域編碼之前,或交替應用於編碼器及解碼器二者,使得所得總加權係與第19、20及22圖所採用之加 權函數相對應。
自此等附圖進一步可知加權函數(加點標記之實線,線1940、2040、2240)所涵蓋的時域樣本之總範圍係比兩個輸入樣本訊框略長。更精確言之,本實例中,需要2*N+0.5*N以時域編碼的樣本來填補由未藉基於LD-MDCT之編解碼器所編碼的兩個訊框(每框有N個新的輸入樣本)。舉例言之,若N=512,則於時域須編碼2*515+256時域樣本,而非2*512頻譜值。如此,藉由切換至時域編解碼器及返回,只導入半個訊框之額外處理資料量。
後文將敘述有關時域頻疊之若干細節。變遷至時域編解碼器及返回變換編解碼器時,蓄意地導入時域頻疊來抵消由鄰近LD-MDCT所編碼之訊框所導入的時域頻疊。舉例言之,時域頻疊可藉頻疊抵消信號提供器360所導入。以點線標記的且標示以1950a、1950b、2050a、2050b、2250a、2250b之虛線表示此項運算的加權函數。時域編碼信號乘以此項加權函數,及然後分別以時間反相方式加至開窗時域信號或自其中扣除。
4.5.依據第24圖之開窗構想
後文中,將敘述變遷長度的其它設計。
更靠近觀察第20圖之分析序列及第22圖之合成序列,可知變遷窗並非彼此的確切時間反相版本。合成變遷窗並非彼此的確切時間反相版本。合成變遷窗(第23a圖)具有比分析變遷窗(第21a圖)更短的非零部分。對分析及合成二者,較長版本及較短版本皆屬可能且可不相干地選用。但 由於數種理由故其係以此種方式選用(如第20及22圖所示)。為了進一步闡釋,有兩項選擇之版本係以不同方式作圖於第24圖。
第24圖顯示AAC-ELD與時域編解碼器間之窗序列切換之變遷窗的其它選擇之線圖表示型態。第24圖中,橫座標2410描述以音訊樣本表示之時間,及縱座標2412描述窗值。第24圖顯示LD-MDCT分析窗2420a至2420e、LD-MDCT合成窗2430a至2430e、時域編碼信號之加權2440、及時域信號之時域頻疊之加權2450a至2450b。有關曲線類型細節請參考第24圖之圖說。
可知於本替代例中,顯示於第24圖,AAC-ELD至時域編解碼器變遷的時域頻疊之加權係延伸至左側。如此表示需要時域信號的額外部分,只為了蓄意時域頻疊(或時域頻疊抵消)緣故,而非由於實際交叉衰減。如此假設為無效且不必要。因此,較短的合成變遷窗及相對應較短的時域頻疊區(如第19圖所示)之替代之道用於自AAC-ELD變遷至時域編解碼器為佳。
另一方面,用於自時域編解碼器變遷至AAC-ELD,第24圖之較短的分析變遷窗(與第19圖比較)結果導致此窗的較惡劣頻率響應。又,此種變遷時第19圖之較長時域頻疊區無需任何額外樣本藉時域編解碼器編碼,原因在於此等樣本可得自時域編解碼器。因此,較長的變遷窗與對應的較長時域頻疊區交替(如第19圖所示)對於自時域編解碼器變遷至AAC-ELD為佳。
但須注意於編碼器100及解碼器300之若干實施例,可應用依據第24圖之開窗方案,即便第19圖之開窗方案施用於編碼器100及解碼器300顯然可獲致若干優點。
4.7.依據第25圖之開窗構想
後文中,將描述時域信號之另一種開窗及另一種定框。
至目前為止之敘述中,於施加時域編碼及解碼後,時域信號被視為只開窗一次。此種開窗程序也可分成二階段,一階段係在時域編碼前,而一階段係在時域編碼後。此點舉例說明於第25圖自AAC-ELD變遷至時域編解碼器。
第25圖顯示時域信號之另一種開窗及另一種定框之線圖表示型態。橫座標2510描述以音訊樣本表示之時間,及縱座標2512描述(標準化)窗值。第25圖顯示LD-MDCT分析窗值2520a-2520e、LD-MDCT合成窗2530a-2530d、用於時域編解碼器之前開窗之分析窗2542、用於時域編解碼器之後TDA疊頻/展頻及開窗之合成窗2552、用於時域編解碼器後第一MDCT之分析窗2562,及用於時域編解碼器後第一MDCT之合成窗2572。
第25圖也顯示時域編解碼器之定框的替代之道。於時域編解碼器,全部訊框可具有相等長度,而無需補償因變遷時非臨界取樣所導致遺漏的樣本。但然後需要MDCT編解碼器來藉具有比其它MDCT訊框更多頻譜值的時域編解碼器之後第一MDCT而補償(曲線2562及2572)。
總體而言,第25圖顯示之此種替代之道使得編解碼器極為類似統一語音及音訊編碼編解碼器(USAC編解碼 器),但具有遠較低的延遲。
此種替代之道之額外小量修正係藉矩形變遷來替代自時域編解碼器開窗變遷至AAC-ELD(曲線2542、2552、2562、2572),當自ACELP進入TCX時係於AMR-WB+進行。於使用AMR-WB+作為「時域編解碼器」之編解碼器,如此也表示於ACELP訊框後,並無自ACELP直接變遷至AAC-ELD,反而經常性有TCX訊框介於其間。藉此方式,消除由於此項特殊變遷所導致的可能額外延遲,整個系統具有低抵AAC-ELD延遲之延遲。此外,如此使得切換更具可撓性,原因在於於語音狀信號之情況下,有效切換回AAC-ELD比較自AAC-ELD切換至ACELP更有效,原因在於ACELP及TCX共享相同LPC濾波。
4.8.依據第26圖之開窗構想
後文中,將敘述對時域編解碼器饋以TDA信號及達成臨界取樣之替代之道。
第26圖顯示替代變化例。更精確言之,第26圖顯示對時域編解碼器饋以TDA信號及藉此達成臨界取樣之替代之道。橫座標2610描述以音訊樣本表示之時間,及縱座標2612描述(標準化)窗值。第12圖顯示LD-MDCT分析窗值2620a-2620e、LD-MDCT合成窗2630a-2630e、用於時域編解碼器之前開窗及TDA之分析窗2642a、及用於時域編解碼器之後TDA展頻及開窗之合成窗2652a。有關曲線細節,請參考第26圖之圖說。
於本變化例中,時域編解碼器之輸入信號係藉與 LD-MDCT相同的開窗及TDA機制處理,及頻疊抵消信號係饋至時域編解碼器。解碼TDA後,展頻與開窗係施用至時域編解碼器之輸出信號。
此種替代之道的優點為於變遷時達成臨界取樣。缺點為時域編解碼TDA信號而非解碼時域信號。於已解碼的TDA信號展頻後,編碼誤差產生鏡像映射作用,如此可能造成回波前假影。
4.9.其它替代之道
後文中,將敘述可用於編碼及解碼改良的若干其它替代之道。
對目前MPEG正在發展中的USAC編解碼器,統一AAC部分及TCX部分的努力正在進行中。此種統一係基於正向頻疊抵消(FAC)及頻域雜訊成形(FDNS)技術。此等技術也可應用於AAC-ELD與AMR-WB+狀編解碼器間的切換同時維持AAC-ELD的低度延遲。
有關此種構想之若干細節參考第1至14圖討論。
後文中,將簡單說明所謂的「提升實施(lifting implementation)」,其可應用於若干實施例。AAC-ELD之LD-MDCT也可以有效提升結構實施。對此處所述變遷窗,也可利用此種提升實施,藉由單純刪除部分提升係數而獲得變遷窗。
5.可能的修正
有關前述實施例,須注意可施加多項修正。特定言之,依據需求可選用不同的窗長度。又,可修正窗的定標。當 然,可改變變換域分支施加的窗與ACELP分支施加的開窗間的定標。又,在前述處理區塊輸入時及也在前述處理區塊間導入若干前處理步驟及/或後處理步驟,而未修正本發明之大致構想。當然也可做其它修正。
6.實施替代之道
雖然於裝置上下文已經敘述若干構面,但顯然此等構面也表示相對應方法之描述,此處一區塊或一元件係與方法步驟或方法步驟之結構相對應。類似地,方法步驟上下文中所述構面也表示相對應裝置之相對應區塊或項目或結構之描述。部分或全部方法步驟可藉(或使用)硬體裝置例如微處理器、可程式規劃電腦或電子電路執行。若干實施例中,最重要方法步驟中之一者或多者可藉此種裝置執行。
本發明之編碼音訊信號可儲存在數位儲存媒體,或透過傳輸媒體諸如無線傳輸媒體或有線傳輸媒體諸如網際網路傳輸。
依據某些實施要求,本發明之實施例可於硬體或於軟體實施。實施之執行可使用有可電子式讀取的控制信號儲存其上的數位儲存媒體例如軟碟、DVD、藍光碟、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,該等媒體與可程式規劃電腦系統協力合作(或可協力合作)因而執行個別方法。因此,數位儲存媒體可為電腦可讀取式。
依據本發明之若干實施例包含具有可電子式讀取的控制信號於其上的資料載體,其與可程式規劃電腦系統可協力合作因而執行此處所述方法中之一者。
一般而言,本發明之實施例可實施為帶有程式碼的電腦程式產品,該程式碼可操作當該電腦程式產品於電腦上跑時用於執行該等方法中之一者。程式碼例如可儲存於機器可讀取載體上。
其它實施例包含用以執行此處所述方法中之一者之儲存在機器可讀取載體上的電腦程式。
換言之,因而本發明方法之實施例為一種具有程式碼之電腦程式,當該電腦程式產品於電腦上跑時用以執行此處所述方法中之一者。
因而本發明方法之又一實施例為一種資料載體(或數位儲存媒體,或電腦可讀取媒體)包含用以執行該等方法中之一者的電腦程式記錄於其上。該資料載體或數位儲存媒體或記錄媒體典型地為有實體及/或非暫態。
因此,本發明方法之又一實施例為一種資料串流或一序列信號表示用以執行此處所述方法中之一者之電腦程式。該資料串流或該序列信號例如可組配來透過資料通訊連結,例如透過網際網路傳輸。
又一實施例包含一種處理裝置,例如電腦或可程式邏輯裝置其係組配來或調整適應用於執行此處所述方法中之一者。
又一實施例包含一種電腦,其上安裝用以執行此處所述方法中之一者之電腦程式。
依據本發明之又一實施例包括一種裝置或一種系統,其係組配來傳輸(例如電子式或光學式)用以執行此處所述 方法中之一者之電腦程式至接收器。接收器例如為電腦、行動元件、記憶體元件等。該裝置或系統例如可包含一種用以將該電腦程式傳輸至接收器之檔案伺服器。
於若干實施例,可程式邏輯裝置(例如場可程式閘極陣列)可用來執行此處所述方法之部分或全部函數。於若干實施例,場可程式閘極陣列可與微處理器協力合作來執行此處所述方法中之一者。大致上,該等方法較佳係藉硬體裝置執行。
前述實施例僅供舉例說明本發明之原理。須瞭解熟諳技藝人士顯然易知此處所述配置及細節之修正及變化。因此意圖本發明只受隨附之申請專利範圍之範圍所限,而非受藉由此處實施例之描述及解說所呈現的特定細節所限。
100‧‧‧音訊信號編碼器
110‧‧‧輸入表示型態
112‧‧‧編碼表示型態
120‧‧‧變換域路徑
122‧‧‧時域表示型態
124‧‧‧頻譜係數集合
126‧‧‧雜訊成形資訊
130‧‧‧時域至頻域變換器
140‧‧‧代數碼激勵線性預測域路徑(ACELP路徑)
142‧‧‧時域表示型態
144‧‧‧代數碼激勵資訊
146‧‧‧線性預測域參數資訊
150‧‧‧線性預測域參數計算
150a‧‧‧線性預測域參數資訊
150aa‧‧‧線性預測域參數
152‧‧‧ACELP激勵運算
154‧‧‧編碼
156‧‧‧量化及編碼
160‧‧‧頻疊抵消資訊提供
164‧‧‧頻疊抵消資訊
170‧‧‧合成結果運算
170a‧‧‧合成結果信號
172‧‧‧誤差運算
172a‧‧‧誤差信號
174‧‧‧誤差編碼
200,230,260‧‧‧變換域路徑
210,240,270‧‧‧時域表示型態
214,244,274‧‧‧編碼頻譜係數集合
216,246‧‧‧編碼定標因數資訊
220,250,280‧‧‧選擇性前處理
220a,250a,280a‧‧‧前處理版本
221,263,283‧‧‧開窗
221a‧‧‧開窗時域表示型態
222,264,284‧‧‧時域至頻域變換
222a,282a,282b‧‧‧頻域表示型態
223,285‧‧‧頻譜處理
223a‧‧‧頻譜定標頻域表示型態
224,265,266,286,288‧‧‧量化/編碼
225‧‧‧心理聲學分析
225a‧‧‧定標因數
240‧‧‧編碼頻譜係數集合
251,281‧‧‧線性預測域參數計算
251a,281a‧‧‧線性預測域濾波參數
262‧‧‧基於LPC之濾波、濾波器排組
262a‧‧‧濾波時域信號
263a,283a‧‧‧開窗時域信號
264a,284a‧‧‧頻譜係數集合
276‧‧‧編碼線性預測域參數
282‧‧‧線性預測域至頻域變換
285a‧‧‧定標頻譜係數集合
300‧‧‧音訊信號解碼器
310‧‧‧編碼表示型態
312‧‧‧解碼表示型態
320‧‧‧變換域路徑
322‧‧‧頻譜係數集合
324‧‧‧雜訊成形資訊
326,346‧‧‧時域表示型態
330‧‧‧頻域至時域變換器
332‧‧‧頻域至時域變換
334‧‧‧開窗
340‧‧‧代數碼激勵線性預測域路徑(ACELP路徑)
342‧‧‧代數碼激勵資訊
344‧‧‧線性預測域參數資訊
350‧‧‧解碼
350a‧‧‧已解碼的代數碼激勵資訊
351‧‧‧後處理
351a‧‧‧ACELP激勵信號
352,370‧‧‧解碼
352a‧‧‧線性預測域參數
353‧‧‧合成濾波
353a‧‧‧合成時域信號
354‧‧‧後處理
360‧‧‧頻疊抵消信號提供器
362‧‧‧頻疊抵消資訊
364‧‧‧頻疊抵消信號
370a‧‧‧已解碼的頻疊抵消資訊
372‧‧‧重建
380‧‧‧組合
400,420,430,460‧‧‧變換域路徑
412,442,472‧‧‧頻譜係數之編碼集合
414‧‧‧編碼定標因數資訊
416,426,446,476‧‧‧時域表示型態
420,421,450,453,480,481‧‧‧解碼及反量化
420a,450a,480a‧‧‧已解碼及反量化之頻譜係數集合
421a‧‧‧已解碼及反量化之定標因數資訊
422‧‧‧頻譜處理
422a‧‧‧已定標之頻譜係數集合
423,451,484‧‧‧頻域至時域變換
423a,451a,484a‧‧‧時域信號
424,452,485‧‧‧開窗
424a,452a,485a‧‧‧開窗之時域信號
425,486‧‧‧後處理
430‧‧‧變換碼激勵線性預測域路徑、TCX-LPD路徑
444,472,474‧‧‧編碼線性預測域參數
453a‧‧‧解碼線性預測域參數資訊
454‧‧‧基於線性預測編碼之濾波
454a‧‧‧已濾波之時域信號
460‧‧‧TCX-LPD路徑
481a‧‧‧已解碼及反量化之線性預測域參數
482‧‧‧線性預測域至頻域變換
482a‧‧‧頻域表示型態
483‧‧‧頻譜處理
483a‧‧‧已定標之頻譜係數集合、已定標之雜訊成形頻譜係數
510,610‧‧‧橫座標
512,612‧‧‧縱座標
520‧‧‧G.718分析窗
520a,630‧‧‧右側變遷斜坡
522‧‧‧變遷斜坡
524,628‧‧‧過衝部分
524a,628a‧‧‧最大值
526‧‧‧中心
530‧‧‧右側零部分
620‧‧‧G.718合成窗
622‧‧‧左側零部分
624‧‧‧左側變遷斜坡
710,810,910‧‧‧橫座標
712,812,912‧‧‧縱座標
720,730‧‧‧正弦窗
722,732,822,832,922,932‧‧‧音訊框
820,830‧‧‧G.718分析窗
920,930‧‧‧G.718合成窗
1012,1022,1052,1062‧‧‧變換域音訊框
1032,1042‧‧‧ACELP音訊框
1070,1072‧‧‧正向頻疊抵消、FAC、頻疊抵消窗
1110,1210‧‧‧橫座標
1112,1212‧‧‧縱座標
1122,1132,1142,1152,1162,1172‧‧‧音訊框
1120,1130,1140,1150,1160,1170‧‧‧G.718分析窗
1136,1156,1236,1256‧‧‧正向頻疊抵消窗、FAC窗
1222,1232,1242,1252,1262,1272‧‧‧音訊框
1220,1230,1260‧‧‧G.718合成窗
1240‧‧‧有限區塊
1250‧‧‧區塊
1310,1410‧‧‧橫座標
1312,1412‧‧‧縱座標
1322,1332,1342,1352,1362,1372,1422,1432,1442,1452,1462,1472‧‧‧音訊框
1320,1330,1370‧‧‧G.718分析窗
1340,1350,1440,1450‧‧‧ACELP區塊、中心部分
1360‧‧‧專用變遷分析窗
1420,1430,1470‧‧‧G.718合成窗
1460‧‧‧專用變遷合成窗
1510,1610,1710,1810,1910,2010,2110,2160,2210,2310,2360‧‧‧橫座標
1512,1612,1712,1812,1912,2012,2112,2162,2212,2312,2362‧‧‧縱座標
1720‧‧‧分析窗之窗值
1820‧‧‧合成窗之窗值
1920a-e,2020a-e‧‧‧LD-MDCT分析窗
1930a-e,2220a-e‧‧‧LD-MDCT合成窗
1940,2040,2240‧‧‧時域編碼信號之加權
1950a-b,2050a-b,2250a-b‧‧‧時域信號之時域頻疊之加權
2120‧‧‧分析窗之窗值
2170,2370‧‧‧標準AAC-ELD分析窗
2320‧‧‧合成窗之窗值
2410,2510,2610‧‧‧橫座標
2412,2512,2612‧‧‧縱座標
2420a-e,2520a-e,2620a-e‧‧‧LD-MDCT分析窗
2430a-e,2530a-d,2630 a-e‧‧‧LD-MDCT合成窗
2440‧‧‧時域編碼信號之加權
2450a-b‧‧‧時域信號之時域頻疊之加權
2542,2562,2642a‧‧‧分析窗
2552,2572,2652a‧‧‧合成窗
第1圖顯示依據本發明之實施例一種音訊信號編碼器之方塊示意圖;第2a-2c圖顯示用於依據第1圖之音訊信號編碼器的變換域路徑之方塊示意圖;第3圖顯示依據本發明之實施例一種音訊信號解碼器之方塊示意圖;第4a-4c圖顯示用於依據第3圖之音訊信號解碼器的變換域路徑之方塊示意圖;第5圖顯示正弦窗(虛線)與用於依據本發明之若干實施例之G.718分析窗(實線)之比較圖;第6圖顯示正弦窗(虛線)與用於依據本發明之若干實施 例之G.718合成窗(實線)之比較圖;第7圖顯示一序列正弦窗之線圖表示型態;第8圖顯示一序列G.718分析窗之線圖表示型態;第9圖顯示一序列G.718合成窗之線圖表示型態;第10圖顯示一序列正弦窗(實線)及ACELP(標示方形的線)之線圖表示型態;第11圖顯示包含一序列G.718分析窗(實線)、ACELP(標示方形的線)、及正向頻疊抵消(「FAC」)(虛線)的低延遲統一語音及音訊編碼(USAC)之第一選項之線圖表示型態;第12圖為與依據第11圖之低延遲統一語音及音訊編碼之第一選項相對應的一序列合成之線圖表示型態;第13圖顯示使用一序列G.718分析窗(實線)、ACELP(標示方形的線)、及FAC(虛線)的低延遲統一語音及音訊編碼之第二選項之線圖表示型態;第14圖為與依據第13圖之低延遲統一語音及音訊編碼之第二選項相對應的一序列合成之線圖表示型態;第15圖顯示自進階音訊編碼(AAC)變遷至適應性多速率寬頻帶加編碼(AMR-WB+)之線圖表示型態;第16圖顯示自適應性多速率寬頻帶加編碼(AMR-WB+)變遷至進階音訊編碼(AAC)之線圖表示型態;第17圖顯示於進階音訊編碼帶有增強低延遲(AAC-ELD)中之低延遲修正離散餘弦變換(LD-MDCT)之一分析窗的線圖表示型態;第18圖顯示於進階音訊編碼增強低延遲(AAC-ELD)中 之低延遲修正離散餘弦變換(LD-MDCT)之一合成窗的線圖表示型態;第19圖顯示用於進階音訊編碼增強低延遲(AAC-ELD)與時域編解碼器間切換的一窗序列實例之線圖表示型態;第20圖顯示用於進階音訊編碼增強低延遲(AAC-ELD)與時域編解碼器間切換的一分析窗序列實例之線圖表示型態;第21a圖顯示用於自時域編解碼器變遷至進階音訊編碼增強低延遲(AAC-ELD)的一分析窗之線圖表示型態;第21b圖顯示用於自時域編解碼器變遷至進階音訊編碼增強低延遲(AAC-ELD)的一分析窗且與標準進階音訊編碼增強低延遲(AAC-ELD)分析窗比較之線圖表示型態;第22圖顯示用於進階音訊編碼增強低延遲(AAC-ELD)與時域編解碼器間切換的一合成窗序列實例之線圖表示型態;第23a圖顯示用於自進階音訊編碼增強低延遲(AAC-ELD)變遷至時域編解碼器的一合成窗之線圖表示型態;第23b圖顯示用於自進階音訊編碼增強低延遲(AAC-ELD)變遷至時域編解碼器的一合成窗且與標準進階音訊編碼增強低延遲(AAC-ELD)合成窗比較之線圖表示型態;第24圖顯示用於進階音訊編碼增強低延遲(AAC-ELD)與時域編解碼器間切換的窗序列之變遷窗的其它選項之線圖表示型態;第25圖顯示時域信號之其它開窗及其它定框之線圖表示型態;及第26圖顯示對時域編解碼器饋以TDA信號及藉此達成 臨界取樣之替代之道之線圖表示型態。
100...音訊信號編碼器
110...輸入表示型態
112...編碼表示型態
120...變換域路徑
122...時域表示型態
124...頻譜係數集合
126...雜訊成形資訊
130...時域至頻域變換器
140...代數碼激勵線性預測域路徑(ACELP路徑)
142...時域表示型態
144...代數碼激勵資訊
146...線性預測域參數資訊
150...線性預測域參數計算
150a...線性預測域參數資訊
150aa...線性預測域參數
152...ACELP激勵運算
154...編碼
156...量化及編碼
160...頻疊抵消資訊提供
164...頻疊抵消資訊
170...合成結果運算
170a...合成結果信號
172...誤差運算
172a...誤差信號
174...誤差編碼

Claims (27)

  1. 一種用以基於音訊內容之輸入表示型態提供音訊內容之編碼表示型態之音訊信號編碼器,該音訊信號編碼器包含:一變換域路徑,其係組配來基於欲以一變換域模編碼之該音訊內容的一部分之一時域表示型態而獲得一頻譜係數集合及雜訊成形資訊,使得該等頻譜係數描述該音訊內容之一雜訊成形版本之一頻譜;其中該變換域路徑包含一時域至頻域變換器,其係組配來開窗該音訊內容之一時域表示型態或其之一前處理版本,而獲得該音訊內容之一開窗表示型態,且施加一時域至頻域變換來自該音訊內容之該開窗時域表示型態導算出一頻譜係數集合;及一碼激勵線性預測域路徑(CELP路徑),其係組配來基於欲以一碼激勵線性預測域模(CELP模)編碼的該音訊內容的一部分,獲得一碼激勵資訊及一線性預測域參數資訊;其中該時域至頻域變換器係組配來若該音訊內容之一目前部分係被欲以該變換域模編碼的該音訊內容之一隨後部分所跟隨,且若該音訊內容之該目前部分係被欲以該CELP模編碼的該音訊內容之一隨後部分所跟隨,則施加一預定非對稱分析窗用於欲以該變換域模編碼的該音訊內容且係接在欲以該變換域模編碼的該音 訊內容的一部分後方之該目前部分的開窗;及其中該音訊信號編碼器係組配來若該音訊內容之該目前部分係為欲以該CELP模編碼的該音訊內容之一隨後部分所跟隨,則選擇性地提供一頻疊抵消資訊,其係表示藉由該音訊內容之該隨後部分的一變換域模表示型態表示的疊頻抵消信號組分。
  2. 如申請專利範圍第1項之音訊信號編碼器,其中該時域至頻域變換器係組配來若該音訊內容之一目前部分係被欲以該變換域模編碼的該音訊內容之一隨後部分所跟隨,且若該音訊內容之該目前部分係被欲以該CELP模編碼的該音訊內容之一隨後部分所跟隨,則施加相同窗用於欲以該變換域模編碼的該音訊內容且係接在欲以該變換域模編碼的該音訊內容的部分後方之該目前部分的開窗。
  3. 如申請專利範圍第1或2項之音訊信號編碼器,其中該預定非對稱分析窗包含一左半窗及一右半窗,其中該左半窗包含一左側變遷斜坡其中窗值係自零單調地增加至一窗中心值,及一過衝部分其中該等窗值係大於該窗中心值及其中該窗包含一最大值,及其中該右半窗包含一右側變遷斜坡其中窗值係自該窗中心值單調地減至零,及一右側零部分。
  4. 如申請專利範圍第3項之音訊信號編碼器,其中該左半窗包含不大於零窗值的1%,及其中該右側零部分包含該右半窗之該等窗值的至 少20%的一長度。
  5. 如申請專利範圍第3項之音訊信號編碼器,其中該預定非對稱分析窗之該右半窗之該等窗值係小於該窗中心值,使得於該預定非對稱分析窗之該右半窗並無過衝部分。
  6. 如申請專利範圍第1項之音訊信號編碼器,其中該預定非對稱分析窗之一非零部分係比一訊框長度短至少10%。
  7. 如申請專利範圍第1項之音訊信號編碼器,其中該音訊信號編碼器係組配來使得欲以該變換域模編碼的該音訊內容之隨後部分包含至少40%之一時間重疊;及其中該音訊信號編碼器係組配來使得欲以該變換域模編碼的該音訊內容之一目前部分及欲以該碼激勵線性預測域模編碼的該音訊內容之一隨後部分包含一時間重疊;及其中該音訊信號編碼器係組配來選擇性地提供該頻疊抵消資訊,使得該頻疊抵消資訊允許在一音訊信號編碼器提供一頻疊抵消信號用以自以該變換域模編碼的該音訊內容的一部分變遷至以該CELP模編碼的該音訊內容的一部分時抵消頻疊假影(aliasing artifacts)。
  8. 如申請專利範圍第1項之音訊信號編碼器,其中該音訊信號編碼器係組配來選擇一窗用於該音訊內容之一目前部分的開窗,而與用來編碼時間上重疊該音訊內容之該目前部分之該音訊內容之一隨後部分的編碼模不相 干地,使得該音訊內容之該目前部分的開窗表示型態重疊該音訊內容之一隨後部分,即便該音訊內容之該隨後部分係以該CELP模編碼亦如此;及其中該音訊信號編碼器係組配來回應於檢測得該音訊內容之該隨後部分欲以一CELP模編碼而提供一頻疊抵消資訊,該頻疊抵消資訊表示將藉該音訊內容之該隨後部分的一變換域模表示型態所表示的頻疊抵消信號組分。
  9. 如申請專利範圍第1項之音訊信號編碼器,其中該時域至頻域變換器係組配來施加預定非對稱分析窗用於欲以該變換域模編碼的該音訊內容且係接在欲以該CELP模編碼的該音訊內容的一部分後方的一目前部分的開窗,使得欲以該變換域模編碼的該音訊內容之該目前部分的一開窗表示型態在時間上係重疊欲以該CELP模編碼的該音訊內容之該先前部分,及使得與其中該音訊內容之一先前部分的編碼模不相干地及與其中該音訊內容之一隨後部分的編碼模不相干地,欲以該變換域模編碼的該音訊內容之部分係使用相同的預定非對稱分析窗開窗。
  10. 如申請專利範圍第9項之音訊信號編碼器,其中該音訊信號編碼器係組配來若該音訊內容之該目前部分係接在以該CELP模編碼的該音訊內容之一先前部分後方,則選擇性地提供一頻疊抵消資訊。
  11. 如申請專利範圍第1項之音訊信號編碼器,其中該時域 至頻域變換器係組配來施加與該預定非對稱分析窗不同的一專用非對稱變遷分析窗,用於欲以該變換域模編碼的該音訊內容且係接在以該CELP模編碼的該音訊內容的一部分後方之一目前部分的開窗。
  12. 如申請專利範圍第1項之音訊信號編碼器,其中該碼激勵線性預測域路徑(CELP路徑)為一代數碼激勵線性預測域路徑,其係組配來基於欲以一代數碼激勵線性預測域模(CELP模)編碼的該音訊內容的一部分而獲得一代數碼激勵資訊及一線性預測域參數資訊。
  13. 一種用以基於音訊內容之編碼表示型態而提供音訊內容之解碼表示型態之音訊信號解碼器,該音訊信號解碼器包含:一變換域路徑,其係組配來基於一頻譜係數集合及一雜訊成形資訊而獲得以該變換域模編碼的該音訊內容的一部分的一時域表示型態;其中該變換域路徑包含一頻域至時域變換器,其係組配來施加一頻域至時域變換及開窗,而自該頻譜係數集合或自其前處理版本來導算出該音訊內容之一開窗時域表示型態;一碼激勵線性預測域路徑,其係組配來基於一碼激勵資訊及一線性預測域參數資訊而獲得以一碼激勵線性預測域模(CELP模)編碼的該音訊內容之一時域表示型態;及其中該頻域至時域變換器係組配來若該音訊內容 之一目前部分係為以該變換域模編碼的該音訊內容之一隨後部分所跟隨,且若該音訊內容之該目前部分係為以該CELP模編碼的該音訊內容之一隨後部分所跟隨,則施加一預定非對稱合成窗,用於以該變換域模編碼的該音訊內容且係接在以該變換域模編碼的該音訊內容之一先前部分後方之該目前部分的開窗;及其中該音訊信號解碼器係組配來若以該變換域模編碼的該音訊內容之該目前部分係為以該CELP模編碼的該音訊內容之一隨後部分所跟隨,則基於一頻疊抵消資訊而選擇性地提供一頻疊抵消信號,該頻疊抵消資訊係包括於該音訊內容的該編碼表示型態,且其係表示藉由該音訊內容之該隨後部分的一變換域模表示型態表示的疊頻抵消信號組分。
  14. 如申請專利範圍第13項之音訊信號解碼器,其中該頻域至時域變換器係組配來若該音訊內容之一目前部分係為以該變換域模編碼的該音訊內容之一隨後部分所跟隨,且若該音訊內容之該目前部分係為以該CELP模編碼的該音訊內容之一隨後部分所跟隨,則施加相同窗用於以該變換域模編碼的該音訊內容且係接在以該變換域模編碼的該音訊內容之一先前部分後方之該目前部分的開窗。
  15. 如申請專利範圍第13或14項之音訊信號解碼器,其中該預定非對稱合成窗包含一左半窗及一右半窗,其中該左半窗包含一左側零部分及一左側變遷斜 坡,其中窗值係自零單調地增加至一窗中心值;及其中該右半窗包含一過衝部分其中該等窗值係大於該窗中心值及其中該窗包含一最大值,及一右側變遷斜坡,其中該等窗值係自該窗中心值單調地減低至零。
  16. 如申請專利範圍第15項之音訊信號解碼器,其中該左側零部分包含占該左半窗的該等窗值的至少20%之一長度,及其中該右半窗包含不大於零窗值之1%。
  17. 如申請專利範圍第15項之音訊信號解碼器,其中該預定非對稱合成窗之該左半窗之該等窗值係小於該窗中心值,使得於該預定非對稱合成窗之該左半窗並無過衝部分。
  18. 如申請專利範圍第13項之音訊信號解碼器,其中該預定非對稱合成窗之一非零部分係比一訊框長度至少短10%。
  19. 如申請專利範圍第13項之音訊信號解碼器,其中該音訊信號解碼器係組配來使得以該變換域模編碼的該音訊內容之隨後部分包含至少40%之一時間重疊;及其中該音訊信號解碼器係組配來使得以該變換域模編碼的該音訊內容之一目前部分及以該碼激勵線性預測域模編碼之該音訊內容的一隨後部分包含一時間重疊;及其中該音訊信號解碼器係組配來基於該頻疊抵消資訊而選擇性地提供該頻疊抵消信號,使得於自以該變 換域模編碼的該音訊內容之該目前部分變遷至以該CELP模編碼的該音訊內容之一隨後部分,該頻疊抵消信號減少或抵消頻疊假影(aliasing artifacts)。
  20. 如申請專利範圍第13項之音訊信號解碼器,其中該音訊信號解碼器係組配來與用於該音訊內容之一隨後部分的編碼模不相干地,選擇用於該音訊內容之一目前部分開窗用的一窗,該音訊內容之該隨後部分係與該音訊內容之該目前部分時間重疊,使得該音訊內容之該目前部分的開窗表示型態在時間上重疊該音訊內容之該隨後部分,即便該音訊內容之該隨後部分係以該CELP模編碼亦如此;及其中該音訊信號解碼器係組配來回應於檢測得該音訊內容之該隨後部分係以該CELP模編碼,而於自以該變換域模編碼的該音訊內容之該目前部分變遷至以該CELP模編碼的該音訊內容之該隨後部分時,提供一頻疊抵消信號減少或抵消頻疊假影。
  21. 如申請專利範圍第13項之音訊信號解碼器,其中該頻域至時域變換器係組配來施加該預定非對稱合成窗用於以該變換域模編碼的該音訊內容且係接在以該CELP模編碼的該音訊內容之一先前部分後方之一目前部分的開窗,使得與其中該音訊內容之一先前部分的編碼模不相干地,及與其中該音訊內容之一隨後部分的編碼模不相干地,以該變換域模編碼的該音訊內容的部分係使用相同的預定非對稱合成窗開窗,及 使得以該變換域模編碼的該音訊內容之該目前部分之一開窗時域表示型態在時間上係重疊以該CELP模編碼的該音訊內容之該先前部分。
  22. 如申請專利範圍第21項之音訊信號解碼器,其中該音訊信號解碼器係組配來,若該音訊內容之該目前部分係接在以該CELP模編碼的該音訊內容之一先前部分後方,則基於一頻疊抵消資訊而選擇性地提供一頻疊抵消信號。
  23. 如申請專利範圍第13項之音訊信號解碼器,其中該頻域至時域變換器係組配來施加與該預定非對稱合成窗不同的一專用非對稱變遷合成窗用於以該變換域模編碼的音訊內容且係接在以該CELP模編碼的該音訊內容的一部分後方之一目前部分的開窗。
  24. 如申請專利範圍第13項之音訊信號解碼器,其中該碼激勵線性預測域路徑為組配來基於一代數碼激勵資訊及一線性預測域參數資訊,而獲得以一代數碼激勵線性預測域模(CELP模)編碼之該音訊內容的一時域表示型態之一代數碼激勵線性預測域路徑。
  25. 一種基於音訊內容之輸入表示型態而提供音訊內容之編碼表示型態之方法,該方法包含:基於欲以一變換域模編碼的該音訊內容的一部分的一時域表示型態而獲得一頻譜係數集合及一雜訊成形資訊,使得該等頻譜係數描述該音訊內容之一雜訊成形版本之一頻譜, 其中欲以該變換域模編碼的該音訊內容之一時域表示型態或其一前處理版本係經開窗,及其中施加一時域至頻域變換來自該音訊內容之該已開窗的時域表示型態導算出一頻譜係數集合;基於欲以一碼激勵線性預測域模(CELP模)編碼之該音訊內容的一部分,而獲得一碼激勵資訊及一線性預測域資訊;其中若該音訊內容之一目前部分係為欲以該變換域模編碼的該音訊內容之一隨後部分所跟隨,且若該音訊內容之該目前部分係為欲以該CELP模編碼的該音訊內容之一隨後部分所跟隨,則施加一預定非對稱分析窗來用於欲以該變換域模編碼的該音訊內容且係接在以該變換域模編碼的該音訊內容的一部分後方之該目前部分的開窗;及其中若該音訊內容之該目前部分係為欲以該CELP模編碼的該音訊內容之一隨後部分所跟隨,則選擇性地提供一頻疊抵消資訊,其係表示藉由該音訊內容之該隨後部分的一變換域模表示型態表示的疊頻抵消信號組分。
  26. 一種基於音訊內容之編碼表示型態而提供音訊內容之解碼表示型態之方法,該方法包含:基於一頻譜係數集合及一雜訊成形資訊而獲得以一變換域模編碼的該音訊內容的一部分的一時域表示型態, 其中一頻域至時域變換及開窗係施加來自該頻譜係數集合或自其一前處理版本而導算出該音訊內容之一已開窗的時域表示型態;及基於一碼激勵資訊及一線性預測域參數資訊而獲得以一碼激勵線性預測域模編碼之該音訊內容之一時域表示型態;其中若該音訊內容之一目前部分係為以該變換域模編碼的該音訊內容之一隨後部分所跟隨,且若該音訊內容之該目前部分係為以該CELP模編碼的該音訊內容之一隨後部分所跟隨,則施加一預定非對稱合成窗用以將以該變換域模編碼的該音訊內容且係接在以該變換域模編碼的該音訊內容之一先前部分後方之該目前部分的開窗;及其中若該音訊內容之該目前部分係為以該CELP模編碼的該音訊內容之一隨後部分所跟隨,則基於一頻疊抵消資訊而選擇性地提供一頻疊抵消信號,該頻疊抵消資訊係包括於該音訊內容的該編碼表示型態,且其係表示藉由該音訊內容之該隨後部分的一變換域模表示型態表示的疊頻抵消信號組分。
  27. 一種電腦程式,其係用於當該電腦程式於一電腦上跑時執行如申請專利範圍第25或26項之方法。
TW099135557A 2009-10-20 2010-10-19 音訊信號編碼器、音訊信號解碼器、用以提供音訊內容之編碼表示型態之方法、用以提供音訊內容之解碼表示型態之方法及使用於低延遲應用之電腦程式 TWI435317B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US25345009P 2009-10-20 2009-10-20

Publications (2)

Publication Number Publication Date
TW201137861A TW201137861A (en) 2011-11-01
TWI435317B true TWI435317B (zh) 2014-04-21

Family

ID=43447915

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099135557A TWI435317B (zh) 2009-10-20 2010-10-19 音訊信號編碼器、音訊信號解碼器、用以提供音訊內容之編碼表示型態之方法、用以提供音訊內容之解碼表示型態之方法及使用於低延遲應用之電腦程式

Country Status (17)

Country Link
US (1) US8630862B2 (zh)
EP (1) EP2473995B9 (zh)
JP (1) JP5243661B2 (zh)
KR (1) KR101414305B1 (zh)
CN (1) CN102859588B (zh)
AR (1) AR078702A1 (zh)
BR (3) BR122020024236B1 (zh)
CA (1) CA2778373C (zh)
ES (1) ES2533098T3 (zh)
HK (1) HK1172992A1 (zh)
MX (1) MX2012004518A (zh)
MY (1) MY162251A (zh)
PL (1) PL2473995T3 (zh)
RU (1) RU2596594C2 (zh)
TW (1) TWI435317B (zh)
WO (1) WO2011048118A1 (zh)
ZA (1) ZA201203611B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2564400T3 (es) * 2008-07-11 2016-03-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y descodificador de audio para codificar y descodificar muestras de audio
BR122021009252B1 (pt) * 2008-07-11 2022-03-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
CN103270773A (zh) * 2010-12-20 2013-08-28 株式会社尼康 声音控制装置及摄像装置
SG192747A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Encoding and decoding of pulse positions of tracks of an audio signal
CN105304090B (zh) * 2011-02-14 2019-04-09 弗劳恩霍夫应用研究促进协会 使用对齐的前瞻部分将音频信号编码及解码的装置与方法
PL2676264T3 (pl) 2011-02-14 2015-06-30 Fraunhofer Ges Forschung Koder audio estymujący szum tła podczas faz aktywnych
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
MY165853A (en) 2011-02-14 2018-05-18 Fraunhofer Ges Forschung Linear prediction based coding scheme using spectral domain noise shaping
AR085217A1 (es) 2011-02-14 2013-09-18 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad
EP2676268B1 (en) 2011-02-14 2014-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a decoded audio signal in a spectral domain
WO2012110478A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Information signal representation using lapped transform
KR101551046B1 (ko) 2011-02-14 2015-09-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
KR101863687B1 (ko) * 2011-04-21 2018-06-01 삼성전자주식회사 선형예측계수 양자화장치, 사운드 부호화장치, 선형예측계수 역양자화장치, 사운드 복호화장치와 전자기기
EP3537438A1 (en) * 2011-04-21 2019-09-11 Samsung Electronics Co., Ltd. Quantizing method, and quantizing apparatus
WO2013061584A1 (ja) * 2011-10-28 2013-05-02 パナソニック株式会社 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法
US9489962B2 (en) * 2012-05-11 2016-11-08 Panasonic Corporation Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
KR101866806B1 (ko) * 2012-06-28 2018-06-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 개선된 확률 분포 추정을 이용한 선형 예측 기반 오디오 코딩
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
BR112015018021B1 (pt) 2013-01-29 2022-10-11 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V Aparelho e método para selecionar um dentre um primeiro algoritmo de codificação e um segundo algoritmo de codificação
AU2014310548B2 (en) 2013-08-23 2017-04-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal using an aliasing error signal
CN104681034A (zh) 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
CN105336336B (zh) 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
US10146500B2 (en) * 2016-08-31 2018-12-04 Dts, Inc. Transform-based audio codec and method with subband energy smoothing
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
RU2256293C2 (ru) * 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US7020605B2 (en) * 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
CN1157076C (zh) * 2001-04-19 2004-07-07 北京邮电大学 移动通信***性能的仿真方法
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
CN1485849A (zh) * 2002-09-23 2004-03-31 上海乐金广电电子有限公司 数字音频编码器及解码方法
US7876966B2 (en) * 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) * 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
DE602004008676T2 (de) * 2004-05-17 2008-06-05 Nokia Corp. Audiocodierung mit verschiedenen codierungsmodellen
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
US8612236B2 (en) * 2005-04-28 2013-12-17 Siemens Aktiengesellschaft Method and device for noise suppression in a decoded audio signal
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
ATE547898T1 (de) * 2006-12-12 2012-03-15 Fraunhofer Ges Forschung Kodierer, dekodierer und verfahren zur kodierung und dekodierung von datensegmenten zur darstellung eines zeitdomänen-datenstroms
JP2011518345A (ja) * 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
CN102160114B (zh) * 2008-09-17 2012-08-29 法国电信公司 用于对数字音频信号中的前回声进行衰减的方法和装置
ES2825032T3 (es) * 2009-06-23 2021-05-14 Voiceage Corp Cancelación de solapamiento de dominio de tiempo directo con aplicación en dominio de señal original o ponderado

Also Published As

Publication number Publication date
RU2012118782A (ru) 2013-11-10
US20120265541A1 (en) 2012-10-18
PL2473995T3 (pl) 2015-06-30
KR20120063527A (ko) 2012-06-15
ES2533098T3 (es) 2015-04-07
BR112012009032A2 (pt) 2020-08-18
MY162251A (en) 2017-05-31
ZA201203611B (en) 2013-02-27
CA2778373C (en) 2015-12-01
RU2596594C2 (ru) 2016-09-10
HK1172992A1 (zh) 2013-05-03
CA2778373A1 (en) 2011-04-28
JP2013508766A (ja) 2013-03-07
WO2011048118A1 (en) 2011-04-28
EP2473995B9 (en) 2016-12-21
TW201137861A (en) 2011-11-01
BR112012009032B1 (pt) 2021-09-21
MX2012004518A (es) 2012-05-29
CN102859588A (zh) 2013-01-02
BR122020024243B1 (pt) 2022-02-01
KR101414305B1 (ko) 2014-07-02
BR122020024236B1 (pt) 2021-09-14
AU2010309839A1 (en) 2012-05-17
CN102859588B (zh) 2014-09-10
EP2473995B1 (en) 2014-12-17
AR078702A1 (es) 2011-11-30
US8630862B2 (en) 2014-01-14
JP5243661B2 (ja) 2013-07-24
EP2473995A1 (en) 2012-07-11

Similar Documents

Publication Publication Date Title
TWI435317B (zh) 音訊信號編碼器、音訊信號解碼器、用以提供音訊內容之編碼表示型態之方法、用以提供音訊內容之解碼表示型態之方法及使用於低延遲應用之電腦程式
US11741973B2 (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US9812136B2 (en) Audio processing system
EP2311034B1 (en) Audio encoder and decoder for encoding frames of sampled audio signals
AU2007331763A1 (en) Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
AU2010309839B2 (en) Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications