TWI480856B - 音訊編解碼器中之雜訊產生技術 - Google Patents

音訊編解碼器中之雜訊產生技術 Download PDF

Info

Publication number
TWI480856B
TWI480856B TW101104680A TW101104680A TWI480856B TW I480856 B TWI480856 B TW I480856B TW 101104680 A TW101104680 A TW 101104680A TW 101104680 A TW101104680 A TW 101104680A TW I480856 B TWI480856 B TW I480856B
Authority
TW
Taiwan
Prior art keywords
background noise
audio signal
parameter
input audio
encoder
Prior art date
Application number
TW101104680A
Other languages
English (en)
Other versions
TW201248615A (en
Inventor
Panji Setiawan
Stephan Wilde
Anthony Lombard
Martin Dietz
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of TW201248615A publication Critical patent/TW201248615A/zh
Application granted granted Critical
Publication of TWI480856B publication Critical patent/TWI480856B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/13Residual excited linear prediction [RELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Image Generation (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Optical Communication System (AREA)

Description

音訊編解碼器中之雜訊產生技術
本發明係有關於在不活動階段期間支援雜訊合成之音訊編解碼器。
利用語音或其它雜訊源的不活動週期來縮小傳輸帶寬的可能乃技藝界所已知。此等方案一般係使用某個檢測形式來區別不活動(或無聲)階段與活動(或非無聲)階段。在不活動階段期間,藉由中止精準地編碼該記錄信號之平常資料串流的傳輸,而只發送無聲***描述(SID)更新來取而代之而達成較低位元率。SID更新可以常規間隔傳輸,或當檢測得背景雜訊特性改變時傳輸。然後SID訊框可用在解碼端來產生背景雜訊,該背景雜訊具有類似在活動階段期間之背景雜訊的特性,使得中止編碼該記錄信號的平常資料串流的傳輸在接收者端不會導致從活動階段至不活動階段令人不愉悅的過渡情況。
但仍然需要進一步減低傳輸率。位元率耗用者數目的增加諸如行動電話數目的增加,及或多或少位元率密集應用數目的增加,諸如無線傳輸廣播,要求穩定地減少耗用的位元率。
另一方面,合成雜訊須密切地仿真真實雜訊,使得該合成對使用者而言為透明不可見。
據此,本發明之一個目的係提出一種在不活動階段期 間支援雜訊合成之音訊編解碼器方案,使得減低傳輸位元率同時維持可達成的雜訊產生品質。
此項目的係藉審查中隨附之申請專利範圍獨立項之部分主旨而予達成。
本發明之一個目的係提出一種在不活動階段期間支援合成雜訊產生的音訊編解碼器,就例如位元率及/或運算複雜度而言,許可在中等額外負擔之下產生更真實感的雜訊。後述目的也可藉本案申請專利範圍獨立項之另一部分的主旨達成。
更明確言之,本發明之基本構想在於頻譜域可極為有效地用來參數化背景雜訊,因而獲得更真實的背景雜訊之合成,及如此導致活動階段切換至不活動階段更透明不可見。此外,業已發現於頻譜域參數化背景雜訊,許可分離雜訊與有用信號及據此,於頻譜域參數化背景雜訊當組合在活動階段期間參數背景雜訊估值之前述連續更新時有其優點,原因在於頻譜域可達成雜訊與有用信號間之更佳分離,因而當組合本案之兩個優異構面時,無需從一個定義域至另一定義域的額外變遷。
依據特定實施例,藉由在活動階段期間連續地更新參數背景雜訊估值,使得當在活動階段之後進入不活動階段時可即刻地開始雜訊的生成,可節省有價值的位元率伴以維持雜訊產生品質。舉例言之,連續更新可在解碼端進行,無需在檢測得不活動階段之後緊接的暖機階段期間對該解碼端初步地提供以背景雜訊之編碼表示型態,該項提供以 背景雜訊之編碼表示型態將耗用有價值的位元率,原因在於解碼端已經在活動階段期間連續地更新該參考電壓節點,及如此,隨時準備即刻地進入不活動階段伴以合宜的雜訊產生。同理,若該參考電壓節點係在編碼端完成,則可避免此種暖機階段。替代當檢測得進入不活動階段時初步地繼續對解碼端提供以習知背景雜訊之編碼表示型態來習得該背景雜訊,及在據此舉習階段後通知該解碼端,恰在檢測得進入不活動階段時時即刻,藉回到過去活動階段期間所連續地更新的參數背景雜訊估值,編碼器能對解碼器提供以所需參數背景雜訊估值,因而避免額外執行詢查式編碼背景雜訊而初步耗用位元率。
本發明之實施例之額外優異細節為審查中之申請專利範圍中之附屬項的主旨。
圖式簡單說明
本案之較佳實施例係參考附圖說明如後,附圖中:第1圖為方塊圖顯示依據一實施例之音訊編碼器;第2圖顯示編碼引擎14之可能體現;第3圖為依據一實施例音訊解碼器之方塊圖;第4圖顯示依據一實施例第3圖之解碼引擎之可能體現;第5圖顯示依據實施例之又一進一步細節描述音訊編碼器之方塊圖;第6圖顯示依據一實施例可與第5圖之編碼器連結使用之解碼器之方塊圖;第7圖顯示依據實施例之又一進一步細節描述音訊解 碼器之方塊圖;第8圖顯示依據一實施例音訊編碼器之頻譜帶寬擴延部分之方塊圖;第9圖顯示依據一實施例第8圖之舒適雜訊產生(CNG)頻譜帶寬擴延編碼器之體現;第10圖顯示依據一實施例使用頻譜帶寬擴延之音訊解碼器之方塊圖;第11圖顯示使用頻譜帶寬擴延之音訊解碼器之一實施例的可能進一步細節描述之方塊圖;第12圖顯示依據又一實施例使用頻譜帶寬擴延之音訊編碼器之方塊圖;及第13圖顯示音訊編碼器之又一實施例之方塊圖。
第1圖顯示依據本發明之一實施例之音訊編碼器。第1圖之音訊編碼器包含一背景雜訊估算器12、一編碼引擎14、一檢測器16、一音訊信號輸入18及一資料串流輸出20。提供器12、編碼引擎14及檢測器16分別地具有一輸入連結至一音訊信號輸入18。估算器12及編碼引擎14之輸出分別地透過開關22而連結至資料串流輸出20。開關22、估算器12及編碼引擎14具有一控制輸入分別地連結至檢測器16之一輸出。
編碼器14在活動階段24期間將輸入音訊信號編碼成資料串流30,及檢測器16係經組配來基於該輸入信號而檢測後活動階段24之後進入34不活動階段28。藉編碼引擎14輸 出之資料串流30部分係標示為44。
背景雜訊估算器12係經組配來基於一輸入音訊信號之頻譜分解表示型態而決定一參數背景雜訊估值,使得該參數背景雜訊估值頻譜描述該輸入音訊信號之背景雜訊之頻譜波封。決定可始於進入不活動階段38時,亦即恰在檢測器16檢測得不活動性時的該時間瞬間34之後。於該種情況下,資料串流30之正常部分44將略微擴延至不活動階段,亦即將持續另一個短週期足夠讓背景雜訊估算器12從輸入信號學習/估算背景雜訊,此時輸入信號係假定只由背景雜訊組成。
但下述實施例採用另一種方式。依據另一實施例容後詳述,在活動階段期間可連續地執行決定來更新供當進入不活動階段時即刻使用的該估值。
總而言之,音訊編碼器10係經組配來在不活動階段28期間,諸如運用SID訊框32及38來將該參考電壓節點編碼成資料串流30。
如此,雖然後續解說的許多實施例係指在活動階段期間連續地執行雜訊估算因而可即刻地開始雜訊合成,但非必要為此種情況,體現上可以不同。大致言之,須瞭解此等優異實施例中呈示的全部細節也解說或揭露當檢測雜訊估值時例如也執行雜訊估算之實施例。
如此,背景雜訊估算器12係經組配來在活動階段24期間,基於在輸入18端進入音訊編碼器10的輸入音訊信號而連續地更新一參數背景雜訊估值。雖然第1圖提示背景雜訊 估算器12可基於在輸入18端所輸入的音訊信號而推衍參數背景雜訊估值之連續更新,但非必要為此種情況。背景雜訊估算器12可另外地或此外地從編碼引擎14獲得音訊信號版本,如虛線26例示說明。於該種情況下,背景雜訊估算器12可另外地或此外地分別地透過連接線26及編碼引擎14而間接地連結至輸入18。更明確言之,針對背景雜訊估算器12連續地更新背景雜訊估值存在有不同的可能性,若干此等可能性容後詳述。
編碼引擎14係經組配來在活動階段24期間編碼到達輸入18的輸入音訊信號成為資料串流。活動階段應涵蓋有用的資訊含在該音訊信號內部的全部時間,諸如語音或其它雜訊源之有用聲音。另一方面,具有幾乎時間不變特性的聲音諸如於揚聲器背景中由雨聲或交通聲所引起的時間不變頻譜須歸類為背景雜訊,每當只存在有此種背景雜訊時,個別時間週期應歸類為不活動階段28。檢測器16係負責基於在輸入18的輸入音訊信號而檢測在活動階段24後進入不活動階段28。換言之,檢測器16區別兩個階段,亦即活動階段及不活動階段,其中檢測器16決定目前存在哪個階段。檢測器16通知編碼引擎14有關目前存在的階段,及如前文已述,編碼引擎14執行活動階段24期間該輸入音訊信號之編碼成為資料串流。檢測器16據此控制開關22,使得由編碼引擎14所輸出的資料串流係在輸出20輸出。在不活動階段期間,編碼引擎14可停止編碼輸入音訊信號。至少在輸出20所輸出的資料串流不再由可能藉編碼引擎14所 輸出的任何資料串流而饋入。此外,編碼引擎14可只執行最少處理來支援估算器12而只有若干狀態變數更新。此種動作將大減運算功率。例如開關22係設定為使得估算器12的輸出係連結至輸出20,而非連結至編碼引擎的輸出。藉此減少用以傳輸在輸出20所輸出的位元串流之有用的傳輸位元率。
於背景雜訊估算器12係經組配來在活動階段24期間基於如前文已述之輸入音訊信號18而連續地更新一參數背景雜訊估值的情況下,恰在從活動階段24過渡至不活動階段28後,亦即恰在進入不活動階段28時,估算器12能夠將在活動階段24期間所連續地更新的該參數背景雜訊估值***在輸出20所輸出的資料串流30。緊接在活動階段24結束後,及緊接在檢測器16檢測得進入不活動階段28之時間瞬間34後,背景雜訊估算器12例如可將無聲***描述符(SID)訊框32***資料串流30內。換言之,由於在活動階段24期間背景雜訊估算器對參數背景雜訊估值之連續更新,故在檢測器16檢測得進入不活動階段28與SID 32之***間無需時間間隙。
如此,摘要如上說明,第1圖之音訊編碼器10符合體現第1圖實施例之較佳選項,可操作如下。用於例示說明目的,假設目前存在一活動階段24。於此種情況下,編碼引擎14將在輸入18的輸入音訊信號目前地編碼成資料串流20。開關22連結編碼引擎14之輸出至輸出20。編碼引擎14可使用參數編碼及變換編碼來將輸入音訊信號18編碼成資 料串流。更明確言之,編碼引擎14可以訊框單位編碼該輸入音訊信號,各個訊框編碼該輸入音訊信號之接續且部分彼此重疊之時間區間中之一者。編碼引擎14額外地可在資料串流的接續訊框間,在不同編碼模式間切換。舉例言之,某些訊框可使用預測編碼諸如CELP編碼而編碼,及若干其它訊框可使用變換編碼諸如TCX或AAC編碼而編碼。請參考例如USAC及其編碼模式,例如述於ISO/IEC CD 23003-3日期2010年9月24日。
在活動階段24期間,背景雜訊估算器12連續地更新參數背景雜訊估值。據此,背景雜訊估算器12可經組配來區別該輸入音訊信號內部的雜訊成分與有用信號成分而只從該雜訊成分決定參數背景雜訊估值。背景雜訊估算器12在頻譜域執行此項更新,諸如頻譜域也可用在編碼引擎14內部之變換編碼。此外,在例如變換編碼輸入信號之以LPC為基礎的濾波版本期間,而非進入輸入18或遺漏編碼成資料串流的音訊信號,背景雜訊估算器12可基於呈中間結果在編碼引擎14內部獲得的激勵信號或殘差信號而執行更新。藉此在輸入音訊信號內的大量有用信號成分已經被移除,故針對背景雜訊估算器12,雜訊成分的檢測更容易。至於頻譜域,可使用重疊變換域諸如MDCT域,或濾波器組域諸如複數值濾波器組域諸如QMF域。
在活動階段24期間,檢測器16也連續地運轉來檢測不活動階段28的進入。檢測器16可具體實施為語音/聲音活動檢測器(VAD/SAD)或若干其它構件,決定有用的信號成分 目前是否存在於該輸入音訊信號。假設一旦超過臨界值則進入不活動階段,檢測器16決定是否繼續活動階段24的基本標準可以是:查核該輸入音訊信號之低通濾波功率是否保持低於某個臨界值。
與檢測器16執行檢測在活動階段24之後進入不活動階段28的確切方式獨立無關地,檢測器16即刻地通知其它實體12、14及22進入不活動階段28。在活動階段24期間背景雜訊估算器的連續更新參數背景雜訊估值之情況下,在輸出20所輸出的資料串流30可即刻地避免進一步從編碼引擎14饋入。反而,當被通知進入不活動階段28時即刻,背景雜訊估算器12將以SID訊框32形式,將該參數背景雜訊估值之末次更新的資訊***資料串流30內部。換言之,SID訊框32緊接在編碼引擎的最末訊框之後,該最末訊框係編碼有關檢測器16檢測得不活動階段進入的該時間區間之音訊信號訊框。
一般而言,背景雜訊不常改變。於大部分情況下,就時間上而言背景雜訊傾向於不變。據此,恰在檢測器16檢測得不活動階段28的起始後即刻,在背景雜訊估算器12***SID訊框32後,任何資料串流的傳輸可被中斷,使得於此中斷階段34中,資料串流30並不耗用任何位元率,或只耗用若干傳輸目的所要求的最小位元率。為了維持最小位元率,背景雜訊估算器12可間歇地重覆SID 32的輸出。
但儘管背景雜訊傾向於不隨時間而改變,雖言如此,可能出現背景雜訊改變。舉例言之,設想在講電話中,行 動電話使用者離開汽車,故背景雜訊從馬達雜訊改變成車外的交通雜訊。為了追蹤此種背景雜訊的改變,背景雜訊估算器12可經組配來連續地調查背景雜訊,即便於不活動階段28期間亦復如此。每當背景雜訊估算器12判定參數背景雜訊估值改變量超過某個臨界值時,背景估算器12可透過另一個SID 38而將參數背景雜訊估值的更新版本***資料串流20,其中隨後可接著另一個中斷階段40,直到例如檢測器16檢測得另一個活動階段42開始為止等等。當然,揭露目前已更新參數背景雜訊估值的SID訊框可另外地或此外地,以中間方式散布在不活動階段內部,而與參數背景雜訊估值之改變獨立無關。
顯然,藉編碼引擎14所輸出及第1圖中使用影線指出的資料串流44比較在不活動階段28期間欲傳輸的資料串流片段32及38耗用更多傳輸位元率,因而位元率的節省相當顯著。
此外,於背景雜訊估算器12能夠藉前述選擇性連續估值更新而即刻地開始進行至進一步饋進資料串流30之情況下,超過時間上不活動階段檢測點34即無需初步繼續傳輸編碼引擎14之資料串流44,因而更進一步減低總耗用位元率。
如於後文中將就更特定實施例以進一步細節說明,於輸入音訊信號的編碼中,編碼引擎14可經組配來將該輸入音訊信號預測編碼成線性預測係數,及以變換編碼激勵信號成編碼成激勵信號,及將線性預測係數分別地編碼成資料串流30及44。一項可能的體現係顯示於第2圖。依據第2圖,編碼引擎14包含一變換器50、一頻域雜訊塑形器 (FDNS)52、及一量化器54,係以所述順序串接在編碼引擎14的音訊信號輸入56與資料串流輸出58間。又復,第2圖之編碼引擎14包括線性預測分析模組60,模組60係經組配來藉個別地分析音訊信號各部分的開窗及施加自相關性至開窗部上來從音訊信號56決定線性預測係數,或基於由變換器50所輸出的輸入音訊信號之變換域中的變換而決定自相關性(autocorrelation),決定方式係使用其功率頻譜,及施加反DFT於其上,因而決定自相關性,隨後基於該自相關性諸如使用(韋-)李-杜演算法執行線性預測編碼(LPC)估算。
基於由線性預測分析模組60所決定的線性預測係數,於輸出58所輸出的資料串流被饋以LPC之個別資訊,及頻域雜訊塑形器係經控制因而依據相對應於藉模組60所輸出的線性預測係數所決定的線性預測分析濾波器之轉移函式的該轉移函式而頻譜上塑形該音訊信號的頻譜圖。為了於資料串流中傳輸而將LPC的量化可於LSP/LSF域及使用內插法進行,因而比較分析器60中的分析速率,減低傳輸速率。又復,在FDNS中所執行的LPC至頻譜加權轉換可涉及施加ODFT至LPC上,及施加所得加權值至變換器的頻譜作為除數。
然後,量化器54量化頻譜成形(平坦化)頻譜圖之變換係數。舉例言之,變換器50使用重疊變換諸如MDCT來將該音訊信號從時域轉成頻譜域,藉此獲得相對應於該輸入音訊信號之重疊開窗部的接續變換,然後藉依據LP分析濾波器的轉移函式,加權此等變換而藉頻域雜訊塑形器52頻譜 成形。
已塑形頻譜圖可解譯為激勵信號,及以虛線箭頭62例示說明時,背景雜訊估算器12可經組配來使用此一激勵信號而更新該參數背景雜訊估值。另外地,如藉虛線箭頭64指示,背景雜訊估算器12可利用如由變換器50輸出的重疊變換表示型態作為直接更新的基礎,亦即無需藉雜訊塑形器52做頻域雜訊塑形。
有關第1至2圖所示元件之可能體現的進一步細節係從後文更詳細說明之實施例推衍,注意全部此等細節皆可個別地轉移至第1及2圖之元件。
但在參考第3圖描述此等進一步細節實施例前,此外地或另外地顯示可在解碼器端執行參數背景雜訊估值更新。
第3圖之音訊解碼器80係經組配來解碼進入解碼器80之一輸入82的資料串流,因而從該資料串流重建一音訊信號,欲在解碼器80之一輸出84輸出。該資料串流包括至少一個活動階段86接著一個不活動階段88。音訊解碼器80之內部包括一背景雜訊估算器90、一解碼引擎92、一參數隨機產生器94、及一背景雜訊產生器96。解碼引擎92係連結在輸入82與輸出84間,及同理,背景雜訊估算器90、背景雜訊產生器96及參數隨機產生器94係連結在輸入82與輸出84間。解碼器92係經組配來在活動階段期間從資料串流重建音訊信號,使得如在輸出84輸出的音訊信號98包括雜訊及適當品質的有用聲音。
背景雜訊估算器90係經組配來基於得自資料串流的輸 入音訊信號之頻譜分解表示型態而決定一參考電壓節點,故該參考電壓節點頻譜上描述該輸入音訊信號之背景雜訊之頻譜波封。該參數隨機產生器94及背景雜訊產生器96係經組配來藉由在不活動階段期間,使用該參考電壓節點控制該參數隨機產生器而在該不活動階段期間重建音訊信號。
但如第3圖之虛線指示,音訊解碼器80可不包括估算器90。反而如前文指示,資料串流可於其中編碼一參數背景雜訊估值,其於頻譜上描述該背景雜訊之頻譜波封。於該種情況下,解碼器92可經組配來在活動階段期間從資料串流重建音訊信號,同時該參數隨機產生器94及背景雜訊產生器96協作來藉由在不活動階段88期間,取決於該參考電壓節點控制該參數隨機產生器94而在該不活動階段期間合成該音訊信號。
但若存在有估算器90,則第3圖之解碼器80可在進入106不活動階段106時藉由資料串流88諸如利用啟動不活動旗標獲得通知。然後,解碼器92可進行繼續解碼初步額外饋給部102,及在時間瞬間106之後的該初步時間以內,背景雜訊估算器可習得/估計該背景雜訊。但遵照前述第1及2圖之實施例,可能背景雜訊估算器90係經組配來在活動階段期間從該資料串流連續地更新該參數背景雜訊估值。
背景雜訊估算器90可能不是直接連結輸入82,反而係透過解碼引擎92連結,如虛線100之例示說明,因而從解碼引擎92獲得該音訊信號之某個重建版本。原因在於背景雜訊估算器90可經組配來極其類似背景雜訊估算器12地操 作,但下述事實除外,背景雜訊估算器90只存取該音訊信號之可重建版本,亦即包括在編碼端由量化所造成的損耗。
參數隨機產生器94可包括一或多個真或假亂數產生器,藉該產生器輸出之數值序列可符合統計分布,可透過背景雜訊產生器96而參數地設定。
背景雜訊產生器96係經組配來藉由在不活動階段88期間取決於得自背景雜訊估算器90的參數背景雜訊估值而控制參數隨機產生器94,而在不活動階段88期間合成音訊信號98。雖然兩個實體96及94顯示為串接,但串接不可解譯為限制性。產生器96與94可以交聯。實際上,產生器94可解譯為產生器96之一部分。
如此,依據第3圖之優異體現,第3圖之音訊解碼器80之操作模式可以是如下。在活動階段86期間,輸入82係被連續地提供以資料串流部分102,該部分102係在活動階段86期間將由解碼引擎92處理。然後,在某個時間瞬間106,進入輸入82的資料串流104中止專用於解碼引擎92的資料串流部分102的傳輸。換言之,在時間瞬間106不再有額外資料串流部分之訊框可資藉引擎92用於解碼。進入不活動階段88的傳訊可以是資料串流部分102傳輸的瓦解,或可藉若干資訊108緊接排列在不活動階段88起點而予傳訊。
總而言之,不活動階段88的進入極為突然發生,但如此不成問題,原因在於在活動階段86期間,背景雜訊估算器90已經基於資料串流部分102而連續地更新參數背景雜訊估值。因此之故,一旦不活動階段88在106開始時,背景 雜訊估算器90能夠對背景雜訊產生器96提供以參數背景雜訊估值的最新版本。因此,從時間瞬間106開始,當解碼引擎92不再被饋以資料串流部分102時,解碼引擎92中止輸出任何音訊信號重建,反而參數隨機產生器94係由背景雜訊產生器96依據參數背景雜訊估值加以控制,使得在時間瞬間106之後即刻可在輸出84輸出背景雜訊的仿真,因而無縫地遵循如由解碼引擎92所輸出的重建音訊信號直到時間瞬間106。交叉衰減可用來從如由引擎92所輸出的活動階段之最末重建訊框變遷至如藉由近更新的參數背景雜訊估值版本所決定之背景雜訊。
背景雜訊估算器90係經組配來在活動階段86期間,連續地更新來自資料串流104的參數背景雜訊估值,背景雜訊估算器90可經組配來區別在音訊信號版本內部在活動階段86從資料串流104所重建的雜訊成分與有用信號成分,及只從雜訊成分而不從有用信號成分決定該參數背景雜訊估值。背景雜訊估算器90執行此項區別/分離之方式係相對應於如前文就背景雜訊估算器12所摘要說明的方式。舉例言之,可使用解碼引擎92內部從資料串流104所內部重建的激勵信號或殘差信號。
類似第2圖,第4圖顯示解碼引擎92之可能體現。依據第4圖,解碼引擎92包括用以接收資料串流部分102之一輸入110,及用以輸出在活動階段86內部的重建音訊信號之一輸出112。串接在其間,解碼引擎92包括一解量化器114、一頻域雜訊塑形器(FDNS)116及一反變換器118,該等構件 係以其所述順序連結在輸出110與音訊信號112間。到達輸出110的資料串流部分102包括激勵信號之變換編碼版本,亦即表示該激勵信號之變換係數位準,該版本係饋至解量化器之輸入;以及線性預測係數的資訊,該資訊係饋至頻域雜訊塑形器116。解量化器114解量化激勵信號的頻譜表示型態及前傳至頻域雜訊塑形器116,頻域雜訊塑形器116轉而依據相對應於線性預測合成濾波器的轉移函式而頻譜成形激勵信號(連同平坦量化雜訊)之頻譜圖,藉此形成量化雜訊。原則上,第4圖之FDNS 116的作用係類似第2圖之FDNS:LPC係提取自資料串流,及然後LPC接受頻譜加權轉換,轉換方式例如藉由施加ODFT至所提取的LPC,然後施加所得頻譜加權至得自解量化器114的解量化頻譜上作為乘數。然後重新變換器118將如此所得之從頻譜域重建音訊信號轉移至時域,及在音訊信號112輸出如此所得之重建音訊信號。重疊變換可由反變換器118諸如由IMDCT使用。如虛線箭頭120例示說明,激勵信號的頻譜圖可由背景雜訊估算器90用於參數背景雜訊更新。另外地,音訊信號之頻譜圖本身可如虛線箭頭122指示使用。
有關第2圖及第4圖,須注意用以體現編碼/解碼引擎之此等實施例並非解譯為限制性。其它實施例亦屬可行。此外,編碼/解碼引擎可屬多模式編解碼器型別,於該處第2及4圖之部件只負責編碼/解碼具有特定訊框編碼模式與其相聯結的訊框,而其它訊框係由未顯示於第2及4圖之編碼引擎/解碼引擎部件負責。此種另一種訊框編碼模式也可以 是例如使用線性預測編碼之預測編碼模式,但編碼係在時域編碼而非使用變換編碼。
第5圖顯示第1圖之編碼器之進一步細節實施例。更明確言之,依據特定實施例背景雜訊估算器12係以進一步細節顯示於第5圖。
依據第5圖,背景雜訊估算器12包括一變換器140、一FDNS 142、一LP分析模組144、一雜訊估算器146、一參數估算器148、一平穩性測量器150、及一量化器152。剛才述及的若干組件部分地或全部地可由編碼引擎14所共同擁有。舉例言之,變換器140與第2圖之變換器50可以相同,線性預測分析模組60與144可以相同,FDNS 52與142可以相同,及/或量化器54及量化器152可在一個模組內體現。
第5圖也顯示位元串流封裝器154,其被動負責第1圖中開關22的操作。更明確言之,例如VAD作為第5圖編碼器之檢測器16,只是決定須採用哪一路徑,音訊編碼14路徑或背景雜訊估算器12路徑。更精確言之,編碼引擎14及背景雜訊估算器12皆係並聯在輸入18與封裝器154間,其中於背景雜訊估算器12內部,變換器140、FDNS 142、LP分析模組144、雜訊估算器146、參數估算器148、及量化器152係並聯在輸入18與封裝器154間(以所述順序),而LP分析模組144係個別地連結在輸入18與FDNS模組142之LPC輸入與量化器152之又一輸入間,及平穩性測量器150係額外地連結在LP分析模組144與量化器152之控制輸入間。位元串流封裝器154若接收到來自連結至其輸入的任一個實體之輸 入時單純執行封裝。
於傳輸零訊框之情況下,亦即在不活動階段的中斷階段期間,檢測器16通知背景雜訊估算器12,特別量化器152來中止處理及不發送任何輸入給位元串流封裝器154。
依據第5圖,檢測器16可於時域及/或變換域/頻譜域操作來檢測活動階段/不活動階段。
第5圖之編碼器之操作模式如下。如將更明瞭,第5圖之編碼器能夠改良舒適雜訊之品質,諸如通常為靜態雜訊,諸如汽車雜訊、許多人講話的喃喃雜訊、某些樂器、及特別富含和諧之雜訊諸如雨滴聲。
更明確言之,第5圖之編碼器係控制在解碼端的隨機產生器,因而激勵變換係數使得仿真在編碼端檢測得之雜訊。據此,在討論第5圖之編碼器之功能前,進一步簡短地參考第6圖,顯示解碼器的一個可能實施例,能夠如藉第5圖之編碼器指示而在解碼端仿真該舒適雜訊。更概略言之,第6圖顯示匹配第1圖之編碼器的解碼器之可能體現。
更明確言之,第6圖之解碼器包括一解碼引擎160因而在活動階段期間,解碼資料串流部分44,及一舒適雜訊產生部分162用以基於在有關不活動階段28的資料串流中提供的資訊32及38產生舒適雜訊。舒適雜訊產生部分162包括一參數隨機產生器164、一FDNS 166及一反量化器(或合成器)168。模組164至168係彼此串接,因而在合成器168的輸出端導致舒適雜訊,該舒適雜訊填補如就第1圖討論,在不活動階段28期間藉解碼引擎160所輸出的重建音訊信號間 之間隙。處理器FDNS 166及反量化器168可以是解碼引擎160的一部分。更明確言之,例如可與第4圖之FDNS 116及118相同。
第5及6圖個別模組之操作模式及功能從後文討論將更為明瞭。
更明確言之,諸如藉使用重疊變換,變換器140將輸入信號頻譜分解頻譜圖。雜訊估算器146係經組配來從頻譜圖中決定雜訊參數。同時,語音或聲音活動檢測器16評估從輸入信號推衍的特徵,因而檢測是否發生從活動階段過渡至不活動階段,或反之亦然。由檢測器16所利用的特徵可以呈暫態/起始檢測器、調性度量、及LPC殘差度量形式。暫態/起始檢測器可用來檢測於乾淨環境或去雜訊化信號中活動語音的攻擊(能量的突增)或起始;調性度量可用來區別有用的背景雜訊,諸如警笛聲、電話鈴聲及音樂聲;LPC殘差可用來獲得該信號中存在有語音的指示。基於此等特徵,檢測器16能粗略地給予目前訊框是否可歸類為例如語音、無聲、音樂、或噪音之資訊。
雖然雜訊估算器146可負責區別頻譜圖內部的雜訊與其中的有用信號成分,諸如提示於[R.Martin,基於最佳平順化及最小統計資料之雜訊功率頻譜密度估計,2001],參數估算器148可負責統計上分析雜訊成分,及例如基於雜訊成分而決定各個頻譜成分之參數。
雜訊估算器146例如可經組配來搜尋頻譜圖中之局部最小值,及參數估算器148可經組配來決定在此等部分之雜 訊統計資料,假設頻譜圖中之最小值主要係由於背景雜訊而非前景聲音所促成。
作為中間註釋,強調也可藉沒有FDNS 142的雜訊估算器進行估算,原因在於最小值確實也出現在未經塑形的頻譜。大部分第5圖之描述維持不變。
參數量化器152轉而可經組配來參數化由參數估算器148所估算的參數。舉例言之,只要考慮雜訊成分,參數可描述頻譜值在輸入信號之頻譜圖內之分布的平均幅值及第一次冪或更高次冪動量。為了節省位元率,參數可前傳至資料串流用來以比變換器140所提供的頻譜解析度更低的頻譜解析度而***SID訊框內部。
平穩性測量器150可經組配來針對雜訊信號推衍出平穩性度量。參數估算器148轉而可使用該平穩性度量,因而決定是否應藉發送另一個SID訊框諸如第1圖之訊框38而起始參數更新,或影響參數的估算方式。
模組152量化由參數估算器148及LP分析模組144所計算的參數,及傳訊此參數給解碼端。更明確言之,於量化前,頻譜成分可分成多組。此等分組可依據心理聲學構面選用,諸如吻合咆哮標度等。檢測器16通知量化器152是否需執行量化。於無需量化之情況下,接著為零訊框。
當將描述轉移至從活動階段切換至不活動階段的具體情況時,第5圖之模組如下述動作。
在活動階段期間,編碼引擎14透過封裝器繼續將音訊信號編碼成資料串流。編碼可以逐一訊框進行。資料串流 之各個訊框可表示該音訊信號的一個時部/時間區間。音訊編碼器14可經組配來使用LPC編碼而編碼全部訊框。音訊編碼器14可經組配來如就第2圖所述編碼若干訊框,例如稱作TCX訊框編碼模式。剩餘者可使用代碼激勵線性預測(CELP)編碼諸如ACELP編碼模式編碼。換言之,資料串流之部分44可包括運用某個LPC傳輸率,可等於或大於訊框率而連續地更新LPC係數。
並行地,雜訊估算器146檢視LPC平坦化(LPC分析濾波)頻譜,因而識別TCX頻譜圖內部由此等頻譜序列所表示的最小值kmin 。當然,此等最小值可隨時間t而改變,亦即kmin (t)。雖言如此,最小值可在由FDNS 142所輸出的頻譜圖形成蹤跡,如此針對在時間ti 的各個接續頻譜i,最小值可分別地與在先行頻譜及後續頻譜的最小值相聯結。
然後參數估算器從其中推衍背景雜訊估值參數,諸如針對不同頻譜成分或頻帶的取中傾向(平均值、中數等)m及/或分散性(標準差、變因等)d。推衍可涉及頻譜圖之在該最小值頻譜的接續頻譜係數之統計分析,藉此針對各個在kmin 的最小值獲得m及d。可執行沿頻譜維度在前述頻譜最小值間的內插,因而獲得其它預定頻譜成分或頻帶的m及d。推衍及/或取中傾向(平均值)之內插及分散性(標準差、變因等)之推衍的頻譜解析度可能各異。
剛才所述參數例如係依由FDNS 142輸出的頻譜而連續地更新。
一旦檢測器16檢測得進入不活動階段,檢測器16可據 此通知編碼引擎14,使得不再有活動訊框係前傳至封裝器154。但取而代之,量化器152輸出不活動階段內部在第一SID訊框中的剛才所述統計雜訊參數。SID訊框可以或可不包括LPC的更新。若存在有LPC更新,則可以部分44亦即在活動階段期間所使用的格式在SID訊框32的資料串流內部傳遞,諸如使用於LSF/LSP定義域的量化,或不同地,諸如使用相對應於LPC分析濾波器或LPC合成濾波器的轉移函式之頻譜權值,諸如在進行活動階段中已經由FDNS 142施加在編碼引擎14之框架內部的該等頻譜權值。
在不活動階段期間,雜訊估算器146、參數估算器148及平穩性測量器150繼續共同協作因而維持解碼端的更新跟得上背景雜訊的變化。更明確言之,測量器150檢查由LPC界定的頻譜權值,因而識別改變及通知估算器148何時SID訊框須被發送給解碼器。舉例言之,每當前述平穩性度量指示LPC的波動度超過某個量時,測量器150可據此而作動估算器。此外或另外,估算器可經觸發來以規則基礎發送已更新的參數。在此等SID更新訊框40間資料串流中不發送任何資訊,亦即「零訊框」。
在解碼器端,在活動階段期間,解碼引擎160負責執行重建音訊信號。一旦不活動階段起始,適應性參數隨機產生器164使用在不活動階段期間在資料串流內部由參數量化器150所發送的已解量化隨機產生器參數來產生隨機頻譜成分,藉此形成隨機頻譜圖,其係使用合成器168在頻譜能處理器166內部頻譜成形,然後執行從頻譜域再度變換成 時域。為了在FDNS 166內部之頻譜成形,可使用得自最晚近活動訊框的最晚近LPC係數,或可藉外推法而從其中推衍欲藉FDNS 166施加的頻譜加權,或SID訊框32本身可傳遞資訊。藉此方式,在不活動階段起始,FDNS166繼續依據LPC合成濾波器之轉移函式而頻譜地加權輸入頻譜,LPS界定LPC合成濾波器係從活動資料部分44或SID訊框32推衍。但不活動階段開始,欲藉FDNS 166塑形之頻譜為隨機產生的頻譜而非如同TCX訊框編碼模式的變換編碼。此外,於166施加的頻譜塑形只藉使用SID訊框38非連續地更新。在中斷階段36期間,可執行內插或衰減來從一個頻譜塑形定義切換至下一個。
如第6圖所示,適應性參數隨機產生器164可額外地選擇性地使用如含在資料串流中的最末活動階段的最晚近部分內部,亦即含在恰在進入不活動階段前的資料串流部分44內部的解量化變換係數。舉例言之,用途為從活動階段內部的頻譜圖平順地變遷成不活動階段內部的隨機頻譜圖。
簡短地回頭參考第1及3圖,遵照第5及6圖(及後文解釋的第7圖)之實施例,在編碼器及/或解碼器內部產生的參數背景雜訊估值可包括針對分開的頻譜部分諸如咆哮帶或不同頻譜成分之時間上接續頻譜值的分散性的統計資訊。針對各個此種頻譜部分,例如統計資訊可含有分散性度量。據此,分散性度量可以頻譜解析方式界定於頻譜資訊,亦即在/對於頻譜部分取樣。頻譜解析度,亦即沿頻譜軸展開的分散性及取中傾向之度量數目可在例如分散性度量與選 擇性地存在的平均值或取中傾向度量間相異。統計資訊係含在SID訊框內。述及塑形頻譜諸如LPC分析濾波(亦即LPC平坦化)頻譜,諸如塑形MDCT頻譜,其允許依據統計頻譜合成隨機頻譜,及依據LPC合成濾波器的轉移函式而解除其塑形來合成之。於該種情況下,頻譜塑形資訊可存在於SID訊框內部,但例如可於第一SID訊框32離開。但容後顯示,此種統計資訊另可述及非塑形頻譜。此外,替代使用實數值頻譜表示型態諸如MDCT,可使用複數值濾波器組頻譜諸如音訊信號之QMF頻譜。舉例言之,可使用於非塑形形式及藉統計資訊統計上描述的音訊信號之QMF頻譜,於該種情況下,除了含在統計資訊本身之外並無頻譜塑形。
類似第3圖實施例相對於第1圖實施例間之關係,第7圖顯示第3圖之解碼器的可能體現。如使用第5圖之相同元件符號顯示,第7圖之解碼器可包括一雜訊估算器146、一參數估算器148及一平穩性測量器150,其操作類似第5圖之相同元件,但第7圖之雜訊估算器146係對經傳輸的且經解量化的頻譜圖諸如第4圖之120或122操作。然後雜訊估算器146之操作類似第5圖討論者。同理適用於參數估算器148,其係在揭示在活動階段期間如透過/從資料串流經傳輸的且經解量化的LPC分析濾波器的(或LPC合成濾波器的)頻譜之時間展頻的能值及頻譜值或LPC資料上操作。
雖然元件146、148及150係作為第3圖之背景雜訊估算器90,但第7圖之解碼器也包括一適應性參數隨機產生器164及一FDNS 166,以及一反量化器168,及係類似第6圖 彼此串聯因而在合成器168之輸出端輸出舒適雜訊。模組164、166及168係作為第3圖之背景雜訊產生器96,模組164負責參數隨機產生器94之功能。適應性參數隨機產生器94或164依據由參數估算器148所決定的參數而隨機地產生頻譜圖之頻譜成分,該頻譜成分又轉而使用由平穩性測量器150所輸出的平穩性度量觸發。然後處理器166頻譜塑形如此產生的頻譜圖,反量化器168然後執行從頻譜域變換至時域。注意當於不活動階段88期間,解碼器接收資訊108,背景雜訊估算器90執行雜訊估值的更新接著某種內插手段。否則若接收到零訊框,則將單純只進行處理,諸如內插及/或衰減。
摘述第5至7圖,此等實施例顯示技術上可能施加經控制的隨機產生器164來激勵TCX係數,可以是實數諸如於MDCT或複數諸如於FFT。也可優異地施加隨機產生器164至通常透過濾波器組所達成的多組係數。
隨機產生器164較佳係經控制使得儘可能接近雜訊型別而模型化。若目標雜訊為事前已知則可達成。有些應用許可此點。於許多實際應用中個體可能遭遇不同型噪音,要求適應性方法,如第5至7圖所示。據此使用適應性參數隨機產生器164,可簡短地定義為g=f(x),於該處x=(x1 ,x2 ,...)為分別地由參數估算器146及150所提供的隨機產生器參數集合。
為了讓參數隨機產生器變成適應性,隨機產生器參數估算器146適當控制隨機產生器。可含括偏移補償來補償資 料被視為統計上不足的情況。此點係進行來基於過去訊框產生統計上匹配的雜訊模型,將經常性地更新估計參數。納定一個實例,於該處隨機產生器164係提出來產生高斯雜訊。於此種情況下,舉例言之,只需平均及變因參數,及可計算偏移值及施加至該等參數。更進階方法可處理任一型雜訊或分布,及參數並非必要為分布力矩。
針對非穩態雜訊,需要平穩性度量,則可使用較非適應性參數隨機產生器。藉測量器148決定的平穩性度量可使用多種方法從輸入信號之頻譜形狀推衍,例如板倉(Itakura)距離度量、庫李(Kullback-Leibler)距離度量等。
為了處置發送通過SID訊框,諸如第1圖中以38例示說明的雜訊更新的非連續本質,通常發送額外資訊,諸如雜訊之能及頻譜形狀。此一資訊可用來在解碼器產生具有平順變遷的雜訊,即便在不活動階段內部的不連續期間亦復如此。最後,各項平順或濾波技術可應用來協助改良舒適雜訊仿真器的品質。
如前文已述,一方面第5及6圖及另一方面,第7圖係屬不同情況。相對應於第5及6圖的情況中,參數背景雜訊估算係在編碼器基於已處理輸入信號進行,及後來參數係傳輸給編碼器。第7圖係相對應於另一種情況,於該處解碼器可基於活動階段內的過去接收訊框而處理參數背景雜訊估值。使用語音/信號活動檢測器或雜訊估算器事有利於提取雜訊成分,即便在活動語音(舉例)期間亦復如此。
第5至7圖所示情況中,以第7圖之情況為佳,原因在於 此種情況導致傳輸較低位元率。但第5及6圖之情況具有更準確的可用雜訊估值之優點。
以上全部實施例可組合帶寬擴延技術,諸如頻帶複製(SBR),但一般可用帶寬擴延。
為了例示說明此點,參考第8圖。第8圖顯示模組,藉該模組第1及5圖之編碼器可經擴延來就輸入信號之高頻部執行參數編碼。更明確言之,依據第8圖,時域輸入音訊信號係藉分析濾波器組200諸如第8圖所示QMF分析濾波器組作頻譜分解。然後前述第1及5圖之實施例只施加至藉濾波器組200所產生的頻譜分解之低頻部。為了傳遞高頻部之資訊給解碼器端,也使用參數編碼。為了達成此項目的,常規頻帶複製編碼器202係經組配來在活動階段期間,參數化高頻部,及在資料串流內部以頻帶複製資訊形式饋送高頻部上資訊給解碼端。開關204可設在QMF濾波器組200之輸出與頻帶複製編碼器202之輸入間來連結濾波器組200之輸出與並聯至編碼器202的頻帶複製編碼器206之輸入,因而負責在不活動階段期間的帶寬擴延。換言之,開關204可類似第1圖之開關22控制。容後詳述,頻帶複製編碼器模組206可經組配來類似頻帶複製編碼器202操作:二者可經組配來參數化高頻部內部輸入音訊信號之頻譜波封,亦即剩餘高頻部不接受藉例如編碼引擎的核心編碼。但頻帶複製編碼器模組206可使用最低時/頻解析度,頻譜波封係在資料串流內部參數化及傳遞,而頻帶複製編碼器202可經組配來調整時/頻解析度適應輸入音訊信號,諸如取決於音訊信號內 部的變遷發生。
第9圖顯示頻帶複製編碼器模組206之可能體現。一時/頻方陣設定器208、一能計算器210、及一能編碼器212係在編碼模組206之輸入與輸出間串聯。時/頻方陣設定器208可經組配來設定時/頻解析度,在此決定高頻部的波封。舉例言之,最小容許時/頻解析度係由編碼模組206連續使用。然後能計算器210決定在相對應於時/頻解析度的時/頻拼貼的高頻部內部藉濾波器組200輸出的頻譜圖之高頻部之能,在不活動階段期間,諸如SID訊框內部諸如SID訊框38,能編碼器212可使用例如熵編碼來將計算器210所計算的能***資料串流40(參考第1圖)。
須注意依據第8及9圖之實施例所產生的帶寬擴延資訊也可用來依據前摘實施例聯結編碼器使用,諸如第3、4及7圖。
如此,第8及9圖明白顯示就第1至7圖解說的舒適雜訊產生也可連結頻帶複製使用。舉例言之,前述音訊編碼器及音訊解碼器可以不同操作模式操作,其中有些操作模式包括頻帶複製,有些則否。超寬帶操作模式例如可涉及頻帶複製。總而言之,以就第8及9圖所述方式,前述第1至7圖之實施例顯示舒適雜訊之產生實例可組合帶寬擴延技術。負責在不活動階段期間之帶寬擴延的頻帶複製編碼器模組206可經組配來基於極低時間及頻率解析度操作。比較常規頻帶複製處理,編碼器206可在不同頻率解析度操作,需要額外頻帶表,該頻帶表具有極低頻率解析度連同針對每個舒適雜訊產生標度因數(該標度因數內插在不活動階 段期間施加於波封調整器的能標度因數)在解碼器內的IIR平順化濾波器。如剛才所述,時/頻方陣可經組配來相對應於最低可能時間解析度。
換言之,帶寬擴延編碼可取決於存在無聲階段或活動階段而在QMF域或頻譜域差異執行。在活動階段中亦即在活動訊框期間,藉編碼器202進行常規SBR編碼,導致正常SBR資料串流分別地伴隨資料串流44及102。在不活動階段中或在歸類為SID訊框之訊框期間,只有表示為能標度因數的有關頻譜波封資訊可藉施加時/頻方陣提取,其具有極低頻率解析度,及例如最低可能時間解析度。所得標可藉編碼器212有效編碼及寫至資料串流。於零訊框中或在中斷階段36期間,並無任何側邊資訊可藉頻帶複製編碼器模組206寫至該資料串流,因此並無能計算可藉計算器210進行。
遵照第8圖,第10圖顯示第3及7圖之解碼器實施例可能擴延至帶寬擴延編碼技術。更精確言之,第10圖顯示依據本案之音訊解碼器可能的實施例。核心解碼器92並聯至舒適雜訊產生器,舒適雜訊產生器以元件符號220標示,及包括例如舒適雜訊產生模組162或第3圖之模組90、94及96。開關222係顯示為取決於訊框型別,亦即該訊框攸關或係屬活動階段,或攸關或係屬不活動階段,諸如有關中斷階段的SID訊框或零訊框,分配資料串流104及30內部的訊框至核心解碼器92或舒適雜訊產生器220上。核心解碼器92及舒適雜訊產生器220之輸出係連結至帶寬擴延解碼器224之輸入,其輸出顯示重建音訊信號。
第11圖顯示帶寬擴延解碼器224之可能體現的進一步細節實施例。
如第11圖所示,依據第11圖實施例之帶寬擴延解碼器224包括一輸入226,該輸入226用以接收欲重建的完整音訊信號之低頻部的時域重建。輸入226連結帶寬擴延解碼器224與核心解碼器92及舒適雜訊產生器220之輸出,使得在輸入226的時域輸入可以是包括雜訊及有用成分二者的音訊信號之已重建低頻部,或用以橋接活動階段間之時間的舒適雜訊。
因依據第11圖之實施例帶寬擴延解碼器224係經建置來執行頻譜帶寬複製,故解碼器224於後文中稱作SBR解碼器。但有關第8至10圖,強調此等實施例並非限於頻譜帶寬複製。反而更為一般性的帶寬擴延之替代之道也可就此等實施例使用。
又復,第11圖之SBR解碼器224包含一時域輸出228,用以輸出最終重建音訊信號,亦即於活動階段或不活動階段。在輸入228與輸出228間,SBR解碼器224以述及順序串聯包括一頻譜分解器230,如第11圖所示,可以是分析濾波器組諸如QMF分析濾波器組、一HF產生器232、一波封調整器234及一頻譜至時域轉換器236,如第11圖所示,可體現為合成濾波器組,諸如QMF合成濾波器組。
模組230至236操作如下。頻譜分解器230頻譜分解時域輸入信號因而獲得重建低頻部。HF產生器232基於重建低頻部而產生高頻複製部,及波封調整器234利用透過SBR資料 串流部傳遞的及藉前文尚未討論但於第11圖顯示於波封調整器234上方的模組提供的高頻部之頻譜波封表示型態來頻譜成形或塑形高頻複製部。如此,波封調整器234依據所傳輸高頻波封的時/頻方陣表示型態調整高頻複製部之波封,及前傳如此所得高頻部給頻譜至時域轉換器236,用以將整個頻譜亦即頻譜成形高頻部連同重建低頻部變換成在輸出228的重建時域信號。
如前文就第8至10圖已述,高頻部頻譜波封可以能標度因數形式在資料串流內部傳遞,SBR解碼器224包括一輸入238來接收在高頻部頻譜波封上的此種資訊。如第11圖所示,以活動階段為例,亦即在活動階段期間存在於資料串流的活動訊框,輸入238可透過個別開關240直接連結至波封調整器234的頻譜波封輸入。但SBR解碼器224額外地包括一標度因數組合器242、一標度因數資料儲存模組244、一內插濾波單元246諸如IIR濾波單元,及一增益調整器248。模組242、244、246及248係在輸入238與波封調整器234之頻譜波封輸入間彼此串接,開關240係連結在增益調整器248與波封調整器234間,又一開關250係連結在標度因數資料儲存模組244與濾波單元246間。開關250係經組配來連結此標度因數資料儲存模組244與濾波單元246之輸入,或連結標度因數資料重設器252。在不活動階段期間於SID訊框之情況下,及選擇性地於活動訊框之情況下,高頻部頻譜波封之極為粗略表示型態為可接受之情況下,開關250及240連結輸入238至波封調整器234間的模組序列242至 248。標度因數組合器242調整適應高頻部頻譜波封已經透過資料串流傳輸的頻率解析度成為波封調整器234預期接收的解析度,及標度因數資料儲存模組244儲存所得頻譜波封直到下次更新。濾波單元246於時間及/或頻譜維度濾波該頻譜波封,及增益調整器248調整適應高頻部的頻譜波封之增益。為了達成該項目的,增益調整器可組合如藉單元246獲得的波封資料與從QMF濾波器組輸出導出的實際波封。標度因數資料重設器252再現如藉標度因數資料儲存模組244所儲存的表示在中斷階段或零訊框內部之頻譜波封的標度因數資料。
如此在解碼器端可進行下列處理。在活動訊框內或在活動階段期間,可施加常規頻帶複製處理。在此等活動週期期間,得自資料串流的標度因數其典型地比較舒適雜訊產生處理可用在更高數目的標度因數頻帶,該等標度因數係藉標度因數組合器242而變換成舒適雜訊產生頻率解析度。標度因數組合器組合針對較高頻率解析度之標度因數來獲得多個標度因數,藉探勘不同頻帶表之共用頻帶邊界而符合舒適雜訊產生(CNG)。在標度因數組合單元242之輸出端的所得標度因數值係儲存來供零訊框再度使用,及後來藉重設器252再現,及隨後用在更新用於CNG操作模式的濾波單元246。於SID訊框中,施加已修改的SBR資料串流讀取器,其係從資料串流提取標度因數資訊。SBR處理之其餘組態係以預定值初始化,時/頻方陣係經初始化成為編碼器內使用的相同時/頻解析度。所提取的標度因數係饋至 濾波單元246,於該處例如一個IIR平順濾波器內插一個低解析度標度因數帶隨時間之能進展。於零訊框之情況下,從位元串流未讀取有效負載,含時/頻方陣之SBR組態係與SID訊框使用者相同。於零訊框中,濾波單元246中的平順濾波器係被饋以從標度因數組合單元242輸出的標度因數值,該標度因數值已經儲存在含有效標度因數資訊的最末訊框。於目前訊框被歸類為不活動訊框或SID訊框之情況下,舒適雜訊係在TCX域產生,及變換回時域。隨後,含舒適雜訊的時域信號饋進SBR模組224的QMF分析濾波器組230。於QMF域中,舒適雜訊之帶寬擴延係利用HF產生器232內部的拷貝轉位進行,及最後,人工產生的高頻部分之頻譜波封係藉施加能標度因數資訊於波封調整器234而調整。此等能標度因數係藉濾波單元246之輸出獲得,及在施用於波封調整器234前藉增益調整單元248定標。於此增益調整單元248中,用以定標標度因數的增益值係經計算及施加來補償該信號的低頻部與高頻部間邊界的巨大能差。前述實施例常用在第12及13圖之實施例。第12圖顯示依據本案之一實施例音訊編碼器之一實施例,及第13圖顯示音訊解碼器之一實施例。有關此等圖式揭示之細節須同等適用於前述個別元件。
第12圖之音訊編碼器包括用以頻譜分解輸入音訊信號之一QMF分析濾波器組200。一檢測器270及一雜訊估算器262係連結至QMF分析濾波器組200之一輸出。雜訊估算器262負責背景雜訊估算器12之功能。在活動階段期間,得自 QMF分析濾波器組之QMF頻譜係藉頻帶複製參數估算器260之並聯處理,接著一方面為某個SBR編碼器264,及另一方面為QMF合成濾波器組272接著核心編碼器14的級聯(concatenation)。二並聯路徑係連結至位元串流封裝器266之個別輸入。於輸出SID訊框之情況下,SID訊框編碼器274從雜訊估算器262接收資料,及輸出SID訊框給位元串流封裝器266。
由估算器260所輸出的頻譜帶寬擴延資料描述頻譜圖之高頻部的頻譜波封或由QMF分析濾波器組200所輸出的頻譜,然後藉SBR編碼器264編碼,諸如藉熵編碼而編碼。資料串流多工器266將活動階段的頻譜帶寬擴延資料***在多工器266之輸出268的資料串流輸出內。
檢測器270檢測目前是否活動階段或不活動階段為作用態。基於此項檢測,目前將輸出一活動訊框、一SID訊框或一零訊框亦即一不活動訊框。換言之,模組270決定是否活動階段或不活動階段為作用態,及若不活動階段為作用態,則決定是否將輸出一SID訊框。該等決定係指示於第12圖,I表示零訊框,A表示活動訊框,及S表示SID訊框。相對應於存在有活動階段的輸入信號之時間區間之一訊框也前傳給QMF合成濾波器組272與核心編碼器14的級聯。比較QMF分析濾波器組200時,QMF合成濾波器組272具有較低頻率解析度,或在較低數目QMF子帶操作,因而在再度轉移輸入信號之活動訊框部至時域中,藉子帶數目比而達成相對應縮減取樣率。更明確言之,QMF合成濾波器組272 係施加至活動訊框內部QMF分析濾波器組頻譜圖的低頻部或低頻子帶。如此核心編碼器14接收輸入信號之縮減取樣版本,如此只涵蓋原先輸入QMF分析濾波器組200的輸入信號之低頻部。其餘高頻部係藉模組260及264參數編碼。
SID訊框(或更精確言之,欲藉SID訊框傳遞之資訊)係前傳至SID編碼器274,其例如負責第5圖之模組152之功能。唯一差異:模組262在輸入信號頻譜上直接操作,未經LPC塑形。此外,因使用QMF分析濾波,故模組262之操作係與藉核心編碼器所選訊框模式或頻譜帶寬擴延選項的施加與否獨立無關。第5圖之模組148及150之功能可在模組274內部體現。
多工器266在輸出268將個別編碼資訊多工化成為資料串流。
第13圖之音訊解碼器能在如由第12圖之編碼器所輸出的資料串流上操作。換言之,模組280係經組配來接收資料串流,及歸類資料串流內部訊框成為例如活動訊框、SID訊框及零訊框,亦即資料串流不含任何訊框。活動訊框係前傳至核心解碼器92、QMF分析濾波器組282及頻譜帶寬擴延模組284之級聯。選擇性地,雜訊估算器286係連結至QMF分析濾波器組的輸出。雜訊估算器286的操作係類似例如第3圖之背景雜訊估算器90且負責背景雜訊估算器90的功能,但雜訊估算器係在未經塑形的頻譜上操作而非激勵頻譜。模組92、282及284之級聯係連結至QMF合成濾波器組288之一輸入端。SID訊框係前傳至SID訊框解碼器290,其 例如負責第3圖之背景雜訊產生器96之功能。舒適雜訊產生參數更新器292係藉來自解碼器290及雜訊估算器286的資訊饋給,此更新器292駕馭隨機產生器294,隨機產生器294負責第3圖之參數隨機產生器功能。因遺漏不活動訊框或零訊框,故無需前傳至任何處所,反而觸發隨機產生器294的另一隨機產生循環。隨機產生器294之輸出係連結至QMF合成濾波器組288,其輸出顯示無聲的重建音訊信號及時域之活動階段。
如此,在活動階段期間,核心解碼器92重建音訊信號之低頻部,包括雜訊成分及有用信號二成分。QMF分析濾波器組282頻譜分解重建信號,頻譜帶寬擴延模組284分別地使用資料串流及活動訊框內部的頻譜帶寬擴延資訊來加上高頻部。雜訊估算器286若存在時基於如藉核心解碼器重建的頻譜部亦即低頻部執行雜訊估算。在不活動階段中,SID訊框傳遞資訊,該資訊描述在編碼器端由雜訊估算器262所推衍的背景雜訊估值。參數更新器292主要使用編碼器資訊來更新其參數背景雜訊估值,於有關SID訊框傳輸損耗之情況下,使用由雜訊估算器286所提供的資訊主要係作為底牌。QMF合成濾波器組288變換在活動階段由頻譜帶寬擴延模組284所輸出的頻譜分解信號及在時域的舒適雜訊產生信號頻譜。如此,第12及13圖清楚顯示QMF濾波器組框架可用作為以QMF為主的舒適雜訊產生的基礎。QMF框架提供方便方式來在編碼器重新取樣輸入信號縮減至核心編碼器的取樣率,或運用QMF合成濾波器組288在解碼器端 向上取樣核心解碼器92之核心解碼器輸出信號。同時,QMF框架也可組合帶寬擴延來提取及處理由核心編碼器14及核心解碼器92二模組所留下的信號之頻率成分。據此,QMF濾波器組可對各種信號處理工具提供共用框架。依據第12及13圖之實施例,舒適雜訊產生成功地含括於此框架內。
更特別依據第12及13圖之實施例,可知在QMF分析後可能在解碼器端產生舒適雜訊,但在QMF分析前,藉施用隨機產生器294來激勵例如QMF合成濾波器組288之各個QMF係數之實數部分及虛數部分。隨機序列之幅值為例如在各個QMF帶計算,使得產生舒適雜訊之頻譜類似實際輸入背景雜訊信號之頻譜。此點可在編碼端在QMF分析後使用雜訊估算器而在各個QMF帶達成。然後此等參數可經由SID訊框傳輸來更新在解碼器端,在各個QMF帶施加的隨機序列之幅值。
理想上,注意施加於編碼器端的雜訊估算器262應可在不活動(亦即只有噪音)及活動週期(典型地含有嘈雜語音)二者期間操作,使得在各個活動週期結束後即刻更新舒適雜訊參數。此外,雜訊估算也可用在解碼器端。因在以DTX為基礎的編碼/解碼系統中拋棄只有噪音的訊框,在解碼器端的雜訊估算有利地能夠對嘈雜語音內容操作。除了編碼器端之外,在解碼器端執行雜訊估算的優點是舒適雜訊之頻譜形狀可被更新,即便後一段活動週期後,第一個SID訊框封包從編碼器傳輸至解碼器失敗亦復如此。
雜訊估算須能準確地且快速地遵循背景雜訊的頻譜內 容變化,及理想上,如前記,在活動及不活動二訊框期間須能執行。達成此項目的的一個方式係如[R.Martin,基於最佳平順化及最小統計資料之雜訊功率頻譜密度估計,2001]提示,使用有限長度的滑動窗追蹤藉功率頻譜在各帶取最小值。其背後的構思是嘈雜語音頻譜之功率經常地衰減至背景雜訊的功率,例如在各字間或在各音節間。追蹤功率頻譜之最小值因而提供在各頻帶中固有雜訊位準之估值,即便於語音活動期間亦復如此。但通常此等固有雜訊位準被低估。此外,不允許捕捉頻譜功率的快速起伏,特別於能量突增時尤為如此。
雖言如此,在各頻帶中如前述計算的固有雜訊位準提供極為有用的側邊資訊來施加雜訊估算之第二階段。實際上,發明人可預期雜訊頻譜之功率接近在不活動期間估算的固有雜訊位準,而頻譜功率將遠高於活動期間的固有雜訊位準。因此在各頻帶分開計算的固有雜訊位準可用作為各頻帶的粗略活動檢測器。基於此項資訊,容易估計背景雜訊功率為功率頻譜的遞歸地平順化版本,如下:σ N 2 (m,k )=β (m,k ).σ N 2 (m -1,k )+(1-β (m,k )).σ X 2 (m,k ) 於該處σ x 2 (m ,k )表示在訊框m及頻帶k之功率頻譜密度,σ N 2 (m ,k )表示雜訊功率估值,及β(m,k)為忘記因數(需為0至1)分開地控制各頻帶及各訊框之平順因數。使用固有雜訊位準資訊來反映活動狀態,在不活動週期期間須為小值(亦即此時功率頻譜係接近固有雜訊位準),而在活動訊框期間,須選用高值來施加更多平順化(理想上保持σ N 2 (m ,k )為常 數)。為了達成此項目的,藉如下計算忘記因數可做出軟性決定: 於該處σ NF 2 為固有雜訊功率位準及α為控制參數。α之較高值導致較大忘記因數,因而造成總體更平順。
如此,已經描述舒適雜訊產生(CNG)構想,於該處人工雜訊係在變換域在解碼器端產生。前述實施例可組合將時域信號分解成多個頻譜帶的實質上任何型別的頻-時分析工具(亦即變換或濾波器組)應用。
再度,須注意單獨使用頻譜域提供背景雜訊之更精確估值,並不使用前述在活動階段期間連續地更新該估值的可能性而達成優點。據此,據此若干額外實施例與前述實施例之差異在於不使用連續地更新該參數背景雜訊估值的此一項特徵。反而此等其它實施例利用頻譜域來參數地決定該雜訊估值。
因此於又一實施例中,背景雜訊估算器12可經組配來基於一輸入音訊信號之一頻譜分解表示型態而決定一參數背景雜訊估值,使得該參數背景雜訊估值頻譜地描述該輸入音訊信號之一背景雜訊之一頻譜波封。該決定可始於進入不活動階段時,或可共同運用前述優勢,及可在活動階段期間連續地執行決定來更新該估值供當進入不活動階段時即刻使用。編碼器14在活動階段期間將該輸入音訊信號編碼成一資料串流,及一檢測器16可經組配來基於該輸入信號而檢測在活動階段後進入一不活動階段。編碼器進一 步可經組配來將該參數背景雜訊估值編碼成資料串流。背景雜訊估算器可經組配來執行在活動階段決定該參數背景雜訊估值,及伴以區別在該輸入音訊信號之頻譜分解表示型態內部的一雜訊成分及一有用信號成分,及只從該雜訊成分決定該參數背景雜訊估值。於另一個實施例中,編碼器可經組配來在編碼該輸入音訊信號中,將該輸入音訊信號預測地編碼成線性預測係數及一激勵信號,及變換編碼該激勵信號之一頻譜分解,及將該線性預測係數編碼成資料串流,其中該背景雜訊估算器係經組配來在決定該參數背景雜訊估值時,使用該激勵信號之該頻譜分解作為該輸入音訊信號之頻譜分解表示型態。
又復,背景雜訊估算器可經組配來識別該激勵信號之頻譜表示型態中的局部最小值,及在該經識別的局部最小值作為支撐點間,運用內插法來估計該輸入音訊信號之一背景雜訊之頻譜波封。
於又一個實施例中,一種用以解碼一資料串流來從其中重建一音訊信號之音訊解碼器,該資料串流包含至少一個活動階段接著為一個不活動階段。該音訊解碼器包含一背景雜訊估算器90其可經組配來基於得自該資料串流之該輸入音訊信號之一頻譜分解表示型態而決定一參數背景雜訊估值,使得該參數背景雜訊估值頻譜上描述該輸入音訊信號之一背景雜訊之頻譜波封。一解碼器92可經組配來在該活動階段期間從該資料串流重建該音訊信號。一參數隨機產生器94及一背景雜訊產生器96可經組配來在該不活動 階段期間,利用該參數背景雜訊估值藉控制該參數隨機產生器而在該不活動階段期間重建該音訊信號。
依據另一實施例,該背景雜訊估算器可經組配來在活動階段中執行該參數背景雜訊估值之決定,及伴以區別該輸入音訊信號之頻譜分解表示型態內部的一雜訊成分及一有用信號成分,及只從該雜訊成分決定該參數背景雜訊估值。
於又一個實施例中,該解碼器可經組配來在從該資料串流重建該音訊信號中,依據也編碼入該資料的線性預測係數而施加已變換編碼成資料串流之一激勵信號之一頻譜分解。該背景雜訊估算器可更進一步經組配來在決定該參數背景雜訊估值中,採用該激勵信號之頻譜分解作為該輸入音訊信號之頻譜分解表示型態。
依據又一實施例,該背景雜訊估算器可經組配來識別該激勵信號之頻譜表示型態中的局部最小值,及在該經識別的局部最小值作為支撐點間,運用內插法來估計該輸入音訊信號之一背景雜訊之頻譜波封。
如此,前述實施例描述以TCX為基礎之CNG,於該處基本舒適雜訊產生器採用隨機脈衝來模型化殘差。
雖然已經以裝置脈絡描述若干構面,但顯然此等構面也表示相對應方法的描述,於該處一方塊或一裝置係相對應於一方法步驟或一方法步驟之特徵。同理,以方法步驟之脈絡描述的構面也表示相對應裝置之相對應方塊或項或特徵結構之描述。部分或全部方法步驟可藉(或使用)硬體設備例如微處理器、可程式規劃電腦或電子電路執行。於若 干實施例中,最重要的方法步驟之某一者或多者可藉此種設備執行。
取決於某些體現要求,本發明之實施例可於硬體或於軟體體現。體現可使用數位儲存媒體執行,例如軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,具有可電子讀取控制信號儲存於其上,該等信號與(或可與)可程式規劃電腦系統協作,因而執行個別方法。因而該數位儲存媒體可以是電腦可讀取。
依據本發明之若干實施例包含具有可電子式讀取控制信號的資料載體,該等控制信號可與可程式規劃電腦系統協作,因而執行此處所述方法中之一者。
大致言之,本發明之實施例可體現為具有程式代碼的電腦程式產品,該程式代碼係當電腦程式產品在電腦上跑時可執行該等方法中之一者。該程式代碼例如可儲存在機器可讀取載體上。
其它實施例包含儲存在機器可讀取載體或非過渡儲存媒體上的用以執行此處所述方法中之一者的電腦程式。
換言之,因此,本發明方法之實施例為一種具有一程式代碼之電腦程式,該程式代碼係當該電腦程式於一電腦上跑時用以執行此處所述方法中之一者。
因此,本發明方法之又一實施例為資料載體(或數位儲存媒體或電腦可讀取媒體)包含用以執行此處所述方法中之一者的電腦程式記錄於其上。資料載體、數位儲存媒體或記錄媒體典型地為具體有形及/或非過渡。
因此,本發明方法之又一實施例為表示用以執行此處所述方法中之一者的電腦程式的資料串流或信號序列。資料串流或信號序列例如可經組配來透過資料通訊連結,例如透過網際網路轉移。
又一實施例包含處理構件例如電腦或可程式規劃邏輯裝置,其係經組配來或適用於執行此處所述方法中之一者。
又一實施例包含一電腦,其上安裝有用以執行此處所述方法中之一者的電腦程式。
依據本發明之又一實施例包含一種設備或系統其係經組配來傳輸(例如電子式或光學式)用以執行此處所述方法中之一者的電腦程式給接收器。接收器例如可以是電腦、行動裝置、記憶體裝置或其類。設備或系統包含檔案伺服器用以轉移電腦程式給接收器。
於若干實施例中,可程式規劃邏輯裝置(例如可現場程式規劃閘陣列)可用來執行此處描述之方法的部分或全部功能。於若干實施例中,可現場程式規劃閘陣列可與微處理器協作來執行此處所述方法中之一者。大致上該等方法較佳係藉任何硬體裝置執行。
前述實施例係僅供舉例說明本發明之原理。須瞭解此處所述配置及細節之修改及變化將為熟諳技藝人士顯然易知。因此,意圖僅受審查中之專利申請範圍所限而非受藉以描述及解說此處實施例所呈示之特定細節所限。
10‧‧‧音訊編碼器
12‧‧‧背景雜訊估算器、提供器
14‧‧‧編碼引擎
16‧‧‧檢測器
18、56‧‧‧音訊信號輸入
20、58‧‧‧資料串流輸出
22、204、222、240、250‧‧‧開關
24、42‧‧‧活動階段
26‧‧‧虛線、連接線
28‧‧‧不活動階段
30、44‧‧‧資料串流
32、38‧‧‧無聲***描述符(SID)訊框、資料串流片段
34、40‧‧‧時間瞬間、中斷階段
36‧‧‧中斷階段
50、140‧‧‧變換器
52、116、142、166‧‧‧頻域雜訊塑形器(FDNS)
54、152‧‧‧量化器
60、144‧‧‧線性預測(LP)分析模組、分析器
62、64、120、122‧‧‧虛線箭頭
80‧‧‧音訊解碼器
82、110、226、238‧‧‧輸入
84、112、228、268‧‧‧輸出
86‧‧‧活動階段
88‧‧‧不活動階段
90、146‧‧‧提供器、背景雜訊估算器
92、160‧‧‧解碼引擎、核心解碼器
94、164‧‧‧參數隨機產生器
96‧‧‧背景雜訊產生器
98‧‧‧音訊信號
100‧‧‧虛線
102‧‧‧資料串流部分
104‧‧‧資料串流
106‧‧‧時間瞬間
108‧‧‧資訊
114‧‧‧解量化器
118、168‧‧‧反變換器
148‧‧‧參數估算器
150‧‧‧平穩性測量器
154‧‧‧位元串流封裝器
162‧‧‧舒適雜訊產生部分
200、282‧‧‧QMF分析濾波器組
202‧‧‧常規頻帶複製編碼器
206‧‧‧頻帶複製編碼器模組
208‧‧‧時/頻方陣設定器
210‧‧‧能計算器
212‧‧‧能編碼器
220‧‧‧舒適雜訊產生器
224‧‧‧帶寬擴延解碼器、SBR解碼器
228‧‧‧時域輸出
230‧‧‧頻譜分解器
242‧‧‧標度因數組合器
244‧‧‧標度因數資料儲存模組
246‧‧‧內插濾波單元、IIR濾波單元
248‧‧‧增益調整器
252‧‧‧標度因數資料重設器
260‧‧‧頻帶複製參數估算器
262‧‧‧雜訊估算器
264‧‧‧SBR編碼器
266‧‧‧位元串流封裝器、資料串流多工器
270‧‧‧檢測器
272、288‧‧‧QMF合成濾波器組
274‧‧‧SID訊框編碼器
280‧‧‧模組
284‧‧‧頻譜帶寬擴延模組
286‧‧‧雜訊估算器
290‧‧‧SID訊框解碼器
292‧‧‧舒適雜訊產生參數更新器
294‧‧‧隨機產生器
第1圖為方塊圖顯示依據一實施例之音訊編碼器;第2圖顯示編碼引擎14之可能體現;第3圖為依據一實施例音訊解碼器之方塊圖;第4圖顯示依據一實施例第3圖之解碼引擎之可能體現;第5圖顯示依據實施例之又一進一步細節描述音訊編碼器之方塊圖;第6圖顯示依據一實施例可與第5圖之編碼器連結使用之解碼器之方塊圖;第7圖顯示依據實施例之又一進一步細節描述音訊解碼器之方塊圖;第8圖顯示依據一實施例音訊編碼器之頻譜帶寬擴延部分之方塊圖;第9圖顯示依據一實施例第8圖之舒適雜訊產生(CNG)頻譜帶寬擴延編碼器之體現;第10圖顯示依據一實施例使用頻譜帶寬擴延之音訊解碼器之方塊圖;第11圖顯示使用頻譜帶寬擴延之音訊解碼器之一實施例的可能進一步細節描述之方塊圖;第12圖顯示依據又一實施例使用頻譜帶寬擴延之音訊編碼器之方塊圖;及第13圖顯示音訊編碼器之又一實施例之方塊圖。
10‧‧‧音訊編碼器
12‧‧‧背景雜訊估算器
14‧‧‧編碼引擎
16‧‧‧檢測器
18‧‧‧輸入
20‧‧‧輸出
22‧‧‧開關
24、42‧‧‧活動階段
26‧‧‧音訊信號
28‧‧‧不活動階段
30、44‧‧‧資料串流
32、38‧‧‧無聲***描述符(SID)訊框
34、40‧‧‧中斷階段
36‧‧‧中斷階段

Claims (23)

  1. 一種音訊編碼器,其係包含:一背景雜訊估算器係組配來基於一輸入音訊信號之一頻譜分解表示型態而決定一參數背景雜訊估值,使得該參數背景雜訊估值頻譜上描述該輸入音訊信號之一背景雜訊之一頻譜波封;用以在一活動階段期間將該輸入音訊信號編碼成一資料串流之一編碼器;及一檢測器係組配來基於該輸入信號而檢測在該活動階段後進入一不活動階段,其中該音訊編碼器係組配來在該不活動階段中將該參數背景雜訊估值編碼入該資料串流,其中該編碼器係組配來於編碼該輸入音訊信號中,將該輸入音訊信號預測地編碼成線性預測係數及一激勵信號,及變換編碼該激勵信號之一頻譜分解,及將該線性預測係數編碼入該資料串流,其中該背景雜訊估算器係組配來在決定該參數背景雜訊估值中,使用該激勵信號之該頻譜分解作為該輸入音訊信號之該頻譜分解表示型態。
  2. 如申請專利範圍第1項之音訊編碼器,其中該背景雜訊估算器係組配來在該活動階段中進行決定該參數背景雜訊估值,伴以區別在該輸入音訊信號之該頻譜分解表示型態內部的一雜訊成分及一有用信號成分,及只從該雜訊成分決定該參數背景雜訊估值。
  3. 如申請專利範圍第1或2項之音訊編碼器,其中該雜訊估算器係組配來在該不活動階段期間繼續連續地更新該背景雜訊估值,其中該音訊編碼器係組配來當在該不活動階段期間連續地更新時,間歇地編碼該參數背景雜訊估值之更新。
  4. 如申請專利範圍第3項之音訊編碼器,其中該音訊編碼器係組配來於一固定或可變時間區間內間歇地編碼該參數背景雜訊估值之該等更新。
  5. 一種音訊編碼器,其係包含:一背景雜訊估算器係組配來基於一輸入音訊信號之一頻譜分解表示型態而決定一參數背景雜訊估值,使得該參數背景雜訊估值頻譜上描述該輸入音訊信號之一背景雜訊之一頻譜波封;用以在一活動階段期間將該輸入音訊信號編碼成一資料串流之一編碼器;以及一檢測器係組配來基於該輸入信號而檢測在該活動階段後進入一不活動階段,其中該音訊編碼器係組配來在該不活動階段中將該參數背景雜訊估值編碼入該資料串流,其中該背景雜訊估算器係組配來識別該激勵信號之該頻譜表示型態中的局部最小值,及運用內插在該等經識別的局部最小值間作為支撐點來估計該輸入音訊信號之一背景雜訊之該頻譜波封。
  6. 一種音訊編碼器,其係包含: 一背景雜訊估算器係組配來基於一輸入音訊信號之一頻譜分解表示型態而決定一參數背景雜訊估值,使得該參數背景雜訊估值頻譜上描述該輸入音訊信號之一背景雜訊之一頻譜波封;用以在一活動階段期間將該輸入音訊信號編碼成一資料串流之一編碼器;以及一檢測器係組配來基於該輸入信號而檢測在該活動階段後進入一不活動階段,其中該音訊編碼器係組配來在該不活動階段中將該參數背景雜訊估值編碼入該資料串流,其中該編碼器係組配來於編碼該輸入音訊信號中,使用預測及/或變換編碼來編碼該輸入音訊信號之該頻譜分解表示型態之一低頻部,及使用參數編碼來編碼該輸入音訊信號之該頻譜分解表示型態之一高頻部的一頻譜波封。
  7. 如申請專利範圍第6項之音訊編碼器,其中該編碼器係組配來在不活動階段中,中斷該預測及/或變換編碼及該參數編碼;或在該活動階段中,中斷該預測及/或變換編碼及以比較於使用該參數編碼更低之一時間/頻率解析度來對該輸入音訊信號之該頻譜分解表示型態之該高頻部的該頻譜波封執行該參數編碼。
  8. 如申請專利範圍第6項之音訊編碼器,其中該編碼器使用一濾波器組來頻譜上分解該輸入音訊信號成為形成該低頻部之一子帶集合,及形成該高頻部之一子帶集 合。
  9. 如申請專利範圍第8項之音訊編碼器,其中該背景雜訊估算器係組配來在該活動階段中,基於該輸入音訊信號之該頻譜分解表示型態之該低及高頻部而更新該參數背景雜訊估值。
  10. 如申請專利範圍第9項之音訊編碼器,其中該背景雜訊估算器係組配來於更新該參數背景雜訊估值中,識別該輸入音訊信號之該頻譜分解表示型態之該低及高頻部中之局部最小值,及在該局部最小值,執行該輸入音訊信號之該頻譜分解表示型態之該低及高頻部之統計分析以導出該參數背景雜訊估值。
  11. 一種音訊編碼器,其係包含:一背景雜訊估算器係組配來基於一輸入音訊信號之一頻譜分解表示型態而決定一參數背景雜訊估值,使得該參數背景雜訊估值頻譜上描述該輸入音訊信號之一背景雜訊之一頻譜波封;用以在一活動階段期間將該輸入音訊信號編碼成一資料串流之一編碼器;以及一檢測器係組配來基於該輸入信號而檢測在該活動階段後進入一不活動階段,其中該音訊編碼器係組配來在該不活動階段中將該參數背景雜訊估值編碼入該資料串流,其中該編碼器係組配來於編碼該輸入音訊信號中,使用預測及/或變換編碼來編碼該輸入音訊信號之 該頻譜分解表示型態之一低頻部,及在使用參數編碼來編碼該輸入音訊信號之該頻譜分解表示型態之一高頻部的一頻譜波封或留下該輸入音訊信號之該高頻部不予編碼間作出選擇。
  12. 如申請專利範圍第11項之音訊編碼器,其中該編碼器係組配來在不活動階段中,中斷該預測及/或變換編碼及該參數編碼;或在該活動階段中,中斷該預測及/或變換編碼及以比較於使用該參數編碼更低之一時間/頻率解析度來對該輸入音訊信號之該頻譜分解表示型態之該高頻部的該頻譜波封執行該參數編碼。
  13. 如申請專利範圍第11項之音訊編碼器,其中該編碼器使用一濾波器組來頻譜上分解該輸入音訊信號成為形成該低頻部之一子帶集合,及形成該高頻部之一子帶集合。
  14. 如申請專利範圍第13項之音訊編碼器,其中該背景雜訊估算器係組配來在該活動階段中,基於該輸入音訊信號之該頻譜分解表示型態之該低及高頻部而更新該參數背景雜訊估值。
  15. 如申請專利範圍第14項之音訊編碼器,其中該背景雜訊估算器係組配來於更新該參數背景雜訊估值中,識別該輸入音訊信號之該頻譜分解表示型態之該低及高頻部中之局部最小值,及在該局部最小值,執行該輸入音訊信號之該頻譜分解表示型態之該低及高頻部之統計分析以導出該參數背景雜訊估值。
  16. 一種音訊編碼方法,其係包含:基於一輸入音訊信號之一頻譜分解表示型態而決定一參數背景雜訊估值,使得該參數背景雜訊估值頻譜上描述該輸入音訊信號之一背景雜訊之一頻譜波封;在一活動階段期間將該輸入音訊信號編碼成一資料串流;及基於該輸入信號而檢測在該活動階段後之一不活動階段的進入;以及在該不活動階段中將該參數背景雜訊估值編碼入該資料串流,其中編碼該輸入音訊信號包含將該輸入音訊信號預測地編碼成線性預測係數及一激勵信號,及變換編碼該激勵信號之一頻譜分解,及將該線性預測係數編碼入該資料串流,其中該參數背景雜訊估值之決定包含在決定該參數背景雜訊估值中使用該激勵信號之該頻譜分解作為該輸入音訊信號之該頻譜分解表示型態。
  17. 一種具有程式代碼之電腦程式,該電腦程式在一電腦上運行時,該程式代碼係用以執行如申請專利範圍第16項之方法。
  18. 一種用以解碼資料串流以從其中重建音訊信號之音訊解碼器,該資料串流包含至少一個活動階段接著為一個不活動階段,該音訊解碼器係包含:一背景雜訊估算器係組配來基於得自該資料串流之輸入音訊信號之一頻譜分解表示型態而決定一參數 背景雜訊估值,使得該參數背景雜訊估值頻譜地描述該輸入音訊信號之一背景雜訊之一頻譜波封;一解碼器係組配來在該活動階段期間從該資料串流重建該音訊信號;一參數隨機產生器;以及一背景雜訊產生器係組配來藉使用該參數背景雜訊估值在該不活動階段期間控制該參數隨機產生器而在該不活動階段期間重建該音訊信號,其中該背景雜訊估算器係組配來識別該輸入音訊信號之該頻譜分解表示型態中的局部最小值,及運用內插於該等經識別的局部最小值間作為支撐點來估計該輸入音訊信號之該背景雜訊之該頻譜波封。
  19. 如申請專利範圍第18項之音訊解碼器,其中該背景雜訊估算器係組配來在該活動階段中執行決定該參數背景雜訊估值,及伴以區別該輸入音訊信號之該頻譜分解表示型態內部的一雜訊成分及一有用信號成分,及只從該雜訊成分決定該參數背景雜訊估值。
  20. 一種用以解碼資料串流以從其中重建音訊信號之音訊解碼器,該資料串流包含後面接著一不活動階段之至少一活動階段,該音訊解碼器係包含:一背景雜訊估算器係組配來基於得自該資料串流之該輸入音訊信號之一頻譜分解表示型態而決定一參數背景雜訊估值,使得該參數背景雜訊估值頻譜地描述該輸入音訊信號之一背景雜訊之一頻譜波封; 一解碼器係組配來在該活動階段期間從該資料串流重建該音訊信號;一參數隨機產生器;以及一背景雜訊產生器係組配來藉使用該參數背景雜訊估值在該不活動階段期間控制該參數隨機產生器而在該不活動階段期間重建該音訊信號,其中該解碼器係組配來於從該資料串流重建該音訊信號中,依據也已編碼入該資料之線性預測係數而施加塑形變換編碼成該資料串流之一激勵信號之一頻譜分解,其中該背景雜訊估算器係組配來在決定該參數背景雜訊估值中,使用該激勵信號之該頻譜分解作為該輸入音訊信號之該頻譜分解表示型態。
  21. 如申請專利範圍第20項之音訊解碼器,其中該背景雜訊估算器係組配來識別該激勵信號之該頻譜表示型態中的局部最小值,及運用內插在該等經識別的局部最小值間作為支撐點來估計該輸入音訊信號之一背景雜訊之該頻譜波封。
  22. 一種用以解碼資料串流以從其中重建音訊信號之方法,該資料串流包含至少一個活動階段接著為一個不活動階段,該方法係包含:基於得自該資料串流之輸入音訊信號之一頻譜分解表示型態而決定一參數背景雜訊估值,使得該參數背景雜訊估值頻譜地描述該輸入音訊信號之一背景雜訊之一頻譜波封; 在一活動階段期間從該資料串流重建該音訊信號;使用該參數背景雜訊估值,在該不活動階段期間藉控制一參數隨機產生器而在該不活動階段期間重建該音訊信號,其中決定一參數背景雜訊估值包含識別該輸入音訊信號之該頻譜分解表示型態中的局部最小值,及運用內插於該等經識別的局部最小值間作為支撐點來估計該輸入音訊信號之該背景雜訊之該頻譜波封。
  23. 一種具有程式代碼之電腦程式,該電腦程式在一電腦上運行時,該程式代碼係用以執行如申請專利範圍第22項之方法。
TW101104680A 2011-02-14 2012-02-14 音訊編解碼器中之雜訊產生技術 TWI480856B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201161442632P 2011-02-14 2011-02-14
PCT/EP2012/052464 WO2012110482A2 (en) 2011-02-14 2012-02-14 Noise generation in audio codecs

Publications (2)

Publication Number Publication Date
TW201248615A TW201248615A (en) 2012-12-01
TWI480856B true TWI480856B (zh) 2015-04-11

Family

ID=71943600

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101104680A TWI480856B (zh) 2011-02-14 2012-02-14 音訊編解碼器中之雜訊產生技術

Country Status (17)

Country Link
US (1) US8825496B2 (zh)
EP (2) EP3373296A1 (zh)
JP (3) JP5934259B2 (zh)
KR (1) KR101624019B1 (zh)
CN (1) CN103477386B (zh)
AR (2) AR085895A1 (zh)
AU (1) AU2012217162B2 (zh)
BR (1) BR112013020239B1 (zh)
CA (2) CA2827305C (zh)
ES (1) ES2681429T3 (zh)
MX (1) MX2013009305A (zh)
MY (1) MY167776A (zh)
RU (1) RU2585999C2 (zh)
SG (1) SG192745A1 (zh)
TW (1) TWI480856B (zh)
WO (1) WO2012110482A2 (zh)
ZA (1) ZA201306874B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
PT2676270T (pt) 2011-02-14 2017-05-02 Fraunhofer Ges Forschung Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
KR101424372B1 (ko) 2011-02-14 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 랩핑 변환을 이용한 정보 신호 표현
AR085794A1 (es) 2011-02-14 2013-10-30 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral
PT3239978T (pt) 2011-02-14 2019-04-02 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
BR112013020324B8 (pt) 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
CN103918029B (zh) * 2011-11-11 2016-01-20 杜比国际公司 使用过采样谱带复制的上采样
CN105469805B (zh) 2012-03-01 2018-01-12 华为技术有限公司 一种语音频信号处理方法和装置
US9640190B2 (en) * 2012-08-29 2017-05-02 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, program, and recording medium therefor
KR101812123B1 (ko) * 2012-11-15 2017-12-26 가부시키가이샤 엔.티.티.도코모 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
RU2633107C2 (ru) * 2012-12-21 2017-10-11 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных
JP6180544B2 (ja) * 2012-12-21 2017-08-16 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号の不連続伝送における高スペクトル−時間分解能を持つコンフォートノイズの生成
CN103971693B (zh) 2013-01-29 2017-02-22 华为技术有限公司 高频带信号的预测方法、编/解码设备
ES2834929T3 (es) * 2013-01-29 2021-06-21 Fraunhofer Ges Forschung Llenado con ruido en la codificación de audio por transformada perceptual
CN105225668B (zh) * 2013-05-30 2017-05-10 华为技术有限公司 信号编码方法及设备
JP6465020B2 (ja) * 2013-05-31 2019-02-06 ソニー株式会社 復号装置および方法、並びにプログラム
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
CN104978970B (zh) * 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码***
US10715833B2 (en) * 2014-05-28 2020-07-14 Apple Inc. Adaptive syntax grouping and compression in video data using a default value and an exception value
CN105336336B (zh) 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
EP2980790A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
CN106971741B (zh) * 2016-01-14 2020-12-01 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及***
JP7011449B2 (ja) 2017-11-21 2022-01-26 ソニーセミコンダクタソリューションズ株式会社 画素回路、表示装置および電子機器
US10650834B2 (en) * 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
WO2002101722A1 (en) * 2001-06-12 2002-12-19 Globespan Virata Incorporated Method and system for generating colored comfort noise in the absence of silence insertion description packets
US20050278171A1 (en) * 2004-06-15 2005-12-15 Acoustic Technologies, Inc. Comfort noise generator using modified doblinger noise estimate
US20070050189A1 (en) * 2005-08-31 2007-03-01 Cruz-Zeno Edgardo M Method and apparatus for comfort noise generation in speech communication systems
TWI316225B (en) * 2005-04-01 2009-10-21 Qualcomm Inc Wideband speech encoder
TWI324762B (en) * 2003-05-08 2010-05-11 Dolby Lab Licensing Corp Improved audio coding systems and methods using spectral component coupling and spectral component regeneration

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
JPH10326100A (ja) * 1997-05-26 1998-12-08 Kokusai Electric Co Ltd 音声録音方法及び音声再生方法及び音声録音再生装置
JP3223966B2 (ja) * 1997-07-25 2001-10-29 日本電気株式会社 音声符号化/復号化装置
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US7124079B1 (en) * 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
JP2003501925A (ja) * 1999-06-07 2003-01-14 エリクソン インコーポレイテッド パラメトリックノイズモデル統計値を用いたコンフォートノイズの生成方法及び装置
JP2002118517A (ja) 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
US20050130321A1 (en) * 2001-04-23 2005-06-16 Nicholson Jeremy K. Methods for analysis of spectral data and their applications
US20020184009A1 (en) * 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) * 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
WO2005096274A1 (fr) 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Dispositif et procede de codage/decodage audio ameliores
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
US8160274B2 (en) 2006-02-07 2012-04-17 Bongiovi Acoustics Llc. System and method for digital signal processing
BRPI0607251A2 (pt) * 2005-01-31 2017-06-13 Sonorit Aps método para concatenar um primeiro quadro de amostras e um segundo quadro subseqüente de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado
JP4519169B2 (ja) * 2005-02-02 2010-08-04 富士通株式会社 信号処理方法および信号処理装置
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
RU2296377C2 (ru) * 2005-06-14 2007-03-27 Михаил Николаевич Гусев Способ анализа и синтеза речи
RU2312405C2 (ru) * 2005-09-13 2007-12-10 Михаил Николаевич Гусев Способ осуществления машинной оценки качества звуковых сигналов
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8032369B2 (en) 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
FR2897733A1 (fr) 2006-02-20 2007-08-24 France Telecom Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant
JP4810335B2 (ja) 2006-07-06 2011-11-09 株式会社東芝 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
US7933770B2 (en) * 2006-07-14 2011-04-26 Siemens Audiologische Technik Gmbh Method and device for coding audio data based on vector quantisation
CN101589623B (zh) 2006-12-12 2013-03-13 弗劳恩霍夫应用研究促进协会 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法
FR2911426A1 (fr) * 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
US8185381B2 (en) 2007-07-19 2012-05-22 Qualcomm Incorporated Unified filter bank for performing signal conversions
EP2186088B1 (en) 2007-08-27 2017-11-15 Telefonaktiebolaget LM Ericsson (publ) Low-complexity spectral analysis/synthesis using selectable time resolution
JP4886715B2 (ja) * 2007-08-28 2012-02-29 日本電信電話株式会社 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
US8000487B2 (en) * 2008-03-06 2011-08-16 Starkey Laboratories, Inc. Frequency translation by high-frequency spectral envelope warping in hearing assistance devices
EP2107556A1 (en) 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
MY152252A (en) 2008-07-11 2014-09-15 Fraunhofer Ges Forschung Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
JP2010079275A (ja) * 2008-08-29 2010-04-08 Sony Corp 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
US8352279B2 (en) * 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
TWI419148B (zh) 2008-10-08 2013-12-11 Fraunhofer Ges Forschung 多解析度切換音訊編碼/解碼方案
EP2446539B1 (en) 2009-06-23 2018-04-11 Voiceage Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
CA2862715C (en) 2009-10-20 2017-10-17 Ralf Geiger Multi-mode audio codec and celp coding adapted therefore

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
WO2002101722A1 (en) * 2001-06-12 2002-12-19 Globespan Virata Incorporated Method and system for generating colored comfort noise in the absence of silence insertion description packets
TWI324762B (en) * 2003-05-08 2010-05-11 Dolby Lab Licensing Corp Improved audio coding systems and methods using spectral component coupling and spectral component regeneration
US20050278171A1 (en) * 2004-06-15 2005-12-15 Acoustic Technologies, Inc. Comfort noise generator using modified doblinger noise estimate
TWI316225B (en) * 2005-04-01 2009-10-21 Qualcomm Inc Wideband speech encoder
US20070050189A1 (en) * 2005-08-31 2007-03-01 Cruz-Zeno Edgardo M Method and apparatus for comfort noise generation in speech communication systems

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BRUNO BESSETTE ET AL: "The Adaptive Multirate Wideband Speech Codec (AMR-WB)", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. 10, no. 8, 1 November 2002, pp. 620-636 *
LEE I D ET AL: "A voice activity detection algorithm for communication systems with dynamically varying background acoustic noise", 48TH IEEE VEHICULAR TECHNOLOGY CONFERENCE, vol. 2, 18 May 1998, pp. 1214-1218 *

Also Published As

Publication number Publication date
CA2827305A1 (en) 2012-08-23
WO2012110482A2 (en) 2012-08-23
US20130332176A1 (en) 2013-12-12
CA2827305C (en) 2018-02-06
SG192745A1 (en) 2013-09-30
JP6643285B2 (ja) 2020-02-12
EP3373296A1 (en) 2018-09-12
ES2681429T3 (es) 2018-09-13
JP6185029B2 (ja) 2017-08-23
AR102715A2 (es) 2017-03-22
MX2013009305A (es) 2013-10-03
EP2676262A2 (en) 2013-12-25
JP2014510307A (ja) 2014-04-24
RU2585999C2 (ru) 2016-06-10
CN103477386A (zh) 2013-12-25
US8825496B2 (en) 2014-09-02
RU2013142079A (ru) 2015-03-27
MY167776A (en) 2018-09-24
WO2012110482A3 (en) 2012-12-20
CA2968699C (en) 2020-12-22
AU2012217162A1 (en) 2013-08-29
KR101624019B1 (ko) 2016-06-07
JP2016026319A (ja) 2016-02-12
JP5934259B2 (ja) 2016-06-15
KR20130126711A (ko) 2013-11-20
BR112013020239A2 (pt) 2020-11-24
AR085895A1 (es) 2013-11-06
AU2012217162B2 (en) 2015-11-26
JP2017223968A (ja) 2017-12-21
ZA201306874B (en) 2014-05-28
CN103477386B (zh) 2016-06-01
TW201248615A (en) 2012-12-01
BR112013020239B1 (pt) 2021-12-21
EP2676262B1 (en) 2018-04-25
CA2968699A1 (en) 2012-08-23

Similar Documents

Publication Publication Date Title
TWI480856B (zh) 音訊編解碼器中之雜訊產生技術
TWI480857B (zh) 在不活動階段期間利用雜訊合成之音訊編解碼器
RU2636685C2 (ru) Решение относительно наличия/отсутствия вокализации для обработки речи
EP2866228B1 (en) Audio decoder comprising a background noise estimator
AU2012217161B9 (en) Audio codec using noise synthesis during inactive phases