TWI544481B - 合成音訊信號之裝置與方法、解碼器、編碼器、系統以及電腦程式 - Google Patents

合成音訊信號之裝置與方法、解碼器、編碼器、系統以及電腦程式 Download PDF

Info

Publication number
TWI544481B
TWI544481B TW103103523A TW103103523A TWI544481B TW I544481 B TWI544481 B TW I544481B TW 103103523 A TW103103523 A TW 103103523A TW 103103523 A TW103103523 A TW 103103523A TW I544481 B TWI544481 B TW I544481B
Authority
TW
Taiwan
Prior art keywords
audio signal
code
codebook
tilt
spectral tilt
Prior art date
Application number
TW103103523A
Other languages
English (en)
Other versions
TW201435862A (zh
Inventor
古拉米 福契斯
湯姆 別克史創
雷夫 蓋葛
渥爾夫剛 賈格斯
艾曼紐 拉斐里
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201435862A publication Critical patent/TW201435862A/zh
Application granted granted Critical
Publication of TWI544481B publication Critical patent/TWI544481B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Description

合成音訊信號之裝置與方法、解碼器、編碼器、系統以及電腦程式 發明領域
本發明係關於音訊寫碼之領域,更特定言之,係關於合成音訊信號之領域。實施例係關於語音寫碼,且特定言之,係關於稱為碼激發線性預測寫碼(CELP)之語音寫碼技術。實施例提供用於在使新穎或固定碼簿中之CELP碼成形的過程中進行自適應性傾斜補償之方法。
發明背景
CELP寫碼方案廣泛地用於語音通訊中,且為寫碼語音之有效率的方式。CELP藉由將兩個激發之總和傳遞至線性預測濾波器(例如,LPC合成濾波器1/A(z))來合成音訊信號。一個激發來自經解碼之過去(其被稱為自適應性碼簿),且另一貢獻來自由固定碼填充之固定或新穎碼簿。CELP寫碼方案之一問題在於,在低位元速率下,新穎碼簿 未被充分地填充以用於有效率地模型化語音之精細結構,使得感知品質降級且所合成之輸出信號聽起來有雜訊。
為了減輕寫碼偽訊,不同解決方案已被提議且描述於參考[1]中及參考[2]中。在此等參考中,藉由增強對應於音訊信號之當前訊框之共振峰的頻譜區域來自適應地且在頻譜上成形新穎碼簿之碼。共振峰位置及形狀可直接自LPC係數推斷,LPC係數為在編碼器及解碼器兩者處皆可利用之係數。對新穎碼簿之碼c(n)之共振峰增強係藉由簡單的濾波操作進行:c(n)*f e (n)。
在此濾波過程中,f e (n)為具有以下轉移函數的濾波器之脈衝回應:
其中w1及w2為兩個加權常數,其或多或少地強調轉移函數F e (z)之共振峰結構。新穎碼簿之所得經成形碼繼承了語音信號之一特性且所合成之信號聽起來雜訊較少。
在CELP寫碼方案中,亦通常將頻譜傾斜添加至新穎碼簿之碼,此係藉由如下濾波來自新穎碼簿之碼而進行:F t (z)=1-βz -1
因數β與先前音訊訊框之發聲有關,且可根據來自自適應性碼簿之能量貢獻估計發聲。舉例而言,若先前訊框 有聲,則預期當前訊框亦有聲,且碼將在低頻中具有更多能量,亦即,頻譜具有負傾斜。
發明概要
本發明之一目標為提供一種用於合成一音訊信號之改良方法。
此目標係藉由如請求項1之裝置及藉由如請求項19之方法來達成。
本發明提供一種用於合成一音訊信號之裝置,該裝置包含一處理單元,該處理單元經組配以將一頻譜傾斜應用至用於合成該音訊信號之一當前訊框的碼簿之碼,其中該頻譜傾斜係基於該音訊信號之該當前訊框之頻譜傾斜。
本發明提供一種用於合成一音訊信號之方法,該方法包含將一頻譜傾斜應用至用於合成該音訊信號之一當前訊框的一碼簿之碼,其中該頻譜傾斜係基於該音訊信號之該當前訊框之該頻譜傾斜而判定。
本申請案之發明者發現可藉由在合成信號時利用音訊信號之頻譜傾斜之性質來改良可達成之寫碼增益而在低位元速率及較高位元速率兩者下進一步改良音訊信號之合成。根據實施例,本發明提供語音寫碼,例如,使用CELP語音寫碼技術,其允許增強CELP之寫碼增益,藉此增強經解碼或合成之信號的感知品質。本發明之方法係基於發明者之以下發現:此改良可藉由隨當前處理的實際輸 入信號之頻譜傾斜而變來調適碼簿之碼(例如,CELP新穎碼簿之碼)的頻譜傾斜來達成。本發明之方法係有利的,此係因為,除了增強之寫碼增益外,在新穎碼簿未被充分填充以用於有效率地模型化語音之精細結構的低位元速率下,其亦允許進一步的共振峰增強。在新穎碼簿經充分填充之較高位元速率下,應用本發明之方法將增強寫碼增益。更特定言之,在較高位元速率下,可不需要共振峰增強,此係因為新穎碼簿足夠大以用於適當地模型化語音之精細結構,且進一步增強共振峰將使所合成之信號聽起來過於合成。然而,最佳碼並非在頻譜上平坦的,且添加頻譜傾斜將增強寫碼增益。根據實施例,更準確地估計待應用至新穎碼簿之碼的最佳傾斜,更特定言之,其與輸入信號之當前訊框之傾斜相關。
根據實施例,基於用於音訊信號之當前訊框的頻譜包絡資訊判定音訊信號之當前訊框之頻譜傾斜,其中頻譜包絡資訊可由LPC係數定義。此實施例係有利的,因為其允許基於易於在編碼器及解碼器兩者處得到之資訊(即,LPC係數)判定當前訊框之頻譜傾斜。
根據另外實施例,可基於LPC合成濾波器之截斷的無限脈衝回應判定基於LPC係數的音訊信號之當前訊框之頻譜傾斜。根據實施例,截斷可由新穎碼簿之大小(亦即,新穎碼簿中的碼之數目)判定。此方法係有利的,因為其允許使頻譜傾斜之判定與新穎碼簿之實際大小直接有關。
根據另外實施例,無限脈衝回應可為具有未加權 之轉移函數或經加權之轉移函數的LPC合成濾波器之無限脈衝回應。使用未加權之轉移函數允許對頻譜傾斜之簡化判定,而使用經加權之轉移函數的有利之處在於其允許頻譜傾斜具有更接近最佳傾斜之斜度。
根據實施例,藉由基於包括頻譜傾斜之轉移函數對來自碼簿之碼濾波而將判定之頻譜傾斜應用至各別碼。此實施例係有利的,因為可藉由簡單的濾波過程達成增強。
根據又一實施例,可將當前訊框之頻譜傾斜與有關於音訊信號之先前訊框之發聲的因數組合,例如,藉由基於包括頻譜傾斜及該因數之轉移函數對來自碼簿之碼濾波。此方法係有利的,因為其提供獲得最佳傾斜之甚至更好估計的可能性。
本發明提供一種包含用於合成一音訊信號之本發明裝置之音訊解碼器。
本發明提供一種用於解碼一音訊信號之音訊解碼器,其中該音訊解碼器經組配以將一頻譜傾斜應用至用於合成該音訊信號之一當前訊框的一碼簿之碼,其中該頻譜傾斜係基於該音訊信號之該當前訊框之該頻譜傾斜。
本發明提供一種用於編碼一音訊信號之編碼器,其中該音訊編碼器經組配以自該音訊信號之一當前訊框之一頻譜傾斜判定用於表示該音訊信號之一當前訊框的一碼簿之一碼之一頻譜傾斜。
本發明提供一種系統,其包含本發明之音訊解碼 器及本發明之音訊編碼器。
本發明提供一種非暫時性電腦媒體,其儲存指令以當在一電腦上執行時進行用於合成一音訊信號之本發明方法。
100‧‧‧裝置
102、302‧‧‧輸入端
104‧‧‧碼簿
106‧‧‧合成器或合成濾波器
108、402‧‧‧處理單元
110‧‧‧示意性表示
112、210、304‧‧‧輸出端
200、200'‧‧‧信號合成器/合成器
202‧‧‧固定或新穎碼簿
204‧‧‧自適應性碼簿
206‧‧‧求和器
208‧‧‧LPC合成濾波器
212‧‧‧第一放大器
214‧‧‧第二放大器
216‧‧‧LPC係數儲存器/儲存器
218‧‧‧濾波器
220‧‧‧發聲估計器
300‧‧‧解碼器
400‧‧‧編碼器
現將參看隨附圖式進一步詳細地描述本發明之實施例,其中:圖1展示根據第一實施例的用於合成音訊信號之本發明之裝置之示意性表示;圖2展示根據本發明之第二實施例的信號合成器之簡化方塊圖,該信號合成器基於CELP方案操作;圖3展示根據本發明之另一實施例的信號合成器之簡化方塊圖,其再次應用併有先前訊框之發聲的CELP寫碼方案;圖4展示根據本發明之教示操作的解碼器(例如,語音解碼器)之一實施例;以及圖5展示根據本發明之教示操作的編碼器(例如,語音編碼器)之一實施例。
較佳實施例之詳細說明
在下文中,將描述本發明之方法之實施例。注意,在隨後描述中,類似的元件/步驟藉由同樣的參考記號來指代。
圖1展示根據第一實施例的用於合成音訊信號之 本發明裝置之示意性表示。裝置100在輸入端102處接收一經編碼之信號,例如,經編碼之音訊信號,如語音信號。為了解碼音訊信號,裝置100包含包括複數個碼之碼簿104。為了合成信號,當基於在輸入端102處接收的經編碼之信號處理當前訊框時,自碼簿104選擇一適當的碼或碼字且將其供應給合成器或合成濾波器106。根據本發明,該裝置包含處理單元108,處理單元108基於音訊信號之當前訊框(亦即,當前由裝置100處理的音訊信號之訊框)之頻譜傾斜判定待應用至自碼簿104讀取之碼c(n)之頻譜傾斜,如示意性地在110處所表示。將經修改之碼c(n)*γ應用至合成濾波器106,該合成濾波器106基於經修改之碼產生提供至裝置100之輸出端112的合成之信號。處理單元108可基於當前訊框之頻譜包絡資訊(例如,在裝置100處可得到的用於合成濾波器106之濾波器係數)判定頻譜傾斜。
根據另外實施例,將描述用於成形CELP新穎碼簿之碼的自適應性傾斜補償。圖2展示根據本發明之第二實施例的信號合成器200之簡化方塊圖,該信號合成器基於CELP方案操作。根據CELP方案,合成器200包括一固定或新穎碼簿202及一自適應性碼簿204。取決於經編碼之信號,對於當前由合成器200處理之當前訊框,自各別碼簿202及204輸出一碼。合成器200包含一求和器或組合器206,以組合自各別碼簿202及204接收之碼。求和器206之輸出端連接至LPC合成濾波器208,該LPC合成濾波器用於合成實際音訊信號且將其在輸出端210處輸出。根據實施例,合成器200 可包括第一放大器212,以用所要的碼增益倍增來自固定碼簿202之貢獻。另外,可提供第二放大器214,以根據音調增益倍增來自自適應性碼簿204之貢獻,此係因為來自自適應性碼簿之貢獻模型化語音之音調。根據另一實施例,亦可提供一LPC係數儲存器216(如記憶體或類似者),以用於儲存可在包括合成器200之解碼器處得到之LPC係數。將LPC係數提供至合成濾波器208,以提供所要的LPC合成濾波。
合成器200包括連接於固定碼簿202與第一放大器212之間的濾波器218。濾波器218自儲存器216接收用於當前訊框之LPC係數。藉由本發明之結構,自儲存於儲存器216中的已傳輸之LPC係數恢復當前經處理的音訊訊框之傾斜。根據圖2之實施例,假定f s (n)為具有轉移函數F s (z)=1/A(z)的LPC合成濾波器208之脈衝回應,且傾斜由濾波器208判定如下:
其中N為無限脈衝回應fs(n)之截斷之大小。根據一實施例,N等於新穎碼簿之大小,亦即,N等於儲存於新穎碼簿中的碼或碼字之數目。根據圖2之實施例,藉由在濾波器218中提供之濾波操作,將頻譜傾斜應用至自固定碼簿202擷取之碼c(n)。濾波操作係定義如下:c(n)*f t1(n),其中f t1 (n)為以下轉移函數之脈衝回應: F t1(z)=1-γz -1
圖2之實施例係有利的,因為其允許藉由增強寫碼增益來增強經解碼信號的感知品質。藉由根據轉移函數對自固定碼簿202擷取之碼字或碼濾波而達成寫碼增益之增強,該轉移函數包括基於LPC合成濾波器208之轉移函數之脈衝回應而判定的頻譜傾斜。
根據第三實施例,為了進一步改良頻譜傾斜以更接近最佳傾斜(亦即,更接近輸入信號之當前訊框之實際傾斜),LPC合成濾波器208具有以下轉移函數:
其中w1=0.8且w2=0.9。在此情況下,頻譜傾斜係定義如下:
加權常數w1及w2用以控制頻譜包絡之動態。舉例而言,若w1=0且w2=1,則F e (z)很緊密地遵循真實的信號包絡。所得頻譜傾斜γ將展示高動態且可波動得過多。此可為針對碼簿明確缺乏傾斜結構之非常低位元速率之解決方案。然而,已發現,感知上自頻譜包絡之平滑版本推斷頻譜傾斜γ更好。發現藉由以上值w1=0.8且w2=0.9可達成良好的平滑化,其展示對於大範圍之位元速率的良好折衷。根據實施例,w1及w2係位元速率相依的。在非常高的速率下,若碼簿足夠大且能夠模型化任何頻譜傾斜γ,則吾人可 藉由設定w1=w2=1來切斷頻譜傾斜γ之影響。
當與產生具有比最佳傾斜將具有的斜度陡的斜度之第二實施例比較時,使用「經加權之」轉移函數的第三實施例提供更接近當前訊框之實際傾斜的傾斜。
圖3展示根據本發明之第四實施例的信號合成器200'之另一簡化方塊圖,其再次應用CELP寫碼方案。當與關於圖2描述之實施例相比時,關於圖3描述之實施例進一步應用以上提到之與先前訊框之發聲有關的因數。如可自圖3看出,合成器200'之結構實質上與圖2之合成器200之結構相同,只不過此外亦提供接收放大器214之輸出及由求和器206輸出的來自新穎碼簿以及自適應性碼簿的組合貢獻之發聲估計器220。發聲估計器將信號輸出至濾波器280,使得基於與發聲因數組合的判定之傾斜(見圖2及以上描述)來修改自新穎碼簿202獲得之碼或碼字。更特定言之,根據圖3之實施例,將判定之頻譜傾斜與有關於先前訊框之發聲的因數β組合。關於圖3描述之方法係有利的,此係因為與關於圖1及圖2描述之實施例相比,其允許獲得待應用至碼字的傾斜之甚至更好估計。對碼或碼成形之修改可再次被視為使用如下之轉移函數的濾波操作:F t2(z)=1-(aβ+bγ)z -1
其中a及b為常數。在較佳實施例中,a=0.5且b=0.25。可如下自先前訊框之發聲推斷因數β 且實際因數β可被判定如下: β=常數.(1+發聲)
應用常數a及b以控制發聲傾斜β及頻譜傾斜γ之混合。如上文關於加權常數w1及w2提到,對於低及中等位元速率,其可與藉由基於頻譜傾斜γ銳化低頻率或高頻率來使碼簿成形相關。亦已觀測到,信號的發聲愈多,則銳化高頻率愈好。常數a及b可用以正規化傾斜因數β及γ,且對其強度加權以便按需要組合兩個效應。根據實施例,可藉由評估感知品質在經驗上發現常數a及b。此賦予兩個因數大約相同強度:γ限於-1與1之間,因此bγ介於-0.25與0.25之間,且β限於0與0.5之間,因此aβ限於0與0.25之間。至於加權常數w1及w2,亦可使常數a及b為位元速率相依的。
根據第四實施例,如圖3中展示之音訊合成使得用稱為音調增益之增益倍增自適應性碼簿貢獻(因為該貢獻模型化語音之音調)。新穎碼首先由Ft2(z)濾波,以用於將頻譜傾斜添加至該碼,其中該傾斜(如上所述)與待合成的信號之當前訊框之傾斜相關。用碼增益倍增濾波器218之輸出,且該兩個貢獻(來自自適應性碼簿的倍增之貢獻及來自新穎碼簿的倍增之經修改貢獻)由求和器206求和,之後由合成濾波器濾波以用於在輸出端210處產生合成之輸出信號。
圖4展示根據本發明之教示操作的解碼器(例如,語音解碼器)之一實施例。解碼器300包括根據以上描述的實施例中之一者之合成器100、200、200'。該解碼器具有接收由解碼器處理的經編碼信號之輸入端302及用於在解碼 器300之輸出端304處產生經解碼信號之合成器。
圖5展示根據本發明之教示操作的編碼器(例如,語音編碼器)之一實施例。編碼器400包括一處理單元402,以用於編碼音訊信號。另外,該處理單元自音訊信號之當前訊框之頻譜傾斜(例如,自可在編碼器處得到之LPC係數)判定表示在解碼器處之碼簿之表示音訊信號之當前訊框的碼之頻譜傾斜的資訊。此資訊可與編碼音訊信號一起傳輸至解碼器側,在解碼器側,其可在合成音訊信號時加以應用。可按如上文關於圖1至圖3描述之方式在編碼器處判定頻譜傾斜,且其可如上文關於圖1至圖3所描述在解碼器處應用。因此,本發明之實施例提供如在圖5中展示之上述音訊編碼器連同用於解碼音訊信號之音訊解碼器,其中音訊解碼器未必需要判定頻譜傾斜,相反,其經組配以將自編碼器接收之頻譜傾斜應用至用於合成音訊信號之當前訊框的碼簿之碼。舉例而言,解碼器可具有如在圖1至圖3中之合成器的合成器,只不過處理單元108或濾波器218接收在編碼器處計算並自編碼器傳輸之傾斜。所接收之傾斜可儲存於(例如)儲存器216中或另一儲存器中。
雖然已在裝置之內容脈絡中描述了一些態樣,但顯然,此等態樣亦表示對應方法之描述,其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地,在方法步驟之內容脈絡中描述的態樣亦表示對應裝置之對應區塊或項目或特徵之描述。該等方法步驟中之一些或全部可由(或使用)硬體裝置(例如,微處理器、可規劃電腦或電子電路)來 執行。在一些實施例中,最重要的方法步驟中之某一或多個步驟可由此裝置執行。
取決於某些實施要求,本發明之實施例可以硬體或以軟體實施。可使用儲存有電子可讀控制信號的非暫時性儲存媒體(諸如,數位儲存媒體,例如軟碟、DVD、Blu-Ray、CD、ROM、PROM及EPROM、EEPROM或FLASH記憶體)執行該實施,該等電子可讀控制信號與(或能夠與)可規劃電腦系統合作使得執行各別方法。因此,數位儲存媒體可為電腦可讀的。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等電子可讀控制信號能夠與可規劃電腦系統合作,使得執行本文中描述的方法中之一者。
通常,可將本發明之實施例實施為具有程式碼之電腦程式產品,該程式碼可操作以當電腦程式產品在電腦上執行時執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上的用於執行本文中描述的方法中之一者之電腦程式。
換言之,本發明方法之一實施例因此為具有程式碼的電腦程式,該程式碼用於當電腦程式在電腦上執行時執行本文中描述的方法中之一者。
本發明方法之再一實施例因此為資料載體(或數位儲存媒體或電腦可讀媒體),其包含(記錄有)用於執行本文中描述的方法中之一者之電腦程式。資料載體、數位儲 存媒體或記錄媒體通常為有形的及/或非暫時性的。
本發明方法之再一實施例因此為表示用於執行本文中描述的方法中之一者之電腦程式的資料串流或信號序列。資料串流或信號序列可(例如)經組配以經由資料通訊連接(例如,經由網際網路)傳送。
再一實施例包含一種處理構件(例如,電腦或可規劃邏輯器件),其經組配或規劃以執行本文中描述的方法中之一者。
再一實施例包含一種電腦,其上安裝有用於執行本文中描述的方法中之一者之電腦程式。
根據本發明之再一實施例包含經組配以將用於執行本文中描述的方法中之一者之電腦程式傳送(例如,以電子方式或以光學方式)至接收器之裝置或系統。接收器可(例如)為電腦、行動器件、記憶體器件或類似者。裝置或系統可(例如)包含用於將電腦程式傳送至接收器之檔案伺服器。
在一些實施例中,可使用可規劃邏輯器件(例如,場可規劃閘陣列)執行本文中描述的方法之一些或全部功能性。在一些實施例中,場可規劃閘陣列可與微處理器合作以便執行本文中描述的方法中之一者。通常,該等方法較佳地由任一硬體裝置執行。
上述實施例僅例示本發明之原理。應理解,本文中描述的配置及細節之修改及變化將對其他熟習此項技術者顯而易見。因此,希望僅受到隨附的專利申請專利範圍 之範疇限制,且不受由本文中之實施例之描述及解釋呈現的特定細節限制。
參考文獻
[1] Recommendation ITU-T G.718: “Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s”
[2] US Patent 6,678,651 B2, “Short-Term Enhancement in CELP Speech Coding”
200'‧‧‧信號合成器/合成器
202‧‧‧固定或新穎碼簿
204‧‧‧自適應性碼簿
206‧‧‧求和器
208‧‧‧LPC合成濾波器
210‧‧‧輸出端
212‧‧‧第一放大器
214‧‧‧第二放大器
216‧‧‧LPC係數儲存器/儲存器
218‧‧‧濾波器
220‧‧‧發聲估計器

Claims (27)

  1. 一種用於合成音訊信號之裝置,其包含:一處理單元,其經組配以將一頻譜傾斜應用至用於合成該音訊信號之一當前訊框的一碼簿之碼,其中該頻譜傾斜係基於該音訊信號之該當前訊框之頻譜傾斜;其中該裝置係經組配以基於該音訊信號之該當前訊框的頻譜包絡資訊而判定該音訊信號之該當前訊框的該頻譜傾斜,及其中該處理單元經組配以藉由基於模型化該頻譜傾斜之一轉移函數對來自該碼簿之該碼濾波,來應用該頻譜傾斜。
  2. 如請求項1之裝置,其中該頻譜包絡資訊由LPC係數定義,且其中該音訊信號之該當前訊框的該頻譜傾斜係定義如下: 其中:f s (n):具有轉移函數F s (z)=1/A(z)的一LPC合成濾波器之無限脈衝回應,以及N:該無限脈衝回應f s (n)之截斷之大小。
  3. 如請求項1之裝置,其中該頻譜包絡資訊由LPC係數定義,且其中該音訊信號之該當前訊框的該頻譜傾斜係定 義如下: 其中: f e (n):具有轉移函數的一LPC合成濾波 器之無限脈衝回應,N:該無限脈衝回應f s (n)之截斷之大小,以及w1、w2:用於定義該轉移函數F e (z)之共振峰結構之加權常數。
  4. 如請求項2之裝置,其中N等於該碼簿中的碼之數目。
  5. 如請求項1之裝置,其中包括該頻譜傾斜之該轉移函數係定義如下:F t1(z)=1-γz -1,其中:γ:頻譜傾斜。
  6. 如請求項1之裝置,其中該處理單元經進一步組配以將該音訊信號之該當前訊框的該經判定之頻譜傾斜,以及與該音訊信號之先前訊框之發聲有關的一因數組合。
  7. 如請求項6之裝置,其中與該音訊信號之該先前訊框之發聲有關的該因數係定義如下:β=常數.(1+發聲)其中:
  8. 如請求項6之裝置,其中該處理單元經組配以藉由基於包括該頻譜傾斜及與該音訊信號之該先前訊框之發聲有關的該因數之一轉移函數,對來自該碼簿之該碼濾波,來應用該頻譜傾斜。
  9. 如請求項8之裝置,其中包括該頻譜傾斜之該轉移函數係定義如下:F t2(z)=1-(aβ+bγ)z -1,其中:a、b:常數γ:頻譜傾斜β:因數。
  10. 如請求項1之裝置,其中該音訊信號為一語音信號,其中用於應用該頻譜傾斜之該處理單元包含一濾波器,且其中該裝置進一步包含:一自適應性碼簿,一固定碼簿,耦接至該固定碼簿之該濾波器,該濾波器經組配以將該經判定之頻譜傾斜應用至該固定碼簿之該碼以獲得該固定碼簿的一經濾波碼,一求和器,其耦接至該自適應性碼簿且耦接至該濾波器,該求和器經組配以組合來自該自適應性碼簿之一碼與該固定碼簿的該經濾波碼,以獲得一組合之碼,以及一LPC合成濾波器,其耦接至該求和器。
  11. 如請求項10之裝置,其進一步包含:一音調增益放大器,其耦接於該自適應性碼簿與該求和器之間,該音調增益放大器經組配以用一音調增益來倍增來自該自適應性碼簿之該碼,以及一碼增益放大器,其耦接於該濾波器與該求和器之間,該碼增益放大器經組配以用一碼增益來倍增該固定碼簿的該經濾波碼。
  12. 如請求項10之裝置,其進一步包含:一發聲估計器,其耦接至該自適應性碼簿且耦接至該求和器,該發聲估計器經組配以將與該音訊信號之該先前訊框之發聲有關的一因數輸出至該濾波器,以及一儲存器,其經組配以儲存描述該音訊信號之該當前訊框的頻譜包絡資訊之LPC係數,該儲存器耦接至該濾波器。
  13. 一種音訊解碼器,其包含如請求項1或12中任一項之用於合成音訊信號之裝置的一裝置。
  14. 一種用於音訊編解碼之系統,其包含:如請求項13之一音訊解碼器,以及一音訊編碼器,其經組配以自該音訊信號之一當前訊框之一頻譜傾斜,判定用於表示該音訊信號之一當前訊框的一碼簿之一碼之一頻譜傾斜。
  15. 一種用於合成一音訊信號之方法,該方法包含:將一頻譜傾斜應用至用於合成該音訊信號之一當前訊框的一碼簿之碼, 其中該頻譜傾斜係基於該音訊信號之該當前訊框之頻譜傾斜而判定其中該音訊信號之該當前訊框的該頻譜傾斜係基於該音訊信號之該當前訊框的頻譜包絡資訊而判定,及其中應用該頻譜傾斜係包含基於模型化該頻譜傾斜之一轉移函數對來自該碼簿之該碼濾波。
  16. 如請求項15之方法,其中該頻譜包絡資訊由LPC係數定義,且其中該音訊信號之該當前訊框的該頻譜傾斜係判定如下: 其中:f s (n):具有轉移函數F s (z)=1/A(z)的一LPC合成濾波器之無限脈衝回應,以及N:該無限脈衝回應f s (n)之截斷之大小。
  17. 如請求項15之方法,其中該頻譜包絡資訊由LPC係數定義,且其中該音訊信號之該當前訊框的該頻譜傾斜係判定如下: 其中: f e (n):具有轉移函數的一LPC合成濾波 器之無限脈衝回應,N:該無限脈衝回應f s (n)之截斷之大小,以及 w1、w2:用於定義該轉移函數F e (z)之共振峰結構之加權常數。
  18. 如請求項16之方法,其中N等於該碼簿中的碼之數目。
  19. 如請求項15之方法,其中包括該頻譜傾斜之該轉移函數係判定如下:F t1(z)=1-γz -1其中:γ:頻譜傾斜。
  20. 如請求項15之方法,其進一步包含將該音訊信號之該當前訊框的該經判定之頻譜傾斜,以及與該音訊信號之先前訊框之發聲有關的一因數組合。
  21. 如請求項20之方法,其中有關於該音訊信號之該先前訊框之發聲的該因數係判定如下:β=常數.(1+發聲)其中:
  22. 如請求項20之方法,其中應用該頻譜傾斜係包含基於包括該頻譜傾斜及與該音訊信號之該先前訊框之發聲有關的該因數之一轉移函數,對來自該碼簿之該碼濾波。
  23. 如請求項22之方法,其中包括該頻譜傾斜之該轉移函數係判定如下:F t2(z)=1-(aβ+bγ)z -1,其中:a、b:常數 γ:頻譜傾斜β:因數。
  24. 如請求項15之方法,其中該音訊信號為一語音信號,且其中合成該音訊信號包含對於該音訊信號之一訊框:將該經判定之頻譜傾斜應用至一固定碼簿之該碼,以獲得該固定碼簿的一經濾波碼,將來自一自適應性碼簿之一碼與該固定碼簿的該經濾波碼組合以獲得一組合之碼,以及藉由一LPC合成濾波器濾波該組合之碼。
  25. 如請求項24之方法,其進一步包含用一音調增益來倍增來自該自適應性碼簿之該碼,以及用一碼增益來倍增該固定碼簿的該經濾波碼。
  26. 如請求項24之方法,其進一步包含:基於來自該自適應性碼簿之該碼及該組合之碼,產生與該音訊信號之該先前訊框之發聲有關的一因數,以及儲存描述該音訊信號之該當前訊框的頻譜包絡資訊之LPC係數。
  27. 一種非暫時性電腦媒體,其儲存指令以用於當在一電腦上執行時,進行一如請求項15至26中任一項之用於合成一音訊信號之方法。
TW103103523A 2013-01-29 2014-01-29 合成音訊信號之裝置與方法、解碼器、編碼器、系統以及電腦程式 TWI544481B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201361758098P 2013-01-29 2013-01-29
PCT/EP2014/051592 WO2014118156A1 (en) 2013-01-29 2014-01-28 Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program

Publications (2)

Publication Number Publication Date
TW201435862A TW201435862A (zh) 2014-09-16
TWI544481B true TWI544481B (zh) 2016-08-01

Family

ID=50033504

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103103523A TWI544481B (zh) 2013-01-29 2014-01-29 合成音訊信號之裝置與方法、解碼器、編碼器、系統以及電腦程式

Country Status (20)

Country Link
US (3) US10431232B2 (zh)
EP (1) EP2951819B1 (zh)
JP (1) JP6082126B2 (zh)
KR (1) KR101737254B1 (zh)
CN (1) CN105009210B (zh)
AR (1) AR094683A1 (zh)
AU (1) AU2014211524B2 (zh)
BR (1) BR112015018023B1 (zh)
CA (1) CA2899059C (zh)
ES (1) ES2626977T3 (zh)
HK (1) HK1217564A1 (zh)
MX (1) MX347316B (zh)
MY (1) MY183444A (zh)
PL (1) PL2951819T3 (zh)
PT (1) PT2951819T (zh)
RU (1) RU2618919C2 (zh)
SG (1) SG11201505903UA (zh)
TW (1) TWI544481B (zh)
WO (1) WO2014118156A1 (zh)
ZA (1) ZA201506318B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2951819T3 (pl) * 2013-01-29 2017-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie, sposób i nośnik komputerowy do syntetyzowania sygnału audio

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6240386B1 (en) 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US6463410B1 (en) * 1998-10-13 2002-10-08 Victor Company Of Japan, Ltd. Audio signal processing apparatus
CA2252170A1 (en) 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6242748B1 (en) 1999-08-10 2001-06-05 Edax, Inc. Methods and apparatus for mounting an X-ray detecting unit to an electron microscope
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6678651B2 (en) * 2000-09-15 2004-01-13 Mindspeed Technologies, Inc. Short-term enhancement in CELP speech coding
US6996523B1 (en) 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
WO2003097258A1 (fr) 2002-05-20 2003-11-27 Matsushita Electric Industrial Co., Ltd. Procede et dispositif de lavage
US20060089836A1 (en) * 2004-10-21 2006-04-27 Motorola, Inc. System and method of signal pre-conditioning with adaptive spectral tilt compensation for audio equalization
US7475103B2 (en) 2005-03-17 2009-01-06 Qualcomm Incorporated Efficient check node message transform approximation for LDPC decoder
CA2603246C (en) * 2005-04-01 2012-07-17 Qualcomm Incorporated Systems, methods, and apparatus for anti-sparseness filtering
SI1875463T1 (sl) * 2005-04-22 2019-02-28 Qualcomm Incorporated Sistemi, postopki in naprava za glajenje faktorja ojačenja
EP1722360B1 (en) 2005-05-13 2014-03-19 Harman Becker Automotive Systems GmbH Audio enhancement system and method
US7454335B2 (en) * 2006-03-20 2008-11-18 Mindspeed Technologies, Inc. Method and system for reducing effects of noise producing artifacts in a voice codec
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8239191B2 (en) * 2006-09-15 2012-08-07 Panasonic Corporation Speech encoding apparatus and speech encoding method
MY146431A (en) * 2007-06-11 2012-08-15 Fraunhofer Ges Forschung Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
RU2443028C2 (ru) * 2008-07-11 2012-02-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра
KR101508819B1 (ko) * 2009-10-20 2015-04-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩
CN102844810B (zh) * 2010-04-14 2017-05-03 沃伊斯亚吉公司 用于在码激励线性预测编码器和解码器中使用的灵活和可缩放的组合式创新代码本
WO2011148230A1 (en) * 2010-05-25 2011-12-01 Nokia Corporation A bandwidth extender
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
US9706314B2 (en) * 2010-11-29 2017-07-11 Wisconsin Alumni Research Foundation System and method for selective enhancement of speech signals
JP5328883B2 (ja) * 2011-12-02 2013-10-30 パナソニック株式会社 Celp型音声復号化装置およびcelp型音声復号化方法
RU2660605C2 (ru) * 2013-01-29 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Концепция заполнения шумом
PL2951819T3 (pl) * 2013-01-29 2017-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie, sposób i nośnik komputerowy do syntetyzowania sygnału audio
PL3067890T3 (pl) * 2013-01-29 2018-06-29 Fraunhofer Ges Forschung Koder audio, dekoder audio, sposób dostarczania zakodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i zakodowana reprezentacja, wykorzystujące adaptacyjne względem sygnału powiększanie szerokości pasma
WO2014118192A2 (en) * 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling without side information for celp-like coders
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
BR112016008662B1 (pt) * 2013-10-18 2022-06-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Método, decodificador e codificador para codificação e decodificação de um sinal de áudio utilizando informação de modulação espectral relacionada com a fala
BR112016008544B1 (pt) * 2013-10-18 2021-12-21 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio.
CN104751849B (zh) * 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US9672843B2 (en) * 2014-05-29 2017-06-06 Apple Inc. Apparatus and method for improving an audio signal in the spectral domain
US9373342B2 (en) * 2014-06-23 2016-06-21 Nuance Communications, Inc. System and method for speech enhancement on compressed speech
CN105225671B (zh) * 2014-06-26 2016-10-26 华为技术有限公司 编解码方法、装置及***
CN105225670B (zh) * 2014-06-27 2016-12-28 华为技术有限公司 一种音频编码方法和装置

Also Published As

Publication number Publication date
ZA201506318B (en) 2016-07-27
CN105009210B (zh) 2018-04-10
EP2951819A1 (en) 2015-12-09
US11996110B2 (en) 2024-05-28
SG11201505903UA (en) 2015-08-28
BR112015018023A2 (zh) 2017-08-22
CA2899059A1 (en) 2014-08-07
TW201435862A (zh) 2014-09-16
US20220293114A1 (en) 2022-09-15
EP2951819B1 (en) 2017-03-01
MY183444A (en) 2021-02-18
RU2015136788A (ru) 2017-03-06
US20150332694A1 (en) 2015-11-19
KR101737254B1 (ko) 2017-05-17
PT2951819T (pt) 2017-06-06
RU2618919C2 (ru) 2017-05-12
BR112015018023B1 (pt) 2022-06-07
US20190378528A1 (en) 2019-12-12
KR20150112028A (ko) 2015-10-06
AU2014211524B2 (en) 2016-07-07
HK1217564A1 (zh) 2017-01-13
MX347316B (es) 2017-04-21
MX2015009749A (es) 2015-11-06
CA2899059C (en) 2018-05-15
AR094683A1 (es) 2015-08-19
US10431232B2 (en) 2019-10-01
US11373664B2 (en) 2022-06-28
JP6082126B2 (ja) 2017-02-15
WO2014118156A1 (en) 2014-08-07
ES2626977T3 (es) 2017-07-26
JP2016509694A (ja) 2016-03-31
CN105009210A (zh) 2015-10-28
PL2951819T3 (pl) 2017-08-31
AU2014211524A1 (en) 2015-09-17

Similar Documents

Publication Publication Date Title
US8069040B2 (en) Systems, methods, and apparatus for quantization of spectral envelope representation
AU714752B2 (en) Speech coder
US10909997B2 (en) Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
US10607619B2 (en) Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
US11996110B2 (en) Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program
WO2014034697A1 (ja) 復号方法、復号装置、プログラム、及びその記録媒体
JP2001051699A (ja) 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体