TWI544481B

TWI544481B - 合成音訊信號之裝置與方法、解碼器、編碼器、系統以及電腦程式

Info

Publication number: TWI544481B
Application number: TW103103523A
Authority: TW
Inventors: 古拉米福契斯; 湯姆別克史創; 雷夫蓋葛; 渥爾夫剛賈格斯; 艾曼紐拉斐里
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2013-01-29
Filing date: 2014-01-29
Publication date: 2016-08-01
Also published as: ZA201506318B; CN105009210B; EP2951819A1; US11996110B2; SG11201505903UA; BR112015018023A2; CA2899059A1; TW201435862A; US20220293114A1; EP2951819B1; MY183444A; RU2015136788A; US20150332694A1; KR101737254B1; PT2951819T; RU2618919C2; BR112015018023B1; US20190378528A1; KR20150112028A; AU2014211524B2

Description

合成音訊信號之裝置與方法、解碼器、編碼器、系統以及電腦程式

發明領域

本發明係關於音訊寫碼之領域，更特定言之，係關於合成音訊信號之領域。實施例係關於語音寫碼，且特定言之，係關於稱為碼激發線性預測寫碼(CELP)之語音寫碼技術。實施例提供用於在使新穎或固定碼簿中之CELP碼成形的過程中進行自適應性傾斜補償之方法。

發明背景

CELP寫碼方案廣泛地用於語音通訊中，且為寫碼語音之有效率的方式。CELP藉由將兩個激發之總和傳遞至線性預測濾波器(例如，LPC合成濾波器1/A(z))來合成音訊信號。一個激發來自經解碼之過去(其被稱為自適應性碼簿)，且另一貢獻來自由固定碼填充之固定或新穎碼簿。CELP寫碼方案之一問題在於，在低位元速率下，新穎碼簿未被充分地填充以用於有效率地模型化語音之精細結構，使得感知品質降級且所合成之輸出信號聽起來有雜訊。

為了減輕寫碼偽訊，不同解決方案已被提議且描述於參考[1]中及參考[2]中。在此等參考中，藉由增強對應於音訊信號之當前訊框之共振峰的頻譜區域來自適應地且在頻譜上成形新穎碼簿之碼。共振峰位置及形狀可直接自LPC係數推斷，LPC係數為在編碼器及解碼器兩者處皆可利用之係數。對新穎碼簿之碼c(n)之共振峰增強係藉由簡單的濾波操作進行：c(n)＊f _e(n)。

在此濾波過程中，f _e (n)為具有以下轉移函數的濾波器之脈衝回應：

其中w1及w2為兩個加權常數，其或多或少地強調轉移函數F _e (z)之共振峰結構。新穎碼簿之所得經成形碼繼承了語音信號之一特性且所合成之信號聽起來雜訊較少。

在CELP寫碼方案中，亦通常將頻譜傾斜添加至新穎碼簿之碼，此係藉由如下濾波來自新穎碼簿之碼而進行：F _t(z)=1-βz ^-1。

因數β與先前音訊訊框之發聲有關，且可根據來自自適應性碼簿之能量貢獻估計發聲。舉例而言，若先前訊框有聲，則預期當前訊框亦有聲，且碼將在低頻中具有更多能量，亦即，頻譜具有負傾斜。

發明概要

本發明之一目標為提供一種用於合成一音訊信號之改良方法。

此目標係藉由如請求項1之裝置及藉由如請求項19之方法來達成。

本發明提供一種用於合成一音訊信號之裝置，該裝置包含一處理單元，該處理單元經組配以將一頻譜傾斜應用至用於合成該音訊信號之一當前訊框的碼簿之碼，其中該頻譜傾斜係基於該音訊信號之該當前訊框之頻譜傾斜。

本發明提供一種用於合成一音訊信號之方法，該方法包含將一頻譜傾斜應用至用於合成該音訊信號之一當前訊框的一碼簿之碼，其中該頻譜傾斜係基於該音訊信號之該當前訊框之該頻譜傾斜而判定。

本申請案之發明者發現可藉由在合成信號時利用音訊信號之頻譜傾斜之性質來改良可達成之寫碼增益而在低位元速率及較高位元速率兩者下進一步改良音訊信號之合成。根據實施例，本發明提供語音寫碼，例如，使用CELP語音寫碼技術，其允許增強CELP之寫碼增益，藉此增強經解碼或合成之信號的感知品質。本發明之方法係基於發明者之以下發現：此改良可藉由隨當前處理的實際輸入信號之頻譜傾斜而變來調適碼簿之碼(例如，CELP新穎碼簿之碼)的頻譜傾斜來達成。本發明之方法係有利的，此係因為，除了增強之寫碼增益外，在新穎碼簿未被充分填充以用於有效率地模型化語音之精細結構的低位元速率下，其亦允許進一步的共振峰增強。在新穎碼簿經充分填充之較高位元速率下，應用本發明之方法將增強寫碼增益。更特定言之，在較高位元速率下，可不需要共振峰增強，此係因為新穎碼簿足夠大以用於適當地模型化語音之精細結構，且進一步增強共振峰將使所合成之信號聽起來過於合成。然而，最佳碼並非在頻譜上平坦的，且添加頻譜傾斜將增強寫碼增益。根據實施例，更準確地估計待應用至新穎碼簿之碼的最佳傾斜，更特定言之，其與輸入信號之當前訊框之傾斜相關。

根據實施例，基於用於音訊信號之當前訊框的頻譜包絡資訊判定音訊信號之當前訊框之頻譜傾斜，其中頻譜包絡資訊可由LPC係數定義。此實施例係有利的，因為其允許基於易於在編碼器及解碼器兩者處得到之資訊(即，LPC係數)判定當前訊框之頻譜傾斜。

根據另外實施例，可基於LPC合成濾波器之截斷的無限脈衝回應判定基於LPC係數的音訊信號之當前訊框之頻譜傾斜。根據實施例，截斷可由新穎碼簿之大小(亦即，新穎碼簿中的碼之數目)判定。此方法係有利的，因為其允許使頻譜傾斜之判定與新穎碼簿之實際大小直接有關。

根據另外實施例，無限脈衝回應可為具有未加權之轉移函數或經加權之轉移函數的LPC合成濾波器之無限脈衝回應。使用未加權之轉移函數允許對頻譜傾斜之簡化判定，而使用經加權之轉移函數的有利之處在於其允許頻譜傾斜具有更接近最佳傾斜之斜度。

根據實施例，藉由基於包括頻譜傾斜之轉移函數對來自碼簿之碼濾波而將判定之頻譜傾斜應用至各別碼。此實施例係有利的，因為可藉由簡單的濾波過程達成增強。

根據又一實施例，可將當前訊框之頻譜傾斜與有關於音訊信號之先前訊框之發聲的因數組合，例如，藉由基於包括頻譜傾斜及該因數之轉移函數對來自碼簿之碼濾波。此方法係有利的，因為其提供獲得最佳傾斜之甚至更好估計的可能性。

本發明提供一種包含用於合成一音訊信號之本發明裝置之音訊解碼器。

本發明提供一種用於解碼一音訊信號之音訊解碼器，其中該音訊解碼器經組配以將一頻譜傾斜應用至用於合成該音訊信號之一當前訊框的一碼簿之碼，其中該頻譜傾斜係基於該音訊信號之該當前訊框之該頻譜傾斜。

本發明提供一種用於編碼一音訊信號之編碼器，其中該音訊編碼器經組配以自該音訊信號之一當前訊框之一頻譜傾斜判定用於表示該音訊信號之一當前訊框的一碼簿之一碼之一頻譜傾斜。

本發明提供一種系統，其包含本發明之音訊解碼器及本發明之音訊編碼器。

本發明提供一種非暫時性電腦媒體，其儲存指令以當在一電腦上執行時進行用於合成一音訊信號之本發明方法。

100‧‧‧裝置

102、302‧‧‧輸入端

104‧‧‧碼簿

106‧‧‧合成器或合成濾波器

108、402‧‧‧處理單元

110‧‧‧示意性表示

112、210、304‧‧‧輸出端

200、200'‧‧‧信號合成器/合成器

202‧‧‧固定或新穎碼簿

204‧‧‧自適應性碼簿

206‧‧‧求和器

208‧‧‧LPC合成濾波器

212‧‧‧第一放大器

214‧‧‧第二放大器

216‧‧‧LPC係數儲存器/儲存器

218‧‧‧濾波器

220‧‧‧發聲估計器

300‧‧‧解碼器

400‧‧‧編碼器

現將參看隨附圖式進一步詳細地描述本發明之實施例，其中：圖1展示根據第一實施例的用於合成音訊信號之本發明之裝置之示意性表示；圖2展示根據本發明之第二實施例的信號合成器之簡化方塊圖，該信號合成器基於CELP方案操作；圖3展示根據本發明之另一實施例的信號合成器之簡化方塊圖，其再次應用併有先前訊框之發聲的CELP寫碼方案；圖4展示根據本發明之教示操作的解碼器(例如，語音解碼器)之一實施例；以及圖5展示根據本發明之教示操作的編碼器(例如，語音編碼器)之一實施例。

較佳實施例之詳細說明

在下文中，將描述本發明之方法之實施例。注意，在隨後描述中，類似的元件/步驟藉由同樣的參考記號來指代。

圖1展示根據第一實施例的用於合成音訊信號之本發明裝置之示意性表示。裝置100在輸入端102處接收一經編碼之信號，例如，經編碼之音訊信號，如語音信號。為了解碼音訊信號，裝置100包含包括複數個碼之碼簿104。為了合成信號，當基於在輸入端102處接收的經編碼之信號處理當前訊框時，自碼簿104選擇一適當的碼或碼字且將其供應給合成器或合成濾波器106。根據本發明，該裝置包含處理單元108，處理單元108基於音訊信號之當前訊框(亦即，當前由裝置100處理的音訊信號之訊框)之頻譜傾斜判定待應用至自碼簿104讀取之碼c(n)之頻譜傾斜，如示意性地在110處所表示。將經修改之碼c(n)*γ應用至合成濾波器106，該合成濾波器106基於經修改之碼產生提供至裝置100之輸出端112的合成之信號。處理單元108可基於當前訊框之頻譜包絡資訊(例如，在裝置100處可得到的用於合成濾波器106之濾波器係數)判定頻譜傾斜。

根據另外實施例，將描述用於成形CELP新穎碼簿之碼的自適應性傾斜補償。圖2展示根據本發明之第二實施例的信號合成器200之簡化方塊圖，該信號合成器基於CELP方案操作。根據CELP方案，合成器200包括一固定或新穎碼簿202及一自適應性碼簿204。取決於經編碼之信號，對於當前由合成器200處理之當前訊框，自各別碼簿202及204輸出一碼。合成器200包含一求和器或組合器206，以組合自各別碼簿202及204接收之碼。求和器206之輸出端連接至LPC合成濾波器208，該LPC合成濾波器用於合成實際音訊信號且將其在輸出端210處輸出。根據實施例，合成器200 可包括第一放大器212，以用所要的碼增益倍增來自固定碼簿202之貢獻。另外，可提供第二放大器214，以根據音調增益倍增來自自適應性碼簿204之貢獻，此係因為來自自適應性碼簿之貢獻模型化語音之音調。根據另一實施例，亦可提供一LPC係數儲存器216(如記憶體或類似者)，以用於儲存可在包括合成器200之解碼器處得到之LPC係數。將LPC係數提供至合成濾波器208，以提供所要的LPC合成濾波。

合成器200包括連接於固定碼簿202與第一放大器212之間的濾波器218。濾波器218自儲存器216接收用於當前訊框之LPC係數。藉由本發明之結構，自儲存於儲存器216中的已傳輸之LPC係數恢復當前經處理的音訊訊框之傾斜。根據圖2之實施例，假定f _s (n)為具有轉移函數F _s(z)=1/A(z)的LPC合成濾波器208之脈衝回應，且傾斜由濾波器208判定如下：

其中N為無限脈衝回應f_s(n)之截斷之大小。根據一實施例，N等於新穎碼簿之大小，亦即，N等於儲存於新穎碼簿中的碼或碼字之數目。根據圖2之實施例，藉由在濾波器218中提供之濾波操作，將頻譜傾斜應用至自固定碼簿202擷取之碼c(n)。濾波操作係定義如下：c(n)＊f _t1(n)，其中f _t1 (n)為以下轉移函數之脈衝回應： F _t1(z)=1-γz ^-1。

圖2之實施例係有利的，因為其允許藉由增強寫碼增益來增強經解碼信號的感知品質。藉由根據轉移函數對自固定碼簿202擷取之碼字或碼濾波而達成寫碼增益之增強，該轉移函數包括基於LPC合成濾波器208之轉移函數之脈衝回應而判定的頻譜傾斜。

根據第三實施例，為了進一步改良頻譜傾斜以更接近最佳傾斜(亦即，更接近輸入信號之當前訊框之實際傾斜)，LPC合成濾波器208具有以下轉移函數：

其中w1=0.8且w2=0.9。在此情況下，頻譜傾斜係定義如下：

加權常數w1及w2用以控制頻譜包絡之動態。舉例而言，若w1=0且w2=1，則F _e (z)很緊密地遵循真實的信號包絡。所得頻譜傾斜γ將展示高動態且可波動得過多。此可為針對碼簿明確缺乏傾斜結構之非常低位元速率之解決方案。然而，已發現，感知上自頻譜包絡之平滑版本推斷頻譜傾斜γ更好。發現藉由以上值w1=0.8且w2=0.9可達成良好的平滑化，其展示對於大範圍之位元速率的良好折衷。根據實施例，w1及w2係位元速率相依的。在非常高的速率下，若碼簿足夠大且能夠模型化任何頻譜傾斜γ，則吾人可藉由設定w1=w2=1來切斷頻譜傾斜γ之影響。

當與產生具有比最佳傾斜將具有的斜度陡的斜度之第二實施例比較時，使用「經加權之」轉移函數的第三實施例提供更接近當前訊框之實際傾斜的傾斜。

圖3展示根據本發明之第四實施例的信號合成器200'之另一簡化方塊圖，其再次應用CELP寫碼方案。當與關於圖2描述之實施例相比時，關於圖3描述之實施例進一步應用以上提到之與先前訊框之發聲有關的因數。如可自圖3看出，合成器200'之結構實質上與圖2之合成器200之結構相同，只不過此外亦提供接收放大器214之輸出及由求和器206輸出的來自新穎碼簿以及自適應性碼簿的組合貢獻之發聲估計器220。發聲估計器將信號輸出至濾波器280，使得基於與發聲因數組合的判定之傾斜(見圖2及以上描述)來修改自新穎碼簿202獲得之碼或碼字。更特定言之，根據圖3之實施例，將判定之頻譜傾斜與有關於先前訊框之發聲的因數β組合。關於圖3描述之方法係有利的，此係因為與關於圖1及圖2描述之實施例相比，其允許獲得待應用至碼字的傾斜之甚至更好估計。對碼或碼成形之修改可再次被視為使用如下之轉移函數的濾波操作：F _t2(z)=1-(a．β+b．γ)z ^-1

其中a及b為常數。在較佳實施例中，a=0.5且b=0.25。可如下自先前訊框之發聲推斷因數β：且實際因數β可被判定如下： β=常數．(1+發聲)

應用常數a及b以控制發聲傾斜β及頻譜傾斜γ之混合。如上文關於加權常數w1及w2提到，對於低及中等位元速率，其可與藉由基於頻譜傾斜γ銳化低頻率或高頻率來使碼簿成形相關。亦已觀測到，信號的發聲愈多，則銳化高頻率愈好。常數a及b可用以正規化傾斜因數β及γ，且對其強度加權以便按需要組合兩個效應。根據實施例，可藉由評估感知品質在經驗上發現常數a及b。此賦予兩個因數大約相同強度：γ限於-1與1之間，因此b．γ介於-0.25與0.25之間，且β限於0與0.5之間，因此a．β限於0與0.25之間。至於加權常數w1及w2，亦可使常數a及b為位元速率相依的。

根據第四實施例，如圖3中展示之音訊合成使得用稱為音調增益之增益倍增自適應性碼簿貢獻(因為該貢獻模型化語音之音調)。新穎碼首先由F_t2(z)濾波，以用於將頻譜傾斜添加至該碼，其中該傾斜(如上所述)與待合成的信號之當前訊框之傾斜相關。用碼增益倍增濾波器218之輸出，且該兩個貢獻(來自自適應性碼簿的倍增之貢獻及來自新穎碼簿的倍增之經修改貢獻)由求和器206求和，之後由合成濾波器濾波以用於在輸出端210處產生合成之輸出信號。

圖4展示根據本發明之教示操作的解碼器(例如，語音解碼器)之一實施例。解碼器300包括根據以上描述的實施例中之一者之合成器100、200、200'。該解碼器具有接收由解碼器處理的經編碼信號之輸入端302及用於在解碼器300之輸出端304處產生經解碼信號之合成器。

圖5展示根據本發明之教示操作的編碼器(例如，語音編碼器)之一實施例。編碼器400包括一處理單元402，以用於編碼音訊信號。另外，該處理單元自音訊信號之當前訊框之頻譜傾斜(例如，自可在編碼器處得到之LPC係數)判定表示在解碼器處之碼簿之表示音訊信號之當前訊框的碼之頻譜傾斜的資訊。此資訊可與編碼音訊信號一起傳輸至解碼器側，在解碼器側，其可在合成音訊信號時加以應用。可按如上文關於圖1至圖3描述之方式在編碼器處判定頻譜傾斜，且其可如上文關於圖1至圖3所描述在解碼器處應用。因此，本發明之實施例提供如在圖5中展示之上述音訊編碼器連同用於解碼音訊信號之音訊解碼器，其中音訊解碼器未必需要判定頻譜傾斜，相反，其經組配以將自編碼器接收之頻譜傾斜應用至用於合成音訊信號之當前訊框的碼簿之碼。舉例而言，解碼器可具有如在圖1至圖3中之合成器的合成器，只不過處理單元108或濾波器218接收在編碼器處計算並自編碼器傳輸之傾斜。所接收之傾斜可儲存於(例如)儲存器216中或另一儲存器中。

雖然已在裝置之內容脈絡中描述了一些態樣，但顯然，此等態樣亦表示對應方法之描述，其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地，在方法步驟之內容脈絡中描述的態樣亦表示對應裝置之對應區塊或項目或特徵之描述。該等方法步驟中之一些或全部可由(或使用)硬體裝置(例如，微處理器、可規劃電腦或電子電路)來執行。在一些實施例中，最重要的方法步驟中之某一或多個步驟可由此裝置執行。

取決於某些實施要求，本發明之實施例可以硬體或以軟體實施。可使用儲存有電子可讀控制信號的非暫時性儲存媒體(諸如，數位儲存媒體，例如軟碟、DVD、Blu-Ray、CD、ROM、PROM及EPROM、EEPROM或FLASH記憶體)執行該實施，該等電子可讀控制信號與(或能夠與)可規劃電腦系統合作使得執行各別方法。因此，數位儲存媒體可為電腦可讀的。

根據本發明之一些實施例包含具有電子可讀控制信號之資料載體，該等電子可讀控制信號能夠與可規劃電腦系統合作，使得執行本文中描述的方法中之一者。

通常，可將本發明之實施例實施為具有程式碼之電腦程式產品，該程式碼可操作以當電腦程式產品在電腦上執行時執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。

其他實施例包含儲存於機器可讀載體上的用於執行本文中描述的方法中之一者之電腦程式。

換言之，本發明方法之一實施例因此為具有程式碼的電腦程式，該程式碼用於當電腦程式在電腦上執行時執行本文中描述的方法中之一者。

本發明方法之再一實施例因此為資料載體(或數位儲存媒體或電腦可讀媒體)，其包含(記錄有)用於執行本文中描述的方法中之一者之電腦程式。資料載體、數位儲存媒體或記錄媒體通常為有形的及/或非暫時性的。

本發明方法之再一實施例因此為表示用於執行本文中描述的方法中之一者之電腦程式的資料串流或信號序列。資料串流或信號序列可(例如)經組配以經由資料通訊連接(例如，經由網際網路)傳送。

再一實施例包含一種處理構件(例如，電腦或可規劃邏輯器件)，其經組配或規劃以執行本文中描述的方法中之一者。

再一實施例包含一種電腦，其上安裝有用於執行本文中描述的方法中之一者之電腦程式。

根據本發明之再一實施例包含經組配以將用於執行本文中描述的方法中之一者之電腦程式傳送(例如，以電子方式或以光學方式)至接收器之裝置或系統。接收器可(例如)為電腦、行動器件、記憶體器件或類似者。裝置或系統可(例如)包含用於將電腦程式傳送至接收器之檔案伺服器。

在一些實施例中，可使用可規劃邏輯器件(例如，場可規劃閘陣列)執行本文中描述的方法之一些或全部功能性。在一些實施例中，場可規劃閘陣列可與微處理器合作以便執行本文中描述的方法中之一者。通常，該等方法較佳地由任一硬體裝置執行。

上述實施例僅例示本發明之原理。應理解，本文中描述的配置及細節之修改及變化將對其他熟習此項技術者顯而易見。因此，希望僅受到隨附的專利申請專利範圍之範疇限制，且不受由本文中之實施例之描述及解釋呈現的特定細節限制。

參考文獻

[1] Recommendation ITU-T G.718: “Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s”

[2] US Patent 6,678,651 B2, “Short-Term Enhancement in CELP Speech Coding”

200'‧‧‧信號合成器/合成器