TWI768674B

TWI768674B - 諧振峰強化的語音編碼裝置及語音編碼方法

Info

Publication number: TWI768674B
Application number: TW110102551A
Authority: TW
Inventors: 陳昭綸; 李安正; 黃立維
Original assignee: 宏碁股份有限公司
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2022-06-21
Also published as: TW202230338A

Abstract

一種諧振峰強化的語音編碼裝置及語音編碼方法。對輸入語音訊號進行線性預測編碼分析，以得出線性預測編碼參數。線性預測編碼參數是逼近輸入語音訊號的加權線性組合的加權係數。線性預測編碼分析更包括：依據輸入語音訊號的頻譜分佈決定各頻帶的補償點個數，並依據那些頻帶的補償點個數在對應的頻帶內插頻率點。某一頻帶的補償點個數相關於此頻帶內的諧振峰的個數。頻率點是內插於兩諧振峰之間，且頻率點相關於加權線性組合的取樣點。將線性預測編碼參數轉換成對應的線頻譜頻率參數。對線頻譜頻率參數量化編碼。藉此，可降低位元率，並改善語音品質。

Description

諧振峰強化的語音編碼裝置及語音編碼方法

本發明是有關於一種聲音訊號編碼，且特別是有關於一種諧振峰強化的語音編碼裝置及語音編碼方法。

行動通訊窄頻物聯網(Narrow Band Internet of Things，NB-IoT)趨勢的快速發展，帶動了低功率(low power)及低傳輸率(low data-rate)的產業鏈等智慧應用，進而增加市場針對可攜式和物聯網設備的單晶片錄音或播放編解碼器的需求。

多頻帶激勵(Multi-Band Excitation，MBE)語音編碼系統是以多頻帶激勵編碼模式為基礎發展而來，並廣泛應用於諸如數位廣播、無線通訊及網路系統中。有鑑於對於激勵源的處理特色，多頻帶激勵可以應用在較低的位元率合成聲音。雖然多頻帶激勵的理論公式已具備，但隨著需求升級，無論是在位元率的降低或是合成語音品質的提升上都面臨須改進的問題。

有鑑於此，本發明實施例提供一種諧振峰強化的語音編碼裝置及語音編碼方法，以改進多頻帶激勵語音編碼後的語音品質，更能降低位元率。

本發明實施例的諧振峰強化的語音編碼方法包括(但不僅限於)下列步驟：對輸入語音訊號進行線性預測編碼(Linear Predict Coding，LPC)分析，以得出輸入語音訊號的線性預測編碼參數。這些線性預測編碼參數是逼近輸入語音訊號的加權線性組合的加權係數。線性預測編碼分析更包括下列步驟：依據輸入語音訊號的頻譜分佈決定各頻帶分別的補償點個數。輸入語音訊號的頻譜分佈劃分成那些頻帶。某一頻帶的補償點個數相關於此頻帶內的諧振(harmonic)峰(peak)的個數。依據那些頻帶的補償點個數在對應的頻帶內插一個或更多個頻率點。這些頻率點是內插於兩諧振峰之間，且頻率點相關於加權線性組合的取樣點。將那些線性預測編碼參數轉換成對應的線頻譜頻率(Line Spectral frequency，LSF)參數。對那線頻譜頻率參數量化編碼。

本發明實施例的諧振峰強化的語音編碼裝置包括(但不僅限於)儲存器及處理器。儲存器用以儲存數個軟體模組。處理器耦接儲存器，並用以載入且執行那些軟體模組。那些軟體模組包括分析模組、轉換模組及量化模組。分析模組對輸入語音訊號進行線性預測編碼分析，以得出輸入語音訊號的線性預測編碼參數。這些線性編碼參數是逼近輸入語音訊號的加權線性組合的加權係數。分析模組更依據輸入語音訊號的頻譜分佈決定各頻帶分別的補償點個數，並依據那些頻帶的補償點個數在對應頻帶內插一個或更多個頻率點。輸入語音訊號的頻譜分佈依據那些頻帶劃分。頻帶的補償點個數相關於頻帶內的諧振峰的個數。那些頻率點內插於兩諧振峰之間，且頻率點相關於加權線性組合的取樣點。轉換模組將那些線性預測編碼參數轉換成對應的線頻譜頻率參數。量化模組對那些線頻譜頻率參數量化編碼。

基於上述，依據本發明實施例的諧振峰強化的語音編碼裝置及語音編碼方法，在對輸入語音訊號進行線性預測編碼分析中，判斷頻譜分佈中的諧振峰的個數，並對不同頻帶內插對應的頻率點，以增加語音頻譜的資料量，進而達成傳輸資料的完整性。本發明實施例可應用於多頻帶激勵語音編碼，從而達成低位元率並改進語音品質。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1是依據本發明一實施例的語音編碼裝置100的元件方塊圖。請參照圖1，語音編碼裝置100包括(但不僅限於)儲存器110及處理器150。語音編碼裝置100可以是桌上型電腦、筆記型電腦、AIO電腦、智慧型手機、平板電腦、或伺服器等裝置。

儲存器110可以是任何型態的固定或可移動隨機存取記憶體(Radom Access Memory，RAM)、唯讀記憶體(Read Only Memory，ROM)、快閃記憶體(flash memory)、傳統硬碟(Hard Disk Drive，HDD)、固態硬碟(Solid-State Drive，SSD)或類似元件。在一實施例中，儲存器110用以記錄程式碼、軟體模組(例如，分析模組111、轉換模組113及量化模組115)、組態配置、資料或檔案(例如，輸入語音訊號s(t)(t為時間)、編碼訊號Es、線性預測編碼(Linear Predict Coding，LPC)參數a _k(k為整數)及線頻譜頻率(Line Spectral frequency，LSF)參數P _LSF等)，並待後續實施例詳述。

處理器150耦接儲存器110，處理器150並可以是中央處理單元(Central Processing Unit，CPU)、圖形處理單元(Graphic Processing unit，GPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor，DSP)、可程式化控制器、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)、特殊應用積體電路(Application-Specific Integrated Circuit，ASIC)、神經網路加速器或其他類似元件或上述元件的組合。在一實施例中，處理器150用以執行語音編碼裝置100的所有或部份作業，且可載入並執行儲存器110所記錄的各軟體模組、檔案及資料。

下文中，將搭配語音編碼裝置100中的各項元件、模組及訊號說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整，且並不僅限於此。

圖2是依據本發明一實施例的語音編碼方法的流程圖。請參照圖2，分析模組111對輸入語音訊號s(t)進行線性預測編碼(LPC)分析，以得出輸入語音訊號s(t)的一個或更多個線性預測編碼參數a _k(步驟S210)。具體而言，本發明實施例是對多頻帶激勵(MBE)語音編碼的改進，並提出頻譜參數的估測。在多頻帶激勵語音編碼中，可透過線性預測編碼分析來估測輸入語音訊號s(t)的頻譜包絡線(envelope)。而線性預測編碼分析是用於透過全極(all-pole)的預測模型的頻率響應曲線來逼近輸入語音訊號s(t)的頻譜包絡線。此預測模型可以用加權線性組合來表示，其中線性預測編碼參數a _k即是逼近輸入語音訊號s(t)的加權線性組合所用的加權係數。

分析模組111可針對輸入語音訊號s(t)進行頻譜幅度估測(spectral amplitude estimation)，以取得輸入語音訊號s(t)的頻譜分佈。此頻譜分佈記錄輸入語音訊號s(t)的多個基頻(fundamental frequency)(即，諧振)，並在頻譜上對應頻率有峰值(下文簡述為諧振峰)。值得注意的是，輸入語音訊號s(t)是對人類講話進行錄音所產生。不同人(例如，男性與女性)的聲音頻譜分佈可能不同，並使得現有技術進行線性預測編碼分析後在不同頻帶上選擇頻譜幅度的數量可能不同。一般而言，現有技術可能僅選擇諧振峰的幅度來決定線性預測編碼參數a _k。例如，數個諧振峰的幅度的連線作為估測的頻譜包絡線。然而，男性的聲音頻譜在低頻帶(例如，50 Hz~200 MHz)上可能有足夠的諧振峰來代表幅度變化，但高頻帶(例如，800 MHz以上)上的諧振峰的個數較少並可能造成失真較高。相反而言，女性的聲音頻譜在低頻帶的諧振峰的個數較少。而高失真將會影響語音品質。

為了補償不同人在頻譜分佈上的差異，分析模組111可依據輸入語音訊號s(t)的頻譜分佈決定數個頻帶分別的補償點個數(步驟S211)。具體而言，輸入語音訊號s(t)的頻譜分佈是依據那些頻帶劃分。依據不同設計需求，頻帶的數量及範圍可能不同。例如，頻譜分佈可劃分成低頻帶(例如，50 Hz~200 MHz)、中頻帶(例如，200 MHz~800 MHz)及高頻帶(例如，800 MHz)。或者，頻譜分佈可劃分成兩頻帶並以500 MHz作為分界。在一些實施例中，頻帶也可能是依據頻譜分佈中諧振峰的分佈位置來劃分，但不以此為限。

各頻帶的補償點個數相關於此頻帶內的諧振峰的個數。如同上文所述，不同輸入語音訊號s(t)在頻譜上的諧振峰分佈情形可能不同，並可能在特定頻帶上的資料量不足而影響聲音品質。在一實施例中，分析模組111可比較各頻帶內的諧振峰的個數與對應的個數門檻值，並依據與個數門檻值的比較結果決定各頻帶的補償點個數。不同頻帶對應的個數門檻值可能不同也可能相同，個數門檻值並可視應用者之需求而變化。以8 kbps的輸入語音訊號s(t)為例，三個頻帶的個數門檻值皆為10，或者三個頻帶的個數門檻值分別為5、10及15，但不以此為限。若比較結果是諧振峰的個數小於個數門檻值，則補償點個數將大於零。而若比較結果是大於個數門檻值，則補償點個數為零或特定值。

在一實施例中，分析模組111可判斷比較結果為某一頻帶的諧振峰的個數小於個數門檻值，並將此頻帶的補償點個數與頻帶的諧振峰的個數的總和等於容許個數。即，比較結果是諧振峰的個數小於個數門檻值的情況下，分析模組111可增加頻率點至預定的容許個數。這些頻率點相關於前述加權線性組合的取樣點。即，分析模組111可使用這些頻率點上的幅度來計算線性預測編碼參數a _k。此外，容許個數相關於輸入語音訊號s(t)的取樣率。以8 kbps的輸入語音訊號s(t)為例，大約需要16個極值(poles)，則頻率點總和應大於32。即，所有頻帶的諧振峰的個數與增加的頻率點的總和應大於32。須說明的是，不同頻帶對應的容許個數可能不同也可能相同，容許個數並可視應用者之需求而變化。

舉例而言，表(1)是頻率點的個數的對照表(假設L是取樣一幀(frame)的頻域點數，即頻率點的總數，且其值例如為32)：表(1)

頻帶	高頻帶	中頻帶	低頻帶
原頻率點個數	小於L/4	L/4~L/2	2L/4~L
增加後的倍數	3(內插2點)	2(內插1點)1	1
調整後的頻率點個數	~3L/4	L/2~ L	L

此範例可能是男性的輸入語音訊號s(t)，因此低頻帶的頻率點個數可能已經足夠，但高頻帶可能要再增加較多的頻率點個數。

各頻帶的補償點個數決定之後，分析模組111可依據那些頻帶的補償點個數在對應頻帶內插一個或更多個頻率點(步驟S213)。具體而言，補償點個數即是增加頻率點的個數。分析模組111可將頻率點內插於兩諧振峰之間。依據不同設計需求，頻率點可能在二諧振峰的正中間、相距四分之一遠處或其他間距，且不以此為限。以表(1)為例，分析模組111在中頻帶的兩諧振峰的正中間內插一個頻率點。

此外，由實驗數據及研究結果可知，當音調(pitch)較短時(即，對應的基頻的幅度較高)，頻率點的數量可能較少，進而使編碼訊號Es還原後的誤差更大。在一實施例中，分析模組111可依據Brandstein內插演算法來決定所增加的頻率點的頻譜幅度，其公式(1)如下：

…(1)

及

為頻譜幅度，

、

及

為角頻率且

、

及

，

為所增加的頻率點的頻率，

及

為所增加的頻率點的前後兩側的諧振峰的頻率。須說明的是，前述前後兩側代表頻率小於所增加的頻率點(即，前側)、以及頻率大於所增加的頻率點(即，後側)。

在其他實施例中，分析模組111可採用其他內插演算法來決定所增加的頻率點的頻譜幅度。

各頻率點的頻譜幅度決定之後，分析模組111可使用那些頻率點的頻譜幅度來決定線性預測頻譜(linear predict spectrum)所需的自相關(autocorrelation)函數。自相關函數參數可依據方程式(2)決定：

…(2)

為第i自相關函數(例如，自相關函數矩陣中的元素)，

為所有頻率點的數量(即，個數的總和)，

為

，

為L所對應的基頻的角頻率值，且各L(例如，0~

)均有對應的

。

在一實施例中，為了減少各頻譜幅度(即，

)的還原誤差，分析模組111可利用對自相關函數的值取立方根(作為壓縮(compression)處理)，以縮小動態範圍。

分析模組111可依據自相關函數的立方根或原值決定線性預測編碼參數a _k。其中，各線性預測編碼參數a _k是穩定全極濾波器的轉換函數的分母(denominator)。須說明的是，線性預測編碼參數a _k的運算可參照現有線性預測編碼演算法(例如，Durbin 遞迴演算法)，且將不再贅述。此外，利用線性預估參數碼(linear predict parameter code)取代其頻譜幅度來傳輸，即可有效降低位元率。

轉換模組113可將那些線性預測編碼參數a _k轉換成對應的一個或更多個線頻譜頻率參數P _LSF(步驟S230)。例如，轉換模組113可使用Chebyshev多項式求根法或離散傅立葉轉換(Discrete Fourier Transform，DFT)演算法將線性預測編碼參數a _k轉換成線頻譜頻率參數P _LSF。

量化模組115可那些線頻譜頻率參數P _LSF量化編碼，以產生編碼訊號Es(步驟S250)。例如，量化模組115可使用***向量量化(Split Vector Quantization，SVQ)、錐形向量量化(Pyramid Vector Quantization，PVQ)或其他量化演算法來將線頻譜頻率索引訊號(即，線頻譜頻率參數P _LSF)量化成數位值，並據以形成編碼訊號Es。

前述是編碼器的流程，而解碼器則對編碼訊號Es解碼(例如，逆量化)以得出線頻譜頻率參數P _LSF。此外，解碼器可將線頻譜頻率參數P _LSF轉換成相對應的線性預測編碼參數a _k，並利用線頻譜頻率參數P _LSF計算線性預測頻譜且重建各頻率點的頻譜幅度。

頻譜幅度可依據方程式(3)決定：

…(3) 其中，

為還原的頻譜幅度，G為前述線性預測編碼的預測模型的增益值(

，

、

為自相關函數的值)，

為解碼器估測的線性預測編碼參數，M為預測模型的階數，且

介於0到L-1，L為頻率點的個數的總和。

須說明的是，解碼器可實現在語音編碼裝置或其他外部裝置，本發明實施例不加以限制。

利用上述編碼及解碼端加入線性預測編碼轉換線頻譜頻率參數的演算法來進行語音編碼，由實驗模擬可知，本發明實施例能有效的達到減少計算量，且同時以降低位元率(例如，由4.4 kbps降低到~2.5 kbps)的方式來傳送語音資料量。

圖3是一範例說明本發明實施例與輸入語音訊號s(t)在頻譜上的差異。請參照圖3，本發明實施例所估測的頻譜幅度303在不同頻率上大概近似於輸入語音訊號s(t)的頻譜幅度301。

圖4是一範例說明頻譜包絡線失真的比較圖(以分貝為單位)。請參照圖4，本發明實施例採用階數10點的失真量403與階數16點的失真量404皆少於原多頻帶激勵的失真量401及原混合激勵線性預測編碼(Mixed Excitation Linear Prediction，MELP)的失真量402。其中，失真量401~404是統計與原輸入語音訊號s(t)的誤差量。藉此，本發明實施例可適用於可攜式網路裝置的低資料傳輸產品的相關語音應用及開發。

綜上所述，在本發明實施例的諧振峰強化的語音編碼裝置及語音編碼方法中，在頻譜幅度估測的過程中，判斷不同頻帶上的頻率點的個數是否足夠，並據以在諧振峰之間內插頻率點，從而增加資料量，進而提升語音品質。此外，本發明實施例更可對選擇的頻譜幅度正規化(例如，取其自相關函數的值的立方根)，以減少對頻譜幅度還原的誤差。本發明實施例應用到多頻帶激勵編碼可進一步降低位元率，進而適用於可攜式裝置的語音傳輸應用。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100:語音編碼裝置 110:儲存器 111:分析模組 113:轉換模組 115:量化模組 150:處理器 s(t):輸入語音訊號 Es:編碼訊號 a _k:線性預測編碼參數 P _LSF:線頻譜頻率參數 S210~S250:步驟 301、303:頻譜幅度 401~404:失真量

圖1是依據本發明一實施例的語音編碼裝置的元件方塊圖。圖2是依據本發明一實施例的語音編碼方法的流程圖。圖3是一範例說明本發明實施例與輸入語音訊號在頻譜上的差異。圖4是一範例說明頻譜包絡線(envelope)失真的比較圖。

S210~S250:步驟

Claims

一種諧振峰強化的語音編碼方法，包括：對一輸入語音訊號進行一線性預測編碼(Linear Predict Coding，LPC)分析，以得出該輸入語音訊號的多個線性預測編碼參數，其中該些線性預測編碼參數是逼近該輸入語音訊號的一加權線性組合的加權係數，且該線性預測編碼分析包括：依據該輸入語音訊號的頻譜分佈決定多個頻帶分別的補償點個數，其中該輸入語音訊號的頻譜分佈依據該些頻帶劃分，且一該頻帶的補償點個數相關於該頻帶內的諧振(harmonic)峰(peak)的個數；以及依據該些頻帶的補償點個數在對應一該頻帶內插至少一頻率點，其中該至少一頻率點內插於二諧振峰之間，且基於該至少一頻率點決定該加權線性組合的該些線性預測編碼參數；將該些線性預測編碼參數轉換成對應的多個線頻譜頻率(Line Spectral frequency，LSF)參數；以及對該些線頻譜頻率參數量化編碼。
如請求項1所述的諧振峰強化的語音編碼方法，其中依據該輸入語音訊號的頻譜分佈決定多個頻帶分別的補償點個數的步驟包括：比較每一該頻帶內的諧振峰的個數與一個數門檻值；以及依據與該個數門檻值的比較結果決定該補償點個數。
如請求項2所述的諧振峰強化的語音編碼方法，其中依據與該個數門檻值的比較結果決定該補償點個數的步驟包括：若判斷該比較結果為一該頻帶的諧振峰的個數小於該個數門檻值，則將該頻帶的該補償點個數與該頻帶的諧振峰的個數的總和等於一容許個數，其中該容許個數相關於該輸入語音訊號的取樣率。
如請求項3所述的諧振峰強化的語音編碼方法，其中不同該頻帶的該個數門檻值或該容許個數不同。
如請求項1所述的諧振峰強化的語音編碼方法，其中該線性預測編碼分析更包括：依據該至少一頻率點的頻譜幅度(spectral amplitude)決定一自相關(autocorrelation)函數；以及依據該自相關函數的立方根決定該線性預測編碼參數。
一種諧振峰強化的語音編碼裝置，包括：一儲存器，儲存多個軟體模組；以及一處理器，耦接該儲存器，載入且執行該些軟體模組，其中該些軟體模組包括：一分析模組，對一輸入語音訊號進行一線性預測編碼分析，以得出該輸入語音訊號的多個線性預測編碼參數，其中該些線性預測編碼參數是逼近該輸入語音訊號的一加權線性組合的加權係數，且該分析模組更依據該輸入語音訊號的頻譜分佈決定多個頻帶分別的補償點個數，並依據該些頻帶的補償點個數在對應一該頻帶內插至少一頻率點，其中該輸入語音訊號的頻譜分佈依據該些頻帶劃分，一該頻帶的補償點個數相關於該頻帶內的諧振峰的個數，該至少一頻率點內插於二諧振峰之間，且基於該至少一頻率點決定該加權線性組合的該些線性預測編碼參數；一轉換模組，將該些線性預測編碼參數轉換成對應的多個線頻譜頻率參數；以及一量化模組，對該些線頻譜頻率參數量化編碼。
如請求項6所述的諧振峰強化的語音編碼裝置，其中該分析模組比較每一該頻帶內的諧振峰的個數與一個數門檻值，並依據與該個數門檻值的比較結果決定該補償點個數。
如請求項7所述的諧振峰強化的語音編碼裝置，其中若該分析模組判斷該比較結果為一該頻帶的諧振峰的個數小於該個數門檻值，則將該頻帶的該補償點個數與該頻帶的諧振峰的個數的總和等於一容許個數，其中該容許個數相關於該輸入語音訊號的取樣率。
如請求項8所述的諧振峰強化的語音編碼裝置，其中不同該頻帶的該個數門檻值或該容許個數不同。
如請求項6所述的諧振峰強化的語音編碼裝置，其中該分析模組更依據該至少一頻率點的頻譜幅度決定一自相關函數，並依據該自相關函數的立方根決定該線性預測編碼參數。