TWI723545B

TWI723545B - 語音處理方法及其裝置

Info

Publication number: TWI723545B
Application number: TW108133424A
Authority: TW
Inventors: 陳昭綸; 李安正; 黃立維
Original assignee: 宏碁股份有限公司
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2021-04-01
Also published as: US11587573B2; TW202113807A; US20210082446A1

Abstract

本發明提供一種語音處理方法及其裝置。所述方法包括：在多激勵線性預測（Multi Excitation Linear Prediction，MELP）語音編碼系統中，取得語音取樣信號框，並估計語音取樣信號框的信號品質；基於信號品質決定線性預測編碼（linear prediction coding，LPC）電路所使用的特定LPC階數；控制LPC電路基於特定LPC階數將語音取樣信號框轉換為線譜對參數；以線譜對參數取代語音取樣信號框的語音信號頻譜，以產生預測語音信號；以及基於預測語音信號進行MELP語音編碼系統的語音編碼操作及信號合成操作。

Description

語音處理方法及其裝置

本發明是有關於一種語音處理方法及其裝置，且特別是有關於一種適應性調整線性預測編碼（linear prediction coding，LPC）階數的語音處理方法及其裝置。

第5代（5G）行動通訊的發展趨勢，帶起了物聯網（Internet of Things，IoT）的相關產業應用，特別是在低功率、低傳輸率方面的應用。

多激勵線性預測（Multi Excitation Linear Prediction，MELP）語音編碼系統為一套低位元率語音編解碼系統，其廣泛應用於多項數位廣播、無線通訊及網路系統中。然而，針對行動通訊以及物聯網的相關應用，MELP語音編碼系統並未將實際環境中的信號品質納入考量，導致在重建及合成語音信號時，因過度受雜訊影響而造成語音合成效果不佳的結果。並且，此種作法所造成的失真率也會對語音品質造成負面的影響。

有鑑於此，本發明提供一種語音處理方法及其裝置，其可用以解決上述技術問題。

本發明提供一種語音處理方法，包括：在一多激勵線性預測語音編碼系統中，取得一語音取樣信號框，並估計語音取樣信號框的一信號品質，其中多激勵線性預測語音編碼系統包括一線性預測編碼電路；基於信號品質決定線性預測編碼電路所使用的一特定線性預測編碼階數；控制線性預測編碼電路基於特定線性預測編碼階數將語音取樣信號框轉換為一線譜對參數；以線譜對參數取代語音取樣信號框的一語音信號頻譜，以產生一預測語音信號；以及基於預測語音信號進行多激勵線性預測語音編碼系統的一語音編碼操作及一信號合成操作。

本發明提供一種語音處理裝置，包括多激勵線性預測語音編碼系統、儲存電路及處理器。儲存電路儲存多個模組。處理器耦接儲存電路，並存取前述模組以執行下列步驟：在多激勵線性預測語音編碼系統中，取得一語音取樣信號框，並估計語音取樣信號框的一信號品質，其中多激勵線性預測語音編碼系統包括一線性預測編碼電路；基於信號品質決定線性預測編碼電路所使用的一特定線性預測編碼階數；控制線性預測編碼電路基於特定線性預測編碼階數將語音取樣信號框轉換為一線譜對參數；以線譜對參數取代語音取樣信號框的一語音信號頻譜，以產生一預測語音信號；以及基於預測語音信號進行多激勵線性預測語音編碼系統的一語音編碼操作及一信號合成操作。

基於上述，本發明的方法及其裝置可依據語音取樣信號框的信號品質適應性地決定所採用的LPC階數，因此可提升後續語音編碼及信號合成的效果，從而改善音訊品質。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

請參照圖1，其是依據本發明之一實施例繪示的語音處理裝置的示意圖。如圖1所示，語音處理裝置100包括儲存電路102、MELP語音編碼系統104及處理器106。在不同的實施例中，語音處理裝置100例如是可用於接收語音信號，並對其進行所需信號處理操作的物聯網裝置（例如，窄帶物聯網（Narrow Band IoT，NB-IoT）裝置等），或是可用於進行低位元率、低功率音訊編解碼的可攜式行動通訊裝置，但本發明可不限於此。

在不同的實施例中，儲存電路102例如是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、硬碟或其他類似裝置或這些裝置的組合，而可用以記錄多個程式碼或模組。

處理器106耦接於儲存電路102及MELP語音編碼系統104，並可為一般用途處理器、特殊用途處理器、傳統的處理器、數位信號處理器、多個微處理器（microprocessor）、一個或多個結合數位信號處理器核心的微處理器、控制器、微控制器、特殊應用集成電路（Application Specific Integrated Circuit，ASIC）、場可程式閘陣列電路（Field Programmable Gate Array，FPGA）、任何其他種類的積體電路、狀態機、基於進階精簡指令集機器（Advanced RISC Machine，ARM）的處理器以及類似品。

在本發明的實施例中，處理器106可存取儲存電路102中記錄的模組、程式碼來實現本發明提出的語音處理方法。概略而言，本發明的語音處理裝置100可利用MELP語音編碼系統104來對所接收到的語音信號進行處理，惟此MELP語音編碼系統104中的LPC電路所採用的LPC階數係基於語音信號的信號品質而適應性地決定。藉此，可改善後續語音編碼及合成操作的效果，從而提升音訊品質。詳細說明如下。

請參照圖2，其是依據本發明之一實施例繪示的語音處理方法流程圖。本實施例的方法可由圖1的語音處理裝置100執行，以下即搭配圖1所示的元件說明圖2各步驟的細節。

首先，在步驟S210中，在MELP語音編碼系統104中，處理器106可取得語音取樣信號框，並估計語音取樣信號框的信號品質。在本實施例中，上述語音取樣信號框例如可包括處理器106對使用者所輸入的一段類比語音信號進行取樣而產生的多個取樣信號。並且，上述語音取樣信號框的信號品質例如可透過設置於MELP語音編碼系統104中的信號品質估計單元進行估計，並可表徵為上述語音取樣信號框的信號與干擾加雜訊比（Signal to Interference plus Noise Ratio，SINR），但本發明可不限於此。

之後，在步驟S220中，處理器106可基於上述信號品質決定LPC電路所使用的特定LPC階數。在本實施例中，設計者可預先設定好對應於不同信號品質的預設信號品質區間，且各預設信號品質區間可對應於不同的LPC階數。並且，前述預設信號品質區間中較高的一者所對應的LPC階數可高於前述預設信號品質區間中較低的另一者。在此情況下，處理 104可在多個預設信號品質區間中找出上述信號品質所屬的特定信號品質區間，並以此特定信號品質區間對應的LPC階數作為上述特定LPC階數。

在一實施例中，各預設信號品質區間與其所對應的LPC階數可例示為下表1的態樣。

預設信號品質區間	LPC階數
SINR (dB)> 25	20
16>SINR (dB)>25	16
11>SINR (dB)>15	10
SINR (dB)>10	8

表1

如表1所例示，若語音取樣信號框的SINR大於25dB，則其對應的LPC階數例如是20；若語音取樣信號框的SINR介於16及25dB之間，則其對應的LPC階數例如是16；若語音取樣信號框的SINR介於11及15dB之間，則其對應的LPC階數例如是10；若語音取樣信號框的SINR小於10dB，則其對應的LPC階數例如是8，但本發明可不限於此。

因此，在不同的實施例中，若上述語音取樣信號框的SINR大於25dB，則處理器106可基於表1而決定LPC電路的特定LPC階數為20；若上述語音取樣信號框的SINR介於16及25dB之間，則處理器106可基於表1而決定LPC電路的特定LPC階數為16；若上述語音取樣信號框的SINR介於11及15dB之間，則處理器106可基於表1而決定LPC電路的特定LPC階數為8；若上述語音取樣信號框的SINR小於10dB，則處理器106可基於表1而決定LPC電路的特定LPC階數為8，但本發明可不限於此。

在步驟S230中，處理器106可控制LPC電路基於特定LPC階數將語音取樣信號框轉換為線譜對參數（line spectrum pair parameter）。

在一實施例中，處理器106可判斷上述語音取樣信號框的信號品質是否高於一預設門限值。若是，則處理器106可控制LPC電路基於一第一方案將語音取樣信號框轉換為線譜對參數，反之則可控制LPC電路基於第二方案將語音取樣信號框轉換為線譜對參數，其中第一方案及第二方案用於產生預測誤差的方式不同。

在不同的實施例中，上述預設門限值可由設計者依需求而定。為便於說明，以下將假設預設門限值為15dB，但其僅用以舉例，並非用以限定本發明可能的實施方式。基此，表1可對應調整為下表2的態樣。

預設信號品質區間	LPC階數	方案
SINR (dB)> 25	20	第一方案
16>SINR (dB)>25	16
11>SINR (dB)>15	10	第二方案
SINR (dB)>10	8

若處理器106控制LPC電路基於第一方案將語音取樣信號框轉換為線譜對參數，則處理器106可先取得對應於語音取樣信號框的估計信號，並以語音取樣信號框（以s(n)表示）減去估計信號（

）以產生預測誤差（以e(n)表示）。

在一實施例中，第一方案中的估計信號可表徵為：

，其中

為預測係數，P為特定LPC階數，

。在此情況下，預測誤差可表徵為「

」。

此外，在另一實施例中，第二方案中的估計信號可表徵為：

，其中

為預測係數，P為特定LPC階數，

。在此情況下，預測誤差可表徵為「

」。

之後，處理器106可再採用Levinson-Durbin演算法以基於預測誤差及特定LPC階數產生線譜對參數。在本實施例中，對應於第一方案及第二方案的Levinson-Durbin演算法的相關細節可統整為下表3。

	第一方案（預測係數為 )	第二方案（預測係數為- )
估計信號
預測誤差
Levinson-Durbin 演算法
線譜對參數

表3

在表3中，

例如是最小均方誤差，

和

（

）例如是增益參數，但本發明可不限於此。

接著，在步驟S240中，處理器106可以線譜對參數取代語音取樣信號框的語音頻譜，以產生預測語音信號。並且，在步驟S250中，處理器106可基於預測語音訊號進行MELP語音編碼系統的語音編碼操作及訊號合成操作。在本發明的實施例中，步驟S250可參照現有技術中對於MELP語音編碼系統的相關說明文件，於此不另贅述。

由上可知，由於本發明可依據語音取樣信號框的信號品質適應性地決定所採用的LPC階數（其正相關於語音取樣信號框的信號品質），因此可提升後續語音編碼及信號合成的效果，從而改善音訊品質。

從另一觀點而言，本發明的概念可大致理解為將習知MELP語音編碼系統中的LPC電路調整為適應性地依據信號品質對應的LPC階數而運行，而並非依據固定的LPC階數而運行。針對MELP語音編碼系統的其他電路。前述其他電路例如包括預濾波器（prefilter）、音調搜尋（pitch search）電路、帶通聲音決定（bandpass voicing decision）電路、增益計算（gain calculation）電路、最終音調及聲音判斷（final pitch and voicing determination）電路、線譜頻率量化（line spectrum frequency quantization）電路、增益/音調/聲音/抖動量化（gain/pitch/voicing/jitter quantization）電路、傅利葉大小計算（Fourier magnitude calculation）電路、前向錯誤校正（forward error correction）電路等，而本發明的LPC電路例如可設置於增益計算電路以及最終音調及聲音判斷電路之間，但不限於此。如此一來，若語音取樣信號框的信號品質較差，則本發明可相應地採用較低的LPC階數，從而避免在LPC電路運行的過程中因內插過多的雜訊而導致音訊品質的下降，同時降低相關的運算量。若另一方面，若語音取樣信號框的信號品質較佳，則本發明可相應地採用較高的LPC階數，從而相應地提升後續的音訊品質（例如，較低的頻譜失真）。

此外，在採用第二方案進行Levinson-Durbin 演算法的實施例中，由於預測誤差係表徵為「

」，因此可避免後續的演算過程中出現需較高運算量的絕對值運算。藉此，可有效地降低整體的運算量，並降低運算上的延遲。

此外，為佐證本發明的效果，以下另輔以圖3作進一步說明。請參照圖3，其是依據本發明之一實施例繪示的由LPC電路基於固定LPC階數運作所導致的頻譜失真圖。在本實施例中，曲線311~314分別對應於20、16、10及8的LPC階數。由圖3可看出，當SINR較低（例如小於11 dB）時，採用較高LPC階數將因內插過多的雜訊而導致較高的頻譜失真，而採用較低LPC階數則可達到較低的頻譜失真。並且，當SINR較高（例如大於11 dB）時，採用較高LPC階數將因學習效果較佳而導致較低的頻譜失真，而採用較低LPC階數則因學習效果不佳而產生較高的頻譜失真。

由此可知，若僅是採用固定的LPC階數將無法因應於各種信號品質而產生較佳的頻譜失真表現。相較之下，由於本發明的方法及裝置可因應於信號品質而適應性地採用不同的LPC階數，因而可產生較佳的頻譜失真表現。

以圖3為例，設計者可據以將SINR大於11 dB的預設信號品質區間設定為對應於較高的LPC階數（例如20及/或16），並將SINR小於11 dB的預設信號品質區間設定為對應於較低的LPC階數（例如10及/或8）。如此一來，本發明即可在SINR較低（例如小於11 dB）時採用較低的LPC階數（例如20及/或16），並在SINR較高（例如大於11 dB）時採用較高的LPC階數（例如10及/或8），藉以因應於不同的信號品質而提供較佳的音訊品質。

綜上所述，本發明可依據語音取樣信號框的信號品質適應性地決定所採用的LPC階數（其正相關於語音取樣信號框的信號品質），因此可提升後續語音編碼及信號合成的效果，從而改善音訊品質。

並且，本發明還可進一步因應於信號品質而選擇第一方案或第二方案來執行Levinson-Durbin 演算法以取得線譜對參數，因而可進一步減少運算量，並降低運算所需的延遲。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100：語音處理裝置 102：儲存電路 104：MELP語音編碼系統 106：處理器 311~314：曲線 S210~S250：步驟

圖1是依據本發明之一實施例繪示的語音處理裝置的示意圖。圖2是依據本發明之一實施例繪示的語音處理方法流程圖。圖3是依據本發明之一實施例繪示的由LPC電路基於固定LPC階數運作所導致的頻譜失真圖。

S210~S250：步驟

Claims

一種語音處理方法，包括：在一多激勵線性預測語音編碼系統中，取得一語音取樣信號框，並估計該語音取樣信號框的一信號品質，其中該多激勵線性預測語音編碼系統包括一線性預測編碼電路；基於該信號品質決定該線性預測編碼電路所使用的一特定線性預測編碼階數，包括：判定該信號品質在多個預設信號品質區間中所屬的一特定信號品質區間，其中該些預設信號品質區間對應於不同的線性預測編碼階數，且該些預設信號品質區間中較高的一者所對應的該線性預測編碼階數高於該些預設信號品質區間中較低的另一者；以及以該特定信號品質區間對應的該線預測編碼階數作為該特定線性預測編碼階數；控制該線性預測編碼電路基於該特定線性預測編碼階數將該語音取樣信號框轉換為一線譜對參數；以該線譜對參數取代該語音取樣信號框的一語音信號頻譜，以產生一預測語音信號；以及基於該預測語音信號進行該多激勵線性預測語音編碼系統的一語音編碼操作及一信號合成操作。
如申請專利範圍第1項所述的方法，其中該信號品質表徵為該語音取樣信號框的一信號與干擾加雜訊比。
如申請專利範圍第1項所述的方法，其中控制該線性預測編碼電路基於該特定線性預測編碼階數將該語音取樣信號框轉換為該線譜對參數的步驟包括：反應於判定該語音取樣信號框的該信號品質高於一預設門限值，控制該線性預測編碼電路基於一第一方案將該語音取樣信號框轉換為該線譜對參數；反應於判定該語音取樣信號框的該信號品質不高於該預設門限值，控制該線性預測編碼電路基於一第二方案將該語音取樣信號框轉換為該線譜對參數，其中該第一方案及該第二方案用於產生一預測誤差的方式不同。
如申請專利範圍第3項所述的方法，其中控制該線性預測編碼電路基於該第一方案將該語音取樣信號框轉換為該線譜對參數的步驟包括：取得對應於該語音取樣信號框的一估計信號，並以該語音取樣信號框減去該估計信號以產生該預測誤差；採用一Levinson-Durbin演算法以基於該預測誤差及該特定線性預測編碼階數產生該線譜對參數。
如申請專利範圍第3項所述的方法，其中控制該線性預測編碼電路基於該第二方案將該語音取樣信號框轉換為該線譜對參數的步驟包括：取得對應於該語音取樣信號框的一估計信號，並以該語音取樣信號框加上該估計信號以產生該預測誤差；以及採用一Levinson-Durbin演算法以基於該預測誤差及該特定線性預測編碼階數產生該線譜對參數。
一種語音處理裝置，包括：一多激勵線性預測語音編碼系統；一儲存電路，儲存多個模組；以及一處理器，耦接該儲存電路，並存取該些模組以執行下列步驟：在該多激勵線性預測語音編碼系統中，取得一語音取樣信號框，並估計該語音取樣信號框的一信號品質，其中該多激勵線性預測語音編碼系統包括一線性預測編碼電路；基於該信號品質決定該線性預測編碼電路所使用的一特定線性預測編碼階數，包括：判定該信號品質在多個預設信號品質區間中所屬的一特定信號品質區間，其中該些預設信號品質區間對應於不同的線性預測編碼階數，且該些預設信號品質區間中較高的一者所對應的該線性預測編碼階數高於該些預設信號品質區間中較低的另一者；以及以該特定信號品質區間對應的該線預測編碼階數作為該特定線性預測編碼階數；控制該線性預測編碼電路基於該特定線性預測編碼階數將該語音取樣信號框轉換為一線譜對參數；以該線譜對參數取代該語音取樣信號框的一語音信號頻譜，以產生一預測語音信號；以及基於該預測語音信號進行該多激勵線性預測語音編碼系統的一語音編碼操作及一信號合成操作。