TWI835838B

TWI835838B - 語音處理方法及裝置

Info

Publication number: TWI835838B
Application number: TW108129626A
Authority: TW
Inventors: 張仕良; 雷鳴; 李威; 姚海濤
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-11-30
Filing date: 2019-08-20
Publication date: 2024-03-21
Also published as: WO2020113053A1; US11538488B2; CN111341299B; CN111341299A; US11900958B2; TW202022855A; US20230245672A1; US20200176014A1

Abstract

本申請案實施例公開了一種語音處理方法及裝置。所述方法包括：對語音信號進行分框處理，生成多個語音框；分別提取所述多個語音框對應的聲學特徵；利用聲學模型按照框移為第一數量的頻率處理所述聲學特徵，以在單次框移處理後獲取第二數量的後驗機率向量，所述後驗機率向量包括聲學特徵分別對應於多個預設建模單元的機率，所述聲學模型基於低框率(LFR)演算法和多框預測(MFP)演算法的結合訓練得到。利用本申請案提供的語音處理方法，可以在保證聲學模型輸出準確性的基礎上，極大地提高聲學模型的計算效率，提高語音識別的識別效率。

Description

語音處理方法及裝置

本申請案涉及語音識別技術領域，特別涉及一種語音處理方法及裝置。

近幾年隨著深度學習技術的使用，基於深度神經網路的語音識別系統性能獲得了極大的提升，開始慢慢走向實用化。基於語音識別的語音輸入、語音轉寫、語音檢索和語音翻譯等技術得到了廣泛的應用。聲學模型是語音識別系統的一個核心模組，也是目前的研究熱點。據統計，利用聲學模型對語音信號進行解碼的過程是整個解碼過程中最消耗計算資源的環節，因此，降低聲學模型的計算成本是比較重要的技術需求。對於所述聲學模型，輸入的是語音信號中每個語音框提取的聲學特徵。而每個語音框的聲學特徵理論上對應於一個建模單元，所述建模單元例如可以包括音素狀態(state)、綁定的音素狀態(CD-state)、音素(phone)、綁定的音素(CD-phone)中的一種。在漢字中，所述建模單元例如可以包括聲母、韻母等。基於此，所述聲學模型的輸出是該語音框的聲學特徵相對於多個預設建模單元的後驗機率分佈。這樣，輸入的多個聲學特徵可以被轉化成多個後驗機率分佈，然後，可以結合語言模型進行解碼，得到所述語音信號的識別結果。對於一個普通的漢字，通常持續的時間為100-200ms，相對應的語音框就會持續10到20框。那麼，若利用上述方式處理一個漢字對應的語音信號，則需要聲學模型進行10-20次的計算，因此，利用現有技術的聲學模型處理語音信號，需要消耗很大的計算資源。因此，現有技術中亟需一種計算成本較低的聲學模型。

本申請案實施例的目的在於提供一種語音處理方法及裝置，可以在保證聲學模型輸出準確性的基礎上，極大地提高聲學模型的計算效率，提高語音識別的識別效率。本申請案實施例提供的語音處理方法及裝置具體是這樣實現的：一種語音信號處理方法，所述方法包括：對語音信號進行分框處理，生成多個語音框；分別提取所述多個語音框對應的聲學特徵；利用聲學模型按照框移為第一數量的頻率處理所述聲學特徵，以在單次框移處理後獲取第二數量的後驗機率向量，所述後驗機率向量包括聲學特徵分別對應於多個預設建模單元的機率，所述聲學模型基於低框率(LFR)演算法和多框預測(MFP)演算法的結合訓練得到。一種語音處理裝置，包括處理器以及用於儲存處理器可執行指令的記憶體，所述處理器執行所述指令時實現下述步驟：對語音信號進行分框處理，生成多個語音框；分別提取所述多個語音框對應的聲學特徵；利用聲學模型按照框移為第一數量的頻率處理所述聲學特徵，以在單次框移處理後獲取第二數量的後驗機率向量，所述後驗機率向量包括聲學特徵分別對應於多個預設建模單元的機率，所述聲學模型基於低框率(LFR)演算法和多框預測(MFP)演算法的結合訓練得到。一種電腦可讀儲存媒體，其上儲存有電腦指令，所述指令被執行時實現所述語音處理方法的步驟。本申請案各個實施例提供的語音處理方法及裝置，可以利用低框率(LFR)演算法和多框預測(MFP)演算法的結合訓練得到語音識別中聲學模型，由於低框率(LFR)演算法和多框預測(MFP)演算法均可以單次處理多個相鄰的聲學特徵，但是這兩種演算法均由於相鄰多個聲學特徵之間的差異性而難以擴展單次處理聲學特徵的數量。基於此，可以將低框率(LFR)演算法和多框預測(MFP)演算法相結合，從而實現乘性擴展聲學模型的單次處理能力。因此，本申請案各個實施例提供的語音處理方法，可以在保證聲學模型輸出準確性的基礎上，極大地提高聲學模型的計算效率，提高語音識別的識別效率。

為了使本技術領域的人員更好地理解本申請案中的技術方案，下面將結合本申請案實施例中的圖式，對本申請案實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請案一部分實施例，而不是全部的實施例。基於本申請案中的實施例，本領域普通技術人員在沒有作出進步性勞動前提下所獲得的所有其他實施例，都應當屬於本申請案保護的範圍。需要說明的是，本發明的說明書和申請專利範圍及上述圖式中的術語“第一”、“第二”等是用於區別類似的物件，而不必用於描述特定的順序或先後次序。應該理解這樣使用的資料在適當情況下可以互換，以便這裡描述的本發明的實施例能夠以除了在這裡圖示或描述的那些以外的順序實施。此外，術語“包括”和“具有”以及他們的任何變形，意圖在於覆蓋不排他的包含，例如，包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元，而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。為了方便本領域技術人員理解本申請案實施例提供的技術方案，下面先對技術方案實現的技術環境進行說明。基於降低聲學模型計算成本的需求，相關技術中提出一種低框率(Lower Frame Rate，LFR)演算法。在低框率演算法中，基於相鄰語音框之間較強的相關性，可以通過將多個相鄰語音框的聲學特徵輸入至聲學模型中。所述聲學模型可以基於所述多個相鄰語音框的聲學特徵，計算得到一個針對上述多個聲學特徵相對於多個預設建模單元的平均後驗機率分佈。通常情況下，單框語音框的持續時間為10ms，目前的低框率演算法可以實現單次輸入連續3框(即30ms)的語音框，這樣，可以將聲學模型的計算量降低至原始計算量的三分之一。但是，通過實驗發現，若想單次輸入更多的語音框(比如4框以上)，則聲學模型的輸出結果準確率較低。這是由於，即使相鄰語音框之間具有相關性，但是不同的語音框畢竟具有差異性，尤其是作為輸入的語音框數越多，產生的差異性也相應地越大，因此，難以訓練所述聲學模型，使得所述聲學模型單次處理更多的語音框對應的聲學特徵，且保證所述聲學模型的輸出具有較高的準確性。基於以上技術需求，可以結合低框率演算法和多框率預測(Multiple Frame Prediction，MFP)演算法，使得所述聲學模型可以單次處理更多的語音框對應的聲學特徵，並且可以保證所述聲學模型的輸出具有較高的準確性。下面結合圖1通過一個具體的應用場景說明本申請案實施例提供的語音處理方法。如圖1展示的是利用本申請案實施例方法訓練聲學模型的流程示意圖。如圖1所示，所述聲學模型可以結合低框率演算法和多框率預測訓練完成，在本場景中，低框率演算法和多框率預測均可以實現單次處理連續3個的聲學特徵，因此，本申請案的聲學模型可以單次處理連續9個語音框對應的聲學特徵。所述聲學模型可以採用深度神經網路訓練得到，因此需要在訓練樣本中標注標籤以監督所述聲學模型的訓練過程。所述標籤可以包括圖1所示的平均建模機率向量，所述平均建模機率向量可以利用多個聲學特徵對應的建模機率向量計算得到。例如，圖1中，可以將編號為1-9的聲學特徵按序平均劃分成三個聲學特徵序列，其中聲學特徵序列1包括編號為1,2,3的聲學特徵。編號為1,2,3的三個聲學特徵分別對應的建模單元分別為a，o，e，正好對應於韻母表的前三位，那麼，編號為1,2,3的聲學特徵分別對應的建模機率向量可以表示為[1,0,0,0,…]、[0,1,0,0,…]、[0,0,1,0,…]，將這三個建模機率向量的平均概建模率向量作為聲學特徵序列1對應的標籤1，另外兩個聲學特徵序列的標籤的計算方式相同，在此不再贅述。在獲取所述標籤1、標籤2、標籤3之後，可以將所述9個聲學特徵作為聲學模型的輸入，將所述標籤1、標籤2、標籤3作為監督資訊，訓練所述聲學模型。那麼在實際應用所述聲學模型的過程中，可以極大地提高聲學模型的計算效率。對於具有900個語音框的語音信號，若按照傳統的低框演算法和多框預測演算法，則需要300次的計算。但是，利用本申請案通過的實施例方法，只需要計算100次。下面結合圖式對本申請案所述的語音處理方法進行詳細的說明。圖2是本申請案提供的語音處理方法的一種實施例的方法流程示意圖。雖然本申請案提供了如下述實施例或圖式所示的方法操作步驟，但基於常規或者無需進步性的勞動在所述方法中可以包括更多或者更少的操作步驟。在邏輯性上不存在必要因果關係的步驟中，這些步驟的執行順序不限於本申請案實施例提供的執行順序。所述方法在實際中的語音處理過程中或者裝置執行時，可以按照實施例或者圖式所示的方法循序執行或者並存執行(例如並行處理器或者多執行緒處理的環境)。具體的本申請案提供的語音處理方法的一種實施例如圖2所示，所述方法可以包括： S201：對語音信號進行分框處理，生成多個語音框； S203：分別提取所述多個語音框對應的聲學特徵； S205：利用聲學模型按照框移為第一數量的頻率處理所述聲學特徵，以在單次框移處理後獲取第二數量的後驗機率向量，所述後驗機率向量包括聲學特徵分別對應於多個預設建模單元的機率，所述聲學模型基於低框率(LFR)演算法和多框預測(MFP)演算法的結合訓練得到。本申請案實施例中，在對語音信號進行分析之前，可以對所述語音信號進行分框處理，即將語音信號切分成若干段，每一段稱為一個語音框。分框處理的操作可以使用移動函數來實現，且框與框之間可以具有交疊部分。若每個語音框的長度為25毫秒，框移為10毫秒，則每兩個語音框之間具有(25-10=15)毫秒的交疊。當然，在對所述語音信號進行分框處理之前，還可以對所述語音信號進行預處理，預處理的過程可以包括靜音切除、去除雜訊等處理步驟。例如，去除語音信號的收尾端的靜音，可以降低對後續步驟造成的干擾。在對語音信號進行分框處理之後，語音信號變換成多個小段的語音框。但是語音信號為聲波的形式，因此，需要將波形變換成可以描述的方式。具體地，可以對語音信號進行聲學特徵提取，典型的聲學特徵提取方式可以包括梅爾頻率倒譜系數(MFCC)。在進行聲學特徵提取的過程中，可以將每個語音框的波形變換成一個多維向量，該多維向量可以包含這框語音信號的內容資訊。當然，所述聲學特徵提取方式不限於MFCC，還可以包含其他多種方式。在一個示例中，在對語音信號進行聲學特徵提取之後，可以將語音信號變換成M行N列的矩陣，其中，M為聲學特徵的個數，N為語音信號的總框數。在對所述多個語音框進行特徵提取之後，所述多個語音框變換成由多個聲學特徵。在一個示例中，一段語音被分框處理之後，可以生成120個語音框，對所述120個語音框進行特徵提取之後可以生成由120個聲學特徵。在利用基於低框率(框率為3)的聲學模型對所述20個聲學特徵進行處理時，可以將按照每次3個聲學特徵的規則將該120個聲學特徵輸入至所述聲學模型中，即需要(120/3)=40次的計算。對應的，所述聲學模型可以生成40個後驗機率向量，所述後驗機率向量包括聲學特徵分別對應於多個預設建模單元的機率。所述建模單元可以包括音素(phone)、綁定的音素(CD-phone)、音素狀態(state)、綁定的音素狀態(CD-state)中的一種。其中，對於音素而言，單詞的發音由音素構成，英語中常用的音素集由卡內基梅隆大學的一套由39個音素構成，漢語中的音素集可以包括23個聲母和24個韻母。而音素狀態是比音素更加細緻的語音單位，通常一個音素可以包含三個音素狀態。而語音識別的過程即將語音框識別成音素狀態，將狀態組合成音素，並將音素組合成單詞。也就是說，如果能夠準確地識別出每個語音框的建模單元，語音識別的結果也就可以獲得。當然，所述建模單元還可以包括其他能夠表達發音狀態的單元，本申請案在此不做限制。在獲取語音框的聲學特徵對應的建模單元的過程中，可以計算聲學特徵對應的建模單元的後驗機率，後驗機率越大，表示該語音框對應該建模單元的可能性越大。為了簡便地表達不同的聲學特徵對應不同的建模單元的後驗機率，可以利用後驗機率向量表達。相對於先驗機率而言，後驗機率使用了有關自然狀態更加全面的資料，既有先驗機率資料，也有補充資料，因此，後驗機率在資訊表達上具有更高的準確性。在一個示例中，在漢語中，可以預定義47個預設建模單元，即23個聲母和24個韻母，那麼對於聲學特徵而言，屬於以上47個預設建模單元的後驗機率值均不相同，因此，可以建立具有47個元素的後驗機率向量，用於表達聲學特徵分別屬於預設建模單元的後驗機率值。在一個示例中，對於一個聲學特徵，其後驗機率向量可以為[0.06,0,0,0.1,…,0.4,0.01.0.02]。基於此，在本公開的實施例中，可以在低框率演算法的基礎上，結合多框預測演算法，使得聲學模型可以單次處理更多的語音框對應的聲學特徵。在所述多框預測演算法中，聲學模型可以同時處理M個語音框對應的聲學特徵，並分別獲取該M個聲學特徵對應的後驗機率向量，即獲取M個後驗機率向量。但是，在相關技術中，M的值一般小於等於3，這是由於在基於神經網路的聲學模型中，輸入的聲學特徵越多，聲學特徵之間的差異性越顯著，導致聲學模型中的網路參數越難調和，因此，基於多框預測演算法的聲學模型也難以擴大單次處理的聲學特徵的數量。在本公開的實施例中，可以將低框率演算法和多框預測演算法相結合，使得輸入聲學模型的聲學特徵的數量以乘性擴大。在一個示例中，對於低框率演算法，聲學模型單次可以將3個聲學特徵轉換成1個後驗機率向量，對於多框率預測演算法，聲學模型單次可以同時對3個聲學特徵預測出3個後驗機率向量。在此，結合低框率演算法，可以將多框率預測演算法中的聲學特徵替換成聲學特徵序列，該聲學特徵序列可以由3個聲學特徵組成。這樣，聲學模型單次可以處理3*3=9個聲學特徵，並輸出3個後驗機率向量。相對於低框率演算法和多框率預測演算法，本申請案通過的實施例可以將聲學模型的計算量降低至原始計算量的三分之一。基於此，所述聲學模型可以被設置為按照下述方式訓練得到： S301：獲取多個歷史語音信號、所述歷史語音信號對應的多個聲學特徵以及所述聲學特徵對應的建模單元。 S303：將所述歷史語音信號對應的多個聲學特徵按照框移為所述第一數量的頻率進行劃分。 S305：將所述第一數量的聲學特徵劃分成所述第二數量的聲學特徵序列，所述聲學特徵序列中包括具有相鄰關係的第三數量的聲學特徵。 S307：根據所述第三數量的聲學特徵對應的建模單元，分別計算所述第二數量的聲學特徵序列對應於多個預設建模單元的平均機率向量。 S309：利用所述多個歷史語音信號的聲學特徵序列以及所述聲學特徵序列對應的平均機率向量訓練生成所述聲學模型。在本申請案實施例中，可以獲取多個歷史語音信號作為訓練所述聲學模型的樣本資料。同時，還可以獲取所述歷史語音信號對應的多個聲學特徵，以及，所述多個聲學特徵分別對應的建模單元。然後，可以將所述歷史語音信號對應的多個聲學特徵按照框移為所述第一數量的頻率進行劃分，即按照每次所述第一數量的規則進行劃分，所述第一數量即為所述聲學模型最多可以處理的聲學特徵的數量，對應於上述示例，所述第一數量即為9。由於低框率演算法和多框率預測均有各自的處理能力上限，因此，可以將每次處理的第一數量的聲學特徵進一步劃分成第二數量的聲學特徵序列，所述聲學特徵序列中包括具有相鄰關係的第三數量的聲學特徵。在上述示例中，可以將9個聲學特徵按序依次劃分成3個聲學特徵序列，則所述聲學特徵序列可以包括3個相鄰的聲學特徵。本申請案實施例中，在利用深度學習方式對所述聲學模型進行訓練的過程中，需要有確定的標籤作為監督訓練的資訊。在本公開實施例中，所述第一數量的聲學特徵作為所述聲學模型的輸入，對應的標籤可以包括所述第二數量的聲學特徵序列對應於多個預設建模單元的平均機率向量。下面通過一個具體的示例說明所述平均機率向量，對於單次輸入的9個聲學特徵，按序平均劃分成3個聲學特徵序列，則所述聲學特徵序列可以包括3個相鄰的聲學特徵。那麼，單個聲學特徵序列對應的標籤為所述3個相鄰的聲學特徵對應於多個預設建模單元的平均機率向量。例如，在漢字中，這3個相鄰的聲學特徵分別對應的建模單元分別為a，o，e，正好對應於韻母表的前三位，那麼，這個三個相鄰的聲學特徵分別對應的機率向量可以表示為[1,0,0,0,…]、[0,1,0,0,…]、[0,0,1,0,…]，將這三個機率向量的平均機率向量作為單個聲學特徵序列對應的標籤，另外兩個聲學特徵序列的標籤的計算方式相同，在此不再贅述。在本示例中，可以將三個平均機率向量作為9個聲學特徵的標籤，利用深度學習的方式訓練得到所述聲學模型。本實施例中，在利用深度學習的方式訓練所述聲學模型的過程中，可以構建基於深度學習的聲學模型，所述聲學模型中設置有網路參數。所述深度學習的方式可以包括深度學習網路，包括但不限於深層的神經網路(Deep Neural Network，DNN)、循環神經網路(Recurrent Neural Network，RNN)、長短時記憶單元(Long Short Term Memory，LSTM)、前饋序列記憶神經網路(Feedforward Sequential Memory Network，FSMN)等等。在訓練的過程中，可以將所述歷史語音信號按照每次輸入所述第二數量的聲學特徵序列(即第一數量的聲學特徵)的規則輸入所述聲學模型，並在每次獲取所述第二數量的預測機率向量。然後，可以基於所述平均機率向量與所述預測機率向量之間的差異，對所述網路參數進行疊代調整，直至所述差異滿足預設要求。需要說明的是，本申請案對於聲學模型的訓練方式不做限制。在本公開的一個實施例中，如圖1所示，所述聲學模型中可以包括主神經網路和所述第二數量的相互獨立的子神經網路，其中，所述主神經網路的輸入端為所述聲學模型的輸入端，所述主神經網路的輸出端分別與所述第二數量的子神經網路的輸入端相耦合，所述第二數量的子神經網路的輸出端為所述聲學模型的輸出端。所述多個子神經網路用於對所述主神經網路的輸出進行進一步的特徵變換和處理，使得所述聲學模型適應於多個具有相互獨立關係的輸出目標(即所述平均機率向量)的預測。另外，多個聲學特徵序列的平均機率向量之間存在相似性，但是也存在一定的差異性，因此，所述多個子神經網路可以處理所述差異性，降低所述差異性對所述聲學模型的影響，增強所述聲學模型的建模能力。由於複雜的主神經網路可以得到所述第一數量的聲學特徵中具有較強區分性的特徵，因此，所述子神經網路可以採用一些簡單的結構，比如1-2層的DNN。這樣，一方面可以增強所述聲學模型的建模能力，另一方面不需要增加很多計算量。進一步地，在本公開的實施例中，所述聲學模型中可以包括主神經網路和具有多層結構的多個子神經網路，所述主神經網路的輸入端為所述聲學模型的輸入端，所述主神經網路的輸出端與所述多個子神經網路的第一層的輸入端相耦合，所述多個子神經網路最後一層的輸出端為所述聲學模型的輸出端。在本實施例中，所述多個子神經網路中可以具有多層結構，使得所述聲學模型更加適應於多個具有相互獨立關係的輸出目標(即所述平均機率向量)的預測，以及，進一步降低多個聲學特徵序列的平均機率向量之間的差異性對所述聲學模型的影響，增強所述聲學模型的建模能力。基於此，還可以進一步擴展聲學模型單次處理聲學特徵的個數，例如，設置所述第一數量為12、16、18、20等等。本申請案各個實施例提供的語音處理方法，可以利用低框率(LFR)演算法和多框預測(MFP)演算法的結合訓練得到語音識別中聲學模型，由於低框率(LFR)演算法和多框預測(MFP)演算法均可以單次處理多個相鄰的聲學特徵，但是這兩種演算法均由於相鄰多個聲學特徵之間的差異性而難以擴展單次處理聲學特徵的數量。基於此，可以將低框率(LFR)演算法和多框預測(MFP)演算法相結合，從而實現乘性擴展聲學模型的單次處理能力。因此，本申請案各個實施例提供的語音處理方法，可以在保證聲學模型輸出準確性的基礎上，極大地提高聲學模型的計算效率，提高語音識別的識別效率。本申請案另一方面還提供一種語音處理裝置，包括處理器以及用於儲存處理器可執行指令的記憶體，所述處理器執行所述指令時可以實現下述步驟：對語音信號進行分框處理，生成多個語音框；分別提取所述多個語音框對應的聲學特徵；利用聲學模型按照框移為第一數量的頻率處理所述聲學特徵，以在單次框移處理後獲取第二數量的後驗機率向量，所述後驗機率向量包括聲學特徵分別對應於多個預設建模單元的機率，所述聲學模型基於低框率(LFR)演算法和多框預測(MFP)演算法的結合訓練得到。可選的，在本申請案的一個實施例中，所述聲學模型被設置為按照下述方式處理所述聲學特徵序列：在單次框移處理中，將所述第一數量的聲學特徵劃分成所述第二數量的聲學特徵序列，所述聲學特徵序列中包括具有相鄰關係的多個聲學特徵；分別對所述第二數量的聲學特徵序列進行處理，生成所述第二數量的後驗機率向量。可選的，在本申請案的一個實施例中，所述聲學模型被設置為按照下述方式訓練得到：獲取多個歷史語音信號、所述歷史語音信號對應的多個聲學特徵以及所述聲學特徵對應的建模單元；將所述歷史語音信號對應的多個聲學特徵按照框移為所述第一數量的頻率進行劃分；將所述第一數量的聲學特徵劃分成所述第二數量的聲學特徵序列，所述聲學特徵序列中包括具有相鄰關係的第三數量的聲學特徵；根據所述第三數量的聲學特徵對應的建模單元，分別計算所述第二數量的聲學特徵序列對應於多個預設建模單元的平均機率向量；利用所述多個歷史語音信號的聲學特徵序列以及所述聲學特徵序列對應的平均機率向量訓練生成所述聲學模型。可選的，在本申請案的一個實施例中，所述處理器在實現步驟利用所述多個歷史語音信號的聲學特徵序列以及所述聲學特徵序列對應的平均機率向量訓練生成所述聲學模型時包括：構建基於深度學習的聲學模型，所述聲學模型中設置有網路參數；將所述歷史語音信號按照每次輸入所述第二數量的聲學特徵序列的規則輸入所述聲學模型，並在每次獲取所述第二數量的預測機率向量；基於所述平均機率向量與所述預測機率向量之間的差異，對所述網路參數進行疊代調整，直至所述差異滿足預設要求。可選的，在本申請案的一個實施例中，所述聲學模型中包括主神經網路和所述第二數量的相互獨立的子神經網路，所述主神經網路的輸入端為所述聲學模型的輸入端，所述主神經網路的輸出端分別與所述第二數量的子神經網路的輸入端相耦合，所述第二數量的子神經網路的輸出端為所述聲學模型的輸出端。可選的，在本申請案的一個實施例中，所述聲學模型中包括主神經網路和具有多層結構的多個子神經網路，所述主神經網路的輸入端為所述聲學模型的輸入端，所述主神經網路的輸出端與所述多個子神經網路的第一層的輸入端相耦合，所述多個子神經網路最後一層的輸出端為所述聲學模型的輸出端。本申請案所提供的方法實施例可以在移動終端、電腦終端或者類似的運算裝置中執行。圖3示出了一種用於實現語音識別方法的電腦終端(或移動設備)的硬體結構方塊圖。如圖3所示，電腦終端10(或移動設備10)可以包括一個或多個(圖中採用102a、102b，……，102n來示出)處理器102(處理器102可以包括但不限於微處理器MCU或可編程邏輯裝置FPGA等的處理裝置)、用於儲存資料的記憶體104、以及用於通信功能的傳輸模組106。除此以外，還可以包括：顯示器、輸入/輸出介面(I/O介面)、通用序列匯流排(USB)埠(可以作為I/O介面的埠中的一個埠被包括)、網路介面、電源和/或相機。本領域普通技術人員可以理解，圖1所示的結構僅為示意，其並不對上述電子裝置的結構造成限定。例如，電腦終端10還可包括比圖1中所示更多或者更少的組件，或者具有與圖1所示不同的配置。應當注意到的是上述一個或多個處理器102和/或其他資料處理電路在本文中通常可以被稱為“資料處理電路”。該資料處理電路可以全部或部分的體現為軟體、硬體、韌體或其他任意組合。此外，資料處理電路可為單個獨立的處理模組，或全部或部分的結合到電腦終端10(或移動設備)中的其他元件中的任意一個內。如本申請案實施例中所涉及到的，該資料處理電路作為一種處理器控制(例如與介面連接的可變電阻終端路徑的選擇)。記憶體104可用於儲存應用軟體的軟體程式以及模組，如本發明實施例中的語音處理方法對應的程式指令/資料儲存裝置，處理器102通過運行儲存在記憶體104內的軟體程式以及模組，從而執行各種功能應用以及資料處理，即實現上述的應用程式的語音識別方法。記憶體104可包括高速隨機記憶體，還可包括非易失性記憶體，如一個或者多個磁性儲存裝置、快閃記憶體、或者其他非易失性固態記憶體。在一些實例中，記憶體104可進一步包括相對於處理器102遠端設置的記憶體，這些遠端記憶體可以通過網路連接至電腦終端10。上述網路的實例包括但不限於網際網路、企業內部網、區域網路、移動通信網及其組合。傳輸裝置106用於經由一個網路接收或者發送資料。上述的網路具體實例可包括電腦終端10的通信供應商提供的無線網路。在一個實例中，傳輸裝置106包括一個網路介面卡(Network Interface Controller，NIC)，其可通過基地台與其他網路設備相連從而可與網際網路進行通訊。在一個實例中，傳輸裝置106可以為射頻(Radio Frequency，RF)模組，其用於通過無線方式與網際網路進行通訊。顯示器可以例如觸控式螢幕式的液晶顯示器(LCD)，該液晶顯示器可使得使用者能夠與電腦終端10(或移動設備)的使用者介面進行交互。在本申請案各個實施例提供的語音處理方法可以應用於客戶端中，客戶端可以是具有語音處理功能的電子設備。根據客戶端資料處理能力的不同，可以被劃分成以下類別。表1 在本實施方式中，初級網路設備的硬體設備較為簡單，可以進行通過麥克風進行錄音，生成音頻資訊。並將生成的音頻資訊通過網路通信模組發送給伺服器。初級網路設備可以包括麥克風、網路通信單元、感測器和揚聲器。初級網路設備可以基本上不需要對資料進行加工處理。初級網路設備還可以設置有其它的感測器，用於採集初級網路設備的工作參數。具體的，例如，初級網路設備可以是物聯網設備、邊緣節點設備等。在本實施方式中，簡單網路設備可以主要包括：麥克風、網路通信單元、處理器、記憶體、揚聲器等。簡單網路設備相較於初級網路設備增強了資料處理的能力。簡單網路設備可以具有一個能處理簡單邏輯運算的處理器，使得簡單網路設備在採集到資料之後，可以對資料進行初步的預處理，比如可以根據音頻資訊生成特徵矩陣。簡單網路設備可以具有一個具有簡單顯示功能的顯示模組，可以用於向使用者回饋資訊。具體的，例如，簡單網路設備可以是智慧可穿戴設備、POS(point of sale)機等。例如，智能手環、較初級的智能手錶、智能眼鏡，或是線下購物場所內的結算設備(例如，POS機)、移動式結算設備(例如，手持式POS機、附加在手持設備上的結算模組)等。在本實施方式中，中級網路設備可以主要包括麥克風、網路通信單元、處理器、記憶體顯示器、揚聲器等。中級網路設備的處理器的主頻通常小於2.0GHz，記憶體容量通常少於2GB，記憶體的容量通常少於128GB。中級網路設備可以對錄製的音頻資訊進行一定程度的處理，比如生成特徵矩陣，對特徵矩陣進行端點檢測處理、降噪處理、語音識別等。具體的，例如，中級網路設備可以包括：智慧家居中的智慧家用電器、智慧家庭終端、智慧音箱、較高級的智慧手錶、較為初級的智慧型手機(比如，價位在1000元左右)、車載智慧終端機。在本實施方式中，智慧型網路設備可以主要包括麥克風、網路通信單元、處理器、記憶體、顯示器、揚聲器等硬體。智慧型網路設備可以具有較強的資料處理能力。智慧型網路設備的處理器的主頻通常大於2.0GHz，記憶體的容量通常小於12GB，記憶體的容量通常小於1TB。可以對音頻資訊生成特徵矩陣之後，可以進行端點檢測處理、降噪處理、語音識別等。進一步的，智慧型網路設備還可以根據音頻資訊生成語音特徵向量。在一些情況下，可以將語音特徵向量與使用者特徵向量進行匹配，識別使用者的身份。但這種匹配限於有限個數的使用者特徵向量，比如一個家庭中的各個家庭成員的使用者特徵向量。具體的，例如，智慧型網路設備可以包括：性能較好的智慧型手機、平板電腦、桌上型電腦、筆記型電腦等。在本實施方式中，高性能設備可以主要包括麥克風、網路通信單元、處理器、記憶體、顯示器、揚聲器等硬體。高性能設備可以具有大規模的資料運算處理能力，還可以提供強大的資料儲存能力。高性能設備的處理器主頻通常在3.0GHz以上，記憶體的容量通常大於12GB，記憶體容量可以在1TB以上。高性能設備可以對音頻資訊生成特徵矩陣、端點檢測處理、降噪處理、語音識別、生成語音特徵向量，以及將語音特徵向量與儲存的大量的使用者特徵向量進行匹配。具體的，例如，高性能設備可以是工作站、配置很高的桌上型電腦、Kiosk智慧型電話亭、自助服務機等。當然，上述只是示例的方式列舉了一些客戶端。隨著科學技術進步，硬體設備的性能可能會有提升，使得上述目前資料處理能力較弱的電子設備，也可能具備較強的處理能力。所以下文中實施方式引用上述表1中的內容，也僅作為示例參考，並不構成限定。值得注意的是，上述表1所示的五種類型的硬體都可以實現上述的資料更新優化方法。雖然本申請案提供了如實施例或流程圖所述的方法操作步驟，但基於常規或者無進步性的手段可以包括更多或者更少的操作步驟。實施例中列舉的步驟順序僅僅為眾多步驟執行順序中的一種方式，不代表唯一的執行順序。在實際中的裝置或客戶端產品執行時，可以按照實施例或者圖式所示的方法循序執行或者並存執行(例如並行處理器或者多執行緒處理的環境)。本領域技術人員也知道，除了以純電腦可讀程式碼方式實現控制器以外，完全可以通過將方法步驟進行邏輯編程來使得控制器以邏輯閘、開關、專用積體電路、可編程邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件，而對其內部包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至，可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。本申請案可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、組件、資料結構、類等等。也可以在分散式運算環境中實踐本申請案，在這些分散式運算環境中，由通過通信網路而被連接的遠端處理設備來執行任務。在分散式運算環境中，程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存媒體中。通過以上的實施方式的描述可知，本領域的技術人員可以清楚地瞭解到本申請案可借助軟體加必需的通用硬體平臺的方式來實現。基於這樣的理解，本申請案的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，該電腦軟體產品可以儲存在儲存媒體中，如ROM/RAM、磁碟、光碟等，包括若干指令用以使得一台電腦設備(可以是個人電腦，移動終端，伺服器，或者網路設備等)執行本申請案各個實施例或者實施例的某些部分所述的方法。本說明書中的各個實施例採用遞進的方式描述，各個實施例之間相同或相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。本申請案可用於眾多通用或專用的電腦系統環境或配置中。例如：個人電腦、伺服器電腦、手持設備或可攜式設備、平板型設備、多處理器系統、基於微處理器的系統、機上盒、可編程的電子設備、網路PC、小型電腦、大型電腦、包括以上任何系統或設備的分散式運算環境等等。雖然通過實施例描繪了本申請案，本領域普通技術人員知道，本申請案有許多變形和變化而不脫離本申請案的精神，希望所附的申請專利範圍包括這些變形和變化而不脫離本申請案的精神。

S201:步驟 S203:步驟 S205:步驟 10:電腦終端 102:處理器 104:記憶體 106:傳輸模組

為了更清楚地說明本申請案實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本申請案中記載的一些實施例，對於本領域普通技術人員來講，在不付出進步性勞動性的前提下，還可以根據這些圖式獲得其他的圖式。圖1是本申請案提供的語音處理方法的應用場景示意圖；圖2是本申請案提供的語音處理方法的一種實施例的方法流程圖；圖3是本申請案提供的語音處理裝置的一種實施例的模組結構示意圖。

Claims

一種語音信號處理方法，其特徵在於，所述方法包括：對語音信號進行分框處理，生成多個語音框；分別提取所述多個語音框對應的聲學特徵；利用聲學模型按照框移為第一數量的頻率處理所述聲學特徵，以在單次框移處理後獲取第二數量的後驗機率向量，所述後驗機率向量包括聲學特徵分別對應於多個預設建模單元的機率，所述聲學模型基於低框率(LFR)演算法和多框預測(MFP)演算法的結合訓練得到，其中，所述聲學模型被設置為按照下述方式訓練得到：獲取多個歷史語音信號、所述歷史語音信號對應的多個聲學特徵以及所述聲學特徵對應的建模單元；將所述歷史語音信號對應的多個聲學特徵按照框移為所述第一數量的頻率進行劃分；將所述第一數量的聲學特徵劃分成所述第二數量的聲學特徵序列，所述聲學特徵序列中包括具有相鄰關係的第三數量的聲學特徵；根據所述第三數量的聲學特徵對應的建模單元，分別計算所述第二數量的聲學特徵序列對應於多個預設建模單元的平均機率向量；利用所述多個歷史語音信號的聲學特徵序列以及所述聲學特徵序列對應的平均機率向量訓練生成所述聲學模型。
根據申請專利範圍第1項所述的方法，其中，所述聲學模型被設置為按照下述方式處理所述聲學特徵：在單次框移處理中，將所述第一數量的聲學特徵劃分成所述第二數量的聲學特徵序列，所述聲學特徵序列中包括具有相鄰關係的多個聲學特徵；分別對所述第二數量的聲學特徵序列進行處理，生成所述第二數量的後驗機率向量。
根據申請專利範圍第1項所述的方法，其中，所述利用所述多個歷史語音信號的聲學特徵序列以及所述聲學特徵序列對應的平均機率向量訓練生成所述聲學模型包括：構建基於深度學習的聲學模型，所述聲學模型中設置有網路參數；將所述歷史語音信號按照每次輸入所述第二數量的聲學特徵序列的規則輸入所述聲學模型，並在每次獲取所述第二數量的預測機率向量；基於所述平均機率向量與所述預測機率向量之間的差異，對所述網路參數進行疊代調整，直至所述差異滿足預設要求。
根據申請專利範圍第3項所述的方法，其中，所述聲學模型中包括主神經網路和所述第二數量的相互獨立的子神經網路，所述主神經網路的輸入端為所述聲學模型的輸入端，所述主神經網路的輸出端分別與所述第二數量的子神經網路的輸入端相耦合，所述第二數量的子神經網路的輸出端為所述聲學模型的輸出端。
根據申請專利範圍第3項所述的方法，其中，所述聲學模型中包括主神經網路和具有多層結構的多個子神經網路，所述主神經網路的輸入端為所述聲學模型的輸入端，所述主神經網路的輸出端與所述多個子神經網路的第一層的輸入端相耦合，所述多個子神經網路最後一層的輸出端為所述聲學模型的輸出端。
一種語音處理裝置，其特徵在於，包括處理器以及用於儲存處理器可執行指令的記憶體，所述處理器執行所述指令時實現下述步驟：對語音信號進行分框處理，生成多個語音框；分別提取所述多個語音框對應的聲學特徵；利用聲學模型按照框移為第一數量的頻率處理所述聲學特徵，以在單次框移處理後獲取第二數量的後驗機率向量，所述後驗機率向量包括聲學特徵分別對應於多個預設建模單元的機率，所述聲學模型基於低框率(LFR)演算法和多框預測(MFP)演算法的結合訓練得到，其中，所述聲學模型被設置為按照下述方式訓練得到：獲取多個歷史語音信號、所述歷史語音信號對應的多個聲學特徵以及所述聲學特徵對應的建模單元；將所述歷史語音信號對應的多個聲學特徵按照框移為所述第一數量的頻率進行劃分；將所述第一數量的聲學特徵劃分成所述第二數量的聲學特徵序列，所述聲學特徵序列中包括具有相鄰關係的第三數量的聲學特徵；根據所述第三數量的聲學特徵對應的建模單元，分別計算所述第二數量的聲學特徵序列對應於多個預設建模單元的平均機率向量；利用所述多個歷史語音信號的聲學特徵序列以及所述聲學特徵序列對應的平均機率向量訓練生成所述聲學模型。
根據申請專利範圍第6項所述的裝置，其中，所述聲學模型被設置為按照下述方式處理所述聲學特徵序列：在單次框移處理中，將所述第一數量的聲學特徵劃分成所述第二數量的聲學特徵序列，所述聲學特徵序列中包括具有相鄰關係的多個聲學特徵；分別對所述第二數量的聲學特徵序列進行處理，生成所述第二數量的後驗機率向量。
根據申請專利範圍第6項所述的裝置，其中，所述處理器在實現步驟利用所述多個歷史語音信號的聲學特徵序列以及所述聲學特徵序列對應的平均機率向量訓練生成所述聲學模型時包括：構建基於深度學習的聲學模型，所述聲學模型中設置有網路參數；將所述歷史語音信號按照每次輸入所述第二數量的聲學特徵序列的規則輸入所述聲學模型，並在每次獲取所述第二數量的預測機率向量；基於所述平均機率向量與所述預測機率向量之間的差異，對所述網路參數進行疊代調整，直至所述差異滿足預設要求。
根據申請專利範圍第8項所述的裝置，其中，所述聲學模型中包括主神經網路和所述第二數量的相互獨立的子神經網路，所述主神經網路的輸入端為所述聲學模型的輸入端，所述主神經網路的輸出端分別與所述第二數量的子神經網路的輸入端相耦合，所述第二數量的子神經網路的輸出端為所述聲學模型的輸出端。
根據申請專利範圍第8項所述的裝置，其中，所述聲學模型中包括主神經網路和具有多層結構的多個子神經網路，所述主神經網路的輸入端為所述聲學模型的輸入端，所述主神經網路的輸出端與所述多個子神經網路的第一層的輸入端相耦合，所述多個子神經網路最後一層的輸出端為所述聲學模型的輸出端。
一種電腦可讀儲存媒體，其特徵在於，其上儲存有電腦指令，所述指令被執行時實現申請專利範圍第1至5項中任一項所述方法的步驟。