TWI636452B

TWI636452B - 語音識別方法及系統

Info

Publication number: TWI636452B
Application number: TW106135251A
Authority: TW
Inventors: 王健宗; 程寧; 查高密; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-05-10
Filing date: 2017-10-13
Publication date: 2018-09-21
Also published as: WO2018205389A1; CN107204184B; CN107204184A; TW201901661A

Abstract

一種語音識別方法及系統，該方法包括：從預先確定的資料源獲取特定類型的資訊文本；對獲取的各個資訊文本進行語句切分得到若干語句，對各個語句進行分詞處理得到對應的分詞，由各個語句與對應的分詞構成第一映射語料；根據得到的各個第一映射語料，訓練預設類型的第一語言模型，並基於訓練的所述第一語言模型進行語音識別。本發明有效提高語音識別的精度且有效降低語音識別的成本。

Description

語音識別方法及系統

本發明涉及電腦技術領域，尤其涉及一種語音識別方法及系統。

語言模型在語音識別任務中扮演著重要的角色，在現有的語音識別中，一般利用標注過的對話文本建立語言模型，通過該語言模型確定每個字的機率。然而，現有技術中利用標注過的對話文本建立語言模型的方式，由於目前用戶在日常生活中需要用到語音識別技術的場景過少(例如，比較常見的場景是語音搜索、語音控制等領域)，且能夠收集的語料類型和範圍過於集中，使得這種方式存在以下兩個缺點：一個是購買價格昂貴、成本很高；另一個是很難獲取到足夠數量的語料，獲取標注過的對話文本比較困難，而且升級擴充的及時性、準確性難以保障，進而影響語言模型的訓練效果和識別精度，從而影響語音識別的準確性。

因此，如何利用現有的語料資源有效提高語音識別的精度且有效降低語音識別的成本已經成為一個亟待解決的技術問題。

本發明的主要目的在於提供一種語音識別方法及系統，旨在有效提高語音識別的精度且有效降低語音識別的成本。

為實現上述目的，本發明提供一種語音識別方法，所述方法包括以下步驟：A、從預先確定的資料源獲取特定類型的資訊文本；B、對獲取的各個資訊文本進行語句切分得到若干語句，對各個語句進行分詞處理得到對應的分詞，由各個語句與對應的分詞構成第一映射語料；C、根據得到的各個第一映射語料，訓練預設類型的第一語言模型，並基於訓練的所述第一語言模型進行語音識別。

在一實施例中，所述步驟C替換為：根據得到的各個第一映射語料，訓練預設類型的第一語言模型；根據各個預先確定的樣本語句與對應的分詞的第二映射語料，訓練預設類型的第二語言模型；根據預先確定的模型混合公式，將訓練的所述第一語言模型及第二語言模型進行混合，以獲得混合語言模型，並基於獲得的所述混合語言模型進行語音識別。

在一實施例中，所述預先確定的模型混合公式為：M=a*M1+b*M2其中，M為混合語言模型，M1代表預設類型的第一語言模型，a代表預設的模型M1的權重係數，M2代表預設類型的第二語言模型，b代表預設的模型M2的權重係數。

在一實施例中，所述預設類型的第一語言模型及/或第二語言模型為n-gram語言模型，所述預設類型的第一語言模型或第二語言模型的訓練過程如下：S1、將各個第一映射語料或者各個第二映射語料分為第一比例的訓練集和第二比例的驗證集；S2、利用所述訓練集訓練所述第一語言模型或者第二語言模型；S3、利用所述驗證集驗證訓練的第一語言模型或者第二語言模型的準確率，若準確率大於或者等於預設準確率，則訓練結束，或者，若準確率小於預設準確率，則增加第一映射語料或者第二映射語料的數量並重新執行步驟S1、S2、S3。

在一實施例中，所述對各個切分的語句進行分詞處理的步驟包括：在一個切分的語句被選擇進行分詞處理時，根據正向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配，得到第一匹配結果，所述第一匹配結果中包含有第一數量的第一詞組和第三數量的單字；根據逆向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配，得到第二匹配結果，所述第二匹配結果中包含有第二數量的第二詞組和第四數量的單字；若所述第一數量與所述第二數量相等，且所述第三數量小於或者等於所述第四數量，則將所述第一匹配結果作為該切分的語句的分詞結果；若所述第一數量與所述第二數量相等，且所述第三數量大於所述第四數量，則將所述第二匹配結果作為該切分的語句的分詞結果；若所述第一數量與所述第二數量不相等，且所述第一數量大於所述第二數量，則將所述第二匹配結果作為該切分的語句的分詞結果；若所述第一數量與所述第二數量不相等，且所述第一數量小於所述第二數量，則將所述第一匹配結果作為該切分的語句的分詞結果。

此外，為實現上述目的，本發明還提供一種語音識別系統，所述語音識別系統包括：獲取模組，用於從預先確定的資料源獲取特定類型的資訊文本；分詞模組，用於對獲取的各個資訊文本進行語句切分得到若干語句，對各個語句進行分詞處理得到對應的分詞，由各個語句與對應的分詞構成第一映射語料；訓練識別模組，用於根據得到的各個第一映射語料，訓練預設類型的第一語言模型，並基於訓練的所述第一語言模型進行語音識別。

在一實施例中，所述訓練識別模組還用於：根據得到的各個第一映射語料，訓練預設類型的第一語言模型；根據各個預先確定的樣本語句與對應的分詞的第二映射語料，訓練預設類型的第二語言模型；根據預先確定的模型混合公式，將訓練的所述第一語言模型及第二語言模型進行混合，以獲得混合語言模型，並基於獲得的所述混合語言模型進行語音識別。

在一實施例中，所述分詞模組還用於：在一個切分的語句被選擇進行分詞處理時，根據正向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配，得到第一匹配結果，所述第一匹配結果中包含有第一數量的第一詞組和第三數量的單字；根據逆向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配，得到第二匹配結果，所述第二匹配結果中包含有第二數量的第二詞組和第四數量的單字；若所述第一數量與所述第二數量相等，且所述第三數量小於或者等於所述第四數量，則將所述第一匹配結果作為該切分的語句的分詞結果；若所述第一數量與所述第二數量相等，且所述第三數量大於所述第四數量，則將所述第二匹配結果作為該切分的語句的分詞結果；若所述第一數量與所述第二數量不相等，且所述第一數量大於所述第二數量，則將所述第二匹配結果作為該切分的語句的分詞結果；若所述第一數量與所述第二數量不相等，且所述第一數量小於所述第二數量，則將所述第一匹配結果作為該切分的語句的分詞結果。

本發明提出的語音識別方法及系統，通過對從預先確定的資料源獲取的特定類型的資訊文本進行語句切分，並對各個切分的語句進行分詞處理，得到各個切分的語句與對應的分詞的第一映射語料，根據該第一映射語料訓練預設類型的第一語言模型，並基於訓練的所述第一語言模型進行語音識別。由於可通過對從預先確定的多個資料源中獲取的資訊文本進行語句切分及相應的分詞處理來得到語料資源，並基於該語料資源訓練語言模型，無需獲取標注過的對話文本，且能獲取到足夠數量的語料資源，能保證語言模型的訓練效果和識別精度，從而有效提高語音識別的精度且有效降低語音識別的成本。

100‧‧‧電子裝置

10‧‧‧語音識別系統

11‧‧‧儲存器

12‧‧‧處理器

13‧‧‧顯示器

01‧‧‧獲取模組

02‧‧‧分詞模組

03‧‧‧訓練識別模組

S10‧‧‧步驟

S20‧‧‧步驟

S30‧‧‧步驟

S40‧‧‧步驟

S50‧‧‧步驟

S60‧‧‧步驟

圖1為本發明語音識別方法第一實施例的流程示意圖。

圖2為本發明語音識別方法第二實施例的流程示意圖。

圖3為本發明語音識別系統10較佳實施例的運行環境示意圖。

圖4為本發明語音識別系統一實施例的功能模組示意圖。

為了使本發明所要解決的技術問題、技術方案及有益效果更加清楚、明白，以下結合附圖和實施例，對本發明進行進一步詳細說明。應當理解，此處所描述的具體實施例僅僅用以解釋本發明，並不用於限定本發明。

本發明提供一種語音識別方法。

參照圖1，圖1為本發明語音識別方法第一實施例的流程示意圖。

在第一實施例中，該語音識別方法包括：步驟S10，從預先確定的資料源獲取特定類型的資訊文本。

本實施例中，在訓練語言模型之前，實時或者定時從預先確定的多個資料源(例如，新浪微博、百度百科、維基百科、新浪新聞等網站)獲取特定類型的資訊文本(例如，詞條及其解釋、新聞標題、新聞摘要、微博內容等等)。例如，可通過網路爬蟲等工具實時或者定時從預先確定的資料源(例如，各大新聞網站、論壇等)獲取特定類型的資訊(例如，新聞標題資訊、索引資訊、簡介資訊等)。

步驟S20，對獲取的各個資訊文本進行語句切分得到若干語句，對各個語句進行分詞處理得到對應的分詞，由各個語句與對應的分詞構成第一映射語料。

從預先確定的多個資料源中獲取到特定類型的各個資訊文本後，可對獲取的各個資訊文本進行語句切分，例如可根據標點符號將各個資訊文本切分成一條條完整的語句。然後，對各個切分的語句進行分詞處理，例如，可利用字符串匹配的分詞方法對各個切分的語句進行分詞處理，如正向最大匹配法，把一個切分的語句中的字符串從左至右來分詞；或者，反向最大匹配法，把一個切分的語句中的字符串從右至左來分詞；或者，最短路徑分詞法，一個切分的語句中的字符串裡面要求切出的詞數是最少的；或者，雙向最大匹配法，正反向同時進行分詞匹配。還可利用詞義分詞法對各個切分的語句進行分詞處理，詞義分詞法是一種機器語音判斷的分詞方法，利用句法資訊和語義資訊來處理歧義現象來分詞。還可利用統計分詞法對各個切分的語句進行分詞處理，從當前用戶的歷史搜索記錄或大眾用戶的歷史搜索記錄中，根據詞組的統計，會統計有些兩個相鄰的字出現的頻率較多，則可將這兩個相鄰的字作為詞組來進行分詞。

對獲取的各個切分的語句完成分詞處理後，即可得到各個切分的語句與對應的分詞所組成的第一映射語料。通過從預先確定的多個資料源中獲取資訊文本，並對資訊文本切分生成大量的語句來進行分詞處理，可從多個資料源中獲取到語料類型豐富、範圍較廣以及數量較多的語料資源。

步驟S30，根據得到的各個第一映射語料，訓練預設類型的第一語言模型，並基於訓練的所述第一語言模型進行語音識別。

基於所述第一映射語料，訓練預設類型的第一語言模型，該第一語言模型可以是生成性模型、分析性模型、辨識性模型等。由於第一映射語料是從多個資料源中獲取到的，其語料資源的語料類型豐富、範圍較廣且數量較多，因此，利用該第一映射語料來訓練第一語言模型的訓練效果較好，進而使得基於訓練的所述第一語言模型進行語音識別的識別精度較高。

本實施例通過對從預先確定的資料源獲取的特定類型的資訊文本進行語句切分，並對各個切分的語句進行分詞處理，得到各個切分的語句與對應的分詞的第一映射語料，根據該第一映射語料訓練預設類型的第一語言模型，並基於訓練的所述第一語言模型進行語音識別。由於可通過對從預先確定的多個資料源中獲取的資訊文本進行語句切分及相應的分詞處理來得到語料資源，並基於該語料資源訓練語言模型，無需獲取標注過的對話文本，且能獲取到足夠數量的語料資源，能保證語言模型的訓練效果和識別精度，從而有效提高語音識別的精度且有效降低語音識別的成本。

進一步地，在其他實施例中，上述步驟S20可以包括：對獲取的各個資訊文本進行清洗去噪。例如，針對微博內容，所述清洗去噪的步驟包括：從微博內容中刪除用戶名、id等資訊，只保留微博的實際內容；刪除掉轉發的微博內容，一般獲取的微博內容中有大量轉發的微博內容，重複的轉發微博內容會影響到詞語的頻次，因此須將轉發的微博內容過濾掉，過濾方法為刪除掉所有包含“轉發”或包含“http”的微博內容；過濾掉微博內容中的特殊符號，將微博內容中預設類型的符號全部過濾掉；繁體轉簡體，微博內容中有大量的繁體字符，利用預先確定的簡繁對應表將所有繁體字符轉變為簡體字符，等等。

對清洗去噪後的各個資訊文本進行語句切分，例如，將兩個預設類型的斷句符“例如，逗號、句號、感嘆號等”之間的語句作為一個待切分的語句，並對各個切分的語句進行分詞處理，以得到各個切分的語句與對應的分詞(包括詞組和單字)的映射語料。

如圖2所示，本發明第二實施例提出一種語音識別方法，在上述實施例的基礎上，上述步驟S30替換為：步驟S40，根據得到的各個第一映射語料，訓練預設類型的第一語言模型。

步驟S50，根據各個預先確定的樣本語句與對應的分詞的第二映射語料，訓練預設類型的第二語言模型。例如，可預先確定若干樣本語句，如可從預先確定的資料源中找出若干出現頻率最高或最常用的樣本語句，並確定每一樣本語句對應的正確的分詞(包括詞組和單字)，以根據各個預先確定的樣本語句與對應的分詞的第二映射語料，訓練預設類型的第二語言模型。

步驟S60，根據預先確定的模型混合公式，將訓練的所述第一語言模型及第二語言模型進行混合，以獲得混合語言模型，並基於獲得的所述混合語言模型進行語音識別。所述預先確定的模型混合公式可以為：M=a*M1+b*M2其中，M為混合語言模型，M1代表預設類型的第一語言模型，a代表預設的模型M1的權重係數，M2代表預設類型的第二語言模型，b代表預設的模型M2的權重係數。

本實施例中，在根據從多個資料源中獲取到的第一映射語料訓練得到第一語言模型的基礎上，還根據各個預先確定的樣本語句與對應的分詞的第二映射語料，訓練得到第二語言模型，例如該預先確定的樣本語句可以為預設的最常用且正確無誤的若干語句，因此，訓練得到的該第二語言模型能正確識別常用的語音。將訓練的所述第一語言模型及第二語言模型按預設的不同權重比例進行混合得到混合語言模型，並基於獲得的所述混合語言模型進行語音識別，既能保證語音識別的類型豐富、範圍較廣，又能保證正確識別常用的語音，進一步地提高語音識別的精度。

進一步地，在其他實施例中，所述預設類型的第一語言模型或第二語言模型的訓練過程如下：A、將各個第一映射語料或者各個第二映射語料分為第一比例(例如，70%)的訓練集和第二比例(例如，30%)的驗證集；B、利用所述訓練集訓練所述第一語言模型或者第二語言模型；C、利用所述驗證集驗證訓練的第一語言模型或者第二語言模型的準確率，若準確率大於或者等於預設準確率，則訓練結束，或者，若準確率小於預設準確率，則增加第一映射語料或者第二映射語料的數量並重新執行步驟A、B、C，直至訓練的所述第一語言模型或者第二語言模型的準確率大於或者等於預設準確率。

進一步地，在其他實施例中，所述預設類型的第一語言模型及/或第二語言模型為n-gram語言模型。n-gram語言模型是大詞匯連續語音識別中常用的一種語言模型，對中文而言，稱之為漢語語言模型(CLM,Chinese Language Model)。漢語語言模型利用上下文中相鄰詞間的搭配資訊，在需要把連續無空格的拼音、筆劃，或代表字母或筆劃的數字，轉換成漢字串(即句子)時，可以計算出具有最大機率的句子，從而實現到漢字的自動轉換，避開了許多漢字對應一個相同的拼音(或筆劃串、數字串)的重碼問題。n-gram是一種統計語言模型，用來根據前(n-1)個item來預測第n個item。在應用層面，這些item可以是音素(語音識別應用)、字符(輸入法應用)、詞(分詞應用)或堿基對(基因資訊)，可以從大規模文本或音頻語料庫生成n-gram模型。

n-gram語言模型基於這樣一種假設，第n個詞的出現只與前面n-1個詞相關，而與其它任何詞都不相關，整句的機率就是各個詞出現的機率的乘積，這些機率可以通過直接從映射語料中統計n個詞同時出現的次數得到。對於一個句子T，假設T是由詞序列W1,W2,…,Wn組成的，那麼句子T出現的機率P(T)=P(W1W2…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)。本實施例中，為了解決出現機率為0的n-gram，在所述第一語言模型及/或第二語言模型的訓練中，本實施例採用了最大似然估計方法，即：P(Wn|W1W2...Wn-1)=C(W1W2...Wn)/C(W1W2...Wn-1)也就是說，在語言模型訓練過程中，通過統計序列W1W2…Wn出現的次數和W1W2…Wn-1出現的次數，即可算出第n個詞的出現機率，以判斷出所對應字的機率，實現語音識別。

進一步地，在其他實施例中，上述步驟S20中對各個切分的語句進行分詞處理的步驟可以包括：根據正向最大匹配法將每一切分的語句中待處理的字符串與預先確定的字詞典庫(例如，該字詞典庫可以是通用字詞典庫，也可以是可擴充的學習型字詞典庫)進行匹配，得到第一匹配結果；根據逆向最大匹配法將每一切分的語句中待處理的字符串與預先確定的字詞典庫(例如，該字詞典庫可以是通用字詞典庫，也可以是可擴充的學習型字詞典庫)進行匹配，得到第二匹配結果。其中，所述第一匹配結果中包含有第一數量的第一詞組，所述第二匹配結果中包含有第二數量的第二詞組；所述第一匹配結果中包含有第三數量的單字，所述第二匹配結果中包含有第四數量的單字。

若所述第一數量與所述第二數量相等，且所述第三數量小於或者等於所述第四數量，則輸出該切分的語句對應的所述第一匹配結果(包括詞組和單字)；若所述第一數量與所述第二數量相等，且所述第三數量大於所述第四數量，則輸出該切分的語句對應的所述第二匹配結果(包括詞組和單字)；若所述第一數量與所述第二數量不相等，且所述第一數量大於所述第二數量，則輸出該切分的語句對應的所述第二匹配結果(包括詞組和單字)；若所述第一數量與所述第二數量不相等，且所述第一數量小於所述第二數量，則輸出該切分的語句對應的所述第一匹配結果(包括詞組和單字)。

本實施例中採用雙向匹配法來對獲取的各個切分的語句進行分詞處理，通過正反向同時進行分詞匹配來分析各個切分的語句待處理的字符串中前後組合內容的粘性，由於通常情況下詞組能代表核心觀點資訊的機率更大，即通過詞組更能表達出核心觀點資訊。因此，通過正反向同時進行分詞匹配找出單字數量更少，詞組數量更多的分詞匹配結果，以作為切分的語句的分詞結果，從而提高分詞的準確性，進而保證語言模型的訓練效果和識別精度。

本發明進一步提供一種語音識別系統。請參閱圖3，是本發明語音識別系統10較佳實施例的運行環境示意圖。

在本實施例中，所述的語音識別系統10安裝並運行於電子裝置100中。該電子裝置100可包括，但不僅限於，儲存器11、處理器12及顯示器13。圖3僅示出了具有組件11-13的電子裝置100，但是應理解的是，並不要求實施所有示出的組件，可以替代的實施更多或者更少的組件。

所述儲存器11在一些實施例中可以是所述電子裝置100的內部存儲單元，例如該電子裝置100的硬碟或記憶體。所述儲存器11在另一些實施例中也可以是所述電子裝置100的外部存儲設備，例如所述電子裝置100上配備的插接式硬碟，智能存儲卡(Smart Media Card,SMC)，安全數位(Secure Digital,SD)卡，快閃記憶體卡(Flash Card)等。進一步地，所述儲存器11還可以既包括所述電子裝置100的內部存儲單元也包括外部存儲設備。所述儲存器11用於存儲安裝於所述電子裝置100的應用軟體及各類資料，例如所述語音識別系統10的程式碼等。所述儲存器11還可以用於暫時地存儲已經輸出或者將要輸出的資料。

所述處理器12在一些實施例中可以是一中央處理器(Central Processing Unit,CPU)，微處理器或其他資料處理晶片，用於運行所述儲存器11中存儲的程式碼或處理資料，例如執行所述語音識別系統10等。

所述顯示器13在一些實施例中可以是LED顯示器、液晶顯示器、觸控式液晶顯示器以及OLED(Organic Light-Emitting Diode，有機發光二極體)觸控器等。所述顯示器13用於顯示在所述電子裝置100中處理的資訊以及用於顯示可視化的用戶界面，例如語音識別的選單界面、語音識別的結果等。所述電子裝置100的部件11-13通過系統匯流排相互通信。

請參閱圖4，是本發明語音識別系統10較佳實施例的功能模組圖。在本實施例中，所述的語音識別系統10可以被分割成一個或多個模組，所述一個或者多個模組被存儲於所述儲存器11中，並由一個或多個處理器(本實施例為所述處理器12)所執行，以完成本發明。例如，在圖4中，所述的語音識別系統10可以被分割成獲取模組01、分詞模組02及訓練識別模組03。本發明所稱的模組是指能夠完成特定功能的一系列電腦程式指令段，比程式更適合於描述所述語音識別系統10在所述電子裝置100中的執行過程。以下描述將具體介紹所述獲取模組01、分詞模組02及訓練識別模組03的功能。

獲取模組01，用於從預先確定的資料源獲取特定類型的資訊文本。

分詞模組02，用於對獲取的各個資訊文本進行語句切分得到若干語句，對各個語句進行分詞處理得到對應的分詞，由各個語句與對應的分詞構成第一映射語料。

訓練識別模組03，用於根據得到的各個第一映射語料，訓練預設類型的第一語言模型，並基於訓練的所述第一語言模型進行語音識別。

進一步地，在其他實施例中，上述分詞模組02還用於：對獲取的各個資訊文本進行清洗去噪。例如，針對微博內容，所述清洗去噪的步驟包括：從微博內容中刪除用戶名、id等資訊，只保留微博的實際內容；刪除掉轉發的微博內容，一般獲取的微博內容中有大量轉發的微博內容，重複的轉發微博內容會影響到詞語的頻次，因此須將轉發的微博內容過濾掉，過濾方法為刪除掉所有包含“轉發”或包含“http”的微博內容；過濾掉微博內容中的特殊符號，將微博內容中預設類型的符號全部過濾掉；繁體轉簡體，微博內容中有大量的繁體字符，利用預先確定的簡繁對應表將所有繁體字符轉變為簡體字符，等等。

進一步地，在其他實施例中，上述訓練識別模組03還用於：根據得到的各個第一映射語料，訓練預設類型的第一語言模型。

根據各個預先確定的樣本語句與對應的分詞的第二映射語料，訓練預設類型的第二語言模型。例如，可預先確定若干樣本語句，如可從預先確定的資料源中找出若干出現頻率最高或最常用的樣本語句，並確定每一樣本語句對應的正確的分詞(包括詞組和單字)，以根據各個預先確定的樣本語句與對應的分詞的第二映射語料，訓練預設類型的第二語言模型。

根據預先確定的模型混合公式，將訓練的所述第一語言模型及第二語言模型進行混合，以獲得混合語言模型，並基於獲得的所述混合語言模型進行語音識別。所述預先確定的模型混合公式可以為：M=a*M1+b*M2其中，M為混合語言模型，M1代表預設類型的第一語言模型，a代表預設的模型M1的權重係數，M2代表預設類型的第二語言模型，b代表預設的模型M2的權重係數。

進一步地，在其他實施例中，所述預設類型的第一語言模型或第二語言模型的訓練過程如下：A、將各個第一映射語料或者各個第二映射語料分為第一比例(例如，70%)的訓練集和第二比例(例如，30%)的驗證集； B、利用所述訓練集訓練所述第一語言模型或者第二語言模型；C、利用所述驗證集驗證訓練的第一語言模型或者第二語言模型的準確率，若準確率大於或者等於預設準確率，則訓練結束，或者，若準確率小於預設準確率，則增加第一映射語料或者第二映射語料的數量並重新執行步驟A、B、C，直至訓練的所述第一語言模型或者第二語言模型的準確率大於或者等於預設準確率。

進一步地，在其他實施例中，上述分詞模組02還用於：根據正向最大匹配法將每一切分的語句中待處理的字符串與預先確定的字詞典庫(例如，該字詞典庫可以是通用字詞典庫，也可以是可擴充的學習型字詞典庫)進行匹配，得到第一匹配結果；根據逆向最大匹配法將每一切分的語句中待處理的字符串與預先確定的字詞典庫(例如，該字詞典庫可以是通用字詞典庫，也可以是可擴充的學習型字詞典庫)進行匹配，得到第二匹配結果。其中，所述第一匹配結果中包含有第一數量的第一詞組，所述第二匹配結果中包含有第二數量的第二詞組；所述第一匹配結果中包含有第三數量的單字，所述第二匹配結果中包含有第四數量的單字。

需要說明的是，在本文中，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，並不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。

通過以上的實施方式的描述，本領域的技術人員可以清楚地瞭解到上述實施例方法可借助軟體加必需的通用硬體平臺的方式來實現，當然也可以通過硬體來實現，但很多情況下前者是更佳的實施方式。基於這樣的理解，本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，該電腦軟體產品存儲在一個儲存媒體(如ROM/RAM、磁碟、光碟)中，包括若干指令用以使得一台終端設備(可以是手機，電腦，伺服器，空調器，或者網路設備等)執行本發明各個實施例所述的方法。

以上參照附圖說明了本發明的較佳實施例，並非因此局限本發明的專利範圍。上述本發明實施例序號僅僅為了描述，不代表實施例的優劣。另外，雖然在流程圖中示出了邏輯順序，但是在某些情況下，可以以不同於此處的順序執行所示出或描述的步驟。

本領域技術人員不脫離本發明的範圍和實質，可以有多種變型方案實現本發明，比如作為一個實施例的特徵可用於另一實施例而得到又一實施例。凡在運用本發明的技術構思之內所作的任何修改、等同替換和改進，均應在本發明的專利範圍之內。

Claims

一種語音識別方法，其包括以下步驟：A、從預先確定的資料源獲取特定類型的資訊文本；所述特定類型包括詞條及其解釋、新聞標題、新聞摘要及/或微博內容；B、根據標點符號對獲取的各個資訊文本進行語句切分得到若干語句，對各個語句進行分詞處理得到對應的分詞，由各個語句與對應的分詞構成第一映射語料；以及C、根據得到的各個第一映射語料，訓練預設類型的第一語言模型，並基於訓練的所述第一語言模型進行語音識別。
如請求項第1項所述之語音識別方法，其中所述步驟C替換為：根據得到的各個第一映射語料，訓練預設類型的第一語言模型；根據各個預先確定的樣本語句與對應的分詞的第二映射語料，訓練預設類型的第二語言模型；根據預先確定的模型混合公式，將訓練的所述第一語言模型及第二語言模型進行混合，以獲得混合語言模型，並基於獲得的所述混合語言模型進行語音識別。
如請求項第2項所述之語音識別方法，其中所述預先確定的模型混合公式為：M=a*M1+b*M2，其中，M為混合語言模型，M1代表預設類型的第一語言模型，a代表預設的模型M1的權重係數，M2代表預設類型的第二語言模型，b代表預設的模型M2的權重係數。
如請求項第2或3項所述之語音識別方法，其中所述預設類型的第一語言模型及/或第二語言模型為n-gram語言模型，所述預設類型的第一語言模型或第二語言模型的訓練過程如下：S1、將各個第一映射語料或者各個第二映射語料分為第一比例的訓練集和第二比例的驗證集；S2、利用所述訓練集訓練所述第一語言模型或者第二語言模型；S3、利用所述驗證集驗證訓練的第一語言模型或者第二語言模型的準確率，若準確率大於或者等於預設準確率，則訓練結束，或者，若準確率小於預設準確率，則增加第一映射語料或者第二映射語料的數量並重新執行步驟S1、S2、S3。
如請求項第1項所述之語音識別方法，其中所述對各個切分的語句進行分詞處理的步驟包括：在一個切分的語句被選擇進行分詞處理時，根據正向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配，得到第一匹配結果，所述第一匹配結果中包含有第一數量的第一詞組和第三數量的單字；根據逆向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配，得到第二匹配結果，所述第二匹配結果中包含有第二數量的第二詞組和第四數量的單字；若所述第一數量與所述第二數量相等，且所述第三數量小於或者等於所述第四數量，則將所述第一匹配結果作為該切分的語句的分詞結果；若所述第一數量與所述第二數量相等，且所述第三數量大於所述第四數量，則將所述第二匹配結果作為該切分的語句的分詞結果；若所述第一數量與所述第二數量不相等，且所述第一數量大於所述第二數量，則將所述第二匹配結果作為該切分的語句的分詞結果；若所述第一數量與所述第二數量不相等，且所述第一數量小於所述第二數量，則將所述第一匹配結果作為該切分的語句的分詞結果。
一種語音識別系統，包括：獲取模組，用於從預先確定的資料源獲取特定類型的資訊文本；所述特定類型包括詞條及其解釋、新聞標題、新聞摘要及/或微博內容；分詞模組，用於根據標點符號對獲取的各個資訊文本進行語句切分得到若干語句，對各個語句進行分詞處理得到對應的分詞，由各個語句與對應的分詞構成第一映射語料；訓練識別模組，用於根據得到的各個第一映射語料，訓練預設類型的第一語言模型，並基於訓練的所述第一語言模型進行語音識別。
如請求項第6項所述之語音識別系統，其中所述訓練識別模組還用於：根據得到的各個第一映射語料，訓練預設類型的第一語言模型；根據各個預先確定的樣本語句與對應的分詞的第二映射語料，訓練預設類型的第二語言模型；根據預先確定的模型混合公式，將訓練的所述第一語言模型及第二語言模型進行混合，以獲得混合語言模型，並基於獲得的所述混合語言模型進行語音識別。
如請求項第7項所述之語音識別系統，其中所述預先確定的模型混合公式為：M=a*M1+b*M2，其中，M為混合語言模型，M1代表預設類型的第一語言模型，a代表預設的模型M1的權重係數，M2代表預設類型的第二語言模型，b代表預設的模型M2的權重係數。
如請求項第7或8項所述之語音識別系統，其中所述預設類型的第一語言模型及/或第二語言模型為n-gram語言模型，所述預設類型的第一語言模型或第二語言模型的訓練過程如下：S1、將各個第一映射語料或者各個第二映射語料分為第一比例的訓練集和第二比例的驗證集；S2、利用所述訓練集訓練所述第一語言模型或者第二語言模型；S3、利用所述驗證集驗證訓練的第一語言模型或者第二語言模型的準確率，若準確率大於或者等於預設準確率，則訓練結束，或者，若準確率小於預設準確率，則增加第一映射語料或者第二映射語料的數量並重新執行步驟S1、S2、S3。
如請求項第6項所述之語音識別系統，其中所述分詞模組還用於：在一個切分的語句被選擇進行分詞處理時，根據正向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配，得到第一匹配結果，所述第一匹配結果中包含有第一數量的第一詞組和第三數量的單字；根據逆向最大匹配法將該切分的語句與預先確定的字詞典庫進行匹配，得到第二匹配結果，所述第二匹配結果中包含有第二數量的第二詞組和第四數量的單字；若所述第一數量與所述第二數量相等，且所述第三數量小於或者等於所述第四數量，則將所述第一匹配結果作為該切分的語句的分詞結果；若所述第一數量與所述第二數量相等，且所述第三數量大於所述第四數量，則將所述第二匹配結果作為該切分的語句的分詞結果；若所述第一數量與所述第二數量不相等，且所述第一數量大於所述第二數量，則將所述第二匹配結果作為該切分的語句的分詞結果；若所述第一數量與所述第二數量不相等，且所述第一數量小於所述第二數量，則將所述第一匹配結果作為該切分的語句的分詞結果。