TWI536364B

TWI536364B - 自動語音識別方法和系統

Info

Publication number: TWI536364B
Application number: TW102132754A
Authority: TW
Inventors: Feng Rao; Li Lu; Po Chen; Shuai Yue; Xiang Zhang; er-yu Wang; Da-Dong Xie; Lu Li; Du-Ling Lu
Original assignee: Tencent Tech Shenzhen Co Ltd
Priority date: 2013-01-29
Filing date: 2013-09-11
Publication date: 2016-06-01
Also published as: CN103971675A; CA2899537C; SG11201505402RA; TW201430832A; CN103971675B; JP2016512609A; JP2017049612A; CA2899537A1; WO2014117555A1; JP6436494B2

Description

自動語音識別方法和系統

本申請涉及自動語音識別(ASR，Automatic Speech Recognition)技術領域，尤其涉及一種自動語音識別方法和系統。

自動語音識別技術是將人類的語音中的辭彙內容轉換為電腦可讀的輸入字元的一項技術。

現有的語音識別技術多基於普適性的語音識別應用，即針對常用語音的識別來搭建模型，對於生僻詞語的語音的識別準確率較低。

有鑒於此，本發明的主要目的在於提供一種自動語音識別方法和系統，以提高對生僻詞語的語音的識別準確率。

本發明的一種技術方案是這樣實現的：一種自動語音識別方法，包括：對生語料進行語料分類，得到一個以上不同類別的分類語料；針對所述每個分類語料進行語言模型訓練，得到一個以上對應的分類語言模型；依據分類的生僻程度為所述各個分類語言模型進行加權插值處理，其中各分類的生僻程度與該分類對應的加權值成正相關關係，將加權插值處理後的分類語言模型合併，得到插值語言模型；依據聲學模型和所述插值語言模型構建解碼資源；依據所述解碼資源，對輸入的語音進行解碼，輸出概率值最高的字串作為所述輸入語音的識別結果。

一種自動語音識別系統，包括：分類處理模組，用於對生語料進行語料分類，得到一個以上不同類別的分類語料；分類語言模型訓練模組，用於針對所述每個分類語料進行語言模型訓練，得到一個以上對應的分類語言模型；加權合併模組，用於依據分類的生僻程度為所述各個分類語言模型進行加權插值處理，其中各分類的生僻程度與該分類對應的加權值成正相關關係，將加權插值處理後的分類語言模型合併，得到插值語言模型；資源構建模組，用於依據聲學模型和所述插值語言模型構建解碼資源；解碼器，用於依據所述解碼資源，對輸入的語音進行解碼，輸出概率值最高的字串作為所述輸入語音的識別結果。

與現有技術相比，本發明的上述技術方案對生語料進行語料分類和訓練，得到一個以上對應的分類語言模型，從而使得生僻詞語可以被分類到某一個或某幾個分類語言範本中，然後依據分類的生僻程度為所述各個分類語言模型進行加權插值處理，其中各分類的生僻程度與該分類對應的加權值成正相關關係，即生僻程度越高，則對應的加權值越高，將加權插值處理後的分類語言模型合併，得到插值語言模型。這樣在插值語言範本中，生僻詞語所對應的字串的概率值就會相應提高，從而減少與常用詞語對應字串的概率值的差距，後續解碼過程中，當需要識別用戶說出的較為生僻的詞語的時候，由於生僻詞語對應的字串的概率值顯著提高，因此會降低發生資料偏移的幾率，提高了對於生僻詞語的語音的識別準確率。

本發明的再一種技術方案是這樣實現的：一種自動語音識別方法，包括：根據生語料進行語言模型訓練，得到主語言模型；對生語料進行語料分類，得到一個以上不同類別的分類語料；針對所述每個分類語料進行語言模型訓練，得到一個以上對應的分類語言模型；依據聲學模型和所述主語言模型構建主解碼資源，依據所述各分類語言模型構建對應的分類解碼資源；依據所述主解碼資源對輸入的語音進行解碼，輸出概率值1(w)排在前n名的n個字串；依次根據所述各個分類語言模型對應的各分類解碼資源，分別對所述n個字串進行解碼，得到每個字串在每個分類語言模型中的概率值n(w)；將每個字串在每個分類語言模型中的概率值n(w)乘以該字串在主語言模型中的概率值1(w)得到複合概率p(w)，輸出複合概率p(w)最高的字串作為所述輸入語音的識別結果。

一種自動語音識別系統，包括：主語言模型訓練模組，用於根據生語料進行語言模型訓練，得到主語言模型；分類處理模組，用於對生語料進行語料分類，得到一個以上不同類別的分類語料；分類語言模型訓練模組，用於針對所述每個分類語料進行語言模型訓練，得到一個以上對應的分類語言模型；主資源構建模組，用於依據聲學模型和所述主語言模型構建主解碼資源；分類資源構建模組，用於依據所述各分類語言模型構建對應的分類解碼資源；第一解碼器，用於依據所述主解碼資源對輸入的語音進行解碼，輸出概率值1(w)排在前n名的n個字串；第二解碼器，用於依次根據所述各個分類語言模型對應的各分類解碼資源，分別對所述n個字串進行解碼，得到每個字串在每個分類語言模型中的概率值n(w)；將每個字串在每個分類語言模型中的概率值n(w)乘以該字串在主語言模型中的概率值1(w)得到複合概率p(w)，輸出複合概率p(w)最高的字串作為所述輸入語音的識別結果。

與現有技術相比，本發明的上述方案對生語料進行語料分類計算和訓練，得到一個以上對應的分類語言模型，從而使得生僻詞語可以被分類到某一個或某幾個分類語言模型中，而生僻詞語在其所屬的最相關的分類語言模型中的概率值n(w)是較高的；在對輸入語音進行解碼時，先利用主語言模型所構建的主解碼資源進行一次解碼，輸出的概率值1(w)排在前n的n個字串，生僻詞語對應的字串雖然在主語言模型中的概率值1(w)往往不是最高的，但是通常能夠排在前n名；接下來，再對該n個字串分別根據每個分類語言模型對應的分類解碼資源進行二次解碼，得到每個字串在每個分類語言模型中的概率值n(w)；將每個字串在每個分類語言模型中的概率值n(w)乘以該字串在主語言模型中的概率值1(w)得到複合概率p(w)，該複合概率p(w)可以修正生僻詞語的過低概率值1(w)，因此按照該複合概率p(w)的高低輸出的字串作為所述輸入語音的識別結果，可以降低生僻詞語的語音發生資料偏移的幾率，提高了對於生僻詞語的語音的識別準確率。

由於本發明的技術方案沒有對原始的生語料提出特殊要求，以生僻詞出現頻率較少的生語料為基礎進行訓練即可達到本發明的發明目的，因此能夠在不影響普通用戶日常使用的情況下，滿足了某些特殊用戶對生僻詞語的語音識別需求。

101‧‧‧根據聲學原料進行聲學模型訓練得到聲學模型101

102‧‧‧根據生語料進行語言模型訓練得到語言模型

103‧‧‧依據所述聲學模型和語言模型，以及預設的詞典，構建相應的解碼資源

104‧‧‧將語音輸入到解碼器，解碼器依據所構建的解碼資源對所述語音進行解碼，輸出概率值最高的字串作為所述輸入語音的識別結果

201‧‧‧對生語料進行語料分類計算，得到一個以上不同類別的分類語料

202‧‧‧針對所述每個分類語料進行語言模型訓練計算，得到一個以上對應的分類語言模型

203‧‧‧依據分類的生僻程度為所述各個分類語言模型進行加權插值處理，並將加權插值處理後的分類語言模型合併，得到插值語言模型

204‧‧‧依據聲學模型和所述插值語言模型構建解碼資源

205‧‧‧依據所述解碼資源，對輸入的語音進行解碼，輸出概率值最高的字串作為所述輸入語音的識別結果

301‧‧‧根據生語料進行語言模型訓練計算，得到主語言模型

302‧‧‧對生語料進行語料分類計算，得到一個以上不同類別的分類語料

303‧‧‧針對所述每個分類語料進行語言模型訓練計算，得到一個以上對應的分類語言模型

304‧‧‧依據聲學模型和所述主語言模型構建主解碼資源

305‧‧‧依據所述各分類語言模型構建對應的分類解碼資源

306‧‧‧依據所述主解碼資源對輸入的語音進行解碼，即第一次解碼，輸出概率值l(w)排在前n名的n個字串

307‧‧‧依次根據所述各個分類語言模型對應的各分類解碼資源，分別對所述n個字串進行解碼，得到每個字串在每個分類語言模型中的概率值n(w)

401‧‧‧根據生語料，計算詞與詞之間的親和度矩陣

402‧‧‧從生語料中提取詞特徵

403‧‧‧根據所述親和度矩陣，對所提取出的詞特徵進行降維處理

404‧‧‧將降維處理後的詞特徵輸入分類器進行訓練，輸出一個以上不同類別的分類語料

501‧‧‧分類處理模組

502‧‧‧分類語言模型訓練模組

503‧‧‧加權合併模組

504‧‧‧資源構建模組

505‧‧‧解碼器

601‧‧‧主語言模型訓練模組

602‧‧‧分類處理模組

603‧‧‧分類語言模型訓練模組

604‧‧‧主資源構建模組

605‧‧‧分類資源構建模組

606‧‧‧第一解碼器

607‧‧‧第二解碼器

701‧‧‧親和度矩陣模組

702‧‧‧特徵提取模組

703‧‧‧降維模組

704‧‧‧分類器

圖1：為現有自動語音識別系統的主要處理流程示意圖。

圖2：為本發明實施例自動語音識別方法的流程示意圖。

圖3：為本發明實施例自動語音識別方法的流程示意圖。

圖4：為本發明實施例對生語料進行語料分類計算，得到一個以上不同類別的分類語料的具體處理流程示意圖。

圖5：為本發明實施例一種語音識別系統的結構示意圖。

圖6：為本發明實施例一種語音識別系統的結構示意圖。

圖7：為本發明實施例圖5和圖6中分類處理模組的結構示意圖。

為讓本發明之上述目的及其它目的、技術方案和優點更加清楚，下面將結合圖示及具體實施例對本發明作進一步地詳細描述。

語音識別流程主要包括聲學模型訓練、語言模型訓練、解碼資源構建、以及解碼四個過程。圖1為現有自動語音識別系統的一種主要處理流程的示意圖。參見圖1，主要處理過程包括：步驟101和102，根據聲學原料進行聲學模型訓練得到聲學模型，以及根據生語料進行語言模型訓練得到語言模型。

所述聲學模型是語音識別系統中最為重要的部分之一，目前的主流語音識別系統多採用隱馬爾科夫模型(HMM，Hidden Markov Model)進行建模，隱馬爾可夫模型是統計模型，它用來描述一個含有隱含未知參數的馬爾可夫過程。在隱馬爾可夫模型中，狀態並不是直接可見的，但受狀態影響的某些變數則是可見的。在聲學模型中描述了語音與音素的對應概率。所述音素是根據語音的自然屬性劃分出來的最小語音單位。從聲學性質來看，音素是從音質角度劃分出來的最小語音單位；從生理性質來看，一個發音動作形成一個音素。

所述語言模型主要構建為字串s的概率分佈p(s)，反映了字串s作為一個句子出現的概率。假設w為字串s中的每個詞，則：p(s)=p(w ₁ w ₂ w ₃...w _n)=p(w ₁)p(w ₂｜w ₁)p(w ₃｜w ₁ w ₂)...p(wk｜w ₁ w ₂..w _k-1)

步驟103，依據所述聲學模型和語言模型，以及預設的詞典，構建相應的解碼資源。所述解碼資源為加權有限轉換機(WFST，weighted finite state transducer)網路。

步驟104、將語音輸入到解碼器，解碼器依據所構建的解碼資源對所述語音進行解碼，輸出概率值最高的字串作為所述輸入語音的識別結果。

圖2為本發明所述自動語音識別方法的一種處理流程圖。參見圖2，該流程包括：

步驟201、對生語料進行語料分類，得到一個以上不同類別的分類語料。例如，所述分類語料可以分為人名類、地名類、電腦術語類、醫藥術語類等等。例如“板藍根”屬於醫藥術語類的詞。一個詞也有可能屬於多個分類。

步驟202、針對所述每個分類語料進行語言模型訓練，得到一個以上對應的分類語言模型。

步驟203、依據分類的生僻程度為所述各個分類語言模型進行加權插值處理，其中各分類的生僻程度與該分類對應的加權值成正相關關係，即生僻程度越高，則對應的加權值越高，並將加權插值處理後的分類語言模型合併，得到插值語言模型。這樣在插值語言範本中，生僻詞語所對應的字串的概率值就會相應提高，從而減少與常用詞語對應字串的概率值的差距，提高生僻詞的語音被識別的幾率。

步驟204、依據聲學模型和所述插值語言模型構建解碼資源。此處假設聲學模型已經訓練好，本發明可以直接利用現有的聲學模型。另外，本領域技術人員知道，在構建解碼資源的過程中，還需要詞典的參與，來構建解碼資源。

步驟205、依據所述解碼資源，對輸入的語音進行解碼，輸出概率值最高的字串作為所述輸入語音的識別結果。

圖3為本發明所述自動語音識別方法的又一種處理流程圖。參見圖3，該流程包括：

步驟301、根據生語料進行語言模型訓練，得到主語言模型。此處的語言模型訓練為現有的常規語言模型訓練。

步驟302、對生語料進行語料分類，得到一個以上不同類別的分類語料。

步驟303、針對所述每個分類語料進行語言模型訓練，得到一個以上對應的分類語言模型。

步驟304~305、依據聲學模型和所述主語言模型構建主解碼資源，依據所述各分類語言模型構建對應的分類解碼資源。所述主解碼資源用於在第一次解碼時使用，所述分類解碼資源用於在第二次解碼時使用。解碼資源可以是解碼器。

步驟306、依據所述主解碼資源對輸入的語音進行解碼，即第一次解碼，輸出概率值1(w)排在前n名的n個字串。所述概率值1(w)為語音對應的字串在主語言模型中的概率值。

步驟307、依次根據所述各個分類語言模型對應的各分類解碼資源，分別對所述n個字串進行解碼，得到每個字串在每個分類語言模型中的概率值n(w)。假設此處有m個分類語言模型，則會得到n×m個概率值n(w)。然後，將每個字串在每個分類語言模型中的概率值n(w)乘以該字串在主語言模型中的概率值1(w)得到n×m個複合概率p(w)，輸出複合概率p(w)最高的字串作為所述輸入語音的識別結果。

上述對n個字串進行解碼是指：分別計算n個字串中每個字串在各個分類中的後驗概率值。

在所述步驟201和步驟302中，所述對生語料進行語料分類計算，得到一個以上不同類別的分類語料的具體方法如圖4所示，具體包括：

步驟401、根據生語料，計算詞與詞之間的親和度矩陣。

所述生語料是一種訓練文本。本發明通過建立詞的親和度矩陣(也稱為詞共現矩陣)來描述詞之間的語義關係。在人的認知層面上，一個詞總是與其他詞有關聯，而不是孤立存在的。這種關聯用一種啟動效應可以表示，例如，聽到“醫生”這個詞，馬上會聯想到“患者”或者“護士”；聽到“貓”這個詞，立刻會聯想到“狗”；聽到“男孩”，反應出“女孩”；“喝”聯想到“水”。

因此在該步驟401中，首先要計算每個詞與另一個詞的詞共現度。具體包括：對生語料進行分析，根據公式計算每個詞與另一個詞的詞共現度，並據此構建詞與詞的詞共現矩陣；其中，所述f _ij為詞i在詞j前出現的次數，d _ij為詞i和詞j的平均距離，fi為詞i的詞頻，fj為詞j的詞頻。

根據所述詞共現矩陣，以及公式Aij=sqrt(ΣOR(waf _ik,waf _jk)ΣOR(waf _ki,waf _kj))，計算詞與詞之間的親和度，並據此構建詞與詞之間的親和度矩陣。

所述的親和度，被定義為兩個詞入鏈與入鏈的重疊部分、出鏈與出鏈的重疊部分的幾何平均值。這裏，將一段語料(例如一句話)中，出現在一個詞之前的詞稱為這個詞的入鏈，出現在這個詞之後的詞稱為這個詞的出鏈。顯然詞親和度矩陣是一個對稱矩陣，即無向的網路。按親和度大小排序，排在前面的詞基本都是同義、近義或非常相關的詞。在親和度網路中，兩結點間的邊的親和度越強，說明他們越相關；如果強度很弱甚至兩結點不存在邊，則表明它們幾乎不相關。通過計算Aij，可以構建一個詞與詞之間的協方差矩陣，該協方差矩陣就是親和度矩陣，該親和度矩陣中，由於是按親和度排序，對於親和度很小的部分可以忽略，因此該親和度矩陣的維度相比原始的生語料的詞特徵向量的維度會小很多。

步驟402、利用詞頻-逆向檔頻率(TF-IDF，term frequency-inverse document frequency)方法從生語料中提取詞特徵。

本發明文本分類中主要應用的模型是文本的向量空間模型(VSM，Vector Space Model)。向量空間模型的基本思想是以文本的特徵向量<W1,W2,W3,…,Wn>來表示文本，其中Wi為第i個特徵項的權重。因此基於向量空間模型的分類中關鍵一步就是如何從文本中提取反映類別的有效特徵。在本步驟402中，本發明採用TF-IDF方法從生語料中提取詞特徵，用TF-IDF特徵來表示w的權重。

在一份給定的檔裏，詞頻(TF，term frequency)指的是某一個給定的詞語在該檔中出現的次數。這個數字通常會被歸一化，以防止它偏向長的檔。同一個詞語在長檔裏可能會比短文件有更高的詞頻，而不管該詞語重要與否。逆向檔頻率(IDF，inverse document frequency)是一個詞語普遍重要性的度量。某一特定詞語的IDF，可以由總檔數目除以包含該詞語之檔的數目，再將得到的商取對數得到。某一特定檔內的高詞語頻率，以及該詞語在整個檔集合中的低檔頻率，可以產生出高權重的TF-IDF。因此，TF-IDF傾向于保留文檔中較為特別的詞語，過濾常用詞。因此通過這種TF-IDF的方式，可以從生語料中提取出較生僻的詞語的詞特徵。

步驟403、根據所述親和度矩陣，利用降維方法對所提取出的詞特徵進行降維處理。

在本步驟403中，所述降維方法可以有多種。但是在一種優選實施方式中，可以採用主成分分析(PCA，Principal Components Analysis)降維方法來實現。由於在步驟402中所提取出的詞特徵向量的維度較高，例如此處假設為N維，而步驟401所述的親和度矩陣的維度較少，例如此處假設為M維，N遠大於M。那麼經過降維處理後，所述N維的詞特徵向量的維度則被降為M維。即通過降維處理，可以降低雜訊資料的影響，降低時間複雜度和空間複雜度等，可以將那些親和度小的詞與詞的組合過濾掉。

步驟404、將降維處理後的詞特徵輸入分類器進行訓練，輸出一個以上不同類別的分類語料。

本步驟可以採用現有的某種分類器，例如支援向量機(SVM，Support Vector Machine)分類器、Bayes分類器，BP神經網路分類器，基於決策樹演算法的分類器等。分類器在使用前，需要先利用已經過分類的多個類別的樣本對分類器進行訓練以使分類器具有對這多個類別進行識別的能力。樣本一般包括正例樣本，也可以包括反例樣本。樣本可以是經人工分類得到的，也可以是從某個語料庫提取得到的樣本等等。樣本需要涵蓋需要識別的各種類別的樣本，如人名類、地名類、電腦術語類、醫藥術語類等等。經過多個類別的樣本訓練得到的分類器就可以用在本步驟中對詞特徵進行分類，也即計算一個詞特徵屬於上述多個類別中各個類別的概率，並將概率最大的分類輸出作為該詞特徵所屬的分類。經過測試，本發明在20個類的分類效果能夠達到92%的準確率。

當然，除了圖4所述的對生語料進行語料分類計算的方法，本發明還可以採用其他現有的語料分類計算方法對生語料進行分類。但是，圖4所述的方法的準確率更高，速度更快。

與上述方法相對應，本發明還公開了語音識別系統，用於執行上述的方法。

圖5為本發明所述一種語音識別系統的一種組成示意圖。參見圖5，該系統包括：分類處理模組501，用於對生語料進行語料分類計算，得到一個以上不同類別的分類語料；分類語言模型訓練模組502，用於針對所述每個分類語料進行語言模型訓練計算，得到一個以上對應的分類語言模型；加權合併模組503，用於依據分類的生僻程度為所述各個分類語言模型進行加權插值處理，其中各分類的生僻程度與該分類對應的加權值成正相關關係，即生僻程度越高，則對應的加權值越高，將加權插值處理後的分類語言模型合併，得到插值語言模型；資源構建模組504，用於依據聲學模型和所述插值語言模型構建解碼資源；解碼器505，用於依據所述解碼資源，對輸入的語音進行解碼，輸出概率值最高的字串作為所述輸入語音的識別結果。

圖6為本發明所述又一種語音識別系統的一種組成示意圖。參見圖6，該系統包括：

主語言模型訓練模組601，用於根據生語料進行語言模型訓練計算，得到主語言模型。此處的語言模型訓練為現有的常規語言模型訓練。

分類處理模組602，用於對生語料進行語料分類計算，得到一個以上不同類別的分類語料。

分類語言模型訓練模組603，用於針對所述每個分類語料進行語言模型訓練計算，得到一個以上對應的分類語言模型。

主資源構建模組604，用於依據聲學模型和所述主語言模型構建主解碼資源。

分類資源構建模組605，用於依據所述各分類語言模型構建對應的分類解碼資源。

第一解碼器606，用於依據所述主解碼資源對輸入的語音進行解碼，輸出概率值1(w)排在前n名的n個字串；

第二解碼器607，用於依次根據所述各個分類語言模型對應的各分類解碼資源，分別對所述n個字串進行解碼，得到每個字串在每個分類語言模型中的概率值n(w)；將每個字串在每個分類語言模型中的概率值n(w)乘以該字串在主語言模型中的概率值1(w)得到複合概率p(w)，輸出複合概率p(w)最高的字串作為所述輸入語音的識別結果。

圖7為所述圖5和圖6中所述的分類處理模組的一種組成示意圖。參見圖7，所述分類處理模組具體包括：

親和度矩陣模組701，用於根據生語料，計算詞與詞之間的親和度矩陣。具體的計算方法請參考上述步驟401至步驟404。

特徵提取模組702，用於利用TF-IDF方法從生語料中提取詞特徵。

降維模組703，用於根據所述親和度矩陣，利用降維方法對所提取出的詞特徵進行降維處理。在一種優選實施方式中，所述降維模組為PCA降維模組。

分類器704，用於對降維處理後的詞特徵進行訓練，輸出一個以上不同類別的分類預料。在一種優選實施方式中，所述分類器為SVM分類器。

本發明所述的語音識別方法和系統可以應用在垂直領域的語音識別、語音關鍵字的識別，以及語音問答系統等技術領域中。而且可以支援多平臺，包括嵌入式平臺和PC平臺。

雖然本發明已利用上述實施例揭示，然其並非用於限定本發明，任何熟悉此技藝者在不脫離本發明之精神和範圍之內，相對上述實施例進行各種更動與修改仍屬本發明所保護之技術範疇，因此本發明之保護範圍當視後附之申請專利範圍所界定者為准。

201‧‧‧對生語料進行語料分類，得到一個以上不同類別的分類語料

202‧‧‧針對所述每個分類語料進行語言模型訓練，得到一個以上對應的分類語言模型

204‧‧‧依據聲學模型和所述插值語言模型構建解碼資源

Claims

一種自動語音識別方法，該方法包括：對生語料進行語料分類，得到一個以上不同類別的分類語料，使得生僻詞語可以被分類到某一個或某幾個分類語料中；針對所述每個分類語料進行語言模型訓練，得到一個以上對應的分類語言模型；依據分類的生僻程度為所述各個分類語言模型進行加權插值處理，其中各分類的生僻程度與該分類對應的加權值成正相關關係，將加權插值處理後的分類語言模型合併，得到插值語言模型；依據聲學模型和所述插值語言模型構建解碼資源；依據所述解碼資源，對輸入的語音進行解碼，輸出概率值最高的字串作為所述輸入語音的識別結果。
如請求項1所述之自動語音識別方法，其中對生語料進行語料分類計算，得到一個以上不同類別的分類語料，具體包括：根據生語料，計算詞與詞之間的親和度矩陣；利用詞頻-逆向檔頻率TF-IDF方法從生語料中提取詞特徵；根據所述親和度矩陣，利用降維方法對所提取出的詞特徵進行降維處理；將降維處理後的詞特徵輸入分類器，分類器輸出一個以上不同類別的分類語料。
如請求項2所述之自動語音識別方法，其中根據生語料，計算詞與詞之間的親和度矩陣，具體包括：對生語料進行分析，根據公式計算每個詞與另一個詞的詞共現度，並據此構建詞與詞的詞共現矩陣；其中，所述f _ij為詞i在詞j前出現的次數，d _ij為詞i和詞j的平均距離，fi為詞i的詞頻，fj為詞j的詞頻；根據所述詞共現矩陣，以及公式Aij=sqrt(ΣOR(waf _ik,waf _jk)ΣOR(waf _ki,waf _kj))，計算詞與詞之間的親和度，並據此構建詞與詞之間的親和度矩陣。
如請求項2所述之自動語音識別方法，其中降維方法為主成分分析PCA降維方法。
如請求項2所述之自動語音識別方法，其中分類器為支援向量機SVM分類器。
一種自動語音識別方法，該方法包括：根據生語料進行語言模型訓練，得到主語言模型；對生語料進行語料分類，得到一個以上不同類別的分類語料，使得生僻詞語可以被分類到某一個或某幾個分類語料中；針對所述每個分類語料進行語言模型訓練，得到一個以上對應的分類語言模型；依據聲學模型和所述主語言模型構建主解碼資源，依據所述各分類語言模型構建對應的分類解碼資源；依據所述主解碼資源對輸入的語音進行解碼，輸出概率值1(w)排在前n名的n個字串；依次根據所述各個分類語言模型對應的各分類解碼資源，分別對所述n個字串進行解碼，得到每個字串在每個分類語言模型中的概率值n(w)；將每個字串在每個分類語言模型中的概率值n(w)乘以該字串在主語言模型中的概率值1(w)得到複合概率p(w)，輸出複合概率p(w)最高的字串作為所述輸入語音的識別結果。
如請求項6所述之自動語音識別方法，其中對生語料進行語料分類計算，得到一個以上不同類別的分類語料，具體包括：根據生語料，計算詞與詞之間的親和度矩陣；利用TF-IDF方法從生語料中提取詞特徵；根據所述親和度矩陣，利用降維方法對所提取出的詞特徵進行降維處理；將降維處理後的詞特徵輸入分類器，分類器輸出一個以上不同類別的分類語料。
如請求項7所述之自動語音識別方法，其中根據生語料，計算詞與詞之間的親和度矩陣，具體包括：對生語料進行分析，根據公式計算每個詞與另一個詞的詞共現度，並據此構建詞與詞的詞共現矩陣；其中，所述f _ij為詞i在詞j前出現的次數，d _ij為詞i和詞j的平均距離，fi為詞i的詞頻，fj為詞j的詞頻；根據所述詞共現矩陣，以及公式Aij=sqrt(ΣOR(waf _ik,waf _jk)ΣOR(waf _ki,waf _kj))，計算詞與詞之間的親和度，並據此計算詞與詞之間的親和度矩陣。
如請求項7所述之自動語音識別方法，其中降維方法為PCA降維方法。
如請求項7所述之自動語音識別方法，其中分類器為SVM分類器。
一種自動語音識別系統，該系統包括：分類處理模組，用於對生語料進行語料分類，得到一個以上不同類別的分類語料，使得生僻詞語可以被分類到某一個或某幾個分類語料中；分類語言模型訓練模組，用於針對所述每個分類語料進行語言模型訓練，得到一個以上對應的分類語言模型；加權合併模組，用於依據分類的生僻程度為所述各個分類語言模型進行加權插值處理，其中各分類的生僻程度與該分類對應的加權值成正相關關係，將加權插值處理後的分類語言模型合併，得到插值語言模型；資源構建模組，用於依據聲學模型和所述插值語言模型構建解碼資源；解碼器，用於依據所述解碼資源，對輸入的語音進行解碼，輸出概率值最高的字串作為所述輸入語音的識別結果。
如請求項11所述之自動語音識別系統，其中分類處理模組具體包括：親和度矩陣模組，用於根據生語料，計算詞與詞之間的親和度矩陣；特徵提取模組，用於利用TF-IDF方法從生語料中提取詞特徵；降維模組，用於根據所述親和度矩陣，利用降維方法對所提取出的詞特徵進行降維處理；分類器，用於對降維處理後的詞特徵進行訓練，輸出一個以上不同類別的分類語料。
如請求項12所述之自動語音識別系統，其中降維模組為PCA降維模組。
如請求項12所述之自動語音識別系統，其中分類器為SVM分類器。
一種自動語音識別系統，該系統包括：主語言模型訓練模組，用於根據生語料進行語言模型訓練，得到主語言模型；分類處理模組，用於對生語料進行語料分類，得到一個以上不同類別的分類語料，使得生僻詞語可以被分類到某一個或某幾個分類語料中；分類語言模型訓練模組，用於針對所述每個分類語料進行語言模型訓練，得到一個以上對應的分類語言模型；主資源構建模組，用於依據聲學模型和所述主語言模型構建主解碼資源；分類資源構建模組，用於依據所述各分類語言模型構建對應的分類解碼資源；第一解碼器，用於依據所述主解碼資源對輸入的語音進行解碼，輸出概率值1(w)排在前n名的n個字串；第二解碼器，用於依次根據所述各個分類語言模型對應的各分類解碼資源，分別對所述n個字串進行解碼，得到每個字串在每個分類語言模型中的概率值n(w)；將每個字串在每個分類語言模型中的概率值n(w)乘以該字串在主語言模型中的概率值1(w)得到複合概率p(w)，輸出複合概率p(w)最高的字串作為所述輸入語音的識別結果。
如請求項15所述之自動語音識別系統，其中分類處理模組具體包括：親和度矩陣模組，用於根據生語料，計算詞與詞之間的親和度矩陣；特徵提取模組，用於利用TF-IDF方法從生語料中提取詞特徵；降維模組，用於根據所述親和度矩陣，利用降維方法對所提取出的詞特徵進行降維處理；分類器，用於對降維處理後的詞特徵進行訓練，輸出一個以上不同類別的分類語料。
如請求項16所述之自動語音識別系統，其中降維模組為PCA降維模組。
如請求項16所述之自動語音識別系統，其中分類器為SVM分類器。