TWI391915B

TWI391915B - 語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法

Info

Publication number: TWI391915B
Application number: TW098138964A
Authority: TW
Inventors: Huan Chung Li; Chung Hsien Wu; Han Ping Shen; Chun Kai Wang; Chia Hsin Hsieh
Original assignee: Inst Information Industry
Priority date: 2009-11-17
Filing date: 2009-11-17
Publication date: 2013-04-01
Also published as: TW201118854A; US8478591B2; US20110119051A1

Description

語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法

本發明係關於語音變異模型建立之技術領域，更係關於應用該語音變異模型以進行語音辨識之技術領域。

一種語言往往隨著地域、使用者之背景而存在各種不同之腔調。除此之外，某語言在受其他語言的影響下，往往又會產生新的腔調。舉例而言，華語被閩南語影響而有「台灣國語」(閩南語式華語，或簡稱「台灣腔」)、英文被中文影響而有「中式英語」等。這些相對某標準語言不標準的腔調即所謂的「語音變異」。然而，由於語音辨識裝置通常無法對不標準的語音進行辨識，因此這些語音變異皆會使語音辨識裝置的辨識率劇降。

雖然某些習知的語音辨識裝置亦會建立「語音變異模型」而對不標準的語音進行辨識，但「語音變異模型」的建立必需依靠對這些不標準的腔調進行廣泛而大量的收集始得以完成，相當耗費人力和時間，並且，有限的非標準語音語料僅能訓練及建立出有限的語音變異模型，進而造成整體語音辨識率不佳。單一語言本身即可能具有各種語音變異，遑論全球近7000種語言又會彼此交錯影響，要收集所有的變異語料幾乎不可行。

因此，如何設計出一種語音變異模型建立方法或裝置，使其能在少量收集非標準語音語料的情況下達成理想語音辨識率，實乃一重要課題。

本發明提供一種語音變異模型建立裝置，包括一語音語料資料庫，用以紀錄一語言之至少一標準語音模型以及該語言之複數個非標準語音語料；一語音變異驗證器，用以驗證出該等非標準語音語料與該至少一標準語音模型間之複數個語音變異；一語音變異轉換計算器，用以依據該等語音變異以及一語音變異轉換函式，產生該語音變異轉換函式所需之係數；以及一語音變異模型產生器，用以依據該語音變異轉換函式及其係數、以及該至少一標準語音模型，產生至少一語音變異模型。

本發明另提供一種語音辨識系統，包括：一語音輸入裝置，用以輸入一語音；一種本發明前述之語音變異模型建立裝置，用以產生至少一語音變異模型；一語音辨識裝置，用以依據該至少一標準語音模型及該語音變異模型建立裝置所產生之至少一語音變異模型，對該語音進行辨識。

本發明另提供一種語音變異模型建立方法。該語音變異模型建立方法包括：提供一語言之至少一標準語音模型以及該語言之複數個非標準語音語料；驗證出該等非標準語音語料與該至少一標準語音模型間之複數個語音變異；依據該等語音變異以及一語音變異轉換函式，產生該語音變異轉換函式所需之係數；以及依據該語音變異轉換函式及其係數、以及該至少一標準語音模型，產生至少一語音變異模型。

本發明另提供一種語音辨識方法。該語音辨識方法包括：經由一語音輸入裝置輸入一語音；經由本發明前述之方法產生至少一語音變異模型；以及依據該至少一標準語音模型及所產生之至少一語音變異模型，對該語音進行辨識。

藉由執行本發明之方法，可減少非標準語音語料的收集，解決未收集非標準語音語料即無法訓練出語音變異模型的問題，並且能夠以鑑別方法來判斷並剔除無用的語音變異模型，進而提升語音辨識裝置或系統的整體語音辨識率

下文為介紹本發明之最佳實施例。各實施例用以說明本發明之原理，但非用以限制本發明。本發明之範圍當以後附之權利要求項為準。

第1圖係為習知語音辨識裝置示意圖。語音辨識裝置100包括前處理模組110、聲學模型比對模組120、辨識結果解碼模組130、聲學模型訓練模組140、語音辭典資料庫150及語法規則資料庫160。前處理模組110對輸入之語音進行初步的處理之後，將處理過之語音輸出至聲學模型比對模組120。聲學模型比對模組120接著將該處理過的語音與聲學模型訓練模組140訓練出的聲學模型進行比對，其中，舉例而言，上述聲學模型可為某語言之標準語音模型，或是非標準語音模型(即變異語音模型)。最後，辨識結果解碼模組130參照語音辭典資料庫150及語法規則資料庫160而對聲學模型比對模組120比對之結果進行語意辨識，進而產生最終辨識結果。舉例而言，該辨識結果解碼模組130所產生的最終辨識結果為一段可被理解的字串。

一般來說，若語音辨識裝置100在輸入語音之後以完整的語音檔進行語音辨識，可經由一前處理模組110對輸入之語音進行「前處理」。第2圖為前處理模組110所執行之步驟流程圖。前處理程序200包括：接收語音類比訊號輸入S202、語音取樣S204、語音切割S206、端點偵測S208、預強調S210、乘上漢明窗S212、預強調S214、自相關係數求取S216、LPC參數求取S218、求取倒頻譜係數S220、輸出語音特徵S222等步驟，用以在前處理程序S200執行後擷取出語音特徵以供該聲學模型比對模組120進行聲學模型比對之用。

聲學模型訓練模組140可提供該聲學模型比對模組120進行聲學模型比對所需之比對基礎。第3圖為聲學模型訓練模組140所執行之步驟流程圖。聲學模型訓練流程300包括：收集語音語料S302(包括收集標準或非標準之語音語料)、模組初始化S304、利用維特比(Viterbi)演算法計算相似度S306、判斷聲學模型是否收斂S310。若步驟S310之結果為是，則進入最後步驟：建立聲學模型S312；若結果為否，則重新評估S308。就辨識某語言而言，其所有的語音單元都要建立相對應之聲學模型，而聲學模型之建立，舉例而言，可使用隱藏式馬可夫模型(Hidden Makov Model，HMM)，由於其非本發明之重點，故不再贅述。

聲學模型係作為與待辨識的語音進行比對之基礎，因此，聲學模型之建立在語音辨識中佔有舉足輕重的地位，而其中收集語音語料S302又是建立聲學模型之基本步驟。而本發明之主要目的，係為了減輕收集過多「變異」語音語料所產生之負擔，提供一種系統化自動擴增語音變異模型之裝置及方法，其實施方式說明如後。

第4圖為依照本發明一實施例之語音變異模型建立方法的流程圖。本發明之語音變異模型建立方法400包括：步驟S402，提供一語言之至少一標準語音模型；步驟S404，提供該語言之複數個非標準語音語料；步驟S406，驗證出該等非標準語音語料與該至少一標準語音模型間之複數個語音變異；步驟S408，依據該等語音變異以及一語音變異轉換函式，產生該語音變異轉換函式所需之係數；步驟S410，依據該語音變異轉換函式及其係數、以及該至少一標準語音模型，產生至少一語音變異模型；以及步驟S412，用以將所產生的該等語音變異模型中鑑別度低的語音變異模型予以剔除。為使上述發明易於理解，後文將以一實施例作更詳盡的說明。

以建立華語的語音變異模型之作說明。在此實施例中，按照上述步驟S402提供「標準華語」之語音模型，其中該標準語音模型包括「標準華語」中所有語音單元之聲學模型。之後，按照上述步驟S404提供複數個之「台灣國語」(閩南語式華語)語音語料。值得注意的是，本發明之目的即在於減少非標準語音語料之收集量，因此，此步驟不需提供所有「台灣國語」的語音語料。

之後，本實施例進入步驟S406。此步驟可驗證出該等有限的「台灣國語」語料與「標準華語」發明模型間複數個語音變異。簡單地說，驗證，係指去「聽取」一語音之語音是否標準。詳細地說，驗證的方法可藉由比較一待驗證語料與另一標準語料在聲學模型相似度關係而判斷該待驗證語料是否相對該標準語料發生變異。一般而言，語言可分類為複數種語音特徵，且標準語音模型及非標準語音語料皆可分別對應該等語音特徵其中之一，因此本發明可利用對應至該標準語音模型的語音特徵而對各個非標準語音語料進行驗證。上述語音特徵可應用國際語音字母(International Phonetic Alphabet，IPA)，如下表1所示，但本發明不必以此為限：

舉例而言，驗證的方法包括直接去計算該等非標準語音語料(「台灣國語」語料)與該標準語音模型(「標準華語」語音模型)在語音特徵參數上之差距，其中該語音特徵參數可以是「梅爾修頻譜參數」(MFCC,Mel-frequency cepstral coefficient)，而差距可以利用「歐氏距離」(Euclidean distance)或「馬氏距離」(Mahalanobis Distance)作為判斷基準。更詳細地說，步驟406可藉由驗證senone(音素解碼狀態的聚類結果稱為“senone”)模型而找出待驗證語料中語音變異之senone，公式如下：

其中，當PVerification(x)<閥值，則x為可能語音變異。Pverification(x)為senone x語音正確之信心值；g為辨識記分函式；x為以senone為單位之語音資料；λcorrect為x之正確語音模型；λanti-model為與x正確語音模型最相似的語音模型集；N為所取與x正確語音模型最相似的語音模型集之模型數量。值得注意的是，在另一實施例中，被作為比較基準的語音模型不限於「標準語音模型」等。舉例而言，如第5圖所示，若一實施例中在取得該語言之標準語音模型X0(例如：標準華語)之外又另取得該語言之複數個其他周邊語音模型X1~X4(例如：北京腔、上海腔、廣東腔、湖南腔等)，則步驟S406可進一步驗證出該等非標準語音語料X’(台灣腔)分別與該標準語音模型X0(標準華語)與該等周邊語音模型間X1~X4(北京腔、上海腔、廣東腔、湖南腔)之複數個語音變異。

之後，本實施例進入步驟S408，依據步驟406取得之語音變異和一語音變異轉換函式以產生該語音變異轉換函式所需之係數。可假設標準語音模型與非標準語音語料間為線性關係(y=ax+b)或是非線性關係(例如y=ax^2+bx+c)，並利用迴歸或是EM演算法計算轉換函式。正常發音之模型參數輸入轉換函式Y=AX+R，可獲得發音變異之模型的參數。

舉例而言，步驟S408可使用EM演算法而取得該語音變異轉換函式，其公式如下：

以及；

其中，π為初始機率；a為狀態轉移機率；b為狀態觀測機率；q為狀態變數；J為狀態指標；t為時間指標；Σ為變異數。EM演算法中包括E步驟及M步驟，其中E步驟中Q函式之求取如下所示：

O={X,Y}={x ₁ ,y ₁ ,...,x _T ,y _T } 　公式(7)

此外，M步驟中最大化Q函式之求取如下所示：

之後，本實施例進入步驟S410，依據該語音變異轉換函式以及步驟S408取得之係數、以及該至少一標準語音模型，產生至少一語音變異模型(在本實施例中，即「台灣國語」)。之後，本實施例進入步驟S412，將所產生的該等語音變異模型中鑑別度低的語音變異模型予以剔除。詳細地說，當步驟S410所產生語音變異模型其中之一與其他語音變異模型之間的混淆程度為高時，判斷該語音變異模型之鑑別性為低。或者，本發明亦可依據提供該複數非標準語音語料、且使用該等所產生語音變異模型以進行語音辨識，當其中一語音變異模型之辨識結果的錯誤率為高時，判斷該語音變異模型之鑑別性為低。此外，為了進行鑑別，本發明另可依據其所產生複數個語音變異模型在機率空間中分佈之距離，當其中一語音變異模型與其他語音變異模型之距離為小時，判斷該語音變異模型之鑑別性為低。或者，本發明亦可依據對應該語言之複數聲學模型和所產生語音變異模型中最靠近模型之間的關係，驗證該最靠近語音變異模型之鑑別性是否為低。

雖然上述的實施例中僅以單一語言(華語)作說明，但在一最佳實施例中，本發明更可對複數個語言執行上述語音變異模型建立方法，進而產生複數個跨語言語音變異模型，將本發明自動擴增語音變異模型之功效推廣到極致。舉例而言，在一實施例中，可依據上述步驟提供複數個語言(例如：華語、英語、日語)之標準語音模型、並提供該等語言(例如：華語、英語、日語)之複數個非標準語音語料(例如：中式英語、中式日語、英式華語、英式日語、日式華語、日式英語中至少一者)、驗證出該等非標準語音語料與該標準語音模型間(在此實施例為：華語、英語、日語)之複數個語音變異、依據該等語音變異以及複數個語音變異轉換函式產生該語音變異轉換函式所需之係數、並依據該語音變異轉換函式及其係數以及該等標準語音模型(在此實施例為：華語、英語、日語)產生複數個語音變異模型(例如：中式英語、中式日語、英式華語、英式日語、日式華語、日式英語)。本發明所屬技術領域中具有通常知識者可依據本發明之精神自行推廣。

本發明之語音變異模型建立方法已於前文介紹完畢。此外，基於前述方法，本發明另提供一種語音辨識方法，第6圖即依據本發明一實施例之語音辨識方法流程圖。本發明之語音辨識方法包括：執行前述之語音變異模型建立方法400而建立至少一語音變異模型、於步驟S610中經由一語音輸入裝置輸入一語音、於步驟S620中依據該標準語音模型與該等語音變異模型對該語音進行辨識、以及於步驟S630中計算各語音變異模型下對該語音進行辨識而產生之各辨識結果的可能性機率值。在取得各辨識結果的可能性機率值之後，可取其中可能性機率值最高者作為辨識結果而輸出。

上述發明不限於單一語言之各種腔調，亦可對多種語言之多種腔調進行辨識。本發明之方法包括提供複數個語言，分別為該複數個語言分別產生對應之複數個語音變異模型；以及，依據該複數種語言之至少一標準語音模型及其所建立之至少一語音變異模型，對該語音進行多語言之語音辨識。藉由使用本發明的方法，吾人在日常生活中夾雜多種語言、腔調的說話習慣亦不妨礙本發明對語音辨識之效果，熟悉本技藝人士可依據本發明之精神自行推廣應用領域，本文將不再贅述。

除了上述語音變異模型建立方法、語音辨識方法之外，本發明又提供一種語音變異模型建立裝置。第7圖為依據本發明一實施例之語音變異模型建立裝置之方塊圖。本實施例中，語音變異模型建立裝置700的各個元件係分別用以執行前述語音變異模型建立方法之各個步驟S402~S412，分別敘述如下：語音變異模型建立裝置700包括一語音語料資料庫702、一語音變異驗證器706、一語音變異轉換計算器708、一語音變異模型產生器710以及一語音變異模型鑑別器712。其中該語音語料資料庫722用以紀錄一語言之至少一標準語音模型722以及該語言之複數個非標準語音語料724(對應步驟S402、S404)；該語音變異驗證器706用以驗證出該等非標準語音語料與該至少一標準語音模型間之複數個語音變異(對應步驟S406)；該語音變異轉換計算器708用以依據該等語音變異以及一語音變異轉換函式，產生該語音變異轉換函式所需之係數(對應步驟S408)；該語音變異模型產生器410用以依據該語音變異轉換函式及其係數、以及該至少一標準語音模型，產生至少一語音變異模型(對應步驟S410)。該語音變異模型鑑別器710用以將所產生的該等語音變異模型中鑑別度低的語音變異模型予以剔除(對應步驟S412)。本發明之語音變異模型建立裝置700的詳細實施方式、所利用之演算法皆可參照前述關於語音變異模型建立方法之實施例，本文不再贅述。

同樣地，本發明之語音變異模型建立裝置700不限於單一語言之多種腔調，其亦可運用於多種語言及多種腔調之上。舉例而言，當語音變異模型建立裝置700中之該語音語料資料庫702紀錄了複數個語言(例如華語、英語及日語)時，則語音變異模型產生器710可用以產生複數個跨語言語音變異模型(例如：中式英語、中式日語、英式華語、英式日語、日式華語、日式英語)。

本發明之語音變異模型建立裝置已於前文介紹完畢。此外，基於前述裝置，本發明另提供一種語音辨識系統，第8圖即依據本發明一實施例之語音辨識系統示意圖。本發明之語音辨識系統800包括一語音輸入裝置810、如前述之語音變異模型建立裝置700、一語音辨識裝置820，以及一辨識結果可能性計算器830。該語音變異模型建立裝置700，如同前述，可用以建立至少一語音變異模型，當該語音輸入裝置810在輸入一語音之後，該語音辨識裝置820即可依據該至少一標準語音模型及該語音變異模型建立裝置所產生之至少一語音變異模型，對該語音進行辨識。之後，該辨識結果可能性計算器830可用以計算各語音變異模型下對該語音進行辨識而產生之各辨識結果的可能性機率值，在取得各辨識結果的可能性機率值之後，可取其中可能性機率值最高者作為辨識結果而輸出。

此外，本發明另提供一種電腦程式產品，其係儲存於一電子設備，該電子設備讀取該電腦程式產品時執行一語音變異模型建立方法。由於該電腦程式產品所執行之方法已於前文說明，故在此不再贅述。

藉由使用本發明之裝置或方法，語音辨識之效能皆可大幅提升，以下提供一實驗證明之。本實驗目的在比較實施本發明與實施先前技術在語音辨識率上之差異。本發明包含下列四組實施方案：方案1：僅在實施如本發明「語音變異模型建立方法」之步驟S402後，即對待測語音進行辨識。由於本方案未執行本發明方法之其他步驟S404~S412，故屬於習知技術。在此方案中，步驟S402中之標準語音模型係取自「中華民國計算語言學學會台灣口音英語資料庫」，內容為主修英語的學生口說英語共955句。待測語音為女性語音、錄製清楚之英語聲音檔；方案2：實施本發明之步驟S402、S404而不執行步驟S406~S412，之後對相同於方案1的待測語音進行辨識。方案2屬於習知技術。在此方案中，步驟S402如同方案1，而步驟S404收集的非標準語音語料係同樣取自「中華民國計算語言學學會台灣口音英語資料庫」，內容為非主修英語的學生口說英語220句；方案3：實施本發明之步驟S402、S404而不執行步驟S406~S412，之後對相同於方案1的待測語音進行辨識。方案3屬於習知技術。在此方案中，步驟S402如同方案1，而步驟S404收集的非標準語音語料係同樣取自「中華民國計算語言學學會台灣口音英語資料庫」內容為非主修英語的學生口說英語660句；方案4：實施本發明之所有步驟S402~S412，之後對相同於方案1的待測語音進行辨識。在此方案中，步驟S402如同方案1，而步驟S404收集的非標準語音語料係同樣取自「中華民國計算語言學學會台灣口音英語資料庫」，內容為非主修英語的學生口說英語220句。

上述實施結果如下表2所示：

表2中「產生語音變異模型」類同本發明步驟S410之作用，但除方案4的語音變異模型係依照本發明使用「語音變異轉換函式」產生外，餘皆依照習知技術產生。其中，由於方案1未收集任何非標準語音語料，故無法產生語音變異模型，使得其對不標準語音的辨識率不佳，進而影響整體語音辨識率。方案2為一般習知技術，其在收集非標準語音語料220句後一共產生語音變異模型共39個，辨識率約41%。方案3產生如同方案2數量之變音變異模型，但由於方案3相對方案2收集了更多的非標準語音語料(660句，方案2之三倍)，故辨識率提升至52%。方案3之辨識率雖然堪稱理想(習知技術的最佳辨識率約60%)，但須收集大量非標準語音語料。方案4，由於實施本發明之步驟S412而使用本發明之鑑別方法，故相對方案2、3剔除了12個鑑別度較低之語音變異模型，並且，由於實施本發明步驟S406~S408的緣故，使得方案4在僅收集方案3三分之一量的非標準語音語料的情況下仍能達成相同的辨識率，並相對方案2有較高的辨識率。由上述提供的實驗數據可知，經由執行本發明「語音變異模型建立方法」，可減少非標準語音語料的收集，解決未收集非標準語音語料即無法訓練出語音變異模型的問題，並且能夠以鑑別方法來判斷並剔除無用的語音變異模型，進而提昇語音辨識裝置或系統的整體語音辨識率。

本發明雖以較佳實施例揭露如上，然其並非用以限定本發明的範圍，任何熟習此項技藝者，在不脫離本發明之精神和範圍內，當可做些許的更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100．．．語音辨識裝置

110．．．前處理模組

120．．．聲學模型比對模組

130．．．辨識結果解碼模組

140．．．聲學模型訓練模組

150．．．語音辭典資料庫

160．．．語法規則資料庫

X0．．．標準語音模型

X1．．．周邊語音模型

X2．．．周邊語音模型

X3．．．周邊語音模型

X4．．．周邊語音模型

X’．．．非標準語音語料

700．．．語音變異模型建立裝置

702．．．語音語料資料庫

706．．．語音變異驗證器

708．．．語音變異轉換計算器

710．．．語音變異模型產生器

712．．．語音變異模型鑑別器

722．．．標準語音模型

724．．．非標準語音語料

800．．．語音辨識系統

810．．．語音輸入裝置

700．．．語音變異模型建立裝置

820．．．語音辨識裝置

830．．．辨識結果可能性計算器

第1圖為語音辨識裝置示意圖；

第2圖為前處理模組所執行之步驟流程圖；

第3圖為聲學模型訓練模組所執行之步驟流程圖；

第4圖為依照本發明一實施例之語音變異模型建立方法的流程圖；

第5圖為步驟S406中驗證出語音變異的示意圖；

第6圖即依據本發明一實施例之語音辨識方法流程圖；

第7圖為依據本發明一實施例之語音變異模型建立裝置之方塊圖；

第8圖即依據本發明一實施例之語音辨識系統示意圖。

S402~S412．．．步驟

Claims

一種語音變異模型建立裝置，包括：一語音語料資料庫，用以紀錄一語言之至少一標準語音模型以及該語言之複數個非標準語音語料；一語音變異驗證器，用以驗證出該等非標準語音語料與該至少一標準語音模型間之複數個語音變異；一語音變異轉換計算器，用以依據該等語音變異以及一語音變異轉換函式，產生該語音變異轉換函式所需之係數；以及一語音變異模型產生器，用以依據該語音變異轉換函式及其係數、以及該至少一標準語音模型，產生至少一語音變異模型。
如申請專利範圍第1項所述之裝置，其中該語言係分類為複數種語音特徵，且該至少一標準語音模型及該複數個非標準語音語料係分別對應該複數種語音特徵其中之一。
如申請專利範圍第2項所述之裝置，其中，該語音變異驗證器係驗證對應同一語音特徵之該等非標準語音語料與該標準語音模型間之該複數個語音變異；該語音變異轉換計算器係依據該語音特徵之語音變異及對應該語音特徵之語音變異轉換函式，產生該語音變異轉換函式所需之係數；以及，該語音變異模型產生器依據對應該語音特徵之語音變異轉換函式及其係數、以及該語音特徵之至少一標準語音模型，產生該至少一語音變異模型。
如申請專利範圍第1項所述之裝置，其中，該語音變異轉換計算器，更包括用以依據該等語音變異以及一語音變異轉換函式，產生複數組該語音變異轉換函式之係數。
如申請專利範圍第1項所述之裝置，更包括：一語音變異模型鑑別器，用以將所產生的該等語音變異模型中鑑別度低的語音變異模型予以剔除。
如申請專利範圍第5項所述之裝置，其中，該語音變異模型鑑別器係依據當該等所產生語音變異模型其中之一，與其他語音變異模型之間的混淆程度為高時，判斷該語音變異模型之鑑別性為低。
如申請專利範圍第5項所述之裝置，其中，該語音變異模型鑑別器係依據提供該複數非標準語音語料、且使用該等所產生語音變異模型以進行語音辨識，當其中一語音變異模型之辨識結果的錯誤率為高時，判斷該語音變異模型之鑑別性為低。
如申請專利範圍第5項所述之裝置，其中，該語音變異模型鑑別器係依據其所產生複數個語音變異模型在機率空間中分佈之距離，當其中一語音變異模型與其他語音變異模型之距離為小時，判斷該語音變異模型之鑑別性為低。
如申請專利範圍第5項所述之裝置，其中，該語音變異模型鑑別器係依據對應該語言之複數聲學模型和所產生語音變異模型中最靠近模型之間的關係，驗證該最靠近語音變異模型之鑑別性是否為低。
如申請專利範圍第2項所述之裝置，其中該語音變異驗證器係經由計算該等非標準語音語料與該標準語音模型在其對應語音特徵之參數上之一差距，而驗證出該等非標準語音語料與該標準語音模型間之該等語音變異。
如申請專利範圍第10項所述之裝置，其中該語音特徵參數係為一梅爾倒頻譜參數、一歐氏距離或一馬氏距離。
如申請專利範圍第1項所述之裝置，其中該語音語料資料庫更記錄了該語言之複數個周邊語音模型，而該語音變異驗證器更包括用以驗證出該等非標準語音語料分別與該標準語音模型、該等周邊語音模型間之複數個語音變異。
如申請專利範圍第12項所述之裝置，其中該語言係分類為複數種語音特徵，且該至少一標準語音模型及該複數個非標準語音語料係分別對應該複數種語音特徵其中之一；以及，該語音變異驗證器更包括用以計算該等非標準語音語料與該標準語音模型及該等周邊語音模型在其對應語音特徵之參數上之一差距，而驗證出該等非標準語音語料分別與該標準語音模型間、該等周邊語音模型間之複數個語音變異。
如申請專利範圍第1項所述之裝置，其中該語音變異轉換計算器係使用一EM演算法而產生該語音變異轉換函式所需之係數。
如申請專利範圍第1項所述之裝置，其中該語音語料資料庫更紀錄了複數個語言其個別之至少一標準語音模型及其對應之複數個非標準語音語料；該語音變異驗證器更包含用以分別驗證出各語言之複數個語音變異；語音變異轉換計算器更包含分別為各語言產生對應的語音變異轉換函式所需之係數；以及該語音變異模型產生器更包含用以分別為該複數個語言分別產生對應之複數個語音變異模型。
一種語音辨識系統，包括：一語音輸入裝置，用以輸入一語音；一種如申請專利範圍第1項所述之語音變異模型建立裝置；以及一語音辨識裝置，用以依據該至少一標準語音模型及該語音變異模型建立裝置所產生之至少一語音變異模型，對該語音進行辨識。
如申請專利範圍第16項所述之語音辨識系統，更包括：一辨識結果可能性計算器，用以計算各語音變異模型下對該語音進行辨識而產生之各辨識結果的可能性機率值。
如申請專利範圍第16項所述之語音辨識系統，其中該語音變異模型建立裝置之語音語料資料庫更紀錄了複數個語言，而該語音變異模型建立裝置之語音變異模型產生器更用以分別為該複數個語言分別產生對應之複數個語音變異模型；以及，該語音辨識裝置更用以依據該複數種語言之至少一標準語音模型及其所建立之至少一語音變異模型，對該語音進行多語言之語音辨識。
一種語音變異模型建立方法，包括以下步驟：提供一語言之至少一標準語音模型以及該語言之複數個非標準語音語料；驗證出該等非標準語音語料與該至少一標準語音模型間之複數個語音變異；依據該等語音變異以及一語音變異轉換函式，產生該語音變異轉換函式所需之係數；以及依據該語音變異轉換函式及其係數、以及該至少一標準語音模型，產生至少一語音變異模型。
如申請專利範圍第19項所述之方法，其中該語言係分類為複數種語音特徵，且該至少一標準語音模型及該複數個非標準語音語料係分別對應該複數種語音特徵其中之一。
如申請專利範圍第20項所述之方法，其中該方法步驟中，係驗證對應同一語音特徵之該等非標準語音語料與該標準語音模型間之複數個語音變異；依據該語音特徵之語音變異及對應該語音發音特徵之語音變異轉換函式，產生該語音變異轉換函式所需之係數；以及，依據對應該語音特徵之語音變異轉換函式及其係數、以及該語音特徵之至少一標準語音模型，產生至少一語音變異模型。
如申請專利範圍第19項所述之方法，其中該方法更包括依據該等語音變異以及一語音變異轉換函式，產生複數組該語音變異轉換函式之係數。
如申請專利範圍第19項所述之方法，其中該方法更包括：將所產生的該等語音變異模型中鑑別度低的語音變異模型予以剔除。
如申請專利範圍第23項所述之方法，其中該方法更包括：依據當該等所產生語音變異模型其中之一，與其他語音變異模型之間的混淆程度為高時，判斷該語音變異模型之鑑別性為低。
如申請專利範圍第23項所述之方法，其中該方法更包括：依據提供該複數非標準語音語料、且使用該等所產生語音變異模型以進行語音辨識，當其中一語音變異模型之辨識結果的錯誤率為高時，判斷該語音變異模型之鑑別性為低。
如申請專利範圍第23項所述之方法，其中該方法更包括：依據其所產生複數個語音變異模型在機率空間中分佈之距離，當其中一語音變異模型與其他語音變異模型之距離為小時，判斷該語音變異模型之鑑別性為低。
如申請專利範圍第23項所述之方法，其中該方法更包括：依據對應該語言之複數聲學模型和所產生語音變異模型中最靠近模型之間的關係，驗證該最靠近語音變異模型之鑑別性是否為低。
如申請專利範圍第20項所述之方法，其中該方法係經由計算該等非標準語音語料與該標準語音模型在其對應語音特徵之參數上之一差距，而驗證出該等非標準語音語料與該標準語音模型間之該等語音變異。
如申請專利範圍第28項所述之方法，其中該語音特徵參數係為一梅爾倒頻譜參數、一歐氏距離或一馬氏距離。
如申請專利範圍第19項所述之方法，其中該方法更包括：提供該語言之複數個周邊語音模型，且驗證出該等非標準語音語料分別與該標準語音模型、該等周邊語音模型間之複數個語音變異。
如申請專利範圍第30項所述之方法，其中該語言係分類為複數種語音特徵，且該至少一標準語音模型及該複數個非標準語音語料係分別對應該複數種語音特徵其中之一；且該方法更包括：計算該等非標準語音語料與該標準語音模型及該等周邊語音模型在其對應語音特徵之參數上之一差距，而驗證出該等非標準語音語料分別與該標準語音模型間、該等周邊語音模型間之複數個語音變異。
如申請專利範圍第19項所述之方法，其中該方法係使用一EM演算法以產生該語音變異轉換函式所需之係數。
如申請專利範圍第19項所述之方法，其中該方法更包括：提供複數個語言其個別之至少一標準語音模型及其對應之複數個非標準語音語料；分別驗證出各語言之複數個語音變異；分別為各語言產生對應的語音變異轉換函式所需之係數；以及，分別為該複數個語言分別產生對應之複數個語音變異模型。
一種語音辨識方法，包括：經由一語音輸入器輸入一語音；經由如申請專利範圍第19項所述之方法產生至少一語音變異模型；以及依據該至少一標準語音模型及所產生之至少一語音變異模型，對該語音進行辨識。
如申請專利範圍第34項所述之語音辨識方法，更包括：計算各語音變異模型下對該語音進行辨識而產生之各辨識結果的可能性機率值。
如申請專利範圍第34項所述之語音辨識方法，其中該方法更包括：提供複數個語言，分別為該複數個語言分別產生對應之複數個語音變異模型；以及，依據該複數種語言之至少一標準語音模型及其所建立之至少一語音變異模型，對該語音進行多語言之語音辨識。
一種電腦程式產品，係儲存於一電子設備，該電子設備讀取該電腦程式產品時執行一語音變異模型建立方法，其包括：提供一語言之至少一標準語音模型以及該語言之複數個非標準語音語料；驗證出該等非標準語音語料與該至少一標準語音模型間之複數個語音變異；依據該等語音變異以及一語音變異轉換函式，產生該語音變異轉換函式所需之係數；以及依據該語音變異轉換函式及其係數、以及該至少一標準語音模型，產生至少一語音變異模型。