TWI293753B

TWI293753B - Method and apparatus of speech pattern selection for speech recognition

Info

Publication number: TWI293753B
Application number: TW093141877A
Authority: TW
Inventors: Liang Sheng Huang; wen wei Liao; Jia Lin Shen
Original assignee: Delta Electronics Inc
Priority date: 2004-12-31
Filing date: 2004-12-31
Publication date: 2008-02-21
Also published as: JP2006189799A; US20060149545A1; TW200625273A

Description

1293753 九、發明說明：【發明所屬之技術領域】明係與—種語音輸人方法及裝置有關，尤其是與一種 &擇句型之語音輸入方法及裝置有關。【先前技術】 t著語音辨識技術的快速發展，語音辨識系統與家電、通二f媒體、魏等產品的結合越來越普遍。然而，發展語音統時常碰的課題之―，便是#使用者面對麥克風時， ΐ田 1可以說什麼’尤其是若這齡品在語音輸人方面，允許 ίΐί:定程度的自由度時，使用者往往不知所措，導致無法體驗到使用語音輸入所帶來的好處。為三^行具備語音韻功能的裝置，其語音輸人方式大致可分认提供單—句型輸人：使用者僅能依照該裝置限定的單 ’其，在於句型變化太少，在某些應用領域，$ =敷使用’或是無法對目標物做精準之表達。社if多樣化的句型輸人：使用者必須詳閱說明書等文件才此知遏有哪些句型可供使用，一旦使用必須翻閱文件才能使用。此外，二：ϋ ，由於纽立㈣㈣㈣f用者軸元全不受句型限制，但是 f ’也料致語音_的錯誤率提高。不導引下，系統與使用者之間以一來一 /、一，語音的輸入動作，其缺點在於整個_容^於ϋ了= 錯時，更會讓使用者失去ί性一的機制：使用者在系統介面的提者在述式财私可避朗缺陷，因此使用 _自然且人性化的介面所帶來的好處，反騎覺3 Γ293753 因此使得聲控裝置在應研之請人鑑於習知技術之缺失，乃經悉心試驗鱼 :;輸捨之精神’終於研發出-種可選擇句型: 【發明内容】入裝ΐ案種職使用者選擇句型的語音輸句型缩小辨f用圮憶各種輸入句型，且在限定 !!i辨識圍後’亦可提升語音辨識的正確性。置，ifi述構案提供—種可選擇句型之語音輪入裝以輪ί並切換該複數種句型以供-使用者_; L =識早1=以辨識該使用者所輸人之^“ 元，其係依據該辨識結果至兮肉六次# 抽4♦丨_、丄、·“，_ 一〜内谷貝料庫搜哥對應之該資料。顯示器。揚聲器。用以輸入縣音；—概參數:·〃”叶元更包含：-輸入裝置，

..'。果資二搜 S 根據上述構相，豆中兮於山二貝竹犀技根攄上械播=甘、輸出介面係為一顯示器根據上該輪出介面係為—揚聲器 ^據^述縣，其巾驗音辨識單元語音之特徵參數；一辨識^ 裝置，用以擷取所輸入之該識字彙和語言模型目錄’其係包含複數以供辨識參考用；以及—語广聲學模型，用 st、繼_ -後，該句、單選擇該複數種句型其中之和語言_，以供雜相挪句型之該辨識字彙本案之另—構想在提供—種可選擇句型之語音輸入方法， 1293753 其步驟係包含：（a)提供複數種句型；（b)顯示並切換該複數種句型；（C)選擇該複數種句型其中之一，·（d)啟動一模型，以對應該所選擇句型；（e)輸入一語音；（f)參考該模型對該語音進行辨識，並產生一辨識結果；（g)將該辨識結果輸入至一資料庫搜尋單元；以及(h)由該資料庫搜尋單元至一内容資料庫’搜尋對應該辨識結果之一内容。根據上述構想，其中步驟（f)更包含下列步驟··（fl)擷取该語音之一特徵參數；以及（f2)依據該特徵參數，參考該模型對該語音進行辨識。根據上述構想，其中步驟（Π)更包含下列步驟：（fll)對該語音進行預處理；以及（fl2)擷取該語音之該特徵參數。立丄，據上述構想，其中步驟（fU)更包含下列步驟··放大該語曰，號，對該語音信號正規K(n〇rmaHzati〇n);對該語音信號進打預強調（pre-emphasis);將該語音乘上漢明窗（Hamming

Window);以及將該語音通過一低通濾波器或一高通濾波器。、—根據上述構想，其中步驟（fl2)更包含下列步驟··對該語音進^5立葉變換(細？〇虹化丁_“_，卿處理；以 "亥"口日之梅爾倒頻譜參數（Me 1 一Frequency Cepstmm Coefficients, MFCC) 〇创曰想在提供一種動態更新一辨識字彙和語言模字彙&n _識字彙和語言模型目錄係包含複數組辨識 2=31且用於一可選擇句型之語音輸入裝置，該可語古“/二置更包含—内容資料庫及—辨識字彙和一内容有所更動其步驟係包含：⑷該内容資料庫之元，將該内容ΐ二之 1目==字彙和語言模型/索引建立單言模型以及内谷載人’並轉成—辨識字彙和語識字彙和語言模型目^將該辨ff彙和語言模型儲存於該辨庫中。目錄中，以及(d)將該索引儲存於内容資料 8 1293753 【實施方式】本技，使得熟習施例而被限制其實施型態。 …、本案之貫施亚非可由下列實之一 ’iiii案之可選#句型之語音輸入裝置 101、-輸出介面⑽、-語音辨ί單置亓了^含―句型選擇單元種句型至該輸出介面102，由該輪係提供複數供使用者切換選擇，該語音辨If ^等句型以該資料庫搜尋單元105則來老兮存使用者所需之資料，搜尋對應該辨識結果之資料。°B、、、、D果’至該内容資料庫綱應用上，該輸出介面⑽可為 1031' 和語言模型目錄^、1==3=模=識字棄 ίί01取輸赠之瓣數，語音_ιί= 來1徵參數，字彙和語_目ΐ : 枝目錄⑽3中對應該句型之辨識字彙和語言模型。之硬係為本案之可選擇句型之語音輪入裝置風2〇1、施例。該語音輸入裝置2係包含一麥克頌不蚤幕202、所顯示之一句型203、一瀏覽按鈕2〇4 1293753 #可一一口相^ "5過循％式的瀏覽按鈕2〇4選擇，這些句型句型後，iiitiSti使Γ透過按鍵選擇來設定所選^的句型20^=05後’便可利用麥克風201根據圖。由置識字彙和語言模型之示意檔案模式存在供諮詢的資===何可能以 S^isrr模型/索引建立單元303會將内容資料ί 302 i =將觸字彙和語言麵敍於钱和語言模^ 新辨1 一^將§錄引存放於内容資料庫3G2内，藉此達到更新辨識子茱和語言模型的目的。㈢咬〜又圖=閱第四圖’其係本案更新辨識字彙和語言模型之流程 ^百先，在步驟Α中，内容資料庫之資料有所更 Ϊ由f辨識字彙和語言模型/索引建立單元，Ϊ該語中將語言模型儲存於^ 容資料庫中在步驟D中，將該索引儲存於内 =1«用上，可將重建的啟騎令加在上述之^音輪入裝置的選單中，使用者只要選 ^^ 吕模型及索引的功能，便能啟動辨識字彙和語言 ^93753 進行重建依據上述更新步驟 ::時’裝置端可動態進行重建⑽提在性的;性、進步性與實用所如果使用者擁有各種使用本案㈣二Γ工Δ置’就更月b感受到不必記憶許多指令和句型的，本案&供的語音輸入裝置及方法，在限定句型德， ϊίϊϊΐ!縮小的關係，可以提高語音辨識的正確性，也更，本發明已由上述之實施例詳細敘述而可由專'i範_諸_，然皆不脫如附申請解··本案得藉由下列圖示與實施例之說明，俾得一更深入之瞭籲【圖式簡單說明】實施t圖所示為本案之可選擇句型之語音輸入裝置之一較佳觀之==^案之可選擇句型之語音輪入裝置之硬體外 ^三圖所示為本案更新辨識字彙和語謂型之示意圖；以及苐四圖所TF為本敎_識字彙和語言模型之_圖。【主要元件符號說明】 101 :句型選擇單元 11 1293753 102 :輸出介面 103 :語音辨識單元 1031 :輸入裝置 1032 :特徵參數擷取裝置 * 1033 :辨識字彙和語言模型目錄 1034 :聲學模型 1035 :語音辨識引擎 104 :内容資料庫 105 :資料庫搜尋單元 201 :麥克風 202 :顯示螢幕 ❿ 203 :句型 204 :瀏覽按鈕 205 :錄音按鈕 301 :辨識字彙和語言模型目錄 302 :内容資料庫 303 :辨識字彙和語言模型/索引建立單元

12

Claims

Γ293753 卜、申請專利範圍： h〜種可選擇句型之語音輸入裝置，其包含： —句型選擇單元，用以提供複數種句型；選擇^輸出介面，用以輸出並切換該複數種句型以供一使用者到識單元’用以辨識該使用者所之—語音而得 =各資料庫，用以儲存一資料；以及搜尋錢鎌_紅_容資料庫 ^如示申^專利翻第1撕叙裝置，其找輪出介面係為 3二揚如聲申^:專利範諫項所述之裝置，其中該輸出介面係為 4更包=申請專利範圍第1項所述之裝置，其中該語音辨識單元一輸入裝置，用以輸入該語音；數；語言’其係包含複數組__ 二’肋供觸參相；以及 ^如申請專利範圍扪項所;以。句型其中之—後，;使用者選擇 ϊ擇句型之該辨識字棄和語言 6_—種可_㈣之好“枝，齡善'衫：^ 寺I數擷取裝置，用以類取所輸入之該語音之特徵表 1293753 (a) 提供複數種句型； (b) 顯示並切換該複數種句型； (C)選擇該複數種句型其中之一； r⑷啟動一模型’以對應該所選擇句型； (e)輸入一語音； =多考4模型對该語音進行辨· hg 輸人至—資料庫搜尋單元；= 識結Ϊ之=。雜料紅m解，麟對應該辨 y驟申請細_6項所述之方法，其中步驟⑴更包含下 ^1)擷取該語音之一特徵參數；以及 8.如參數’參考該模型對該語音進行辨識。下歹ί步驟弟項所述之方法’其中步驟(⑴更包含 ffll)對該語音進行預處理；以及 (^12)榻取該語音之該特徵參數。下列0步申專利範圍第8項所述之方法，其中步驟⑽更包含放大該語音信號； ^語音信號正規化(―㈣； =香音信號進行職調(pre_emphasis); 音乘上漢明窗(Hamming Window);以及 ίο ϋίΐ，—低通紐器或—高通濾、波器。人’nr；Ji卓5月專利範圍第8項所述之方法’其中步驟（η2)更包含下列步驟： FFdIs F〇Urier TranSf〇m 求取该語音之梅爾倒頻譜參數(Mel-Frequency Cepstrum 14 1293753 Coefficients, MFCC)。 n. 一種動態更新一辨識字彙和語士識字彙和語言模型目錄係包含複數法，該辨，於-可選擇句型之語音輸人裝置莫型，賊立單驟;^庫及—辨識字彙和語言模型/索 (a)該内容資料庫之一内容有所更動· 容資ϋίίΐ辨識字彙和語言模型/索引建立單心將該内及相㈣容载人’並轉成—辨識字彙和語言模型以 _(目1彔Ϊ該3字彙和語言模型儲存於該辨識字彙和語言 (d)將該索引儲存於内容資料庫中。

15 1293753 七、指定代表圖： (一）本案指定代表圖為：第（一）圖。 (二) 本代表圖之元件符號簡單說明： 101 :句型選擇單元 102 :輸出介面 103 :語音辨識單元 1031 :輸入裝置 1032 :特徵參數擷取裝置 1033 ··辨識字彙和語言模型目錄 1034 :聲學模型 1035 :語音辨識引擎 104 :内容資料庫 105 :資料庫搜尋單元八、本案若有化學式時，請揭示最能顯示發明特徵的化學式：