TWI293753B - Method and apparatus of speech pattern selection for speech recognition - Google Patents

Method and apparatus of speech pattern selection for speech recognition Download PDF

Info

Publication number
TWI293753B
TWI293753B TW093141877A TW93141877A TWI293753B TW I293753 B TWI293753 B TW I293753B TW 093141877 A TW093141877 A TW 093141877A TW 93141877 A TW93141877 A TW 93141877A TW I293753 B TWI293753 B TW I293753B
Authority
TW
Taiwan
Prior art keywords
sentence
voice
speech
language
vocabulary
Prior art date
Application number
TW093141877A
Other languages
English (en)
Other versions
TW200625273A (en
Inventor
Liang Sheng Huang
wen wei Liao
Jia Lin Shen
Original Assignee
Delta Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Delta Electronics Inc filed Critical Delta Electronics Inc
Priority to TW093141877A priority Critical patent/TWI293753B/zh
Priority to JP2005337154A priority patent/JP2006189799A/ja
Priority to US11/294,011 priority patent/US20060149545A1/en
Publication of TW200625273A publication Critical patent/TW200625273A/zh
Application granted granted Critical
Publication of TWI293753B publication Critical patent/TWI293753B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

1293753 九、發明說明: 【發明所屬之技術領域】 明係與—種語音輸人方法及裝置有關,尤其是與一種 &擇句型之語音輸入方法及裝置有關。 【先前技術】 t著語音辨識技術的快速發展,語音辨識系統與家電、通 二f媒體、魏等產品的結合越來越普遍。然而,發展語音 統時常碰的課題之―,便是#使用者面對麥克風時, ΐ田 1可以說什麼’尤其是若這齡品在語音輸人方面,允許 ίΐί:定程度的自由度時,使用者往往不知所措,導致無法 體驗到使用語音輸入所帶來的好處。 為三^行具備語音韻功能的裝置,其語音輸人方式大致可分 认提供單—句型輸人:使用者僅能依照該裝置限定的單 ’其,在於句型變化太少,在某些應用領域 ,$ =敷使用’或是無法對目標物做精準之表達。 社if多樣化的句型輸人:使用者必須詳閱說明書等文 件才此知遏有哪些句型可供使用,一旦使用 必須翻閱文件才能使用。此外,二:ϋ , 由於纽立㈣㈣㈣f用者軸元全不受句型限制,但是 f ’也料致語音_的錯誤率提高。 不導引下,系統與使用者之間以一來一 /、一 ,語音的輸入動作,其缺點在於整個_容^於ϋ了= 錯時,更會讓使用者失去ί性 一 的機制:使用者在系統介面的提 者在述式财私可避朗缺陷,因此使用 _自然且人性化的介面所帶來的好處,反騎覺3 Γ293753 因此使得聲控裝置在應 研之請人鑑於習知技術之缺失,乃經悉心試驗鱼 :;輸捨之精神’終於研發出-種可選擇句型: 【發明内容】 入裝ΐ案種職使用者選擇句型的語音輸 句型缩小辨f用圮憶各種輸入句型,且在限定 !!i辨識圍後’亦可提升語音辨識的正確性。 置,ifi述構案提供—種可選擇句型之語音輪入裝 以輪ί並切換該複數種句型以供-使用者_; L =識早1=以辨識該使用者所輸人之^“ 元,其係依據該辨識結果至兮肉六次# 抽4♦丨_、丄、·“,_ 一 〜内谷貝料庫搜哥對應之該資料。 顯示器。 揚聲器。 用以輸入縣音;—概參數:·〃”叶元更包含:-輸入裝置,
..'。果資二搜 S 根據上述構相,豆中兮於山二貝竹犀技 根攄上械播=甘、輸出介面係為一顯示器 根據上該輪出介面係為—揚聲器 ^據^述縣,其巾驗音辨識單元 語音之特徵參數;一辨識^ 裝置,用以擷取所輸入之該 識字彙和語言模型目錄’其係包含複數 以供辨識參考用;以及—語广聲學模型,用 st、繼_ -後,該句、單選擇該複數種句型其中之 和語言_,以供雜相挪句型之該辨識字彙 本案之另—構想在提供—種可選擇句型之語音輸入方法, 1293753 其步驟係包含:(a)提供複數種句型;(b)顯示並切換該複數 種句型;(C)選擇該複數種句型其中之一,·(d)啟動一模型, 以對應該所選擇句型;(e)輸入一語音;(f)參考該模型對該 語音進行辨識,並產生一辨識結果;(g)將該辨識結果輸入至 一資料庫搜尋單元;以及(h)由該資料庫搜尋單元至一内容資 料庫’搜尋對應該辨識結果之一内容。 根據上述構想,其中步驟(f)更包含下列步驟··(fl)擷取 该語音之一特徵參數;以及(f2)依據該特徵參數,參考該模型 對該語音進行辨識。 根據上述構想,其中步驟(Π)更包含下列步驟:(fll)對 該語音進行預處理;以及(fl2)擷取該語音之該特徵參數。 立丄,據上述構想,其中步驟(fU)更包含下列步驟··放大該語 曰,號,對該語音信號正規K(n〇rmaHzati〇n);對該語音信號 進打預強調(pre-emphasis);將該語音乘上漢明窗(Hamming
Window);以及將該語音通過一低通濾波器或一高通濾波器。 、—根據上述構想,其中步驟(fl2)更包含下列步驟··對該語音 進^5立葉變換(細?〇虹化丁_“_,卿處理;以 "亥"口日之梅爾倒頻譜參數(Me 1 一Frequency Cepstmm Coefficients, MFCC) 〇 创曰想在提供一種動態更新一辨識字彙和語言模 字彙&n _識字彙和語言模型目錄係包含複數組辨識 2=31且用於一可選擇句型之語音輸入裝置,該可 語古“/二置更包含—内容資料庫及—辨識字彙和 一内容有所更動其步驟係包含:⑷該内容資料庫之 元,將該内容ΐ二之 1目==字彙和語言模型/索引建立單 言模型以及内谷載人’並轉成—辨識字彙和語 識字彙和語言模型目^將該辨ff彙和語言模型儲存於該辨 庫中。 目錄中,以及(d)將該索引儲存於内容資料 8 1293753 【實施方式】 本技,使得熟習 施例而被限制其實施型態。 …、本案之貫施亚非可由下列實 之一 ’iiii案之可選#句型之語音輸入裝置 101、-輸出介面⑽、-語音辨ί單置亓了^含―句型選擇單元 種句型至該輸出介面102,由該輪係提供複數 供使用者切換選擇,該語音辨If ^等句型以 該資料庫搜尋單元105則來老兮存使用者所需之資料, 搜尋對應該辨識結果之資料。°B、、、、D果’至該内容資料庫綱 應用上,該輸出介面⑽可為 1031' 和語言模型目錄^、1==3=模=識字棄 ίί01取輸赠之瓣數,語音_ιί= 來1徵參數,字彙和語_目ΐ : 枝目錄⑽3中對應該句型之辨識字彙和語言模型。 之硬係為本案之可選擇句型之語音輪入裝置 風2〇1、施例。該語音輸入裝置2係包含一麥克 頌不蚤幕202、所顯示之一句型203、一瀏覽按鈕2〇4 1293753 #可一一口相^ "5過循%式的瀏覽按鈕2〇4選擇,這些句型 句型後,iiitiSti使Γ透過按鍵選擇來設定 所選^的句型20^=05後’便可利用麥克風201根據 圖。由置識字彙和語言模型之示意 檔案模式存在供諮詢的資===何可能以 S^isrr模型/索引建立單元303會將内容資料ί 302 i =將觸字彙和語言麵敍於钱和語言模^ 新辨1 一^將§錄引存放於内容資料庫3G2内,藉此達到更 新辨識子茱和語言模型的目的。 ㈢咬〜又 圖=閱第四圖’其係本案更新辨識字彙和語言模型之流程 ^百先,在步驟Α中,内容資料庫之資料有所更 Ϊ由f辨識字彙和語言模型/索引建立單元,Ϊ該 語中將語言模型儲存於^ 容資料庫中 在步驟D中,將該索引儲存於内 =1«用上,可將重建的啟騎令加在上述 之^音輪入裝置的選單中,使用者只要選 ^^ 吕模型及索引的功能,便能啟動辨識字彙和語言 ^93753 進行重建依據上述更新步驟 ::時’裝置端可動態進行重建⑽提在 性的;性、進步性與實用 所如果使用者擁有各種使用本案 ㈣二Γ工Δ置’就更月b感受到不必記憶許多指令和句型的 ,本案&供的語音輸入裝置及方法,在限定句型德, ϊίϊϊΐ!縮小的關係,可以提高語音辨識的正確性,也更 ,本發明已由上述之實施例詳細敘述而可由 專'i範_諸_,然皆不脫如附申請 解··本案得藉由下列圖示與實施例之說明,俾得一更深入之瞭 籲 【圖式簡單說明】 實施t圖所示為本案之可選擇句型之語音輸入裝置之一較佳 觀之==^案之可選擇句型之語音輪入裝置之硬體外 ^三圖所示為本案更新辨識字彙和語謂型之示意圖;以及 苐四圖所TF為本敎_識字彙和語言模型之_圖。 【主要元件符號說明】 101 :句型選擇單元 11 1293753 102 :輸出介面 103 :語音辨識單元 1031 :輸入裝置 1032 :特徵參數擷取裝置 * 1033 :辨識字彙和語言模型目錄 1034 :聲學模型 1035 :語音辨識引擎 104 :内容資料庫 105 :資料庫搜尋單元 201 :麥克風 202 :顯示螢幕 ❿ 203 :句型 204 :瀏覽按鈕 205 :錄音按鈕 301 :辨識字彙和語言模型目錄 302 :内容資料庫 303 :辨識字彙和語言模型/索引建立單元
12

Claims (1)

  1. Γ293753 卜、申請專利範圍: h〜種可選擇句型之語音輸入裝置,其包含: —句型選擇單元,用以提供複數種句型; 選擇^輸出介面,用以輸出並切換該複數種句型以供一使用者 到識單元’用以辨識該使用者所之—語音而得 =各資料庫,用以儲存一資料;以及 搜尋錢鎌_紅_容資料庫 ^如示申^專利翻第1撕叙裝置,其找輪出介面係為 3二揚如聲申^:專利範諫項所述之裝置,其中該輸出介面係為 4更包=申請專利範圍第1項所述之裝置,其中該語音辨識單元 一輸入裝置,用以輸入該語音; 數; 語言’其係包含複數組__ 二’肋供觸參相;以及 ^如申請專利範圍扪項所;以。 句型其中之—後,;使用者選擇 ϊ擇句型之該辨識字棄和語言 6_—種可_㈣之好“枝,齡善'衫:^ 寺I數擷取裝置,用以類取所輸入之該語音之特徵表 1293753 (a) 提供複數種句型; (b) 顯示並切換該複數種句型; (C)選擇該複數種句型其中之一; r⑷啟動一模型’以對應該所選擇句型; (e)輸入一語音; =多考4模型對该語音進行辨· hg 輸人至—資料庫搜尋單元;= 識結Ϊ之=。雜料紅m解,麟對應該辨 y驟申請細_6項所述之方法,其中步驟⑴更包含下 ^1)擷取該語音之一特徵參數;以及 8.如參數’參考該模型對該語音進行辨識。 下歹ί步驟 弟項所述之方法’其中步驟(⑴更包含 ffll)對該語音進行預處理;以及 (^12)榻取該語音之該特徵參數。 下列0步申專利範圍第8項所述之方法,其中步驟⑽更包含 放大該語音信號; ^語音信號正規化(―㈣; =香音信號進行職調(pre_emphasis); 音乘上漢明窗(Hamming Window);以及 ίο ϋίΐ,—低通紐器或—高通濾、波器。 人’nr;Ji卓5月專利範圍第8項所述之方法’其中步驟(η2)更包 含下列步驟: FFdIs F〇Urier TranSf〇m 求取该語音之梅爾倒頻譜參數(Mel-Frequency Cepstrum 14 1293753 Coefficients, MFCC)。 n. 一種動態更新一辨識字彙和語士 識字彙和語言模型目錄係包含複數法,該辨 ,於-可選擇句型之語音輸人裝置莫型, 賊立單驟;^庫及—辨識字彙和語言模型/索 (a)該内容資料庫之一内容有所更動· 容資ϋίίΐ辨識字彙和語言模型/索引建立單心將該内 及相㈣容载人’並轉成—辨識字彙和語言模型以 _(目1彔Ϊ該3字彙和語言模型儲存於該辨識字彙和語言 (d)將該索引儲存於内容資料庫中。
    15 1293753 七、指定代表圖: (一) 本案指定代表圖為:第(一)圖。 (二) 本代表圖之元件符號簡單說明: 101 :句型選擇單元 102 :輸出介面 103 :語音辨識單元 1031 :輸入裝置 1032 :特徵參數擷取裝置 1033 ··辨識字彙和語言模型目錄 1034 :聲學模型 1035 :語音辨識引擎 104 :内容資料庫 105 :資料庫搜尋單元 八、本案若有化學式時,請揭示最能顯示發明特徵的化學式:
TW093141877A 2004-12-31 2004-12-31 Method and apparatus of speech pattern selection for speech recognition TWI293753B (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW093141877A TWI293753B (en) 2004-12-31 2004-12-31 Method and apparatus of speech pattern selection for speech recognition
JP2005337154A JP2006189799A (ja) 2004-12-31 2005-11-22 選択可能な音声パターンの音声入力方法及び装置
US11/294,011 US20060149545A1 (en) 2004-12-31 2005-12-05 Method and apparatus of speech template selection for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW093141877A TWI293753B (en) 2004-12-31 2004-12-31 Method and apparatus of speech pattern selection for speech recognition

Publications (2)

Publication Number Publication Date
TW200625273A TW200625273A (en) 2006-07-16
TWI293753B true TWI293753B (en) 2008-02-21

Family

ID=36641763

Family Applications (1)

Application Number Title Priority Date Filing Date
TW093141877A TWI293753B (en) 2004-12-31 2004-12-31 Method and apparatus of speech pattern selection for speech recognition

Country Status (3)

Country Link
US (1) US20060149545A1 (zh)
JP (1) JP2006189799A (zh)
TW (1) TWI293753B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201104465A (en) * 2009-07-17 2011-02-01 Aibelive Co Ltd Voice songs searching method
CN103871408B (zh) * 2012-12-14 2017-05-24 联想(北京)有限公司 一种语音识别方法及装置、电子设备
US9536521B2 (en) * 2014-06-30 2017-01-03 Xerox Corporation Voice recognition
KR101673221B1 (ko) * 2015-12-22 2016-11-07 경상대학교 산학협력단 화자 인식을 위한 성문파 특징 추출 장치

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276616A (en) * 1989-10-16 1994-01-04 Sharp Kabushiki Kaisha Apparatus for automatically generating index
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6085201A (en) * 1996-06-28 2000-07-04 Intel Corporation Context-sensitive template engine
US5841895A (en) * 1996-10-25 1998-11-24 Pricewaterhousecoopers, Llp Method for learning local syntactic relationships for use in example-based information-extraction-pattern learning
US6665639B2 (en) * 1996-12-06 2003-12-16 Sensory, Inc. Speech recognition in consumer electronic products
US6012030A (en) * 1998-04-21 2000-01-04 Nortel Networks Corporation Management of speech and audio prompts in multimodal interfaces
US5969283A (en) * 1998-06-17 1999-10-19 Looney Productions, Llc Music organizer and entertainment center
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6513063B1 (en) * 1999-01-05 2003-01-28 Sri International Accessing network-based electronic information through scripted online interfaces using spoken input
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
FI19992351A (fi) * 1999-10-29 2001-04-30 Nokia Mobile Phones Ltd Puheentunnistus
US6721705B2 (en) * 2000-02-04 2004-04-13 Webley Systems, Inc. Robust voice browser system and voice activated device controller
US20020120451A1 (en) * 2000-05-31 2002-08-29 Yumiko Kato Apparatus and method for providing information by speech
US6230138B1 (en) * 2000-06-28 2001-05-08 Visteon Global Technologies, Inc. Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US20020099552A1 (en) * 2001-01-25 2002-07-25 Darryl Rubin Annotating electronic information with audio clips
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
JP3919210B2 (ja) * 2001-02-15 2007-05-23 アルパイン株式会社 音声入力案内方法及び装置
US20030069878A1 (en) * 2001-07-18 2003-04-10 Gidon Wise Data search by selectable pre-established descriptors and categories of items in data bank
JP2003036093A (ja) * 2001-07-23 2003-02-07 Japan Science & Technology Corp 音声入力検索システム
US7308404B2 (en) * 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
US20030149566A1 (en) * 2002-01-02 2003-08-07 Esther Levin System and method for a spoken language interface to a large database of changing records
JP2003219332A (ja) * 2002-01-23 2003-07-31 Canon Inc 番組予約装置及びその方法、プログラム
US6999931B2 (en) * 2002-02-01 2006-02-14 Intel Corporation Spoken dialog system using a best-fit language model and best-fit grammar
JP2004347943A (ja) * 2003-05-23 2004-12-09 Clarion Co Ltd データ処理装置、楽曲再生装置、データ処理装置の制御プログラムおよび楽曲再生装置の制御プログラム
JP2005148724A (ja) * 2003-10-21 2005-06-09 Zenrin Datacom Co Ltd 音声認識を用いた情報入力を伴う情報処理装置
US7584100B2 (en) * 2004-06-30 2009-09-01 Microsoft Corporation Method and system for clustering using generalized sentence patterns
US7716056B2 (en) * 2004-09-27 2010-05-11 Robert Bosch Corporation Method and system for interactive conversational dialogue for cognitively overloaded device users
US20060086236A1 (en) * 2004-10-25 2006-04-27 Ruby Michael L Music selection device and method therefor

Also Published As

Publication number Publication date
JP2006189799A (ja) 2006-07-20
US20060149545A1 (en) 2006-07-06
TW200625273A (en) 2006-07-16

Similar Documents

Publication Publication Date Title
JP4237915B2 (ja) ユーザが文字列の発音を設定することを可能にするためにコンピュータ上で実行される方法
US20060194181A1 (en) Method and apparatus for electronic books with enhanced educational features
CN108292203A (zh) 基于设备间对话通信的主动协助
CN108352006A (zh) 即时消息环境中的智能自动化助理
CN110491365A (zh) 为纯文本文档生成音频
JP4898712B2 (ja) アドバイス装置、アドバイス方法、アドバイスプログラム及びアドバイスプログラムを記録したコンピュータ読み取り可能な記録媒体
TW200901162A (en) Indexing digitized speech with words represented in the digitized speech
CN108920450A (zh) 一种基于电子设备的知识点复习方法及电子设备
JP2023552854A (ja) ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム
CN109920409A (zh) 一种声音检索方法、装置、***及存储介质
TWI293753B (en) Method and apparatus of speech pattern selection for speech recognition
TW200425063A (en) Recognition method to integrate speech input and handwritten input, and system thereof
CN109410656A (zh) 一种基于旋律合成的背诵引导方法及学习设备
WO2022041192A1 (zh) 语音消息处理方法、设备及即时通信客户端
JP3588596B2 (ja) 歌唱特訓機能付きカラオケ装置
JP2005227850A (ja) 情報処理装置、情報処理方法及びプログラム
Wersényi Auditory representations of a graphical user interface for a better human-computer interaction
JP4328441B2 (ja) 情報提供システム
JP2005209024A (ja) 操作支援装置および操作支援方法
JP4858285B2 (ja) 情報表示装置および情報表示処理プログラム
TWI257593B (en) Language learning system and method
US20140142932A1 (en) Method for Producing Audio File and Terminal Device
JP3476790B2 (ja) ゲーム装置、作詞方法、作詞ゲームプログラム及びゲームシステム
TW468120B (en) Talk to learn system and method of foreign language
JP2004294577A (ja) 文字情報音声変換方法

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees