JP2007535692A - 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法 - Google Patents

任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法 Download PDF

Info

Publication number
JP2007535692A
JP2007535692A JP2007503000A JP2007503000A JP2007535692A JP 2007535692 A JP2007535692 A JP 2007535692A JP 2007503000 A JP2007503000 A JP 2007503000A JP 2007503000 A JP2007503000 A JP 2007503000A JP 2007535692 A JP2007535692 A JP 2007535692A
Authority
JP
Japan
Prior art keywords
character
spoken
characters
user
coding scheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007503000A
Other languages
English (en)
Inventor
ラオ、アシュウィン
Original Assignee
ラオ、アシュウィン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ラオ、アシュウィン filed Critical ラオ、アシュウィン
Publication of JP2007535692A publication Critical patent/JP2007535692A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

キャラクタ認識という特定のタスクのために音声認識システムの精度を改善するために、認識または解釈されるキャラクタは、本発明に従って音響空間内で十分に分離される音響表現を生じさせる単純なコーディング方式を使用して話される。さらに、複数のキャラクタに関連する複数の単語を記憶することについてユーザにかかる制約を緩和するために、一実施形態では、コーディング方式は既定のキャラクタとその近傍/後続のキャラクタの組み合わせに基づいて定義される。

Description

本願は、2004年3月9日に提出された仮出願番号第60/551,466号による利益に対する権利を有する。
本発明は概して音声認識システム用のユーザインタフェースに関し、特に任意に話されたキャラクタの音声認識のためのシステム及び方法に関する。本発明の別の態様は、現状では話されたキャラクタのコンピュータ化された認識に必要とされている、キャラクタに対応する単語(及びそれらのそれぞれの発音)を記憶することに特有の制約を緩和することに関する。本発明のさらに別の態様は、音声認識システムのキャラクタ(アルファベットまたは英数字)認識の精度を劇的に改善し、これにより、同じように聞こえ、それゆえ、英語のE集合(B、C、D、E、G、P、T、V、Zから構成される)及びM集合、N集合等のいわゆる音響空間内での緊密な類似を持つキャラクタの部分集合の認識に関する問題を解決する。
音声またはスピーチを使用して機械にテキストを入力する問題は長い間存在してきた。この問題は、(1)ハンズフリー及び/またはアイズフリー対話、(2)地上通信線/携帯電話、形態情報端末、及び他のフルサイズのキーボードがないこのようなフォームファクターが小さいデバイス、(3)スペリングモードインタフェースを使用する(口述筆記用音声認識システムにおけるように)話される単語のエラー訂正、(4)組み込みデバイスを使用するデータ入力、電話等を使用する荷物ID入力のようなキャラクタ認識、を含む用途の多くの実際的な状況で特に重要である。さらに、キーボードと対照的にスピーチを使用してキャラクタ(文字及び/または英数字記号)を入力するという問題は、現在存在する競合するインタフェースであり、高度の使用しづらさを示している「無線テキストメッセージング」及び/または「無線データ入力」用途において特に重要である。
話されたキャラクタの音声認識は長い間取り組まれてきたが、所望の認識精度を欠いている。これは主に、特定のキャラクタグループ間に存在する音響の類似のためである。多くの紛らわしいキャラクタのグループがある。例えば、英語では、最も顕著なグループが、文字B、C、D、E、G、P、T、V及びZから形成される、いわゆる「E集合」である。このE集合の中の文字の組の間の最小音響差異のために、これらの文字の音声認識は最も難しいタスクの内の1つであると認識されている。他のそれほど紛らわしくないグループも同様な問題を呈する。さらに、また個々のキャラクタに対応する音声波形の基調をなす音響情報が相対的に短い持続期間を有するために、文字の認識の精度は低い。
従来、音声認識システムは、文字にいくつかのタグ(通常は単語)をマッピングすることにより前記問題に対処しようとしてきた。例えば、最も一般的に利用されている技法は以下のマッピング、つまりA−アルファ、B−ブラボー、C−チャーリー等を行う、軍用アルファベットを使用することである。或いは、システムはアラバマのA、ボストンのB、カリフォルニアのC等の他の形式のマッピングを使用することを採用している。さらにいくつかのシステム(IBMの米国特許番号第5,995,934号、Tang、1999年11月30日を参照)は、英数字記号を中国語の成句または単語にマッピングするような技法を使用してきた。
単語/タグを文字にマッピングする前記のユーザインタフェース技術は音声認識システムの精度を劇的に改善する。残念なことに、このような技術にまつわる多くの問題がある。これらの問題のいくつかは、(1)ほとんどすべての現実世界の用途では望ましくないことに、ユーザがこれらのタグを暗記/記憶しなければならない、(2)ユーザが特定の認識システムにとって適切な方法でこれらの単語/タグの発音を記憶/訓練しなければならない、(3)これらの単語/タグのスピーチを表現するのに要する時間が、文字に対応するスピーチを単に表現するのに要する時間に比べて長い(そして単語の選択にも依存する)、及び(4)単語の選択が必ずしも音響空間での単語の最適分離を保証しない、という問題を含む。明らかに、キャラクタ認識のためのユーザインタフェースの設計では、精度、速度及び学習の容易さが両立しない。
本発明はユーザインタフェースでの単純なコーディング方式に基づく、話されたキャラクタの音声認識のためのシステム及び方法である。具体的には、これは各キャラクタを、複数の個々に話されたキャラクタに順に関連付けることを必要とする。例えば、一実施形態では、該方法は、「E」の代わりに「EFG」のような、「N」個(ここでNはコーディング方式の長さを示しており、文字Nと混同されてはならない)の後続キャラクタが後に続くキャラクタを話すことを含む。したがって、本発明により、彼らは特に該キャラクタに対応する単語/タグを(発音とともに)記憶する必要がもはやないため、ユーザへの制約は緩和される。さらに複数のキャラクタコーディング方式は、それらが音響空間で表される個々のキャラクタを分離することを助け、該分離は好ましい特定のコーディング方式に応じてさらに向上し、このようにしてキャラクタの認識のための音声認識装置の精度を劇的に改善する。
典型的な音声認識システム(自動音声認識装置つまりASRとも呼ばれる)がマイク・サウンドカードの組み合わせにより音声データにアクセスし、特徴ベクトルを生成するためにフロントエンド信号処理モジュールを使用して音声を処理し、引き続き検索モジュールでパターンマッチングを実行し、音響モデル及び言語モデルからの知識を使用すること、からなることは当業者及びその他にも理解されるであろう。システム自体はソフトウェアとして存在してもよいし、あるいは従来の組み込みシステム等のようにコンピュータデバイス上で実現されてもよく、したがってメモリ(ROM、RAM等)、記憶装置、プロセッサ(固定小数点、浮動小数点等)、インタフェースポート及び他のハードウェア構成要素を含んでよい。
本発明の一実施形態では、特にキャラクタに対応する単語(及びそれらのそれぞれの発音)を記憶することに対する制約を緩和する、(任意のキャラクタベースの言語で)任意に話されたキャラクタを認識し解釈するための音声認識システムは、(a)表1に従って(キャラクタのシーケンスリストの最後でラップアラウンド(wrap around:循環)する)個々のキャラクタをキャラクタのシーケンスにマッピングするコーディング/マッピング方式を事前に決定すること、(b)表7に従ってコーディング方式を実現するために既存の文法ファイルを修正する(または新しい文法ファイルを作成する)、あるいは表8に従って、または表9により一般的に示されているようにコーディング方式を実現するための発音を有する語彙ファイルを修正する(または新しい語彙ファイルを作成する)こと、(c)ユーザによって話される音声信号としてキャラクタを捕捉すること、(d)システムの音響モデル及び言語モデルと関連させて修正された文法/語彙を参照することにより入力されたキャラクタを認識すること、及び(e)所望の出力を出すために表10に示されているように認識装置の標準出力を後処理するためのプログラミングコードまたはシステムモジュールを生成すること、によって設計される。結果としてのシステムは図1Aと図1Bの右側に示されるように視覚化されることができる。
Figure 2007535692
表1はキャラクタをその話された対応物と関連付けるコーディング方式の一実施形態を表す。
その言語の独自のキャラクタシーケンスに基づけば、本発明は他の言語でも機能する。本発明は、同様に日本語のローマ字、中国語のピンイン、及びヒンドゥー語のデバナーガリ文字でのようにローマ字化された変換機構とともに使用できる。本発明は単語完成ソフトウェアプログラムと関連して使用されてもよい。
Figure 2007535692
表2は、英語のアルファベットの英数字文字に適用されるような、表1に説明されているコーディング方式の例である。
Figure 2007535692
表3は、表1に説明されるコーディング方式の変形である別のコーディング方式を表す。
Figure 2007535692
表4は、英語アルファベットの英数字キャラクタに適用されるように、表3で説明されるコーディング方式の例を表す。
Figure 2007535692
表5は、表1に説明されているコーディング方式の例としてコーディング方式の集合を説明する。
Figure 2007535692
表6は本発明によるコーディング方式の別の実施形態である。
Figure 2007535692
表7は、表1のコーディング方式の例を実現するために、音声認識エンジンのモジュールを形成するBNFフォーマット(当業者及びその他によって理解されうるように他のフォーマットも容易に使用されてよい)の文法ファイルを表す。
または表8に従ってコーディング方式を実現するために発音を有する語彙ファイルを修正する(あるいは新しい語彙ファイルを作成する)。
Figure 2007535692
表8は、表1のコーディング方式の例を実現するための、音声認識エンジンのモジュールを形成する(リアルタイム実行のためにバイナリでコンパイルされてよいASCIIでの)ディクショナリファイルを表す。
Figure 2007535692
表9は、より一般的な有限状態図での解釈、またはN=2での(つまりA−ABCコーディング方式の)表1のコーディング方式を実現する隠れマルコフモデル状態シーケンスを表す。
Figure 2007535692
表10は、表7/表8で使用されるコーディング方式を実現するために必要とされる後処理ステップ(基本的にコーディングされたキャラクタをその元の形式に復号する)を表す。
上述の音声認識システムは特にキャラクタ認識というタスクの精度を、特にキャラクタが、英語でのE集合のように高い音響類似度を示すときに改善、ずることに留意されたい。さらに、例えば、話者が特にコーディング方式を使用して話すように指示されている、音響トレーニング/適応/テストデータ(スピーチサンプル)のコーパスを収集する等、コーディング方式の性能を引き出す音響モデルと言語モデルを構築する、及び/または適応するための特別な技術が、システムの性能をさらに高めるために利用されてよい。
前記システムが、周知の信号対雑音比に基づいてコーディング方式のコード長を決定する(表1の中の)パラメータ「N」を選択することによって雑音環境で精度を高めるために使用できることにも注意されたい。さらに一般的には、本発明で提案されているコーディング方式は雑音ロバスト性、音響空間での区別性、学習の容易さ及び使いやすさという特性を有する。
明らかに、本発明によるユーザインタフェースは、自分たちが口述するのを希望するキャラクタを自然に話し、タイプできる誰によっても適応するのが容易であるという優位点を有している。それは、ユーザが「自動車の運転」ような目も使い、手も使っている(eyes−busy,hands−busy)状況で、任意のテキストを便利に口述できる(装置に向かってキャラクタを話すことによって)ようにする。該ユーザインタフェースは、汎用音声認識システムのエラーを訂正する(及び/または新しい単語を入力する)ためにも使用されてよい。図2に表すように、本発明は、当然、リアルタイムの視覚及び可聴フィードバックを使用してテキストメッセージングにおけるように短いテキストメッセージを、携帯電話のようなフォームファクターが小さい組み込み装置に口述するための方法/装置と見なされてよい。提案されているインタフェースはより高速で、より直感的であり、目も、手も使用できない状況で使用されることができるため、(キャラクタ「C」を入力するために、ユーザがキー「2」を三回たたかなければならない「トリプルタッピング」のような)既存のインタフェースに比較してより有用でありうる。
図2は、従来技術の「トリプルタッピング」(図の左側)方法を本発明の一実施形態(図の右側)と比較して図解している。本発明のこの「テキストメッセージング」のための応用により、送受話器を、既存の「キーパッド」インタフェースを補完するマルチモードインタフェースとして見なす、または「車両の運転中」のような特定の状況でのみのインタフェースと見なすことができるようになる。送受話器は視覚的なフィードバックを示す視覚的なディスプレイ及び音声フィードバックを可能にする音声スピーカであるので、両方のフィードバック方法がともに本発明を使用して入力されるテキストに関して有用な情報をユーザに与えるために使用されてよい。
表11は、入力されるテキスト文字の2つの後続文字が使用される、本発明の実施形態を示す。これらの後続文字は、示されているように「Y」と「Z」のケースではアルファベットでラップアラウンドされる。数「8」と「9」はアラビア数字体系シーケンスでラップアラウンドされることも示されている。
Figure 2007535692
本発明の好適な実施形態が図解され、説明されてきたが、多様な変更を本発明の精神及び範囲を逸脱することなく行うことができることが理解されるであろう。
本発明の音声認識方法と対照的な従来技術の音声認識方法を図解するブロック図である。 本発明の別の実施形態と対照的な別の従来技術の音声認識システムを図解するブロック図である。 本発明に説明されているインタフェースを使用する無線テキストメッセージングへの応用を図解する。リアルタイムの可聴フィードバックが含まれることができる。

Claims (10)

  1. 話されたキャラクタを認識するための方法であって、
    a)認識対象の話されたキャラクタごとに、後に話される1つまたは複数のキャラクタの特定の既存の所定のシーケンスが存在し、
    b)前記シーケンスの中の所定数の前記話されたキャラクタを使用して、実際に前記シーケンスを開始した特定の話されたキャラクタを決定すること、
    を含む方法。
  2. 前記話されたキャラクタの認識に対応するテキストを表示することをさらに含む請求項1に記載の方法。
  3. 前記話されたキャラクタが文字であり、前記既存の所定のシーケンスが言語のアルファベットである請求項1に記載の方法。
  4. 前記話されたキャラクタが数であり、既存の所定のシーケンスが前記言語の数体系である請求項1に記載の方法。
  5. 前記表示された前記キャラクタのテキストは音声発音をも生成し、それにより前記システムのユーザに音声フィードバックを与える請求項2に記載の方法。
  6. 前記表示されたテキストキャラクタの文字列が単語からなる請求項2に記載の方法。
  7. 前記表示された単語の文字列がテキストメッセージからなる請求項6に記載の方法。
  8. 前記テキストメッセージが別のシステムに無線で通信されることができ、前記別のシステムで表示されることができる、請求項7に記載の方法。
  9. 汎用音声認識システムのエラーがユーザによって訂正される請求項1に記載の方法。
  10. 音響モデルまたは言語モデルがユーザによって改善される請求項1に記載の方法。
JP2007503000A 2004-03-09 2005-03-08 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法 Pending JP2007535692A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US55146604P 2004-03-09 2004-03-09
PCT/US2005/007934 WO2005086908A2 (en) 2004-03-09 2005-03-08 System and method for computer recognition and interpretation of arbitrary spoken-characters

Publications (1)

Publication Number Publication Date
JP2007535692A true JP2007535692A (ja) 2007-12-06

Family

ID=34976231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007503000A Pending JP2007535692A (ja) 2004-03-09 2005-03-08 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法

Country Status (4)

Country Link
US (1) US7865363B2 (ja)
EP (1) EP1733382A2 (ja)
JP (1) JP2007535692A (ja)
WO (1) WO2005086908A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013035293A1 (ja) * 2011-09-09 2013-03-14 旭化成株式会社 音声認識装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6859652B2 (en) * 2000-08-02 2005-02-22 Mobile Satellite Ventures, Lp Integrated or autonomous system and method of satellite-terrestrial frequency reuse using signal attenuation and/or blockage, dynamic assignment of frequencies and/or hysteresis
US8447613B2 (en) * 2008-04-28 2013-05-21 Irobot Corporation Robot and server with optimized message decoding

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179578A (ja) * 1995-12-26 1997-07-11 Nec Corp 単音節認識装置
JPH10274996A (ja) * 1997-03-31 1998-10-13 Toshiba Corp 音声認識装置
JPH1188507A (ja) * 1997-09-08 1999-03-30 Hitachi Ltd ページャ用音声認識装置
JPH11167393A (ja) * 1997-12-04 1999-06-22 Hitachi Eng & Service Co Ltd 音声認識装置および音声認識装置用辞書
JPH11184495A (ja) * 1997-12-24 1999-07-09 Toyota Motor Corp 音声認識装置
JP2001223816A (ja) * 2000-02-04 2001-08-17 Hitachi Ltd 電話機によるテキストメッセージの作成方法および装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
DE19847419A1 (de) * 1998-10-14 2000-04-20 Philips Corp Intellectual Pty Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
US6321196B1 (en) * 1999-07-02 2001-11-20 International Business Machines Corporation Phonetic spelling for speech recognition
GB2353887B (en) * 1999-09-04 2003-09-24 Ibm Speech recognition system
DE19944608A1 (de) * 1999-09-17 2001-03-22 Philips Corp Intellectual Pty Erkennung einer in buchstabierter Form vorliegenden Sprachäußerungseingabe
US6665640B1 (en) * 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
AU2001259446A1 (en) * 2000-05-02 2001-11-12 Dragon Systems, Inc. Error correction in speech recognition
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
US6694296B1 (en) * 2000-07-20 2004-02-17 Microsoft Corporation Method and apparatus for the recognition of spelled spoken words
US6934683B2 (en) * 2001-01-31 2005-08-23 Microsoft Corporation Disambiguation language model
US6975986B2 (en) * 2001-05-30 2005-12-13 International Business Machines Corporation Voice spelling in an audio-only interface
US7143037B1 (en) * 2002-06-12 2006-11-28 Cisco Technology, Inc. Spelling words using an arbitrary phonetic alphabet
US20050049858A1 (en) * 2003-08-25 2005-03-03 Bellsouth Intellectual Property Corporation Methods and systems for improving alphabetic speech recognition accuracy

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179578A (ja) * 1995-12-26 1997-07-11 Nec Corp 単音節認識装置
JPH10274996A (ja) * 1997-03-31 1998-10-13 Toshiba Corp 音声認識装置
JPH1188507A (ja) * 1997-09-08 1999-03-30 Hitachi Ltd ページャ用音声認識装置
JPH11167393A (ja) * 1997-12-04 1999-06-22 Hitachi Eng & Service Co Ltd 音声認識装置および音声認識装置用辞書
JPH11184495A (ja) * 1997-12-24 1999-07-09 Toyota Motor Corp 音声認識装置
JP2001223816A (ja) * 2000-02-04 2001-08-17 Hitachi Ltd 電話機によるテキストメッセージの作成方法および装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013035293A1 (ja) * 2011-09-09 2013-03-14 旭化成株式会社 音声認識装置
CN103827962A (zh) * 2011-09-09 2014-05-28 旭化成株式会社 声音识别装置
US9437190B2 (en) 2011-09-09 2016-09-06 Asahi Kasei Kabushiki Kaisha Speech recognition apparatus for recognizing user's utterance

Also Published As

Publication number Publication date
US20050203742A1 (en) 2005-09-15
US7865363B2 (en) 2011-01-04
WO2005086908A3 (en) 2008-10-30
WO2005086908A2 (en) 2005-09-22
EP1733382A2 (en) 2006-12-20

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
AU2010212370B2 (en) Generic spelling mnemonics
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
TWI532035B (zh) 語言模型的建立方法、語音辨識方法及電子裝置
KR100996212B1 (ko) 음성인식을 위한 방법, 시스템 및 프로그램
EP1217609A2 (en) Speech recognition
JP2008262279A (ja) 音声検索装置
US7676364B2 (en) System and method for speech-to-text conversion using constrained dictation in a speak-and-spell mode
CN100578613C (zh) 采用合并词典的语音识别***及方法
EP1800292B1 (en) Improving the fidelity of a dialog system
JP2007535692A (ja) 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法
JP2016161935A (ja) 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
Hatala Speech recognition for Indonesian language and its application to home automation
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP2005234236A (ja) 音声認識装置、音声認識方法、記憶媒体およびプログラム
JP2002268680A (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
JP7165439B2 (ja) ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法
JP2001188556A (ja) 音声認識方法及び装置
KR20040008546A (ko) 연속 음성인식 기기의 오인식 수정 방법
Pisarn et al. Thai spelling analysis for automatic spelling speech recognition
JP2004145014A (ja) 自動音声応答装置及び自動音声応答方法
KR20030009648A (ko) 문자단위 음성인식 전자사전 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080303

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111122