JP2007535692A

JP2007535692A - 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法

Info

Publication number: JP2007535692A
Application number: JP2007503000A
Authority: JP
Inventors: ラオ、アシュウィン
Original assignee: ラオ、アシュウィン
Priority date: 2004-03-09
Filing date: 2005-03-08
Publication date: 2007-12-06
Also published as: US20050203742A1; US7865363B2; WO2005086908A3; WO2005086908A2; EP1733382A2

Abstract

キャラクタ認識という特定のタスクのために音声認識システムの精度を改善するために、認識または解釈されるキャラクタは、本発明に従って音響空間内で十分に分離される音響表現を生じさせる単純なコーディング方式を使用して話される。さらに、複数のキャラクタに関連する複数の単語を記憶することについてユーザにかかる制約を緩和するために、一実施形態では、コーディング方式は既定のキャラクタとその近傍／後続のキャラクタの組み合わせに基づいて定義される。

Description

本願は、２００４年３月９日に提出された仮出願番号第６０／５５１，４６６号による利益に対する権利を有する。

本発明は概して音声認識システム用のユーザインタフェースに関し、特に任意に話されたキャラクタの音声認識のためのシステム及び方法に関する。本発明の別の態様は、現状では話されたキャラクタのコンピュータ化された認識に必要とされている、キャラクタに対応する単語（及びそれらのそれぞれの発音）を記憶することに特有の制約を緩和することに関する。本発明のさらに別の態様は、音声認識システムのキャラクタ（アルファベットまたは英数字）認識の精度を劇的に改善し、これにより、同じように聞こえ、それゆえ、英語のＥ集合（Ｂ、Ｃ、Ｄ、Ｅ、Ｇ、Ｐ、Ｔ、Ｖ、Ｚから構成される）及びＭ集合、Ｎ集合等のいわゆる音響空間内での緊密な類似を持つキャラクタの部分集合の認識に関する問題を解決する。

音声またはスピーチを使用して機械にテキストを入力する問題は長い間存在してきた。この問題は、（１）ハンズフリー及び／またはアイズフリー対話、（２）地上通信線／携帯電話、形態情報端末、及び他のフルサイズのキーボードがないこのようなフォームファクターが小さいデバイス、（３）スペリングモードインタフェースを使用する（口述筆記用音声認識システムにおけるように）話される単語のエラー訂正、（４）組み込みデバイスを使用するデータ入力、電話等を使用する荷物ＩＤ入力のようなキャラクタ認識、を含む用途の多くの実際的な状況で特に重要である。さらに、キーボードと対照的にスピーチを使用してキャラクタ（文字及び／または英数字記号）を入力するという問題は、現在存在する競合するインタフェースであり、高度の使用しづらさを示している「無線テキストメッセージング」及び／または「無線データ入力」用途において特に重要である。

話されたキャラクタの音声認識は長い間取り組まれてきたが、所望の認識精度を欠いている。これは主に、特定のキャラクタグループ間に存在する音響の類似のためである。多くの紛らわしいキャラクタのグループがある。例えば、英語では、最も顕著なグループが、文字Ｂ、Ｃ、Ｄ、Ｅ、Ｇ、Ｐ、Ｔ、Ｖ及びＺから形成される、いわゆる「Ｅ集合」である。このＥ集合の中の文字の組の間の最小音響差異のために、これらの文字の音声認識は最も難しいタスクの内の１つであると認識されている。他のそれほど紛らわしくないグループも同様な問題を呈する。さらに、また個々のキャラクタに対応する音声波形の基調をなす音響情報が相対的に短い持続期間を有するために、文字の認識の精度は低い。

従来、音声認識システムは、文字にいくつかのタグ（通常は単語）をマッピングすることにより前記問題に対処しようとしてきた。例えば、最も一般的に利用されている技法は以下のマッピング、つまりＡ−アルファ、Ｂ−ブラボー、Ｃ−チャーリー等を行う、軍用アルファベットを使用することである。或いは、システムはアラバマのＡ、ボストンのＢ、カリフォルニアのＣ等の他の形式のマッピングを使用することを採用している。さらにいくつかのシステム（ＩＢＭの米国特許番号第５，９９５，９３４号、Ｔａｎｇ、１９９９年１１月３０日を参照）は、英数字記号を中国語の成句または単語にマッピングするような技法を使用してきた。

単語／タグを文字にマッピングする前記のユーザインタフェース技術は音声認識システムの精度を劇的に改善する。残念なことに、このような技術にまつわる多くの問題がある。これらの問題のいくつかは、（１）ほとんどすべての現実世界の用途では望ましくないことに、ユーザがこれらのタグを暗記／記憶しなければならない、（２）ユーザが特定の認識システムにとって適切な方法でこれらの単語／タグの発音を記憶／訓練しなければならない、（３）これらの単語／タグのスピーチを表現するのに要する時間が、文字に対応するスピーチを単に表現するのに要する時間に比べて長い（そして単語の選択にも依存する）、及び（４）単語の選択が必ずしも音響空間での単語の最適分離を保証しない、という問題を含む。明らかに、キャラクタ認識のためのユーザインタフェースの設計では、精度、速度及び学習の容易さが両立しない。

本発明はユーザインタフェースでの単純なコーディング方式に基づく、話されたキャラクタの音声認識のためのシステム及び方法である。具体的には、これは各キャラクタを、複数の個々に話されたキャラクタに順に関連付けることを必要とする。例えば、一実施形態では、該方法は、「Ｅ」の代わりに「ＥＦＧ」のような、「Ｎ」個（ここでＮはコーディング方式の長さを示しており、文字Ｎと混同されてはならない）の後続キャラクタが後に続くキャラクタを話すことを含む。したがって、本発明により、彼らは特に該キャラクタに対応する単語／タグを（発音とともに）記憶する必要がもはやないため、ユーザへの制約は緩和される。さらに複数のキャラクタコーディング方式は、それらが音響空間で表される個々のキャラクタを分離することを助け、該分離は好ましい特定のコーディング方式に応じてさらに向上し、このようにしてキャラクタの認識のための音声認識装置の精度を劇的に改善する。

典型的な音声認識システム（自動音声認識装置つまりＡＳＲとも呼ばれる）がマイク・サウンドカードの組み合わせにより音声データにアクセスし、特徴ベクトルを生成するためにフロントエンド信号処理モジュールを使用して音声を処理し、引き続き検索モジュールでパターンマッチングを実行し、音響モデル及び言語モデルからの知識を使用すること、からなることは当業者及びその他にも理解されるであろう。システム自体はソフトウェアとして存在してもよいし、あるいは従来の組み込みシステム等のようにコンピュータデバイス上で実現されてもよく、したがってメモリ（ＲＯＭ、ＲＡＭ等）、記憶装置、プロセッサ（固定小数点、浮動小数点等）、インタフェースポート及び他のハードウェア構成要素を含んでよい。

本発明の一実施形態では、特にキャラクタに対応する単語（及びそれらのそれぞれの発音）を記憶することに対する制約を緩和する、（任意のキャラクタベースの言語で）任意に話されたキャラクタを認識し解釈するための音声認識システムは、（ａ）表１に従って（キャラクタのシーケンスリストの最後でラップアラウンド（wrap around：循環）する）個々のキャラクタをキャラクタのシーケンスにマッピングするコーディング／マッピング方式を事前に決定すること、（ｂ）表７に従ってコーディング方式を実現するために既存の文法ファイルを修正する（または新しい文法ファイルを作成する）、あるいは表８に従って、または表９により一般的に示されているようにコーディング方式を実現するための発音を有する語彙ファイルを修正する（または新しい語彙ファイルを作成する）こと、（ｃ）ユーザによって話される音声信号としてキャラクタを捕捉すること、（ｄ）システムの音響モデル及び言語モデルと関連させて修正された文法／語彙を参照することにより入力されたキャラクタを認識すること、及び（ｅ）所望の出力を出すために表１０に示されているように認識装置の標準出力を後処理するためのプログラミングコードまたはシステムモジュールを生成すること、によって設計される。結果としてのシステムは図１Ａと図１Ｂの右側に示されるように視覚化されることができる。

表１はキャラクタをその話された対応物と関連付けるコーディング方式の一実施形態を表す。

その言語の独自のキャラクタシーケンスに基づけば、本発明は他の言語でも機能する。本発明は、同様に日本語のローマ字、中国語のピンイン、及びヒンドゥー語のデバナーガリ文字でのようにローマ字化された変換機構とともに使用できる。本発明は単語完成ソフトウェアプログラムと関連して使用されてもよい。

表２は、英語のアルファベットの英数字文字に適用されるような、表１に説明されているコーディング方式の例である。

表３は、表１に説明されるコーディング方式の変形である別のコーディング方式を表す。

表４は、英語アルファベットの英数字キャラクタに適用されるように、表３で説明されるコーディング方式の例を表す。

表５は、表１に説明されているコーディング方式の例としてコーディング方式の集合を説明する。

表６は本発明によるコーディング方式の別の実施形態である。

表７は、表１のコーディング方式の例を実現するために、音声認識エンジンのモジュールを形成するＢＮＦフォーマット（当業者及びその他によって理解されうるように他のフォーマットも容易に使用されてよい）の文法ファイルを表す。

または表８に従ってコーディング方式を実現するために発音を有する語彙ファイルを修正する（あるいは新しい語彙ファイルを作成する）。

表８は、表１のコーディング方式の例を実現するための、音声認識エンジンのモジュールを形成する（リアルタイム実行のためにバイナリでコンパイルされてよいＡＳＣＩＩでの）ディクショナリファイルを表す。

表９は、より一般的な有限状態図での解釈、またはＮ＝２での（つまりＡ−ＡＢＣコーディング方式の）表１のコーディング方式を実現する隠れマルコフモデル状態シーケンスを表す。

表１０は、表７／表８で使用されるコーディング方式を実現するために必要とされる後処理ステップ（基本的にコーディングされたキャラクタをその元の形式に復号する）を表す。

上述の音声認識システムは特にキャラクタ認識というタスクの精度を、特にキャラクタが、英語でのＥ集合のように高い音響類似度を示すときに改善、ずることに留意されたい。さらに、例えば、話者が特にコーディング方式を使用して話すように指示されている、音響トレーニング／適応／テストデータ（スピーチサンプル）のコーパスを収集する等、コーディング方式の性能を引き出す音響モデルと言語モデルを構築する、及び／または適応するための特別な技術が、システムの性能をさらに高めるために利用されてよい。

前記システムが、周知の信号対雑音比に基づいてコーディング方式のコード長を決定する（表１の中の）パラメータ「Ｎ」を選択することによって雑音環境で精度を高めるために使用できることにも注意されたい。さらに一般的には、本発明で提案されているコーディング方式は雑音ロバスト性、音響空間での区別性、学習の容易さ及び使いやすさという特性を有する。

明らかに、本発明によるユーザインタフェースは、自分たちが口述するのを希望するキャラクタを自然に話し、タイプできる誰によっても適応するのが容易であるという優位点を有している。それは、ユーザが「自動車の運転」ような目も使い、手も使っている（ｅｙｅｓ−ｂｕｓｙ，ｈａｎｄｓ−ｂｕｓｙ）状況で、任意のテキストを便利に口述できる（装置に向かってキャラクタを話すことによって）ようにする。該ユーザインタフェースは、汎用音声認識システムのエラーを訂正する（及び／または新しい単語を入力する）ためにも使用されてよい。図２に表すように、本発明は、当然、リアルタイムの視覚及び可聴フィードバックを使用してテキストメッセージングにおけるように短いテキストメッセージを、携帯電話のようなフォームファクターが小さい組み込み装置に口述するための方法／装置と見なされてよい。提案されているインタフェースはより高速で、より直感的であり、目も、手も使用できない状況で使用されることができるため、（キャラクタ「Ｃ」を入力するために、ユーザがキー「２」を三回たたかなければならない「トリプルタッピング」のような）既存のインタフェースに比較してより有用でありうる。

図２は、従来技術の「トリプルタッピング」（図の左側）方法を本発明の一実施形態（図の右側）と比較して図解している。本発明のこの「テキストメッセージング」のための応用により、送受話器を、既存の「キーパッド」インタフェースを補完するマルチモードインタフェースとして見なす、または「車両の運転中」のような特定の状況でのみのインタフェースと見なすことができるようになる。送受話器は視覚的なフィードバックを示す視覚的なディスプレイ及び音声フィードバックを可能にする音声スピーカであるので、両方のフィードバック方法がともに本発明を使用して入力されるテキストに関して有用な情報をユーザに与えるために使用されてよい。

表１１は、入力されるテキスト文字の２つの後続文字が使用される、本発明の実施形態を示す。これらの後続文字は、示されているように「Ｙ」と「Ｚ」のケースではアルファベットでラップアラウンドされる。数「８」と「９」はアラビア数字体系シーケンスでラップアラウンドされることも示されている。

本発明の好適な実施形態が図解され、説明されてきたが、多様な変更を本発明の精神及び範囲を逸脱することなく行うことができることが理解されるであろう。

本発明の音声認識方法と対照的な従来技術の音声認識方法を図解するブロック図である。本発明の別の実施形態と対照的な別の従来技術の音声認識システムを図解するブロック図である。本発明に説明されているインタフェースを使用する無線テキストメッセージングへの応用を図解する。リアルタイムの可聴フィードバックが含まれることができる。

Claims

話されたキャラクタを認識するための方法であって、
ａ）認識対象の話されたキャラクタごとに、後に話される１つまたは複数のキャラクタの特定の既存の所定のシーケンスが存在し、
ｂ）前記シーケンスの中の所定数の前記話されたキャラクタを使用して、実際に前記シーケンスを開始した特定の話されたキャラクタを決定すること、
を含む方法。
前記話されたキャラクタの認識に対応するテキストを表示することをさらに含む請求項１に記載の方法。
前記話されたキャラクタが文字であり、前記既存の所定のシーケンスが言語のアルファベットである請求項１に記載の方法。
前記話されたキャラクタが数であり、既存の所定のシーケンスが前記言語の数体系である請求項１に記載の方法。
前記表示された前記キャラクタのテキストは音声発音をも生成し、それにより前記システムのユーザに音声フィードバックを与える請求項２に記載の方法。
前記表示されたテキストキャラクタの文字列が単語からなる請求項２に記載の方法。
前記表示された単語の文字列がテキストメッセージからなる請求項６に記載の方法。
前記テキストメッセージが別のシステムに無線で通信されることができ、前記別のシステムで表示されることができる、請求項７に記載の方法。
汎用音声認識システムのエラーがユーザによって訂正される請求項１に記載の方法。
音響モデルまたは言語モデルがユーザによって改善される請求項１に記載の方法。