JP6230606B2

JP6230606B2 - 精度スコアを使用した音声認識性能を予測するための方法およびシステム

Info

Publication number: JP6230606B2
Application number: JP2015529768A
Authority: JP
Inventors: ガナパティラジュ，アラビンド; タン，イーンイー; ワイス，フェリックス，イマニュエル; ランダル，スコット，アレン
Original assignee: インタラクティブ・インテリジェンス・インコーポレイテッド
Priority date: 2012-08-30
Filing date: 2012-08-30
Publication date: 2017-11-15
Anticipated expiration: 2032-08-30
Also published as: JP2015530614A; EP2891147A4; WO2014035394A1; BR112015003830B1; NZ705071A; CA2883076C; BR112015003830A2; EP2891147B1; AU2012388796B2; CA2883076A1; EP2891147A1; AU2012388796A1

Description

本発明は、一般に通信システムおよび方法、ならびに自動音声認識システムに関する。より具体的には、本発明は自動音声認識システム内の機械学習に関する。

音声認識は単語のセットの別のオーディオファイルを参照して音声ファイルを解析することにより目的の単語を認識するためのシステムの能力を測定することにより実施されてもよいことが当技術分野で知られている。目的の単語は特定の認識閾値を満たしていない場合、その後単語のセットから分離されてもよい。単語のセットから閾値以下の目的の単語を分離することにより、セットは容易に同定された単語に制限されてもよい。単語はこのように一定の信頼値を有する音声認識アプリケーションで使用することができる。しかしながら、このプロセスは時間がかかり、多くのアプリケーションにおいて非実用的である。認識率を測定するためにオーディオファイルの大規模なセットを処理する必要なしに、目的の単語の認識精度を予測することができるシステムを有することは、完全な展開を待つことなく、このように金銭、労力、およびリソースを節約して現実の世界でシステムがどのように動作するかをユーザに理解させることを可能にする。

音声解析分野内で音声認識システム内の精度スコアを使用して音声認識性能を予測するシステムおよび方法が提示される。同じキーワードセットが全体を通じて使用される。性能指数（ＦＯＭ：ＦｉｇｕｒｅｏｆＭｅｒｉｔ）は音声認識システム、特にキーワードスポッティングシステムの精度を記述するために使用される尺度である。これは毎時キーワードあたり５誤警報（ＦＡ／ＫＷ／時間）の平均の検出率と定義される。少なくとも１つの実施形態では、ＦＯＭは以下でより詳細に説明されるアルゴリズムにより予測される。ＦＯＭはシステムが単語の一致を決定することができる精度を予測するためにキーワードの幾つかの特徴を使用する。セット内の各キーワードについて、キーワードスポッターはＦＯＭを決定するために録音された音声の大きな塊上で実行される。言語内で個別におよび他の単語に関連して単語を記述する関連する特徴が計算される。これらの特徴からＦＯＭへのマッピングが学習される。このマッピングは、その後適切な機械学習アルゴリズムを介して一般化すること、および新しいキーワードのためのＦＯＭを予測するために使用することができる。予測されたＦＯＭは、信頼値の各種設定のためのすべての入力についての一貫した動作を達成するため音声認識エンジンの内部を調節するために使用されてもよい。

一実施形態では、以下のステップ：入力を受け付けることと；前記入力についての少なくとも１つの特徴ベクトルを計算することと；前記少なくとも１つの特徴ベクトルを予測モデルに入力することと；予測モデルから入力についての予測を取得することとを備える音声認識性能を予測するためのコンピュータ実装方法が開示される。

別の実施形態では、入力を受け付けるための手段と；前記ユーザ入力についての少なくとも１つの特徴ベクトルを計算するための手段と；前記少なくとも１つの特徴ベクトルを予測モデルに入力するための手段と；予測モデルから入力についての性能指数の予測を取得するための手段とを備える音声認識性能を予測するためのシステムが開示される。

別の実施形態では、音声認識エンジンの内部スコアを調整する予測音声認識性能を使用するためのコンピュータ実装方法が開示され、方法は以下のステップ：入力を受け付けることと；前記入力についての少なくとも１つの特徴ベクトルを計算することと；前記少なくとも１つの特徴ベクトルを予測モデルに入力することと；キーワードのための性能指数の予測を取得することと；前記予測に基づいて信頼値に対する前記内部スコアのマッピングを調整することとを備える。

図１は、キーワードスポッティングのための例示的なシステムを示す図である。

図２は、ＦＯＭ予測のためのプロセスを示すフローチャートである。

図３は、ユーザインターフェイスの図である。

図４は、モデル学習のためのシステムを示すフローチャートである。

図５は、トレーニングキーワードセットを選択するためのプロセスを示すフローチャートである。

図６は、内部の一致「スコア」および外部の「信頼」値との関係を示す図である。

図７は、検出精度および音声の時間当たり誤警報に対するＦＯＭを示す図である。

図８は、キーワードの例を示す表である。

図９は、ＦＯＭのモデル式を示す表である。

本発明の原理の理解を促す目的で、参照図面に示される実施形態についての参照が行われるであろうし、および同じものを説明するために特定の言語が用いられるであろう。それにもかかわらず、本発明の範囲を限定することを意図するものではないことが理解されるであろう。説明される実施形態における任意の変更およびさらなる修正、および本明細書に説明される本発明の原理のさらなる応用は、本発明が関係する当業者に通常想起されるであろうと想定される。

自動音声認識（ＡＳＲ：Ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）システムは人間の音声を分析し、および音声をテキストまたは単語に翻訳する。これらのシステムの性能は一般に音声を認識することができる精度、信頼性、言語のサポート、速度に基づいて評価される。システムの性能は非常に高くあるべきことが期待される。優れた性能は多くの場合高い検出率および低い誤警報率により定量化される。業界標準は音声の時間当たりキーワード当たり５誤警報、または５ＦＡ／ＫＷ／時間で７０％程度の検出率であると考えられる。これはＦＯＭが７０であるとして読み取ってもよい。アクセント、調音、発話速度、発音、背景雑音などのような因子はシステムの精度に悪影響を有することが有り得る。処理速度は数百通話を一度におよびリアルタイムで解析する必要がある。システムはまた、現代の電話チャネル、特にＶｏＩＰにより導入されたチャネル条件および様々なアーティファクトに関係なく、一貫しておよび確実に行うことが期待される。複数の言語からのキーワードもまた同じオーディオソース上にスポットされる必要がある。

機械学習は、特定のキーワード上でのエンジンの性能を予測することに使用されてもよい。管理学習は、管理されたまたはラベル付けされたトレーニングデータから関数を推論する機械学習タスクと呼ばれてもよい。このようなトレーニングデータは、キーワードの大規模なセットの精度値を表すトレーニング例のセットから構成されてもよい。管理学習では、各トレーニング例は、入力特徴ベクトルおよび所望の出力精度値のペアである。管理学習アルゴリズムは、トレーニングデータを解析し、推論関数または回帰関数を生成する。このような関数は、任意の有効な入力オブジェクトの正しい出力値を予測すべきである。これは「合理的な」方法でトレーニングデータから目に見えない状況に一般化するための学習アルゴリズムを必要とする。回帰関数は、複雑なニューラルネットワークへの単純な直線などの種々の形態を使用してモデル化されてもよい。

当業者は、単に１つの非限定的な例をあげるために、本明細書に開示される種々の方法論はデジタルマイクロプロセッサおよび適切なソフトウェアプログラムを実行する関連するメモリなどの非常に多くの異なる形態のデータ処理装置を使用してコンピュータ実装されてもよいことを本開示から認識するであろう。現在開示されている実施形態を実装するために使用されるハードウェア、ファームウェアおよびソフトウェアの特定の形態は、本発明にとって重要ではない。

方法およびシステムは精度スコアを使用して音声認識性能を予測するために定義される。同じキーワードセットが全体を通じて使用される。ＦＯＭはキーワードセット内の各キーワードに対して計算される。ＦＯＭは以下でより詳細に説明されるアルゴリズムにより決定される。ＦＯＭはシステムが単語の一致を決定することができる範囲内で精度を予測するために幾つかの特徴を使用する。セット内の各キーワードについて、キーワードスポッターはＦＯＭを決定するために記録された音声の大きな塊上で実行される。言語内で個別におよび他の単語に関連して単語を記述する関連する特徴が計算される。これらの特徴からＦＯＭへのマッピングが学習される。このマッピングはその後適切な機械学習アルゴリズムを介して一般化すること、および新しいキーワードのためのＦＯＭを予測するために使用することができる。

図１はキーワードスポッティング１００のための例示的なシステムを示す図である。キーワードスポッター１００の基本的なコンポーネントは、ユーザデータ／キーワード１０５；キーワードモデル１１０；音響モデル１２０およびレキシコン／発音予測子１２５を含んでいてもよい知識ソース１１５；オーディオストリーム１３０；フロントエンド特徴計算機１３５；認識エンジン（パターンマッチング）１４０；およびリアルタイムで見つけられたキーワードのレポート１４５を含んでいてもよい。

キーワード１０５は、ユーザの好みに応じてシステムのユーザにより定義されてもよい。キーワードモデル１１０は、連結音素隠れマルコフモデル（ＨＭＭ：ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ）または単語を含む語句単位の任意の他の統計的表現により形成されてもよい。キーワードモデル１１０は、ユーザにより定義されるキーワードおよび知識ソース１１５に基づいたキーワードモデル１１０への入力に基づいて構成されていてもよい。そのような知識ソースは、音響モデル１２０およびレキシコン／発音予測子１２５を含んでいてもよい。

知識ソース１１５は、発音および音響イベント間との関係の確率モデルを格納してもよい。知識ソース１１５は大量のオーディオデータを分析することにより発達されてもよい。音響モデル１２０およびレキシコン／発音予測子１２５は、例えば「ハロー（ｈｅｌｌｏ）」などの単語を見ること、および単語を構成する音素を調べることにより作成される。システム内のすべてのキーワードは音素と呼ばれるその構成要素のサブワード単位の統計モデルにより表現される。標準の音素辞書内に定義された「ハロー（ｈｅｌｌｏ）」のための音素は、「ｈｈ」、「ｅｈ」、「ｌ」、および「ｏｗ」である。４つの音素のモデルはその後世界「ハロー（ｈｅｌｌｏ）」のキーワードモデルとなる１つの複合モデルにその後繋ぎ合わされる。これらのモデルは言語に依存している。また、多言語サポートを提供するために複数の知識ソースが提供されてもよい。

音響モデル１２０は特定の言語で発生する様々な音を統計的にモデル化することにより形成されてもよい。音素は音の基本単位であると仮定される。そのような音素の事前定義されたセットは特定の言語のすべての音を完全に記述するものと仮定される。観測された音声信号および観測されない音素との関係をエンコードするＨＭＭは、最新の音声認識システムの基本的な理論を形成する。音素は音の先頭、中央、および末尾部分を表す３つの状態で構成されていると考えられる。ＨＭＭは、これらの３つの状態を連結することにより構築される。トレーニングプロセスは転写された音声の大規模なコレクション（収集物）に渡ってすべての音素のためのこれらの状態の各々の統計的特性を学習する。テキスト（文字）の特性および発話特性との関係がこのように形成される。典型的には、状態の統計値はガウス混合モデル（ＧＭＭ：Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ）を使用してエンコードされてもよい。これらのＧＭＭのセットは音響モデルと呼ばれる。具体的には、本出願に記載のものはコンテキスト−非依存、またはモノフォンモデルと呼ばれる。多くの他のモデルタイプもまた使用されてもよい。例えば、多くの現代の音声認識システムは、コンテキスト−依存であり、および会話音声における音素の位置によって作成された複雑な変動を捕捉してもよいより高度な音響モデルを利用してもよい。音素の各状態はその左右の隣接した音素に特化している。

レキシコン／発音予測子１２５は、単語を音素のシーケンスに分解することに関与してもよい。ユーザから提示されたキーワードは、特定の言語の書記素／アルファベットなどの人間が読み取り可能な形態であってもよい。しかしながら、パターンマッチングアルゴリズムはキーワードの発音を表す音素のシーケンスに依存してもよい。発音予測子は一般的に発話された単語およびその発音との間のマッピングを格納してもよい。音素のシーケンスが取得されたならば、音響モデル１２０内の音素の各々に対応する統計モデルが調べられてもよい。これらの統計モデルの連結は、注目となる単語のキーワードスポッティングを行うために使用されてもよい。

オーディオストリーム（すなわち、利用者によりシステムに発話されるもの）１３０は、オーディオストリーム１３０をオーディオストリーム、またはスペクトル特徴のシーケンスの表現に変換してもよい、フロントエンド特徴計算機１３５に供給されてもよい。オーディオ分析は、オーディオ信号を短い（典型的には１０ミリ秒）ウィンドウのシーケンスとして分割すること、およびスペクトル領域の特徴を抽出することにより行われてもよい。

音素ＨＭＭを連結することにより形成されてもよいキーワードモデル１１０、およびオーディオストリーム１３５から抽出された特徴は、両方ともその後パターンマッチングのための認識エンジン１４０に供給されてもよい。認識エンジン１４０のタスクは、単語が発話されたかどうかを探索するためにキーワードモデルのセットを取り、および提示されるオーディオストリームを検索してもよい。特徴計算機により構成された多次元空間において、発話された単語は音響空間内の軌跡を形成するスペクトル領域特徴ベクトルのシーケンスになってもよい。キーワードスポッティングは現在、単にキーワードモデルが与えられる軌跡を生成する確率を計算する問題になってもよい。このオペレーションは、キーワードモデルをオーディオ信号の最良のセグメントに整列し、および一致スコアを結果としてもたらす、ダイナミックプログラミングの周知の原理、特にビタビアルゴリズムを使用して達成されてもよい。一致スコアが有意である場合、キーワードスポッティングアルゴリズムは、キーワードが発話され、およびキーワードスポッティングイベントをレポートすることを推測する。

結果としてもたらされるキーワードは、その後リアルタイムで報告されてもよい１４５。レポートはキーワードが見つけられた信頼値でオーディオストリーム１３０中のキーワードの開始時刻および終了時刻として提示されてもよい。プライマリ信頼値はキーワードがどのように発話されているかの関数であってもよい。例えば、単一の単語の複数の発音のケースでは、キーワード「トマト（ｔｏｍａｔｏ）」は、「ｔｕｈ−ｍａｈ−ｔｏｗ」および「ｔｕｈ−ｍａｙ−ｔｏｗ」と発話されてもよい。単語があまり一般的ではない発音で発話される際、または単語がうまく発音されていない際には、プライマリ信頼値は低くてもよい。特定の認識の一部である発音の具体的な変形もまたレポートに表示される。

図２に示すように、ＦＯＭ予測をするためのプロセス２００が提供される。プロセス２００はシステム１００（図１）の任意のまたはすべての要素上で動作してもよい。

入力はステップ２０５でユーザインターフェイスに入力される。ユーザ入力は単語または音声発音の形態であってもよい。ユーザインターフェイスは次のように図３に詳細に記載されている。制御はオペレーション２１０に渡され、プロセス２００が継続する。

ステップ２１０において、特徴ベクトルはユーザ入力のために計算される。特徴ベクトルは音素の数、音節の数および強調母音の数のような特徴を含んでいてもよい。制御はオペレーション２１５に渡され、プロセス２００が継続する。

オペレーション２１５において、特徴ベクトルは学習された予測モデルを通過する。ＦＯＭのための学習された予測モデルは音素認識器、レキシコン、形態素解析器、持続時間の統計、および、例えば５００のキーワードを含むキーワードセットを使用して生成されてもよい。レキシコンは入力単語を構成音素のシーケンスに変換することができる検索（ｌｏｏｋｕｐ）または予測モジュールであってもよい。形態素解析器は言語の形態学のルールをエンコードするためのエントリを含む別の検索または予測モジュールであってもよい。言語の一般接辞が使用される。例えば、英語の一般的な接辞は：「ｍｅｎｔ」、「ｉｎｇ」、「ｔｉｏｎ」、および「ｎｏｎ」を含む。音素混同行列は音素認識器の作成を通じて計算されてもよい。行列は音声エンジンがどのように言語内の音を典型的に混同するのかを定量的に記述する。この行列は単語間の距離を計算するためのソースとして後で使用されてもよい。行列の作成については、音声エンジンがどのように表音空間を見ているかを判断することが可能であるが、必ずしも音韻学の理論が混同性がそうであること期待するものではない。音素持続時間の統計は作成された音素認識器を使用する大規模な音声コーパスにおける音素の分析に基づいている。５００ワードキーワードセットは、モデリング特徴が取り得る値の範囲に及ぶように注意深く選択される。以下の図５はキーワードセットを選択するための方法をより詳細に記述している。

オペレーション２２０において、予測されたＦＯＭを取得して処理を終了する。例えば、結果は０〜１００の範囲のＦＯＭ番号出力であってもよい。１００に近いまたは等しい値が高い精度または信頼値を示していてもよい一方で、０に近いまたは等しい値は低い精度または高い誤警報率を示していてもよい。

オペレーション２０５、２１０および２１５は、ユーザがより多くの入力を追加する際にリアルタイムでインタラクティブに実行されてもよい。

図３はプロセス２００でデータ入力のために使用されてもよい例示的なガイド付きユーザインターフェイス３００の図である。ユーザインターフェイス３００は、キーワードフィールド３０５およびＦＯＭフィールド３１０、ＦＯＭバー３１５、およびキーワード例３２０を含んでいてもよい。短い単語はより低いＦＯＭ、およびおそらく高い誤警報率を有していてもよい。より長い単語はより高いＦＯＭを有していてもよい。「ジャーク（Ｊｅｒｋ）」３２０ｃなどのキーワードは、キーワード「くたばれ（ＳｃｒｅｗＹｏｕ）」３２０ｂよりもエラーになりやすい可能性がある。なぜならば、キーワード「ジャーク（Ｊｅｒｋ）」は他の多くのコンテキストで使用され、および曖昧性除去を助けるために短い音響コンテキストを有しているからである。例えば、「ジャーク（Ｊｅｒｋ）」は、「マネージャ（ｍａｎａｇｅｒ）」、「整数（ｉｎｔｅｇｅｒ）」、または「ドイツ語（Ｇｅｒｍａｎ）」の一部に似て聞こえ得る。逆に、「ネジ留める（Ｓｃｒｅｗ）」はかなり独特の音であり、容易に認識される。バー３１５の長さは、各キーワード３０５のためのＦＯＭの度合いの指標である。例えば、キーワード「私たちはあなたのビジネスを高く評価する（ＷｅＡｐｐｒｅｃｉａｔｅＹｏｕｒＢｕｓｉｎｅｓｓ）」３２０ｄは９８のバーの長さ３１５ｄを有する。これは２０のＦＯＭバーの長さ３１５ｃの「ジャーク（Ｊｅｒｋ）」３２０ｃなどの単語よりも「私たちはあなたのビジネスを高く評価する（ＷｅＡｐｐｒｅｃｉａｔｅＹｏｕｒＢｕｓｉｎｅｓｓ）」のためのより高い予測されたＦＯＭがあることを示していてもよい。少なくとも１つの実施形態では、バーの色はより視覚的なフィードバックを提供するために予測されたＦＯＭに基づいて変化してもよい。

図４に示すように、モデル学習をするためのシステムの一実施形態が提供され、および４００で一般的に示されている。システム４００はシステム１００（図１）の任意のまたはすべての要素上で動作可能であってもよい。システム４００の基本的なコンポーネントは、データベースからのキーワードセット４０５；特徴ベクトル計算モジュール４１０；音素混同行列４２０、および持続時間の統計４２５から構成されてもよい認識器データ４１５；レキシコン４３０および形態素解析器４３５；モデル学習モジュール４４０；およびＦＯＭモデル４４５を含んでいてもよい。

データベースからのキーワードセット４０５は統計的に有意な精度の数値を計算するために十分なオーディオ録音が存在する単語から構成されてもよい。キーワードセットは５００のキーワードで構成されてもよく、例えばそれは特徴ベクトル計算モジュール４１０に供給される。

特徴ベクトル計算モジュール４１０は、各キーワードの特徴ベクトルを決定するために、音素混同行列４２０および持続時間の統計４２５から構成され得る認識器から入力されるデータ、ならびに、レキシコン４３０および形態素解析器４３５から入力されるデータを利用してもよい。

認識器データ４１５は認識エンジン１４０（図１）により提供され、および認識器から出力される。これらのデータは音素混同行列４２０および持続時間の統計４２５を含んでいてもよい。音素混同行列４２０は音素認識器の作成を通じて計算される。行列は、音声エンジンがどのように言語内の音を典型的に混同するのかを定量的に記述する。持続時間の統計４２５は、作成された音素認識器を使用して大規模な音声コーパスにおける音素の分析に基づいていてもよい。

レキシコン４３０および形態素解析器４３５は言語依存である。レキシコン４３０は入力単語を構成音素のシーケンスに変換することができる検索または予測モジュールを備えていてもよい。形態素解析器４３５はまた言語内で最も一般的な接頭辞および接尾辞のエントリを含んでいてもよい別の検索または予測モジュールである。

モデル学習モジュール４４０はデータから回帰関数を推定するために特徴ベクトル計算モジュール４１０からの出力を使用してもよい。モジュールはまたコスト関数を最適化するパラメータを調整してもよく、コスト関数は少なくとも１つの実施形態では、予測誤差の絶対値の最小化である。

ＦＯＭモデル４４５は、ユーザ入力の単語にＦＯＭを予測するために実行時に使用するためのシステムにより保存されたモデル学習モジュール４４０の出力の結果を備えていてもよい。これは以下のように図７においてより詳細に記述される。

ここで図５を参照すると、図４のステップ４０５で使用されるトレーニングキーワードセットを選択するためのプロセス５００の一実施形態が示される。少なくとも１つの実施形態において、これは適切に選択されたキーワードセットが、学習モデルを管理学習プロセス中には見られない単語に適切に一般化するのに役立つように、学習プロセスの重要な部分を形成する。

大規模キーワードセットはステップ５０５で選択される。例えば、多数の単語（例えば、一実施形態では２００ワード）を含むキーワードセットは、同様辞書語の値を検査すること、およびその単語がこの特徴の許容値の範囲をカバーすることを確認することにより選択される。例えば、低、中、および高の値はこのキーワードセットで表現されるべきである。制御はオペレーション５１０に渡され、およびプロセス５００が継続する。

オペレーション５１０において、特徴が抽出される。前述のように、特徴ベクトルは音素の数、音節の数、強調母音の数等のような特徴を含んでいてもよい。この情報はレキシコン、形態素解析器、持続時間の統計および混同行列５１５に由来してもよい。制御はオペレーション５２０に渡され、およびプロセス５００が継続する。

オペレーション５２０において、特徴値の範囲がチェックされる。各特徴の値の範囲が異なっていてもよく、したがって値はそれらが低、中、高の値であるかどうかを判断するために検査される。

上述したように、キーワードセットはモデリング特徴が取り得る値の範囲に及ぶように注意深く選択される。したがって、オペレーション５２５において、特徴がキーワードセット内で十分に表現されるか否かが判断される。その特徴が十分に表現されていると判断された場合、その後制御はステップ５１０に渡され、およびプロセス５００が継続する。その特徴が十分に表現されていないと判断された場合、その後システム制御はステップ５３０に渡され、およびプロセス５００が継続する。

オペレーション５２５における判断は任意の適切な基準に基づいて行われてもよい。例えば、特徴値の範囲が高すぎる、または低すぎる場合、不適切な単語がキーワードセット内で選択された可能性がある。あまりにも似ている単語でのキーワードセットは、歪められた範囲を有することになる。制御はステップ５１０に渡され、ここで、本明細書で後述のＦＯＭアルゴリズムでは、ｉの値は次の特徴を示すｉ＋１に等しく設定される。

オペレーション５３０において、キーワードの数はセットに複数のキーワードを追加することにより調整されてもよい。本明細書で後述のＦＯＭアルゴリズムでは、ｉの値は第１の特徴を示す０に等しく設定される。制御はオペレーション５１０に渡され、プロセス５００が継続する。

少なくとも１つの実施形態では、この尺度はキーワードの良好なセットを決定する際にユーザをガイドするために使用される。他の用途は認識エンジンへのフィードバック、および誤警報率を制御することを含んでいてもよい。図６の図は認識エンジンにより決定される一致確率、または「スコア」とシステムにより報告される信頼値との間の関係を示す。デフォルトでは、キーワードについての情報が知られていない場合、曲線６０５が使用されてもよい。ＦＯＭが知られている場合、線６１０および６１５により示されるように、関係はキーワードのオペレーティングスコア範囲を変更することにより修正されてもよい。線６１５が高いＦＯＭキーワードを示す一方で、線６１０は低いＦＯＭキーワードを示す。スコアの値が増大するにつれ、例えば、一致における信頼値０．０は高い信頼度での一致を示していてもよく、および大きな負の値は一致における非常に低い信頼値を示す可能性がある。スコアがより負になるにつれて、不一致の可能性が増加する。例えば、スコアが０．０に近づくにつれて、一致の可能性がより高くなる。このように、０のスコアおよび１．０の信頼値はこの図では完全な一致を示すことになる。少なくとも１つの実施形態では、選択された信頼値が低いかまたは高いＦＯＭのいずれかで単語のための類似スコア値を表すようにスコア範囲を変更することが望まれる。

図７は様々な信頼値設定でのシステムの動作を示す図である。ＦＯＭに基づいてオペレーティング範囲を変更した結果はシステムのより制御された動作であってもよい。例えば、ユーザがスポットされたキーワードを登録する際に、関連するＦＯＭ尺度は７０などのように提示される。定義により、これはシステムが時間あたり５の誤警報率で７０％の精度に結果としてなることを意味する。システムからこの動作を得るために、デフォルトの信頼値設定（０．５）において、システムが毎時５の誤警報および７０％の検出率を生成するように、図７に示すように内部のスコア範囲は改変される。ユーザがより高い精度を望む場合、信頼値設定はより低くてもよく、おそらくより高い誤警報率を作成できるであろう。ユーザがより低い誤警報率を望む場合、信頼値設定は増加されてもよく、したがっておそらくより低い検出率を結果としてもたらす。ＦＯＭに基づいて内部のスコア範囲を変更することにより、この動作はそれらのＦＯＭにかかわらずすべての単語のために首尾一貫した矛盾のないものになる。

図式７００は信頼値設定が変更されるシステムの動作を示す。例えば、信頼値設定が０．０に近づくにつれて、誤警報率（ＦＡ／時）が増加し、および同様に検出率が増加する。逆に、信頼値設定が１．０に近づくにつれて、誤警報率は値０．０に達するまで低下し、同時に検出率もまた低下し０．０に近づく。

図８はキーワードの例を示す表８００である。レコード８００ａおよび８００ｂは、キーワードフィールド８０５、予測されたＦＯＭフィールド８１０、音素の数フィールド８１５、強調母音の数フィールド８２０、音節の数フィールド８２５、持続時間平均フィールド８３０、持続時間標準偏差フィールド８３５、部分的な辞書語フィールド８４０、同様辞書語フィールド８４５、同様接頭辞フィールド８５０、同様接尾辞フィールド８５５、および混同インデックスフィールド８６０を含んでいてもよい。

キーワードフィールド８０５はキーワードの例を含んでいてもよい。例えば、レコード８００ａは単語「デバッグ（ｄｅｂｕｇ）」を含み、レコード８００ｂは単語「インタラクティブ（ｉｎｔｅｒａｃｔｉｖｅ）」を含む。

少なくとも１つの実施形態では、予測されたＦＯＭフィールド８１０はＦＯＭ表現式により予測された値を含む。

ここでｉは特徴のインデックスを表し、ｘはｉ番目の特徴を表し、および式パラメータａおよびｂは学習された値であり、それらの値は図９に示される。Ｎは予測を学習するために使用される特徴の数の上限を表す。例えば、Ｎ＝１０が使用されてもよい。

例えば、レコード８００ａはキーワード「デバッグ（ｄｅｂｕｇ）」のための２９．６９７１のＦＯＭ値を含む一方、レコード８００ｂはキーワード「インタラクティブ（ｉｎｔｅｒａｃｔｉｖｅ）」のための７８．５８２３のＦＯＭ値を含む。

強調母音の数フィールド８２０は、単語が発話される際に強勢が置かれている各キーワード内の母音の数を示していてもよい。例えば、単語内でより強調されている母音はより明確に発音され、一般に精度がより高い。図８に示すように、キーワード「デバッグ（ｄｅｂｕｇ）」は１つの強調母音を含む一方、「インタラクティブ（ｉｎｔｅｒａｃｔｉｖｅ）」は２つの強調母音を含む。

音節の数フィールド８２５は各キーワード内の音節の数を含んでいてもよい。例えば、キーワード「デバッグ（ｄｅｂｕｇ）」は２音節を有する一方、キーワード「インタラクティブ（ｉｎｔｅｒａｃｔｉｖｅ）」は４音節を含む。

持続時間平均フィールド８３０は特徴からの持続時間平均を含んでいてもよい。例えば、キーワード「デバッグ（ｄｅｂｕｇ）」は３６．６２７６の持続時間平均を有する一方、キーワード「インタラクティブ（ｉｎｔｅｒａｃｔｉｖｅ）」は６１．９４７４の持続時間平均を有する。

持続時間標準偏差フィールド８３５はキーワードの持続時間標準偏差を含んでいてもよい。例えば、キーワード「デバッグ（ｄｅｂｕｇ）」は８．９６７５２の持続時間標準偏差値を有する一方、キーワード「インタラクティブ（ｉｎｔｅｒａｃｔｉｖｅ）」は１０．５２９３の持続時間標準偏差値を有する。

部分辞書語フィールド８４０はキーワードが一部である対象となる言語の典型的な語彙内で幾つの単語なのかという尺度を含んでいてもよい。この数値が高いほど、キーワードが一部である単語の数がより少ないものが典型的により高精度な一致を結果としてもたらす。例えば、キーワード「デバッグ（ｄｅｂｕｇ）」は部分的辞書語フィールド８４０に３３．３３３３の値を有する一方、キーワード「インタラクティブ（ｉｎｔｅｒａｃｔｉｖｅ）」は５０の値を有する。

同様辞書語フィールド８４５は、キーワードが同様である対象となる言語の典型的な語彙内で幾つの単語なのかという尺度を含んでいてもよい。例えば、この数値が低いほど、より多くの単語がキーワードが同様であり、したがって混同される。一般に低い精度が結果としてもたらされ得る。同様度は距離メトリックを使用して測定される。距離メトリックの例は音素の数が同じ単語「猫（ｃａｔ）」および「バット（ｂａｔ）」に見ることができる。音素に分解すると、「猫（ｃａｔ）」および「バット（ｂａｔ）」は以下のようになる：

ＣＡＴ−＞ｋａｅｔ

ＢＡＴ−＞ｂａｅｔ

単語の比較はそれらが異なる１音素を有することを示す。１の単純な編集距離スコアが結果となる。認識器が音「ｋ」および「ｂ」との間で混同している場合、混同行列ベースの編集距離は０．２である可能性がある。

単語「猫（ｃａｔ）」および「退去（ｖａｃａｔｅ）」は音素の異なる数を含む単語の例として使用することができる。単語「猫（ｃａｔ）」および「退去（ｖａｃａｔｅ）」は以下のようになる：

ＣＡＴ−＞＊＊ｋａｅｔ

ＶＡＣＡＴＥ−＞ｖｅｙｋｅｙｔ

音素の挿入が１コストであり、および「ａｅ」および「ｅｙ」との間の距離が０．３であると仮定すると、次に単語間の総距離は２．３である。

別の例では、エラーを有する単語間の距離は以下のように単語「猫（ｃａｔ）」および「尾部（ａｆｔ）」で見ることができる：

ＣＡＴ−＞ｋａｅｔ＊

ＡＦＴ−＞＊ａｅｆｔ

エラーは音素の挿入、欠失、および置換を含んでいてもよい。音素の挿入が１コスト、欠失が２コスト、および音素「ｔ」および「ｆ」との間の距離が０．７であると仮定すると、次に「猫（ｃａｔ）」から「尾部（ａｆｔ）」への総距離は３．７である。これは音素の１つの挿入、１つの欠失、および１つの置換を説明する。

図８では、例えば、キーワード「デバッグ（ｄｅｂｕｇ）」は同様辞書語フィールド８４５で５の値を含む一方、キーワード「インタラクティブ（ｉｎｔｅｒａｃｔｉｖｅ）」は３３．３３３３の値を含む。

同様接頭辞フィールド８５０は、幾つの典型的な接頭辞キーワードが混同されるのかの尺度を含んでいてもよい。この数値は形態素解析器により提供される。このフィールドのより高い値は共通の接頭辞でのより低い同様性、したがって単語のためのより高い典型的な精度を示す。接頭辞は単語の語根の前に置かれる接辞である。例としては「前（ｐｒｅ）」および「非（ｎｏｎ）」である。例えば、キーワード「デバッグ（ｄｅｂｕｇ）」は２０の同様接頭辞値を含む一方、キーワード「インタラクティブ（ｉｎｔｅｒａｃｔｉｖｅ）」は１００の同様接頭辞値を含む。

同様接尾辞フィールド８５５は、幾つの典型的な接尾辞キーワードが混同されるのかの尺度を含んでいてもよい。この数値は形態素解析器により提供される。このフィールドのより高い値は共通の接頭辞でのより低い同様性、したがって単語のためのより高い典型的な精度を示す。言語学では、接尾辞（ｓｕｆｆｉｘ）（また、接尾語（ｐｏｓｔｆｉｘ）または語末（ｅｎｄｉｎｇ）と呼ばれることもある）は単語の語幹の後に配置される接辞である。接尾辞の２つの例は、「ｔｉｏｎ」および「ｏｕｓ」である。図８に示すように、キーワード「デバッグ（ｄｅｂｕｇ）」は２５の同様接尾辞値を含む一方、キーワード「インタラクティブ（ｉｎｔｅｒａｃｔｉｖｅ）」は１００の同様接尾辞値を含む。

混同インデックスフィールド８６０は単語を構成する音素の混同の総和の尺度を含んでいてもよい。単語が破裂音および鼻音のなどの幾つかのよく混同される音素で構成されている場合には、より低い精度を有することになりやすい。例えば、キーワード「デバッグ（ｄｅｂｕｇ）」は３８．８５の混同インデックス値を含む一方、キーワード「インタラクティブ（ｉｎｔｅｒａｃｔｉｖｅ）」は６１．６５の混同インデックスの値を含む。

図９はＦＯＭのモデル式を示す表である。この表は、図８のレコード８００ａおよび８００ｂのために記述された値を計算するために使用されてもよい前述されたプロセスを介した学習値の例を示す。これらの値は上記からＦＯＭアルゴリズムに入力される。

図９は以下のフィールドを含んでいてもよい：特徴名９０５、音素の数多項式９１０、強調母音の数多項式９１５、音節の数多項式９２０、持続時間平均多項式９２５、持続時間標準偏差多項式９３０、部分辞書語多項式９３５、同様辞書語多項式９４０、同様接頭辞多項式９４５、同様接尾辞多項式９５０、および混同インデックス多項式９５５。

特徴名フィールドはｉで表されるような見出しの特徴のインデックス、および式のパラメータａおよびｂを含む。フィールド９１０から９５５は各フィールドの学習値を示す。例えば、音素の数多項式９１０はｉ＝１、ａ＝０．１４９９およびｂ＝−３２．２６２９の値を有する。

本発明は図面および前述の説明において詳細に図示および説明されてきたが、同様のものは例示であって特徴を限定しないものと考えられるべきであり、好適な実施形態のみが示され、および説明されており、および本明細書に記載された発明の趣旨の範囲に入る、および／または添付の特許請求の範囲によるすべての等価物、変更、および修正は保護されることが望まれることを理解されたい。

したがって、本発明の適切な範囲は、すべてのそのような変更ならびに図面に例示されおよび明細書に記載されたものと同等のすべての関係を包含するように、添付の特許請求の範囲の最も広い解釈により決定されるべきである。

Claims

音声認識性能を予測するためのコンピュータ実装方法であって、
ａ）入力を受け付けるステップと、
ｂ）前記入力についての少なくとも１つの特徴ベクトルを計算するステップと、
ｃ）前記少なくとも１つの特徴ベクトルを予測モデルに入力するステップと、
ｄ）前記予測モデルから前記入力についての予測を取得するステップと、
ｅ）前記予測モデルを作成するステップであって、
ｅ．１）キーワードのセットを選択するステップと、
ｅ．２）前記キーワードの各々に対する所望の特徴の特徴ベクトルを計算するステップと、
ｅ．３）コスト関数を最小化するためにパラメータを調整するモデル学習モジュールに前記特徴ベクトルを入力するステップと、
ｅ．４）前記入力の性能指数の予測のための前記予測モデルとして前記モデル学習モジュールからの結果を保存するステップと、
を含む作成するステップと、
を含む方法。
前記入力は少なくとも１つの単語を含む、請求項１に記載の方法。
前記予測は性能指数である、請求項１に記載の方法。
前記入力は音声発音を含む、請求項１に記載の方法。
より多くの入力が提供されるように少なくともステップ（ｂ）、（ｃ）および（ｄ）はリアルタイムで実行される、請求項１に記載の方法。
前記コスト関数は予測誤差を含む、請求項１に記載の方法。
前記性能指数は、

を含む、請求項１に記載の方法。
ステップ（ｅ．３）は、
ｅ．３．１）前記特徴ベクトルを計算するステップであって、
ｅ．３．１．１）前記入力を音素のシーケンスに変換するステップと、
ｅ．３．１．２）言語内の単語の形態素解析を実行するステップと、
を含む計算するステップと、
をさらに含む、請求項１に記載の方法。
ステップ（ｅ．３．１．１）は音素の統計および音素混同行列を使用して実行される、
請求項８に記載の方法。
音素認識器を使用して前記音素混同行列を計算するステップをさらに含む、請求項９に記載の方法。
音声認識性能を予測するためのシステムであって、
入力を受け付けるための手段と、
前記入力についての少なくとも１つの特徴ベクトルを計算するための手段と、
前記少なくとも１つの特徴ベクトルを予測モデルに入力するため手段と、
前記予測モデルから前記入力についての性能指数の予測を取得するための手段と、
を備えるシステムであって、
前記入力を受け付けるための手段は、ガイド付きのユーザインターフェイスを備えるシステム。
音声認識性能を予測するためのシステムであって、
入力を受け付けるための手段と、
前記入力についての少なくとも１つの特徴ベクトルを計算するための手段と、
前記少なくとも１つの特徴ベクトルを予測モデルに入力するため手段と、
前記予測モデルから前記入力についての性能指数の予測を取得するための手段と、
を備えるシステムであって、
前記予測モデルを生成するための手段であって、
キーワードのセットを選択するための手段と、
前記セット内の各単語に対する大規模音声コーパス上の音声エンジンの精度を計算するための手段と、
所望の特徴の特徴ベクトルを計算するための手段と、
コスト関数を最小化するためにパラメータを調整するモデル学習モジュールに前記特徴ベクトルを入力するための手段と、
前記入力の性能指数の予測として前記モデル学習モジュールからの結果を保存するための手段と、
を備える生成するための手段と、
をさらに備えるシステム。
前記性能指数は、

を備える、請求項１１に記載のシステム。
前記特徴ベクトルを計算するための手段であって、
入力を音素のシーケンスに変換することができるモジュールと、
言語内の接尾辞のためのエントリを含むモジュールと、
音素の統計を含むモジュールと、
音素混同行列を含むモジュールと、
を備える計算するための手段と、
をさらに備える、請求項１２に記載のシステム。
前記音素混同行列を計算するための音素認識器をさらに備える、請求項１４に記載のシステム。
音声認識エンジンの内部スコアを調整する予測された音声認識性能を使用するためのコンピュータ実装方法であって、
ａ）入力を受け付けるステップと、
ｂ）前記入力についての少なくとも１つの特徴ベクトルを計算するステップと、
ｃ）前記少なくとも１つの特徴ベクトルを予測モデルに入力するステップと、
ｄ）前記キーワードの性能指数の予測を取得するステップと、
ｅ）前記予測に基づいて信頼値に対する前記内部スコアのマッピングを調整するステップと、
を含む方法であって、
前記予測は前記入力に対して５ＦＡ／ＫＷ／時間に平均化している検出率を有する方法。
音声認識エンジンの内部スコアを調整する予測された音声認識性能を使用するためのコンピュータ実装方法であって、
ａ）入力を受け付けるステップと、
ｂ）前記入力についての少なくとも１つの特徴ベクトルを計算するステップと、
ｃ）前記少なくとも１つの特徴ベクトルを予測モデルに入力するステップと、
ｄ）前記キーワードの性能指数の予測を取得するステップと、
ｅ）前記予測に基づいて信頼値に対する前記内部スコアのマッピングを調整するステップと、
を含む方法であって、
ｆ）前記予測モデルを作成するステップであって、
ｆ．１）キーワードのセットを選択するステップと、
ｆ．２）前記キーワードの各々に対する所望の特徴の特徴ベクトルを計算するステップと、
ｆ．３）コスト関数を最小化するためにパラメータを調整するモデル学習モジュールに前記特徴ベクトルを入力するステップと、
ｆ．４）前記入力についての性能指数の予測のためのトレーニングされたモデルとして前記モデル学習モジュールからの結果を保存するステップと、
を含む作成するステップと、
をさらに含む方法。
前記入力は少なくとも１つの単語を含む、請求項１７に記載の方法。
前記入力は音声発音を含む、請求項１７に記載の方法。
少なくともステップ（ｂ）、（ｃ）および（ｄ）は、ユーザが追加入力を追加しながらリアルタイムで実行される、請求項１７に記載の方法。
前記性能指数は、

を含む、請求項１７に記載の方法。
ｇ）前記特徴ベクトルを計算するステップであって、
ｇ．１）前記入力を音素のシーケンスに変換するステップと、
ｇ．２）音素の統計および音素混同行列を使用して言語内の単語の形態素解析を実行するステップと、
を含む計算するステップと、
をさらに含む、請求項１７に記載の方法。
音素認識器を使用して前記音素混同行列を計算するステップをさらに含む、請求項２２に記載の方法。