JP6230606B2 - 精度スコアを使用した音声認識性能を予測するための方法およびシステム - Google Patents

精度スコアを使用した音声認識性能を予測するための方法およびシステム Download PDF

Info

Publication number
JP6230606B2
JP6230606B2 JP2015529768A JP2015529768A JP6230606B2 JP 6230606 B2 JP6230606 B2 JP 6230606B2 JP 2015529768 A JP2015529768 A JP 2015529768A JP 2015529768 A JP2015529768 A JP 2015529768A JP 6230606 B2 JP6230606 B2 JP 6230606B2
Authority
JP
Japan
Prior art keywords
input
prediction
feature vector
calculating
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015529768A
Other languages
English (en)
Other versions
JP2015530614A (ja
Inventor
ガナパティラジュ,アラビンド
タン,イーンイー
ワイス,フェリックス,イマニュエル
ランダル,スコット,アレン
Original Assignee
インタラクティブ・インテリジェンス・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インタラクティブ・インテリジェンス・インコーポレイテッド filed Critical インタラクティブ・インテリジェンス・インコーポレイテッド
Publication of JP2015530614A publication Critical patent/JP2015530614A/ja
Application granted granted Critical
Publication of JP6230606B2 publication Critical patent/JP6230606B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、一般に通信システムおよび方法、ならびに自動音声認識システムに関する。より具体的には、本発明は自動音声認識システム内の機械学習に関する。
音声認識は単語のセットの別のオーディオファイルを参照して音声ファイルを解析することにより目的の単語を認識するためのシステムの能力を測定することにより実施されてもよいことが当技術分野で知られている。目的の単語は特定の認識閾値を満たしていない場合、その後単語のセットから分離されてもよい。単語のセットから閾値以下の目的の単語を分離することにより、セットは容易に同定された単語に制限されてもよい。単語はこのように一定の信頼値を有する音声認識アプリケーションで使用することができる。しかしながら、このプロセスは時間がかかり、多くのアプリケーションにおいて非実用的である。認識率を測定するためにオーディオファイルの大規模なセットを処理する必要なしに、目的の単語の認識精度を予測することができるシステムを有することは、完全な展開を待つことなく、このように金銭、労力、およびリソースを節約して現実の世界でシステムがどのように動作するかをユーザに理解させることを可能にする。
音声解析分野内で音声認識システム内の精度スコアを使用して音声認識性能を予測するシステムおよび方法が提示される。同じキーワードセットが全体を通じて使用される。性能指数(FOM:Figure of Merit)は音声認識システム、特にキーワードスポッティングシステムの精度を記述するために使用される尺度である。これは毎時キーワードあたり5誤警報(FA/KW/時間)の平均の検出率と定義される。少なくとも1つの実施形態では、FOMは以下でより詳細に説明されるアルゴリズムにより予測される。FOMはシステムが単語の一致を決定することができる精度を予測するためにキーワードの幾つかの特徴を使用する。セット内の各キーワードについて、キーワードスポッターはFOMを決定するために録音された音声の大きな塊上で実行される。言語内で個別におよび他の単語に関連して単語を記述する関連する特徴が計算される。これらの特徴からFOMへのマッピングが学習される。このマッピングは、その後適切な機械学習アルゴリズムを介して一般化すること、および新しいキーワードのためのFOMを予測するために使用することができる。予測されたFOMは、信頼値の各種設定のためのすべての入力についての一貫した動作を達成するため音声認識エンジンの内部を調節するために使用されてもよい。
一実施形態では、以下のステップ:入力を受け付けることと;前記入力についての少なくとも1つの特徴ベクトルを計算することと;前記少なくとも1つの特徴ベクトルを予測モデルに入力することと;予測モデルから入力についての予測を取得することとを備える音声認識性能を予測するためのコンピュータ実装方法が開示される。
別の実施形態では、入力を受け付けるための手段と;前記ユーザ入力についての少なくとも1つの特徴ベクトルを計算するための手段と;前記少なくとも1つの特徴ベクトルを予測モデルに入力するための手段と;予測モデルから入力についての性能指数の予測を取得するための手段とを備える音声認識性能を予測するためのシステムが開示される。
別の実施形態では、音声認識エンジンの内部スコアを調整する予測音声認識性能を使用するためのコンピュータ実装方法が開示され、方法は以下のステップ:入力を受け付けることと;前記入力についての少なくとも1つの特徴ベクトルを計算することと;前記少なくとも1つの特徴ベクトルを予測モデルに入力することと;キーワードのための性能指数の予測を取得することと;前記予測に基づいて信頼値に対する前記内部スコアのマッピングを調整することとを備える。
図1は、キーワードスポッティングのための例示的なシステムを示す図である。
図2は、FOM予測のためのプロセスを示すフローチャートである。
図3は、ユーザインターフェイスの図である。
図4は、モデル学習のためのシステムを示すフローチャートである。
図5は、トレーニングキーワードセットを選択するためのプロセスを示すフローチャートである。
図6は、内部の一致「スコア」および外部の「信頼」値との関係を示す図である。
図7は、検出精度および音声の時間当たり誤警報に対するFOMを示す図である。
図8は、キーワードの例を示す表である。
図9は、FOMのモデル式を示す表である。
本発明の原理の理解を促す目的で、参照図面に示される実施形態についての参照が行われるであろうし、および同じものを説明するために特定の言語が用いられるであろう。それにもかかわらず、本発明の範囲を限定することを意図するものではないことが理解されるであろう。説明される実施形態における任意の変更およびさらなる修正、および本明細書に説明される本発明の原理のさらなる応用は、本発明が関係する当業者に通常想起されるであろうと想定される。
自動音声認識(ASR:Automatic speech recognition)システムは人間の音声を分析し、および音声をテキストまたは単語に翻訳する。これらのシステムの性能は一般に音声を認識することができる精度、信頼性、言語のサポート、速度に基づいて評価される。システムの性能は非常に高くあるべきことが期待される。優れた性能は多くの場合高い検出率および低い誤警報率により定量化される。業界標準は音声の時間当たりキーワード当たり5誤警報、または5FA/KW/時間で70%程度の検出率であると考えられる。これはFOMが70であるとして読み取ってもよい。アクセント、調音、発話速度、発音、背景雑音などのような因子はシステムの精度に悪影響を有することが有り得る。処理速度は数百通話を一度におよびリアルタイムで解析する必要がある。システムはまた、現代の電話チャネル、特にVoIPにより導入されたチャネル条件および様々なアーティファクトに関係なく、一貫しておよび確実に行うことが期待される。複数の言語からのキーワードもまた同じオーディオソース上にスポットされる必要がある。
機械学習は、特定のキーワード上でのエンジンの性能を予測することに使用されてもよい。管理学習は、管理されたまたはラベル付けされたトレーニングデータから関数を推論する機械学習タスクと呼ばれてもよい。このようなトレーニングデータは、キーワードの大規模なセットの精度値を表すトレーニング例のセットから構成されてもよい。管理学習では、各トレーニング例は、入力特徴ベクトルおよび所望の出力精度値のペアである。管理学習アルゴリズムは、トレーニングデータを解析し、推論関数または回帰関数を生成する。このような関数は、任意の有効な入力オブジェクトの正しい出力値を予測すべきである。これは「合理的な」方法でトレーニングデータから目に見えない状況に一般化するための学習アルゴリズムを必要とする。回帰関数は、複雑なニューラルネットワークへの単純な直線などの種々の形態を使用してモデル化されてもよい。
当業者は、単に1つの非限定的な例をあげるために、本明細書に開示される種々の方法論はデジタルマイクロプロセッサおよび適切なソフトウェアプログラムを実行する関連するメモリなどの非常に多くの異なる形態のデータ処理装置を使用してコンピュータ実装されてもよいことを本開示から認識するであろう。現在開示されている実施形態を実装するために使用されるハードウェア、ファームウェアおよびソフトウェアの特定の形態は、本発明にとって重要ではない。
方法およびシステムは精度スコアを使用して音声認識性能を予測するために定義される。同じキーワードセットが全体を通じて使用される。FOMはキーワードセット内の各キーワードに対して計算される。FOMは以下でより詳細に説明されるアルゴリズムにより決定される。FOMはシステムが単語の一致を決定することができる範囲内で精度を予測するために幾つかの特徴を使用する。セット内の各キーワードについて、キーワードスポッターはFOMを決定するために記録された音声の大きな塊上で実行される。言語内で個別におよび他の単語に関連して単語を記述する関連する特徴が計算される。これらの特徴からFOMへのマッピングが学習される。このマッピングはその後適切な機械学習アルゴリズムを介して一般化すること、および新しいキーワードのためのFOMを予測するために使用することができる。
図1はキーワードスポッティング100のための例示的なシステムを示す図である。キーワードスポッター100の基本的なコンポーネントは、ユーザデータ/キーワード105;キーワードモデル110;音響モデル120およびレキシコン/発音予測子125を含んでいてもよい知識ソース115;オーディオストリーム130;フロントエンド特徴計算機135;認識エンジン(パターンマッチング)140;およびリアルタイムで見つけられたキーワードのレポート145を含んでいてもよい。
キーワード105は、ユーザの好みに応じてシステムのユーザにより定義されてもよい。キーワードモデル110は、連結音素隠れマルコフモデル(HMM:hidden Markov model)または単語を含む語句単位の任意の他の統計的表現により形成されてもよい。キーワードモデル110は、ユーザにより定義されるキーワードおよび知識ソース115に基づいたキーワードモデル110への入力に基づいて構成されていてもよい。そのような知識ソースは、音響モデル120およびレキシコン/発音予測子125を含んでいてもよい。
知識ソース115は、発音および音響イベント間との関係の確率モデルを格納してもよい。知識ソース115は大量のオーディオデータを分析することにより発達されてもよい。音響モデル120およびレキシコン/発音予測子125は、例えば「ハロー(hello)」などの単語を見ること、および単語を構成する音素を調べることにより作成される。システム内のすべてのキーワードは音素と呼ばれるその構成要素のサブワード単位の統計モデルにより表現される。標準の音素辞書内に定義された「ハロー(hello)」のための音素は、「hh」、「eh」、「l」、および「ow」である。4つの音素のモデルはその後世界「ハロー(hello)」のキーワードモデルとなる1つの複合モデルにその後繋ぎ合わされる。これらのモデルは言語に依存している。また、多言語サポートを提供するために複数の知識ソースが提供されてもよい。
音響モデル120は特定の言語で発生する様々な音を統計的にモデル化することにより形成されてもよい。音素は音の基本単位であると仮定される。そのような音素の事前定義されたセットは特定の言語のすべての音を完全に記述するものと仮定される。観測された音声信号および観測されない音素との関係をエンコードするHMMは、最新の音声認識システムの基本的な理論を形成する。音素は音の先頭、中央、および末尾部分を表す3つの状態で構成されていると考えられる。HMMは、これらの3つの状態を連結することにより構築される。トレーニングプロセスは転写された音声の大規模なコレクション(収集物)に渡ってすべての音素のためのこれらの状態の各々の統計的特性を学習する。テキスト(文字)の特性および発話特性との関係がこのように形成される。典型的には、状態の統計値はガウス混合モデル(GMM:Gaussian mixture model)を使用してエンコードされてもよい。これらのGMMのセットは音響モデルと呼ばれる。具体的には、本出願に記載のものはコンテキスト−非依存、またはモノフォンモデルと呼ばれる。多くの他のモデルタイプもまた使用されてもよい。例えば、多くの現代の音声認識システムは、コンテキスト−依存であり、および会話音声における音素の位置によって作成された複雑な変動を捕捉してもよいより高度な音響モデルを利用してもよい。音素の各状態はその左右の隣接した音素に特化している。
レキシコン/発音予測子125は、単語を音素のシーケンスに分解することに関与してもよい。ユーザから提示されたキーワードは、特定の言語の書記素/アルファベットなどの人間が読み取り可能な形態であってもよい。しかしながら、パターンマッチングアルゴリズムはキーワードの発音を表す音素のシーケンスに依存してもよい。発音予測子は一般的に発話された単語およびその発音との間のマッピングを格納してもよい。音素のシーケンスが取得されたならば、音響モデル120内の音素の各々に対応する統計モデルが調べられてもよい。これらの統計モデルの連結は、注目となる単語のキーワードスポッティングを行うために使用されてもよい。
オーディオストリーム(すなわち、利用者によりシステムに発話されるもの)130は、オーディオストリーム130をオーディオストリーム、またはスペクトル特徴のシーケンスの表現に変換してもよい、フロントエンド特徴計算機135に供給されてもよい。オーディオ分析は、オーディオ信号を短い(典型的には10ミリ秒)ウィンドウのシーケンスとして分割すること、およびスペクトル領域の特徴を抽出することにより行われてもよい。
音素HMMを連結することにより形成されてもよいキーワードモデル110、およびオーディオストリーム135から抽出された特徴は、両方ともその後パターンマッチングのための認識エンジン140に供給されてもよい。認識エンジン140のタスクは、単語が発話されたかどうかを探索するためにキーワードモデルのセットを取り、および提示されるオーディオストリームを検索してもよい。特徴計算機により構成された多次元空間において、発話された単語は音響空間内の軌跡を形成するスペクトル領域特徴ベクトルのシーケンスになってもよい。キーワードスポッティングは現在、単にキーワードモデルが与えられる軌跡を生成する確率を計算する問題になってもよい。このオペレーションは、キーワードモデルをオーディオ信号の最良のセグメントに整列し、および一致スコアを結果としてもたらす、ダイナミックプログラミングの周知の原理、特にビタビアルゴリズムを使用して達成されてもよい。一致スコアが有意である場合、キーワードスポッティングアルゴリズムは、キーワードが発話され、およびキーワードスポッティングイベントをレポートすることを推測する。
結果としてもたらされるキーワードは、その後リアルタイムで報告されてもよい145。レポートはキーワードが見つけられた信頼値でオーディオストリーム130中のキーワードの開始時刻および終了時刻として提示されてもよい。プライマリ信頼値はキーワードがどのように発話されているかの関数であってもよい。例えば、単一の単語の複数の発音のケースでは、キーワード「トマト(tomato)」は、「tuh−mah−tow」および「tuh−may−tow」と発話されてもよい。単語があまり一般的ではない発音で発話される際、または単語がうまく発音されていない際には、プライマリ信頼値は低くてもよい。特定の認識の一部である発音の具体的な変形もまたレポートに表示される。
図2に示すように、FOM予測をするためのプロセス200が提供される。プロセス200はシステム100(図1)の任意のまたはすべての要素上で動作してもよい。
入力はステップ205でユーザインターフェイスに入力される。ユーザ入力は単語または音声発音の形態であってもよい。ユーザインターフェイスは次のように図3に詳細に記載されている。制御はオペレーション210に渡され、プロセス200が継続する。
ステップ210において、特徴ベクトルはユーザ入力のために計算される。特徴ベクトルは音素の数、音節の数および強調母音の数のような特徴を含んでいてもよい。制御はオペレーション215に渡され、プロセス200が継続する。
オペレーション215において、特徴ベクトルは学習された予測モデルを通過する。FOMのための学習された予測モデルは音素認識器、レキシコン、形態素解析器、持続時間の統計、および、例えば500のキーワードを含むキーワードセットを使用して生成されてもよい。レキシコンは入力単語を構成音素のシーケンスに変換することができる検索(lookup)または予測モジュールであってもよい。形態素解析器は言語の形態学のルールをエンコードするためのエントリを含む別の検索または予測モジュールであってもよい。言語の一般接辞が使用される。例えば、英語の一般的な接辞は:「ment」、「ing」、「tion」、および「non」を含む。音素混同行列は音素認識器の作成を通じて計算されてもよい。行列は音声エンジンがどのように言語内の音を典型的に混同するのかを定量的に記述する。この行列は単語間の距離を計算するためのソースとして後で使用されてもよい。行列の作成については、音声エンジンがどのように表音空間を見ているかを判断することが可能であるが、必ずしも音韻学の理論が混同性がそうであること期待するものではない。音素持続時間の統計は作成された音素認識器を使用する大規模な音声コーパスにおける音素の分析に基づいている。500ワードキーワードセットは、モデリング特徴が取り得る値の範囲に及ぶように注意深く選択される。以下の図5はキーワードセットを選択するための方法をより詳細に記述している。
オペレーション220において、予測されたFOMを取得して処理を終了する。例えば、結果は0〜100の範囲のFOM番号出力であってもよい。100に近いまたは等しい値が高い精度または信頼値を示していてもよい一方で、0に近いまたは等しい値は低い精度または高い誤警報率を示していてもよい。
オペレーション205、210および215は、ユーザがより多くの入力を追加する際にリアルタイムでインタラクティブに実行されてもよい。
図3はプロセス200でデータ入力のために使用されてもよい例示的なガイド付きユーザインターフェイス300の図である。ユーザインターフェイス300は、キーワードフィールド305およびFOMフィールド310、FOMバー315、およびキーワード例320を含んでいてもよい。短い単語はより低いFOM、およびおそらく高い誤警報率を有していてもよい。より長い単語はより高いFOMを有していてもよい。「ジャーク(Jerk)」320cなどのキーワードは、キーワード「くたばれ(Screw You)」320bよりもエラーになりやすい可能性がある。なぜならば、キーワード「ジャーク(Jerk)」は他の多くのコンテキストで使用され、および曖昧性除去を助けるために短い音響コンテキストを有しているからである。例えば、「ジャーク(Jerk)」は、「マネージャ(manager)」、「整数(integer)」、または「ドイツ語(German)」の一部に似て聞こえ得る。逆に、「ネジ留める(Screw)」はかなり独特の音であり、容易に認識される。バー315の長さは、各キーワード305のためのFOMの度合いの指標である。例えば、キーワード「私たちはあなたのビジネスを高く評価する(We Appreciate Your Business)」320dは98のバーの長さ315dを有する。これは20のFOMバーの長さ315cの「ジャーク(Jerk)」320cなどの単語よりも「私たちはあなたのビジネスを高く評価する(We Appreciate Your Business)」のためのより高い予測されたFOMがあることを示していてもよい。少なくとも1つの実施形態では、バーの色はより視覚的なフィードバックを提供するために予測されたFOMに基づいて変化してもよい。
図4に示すように、モデル学習をするためのシステムの一実施形態が提供され、および400で一般的に示されている。システム400はシステム100(図1)の任意のまたはすべての要素上で動作可能であってもよい。システム400の基本的なコンポーネントは、データベースからのキーワードセット405;特徴ベクトル計算モジュール410;音素混同行列420、および持続時間の統計425から構成されてもよい認識器データ415;レキシコン430および形態素解析器435;モデル学習モジュール440;およびFOMモデル445を含んでいてもよい。
データベースからのキーワードセット405は統計的に有意な精度の数値を計算するために十分なオーディオ録音が存在する単語から構成されてもよい。キーワードセットは500のキーワードで構成されてもよく、例えばそれは特徴ベクトル計算モジュール410に供給される。
特徴ベクトル計算モジュール410は、各キーワードの特徴ベクトルを決定するために、音素混同行列420および持続時間の統計425から構成され得る認識器から入力されるデータ、ならびに、レキシコン430および形態素解析器435から入力されるデータを利用してもよい。
認識器データ415は認識エンジン140(図1)により提供され、および認識器から出力される。これらのデータは音素混同行列420および持続時間の統計425を含んでいてもよい。音素混同行列420は音素認識器の作成を通じて計算される。行列は、音声エンジンがどのように言語内の音を典型的に混同するのかを定量的に記述する。持続時間の統計425は、作成された音素認識器を使用して大規模な音声コーパスにおける音素の分析に基づいていてもよい。
レキシコン430および形態素解析器435は言語依存である。レキシコン430は入力単語を構成音素のシーケンスに変換することができる検索または予測モジュールを備えていてもよい。形態素解析器435はまた言語内で最も一般的な接頭辞および接尾辞のエントリを含んでいてもよい別の検索または予測モジュールである。
モデル学習モジュール440はデータから回帰関数を推定するために特徴ベクトル計算モジュール410からの出力を使用してもよい。モジュールはまたコスト関数を最適化するパラメータを調整してもよく、コスト関数は少なくとも1つの実施形態では、予測誤差の絶対値の最小化である。
FOMモデル445は、ユーザ入力の単語にFOMを予測するために実行時に使用するためのシステムにより保存されたモデル学習モジュール440の出力の結果を備えていてもよい。これは以下のように図7においてより詳細に記述される。
ここで図5を参照すると、図4のステップ405で使用されるトレーニングキーワードセットを選択するためのプロセス500の一実施形態が示される。少なくとも1つの実施形態において、これは適切に選択されたキーワードセットが、学習モデルを管理学習プロセス中には見られない単語に適切に一般化するのに役立つように、学習プロセスの重要な部分を形成する。
大規模キーワードセットはステップ505で選択される。例えば、多数の単語(例えば、一実施形態では200ワード)を含むキーワードセットは、同様辞書語の値を検査すること、およびその単語がこの特徴の許容値の範囲をカバーすることを確認することにより選択される。例えば、低、中、および高の値はこのキーワードセットで表現されるべきである。制御はオペレーション510に渡され、およびプロセス500が継続する。
オペレーション510において、特徴が抽出される。前述のように、特徴ベクトルは音素の数、音節の数、強調母音の数等のような特徴を含んでいてもよい。この情報はレキシコン、形態素解析器、持続時間の統計および混同行列515に由来してもよい。制御はオペレーション520に渡され、およびプロセス500が継続する。
オペレーション520において、特徴値の範囲がチェックされる。各特徴の値の範囲が異なっていてもよく、したがって値はそれらが低、中、高の値であるかどうかを判断するために検査される。
上述したように、キーワードセットはモデリング特徴が取り得る値の範囲に及ぶように注意深く選択される。したがって、オペレーション525において、特徴がキーワードセット内で十分に表現されるか否かが判断される。その特徴が十分に表現されていると判断された場合、その後制御はステップ510に渡され、およびプロセス500が継続する。その特徴が十分に表現されていないと判断された場合、その後システム制御はステップ530に渡され、およびプロセス500が継続する。
オペレーション525における判断は任意の適切な基準に基づいて行われてもよい。例えば、特徴値の範囲が高すぎる、または低すぎる場合、不適切な単語がキーワードセット内で選択された可能性がある。あまりにも似ている単語でのキーワードセットは、歪められた範囲を有することになる。制御はステップ510に渡され、ここで、本明細書で後述のFOMアルゴリズムでは、iの値は次の特徴を示すi+1に等しく設定される。
オペレーション530において、キーワードの数はセットに複数のキーワードを追加することにより調整されてもよい。本明細書で後述のFOMアルゴリズムでは、iの値は第1の特徴を示す0に等しく設定される。制御はオペレーション510に渡され、プロセス500が継続する。
少なくとも1つの実施形態では、この尺度はキーワードの良好なセットを決定する際にユーザをガイドするために使用される。他の用途は認識エンジンへのフィードバック、および誤警報率を制御することを含んでいてもよい。図6の図は認識エンジンにより決定される一致確率、または「スコア」とシステムにより報告される信頼値との間の関係を示す。デフォルトでは、キーワードについての情報が知られていない場合、曲線605が使用されてもよい。FOMが知られている場合、線610および615により示されるように、関係はキーワードのオペレーティングスコア範囲を変更することにより修正されてもよい。線615が高いFOMキーワードを示す一方で、線610は低いFOMキーワードを示す。スコアの値が増大するにつれ、例えば、一致における信頼値0.0は高い信頼度での一致を示していてもよく、および大きな負の値は一致における非常に低い信頼値を示す可能性がある。スコアがより負になるにつれて、不一致の可能性が増加する。例えば、スコアが0.0に近づくにつれて、一致の可能性がより高くなる。このように、0のスコアおよび1.0の信頼値はこの図では完全な一致を示すことになる。少なくとも1つの実施形態では、選択された信頼値が低いかまたは高いFOMのいずれかで単語のための類似スコア値を表すようにスコア範囲を変更することが望まれる。
図7は様々な信頼値設定でのシステムの動作を示す図である。FOMに基づいてオペレーティング範囲を変更した結果はシステムのより制御された動作であってもよい。例えば、ユーザがスポットされたキーワードを登録する際に、関連するFOM尺度は70などのように提示される。定義により、これはシステムが時間あたり5の誤警報率で70%の精度に結果としてなることを意味する。システムからこの動作を得るために、デフォルトの信頼値設定(0.5)において、システムが毎時5の誤警報および70%の検出率を生成するように、図7に示すように内部のスコア範囲は改変される。ユーザがより高い精度を望む場合、信頼値設定はより低くてもよく、おそらくより高い誤警報率を作成できるであろう。ユーザがより低い誤警報率を望む場合、信頼値設定は増加されてもよく、したがっておそらくより低い検出率を結果としてもたらす。FOMに基づいて内部のスコア範囲を変更することにより、この動作はそれらのFOMにかかわらずすべての単語のために首尾一貫した矛盾のないものになる。
図式700は信頼値設定が変更されるシステムの動作を示す。例えば、信頼値設定が0.0に近づくにつれて、誤警報率(FA/時)が増加し、および同様に検出率が増加する。逆に、信頼値設定が1.0に近づくにつれて、誤警報率は値0.0に達するまで低下し、同時に検出率もまた低下し0.0に近づく。
図8はキーワードの例を示す表800である。レコード800aおよび800bは、キーワードフィールド805、予測されたFOMフィールド810、音素の数フィールド815、強調母音の数フィールド820、音節の数フィールド825、持続時間平均フィールド830、持続時間標準偏差フィールド835、部分的な辞書語フィールド840、同様辞書語フィールド845、同様接頭辞フィールド850、同様接尾辞フィールド855、および混同インデックスフィールド860を含んでいてもよい。
キーワードフィールド805はキーワードの例を含んでいてもよい。例えば、レコード800aは単語「デバッグ(debug)」を含み、レコード800bは単語「インタラクティブ(interactive)」を含む。
少なくとも1つの実施形態では、予測されたFOMフィールド810はFOM表現式により予測された値を含む。
Figure 0006230606
ここでiは特徴のインデックスを表し、xはi番目の特徴を表し、および式パラメータaおよびbは学習された値であり、それらの値は図9に示される。Nは予測を学習するために使用される特徴の数の上限を表す。例えば、N=10が使用されてもよい。
例えば、レコード800aはキーワード「デバッグ(debug)」のための29.6971のFOM値を含む一方、レコード800bはキーワード「インタラクティブ(interactive)」のための78.5823のFOM値を含む。
強調母音の数フィールド820は、単語が発話される際に強勢が置かれている各キーワード内の母音の数を示していてもよい。例えば、単語内でより強調されている母音はより明確に発音され、一般に精度がより高い。図8に示すように、キーワード「デバッグ(debug)」は1つの強調母音を含む一方、「インタラクティブ(interactive)」は2つの強調母音を含む。
音節の数フィールド825は各キーワード内の音節の数を含んでいてもよい。例えば、キーワード「デバッグ(debug)」は2音節を有する一方、キーワード「インタラクティブ(interactive)」は4音節を含む。
持続時間平均フィールド830は特徴からの持続時間平均を含んでいてもよい。例えば、キーワード「デバッグ(debug)」は36.6276の持続時間平均を有する一方、キーワード「インタラクティブ(interactive)」は61.9474の持続時間平均を有する。
持続時間標準偏差フィールド835はキーワードの持続時間標準偏差を含んでいてもよい。例えば、キーワード「デバッグ(debug)」は8.96752の持続時間標準偏差値を有する一方、キーワード「インタラクティブ(interactive)」は10.5293の持続時間標準偏差値を有する。
部分辞書語フィールド840はキーワードが一部である対象となる言語の典型的な語彙内で幾つの単語なのかという尺度を含んでいてもよい。この数値が高いほど、キーワードが一部である単語の数がより少ないものが典型的により高精度な一致を結果としてもたらす。例えば、キーワード「デバッグ(debug)」は部分的辞書語フィールド840に33.3333の値を有する一方、キーワード「インタラクティブ(interactive)」は50の値を有する。
同様辞書語フィールド845は、キーワードが同様である対象となる言語の典型的な語彙内で幾つの単語なのかという尺度を含んでいてもよい。例えば、この数値が低いほど、より多くの単語がキーワードが同様であり、したがって混同される。一般に低い精度が結果としてもたらされ得る。同様度は距離メトリックを使用して測定される。距離メトリックの例は音素の数が同じ単語「猫(cat)」および「バット(bat)」に見ることができる。音素に分解すると、「猫(cat)」および「バット(bat)」は以下のようになる:
CAT−>k ae t
BAT−>b ae t
単語の比較はそれらが異なる1音素を有することを示す。1の単純な編集距離スコアが結果となる。認識器が音「k」および「b」との間で混同している場合、混同行列ベースの編集距離は0.2である可能性がある。
単語「猫(cat)」および「退去(vacate)」は音素の異なる数を含む単語の例として使用することができる。単語「猫(cat)」および「退去(vacate)」は以下のようになる:
CAT−>**k ae t
VACATE−>v ey k ey t
音素の挿入が1コストであり、および「ae」および「ey」との間の距離が0.3であると仮定すると、次に単語間の総距離は2.3である。
別の例では、エラーを有する単語間の距離は以下のように単語「猫(cat)」および「尾部(aft)」で見ることができる:
CAT−>k ae t *
AFT−>* ae f t
エラーは音素の挿入、欠失、および置換を含んでいてもよい。音素の挿入が1コスト、欠失が2コスト、および音素「t」および「f」との間の距離が0.7であると仮定すると、次に「猫(cat)」から「尾部(aft)」への総距離は3.7である。これは音素の1つの挿入、1つの欠失、および1つの置換を説明する。
図8では、例えば、キーワード「デバッグ(debug)」は同様辞書語フィールド845で5の値を含む一方、キーワード「インタラクティブ(interactive)」は33.3333の値を含む。
同様接頭辞フィールド850は、幾つの典型的な接頭辞キーワードが混同されるのかの尺度を含んでいてもよい。この数値は形態素解析器により提供される。このフィールドのより高い値は共通の接頭辞でのより低い同様性、したがって単語のためのより高い典型的な精度を示す。接頭辞は単語の語根の前に置かれる接辞である。例としては「前(pre)」および「非(non)」である。例えば、キーワード「デバッグ(debug)」は20の同様接頭辞値を含む一方、キーワード「インタラクティブ(interactive)」は100の同様接頭辞値を含む。
同様接尾辞フィールド855は、幾つの典型的な接尾辞キーワードが混同されるのかの尺度を含んでいてもよい。この数値は形態素解析器により提供される。このフィールドのより高い値は共通の接頭辞でのより低い同様性、したがって単語のためのより高い典型的な精度を示す。言語学では、接尾辞(suffix)(また、接尾語(postfix)または語末(ending)と呼ばれることもある)は単語の語幹の後に配置される接辞である。接尾辞の2つの例は、「tion」および「ous」である。図8に示すように、キーワード「デバッグ(debug)」は25の同様接尾辞値を含む一方、キーワード「インタラクティブ(interactive)」は100の同様接尾辞値を含む。
混同インデックスフィールド860は単語を構成する音素の混同の総和の尺度を含んでいてもよい。単語が破裂音および鼻音のなどの幾つかのよく混同される音素で構成されている場合には、より低い精度を有することになりやすい。例えば、キーワード「デバッグ(debug)」は38.85の混同インデックス値を含む一方、キーワード「インタラクティブ(interactive)」は61.65の混同インデックスの値を含む。
図9はFOMのモデル式を示す表である。この表は、図8のレコード800aおよび800bのために記述された値を計算するために使用されてもよい前述されたプロセスを介した学習値の例を示す。これらの値は上記からFOMアルゴリズムに入力される。
Figure 0006230606
図9は以下のフィールドを含んでいてもよい:特徴名905、音素の数多項式910、強調母音の数多項式915、音節の数多項式920、持続時間平均多項式925、持続時間標準偏差多項式930、部分辞書語多項式935、同様辞書語多項式940、同様接頭辞多項式945、同様接尾辞多項式950、および混同インデックス多項式955。
特徴名フィールドはiで表されるような見出しの特徴のインデックス、および式のパラメータaおよびbを含む。フィールド910から955は各フィールドの学習値を示す。例えば、音素の数多項式910はi=1、a=0.1499およびb=−32.2629の値を有する。
本発明は図面および前述の説明において詳細に図示および説明されてきたが、同様のものは例示であって特徴を限定しないものと考えられるべきであり、好適な実施形態のみが示され、および説明されており、および本明細書に記載された発明の趣旨の範囲に入る、および/または添付の特許請求の範囲によるすべての等価物、変更、および修正は保護されることが望まれることを理解されたい。
したがって、本発明の適切な範囲は、すべてのそのような変更ならびに図面に例示されおよび明細書に記載されたものと同等のすべての関係を包含するように、添付の特許請求の範囲の最も広い解釈により決定されるべきである。

Claims (23)

  1. 音声認識性能を予測するためのコンピュータ実装方法であって、
    a)入力を受け付けるステップと、
    b)前記入力についての少なくとも1つの特徴ベクトルを計算するステップと、
    c)前記少なくとも1つの特徴ベクトルを予測モデルに入力するステップと、
    d)前記予測モデルから前記入力についての予測を取得するステップと、
    e)前記予測モデルを作成するステップであって、
    e.1)キーワードのセットを選択するステップと、
    e.2)前記キーワードの各々に対する所望の特徴の特徴ベクトルを計算するステップと、
    e.3)コスト関数を最小化するためにパラメータを調整するモデル学習モジュールに前記特徴ベクトルを入力するステップと、
    e.4)前記入力の性能指数の予測のための前記予測モデルとして前記モデル学習モジュールからの結果を保存するステップと、
    を含む作成するステップと、
    を含む方法。
  2. 前記入力は少なくとも1つの単語を含む、請求項1に記載の方法。
  3. 前記予測は性能指数である、請求項1に記載の方法。
  4. 前記入力は音声発音を含む、請求項1に記載の方法。
  5. より多くの入力が提供されるように少なくともステップ(b)、(c)および(d)はリアルタイムで実行される、請求項1に記載の方法。
  6. 前記コスト関数は予測誤差を含む、請求項1に記載の方法。
  7. 前記性能指数は、
    Figure 0006230606

    を含む、請求項1に記載の方法。
  8. ステップ(e.3)は、
    e.3.1)前記特徴ベクトルを計算するステップであって、
    e.3.1.1)前記入力を音素のシーケンスに変換するステップと、
    e.3.1.2)言語内の単語の形態素解析を実行するステップと、
    を含む計算するステップと、
    をさらに含む、請求項1に記載の方法。
  9. ステップ(e.3.1.1)は音素の統計および音素混同行列を使用して実行される、
    請求項8に記載の方法。
  10. 音素認識器を使用して前記音素混同行列を計算するステップをさらに含む、請求項9に記載の方法。
  11. 音声認識性能を予測するためのシステムであって、
    入力を受け付けるための手段と、
    入力についての少なくとも1つの特徴ベクトルを計算するための手段と、
    前記少なくとも1つの特徴ベクトルを予測モデルに入力するため手段と、
    前記予測モデルから前記入力についての性能指数の予測を取得するための手段と、
    を備えるシステムであって、
    前記入力を受け付けるための手段は、ガイド付きのユーザインターフェイスを備えるシステム。
  12. 音声認識性能を予測するためのシステムであって、
    入力を受け付けるための手段と、
    入力についての少なくとも1つの特徴ベクトルを計算するための手段と、
    前記少なくとも1つの特徴ベクトルを予測モデルに入力するため手段と、
    前記予測モデルから前記入力についての性能指数の予測を取得するための手段と、
    を備えるシステムであって、
    前記予測モデルを生成するための手段であって、
    キーワードのセットを選択するための手段と、
    前記セット内の各単語に対する大規模音声コーパス上の音声エンジンの精度を計算するための手段と、
    所望の特徴の特徴ベクトルを計算するための手段と、
    コスト関数を最小化するためにパラメータを調整するモデル学習モジュールに前記特徴ベクトルを入力するための手段と、
    前記入力の性能指数の予測として前記モデル学習モジュールからの結果を保存するための手段と、
    を備える生成するための手段と、
    をさらに備えるシステム。
  13. 前記性能指数は、
    Figure 0006230606

    を備える、請求項11に記載のシステム。
  14. 前記特徴ベクトルを計算するための手段であって、
    入力を音素のシーケンスに変換することができるモジュールと、
    言語内の接尾辞のためのエントリを含むモジュールと、
    音素の統計を含むモジュールと、
    音素混同行列を含むモジュールと、
    を備える計算するための手段と、
    をさらに備える、請求項12に記載のシステム。
  15. 前記音素混同行列を計算するための音素認識器をさらに備える、請求項14に記載のシステム。
  16. 音声認識エンジンの内部スコアを調整する予測された音声認識性能を使用するためのコンピュータ実装方法であって、
    a)入力を受け付けるステップと、
    b)前記入力についての少なくとも1つの特徴ベクトルを計算するステップと、
    c)前記少なくとも1つの特徴ベクトルを予測モデルに入力するステップと、
    d)前記キーワードの性能指数の予測を取得するステップと、
    e)前記予測に基づいて信頼値に対する前記内部スコアのマッピングを調整するステップと、
    を含む方法であって、
    前記予測は前記入力に対して5FA/KW/時間に平均化している検出率を有する方法。
  17. 音声認識エンジンの内部スコアを調整する予測された音声認識性能を使用するためのコンピュータ実装方法であって、
    a)入力を受け付けるステップと、
    b)前記入力についての少なくとも1つの特徴ベクトルを計算するステップと、
    c)前記少なくとも1つの特徴ベクトルを予測モデルに入力するステップと、
    d)前記キーワードの性能指数の予測を取得するステップと、
    e)前記予測に基づいて信頼値に対する前記内部スコアのマッピングを調整するステップと、
    を含む方法であって、
    f)前記予測モデルを作成するステップであって、
    f.1)キーワードのセットを選択するステップと、
    f.2)前記キーワードの各々に対する所望の特徴の特徴ベクトルを計算するステップと、
    f.3)コスト関数を最小化するためにパラメータを調整するモデル学習モジュールに前記特徴ベクトルを入力するステップと、
    f.4)前記入力についての性能指数の予測のためのトレーニングされたモデルとして前記モデル学習モジュールからの結果を保存するステップと、
    を含む作成するステップと、
    をさらに含む方法。
  18. 前記入力は少なくとも1つの単語を含む、請求項17に記載の方法。
  19. 前記入力は音声発音を含む、請求項17に記載の方法。
  20. 少なくともステップ(b)、(c)および(d)は、ーザが追加入力を追加しながらリアルタイムで実行される、請求項17に記載の方法。
  21. 前記性能指数は、
    Figure 0006230606

    を含む、請求項17に記載の方法。
  22. g)前記特徴ベクトルを計算するステップであって、
    g.1)前記入力を音素のシーケンスに変換するステップと、
    g.2)音素の統計および音素混同行列を使用して言語内の単語の形態素解析を実行するステップと、
    を含む計算するステップと、
    をさらに含む、請求項17に記載の方法。
  23. 音素認識器を使用して前記音素混同行列を計算するステップをさらに含む、請求項22に記載の方法。
JP2015529768A 2012-08-30 2012-08-30 精度スコアを使用した音声認識性能を予測するための方法およびシステム Active JP6230606B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2012/053061 WO2014035394A1 (en) 2012-08-30 2012-08-30 Method and system for predicting speech recognition performance using accuracy scores

Publications (2)

Publication Number Publication Date
JP2015530614A JP2015530614A (ja) 2015-10-15
JP6230606B2 true JP6230606B2 (ja) 2017-11-15

Family

ID=50184032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015529768A Active JP6230606B2 (ja) 2012-08-30 2012-08-30 精度スコアを使用した音声認識性能を予測するための方法およびシステム

Country Status (6)

Country Link
EP (1) EP2891147B1 (ja)
JP (1) JP6230606B2 (ja)
AU (1) AU2012388796B2 (ja)
BR (1) BR112015003830B1 (ja)
CA (1) CA2883076C (ja)
WO (1) WO2014035394A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9613619B2 (en) 2013-10-30 2017-04-04 Genesys Telecommunications Laboratories, Inc. Predicting recognition quality of a phrase in automatic speech recognition systems
JP6473112B2 (ja) * 2016-08-12 2019-02-20 日本電信電話株式会社 音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラム
CN107464559B (zh) * 2017-07-11 2020-12-15 中国科学院自动化研究所 基于汉语韵律结构和重音的联合预测模型构建方法及***
US11158305B2 (en) 2019-05-05 2021-10-26 Microsoft Technology Licensing, Llc Online verification of custom wake word
US11222622B2 (en) 2019-05-05 2022-01-11 Microsoft Technology Licensing, Llc Wake word selection assistance architectures and methods
US11132992B2 (en) 2019-05-05 2021-09-28 Microsoft Technology Licensing, Llc On-device custom wake word detection
KR20220137437A (ko) * 2021-04-02 2022-10-12 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
KR100361883B1 (ko) * 1997-10-03 2003-01-24 마츠시타 덴끼 산교 가부시키가이샤 오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
JP2005017603A (ja) * 2003-06-25 2005-01-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識率推定方法及び音声認識率推定プログラム
US7716226B2 (en) * 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
CN101326572B (zh) * 2005-12-08 2011-07-06 纽昂斯奥地利通讯有限公司 具有巨大词汇量的语音识别***
JP4825014B2 (ja) * 2006-01-24 2011-11-30 旭化成株式会社 評価用データ生成装置、認識性能分布情報生成装置およびシステム
CA2690174C (en) * 2009-01-13 2014-10-14 Crim (Centre De Recherche Informatique De Montreal) Identifying keyword occurrences in audio data

Also Published As

Publication number Publication date
JP2015530614A (ja) 2015-10-15
EP2891147A4 (en) 2016-07-13
WO2014035394A1 (en) 2014-03-06
BR112015003830B1 (pt) 2021-06-01
NZ705071A (en) 2017-01-27
CA2883076C (en) 2019-06-11
BR112015003830A2 (pt) 2017-07-04
EP2891147B1 (en) 2020-08-12
AU2012388796B2 (en) 2018-10-18
CA2883076A1 (en) 2014-03-06
EP2891147A1 (en) 2015-07-08
AU2012388796A1 (en) 2015-03-05

Similar Documents

Publication Publication Date Title
US10360898B2 (en) Method and system for predicting speech recognition performance using accuracy scores
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
KR101056080B1 (ko) 음운 기반의 음성 인식 시스템 및 방법
JP6230606B2 (ja) 精度スコアを使用した音声認識性能を予測するための方法およびシステム
US5623609A (en) Computer system and computer-implemented process for phonology-based automatic speech recognition
US9672815B2 (en) Method and system for real-time keyword spotting for speech analytics
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
CN106297800B (zh) 一种自适应的语音识别的方法和设备
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
US8219386B2 (en) Arabic poetry meter identification system and method
AU2018271242A1 (en) Method and system for real-time keyword spotting for speech analytics
Metze Articulatory features for conversational speech recognition
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減
KR102333029B1 (ko) 발음 평가 방법 및 이를 이용한 디바이스
NZ705071B2 (en) Method and system for predicting speech recognition performance using accuracy scores
NZ719961B2 (en) Method and system for real-time keyword spotting for speech analytics
JPH08123472A (ja) 音声認識装置及び該装置の構文制御グラフの生成方法
NZ704832B2 (en) Method and system for real-time keyword spotting for speech analytics

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171017

R150 Certificate of patent or registration of utility model

Ref document number: 6230606

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250