JP2016522903A

JP2016522903A - 音声を認識するシステムおよび方法

Info

Publication number: JP2016522903A
Application number: JP2015552672A
Authority: JP
Inventors: ハーシャム、ブレット; ハーシェイ、ジョン・アール
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-06-14
Filing date: 2014-05-19
Publication date: 2016-08-04
Anticipated expiration: 2034-05-19
Also published as: WO2014199803A1; US20140372120A1; CN105283914B; DE112014002819T5; US9159317B2; JP6203288B2; CN105283914A; DE112014002819B4

Abstract

システムおよび方法が、単語のシーケンスを含む音声を認識する。音響モデルおよび言語モデルを用いて音声の解釈の組が生成され、スコアの組を生成するために、解釈ごとに、単語のシーケンスを表す解釈の正確さを表すスコアが求められる。次に、単語シーケンス制約の受信に応答して求められた制約との各解釈の整合性に基づいてスコアの組が更新される。

Description

本発明は、包括的には、自動音声認識に関し、より詳細には、ユーザに課す認知的負荷を低くしながら音声認識を提供することに関する。

運転者が行う運転に関連していない作業はいずれも、運転から注意を逸らす可能性があることが一般に知られている。これに起因して、法的手段および運転者教育の双方によって、運転中の移動電話の使用を減らすことが近年注目されている。また、車両内で運転者が情報、通信および娯楽機能にアクセスすることへの需要も増大している。

音声に基づくインタフェースは、従来の視覚インタフェースまたは手動インタフェースよりも注意を逸らさないことができることが研究により示されている。限られた機能についてのコマンドに基づく音声インタフェースは車両において一般的になっている。一方、豊富な語彙の連続音声の認識は誤りが生じやすいので、ＳＭＳとしてのそのような機能について音声を用いてテキストを入力することは困難である。このため、運転中にユーザ側で注意を逸らすことを減らしながら、音声を用いて入力されたテキストを訂正または他の形で変更することが必要とされている。

制約を受けない音声を訂正するためのいくつかの方法は、編集アプリケーション、すなわち、コンピュータディスプレイおよび従来のキーボードを有するワードプロセッサを利用する。例えば、特許文献１に記載されている方法は、認識されたテキスト内の単語を関連する音声でタグ付けし、ワードプロセッシングソフトウェアのユーザがテキストトランスクリプションを編集するために音声を聴くことを可能にすることによって、音声の誤認識を訂正する。

特許文献２に記載されている別の方法は、編集アプリケーションプログラムにおいて「音声イベントデータベース」をテキストトランスクリプション内の位置と関連付け、コンテキストを広げることによって、編集動作を改善している。そのような方法は、従来のキーボード、マウスおよびメニュー選択を含む訂正作業に主に注意を払うことを必要とし、特に、視覚表示に注意を払うには視覚リソースを駆使することが必要である。しかしながら、キーボード、タッチスクリーンおよび大きな視覚表示を用いると、運転から注意をそらすことが最小限にならない。

他の方法は、後続の音声を用いて最初の音声の結果として得られるトランスクリプションを編集することによって、インタラクションの複雑性を最小限にする。例えば、特許文献３に記載されている方法は、後続の発話を用いて音声認識の結果を訂正する。同様に、特許文献４に記載されている方法は、再認識されるべき音声認識の部分を選択する。しかしながら、音声の後続の解釈は誤りを生じる可能性があり、結果として、誤り訂正の労力を増大させ、運転者の注意散漫のさらなる一因となる。

特許文献５に記載されている別の方法は、ユーザによって与えられた単一の単語の訂正を用いて、その単一の単語に隣接する単語の代替的な提案を調整する。しかしながら、ユーザの音声における複数の単語が誤って解釈される場合、ユーザは音声解釈を複数回訂正しなくてはならない。さらに、この方法の訂正は、より一般的なタイプのインタラクションと対照的に、選択された単語の置換に限定され、これによってユーザの注意をさらに逸らすことにつながる場合がある。したがって、音声の解釈を誘導するのに必要なインタラクションおよびユーザの注意を最小限にする必要がある。

米国特許第５，９６０，４４７号明細書米国特許第５，９７０，４６０号明細書米国特許第６，０６４，９５９号明細書米国特許第７，４４４，２８６号明細書米国特許出願公開第２００６／２９３，８８９号明細書

本発明のいくつかの実施形態は、単語のシーケンスを含む豊富な語彙の連続音声の音声認識において生じる誤りは、多くの場合に他の誤りに関連付けられているという認識に基づく。したがって、単に最初の誤りを訂正して追加のユーザ入力を待つのではなく、認識結果に対する訂正を用いて、他の誤りが生じた可能性がある場所を予測し、さらなる誤りを訂正することができる。これらの他の誤りは、隣接する単語位置において生じる場合もあるし、または隣接する単語に対する変更を一切必要とすることなく、より離れた位置において生じる場合もあり、このため、訂正を用いて認識結果を更新するべきである。

例えば、ナビゲーション関心点タスクにおける認識結果は、２つの代替の単語シーケンス「ＭｕｓｅｕｍｏｆＦｉｎｅＡｒｔｓ」および「ＥｍｐｏｒｉｕｍｏｆＦｉｎｅＣａｒｔｓ」を含む場合がある。この場合、元の解釈が「ＭｕｓｅｕｍｏｆＦｉｎｅＡｒｔｓ」であり、ユーザが「Ａｒｔｓ」を「Ｃａｒｔｓ」に変更する場合、単語「Ｍｕｓｅｕｍ」が「Ｅｍｐｏｒｉｕｍ」に変更されるべきであることがほぼ確実である。ただし、これらの間には解釈が変化しないいくつかの単語が存在する。

さらに、本発明のいくつかの実施形態は、豊富な語彙の連続音声の音声認識の解釈に対する訂正が、１つの可能性がある単語を別のものに変更することに制限される必要はなく、より一般的な種類の訂正制約も含むことができるという一般的な認識に基づく。このため、訂正制約を用いて、ユーザが発した音声を再解釈することができる。

そのような制約は、個々の単語に対応する音響信号のみを用いる解釈と対称的に、単語のグループを正しく解釈する確率を改善することができる。

例えば、代替候補「Ｗｒｅｃｋａｎｉｃｅｂｅａｃｈ」および「Ｒｅｃｏｇｎｉｚｅｓｐｅｅｃｈ」を含む認識結果を所与として、トピックが「ｐｏｌｌｕｔｉｏｎ」であるという制約を用いて、第１の認識の確率を更新することができる。

したがって、いくつかの実施形態は、全体音声の再解釈を、例えば音声を発するユーザによって提供される音声の単語シーケンスに対する制約を用いることによって改善することができるという特定の認識に基づいている。例えば、単語シーケンス制約は、音声における単語数および単語の順序、音声において特定の時点に発せられる特定の単語、音声における特定の単語の欠如、音声における２つの特定の単語の結合または分離を含むことができる。

例えば、ユーザに、音声の解釈の１つまたは複数の特定の単語を訂正することを依頼する代わりに、ユーザからの入力を用いて単語シーケンス制約を求め、これを用いて音声の全体解釈を更新することができる。この認識によって、ユーザが音声を訂正する労力を低減することが可能になる。なぜなら、単語の訂正はその単語のみの訂正しかもたらすことができないのに対し、単語シーケンス制約によって、音声の全体解釈の訂正をもたらすことができるためである。

このため、本発明のいくつかの実施形態は、ユーザによって提供される、ユーザの音声の解釈を更新するための単語シーケンス制約を用いる。例えば、単語シーケンス制約の下で、全体音声の最良スコアの仮説を求めることができる。実際に、そのような手法は、音声シーケンスの正しい解釈を求めるのに必要なインタラクション数を最小限にすることができる。

様々な実施形態は、音声を受信する前に、音声を受信するのと同時に、または音声を受信した後に、単語シーケンス制約を求める。例えば、いくつかの実施形態では、単語シーケンス制約は、音声における単語数、または音声における特定の単語の欠如等の音声のメタデータを含む。そのような単語シーケンス制約は、任意の時点に収集することができる。

別の実施形態では、単語シーケンス制約は、音声のコンテキストに、より固有である。例えば、単語シーケンス制約は、音声の初期解釈に関する情報を含むことができ、そのような情報を用いて全体音声の解釈が再評価される。この実施形態の１つの変形形態は、音声認識仮説内の特定の単語の訂正を可能にするユーザインタフェースを用いることによって、ユーザに対する認知的負荷を最小限にする。訂正は制約としてシステムにフィードバックされ、これらの制約を用いて、音声の仮説が正しい確率を増大させ、これによって、必要な訂正動作数を低減する。

したがって、１つの実施形態は、単語のシーケンスを含む音声を認識する方法を開示する。本方法は、音響モデルおよび言語モデルを用いて音声の解釈の組を生成することと、スコアの組を生成するために、解釈ごとに、単語のシーケンスを表す解釈の正確さを表すスコアを求めることと、単語シーケンス制約の下で音声を認識するための制約を求めることと、制約との各解釈の整合性に基づいてスコアの組を更新することとを含む。本方法のステップはプロセッサによって実行される。

別の実施形態は、ユーザの音声を認識する方法を開示する。本方法は、音声を表す各解釈の正確さを表す対応するスコアの組に関連付けて解釈の組を生成するために、音声を認識するステップと、反復ごとに、各解釈のスコアが、解釈が制約と整合する場合に増大し、解釈が制約と整合しない場合に減少するように、少なくとも１つの制約の下でスコアの組を反復的に更新するステップとを含む。本方法のステップはプロセッサによって実行される。

別の実施形態は、音声を認識するシステムを開示する。本システムは、音声認識モジュールおよび誤り訂正モジュールを実施するプロセッサを備え、音声認識モジュールは、音響モデルおよび言語モデルを用いて音声の入力の解釈の組を生成し、解釈ごとに、音声を表す解釈の正確さを表すスコアを求め、誤り訂正モジュールは、音声を認識するための制約を求め、制約との解釈の整合性に基づいて各解釈のスコアを更新する。

本発明の１つの実施形態による、音声認識のためのシステムの構成要素の概略図である。本発明のいくつかの実施形態によるシステムを備える車両のインストゥルメンタルパネルの部分前面図である。本発明の１つの実施形態による、音声認識モジュールの機能を示すブロック図である。図２Ａの方法のステップの一例である。本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。本発明の１つの実施形態による、強調された単語を有する単語のシーケンスの概略図である。本発明の１つの実施形態による、２つの強調された単語を有する単語のシーケンスの概略図である。本発明の１つの実施形態による、単語のシーケンスおよび単語候補のソートされた組の概略図である。本発明の例示的な実施形態の概略図である。本発明の例示的な実施形態の概略図である。本発明の例示的な実施形態の概略図である。

図１Ａは、本発明のいくつかの実施形態による、音声を発するユーザに対する認知的負荷を最小限にしながら、音声を認識する方法を実施することが可能なシステム１の一例を示す。

システム１は、全体システムの動作を制御する中央処理装置（ＣＰＵ）１００を備える。システム１は、システムのオペレーティングシステム（ＯＳ）１０１０に関連するソフトウェアと、ＣＰＵ１００によって実行してシステムのユーザにディクテーションおよび誤り訂正等の特定の機能を提供することができるアプリケーションプログラム１０１１と、音声認識に関連するソフトウェア１０１２とを備えるメモリ１０１とインタラクトする。システム１は、音声を受信するオーディオインタフェース（Ｉ／Ｆ）１０２をさらに備え、この音声は、マイクロフォン１０３によって記録するか、または外部システムから取得した音声等の外部入力１０４から受信することができる。

システム１は、ディスプレイ１０６の動作を制御するためのディスプレイコントローラ１０５等の１つまたはいくつかのコントローラをさらに備えることができる。ディスプレイ１０６は、例えば、液晶ディスプレイ（ＬＣＤ）または他のタイプのディスプレイとすることができる。ディスプレイ１０６は、システム１の視覚ユーザインタフェースとしての役割を果たし、例えば、単語のシーケンスをシステム１のユーザに提示することを可能にする。システム１は、オーディオ出力システム１１２、例えば、１つまたは複数のスピーカーの動作を制御するためのオーディオ出力コントローラ１１１にさらに接続することができる。システム１は、ジョイスティック１０８から入力を受信するためのジョイスティックコントローラ１０７、およびキーパッド１１０から入力を受信するためのキーパッドコントローラ１０９等の１つまたは複数の入力インタフェースにさらに接続することができる。ジョイスティックおよび／またはキーパッドの使用は単なる例示であることが容易に理解される。トラックボールまたは矢印キーも必要な機能を実施するのに同様に良好に用いることができる。さらに、ディスプレイ１０６は、ユーザからの入力を受信するためのインタフェースとしての役割を果たすタッチスクリーンディスプレイとすることができる。さらに、音声認識を実行する機能に起因して、システム１は、音声に関係しないインタフェースを全て全く用いずに済ますことができる。オーディオＩ／Ｆ１０２、ジョイスティックコントローラ１０７、キーパッドコントローラ１０９およびディスプレイコントローラ１０５は、ＣＰＵ１００が現在実行しているＯＳ１０１０および／またはアプリケーションプログラム１０１１に従ってＣＰＵ１００によって制御される。

図１Ｂに示すように、システム１は、車両１９９のインストゥルメンタルパネル１５０内に埋め込むことができる。システム１の動作を制御するための様々な制御部１３１〜１３３をハンドル１３０に配置することができる。代替的にまたはさらに、制御部１２５は、制御モジュール１２０上に設置することができる。システム１は、ユーザの音声の解釈を改善して、ユーザインタラクション数を低減するように構成され、それによってユーザは車両の操作に集中することができる。

図２Ａは、本発明のいくつかの実施形態による、誤り訂正機能が改善した音声認識システム２００の機能を概略的に示す。音声認識ユニット２００は、音声認識モジュール２１０を備え、音声認識モジュール２１０は、システム１のＣＰＵ１００によって、メモリ１０１内に記憶される音声認識ソフトウェア１０１２を実行することにより実施することができる。

音声認識モジュール２１０は、単語のシーケンス（例えば完全な一文）の発話表現である音声２３０を受信する。様々な実施形態において、音声は、オーディオ信号、音声特徴、またはフレームベースの音響スコアの１つまたは複数の組み合わせを含む。単語のシーケンスは通常、複数の単語、例えば３つ以上の単語を含む。

音声認識モジュールは、音声２３０の音声認識を実行して、最適な事例では音声によって表現される単語のシーケンスに類似した、１組の解釈を求めるように構成される。組内の各解釈は単語のシーケンスを含む。音声認識モジュールは、音響モデル２０１および言語モデル２０２を用いることができる。

音響モデル２０１は、例えば、システム１のメモリ１０１内に記憶することができ、１つの実施形態では、単語シーケンス仮説を所与とした音響特徴のシーケンス、または単語の音素特性を表す単位の他のシーケンスの条件付き確率を記述する。音響モデルは、音素または何らかの他の音単位を含むことができる。いくつかの実施形態では、音響モデルは音素シーケンスモデルと、音素片（ｓｕｂ−ｐｈｏｎｅｔｉｃ）状態シーケンスのモデルと、各音素片状態を所与とした音響特徴の確率のガウス混合モデルとを含むことができる。他の実施形態では、音響モデルは、例えばニューラルネットワークを用いた、音響特徴から音素状態シーケンス確率への変換を含むことができる。

言語モデル２０２は、システム１のメモリ１０１にも記憶することができ、少なくとも１つの単語を含む単語のシーケンスが言語に生じる確率に関する統計を含むことができる。言語モデル２０２は、例えば、言語において用いられる単一の単語の尤度に関するユニグラム言語モデル、または言語の２つの単語が互いの後に続く尤度を表すバイグラム言語モデルとすることができる。また、より多くの数の後続の単語を検討する言語モデル、例えば、トリグラム言語モデル等も用いることができる。

いくつかの実施形態では、音声認識モジュール２１０は、音声を、単一の単語に関係すると想定されるセグメントに分割することによって音声認識を実行し、次に、例えば入力音声シーケンスセグメント内の音素を識別し、これらの音素を言語モデル２０２の音素対テキストマッピングと比較することによって、この単一の言語を認識する。

音声認識モジュール２１０は通常、入力音声シーケンスセグメントごとに１組の可能な解釈を特定し、ここで各解釈は単語のシーケンスを含む。解釈は、認識結果としても知られる。各解釈は、認識信頼度値、例えば単語のシーケンスを表す解釈の正確さを表すスコアに関連付けられる。スコアは、音声認識の、認識結果が正しいことの信頼度を表す。入力音声セグメントごとに、音声認識モジュールは、最も大きな認識信頼度値を有する認識結果、例えば単語を求め、入力音声シーケンスを表すとみなされる単語のシーケンスを得ることができる。

したがって、音声の音声認識は、言語モデル２０１を考慮に入れることによってさらに精緻化される。次に、言語モデルおよび認識語彙を用いて音声の解釈の組を生成する際に、認識信頼度値に加えて、言語において１つまたは複数の単語の組が生じる確率を考慮に入れる。例えば、バイグラム言語モデルの場合、可能性のある認識結果、例えば「ｔｈｒｅｅ」ではなく「ｆｒｅｅ」が、バイグラム言語モデルに起因して、音響空間に関して高い信頼度を有する場合であっても、それにもかかわらず、音声認識モジュール２１０は、コンテキスト、例えば意図される単語のシーケンス「ａｔｔｈｒｅｅｏ’ｃｌｏｃｋ」における「ａｔ」および「ｏ’ｃｌｏｃｋ」を用いて、「ｔｈｒｅｅ」に有利に判定することができる。

図２Ｂは、音声２４０の解釈の組の例を示す。いくつかの実施形態では、解釈の組は、音声のｎベストリスト２５０としてまたは音声の単語ラティス２６０として求められるかまたは表現される。さらに、様々な実施形態は、組２５１内の解釈ごとに、スコア、例えば単語シーケンス制約を受ける解釈の正確さを表すスコア２５５を求める。スコアは、複数の方法によって求めることができる。

例えば、解釈の組の代替的な表現は、ラティス２６０として知られるグラフであり、このグラフでは、ノード、例えばノード２６５および２６７は、音声の特定の領域により識別され、特定のコンテキストとともに生じる、仮定された各単語を表す。この表現において、ｎベストリスト内の多くの仮説における同じ場所に生じる単語および単語シーケンスは、ラティス内の共通部分経路を共有するように変換することができる。単語に加えて、ラティスのアークは、音響モデルスコアおよび言語モデルスコアを含むことができ、それによって、単語シーケンスのための全体スコアは、ラティスを通る経路に沿ってスコアから導出することができる。例えば、アーク２６１、２６２および２６３は、単語「Ｉ」に続く単語「ｄｏｎ’ｔ」、「ｗａｎｔ」および「ｗｅｎｔ」の対応する確率によって規定されるスコアを表すことができる。

いくつかの実施形態では、音声認識システムは確率モデルとして定式化され、スコアは、音響特徴の観察されるシーケンスを所与とした解釈または単語のシーケンスの確率に基づく。解釈は、単語のシーケンスを含むことができ、仮定された単語に対応する発話の概算の時間領域も特定することができる。いくつかの実施形態におけるスコアＳ（Ｗ｜Ｘ）は、音響データを所与とした単語シーケンスの確率に基づく。例えば、Ｓ（Ｗ｜Ｘ）∝ｐ_θ（Ｗ｜Ｘ）であり、ここで、∝は比例を示し（すなわち、Ｓ（Ｗ｜Ｘ）＝ｐ_θ（Ｗ｜Ｘ）ｃであり、ここで、ｃは正の定数である）、θはモデルのパラメータであり、ｐ_θは、パラメータθを用いた確率測度を示し、Ｗ＝｛ｗ_ｉ｝^Ｎ _ｉ＝１は、解釈における仮定される単語のシーケンスｗ_１，ｗ_２，．．．，ｗ_Ｎであり、ｗ_ｉは、（Ｎ個の単語での仮説について）位置ｉにおいて仮定される単語である。音響特徴は、Ｘ＝｛ｘ_ｊ｝^Ｔ _ｊ＝１で表され、ここで、ｘ_ｊは、（Ｍ個の音響特徴ベクトルを有する発話についての）発話の音響特徴のｊ番目のベクトルである。ｐ_θ（Ｗ｜Ｘ）は、Ｘを所与としたＷの事後確率として知られる。別の実施形態では、スコアはこの量の対数として規定することができる。
Ｓ（Ｗ｜Ｘ）＝ｌｏｇｐ_θ（Ｗ｜Ｘ）＋ｋ
ここで、ｋは任意の定数である。

１つの実施形態において、スコアは様々なサブスコアに分離される。
Ｓ（Ｗ｜Ｘ）∝ｐ_θＬＭ（Ｗ）ｐ_θＡＭ（Ｘ｜Ｗ）
ここで、ｐ_θＬＭ（Ｗ）は、パラメータθ_ＬＭを有する単語言語モデルからのスコアであり、ｐ_θＡＭ（Ｘ｜Ｗ）は、パラメータθ_ＡＭを有する音響モデルからのスコアである。単純にするために、以後、必要な場合を除いてパラメータθを省略する。

別の実施形態は、単語シーケンスを、仮定される単語ごとに発話の仮定される時間領域のシーケンス

に関連付ける。ここで、

は単語ｗ_ｉについて仮定される位置である。その実施形態において、スコアは、ｐ（Ｗ）ｐ（Ｘ｜Ｗ）＝ｍａｘ_Ｒｐ（Ｗ）ｐ（Ｒ｜Ｗ）ｐ（Ｘ｜Ｗ，Ｒ）であるようなアライメント項ｐ（Ｒ｜Ｗ）を用いた拡張モデルに基づくことができる。その実施形態では、

は、全ての可能性があるアライメントの組Ｓにわたってスコアを最大にすることによって得られ、

である。仮定される単語ｗ_ｉに関連付けられた領域

に対応する特徴の部分シーケンス

のための音響スコアは、

である。

言語モデルスコアは、離散確率モデル、ニューラルネットワーク、識別的に訓練された条件付き確率場等を用いることを含む多くの方法で計算することができる。例えば、１つの実施形態は、確率モデルを以下のように定式化する。

確率は、コンテキストとして知られる、シーケンス内で以前に現れた単語を条件とする。通常、一般モデルは複雑すぎるので、ｎグラムモデルとして知られる、より単純なモデルが用いられる。ここで、コンテキストは先行するｎ−１個の項に制限される。

いくつかの実施形態では、ｎグラムモデルとともに様々な他のパラメータ化および推定手順を用いて、訓練データからテストデータに一般化する機能を改善する。

音声認識モデルにおける推測は、仮説Ｗにわたって探索を行い、最も良好なスコアの仮説を見つけることとして特徴付けることができる。

さらに、通常、最も大きなスコアを有するｎベスト仮説が求められる。全ての可能性のあるＷの評価は大規模な計算となる可能性があり、いくつかの実施形態は、例えば、探索プロセス、例えばビーム探索法のヒューリスティックな低減と組み合わせたビタビアルゴリズムとして、再帰的動的計画法アルゴリズムを用いてｎベスト仮説を求める。多くの代替的な探索アルゴリズムおよびヒューリスティクスも存在し、様々な実施形態によって用いられる。

いくつかの実施形態では、仮説にわたる探索の出力は、解釈２５５のスコア、例えば音響モデルのスコアおよび言語モデルのスコアのうちの一方またはこれらの組み合わせとともに単語のシーケンスのｎ個の解釈を含むｎベストリスト２５０とすることができる。いくつかの実施形態は、音響信号の時間セグメントとともに、単語の最良スコアのアライメントを出力として提供する。

いくつかの実施形態では、仮説にわたる探索の出力は、ラティス２６０とすることができる。スコアの決定は通常、ラティスにおいて、ｎベストリストを用いることよりも効率的である。一方、明確にする目的で、いくつかの実施形態はｎベスト表現を用いて説明される。

言語モデルおよび音響モデルは探索を制約するが、生成される認識は、依然として曖昧さおよび誤りを有する場合がある。例えば、最も高いスコアを有する解釈２５１が依然として不正確である可能性がある。一方、ユーザに特定の解釈２５１を訂正するように要求することは、正しい解釈を含み得る他の解釈を無視する。また、特定の解釈を訂正することの要求は、ユーザとの複数のインタラクションを必要とする可能性があり、ユーザの注意を他の作業から逸らす可能性がある。

本発明のいくつかの実施形態は、単語のシーケンスを含む豊富な語彙の連続音声の認識結果の訂正が、全体音声の解釈の制約に基づくべきであるという一般的な認識に基づく。そのような制約は、単一の単語のみを変更する訂正と対称的に、全体音声を正しく解釈する確率を改善することができる。

したがって、音声認識ユニット２００は、言語モデル２０２および単語シーケンス制約２７０を考慮に入れることによって認識結果を再解釈する誤り訂正モジュール２２０も備える。具体的には、いくつかの実施形態では、誤り訂正モジュール２２０は、制約２７０との解釈の整合性に基づいて、各解釈のスコアを更新する。更新後、例えば最も高いスコアを有する解釈２１５を求め、認識された音声として出力することができる。

いくつかの実施形態は、全体音声を解釈するための制約は、例えば、音声を発声するユーザによって提供される音声の単語シーケンス制約２７０によって補償することができるという認識に基づく。例えば、単語シーケンス制約は、音声内の単語の数および順序、音声における特定の時点で発せられる特定の単語、音声における特定の単語の欠如、音声における２つの特定の単語の結合または分離を含むことができる。単語シーケンス制約は、音声出力のトピック、例えば、音声のトピックがｐｏｌｌｕｔｉｏｎであることを指定することもできる。

この認識によって、ユーザが音声を訂正する労力を最小限にすることができる。なぜなら、単語の訂正は単語の訂正しかもたらすことができないのに対し、単語シーケンス制約は、音声の全体解釈の訂正をもたらすことができるためである。特に、制約２７０を用いて、解釈の全体組のスコアを更新することができる。

このため、いくつかの実施形態では、単語シーケンス制約は、音声の一部分の後続の訂正のために制約を用いることと対照的に、音声の解釈と同時に用いられる。単語シーケンス制約の下で、全体音声の最良スコアの解釈が求められる。最も大きなスコアを有する解釈を、認識された音声として求めることができる。実際に、そのような手法は、音声シーケンスの正しい解釈を求めるのに必要なインタラクション数を最小限にすることができる。

図３Ａは、本発明の１つの実施形態による、ユーザの音声を認識するための方法のフローチャートを示す。本方法３００は、上記で説明したいくつかの原理および認識を用い、プロセッサ３０１を用いて実施することができる。本方法は、単語のシーケンスを表す音声を受信し（３０５）、音響モデルおよび言語モデルを用いて、音声の解釈の組を生成する（３１０）。解釈の組は１つまたは複数の解釈を含み、ここで各解釈は、話された可能性がある単語のシーケンスである。様々な実施形態が、解釈のｎベストリスト、単語ラティス、または可能性のある単語シーケンスの組の他の表現として、解釈を受信または生成する。

各解釈について、本方法は、スコアの組を生成するために、解釈のための正確さスコアを求める（３１５）。例えば、スコアは、音響モデルおよび言語モデルによって与えられる確率、および／または以下で説明する正確さ関数に基づいて求めることができる。いくつかの実施形態では、本方法は、最も大きなスコアを有する解釈を求め（３２０）、解釈の部分組をユーザに通信する（３２５）。１つの実施形態では、最も大きなスコアを有する解釈のみがユーザに通信される。代替的な実施形態では、複数の解釈が通信される。

様々な実施形態は、ユーザインタフェースコンポーネントを用いて、ユーザが必要な場合に解釈の組について制約を提供することを可能にする。本方法は、単語シーケンス制約を用いた訂正が所望されるか否かを、ユーザインタフェースコンポーネントを通じて与えられるユーザからの入力に基づいて決める（３３０）。ユーザは、システム１の任意のインタフェースまたはその組み合わせを用いて制約を提供することができる。例えば、ユーザは、キーパッド１１０、ジョイスティック１０８、ディスプレイ１０６のタッチスクリーン、音声インタフェース１０３およびそれらの組み合わせを用いることができる。

訂正が所望されるとき、本方法は、単語シーケンスに対する制約を受信する（３３５）。様々な実施形態は、選択リスト、ボタン等のユーザインタフェースコンポーネントを通じたユーザインタフェース動作に基づいて単語シーケンス制約を受信するか、または求める。システムのいくつかの実施形態では、単語シーケンス制約は、様々な事象の発生確率として表される。

いくつかの実施形態では、単語シーケンス制約は、音声における単語数、または音声における特定の単語の欠如等の音声のメタデータを含む。音声のメタデータは、単語シーケンスのコンテキストに関連する情報と対称的に、単語シーケンスに関する情報である。そのような単語シーケンス制約は任意の時点に収集することができる。

本方法は、各解釈が制約とどの程度整合しているかに従って音声の解釈の組のスコアを更新する（３４０）。スコアが更新された後、最も高いスコアが求められ（３２０）、本方法は、ユーザがこれ以上訂正を望まなくなるまで反復的に継続する。本方法から解釈の組を出力することができ、例えば後に用いるためにメモリに記憶することができる。

図３Ｂは、制約を受ける解釈のスコアを更新する方法のフローチャートを示す。単語シーケンス制約がユーザから受信される（３５０）。いくつかの実施形態では、単語シーケンス制約は変更され、解釈に適した制約が求められる（３６０）。例えば、いくつかの実施形態は、ユーザから受信した単語シーケンス制約に基づいて制約を求める。

例えば、いくつかの実施形態では、単語シーケンス制約は、解釈の部分組を通信することに応答してユーザから受信される。実施形態は、単語シーケンス制約に基づいて制約のタイプを求め（３６１）、タイプに基づいて制約を求める（３６０）。例えば、制約のタイプは、言語タイプ、すなわち言語確率に対する制約、音響タイプ、すなわち仮定された単語を所与とした音響特徴の確率分布に対する制約、およびコンテキストタイプ、すなわち解釈内の単語シーケンスに対する制約、のうちの１つまたはこれらの組み合わせとすることができる。

図３Ｃは、いくつかの実施形態による制約の決定の一例を示す。求められる制約のタイプは、更新されるスコアに基づく。これらの実施形態は、言語および／または音響モデルのうちの１つまたはこれらの組み合わせを更新する（３６５）。いくつかの実施形態は、ユーザから受信した単語シーケンスに基づいて制約のタイプを求める。例えば、いくつかの実施形態では、単語シーケンス制約は、音声における単語数、音声のトピック、音声の特定の期間内に話された単語数等の音声のメタデータを含む。これらの制約は通常、言語または音響タイプの制約である。

別の実施形態では、単語シーケンス制約は、音声のコンテキストに、より固有である。例えば、単語シーケンス制約は、音声内の特定の単語の有無に関する情報を含むことができる。これらの制約は通例、コンテキストタイプ制約である。

例えば、単語シーケンス制約がシーケンス内の単語数である場合、１つの実施形態では、スコアの更新は、例えば、ｐ（Ｗ｜ｌｅｎｇｔｈ（Ｗ）＝６）を用いて言語モデルスコアを再計算することによって行われる。この実施形態の１つの変形形態では、音響モデルスコア、および各単語に対応する推定領域Ｒは変更されないままである。

１つの実施形態では、制約のタイプは言語タイプであり、スコアの更新は、変更された言語モデルを用いて言語モデルスコアを再計算することによって行われる。例えば、元の言語モデルｐ_θＬＭ（Ｗ）の代わりに、ラティスは、ｐ_θ’ＬＭ（Ｗ）＝ｐ_θＬＭ（Ｗ｜ｌｅｎｇｔｈ（Ｗ）＝６）を用いて再スコアリングされる。ここで、θ_ＬＭは元の言語モデルパラメータであり、θ’_ＬＭは、シーケンス内に６つの単語が存在するという制約の下で条件付けすることによって得られるパラメータである。このため、スコアは以下の式を評価することによって更新することができる。
Ｓ’（Ｗ｜Ｘ）∝ｐ_θ’ＬＭ（Ｗ）ｐ_θＡＭ（Ｘ｜Ｗ）
ここで、Ｓ’（Ｗ｜Ｘ）は変更されたスコアである。

１つの実施形態は、同様にして、トピックが「ｐｏｌｌｕｔｉｏｎ」であるという制約を課す。実施形態は、「ｐｏｌｌｕｔｉｏｎ」のトピックにおける単語シーケンスに適したパラメータθ’_ＬＭを有する制約付きの言語モデルｐ_θ’ＬＭ（Ｗ）を用いる。このため、実施形態は、制約付きの言語モデルを用いて上記のスコア関数Ｓ’（Ｗ｜Ｘ）を更新することができる。

各解釈の更新されたスコアを所与として、再スコアリングによって、ｎベストリストの各エントリにおいて変更されたスコア関数を用いてスコアが評価されることになる。代替的に、ラティスまたはｎベストリストに基づいて、変更されたスコア関数を用いた前方−後方アルゴリズム、ビタビ復号またはスタック復号等の様々なアルゴリズムを用いて、可能性のある単語シーケンスのグラフを効率的に探索することができる。スコアを評価する過程で、変更されたｎベストリストまたはラティスが生成される。

制約が単語シーケンスに対してのみである場合、上記の例におけるｐ_θＡＭ（Ｘ｜Ｗ）等の音響モデルスコア、および各単語に対応する推定領域Ｒは変更されないままにすることができる。一方、他の実施形態では、制約のタイプは音響タイプであり、音響スコアｐ（Ｘ｜Ｗ）は制約に依拠して変更される。例えば、単語と音響特徴との間のアライメントが計算される場合、再スコアリングもアライメントに依拠することができる。１つの実施形態は、モデルｐ（Ｗ）ｐ（Ｘ｜Ｗ）＝ｍａｘ_Ｒ∈Ｓｐ（Ｗ）ｐ（Ｒ｜Ｗ）ｐ（Ｘ｜Ｗ，Ｒ）を定義し、Ｒに対する制約に基づいてスコアを更新する。

ここで、Ｃ⊆Ｓは所望の制約を実施する許可されるアライメントの部分組を表す。例えば、１つのそのような制約は、特定の時間領域内に１つのみの単語が存在することとすることができる。

図３Ｄは、スコアを更新するための絶対的制約または相対的制約を求める方法のフローチャートを示す。いくつかの実施形態では、制約が絶対的である場合、制約に合致しない単語シーケンスの解釈は、可能な限り最も小さなスコアを用いて再スコアリングされる。逆に、制約が相対的である、例えば確率的である場合、制約に合致しない解釈は、制約に合致する解釈よりも小さな重みで再スコアリングされるが、合致しない解釈は、相対的制約に整合する解釈のスコアよりも依然として高い最終スコアを有することができる。

例えば、いくつかの実施形態では、相対的制約は、異なる制約充足の度合いを表す連続値を有する。そのような制約は、制約を表す倍数因子を用いて定式化することができる。１つの実施形態では、制約は制約因子ｆ（Ｘ，Ｗ，Ｒ）３６９を含み、その出力は、音響シーケンス、単語シーケンスおよびアライメントのうちの１つまたは複数についての制約充足の度合いを示す数である。この制約因子を用いて、１つの実施形態は以下の一般再スコアリング関数を定式化する。

制約因子に依拠して、絶対的制約および相対的制約の場合を含む多くの様々な種類の制約を実施することができる。例えば、いくつかの実施形態では、制約因子は、ユーザによって指定される単語シーケンス制約を、解釈のスコアを更新するのに適した制約にマッピングする指標関数３６３、および（最大で相対的な制約を絶対的にすることまでの）相対的な制約の度合いを示す重みパラメータ３６７を用いて求めることができる。

例えば、制約因子
ｆ（Ｘ，Ｗ，Ｒ）＝ｆ（Ｗ）＝αＩ_{ｌｅｎｇｔｈ（Ｗ）＝６}＋β
である場合、ここで、ｆ（Ｗ）という表記は、制約因子がこの場合はＸおよびＲに依存しないことを示し、αおよびβは制約充足の度合いを表す非負の重みパラメータであり、例えば、

は、シーケンス内に６つの単語が存在するという制約についての指標関数である。重みパラメータαがβに対して大きい場合、制約満足は強く、そうでない場合、制約は弱い。絶対的な制約は、所望されない全ての場合に関数ｆ（Ｗ）がゼロ値を有するようにβをゼロに設定することによって達成することができる。

別の実施形態では、アライメントに対する制約は、ｆ（Ｘ，Ｗ，Ｒ）＝ｆ（Ｒ）＝αＩ_Ｒ∈Ｃ＋βを用いて実施することができる。ここで、Ｉ_Ｒ∈Ｃは、Ｒが制約組Ｃ内にあるという条件についての指標関数である。

パラメータθ’_ＬＭを有する制約付きの言語モデルｐ_θ’ＬＭ（Ｗ）において具現される制約の場合、制約因子は、

であり、ここで、ｐ（Ｗ）は初期認識において用いられる言語モデルである。これは、新たなモデルｐ_θ’ＬＭ（Ｗ）を古いモデルｐ（Ｗ）と置換することと同じ影響をスコアに対して有する。

再スコアリングの後、ｆの絶対的なスケールは、様々な単語仮説の相対的なスコアリングに影響を与えず、それによって、別の制約因子に比例する任意の他の制約因子ｆ’（Ｘ，Ｗ，Ｒ）∝ｆ（Ｘ，Ｗ，Ｒ）が結果としてのｎベストリストまたはラティスに対して同じ効果を生じることに留意されたい。

さらにまたは代替的に、ユーザから受信した単語シーケンス制約に基づいて解釈のための複数の制約を求めることができる。例えば、単語シーケンス内の単語が正しいことをユーザが示した場合、いくつかの実施形態は、単語の左または右にある単語（言語モデルに依拠する）も正しいと判断する。これらの実施形態では、近傍の単語についての追加の制約が生成される。

例えば、１つの実施形態では、スコアリング関数は特定の単語の存在についてテストする。例えば、音声の向きは、言語モデルに基づいて求めることができ、スコアリング関数は、音声の向きに従って、ユーザに通信される解釈における特定の単語に先行および後続する単語の存在についてのテストで更新される。この実施形態では、スコアリング関数は、特定の単語についてのみテストするのではなく、音声の向きから単語の近傍にある他の単語についてもテストする。

解釈のための制約が求められた後、いくつかの解釈のスコアは、制約との特定の解釈の整合性に基づいて更新される（３７０）。いくつかの実施形態では、各解釈は更新され、それによって各解釈のスコアを増大または減少させることができる。これは、更新３７０の後、各解釈のスコアを増大または減少させることができることを意味する。実施形態のいくつかの変形形態は、いくつかの解釈のスコアが変更されないままであることを可能にする。

スコアが更新された後、最も大きなスコアを有する解釈が求められ（３８０）、ユーザへの出力が形成され（３９０）、ユーザに通信される。いくつかの実施形態は、ディスプレイに示される単語および文字等の視覚的手段を用いて解釈を通信する。いくつかの実施形態は、テキスト読み上げ（Ｔｅｘｔ−ｔｏ−ｓｐｅｅｃｈ）または記録されたオーティオ波形を用いてスピーカーから生成される音等のオーディオフィードバックを用いて解釈を通信する。様々な実施形態は、最良のスコアを有する１つまたは複数の解釈を通信することができる。

図４、図５および図６は、音声のユーザに通信される解釈に基づいて単語シーケンス制約を選択するためのインタフェースの例を示す。解釈は、音声の初期解釈とすることができるか、スコアの更新後に選択される後続の解釈とすることができる。

単語のシーケンス４は、５つの単語を含む文であり、第３の単語（Ｗｏｒｄ３）は、強調されている破線のフレーム４０を与えられる。別の実施形態では、Ｗｏｒｄ３は、単語シーケンスのための最も効率的な制約であると判断される。

さらに、図４の例において、破線のフレーム４０は強調を意図するのみでなく、セレクタも表し、このセレクタは、誤って認識され、このため訂正を必要とする単語を選択するためにユーザによって移動することができる。そのような移動は、例えば、ジョイスティックまたは矢印キーによって単語ごとに行うことができ、次に、専用ボタンまたはキーを押下することによって選択を行うことができる（これは、例えば、上記ジョイスティックまたはタッチスクリーンに統合するかまたはこれらによって実施することができる）。

図５は、代替的なインタフェースを示し、ユーザは１つまたは複数の単語、例えばＷｏｒｄ３およびＷｏｒｄ５を選択することができる。ユーザは、単語または単語シーケンスを選択した後、以下の動作、すなわち、選択された単語もしくはシーケンスを正しいとマーク付けすること、選択された単語もしくはシーケンスのうちの１つもしくは複数を誤りであるとマーク付けすること、選択された単語もしくはシーケンスをスキップすること、選択された単語もしくはシーケンスのための追加の選択肢を要求すること、または場合によっては、テキストの主題もしくはスタイル等の何らかの他の制約を変更すること、のうちの１つを行うことができる。

１つの実施形態では、単語または単語シーケンスが選択された後、選択された単語に関連付けられた時間または時間窓を用いて、その時間または時間窓において話された可能性がある単語の組を検索することができ、これらのうちのいくつかまたは全てがユーザに表示され、好ましくはスコアの降順でランク付けされる。

図６は、単語のシーケンス６の第３の単語（Ｗｏｒｄ３）についてスクロールダウンリスト６０を例示する。スクロールダウンリスト６０は、単語３に対応する時間窓に基づいて選択された４つの単語候補を含む。セレクタ６１は上記スクロールダウンリスト６０内の第１のエントリ上に自動的に設置され、これは前記スクロールダウンリスト６０から選択されたエントリまで垂直方向に移動させることができる。

例
図７Ａは、本発明の１つの実施形態による、単語シーケンス制約の下で音声７１０を解釈するための例示的な方法の概略図を示す。この例では、単語シーケンス制約は、単語数に対する制約７１４、すなわち、音声が６つの単語を有するという制約を含む。特に、制約７１４は、解釈の組７１１全体のスコア７１２を更新し、解釈の更新されたスコア７１６を有する更新された組７１５を生成するのに用いられる。図７Ａの例からわかるように、解釈の組全体のスコア７１６が更新される。

この例示的な実施形態について、一般再スコアリング関数

を、上記で説明したように特定の制約因子ｆ（Ｘ，Ｗ，Ｒ）とともに用いることができる。この制約因子は、以下のように、６つの単語を有するシーケンスに、より高い重みを与える。

他の制約因子および／または指標関数も用いることができる。

図７Ｂは、本発明の１つの実施形態による、単語シーケンス制約の下で音声７２０を解釈するための例示的な方法の概略図を示す。この例では、単語シーケンス制約は、音声のトピックに対する制約７２４、すなわち、音声がｐｏｌｌｕｔｉｏｎに関するという制約を含む。制約７２４は、解釈の組７２１全体のスコア７２２を更新し、解釈の更新されたスコア７１６を有する更新された組７２５を生成するのに用いられる。

この例示的な実施形態は、「ｐｏｌｌｕｔｉｏｎ」のトピックにおいて単語シーケンスに適したパラメータθ’_ＬＭを有する制約付きの言語モデルｐ_θ’ＬＭ（Ｗ）を用いる。このため、実施形態は、制約付きの言語モデルを用いて上記のスコア関数Ｓ’（Ｗ｜Ｘ）を更新することができる。

図７Ｃは、本発明の１つの実施形態による、単語シーケンス制約の下で音声７３０を解釈するための例示的な方法の概略図を示す。この例では、単語シーケンス制約は、音声における特定の単語「Ｃａｒｔｓ」の存在に対する制約７３４を含む。制約７３４は、解釈の組７３１全体のスコア７３２を更新し、解釈の更新されたスコア７３６を有する更新された組７３５を生成するのに用いられる。

この例示的な実施形態について、一般再スコアリング関数

を、上記で説明したように特定の関数ｆ（Ｘ，Ｗ，Ｒ）とともに用いることができる。この関数は、以下のように、単語「Ｃａｒｔｓ」を有するシーケンスに、より高い重みを与える。

上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェアまたはそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピュータに設けられるのかまたは複数のコンピュータ間に分散されるのかにかかわらず、任意の適したプロセッサまたはプロセッサの集合体において実行することができる。そのようなプロセッサは、１つまたは複数のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。

さらに、コンピュータは、ラックマウント型コンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ミニコンピュータまたはタブレットコンピュータ等の複数の形態のいずれにおいても実現できることが理解されるべきである。また、コンピュータは、１つまたは複数の入力システムおよび出力システムを有することができる。これらのシステムは、特に、ユーザインタフェースを提示するのに用いることができる。そのようなコンピュータは、ローカルエリアネットワークまたはワイドエリアネットワークとしてエンタープライズネットワークまたはインターネット等を含む１つまたは複数のネットワークによって任意の適した形態で相互接続することができる。そのようなネットワークは、任意の適した技術に基づくことができ、任意の適したプロトコルに従って動作することができ、無線ネットワーク、有線ネットワークまたは光ファイバーネットワークを含むことができる。

また、本明細書において概説される様々な方法またはプロセスは、様々なオペレーティングシステムまたはプラットフォームのうちの任意のものを用いる１つまたは複数のプロセッサ上で実行可能なソフトウェアとして符号化することができる。加えて、そのようなソフトウェアは、複数の適切なプログラミング言語および／またはプログラミングツールもしくはスクリプティングツールのうちの任意のものを用いて書くことができ、フレームワークまたは仮想マシン上で実行される実行可能な機械語コードまたは中間コードとしてコンパイルすることもできる。

「プログラム」または「ソフトウェア」という用語は、本明細書において、一般的な意味で、上記で論考したような本発明の様々な態様を実施するようにコンピュータまたは他のプロセッサをプログラムするのに用いることができる任意のタイプのコンピュータコードまたはコンピュータ実行可能命令のセットを指すように用いられる。

コンピュータ実行可能命令は、１つもしくは複数のコンピュータまたは他のシステムによって実行された、プログラムモジュール等の多くの形式をとることができる。一般に、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、およびデータ構造を含む。通常、プログラムモジュールの機能は、様々な実施形態において所望に応じて組み合わせることも分散させることもできる。

また、本発明の実施形態は、例が提供された方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で順序付けすることができる。したがって、動作が示したものと異なる順序で実行される実施形態を構築することができ、これには、例示の実施形態では一連の動作として示されたにもかかわらず、いくつかの動作を同時に実行することを含めることもできる。

請求項の要素を修飾する、特許請求の範囲における「第１」、「第２」等の序数の使用は、それ自体で、１つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、ある特定の名称を有する１つの請求項の要素を、同じ（序数の用語の使用を除く）名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims

単語のシーケンスを含む音声を認識する方法であって、
音響モデルおよび言語モデルを用いて前記音声の解釈の組を生成することと、
スコアの組を生成するために、解釈ごとに、前記単語のシーケンスを表す解釈の正確さを表すスコアを求めることと、
単語シーケンス制約の下で前記音声を認識するための制約を求めることと、
前記制約との各解釈の整合性に基づいて前記スコアの組を更新することと、
を備え、
前記方法のステップは、プロセッサによって実行される
音声を認識する方法。
前記単語シーケンス制約は、
前記単語のシーケンス内の単語数、特定の単語もしくは単語のシーケンスの有無、前記特定の単語の発声の時点、前記単語のシーケンスにおける少なくとも２つの特定の単語の順序、前記単語のシーケンスにおける前記２つの特定の単語の結合もしくは分離、前記音声の入力のトピック、のうちの１つまたは組み合わせを含む
請求項１に記載の方法。
前記制約を求めることは、
前記解釈の組の部分組をユーザに通信することと、
前記通信することに応答して前記単語シーケンス制約を受信することと、
前記単語シーケンス制約に基づいて前記制約のタイプを求めることと、
前記タイプに基づいて前記制約を求めることと、
を有する請求項１に記載の方法。
前記タイプは、言語タイプであり、
前記制約を求めることは、
前記単語シーケンス制約に基づいて前記言語モデルを更新すること
を有する請求項３に記載の方法。
前記単語シーケンス制約は、前記音声のトピックである
請求項４に記載の方法。
前記タイプは、音響タイプであり、
前記制約を求めることは、
前記単語シーケンス制約に基づいて前記音響モデルを更新すること
を有する請求項３に記載の方法。
前記音響モデルは、前記音声における単語と、前記音響モデルの音響特徴との間のアライメントを含む
請求項６に記載の方法。
前記制約は、特定の時間領域内に１つの単語のみが存在することを含む
請求項７に記載の方法。
前記タイプは、コンテキストタイプであり、
前記制約を求めることは、
各解釈における特定の単語の有無をテストするスコアリング関数を求めること
を有する請求項３に記載の方法。
前記スコアリング関数は、前記特定の単語の存在についてテストし、
前記言語モデルに基づいて前記音声の向きを求めることと、
前記音声の前記向きに従って、前記特定の単語に先行および後続する単語の存在についてのテストで前記スコアリング関数を更新することと、
をさらに備えた請求項９に記載の方法。
前記単語シーケンス制約との整合性の度合いを示す制約因子を求めることと、
前記制約因子に基づいて、前記スコアの組を更新するための制約付きのスコアリング関数を求めることと、
をさらに備えた請求項１に記載の方法。
前記スコアリング関数Ｓ’（Ｗ｜Ｘ）は、

であり、
ここで、∝は、比例を示し、Ｗ＝｛Ｗ_ｉ｝^Ｎ _ｉ＝１は、前記解釈におけるＮ個の単語のシーケンスｗ_１，ｗ_２，．．．，ｗ_Ｎであり、ｗ_ｉは、位置ｉにおいて仮定される単語であり、Ｘ＝｛ｘ_ｊ｝^Ｔ _ｊ＝１は、前記音響モデルの音響特徴を示し、ｘ_ｊは前記音声の入力の前記音響特徴のｊ番目のベクトルであり、Ｔは、音響特徴ベクトルの数であり、関数ｐ（．｜．．）は、確率であり、Ｓは、可能性があるアライメントの組であり、Ｒ＝｛ｒ_ｉ｝^Ｎ _ｉ＝１は、仮定される単語ごとの前記音声の仮定される時間領域の組であり、ｒ_ｉは、単語ｗ_ｉについて仮定される位置であり、ｆ（Ｘ，Ｗ，Ｒ）は、音響シーケンス、単語シーケンスおよびアライメントのうちの１つまたは複数についての前記制約との整合性の度合いを示す数を出力する制約因子である
請求項１１に記載の方法。
前記単語シーケンス制約を用いて指標関数を求めることと、
制約充足の度合いを求める重みパラメータを用いて、前記指標関数の線形関数として前記制約因子を求めることと、
をさらに備えた請求項１２に記載の方法。
前記制約は、前記単語のシーケンスのメタデータを含む
請求項１に記載の方法。
最大のスコアを有する前記解釈を認識された前記音声として求めること
をさらに備えた請求項１に記載の方法。
ユーザの音声を認識する方法であって、
前記音声を表す各解釈の正確さを表す対応するスコアの組に関連付けて解釈の組を生成するために、前記音声を認識することと、
反復ごとに、各解釈のスコアが、前記解釈が制約と整合する場合に増大し、前記解釈が前記制約と整合しない場合に減少するように、少なくとも１つの制約の下で前記スコアの組を反復的に更新することと、
を備え、
前記方法のステップは、プロセッサによって実行される
音声を認識する方法。
音声を認識するシステムであって、
音声認識モジュールおよび誤り訂正モジュールを実施するプロセッサを備え、
前記音声認識モジュールは、
音響モデルおよび言語モデルを用いて前記音声の入力の解釈の組を生成し、
解釈ごとに、前記音声を表す解釈の正確さを表すスコアを求め、
前記誤り訂正モジュールは、
前記音声を認識するための制約を求め、
前記制約との前記解釈の整合性に基づいて各解釈の前記スコアを更新する
音声を認識するシステム。
単語のシーケンスを表す前記音声を受信するためのオーディオインタフェースと、
前記解釈の組の少なくとも部分組を前記ユーザに通信し、前記ユーザから単語シーケンス制約を受信するコントローラと、
をさらに備え、
前記プロセッサは、前記単語シーケンス制約に基づいて前記制約を求める
請求項１７に記載のシステム。
前記音声を認識する前記システムは、車両のインストゥルメンタルパネルに埋め込まれる
請求項１７に記載のシステム。