JP2016522903A - 音声を認識するシステムおよび方法 - Google Patents

音声を認識するシステムおよび方法 Download PDF

Info

Publication number
JP2016522903A
JP2016522903A JP2015552672A JP2015552672A JP2016522903A JP 2016522903 A JP2016522903 A JP 2016522903A JP 2015552672 A JP2015552672 A JP 2015552672A JP 2015552672 A JP2015552672 A JP 2015552672A JP 2016522903 A JP2016522903 A JP 2016522903A
Authority
JP
Japan
Prior art keywords
speech
constraint
word
interpretation
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015552672A
Other languages
English (en)
Other versions
JP6203288B2 (ja
Inventor
ハーシャム、ブレット
ハーシェイ、ジョン・アール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2016522903A publication Critical patent/JP2016522903A/ja
Application granted granted Critical
Publication of JP6203288B2 publication Critical patent/JP6203288B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

システムおよび方法が、単語のシーケンスを含む音声を認識する。音響モデルおよび言語モデルを用いて音声の解釈の組が生成され、スコアの組を生成するために、解釈ごとに、単語のシーケンスを表す解釈の正確さを表すスコアが求められる。次に、単語シーケンス制約の受信に応答して求められた制約との各解釈の整合性に基づいてスコアの組が更新される。

Description

本発明は、包括的には、自動音声認識に関し、より詳細には、ユーザに課す認知的負荷を低くしながら音声認識を提供することに関する。
運転者が行う運転に関連していない作業はいずれも、運転から注意を逸らす可能性があることが一般に知られている。これに起因して、法的手段および運転者教育の双方によって、運転中の移動電話の使用を減らすことが近年注目されている。また、車両内で運転者が情報、通信および娯楽機能にアクセスすることへの需要も増大している。
音声に基づくインタフェースは、従来の視覚インタフェースまたは手動インタフェースよりも注意を逸らさないことができることが研究により示されている。限られた機能についてのコマンドに基づく音声インタフェースは車両において一般的になっている。一方、豊富な語彙の連続音声の認識は誤りが生じやすいので、SMSとしてのそのような機能について音声を用いてテキストを入力することは困難である。このため、運転中にユーザ側で注意を逸らすことを減らしながら、音声を用いて入力されたテキストを訂正または他の形で変更することが必要とされている。
制約を受けない音声を訂正するためのいくつかの方法は、編集アプリケーション、すなわち、コンピュータディスプレイおよび従来のキーボードを有するワードプロセッサを利用する。例えば、特許文献1に記載されている方法は、認識されたテキスト内の単語を関連する音声でタグ付けし、ワードプロセッシングソフトウェアのユーザがテキストトランスクリプションを編集するために音声を聴くことを可能にすることによって、音声の誤認識を訂正する。
特許文献2に記載されている別の方法は、編集アプリケーションプログラムにおいて「音声イベントデータベース」をテキストトランスクリプション内の位置と関連付け、コンテキストを広げることによって、編集動作を改善している。そのような方法は、従来のキーボード、マウスおよびメニュー選択を含む訂正作業に主に注意を払うことを必要とし、特に、視覚表示に注意を払うには視覚リソースを駆使することが必要である。しかしながら、キーボード、タッチスクリーンおよび大きな視覚表示を用いると、運転から注意をそらすことが最小限にならない。
他の方法は、後続の音声を用いて最初の音声の結果として得られるトランスクリプションを編集することによって、インタラクションの複雑性を最小限にする。例えば、特許文献3に記載されている方法は、後続の発話を用いて音声認識の結果を訂正する。同様に、特許文献4に記載されている方法は、再認識されるべき音声認識の部分を選択する。しかしながら、音声の後続の解釈は誤りを生じる可能性があり、結果として、誤り訂正の労力を増大させ、運転者の注意散漫のさらなる一因となる。
特許文献5に記載されている別の方法は、ユーザによって与えられた単一の単語の訂正を用いて、その単一の単語に隣接する単語の代替的な提案を調整する。しかしながら、ユーザの音声における複数の単語が誤って解釈される場合、ユーザは音声解釈を複数回訂正しなくてはならない。さらに、この方法の訂正は、より一般的なタイプのインタラクションと対照的に、選択された単語の置換に限定され、これによってユーザの注意をさらに逸らすことにつながる場合がある。したがって、音声の解釈を誘導するのに必要なインタラクションおよびユーザの注意を最小限にする必要がある。
米国特許第5,960,447号明細書 米国特許第5,970,460号明細書 米国特許第6,064,959号明細書 米国特許第7,444,286号明細書 米国特許出願公開第2006/293,889号明細書
本発明のいくつかの実施形態は、単語のシーケンスを含む豊富な語彙の連続音声の音声認識において生じる誤りは、多くの場合に他の誤りに関連付けられているという認識に基づく。したがって、単に最初の誤りを訂正して追加のユーザ入力を待つのではなく、認識結果に対する訂正を用いて、他の誤りが生じた可能性がある場所を予測し、さらなる誤りを訂正することができる。これらの他の誤りは、隣接する単語位置において生じる場合もあるし、または隣接する単語に対する変更を一切必要とすることなく、より離れた位置において生じる場合もあり、このため、訂正を用いて認識結果を更新するべきである。
例えば、ナビゲーション関心点タスクにおける認識結果は、2つの代替の単語シーケンス「Museum of Fine Arts」および「Emporium of Fine Carts」を含む場合がある。この場合、元の解釈が「Museum of Fine Arts」であり、ユーザが「Arts」を「Carts」に変更する場合、単語「Museum」が「Emporium」に変更されるべきであることがほぼ確実である。ただし、これらの間には解釈が変化しないいくつかの単語が存在する。
さらに、本発明のいくつかの実施形態は、豊富な語彙の連続音声の音声認識の解釈に対する訂正が、1つの可能性がある単語を別のものに変更することに制限される必要はなく、より一般的な種類の訂正制約も含むことができるという一般的な認識に基づく。このため、訂正制約を用いて、ユーザが発した音声を再解釈することができる。
そのような制約は、個々の単語に対応する音響信号のみを用いる解釈と対称的に、単語のグループを正しく解釈する確率を改善することができる。
例えば、代替候補「Wreck a nice beach」および「Recognize speech」を含む認識結果を所与として、トピックが「pollution」であるという制約を用いて、第1の認識の確率を更新することができる。
したがって、いくつかの実施形態は、全体音声の再解釈を、例えば音声を発するユーザによって提供される音声の単語シーケンスに対する制約を用いることによって改善することができるという特定の認識に基づいている。例えば、単語シーケンス制約は、音声における単語数および単語の順序、音声において特定の時点に発せられる特定の単語、音声における特定の単語の欠如、音声における2つの特定の単語の結合または分離を含むことができる。
例えば、ユーザに、音声の解釈の1つまたは複数の特定の単語を訂正することを依頼する代わりに、ユーザからの入力を用いて単語シーケンス制約を求め、これを用いて音声の全体解釈を更新することができる。この認識によって、ユーザが音声を訂正する労力を低減することが可能になる。なぜなら、単語の訂正はその単語のみの訂正しかもたらすことができないのに対し、単語シーケンス制約によって、音声の全体解釈の訂正をもたらすことができるためである。
このため、本発明のいくつかの実施形態は、ユーザによって提供される、ユーザの音声の解釈を更新するための単語シーケンス制約を用いる。例えば、単語シーケンス制約の下で、全体音声の最良スコアの仮説を求めることができる。実際に、そのような手法は、音声シーケンスの正しい解釈を求めるのに必要なインタラクション数を最小限にすることができる。
様々な実施形態は、音声を受信する前に、音声を受信するのと同時に、または音声を受信した後に、単語シーケンス制約を求める。例えば、いくつかの実施形態では、単語シーケンス制約は、音声における単語数、または音声における特定の単語の欠如等の音声のメタデータを含む。そのような単語シーケンス制約は、任意の時点に収集することができる。
別の実施形態では、単語シーケンス制約は、音声のコンテキストに、より固有である。例えば、単語シーケンス制約は、音声の初期解釈に関する情報を含むことができ、そのような情報を用いて全体音声の解釈が再評価される。この実施形態の1つの変形形態は、音声認識仮説内の特定の単語の訂正を可能にするユーザインタフェースを用いることによって、ユーザに対する認知的負荷を最小限にする。訂正は制約としてシステムにフィードバックされ、これらの制約を用いて、音声の仮説が正しい確率を増大させ、これによって、必要な訂正動作数を低減する。
したがって、1つの実施形態は、単語のシーケンスを含む音声を認識する方法を開示する。本方法は、音響モデルおよび言語モデルを用いて音声の解釈の組を生成することと、スコアの組を生成するために、解釈ごとに、単語のシーケンスを表す解釈の正確さを表すスコアを求めることと、単語シーケンス制約の下で音声を認識するための制約を求めることと、制約との各解釈の整合性に基づいてスコアの組を更新することとを含む。本方法のステップはプロセッサによって実行される。
別の実施形態は、ユーザの音声を認識する方法を開示する。本方法は、音声を表す各解釈の正確さを表す対応するスコアの組に関連付けて解釈の組を生成するために、音声を認識するステップと、反復ごとに、各解釈のスコアが、解釈が制約と整合する場合に増大し、解釈が制約と整合しない場合に減少するように、少なくとも1つの制約の下でスコアの組を反復的に更新するステップとを含む。本方法のステップはプロセッサによって実行される。
別の実施形態は、音声を認識するシステムを開示する。本システムは、音声認識モジュールおよび誤り訂正モジュールを実施するプロセッサを備え、音声認識モジュールは、音響モデルおよび言語モデルを用いて音声の入力の解釈の組を生成し、解釈ごとに、音声を表す解釈の正確さを表すスコアを求め、誤り訂正モジュールは、音声を認識するための制約を求め、制約との解釈の整合性に基づいて各解釈のスコアを更新する。
本発明の1つの実施形態による、音声認識のためのシステムの構成要素の概略図である。 本発明のいくつかの実施形態によるシステムを備える車両のインストゥルメンタルパネルの部分前面図である。 本発明の1つの実施形態による、音声認識モジュールの機能を示すブロック図である。 図2Aの方法のステップの一例である。 本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。 本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。 本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。 本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。 本発明の1つの実施形態による、強調された単語を有する単語のシーケンスの概略図である。 本発明の1つの実施形態による、2つの強調された単語を有する単語のシーケンスの概略図である。 本発明の1つの実施形態による、単語のシーケンスおよび単語候補のソートされた組の概略図である。 本発明の例示的な実施形態の概略図である。 本発明の例示的な実施形態の概略図である。 本発明の例示的な実施形態の概略図である。
図1Aは、本発明のいくつかの実施形態による、音声を発するユーザに対する認知的負荷を最小限にしながら、音声を認識する方法を実施することが可能なシステム1の一例を示す。
システム1は、全体システムの動作を制御する中央処理装置(CPU)100を備える。システム1は、システムのオペレーティングシステム(OS)1010に関連するソフトウェアと、CPU100によって実行してシステムのユーザにディクテーションおよび誤り訂正等の特定の機能を提供することができるアプリケーションプログラム1011と、音声認識に関連するソフトウェア1012とを備えるメモリ101とインタラクトする。システム1は、音声を受信するオーディオインタフェース(I/F)102をさらに備え、この音声は、マイクロフォン103によって記録するか、または外部システムから取得した音声等の外部入力104から受信することができる。
システム1は、ディスプレイ106の動作を制御するためのディスプレイコントローラ105等の1つまたはいくつかのコントローラをさらに備えることができる。ディスプレイ106は、例えば、液晶ディスプレイ(LCD)または他のタイプのディスプレイとすることができる。ディスプレイ106は、システム1の視覚ユーザインタフェースとしての役割を果たし、例えば、単語のシーケンスをシステム1のユーザに提示することを可能にする。システム1は、オーディオ出力システム112、例えば、1つまたは複数のスピーカーの動作を制御するためのオーディオ出力コントローラ111にさらに接続することができる。システム1は、ジョイスティック108から入力を受信するためのジョイスティックコントローラ107、およびキーパッド110から入力を受信するためのキーパッドコントローラ109等の1つまたは複数の入力インタフェースにさらに接続することができる。ジョイスティックおよび/またはキーパッドの使用は単なる例示であることが容易に理解される。トラックボールまたは矢印キーも必要な機能を実施するのに同様に良好に用いることができる。さらに、ディスプレイ106は、ユーザからの入力を受信するためのインタフェースとしての役割を果たすタッチスクリーンディスプレイとすることができる。さらに、音声認識を実行する機能に起因して、システム1は、音声に関係しないインタフェースを全て全く用いずに済ますことができる。オーディオI/F102、ジョイスティックコントローラ107、キーパッドコントローラ109およびディスプレイコントローラ105は、CPU100が現在実行しているOS1010および/またはアプリケーションプログラム1011に従ってCPU100によって制御される。
図1Bに示すように、システム1は、車両199のインストゥルメンタルパネル150内に埋め込むことができる。システム1の動作を制御するための様々な制御部131〜133をハンドル130に配置することができる。代替的にまたはさらに、制御部125は、制御モジュール120上に設置することができる。システム1は、ユーザの音声の解釈を改善して、ユーザインタラクション数を低減するように構成され、それによってユーザは車両の操作に集中することができる。
図2Aは、本発明のいくつかの実施形態による、誤り訂正機能が改善した音声認識システム200の機能を概略的に示す。音声認識ユニット200は、音声認識モジュール210を備え、音声認識モジュール210は、システム1のCPU100によって、メモリ101内に記憶される音声認識ソフトウェア1012を実行することにより実施することができる。
音声認識モジュール210は、単語のシーケンス(例えば完全な一文)の発話表現である音声230を受信する。様々な実施形態において、音声は、オーディオ信号、音声特徴、またはフレームベースの音響スコアの1つまたは複数の組み合わせを含む。単語のシーケンスは通常、複数の単語、例えば3つ以上の単語を含む。
音声認識モジュールは、音声230の音声認識を実行して、最適な事例では音声によって表現される単語のシーケンスに類似した、1組の解釈を求めるように構成される。組内の各解釈は単語のシーケンスを含む。音声認識モジュールは、音響モデル201および言語モデル202を用いることができる。
音響モデル201は、例えば、システム1のメモリ101内に記憶することができ、1つの実施形態では、単語シーケンス仮説を所与とした音響特徴のシーケンス、または単語の音素特性を表す単位の他のシーケンスの条件付き確率を記述する。音響モデルは、音素または何らかの他の音単位を含むことができる。いくつかの実施形態では、音響モデルは音素シーケンスモデルと、音素片(sub−phonetic)状態シーケンスのモデルと、各音素片状態を所与とした音響特徴の確率のガウス混合モデルとを含むことができる。他の実施形態では、音響モデルは、例えばニューラルネットワークを用いた、音響特徴から音素状態シーケンス確率への変換を含むことができる。
言語モデル202は、システム1のメモリ101にも記憶することができ、少なくとも1つの単語を含む単語のシーケンスが言語に生じる確率に関する統計を含むことができる。言語モデル202は、例えば、言語において用いられる単一の単語の尤度に関するユニグラム言語モデル、または言語の2つの単語が互いの後に続く尤度を表すバイグラム言語モデルとすることができる。また、より多くの数の後続の単語を検討する言語モデル、例えば、トリグラム言語モデル等も用いることができる。
いくつかの実施形態では、音声認識モジュール210は、音声を、単一の単語に関係すると想定されるセグメントに分割することによって音声認識を実行し、次に、例えば入力音声シーケンスセグメント内の音素を識別し、これらの音素を言語モデル202の音素対テキストマッピングと比較することによって、この単一の言語を認識する。
音声認識モジュール210は通常、入力音声シーケンスセグメントごとに1組の可能な解釈を特定し、ここで各解釈は単語のシーケンスを含む。解釈は、認識結果としても知られる。各解釈は、認識信頼度値、例えば単語のシーケンスを表す解釈の正確さを表すスコアに関連付けられる。スコアは、音声認識の、認識結果が正しいことの信頼度を表す。入力音声セグメントごとに、音声認識モジュールは、最も大きな認識信頼度値を有する認識結果、例えば単語を求め、入力音声シーケンスを表すとみなされる単語のシーケンスを得ることができる。
したがって、音声の音声認識は、言語モデル201を考慮に入れることによってさらに精緻化される。次に、言語モデルおよび認識語彙を用いて音声の解釈の組を生成する際に、認識信頼度値に加えて、言語において1つまたは複数の単語の組が生じる確率を考慮に入れる。例えば、バイグラム言語モデルの場合、可能性のある認識結果、例えば「three」ではなく「free」が、バイグラム言語モデルに起因して、音響空間に関して高い信頼度を有する場合であっても、それにもかかわらず、音声認識モジュール210は、コンテキスト、例えば意図される単語のシーケンス「at three o’clock」における「at」および「o’clock」を用いて、「three」に有利に判定することができる。
図2Bは、音声240の解釈の組の例を示す。いくつかの実施形態では、解釈の組は、音声のnベストリスト250としてまたは音声の単語ラティス260として求められるかまたは表現される。さらに、様々な実施形態は、組251内の解釈ごとに、スコア、例えば単語シーケンス制約を受ける解釈の正確さを表すスコア255を求める。スコアは、複数の方法によって求めることができる。
例えば、解釈の組の代替的な表現は、ラティス260として知られるグラフであり、このグラフでは、ノード、例えばノード265および267は、音声の特定の領域により識別され、特定のコンテキストとともに生じる、仮定された各単語を表す。この表現において、nベストリスト内の多くの仮説における同じ場所に生じる単語および単語シーケンスは、ラティス内の共通部分経路を共有するように変換することができる。単語に加えて、ラティスのアークは、音響モデルスコアおよび言語モデルスコアを含むことができ、それによって、単語シーケンスのための全体スコアは、ラティスを通る経路に沿ってスコアから導出することができる。例えば、アーク261、262および263は、単語「I」に続く単語「don’t」、「want」および「went」の対応する確率によって規定されるスコアを表すことができる。
いくつかの実施形態では、音声認識システムは確率モデルとして定式化され、スコアは、音響特徴の観察されるシーケンスを所与とした解釈または単語のシーケンスの確率に基づく。解釈は、単語のシーケンスを含むことができ、仮定された単語に対応する発話の概算の時間領域も特定することができる。いくつかの実施形態におけるスコアS(W|X)は、音響データを所与とした単語シーケンスの確率に基づく。例えば、S(W|X)∝pθ(W|X)であり、ここで、∝は比例を示し(すなわち、S(W|X)=pθ(W|X)cであり、ここで、cは正の定数である)、θはモデルのパラメータであり、pθは、パラメータθを用いた確率測度を示し、W={w i=1は、解釈における仮定される単語のシーケンスw,w,...,wであり、wは、(N個の単語での仮説について)位置iにおいて仮定される単語である。音響特徴は、X={x j=1で表され、ここで、xは、(M個の音響特徴ベクトルを有する発話についての)発話の音響特徴のj番目のベクトルである。pθ(W|X)は、Xを所与としたWの事後確率として知られる。別の実施形態では、スコアはこの量の対数として規定することができる。
S(W|X)=logpθ(W|X)+k
ここで、kは任意の定数である。
1つの実施形態において、スコアは様々なサブスコアに分離される。
S(W|X)∝pθLM(W)pθAM(X|W)
ここで、pθLM(W)は、パラメータθLMを有する単語言語モデルからのスコアであり、pθAM(X|W)は、パラメータθAMを有する音響モデルからのスコアである。単純にするために、以後、必要な場合を除いてパラメータθを省略する。
別の実施形態は、単語シーケンスを、仮定される単語ごとに発話の仮定される時間領域のシーケンス
Figure 2016522903
に関連付ける。ここで、
Figure 2016522903
は単語wについて仮定される位置である。その実施形態において、スコアは、p(W)p(X|W)=maxp(W)p(R|W)p(X|W,R)であるようなアライメント項p(R|W)を用いた拡張モデルに基づくことができる。その実施形態では、
Figure 2016522903
は、全ての可能性があるアライメントの組Sにわたってスコアを最大にすることによって得られ、
Figure 2016522903
である。仮定される単語wに関連付けられた領域
Figure 2016522903
に対応する特徴の部分シーケンス
Figure 2016522903
のための音響スコアは、
Figure 2016522903
である。
言語モデルスコアは、離散確率モデル、ニューラルネットワーク、識別的に訓練された条件付き確率場等を用いることを含む多くの方法で計算することができる。例えば、1つの実施形態は、確率モデルを以下のように定式化する。
Figure 2016522903
確率は、コンテキストとして知られる、シーケンス内で以前に現れた単語を条件とする。通常、一般モデルは複雑すぎるので、nグラムモデルとして知られる、より単純なモデルが用いられる。ここで、コンテキストは先行するn−1個の項に制限される。
Figure 2016522903
いくつかの実施形態では、nグラムモデルとともに様々な他のパラメータ化および推定手順を用いて、訓練データからテストデータに一般化する機能を改善する。
音声認識モデルにおける推測は、仮説Wにわたって探索を行い、最も良好なスコアの仮説を見つけることとして特徴付けることができる。
Figure 2016522903
さらに、通常、最も大きなスコアを有するnベスト仮説が求められる。全ての可能性のあるWの評価は大規模な計算となる可能性があり、いくつかの実施形態は、例えば、探索プロセス、例えばビーム探索法のヒューリスティックな低減と組み合わせたビタビアルゴリズムとして、再帰的動的計画法アルゴリズムを用いてnベスト仮説を求める。多くの代替的な探索アルゴリズムおよびヒューリスティクスも存在し、様々な実施形態によって用いられる。
いくつかの実施形態では、仮説にわたる探索の出力は、解釈255のスコア、例えば音響モデルのスコアおよび言語モデルのスコアのうちの一方またはこれらの組み合わせとともに単語のシーケンスのn個の解釈を含むnベストリスト250とすることができる。いくつかの実施形態は、音響信号の時間セグメントとともに、単語の最良スコアのアライメントを出力として提供する。
いくつかの実施形態では、仮説にわたる探索の出力は、ラティス260とすることができる。スコアの決定は通常、ラティスにおいて、nベストリストを用いることよりも効率的である。一方、明確にする目的で、いくつかの実施形態はnベスト表現を用いて説明される。
言語モデルおよび音響モデルは探索を制約するが、生成される認識は、依然として曖昧さおよび誤りを有する場合がある。例えば、最も高いスコアを有する解釈251が依然として不正確である可能性がある。一方、ユーザに特定の解釈251を訂正するように要求することは、正しい解釈を含み得る他の解釈を無視する。また、特定の解釈を訂正することの要求は、ユーザとの複数のインタラクションを必要とする可能性があり、ユーザの注意を他の作業から逸らす可能性がある。
本発明のいくつかの実施形態は、単語のシーケンスを含む豊富な語彙の連続音声の認識結果の訂正が、全体音声の解釈の制約に基づくべきであるという一般的な認識に基づく。そのような制約は、単一の単語のみを変更する訂正と対称的に、全体音声を正しく解釈する確率を改善することができる。
したがって、音声認識ユニット200は、言語モデル202および単語シーケンス制約270を考慮に入れることによって認識結果を再解釈する誤り訂正モジュール220も備える。具体的には、いくつかの実施形態では、誤り訂正モジュール220は、制約270との解釈の整合性に基づいて、各解釈のスコアを更新する。更新後、例えば最も高いスコアを有する解釈215を求め、認識された音声として出力することができる。
いくつかの実施形態は、全体音声を解釈するための制約は、例えば、音声を発声するユーザによって提供される音声の単語シーケンス制約270によって補償することができるという認識に基づく。例えば、単語シーケンス制約は、音声内の単語の数および順序、音声における特定の時点で発せられる特定の単語、音声における特定の単語の欠如、音声における2つの特定の単語の結合または分離を含むことができる。単語シーケンス制約は、音声出力のトピック、例えば、音声のトピックがpollutionであることを指定することもできる。
この認識によって、ユーザが音声を訂正する労力を最小限にすることができる。なぜなら、単語の訂正は単語の訂正しかもたらすことができないのに対し、単語シーケンス制約は、音声の全体解釈の訂正をもたらすことができるためである。特に、制約270を用いて、解釈の全体組のスコアを更新することができる。
このため、いくつかの実施形態では、単語シーケンス制約は、音声の一部分の後続の訂正のために制約を用いることと対照的に、音声の解釈と同時に用いられる。単語シーケンス制約の下で、全体音声の最良スコアの解釈が求められる。最も大きなスコアを有する解釈を、認識された音声として求めることができる。実際に、そのような手法は、音声シーケンスの正しい解釈を求めるのに必要なインタラクション数を最小限にすることができる。
図3Aは、本発明の1つの実施形態による、ユーザの音声を認識するための方法のフローチャートを示す。本方法300は、上記で説明したいくつかの原理および認識を用い、プロセッサ301を用いて実施することができる。本方法は、単語のシーケンスを表す音声を受信し(305)、音響モデルおよび言語モデルを用いて、音声の解釈の組を生成する(310)。解釈の組は1つまたは複数の解釈を含み、ここで各解釈は、話された可能性がある単語のシーケンスである。様々な実施形態が、解釈のnベストリスト、単語ラティス、または可能性のある単語シーケンスの組の他の表現として、解釈を受信または生成する。
各解釈について、本方法は、スコアの組を生成するために、解釈のための正確さスコアを求める(315)。例えば、スコアは、音響モデルおよび言語モデルによって与えられる確率、および/または以下で説明する正確さ関数に基づいて求めることができる。いくつかの実施形態では、本方法は、最も大きなスコアを有する解釈を求め(320)、解釈の部分組をユーザに通信する(325)。1つの実施形態では、最も大きなスコアを有する解釈のみがユーザに通信される。代替的な実施形態では、複数の解釈が通信される。
様々な実施形態は、ユーザインタフェースコンポーネントを用いて、ユーザが必要な場合に解釈の組について制約を提供することを可能にする。本方法は、単語シーケンス制約を用いた訂正が所望されるか否かを、ユーザインタフェースコンポーネントを通じて与えられるユーザからの入力に基づいて決める(330)。ユーザは、システム1の任意のインタフェースまたはその組み合わせを用いて制約を提供することができる。例えば、ユーザは、キーパッド110、ジョイスティック108、ディスプレイ106のタッチスクリーン、音声インタフェース103およびそれらの組み合わせを用いることができる。
訂正が所望されるとき、本方法は、単語シーケンスに対する制約を受信する(335)。様々な実施形態は、選択リスト、ボタン等のユーザインタフェースコンポーネントを通じたユーザインタフェース動作に基づいて単語シーケンス制約を受信するか、または求める。システムのいくつかの実施形態では、単語シーケンス制約は、様々な事象の発生確率として表される。
いくつかの実施形態では、単語シーケンス制約は、音声における単語数、または音声における特定の単語の欠如等の音声のメタデータを含む。音声のメタデータは、単語シーケンスのコンテキストに関連する情報と対称的に、単語シーケンスに関する情報である。そのような単語シーケンス制約は任意の時点に収集することができる。
本方法は、各解釈が制約とどの程度整合しているかに従って音声の解釈の組のスコアを更新する(340)。スコアが更新された後、最も高いスコアが求められ(320)、本方法は、ユーザがこれ以上訂正を望まなくなるまで反復的に継続する。本方法から解釈の組を出力することができ、例えば後に用いるためにメモリに記憶することができる。
図3Bは、制約を受ける解釈のスコアを更新する方法のフローチャートを示す。単語シーケンス制約がユーザから受信される(350)。いくつかの実施形態では、単語シーケンス制約は変更され、解釈に適した制約が求められる(360)。例えば、いくつかの実施形態は、ユーザから受信した単語シーケンス制約に基づいて制約を求める。
例えば、いくつかの実施形態では、単語シーケンス制約は、解釈の部分組を通信することに応答してユーザから受信される。実施形態は、単語シーケンス制約に基づいて制約のタイプを求め(361)、タイプに基づいて制約を求める(360)。例えば、制約のタイプは、言語タイプ、すなわち言語確率に対する制約、音響タイプ、すなわち仮定された単語を所与とした音響特徴の確率分布に対する制約、およびコンテキストタイプ、すなわち解釈内の単語シーケンスに対する制約、のうちの1つまたはこれらの組み合わせとすることができる。
図3Cは、いくつかの実施形態による制約の決定の一例を示す。求められる制約のタイプは、更新されるスコアに基づく。これらの実施形態は、言語および/または音響モデルのうちの1つまたはこれらの組み合わせを更新する(365)。いくつかの実施形態は、ユーザから受信した単語シーケンスに基づいて制約のタイプを求める。例えば、いくつかの実施形態では、単語シーケンス制約は、音声における単語数、音声のトピック、音声の特定の期間内に話された単語数等の音声のメタデータを含む。これらの制約は通常、言語または音響タイプの制約である。
別の実施形態では、単語シーケンス制約は、音声のコンテキストに、より固有である。例えば、単語シーケンス制約は、音声内の特定の単語の有無に関する情報を含むことができる。これらの制約は通例、コンテキストタイプ制約である。
例えば、単語シーケンス制約がシーケンス内の単語数である場合、1つの実施形態では、スコアの更新は、例えば、p(W|length(W)=6)を用いて言語モデルスコアを再計算することによって行われる。この実施形態の1つの変形形態では、音響モデルスコア、および各単語に対応する推定領域Rは変更されないままである。
1つの実施形態では、制約のタイプは言語タイプであり、スコアの更新は、変更された言語モデルを用いて言語モデルスコアを再計算することによって行われる。例えば、元の言語モデルpθLM(W)の代わりに、ラティスは、pθ’LM(W)=pθLM(W|length(W)=6)を用いて再スコアリングされる。ここで、θLMは元の言語モデルパラメータであり、θ’LMは、シーケンス内に6つの単語が存在するという制約の下で条件付けすることによって得られるパラメータである。このため、スコアは以下の式を評価することによって更新することができる。
S’(W|X)∝pθ’LM(W)pθAM(X|W)
ここで、S’(W|X)は変更されたスコアである。
1つの実施形態は、同様にして、トピックが「pollution」であるという制約を課す。実施形態は、「pollution」のトピックにおける単語シーケンスに適したパラメータθ’LMを有する制約付きの言語モデルpθ’LM(W)を用いる。このため、実施形態は、制約付きの言語モデルを用いて上記のスコア関数S’(W|X)を更新することができる。
各解釈の更新されたスコアを所与として、再スコアリングによって、nベストリストの各エントリにおいて変更されたスコア関数を用いてスコアが評価されることになる。代替的に、ラティスまたはnベストリストに基づいて、変更されたスコア関数を用いた前方−後方アルゴリズム、ビタビ復号またはスタック復号等の様々なアルゴリズムを用いて、可能性のある単語シーケンスのグラフを効率的に探索することができる。スコアを評価する過程で、変更されたnベストリストまたはラティスが生成される。
制約が単語シーケンスに対してのみである場合、上記の例におけるpθAM(X|W)等の音響モデルスコア、および各単語に対応する推定領域Rは変更されないままにすることができる。一方、他の実施形態では、制約のタイプは音響タイプであり、音響スコアp(X|W)は制約に依拠して変更される。例えば、単語と音響特徴との間のアライメントが計算される場合、再スコアリングもアライメントに依拠することができる。1つの実施形態は、モデルp(W)p(X|W)=maxR∈Sp(W)p(R|W)p(X|W,R)を定義し、Rに対する制約に基づいてスコアを更新する。
Figure 2016522903
ここで、C⊆Sは所望の制約を実施する許可されるアライメントの部分組を表す。例えば、1つのそのような制約は、特定の時間領域内に1つのみの単語が存在することとすることができる。
図3Dは、スコアを更新するための絶対的制約または相対的制約を求める方法のフローチャートを示す。いくつかの実施形態では、制約が絶対的である場合、制約に合致しない単語シーケンスの解釈は、可能な限り最も小さなスコアを用いて再スコアリングされる。逆に、制約が相対的である、例えば確率的である場合、制約に合致しない解釈は、制約に合致する解釈よりも小さな重みで再スコアリングされるが、合致しない解釈は、相対的制約に整合する解釈のスコアよりも依然として高い最終スコアを有することができる。
例えば、いくつかの実施形態では、相対的制約は、異なる制約充足の度合いを表す連続値を有する。そのような制約は、制約を表す倍数因子を用いて定式化することができる。1つの実施形態では、制約は制約因子f(X,W,R)369を含み、その出力は、音響シーケンス、単語シーケンスおよびアライメントのうちの1つまたは複数についての制約充足の度合いを示す数である。この制約因子を用いて、1つの実施形態は以下の一般再スコアリング関数を定式化する。
Figure 2016522903
制約因子に依拠して、絶対的制約および相対的制約の場合を含む多くの様々な種類の制約を実施することができる。例えば、いくつかの実施形態では、制約因子は、ユーザによって指定される単語シーケンス制約を、解釈のスコアを更新するのに適した制約にマッピングする指標関数363、および(最大で相対的な制約を絶対的にすることまでの)相対的な制約の度合いを示す重みパラメータ367を用いて求めることができる。
例えば、制約因子
f(X,W,R)=f(W)=αIlength(W)=6+β
である場合、ここで、f(W)という表記は、制約因子がこの場合はXおよびRに依存しないことを示し、αおよびβは制約充足の度合いを表す非負の重みパラメータであり、例えば、
Figure 2016522903
は、シーケンス内に6つの単語が存在するという制約についての指標関数である。重みパラメータαがβに対して大きい場合、制約満足は強く、そうでない場合、制約は弱い。絶対的な制約は、所望されない全ての場合に関数f(W)がゼロ値を有するようにβをゼロに設定することによって達成することができる。
別の実施形態では、アライメントに対する制約は、f(X,W,R)=f(R)=αIR∈C+βを用いて実施することができる。ここで、IR∈Cは、Rが制約組C内にあるという条件についての指標関数である。
パラメータθ’LMを有する制約付きの言語モデルpθ’LM(W)において具現される制約の場合、制約因子は、
Figure 2016522903
であり、ここで、p(W)は初期認識において用いられる言語モデルである。これは、新たなモデルpθ’LM(W)を古いモデルp(W)と置換することと同じ影響をスコアに対して有する。
再スコアリングの後、fの絶対的なスケールは、様々な単語仮説の相対的なスコアリングに影響を与えず、それによって、別の制約因子に比例する任意の他の制約因子f’(X,W,R)∝f(X,W,R)が結果としてのnベストリストまたはラティスに対して同じ効果を生じることに留意されたい。
さらにまたは代替的に、ユーザから受信した単語シーケンス制約に基づいて解釈のための複数の制約を求めることができる。例えば、単語シーケンス内の単語が正しいことをユーザが示した場合、いくつかの実施形態は、単語の左または右にある単語(言語モデルに依拠する)も正しいと判断する。これらの実施形態では、近傍の単語についての追加の制約が生成される。
例えば、1つの実施形態では、スコアリング関数は特定の単語の存在についてテストする。例えば、音声の向きは、言語モデルに基づいて求めることができ、スコアリング関数は、音声の向きに従って、ユーザに通信される解釈における特定の単語に先行および後続する単語の存在についてのテストで更新される。この実施形態では、スコアリング関数は、特定の単語についてのみテストするのではなく、音声の向きから単語の近傍にある他の単語についてもテストする。
解釈のための制約が求められた後、いくつかの解釈のスコアは、制約との特定の解釈の整合性に基づいて更新される(370)。いくつかの実施形態では、各解釈は更新され、それによって各解釈のスコアを増大または減少させることができる。これは、更新370の後、各解釈のスコアを増大または減少させることができることを意味する。実施形態のいくつかの変形形態は、いくつかの解釈のスコアが変更されないままであることを可能にする。
スコアが更新された後、最も大きなスコアを有する解釈が求められ(380)、ユーザへの出力が形成され(390)、ユーザに通信される。いくつかの実施形態は、ディスプレイに示される単語および文字等の視覚的手段を用いて解釈を通信する。いくつかの実施形態は、テキスト読み上げ(Text−to−speech)または記録されたオーティオ波形を用いてスピーカーから生成される音等のオーディオフィードバックを用いて解釈を通信する。様々な実施形態は、最良のスコアを有する1つまたは複数の解釈を通信することができる。
図4、図5および図6は、音声のユーザに通信される解釈に基づいて単語シーケンス制約を選択するためのインタフェースの例を示す。解釈は、音声の初期解釈とすることができるか、スコアの更新後に選択される後続の解釈とすることができる。
単語のシーケンス4は、5つの単語を含む文であり、第3の単語(Word3)は、強調されている破線のフレーム40を与えられる。別の実施形態では、Word3は、単語シーケンスのための最も効率的な制約であると判断される。
さらに、図4の例において、破線のフレーム40は強調を意図するのみでなく、セレクタも表し、このセレクタは、誤って認識され、このため訂正を必要とする単語を選択するためにユーザによって移動することができる。そのような移動は、例えば、ジョイスティックまたは矢印キーによって単語ごとに行うことができ、次に、専用ボタンまたはキーを押下することによって選択を行うことができる(これは、例えば、上記ジョイスティックまたはタッチスクリーンに統合するかまたはこれらによって実施することができる)。
図5は、代替的なインタフェースを示し、ユーザは1つまたは複数の単語、例えばWord3およびWord5を選択することができる。ユーザは、単語または単語シーケンスを選択した後、以下の動作、すなわち、選択された単語もしくはシーケンスを正しいとマーク付けすること、選択された単語もしくはシーケンスのうちの1つもしくは複数を誤りであるとマーク付けすること、選択された単語もしくはシーケンスをスキップすること、選択された単語もしくはシーケンスのための追加の選択肢を要求すること、または場合によっては、テキストの主題もしくはスタイル等の何らかの他の制約を変更すること、のうちの1つを行うことができる。
1つの実施形態では、単語または単語シーケンスが選択された後、選択された単語に関連付けられた時間または時間窓を用いて、その時間または時間窓において話された可能性がある単語の組を検索することができ、これらのうちのいくつかまたは全てがユーザに表示され、好ましくはスコアの降順でランク付けされる。
図6は、単語のシーケンス6の第3の単語(Word3)についてスクロールダウンリスト60を例示する。スクロールダウンリスト60は、単語3に対応する時間窓に基づいて選択された4つの単語候補を含む。セレクタ61は上記スクロールダウンリスト60内の第1のエントリ上に自動的に設置され、これは前記スクロールダウンリスト60から選択されたエントリまで垂直方向に移動させることができる。

図7Aは、本発明の1つの実施形態による、単語シーケンス制約の下で音声710を解釈するための例示的な方法の概略図を示す。この例では、単語シーケンス制約は、単語数に対する制約714、すなわち、音声が6つの単語を有するという制約を含む。特に、制約714は、解釈の組711全体のスコア712を更新し、解釈の更新されたスコア716を有する更新された組715を生成するのに用いられる。図7Aの例からわかるように、解釈の組全体のスコア716が更新される。
この例示的な実施形態について、一般再スコアリング関数
Figure 2016522903
を、上記で説明したように特定の制約因子f(X,W,R)とともに用いることができる。この制約因子は、以下のように、6つの単語を有するシーケンスに、より高い重みを与える。
Figure 2016522903
他の制約因子および/または指標関数も用いることができる。
図7Bは、本発明の1つの実施形態による、単語シーケンス制約の下で音声720を解釈するための例示的な方法の概略図を示す。この例では、単語シーケンス制約は、音声のトピックに対する制約724、すなわち、音声がpollutionに関するという制約を含む。制約724は、解釈の組721全体のスコア722を更新し、解釈の更新されたスコア716を有する更新された組725を生成するのに用いられる。
この例示的な実施形態は、「pollution」のトピックにおいて単語シーケンスに適したパラメータθ’LMを有する制約付きの言語モデルpθ’LM(W)を用いる。このため、実施形態は、制約付きの言語モデルを用いて上記のスコア関数S’(W|X)を更新することができる。
図7Cは、本発明の1つの実施形態による、単語シーケンス制約の下で音声730を解釈するための例示的な方法の概略図を示す。この例では、単語シーケンス制約は、音声における特定の単語「Carts」の存在に対する制約734を含む。制約734は、解釈の組731全体のスコア732を更新し、解釈の更新されたスコア736を有する更新された組735を生成するのに用いられる。
この例示的な実施形態について、一般再スコアリング関数
Figure 2016522903
を、上記で説明したように特定の関数f(X,W,R)とともに用いることができる。この関数は、以下のように、単語「Carts」を有するシーケンスに、より高い重みを与える。
Figure 2016522903
他の制約因子および/または指標関数も用いることができる。
上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェアまたはそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピュータに設けられるのかまたは複数のコンピュータ間に分散されるのかにかかわらず、任意の適したプロセッサまたはプロセッサの集合体において実行することができる。そのようなプロセッサは、1つまたは複数のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。
さらに、コンピュータは、ラックマウント型コンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ミニコンピュータまたはタブレットコンピュータ等の複数の形態のいずれにおいても実現できることが理解されるべきである。また、コンピュータは、1つまたは複数の入力システムおよび出力システムを有することができる。これらのシステムは、特に、ユーザインタフェースを提示するのに用いることができる。そのようなコンピュータは、ローカルエリアネットワークまたはワイドエリアネットワークとしてエンタープライズネットワークまたはインターネット等を含む1つまたは複数のネットワークによって任意の適した形態で相互接続することができる。そのようなネットワークは、任意の適した技術に基づくことができ、任意の適したプロトコルに従って動作することができ、無線ネットワーク、有線ネットワークまたは光ファイバーネットワークを含むことができる。
また、本明細書において概説される様々な方法またはプロセスは、様々なオペレーティングシステムまたはプラットフォームのうちの任意のものを用いる1つまたは複数のプロセッサ上で実行可能なソフトウェアとして符号化することができる。加えて、そのようなソフトウェアは、複数の適切なプログラミング言語および/またはプログラミングツールもしくはスクリプティングツールのうちの任意のものを用いて書くことができ、フレームワークまたは仮想マシン上で実行される実行可能な機械語コードまたは中間コードとしてコンパイルすることもできる。
「プログラム」または「ソフトウェア」という用語は、本明細書において、一般的な意味で、上記で論考したような本発明の様々な態様を実施するようにコンピュータまたは他のプロセッサをプログラムするのに用いることができる任意のタイプのコンピュータコードまたはコンピュータ実行可能命令のセットを指すように用いられる。
コンピュータ実行可能命令は、1つもしくは複数のコンピュータまたは他のシステムによって実行された、プログラムモジュール等の多くの形式をとることができる。一般に、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、およびデータ構造を含む。通常、プログラムモジュールの機能は、様々な実施形態において所望に応じて組み合わせることも分散させることもできる。
また、本発明の実施形態は、例が提供された方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で順序付けすることができる。したがって、動作が示したものと異なる順序で実行される実施形態を構築することができ、これには、例示の実施形態では一連の動作として示されたにもかかわらず、いくつかの動作を同時に実行することを含めることもできる。
請求項の要素を修飾する、特許請求の範囲における「第1」、「第2」等の序数の使用は、それ自体で、1つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、ある特定の名称を有する1つの請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims (19)

  1. 単語のシーケンスを含む音声を認識する方法であって、
    音響モデルおよび言語モデルを用いて前記音声の解釈の組を生成することと、
    スコアの組を生成するために、解釈ごとに、前記単語のシーケンスを表す解釈の正確さを表すスコアを求めることと、
    単語シーケンス制約の下で前記音声を認識するための制約を求めることと、
    前記制約との各解釈の整合性に基づいて前記スコアの組を更新することと、
    を備え、
    前記方法のステップは、プロセッサによって実行される
    音声を認識する方法。
  2. 前記単語シーケンス制約は、
    前記単語のシーケンス内の単語数、特定の単語もしくは単語のシーケンスの有無、前記特定の単語の発声の時点、前記単語のシーケンスにおける少なくとも2つの特定の単語の順序、前記単語のシーケンスにおける前記2つの特定の単語の結合もしくは分離、前記音声の入力のトピック、のうちの1つまたは組み合わせを含む
    請求項1に記載の方法。
  3. 前記制約を求めることは、
    前記解釈の組の部分組をユーザに通信することと、
    前記通信することに応答して前記単語シーケンス制約を受信することと、
    前記単語シーケンス制約に基づいて前記制約のタイプを求めることと、
    前記タイプに基づいて前記制約を求めることと、
    を有する請求項1に記載の方法。
  4. 前記タイプは、言語タイプであり、
    前記制約を求めることは、
    前記単語シーケンス制約に基づいて前記言語モデルを更新すること
    を有する請求項3に記載の方法。
  5. 前記単語シーケンス制約は、前記音声のトピックである
    請求項4に記載の方法。
  6. 前記タイプは、音響タイプであり、
    前記制約を求めることは、
    前記単語シーケンス制約に基づいて前記音響モデルを更新すること
    を有する請求項3に記載の方法。
  7. 前記音響モデルは、前記音声における単語と、前記音響モデルの音響特徴との間のアライメントを含む
    請求項6に記載の方法。
  8. 前記制約は、特定の時間領域内に1つの単語のみが存在することを含む
    請求項7に記載の方法。
  9. 前記タイプは、コンテキストタイプであり、
    前記制約を求めることは、
    各解釈における特定の単語の有無をテストするスコアリング関数を求めること
    を有する請求項3に記載の方法。
  10. 前記スコアリング関数は、前記特定の単語の存在についてテストし、
    前記言語モデルに基づいて前記音声の向きを求めることと、
    前記音声の前記向きに従って、前記特定の単語に先行および後続する単語の存在についてのテストで前記スコアリング関数を更新することと、
    をさらに備えた請求項9に記載の方法。
  11. 前記単語シーケンス制約との整合性の度合いを示す制約因子を求めることと、
    前記制約因子に基づいて、前記スコアの組を更新するための制約付きのスコアリング関数を求めることと、
    をさらに備えた請求項1に記載の方法。
  12. 前記スコアリング関数S’(W|X)は、
    Figure 2016522903
    であり、
    ここで、∝は、比例を示し、W={W i=1は、前記解釈におけるN個の単語のシーケンスw,w,...,wであり、wは、位置iにおいて仮定される単語であり、X={x j=1は、前記音響モデルの音響特徴を示し、xは前記音声の入力の前記音響特徴のj番目のベクトルであり、Tは、音響特徴ベクトルの数であり、関数p(.|..)は、確率であり、Sは、可能性があるアライメントの組であり、R={r i=1は、仮定される単語ごとの前記音声の仮定される時間領域の組であり、rは、単語wについて仮定される位置であり、f(X,W,R)は、音響シーケンス、単語シーケンスおよびアライメントのうちの1つまたは複数についての前記制約との整合性の度合いを示す数を出力する制約因子である
    請求項11に記載の方法。
  13. 前記単語シーケンス制約を用いて指標関数を求めることと、
    制約充足の度合いを求める重みパラメータを用いて、前記指標関数の線形関数として前記制約因子を求めることと、
    をさらに備えた請求項12に記載の方法。
  14. 前記制約は、前記単語のシーケンスのメタデータを含む
    請求項1に記載の方法。
  15. 最大のスコアを有する前記解釈を認識された前記音声として求めること
    をさらに備えた請求項1に記載の方法。
  16. ユーザの音声を認識する方法であって、
    前記音声を表す各解釈の正確さを表す対応するスコアの組に関連付けて解釈の組を生成するために、前記音声を認識することと、
    反復ごとに、各解釈のスコアが、前記解釈が制約と整合する場合に増大し、前記解釈が前記制約と整合しない場合に減少するように、少なくとも1つの制約の下で前記スコアの組を反復的に更新することと、
    を備え、
    前記方法のステップは、プロセッサによって実行される
    音声を認識する方法。
  17. 音声を認識するシステムであって、
    音声認識モジュールおよび誤り訂正モジュールを実施するプロセッサを備え、
    前記音声認識モジュールは、
    音響モデルおよび言語モデルを用いて前記音声の入力の解釈の組を生成し、
    解釈ごとに、前記音声を表す解釈の正確さを表すスコアを求め、
    前記誤り訂正モジュールは、
    前記音声を認識するための制約を求め、
    前記制約との前記解釈の整合性に基づいて各解釈の前記スコアを更新する
    音声を認識するシステム。
  18. 単語のシーケンスを表す前記音声を受信するためのオーディオインタフェースと、
    前記解釈の組の少なくとも部分組を前記ユーザに通信し、前記ユーザから単語シーケンス制約を受信するコントローラと、
    をさらに備え、
    前記プロセッサは、前記単語シーケンス制約に基づいて前記制約を求める
    請求項17に記載のシステム。
  19. 前記音声を認識する前記システムは、車両のインストゥルメンタルパネルに埋め込まれる
    請求項17に記載のシステム。
JP2015552672A 2013-06-14 2014-05-19 音声を認識するシステムおよび方法 Expired - Fee Related JP6203288B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/917,884 US9159317B2 (en) 2013-06-14 2013-06-14 System and method for recognizing speech
US13/917,884 2013-06-14
PCT/JP2014/063760 WO2014199803A1 (en) 2013-06-14 2014-05-19 System and methods for recognizing speech

Publications (2)

Publication Number Publication Date
JP2016522903A true JP2016522903A (ja) 2016-08-04
JP6203288B2 JP6203288B2 (ja) 2017-09-27

Family

ID=50896382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015552672A Expired - Fee Related JP6203288B2 (ja) 2013-06-14 2014-05-19 音声を認識するシステムおよび方法

Country Status (5)

Country Link
US (1) US9159317B2 (ja)
JP (1) JP6203288B2 (ja)
CN (1) CN105283914B (ja)
DE (1) DE112014002819B4 (ja)
WO (1) WO2014199803A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018043137A1 (ja) * 2016-08-31 2018-03-08 ソニー株式会社 情報処理装置及び情報処理方法
JP7507977B2 (ja) 2020-10-13 2024-06-28 三菱電機株式会社 ロングコンテキストエンドツーエンド音声認識システム

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020047A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 修正语音应答的方法及自然语言对话***
KR20170034227A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법
US9858923B2 (en) * 2015-09-24 2018-01-02 Intel Corporation Dynamic adaptation of language models and semantic tracking for automatic speech recognition
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
CN107195296B (zh) * 2016-03-15 2021-05-04 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及***
EP3739574B1 (en) 2016-03-23 2023-09-13 Google LLC Adaptive audio enhancement for multichannel speech recognition
US10311046B2 (en) * 2016-09-12 2019-06-04 Conduent Business Services, Llc System and method for pruning a set of symbol-based sequences by relaxing an independence assumption of the sequences
CN106875935A (zh) * 2017-01-22 2017-06-20 上海云信留客信息科技有限公司 语音智能识别清洗方法
KR20180087942A (ko) * 2017-01-26 2018-08-03 삼성전자주식회사 음성 인식 방법 및 장치
CN110770819B (zh) * 2017-06-15 2023-05-12 北京嘀嘀无限科技发展有限公司 语音识别***和方法
US10672388B2 (en) * 2017-12-15 2020-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for open-vocabulary end-to-end speech recognition
WO2019163242A1 (ja) * 2018-02-20 2019-08-29 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
CN110931000B (zh) * 2018-09-20 2022-08-02 杭州海康威视数字技术股份有限公司 语音识别的方法和装置
KR20220038514A (ko) * 2019-05-03 2022-03-28 구글 엘엘씨 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
US20210049927A1 (en) * 2019-08-13 2021-02-18 Vanderbilt University System, method and computer program product for determining a reading error distance metric
KR20210044559A (ko) 2019-10-15 2021-04-23 삼성전자주식회사 출력 토큰 결정 방법 및 장치
CN110738989B (zh) * 2019-10-21 2021-12-07 浙江大学 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法
KR102577589B1 (ko) * 2019-10-22 2023-09-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US11462211B2 (en) * 2020-04-09 2022-10-04 Mitsubishi Electric Research Laboratories, Inc. System and method for detecting adversarial attacks
DE102021100765A1 (de) 2021-01-15 2022-07-21 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren, System und Computerprogrammprodukt zur Bestimmung von sicherheitskritischen Ausgabewerten einer technischen Entität
JP2024512071A (ja) * 2021-03-26 2024-03-18 グーグル エルエルシー 自動音声認識のための多言語再スコアリングモデル

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6428699A (en) * 1987-07-23 1989-01-31 Fujitsu Ltd Continuous voice recognition system
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US20050187768A1 (en) * 2004-02-24 2005-08-25 Godden Kurt S. Dynamic N-best algorithm to reduce recognition errors
JP2007183516A (ja) * 2006-01-10 2007-07-19 Nissan Motor Co Ltd 音声対話装置及び音声認識方法
WO2007108500A1 (ja) * 2006-03-23 2007-09-27 Nec Corporation 音声認識システム、音声認識方法および音声認識用プログラム
US20090150156A1 (en) * 2007-12-11 2009-06-11 Kennewick Michael R System and method for providing a natural language voice user interface in an integrated voice navigation services environment
JP2012063536A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 端末装置、音声認識方法および音声認識プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
US6064959A (en) 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US5960447A (en) 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
US5970460A (en) 1997-12-05 1999-10-19 Lernout & Hauspie Speech Products N.V. Speech recognition and editing system
AU1097300A (en) * 1998-09-30 2000-04-17 Brian Gladstein Graphic user interface for navigation in speech recognition system grammars
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US7747437B2 (en) 2004-12-16 2010-06-29 Nuance Communications, Inc. N-best list rescoring in speech recognition
CA2592861C (en) * 2004-12-28 2015-10-27 Loquendo S.P.A. Automatic speech recognition system and method using weighted confidence measure
US7529678B2 (en) * 2005-03-30 2009-05-05 International Business Machines Corporation Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
US20060293889A1 (en) 2005-06-27 2006-12-28 Nokia Corporation Error correction for speech recognition systems
EP2798635A4 (en) * 2011-12-26 2016-04-27 Intel Corp DETERMINING AUDIO AND VISUAL INPUTS OF OCCUPANTS BASED ON A VEHICLE
US9646604B2 (en) * 2012-09-15 2017-05-09 Avaya Inc. System and method for dynamic ASR based on social media

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6428699A (en) * 1987-07-23 1989-01-31 Fujitsu Ltd Continuous voice recognition system
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US20050187768A1 (en) * 2004-02-24 2005-08-25 Godden Kurt S. Dynamic N-best algorithm to reduce recognition errors
JP2007183516A (ja) * 2006-01-10 2007-07-19 Nissan Motor Co Ltd 音声対話装置及び音声認識方法
WO2007108500A1 (ja) * 2006-03-23 2007-09-27 Nec Corporation 音声認識システム、音声認識方法および音声認識用プログラム
US20090150156A1 (en) * 2007-12-11 2009-06-11 Kennewick Michael R System and method for providing a natural language voice user interface in an integrated voice navigation services environment
JP2012063536A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 端末装置、音声認識方法および音声認識プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018043137A1 (ja) * 2016-08-31 2018-03-08 ソニー株式会社 情報処理装置及び情報処理方法
JP7507977B2 (ja) 2020-10-13 2024-06-28 三菱電機株式会社 ロングコンテキストエンドツーエンド音声認識システム

Also Published As

Publication number Publication date
WO2014199803A1 (en) 2014-12-18
US20140372120A1 (en) 2014-12-18
CN105283914B (zh) 2018-12-28
DE112014002819T5 (de) 2016-03-03
US9159317B2 (en) 2015-10-13
JP6203288B2 (ja) 2017-09-27
CN105283914A (zh) 2016-01-27
DE112014002819B4 (de) 2021-09-23

Similar Documents

Publication Publication Date Title
JP6203288B2 (ja) 音声を認識するシステムおよび方法
US9196246B2 (en) Determining word sequence constraints for low cognitive speech recognition
JP5819924B2 (ja) アジア文字を生成するための認識アーキテクチャ
JP5089955B2 (ja) 音声対話装置
US10037758B2 (en) Device and method for understanding user intent
JP4666648B2 (ja) 音声応答システム、音声応答プログラム
KR100998566B1 (ko) 음성인식을 이용한 언어 번역 방법 및 장치
US20080177541A1 (en) Voice recognition device, voice recognition method, and voice recognition program
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
US20080162137A1 (en) Speech recognition apparatus and method
JP2011503638A (ja) カーナビゲーションシステムのための自由会話命令分類の改良
JPWO2008108232A1 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP6272496B2 (ja) 単語のシーケンスを含む音声を認識するための方法及びシステム
JP4634156B2 (ja) 音声対話方法および音声対話装置
KR20210108557A (ko) 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템
JP2014164261A (ja) 情報処理装置およびその方法
JP4012228B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
JP2015099335A (ja) 情報処理装置およびその方法
KR102605774B1 (ko) 스마트 글래스 및 이를 포함하는 음성 인식 시스템
WO2009147745A1 (ja) 検索装置
US11893994B1 (en) Processing optimization using machine learning
US11380308B1 (en) Natural language processing
JPH09258786A (ja) 調整機能を有する音声認識装置
JP2008083165A (ja) 音声認識処理プログラム及び音声認識処理方法
JP4565768B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170829

R150 Certificate of patent or registration of utility model

Ref document number: 6203288

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees