JP4770374B2

JP4770374B2 - 音声認識装置

Info

Publication number: JP4770374B2
Application number: JP2005291531A
Authority: JP
Inventors: 靖子大橋
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2005-10-04
Filing date: 2005-10-04
Publication date: 2011-09-14
Anticipated expiration: 2025-10-04
Also published as: JP2007101892A

Description

本発明は、音声認識装置に関し、特に、複数の制御対象機器に対する音声命令を認識する音声認識装置に関する。

音声認識装置は、制御対象機器の動作状態に応じて認識語彙を制限することによって、認識率を向上させている。すなわち、制御対象機器の動作状態に対応した所定の認識語彙を有している認識辞書を複数記憶しておき、制御対象機器の動作状態を検出して、記憶した複数の認識辞書から音声認識処理に用いる認識辞書を選択するようにしている。
特開平１０−７３４８号公報

音声認識装置が複数の制御対象機器に対する音声命令を認識するようになっている場合、音声認識処理に用いられる認識辞書が複数選択される場合がある。たとえば、車両用の音声認識装置の場合、制御対象機器としてナビゲーション装置とオーディオ装置とを含んでいて、且つ、両装置がともに動作中である場合には、ナビゲーション装置の動作状態に基づく認識辞書（たとえば目的地設定操作用の認識辞書や、検索操作用の認識辞書）と、オーディオ装置の動作状態に基づく認識辞書（たとえば曲演奏操作用の認識辞書）とが音声認識処理に用いる辞書として選択される。

上記複数の認識辞書の認識語彙には、複数の認識辞書に共通して含まれている共通語が存在する。上記共通語としては、たとえば「前」「次」などがあり、目的地設定操作用の認識辞書には、「前（次）の目的地」という認識語が含まれ、曲演奏操作用の認識辞書には「前（次）の曲」という認識語が含まれている。

音声認識処理に用いる認識辞書として複数の辞書が選択され、その選択された複数の辞書にともに共通語が含まれている場合、共通語を含む別の言葉が誤って認識されてしまうことがあった。たとえば、ユーザが「前の目的地」と言ったにも関わらず「前の曲」と認識されてしまうことがあった。また、「前の目的地」という音声命令を思いつかずに、「前」と言った場合にも、ユーザの言いたかった音声命令は認識されずに、「前の曲」などの他の命令が認識されてしまうことがあった。

なお、認識辞書を複数設けず、一つの認識辞書に全ての制御対象機器に対する認識語を全て持たせることも考えられるが、その場合にも、当然、ユーザの発話が共通語を含むものである場合、前述の誤認識の問題が生じる。

本発明は、この事情に基づいて成されたものであり、その目的とするところは、共通語を含む音声命令の認識精度がよい音声認識装置を提供することにある。

その目的を達成するための請求項１記載の発明は、複数の制御対象機器に対する音声命令を認識するための音声認識装置であって、複数の認識語が、それぞれ前記複数の制御対象機器のうちのいずれかの制御対象機器の動作状態と対応付けられている認識辞書を記憶している記憶装置と、その記憶装置に記憶されている認識辞書に基づいて、ユーザが発話した音声命令を認識する音声命令認識手段と、互いに異なる前記制御対象機器と対応付けられている少なくとも２つの認識語に共通して含まれている共通語が、ユーザが発話した音声命令に含まれているか否かを判断する共通語認識手段とを備え、
前記音声命令認識手段は、その共通語認識手段によって共通語が含まれていると判断された場合には、当該共通語が含まれる前記認識辞書の認識語のうち、ユーザが最後に操作した制御対象機器と対応付けられている認識語に基づいて、ユーザが発話した音声命令を認識することを特徴とする。

この請求項１記載の発明によれば、共通語認識手段によりユーザが発話した音声命令に共通語が含まれているか否かを判断し、音声命令認識手段は、共通語認識手段によって共通語が含まれていると判断された場合には、当該共通語が含まれる認識辞書の認識語のうち、ユーザが最後に操作した制御対象機器に対応付けられている認識語に基づいて、ユーザが発話した音声命令を認識するようにしている。従って、ユーザの発話に共通語が含まれていると判断された場合には、ユーザが最後に操作した制御対象機器と対応付けられていない認識語が認識されることがなくなるので、共通語を含む音声命令の認識精度が向上する。

記憶装置には、全ての制御対象機器に対する認識語を全て持っている認識辞書が一つだけ記憶されていてもよいが、認識率の向上のために、認識辞書は制御対象機器の動作状態別に複数の認識辞書に分けられることが好ましい。その場合には、請求項２記載のようにして、共通語を含む音声命令の認識精度を向上させる。

すなわち、請求項２記載の発明は、請求項１に記載の音声認識装置において、前記記憶装置に記憶されている認識辞書は、前記制御対象機器の動作状態別に複数の認識辞書に分けられており、前記複数の制御対象機器の動作状態に基づいて、前記記憶装置に記憶されている複数の認識辞書から少なくとも一つの認識辞書を選択する辞書選択手段をさらに備え、前記音声命令認識手段は、前記共通語認識手段によって共通語が含まれていると判断された場合には、ユーザが発話した音声命令を認識する認識辞書として、前記辞書選択手段で選択された認識辞書のうちでユーザが最後に操作した制御対象機器に基づいて定まる一つの認識辞書を用いることを特徴とする。

この請求項２記載の発明によれば、共通語認識手段によりユーザが発話した音声命令に共通語が含まれているか否かを判断し、音声命令認識手段は、共通語認識手段によって共通語が含まれていると判断された場合には、音声命令を認識する認識辞書として、ユーザが最後に操作した制御対象機器に基づいて定まる一つの認識辞書を用いることにしている。そのため、制御対象機器の動作状態からは複数の認識辞書が選択されていたとしても、ユーザが最後に操作した制御対象機器に基づいて定まる一つの認識辞書以外は、音声命令認識手段で用いられないことになるので、共通語を含む音声命令の認識精度が向上する。

前記音声命令認識手段は、請求項３または４記載のようにして、ユーザが発話した音声命令が何であるあるかを決定することができる。

請求項３記載の発明は、請求項２に記載の音声認識装置において、前記音声命令認識手段は、ユーザが最後に操作した制御対象機器に基づいて認識辞書を一つに絞り込んだ場合には、その絞り込んだ一つの認識辞書に含まれる認識語のうち、前記共通語認識手段によって認識された共通語を含んでいる認識語を、ユーザが発話した音声命令として特定するものである。

また、請求項４記載の発明は、請求項２に記載の音声認識装置において、前記音声命令認識手段は、ユーザが最後に操作した制御対象機器に基づいて認識辞書を一つに絞り込んだ場合には、その絞り込んだ一つの認識辞書を用いた音声認識処理を実行することにより、ユーザが発話した音声命令を認識するものである。

また、請求項３記載のように、共通語認識手段によって認識された共通語と、認識辞書の認識語彙とを比較することによって、ユーザが発話した音声命令を特定するものである場合、請求項５記載のように、共通語認識手段は、辞書選択手段において選択される認識辞書の数に関係なく実行することが好ましい。

ユーザは、制御対象機器の動作状態とは関係なく、共通語のみを発話することがあるが、請求項５のようにすれば、仮に制御対象機器の動作状態からは一つのみの認識辞書が選択されていたとしても、共通語認識手段を実行することになる。そして、共通語認識手段を実行することによって、ユーザが共通語のみを発話した場合にも、それを精度よく認識することができるようになり、その精度よく認識できる共通語と認識辞書の認識語彙とを比較することによって音声命令を特定することになるので、音声命令の特定精度が向上する。

また、請求項６記載のように、前記辞書選択手段において複数の認識辞書が選択され、且つ、その選択した複数の認識辞書のうちの少なくとも２つの認識辞書に前記共通語が含まれている場合に、前記共通語認識手段を実行するようにしてもよい。

請求項６記載のようにすると、条件によっては共通語認識手段が実行されずに、直接、音声命令認識手段によってユーザが発話した音声命令が認識されることになるので、処理が高速になる。

また、前記共通語認識手段は、請求項７記載のように、共通語認識辞書を備えることにより、または請求項８記載のように、ワードスポッティング技術を用いて、ユーザが発話した音声命令に共通語が含まれているか否かを判断する。

すなわち、請求項７記載の発明は、請求項１乃至６のいずれかに記載の音声認識装置において、前記記憶装置に、前記共通語を認識語彙とする共通語認識辞書が記憶されており、前記共通語認識手段は、前記共通語認識辞書を用いた音声認識処理を実行することによって、ユーザが発話した音声命令に前記共通語が含まれているか否かを判断するものである。

また、請求項８記載の発明は、請求項１乃至６のいずれかに記載の音声認識装置において、前記共通語認識手段は、ユーザの発話を表す入力音声と予め記憶された前記共通語の基準音声とを比較することによって、ユーザが発話した音声命令に共通語が含まれているか否かを判断するものである。

上述の請求項１乃至８に記載の発明は、まず、ユーザが発話した音声命令に共通語が含まれているか否かを判断した後に、認識辞書に基づいて音声命令を認識していたが、請求項９記載のように、認識辞書を用いて音声命令の候補を選択した後に、選択した候補に共通語が含まれているか否かを判断してもよい。

すなわち、請求項９記載の発明は、複数の制御対象機器に対する音声命令を認識するための音声認識装置であって、複数の認識語が、それぞれ前記複数の制御対象機器のうちのいずれかの制御対象機器の動作状態と対応付けられている認識辞書を記憶している記憶装置と、その記憶装置に記憶されている認識辞書に基づいて、ユーザが発話した音声命令を認識する音声命令認識手段と、互いに異なる前記制御対象機器と対応付けられている少なくとも２つの認識語に共通して含まれている共通語のリストを記憶したリスト記憶装置とを備え、
前記音声命令認識手段は、前記認識辞書を用いた音声認識処理により、その認識辞書からユーザが発話した音声命令の候補を選択する候補選択手段を含み、その候補選択手段において複数の候補が選択され、且つ、その選択された複数の候補のうちの少なくとも２つの候補に、前記共通語のリストに含まれている共通語が含まれている場合、共通語のリストに含まれている共通語を含む候補であって、ユーザが最後に操作した制御対象機器に基づいて定まる認識辞書の認識語彙となっている候補を選択することによって、ユーザが発話した音声を特定するものであることを特徴とする。

このように、まず、候補選択手段において、認識辞書を用いた音声認識処理によって音声命令の候補を選択して、その選択した候補のうちの少なくとも２つの候補に共通語が含まれている場合に、共通語のリストに含まれている共通語を含む候補であって、最後に操作した制御対象機器に基づいて定まる認識辞書の認識語彙となっている候補を選択するようにしても、ユーザが最後に操作した制御対象機器に関する音声命令以外は選択されないことになるので、共通語を含む音声命令の認識精度が向上する。

上記請求項９記載の発明の場合にも、認識率の向上のために、請求項１０記載のように、認識辞書は制御対象機器の動作状態別に複数の認識辞書に分けられることが好ましい。

請求項１０記載の発明は、請求項９に記載の音声認識装置において、前記記憶装置に記憶されている認識辞書は、前記制御対象機器の動作状態別に複数の認識辞書に分けられており、前記複数の制御対象機器の動作状態に基づいて、前記記憶装置に記憶されている複数の認識辞書から少なくとも一つの認識辞書を選択する辞書選択手段をさらに備え、前記候補選択手段は、音声認識処理に前記辞書選択手段で選択された認識辞書を用いることを特徴とする。

また、好ましくは、請求項１１記載のように、前記記憶装置に、前記共通語を認識語彙とする共通語認識辞書が記憶されており、前記候補選択手段は、前記辞書選択手段で選択された認識辞書に加えて前記共通語認識辞書を用いて、ユーザが発話した音声命令の候補を選択する。

このように、候補選択手段において、共通語認識辞書をさらに用いるようにすれば、ユーザが共通語を含む音声命令を発話したことを精度よく認識できるようになり、その結果、共通語を含む音声命令の認識精度がより向上する。

以下、本発明の装置の実施の形態を図面に基づいて説明する。図１は、本発明の音声認識装置としての機能を備えた車載ナビゲーション装置１０の構成を示すブロック図である。

車載ナビゲーション装置１０は、マイク１２と、スピーカ１４と、外部機器制御部１６と、表示装置１８と、ＥＣＵ１００とを備えている。

この車載ナビゲーション装置１０は、ナビゲーション装置としての機能以外に、オーディオ、エアコン、電話機などの外部機器を制御する機能も備えており、外部機器制御部１６は、それら外部機器を制御するためのものである。

表示装置１８は、たとえば、液晶ディスプレイによって構成され、インスツルメントパネルの運転席と助手席との中間位置などに配置される。なお、この車載ナビゲーション装置１０には、図１に示す構成以外に、通常のナビゲーション装置が有している構成、たとえば、操作スイッチ群、車両外部との間で無線通信を行う無線通信機、ＤＶＤ−ＲＯＭなどの記憶媒体から地図データが入力される地図データ入力器、地磁気センサやジャイロスコープなどによって車両の現在位置を検出する位置検出器、リモコン、リモコンセンサなどを備えている。それらの機器からの信号は、ＥＣＵ１００に入力されるようになっている。また、ＥＣＵ１００には、車両に搭載された種々のセンサ、たとえば、車速センサ、温度センサなどからの信号も入力される。

ＥＣＵ１００は、ＣＰＵ、ＲＯＭ、ＲＡＭ等を備えたコンピュータであり、マイク１２から入力される音声を認識したり、スピーカ１４から所定の音（音声含む）を出力させたり、外部から入力される信号に基づいて外部機器の制御内容を決定して、外部機器制御部１６へその決定した制御内容を出力したり、外部から入力される信号に基づいて表示装置１８の表示画面を制御したりする。

次に、ＥＣＵ１００の内部構成を説明する。音声出力制御部１０２には、マイク１２によって検出されたユーザの音声が入力され、音声出力制御部１０２は、マイク１２から信号が入力されると、その入力された信号に基づいてユーザの発話を確認する。そして、発話が確認できたときには、マイク１２からの音声を言語解析処理部１０４へ出力する。また、音声出力制御部１０２は、ナビゲーションインターフェース部１０６との間で信号の授受が可能となっており、目的地検索部１０８、案内・探索制御部１１０、メモリ地点制御部１１２において決定された出力音指令信号が、ナビゲーションインターフェース部１０６を介して供給される。出力音指令信号が供給されると、その信号に基づいて所定の出力音信号を生成して、それをスピーカ１４に出力することにより、スピーカ１４から所定の音を出力させる。

言語解析処理部１０４は、音声出力制御部１０２で確認された発生内容を解析して、音声認識エンジン１１４に入力する。音声認識操作制御部１１６は、記憶装置１１７を有しており、その記憶装置１１７には、制御対象機器の動作状態に対応した複数の認識辞書が記憶されている。上記制御対象機器とは、この車載ナビゲーション装置１０や、前述の外部機器を意味する。

上記複数の認識辞書としては、たとえば、車載ナビゲーション装置１０の目的地設定モードに対応した認識辞書、オーディオの曲選択モードに対応した認識辞書、エアコンの設定操作モードに対応した認識辞書、スピーカ１４の音声モード（スピーカ１４から出力されている音が、ＦＭラジオ、ＡＭラジオ、ＣＤプレーヤー等の音出力可能な機器のうちのどれであるかを表すもの）に対応した認識辞書がある。これらの認識辞書には、たとえば、目的設定モードに対応した認識辞書には、認識語彙に「前の目的地」「次の目的地」などの認識語が含まれ、また、オーディオの曲選択モードに対応した認識辞書には、認識語彙に「次の曲」「前の曲」が含まれている。このように、「次」「前」などは、複数の認識辞書に共通に含まれる語、すなわち、共通語である。記憶装置１１７には、この共通語を認識語彙とする共通語認識辞書も記憶されている。また、記憶装置１１７はリスト記憶装置として機能しており、共通語のリストも記憶されている。

音声認識操作制御部１１６には、目的地検索部１０８、案内・探索制御部１１０、メモリ地点制御部１１２、外部機器制御部１６、および表示装置１８からの信号がナビゲーションインターフェース部１０６を介して入力される。また、ラストモード管理部１２０において記憶されているラスト管理情報も、ナビゲーションインターフェース部１０６を介して音声認識操作制御部１１６に入力される。ラスト管理情報とは、最後にユーザが操作した制御対象機器が何であったかを管理（記憶）した情報を意味する。

音声認識操作部１１６では、それらの入力される信号に基づいて、現在動作中の制御対象機器、および、その動作中の制御対象機器の動作状態を判断し、それに基づいて、記憶装置１１７に記憶されている複数の認識辞書から、音声認識エンジン１１４において音声認識処理に用いる認識辞書を選択する。

音声認識エンジン１１４では、音声認識操作制御部１１６で選択された認識辞書を用いて、言語解析処理部１０４にて解析された発生内容が、どの音声命令であるかを認識（決定）する。

通信制御部１２０は、音声認識エンジン１１４において認識された音声命令や、図示しない操作スイッチ群（またはリモコン）が操作されることによって入力された制御命令を外部機器制御部１６に通知し、また、外部機器制御部１６から入力される外部機器の動作状態をナビゲーションインターフェース制御部１０６へ入力する。

表示制御部１２２には、目的地検索部１０８、案内・探索制御部１１０、メモリ地点制御部１１２において決定された表示内容が、ナビゲーションインターフェース部１０６を介して供給され、その供給された内容に従って表示装置１８の表示画面を制御する。また、表示装置１８には、音声認識エンジン１１４における認識結果も表示される。さらに、表示装置１８は外部機器制御部１６との間でも信号の授受が可能となっており、表示装置１８の表示画面には、外部機器制御部１６からの信号に基づいて、外部機器の状態も表示される。

図２は、ＥＣＵ１００における処理内容のうち、ユーザが発話した音声命令を認識するための処理を示すフローチャートである。この図２に示す処理は、マイク１２から信号が入力され、音声出力制御部１０２においてユーザの発話が確認された場合に実行するようになっている。

図２において、まず、ステップＳ１０では、認識レベルが適当であるか否かを判断する。この判断は、マイク１２からの入力音声が、大きすぎる場合および小さすぎる場合に否定される。一方、ステップＳ１０の判断が肯定された場合には、辞書選択手段に相当するステップＳ２０において、制御対象機器の動作状態に基づいて、記憶装置１１７に記憶されている複数の認識辞書から一つまたは複数の認識辞書を選択する。

そして、続くステップＳ３０では、上記ステップＳ２０において複数の認識辞書を選択したか否か、および、その複数の認識辞書のうちの少なくとも２つの認識辞書に同じ共通語が含まれているか否かを判断する。

ステップＳ３０が肯定された場合には、ステップＳ４０において、ラスト管理情報があるか否か、すなわち、ラストモード管理部１１８にラスト管理情報が記憶されているか否かをさらに判断する。この判断も肯定された場合には、共通語認識手段に相当するステップＳ５０において、記憶装置１１７に記憶されている共通語認識辞書を用いて音声認識処理を実行する。この音声認識処理とは、認識辞書に認識語彙として含まれている認識語の音声データとユーザの発話音声とを比較することにより尤度を算出するものであり、所定の尤度以上の認識語（ここでは共通語）がある場合には、その認識語が発話されたと言葉であると決定するものである。なお、所定の尤度以上の認識語が複数ある場合には、最も尤度が高い認識語を発話された言葉として決定する。

続くステップＳ６０では、上記ステップＳ５０を実行した結果、共通語があると認識できたか否かを判断する。ステップＳ６０の判断が否定された場合、および、前述のステップＳ３０、Ｓ４０の判断が否定された場合には、ステップＳ７０において、従来と同様の音声命令認識処理を実行する。すなわち、制御対象機器の動作状態に基づいて選択された一つまたは複数の認識辞書を用いて音声認識処理を実行する。これにより、ユーザが発話した音声命令として一つの音声命令が決定される。

一方、ステップＳ６０の判断が肯定された場合には、ステップＳ８０を実行する。ステップＳ８０では、ラストモード管理部１１８に記憶されているラスト管理情報に基づいて認識辞書の絞込みを行う。すなわち、ステップＳ８０では、ステップＳ２０で選択した認識辞書から、ラストモード管理部１１８に記憶されているラスト管理情報を用いて一つの認識辞書を選択する。

続くステップＳ９０では、上記ステップＳ８０で選択した一つの認識辞書を用いて、二度目の音声認識処理を実行する。これにより、ユーザが発話した音声命令が何であるかを決定する。なお、図２においては、ステップＳ４０、Ｓ６０乃至９０が音声命令認識手段に相当する。

上記ステップＳ９０の音声認識処理においては、ステップＳ５０における処理と同様に、認識辞書に含まれている認識語の音声データとユーザの発話音声との比較に基づいて定まる尤度を用いてユーザが発話した音声命令が何であるかを決定する。従って、認識辞書に含まれている認識語とユーザの発話した言葉が完全に一致していなくても、尤度が所定値以上であれば、ユーザが発話した音声命令が決定される。たとえば、ユーザの発話した言葉が単に「前」である場合にも、尤度によっては「前の目的地」がユーザが発話した言葉として決定される。

ステップＳ７０またはステップＳ９０を実行してユーザが発話した音声命令を決定した後は、ステップＳ１００において、処理が成功したか否かを判断する。この判断は、上記ステップＳ７０またはＳ９０において決定した音声命令を実行することができるか否かを判断するものであり、音声命令が実行できる場合にはステップＳ１００は肯定され、音声命令が実行できない場合にはステップＳ１００は否定される。たとえば、目的地までのルートが決定されていない状態において、ルート変更との命令が認識された場合には、ステップＳ１００の判断は否定される。

ステップＳ１００の判断が肯定された場合には、続くステップＳ１１０において、ステップＳ７０またはＳ９０で決定した音声命令に基づく機能を、所定の制御対象機器に実行させる。

一方、ステップＳ１００の判断が否定された場合には、ステップＳ１２０において、所定のエラー通知を表示装置１８およびスピーカ１４から出力させる。たとえば、ステップＳ１０が否定された場合には、認識レベルが不適切であるために音声命令が認識できない旨のメッセージを出力させ、ステップＳ１００が否定された場合には、現在の動作状態では入力された音声命令は実行できない旨のメッセージを出力させる。

以上、説明した本実施形態によれば、ステップＳ５０において共通語認識処理を実行することにより、ユーザが発話した音声命令に共通語が含まれているか否かを判断しており、共通語が含まれていると判断した場合には、ユーザが最後に操作した制御対象機器に基づいて認識辞書を一つに絞り込み（ステップＳ８０）、その絞り込んだ認識辞書を用いて音声認識処理を行っている（ステップＳ９０）。従って、たとえば、オーディオ動作中であり、且つ、目的地設定操作中であるために、２つ（またはそれ以上）の認識辞書がステップＳ２０で選択されたとしても、ステップＳ５０において、「次」「前」などの共通語が認識された場合には、ステップＳ８０においてラスト管理情報に基づいて認識辞書が一つに絞り込まれた後に、ステップＳ９０において音声認識処理が実行される。その結果、たとえば、ユーザの最後の操作機器がオーディオである場合において、ユーザが「前の曲」と言ったにも関わらず「前の目的地」が認識されてしまうことが防止されるのはもちろんのこと、「前の曲」という命令を思いつかずに、単に「前」と言ってしまったとしても、ユーザの意図しない「前の目的地」は認識されずに、ユーザの意図した「前の曲」が認識されるなど、共通語を含む音声命令の認識精度が向上する。

次に、本発明の第２実施形態を説明する。第２実施形態は、図１と同様の構成を有する車載ナビゲーション装置であるが、ユーザが発話した音声命令を特定するためのＥＣＵ１００の処理が第１実施形態と異なる。図３は、第２実施形態においてＥＣＵ１００が実行する、ユーザが発話した音声命令を特定するための処理を示すフローチャートである。

図３のフローチャートが前述の図２に示したものと相違する点は、ステップＳ３０を実行せずに、ステップＳ２０を実行した後、直接ステップＳ４０を実行する点、図２のステップＳ５０に代えてステップＳ５５を実行する点、および図２のステップＳ９０に代えてステップＳ９５を実行する点である。以下、この相違点について説明する。

第２実施形態では、ステップＳ２０において、制御対象機器の動作状態に基づいて、記憶装置１１７に記憶されている複数の認識辞書から一つまたは複数の認識辞書を選択した後、選択した辞書数が複数であるか否かを判断することなく、ステップＳ４０を実行する。従って、選択した辞書数が一つのみであっても、ステップＳ４０以下を実行する。

そして、ステップＳ４０においてラスト管理情報があると判断された場合には、共通語認識手段に相当するステップＳ５５を実行する。ステップＳ５５では、マイク１２から入力された音声の波形と予め記憶された共通語の音声波形とに基づいて、たとえばＤＰマッチングを利用した方法などの公知のワードスポッティング法を用いて、ユーザが発話した音声命令から共通語を抽出することを試みる。このステップＳ５５において共通語が抽出できた場合には続くステップＳ６０が肯定され、共通語が抽出できなかった場合にはステップＳ６０が否定されることになる。

ステップＳ８０では、第１実施形態の場合と同様に、ラストモード管理部１１８に記憶されているラスト管理情報に基づいて認識辞書の絞込みを行う。なお、第２実施形態では、ステップＳ２０において選択した認識辞書の数が一つのみの場合でもステップＳ８０を実行することになるが、すでに認識辞書が一つのみとなっている場合、ステップＳ８０ではその一つの認識辞書を選択することになる。

続くステップＳ９５では、ステップＳ５５で抽出した共通語と、ステップＳ８０で絞り込んだ認識辞書の認識語彙とを比較し、ステップＳ８０で絞り込んだ認識辞書の認識語彙のうちから、ステップＳ５５で抽出した共通語を含む認識語をユーザが発話した音声命令として特定する。このステップＳ９５を実行した後は、前述のステップＳ１００以下を実行する。

以上、説明した第２実施形態の場合には、ステップＳ２０において一つのみの認識辞書を選択した場合であっても、Ｓ５５を実行してユーザの発話内容から共通語の抽出を行っている。従って、ユーザが共通語のみを発話した場合にも、それを精度よく認識することができるようになり、ステップＳ９５では、その精度よく認識できる共通語と認識辞書の認識語彙とを比較することによって音声命令を特定しているので、共通語を含む音声命令の特定精度が向上する。

次に、本発明の第３実施形態を説明する。第３実施形態も、図１と同様の構成を有する車載ナビゲーション装置であるが、ユーザが発話した音声命令を特定するためのＥＣＵ１００の処理が第１、２実施形態と異なる。図４は、第３実施形態においてＥＣＵ１００が実行する、ユーザが発話した音声命令を認識するための処理を示すフローチャートである。

図４においては、まず、図２と同じステップＳ１０、Ｓ２０を実行する。そして、ステップＳ２０において一つまたは複数の認識辞書を選択した後は、候補選択手段に相当するステップＳ２００において、上記ステップＳ２０で選択した認識辞書を用いて音声命令の候補を選択する。すなわち、ステップＳ２０で選択した認識辞書を用いた音声認識処理を実行し、その処理の結果、認識辞書の認識語彙に含まれる認識語のうち、尤度が所定値以上の認識語を、音声命令の候補として選択する。

続くステップＳ２１０では、上記ステップＳ２００で選択した候補を記憶装置１１７に記憶されている共通語のリストと比較することにより、選択した候補のうちの少なくとも２つの候補に同じ共通語が含まれているか否かを判断する。

上記ステップＳ２１０の判断が肯定された場合にはステップＳ２２０を実行する。ステップＳ２２０では、ラスト管理情報があるか否か、すなわち、ラストモード管理部１１８にラスト管理情報が記憶されているか否かをさらに判断する。このステップＳ２２０の判断が否定された場合、および、前述のステップＳ２１０の判断が否定された場合には、ステップＳ２３０を実行する。ステップＳ２３０では、ステップＳ２１０で選択した複数の候補のうちで尤度が最も高いものを、ユーザが発話した音声命令であると決定する。

一方、ステップＳ２２０の判断が肯定された場合には、ステップＳ２１０で選択した複数の候補のうち、共通語を含む候補であって、ラスト管理情報に基づいて定まる認識辞書の認識語彙となっている候補を、ユーザが発話した音声命令であると決定する。たとえば、ステップＳ２１０において「次の曲」、「次の目的地」など、共通語「次」を含む候補が複数選択され、ラスト管理情報に基づいて定まる認識辞書が目的地設定用の認識辞書である場合には、ユーザが発話した音声命令が「次の目的地」であると決定することになる。なお、図４においては、ステップＳ２００乃至Ｓ２４０が音声命令認識手段に相当する。

ステップＳ２３０またはＳ２４０においてユーザが発話した音声命令が何であるかを特定した後は、第１実施形態と同様のステップＳ１００以降を実行する。

以上、説明した第３実施形態のように、まず、認識辞書を用いた音声認識処理によって音声命令の候補を選択して（Ｓ２００）、次いで、その選択した候補のうちの少なくとも２つの候補に共通語が含まれているか否かを判断し（Ｓ２１０）、共通語が含まれている場合に、最後に操作した制御対象機器に基づいて一つの候補を選択する（Ｓ２４０）ようにしても、ユーザが最後に操作した制御対象機器に関する音声命令以外は選択されないことになるので、共通語を含む音声命令の認識精度が向上する。

なお、記憶装置１１７には、認識辞書として共通語認識辞書が記憶されているので、ユーザが共通語を含む音声命令を発話した場合、ステップＳ２００において選択される候補には、共通語のみの候補も含まれることになる。これにより、ユーザが共通語を含む音声命令を発話した場合、より確実にステップＳ２１０が肯定されることになり、その結果、共通語を含む音声命令の認識精度がより向上することになる。

以上、本発明の実施形態を説明したが、本発明は上述の実施形態に限定されるものではなく、次の実施形態も本発明の技術的範囲に含まれ、さらに、下記以外にも要旨を逸脱しない範囲内で種々変更して実施することができる。

たとえば、前述の実施形態では、認識辞書が制御対象機器の動作状態別に複数記憶されていたが、各認識辞書を制御対象機器の動作状態と対応させる代わりに、認識辞書に含まれる各認識語を制御対象機器の動作状態と対応させることにより、認識辞書を一つにまとめてもよい。

本発明の音声認識装置としての機能を備えた車載ナビゲーション装置１０の構成を示すブロック図である。図１のＥＣＵ１００における処理内容のうち、ユーザが発話した音声命令を認識するための処理を示すフローチャートである。第２実施形態においてＥＣＵ１００が実行する、ユーザが発話した音声命令を認識するための処理を示すフローチャートである。第３実施形態においてＥＣＵ１００が実行する、ユーザが発話した音声命令を認識するための処理を示すフローチャートである。

符号の説明

１０：車載ナビゲーション装置（音声認識装置）
１００：ＥＣＵ
１１７：記憶装置
Ｓ２０：辞書選択手段
Ｓ５０：共通語認識手段
Ｓ５５：共通語認識手段
Ｓ４０、Ｓ６０〜Ｓ９０：音声命令認識手段
Ｓ２００：候補選択手段
Ｓ２００乃至Ｓ２４０：音声命令認識手段

Claims

複数の制御対象機器に対する音声命令を認識するための音声認識装置であって、
複数の認識語が、それぞれ前記複数の制御対象機器のうちのいずれかの制御対象機器の動作状態と対応付けられている認識辞書を記憶している記憶装置と、
その記憶装置に記憶されている認識辞書に基づいて、ユーザが発話した音声命令を認識する音声命令認識手段と、
互いに異なる前記制御対象機器と対応付けられている少なくとも２つの認識語に共通して含まれている共通語が、ユーザが発話した音声命令に含まれているか否かを判断する共通語認識手段とを備え、
前記音声命令認識手段は、その共通語認識手段によって共通語が含まれていると判断された場合には、当該共通語が含まれる前記認識辞書の認識語のうち、ユーザが最後に操作した制御対象機器と対応付けられている認識語に基づいて、ユーザが発話した音声命令を認識することを特徴とする音声認識装置。
前記記憶装置に記憶されている認識辞書は、前記制御対象機器の動作状態別に複数の認識辞書に分けられており、
前記複数の制御対象機器の動作状態に基づいて、前記記憶装置に記憶されている複数の認識辞書から少なくとも一つの認識辞書を選択する辞書選択手段をさらに備え、
前記音声命令認識手段は、前記共通語認識手段によって共通語が含まれていると判断された場合には、ユーザが発話した音声命令を認識する認識辞書として、前記辞書選択手段で選択された認識辞書のうちでユーザが最後に操作した制御対象機器に基づいて定まる一つの認識辞書を用いることを特徴とする請求項１に記載の音声認識装置。
前記音声命令認識手段は、ユーザが最後に操作した制御対象機器に基づいて認識辞書を一つに絞り込んだ場合には、その絞り込んだ一つの認識辞書に含まれる認識語のうち、前記共通語認識手段によって認識された共通語を含んでいる認識語を、ユーザが発話した音声命令として特定するものであることを特徴とする請求項２に記載の音声認識装置。
前記音声命令認識手段は、ユーザが最後に操作した制御対象機器に基づいて認識辞書を一つに絞り込んだ場合には、その絞り込んだ一つの認識辞書を用いた音声認識処理を実行することにより、ユーザが発話した音声命令を認識するものであることを特徴とする請求項２に記載の音声認識装置。
前記辞書選択手段において選択された認識辞書の数に関係なく、前記共通語認識手段を実行することを特徴とする請求項３に記載の音声認識装置。
前記辞書選択手段において複数の認識辞書が選択され、且つ、その選択した複数の認識辞書のうちの少なくとも２つの認識辞書に前記共通語が含まれている場合に、前記共通語認識手段を実行することを特徴とする請求項２乃至４のいずれかに記載の音声認識装置。
前記記憶装置に、前記共通語を認識語彙とする共通語認識辞書が記憶されており、
前記共通語認識手段は、前記共通語認識辞書を用いた音声認識処理を実行することによって、ユーザが発話した音声命令に前記共通語が含まれているか否かを判断するものであることを特徴とする請求項１乃至６のいずれかに記載の音声認識装置。
前記共通語認識手段は、ユーザの発話を表す入力音声と予め記憶された前記共通語の基準音声とを比較することによって、ユーザが発話した音声命令に共通語が含まれているか否かを判断するものであることを特徴とする請求項１乃至６のいずれかに記載の音声認識装置。
複数の制御対象機器に対する音声命令を認識するための音声認識装置であって、
複数の認識語が、それぞれ前記複数の制御対象機器のうちのいずれかの制御対象機器の動作状態と対応付けられている認識辞書を記憶している記憶装置と、
その記憶装置に記憶されている認識辞書に基づいて、ユーザが発話した音声命令を認識する音声命令認識手段と、
互いに異なる前記制御対象機器と対応付けられている少なくとも２つの認識語に共通して含まれている共通語のリストを記憶したリスト記憶装置とを備え、
前記音声命令認識手段は、前記認識辞書を用いた音声認識処理により、その認識辞書からユーザが発話した音声命令の候補を選択する候補選択手段を含み、その候補選択手段において複数の候補が選択され、且つ、その選択された複数の候補のうちの少なくとも２つの候補に、前記共通語のリストに含まれている共通語が含まれている場合、共通語のリストに含まれている共通語を含む候補であって、ユーザが最後に操作した制御対象機器に基づいて定まる認識辞書の認識語彙となっている候補を選択することによって、ユーザが発話した音声を特定するものであることを特徴とする音声認識装置。
前記記憶装置に記憶されている認識辞書は、前記制御対象機器の動作状態別に複数の認識辞書に分けられており、
前記複数の制御対象機器の動作状態に基づいて、前記記憶装置に記憶されている複数の認識辞書から少なくとも一つの認識辞書を選択する辞書選択手段をさらに備え、
前記候補選択手段は、音声認識処理に前記辞書選択手段で選択された認識辞書を用いることを特徴とする請求項９に記載の音声認識装置。
前記記憶装置に、前記共通語を認識語彙とする共通語認識辞書が記憶されており、
前記候補選択手段は、前記辞書選択手段で選択された認識辞書に加えて前記共通語認識辞書を用いて、ユーザが発話した音声命令の候補を選択するものであることを特徴とする請求項１０に記載の音声認識装置。