JP4770374B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP4770374B2
JP4770374B2 JP2005291531A JP2005291531A JP4770374B2 JP 4770374 B2 JP4770374 B2 JP 4770374B2 JP 2005291531 A JP2005291531 A JP 2005291531A JP 2005291531 A JP2005291531 A JP 2005291531A JP 4770374 B2 JP4770374 B2 JP 4770374B2
Authority
JP
Japan
Prior art keywords
recognition
dictionary
common word
user
voice command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005291531A
Other languages
English (en)
Other versions
JP2007101892A (ja
Inventor
靖子 大橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2005291531A priority Critical patent/JP4770374B2/ja
Publication of JP2007101892A publication Critical patent/JP2007101892A/ja
Application granted granted Critical
Publication of JP4770374B2 publication Critical patent/JP4770374B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識装置に関し、特に、複数の制御対象機器に対する音声命令を認識する音声認識装置に関する。
音声認識装置は、制御対象機器の動作状態に応じて認識語彙を制限することによって、認識率を向上させている。すなわち、制御対象機器の動作状態に対応した所定の認識語彙を有している認識辞書を複数記憶しておき、制御対象機器の動作状態を検出して、記憶した複数の認識辞書から音声認識処理に用いる認識辞書を選択するようにしている。
特開平10−7348号公報
音声認識装置が複数の制御対象機器に対する音声命令を認識するようになっている場合、音声認識処理に用いられる認識辞書が複数選択される場合がある。たとえば、車両用の音声認識装置の場合、制御対象機器としてナビゲーション装置とオーディオ装置とを含んでいて、且つ、両装置がともに動作中である場合には、ナビゲーション装置の動作状態に基づく認識辞書(たとえば目的地設定操作用の認識辞書や、検索操作用の認識辞書)と、オーディオ装置の動作状態に基づく認識辞書(たとえば曲演奏操作用の認識辞書)とが音声認識処理に用いる辞書として選択される。
上記複数の認識辞書の認識語彙には、複数の認識辞書に共通して含まれている共通語が存在する。上記共通語としては、たとえば「前」「次」などがあり、目的地設定操作用の認識辞書には、「前(次)の目的地」という認識語が含まれ、曲演奏操作用の認識辞書には「前(次)の曲」という認識語が含まれている。
音声認識処理に用いる認識辞書として複数の辞書が選択され、その選択された複数の辞書にともに共通語が含まれている場合、共通語を含む別の言葉が誤って認識されてしまうことがあった。たとえば、ユーザが「前の目的地」と言ったにも関わらず「前の曲」と認識されてしまうことがあった。また、「前の目的地」という音声命令を思いつかずに、「前」と言った場合にも、ユーザの言いたかった音声命令は認識されずに、「前の曲」などの他の命令が認識されてしまうことがあった。
なお、認識辞書を複数設けず、一つの認識辞書に全ての制御対象機器に対する認識語を全て持たせることも考えられるが、その場合にも、当然、ユーザの発話が共通語を含むものである場合、前述の誤認識の問題が生じる。
本発明は、この事情に基づいて成されたものであり、その目的とするところは、共通語を含む音声命令の認識精度がよい音声認識装置を提供することにある。
その目的を達成するための請求項1記載の発明は、複数の制御対象機器に対する音声命令を認識するための音声認識装置であって、複数の認識語が、それぞれ前記複数の制御対象機器のうちのいずれかの制御対象機器の動作状態と対応付けられている認識辞書を記憶している記憶装置と、その記憶装置に記憶されている認識辞書に基づいて、ユーザが発話した音声命令を認識する音声命令認識手段と、互いに異なる前記制御対象機器と対応付けられている少なくとも2つの認識語に共通して含まれている共通語が、ユーザが発話した音声命令に含まれているか否かを判断する共通語認識手段とを備え、
前記音声命令認識手段は、その共通語認識手段によって共通語が含まれていると判断された場合には、当該共通語が含まれる前記認識辞書の認識語のうち、ユーザが最後に操作した制御対象機器と対応付けられている認識語に基づいて、ユーザが発話した音声命令を認識することを特徴とする。
この請求項1記載の発明によれば、共通語認識手段によりユーザが発話した音声命令に共通語が含まれているか否かを判断し、音声命令認識手段は、共通語認識手段によって共通語が含まれていると判断された場合には、当該共通語が含まれる認識辞書の認識語のうち、ユーザが最後に操作した制御対象機器に対応付けられている認識語に基づいて、ユーザが発話した音声命令を認識するようにしている。従って、ユーザの発話に共通語が含まれていると判断された場合には、ユーザが最後に操作した制御対象機器と対応付けられていない認識語が認識されることがなくなるので、共通語を含む音声命令の認識精度が向上する。
記憶装置には、全ての制御対象機器に対する認識語を全て持っている認識辞書が一つだけ記憶されていてもよいが、認識率の向上のために、認識辞書は制御対象機器の動作状態別に複数の認識辞書に分けられることが好ましい。その場合には、請求項2記載のようにして、共通語を含む音声命令の認識精度を向上させる。
すなわち、請求項2記載の発明は、請求項1に記載の音声認識装置において、前記記憶装置に記憶されている認識辞書は、前記制御対象機器の動作状態別に複数の認識辞書に分けられており、前記複数の制御対象機器の動作状態に基づいて、前記記憶装置に記憶されている複数の認識辞書から少なくとも一つの認識辞書を選択する辞書選択手段をさらに備え、前記音声命令認識手段は、前記共通語認識手段によって共通語が含まれていると判断された場合には、ユーザが発話した音声命令を認識する認識辞書として、前記辞書選択手段で選択された認識辞書のうちでユーザが最後に操作した制御対象機器に基づいて定まる一つの認識辞書を用いることを特徴とする。
この請求項2記載の発明によれば、共通語認識手段によりユーザが発話した音声命令に共通語が含まれているか否かを判断し、音声命令認識手段は、共通語認識手段によって共通語が含まれていると判断された場合には、音声命令を認識する認識辞書として、ユーザが最後に操作した制御対象機器に基づいて定まる一つの認識辞書を用いることにしている。そのため、制御対象機器の動作状態からは複数の認識辞書が選択されていたとしても、ユーザが最後に操作した制御対象機器に基づいて定まる一つの認識辞書以外は、音声命令認識手段で用いられないことになるので、共通語を含む音声命令の認識精度が向上する。
前記音声命令認識手段は、請求項3または4記載のようにして、ユーザが発話した音声命令が何であるあるかを決定することができる。
請求項3記載の発明は、請求項2に記載の音声認識装置において、前記音声命令認識手段は、ユーザが最後に操作した制御対象機器に基づいて認識辞書を一つに絞り込んだ場合には、その絞り込んだ一つの認識辞書に含まれる認識語のうち、前記共通語認識手段によって認識された共通語を含んでいる認識語を、ユーザが発話した音声命令として特定するものである。
また、請求項4記載の発明は、請求項2に記載の音声認識装置において、前記音声命令認識手段は、ユーザが最後に操作した制御対象機器に基づいて認識辞書を一つに絞り込んだ場合には、その絞り込んだ一つの認識辞書を用いた音声認識処理を実行することにより、ユーザが発話した音声命令を認識するものである。
また、請求項3記載のように、共通語認識手段によって認識された共通語と、認識辞書の認識語彙とを比較することによって、ユーザが発話した音声命令を特定するものである場合、請求項5記載のように、共通語認識手段は、辞書選択手段において選択される認識辞書の数に関係なく実行することが好ましい。
ユーザは、制御対象機器の動作状態とは関係なく、共通語のみを発話することがあるが、請求項5のようにすれば、仮に制御対象機器の動作状態からは一つのみの認識辞書が選択されていたとしても、共通語認識手段を実行することになる。そして、共通語認識手段を実行することによって、ユーザが共通語のみを発話した場合にも、それを精度よく認識することができるようになり、その精度よく認識できる共通語と認識辞書の認識語彙とを比較することによって音声命令を特定することになるので、音声命令の特定精度が向上する。
また、請求項6記載のように、前記辞書選択手段において複数の認識辞書が選択され、且つ、その選択した複数の認識辞書のうちの少なくとも2つの認識辞書に前記共通語が含まれている場合に、前記共通語認識手段を実行するようにしてもよい。
請求項6記載のようにすると、条件によっては共通語認識手段が実行されずに、直接、音声命令認識手段によってユーザが発話した音声命令が認識されることになるので、処理が高速になる。
また、前記共通語認識手段は、請求項7記載のように、共通語認識辞書を備えることにより、または請求項8記載のように、ワードスポッティング技術を用いて、ユーザが発話した音声命令に共通語が含まれているか否かを判断する。
すなわち、請求項7記載の発明は、請求項1乃至6のいずれかに記載の音声認識装置において、前記記憶装置に、前記共通語を認識語彙とする共通語認識辞書が記憶されており、前記共通語認識手段は、前記共通語認識辞書を用いた音声認識処理を実行することによって、ユーザが発話した音声命令に前記共通語が含まれているか否かを判断するものである。
また、請求項8記載の発明は、請求項1乃至6のいずれかに記載の音声認識装置において、前記共通語認識手段は、ユーザの発話を表す入力音声と予め記憶された前記共通語の基準音声とを比較することによって、ユーザが発話した音声命令に共通語が含まれているか否かを判断するものである。
上述の請求項1乃至8に記載の発明は、まず、ユーザが発話した音声命令に共通語が含まれているか否かを判断した後に、認識辞書に基づいて音声命令を認識していたが、請求項9記載のように、認識辞書を用いて音声命令の候補を選択した後に、選択した候補に共通語が含まれているか否かを判断してもよい。
すなわち、請求項9記載の発明は、複数の制御対象機器に対する音声命令を認識するための音声認識装置であって、複数の認識語が、それぞれ前記複数の制御対象機器のうちのいずれかの制御対象機器の動作状態と対応付けられている認識辞書を記憶している記憶装置と、その記憶装置に記憶されている認識辞書に基づいて、ユーザが発話した音声命令を認識する音声命令認識手段と、互いに異なる前記制御対象機器と対応付けられている少なくとも2つの認識語に共通して含まれている共通語のリストを記憶したリスト記憶装置とを備え、
前記音声命令認識手段は、前記認識辞書を用いた音声認識処理により、その認識辞書からユーザが発話した音声命令の候補を選択する候補選択手段を含み、その候補選択手段において複数の候補が選択され、且つ、その選択された複数の候補のうちの少なくとも2つの候補に、前記共通語のリストに含まれている共通語が含まれている場合、共通語のリストに含まれている共通語を含む候補であって、ユーザが最後に操作した制御対象機器に基づいて定まる認識辞書の認識語彙となっている候補を選択することによって、ユーザが発話した音声を特定するものであることを特徴とする。
このように、まず、候補選択手段において、認識辞書を用いた音声認識処理によって音声命令の候補を選択して、その選択した候補のうちの少なくとも2つの候補に共通語が含まれている場合に、共通語のリストに含まれている共通語を含む候補であって、最後に操作した制御対象機器に基づいて定まる認識辞書の認識語彙となっている候補を選択するようにしても、ユーザが最後に操作した制御対象機器に関する音声命令以外は選択されないことになるので、共通語を含む音声命令の認識精度が向上する。
上記請求項9記載の発明の場合にも、認識率の向上のために、請求項10記載のように、認識辞書は制御対象機器の動作状態別に複数の認識辞書に分けられることが好ましい。
請求項10記載の発明は、請求項9に記載の音声認識装置において、前記記憶装置に記憶されている認識辞書は、前記制御対象機器の動作状態別に複数の認識辞書に分けられており、前記複数の制御対象機器の動作状態に基づいて、前記記憶装置に記憶されている複数の認識辞書から少なくとも一つの認識辞書を選択する辞書選択手段をさらに備え、前記候補選択手段は、音声認識処理に前記辞書選択手段で選択された認識辞書を用いることを特徴とする。
また、好ましくは、請求項11記載のように、前記記憶装置に、前記共通語を認識語彙とする共通語認識辞書が記憶されており、前記候補選択手段は、前記辞書選択手段で選択された認識辞書に加えて前記共通語認識辞書を用いて、ユーザが発話した音声命令の候補を選択する。
このように、候補選択手段において、共通語認識辞書をさらに用いるようにすれば、ユーザが共通語を含む音声命令を発話したことを精度よく認識できるようになり、その結果、共通語を含む音声命令の認識精度がより向上する。
以下、本発明の装置の実施の形態を図面に基づいて説明する。図1は、本発明の音声認識装置としての機能を備えた車載ナビゲーション装置10の構成を示すブロック図である。
車載ナビゲーション装置10は、マイク12と、スピーカ14と、外部機器制御部16と、表示装置18と、ECU100とを備えている。
この車載ナビゲーション装置10は、ナビゲーション装置としての機能以外に、オーディオ、エアコン、電話機などの外部機器を制御する機能も備えており、外部機器制御部16は、それら外部機器を制御するためのものである。
表示装置18は、たとえば、液晶ディスプレイによって構成され、インスツルメントパネルの運転席と助手席との中間位置などに配置される。なお、この車載ナビゲーション装置10には、図1に示す構成以外に、通常のナビゲーション装置が有している構成、たとえば、操作スイッチ群、車両外部との間で無線通信を行う無線通信機、DVD−ROMなどの記憶媒体から地図データが入力される地図データ入力器、地磁気センサやジャイロスコープなどによって車両の現在位置を検出する位置検出器、リモコン、リモコンセンサなどを備えている。それらの機器からの信号は、ECU100に入力されるようになっている。また、ECU100には、車両に搭載された種々のセンサ、たとえば、車速センサ、温度センサなどからの信号も入力される。
ECU100は、CPU、ROM、RAM等を備えたコンピュータであり、マイク12から入力される音声を認識したり、スピーカ14から所定の音(音声含む)を出力させたり、外部から入力される信号に基づいて外部機器の制御内容を決定して、外部機器制御部16へその決定した制御内容を出力したり、外部から入力される信号に基づいて表示装置18の表示画面を制御したりする。
次に、ECU100の内部構成を説明する。音声出力制御部102には、マイク12によって検出されたユーザの音声が入力され、音声出力制御部102は、マイク12から信号が入力されると、その入力された信号に基づいてユーザの発話を確認する。そして、発話が確認できたときには、マイク12からの音声を言語解析処理部104へ出力する。また、音声出力制御部102は、ナビゲーションインターフェース部106との間で信号の授受が可能となっており、目的地検索部108、案内・探索制御部110、メモリ地点制御部112において決定された出力音指令信号が、ナビゲーションインターフェース部106を介して供給される。出力音指令信号が供給されると、その信号に基づいて所定の出力音信号を生成して、それをスピーカ14に出力することにより、スピーカ14から所定の音を出力させる。
言語解析処理部104は、音声出力制御部102で確認された発生内容を解析して、音声認識エンジン114に入力する。音声認識操作制御部116は、記憶装置117を有しており、その記憶装置117には、制御対象機器の動作状態に対応した複数の認識辞書が記憶されている。上記制御対象機器とは、この車載ナビゲーション装置10や、前述の外部機器を意味する。
上記複数の認識辞書としては、たとえば、車載ナビゲーション装置10の目的地設定モードに対応した認識辞書、オーディオの曲選択モードに対応した認識辞書、エアコンの設定操作モードに対応した認識辞書、スピーカ14の音声モード(スピーカ14から出力されている音が、FMラジオ、AMラジオ、CDプレーヤー等の音出力可能な機器のうちのどれであるかを表すもの)に対応した認識辞書がある。これらの認識辞書には、たとえば、目的設定モードに対応した認識辞書には、認識語彙に「前の目的地」「次の目的地」などの認識語が含まれ、また、オーディオの曲選択モードに対応した認識辞書には、認識語彙に「次の曲」「前の曲」が含まれている。このように、「次」「前」などは、複数の認識辞書に共通に含まれる語、すなわち、共通語である。記憶装置117には、この共通語を認識語彙とする共通語認識辞書も記憶されている。また、記憶装置117はリスト記憶装置として機能しており、共通語のリストも記憶されている。
音声認識操作制御部116には、目的地検索部108、案内・探索制御部110、メモリ地点制御部112、外部機器制御部16、および表示装置18からの信号がナビゲーションインターフェース部106を介して入力される。また、ラストモード管理部120において記憶されているラスト管理情報も、ナビゲーションインターフェース部106を介して音声認識操作制御部116に入力される。ラスト管理情報とは、最後にユーザが操作した制御対象機器が何であったかを管理(記憶)した情報を意味する。
音声認識操作部116では、それらの入力される信号に基づいて、現在動作中の制御対象機器、および、その動作中の制御対象機器の動作状態を判断し、それに基づいて、記憶装置117に記憶されている複数の認識辞書から、音声認識エンジン114において音声認識処理に用いる認識辞書を選択する。
音声認識エンジン114では、音声認識操作制御部116で選択された認識辞書を用いて、言語解析処理部104にて解析された発生内容が、どの音声命令であるかを認識(決定)する。
通信制御部120は、音声認識エンジン114において認識された音声命令や、図示しない操作スイッチ群(またはリモコン)が操作されることによって入力された制御命令を外部機器制御部16に通知し、また、外部機器制御部16から入力される外部機器の動作状態をナビゲーションインターフェース制御部106へ入力する。
表示制御部122には、目的地検索部108、案内・探索制御部110、メモリ地点制御部112において決定された表示内容が、ナビゲーションインターフェース部106を介して供給され、その供給された内容に従って表示装置18の表示画面を制御する。また、表示装置18には、音声認識エンジン114における認識結果も表示される。さらに、表示装置18は外部機器制御部16との間でも信号の授受が可能となっており、表示装置18の表示画面には、外部機器制御部16からの信号に基づいて、外部機器の状態も表示される。
図2は、ECU100における処理内容のうち、ユーザが発話した音声命令を認識するための処理を示すフローチャートである。この図2に示す処理は、マイク12から信号が入力され、音声出力制御部102においてユーザの発話が確認された場合に実行するようになっている。
図2において、まず、ステップS10では、認識レベルが適当であるか否かを判断する。この判断は、マイク12からの入力音声が、大きすぎる場合および小さすぎる場合に否定される。一方、ステップS10の判断が肯定された場合には、辞書選択手段に相当するステップS20において、制御対象機器の動作状態に基づいて、記憶装置117に記憶されている複数の認識辞書から一つまたは複数の認識辞書を選択する。
そして、続くステップS30では、上記ステップS20において複数の認識辞書を選択したか否か、および、その複数の認識辞書のうちの少なくとも2つの認識辞書に同じ共通語が含まれているか否かを判断する。
ステップS30が肯定された場合には、ステップS40において、ラスト管理情報があるか否か、すなわち、ラストモード管理部118にラスト管理情報が記憶されているか否かをさらに判断する。この判断も肯定された場合には、共通語認識手段に相当するステップS50において、記憶装置117に記憶されている共通語認識辞書を用いて音声認識処理を実行する。この音声認識処理とは、認識辞書に認識語彙として含まれている認識語の音声データとユーザの発話音声とを比較することにより尤度を算出するものであり、所定の尤度以上の認識語(ここでは共通語)がある場合には、その認識語が発話されたと言葉であると決定するものである。なお、所定の尤度以上の認識語が複数ある場合には、最も尤度が高い認識語を発話された言葉として決定する。
続くステップS60では、上記ステップS50を実行した結果、共通語があると認識できたか否かを判断する。ステップS60の判断が否定された場合、および、前述のステップS30、S40の判断が否定された場合には、ステップS70において、従来と同様の音声命令認識処理を実行する。すなわち、制御対象機器の動作状態に基づいて選択された一つまたは複数の認識辞書を用いて音声認識処理を実行する。これにより、ユーザが発話した音声命令として一つの音声命令が決定される。
一方、ステップS60の判断が肯定された場合には、ステップS80を実行する。ステップS80では、ラストモード管理部118に記憶されているラスト管理情報に基づいて認識辞書の絞込みを行う。すなわち、ステップS80では、ステップS20で選択した認識辞書から、ラストモード管理部118に記憶されているラスト管理情報を用いて一つの認識辞書を選択する。
続くステップS90では、上記ステップS80で選択した一つの認識辞書を用いて、二度目の音声認識処理を実行する。これにより、ユーザが発話した音声命令が何であるかを決定する。なお、図2においては、ステップS40、S60乃至90が音声命令認識手段に相当する。
上記ステップS90の音声認識処理においては、ステップS50における処理と同様に、認識辞書に含まれている認識語の音声データとユーザの発話音声との比較に基づいて定まる尤度を用いてユーザが発話した音声命令が何であるかを決定する。従って、認識辞書に含まれている認識語とユーザの発話した言葉が完全に一致していなくても、尤度が所定値以上であれば、ユーザが発話した音声命令が決定される。たとえば、ユーザの発話した言葉が単に「前」である場合にも、尤度によっては「前の目的地」がユーザが発話した言葉として決定される。
ステップS70またはステップS90を実行してユーザが発話した音声命令を決定した後は、ステップS100において、処理が成功したか否かを判断する。この判断は、上記ステップS70またはS90において決定した音声命令を実行することができるか否かを判断するものであり、音声命令が実行できる場合にはステップS100は肯定され、音声命令が実行できない場合にはステップS100は否定される。たとえば、目的地までのルートが決定されていない状態において、ルート変更との命令が認識された場合には、ステップS100の判断は否定される。
ステップS100の判断が肯定された場合には、続くステップS110において、ステップS70またはS90で決定した音声命令に基づく機能を、所定の制御対象機器に実行させる。
一方、ステップS100の判断が否定された場合には、ステップS120において、所定のエラー通知を表示装置18およびスピーカ14から出力させる。たとえば、ステップS10が否定された場合には、認識レベルが不適切であるために音声命令が認識できない旨のメッセージを出力させ、ステップS100が否定された場合には、現在の動作状態では入力された音声命令は実行できない旨のメッセージを出力させる。
以上、説明した本実施形態によれば、ステップS50において共通語認識処理を実行することにより、ユーザが発話した音声命令に共通語が含まれているか否かを判断しており、共通語が含まれていると判断した場合には、ユーザが最後に操作した制御対象機器に基づいて認識辞書を一つに絞り込み(ステップS80)、その絞り込んだ認識辞書を用いて音声認識処理を行っている(ステップS90)。従って、たとえば、オーディオ動作中であり、且つ、目的地設定操作中であるために、2つ(またはそれ以上)の認識辞書がステップS20で選択されたとしても、ステップS50において、「次」「前」などの共通語が認識された場合には、ステップS80においてラスト管理情報に基づいて認識辞書が一つに絞り込まれた後に、ステップS90において音声認識処理が実行される。その結果、たとえば、ユーザの最後の操作機器がオーディオである場合において、ユーザが「前の曲」と言ったにも関わらず「前の目的地」が認識されてしまうことが防止されるのはもちろんのこと、「前の曲」という命令を思いつかずに、単に「前」と言ってしまったとしても、ユーザの意図しない「前の目的地」は認識されずに、ユーザの意図した「前の曲」が認識されるなど、共通語を含む音声命令の認識精度が向上する。
次に、本発明の第2実施形態を説明する。第2実施形態は、図1と同様の構成を有する車載ナビゲーション装置であるが、ユーザが発話した音声命令を特定するためのECU100の処理が第1実施形態と異なる。図3は、第2実施形態においてECU100が実行する、ユーザが発話した音声命令を特定するための処理を示すフローチャートである。
図3のフローチャートが前述の図2に示したものと相違する点は、ステップS30を実行せずに、ステップS20を実行した後、直接ステップS40を実行する点、図2のステップS50に代えてステップS55を実行する点、および図2のステップS90に代えてステップS95を実行する点である。以下、この相違点について説明する。
第2実施形態では、ステップS20において、制御対象機器の動作状態に基づいて、記憶装置117に記憶されている複数の認識辞書から一つまたは複数の認識辞書を選択した後、選択した辞書数が複数であるか否かを判断することなく、ステップS40を実行する。従って、選択した辞書数が一つのみであっても、ステップS40以下を実行する。
そして、ステップS40においてラスト管理情報があると判断された場合には、共通語認識手段に相当するステップS55を実行する。ステップS55では、マイク12から入力された音声の波形と予め記憶された共通語の音声波形とに基づいて、たとえばDPマッチングを利用した方法などの公知のワードスポッティング法を用いて、ユーザが発話した音声命令から共通語を抽出することを試みる。このステップS55において共通語が抽出できた場合には続くステップS60が肯定され、共通語が抽出できなかった場合にはステップS60が否定されることになる。
ステップS80では、第1実施形態の場合と同様に、ラストモード管理部118に記憶されているラスト管理情報に基づいて認識辞書の絞込みを行う。なお、第2実施形態では、ステップS20において選択した認識辞書の数が一つのみの場合でもステップS80を実行することになるが、すでに認識辞書が一つのみとなっている場合、ステップS80ではその一つの認識辞書を選択することになる。
続くステップS95では、ステップS55で抽出した共通語と、ステップS80で絞り込んだ認識辞書の認識語彙とを比較し、ステップS80で絞り込んだ認識辞書の認識語彙のうちから、ステップS55で抽出した共通語を含む認識語をユーザが発話した音声命令として特定する。このステップS95を実行した後は、前述のステップS100以下を実行する。
以上、説明した第2実施形態の場合には、ステップS20において一つのみの認識辞書を選択した場合であっても、S55を実行してユーザの発話内容から共通語の抽出を行っている。従って、ユーザが共通語のみを発話した場合にも、それを精度よく認識することができるようになり、ステップS95では、その精度よく認識できる共通語と認識辞書の認識語彙とを比較することによって音声命令を特定しているので、共通語を含む音声命令の特定精度が向上する。
次に、本発明の第3実施形態を説明する。第3実施形態も、図1と同様の構成を有する車載ナビゲーション装置であるが、ユーザが発話した音声命令を特定するためのECU100の処理が第1、2実施形態と異なる。図4は、第3実施形態においてECU100が実行する、ユーザが発話した音声命令を認識するための処理を示すフローチャートである。
図4においては、まず、図2と同じステップS10、S20を実行する。そして、ステップS20において一つまたは複数の認識辞書を選択した後は、候補選択手段に相当するステップS200において、上記ステップS20で選択した認識辞書を用いて音声命令の候補を選択する。すなわち、ステップS20で選択した認識辞書を用いた音声認識処理を実行し、その処理の結果、認識辞書の認識語彙に含まれる認識語のうち、尤度が所定値以上の認識語を、音声命令の候補として選択する。
続くステップS210では、上記ステップS200で選択した候補を記憶装置117に記憶されている共通語のリストと比較することにより、選択した候補のうちの少なくとも2つの候補に同じ共通語が含まれているか否かを判断する。
上記ステップS210の判断が肯定された場合にはステップS220を実行する。ステップS220では、ラスト管理情報があるか否か、すなわち、ラストモード管理部118にラスト管理情報が記憶されているか否かをさらに判断する。このステップS220の判断が否定された場合、および、前述のステップS210の判断が否定された場合には、ステップS230を実行する。ステップS230では、ステップS210で選択した複数の候補のうちで尤度が最も高いものを、ユーザが発話した音声命令であると決定する。
一方、ステップS220の判断が肯定された場合には、ステップS210で選択した複数の候補のうち、共通語を含む候補であって、ラスト管理情報に基づいて定まる認識辞書の認識語彙となっている候補を、ユーザが発話した音声命令であると決定する。たとえば、ステップS210において「次の曲」、「次の目的地」など、共通語「次」を含む候補が複数選択され、ラスト管理情報に基づいて定まる認識辞書が目的地設定用の認識辞書である場合には、ユーザが発話した音声命令が「次の目的地」であると決定することになる。なお、図4においては、ステップS200乃至S240が音声命令認識手段に相当する。
ステップS230またはS240においてユーザが発話した音声命令が何であるかを特定した後は、第1実施形態と同様のステップS100以降を実行する。
以上、説明した第3実施形態のように、まず、認識辞書を用いた音声認識処理によって音声命令の候補を選択して(S200)、次いで、その選択した候補のうちの少なくとも2つの候補に共通語が含まれているか否かを判断し(S210)、共通語が含まれている場合に、最後に操作した制御対象機器に基づいて一つの候補を選択する(S240)ようにしても、ユーザが最後に操作した制御対象機器に関する音声命令以外は選択されないことになるので、共通語を含む音声命令の認識精度が向上する。
なお、記憶装置117には、認識辞書として共通語認識辞書が記憶されているので、ユーザが共通語を含む音声命令を発話した場合、ステップS200において選択される候補には、共通語のみの候補も含まれることになる。これにより、ユーザが共通語を含む音声命令を発話した場合、より確実にステップS210が肯定されることになり、その結果、共通語を含む音声命令の認識精度がより向上することになる。
以上、本発明の実施形態を説明したが、本発明は上述の実施形態に限定されるものではなく、次の実施形態も本発明の技術的範囲に含まれ、さらに、下記以外にも要旨を逸脱しない範囲内で種々変更して実施することができる。
たとえば、前述の実施形態では、認識辞書が制御対象機器の動作状態別に複数記憶されていたが、各認識辞書を制御対象機器の動作状態と対応させる代わりに、認識辞書に含まれる各認識語を制御対象機器の動作状態と対応させることにより、認識辞書を一つにまとめてもよい。
本発明の音声認識装置としての機能を備えた車載ナビゲーション装置10の構成を示すブロック図である。 図1のECU100における処理内容のうち、ユーザが発話した音声命令を認識するための処理を示すフローチャートである。 第2実施形態においてECU100が実行する、ユーザが発話した音声命令を認識するための処理を示すフローチャートである。 第3実施形態においてECU100が実行する、ユーザが発話した音声命令を認識するための処理を示すフローチャートである。
符号の説明
10:車載ナビゲーション装置(音声認識装置)
100:ECU
117:記憶装置
S20:辞書選択手段
S50:共通語認識手段
S55:共通語認識手段
S40、S60〜S90:音声命令認識手段
S200:候補選択手段
S200乃至S240:音声命令認識手段

Claims (11)

  1. 複数の制御対象機器に対する音声命令を認識するための音声認識装置であって、
    複数の認識語が、それぞれ前記複数の制御対象機器のうちのいずれかの制御対象機器の動作状態と対応付けられている認識辞書を記憶している記憶装置と、
    その記憶装置に記憶されている認識辞書に基づいて、ユーザが発話した音声命令を認識する音声命令認識手段と、
    互いに異なる前記制御対象機器と対応付けられている少なくとも2つの認識語に共通して含まれている共通語が、ユーザが発話した音声命令に含まれているか否かを判断する共通語認識手段とを備え、
    前記音声命令認識手段は、その共通語認識手段によって共通語が含まれていると判断された場合には、当該共通語が含まれる前記認識辞書の認識語のうち、ユーザが最後に操作した制御対象機器と対応付けられている認識語に基づいて、ユーザが発話した音声命令を認識することを特徴とする音声認識装置。
  2. 前記記憶装置に記憶されている認識辞書は、前記制御対象機器の動作状態別に複数の認識辞書に分けられており、
    前記複数の制御対象機器の動作状態に基づいて、前記記憶装置に記憶されている複数の認識辞書から少なくとも一つの認識辞書を選択する辞書選択手段をさらに備え、
    前記音声命令認識手段は、前記共通語認識手段によって共通語が含まれていると判断された場合には、ユーザが発話した音声命令を認識する認識辞書として、前記辞書選択手段で選択された認識辞書のうちでユーザが最後に操作した制御対象機器に基づいて定まる一つの認識辞書を用いることを特徴とする請求項1に記載の音声認識装置。
  3. 前記音声命令認識手段は、ユーザが最後に操作した制御対象機器に基づいて認識辞書を一つに絞り込んだ場合には、その絞り込んだ一つの認識辞書に含まれる認識語のうち、前記共通語認識手段によって認識された共通語を含んでいる認識語を、ユーザが発話した音声命令として特定するものであることを特徴とする請求項2に記載の音声認識装置。
  4. 前記音声命令認識手段は、ユーザが最後に操作した制御対象機器に基づいて認識辞書を一つに絞り込んだ場合には、その絞り込んだ一つの認識辞書を用いた音声認識処理を実行することにより、ユーザが発話した音声命令を認識するものであることを特徴とする請求項2に記載の音声認識装置。
  5. 前記辞書選択手段において選択された認識辞書の数に関係なく、前記共通語認識手段を実行することを特徴とする請求項3に記載の音声認識装置。
  6. 前記辞書選択手段において複数の認識辞書が選択され、且つ、その選択した複数の認識辞書のうちの少なくとも2つの認識辞書に前記共通語が含まれている場合に、前記共通語認識手段を実行することを特徴とする請求項2乃至4のいずれかに記載の音声認識装置。
  7. 前記記憶装置に、前記共通語を認識語彙とする共通語認識辞書が記憶されており、
    前記共通語認識手段は、前記共通語認識辞書を用いた音声認識処理を実行することによって、ユーザが発話した音声命令に前記共通語が含まれているか否かを判断するものであることを特徴とする請求項1乃至6のいずれかに記載の音声認識装置。
  8. 前記共通語認識手段は、ユーザの発話を表す入力音声と予め記憶された前記共通語の基準音声とを比較することによって、ユーザが発話した音声命令に共通語が含まれているか否かを判断するものであることを特徴とする請求項1乃至6のいずれかに記載の音声認識装置。
  9. 複数の制御対象機器に対する音声命令を認識するための音声認識装置であって、
    複数の認識語が、それぞれ前記複数の制御対象機器のうちのいずれかの制御対象機器の動作状態と対応付けられている認識辞書を記憶している記憶装置と、
    その記憶装置に記憶されている認識辞書に基づいて、ユーザが発話した音声命令を認識する音声命令認識手段と、
    互いに異なる前記制御対象機器と対応付けられている少なくとも2つの認識語に共通して含まれている共通語のリストを記憶したリスト記憶装置とを備え、
    前記音声命令認識手段は、前記認識辞書を用いた音声認識処理により、その認識辞書からユーザが発話した音声命令の候補を選択する候補選択手段を含み、その候補選択手段において複数の候補が選択され、且つ、その選択された複数の候補のうちの少なくとも2つの候補に、前記共通語のリストに含まれている共通語が含まれている場合、共通語のリストに含まれている共通語を含む候補であって、ユーザが最後に操作した制御対象機器に基づいて定まる認識辞書の認識語彙となっている候補を選択することによって、ユーザが発話した音声を特定するものであることを特徴とする音声認識装置。
  10. 前記記憶装置に記憶されている認識辞書は、前記制御対象機器の動作状態別に複数の認識辞書に分けられており、
    前記複数の制御対象機器の動作状態に基づいて、前記記憶装置に記憶されている複数の認識辞書から少なくとも一つの認識辞書を選択する辞書選択手段をさらに備え、
    前記候補選択手段は、音声認識処理に前記辞書選択手段で選択された認識辞書を用いることを特徴とする請求項9に記載の音声認識装置。
  11. 前記記憶装置に、前記共通語を認識語彙とする共通語認識辞書が記憶されており、
    前記候補選択手段は、前記辞書選択手段で選択された認識辞書に加えて前記共通語認識辞書を用いて、ユーザが発話した音声命令の候補を選択するものであることを特徴とする請求項10に記載の音声認識装置。
JP2005291531A 2005-10-04 2005-10-04 音声認識装置 Expired - Fee Related JP4770374B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005291531A JP4770374B2 (ja) 2005-10-04 2005-10-04 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005291531A JP4770374B2 (ja) 2005-10-04 2005-10-04 音声認識装置

Publications (2)

Publication Number Publication Date
JP2007101892A JP2007101892A (ja) 2007-04-19
JP4770374B2 true JP4770374B2 (ja) 2011-09-14

Family

ID=38028897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005291531A Expired - Fee Related JP4770374B2 (ja) 2005-10-04 2005-10-04 音声認識装置

Country Status (1)

Country Link
JP (1) JP4770374B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110131040A1 (en) * 2009-12-01 2011-06-02 Honda Motor Co., Ltd Multi-mode speech recognition
WO2018100705A1 (ja) * 2016-12-01 2018-06-07 三菱電機株式会社 音声認識装置及び音声認識方法
CN112581969A (zh) * 2019-09-29 2021-03-30 百度在线网络技术(北京)有限公司 语音控制方法、装置、电子设备和可读存储介质
CN112581945A (zh) * 2019-09-29 2021-03-30 百度在线网络技术(北京)有限公司 语音控制方法、装置、电子设备和可读存储介质
KR20230094769A (ko) * 2021-12-21 2023-06-28 삼성전자주식회사 목적 장치의 식별 방법 및 이를 위한 전자 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1063288A (ja) * 1996-08-23 1998-03-06 Aqueous Res:Kk 音声認識装置
DE69942663D1 (de) * 1999-04-13 2010-09-23 Sony Deutschland Gmbh Zusammenfügen von Sprachschnittstellen zur gleichzeitigen Benützung von Vorrichtungen und Anwendungen
JP4363076B2 (ja) * 2002-06-28 2009-11-11 株式会社デンソー 音声制御装置
JP4503310B2 (ja) * 2004-02-20 2010-07-14 本田技研工業株式会社 電子機器制御装置

Also Published As

Publication number Publication date
JP2007101892A (ja) 2007-04-19

Similar Documents

Publication Publication Date Title
US10446155B2 (en) Voice recognition device
JP4260788B2 (ja) 音声認識機器制御装置
US7822613B2 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
US8005673B2 (en) Voice recognition device, voice recognition method, and voice recognition program
JP4804052B2 (ja) 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法
US8548806B2 (en) Voice recognition device, voice recognition method, and voice recognition program
US20080059175A1 (en) Voice recognition method and voice recognition apparatus
US11158316B2 (en) In-vehicle device and speech recognition method
US20090099763A1 (en) Speech recognition apparatus and navigation system
JP4770374B2 (ja) 音声認識装置
US20130013310A1 (en) Speech recognition system
JP2009251388A (ja) 母国語発話装置
JP2010039099A (ja) 音声認識および車載装置
JP5074759B2 (ja) 対話制御装置、対話制御方法及び対話制御プログラム
CN110556104A (zh) 语音识别装置、语音识别方法以及存储程序的存储介质
JP4453377B2 (ja) 音声認識装置、プログラム及びナビゲーション装置
JP3700533B2 (ja) 音声認識装置及び処理システム
JP4938719B2 (ja) 車載情報システム
JP5157596B2 (ja) 音声認識装置
JP2007057805A (ja) 車両用情報処理装置
JP6987447B2 (ja) 音声認識装置
JP2007025076A (ja) 車載用音声認識装置
JP4093394B2 (ja) 音声認識装置
JP4450575B2 (ja) 車両用音声認識装置、車載ナビゲーション装置
JP2005084589A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110524

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110606

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140701

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140701

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees