JP2008058409A

JP2008058409A - 音声認識方法及び音声認識装置

Info

Publication number: JP2008058409A
Application number: JP2006232488A
Authority: JP
Inventors: Takayuki Miyajima; 孝幸宮島
Original assignee: Aisin AW Co Ltd
Current assignee: Aisin AW Co Ltd
Priority date: 2006-08-29
Filing date: 2006-08-29
Publication date: 2008-03-13
Also published as: US20080059175A1; CN101136198A; EP1895510A1

Abstract

【課題】認識精度を向上することができる音声認識方法及び音声認識装置を提供する。
【解決手段】ドライバーが発した音声を認識するナビゲーションシステム１の制御装置２において、ドライバーの周囲にある装置に関する対象装置が予め関連付けられた認識候補を記憶する認識辞書１６と、ドライバーの視線の方向を検出する画像プロセッサ９と、ドライバーの視線方向にある装置を判断する制御部３と、認識辞書１６の各認識候補の中から、ドライバーの視線方向と対応する対象装置が関連付けられた各認識候補を認識対象範囲として設定し、その認識対象範囲の中から、マイク２３が入力した音声データと類似性の高い認識候補を選択する音声認識プロセッサ１１とを備えた。
【選択図】図１

Description

本発明は、音声認識方法及び音声認識装置に関する。

従来より、安全運転を支援するために、音声認識機能を搭載したナビゲーションシステムが自動車に実装されている。このシステムでは、マイクから入力した音声信号に対して認識処理を行って文字列データに変換し、その文字列データをエアコン等の各装置を制御するコマンドとしていた。しかし、通常の音声認識でも、高い認識率の達成が困難であるにも関わらず、車室内では、オーディオ音声、車両の走行中のノイズ等の背景音が多く、音声認識の精度が低くなることが問題となっていた。これに対し、特許文献１では、ドライバーが地名を発話した場合に、音声認識により検出された認識候補と、地図データの「県名」、「市町村名」等の地名データとを照合するシステムが記載されている。そして、地名データと認識候補とが合致した場合、その認識候補を地名を指定するコマンドとして認識する。
特開２００５−１１４９６４号公報

上記したシステムでは、地名の認識精度が向上するものの、例えば、エアコンに対して「温度上昇」等の命令が発話された場合等、他の装置を操作する音声コマンドの認識精度を向上することはできない。

本発明は、上記問題点を鑑みてなされたものであり、その目的は、認識精度を向上することができる音声認識方法及び音声認識装置を提供することにある。

上記問題点を解決するために、請求項１に記載の発明は、発話者が発した音声を認識する音声認識方法において、前記発話者の視線の方向を検出し、その視線の方向にある視認対象物を推測するとともに、前記視認対象物と関連付けられた各認識候補の中から、前記発話者の視線の方向にある前記視認対象物に対応する前記各認識候補を認識対象範囲として設定し、前記認識対象範囲に含まれる前記各認識候補の中から、発話者が発した音声と類似性の高い前記認識候補を選択することを要旨とする。

請求項２に記載の発明は、発話者が発した音声を認識する音声認識装置において、前記発話者の周囲にある視認対象物に関連付けられた認識候補を記憶する認識辞書と、前記発話者の視線の方向を検出する視線検出手段と、前記視線の方向に基づき、前記発話者の視線方向にある前記視認対象物を判断する判断手段と、前記認識辞書の前記各認識候補の中から、前記発話者の視線方向にある前記視認対象物と関連付けられた前記各認識候補を、認識対象範囲として設定する範囲設定手段と、前記範囲設定手段が設定した前記認識対象範囲の中から、音声入力手段が入力した音声データと類似性の高い前記認識候補を選択する認識手段とを備えたことを要旨とする。

請求項３に記載の発明は、請求項２に記載の音声認識装置において、前記視認対象物は、車両に搭載された制御対象装置であって、前記認識手段により選択された前記認識候補に基づき、前記制御対象装置に制御信号を出力する車両側制御手段をさらに備えたことを要旨とする。

請求項４に記載の発明は、請求項２又は３に記載の音声認識装置において、前記視線検出手段は、前記発話者を正面から撮影する撮影手段から画像データを入力し、前記画像データを画像処理して、前記発話者の視線方向を算出することを要旨とする。

請求項５に記載の発明は、発話者が発した音声を認識する音声認識装置において、前記発話者の周囲にある視認対象物に関連付けられた認識候補を記憶する認識辞書と、前記発話者の視線の方向を検出する視線検出手段と、前記視線の方向に基づき、前記発話者の視線方向にある前記視認対象物を判断する判断手段と、前記発話者の視線方向にある前記視認対象物の優先度を高く設定する優先度設定手段と、前記認識辞書の前記認識候補の中から、前記優先度設定手段の優先度に基づき、音声入力手段から入力した音声データと類似性の高い前記認識候補を選択する認識手段とを備えたことを要旨とする。

請求項６に記載の発明は、発話者が発した音声を認識する音声認識装置において、各カテゴリに関連付けられた認識候補を記憶する認識辞書と、発話者の動作を検出する動作検出手段と、前記動作検出手段が発話者の動作を検出した際に、前記発話者の動作と関連付けられた前記カテゴリを選択し、その視認対象物が関連付けられた前記各認識候補を認識対象範囲として設定する範囲設定手段と、前記範囲設定手段が設定した前記認識対象範囲の中から、音声入力手段が入力した音声データと類似性の高い前記認識候補を選択する認識手段とを備えたことを要旨とする。

請求項１に記載の発明によれば、発話者が見ていると推測される視認対象物を検出し、その視認対象物に対応する認識候補を認識対象範囲とする。このため、膨大な数の認識候補中から、音声と合致する可能性が高い認識候補を絞り込むことができるので、認識精度が向上する。

請求項２に記載の発明によれば、音声認識装置は、発話者が見ていると推測される視認対象物を検出し、その視認対象物に対応する認識候補を認識対象範囲とする。このため、膨大な数の認識候補中から、音声と合致する可能性が高い認識候補を絞り込むことができるので、認識精度が向上する。

請求項３に記載の音声認識装置では、視認対象物は、車両に搭載された制御対象装置であって、その音声認識結果に応じてその制御対象装置が制御される。このため、車両のように制御対象装置が複数ある場合に特に効果を発揮できる。

請求項４に記載の発明によれば、発話者の視線の方向は、画像データを画像処理して算出される。このため、発話者の視線方向を比較的精度よく検出することができる。
請求項５に記載の発明によれば、認識辞書内の膨大な数の認識候補のうち、発話者が見ていると推測される視認対象物に対応する認識候補の優先度が高くなる。このため、発話者の音声と合致する確率の高い認識候補を最終的に選ぶことができるので、音声認識の精度が向上する。

請求項６に記載の発明によれば、発話者の動作とカテゴリとを予め設定し、その動作に対応するカテゴリが関連付けられた認識候補を認識対象範囲とする。このため、膨大な数の認識候補中から、音声と合致する可能性が高い認識候補を絞り込むことができるので、認識精度が向上する。

（第１実施形態）
以下、本発明の運転支援装置を具体化した第１の実施形態を図１〜図７に従って説明す
る。図１は、自動車（車両）に搭載されたナビゲーションシステム１の構成を説明するブロック図である。

図１に示すように、視認対象物及び制御対象装置としてのナビゲーションシステム１は、音声認識処理等を行う音声認識装置としての制御装置２と、各種画面を表示する視認対象物、制御対象装置としてのディスプレイ２０、撮影手段としてのカメラ２２、音声入力手段としてのマイク２３及びスピーカ２４を備えている。

制御装置２は、視線検出手段、判断手段及び車両側制御手段としての制御部３と、制御部３の演算結果を一時記憶するＲＡＭ４と、経路探索プログラム、音声認識プログラム等、各種プログラムを記憶するＲＯＭ５と、ＧＰＳ受信部６とを備えている。制御部３は、ＬＳＩ等からなり、ＧＰＳ受信部６から入力した位置検出信号に基づいて、車両の位置を示す絶対座標を算出する。さらに、制御部３は、制御装置２の車両側Ｉ／Ｆ部７を介して、車速センサ３０及びジャイロセンサ３１から、車速パルス及び方位検出信号を入力して、自律航法により基準位置からの相対位置を算出する。そして、ＧＰＳ受信部６に基づく絶対座標と合わせて、自車位置を逐次特定する。

さらに、制御部３は、車両側Ｉ／Ｆ部７を介して、エアコン制御ユニット３２との間で各種信号を送受信する。エアコン制御ユニット３２は、ドライバーの手動操作、又は制御装置２による音声認識結果に基づき、車両に設けられたエアコン３８（図４参照）の制御を行い、温度調節、風量調節、モード変更等を行う。

また、外部入力Ｉ／Ｆ部１３は、ディスプレイ２０に隣接されたスイッチ２１等が操作されると、その操作に応じた信号を、制御部３又は音声出力制御部１８に出力する。例えば、オーディオを起動するスイッチ２１が操作されると、音声出力制御部１８は、図示しない楽曲データベース又はナビゲーションシステム１に挿入された外部記憶媒体から楽曲ファイルを読み出したり、ラジオチューナ（図示略）を制御して、音声をスピーカ２４から出力する。また、音声出力制御部１８は、音量調節用のスイッチ２１ａが入力操作されると、入力操作に応じて、スピーカ２４から出力される音量を調整する。

また、図１に示すように、制御装置２は、地理データ記憶部８、視線検出手段としての画像プロセッサ９を備えている。地理データ記憶部８は、内蔵されたハードディスク、又は光ディスク等の外部記憶媒体であって、目的地までの経路を探索するための各経路データ８ａと、ディスプレイ２０に地図画面２０ａを出力するための地図描画データ８ｂとが格納されている。

また、画像プロセッサ９は、映像信号入力部１０を介して、車室内に設けられたカメラ２２から画像データを入力して、発話者としてのドライバーの視線方向を検出する。このカメラ２２は、ドライバーの目を撮影可能な位置に設けられている。本実施形態では、図２に示すように、コンビネーションメータやステアリングホイール３６周辺に配置されている。カメラ２２は、運転席３５に着座したドライバーＤの頭部を中心に撮影し、映像信号を映像信号入力部１０に出力する。映像信号入力部１０は映像信号をＡ／Ｄ変換して画像データを生成し、画像データを画像プロセッサ９に出力する。画像プロセッサ９は、画像データを公知の方法で画像処理して、ドライバーＤの目Ｅの中での瞳Ｂの位置を検出する（図３（ａ）参照）。尚、カメラ２２自体が映像信号をＡ／Ｄ変換してもよい。

そして、画像プロセッサ９は、画像データを所定間隔で入力し、目Ｅの中での瞳Ｂの位置の変化をモニタする。ドライバーＤが、視線を前方から、ドライバーからみて右下方へ視線を移した場合、画像プロセッサ９は、画像データを解析して、瞳Ｂの位置を新たに算出する。瞳Ｂの位置を算出すると、画像プロセッサ９は、解析結果を制御部３に出力する
。制御部３は、解析結果に基づき、ドライバーＤの視線方向を判断する。

図３（ａ）〜（ｄ）は、瞳Ｂの位置を説明する図であって、片側の目をそれぞれ示している。例えば、図３（ｂ）に示すように、瞳Ｂの位置がドライバーＤからみて右下であることを示す解析結果が出力されると、制御部３は、ドライバーＤの視線方向が右下方であると判断する。また、図３（ｃ）に示すように、瞳Ｂの位置がドライバーＤからみて左であることを示す解析結果が出力されると、制御部３は、ドライバーＤの視線方向が左側方であると判断する。さらに、図３（ｄ）に示すように、瞳Ｂの位置がドライバーＤからみて左下であることを示す解析結果が出力されると、制御部３は、ドライバーＤの視線方向が左下方であると判断する。

また、制御部３は、検出した視線方向と、ＲＯＭ５に予め記憶された対象装置選択テーブル１４（図１及び図５参照）とに基づき、ドライバーＤが見た装置を推測する。図５に示すように、対象装置選択テーブル１４は、ドライバーＤの視線方向１４ａと、カテゴリとしての対象装置１４ｂとを紐付けている。例えば、視線方向１４ａが「右下方」であるとき、図４に示すように、ドライバーＤからみて、右下方にあるオーディオスイッチ３９が視認対象となり、「オーディオ」が対象装置１４ｂとなる。また、視線方向１４ａが「左側方」であるとき、ドライバーＤは、左側方にあるナビゲーションシステム１のディスプレイ２０を見ている可能性が高いので、対象装置１４ｂは「ナビ」となる。また、視線方向１４ａが「左下方」であるとき、ドライバーＤは、視認対象物、搭載機器としてのエアコン３８の操作パネル３７を見ている可能性が高いので、対象装置１４ｂとして「エアコン」を紐付けている。尚、この対象装置選択テーブル１４の視線方向１４ａは、「右下方」、「左側方」等の方向を示すデータでなく、瞳Ｂの座標を示すデータでも良い。このように推測された対象装置１４ｂは、ドライバーＤの音声認識に用いられる。

音声認識処理は、主に範囲設定手段、認識手段としての音声認識プロセッサ１１（図１参照）によって、音声認識データベース（以下、音声認識ＤＢ１２という）を用いて行われる。音声認識プロセッサ１１は、車室内に設けられたマイク２３（図１参照）から音声信号（音声データ）を入力するインターフェース、音声認識用ＬＳＩ等を内蔵している。マイク２３は、運転席３５周辺に設けられ、運転者が発話した音声を入力する。

音声認識ＤＢ１２には、音響モデル１５、認識辞書１６、言語モデル１７が記憶されている。音響モデル１５は、音声の特徴量と音素とを関連付けたデータである。認識辞書１６は、音素列と対応付けられた単語を数万〜数十万語格納している。言語モデル１７は、文頭・文末に位置する確率や、連続する単語間の接続確率や、係り受け関係をモデル化したデータである。図６は、本実施形態の認識辞書１６の構成の一部を示した図である。図６に示すように、認識辞書１６に記憶された認識候補１６ａは、対象装置１４ｂによって分類されている。対象装置１４ｂは、対象装置選択テーブル１４の視線方向１４ａと対応付けられたデータである。認識候補１６ａは、各対象装置１４ｂの操作に関する単語である。

まず、音声認識プロセッサ１１は、入力した音声信号の波形の特徴を算出する。そして、この特徴量と音響モデル１５とを照合して、「ａ（あ）」、「ｔｓｕ（つ）」等の、特徴量と対応する音素をそれぞれ選択する。このとき、ドライバーＤが「あつい」と発話したとしても、個人の発話特徴により「ａｔｕｉ」という音素列だけでなく、その音素列と類似した「ｈａｔｓｕｉ」、「ａｓｕｉ」等の複数の音素列が検出される場合がある。さらに、音声認識プロセッサ１１は、これらの各音素列と認識辞書１６とを照合して、認識候補を選択する。ここで、制御部３により、ドライバーＤが見ていると予測される対象装置１４ｂが「エアコン」である場合、音声認識プロセッサ１１は、膨大な数の認識候補１６ａの中から、「エアコン」が対象装置１４ｂとして関連付けられた認識候補１６ａに絞
り込み、これらの認識候補１６ａを認識対象範囲とする。さらに、認識対象範囲の各認識候補１６ａと、音響モデル１５に基づいて算出された各音素列とをそれぞれ照合して類似度を算出する。そして、類似度が最も高い認識候補１６ａを特定する。このように、認識対象範囲を設定することによって、音声の特徴は似ているものの発話の対象となる可能性が低い認識候補１６ａを認識対象外とすることができるので、認識精度を向上することができる。

さらに、音声認識プロセッサ１１は、言語モデル１７を用いて、接続関係の確率を算出し、整合性を判断する。例えば、「温度」及び「上昇」や、「経路」及び「探索」、「音量」及び「上げる」等の複数の単語が認識された場合、各単語の接続する確率を算出し、確率が高い場合には認識結果を確定する。認識結果が確定されると、音声認識プロセッサ１１は、認識結果を制御部３に出力し、制御部３は、認識結果に基づくコマンドを、音声出力制御部１８、エアコン制御ユニット３２等に出力する。

次に、本実施形態の音声認識の処理手順について、図７に従って説明する。
まず、制御部３は、音声認識処理の開始トリガの入力を待機する（ステップＳ１）。開始トリガは、本実施形態では、車両のイグニッションから出力されたオン信号であるが、音声認識を開始するスイッチの押釦でも良い。開始トリガを入力すると（ステップ１においてＹＥＳ）、画像プロセッサ９は、映像信号入力部１０を介して、ドライバーＤの頭部を撮影した画像データを入力する（ステップＳ２）。また、画像プロセッサ９は、入力した画像データを公知の処理手順により画像処理して、ドライバーＤの瞳Ｂの位置を検出する（ステップＳ３）。

制御部３は、画像プロセッサ９から解析結果を入力し、ドライバーＤの視線方向１４ａを判断する（ステップＳ４）。そして、図５に示す対象装置選択テーブル１４に基づき、視線方向１４ａに、対象装置１４ｂがあるか否かを判断する（ステップＳ５）。例えば視線方向１４ａが「右下方」である場合には、この視線方向１４ａに「オーディオ」を示す対象装置１４ｂが紐付けられているので、視線方向１４ａに対象装置１４ｂがあると判断し（ステップＳ５においてＹＥＳ）、ステップＳ６に進む。

ステップＳ６において、制御部３は、音声認識プロセッサ１１に視線方向１４ａを出力し、音声認識プロセッサ１１は、認識辞書１６に格納された各認識候補１６ａの中から認識対象範囲を指定する。例えば「オーディオ」の対象装置１４ｂが選択されている場合には、「オーディオ」を示す対象装置１４ｂが関連付けられた各認識候補１６ａを認識対象とする。

そして、ステップＳ７において、音声認識プロセッサ１１は、マイク２３から音声信号を入力したか否かを判断する。音声信号を入力しない場合には（ステップＳ７においてＮＯ）、ステップＳ１０に進む。一方、ステップＳ７において音声信号を入力したと判断すると（ステップＳ７においてＹＥＳ）、音声認識プロセッサ１１により音声認識を行う（ステップＳ８）。上記したように、音声認識プロセッサ１１は、音声信号の特徴量を検出し、音響モデル１５に基づき、特徴量と類似度の高い各音素列を算出する。そして、各音素列と、ステップＳ６において設定された認識対象範囲内の認識候補１６ａをそれぞれ照合し、類似度の高い各認識候補１６ａを選択する。各認識候補１６ａが決定すると、言語モデル１７を用いて、それらの各認識候補１６ａの接続関係の確率を照合し、確率の高い文章を認識結果として確定する。

そして、認識結果が確定すると、制御部３は、対象装置１４ｂに対し、認識結果に基づくコマンドを実行する（ステップＳ９）。例えば、対象装置１４ｂが「エアコン」であって、認識結果が「暑い」だとすると、制御部３は、車両側Ｉ／Ｆ部７を介して、エアコン
３８に温度を所定温度下げる操作命令を出力する。また、例えば対象装置１４ｂが「オーディオ」であって、認識結果が「音量上げる」である場合、制御部３は、音声出力制御部１８にそのコマンドを出力して、音量を大きくする。また、例えば対象装置１４ｂが「ナビ」であって、認識結果が「自宅」である場合、制御部３は、現在の自車位置から、予め登録された自宅までの経路を経路データ８ａ等を用いて探索し、探索した経路をディスプレイ２０に出力する。

一方、ステップＳ５において、視線方向１４ａに紐付けられた対象装置１４ｂが無い場合には（ステップＳ５においてＮＯ）、ステップＳ７に進み、認識辞書１６の認識候補１６ａの認識対象範囲を指定しないまま、各認識候補１６ａと各音素列を照合する。そして、音声認識結果に基づき、制御部３は対象装置１４ｂを制御して、コマンドを実行する（ステップＳ９）。

ステップＳ９において、コマンドが実行されると、制御部３は、終了トリガの入力の有無を判断する（ステップＳ１０）。本実施形態では、終了トリガは、イグニッションのオフ信号であるが、終了スイッチの押釦でも良い。終了トリガを入力しないと判断すると（ステップＳ１０においてＮＯ）、ステップＳ２に戻り、ドライバーＤの視線方向１４ａをモニタリングし、視線方向１４ａに応じた音声認識処理を繰り返す。終了トリガを入力したと判断すると（ステップＳ１０においてＹＥＳ）、処理を終了する。

上記実施形態によれば、以下のような効果を得ることができる。
（１）第１実施形態では、ナビゲーションシステム１の制御部３は、画像プロセッサ９の解析結果に基づき、ドライバーＤの視線方向にある対象装置１４ｂを判断するようにした。また、音声認識プロセッサ１１は、認識辞書１６内の認識候補１６ａから、ドライバーＤの視線方向１４ａにある対象装置１４ｂが関連付けられた各認識候補１６ａを認識対象範囲として設定するようにした。そして、認識対象範囲の中から、ドライバーＤが発話した音声に基づく音素列と類似性の高い認識候補１６ａを認識結果として確定するようにした。従って、音声信号の特徴量や接続関係の確率だけでなく、ドライバーＤの視線方向の対象装置１４ｂを検出及び利用することによって、音声認識ＤＢ１２内の膨大な数の認識候補１６ａの中から、発話内容と合致する可能性が高い認識候補１６ａに絞り込むことができる。これにより、ドライバーＤの視線から外れた認識候補１６ａを認識対象外とすることができるので、音声の特徴量が類似しているが、ドライバーＤの現在状況とは全く異なる認識候補１６ａを誤って認識結果として確定するような事態が回避される。このため、認識対象範囲を設定することにより音声認識処理を補助し、認識精度を向上させることができる。また、認識対象範囲を設定することにより、音素列と照合する認識候補１６ａの数が減少するので、処理時間も短縮化することができる。

（２）第１実施形態では、画像プロセッサ９により、カメラ２２から入力した画像データに基づき、ドライバーＤの瞳Ｂの位置を検出するようにした。このため、赤外線レーザ等で瞳の位置を検出する場合に比べ、発話者の視線方向１４ａを比較的精度よく検出することができる。
（第２実施形態）
次に、本発明を具体化した第２実施形態を図８に従って説明する。尚、第２の実施形態は、第１の実施形態の処理手順を変更したのみの構成であるため、同様の部分についてはその詳細な説明を省略する。

即ち、第２実施形態では、第１実施形態のステップＳ６の処理のみを変更している。詳述すると、図８に示すステップＳ５において、視線方向に対象装置１４ｂがあると判断すると（ステップＳ５においてＹＥＳ）、優先度設定手段としての音声認識プロセッサ１１は、その対象装置１４ｂが紐付けられた認識候補１６ａを優先する（ステップＳ６−１）
。具体的には、音声認識プロセッサ１１は、その対象装置１４ｂが紐付けられた認識候補１６ａの確率スコアを高く設定する。ドライバーＤの視線方向１４ａが検出されていない初期状態では、各認識候補１６ａの確率スコアはデフォルト値、又は個人の使用頻度に応じて設定されたコスト値、又は一般的な使用頻度に応じて設定されたコスト値等に設定されている。確率スコアを高くする場合には、例えば、その確率スコアに所定値を加算する。

ステップＳ７において、音声信号が入力されたと判断すると（ステップＳ７においてＹＥＳ）、音声認識プロセッサ１１は、確率スコアを加味した音声認識を行う（ステップＳ８）。即ち、認識候補１６ａの絞り込みを行わないが、各認識候補１６ａと音素列との類似度を判断する際に、確率スコアが高い認識候補１６ａを優先して確定する。

従って、第２実施形態によれば、第１実施形態に記載の効果に加えて以下の効果を得ることができる。
（３）第２実施形態では、音声認識プロセッサ１１は、ドライバーＤの視線方向１４ａと対応する対象装置１４ｂの各認識候補１６ａを優先して音声認識を行うようにした。このため、音素列と照合する認識候補１６ａを少なくせずに、発話された音声と合致する確率が高い認識候補１６ａを選択できる。従って、ドライバーＤの視線が、発話した内容と合っていない場合にも、その音声を認識することができる。

尚、上記各実施形態は以下のように変更してもよい。
・第１及び第２実施形態では、対象装置１４ｂと認識辞書１６の認識候補１６ａとを紐付けするようにした。これ以外に、言語モデル１７を、対象装置１４ｂに応じて設定するようにしても良い。例えば、視線方向１４ａが「エアコン」の対象装置１４ｂと対応しているとき、「温度」、「上げる」、「下げる」等のエアコン３８の操作に関する単語の確率や接続確率を、初期値よりも高く設定する。このようにすると、より認識精度を向上することができる。

・上記各実施形態では、第１実施形態の処理手順に基づく音声認識モード、及び第２実施形態の処理手順に基づく音声認識モードを、ユーザが選択できるようにしてもよい。
・第２実施形態では、視線方向１４ａの対象装置１４ｂと紐付けられた認識候補１６ａの確率スコアを高く設定するようにしたが、それらの認識候補１６ａの優先度が高くなればよい。例えば、まず視線方向１４ａの対象装置１４ｂが紐付けられた認識候補１６ａを照合し、類似度の高い認識候補１６ａがない場合に、他の対象装置１４ｂの認識候補１６ａを照合するようにしてもよい。

・上記各実施形態では、画像プロセッサ９は、開始トリガを入力した後、ドライバーＤの視線の変化をモニタし、音声認識プロセッサ１１は音声信号の入力を待機するようにしたが、ドライバーＤがスイッチを押釦したときのみに、視線検出及び音声認識を行うようにしてもよい。この場合、開始トリガは、ドライバーＤの開始スイッチ押釦操作であって、終了トリガは、例えば、ドライバーの終了用スイッチ押釦操作、又はタイマによる所定時間経過を示す信号である。

・上記実施形態では、ドライバーＤの視線方向１４ａ又は動作と、対象装置１４ｂとの関係を予め登録するようにしてもよい。例えば、「手で顔を仰ぐ」動作と、「エアコン」を示す対象装置１４ｂとを紐付けたテーブル等を予め登録する。そして、動作検出手段としての画像プロセッサ９が「手で顔を仰ぐ」動作を検出した場合には、音声認識プロセッサ１１が、そのテーブルに基づき、認識対象範囲を、「エアコン」の対象装置１４ｂと関連付けられた認識候補１６ａに絞り込む。また、そのテーブルを、各ユーザ毎に記憶するようにしてもよい。

・上記各実施形態では、対象カテゴリとして、ドライバーＤの周囲にあるエアコン３８、ナビゲーションシステム１、オーディオスイッチ３９等を設定したが、他の装置を設定しても良く、視線方向１４ａと対象装置１４ｂとの関係は車両の構成により変更してもよい。また、一つの視線方向１４ａに対して、複数の対象装置１４ｂを関連付けても良い。例えば、視線方向１４ａが、「左下方」である場合には、エアコン３８及びナビゲーションシステム１を対象装置１４ｂとしても良い。また、視線方向１４ａが、「左側方」、「「左下方」等左側である場合には、左側にある各装置を全て対象装置１４ｂとしてもよい。

・上記実施形態では、音声認識方法及び音声認識装置を、車両に搭載されたナビゲーションシステム１に具体化したが、音声認識機能を有する遊技機、ロボットシステム等、その他の装置に適用してもよい。

本実施形態のナビゲーションシステムの説明図。カメラの取付位置の説明図。（ａ）は正面、（ｂ）は右下、（ｃ）は左、（ｄ）は左下に視線が向いた場合の瞳の位置の説明図。対象装置の配置を説明する説明図。対象装置選択テーブルの説明図。認識辞書のデータ構成の要部を説明する説明図。本実施形態の処理手順の説明図。第２実施形態の処理手順の説明図。

符号の説明

１…視認対象物、搭載機器としてのナビゲーションシステム、２…音声認識装置としての制御装置、３…視線検出手段、判断手段、車両側制御手段としての制御部、９…視線検出手段、動作検出手段としての画像プロセッサ、１１…範囲設定手段、認識手段、優先度設定手段としての音声認識プロセッサ、１４ａ…視線方向、１４ｂ…対象カテゴリとしての対象装置、１６…認識辞書、１６ａ…認識候補、２０…視認対象物、搭載機器としてのディスプレイ、２２…撮影手段としてのカメラ、２３…音声入力手段としてのマイク、３８…視認対象物、搭載機器としてのエアコン、Ｄ…発話者としてのドライバー。

Claims

発話者が発した音声を認識する音声認識方法において、
前記発話者の視線の方向を検出し、その視線の方向にある視認対象物を推測するとともに、
前記視認対象物と関連付けられた各認識候補の中から、前記発話者の視線の方向にある前記視認対象物に対応する前記各認識候補を認識対象範囲として設定し、前記認識対象範囲に含まれる前記各認識候補の中から、発話者が発した音声と類似性の高い前記認識候補を選択することを特徴とする音声認識方法。
発話者が発した音声を認識する音声認識装置において、
前記発話者の周囲にある視認対象物に関連付けられた認識候補を記憶する認識辞書と、
前記発話者の視線の方向を検出する視線検出手段と、
前記視線の方向に基づき、前記発話者の視線方向にある前記視認対象物を判断する判断手段と、
前記認識辞書の前記各認識候補の中から、前記発話者の視線方向にある前記視認対象物と関連付けられた前記各認識候補を、認識対象範囲として設定する範囲設定手段と、
前記範囲設定手段が設定した前記認識対象範囲の中から、音声入力手段が入力した音声データと類似性の高い前記認識候補を選択する認識手段と
を備えたことを特徴とする音声認識装置。
請求項２に記載の音声認識装置において、
前記視認対象物は、車両に搭載された制御対象装置であって、
前記認識手段により選択された前記認識候補に基づき、前記制御対象装置に制御信号を出力する車両側制御手段をさらに備えたことを特徴とする音声認識装置。
請求項２又は３に記載の音声認識装置において、
前記視線検出手段は、前記発話者を正面から撮影する撮影手段から画像データを入力し、前記画像データを画像処理して、前記発話者の視線方向を算出することを特徴とする音声認識装置。
発話者が発した音声を認識する音声認識装置において、
前記発話者の周囲にある視認対象物に関連付けられた認識候補を記憶する認識辞書と、
前記発話者の視線の方向を検出する視線検出手段と、
前記視線の方向に基づき、前記発話者の視線方向にある前記視認対象物を判断する判断手段と、
前記発話者の視線方向にある前記視認対象物の優先度を高く設定する優先度設定手段と、
前記認識辞書の前記認識候補の中から、前記優先度設定手段の優先度に基づき、音声入力手段から入力した音声データと類似性の高い前記認識候補を選択する認識手段と
を備えたことを特徴とする音声認識装置。
発話者が発した音声を認識する音声認識装置において、
各カテゴリに関連付けられた認識候補を記憶する認識辞書と、
発話者の動作を検出する動作検出手段と、
前記動作検出手段が発話者の動作を検出した際に、前記発話者の動作と関連付けられた前記カテゴリを選択し、その視認対象物が関連付けられた前記各認識候補を認識対象範囲として設定する範囲設定手段と、
前記範囲設定手段が設定した前記認識対象範囲の中から、音声入力手段が入力した音声データと類似性の高い前記認識候補を選択する認識手段と
を備えたことを特徴とする音声認識装置。