WO2022038724A1

WO2022038724A1 - 音声対話装置、および、音声対話装置における対話対象判定方法

Info

Publication number: WO2022038724A1
Application number: PCT/JP2020/031359
Authority: WO
Inventors: 政信大澤; 直哉馬場; 友紀古本
Original assignee: 三菱電機株式会社
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2022-02-24

Abstract

発話音声を取得する音声取得部（１１）と、発話者を特定する発話者特定部（１２）と、音声認識を行う音声認識部（１３）と、発話者に関する情報と音声認識結果とに基づき対話要求発話を検知する対話要求検知部（１４）と、対話要求検知部（１４）が対話要求発話を検知した場合に、その他ユーザによる応答予兆を検知する応答予兆検知部（１６）と、応答予兆検知部（１６）が応答予兆を検知した場合、発話者に関する情報と音声認識結果とに基づき、応答判定用時間内にその他ユーザによる発話を検知したか否かを判定する応答検知部（１７１）と、応答予兆検知部（１６）が応答予兆を検知したか否かの検知結果と、応答検知部（１７１）がその他ユーザによる発話を検知したか否かの判定結果とに基づいて、対話要求発話は音声対話装置（１）に対するものであるか、その他ユーザに対するものであるかを判定する対話対象判定部（１７）を備えた。

Description

音声対話装置、および、音声対話装置における対話対象判定方法

　本開示は、音声対話装置、および、音声対話装置における対話対象判定方法に関する。

　従来、発話者による発話に対して応答する音声対話装置において、発話者による発話が、音声対話装置に対して応答を期待している発話であるのか、発話者以外の人に対して応答を期待している発話であるのかを判定する技術が知られている。以下、発話者が他者からの応答を期待して行った発話を「対話要求発話」という。ここでいう「他者」は、発話者以外の人、および、音声対話装置を含む。
　例えば、特許文献１には、発話者による発話が対話装置に対する発話であるかどうかを判断する音声認識装置が開示されている。特許文献１に開示されている音声認識装置は、ピッチ周波数の変化、発話の速度、または、音量等、発話者の音声信号特性に基づいて、発話者による発話が対話装置に対する発話であるか否かを判断する。具体的には、例えば、特許文献１に開示されている音声認識装置は、発話者の発話のピッチ周波数の変化が所定の範囲内であるかを判断し、当該変化が所定の範囲内であれば、発話者による発話が対話装置に対する発話であると判断する。この音声認識装置は、ピッチ周波数の変化が所定の範囲内でなければ、所定時間以内に発話者以外の人が発話に応答しているか否かによって、発話者による発話が発話者以外の人に対する発話か、対話装置に対する発話かを判断する。

特開２０１９－１９１４７７号公報

　音声対話装置において、発話者による対話要求発話が、音声対話装置に対する対話要求発話であるのか、発話者以外の人に対する対話要求発話であるのかを判定する際、特許文献１に開示されている音声認識装置のように発話者の音声信号特性から判定すると、音声発話装置が誤判定する可能性があるという課題があった。例えば、発話者が抑揚をつけずに発話した場合、発話者以外の人に対する対話要求発話であっても、音声対話装置が応答してしまう可能性がある。逆に、例えば、発話者が抑揚をつけて発話した場合、音声対話装置に対する対話要求発話であっても、発話者以外の人に対する対話要求発話である可能性があるとして、発話者以外の人による応答を待ってしまう可能性がある。

　本開示は、上記のような課題を解決するためになされたもので、発話者による対話要求発話が、音声対話装置に対する対話要求発話であるか、発話者以外の人に対する対話要求発話であるかの判定において、従来の判定技術よりも誤判定を低減することができる音声対話装置を提供することを目的とする。

　本開示に係る音声対話装置は、音声対話装置であって、発話音声を取得する音声取得部と、音声取得部が取得した発話音声に基づき、発話者を特定する発話者特定部と、音声取得部が取得した発話音声に対して音声認識を行う音声認識部と、発話者特定部が特定した発話者に関する情報と、音声認識部が行った音声認識結果とに基づき、対話要求ユーザによる対話要求発話を検知する対話要求検知部と、対話要求検知部が対話要求発話を検知した場合に、その他ユーザの状態を示す乗員状態情報に基づき、その他ユーザによる応答予兆を検知する応答予兆検知部と、応答予兆検知部がその他ユーザによる応答予兆を検知した場合、発話者特定部が特定した発話者に関する情報と、音声認識部が行った音声認識結果とに基づき、応答予兆が検知されてから応答判定用時間内にその他ユーザによる発話を検知したか否かを判定する応答検知部と、応答予兆検知部が応答予兆を検知したか否かの検知結果と、応答検知部が前記その他ユーザによる発話を検知したか否かの判定結果とに基づいて、対話要求検知部が検知した対話要求発話は、音声対話装置に対するものであるか、その他ユーザに対するものであるかを判定する対話対象判定部とを備えたものである。

　本開示によれば、音声対話装置は、発話者による対話要求発話が、音声対話装置に対する対話要求発話であるか、発話者以外の人に対する対話要求発話であるかの判定において、従来の判定技術よりも誤判定を低減することができる。

実施の形態１に係る音声対話装置の構成例を示す図である。実施の形態１に係る音声対話装置の動作を説明するためのフローチャートである。実施の形態１において、対話対象判定部が、応答予兆検知部によってその他乗員の応答予兆が検知された後に、その他乗員の視線または顔向きが対象装置の方向を向いたか否かによって対話対象判定を行うようにした場合の、音声対話装置の動作について説明するためのフローチャートである。図４Ａ，図４Ｂは、実施の形態１に係る音声対話装置のハードウェア構成の一例を示す図である。

　以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。
実施の形態１．
　図１は、実施の形態１に係る音声対話装置１の構成例を示す図である。
　実施の形態１において、音声対話装置１は、車両に搭載されているものとする。また、音声対話装置１のユーザは、車両の乗員とする。
　音声対話装置１は、車内において、当該車内に存在する乗員のうちのある乗員（以下「対話要求乗員」という。）による対話要求発話があった場合に、当該対話要求発話が、音声対話装置１に対する対話要求発話であるか、対話要求乗員以外の乗員（以下「その他乗員」という。）に対する対話要求発話であるかを判定する。ここで、「対話要求発話」とは、上述のとおり、発話者が他者からの応答を期待して行った発話をいう。換言すると、「対話要求発話」とは、他者が応答する必要がある発話をいう。具体例を挙げると、「対話要求発話」は、「ねえねえ」または「この辺にスーパーないかなあ」等の発話である。なお、実施の形態１において、他者は、その他乗員と音声対話装置１とを含む。

　音声対話装置１は、対話要求乗員による対話要求発話が、音声対話装置１に対する対話要求発話であるか、その他乗員に対する対話要求発話であるかを、対話要求乗員による対話要求発話に対してその他乗員による応答の予兆（以下「応答予兆」という。）を検知したか否かの検知結果と、予め決められた時間（以下「応答判定用時間」という。）内にその他乗員による発話を検知したか否かの判定結果とに基づいて判定する。音声対話装置１による、対話要求発話が音声対話装置１に対するものかその他乗員に対するものかの判定の詳細については、後述する。実施の形態１において、音声対話装置１が行う、対話要求発話が、音声対話装置１に対するものであるか、その他乗員に対するものであるかの判定を、「対話対象判定」ともいう。
　音声対話装置１は、対話要求乗員による対話要求発話があった場合に、当該対話要求発話が音声対話装置１に対する対話要求発話であると判定すると、対話要求乗員に対して、対話要求発話に対する応答を返す。

　以下の実施の形態１では、一例として、乗員は車内に２人（第１の乗員および第２の乗員）存在し、第１の乗員は運転者であり、第２の乗員は助手席に着座している同乗者であるとする。
　また、音声対話装置１は、例えば、車両のダッシュボードに設置された、車載用のカーナビゲーション装置に搭載されるものとする。

　音声対話装置１は、マイク２、撮像装置３、および、出力装置４と接続される。
　マイク２は、車内にて着座している乗員による発話音声を収集する。マイク２は、例えば、複数個の全指向性のマイクからなるアレイマイクである。
　実施の形態１では、マイク２はアレイマイクであるものとし、当該アレイマイクは、ルームミラーの上部に設置されているものとする。なお、これは一例に過ぎず、アレイマイクは、ルームミラーの上部以外の場所に設置されていてもよい。例えば、アレイマイクは、ダッシュボードの中央に設置されていてもよい。アレイマイクは、車内にて着座している乗員による発話音声を収集できるようになっていればよい。
　アレイマイクは、収集した発話音声を、音声対話装置１に出力する。

　撮像装置３は、車内に設置され、車内にて着座している乗員の、少なくとも顔を撮像する。撮像装置３は、例えば、車両のダッシュボードまたは天井部に設置される。なお、これは一例に過ぎず、撮像装置３は、車内にて着座している乗員の、少なくとも顔を撮像可能な場所に設置されるようになっていればよい。
　撮像装置３は、撮像した撮像画像（以下「車内撮像画像」という。）を、音声対話装置１に出力する。

　出力装置４は、例えば、車内に設置されているスピーカまたは表示装置である。出力装置４は、例えば、車両のダッシュボードに設置された、車載用のカーナビゲーション装置に搭載される。
　出力装置４は、音声対話装置１から出力された応答情報を出力する。例えば、出力装置４がスピーカである場合、スピーカは、応答情報を音声出力する。例えば、出力装置４が表示装置である場合、表示装置は、応答情報を表示する。音声対話装置１から出力される応答情報の詳細については、後述する。

　音声対話装置１は、音声取得部１１、発話者特定部１２、音声認識部１３、対話要求検知部１４、状態情報取得部１５、応答予兆検知部１６、対話対象判定部１７、応答生成部１８、および、応答出力部１９を備える。
　対話対象判定部１７は、応答検知部１７１を備える。

　音声取得部１１は、アレイマイクが収集した発話音声を取得する。
　音声取得部１１は、取得した発話音声を発話者特定部１２に出力する。

　発話者特定部１２は、音声取得部１１が取得した発話音声に基づき、発話者を特定する。具体的には、発話者特定部１２は、発話者を、当該発話者の位置とあわせて特定する。
　例えば、発話者特定部１２は、音声取得部１１が取得した発話音声に対して、周波数分析等、音の特徴を解析する。なお、発話者特定部１２は、既知の音声解析技術を用いて、発話音声の解析を行えばよい。そして、発話者特定部１２は、発話音声に対する解析結果に基づいて、発話者を特定する。

　具体的には、例えば、発話者特定部１２は、発話音声の解析結果に基づき、音源の方向を特定する。発話者特定部１２は、アレイマイクから取得された発話音声の解析結果に基づく音源の方向の特定を、既知の技術を用いて行えばよい。発話者特定部１２は、音源の方向を特定すると、特定した方向に存在する乗員を発話者と特定する。

　実施の形態１では、アレイマイクは、ルームミラーの上部に設置されるものとしているので、例えば、発話者特定部１２は、音源の方向が、車内において、アレイマイクに対して、当該アレイマイクの中心を通り車両の進行方向と平行な直線よりも右側前部である場合、発話者は、第１の乗員、言い換えれば、運転席に着座している運転者であると特定する。一方、発話者特定部１２は、音源の方向が、車内において、アレイマイクに対して、当該アレイマイクの中心を通り車両の進行方向と平行な直線よりも左側前部である場合、発話者は第２の乗員、言い換えれば、助手席に着座している乗員であると特定する。なお、実施の形態１では、車両は右ハンドルであるものを想定している。また、実施の形態１において、「平行」とは、厳密に「平行」であることに限らず、「略平行」も含む。

　発話者特定部１２は、特定した発話者を示す情報（以下「発話者情報」という。）を、音声認識部１３に出力する。
　発話者情報は、例えば、各座席に対応付けられている、座席のＩＤである。座席のＩＤは、予め、設定されている。

　音声認識部１３は、音声取得部１１が取得した発話音声に対して音声認識を行い、発話内容を認識する。音声認識部１３は、既存の音声認識技術を用いて、発話内容を認識するようにすればよい。なお、音声認識部１３は、音声取得部１１が取得した発話音声を、発話者特定部１２を介して取得すればよい。音声認識部１３は、例えば、表示装置に表示されたボタンの押下等、ユーザによる音声認識開始の指示を受け付けなくても、音声取得部１１により取得された発話音声に対して音声認識を行う。
　音声認識部１３による発話内容の音声認識結果は、発話内容を示す文字列を含む。音声認識部１３は、発話内容の音声認識結果と、発話者を示す情報とを対応付けた情報を、音声関連情報として、対話要求検知部１４および対話対象判定部１７に出力する。なお、発話者を示す情報は、発話者特定部１２が特定した発話者に関する情報である。

　対話要求検知部１４は、音声認識部１３から出力された音声関連情報に基づき、言い換えれば、発話者特定部１２が特定した発話者に関する情報と音声認識部１３が行った音声認識結果とに基づき、対話要求乗員による対話要求発話を検知する。
　具体的には、対話要求検知部１４は、例えば、音声認識結果に基づく発話内容と、予め設定されている発話（以下「対話要求判定用発話」という。）とが一致するか否かを判定することで、対話要求発話を検知する。対話要求判定用発話には、予め、対話要求発話であると推定される発話が設定されている。具体的には、対話要求判定用発話は、例えば、「ねえねえ」または「この辺にスーパーないかなあ」等である。対話要求検知部１４は、音声認識結果に基づく発話内容と対話要求判定用発話とが一致した場合、対話要求発話を検知したものとする。そして、対話要求検知部１４は、音声認識結果に対応付けられている発話者を示す情報に基づき、どの乗員による対話要求発話であるかを特定する。すなわち、対話要求検知部１４は、どの乗員が対話要求乗員であるかを特定する。

　また、例えば、対話要求検知部１４は、音声認識結果に基づく発話内容から発話の意図を推定し、推定した意図と、予め設定されている発話の意図（以下「対話要求判定用意図」という。）とが一致するか否かを判定するようにしてもよい。なお、対話要求検知部１４は、既知の意図推定技術を用いて、発話の意図を推定すればよい。対話要求判定用意図には、予め、対話要求発話を行う意図として推定される意図が設定されている。対話要求発話を行う意図として推定される意図としては、例えば、レストラン検索またはガソリンスタンド検索等の施設検索の意図が挙げられる。対話要求検知部１４は、推定した発話の意図と対話要求判定用意図とが一致した場合、対話要求発話を検知したものとする。そして、対話要求検知部１４は、音声認識結果に対応付けられている発話者を示す情報に基づき、どの乗員による対話要求発話であるかを特定する。すなわち、対話要求検知部１４は、どの乗員が対話要求乗員であるかを特定する。

　対話要求検知部１４は、対話要求発話を検知した場合、検知した対話要求発話に関する情報（以下「対話要求発話情報」という。）を、応答予兆検知部１６に出力する。
　対話要求発話情報は、対話要求発話と対話要求乗員の発話者情報とが対応付けられた情報である。

　状態情報取得部１５は、車内の状態に関する情報（以下「車内状態情報」という。）を取得する。
　実施の形態１では、状態情報取得部１５は、撮像装置３から、車内撮像画像を、車内状態情報として取得する。そして、状態情報取得部１５は、取得した車内状態情報に基づき、乗員の状態を検知し、乗員の状態を示す情報（以下「乗員状態情報」という。）を取得する。状態情報取得部１５は、例えば、車内撮像画像に対して既知の画像認識処理を行い、乗員の状態を検知する。実施の形態１において、乗員の状態とは、乗員の視線方向、乗員の顔の向き、乗員の表情、乗員の感情、乗員の姿勢、乗員のジェスチャ、または、乗員の開口度等である。なお、状態情報取得部１５は、乗員の状態を検知する際、当該乗員の位置についても、あわせて検知する。
　なお、実施の形態１では、上述のとおり、状態情報取得部１５は、撮像装置３から車内撮像画像を車内状態情報として取得するものとするが、これは一例に過ぎない。
　例えば、状態情報取得部１５は、音声認識部１３から、発話内容の音声認識結果を車内状態情報として取得するようにしてもよい。この場合、状態情報取得部１５は、発話内容の音声認識結果に基づき、乗員の状態を検知する。具体例を挙げると、状態情報取得部１５は、例えば、発話内容が「えっ」である場合は、乗員が驚いているという感情を、乗員の状態として検知する。
　また、例えば、状態情報取得部１５は、図示しない距離センサから、距離情報を車内状態情報として取得するようにしてもよい。この場合、状態情報取得部１５は、距離情報に基づき、乗員の状態を検知する。具体例を挙げると、状態情報取得部１５は、距離情報に基づいて、前のめりになっている乗員の姿勢を、乗員の状態として検知する。
　また、状態情報取得部１５は、車内撮像画像、発話内容の音声認識結果、または、距離情報のうちの２つ以上を車内状態情報として取得し、上述したような方法を組み合わせて乗員の状態を検知するようにしてもよい。

　状態情報取得部１５は、乗員の視線に関する情報、乗員の顔の向きに関する情報、乗員の開口度に関する情報、乗員の表情に関する情報、乗員の感情に関する情報、乗員の姿勢に関する情報、または、乗員のジェスチャに関する情報等を、乗員状態情報として、乗員を特定可能な情報と対応付けて、応答予兆検知部１６に出力する。乗員を特定可能な情報は、少なくとも、乗員の位置を示す情報を含む。
　なお、乗員状態情報には、上述したような情報のうちの、少なくとも１つが含まれるようになっていればよい。

　応答予兆検知部１６は、対話要求検知部１４が対話要求乗員による対話要求発話を検知した場合に、状態情報取得部１５から出力された、各乗員の状態を示す乗員状態情報のうち、その他乗員の状態を示す乗員状態情報に基づき、その他乗員による応答予兆を検知する。
　応答予兆検知部１６は、乗員状態情報に含まれる、その他乗員の視線に関する情報、その他乗員の顔向きに関する情報、その他乗員の開口度に関する情報、その他乗員の表情に関する情報、その他乗員の感情に関する情報、その他乗員の姿勢に関する情報、または、その他乗員のジェスチャに関する情報のうちの少なくとも１つを用いて、その他乗員による応答予兆を検知すればよい。
　なお、応答予兆検知部１６は、対話要求検知部１４から出力される対話要求発話情報に基づけば対話要求乗員を特定できるので、当該対話要求発話情報に基づけばその他乗員も特定できる。

　応答予兆検知部１６が検知する、その他乗員による応答予兆とは、具体的には、対話要求発話に対してその他乗員が応答する可能性を示唆する、その他乗員の状態、その他乗員の状態の変化、または、その他乗員の行動である。
　応答予兆検知部１６は、状態情報取得部１５から取得した乗員状態情報に基づき、その他乗員が予め設定されている状態（以下「予兆検知用状態」という。）であるか、その他乗員の状態に変化があるか、または、その他乗員が予め設定されている行動（以下「予兆検知用行動」という。）を行ったかを判定する。そして、応答予兆検知部１６は、その他乗員が予兆検知用状態である、その他乗員の状態に変化がある、または、その他乗員が予兆検知用行動を行ったと判定した場合、その他乗員による応答予兆を検知したとする。

　ここで、予兆検知用状態とは、例えば、開口度が予め定められた閾値（以下「開口判定用閾値」という。）よりも大きい状態をいう。開口度が開口判定用閾値より大きい状態は、対話要求発話に応答しようとして口を開けている状態と推定される。また、予兆検知用状態とは、例えば、予め定められた感情（以下「予兆検知用感情」という。）である、または、当該予兆検知用感情をあらわす表情をしている状態であってもよい。予兆検知用感情は、例えば、驚きである。

　乗員の状態に変化があるとは、例えば、開口度に変化があること、または、感情もしくは表情に変化があることをいう。例えば、開口度が０から１０の範囲の度合いで定義されているとすると、乗員の開口度が０から７に変わった場合、当該乗員の状態には変化があるという。また、例えば、乗員の表情または感情が、「落ち着いている」ことをあらわす感情または表情から、「驚き」をあらわす感情または表情に変わった場合、当該乗員の状態には変化があるという。

　予兆検知用行動とは、例えば、視線、顔の向き、または、姿勢を、対話要求発話乗員の方向に向けることをいう。予兆検知用行動とは、例えば、姿勢を前のめりにする、うなずく、手をたたく等のジェスチャを行うこととしてもよい。

　なお、応答予兆検知部１６は、状態情報取得部１５から取得した乗員状態情報を、当該乗員状態情報の取得日時と対応付けて記憶するようにし、過去の乗員状態情報を参照して、その他乗員の状態に変化があること、または、その他乗員が予兆検知用行動を行ったことを検知すればよい。

　応答予兆検知部１６は、その他乗員の応答予兆を検知したか否かの検知結果を、対話対象判定部１７に出力する。

　対話対象判定部１７は、対話要求検知部１４が検知した対話要求発話は、音声対話装置１に対するものであるか、その他乗員に対するものであるかを判定する。言い換えれば、対話対象判定部１７は、対話対象判定を行う。

　対話対象判定部１７が行う対話対象判定の判定方法について、詳細に説明する。
　まず、対話対象判定部１７は、応答予兆検知部１６から、その他乗員の応答予兆を検知した旨の検知結果が出力されたか否かを判定する。

　対話対象判定部１７は、応答予兆検知部１６から、その他乗員の応答予兆を検知した旨の検知結果が出力されなかったと判定した場合、言い換えれば、その他乗員の応答予兆を検知しなかった旨の検知結果が出力されたと判定した場合、対話要求発話は音声対話装置１に対するものであると判定する。

　一方、対話対象判定部１７が、応答予兆検知部１６から、その他乗員の応答予兆を検知した旨の検知結果が出力されたと判定した場合、対話対象判定部１７の応答検知部１７１は、応答予兆が検知されてから応答判定用時間内に、その他乗員による発話を検知したか否かを判定する。具体的には、応答検知部１７１は、音声認識部１３から出力された音声関連情報に基づき、言い換えれば、発話者特定部１２が特定した発話者に関する情報と音声認識部１３が行った音声認識結果とに基づき、応答予兆が検知されてから応答判定用時間内に、その他乗員による発話を検知したか否かを判定する。
　なお、応答予兆検知部１６は、例えば、その他乗員の応答予兆を検知した場合、検知時刻に関する情報を付与して当該応答予兆を検知した旨の情報を出力するようにし、応答検知部１７１は、応答予兆検知部１６から出力された情報に基づき、応答予兆が検知された時刻を特定すればよい。また、例えば、応答検知部１７１は、対話対象判定部１７が応答予兆検知部１６からその他乗員の応答予兆を検知した旨の情報を取得した時刻を、応答予兆が検知された時刻としてもよい。

　対話対象判定部１７は、応答予兆検知部１６から、その他乗員の応答予兆を検知した旨の検知結果が出力された場合であって、かつ、応答検知部１７１が、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知すれば、対話要求発話はその他乗員に対する対話要求発話であると判定する。
　対話対象判定部１７は、応答予兆検知部１６から、その他乗員の応答予兆を検知した旨の検知結果が出力された場合であっても、応答検知部１７１が、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知しなければ、対話要求発話は音声対話装置１に対する対話要求発話であると判定する。

　対話対象判定部１７は、対話要求発話が音声対話装置１に対する対話要求発話であると判定した場合、当該対話要求発話に対して応答が必要である旨の情報（以下「応答要情報」という。）を、応答生成部１８に出力する。なお、対話対象判定部１７は、応答要情報と対応付けて、音声認識部１３が対話要求発話を音声認識した音声認識結果を、応答生成部１８に出力する。

　応答生成部１８は、対話対象判定部１７から応答要情報が出力された場合、対話要求発話に対する応答内容に関する応答情報を生成する。
　応答生成部１８は、生成した応答情報を、応答出力部１９に出力する。

　応答出力部１９は、応答情報を出力装置４に出力する。
　応答出力部１９は、応答情報を表示装置に表示させてもよいし、応答情報をスピーカから音声出力させるようにしてもよい。

　実施の形態１に係る音声対話装置１の動作について説明する。
　図２は、実施の形態１に係る音声対話装置１の動作を説明するためのフローチャートである。
　以下の動作説明では、一例として、第１の乗員である運転者が対話要求発話を行い、音声対話装置１は、当該対話要求発話が音声対話装置１に対するものであるか、第２の乗員である助手席に着座している乗員に対するものであるかを判定するものとする。すなわち、以下の動作説明において、対話要求発話乗員は第１の乗員であり、その他乗員は第２の乗員である。

　音声取得部１１は、アレイマイクが収集した発話音声を取得する（ステップＳＴ２０１）。
　音声取得部１１は、取得した発話音声を発話者特定部１２に出力する。

　発話者特定部１２は、ステップＳＴ２０１にて音声取得部１１が取得した発話音声に基づき、発話者を特定する（ステップＳＴ２０２）。
　発話者特定部１２は、発話者情報を、音声認識部１３に出力する。

　音声認識部１３は、ステップＳＴ２０１にて音声取得部１１が取得した発話音声に対して音声認識を行い、発話内容を認識する（ステップＳＴ２０３）。
　音声認識部１３は、発話内容の音声認識結果と、発話者を示す情報とを対応付けた情報を、音声関連情報として、対話要求検知部１４および対話対象判定部１７に出力する。

　対話要求検知部１４は、ステップＳＴ２０３にて音声認識部１３から出力された音声関連情報に基づき、言い換えれば、発話者特定部１２が特定した発話者に関する情報と音声認識部１３が行った音声認識結果とに基づき、対話要求乗員による対話要求発話を検知したか否かを判定する。ここでは、対話要求検知部１４は、第１の乗員による対話要求発話を検知したか否かを判定する（ステップＳＴ２０４）。

　対話要求検知部１４が第１の乗員による対話要求発話を検知しない場合（ステップＳＴ２０４の”ＮＯ”の場合）、音声対話装置１の動作はステップＳＴ２０１の動作に戻る。
　対話要求検知部１４が第１の乗員による対話要求発話を検知した場合（ステップＳＴ２０４の”ＹＥＳ”の場合）、対話要求検知部１４は、対話要求発話情報を、応答予兆検知部１６に出力する。そして、音声対話装置１の動作は、ステップＳＴ２０５に進む。

　応答予兆検知部１６は、状態情報取得部１５から出力された各乗員の状態を示す乗員状態情報のうち、その他乗員の状態を示す乗員状態情報に基づき、その他乗員による応答予兆を検知する。ここでは、応答予兆検知部１６は、第２の乗員による応答予兆を検知する（ステップＳＴ２０５）。
　なお、当該ステップＳＴ２０５の動作が行われるまでに、状態情報取得部１５は車内状態情報から乗員状態情報を取得している。
　応答予兆検知部１６は、その他乗員、ここでは、第２の乗員の応答予兆を検知したか否かの検知結果を、対話対象判定部１７に出力する。

　対話対象判定部１７は、ステップＳＴ２０５にて、応答予兆検知部１６から、第２の乗員の応答予兆を検知した旨の検知結果が出力されたか否かを判定する（ステップＳＴ２０６）。
　ステップＳＴ２０６において、対話対象判定部１７は、応答予兆検知部１６から、第２の乗員の応答予兆を検知した旨の検知結果が出力されなかったと判定した場合、言い換えれば、第２の乗員の応答予兆を検知しなかった旨の検知結果が出力されたと判定した場合（ステップＳＴ２０６の”ＮＯ”の場合）、音声対話装置１の動作は、ステップＳＴ２０８に進む。

　一方、ステップＳＴ２０６において、対話対象判定部１７が、応答予兆検知部１６から、第２の乗員の応答予兆を検知した旨の検知結果が出力されたと判定した場合（ステップＳＴ２０６の”ＹＥＳ”の場合）、対話対象判定部１７の応答検知部１７１は、応答予兆が検知されてから応答判定用時間内に、第２の乗員による発話を検知したか否かを判定する（ステップＳＴ２０７）。

　ステップＳＴ２０７において、応答検知部１７１が、応答予兆が検知されてから応答判定用時間内に第２の乗員による発話を検知したと判定した場合（ステップＳＴ２０７の”ＹＥＳ”の場合）、対話対象判定部１７は、対話要求発話が第２の乗員に対する対話要求発話であると判定する（ステップＳＴ２０９）。そして、音声対話装置１の動作は、処理終了する。

　ステップＳＴ２０７において、応答検知部１７１が、応答予兆が検知されてから応答判定用時間内に第２の乗員による発話を検知しなかったと判定した場合（ステップＳＴ２０７の”ＮＯ”の場合）、音声対話装置１の動作は、ステップＳＴ２０８に進む。

　ステップＳＴ２０６において、対話対象判定部１７は、応答予兆検知部１６から、第２の乗員の応答予兆を検知した旨の検知結果が出力されなかったと判定した場合（ステップＳＴ２０６の”ＮＯ”の場合）、または、ステップＳＴ２０７において、応答検知部１７１が、応答予兆が検知されてから応答判定用時間内に第２の乗員による発話を検知しなかったと判定した場合（ステップＳＴ２０７の”ＮＯ”の場合）、対話対象判定部１７は、対話要求発話が音声対話装置１に対する対話要求発話であると判定する（ステップＳＴ２０８）。対話対象判定部１７は、応答要情報を、応答生成部１８に出力する。そして、音声対話装置１の動作は、ステップＳＴ２１０に進む

　応答生成部１８は、対話要求発話に対する応答内容に関する応答情報を生成する。応答生成部１８は、生成した応答情報を、応答出力部１９に出力する。そして、応答出力部１９は、応答情報を出力装置４に出力する（ステップＳＴ２１０）。

　このように、音声対話装置１は、音声関連情報に基づき対話要求乗員による対話要求発話を検知した場合に、その他乗員の状態を示す乗員状態情報に基づき、その他乗員による応答予兆を検知する。音声対話装置１は、その他乗員による応答予兆を検知した場合、音声関連情報に基づき、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知したか否かによって、対話対象判定を行う。

　仮に、音声対話装置１が、上述の従来技術のように、まず、発話者の音声信号特性から対話対象判定を行おうとすると、音声対話装置１は、対話要求発話が、音声対話装置１に対するものであるか、その他乗員に対するものであるかを誤判定する可能性がある。
　これに対し、実施の形態１に係る音声対話装置１は、上述のとおり、まず、対話要求発話に対してその他乗員による応答予兆が検知されたか否かによって、対話対象判定を行うようにした。これにより、音声対話装置１は、従来技術のように発話者の音声信号特性から対話対象判定を行う場合よりも誤判定を低減させて、当該対話対象判定を行うことができる。実施の形態１に係る音声対話装置１は、その上で、その他乗員による応答予兆が検知された場合には、応答判定用時間内にその他乗員による発話を検知したか否かによって、対話対象判定を行う。音声対話装置１は、まず、その他乗員による応答予兆が検知されたか否かによってより誤判定を低減させた対話対象判定を行えているため、結果として、応答判定用時間内にその他乗員による発話を検知したかに基づく対話対象判定も、より誤判定を低減させることができる。

　仮に、対話要求発話はその他乗員に対するものであるにもかかわらず、音声対話装置１が当該対話要求発話は音声対話装置１に対するものであると誤判定してしまうと、音声対話装置１は対話要求発話に対して応答を返してしまう。これは、対話要求発話者にとっては、予期しない応答がなされたことになる。
　逆に、対話要求発話は音声対話装置１に対する発話であるにもかかわらず、音声対話装置１が当該対話要求発話はその他乗員に対するものと誤判定してしまうと、音声対話装置１は、応答判定用時間、その他乗員による発話を待ってしまい、対話要求乗員への応答が遅延することになってしまう。なお、例えば、このような誤判定に備え、応答判定用時間を短く設定すると、対話要求発話がその他乗員に対するものである場合にその他乗員が応答判定用時間内に発話できなければ、音声対話装置１が応答を返してしまう。すなわち、対話要求発話者にとっては、予期しない応答がなされることになる。

　実施の形態１に係る音声対話装置１は、まず、対話要求発話に対してその他乗員による応答予兆が検知されたか否かによって対話対象判定を行うようにしたので、従来技術に比べ、より誤判定を低減させた対話対象判定を行うことができる。その結果、対話要求発話者に対する応答遅延の低減と、対話要求発話者が予期しない音声対話装置からの応答の低減との両立を図ることができる。

　以上の実施の形態１では、対話対象判定部１７は、応答予兆検知部１６から、その他乗員の応答予兆を検知した旨の検知結果が出力された場合、応答検知部１７１が、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知したか否かによって、対話対象判定を行うものとした。
　これに限らず、実施の形態１において、対話対象判定部１７は、応答予兆検知部１６がその他乗員による応答予兆を検知した場合であって、かつ、応答予兆検知部１６が当該応答予兆を検知した後に、その他乗員の視線または顔向きが、対象装置の方向を向いたか否かによって、対話対象判定を行うようにしてもよい。実施の形態１において、対象装置とは、そこに対話要求乗員が視線または顔向きを向けた場合に当該対話要求乗員が音声対話装置１からの応答を期待していると推定される装置である。

　ここで、対象装置とは、例えば、音声対話装置１、または、当該音声対話装置１が搭載されているナビゲーション装置である。また、対象装置とは、例えば、スピーカ、または、表示装置としてもよい。どの装置を、対象装置とするかは、適宜、設定可能である。
　対話対象判定部１７は、例えば、状態情報取得部１５から乗員状態情報を取得し、乗員状態情報に基づいて、その他乗員の視線または顔向きが対象装置の方向を向いたか否かを判定すればよい。例えば、状態情報取得部１５または応答予兆検知部１６が、その他乗員の視線または顔向きが対象装置の方向を向いたか否かを判定し、対話対象判定部１７はその判定結果を取得するようにしてもよい。

　例えば、以上の実施の形態１で説明したような音声対話装置１において、対話対象判定部１７は、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知したか否かの判定に代えて、その他乗員の視線または顔向きが対象装置の方向を向いたか否かの判定を行うようにする。対話対象判定部１７は、応答予兆を検知した後に、その他乗員の視線または顔向きが対象装置の方向を向いた場合は、対話要求発話は音声対話装置１に対する対話要求発話であると判定する。対話対象判定部１７は、応答予兆を検知した後に、その他乗員の視線または顔向きが対象装置の方向を向かなかった場合は、対話要求発話はその他乗員に対する対話要求発話であると判定する。
　なお、この場合、音声対話装置１は、応答検知部１７１を備えない構成とすることができる。

　また、例えば、以上の実施の形態１で説明したような音声対話装置１において、対話対象判定部１７は、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知したか否かの判定に加えて、その他乗員の視線または顔向きが対象装置の方向を向いたか否かの判定を行うようにしてもよい。具体的には、この場合、対話対象判定部１７は、応答予兆検知部１６がその他乗員による応答予兆を検知した後、応答判定用時間が経過する前にその他乗員の視線または顔向きが対象装置の方向を向いた場合は、対話要求発話は音声対話装置１に対する対話要求発話であると判定するようにする。対話対象判定部１７は、応答予兆を検知した後に、その他乗員の視線または顔向きが対象装置の方向を向いた場合は、対話要求発話は音声対話装置１に対する対話要求発話であると判定する。対話対象判定部１７は、応答予兆を検知した後、応答判定用時間が経過する前にその他乗員の視線または顔向きが対象装置の方向を向かなければ、応答判定用時間内にその他乗員による発話を検知したか否かによって、対話対象判定を行う。

　図３は、実施の形態１において、対話対象判定部１７が、応答予兆検知部１６によってその他乗員の応答予兆が検知された後に、その他乗員の視線または顔向きが対象装置の方向を向いたか否かによって対話対象判定を行うようにした場合の、音声対話装置１の動作について説明するためのフローチャートである。
　図３のフローチャートで示す音声対話装置１の動作は、図２のフローチャートで示した音声対話装置１の動作とは、図２のステップＳＴ２０７に代えてステップＳＴ３０１を行うようにした点が異なる。図３では、一例として、対話対象判定部１７は、図２を用いて説明した音声対話装置１の動作において、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知したか否かの判定（ステップＳＴ２０７参照）に代えて、その他乗員の視線または顔向きが対象装置の方向を向いたか否かの判定を行うようにするものとしている。
　図２で説明済みの動作については、同じステップ番号を付して、重複した説明を省略する。

　ステップＳＴ２０６において、対話対象判定部１７が、応答予兆検知部１６から、第２の乗員の応答予兆を検知した旨の検知結果が出力されたと判定した場合（ステップＳＴ２０６の”ＹＥＳ”の場合）、対話対象判定部１７は、その他乗員の視線または顔向きが対象装置の方向を向いたか否かを判定する（ステップＳＴ３０１）。

　ステップＳＴ３０１において、その他乗員の視線または顔向きが対象装置の方向を向かなかったと判定した場合（ステップＳＴ３０１の”ＮＯ”の場合）、対話対象判定部１７は、対話要求発話が第２の乗員に対する対話要求発話であると判定する（ステップＳＴ２０９）。そして、音声対話装置１の動作は、処理終了する。

　ステップＳＴ３０１において、その他乗員の視線または顔向きが対象装置の方向を向いたと判定した場合（ステップＳＴ２０７の”ＹＥＳ”の場合）、対話対象判定部１７は、対話要求発話が音声対話装置１に対する対話要求発話であると判定する（ステップＳＴ２０８）。対話対象判定部１７は、応答要情報を、応答生成部１８に出力する。そして、音声対話装置１の動作は、ステップＳＴ２１０に進む

　なお、音声対話装置１において、対話対象判定部１７は、応答予兆が検知されてから応答判定用時間内にその他乗員による発話を検知したか否かの判定に加えて、その他乗員の視線または顔向きが対象装置の方向を向いたか否かの判定を行うようにする場合、音声対話装置１は、図３のフローチャートにて、ステップＳＴ３０１の”ＮＯ”の場合の後に、図２のステップＳＴ２０７の動作を行うようにする。

　このように、音声対話装置１は、その他乗員による応答予兆を検知した場合であって、かつ、当該応答予兆を検知した後にその他乗員の視線または顔向きが対象装置の方向を向いたか否かによって、対話対象判定を行うようにしてもよい。これにより、音声対話装置１は、その他乗員による応答予兆を検知した後にその他乗員の視線または顔向きの判定を行わない場合と比べ、より正確に、対話要求会話が音声対話装置１に対する対話要求会話であることを判定できる。その結果、対話要求乗員に対する応答遅延を低減することができる。

　図４Ａ，図４Ｂは、実施の形態１に係る音声対話装置１のハードウェア構成の一例を示す図である。
　実施の形態１において、音声取得部１１と、発話者特定部１２と、音声認識部１３と、対話要求検知部１４と、状態情報取得部１５と、応答予兆検知部１６と、対話対象判定部１７と、応答生成部１８と、応答出力部１９の機能は、処理回路４０１により実現される。すなわち、音声対話装置１は、発話者によって対話要求発話が行われた場合に、当該対話要求発話が、音声対話装置１に対する対話要求発話であるのか、発話者以外の人に対する対話要求発話であるかの判定を制御する処理回路４０１を備える。
　処理回路４０１は、図４Ａに示すように専用のハードウェアであっても、図４Ｂに示すようにメモリ４０６に格納されるプログラムを実行するＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）４０５であってもよい。

　処理回路４０１が専用のハードウェアである場合、処理回路４０１は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、またはこれらを組み合わせたものが該当する。

　処理回路４０１がＣＰＵ４０５の場合、音声取得部１１と、発話者特定部１２と、音声認識部１３と、対話要求検知部１４と、状態情報取得部１５と、応答予兆検知部１６と、対話対象判定部１７と、応答生成部１８と、応答出力部１９の機能は、ソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせにより実現される。すなわち、音声取得部１１と、発話者特定部１２と、音声認識部１３と、対話要求検知部１４と、状態情報取得部１５と、応答予兆検知部１６と、対話対象判定部１７と、応答生成部１８と、応答出力部１９は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）４０２、メモリ４０６等に記憶されたプログラムを実行するＣＰＵ４０５、システムＬＳＩ（Ｌａｒｇｅ－Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）等の処理回路４０１により実現される。また、ＨＤＤ４０２、メモリ４０６等に記憶されたプログラムは、音声取得部１１と、発話者特定部１２と、音声認識部１３と、対話要求検知部１４と、状態情報取得部１５と、応答予兆検知部１６と、対話対象判定部１７と、応答生成部１８と、応答出力部１９の手順または方法をコンピュータに実行させるものであるとも言える。ここで、メモリ４０６とは、例えば、ＲＡＭ、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ－Ｏｎｌｙ　Ｍｅｍｏｒｙ）等の、不揮発性もしくは揮発性の半導体メモリ、または、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）等が該当する。

　なお、音声取得部１１と、発話者特定部１２と、音声認識部１３と、対話要求検知部１４と、状態情報取得部１５と、応答予兆検知部１６と、対話対象判定部１７と、応答生成部１８と、応答出力部１９の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、音声取得部１１と、状態情報取得部１５と、応答出力部１９については専用のハードウェアとしての処理回路４０１でその機能を実現し、発話者特定部１２と、音声認識部１３と、対話要求検知部１４と、応答予兆検知部１６と、対話対象判定部１７と、応答生成部１８については処理回路４０１がメモリ４０６に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
　また、音声対話装置１は、マイク２、撮像装置３、または、出力装置４等の装置と、有線通信または無線通信を行う入力インタフェース装置４０３および出力インタフェース装置４０４を備える。

　なお、以上の実施の形態１では、マイク２はアレイマイクとし、当該アレイマイクが１つ、車内に設置されているものとしたが、これは一例に過ぎない。マイク２は、例えば、各座席に、当該各座席における発話音声を収集するよう設置されている指向性マイクとしてもよい。
　この場合、音声対話装置１において、発話者特定部１２は、例えば、発話音声が収集された指向性マイクが設置されている車内の位置に基づいて、発話者を特定する。具体的には、発話者特定部１２は、例えば、発話音声が収集された指向性マイクが設置されている座席に着座している乗員を、発話者と特定する。

　また、以上の実施の形態１では、音声対話装置１は、車両に搭載される車載装置とし、音声取得部１１と、発話者特定部１２と、音声認識部１３と、対話要求検知部１４と、状態情報取得部１５と、応答予兆検知部１６と、対話対象判定部１７と、応答生成部１８と、応答出力部１９は、音声対話装置１に備えられているものとした。
　これに限らず、音声取得部１１と、発話者特定部１２と、音声認識部１３と、対話要求検知部１４と、状態情報取得部１５と、応答予兆検知部１６と、対話対象判定部１７と、応答生成部１８と、応答出力部１９のうち、一部または全部を車両の車載装置に搭載されるものとし、その他を当該車載装置とネットワークを介して接続されるサーバに備えられるものとして、車載装置とサーバとで音声対話システムを構成するようにしてもよい。

　また、以上の実施の形態１では、乗員は車内に２人存在するものとしたが、これは一例に過ぎない。例えば、乗員は車内に３人以上存在するものとしてもよい。この場合、その他乗員は複数存在することとなる。応答予兆検知部１６は、複数のその他乗員のうち、いずれかの応答予兆を検知すればよい。また、応答予兆検知部１６は、応答予兆検知部１６が応答予兆を検知したその他乗員による発話を検知するようにすればよい。

　また、以上の実施の形態１では、音声対話装置１は車両に搭載され、音声対話装置１のユーザは車両の乗員としたが、これは一例に過ぎない。音声対話装置１は、例えば、居室等に設置され、音声対話装置１のユーザは、居室の住人としてもよい。

　以上のように、実施の形態１に係る音声対話装置１は、発話音声を取得する音声取得部１１と、音声取得部１１が取得した発話音声に基づき、発話者を特定する発話者特定部１２と、音声取得部１１が取得した発話音声に対して音声認識を行う音声認識部１３と、発話者特定部１２が特定した発話者に関する情報と、音声認識部１３が行った音声認識結果とに基づき、対話要求ユーザ（対話要求乗員）による対話要求発話を検知する対話要求検知部１４と、対話要求検知部１４が対話要求発話を検知した場合に、その他ユーザ（その他乗員）の状態を示す乗員状態情報に基づき、その他ユーザによる応答予兆を検知する応答予兆検知部１６と、応答予兆検知部１６がその他ユーザによる応答予兆を検知した場合、発話者特定部１２が特定した発話者に関する情報と、音声認識部１３が行った音声認識結果とに基づき、応答予兆が検知されてから応答判定用時間内にその他ユーザによる発話を検知したか否かを判定する応答検知部１７１と、応答予兆検知部１６が応答予兆を検知したか否かの検知結果と、応答検知部１７１がその他ユーザによる発話を検知したか否かの判定結果とに基づいて、対話要求検知部１４が検知した対話要求発話は、音声対話装置１に対するものであるか、その他ユーザに対するものであるかを判定する対話対象判定部１７とを備えるように構成した。そのため、音声対話装置１は、発話者による対話要求発話が、音声対話装置に対する対話要求発話であるか、発話者以外の人に対する対話要求発話であるかの判定において、従来の判定技術よりも誤判定を低減することができる。

　なお、本開示は、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。

　本開示に係る音声対話装置は、発話者の音声信号特性に基づいて対話対象判定を行う従来の判定技術よりも誤判定を低減させて当該対話対象判定を行うことができるため、当該対話対象判定装置を行う音声対話装置に適用することができる。

　１　音声対話装置、２　マイク、３　撮像装置、４　出力装置、１１　音声取得部、１２　発話者特定部、１３　音声認識部、１４　対話要求検知部、１５　状態情報取得部、１６　応答予兆検知部、１７　対話対象判定部、１７１　応答検知部、１８　応答生成部、１９　応答出力部、４０１　処理回路、４０２　ＨＤＤ、４０３　入力インタフェース装置、４０４　出力インタフェース装置、４０５　ＣＰＵ、４０６　メモリ。

Claims

　音声対話装置であって、
　発話音声を取得する音声取得部と、
　前記音声取得部が取得した発話音声に基づき、発話者を特定する発話者特定部と、
　前記音声取得部が取得した発話音声に対して音声認識を行う音声認識部と、
　前記発話者特定部が特定した発話者に関する情報と、前記音声認識部が行った音声認識結果とに基づき、対話要求ユーザによる対話要求発話を検知する対話要求検知部と、
　前記対話要求検知部が前記対話要求発話を検知した場合に、その他ユーザの状態を示す乗員状態情報に基づき、前記その他ユーザによる応答予兆を検知する応答予兆検知部と、
　前記応答予兆検知部が前記その他ユーザによる前記応答予兆を検知した場合、前記発話者特定部が特定した発話者に関する情報と、前記音声認識部が行った音声認識結果とに基づき、前記応答予兆が検知されてから応答判定用時間内に前記その他ユーザによる発話を検知したか否かを判定する応答検知部と、
　前記応答予兆検知部が前記応答予兆を検知したか否かの検知結果と、前記応答検知部が前記その他ユーザによる発話を検知したか否かの判定結果とに基づいて、前記対話要求検知部が検知した前記対話要求発話は、前記音声対話装置に対するものであるか、前記その他ユーザに対するものであるかを判定する対話対象判定部
　とを備えた音声対話装置。
　前記対話対象判定部は、
　前記応答予兆検知部が前記応答予兆を検知しなかった場合、前記対話要求発話は前記音声対話装置に対するものであったと判定し、
　前記応答予兆検知部が前記応答予兆を検知した場合、前記応答検知部が前記応答判定用時間内に前記その他ユーザによる発話を検知したと判定すれば、前記対話要求発話は前記その他ユーザに対する前記対話要求発話であると判定し、前記応答検知部が前記応答判定用時間内に前記その他ユーザによる発話を検知しなかったと判定すれば、前記対話要求発話は前記音声対話装置に対する前記対話要求発話であると判定する
　ことを特徴とする請求項１記載の音声対話装置。
　前記応答予兆検知部は、
　前記その他ユーザの視線に関する情報、前記その他ユーザの顔向きに関する情報、前記その他ユーザの開口度に関する情報、前記その他ユーザの表情に関する情報、前記その他ユーザの感情に関する情報、前記その他ユーザの姿勢に関する情報、または、前記その他ユーザのジェスチャに関する情報のうちの少なくとも１つを用いて前記その他ユーザによる前記応答予兆を検知する
　ことを特徴とする請求項１記載の音声対話装置。
　前記その他ユーザの視線に関する情報、前記その他ユーザの顔向きに関する情報、前記その他ユーザの開口度に関する情報、前記その他ユーザの表情に関する情報、前記その他ユーザの感情に関する情報、前記その他ユーザの姿勢に関する情報、または、前記その他ユーザにジェスチャに関する情報は、撮像画像に基づいて取得されたものである
　ことを特徴とする請求項３記載の音声対話装置。
　前記対話対象判定部は、
　前記応答予兆検知部が前記応答予兆を検知した場合であって、かつ、前記応答予兆検知部が前記応答予兆を検知した後に、前記その他ユーザの視線または顔向きが、前記対話要求ユーザが視線または顔向きを向けた場合に当該対話要求ユーザが前記音声対話装置からの応答を期待していると推定される対象装置の方向を向いた場合は、前記対話要求発話は前記音声対話装置に対する前記対話要求発話であると判定する
　ことを特徴とする請求項１記載の音声対話装置。
　音声対話装置における対話対象判定方法であって、
　音声取得部が、発話音声を取得するステップと、
　発話者特定部が、前記音声取得部が取得した発話音声に基づき、発話者を特定するステップと、
　音声認識部が、前記音声取得部が取得した発話音声に対して音声認識を行うステップと、
　対話要求検知部が、前記発話者特定部が特定した発話者に関する情報と、前記音声認識部が行った音声認識結果とに基づき、対話要求ユーザによる対話要求発話を検知するステップと、
　応答予兆検知部が、前記対話要求検知部が前記対話要求発話を検知した場合に、その他ユーザの状態を示す乗員状態情報に基づき、前記その他ユーザによる応答予兆を検知するステップと、
　応答検知部が、前記応答予兆検知部が前記その他ユーザによる前記応答予兆を検知した場合、前記発話者特定部が特定した発話者に関する情報と、前記音声認識部が行った音声認識結果とに基づき、前記応答予兆が検知されてから応答判定用時間内に前記その他ユーザによる発話を検知したか否かを判定するステップと、
　対話対象判定部が、前記応答予兆検知部が前記応答予兆を検知したか否かの検知結果と、前記応答検知部が前記その他ユーザによる発話を検知したか否かの判定結果とに基づいて、前記対話要求検知部が検知した前記対話要求発話は、前記音声対話装置に対するものであるか、前記その他ユーザに対するものであるかを判定するステップ
　とを備えた音声対話装置における対話対象判定方法。