JP6359935B2

JP6359935B2 - 対話装置および対話方法

Info

Publication number: JP6359935B2
Application number: JP2014201176A
Authority: JP
Inventors: 渉内田; 孝輔辻野; 公亮角野
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2014-09-30
Filing date: 2014-09-30
Publication date: 2018-07-18
Anticipated expiration: 2034-09-30
Also published as: JP2016071192A

Description

本発明は、ユーザとの対話を行うための対話装置、およびユーザと対話装置との間で対話を行うための対話方法に関する。

近年、音声認識並びにユーザの自然な発話内容を理解して受け答えを行う対話技術が進化している。スマートフォン、ロボットデバイスなどに様々なセンサを備えることによって、ユーザの存在を知覚し、あたかも人間と対話するように対話を行うことができる対話エージェント型の対話装置が実現されつつある。

"Pepper（登録商標）とは"、ソフトバンク株式会社、［online］、[平成２６年９月１１日検索]、インターネット(http://www.softbank.jp/robot/products/）

対話装置とユーザとの対話（インタラクション）は、ユーザのボタン操作を契機として開始することもできるが、ボタン操作がなくても対話を開始することができる。たとえば、対話装置は、ユーザの音声を検出することによって、ユーザに話しかけて対話を開始することができる。また、対話装置は、カメラによってユーザの顔などを検出することによって、ユーザが近くにいる場合にのみ、ユーザに話しかけて対話を開始することもできる。この場合、ユーザは、対話装置のボタン操作などを行わない状態（以下「ハンズフリー状態」という。）で、対話装置との対話を開始することができる。

しかしながら、ユーザが対話装置の近くで発話したからといって、ユーザが対話装置と対話しようとする意思（対話意思）を有しているとは限らない。そのため、ユーザが対話意思を有していないにもかかわらず、ユーザの発話が対話装置への話しかけであると判断し、対話装置が誤ったタイミングで対話を開始してしまうおそれがある。

“Pepper”などのロボット型音声対話システム（非特許文献１参照）では、カメラによる顔検出技術を組み合わせて、ユーザの顔を発見した際に対話を開始する機構を実装している。しかし、このシステムではユーザが近くにいないのにシステムから話しかけてしまう問題は解決できるものの、システムが周囲の音に反応して誤って対話を開始してしまう問題は解決できない。

本発明は、上記問題点に鑑みてなされたものであり、適切なタイミングでユーザとの対話を開始することが可能な対話装置および対話方法を提供することを目的とする。

本発明の一態様に係る対話装置は、ユーザとの対話を行うための対話装置であって、ハンズフリー状態にあるユーザとの対話を開始するタイミングを検出するための複数の検出モードを実行可能に構成された検出部と、対話装置からユーザへ伝達すべき情報の有無に応じて、検出部の検出モードを切り替える切替部と、を備え、前記検出部の前記複数の検出モードは、前記ユーザの対話意思を検出する第１の検出モードと、前記ユーザの対話意思を検出し且つ前記ユーザが前記対話装置から所定範囲内に位置することを検出する第２の検出モードと、を含み、前記切替部は、前記対話装置から前記ユーザへ伝達すべき情報が無い場合には、前記検出部を前記第１の検出モードに切り替え、前記対話装置から前記ユーザへ伝達すべき情報が有る場合には、前記検出部を前記第２の検出モードに切り替える。

本発明の一態様に係る対話方法は、ユーザと対話装置との間で対話を行うための対話方法であって、対話装置が、ハンズフリー状態にあるユーザとの対話を開始するタイミングを検出するための複数の検出モードのうちいずれかの検出モードを用いて、対話を開始するタイミングを検出するステップと、対話装置が、対話装置からユーザへ伝達すべき情報の有無に応じて、検出するステップにおいて用いる検出モードを切り替えるステップと、を含み、前記複数の検出モードは、前記ユーザの対話意思を検出する第１の検出モードと、前記ユーザの対話意思を検出し且つ前記ユーザが前記対話装置から所定範囲内に位置することを検出する第２の検出モードと、を含み、前記切り替えるステップにおいて、前記対話装置は、前記対話装置から前記ユーザへ伝達すべき情報が無い場合には、前記検出するステップにおいて用いる検出モードを前記第１の検出モードに切り替え、前記対話装置から前記ユーザへ伝達すべき情報が有る場合には、前記検出するステップにおいて用いる検出モードを前記第２の検出モードに切り替える。

上記の対話装置または対話方法では、対話装置からユーザへ伝達すべき情報の有無に応じて切り替えられた検出モードを用いて、ユーザとの対話を開始するタイミングを検出する。これにより、対話を開始すべきか否かなどの基準を柔軟に変更し、適切なタイミングで対話を開始することができる。

また、ユーザへ伝達すべき情報がない場合には、第１の検出モードを用いて、ユーザに対話意思が有るときにのみ、対話を開始することができる。したがって、たとえばユーザと他人との会話に反応して対話を開始してしまうことを防ぐことができる。また、ユーザへ伝達すべき情報が有るときには、第２の検出モードを用いてユーザが所定範囲内に位置している（近くにいる）ときにユーザとの対話を開始して、情報を確実にユーザへ伝達することができる。よって、適切なタイミングでユーザとの対話を開始することができる。

また、第１の検出モードでは、検出部が、ユーザの音声中の所定のキーワード、ユーザの所定の動作、ユーザの対話装置への接触、の少なくとも１つを検出することによって、ユーザの対話意思を検出してもよい。これにより、たとえば、ユーザの音声発話による対話装置への呼びかけ、ユーザの動作（ジェスチャー）、または対話装置へのユーザの接触行為などを契機として、対話を開始することができる。

また、第２の検出モードでは、検出部が、カメラ画像によって検出されるユーザの存在、人感センサによって検出されるユーザの存在、対話装置以外の装置のユーザ操作によって検出されるユーザの存在、時刻および照度に基づいて推論されるユーザの存在、の少なくとも１つを検出することによって、ユーザの対話意思を検出し且つユーザが対話装置から所定範囲内に位置することを検出してもよい。これにより、ユーザの存在を明確に検出して、より適切なタイミングでユーザとの対話を開始することができる。

また、対話装置は、対話装置からユーザへ伝達すべき優先度が所定レベル以上の情報が有り且つユーザが対話装置から所定範囲よりも外側に位置する場合に、ユーザを所定範囲内に誘導するための表現を出力する出力制御部、をさらに備えてもよい。これにより、ユーザを対話装置の近くに誘導して、早期に対話を開始することができる。したがって、ユーザへ伝達すべき優先度の高い情報を、早期にユーザに伝達することができる。

また、対話装置は、対話装置からユーザへ伝達すべき優先度が所定レベル未満の情報が有る場合には、当該情報の存在をユーザに伝達するための表現を出力する出力制御部、をさらに備えてもよい。これにより、ユーザに、情報の存在を知らせて、ユーザの興味を喚起することができる。したがって、ユーザが対話意思を有するようになる可能性が高まる。

本発明によれば、適切なタイミングで対話を開始することが可能になる。

対話システムの概略構成を示す図である。対話装置の詳細構成を示す図である。対話装置のハードウェア構成を示す図である。伝達情報データテーブルの一例を示す図である。応答データテーブルの一例を示す図である。キャラクタの動作例を示す図である。対話装置の状態遷移図である。対話装置の状態遷移を説明するためのフローチャートの一例である。

以下、本発明の実施形態について、図面を参照しながら説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。

図１は、実施形態に係る対話装置および対話方法が適用される、対話システムの概要を示す図である。図１に示すように、対話システム１においては、ユーザ１０と、対話装置１００との対話が行われる。

対話装置１００は、インタフェース部１１０を含む。図１に示す例では、インタフェース部１１０の一部（後述の図２のディスプレイ１１５）に、ヒト型のキャラクタ１１が表示されている。このようなヒト型のキャラクタ１１の表示によって、ユーザ１０は、あたかも人間と対話するように、対話装置１００と対話することができる。

対話装置１００は、通信ネットワーク５０を介して、サーバ２００と接続可能とされている。これにより、対話装置１００は、ユーザ１０との対話に用いるための多くの情報を、サーバ２００から取得することができる。

対話装置１００は、ユーザ１０との対話を行うことが可能であればよく、その外観や大きさなどは図１に示す例に限定されるものではない。たとえば、対話装置１００は、スマートフォンのような端末装置を用いて好適に実現される。そのような端末装置は、ユーザ１０との対話に必要なスピーカ、マイク、各種センサなどの様々なデバイス、およびユーザ１０との接点となるディスプレイを備えており、また、通信ネットワーク５０を介してサーバ２００と通信することができるからである。また、対話装置１００として、人間の形状を模した物理的なロボットなどを用いてもよい。

ユーザ１０は、ハンズフリー状態で、対話装置１００と対話することができる。本明細書におけるハンズフリー状態とは、ユーザ１０が対話装置１００に接触して行う操作（たとえば対話装置１００のボタン操作など）を行わない状態を意味する。なお、ユーザ１０が対話装置１００以外のものに触れている場合でも、対話装置１００に接触していなければ、ハンズフリー状態とされる。

ユーザ１０と対話装置１００との対話は、ユーザ１０が対話装置１００の近くにいる状態で行われることが好ましい。図１において、対話に好ましいユーザ１０と対話装置１００との位置関係が、領域Ｒとして破線で例示される。領域Ｒの範囲は、ユーザ１０が対話装置１００に表示されているキャラクタ１１を良好に視認することができ、また、対話装置１００からの音声を良好に認識できるような範囲とすることができる。そのような領域Ｒの範囲は、たとえば対話装置１００から数十センチ〜数メートル程度の範囲である。図１に示す例では、領域Ｒは、対話装置１００の正面側（インタフェース部１１０が設けられている側）に広く設定され、対話装置１００の側面および背面には狭く設定されている。すなわち、領域Ｒは、対話装置１００の正面側に長く設定され、対話装置１００の側面および背面に短く設定される。このような領域Ｒ内にユーザ１０が位置するときには、ユーザ１０は対話装置１００の正面と向かいあって対話できる可能性が高まるので、対話をスムーズに（ユーザ１０にとって快適に）行うことができる。

図２は、対話装置１００の詳細構成を示す図である。図２に示すように、対話装置１００は、インタフェース部１１０と、データ処理部１２０と、検出部１３０と、切替部１４０と、制御部１５０と、保存部１６０と、伝達情報決定部１６５と、通信部１７０とを含む。

インタフェース部１１０は、対話装置１００の外部（主に図１のユーザ１０）と情報をやり取りするための部分である。インタフェース部１１０は、カメラ１１１と、人感センサ１１２と、赤外線センサ１１３と、照度センサ（推論センサ）１１４と、ディスプレイ１１５と、マイク１１６と、スピーカ１１７と、操作パネル１１８とを含む。

データ処理部１２０は、インタフェース部１１０に入力された情報の解析などに必要なデータ処理を行い、また、インタフェース部１１０が種々の出力する情報の生成などに必要なデータ処理を行う部分である。データ処理部１２０は、画像処理部１２１と、センサデータ処理部１２２と、出力処理部１２３と、音声認識部１２４と、音声合成部１２５と、入力処理部１２６とを含む。

以下、インタフェース部１１０およびデータ処理部１２０に含まれる各部について説明する。

カメラ１１１は、たとえばユーザ１０を撮像する。たとえば、画像処理部１２１は、カメラ画像におけるユーザ１０の顔の位置（または領域）を検出する。そのためのデータ処理には、種々の公知の技術を用いることができる。たとえば、***（登録商標）社によって提供されるスマートフォン用ＯＳとして知られているアンドロイド（登録商標）に提供される種々のＡＰＩ（Application Program Interface）に関する情報（たとえば、入手のための情報、使い方の情報など）が、下記のサイトに記載されている。
http://developer.android.com/reference/android/media/FaceDetector.html

さらに、画像処理部１２１は、カメラ１１１が撮像した画像データに基づいて、ユーザ１０の特定の動作（たとえば手を掲げるなどのジェスチャ）を検出することもできる。たとえば、ユーザの姿勢などを検出する機能を有する製品が下記のサイトで公知となっており、その技術を対話装置１００に適用したり、あるいは、それらの製品と対話装置１００とを通信可能に構成してそれらの製品から出力される情報を利用することで、ユーザ１０の動作を検出することができる。
http://www.microsoft.com/en-us/kinectforwindows/

人感センサ１１２は、物体（人）の接近を検出する。人感センサ１１２として、たとえば、赤外光（あるいは音波）を発して、物体からの反射光（あるいは反射波）を検出するタイプのセンサを用いることができる。センサデータ処理部１２２は、人感センサ１１２の検出結果に基づいて、ユーザ１０が対話装置１００の近くにいるか否かを判断することができる。そのためのデータ処理には、種々の公知の技術を用いることができる。たとえば、***社によって提供されるスマートフォン用ＯＳとして知られているアンドロイドに提供される種々のＡＰＩに関する情報（たとえば、入手のための情報、使い方の情報など）が、下記のサイトに記載されている。
http://developer.android.com/reference/android/hardware/SensorManager.html

赤外線センサ１１３は、赤外線を検出する。たとえば、ユーザ１０が対話装置１００の近くでテレビなどを操作するためにリモコンを操作すると、赤外線センサ１１３は、リモコンから発せられる赤外線を検出する。センサデータ処理部１２２は、赤外線センサ１１３の検出結果に基づいて、ユーザ１０が対話装置１００の近くにいるか否かを判断する。たとえば、赤外線センサ１１３が赤外線を検出すると、ユーザ１０が対話装置１００の近くにいると判断される。

照度センサ１１４は、周囲の明るさ（照度）を検出する。センサデータ処理部１２２は、照度センサ１１４の検出結果と、現在の時刻（時間帯）とに基づいて、ユーザ１０が対話装置１００の近くにいるか否かを推論（判断）する。たとえば、夜間に、照度センサ１１４によって高い照度が検出された場合には、ユーザ１０が対話装置１００の近くにいると判断される。このようにして、照度センサ１１４を、ユーザ１０の存在を推論する推論センサとして機能させることができる。現在の時刻は、たとえば対話装置１００に含まれるタイマ（図示しない）の機能を用いて取得することができる。照度の検出のためのデータ処理には、種々の公知の技術を用いることができる。たとえば、***社によって提供されるスマートフォン用ＯＳとして知られているアンドロイドに提供される種々のＡＰＩに関する情報（たとえば、入手のための情報、使い方の情報など）が、下記のサイトに記載されている。なお、センサデータ処理部１２２は、照度センサ１１４の検出結果に代えて、カメラ１１１によって撮像された画像における照度（明度）と、現在の時刻とに基づいて、上記の推論を行うこともできる。
http://developer.android.com/reference/android/hardware/SensorManager.html

ディスプレイ１１５は、ユーザ１０が視認可能な情報を表示する。出力処理部１２３は、ディスプレイ１１５の表示に必要なデータ処理を行う。たとえばディスプレイ１１５におけるキャラクタ１１の動作を表すのに必要なデータ処理が、出力処理部１２３によって行われる。ディスプレイ１１５は、ユーザ１０の対話装置１００への接触を検出できるように、タッチパネルとすることもできる。

マイク１１６は、ユーザ１０の音声を検出する。音声認識部１２４は、マイク１１６の検出結果に基づいて、ユーザ１０の音声を認識する。また、音声認識部１２４は、認識した音声を所定のフォーマット（たとえばテキストの形式）に変換する。音声を認識するためのデータ処理には、種々の公知の技術を用いることができる。たとえば、***社によって提供されるスマートフォン用ＯＳとして知られているアンドロイドに提供される種々のＡＰＩに関する情報（たとえば、入手のための情報、使い方の情報など）が、下記のサイトに記載されている。
http://developer.android.com/reference/android/speech/RecognizerIntent.html

スピーカ１１７は、ユーザ１０が聴認可能な音声を発する。音声合成部１２５は、スピーカ１１７が発する音声を生成するための種々のデータ処理を行う。たとえば、音声合成部１２５は、各種の音データを合成することによって、テキストの形式で指定された内容（情報）を音声に変換する。そのためのデータ処理には、種々の公知の技術を用いることができる。たとえば、***社によって提供されるスマートフォン用ＯＳとして知られているアンドロイドに提供される種々のＡＰＩに関する情報（たとえば、入手のための情報、使い方の情報など）が、下記のサイトに記載されている。
http://developer.android.com/reference/android/speech/tts/TextToSpeech.html

操作パネル１１８は、ユーザ１０の操作（ユーザ操作）を検出する。入力処理部１２６は、操作パネル１１８の検出結果に基づいて、ユーザ操作に応じた必要なデータ処理を行う。なお、ディスプレイ１１５がタッチパネルの場合には、ユーザ１０がディスプレイ１１５に表示されているキャラクタ１１に接触（タップ）したことを検出するとによっても、ユーザ操作に応じた必要なデータ処理が行われる。

以上の構成によって、対話装置１００は、たとえば、インタフェース部１１０を介して、外部（ユーザ１０を含む）から種々の情報を取得し、また、外部（ユーザ１０を含む）に種々の情報を伝達することができる。そして、本実施形態においては、さらに、後述する検出部１３０、切替部１４０、制御部１５０、保存部１６０、伝達情報決定部１６５、通信部１７０などの各要素が協働することによって、ユーザ１０との対話が実現される。

検出部１３０は、ハンズフリー状態にあるユーザ１０との対話を開始するタイミングを検出する部分である。検出部１３０は、複数の検出モードを実行可能に構成される。複数の検出モードは、ユーザ１０の対話意思を検出する第１の検出モードと、ユーザ１０の対話意思を検出し且つユーザ１０が対話装置１００から所定範囲内（たとえば図１の領域Ｒの内側）に位置することを検出する第２の検出モードとを含む。第１の検出モードおよび第２の検出モードの詳細については、後述する。

切替部１４０は、検出部１３０の検出モードを切り替える部分である。切替部１４０は、対話装置１００からユーザ１０へ伝達すべき情報の有無に応じて、検出部１３０の検出モードを切り替える。ユーザ１０へ伝達すべき情報の有無は、後述の保存部１６０を参照して判断される。切替部１４０は、対話装置１００からユーザ１０へ伝達すべき情報が無い場合には、検出部１３０を第１の検出モードに切り替える。一方、切替部１４０は、対話装置１００からユーザ１０へ伝達すべき情報が有る場合には、検出部１３０を第２の検出モードに切り替える。

制御部１５０は、対話装置１００の各要素を制御する部分であり、後述する対話制御部１５１と出力制御部１５２とを含んで構成される。ただし、制御部１５０の機能は、対話制御部１５１および出力制御部１５２の機能に限定されるものではない。

保存部１６０は、対話装置１００からユーザ１０へ伝達すべき情報を保存する部分である。ここで、図４を参照して、保存部１６０に保存されている情報の一例について説明する。

図４は、保存部１６０に保存される情報のデータテーブルの一例を示す図である。図４に示すように、伝達情報データテーブル１６０ａは、積極伝達フラグと、伝達情報と、評価情報とを対応付けて記述している。

積極伝達フラグは、伝達情報が、対話装置１００からユーザ１０へ積極的に伝達すべき情報であることを示す。図４に示す例では、積極伝達フラグは、「ｔｒｕｅ」と「ｆａｌｓｅ」の２通りで表される。積極伝達フラグが「ｔｒｕｅ」の伝達情報は、積極伝達フラグが「ｆａｌｓｅ」の伝達情報よりも、対話装置１００からユーザ１０へ伝達すべき優先度が高い。たとえば各伝達情報について優先度を数値化することによって、優先度が所定値（所定レベル）以上の伝達情報については積極伝達フラグを「ｔｒｕｅ」とし、優先度が所定レベル未満の伝達情報については積極伝達フラグを「ｆａｌｓｅ」とすることができる。

伝達情報は、対話装置１００からユーザ１０へ音声で伝達する情報である。図４に示す例では、伝達情報として、「明日は雨が降りそうです。傘をお忘れなく！」、「午後は雷雨になります。雷が鳴り始めたら屋内に避難しましょう！」、「２１：００からアニメ「＠＠」始まるよ。」、「芸能人の＃＃さんが逮捕されたみたい。」などが挙げられる。

評価情報は、伝達情報の存在をユーザ１０に伝達するための情報である。評価情報は、積極伝達フラグが「ｆａｌｓｅ」の場合に存在し得る。評価情報は、伝達情報の優先度が所定レベル未満の場合には、伝達情報そのものではなく伝達情報の存在をユーザ１０に伝達するための表現として用いられる。図４に示す例では、伝達情報「２１：００からアニメ「＠＠」始まるよ。テレビつけようよ。」および「芸能人の＃＃さんが逮捕されたみたい。」について、評価情報「毎週楽しみだ〜」および「本当に？信じられない」がそれぞれ対応づけられている。

再び図２に戻って、制御部１５０は、対話装置１００からユーザ１０へ伝達すべき情報を、保存部１６０から取得することができる。具体的に、制御部１５０は、積極伝達フラグ（図４）が「ｔｒｕｅ」の伝達情報を、対話装置１００からユーザ１０へ伝達すべき情報として取得する。

伝達情報決定部１６５は、対話装置１００からユーザ１０に伝達すべき情報を新たに生成して、保存部１６０に記憶させる。具体的に、伝達情報決定部１６５は、図４の積極伝達フラグ、伝達情報、および必要に応じて評価情報を生成し、保存部１６０（の伝達情報データテーブル１６０ａ）を更新する。たとえば、伝達情報決定部１６５は、決まった時刻に外部の天気予報ＡＰＩを利用して翌日の降水確率を取得する。そして、８０％を超えていた場合は新たに保存部１６０に「明日は雨が降りそうです。傘をお忘れなく！」という情報（テキスト）を、伝達情報として追加保存する。その他にも重要なメールの受信時に、「Ａさんからメールが来ているみたいですよ。読みましたか？」というテキストを追加保存する、あらかじめ設定した番組の放送時刻を、番組情報を掲載したＷｅｂサイトの情報から確認し、放送時刻近くになったら情報を追加する、など外部で起きた事象を通知する様々な手段の実装が考えられる。積極伝達フラグは取得元によって「ｔｒｕｅ」または「ｆａｌｓｅ」を設定する。たとえば天気予報やメールの場合は「ｔｒｕｅ」、番組情報やニュースの場合は「ｆａｌｓｅ」を設定する。評価情報も、情報の取得元と対応付けた固定の文言を設定することで実現できる。たとえば番組情報の場合は「毎週楽しみだー」、ニュース情報の場合は「本当に？信じられない」などの文言を設定する。

通信部１７０は、対話装置１００の外部（たとえば図１のサーバ２００）と通信を行う部分である。通信の手法は特に限定されないが、たとえば通信部１７０と基地局（図示しない）との無線通信、および、基地局とサーバ２００との有線通信などを用いることができる。通信部１７０を介して、伝達情報決定部１６５は、対話装置１００の外部から情報を取得して、多くの伝達情報を生成することができる。

ここで、図３を参照して、対話装置１００のハードウェア構成について説明する。図３は、対話装置１００のハードウェア構成図である。図３に示されるように、対話装置１００は、物理的には、１または複数のＣＰＵ（Central Processing unit）２１、主記憶装置であるＲＡＭ（Random Access Memory）２２およびＲＯＭ（Read Only Memory)２３、データ送受信デバイスである通信モジュール２６、半導体メモリなどの補助記憶装置２７、操作盤（操作ボタンを含む）やタッチパネルなどのユーザの入力を受け付ける入力装置２８、ディスプレイなどの出力装置２９、カメラなどの撮像装置２４、ならびに赤外線センサなどの各種センサ２５のハードウェアを備えるコンピュータとして構成され得る。図２における対話装置１００の各機能は、たとえば、ＣＰＵ２１、ＲＡＭ２２などのハードウェア上に１または複数の所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１０１の制御のもとで通信モジュール２６、入力装置２８、出力装置２９、撮像装置２４および各種センサ２５を動作させるとともに、ＲＡＭ２２および補助記憶装置２７におけるデータの読み出しおよび書き込みを行うことで実現することができる。

再び図２を参照して、検出部１３０が実行する第１の検出モードおよび第２の検出モードの詳細について説明する。

第１の検出モードでは、検出部１３０は、ユーザ１０の対話意思を検出する。具体的に、第１の検出モードでは、検出部１３０が、ユーザ１０の音声中の所定のキーワード、ユーザ１０の所定の動作、ユーザ１０の対話装置１００への接触、の少なくとも１つを検出することによって、ユーザ１０の対話意思を検出する。

ユーザ１０の音声中の所定のキーワードの検出は、マイク１１６および音声認識部１２４などを用いて行われる。ユーザ１０の所定の動作の検出は、カメラ１１１および画像処理部１２１などを用いて行われる。ユーザ１０の対話装置１００への接触の検出は、ディスプレイ１１５、操作パネル１１８および入力処理部１２６などを用いて行われる。なお、先に説明したように、対話装置１００として人間の形状を模した物理的なロボットが用いられる場合には、ユーザ１０の、ロボットの頭を撫でる、肩を叩くなどの物理的なインタラクションから、ユーザ１０の対話意思を検出することが可能である。

ユーザ１０の音声中の所定のキーワードを検出する場合には、たとえば、「こんにちは」、「おはよう」などの特定のキーワードを予め設定しておき、音声認識部１２４によって認識されたユーザの発話内容が上記キーワードと一致する（あるいは上記キーワードを含む）場合に、ユーザ１０が対話意思を有していると判断することができる。

音声入力の方式は連続的な対話を想定したものと異なる、キーワード型の音声入力に特化した方式を採用してもよい。大規模な語彙が必要な場合は携帯通信端末などの記憶領域や計算能力に限りがあるクライアントを想定すると音声認識にサーバ接続が必要な場合があり、音声対話時はサーバ接続型の音声認識、キーワード型音声入力にはそのような手段ではなく端末内部で完結可能な音声認識エンジンを利用することがバッテリ消費の効率等の面で有効である。たとえば、市販の音声認識エンジンでも、同事業者がサーバ型、ローカル型の複数の方式によるエンジンを販売していることが一般的であり、それらに関する情報（たとえば、入手のための情報、使い方の情報など）が、下記のサイトに記載されている。
http://www.fuetrek.co.jp/product/vgate/asr.html

検出部１３０は、第１の検出モードを実行することによって、ハンズフリー状態にあるユーザ１０との対話を開始するタイミング（対話開始契機）を検出することができる。先に説明したように、対話装置１００からユーザ１０へ伝達すべき情報が無い場合に、切替部１４０によって、検出部１３０は第１の検出モードに切り替えられる。具体的に、積極伝達フラグ（図４）が「ｔｒｕｅ」となっている伝達情報が無い場合に、切替部１４０は、対話装置１００からユーザ１０へ伝達すべき情報が無いと判断して、検出部１３０を第１の検出モードに切り替える。このため、第１の検出モードでは、ユーザに対話意思が有るときの対話開始契機（ユーザ主導型対話開始契機）のみが検出される。

ユーザ主導対話開始契機が検出されると、ユーザ１０の対話意思に対話装置１００が応答することによって、ユーザ１０と対話装置１００との対話が開始される。対話は、対話制御部１５１が対話装置１００の各要素を制御することによって行われる。たとえばユーザ１０の発話がユーザ主導対話開始契機として検出された場合には、対話装置１００は、ユーザ１０の発話に応答する発話を行うことによって対話を開始する。対話装置１００の応答内容の決定方法はとくに限定されるものではないが、たとえば、ユーザ１０の特定の発話（ユーザの音声中の所定のキーワードなど）に対する対話装置１００からの応答を図５の応答データテーブル１６１に記憶しておき、その応答データテーブル１６１にしたがって応答を決定することができる。応答データテーブル１６１は、たとえば保存部１６０に保存される。

図５は、応答データテーブル１６１の一例を示す図である。図５に示すように、応答データテーブル１６１は、ユーザ発話と、応答情報を対応づけて記述している。図５に示す例では、ユーザ発話「こんにちは」、「おはよう」、「行ってきます」、「ただいま」に対して、システム発話「こんにちは。アナタの名前は？」、「お早うございます！」、「行ってらっしゃい！」、「お帰りなさーい」がそれぞれ対応する。

このようにユーザ１０の対話意思（発話など）に対して対話装置１００が応答することを契機として、ユーザ１０と対話装置１００との対話を開始することができる。なお、ユーザ１０の対話意思が発話以外の場合、たとえば、ユーザ１０の所定の動作、ユーザ１０の対話装置１００への接触などの場合には、それらに対応する応答データテーブルを作成しておくとよい。

第２の検出モードでは、検出部１３０は、第１の検出モードでの動作（ユーザ１０の対話意思を検出する）に加えて、さらに、ユーザ１０が対話装置１００から所定範囲内（たとえば領域Ｒの内側）に位置することを検出する。具体的に、第２の検出モードでは、検出部１３０が、カメラ１１１の画像（カメラ画像）によって検出されるユーザ１０の存在、人感センサ１１２によって検出されるユーザ１０の存在、対話装置以外の装置のユーザ操作によって検出されるユーザの存在、時刻および照度に基づいて推論されるユーザ１０の存在、の少なくとも１つを検出することによって、ユーザ１０の対話意思を検出し且つユーザ１０が対話装置１００から所定範囲内に位置することを検出する。

カメラ画像によって検出されるユーザ１０の存在の検出は、カメラ１１１および画像処理部１２１などを用いて行われる。人感センサ１１２によって検出されるユーザ１０の存在の検出は、人感センサ１１２およびセンサデータ処理部１２２を用いて行われる。対話装置以外の装置のユーザ操作によって検出されるユーザの存在の検出は、たとえば、赤外線センサ１１３およびセンサデータ処理部１２２などを用いて行われる。時刻および照度に基づいて推論されるユーザ１０の検出は、照度センサ１１４およびセンサデータ処理部１２２などを用いて行われる。

検出部１３０は、第２の検出モードを実行することによっても、対話開始契機を検出することができる。先に説明したように、対話装置１００からユーザ１０へ伝達すべき情報が有る場合に、切替部１４０によって、検出部１３０は第２の検出モードに切り替えられる。具体的に、積極伝達フラグ（図４）が「ｔｒｕｅ」となっている伝達情報が有る場合に、切替部１４０は、対話装置１００からユーザ１０へ伝達すべき情報が有ると判断して、検出部１３０を第２の検出モードに切り替える。第２の検出モードにおいても、第１の検出モードと同様に、ユーザ主導型対話開始契機が検出される。また、第２の検出モードでは、さらに、ユーザ１０が対話装置１００から所定範囲内（たとえば領域Ｒの内側）に位置する場合における対話開始契機（システム主導対話開始契機）が検出される。

第２の検出モードにおいてユーザ主導対話開始契機が検出された場合に実行される処理については、先に説明した第１の検出モードと同様である。

第２の検出モードにおいてシステム主導対話開始契機が検出されると、対話装置１００からユーザ１０に情報を伝達することによって、対話が開始される。具体的に、積極伝達フラグ（図４）が「ｔｒｕｅ」となっている伝達情報が、ユーザ１０に伝達される。図４に示す伝達情報データテーブル１６０ａの場合には、積極伝達フラグが「ｔｒｕｅ」となっているシステム発話「明日は雨が降りそうです。傘をお忘れなく！」および「午後は雷雨になります。雷が鳴り始めたら屋外に避難しましょう！」が、対話装置１００からユーザ１０に伝達される。

このように対話装置１００からユーザ１０に情報を伝達することを契機として、ユーザ１０と対話装置１００との対話を開始することができる。伝達情報がユーザ１０に伝達されると、その伝達情報は、保存部１６０から削除される。伝達情報の削除は、制御部１５０によって行われてもよいし、伝達情報決定部１６５によって行われてもよい。

先に説明したように、対話は、対話制御部１５１が対話装置１００の各要素を適切に制御することによって行われる。ここで、伝達情報決定部１６５は、対話中においても、保存部１６０に記憶されている情報を更新することができる。保存部１６０の更新は連続的に行われてもよいし、所定間隔で行われてもよい。対話中に保存部１６０が更新されることによって、対話装置１００からユーザ１０へ伝達すべき情報を補充して、対話を充実させることができる。保存部１６０の更新によって積極伝達フラグが「ｔｒｕｅ」である伝達情報が発生すると、対話装置１００からユーザ１０にその情報が伝達される。一方、対話装置１００からユーザ１０へ伝達すべき情報がない場合には、対話装置１００は、ユーザからの発話の待ち受けを行う。

対話装置１００からユーザ１０に伝達すべき情報が無く、さらに、ユーザ１０から対話装置１００への発話がないと判断されると、ユーザ１０と対話装置１００との対話が終了する。その後、対話装置１００は、ふたたび対話開始の契機の待ち受けを行う。具体的に、検出部１３０が第１の検出モードまたは第２の検出モードを実行して、対話を開始するタイミングを検出する。対話の終了に際して、ユーザ１０から対話装置１００への発話がないことの判断は、たとえばユーザ１０の発話が一定時間存在しないか否かに基づいて行うことができる。その際、カメラ画像におけるユーザ１０（の顔領域）の有無など、ユーザ１０が対話装置１００の近くにいるか否かという情報などを考慮してもよい。

次に、出力制御部１５２について説明する。出力制御部１５２は、対話装置１００がユーザ１０に対して所定の表現を出力するように、対話装置１００を制御する。

出力制御部１５２は、対話装置１００からユーザ１０へ伝達すべき優先度が所定レベル以上の情報が有り且つユーザ１０が対話装置１００から所定範囲（たとえば領域Ｒ）よりも外側に位置する場合に、ユーザ１０を所定範囲内（たとえば図１に示す領域Ｒの内側）に誘導するための表現を出力するように、対話装置１００を制御する。

この場合、出力制御部１５２は、積極伝達フラグ（図４）が「ｔｒｕｅ」の伝達情報が１つ以上有る場合に、視覚的にそのことを示すようにキャラクタ１１の動作を変更する機能（積極的伝達情報有無通知機能）を有する。たとえば図６（ｂ）に示すような手を振る動作に、キャラクタ１１の動作が変更される。この場合、対話装置１００からユーザ１０に音声によって強制的に情報を伝達することはないが、ユーザ１０の視界にキャラクタ１１の動作が入ることによって、ユーザ１０を対話装置１００の近くに誘導することができる。

また、出力制御部１５２は、対話装置からユーザへ伝達すべき優先度が所定レベル未満の情報が有る場合には、当該情報の存在をユーザに伝達するための表現を出力するように、対話装置１００を制御する。

この場合、出力制御部１５２は、情報伝達フラグが「ｔｒｕｅ」の伝達情報が１つもない一方で、情報伝達フラグが「ｆａｌｓｅ」の伝達情報が１つ以上有る場合には、視覚的にそのことを示すようにキャラクタ１１の動作を変更する機能（非積極的伝達情報評価提示機能）を有する。たとえば図６（ａ）に示すようなテレビを見ている動作に、キャラクタ１１の動作が変更される。なお、図示しないが、それに対する評価（図４の評価情報）も表示される。この場合、強制的にユーザ１０に伝達しなければならないほどユーザ１０にとって有益な情報であるか否かは不明であるが、ユーザ１０が興味を持つ可能性のある情報の存在を、ユーザに知らせることができる。なお、評価情報を表示する代わりに、音声によって評価情報をユーザ１０に伝達してもよい。その場合には、通常の対話時よりも音量を小さくするなど、ユーザ１０にとって注意力をあまり要しない方法で評価情報を伝達することが好ましい。

なお、その他のキャラクタ１１の動作として、図６（ｃ）に示す例では、キャラクタ１１は、話をしている動作を示す。この動作は、ユーザ１０と対話装置１００との対話中に行われる。

図７は、対話装置１００の状態遷移図である。図７に示すように、対話装置１００は、ＳＬＥＥＰ状態、ＷＡＩＴ状態およびＤＩＡＬＯＧＵＥ状態のいずれかの状態に置かれる。

ＳＬＥＥＰ状態は、対話装置１００の初期状態を示す。このＳＬＥＥＰ状態では、対話開始契機としてユーザ主導対話開始契機のみが検出される。すなわち、ＳＬＥＥＰ状態においては、検出部１３０は、第１の検出モードを実行する。この状態は、ユーザ１０がテレビ鑑賞や家族との会話など普段の生活をしていることを想定したものであり、積極的には対話を開始しない。キャラクタ１１の動作も、そのことを明示するためテレビを観ているなどの表示（図６（ａ））にする。この時点で積極伝達フラグ（図４）が「ｆａｌｓｅ」の伝達情報が１つ以上あれば、キャラクタ１１は評価情報を伝達するための動作を示す。

ＳＬＥＥＰ状態において、ユーザ１０の対話意思が検出されると、対話が開始されて、対話装置１００はＤＩＡＬＯＧ状態に移行する（ＡＲ１）。一方、ＳＬＥＥＰ状態において、伝達情報決定部１６５が保存部１６０を（たとえば定期的に）更新することによって、積極伝達フラグ（図４）が「ｔｒｕｅ」の伝達情報が１つ以上生成されると、対話装置１００は、ＷＡＩＴ状態に移行する（ＡＲ２）。

ＷＡＩＴ状態においては、ＳＬＥＥＰ状態と同様にユーザ主導対話開始契機が検出され、さらに、システム主導対話開始契機も検出される。すなわち、ＷＡＩＴ状態においては、検出部１３０は、第２の検出モードを実行する。キャラクタ１１は、ユーザ１０に伝達すべき内容が有ることを視覚的に表現するよう手を振るなどの動作（図６（ｂ））を示す。また、ユーザ１０が対話装置１００の近くに存在していることが検出されると、対話が開始され、対話装置１００はＤＩＡＬＯＧ状態に移行する（ＡＲ３）。

ＤＩＡＬＯＧＵＥ状態においては、ユーザ１０と対話装置１００との対話が進行中である。対話中、積極伝達フラグ（図４）が「ｔｒｕｅ」の伝達情報があれば、その内容が音声として対話装置１００からユーザ１０へ伝達される。また、対話装置１００は、ユーザ１０の発話を音声認識し、応答する（図５の応答情報を用いて返答する）。キャラクタ１１は、対話をしている動作を示す（図６（ｃ））。対話が終了すると、対話装置１００はＷＡＩＴ状態に移行する（ＡＲ４）。

対話が終了してＷＡＩＴ状態となったときには、ほとんどの場合、積極伝達フラグ（図４）が「ｔｒｕｅ」であった伝達情報が先の対話によってユーザ１０に伝達された後に削除されているので、積極伝達フラグが「ｔｒｕｅ」の伝達情報が存在せず、対話装置１００はＳＬＥＥＰ状態に移行する（ＡＲ５）。

図８は、対話装置１００（図２）の状態遷移を説明するためのフローチャートである。このフローチャートの処理は、とくに記載がない場合は、対話装置１００の制御部１５０によって実行され得る。

はじめに、対話装置１００は、現在の状態を判断する（ステップＳ１）。ＳＬＥＥＰ状態の場合、ステップＳ２に処理が進められる。ＷＡＩＴ状態の場合、ステップＳ６に処理が進められる。ＤＩＡＬＯＧＵＥ状態の場合、ステップＳ１０に処理が進められる。

ＳＬＥＥＰ状態の場合、対話装置１００の検出部１３０は、ユーザ１０に対話意思が有るか否か判断する（ステップＳ２）。ユーザに対話意思が有る場合（ステップＳ２：ＹＥＳ）、対話装置１００は、ステップＳ４に処理を進める。そうでない場合（ステップＳ２：ＮＯ）、対話装置１００は、ステップＳ３に処理を進める。

ステップＳ２においてユーザに対話意思が無い場合（ステップＳ２：ＮＯ）、対話装置１００は、ユーザ１０に伝達すべき情報が有るか否か判断する（ステップＳ３）。この判断は、たとえば切替部１４０によって行われる。ユーザ１０に伝達すべき情報が有る場合（ステップＳ３：ＹＥＳ）、対話装置１００は、ステップＳ５に処理を進める。そうでない場合（ステップＳ３：ＮＯ）、対話装置１００は、ステップＳ１に再び処理を戻す。

ステップＳ２においてユーザに対話意思が有る場合（ステップＳ２：ＹＥＳ）、対話装置１００は、ＤＩＡＬＯＧＵＥ状態へ移行する（ステップＳ４）。その後、対話装置１００は、ステップＳ１に再び処理を戻す。

ＷＡＩＴ状態の場合、対話装置１００の検出部１３０は、ユーザに対話意思が有るか否か判断する（ステップＳ６）。ユーザに対話意思が有る場合（ステップＳ６：ＹＥＳ）、対話装置１００は、ステップＳ４に処理を進める。そうでない場合（ステップＳ６：ＮＯ）、対話装置１００は、ステップＳ７に処理を進める。

ステップＳ６においてユーザ１０に対話意思が無い場合（ステップＳ６：ＮＯ）、対話装置１００の検出部１３０は、ユーザ１０が近くにいるか否か判断する（ステップＳ７）。ユーザ１０が近くにいる場合（ステップＳ７：ＹＥＳ）、対話装置１００は、ステップＳ４に処理を進める。そうでない場合（ステップＳ７：ＮＯ）、対話装置１００は、ステップＳ７に処理を進める。

ステップＳ７においてユーザ１０が近くにいない場合（ステップＳ７：ＮＯ）、対話装置１００は、ユーザ１０へ伝達すべき情報が無いか否か判断する（ステップＳ８）。この判断は、たとえば切替部１４０によって行われる。ユーザ１０へ伝達すべき情報が無い場合（ステップＳ８：ＹＥＳ）、対話装置１００は、ステップＳ９へ処理を進める。そうでない場合（ステップＳ８：ＮＯ）、対話装置１００は、ステップＳ１に再び処理を戻す。

ステップＳ８においてユーザ１０へ伝達すべき情報が無い場合（ステップＳ８：ＹＥＳ）、対話装置１００は、ＳＬＥＥＰ状態へ移行する（ステップＳ９）。その後、対話装置１００は、ステップＳ１に再び処理を戻す。

ＤＩＡＬＯＧＵＥ状態の場合、対話装置１００は、ユーザ１０との対話が終了したか否か判断する（ステップＳ１０）。この判断は、たとえば対話制御部１５１によって行われる。対話が終了した場合（ステップＳ１０：ＹＥＳ）、対話装置１００は、ステップＳ５に処理を進める。そうでない場合（ステップＳ１０：ＮＯ）、対話装置１００は、ステップＳ１に再び処理を戻す。

なお、図８には図示しないが、保存部１６０の情報は、適時更新されるものとする。保存部１６０が更新されることによって、ユーザ伝達すべき情報が有るか否か（ステップＳ３，Ｓ８）における判断結果が異なるものと成り得る。

図８に示すフローチャートによれば、対話装置１００が、ハンズフリー状態にあるユーザ１０との対話を開始するタイミングを検出するための複数の検出モード（第１の検出モードおよび第２の検出モード）のうちいずれかの検出モードを用いて、対話を開始するタイミングを検出するステップ（ステップＳ２，Ｓ３，Ｓ６，Ｓ７）と、対話装置１００が、対話装置１００からユーザ１０へ伝達すべき情報の有無に応じて、検出するステップにおいて用いる検出モードを切り替えるステップ（Ｓ５，Ｓ９）と、が実行される。

次に、対話装置１００の作用効果について説明する。対話装置１００は、ハンズフリー状態にあるユーザ１０との対話を開始するタイミングを検出するための複数の検出モードを実行可能に構成された検出部１３０と、対話装置１００からユーザへ伝達すべき情報の有無に応じて、検出部１３０の検出モードを切り替える切替部１４０と、を備える。これにより、対話装置１００からユーザ１０へ伝達すべき情報の有無に応じて切り替えられた検出モードを用いて、ユーザ１０との対話を開始するタイミングを検出する。対話を開始すべきか否かなどの基準を柔軟に変更することによって、適切なタイミングで対話を開始することができる。

複数の検出モードは、ユーザ１０の対話意思を検出する第１の検出モードと、ユーザ１０の対話意思を検出し且つユーザ１０が対話装置１００から所定範囲内（領域Ｒの内側）に位置することを検出する第２の検出モードとを含んでおり、切替部１４０は、対話装置１００からユーザ１０へ伝達すべき情報が無い場合には、検出部１３０を第１の検出モードに切り替え、対話装置１００からユーザ１０へ伝達すべき情報が有る場合には、検出部１３０を第２の検出モードに切り替える。これにより、ユーザ１０へ伝達すべき情報が無い場合には、第１の検出モードを用いて、ユーザ１０に対話意思が有るときにのみ、対話を開始することができる。したがって、たとえばユーザ１０と他人との会話に反応して対話を開始してしまうことを防ぐことができる。また、ユーザ１０へ伝達すべき情報が有るときには、第２の検出モードを用いてユーザ１０が所定範囲内に位置している（近くにいる）ときにユーザ１０との対話を開始して、情報を確実にユーザへ伝達することができる。よって、適切なタイミングでユーザ１０との対話を開始することができる。

また、第１の検出モードでは、検出部１３０が、ユーザの音声中の所定のキーワード、ユーザの所定の動作、ユーザの対話装置への接触、の少なくとも１つを検出することによって、ユーザの対話意思を検出する。これにより、たとえば、ユーザの音声発話による対話装置への呼びかけ、ユーザの動作（ジェスチャー）、またはユーザの対話装置への接触行為などを契機として、対話を開始することができる。たとえば、キーワード型音声入力検出機能（キーワードの検出）を備えることでユーザ１０から対話装置１００への音声発話による呼びかけに答えることが可能となる。ジェスチャ入力機能（動作の検出）を備えることで発話をせずに手招きなどの手振りで対話装置１００に対話開始の契機を与えることができる。物理インタラクションセンシング機能（接触の検出）を備えることで、物理的なインタラクションによる対話開始を行うことができる。

また、第２の検出モードでは、検出部１３０が、カメラ画像によって検出されるユーザ１０の存在、人感センサ１１２によって検出されるユーザ１０の存在、対話装置１００以外の装置のユーザ操作によって検出されるユーザ１０の存在、時刻および照度に基づいて推論されるユーザ１０の存在、の少なくとも１つを検出することによって、ユーザ１０の対話意思を検出し且つユーザが対話装置１００から所定範囲内に位置することを検出する。これにより、ユーザ１０の存在を明確に検出して、より適切なタイミングでユーザ１０との対話を開始することができる。たとえば、画像処理機能（カメラ画像による検出）により明確に対話装置１００の前方にユーザ１０が存在することを契機とした話しかけが可能となる。人感センサ１１２による検出により、夜間などの画像処理による検出ができない場合にも話しかけが可能となる。周辺機器操作を検出することにより対話装置１００と正対しない場合にもユーザ１０への話しかけが可能となる。また、推論型検出手段を備えることによって、特殊な画像処理やセンサを要さずにユーザ１０の存在を検出して話しかけを行ったり、複合的にセンサの検出結果を用いることで話しかけタイミングの精度を向上させることが可能となる。

また、対話装置１００は、対話装置１００からユーザ１０へ伝達すべき優先度が所定レベル以上の情報が有り且つユーザ１０が対話装置１００から所定範囲よりも外側に位置する場合に、ユーザ１０を所定範囲内に誘導するための表現を出力する出力制御部１５２、をさらに備える。これにより、ユーザ１０を対話装置１００の近くに誘導して、早期に対話を開始することができる。したがって、ユーザ１０へ伝達すべき優先度の高い情報を、早期にユーザ１０に伝達することができる。すなわち、出力制御部１５２のキャラクタ動作制御機能が、ユーザ１０へ伝達すべき情報が存在する場合に、視覚的にそれをアピールすることで対話装置１００への接近を促し、自然にユーザ１０との対話を開始することが可能となる。

出力制御部１５２は、対話装置１００からユーザ１０へ伝達すべき優先度が所定レベル未満の情報が有る場合には、当該情報の存在をユーザ１０に伝達するための表現を出力する。これにより、ユーザ１０に、情報の存在を知らせて、ユーザ１０の興味を喚起することができる。したがって、ユーザ１０が対話意思を有するようになる可能性が高まる。すなわち、ユーザ１０にとって有益である可能性のある情報が存在する場合に、対話装置１００自身の反応を提示し、間接的にその存在をユーザ１０へ提示することによって、ユーザ１０の興味を喚起し対話へ誘導することが可能となる。

１…対話システム、１０…ユーザ、１１…キャラクタ、５０…通信ネットワーク、１００…対話装置、１１０…インタフェース部、１１１…カメラ、１１２…人感センサ、１１３…赤外線センサ、１１４…照度センサ（推論センサ）、１１５…ディスプレイ、１１６…マイク、１１７…スピーカ、１１８…操作パネル、１２０…データ処理部、１２１…画像処理部、１２２…センサデータ処理部、１２３…出力処理部、１２４…音声認識部、…音声合成部１２５、入力処理部１２６、１３０…検出部、１４０…切替部、１５０…制御部、１５１…対話制御部、１５２…出力制御部、１６０…保存部、１６５…伝達情報決定部１６５、１７０…通信部、２００…サーバ、Ｒ…領域。

Claims

ユーザとの対話を行うための対話装置であって、
ハンズフリー状態にある前記ユーザとの対話を開始するタイミングを検出するための複数の検出モードを実行可能に構成された検出部と、
前記対話装置から前記ユーザへ伝達すべき情報の有無に応じて、前記検出部の検出モードを切り替える切替部と、
を備え、
前記検出部の前記複数の検出モードは、
前記ユーザの対話意思を検出する第１の検出モードと、
前記ユーザの対話意思を検出し且つ前記ユーザが前記対話装置から所定範囲内に位置することを検出する第２の検出モードと、を含み、
前記切替部は、前記対話装置から前記ユーザへ伝達すべき情報が無い場合には、前記検出部を前記第１の検出モードに切り替え、前記対話装置から前記ユーザへ伝達すべき情報が有る場合には、前記検出部を前記第２の検出モードに切り替える、
対話装置。
前記第１の検出モードでは、前記検出部が、前記ユーザの音声中の所定のキーワード、前記ユーザの所定の動作、前記ユーザの前記対話装置への接触、の少なくとも１つを検出することによって、前記ユーザの対話意思を検出する、請求項１に記載の対話装置。
前記第２の検出モードでは、前記検出部が、カメラ画像によって検出される前記ユーザの存在、人感センサによって検出される前記ユーザの存在、前記対話装置以外の装置のユーザ操作によって検出される前記ユーザの存在、時刻および照度に基づいて推論される前記ユーザの存在、の少なくとも１つを検出することによって、前記ユーザの対話意思を検出し且つ前記ユーザが前記対話装置から所定範囲内に位置することを検出する、請求項１または２に記載の対話装置。
前記対話装置から前記ユーザへ伝達すべき優先度が所定レベル以上の情報が有り且つ前記ユーザが前記対話装置から所定範囲よりも外側に位置する場合に、前記ユーザを前記所定範囲内に誘導するための表現を出力する出力制御部、
をさらに備える、請求項１〜３のいずれか１項に記載の対話装置。
前記対話装置から前記ユーザへ伝達すべき優先度が所定レベル未満の情報が有る場合には、当該情報の存在を前記ユーザに伝達するための表現を出力する出力制御部、
をさらに備える、請求項１〜３のいずれか１項に記載の対話装置。
ユーザと対話装置との間で対話を行うための対話方法であって、
前記対話装置が、ハンズフリー状態にある前記ユーザとの対話を開始するタイミングを検出するための複数の検出モードのうちいずれかの検出モードを用いて、前記対話を開始するタイミングを検出するステップと、
前記対話装置が、前記対話装置から前記ユーザへ伝達すべき情報の有無に応じて、前記検出するステップにおいて用いる検出モードを切り替えるステップと、
を含み、
前記複数の検出モードは、
前記ユーザの対話意思を検出する第１の検出モードと、
前記ユーザの対話意思を検出し且つ前記ユーザが前記対話装置から所定範囲内に位置することを検出する第２の検出モードと、を含み、
前記切り替えるステップにおいて、前記対話装置は、前記対話装置から前記ユーザへ伝達すべき情報が無い場合には、前記検出するステップにおいて用いる検出モードを前記第１の検出モードに切り替え、前記対話装置から前記ユーザへ伝達すべき情報が有る場合には、前記検出するステップにおいて用いる検出モードを前記第２の検出モードに切り替える、
対話方法。