JP3514372B2

JP3514372B2 - マルチモーダル対話装置

Info

Publication number: JP3514372B2
Application number: JP15817299A
Authority: JP
Inventors: 真一上窪
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-06-04
Filing date: 1999-06-04
Publication date: 2004-03-31
Anticipated expiration: 2019-06-04
Also published as: JP2000347690A; US6513011B1

Description

【発明の詳細な説明】

【０００１】

【発明が属する技術分野】本発明は、対話型情報入出力
装置に関し、例えば情報機器を利用した受付や案内カウ
ンターで利用者との間に行われる情報のやりとりを円滑
に行うマルチモーダル対話装置に関するものである。

【０００２】

【従来の技術】情報機器を多くの人に使いやすくするた
めに、人が通常使用している音声情報や身振り、手振り
などの複数の入力手段を用いるマルチモーダルシステム
が提案されている。さらに、擬人化エージェントが情報
機器の窓口となり、利用者が情報機器に接しやすくなる
よう考慮されているものもある。

【０００３】特開平６-１２４０１号公報には、擬似的
感情モデルによりエージェントを人間らしく振る舞わ
せ、情報伝達をスムーズに行うことを目的とした感情模
擬装置が提案されている。また、特開平８-２３４７８
９号公報には、マルチモーダル対話データベースの情報
を元にして、複数の入力チャネルからの入力を時刻情報
も含めて統合して扱うことで、より自然な対話を行うこ
とができる統合認識対話装置が提案されている。

【０００４】図１に従来のマルチモーダル対話装置の構
成を示す。このマルチモーダル対話装置は、第１の入力
手段４００、第２の入力手段４０１、第１の認識手段４
１０、第２の認識手段４１１、統合処理手段４２０、対
話管理手段４３０、出力手段４６０、計時手段４７０か
ら成っている。

【０００５】第１の入力手段４００と第２の入力手段４
０１は、それぞれ、利用者からの意識、無意識のマルチ
モーダル情報を入力できる。具体的には、音声信号、利
用者の位置、視線、顔の動き、身体の動きなどである。

【０００６】第１の認識手段４１０、第２の認識手段４
１１は、対応する第１の入力手段４００、第２の入力手
段４０１からのデータに応じた認識アルゴリズムを持
ち、認識結果を統合処理手段４２０に出力する。統合処
理手段４２０は、複数の認識手段から並列に出力される
認識結果を統合し、利用者の意図を認識する。対話管理
手段４３０は、利用者の意図に基づき、最適な対話の管
理を行う。出力手段４６０は、統合処理手段４２０から
の情報を利用者に出力する。計時手段４７０は、第１の
入力手段４００、第２の入力手段４０１、第１の認識手
段４１０、第２の認識手段４１１、統合処理手段４２
０、対話管理手段４３０、出力手段４６０の各手段で行
われる処理の開始時刻、終了時刻、所要時間を計測でき
る。

【０００７】

【発明が解決しようとする課題】前述のような従来のマ
ルチモーダル対話装置では、下記のような問題点が生じ
る。第１の問題点は、複数の入力チャネルからの入力を
統合し、より自然な対話を目的としているが、システム
の認識に要する時間が、人間同士の対話における通常の
「間」より長くなったり短くなったりする場合、つまり
対話における「間」に利用者により個人差がある場合、
その「間」に応じて中断する反応処理については対処し
ていない。

【０００８】第２の問題点は、人間同士の対話における
自然な「間」は、利用者の年齢、性別、性格などにより
異なり、画一的な「間」では不自然に感じる場合があ
る。

【０００９】第３の問題点は、情報機器と利用者との対
話の「間」は、利用者の置かれている状況、対話の流れ
で動的に変化するため、利用者の静的な属性だけでは不
自然に感じる場合がある。

【００１０】本発明は、このような問題点を解決し、利
用者に対し利用者タイプに応じた最適な「間」をもって
対話できるマルチモーダル対話装置を提供することを目
的とする。

【００１１】

【課題を解決するための手段】本発明の第１の形態のマ
ルチモーダル対話装置は、上記第１の問題点を解決する
ため、利用者からの意識、無意識のマルチモーダル情報
を入力できる入力手段と、該入力手段からのデータに応
じた認識アルゴリズムによってマルチモーダル情報を認
識する複数の認識手段と、これら複数の認識手段から並
列に出力される認識結果を統合し、利用者の意図を認識
する統合処理手段と、その認識された利用者の意図に基
づき最適な対話の管理を行い、利用者へ提示する情報を
予め設定されている利用者のタイプに応じた「間」をも
って提示するように、利用者のタイプごとの「間」に従
った生成タイミングを出力する対話管理手段と、該対話
管理手段からの生成タイミングに従い、利用者へ提示す
る情報としての反応の生成と中断を行う反応生成手段
と、該反応生成手段で生成が完了した単数または複数の
出力待ちの情報から、最適な情報を選択する反応選択手
段と、該反応選択手段からの情報を利用者に出力する出
力手段と、前記入力手段、認識手段、統合処理手段、対
話管理手段、反応生成手段、反応選択手段、出力手段の
各手段で行われる処理の開始時刻、終了時刻、所要時間
を計測できる計時手段とを備えている。

【００１２】本発明の第２の形態のマルチモーダル対話
装置は、上記第２の問題点を解決するため、利用者から
の意識、無意識のマルチモーダル情報を入力できる入力
手段と、該入力手段からのデータに応じた認識アルゴリ
ズムによってマルチモーダル情報を認識する複数の認識
手段と、利用者のタイプ別の属性情報とタイプ別の
「間」の関係が保持されている利用者状態記憶部と、前
記複数の認識手段から並列に出力される認識結果を統合
し、利用者の意図を認識する統合処理手段と、その認識
された利用者の意図に基づき、最適な対話の管理を行
い、利用者へ提示する情報を利用者のタイプに応じた
「間」をもって提示するように、前記利用者状態記憶部
を参照して利用者のタイプごとの「間」に従った生成タ
イミングを出力する対話管理手段と、該対話管理手段か
らの生成タイミングに従い、利用者へ提示する情報とし
ての反応の生成と中断を行う反応生成手段と、該反応生
成手段で生成が完了した単数または複数の出力待ちの情
報から、最適な情報を選択する反応選択手段と、該反応
選択手段からの情報を利用者に出力する出力手段と、前
記入力手段、認識手段、統合処理手段、対話管理手段、
反応生成手段、反応選択手段、出力手段の各手段で行わ
れる処理の開始時刻、終了時刻、所要時間を計測できる
計時手段とを備えている。

【００１３】本発明の第３の形態のマルチモーダル対話
装置は、上記第３の問題点を解決するため、利用者から
の意識、無意識のマルチモーダル情報を入力できる入力
手段と、該入力手段からのデータに応じた認識アルゴリ
ズムによってマルチモーダル情報を認識する複数の認識
手段と、利用者のタイプ別の属性情報とタイプ別の
「間」の関係が保持されている利用者状態記憶部と、該
利用者状態記憶部に保持されている静的な情報と、利用
者との対話の推移である動的な情報とから利用者の状況
を推定して最適な「間」を再設定する利用者状況推定部
と、前記複数の認識手段から並列に出力される認識結果
を統合し、利用者の意図を認識する統合処理手段と、そ
の認識された利用者の意図に基づき、最適な対話の管理
を行い、利用者へ提示する情報を利用者のタイプに応じ
た「間」をもって提示するように、前記利用者状況推定
部で再設定された「間」を参照して、利用者のタイプご
との「間」に従った生成タイミングを出力する対話管理
手段と、該対話管理手段からの生成タイミングに従い、
利用者へ提示する情報としての反応の生成と中断を行う
反応生成手段と、反応生成手段で生成が完了した単数ま
たは複数の出力待ちの情報から、最適な情報を選択する
反応選択手段と、該反応選択手段からの情報を利用者に
出力する出力手段と、前記入力手段、認識手段、統合処
理手段、対話管理手段、反応生成手段、反応選択手段、
出力手段の各手段で行われる処理の開始時刻、終了時
刻、所要時間を計測できる計時手段とを備えている。

【００１４】

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について図面を参照して詳細に説明する。

【００１５】図２は本発明の第１の実施例の構成を示す
ブロック図である。このマルチモーダル対話装置は、第
１の入力手段１００、第２の入力手段１０１、第１の認
識手段１１０、第２の認識手段１１１、統合処理手段１
２０、対話管理手段１３０、第１の反応生成手段１４
０、第２の反応生成手段１４１、反応選択手段１５０、
出力手段１６０、計時手段１７０から成っている。この
中で第１の反応生成手段１４０、第２の反応生成手段１
４１、反応選択手段１５０が、図１の従来の構成より追
加された部分である。

【００１６】第１の入力手段１００と第２の入力手段１
０１は、それぞれ、利用者からの意識、無意識のマルチ
モーダル情報を入力できる。具体的には、音声信号、利
用者の位置、視線、顔の動き、身体の動きなどである。

【００１７】第１の認識手段１１０、第２の認識手段１
１１は、対応する第１の入力手段１００、第２の入力手
段１０１からのデータに応じた認識アルゴリズムを持
ち、認識結果を統合処理手段１２０に出力する。

【００１８】統合処理手段１２０は、複数の認識手段か
ら並列に出力される認識結果を統合し、利用者の意図
（利用者の性別や年齢（年代）や来場数などの利用者属
性を含む）を認識する。

【００１９】対話管理手段１３０は、統合処理手段１２
０にて認識された利用者の意図に基づき最適な対話の管
理を行い、利用者へ提示する情報を、予め決めておいた
利用者のタイプに応じた「間」をもって提示するため
に、第１の反応生成手段１４０、第２の反応生成手段１
４１に生成内容と生成タイミングを出力する。また、複
数の生成された情報の選択方法とタイミングを反応選択
手段１５０に出力する。

【００２０】第１の反応生成手段１４０、第２の反応生
成手段１４１は、対話管理手段１３０からの命令に基づ
き、利用者へ提示する情報としての反応の生成、中断を
行う。具体的には、仮想擬似人物像の発話付き動作や動
画データ、ビットマップデータ、音データ、外部制御可
能機器の制御命令などである。

【００２１】反応選択手段１５０は、反応生成手段で生
成が完了した単数または複数の出力待ちの情報から、対
話管理手段１３０からの命令に基づき、最適な情報を選
択し、出力手段１６０に出力する。出力手段１６０は、
反応選択手段１５０からの情報を利用者に出力する。

【００２２】計時手段１７０は、第１の入力手段１０
０、第２の入力手段１０１、第１の認識手段１１０、第
２の認識手段１１１、統合処理手段１２０、対話管理手
段１３０、第１の反応生成手段１４０、第２の反応生成
手段１４１、反応選択手段１５０、出力手段１６０の各
手段で行われる処理の開始時刻、終了時刻、所要時間を
計測できる。

【００２３】本実施例では、入力手段および認識手段は
二組で構成されるが、入力チャネルの増加に対応して、
変更可能とする。また、反応生成手段は二つであるが、
マルチモーダル対話装置の処理能力に応じて、変更可能
とする。

【００２４】よって、第１の実施例によると、利用者の
意図に基づき最適な対話の管理を行い、利用者へ提示す
る情報を利用者のタイプ（利用者の性別や年齢（年代）
や来場数などの利用者属性）に応じた「間」をもって提
示するように、利用者のタイプごとの「間」に従った生
成タイミングを出力する対話管理手段と、複数の反応生
成手段と、これらの反応から最適な反応、つまり予め設
定されている利用者のタイプに応じた「間」を選び、出
力手段へ渡す反応選択手段を備えているため、利用者の
タイプに応じたタイミングの自然な反応を返すことが可
能であり、上述した第１の問題点を解決する。

【００２５】図３は本発明の第２の実施例の構成を示す
ブロック図である。このマルチモーダル対話装置は、第
１の入力手段２００、第２の入力手段２０１、第１の認
識手段２１０、第２の認識手段２１１、統合処理手段２
２０、対話管理手段２３０、第１の反応生成手段２４
０、第２の反応生成手段２４１、反応選択手段２５０、
出力手段２６０、計時手段２７０、利用者状態記憶部２
８０から成っている。この中で第１の反応生成手段２４
０、第２の反応生成手段２４１、反応選択手段２５０、
利用者状態記憶部２８０が、図１の従来の構成より追加
された部分である。

【００２６】第１の入力手段２００、第２の入力手段２
０１は、利用者からの意識、無意識のマルチモーダル情
報を入力できる。具体的には、音声信号、利用者の位
置、視線、顔の動き、身体の動きなどである。

【００２７】第１の認識手段２１０、第２の認識手段２
１１は、対応する第１の入力手段２００、第２の入力手
段２０１からのデータに応じた認識アルゴリズムを持
ち、認識結果を統合処理手段２２０に出力する。

【００２８】統合処理手段２２０は、複数の認識手段か
ら並列に出力される認識結果を統合し、利用者の意図
（利用者の性別や年齢（年代）や来場数などの利用者属
性を含む）を認識する。

【００２９】利用者状態記憶部２８０には、利用者の年
齢（年代）、性別などの利用者属性情報と「間」の関係
が対照させて予め保持されている。図５に例として利用
者状態記憶部の定義を示し、性別、年代、来場数の属性
から利用者タイプを分類し、各タイプに対応する最適な
「間」が対照させて保持されている。

【００３０】対話管理手段２３０は、統合処理手段２２
０にて認識された利用者の意図に基づき、最適な対話の
管理を行い、利用者へ提示する情報を生成するために、
第１の反応生成手段２４０、第２の反応生成手段２４１
に生成内容と生成タイミングを出力する。ここで、最適
な「間」を決定するために、利用者状態記憶部２８０を
参照してそこで定義された「間」を利用する。すなわ
ち、統合処理手段２２０にて認識された利用者の属性
（利用者タイプ）に応じた「間」を選択する。また、複
数の生成された情報の選択方法とタイミングを反応選択
手段２５０に出力する。

【００３１】第１の反応生成手段２４０、第２の反応生
成手段２４１は、対話管理手段２３０からの命令に基づ
き、利用者へ提示する情報としての反応の生成、中断を
行う。具体的には、仮想擬似人物像の発話付き動作や動
画データ、ビットマップデータ、音データ、外部制御可
能機器の制御命令などである。

【００３２】反応選択手段２５０は、反応生成手段で生
成が完了した単数または複数の出力待ちの情報から、対
話管理手段２３０からの命令に基づき、最適な情報を選
択し、出力手段２６０に出力する。出力手段２６０は、
反応選択手段２５０からの情報を利用者に出力する。

【００３３】計時手段２７０は、第１の入力手段２０
０、第２の入力手段２０１、第１の認識手段２１０、第
２の認識手段２１１、統合処理手段２２０、対話管理手
段２３０、第１の反応生成手段２４０、第２の反応生成
手段２４１、反応選択手段２５０、出力手段２６０の各
手段で行われる処理の開始時刻、終了時刻、所要時間を
計測できる。

【００３４】本実施例では、入力手段および認識手段は
二組で構成されるが、入力チャネルの増加に対応して、
変更可能とする。また、反応生成手段は二つであるが、
マルチモーダル対話装置の処理能力に応じて、変更可能
とする。

【００３５】よって、この第２の実施例は、利用者状態
記憶部２８０を備えているため、利用者の年齢、性別、
性格や利用履歴などの利用者属性からタイプ別に「間」
を保持でき、このデータから対話管理手段２３０は利用
者タイプに最適な「間」を設定することが可能であり、
上述した第２の問題点を解決できる。

【００３６】図４は本発明の第３の実施例の構成を示す
ブロック図である。このマルチモーダル対話装置は、第
１の入力手段３００、第２の入力手段３０１、第１の認
識手段３１０、第２の認識手段３１１、統合処理手段３
２０、対話管理手段３３０、第１の反応生成手段３４
０、第２の反応生成手段３４１、反応選択手段３５０、
出力手段３６０、計時手段３７０、利用者状態記憶部３
８０、利用者状況推定部３９０から成っている。この中
で第１の反応生成手段３４０、第２の反応生成手段３４
１、反応選択手段３５０、利用者状態記憶部３８０、利
用者状況推定部３９０が、図１の従来の構成より追加さ
れた部分である。

【００３７】第１の入力手段３００、第２の入力手段３
０１は、利用者からの意識、無意識のマルチモーダル情
報を入力できる。具体的には、音声信号、利用者の位
置、視線、顔の動き、身体の動きなどである。

【００３８】第１の認識手段３１０、第２の認識手段３
１１は、対応する第１の入力手段３００、第２の入力手
段３０１からのデータに応じた認識アルゴリズムを持
ち、認識結果を統合処理手段３２０に出力する。

【００３９】統合処理手段３２０は、複数の認識手段か
ら並列に出力される認識結果を統合し、利用者の意図
（利用者の性別や年齢や来場数などの利用者属性を含
む）を認識する。

【００４０】利用者状態記憶部３８０は、利用者の年齢
（年代）、性別などの利用者属性情報と「間」の関係が
上記と同様に対照させて保持されている。

【００４１】利用者状況推定部３９０は、利用者状態記
憶部３８０にある、利用者の静的な情報と、対話管理手
段から得られるマルチモーダル対話装置利用開始時から
の利用者との対話の流れとしての動的な情報とから利用
者の状況を推定する。具体的には、「いらいらしてい
る」、「あわてている」ような状況を推定し、利用者状
態記憶部３８０の記憶内容に基づいて最適な「間」を再
設定する。

【００４２】対話管理手段３３０は、統合処理手段３２
０にて認識された利用者の意図に基づき、最適な対話の
管理を行い、利用者へ提示する情報を生成するために、
第１の反応生成手段３４０、第２の反応生成手段３４１
に生成内容と生成タイミングを出力する。ここで、最適
な「間」を決定するために、利用者状況推定部３９０の
情報を利用する。また、複数の生成された情報の選択方
法とタイミングを反応選択手段３５０に出力する。

【００４３】第１の反応生成手段３４０、第２の反応生
成手段３４１は、対話管理手段３３０からの命令に基づ
き、利用者へ提示する情報としての反応の生成、中断を
行う。具体的には、仮想擬似人物像の発話付き動作や動
画データ、ビットマップデータ、音データ、外部制御可
能機器の制御命令などである。

【００４４】反応選択手段３５０は、第１の反応生成手
段３４０、第２の反応生成手段３４１で生成が完了した
単数または複数の出力待ちの情報から、対話管理手段３
３０からの命令に基づき、最適な情報を選択し、出力手
段３６０に出力する。出力手段３６０は、反応選択手段
３５０からの情報を利用者に出力する。

【００４５】計時手段３７０は、第１の入力手段３０
０、第２の入力手段３０１、第１の認識手段３１０、第
２の認識手段３１１、統合処理手段３２０、対話管理手
段３３０、第１の反応生成手段３４０、第２の反応生成
手段３４１、反応選択手段３５０、出力手段３６０の各
手段で行われる処理の開始時刻、終了時刻、所要時間を
計測できる。

【００４６】本実施例では、入力手段および認識手段は
二組で構成されるが、入力チャネルの増加に対応して、
変更可能とする。また、反応生成手段は二つであるが、
マルチモーダル対話装置の処理能力に応じて、変更可能
とする。

【００４７】よって、第３の実施例は、利用者状態記
憶部３８０および利用者状態推定部３９０を備えている
ため、利用者状況推定部３９０は、利用者状態記憶部３
８０の保持する利用者の年齢、性別、性格や利用履歴な
どの記憶データと、利用者とマルチモーダル対話装置の
対話の流れから、利用者の状況を推定することで、対話
管理手段３３０は利用者に最適な現状における「間」を
設定することが可能であり、上述した第３の問題点を解
決できる。

【００４８】

【発明の効果】以上説明したように本発明によれば、利
用者に対し利用者タイプに応じた最適な「間」をもって
対話できるので、利用者との間に行われる情報のやりと
りを円滑に行うことが可能となる。

【図面の簡単な説明】

【図１】従来のマルチモーダル対話装置のブロック図で
ある。

【図２】本発明の第１の実施例の構成を示すブロック図
である。

【図３】本発明の第２の実施例の構成を示すブロック図
である。

【図４】本発明の第３の実施例の構成を示すブロック図
である。

【図５】利用者状態記憶部の定義例を示す図である。

【符号の説明】

１００第１の入力手段１０１第２の入力手段１１０第１の認識手段１１１第２の認識手段１２０統合処理手段１３０対話管理手段１４０第１の反応生成手段１４１第２の反応生成手段１５０反応選択手段１６０出力手段１７０計時手段２００第１の入力手段２０１第２の入力手段２１０第１の認識手段２１１第２の認識手段２２０統合処理手段２３０対話管理手段２４０第１の反応生成手段２４１第２の反応生成手段２５０反応選択手段２６０出力手段２７０計時手段２８０利用者状態記憶部３００第１の入力手段３０１第２の入力手段３１０第１の認識手段３１１第２の認識手段３２０統合処理手段３３０対話管理手段３４０第１の反応生成手段３４１第２の反応生成手段３５０反応選択手段３６０出力手段３７０計時手段３８０利用者状態記憶部３９０利用者状況推定部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平５−27790（ＪＰ，Ａ) 特開平１−316797（ＪＰ，Ａ) 特開昭60−247697（ＪＰ，Ａ) 特開平10−111786（ＪＰ，Ａ) 特開平８−234789（ＪＰ，Ａ) 特開平７−104778（ＪＰ，Ａ) 特開平10−20884（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/22 G06F 3/16

Claims

(57)【特許請求の範囲】

【請求項１】利用者からの意識、無意識のマルチモーダ
ル情報を入力できる入力手段と、該入力手段からのデー
タに応じた認識アルゴリズムによってマルチモーダル情
報を認識する複数の認識手段と、これら複数の認識手段
から並列に出力される認識結果を統合し、利用者の意図
を認識する統合処理手段と、その認識された利用者の意
図に基づき最適な対話の管理を行い、利用者へ提示する
情報を予め設定されている利用者のタイプに応じた
「間」をもって提示するように、利用者のタイプごとの
「間」に従った生成タイミングを出力する対話管理手段
と、該対話管理手段からの生成タイミングに従い、利用
者へ提示する情報としての反応の生成と中断を行う反応
生成手段と、該反応生成手段で生成が完了した単数また
は複数の出力待ちの情報から、最適な情報を選択する反
応選択手段と、該反応選択手段からの情報を利用者に出
力する出力手段と、前記入力手段、認識手段、統合処理
手段、対話管理手段、反応生成手段、反応選択手段、出
力手段の各手段で行われる処理の開始時刻、終了時刻、
所要時間を計測できる計時手段とを備えることを特徴と
するマルチモーダル対話装置。
【請求項２】利用者からの意識、無意識のマルチモーダ
ル情報を入力できる入力手段と、該入力手段からのデー
タに応じた認識アルゴリズムによってマルチモーダル情
報を認識する複数の認識手段と、利用者のタイプ別の属
性情報とタイプ別の「間」の関係が保持されている利用
者状態記憶部と、前記複数の認識手段から並列に出力さ
れる認識結果を統合し、利用者の意図を認識する統合処
理手段と、その認識された利用者の意図に基づき、最適
な対話の管理を行い、利用者へ提示する情報を利用者の
タイプに応じた「間」をもって提示するように、前記利
用者状態記憶部を参照して、利用者のタイプごとの
「間」に従った生成タイミングを出力する対話管理手段
と、該対話管理手段からの生成タイミングに従い、利用
者へ提示する情報としての反応の生成と中断を行う反応
生成手段と、該反応生成手段で生成が完了した単数また
は複数の出力待ちの情報から、最適な情報を選択する反
応選択手段と、該反応選択手段からの情報を利用者に出
力する出力手段と、前記入力手段、認識手段、統合処理
手段、対話管理手段、反応生成手段、反応選択手段、出
力手段の各手段で行われる処理の開始時刻、終了時刻、
所要時間を計測できる計時手段とを備えることを特徴と
するマルチモーダル対話装置。
【請求項３】利用者からの意識、無意識のマルチモーダ
ル情報を入力できる入力手段と、該入力手段からのデー
タに応じた認識アルゴリズムによってマルチモーダル情
報を認識する複数の認識手段と、利用者のタイプ別の属
性情報とタイプ別の「間」の関係が保持されている利用
者状態記憶部と、該利用者状態記憶部に保持されている
静的な情報と、利用者との対話の推移である動的な情報
とから利用者の状況を推定して最適な「間」を再設定す
る利用者状況推定部と、前記複数の認識手段から並列に
出力される認識結果を統合し、利用者の意図を認識する
統合処理手段と、その認識された利用者の意図に基づ
き、最適な対話の管理を行い、利用者へ提示する情報を
利用者のタイプに応じた「間」をもって提示するよう
に、前記利用者状況推定部で再設定された「間」を参照
して、利用者のタイプごとの「間」に従った生成タイミ
ングを出力する対話管理手段と、該対話管理手段からの
生成タイミングに従い、利用者へ提示する情報としての
反応の生成と中断を行う反応生成手段と、反応生成手段
で生成が完了した単数または複数の出力待ちの情報か
ら、最適な情報を選択する反応選択手段と、該反応選択
手段からの情報を利用者に出力する出力手段と、前記入
力手段、認識手段、統合処理手段、対話管理手段、反応
生成手段、反応選択手段、出力手段の各手段で行われる
処理の開始時刻、終了時刻、所要時間を計測できる計時
手段とを備えることを特徴とするマルチモーダル対話装
置。