JP3514372B2 - マルチモーダル対話装置 - Google Patents
マルチモーダル対話装置Info
- Publication number
- JP3514372B2 JP3514372B2 JP15817299A JP15817299A JP3514372B2 JP 3514372 B2 JP3514372 B2 JP 3514372B2 JP 15817299 A JP15817299 A JP 15817299A JP 15817299 A JP15817299 A JP 15817299A JP 3514372 B2 JP3514372 B2 JP 3514372B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- information
- reaction
- output
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000006243 chemical reaction Methods 0.000 claims description 115
- 208000003443 Unconsciousness Diseases 0.000 claims description 10
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 230000003068 static effect Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 230000010354 integration Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Description
装置に関し、例えば情報機器を利用した受付や案内カウ
ンターで利用者との間に行われる情報のやりとりを円滑
に行うマルチモーダル対話装置に関するものである。
めに、人が通常使用している音声情報や身振り、手振り
などの複数の入力手段を用いるマルチモーダルシステム
が提案されている。さらに、擬人化エージェントが情報
機器の窓口となり、利用者が情報機器に接しやすくなる
よう考慮されているものもある。
感情モデルによりエージェントを人間らしく振る舞わ
せ、情報伝達をスムーズに行うことを目的とした感情模
擬装置が提案されている。また、特開平8-23478
9号公報には、マルチモーダル対話データベースの情報
を元にして、複数の入力チャネルからの入力を時刻情報
も含めて統合して扱うことで、より自然な対話を行うこ
とができる統合認識対話装置が提案されている。
成を示す。このマルチモーダル対話装置は、第1の入力
手段400、第2の入力手段401、第1の認識手段4
10、第2の認識手段411、統合処理手段420、対
話管理手段430、出力手段460、計時手段470か
ら成っている。
01は、それぞれ、利用者からの意識、無意識のマルチ
モーダル情報を入力できる。具体的には、音声信号、利
用者の位置、視線、顔の動き、身体の動きなどである。
11は、対応する第1の入力手段400、第2の入力手
段401からのデータに応じた認識アルゴリズムを持
ち、認識結果を統合処理手段420に出力する。統合処
理手段420は、複数の認識手段から並列に出力される
認識結果を統合し、利用者の意図を認識する。対話管理
手段430は、利用者の意図に基づき、最適な対話の管
理を行う。出力手段460は、統合処理手段420から
の情報を利用者に出力する。計時手段470は、第1の
入力手段400、第2の入力手段401、第1の認識手
段410、第2の認識手段411、統合処理手段42
0、対話管理手段430、出力手段460の各手段で行
われる処理の開始時刻、終了時刻、所要時間を計測でき
る。
ルチモーダル対話装置では、下記のような問題点が生じ
る。第1の問題点は、複数の入力チャネルからの入力を
統合し、より自然な対話を目的としているが、システム
の認識に要する時間が、人間同士の対話における通常の
「間」より長くなったり短くなったりする場合、つまり
対話における「間」に利用者により個人差がある場合、
その「間」に応じて中断する反応処理については対処し
ていない。
自然な「間」は、利用者の年齢、性別、性格などにより
異なり、画一的な「間」では不自然に感じる場合があ
る。
話の「間」は、利用者の置かれている状況、対話の流れ
で動的に変化するため、利用者の静的な属性だけでは不
自然に感じる場合がある。
用者に対し利用者タイプに応じた最適な「間」をもって
対話できるマルチモーダル対話装置を提供することを目
的とする。
ルチモーダル対話装置は、上記第1の問題点を解決する
ため、利用者からの意識、無意識のマルチモーダル情報
を入力できる入力手段と、該入力手段からのデータに応
じた認識アルゴリズムによってマルチモーダル情報を認
識する複数の認識手段と、これら複数の認識手段から並
列に出力される認識結果を統合し、利用者の意図を認識
する統合処理手段と、その認識された利用者の意図に基
づき最適な対話の管理を行い、利用者へ提示する情報を
予め設定されている利用者のタイプに応じた「間」をも
って提示するように、利用者のタイプごとの「間」に従
った生成タイミングを出力する対話管理手段と、該対話
管理手段からの生成タイミングに従い、利用者へ提示す
る情報としての反応の生成と中断を行う反応生成手段
と、該反応生成手段で生成が完了した単数または複数の
出力待ちの情報から、最適な情報を選択する反応選択手
段と、該反応選択手段からの情報を利用者に出力する出
力手段と、前記入力手段、認識手段、統合処理手段、対
話管理手段、反応生成手段、反応選択手段、出力手段の
各手段で行われる処理の開始時刻、終了時刻、所要時間
を計測できる計時手段とを備えている。
装置は、上記第2の問題点を解決するため、利用者から
の意識、無意識のマルチモーダル情報を入力できる入力
手段と、該入力手段からのデータに応じた認識アルゴリ
ズムによってマルチモーダル情報を認識する複数の認識
手段と、利用者のタイプ別の属性情報とタイプ別の
「間」の関係が保持されている利用者状態記憶部と、前
記複数の認識手段から並列に出力される認識結果を統合
し、利用者の意図を認識する統合処理手段と、その認識
された利用者の意図に基づき、最適な対話の管理を行
い、利用者へ提示する情報を利用者のタイプに応じた
「間」をもって提示するように、前記利用者状態記憶部
を参照して利用者のタイプごとの「間」に従った生成タ
イミングを出力する対話管理手段と、該対話管理手段か
らの生成タイミングに従い、利用者へ提示する情報とし
ての反応の生成と中断を行う反応生成手段と、該反応生
成手段で生成が完了した単数または複数の出力待ちの情
報から、最適な情報を選択する反応選択手段と、該反応
選択手段からの情報を利用者に出力する出力手段と、前
記入力手段、認識手段、統合処理手段、対話管理手段、
反応生成手段、反応選択手段、出力手段の各手段で行わ
れる処理の開始時刻、終了時刻、所要時間を計測できる
計時手段とを備えている。
装置は、上記第3の問題点を解決するため、利用者から
の意識、無意識のマルチモーダル情報を入力できる入力
手段と、該入力手段からのデータに応じた認識アルゴリ
ズムによってマルチモーダル情報を認識する複数の認識
手段と、利用者のタイプ別の属性情報とタイプ別の
「間」の関係が保持されている利用者状態記憶部と、該
利用者状態記憶部に保持されている静的な情報と、利用
者との対話の推移である動的な情報とから利用者の状況
を推定して最適な「間」を再設定する利用者状況推定部
と、前記複数の認識手段から並列に出力される認識結果
を統合し、利用者の意図を認識する統合処理手段と、そ
の認識された利用者の意図に基づき、最適な対話の管理
を行い、利用者へ提示する情報を利用者のタイプに応じ
た「間」をもって提示するように、前記利用者状況推定
部で再設定された「間」を参照して、利用者のタイプご
との「間」に従った生成タイミングを出力する対話管理
手段と、該対話管理手段からの生成タイミングに従い、
利用者へ提示する情報としての反応の生成と中断を行う
反応生成手段と、反応生成手段で生成が完了した単数ま
たは複数の出力待ちの情報から、最適な情報を選択する
反応選択手段と、該反応選択手段からの情報を利用者に
出力する出力手段と、前記入力手段、認識手段、統合処
理手段、対話管理手段、反応生成手段、反応選択手段、
出力手段の各手段で行われる処理の開始時刻、終了時
刻、所要時間を計測できる計時手段とを備えている。
の形態について図面を参照して詳細に説明する。
ブロック図である。このマルチモーダル対話装置は、第
1の入力手段100、第2の入力手段101、第1の認
識手段110、第2の認識手段111、統合処理手段1
20、対話管理手段130、第1の反応生成手段14
0、第2の反応生成手段141、反応選択手段150、
出力手段160、計時手段170から成っている。この
中で第1の反応生成手段140、第2の反応生成手段1
41、反応選択手段150が、図1の従来の構成より追
加された部分である。
01は、それぞれ、利用者からの意識、無意識のマルチ
モーダル情報を入力できる。具体的には、音声信号、利
用者の位置、視線、顔の動き、身体の動きなどである。
11は、対応する第1の入力手段100、第2の入力手
段101からのデータに応じた認識アルゴリズムを持
ち、認識結果を統合処理手段120に出力する。
ら並列に出力される認識結果を統合し、利用者の意図
(利用者の性別や年齢(年代)や来場数などの利用者属
性を含む)を認識する。
0にて認識された利用者の意図に基づき最適な対話の管
理を行い、利用者へ提示する情報を、予め決めておいた
利用者のタイプに応じた「間」をもって提示するため
に、第1の反応生成手段140、第2の反応生成手段1
41に生成内容と生成タイミングを出力する。また、複
数の生成された情報の選択方法とタイミングを反応選択
手段150に出力する。
成手段141は、対話管理手段130からの命令に基づ
き、利用者へ提示する情報としての反応の生成、中断を
行う。具体的には、仮想擬似人物像の発話付き動作や動
画データ、ビットマップデータ、音データ、外部制御可
能機器の制御命令などである。
成が完了した単数または複数の出力待ちの情報から、対
話管理手段130からの命令に基づき、最適な情報を選
択し、出力手段160に出力する。出力手段160は、
反応選択手段150からの情報を利用者に出力する。
0、第2の入力手段101、第1の認識手段110、第
2の認識手段111、統合処理手段120、対話管理手
段130、第1の反応生成手段140、第2の反応生成
手段141、反応選択手段150、出力手段160の各
手段で行われる処理の開始時刻、終了時刻、所要時間を
計測できる。
二組で構成されるが、入力チャネルの増加に対応して、
変更可能とする。また、反応生成手段は二つであるが、
マルチモーダル対話装置の処理能力に応じて、変更可能
とする。
意図に基づき最適な対話の管理を行い、利用者へ提示す
る情報を利用者のタイプ(利用者の性別や年齢(年代)
や来場数などの利用者属性)に応じた「間」をもって提
示するように、利用者のタイプごとの「間」に従った生
成タイミングを出力する対話管理手段と、複数の反応生
成手段と、これらの反応から最適な反応、つまり予め設
定されている利用者のタイプに応じた「間」を選び、出
力手段へ渡す反応選択手段を備えているため、利用者の
タイプに応じたタイミングの自然な反応を返すことが可
能であり、上述した第1の問題点を解決する。
ブロック図である。このマルチモーダル対話装置は、第
1の入力手段200、第2の入力手段201、第1の認
識手段210、第2の認識手段211、統合処理手段2
20、対話管理手段230、第1の反応生成手段24
0、第2の反応生成手段241、反応選択手段250、
出力手段260、計時手段270、利用者状態記憶部2
80から成っている。この中で第1の反応生成手段24
0、第2の反応生成手段241、反応選択手段250、
利用者状態記憶部280が、図1の従来の構成より追加
された部分である。
01は、利用者からの意識、無意識のマルチモーダル情
報を入力できる。具体的には、音声信号、利用者の位
置、視線、顔の動き、身体の動きなどである。
11は、対応する第1の入力手段200、第2の入力手
段201からのデータに応じた認識アルゴリズムを持
ち、認識結果を統合処理手段220に出力する。
ら並列に出力される認識結果を統合し、利用者の意図
(利用者の性別や年齢(年代)や来場数などの利用者属
性を含む)を認識する。
齢(年代)、性別などの利用者属性情報と「間」の関係
が対照させて予め保持されている。図5に例として利用
者状態記憶部の定義を示し、性別、年代、来場数の属性
から利用者タイプを分類し、各タイプに対応する最適な
「間」が対照させて保持されている。
0にて認識された利用者の意図に基づき、最適な対話の
管理を行い、利用者へ提示する情報を生成するために、
第1の反応生成手段240、第2の反応生成手段241
に生成内容と生成タイミングを出力する。ここで、最適
な「間」を決定するために、利用者状態記憶部280を
参照してそこで定義された「間」を利用する。すなわ
ち、統合処理手段220にて認識された利用者の属性
(利用者タイプ)に応じた「間」を選択する。また、複
数の生成された情報の選択方法とタイミングを反応選択
手段250に出力する。
成手段241は、対話管理手段230からの命令に基づ
き、利用者へ提示する情報としての反応の生成、中断を
行う。具体的には、仮想擬似人物像の発話付き動作や動
画データ、ビットマップデータ、音データ、外部制御可
能機器の制御命令などである。
成が完了した単数または複数の出力待ちの情報から、対
話管理手段230からの命令に基づき、最適な情報を選
択し、出力手段260に出力する。出力手段260は、
反応選択手段250からの情報を利用者に出力する。
0、第2の入力手段201、第1の認識手段210、第
2の認識手段211、統合処理手段220、対話管理手
段230、第1の反応生成手段240、第2の反応生成
手段241、反応選択手段250、出力手段260の各
手段で行われる処理の開始時刻、終了時刻、所要時間を
計測できる。
二組で構成されるが、入力チャネルの増加に対応して、
変更可能とする。また、反応生成手段は二つであるが、
マルチモーダル対話装置の処理能力に応じて、変更可能
とする。
記憶部280を備えているため、利用者の年齢、性別、
性格や利用履歴などの利用者属性からタイプ別に「間」
を保持でき、このデータから対話管理手段230は利用
者タイプに最適な「間」を設定することが可能であり、
上述した第2の問題点を解決できる。
ブロック図である。このマルチモーダル対話装置は、第
1の入力手段300、第2の入力手段301、第1の認
識手段310、第2の認識手段311、統合処理手段3
20、対話管理手段330、第1の反応生成手段34
0、第2の反応生成手段341、反応選択手段350、
出力手段360、計時手段370、利用者状態記憶部3
80、利用者状況推定部390から成っている。この中
で第1の反応生成手段340、第2の反応生成手段34
1、反応選択手段350、利用者状態記憶部380、利
用者状況推定部390が、図1の従来の構成より追加さ
れた部分である。
01は、利用者からの意識、無意識のマルチモーダル情
報を入力できる。具体的には、音声信号、利用者の位
置、視線、顔の動き、身体の動きなどである。
11は、対応する第1の入力手段300、第2の入力手
段301からのデータに応じた認識アルゴリズムを持
ち、認識結果を統合処理手段320に出力する。
ら並列に出力される認識結果を統合し、利用者の意図
(利用者の性別や年齢や来場数などの利用者属性を含
む)を認識する。
(年代)、性別などの利用者属性情報と「間」の関係が
上記と同様に対照させて保持されている。
憶部380にある、利用者の静的な情報と、対話管理手
段から得られるマルチモーダル対話装置利用開始時から
の利用者との対話の流れとしての動的な情報とから利用
者の状況を推定する。具体的には、「いらいらしてい
る」、「あわてている」ような状況を推定し、利用者状
態記憶部380の記憶内容に基づいて最適な「間」を再
設定する。
0にて認識された利用者の意図に基づき、最適な対話の
管理を行い、利用者へ提示する情報を生成するために、
第1の反応生成手段340、第2の反応生成手段341
に生成内容と生成タイミングを出力する。ここで、最適
な「間」を決定するために、利用者状況推定部390の
情報を利用する。また、複数の生成された情報の選択方
法とタイミングを反応選択手段350に出力する。
成手段341は、対話管理手段330からの命令に基づ
き、利用者へ提示する情報としての反応の生成、中断を
行う。具体的には、仮想擬似人物像の発話付き動作や動
画データ、ビットマップデータ、音データ、外部制御可
能機器の制御命令などである。
段340、第2の反応生成手段341で生成が完了した
単数または複数の出力待ちの情報から、対話管理手段3
30からの命令に基づき、最適な情報を選択し、出力手
段360に出力する。出力手段360は、反応選択手段
350からの情報を利用者に出力する。
0、第2の入力手段301、第1の認識手段310、第
2の認識手段311、統合処理手段320、対話管理手
段330、第1の反応生成手段340、第2の反応生成
手段341、反応選択手段350、出力手段360の各
手段で行われる処理の開始時刻、終了時刻、所要時間を
計測できる。
二組で構成されるが、入力チャネルの増加に対応して、
変更可能とする。また、反応生成手段は二つであるが、
マルチモーダル対話装置の処理能力に応じて、変更可能
とする。
憶部380および利用者状態推定部390を備えている
ため、利用者状況推定部390は、利用者状態記憶部3
80の保持する利用者の年齢、性別、性格や利用履歴な
どの記憶データと、利用者とマルチモーダル対話装置の
対話の流れから、利用者の状況を推定することで、対話
管理手段330は利用者に最適な現状における「間」を
設定することが可能であり、上述した第3の問題点を解
決できる。
用者に対し利用者タイプに応じた最適な「間」をもって
対話できるので、利用者との間に行われる情報のやりと
りを円滑に行うことが可能となる。
ある。
である。
である。
である。
Claims (3)
- 【請求項1】利用者からの意識、無意識のマルチモーダ
ル情報を入力できる入力手段と、該入力手段からのデー
タに応じた認識アルゴリズムによってマルチモーダル情
報を認識する複数の認識手段と、これら複数の認識手段
から並列に出力される認識結果を統合し、利用者の意図
を認識する統合処理手段と、その認識された利用者の意
図に基づき最適な対話の管理を行い、利用者へ提示する
情報を予め設定されている利用者のタイプに応じた
「間」をもって提示するように、利用者のタイプごとの
「間」に従った生成タイミングを出力する対話管理手段
と、該対話管理手段からの生成タイミングに従い、利用
者へ提示する情報としての反応の生成と中断を行う反応
生成手段と、該反応生成手段で生成が完了した単数また
は複数の出力待ちの情報から、最適な情報を選択する反
応選択手段と、該反応選択手段からの情報を利用者に出
力する出力手段と、前記入力手段、認識手段、統合処理
手段、対話管理手段、反応生成手段、反応選択手段、出
力手段の各手段で行われる処理の開始時刻、終了時刻、
所要時間を計測できる計時手段とを備えることを特徴と
するマルチモーダル対話装置。 - 【請求項2】利用者からの意識、無意識のマルチモーダ
ル情報を入力できる入力手段と、該入力手段からのデー
タに応じた認識アルゴリズムによってマルチモーダル情
報を認識する複数の認識手段と、利用者のタイプ別の属
性情報とタイプ別の「間」の関係が保持されている利用
者状態記憶部と、前記複数の認識手段から並列に出力さ
れる認識結果を統合し、利用者の意図を認識する統合処
理手段と、その認識された利用者の意図に基づき、最適
な対話の管理を行い、利用者へ提示する情報を利用者の
タイプに応じた「間」をもって提示するように、前記利
用者状態記憶部を参照して、利用者のタイプごとの
「間」に従った生成タイミングを出力する対話管理手段
と、該対話管理手段からの生成タイミングに従い、利用
者へ提示する情報としての反応の生成と中断を行う反応
生成手段と、該反応生成手段で生成が完了した単数また
は複数の出力待ちの情報から、最適な情報を選択する反
応選択手段と、該反応選択手段からの情報を利用者に出
力する出力手段と、前記入力手段、認識手段、統合処理
手段、対話管理手段、反応生成手段、反応選択手段、出
力手段の各手段で行われる処理の開始時刻、終了時刻、
所要時間を計測できる計時手段とを備えることを特徴と
するマルチモーダル対話装置。 - 【請求項3】利用者からの意識、無意識のマルチモーダ
ル情報を入力できる入力手段と、該入力手段からのデー
タに応じた認識アルゴリズムによってマルチモーダル情
報を認識する複数の認識手段と、利用者のタイプ別の属
性情報とタイプ別の「間」の関係が保持されている利用
者状態記憶部と、該利用者状態記憶部に保持されている
静的な情報と、利用者との対話の推移である動的な情報
とから利用者の状況を推定して最適な「間」を再設定す
る利用者状況推定部と、前記複数の認識手段から並列に
出力される認識結果を統合し、利用者の意図を認識する
統合処理手段と、その認識された利用者の意図に基づ
き、最適な対話の管理を行い、利用者へ提示する情報を
利用者のタイプに応じた「間」をもって提示するよう
に、前記利用者状況推定部で再設定された「間」を参照
して、利用者のタイプごとの「間」に従った生成タイミ
ングを出力する対話管理手段と、該対話管理手段からの
生成タイミングに従い、利用者へ提示する情報としての
反応の生成と中断を行う反応生成手段と、反応生成手段
で生成が完了した単数または複数の出力待ちの情報か
ら、最適な情報を選択する反応選択手段と、該反応選択
手段からの情報を利用者に出力する出力手段と、前記入
力手段、認識手段、統合処理手段、対話管理手段、反応
生成手段、反応選択手段、出力手段の各手段で行われる
処理の開始時刻、終了時刻、所要時間を計測できる計時
手段とを備えることを特徴とするマルチモーダル対話装
置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15817299A JP3514372B2 (ja) | 1999-06-04 | 1999-06-04 | マルチモーダル対話装置 |
US09/585,288 US6513011B1 (en) | 1999-06-04 | 2000-06-02 | Multi modal interactive system, method, and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15817299A JP3514372B2 (ja) | 1999-06-04 | 1999-06-04 | マルチモーダル対話装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000347690A JP2000347690A (ja) | 2000-12-15 |
JP3514372B2 true JP3514372B2 (ja) | 2004-03-31 |
Family
ID=15665857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15817299A Expired - Fee Related JP3514372B2 (ja) | 1999-06-04 | 1999-06-04 | マルチモーダル対話装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6513011B1 (ja) |
JP (1) | JP3514372B2 (ja) |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US7013427B2 (en) * | 2001-04-23 | 2006-03-14 | Steven Griffith | Communication analyzing system |
KR100580619B1 (ko) * | 2002-12-11 | 2006-05-16 | 삼성전자주식회사 | 사용자와 에이전트 간의 대화 관리방법 및 장치 |
US8478645B2 (en) * | 2003-04-07 | 2013-07-02 | Sevenecho, Llc | Method, system and software for digital media narrative personalization |
JP4027269B2 (ja) * | 2003-06-02 | 2007-12-26 | キヤノン株式会社 | 情報処理方法及び装置 |
JP2005157494A (ja) * | 2003-11-20 | 2005-06-16 | Aruze Corp | 会話制御装置及び会話制御方法 |
JP4839838B2 (ja) * | 2003-12-12 | 2011-12-21 | 日本電気株式会社 | 情報処理システム、情報処理方法および情報処理用プログラム |
WO2005076258A1 (ja) | 2004-02-03 | 2005-08-18 | Matsushita Electric Industrial Co., Ltd. | ユーザ適応型装置およびその制御方法 |
US9083798B2 (en) * | 2004-12-22 | 2015-07-14 | Nuance Communications, Inc. | Enabling voice selection of user preferences |
US8340971B1 (en) * | 2005-01-05 | 2012-12-25 | At&T Intellectual Property Ii, L.P. | System and method of dialog trajectory analysis |
US20060248461A1 (en) * | 2005-04-29 | 2006-11-02 | Omron Corporation | Socially intelligent agent software |
US7944448B2 (en) * | 2005-06-14 | 2011-05-17 | Omron Corporation | Apparatus and method for socially intelligent virtual entity |
US20060288309A1 (en) * | 2005-06-16 | 2006-12-21 | Cross Charles W Jr | Displaying available menu choices in a multimodal browser |
US8090584B2 (en) * | 2005-06-16 | 2012-01-03 | Nuance Communications, Inc. | Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency |
US7917365B2 (en) | 2005-06-16 | 2011-03-29 | Nuance Communications, Inc. | Synchronizing visual and speech events in a multimodal application |
US8073700B2 (en) | 2005-09-12 | 2011-12-06 | Nuance Communications, Inc. | Retrieval and presentation of network service results for mobile device using a multimodal browser |
US9208785B2 (en) | 2006-05-10 | 2015-12-08 | Nuance Communications, Inc. | Synchronizing distributed speech recognition |
US7848314B2 (en) * | 2006-05-10 | 2010-12-07 | Nuance Communications, Inc. | VOIP barge-in support for half-duplex DSR client on a full-duplex network |
US8332218B2 (en) * | 2006-06-13 | 2012-12-11 | Nuance Communications, Inc. | Context-based grammars for automated speech recognition |
US7676371B2 (en) * | 2006-06-13 | 2010-03-09 | Nuance Communications, Inc. | Oral modification of an ASR lexicon of an ASR engine |
US8145493B2 (en) | 2006-09-11 | 2012-03-27 | Nuance Communications, Inc. | Establishing a preferred mode of interaction between a user and a multimodal application |
US8374874B2 (en) | 2006-09-11 | 2013-02-12 | Nuance Communications, Inc. | Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction |
US7957976B2 (en) * | 2006-09-12 | 2011-06-07 | Nuance Communications, Inc. | Establishing a multimodal advertising personality for a sponsor of a multimodal application |
US8073697B2 (en) | 2006-09-12 | 2011-12-06 | International Business Machines Corporation | Establishing a multimodal personality for a multimodal application |
US8086463B2 (en) | 2006-09-12 | 2011-12-27 | Nuance Communications, Inc. | Dynamically generating a vocal help prompt in a multimodal application |
US7827033B2 (en) * | 2006-12-06 | 2010-11-02 | Nuance Communications, Inc. | Enabling grammars in web page frames |
US8612230B2 (en) | 2007-01-03 | 2013-12-17 | Nuance Communications, Inc. | Automatic speech recognition with a selection list |
US8069047B2 (en) * | 2007-02-12 | 2011-11-29 | Nuance Communications, Inc. | Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application |
US7801728B2 (en) | 2007-02-26 | 2010-09-21 | Nuance Communications, Inc. | Document session replay for multimodal applications |
US8150698B2 (en) | 2007-02-26 | 2012-04-03 | Nuance Communications, Inc. | Invoking tapered prompts in a multimodal application |
US8938392B2 (en) * | 2007-02-27 | 2015-01-20 | Nuance Communications, Inc. | Configuring a speech engine for a multimodal application based on location |
US7809575B2 (en) * | 2007-02-27 | 2010-10-05 | Nuance Communications, Inc. | Enabling global grammars for a particular multimodal application |
US7840409B2 (en) * | 2007-02-27 | 2010-11-23 | Nuance Communications, Inc. | Ordering recognition results produced by an automatic speech recognition engine for a multimodal application |
US7822608B2 (en) * | 2007-02-27 | 2010-10-26 | Nuance Communications, Inc. | Disambiguating a speech recognition grammar in a multimodal application |
US20080208589A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Presenting Supplemental Content For Digital Media Using A Multimodal Application |
US8713542B2 (en) * | 2007-02-27 | 2014-04-29 | Nuance Communications, Inc. | Pausing a VoiceXML dialog of a multimodal application |
US20080208594A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Effecting Functions On A Multimodal Telephony Device |
US9208783B2 (en) * | 2007-02-27 | 2015-12-08 | Nuance Communications, Inc. | Altering behavior of a multimodal application based on location |
US8843376B2 (en) * | 2007-03-13 | 2014-09-23 | Nuance Communications, Inc. | Speech-enabled web content searching using a multimodal browser |
US7945851B2 (en) | 2007-03-14 | 2011-05-17 | Nuance Communications, Inc. | Enabling dynamic voiceXML in an X+V page of a multimodal application |
US8670987B2 (en) * | 2007-03-20 | 2014-03-11 | Nuance Communications, Inc. | Automatic speech recognition with dynamic grammar rules |
US8515757B2 (en) | 2007-03-20 | 2013-08-20 | Nuance Communications, Inc. | Indexing digitized speech with words represented in the digitized speech |
US8909532B2 (en) * | 2007-03-23 | 2014-12-09 | Nuance Communications, Inc. | Supporting multi-lingual user interaction with a multimodal application |
US8788620B2 (en) | 2007-04-04 | 2014-07-22 | International Business Machines Corporation | Web service support for a multimodal client processing a multimodal application |
US8725513B2 (en) * | 2007-04-12 | 2014-05-13 | Nuance Communications, Inc. | Providing expressive user interaction with a multimodal application |
US8862475B2 (en) * | 2007-04-12 | 2014-10-14 | Nuance Communications, Inc. | Speech-enabled content navigation and control of a distributed multimodal browser |
US8121837B2 (en) * | 2008-04-24 | 2012-02-21 | Nuance Communications, Inc. | Adjusting a speech engine for a mobile computing device based on background noise |
US9349367B2 (en) * | 2008-04-24 | 2016-05-24 | Nuance Communications, Inc. | Records disambiguation in a multimodal application operating on a multimodal device |
US8082148B2 (en) | 2008-04-24 | 2011-12-20 | Nuance Communications, Inc. | Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise |
US8214242B2 (en) * | 2008-04-24 | 2012-07-03 | International Business Machines Corporation | Signaling correspondence between a meeting agenda and a meeting discussion |
US8229081B2 (en) * | 2008-04-24 | 2012-07-24 | International Business Machines Corporation | Dynamically publishing directory information for a plurality of interactive voice response systems |
US8150695B1 (en) * | 2009-06-18 | 2012-04-03 | Amazon Technologies, Inc. | Presentation of written works based on character identities and attributes |
TWI413938B (zh) * | 2009-12-02 | 2013-11-01 | Phison Electronics Corp | 情感引擎、情感引擎系統及電子裝置的控制方法 |
US8887044B1 (en) | 2012-06-27 | 2014-11-11 | Amazon Technologies, Inc. | Visually distinguishing portions of content |
JP6536713B2 (ja) * | 2018-05-21 | 2019-07-03 | ヤマハ株式会社 | 音声制御装置、音声制御方法およびプログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60247697A (ja) * | 1984-05-24 | 1985-12-07 | 株式会社東芝 | 音声対話装置 |
JPH01316797A (ja) * | 1988-06-17 | 1989-12-21 | Nec Corp | 音声応答制御方法 |
JPH0527790A (ja) * | 1991-07-18 | 1993-02-05 | Oki Electric Ind Co Ltd | 音声入出力装置 |
DE69232407T2 (de) * | 1991-11-18 | 2002-09-12 | Toshiba Kawasaki Kk | Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung |
JPH0612401A (ja) | 1992-06-26 | 1994-01-21 | Fuji Xerox Co Ltd | 感情模擬装置 |
JP3018865B2 (ja) * | 1993-10-07 | 2000-03-13 | 富士ゼロックス株式会社 | 感情表出装置 |
JP3375449B2 (ja) * | 1995-02-27 | 2003-02-10 | シャープ株式会社 | 統合認識対話装置 |
US5918222A (en) * | 1995-03-17 | 1999-06-29 | Kabushiki Kaisha Toshiba | Information disclosing apparatus and multi-modal information input/output system |
JP3363283B2 (ja) * | 1995-03-23 | 2003-01-08 | 株式会社日立製作所 | 入力装置、入力方法、情報処理システムおよび入力情報の管理方法 |
JPH1020884A (ja) * | 1996-07-04 | 1998-01-23 | Nec Corp | 音声対話装置 |
JPH10111786A (ja) * | 1996-10-03 | 1998-04-28 | Sharp Corp | リズム制御対話装置 |
JPH10289006A (ja) * | 1997-04-11 | 1998-10-27 | Yamaha Motor Co Ltd | 疑似感情を用いた制御対象の制御方法 |
US6012030A (en) * | 1998-04-21 | 2000-01-04 | Nortel Networks Corporation | Management of speech and audio prompts in multimodal interfaces |
US6018711A (en) * | 1998-04-21 | 2000-01-25 | Nortel Networks Corporation | Communication system user interface with animated representation of time remaining for input to recognizer |
US6144938A (en) * | 1998-05-01 | 2000-11-07 | Sun Microsystems, Inc. | Voice user interface with personality |
CA2346145A1 (en) * | 1998-10-05 | 2000-04-13 | Lernout & Hauspie Speech Products N.V. | Speech controlled computer user interface |
US6275806B1 (en) * | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
-
1999
- 1999-06-04 JP JP15817299A patent/JP3514372B2/ja not_active Expired - Fee Related
-
2000
- 2000-06-02 US US09/585,288 patent/US6513011B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2000347690A (ja) | 2000-12-15 |
US6513011B1 (en) | 2003-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3514372B2 (ja) | マルチモーダル対話装置 | |
US11158102B2 (en) | Method and apparatus for processing information | |
US11226673B2 (en) | Affective interaction systems, devices, and methods based on affective computing user interface | |
CN109147770B (zh) | 声音识别特征的优化、动态注册方法、客户端和服务器 | |
Oviatt et al. | Designing the user interface for multimodal speech and pen-based gesture applications: State-of-the-art systems and future research directions | |
US20220165288A1 (en) | Audio signal processing method and apparatus, electronic device, and storage medium | |
Starner et al. | Augmented reality through wearable computing | |
US20070074114A1 (en) | Automated dialogue interface | |
US20030167167A1 (en) | Intelligent personal assistants | |
US20030187660A1 (en) | Intelligent social agent architecture | |
WO2021083125A1 (zh) | 通话控制方法及相关产品 | |
US20130212501A1 (en) | Perceptual computing with conversational agent | |
CN104969289A (zh) | 数字助理的语音触发器 | |
EP1490864A2 (en) | Intelligent personal assistants | |
CN109346069A (zh) | 一种基于人工智能的交互***及装置 | |
KR20190030140A (ko) | 시선 추적 방법 및 이를 수행하기 위한 사용자 단말 | |
JP2017151517A (ja) | ロボット制御システム | |
US20080104512A1 (en) | Method and apparatus for providing realtime feedback in a voice dialog system | |
Kühnel | Quantifying quality aspects of multimodal interactive systems | |
CN111862938A (zh) | 一种智能应答方法与终端、计算机可读存储介质 | |
JP2016177443A (ja) | 情報処理装置及び方法 | |
JP6242359B2 (ja) | 情報処理装置及び方法 | |
WO2024001599A1 (zh) | 用于预测用户的年龄段或性别的方法、***、装置和介质 | |
WO2004104986A1 (ja) | 音声出力装置及び音声出力方法 | |
CN113379879A (zh) | 交互方法、装置、设备、存储介质以及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20031226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040108 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080123 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090123 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100123 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110123 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110123 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120123 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130123 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130123 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |