JPH11224179A - 対話インタフェース・システム - Google Patents

対話インタフェース・システム

Info

Publication number
JPH11224179A
JPH11224179A JP10024471A JP2447198A JPH11224179A JP H11224179 A JPH11224179 A JP H11224179A JP 10024471 A JP10024471 A JP 10024471A JP 2447198 A JP2447198 A JP 2447198A JP H11224179 A JPH11224179 A JP H11224179A
Authority
JP
Japan
Prior art keywords
voice
function
input
output
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10024471A
Other languages
English (en)
Inventor
Kuniharu Takayama
訓治 高山
Masahiro Matsuoka
雅裕 松岡
Takeshi Koshiba
健史 小柴
Shinya Hosoki
信也 細木
Minoru Sekiguchi
実 関口
Yoshiharu Maeda
芳晴 前田
Hirohisa Naito
宏久 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP10024471A priority Critical patent/JPH11224179A/ja
Priority to US09/234,472 priority patent/US6330539B1/en
Publication of JPH11224179A publication Critical patent/JPH11224179A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】 人と物のみならず物と物が音声によって対話
することができる、人に優しくかつ実用的なインタフェ
ースを備えたシステムを提供すること。 【解決手段】 音声認識系1は、入力音声を入力意味表
現に変換する。対話処理系2は、対話規則を格納した対
話規則データベースを検索し、音声認識系1から送信さ
れた入力意味表現に対応する出力意味表現と固有の機能
指令を、音声合成系3と固有機能系4に出力する。音声
合成系3は出力意味表現を受信し、出力音声を発生す
る。固有機能系4は固有の機能の指令を受信し該機能を
実行する。音声認識系1は、音声が入力されているとき
音声合成系3に対して待機通知を送出し同時発話を回避
する。また、音声合成系3と固有機能系4は同期通知を
出力し、音声の発生と固有機能の実行を同期して行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータや電
気製品あるいは各種工業機械等に適用可能なユーザ・イ
ンタフェースを備えた情報処理装置に関し、特に本発明
は人と物、物と物が音声を介して会話できるようにした
対話インタフェース・システムに関するものである。
【0002】
【従来の技術】今日、テレビやビデオに代表される電気
製品の分野では、リモコンを用いたリモコン・インタフ
ェースが広く浸透している。しかしながら、リモコン
は、テレビのチャンネルの切り換えや音量の上げ下げの
ような単純な機能の操作には適しているが、それ以上の
複雑な操作には不向きである。実際、初心者や高齢者の
みならず技術者でさえ多様で高機能な電気製品を完全に
使いこなしているとは言い難い。
【0003】一方、より複雑な操作を必要とするコンピ
ュータの分野では、ウィンドウやマウスを用いたグラフ
ィカル・ユーザー・インターフェース(GUI:Graphi
calUser Interface)が広く使用されている。しかしな
がら、その仕様は製品ごとに異なり、利用者にとっては
まだまだ不便な点も多い。また、初心者や高齢者にとっ
てはGUI自身が未経験な作業であるため難解な点も少
なくない。さらに、GUIはその性質上必ず画面を必要
とするので、ディスプレイを必要としない多くの電気製
品や工業機械には適しない。
【0004】このため、最近、これらのシステムの次世
代のユーザー・インタフェースとして、人(以下、「ヒ
ト」という)にとってより自然であり、かつ、ディスプ
レイも必要としない、音声認識や合成の技術が注目され
ており、これらは、現在、既に、カー・ナビケゲーショ
ン・システムや一部のコンピュータ・システムなどで利
用されている。また、インターフェースの研究において
は、最近、マルチモーダル・インターフェース(MI:Mu
ltimodal Interface) が注目されている(参考文献[1]
R.A.Bolt,"The integrated multi-modal interface,”
(Invited Paper ),IEICE Transactions on Informati
on Systems, vol.J70-D,no.11,PP.2017-2025, November
1987. 参考文献[2] 長尾確, ”マルチモーダル・ヒュー
マンコンピュータインタラクション−エージェント指向
と実世界指向”計測と制御,vol.36,no.1,PP. 65-70、19
96年1 月. 参考文献[3] 新田恒雄、”GUI からマルチモ
ーダルUI(MUI )に向けて”情報処理,vol.36 、no.11
、PP.1039-1046, 1995年11月. 参照)。
【0005】これは、GUIのように視覚のみならず、
音声や身振り(gesture )など多様な様相(multimoda
l)を用いて、コンピュータ等とのコミュニケーション
を図ろうとするものである。一方、ヒトが生活する環境
にある様々な物にコンピュータを付け、ヒトの行動等を
支援しようとするユビキュタス・コンピューティング
(UC:Ubiquitous Computing)という研究がなされてい
る(参考文献[4]M.Weiser,”Some computer science is
sues in ubiquitous computing, ”Communications of
the ACM,vol.36, no. 7,pp. 74−85, July 1993.参考文
献 [5]長尾確,"実世界指向インターフェースの技術と動
向,”システム/制御/情報, vol.40, no. 9,pp. 385-
392,1996年 9月. 参照)。
【0006】これは、例えば、図書館の書棚等にコンピ
ュータを遍在(ubiquitous)させておき、手持ちのモー
バイル・コンピュータ(mobile computer )との通信
や、あるいは、音声による会話によって、書籍の検索等
を支援しようとするものである。なお、音声の研究にお
いては、近年、ヒトとコンピュータの対話に関する研究
が盛んに行われている(参考文献[6]R.Cole,L.Hirschma
n,L.Atlas,M.Beckman,A.Biermann,M.Bush,M.Clements,
J.Cohen,O.Garcia,B.Hanson,H.Hermansky,S.Levinson,
K.McKeown,N.Morgan,D.G,Novick,M.Ostendorf,S.Oviat
t,P.Price,H.Silverman,J.Spitz,A.Waibel,C.Weinstei
n,S.Zahorian,and V.Zue,"The challenge of spoken la
nguage systems:research directions for the nineti
es ",IEEE Transactions on Speech and Audio Proces
sing,vol.3,no.1,pp.1−21,January 1995.参考文献[7]
伊藤克亘,"音声対話システム”, 電子情報通信学会技術
研究報告, vol.92,no.127,音声, no. SP92−38, pp. 23
−30、1992年 7月. 参考文献[8]竹林洋一,”マルチメ
ディアによる計算機との対話”,電子情報通信学会技術
研究報告,vol.92, no. 127, 音声、no. SP92-37,pp.15-
22,1992 年 7月. 参照)。
【0007】
【発明が解決しようとする課題】上記した従来の音声認
識や合成の技術を利用したシステムは、基本的に一人の
ヒトと一つの物の間での会話を想定している。今後、音
声認識および合成の機能を持ったシステムがますます増
加するものと予測されるが、このとき、それらが複数で
ヒトと混在した場合、上記した従来のシステムでは、一
つのシステムに対して発した命令を複数のシステムが誤
って実行してしまったり、また、あるシステムがヒトに
対して発した応答を別のシステムが自身に対しての命令
と誤った解釈をしてしまうといった問題が必然的に発生
するものと予測される。
【0008】本発明は上記した事情を考慮してなされた
ものであって、その目的とするところは、ヒトと物のみ
ならず物と物がヒトにとって自然な音声によって対話す
ることができ、ディスプレイを必要とせず、ヒトに優し
くかつ実用的なインタフェース・システムを提供するこ
とである。
【0009】
【課題を解決するための手段】前述のようなインターフ
ェースとそのネットワーキングに関する問題を解決し、
より積極的に発展させるための1つの方策として、本発
明においては、「物々の対話インターフェース(以下、
TDI:Things' Dialog Interfaceと略記する)」とい
う考えを提案する。TDIとは、コンピュータのみなら
ず様々な物(電気器具や工業機械などを含むあらゆる
物)に音声の認識および合成の機能を付加することによ
って、ヒトとそれらの物および物同志が音声によって会
話できるようにするためのインターフェースである。
【0010】前述したように、音声の認識や合成の技術
はカー・ナビゲーション・システムや一部のコンピュー
タ・システム等で既に使用されている。しかしながら、
それらは基本的に1人のヒトと1つの物の間での会話を
想定している。一方、ここで提案するTDIはヒトと物
の会話のみならず物同志の会話をも含めている点が決定
的に異なる。コンピュータのインターフェースを、音声
のようなヒトにとって自然なレベルにまで一気に上げる
ことによって、各社の間でのGUI戦争の問題はもはや
無関係になる。加えて、音声はヒトの通信手段として既
に長く使用されているものなので、最終的には標準化の
問題も不用であろう。また、画面が不用であるというこ
ともTDIの大きな特徴である(参考文献〔9]管村昇,"
音声認識,音声合成の技術とその動向",計測と制御,vo
l.35、no.1,PP.45−51,1996 年 1月. 等参照)。
【0011】電気器具や工業機械の多くにおいては、コ
ンピュータに使用されるような大きなディスプレイは不
用であり、この点でもTDIは適している。また、ディ
スプレイが不用なので、小型化にも適している(上記参
考文献[9] 参照)。さらに、手を使用しなくともよいこ
とから、作業しながらの人や、病気の人にも便利であろ
う(上記参考文献[9] 参照)。一方、ネットワーキング
の問題に関しても、音声は無線でかつ簡単にブロードキ
ャスト(broad cast)できるため、家庭内等でのインタ
ーフェースのネットワーキングに有望であろう。また、
既存の電話網を利用することによって、遠隔的に対話す
ることも可能であろう(上記参考文献[9] 参照)。な
お、無線によるネットワーキングに関しては、電波や赤
外線の技術が有望視されているが、これらはデータのネ
ットワーキングに適しているのであって、インターフェ
ースのネットワーキングに関しては、ヒトが介在できる
という点で、音声の方が適している、と思われる。
【0012】TDIにより、様々な電気器具や工業機械
と利用者は互いに会話し合い、情報や作業を連絡、調
整、また、実行することができる。将来的には、音声の
認識や合成の能力に加え、学習や適応などの機能を備え
る、知的な製品のみに淘汰されていくであろう。なお、
TDIにおいては、その他、音量、話速、声質、韻律な
ど多様な性質の利用の可能性が考えられる(参考文献[1
0]中川聖一、堂下修司“音声言語情報処理研究の動向と
研究課題”, 情報処理,vol.36, no. 11,pp.1012−101
9、1995年11月. 等参照)。このようにTDIはポスト
GUIなる次世代のインターフェースの1つとして有効
であると思われる。
【0013】さて、改めていうと、TDIの目標はヒト
に優しくかつ実用的なインターフェースを提供すること
である。TDIも音声を媒体とする点で、前述したよう
にマルチモーダル・インターフェース(MI:Multimodal
Interface) の一環として捉えることができる。また、
TDIも様々な物に音声のインターフェースを付加する
という点で、この前述したユビキュタス・コンピューテ
ィング(UC:Ubiquitous Computing)の一環として捉え
ることもできる。なお、前述したように近年、ヒトとコ
ンピュータの対話に関する研究が盛んに行われている
が、TDIにおけるような物と物との対話についてはま
だ注意が払われていないようである。音声による物と物
との通信の1つの大きな利点は、その対話を同時にヒト
が理解でき、かつ、必要であれば修正や変更できること
である。このように、TDIにおいてはヒトが物と物と
の通信に容易に介入することでき、この点からもヒトに
優しいインターフェースであるといえよう。
【0014】本発明は、上記TDIを用いてヒトと物の
みならず物と物が音声によって対話できるようにした実
用的なシステムを提供する。図1は本発明の原理構成図
である。同図において、1は入力音声を入力意味表現に
変換する音声認識系、2は対話規則に基づき上記音声認
識系1から送信された入力意味表現に対応する出力意味
表現と固有の機能(の指令)を出力する対話処理系であ
る。また、3は上記対話処理系2から出力意味表現を受
信し、出力音声に変換し出力する音声合成系、4は、対
話処理系2から固有の機能の指令を受信し、該機能を実
行する固有機能系である。本発明においては、上記対話
規則に基づき入力音声に応じた出力音声を発生して人と
物、物と物同士の対話を行い、対話の内容に応じた所定
の処理もしくは所定の機能を実行する。
【0015】上記システムにおいて、音声認識系1に、
音声が入力されているとき音声合成系に対して待機通知
を送出する機能を設けることにより、同時発話を回避す
ることができる。また、対話処理系2に、他者もしくは
自己の命令により対話規則を変更、追加、削除する機能
を設けることにより、システムに自律性を持たせること
ができる。さらに対話処理系3に、同じ内容の入力意味
表現が続けて入力されたとき、一方を棄却する機能を設
けることにより、同一会話を回避することができる。ま
たさらに、音声合成系3と固有機能系4に同期通知を相
互に出力する機能を設けることにより、音声の発生と固
有機能の実行を同期して行うことができる。
【0016】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。なお、TDIがシステムに実装された任意
の1つの物(コンピュータ、ロボット、工業機械、電気
製品、日用品等、以下「ヒト」と対比させるためこれら
を「物」と呼ぶ)を、ここではTDIシステムと呼ぶこ
ととする。 (1)TDIシステムの機能構成と処理手順 図2に本実施例のTDIシステムの機能構成を示す。同
図はある1つの物にTDIを実装した場合を示してい
る。同図に示すように、TDIシステムは、音声認識系
(Speech Recognition System )1、対話処理系(Dial
og Management System)2、および、音声合成系(Spee
ch Synthesis System )3の3つの系から成る。また、
TDIシステムには、必要に応じて、その他にその物の
固有の機能を実現するための固有機能系(Innate Opera
tion System )4が含まれている。この固有機能系4に
は例えばビデオの場合には録画や再生などの機能が含ま
れる。
【0017】図3にTDIシステムのハードウェア構成
の概略を示す。同図に示すようにTDIシステムを構成
する音声認識装置11、対話処理装置12、音声合成装
置13、および、固有機能装置14はバス15によって
結合され、バス15にはバスを制御するためにバスコン
トローラ16が付加されている。さらに、図3の音声認
識装置11、対話処理装置12、音声合成装置13、お
よび、固有機能装置14は、それぞれ例えば図4に示す
ようなハードウェアにより構成されている。すなわち、
上記各系は入出力装置21、演算装置22、記憶装置2
3、および、インタフェース25から構成され、これら
は内部バス26によって結合され、また、その内部バス
26を制御するためにバスコントローラ24が付加され
ている。
【0018】入出力装置21にはマイクやスピーカある
いは信号処理装置などが含まれる。演算装置22はCP
U等であり、場合によってはバスコントローラ24等も
ここに含まれる。記憶装置23は半導体メモリ装置や磁
気デイスク装置などである。インタフェース25にはバ
ス間結合の際に必要となるバッファ等が含まれる。すな
わち、図3に示されるTDIシステムのハードウェア構
成は、図5に示すように書き換えられる。なお、現実的
には、性能や価格に応じて、いくつかの同一のハードウ
ェア部位を一つに統合することができ、最も統合化され
た形態のTDIシステムのハードウェア構成は図6に示
すようになる。以下、音声認識系1、対話処理系2、音
声合成系3、および、固有機能系4の動作について説明
する。
【0019】(1-1)音声認識系 音声認識系1は、ヒトやTDIを備える他の物から入力
音声を受信し、以下のいくつかの過程を経て入力意味表
現に変換し、最終的にそれを対話処理系に送信するもの
である。入力音声(input voice )は一旦バッファに蓄
えられ、その後、FIFO(First In First Out)の順
で、入力音素列(input sequence of phonemes)、入力
文字列(input sequence of characters)、さらに、入
力意味表現(input speech representation )へと変換
される。ここで、音素とは音声の基本単位のことであ
り、入力された音声はいくつかの音素の時系列に分解さ
れる。音素列はさらに文字列に変換され、そして、その
文字列が構文解析され形式的な意味表現へと変換され
る。最終的に、得られた入力意味表現は順に対話処理系
に送信される。なお、音声から意味表現への変換は従来
の手法どおりである(参考文献[11]古井貞 ”音声認
識”, 電子情報通信学会誌,vol.78,no.11, PP.1114-11
18, 1995年11月. 参照)。
【0020】また、音声認識系1が入力音声を受信して
いる間は、音声認識系1から音声合成系3に待機通知を
送出し、「入力中により出力待機」と指令することによ
り音声合成系3は出力音声の送信を待機するようにす
る。これは、誰かあるいは何かが発話中は、少なくとも
他の何かが発話しないようにするためである。図7に音
声認識系の処理手順を示す。音声認識系の処理手順は同
図に示すように記述することができる。
【0021】図7において、in-voiceu , in- phonemes
u ,in- characteru , および、in-speechu はそれぞれ
u番目の入力音声、入力音素列、入力文字列、および、
入力意味表現を表す。また、sr-in-buffertop , sr-in-
bufferbottom,sr-out-buffer top 、および sr-out-buff
er bottom はそれぞれ音声認識(speech recognition)
系の入出力バッファの頭および底を表す。sr-in-buffe
r,sr-out-bufferはまとめて1つのバッファにすること
もできる。なお、図7において、手順aおよびbは並行
に処理されることに注意を要する。
【0022】図7において音声認識処理は次のように行
われる。同図aにおいて、ヒトもしくは物からの音声が
入力されると、音声が入力されている間、音声認識系1
から音声合成系(Speech Synthesis System )3に待機
信号を通知するとともに、入力音声(in-voicep )を音
声認識系のバッファの底にプッシュインする処理を繰り
返す。一方、同図bにおいて、バッファの頭に入力音声
(in-voiceu )があると、入力音声(in-voiceu )をバ
ッファからポップアウトして入力音声(in-voiceu )を
入力音素列(in- phonemesu )に変換し、入力文字列
(in- character u )に変換する。さらに、入力文字列
(in- character u )を入力意味表現(in- speechu
に変換し、変換した入力意味表現(in- speechu )をバ
ッファの底にプッシュインする。以上処理を入力音声が
入力されている間繰り返す。
【0023】(1-2)対話処理系 対話処理系2は、音声認識系1から入力意味表現を受信
し、それに対する適切な対話規則を対話データベースか
らを検索し、それに基づき出力意味表現を音声合成系3
に出力し、また、固有機能を固有機能系4に指令するも
のである。また、対話処理系2は後述するように、年月
日、時刻等の環境変数を内部情報として保持する機能を
備えている。さらに、対話処理系2は、他者または自己
の命令により対話規則を変更、追加、削除する機能を備
えており、後述するように、この機能より本システムは
自律性を持つことができる。
【0024】本実施例においては、すべての会話の意味
表現を次のように書き表すこととする。 speech=[(from-whom),to-whom,message] ここで、from-whom ,to-whom ,および、message は、
それぞれ、その会話が誰あるいは何から誰あるいは何に
対するどのような内容であるかを意味する。from-whom
に()が付されているのは、通常、話者は自分がその会
話の発話者であることを陽に発話しないからである。こ
のため、必要であればTDIはその会話の発話者が誰あ
るいは何であるかを声質などから特定できる機能を有す
るものと仮定する(前記文献[11] 参照)。
【0025】一方、会話の中でto-whom が陽に指定され
ていないときには、to-whom 内容をanyone(誰か)と仮
定することにする。to-whom の内容をeveryone(皆)と
することもできるが、その場合には、話者がこれを陽に
指定しなければならないとする。以上により、以下の説
明では、i番目の入力意味表現を次のように書き表すこ
ととする。 in- speechi =[(in-from-whomi ),in-to-whomi ,in-m
essagei ] また、j番目の出力意味表現を次のように書き表すこと
にする。 out-speechj =[( out-from-whomj ), out-to-whomj ,o
ut-messagej ] 次に、対話規則を定義する。本実施例においては、対話
規則データベース中のk番目の対話規則を図8のように
書き表す。
【0026】図8において、name-of-thing はこのTD
Iが実装されているその物の名前である。また、記号”
→”は論理的演繹を表す。対話規則データベースは図8
に示す対話規則の集合として定義される。すなわち、対
話規則データベースには、図8に示すように、入力意味
表現(in- speechk )に対する出力意味表現(out-spee
chk )、固有の機能(innate-operationk )を定義した
対話規則の集合が格納されている。図9に対話処理系の
処理手順を示す。対話処理系の処理手順は同図に示すよ
うに記述することができる。ここで、記号”∧”,”
∨”および、”|”はそれぞれ論理積(AND)、論理
和(OR)、および、NORを表す。また、図9の手順
1,2および3は順次に処理されることに注意を要す
る。
【0027】図9において対話処理は次のように行われ
る。図9の1において、音声認識系のバッファに入力意
味表現(in-speechi ) があったら、バッファの頭から入
力意味表現(in-speechi ) をポップアウトする。図9の
2において、対話規則(dialog-rulek ) を検索し、対話
規則から入力意味表現(in-speechi ) に対応した出力意
味表現(out-speech i ) 、固有の機能(innate-opration
i )を得る。ここで、in-to-whomi はname-of-thing
(TDIが実装されている物)、anyone(誰か)、ever
yone(皆)、not-specified (特定しない)のいずれで
もよい。また、out-from-whom i (発声するもの)はna
me-of-thing (TDIが実装されている物)であり、ou
t-to-whom i (話かける相手)は、out-to-whom k がno
t-specified でない場合(特定されている場合)はout-
to-whom k とし、out-to-whom k がnot-specified の場
合(特定されていない場合)には、in-from-whom iとす
る。
【0028】図9の3において、次の入力意味表現(in-
speechi+1 )が音声認識系のバッファの頭に無い場合、
あるいは、in-to-whomi がanyone(誰か)あるいはnot-
specified (特定されない)でないか、out- messagei
とin- message i+1 が等しくない場合は、out-speechi
を音声合成系のバッファの底に送出し、また、innate-o
pration i を固有機能系のバッファの底に送出する。す
なわち、図9の3.の3行目においては、i番目の出力
意味表現の候補out-messagei が、音声認識系1におい
て認識される次の、すなわち、i+1番目の入力意味表
現 in- messagei+1 と比較され、もし同一であれば棄却
されている。これは、少なくとも単一あるいは複数の物
によって、同じ内容の会話が繰り返されるのを防ぐため
である。
【0029】(1-3)音声合成系 音声合成系3は、音声認識系1の逆の機能を有するもの
であり、対話処理系2から出力意味表現を受信し、いく
つかの過程を経て出力音声に変換し、最終的にそれをヒ
トやTDIを備える他の物に送信するものである。出力
意味表現(output speech representation)は、出力文
字列(output sequence of characters )、出力音素列
(output sequence of phonemes )、さらに、出力音声
(output voice)へと変換され、一旦バッファに蓄えら
れる。最終的に得られた出力音声はFIFOの順でヒト
やTDIを備える他の物に送信される。なお、意味表現
から音声への変換も従来の手法どおりである(参考文献
[12]中田和男,”音声合成と符号化技術”,電子情報通
信学会誌,vol.78, no.11 ,PP.1119-1124,1995 年11月.
参照)。
【0030】図10に音声合成系の処理手順を示す。音
声合成系の処理手順は同図に示すように記述することが
できる。ここで、out-speechv 、out-charactersv 、ou
t-phonemesv 、および、out-voice v はそれぞれv番目
の出力意味表現、出力文字列、出力音素列、および、出
力音声を表す。また、ss-in-buffertop 、ss-in-buffer
bottom、ss- out-buffer top 、およびss-in-buffer
bottomは、それぞれ音声合成(speech synthesis)系の
入出力バッファの頭および底を表す。ss-in-bufferとss
- out-bufferはまとめて1つのバッファにすることもで
きる。なお、音声認識系からout-wait-signal (待機信
号)を受信している間は、out-voice q は出力待機とな
る。また、out-voice q の出力は固有機能系のinnate-o
perationq の実行と同期してなされることに注意を要す
る。なお、図10において、手順aおよびbは並行に処
理されることにも注意を要する。
【0031】図10において音声合成処理は次のように
行われる。図10のaにおいて、音声合成系のバッファ
の頭に出力意味表現(out-speech v )があると、バッフ
ァから出力意味表現(out-speechv )をポップアウト
し、出力意味表現(out-speechv )を出力文字列(out-
charactersv )に変換し、出力文字列(out-characters
v )を出力音素列(out-phonemesv )に変換し、さらに
出力音素列(out-phonemesv )を出力音声(out-voice
v )に変換し、バッファの底にプッシュインする処理を
繰り返す。
【0032】一方、同図のbにおいて、音声合成系のバ
ッファの頭に出力音声(out-voice q )があり、かつ、
音声認識系(Speech Recognition System )から待機信
号(out-wait-signal )を受信していなければ、バッフ
ァから出力音声(out-voice q )をポップアウトする。
図10のcにおいて、固有機能系(Innate Operation S
ystem )に同期信号(out-synchronize-signal)を送出
し続け、固有機能系からの同期信号を受信すると、出力
音声(out-voice q )をヒトあるいは物に送出する。
【0033】(1-4)固有機能系 固有機能系4は、対話処理系2から固有機能(の指令)
を受信し、それを実行するものである。ここで、固有機
能とは例えばビデオの場合には録画や再生などの機能が
これに相当する。図11に固有機能系の処理手順を示
す。固有機能系の処理手順は同図に示すように記述する
ことができる。ここで、innate-operationq はq番目の
固有機能を表す。また、io-out-buffer top およびio-o
ut-buffer bottomは固有機能系(innate-operation)の
出力バッファの頭および底を表す。なお、innate-opera
tion qの実行は音声合成系3のout-voice q の出力と同
期してなされることに注意を要する。
【0034】図11において固有機能の処理は次のよう
に行われる。同図bにおいて、固有機能系のバッファに
固有機能(innate-operationq )があれば、固有機能
(innate−operation q )をバッファからポップアウト
する。同図cにおいて、音声合成系(Speech Synthesis
System )から同期信号(out-synchronize-signal)を
受信していると、音声合成系へ同期信号(out-synchron
ize-signal)を送り、固有機能(innate−operation
q )の実行を行う処理を繰り返す。
【0035】(2)TDIシステムの特徴 次に、本発明のTDIシステムの特徴について説明す
る。これらの特徴はTDIシステムの本質を成すもので
あり、それにより、従来の音声認識システムや音声合成
システムとの違いを明らかにする。(2-1)対話対象の特
定化および不特定化 TDIシステムにおいては、対象を特定した対話と、対
象を特定しない対話の両方が可能である。前者の例は、
例えば「ビデオ、番組○○の録画を予約せよ! 」であ
る。一方、後者の例は「(誰か)、時間を教えよ! 」で
あり、この場合はTDIを備える物のうち、適合する対
話規則を持つ物が応答候補となるが、前記(1-2) で述べ
た「同一会話の回避」の機能により、最も反応の速い物
のみが回答することになる。なお、対象を特定しない対
話はいわゆるブロードキャスト(broadcast )の一種で
あり、音声が空間的な広がりを持つという特徴をうまく
利用している。
【0036】(2-2)同時発話の回避 本発明のTDIシステムにおいては、誰あるいは何かが
発話中は、少なくとも他の何かが発話しないように設定
されている。これは、前記(1-1),(1-3) において説明さ
れたように、音声合成系および固有機能系におけるバッ
ファ機能に加え、音声認識系が入力音声を受信している
間は、音声認識系から音声合成系に「入力中により出力
待機」と指令され、これにより、音声合成系は出力音声
の送信を待機するように設定されていることによって実
現されている。
【0037】(2-3)同一会話の回避 本発明のTDIシステムにおいては、また、少なくとも
単一あるいは複数の物によって、同じ内容の会話が繰り
返されるのを防ぐように設定されている。これは、前記
(1-2) において説明されたように、対話処理系におい
て、i番目の出力意味表現の候補out-message i が、音
声認識系において導出される次の、すなわち、i+1番
目の入力意味表現in- message i+1 と比較され、もし同
一であれば棄却される、ことによって実現されている。
【0038】(2-4)他のインターフェースおよび固有機
能との連係 対話処理系においては、確定された出力意味表現が、音
声合成系に送信され、音声によって発話されるだけでな
く、確定された固有機能も、固有機能系に送信され、応
答の内容が表示されたり、その物の固有の機能が実行さ
れる。すなわち、TDIシステムは多様なインターフェ
ースのうちの音声の(verbal)様相を受け持ち、視覚的
な(visual)様相など音声以外の様相(nonverbal )
や、また、その物に固有の機能は固有機能系において連
係され実現される。
【0039】(2-5)物の能動性 本発明のTDIシステムにおいては、応答として、他者
ないし自己に対して質問や命令することが可能である。
すなわち、ある物が他の物や場合によってはヒトに対し
て質問したり命令することが可能である。これにより、
TDIを備えた物は能動性を持つことになる。ここで、
能動性とは他者に対して積極的に働き掛けることを意味
する。
【0040】(2-6)物の自律性 また、本発明のTDIシステムにおいては、自己ないし
他者からの命令として、その物の対話データベースに対
して、新しい対話規則を追加したり、既存の対話規則を
変更したり、また、古い対話規則を削除するよう、命令
することが可能である。これにより、TDIを備えた物
は自律性を持つことになる。ここで、自律性とは自己に
おいて変革しながら外界に対することを意味する。 (2-7)物の単純性 ある物のTDIシステムに、想定されない複雑な音声命
令が入力された場合や、あるいはまた、他の物への音声
命令が入力された場合でも、システムはエラーを起こさ
ず、単に無反応となるだけである。このように、TDI
システムは想定された対話規則にのみ反応するという意
味で単純である。
【0041】(2-8)システムの分散性 TDIシステムを備える物々の群は完全に分散的であ
る。このため、ヒトや物の増減に対して非常に柔軟であ
る。また、基本的に各物には主従の関係はないが、特定
のヒトあるいは物からの命令に対してのみ応答するよう
に、各物の対話規則を設定することも可能かつ容易であ
る。
【0042】(3)適用例 以下、本発明のTDIシステムの具体的な適用例につい
て説明する。なお、以下では、一般性を損なうことなし
に、記述を簡単化するために、in-speech およびout-sp
eechのfrom-whom の項を省略している。 (3-1) 玄関灯の点灯 図12に示すように以下のように受け答えする玄関灯
(Entrance Light)について考える。
【0043】
【0044】この玄関灯の対話規則は、図13のように
記述することができる。すなわち、図13に示す、入力
意味表現(in- speech)に対する固有の機能(innate-o
peration:この場合のturn-on -light()は電灯を点け
るという関数)を定義した対話規則を、対話規則データ
ベースに格納しておくことにより、音声に応じて玄関灯
を点灯させることができる。なお、この玄関灯に対して
は、上記のように対話対象の特定化および不特定化(前
記2-1 参照)が可能である。 (3-3) 時計 図14のように、以下のように受け答えする時計(Cloc
k )について考える。
【0045】Clock Human : What-time-is-it-now ? Clock-1 :(Sir,) 12 :34 a.m. (Clock-2 :(Sir,) 12 :34 a.m. ) Clock-3 :(Sir,) 12 :43 a.m. Human : Clock-3, Synchronize-to Clock-1 Clock-3 : Clock-1, teach-time ! Clock-1 : Clock-3, Change-time -to 12:36! Clock-3 :(Sir,) thank you.
【0046】上記の会話は、「ヒト」が「時計」に時刻
を聞き、 Clock-1、 Clock-3が音声により時刻を知らせ
(Clock-2 が返答しようとした時刻は Clock-1と同じ時
刻であるので、Clock-2 は発声しない)、「ヒト」が C
lock-3に対して時刻合わせを指令し、 Clock-3が Clock
-1に時間を聞いて時刻合わせを行う場合を示している。
【0047】この時計の対話規則は、図15のように記
述することができる。対話規則データベースに、対話規
則として、図15に示すような入力意味表現(in-speec
h )に対する出力意味表現(out-speech)と固有の機能
(innate-operation)を格納しておくことにより、現在
時刻の質問に対する「音声による応答」、および、時間
合わせの指示に対する「時刻の問い合わせ」、「時間合
わせ」機能を実現することができる。ここで、$ の付く
$Time や$clockは変数を表し、$Time は現在の時刻を表
す環境変数であり、時々刻々の値が対話処理系の中に内
部情報(前記図2参照)として保存されているものであ
る。この場合、Clock-2 が返答しようとした時刻は、Cl
ock-1 が返答した時刻と同じであったため、棄却されて
いることに注意を要する。このように、この時計におい
ては、同一会話の回避(2-3 参照)が可能である。
【0048】(3-3) 風呂への給湯 図16のように、以下のように受け答えする風呂(bat
h)について考える。 Bath Human : Bath, Prepare! Human : = Bath,Pour-hot-water!
【0049】この風呂の対話規則は、図17のように記
述することができる。対話規則データベースに、対話規
則として、図17に示すような入力意味表現(in-speec
h )に対する固有の機能(innate-operation)を格納し
ておくことにより、風呂の用意の指示に対する「ブザー
の鳴動」、「風呂への給湯」機能を実現することができ
る。ここで、beep-buzzer() やpourhot-water() などは
関数を表し、この風呂においては、「用意しろ! 」ある
いは「湯を入れろ! 」という命令によって、ブザーが鳴
らされ(他のインターフェース)、湯が注がれる(固有
機能)。このように、この風呂においては、他のインタ
ーフェースおよび固有機能との連係(2-4 参照)が可能
である。
【0050】(3-4) インフオメータとビデオと電話 図18のように以下のように受け答えするインフォメー
タ(Informator)とビデオ(Video )と電話(Phone )
について考える。ここで、インフォメータとは、電子秘
書のように振舞う情報端末のことである。
【0051】
【0052】上記の会話は、「ヒト」が「インフォメー
タ」にテレビ番組の検索を指示し、その報告を受けて
「ヒト」が「インフォメータ」にその番組の録画を指示
し、「インフォメータ」が「ビデオ」に対して上記番組
の録画を指示したのち、「ヒト」が「インフォメータ」
にコンサートの検索、コンサートのチケットのカウンタ
の呼び出しを指示し、その指示に基づき「インフォメー
タ」が「電話」に対して上記カウンタに電話を掛けるよ
うに指示した場合を示しており、上記会話の後半部分
は、主としてチケットのカウンタのオペレータとヒトと
の電話による応答である(途中で「ヒト」が「インフォ
メータ」に、カードナンバーの問い合わせを行ってい
る)。
【0053】これらのインフォメータとビデオと電話の
対話規則は, 図19、図20のように記述することがで
きる。インフォメータの対話規則データベースに、対話
規則として、図19に示すような、入力意味表現(in-s
peech )に対する出力意味表現(out-speech)と固有の
機能(innate-operation)を格納しておくことにより、
テレビ番組、コンサート、電話番号等の検索指示に対す
る「検索機能」および「検索結果の報告」、検索結果の
記憶指示に対する「記憶機能」、テレビ番組のビデオへ
の録画指示に対する「応答」および「ビデオ」に対する
録画指示、ダイヤル指示に対する電話番号の検索、およ
び「電話」へのダイヤルの指示を行うことができる。
【0054】また、ビデオの対話規則データベースに、
対話規則として図20に示すような、入力意味表現(in
-speech )に対する出力意味表現(out-speech)と固有
の機能(innate-operation)を格納しておくことによ
り、録画指示に対してテレビ番組の「録画機能」を行う
ことができる。さらに、電話の対話規則データベース
に、対話規則として図20に示すような、入力意味表現
(in-speech )に対する出力意味表現(out-speech)と
固有の機能(innate-operation)を格納しておくことに
より、電話のダイヤル指示に対する「ダイヤル機能」を
行うことができる。ここで、$の付く$key や$conten
t などは変数を表し、また、" によって囲まれた“phon
e-no. ”などは定数を表す。このインフォメータは、
「ビデオ」に録画を指令することができるという点で能
動性(前記2-5 参照)を有している。
【0055】(3-5) クローゼット 図21のように以下のように受け答えするクローゼット
(Closet)について考える。
【0056】Closet Human :Closet-1, keep "black-coat"! Closet-1 :(Sir, ) sure. Human :Closet-2, keep "ski-wear"! Closet-2 :(Sir, ) sure. Human :(Anyone,) where-is "black-coat"? Closet-1 :(Sir, ) Closet-1 keeps "black-Coat".
【0057】このクローゼットの対話規則は、図22の
ように記述することができる。ここで、上記対話規則に
おける add-dialog-rule […] 、delete-dialog-rule
[…] はそれぞれ対話規則を追加および削除するための
高階の規則である。対話規則データベースに、対話規則
として、図22に示すような入力意味表現(in-speech
)に対する出力意味表現(out-speech) 、上記高階の
規則を格納しておくことにより、ヒトがクローゼット
(Closet-1)に衣服をしまう際、しまった衣服の種類を
発声すると、そのクローゼット(Closet-1)の対話規則
データベースにはそれに対応した対話規則が追加され、
ヒトが、クローゼットに対して何処に衣服があるかを聞
いたとき、その衣服が格納されたクローゼット(Closet
-1)がヒトに対して答えることができる。上記のよう
に、このクローゼットは、自分で対話規則を追加および
削除することができるという点で自律性(前記(2-6) 参
照)を有している。
【0058】(3-6) 掃除ロボット 以下のように受け答えする掃除ロボット(Cleaning Rob
ot)について考える。この掃除ロボット達は、図23に
示すように仕事を配分する1台のチーフロボット(chie
f Robot )と、実際の掃除をする何台かの掃除ロボット
(Clearing Robot)から編成される。
【0059】
【0060】なお、上記の会話は、「ヒト」がチーフロ
ボット(chief Robot )に、10:00-11:00a.m. の間に15
-18 階、11:00-12:00a.m. の間に1-4 階の掃除を命じ、
これを受けてチーフロボットが掃除ロボット1〜4に仕
事を配分する場合を示している。これらの掃除ロボット
の対話規則は, 図24のように記述することができる。
チーフロボットの対話規則データベースに、対話規則と
して、図24に示すような入力意味表現(in-speech )
に対する出力意味表現(out-speech) および固有の機能
(innate-operation)を格納しておくことにより、ヒト
がチーフロボットに掃除の指令を与えると、チーフロボ
ットが仕事の配分を行って、掃除ロボットに指令するこ
とができる。また、掃除ロボットの対話規則データベー
スに、対話規則として、図24に示すような入力意味表
現(in-speech )に対する出力意味表現(out-speech)
および固有の機能(innate-operation)を格納しておく
ことにより、チーフロボットが仕事の配分に対して、掃
除ロボットに指令に応じた仕事をさせることができる。
【0061】(3-7) :案内ロボットとナビゲータ 図25のように、以下のように受け答えする案内ロボッ
ト(Guide Robot )とナビゲータ(Navigator )につい
て考える。ここで、案内ロボットとは、観光局などで名
勝や旧跡などを案内するロボットのことである。また、
ナビゲータとは、GPS(Global Positioning System
)などを備え、特に経路や地点の案内機能を持つイン
フォメータの一種のことであり、この場合は図25に示
すようにヒトが所持している。
【0062】
【0063】上記会話は、ヒトが案内ロボットに対して
「静かな寺」について尋ね、案内ロボットから「銀閣
寺」を紹介され、ヒトがナビゲータに対して銀閣寺のデ
ータの収集を依頼し、ナビゲータが自分のアドレス( 1
11.222.333.444)を伝えて、案内ロボットから「銀閣
寺」についてのデータを貰う場合を示している。これら
の案内ロボットとナビゲータの対話規則は、図26、図
27のように記述することができる。案内ロボットの対
話規則データベースに、対話規則として、図26に示す
ような入力意味表現(in-speech )に対する出力意味表
現(out-speech) 、固有の機能(innate-operation)を
格納しておくことにより、ヒトの観光地の質問に対して
該当する観光地を検索し答えるとともに、ナビゲータ等
のアドレスを記憶し、上記アドレスに対して観光地のデ
ータを送ることができる。また、ナビゲータの対話規則
データベースに、対話規則として、図27に示すような
入力意味表現(in-speech )に対する出力意味表現(ou
t-speech) 、固有の機能(innate-operation)を格納し
ておくことにより、データ収集指示に対して、自アドレ
スを伝えてデータの転送を依頼し、データの受信を実行
させることができる。
【0064】
【発明の効果】以上説明したように本発明においては、
以下の効果を得ることができる。 (1)TDIによりヒトに優しくかつ実用的なインター
フェースが提供される。より具体的には、ヒトと物のみ
ならず物と物とがヒトにとって自然な音声によって対話
できる。音声をインターフェースに使うことの利点は前
記したように従来よりいくつか指摘されてきた。まず、
第1は音声がヒトにとって自然であるということであ
る。また、ディスプレイが不用であるということも大き
な利点である。これは、システムの小型化にも適してい
る。また、手を使用しなくともよいことから、作業しな
がらの人や、病気の人にも便利であろう。また、既存の
電話網を利用することによって、遠隔的に対話すること
も可能となる。一方、前記したように、第2の音声の利
点は、ヒトの会話手段として既に長く使用されているも
のなので、最終的には標準化の問題も不用であろうとい
うことである。音声の第3の利点は、もう1つは、ネッ
トワーキングの問題に関してであり、音声は無線でかつ
簡単にブロードキャスト(broadcast )できるため、家
庭内等でのインターフェースのネットワーキングに有効
であろうということである。
【0065】(2)TDIは音声が有するこのような利
点に加え、さらに以下のような利点を有している。1つ
は、物と物との対話を同時にヒトが理解でき、かつ、必
要であれば修正や変更できる、ということである。もう
1つは、物に能動性や自律性を持たせ、知的にすること
ができる、ということである。これらの2つの利点は、
最終的に、TDIがヒトに優しいインターフェースを提
供するということに貢献する。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の実施例のTDIシステムの機能構成を
示す図である。
【図3】本発明の実施例のTDIシステムのハードウェ
ア構成の概略を示す図である。
【図4】TDIシステムの各部のハードウェア構成を示
す図である。
【図5】本発明の実施例のTDIシステムのハードウェ
ア構成の詳細を示す図である。
【図6】最も統合化された形態のTDIシステムのハー
ドウェア構成を示す図である。
【図7】音声認識系の処理手順を示す図である。
【図8】対話規則データベース中のk番目の対話規則を
示す図である。
【図9】対話処理系の処理手順を示す図である。
【図10】音声合成系の処理手順を示す図である。
【図11】固有機能系の処理手順を示す図である。
【図12】玄関灯への適用例を示す図である。
【図13】玄関灯の点灯の対話規則を示す図である。
【図14】時計への適用例を示す図である。
【図15】時計の対話規則を示す図である。
【図16】風呂への適用例を示す図である。
【図17】風呂の対話規則を示す図である。
【図18】インフオメータとビデオと電話への適用例を
示す図である。
【図19】インフォメータとビデオと電話の対話規則を
示す図である。
【図20】インフォメータとビデオと電話の対話規則を
示す図(続き)である。
【図21】クローゼットへの適用例を示す図である。
【図22】クローゼットの対話規則を示す図である。
【図23】掃除ロボットへの適用例を示す図である。
【図24】掃除ロボットの対話規則を示す図である。
【図25】案内ロボットとナビゲータへの適用例を示す
図である。
【図26】案内ロボットとナビゲータの対話規則を示す
図である。
【図27】案内ロボットとナビゲータの対話規則を示す
図(続き)である。
【符号の説明】
1 音声認識系 2 対話処理系 3 音声合成系 4 固有機能系 11 音声認識装置 12 対話処理装置 13 音声合成装置 14 固有機能装置 15 バス 16 バスコントローラ 21 入出力装置 22 演算装置 23 記憶装置 24 バスコントローラ 25 インタフェース 26 内部バス
フロントページの続き (72)発明者 小柴 健史 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 細木 信也 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 関口 実 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 前田 芳晴 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 内藤 宏久 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力音声を入力意味表現に変換する音声
    認識系と、 入力意味表現に対する出力意味表現と固有の機能を定義
    した対話規則に基づき、上記音声認識系から送信された
    入力意味表現に対応する出力意味表現と固有の機能を出
    力する対話処理系と、 上記対話処理系から出力意味表現を受信し、出力音声に
    変換し出力する音声合成系と、 対話処理系から固有の機能の指令を受信し、該機能を実
    行する固有機能系とを備え、 上記対話規則に基づき入力音声に応じた出力音声を発生
    して人と物、物と物同士の対話を行い、対話の内容に応
    じた所定の処理もしくは所定の機能を実行することを特
    徴とする対話インタフェース・システム。
  2. 【請求項2】 音声認識系は、入力音声を入力意味表現
    に変換して対話処理系に送出する機能と、 音声が入力されているとき、音声合成系に対して待機信
    号を送出する機能を備えていることを特徴とする請求項
    1の対話インタフェース・システム。
  3. 【請求項3】 対話処理系は、入力意味表現が与えられ
    たとき、対話規則の集合を格納した対話規則データベー
    スから、入力意味表現に応じた出力意味表現と固有の機
    能を検索して、音声合成系および固有機能系に出力する
    機能と、 上記対話規則を変更、追加、削除する機能と、 同じ内容の入力意味表現が続けて入力されたとき、一つ
    の入力意味表現を残して、他の同じ内容の入力意味表現
    を棄却する機能を備えていることを特徴とする請求項1
    の対話インタフェース・システム。
  4. 【請求項4】 音声合成系は、対話処理系から与えられ
    る出力意味表現を出力音声に変換し出力する機能と、 音声合成系から待機信号が受信されているとき音声出力
    を待機する機能と、 固有機能系に同期信号を通知し、固有機能系における固
    有機能の実行と同期して音声を出力する機能を備えてい
    ることを特徴とする請求項1の対話インタフェース・シ
    ステム。
  5. 【請求項5】 固有機能系は、対話処理系から与えられ
    る固有機能の指令を受信して固有機能を実行する機能
    と、 音声合成系に同期信号を通知し、音声合成系における音
    声出力と同期して固有機能を実行する機能を備えている
    ことを特徴とする請求項1の対話インタフェース・シス
    テム。
JP10024471A 1998-02-05 1998-02-05 対話インタフェース・システム Pending JPH11224179A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10024471A JPH11224179A (ja) 1998-02-05 1998-02-05 対話インタフェース・システム
US09/234,472 US6330539B1 (en) 1998-02-05 1999-01-21 Dialog interface system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10024471A JPH11224179A (ja) 1998-02-05 1998-02-05 対話インタフェース・システム

Publications (1)

Publication Number Publication Date
JPH11224179A true JPH11224179A (ja) 1999-08-17

Family

ID=12139091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10024471A Pending JPH11224179A (ja) 1998-02-05 1998-02-05 対話インタフェース・システム

Country Status (2)

Country Link
US (1) US6330539B1 (ja)
JP (1) JPH11224179A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002069320A3 (en) * 2001-02-28 2002-11-28 Vox Generation Ltd Spoken language interface
US6714223B2 (en) 2000-04-14 2004-03-30 Denso Corporation Interactive-type user interface device having root scenario
KR20180083105A (ko) * 2017-01-12 2018-07-20 엘에스산전 주식회사 프로젝트 화면 작성장치
JP2022007018A (ja) * 2020-06-25 2022-01-13 コニカミノルタ株式会社 音声設定システム、音声設定支援装置および音声設定支援プログラム

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6144938A (en) * 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
US6553345B1 (en) * 1999-08-26 2003-04-22 Matsushita Electric Industrial Co., Ltd. Universal remote control allowing natural language modality for television and multimedia searches and requests
US6823313B1 (en) * 1999-10-12 2004-11-23 Unisys Corporation Methodology for developing interactive systems
JP2001125900A (ja) * 1999-10-29 2001-05-11 Yazaki Corp 対話システム及び対話方法、双方向対話システム及び双方向対話方法並びに記録媒体
JP4032273B2 (ja) * 1999-12-28 2008-01-16 ソニー株式会社 同期制御装置および方法、並びに記録媒体
US7219064B2 (en) * 2000-10-23 2007-05-15 Sony Corporation Legged robot, legged robot behavior control method, and storage medium
JP2002269087A (ja) * 2001-03-13 2002-09-20 Ishisaki:Kk キャラクタ型会話システム
US8190436B2 (en) 2001-12-07 2012-05-29 At&T Intellectual Property Ii, L.P. System and method of spoken language understanding in human computer dialogs
US7359858B2 (en) * 2002-02-07 2008-04-15 Sap Aktiengesellschaft User interface for data access and entry
US7203907B2 (en) * 2002-02-07 2007-04-10 Sap Aktiengesellschaft Multi-modal synchronization
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
WO2003067413A1 (en) * 2002-02-07 2003-08-14 Sap Aktiengesellschaft Multi-modal synchronization
US6788791B2 (en) * 2002-08-09 2004-09-07 Shure Incorporated Delay network microphones with harmonic nesting
US7603291B2 (en) * 2003-03-14 2009-10-13 Sap Aktiengesellschaft Multi-modal sales applications
US20050010892A1 (en) * 2003-07-11 2005-01-13 Vocollect, Inc. Method and system for integrating multi-modal data capture device inputs with multi-modal output capabilities
CN1830025A (zh) * 2003-08-01 2006-09-06 皇家飞利浦电子股份有限公司 驱动对话***的方法
US20050080628A1 (en) * 2003-10-10 2005-04-14 Metaphor Solutions, Inc. System, method, and programming language for developing and running dialogs between a user and a virtual agent
US20050198300A1 (en) * 2003-12-29 2005-09-08 Li Gong Data logging framework
US20060143216A1 (en) * 2004-12-23 2006-06-29 Gupta Anurag K Method and system for integrating multimodal interpretations
US7805704B2 (en) * 2005-03-08 2010-09-28 Microsoft Corporation Development framework for mixing semantics-driven and state-driven dialog
CN100384121C (zh) * 2005-04-30 2008-04-23 何天华 交互式计算机音频广播方法及***
KR100762636B1 (ko) * 2006-02-14 2007-10-01 삼성전자주식회사 네트워크 단말의 음성 검출 제어 시스템 및 방법
US8948353B2 (en) * 2007-06-12 2015-02-03 International Business Machines Corporation Call connection system and method
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
WO2010083768A1 (zh) * 2009-01-24 2010-07-29 泰怡凯电器(苏州)有限公司 用于机器人的语音***及带有该语音***的机器人
FR2947923B1 (fr) * 2009-07-10 2016-02-05 Aldebaran Robotics Systeme et procede pour generer des comportements contextuels d'un robot mobile
KR101960835B1 (ko) * 2009-11-24 2019-03-21 삼성전자주식회사 대화 로봇을 이용한 일정 관리 시스템 및 그 방법
US9600135B2 (en) 2010-09-10 2017-03-21 Vocollect, Inc. Multimodal user notification system to assist in data capture
CN103297389B (zh) * 2012-02-24 2018-09-07 腾讯科技(深圳)有限公司 人机对话方法及装置
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US8615221B1 (en) 2012-12-06 2013-12-24 Google Inc. System and method for selection of notification techniques in an electronic device
MY179900A (en) * 2013-08-29 2020-11-19 Panasonic Ip Corp America Speech recognition method and speech recognition apparatus
US9037455B1 (en) * 2014-01-08 2015-05-19 Google Inc. Limiting notification interruptions
CN104123085B (zh) * 2014-01-14 2015-08-12 腾讯科技(深圳)有限公司 通过语音访问多媒体互动网站的方法和装置
JP2016024212A (ja) * 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US9607102B2 (en) * 2014-09-05 2017-03-28 Nuance Communications, Inc. Task switching in dialogue processing
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
CN110058834B (zh) * 2016-06-11 2022-06-17 苹果公司 智能设备仲裁和控制
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10255917B2 (en) 2017-03-31 2019-04-09 International Business Machines Corporation Coordinating the execution of a voice command across multiple connected devices
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
KR102428148B1 (ko) * 2017-08-31 2022-08-02 삼성전자주식회사 가전 기기의 음성 인식을 위한 시스템과 서버, 방법
US10770072B2 (en) 2018-12-10 2020-09-08 International Business Machines Corporation Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning
CN111490915A (zh) * 2019-01-29 2020-08-04 佛山市顺德区美的电热电器制造有限公司 语音控制智能家电的方法及其***
KR20210009209A (ko) * 2019-07-16 2021-01-26 엘지전자 주식회사 다른 로봇과 대화가 가능한 로봇 및 이의 제어 방법
JP7288415B2 (ja) 2020-03-23 2023-06-07 株式会社東芝 電力増幅装置
US11810550B2 (en) 2021-02-24 2023-11-07 Conversenowai Determining order preferences and item suggestions
US11862157B2 (en) 2021-02-24 2024-01-02 Conversenow Ai Automated ordering system
US11348160B1 (en) 2021-02-24 2022-05-31 Conversenowai Determining order preferences and item suggestions
US11514894B2 (en) 2021-02-24 2022-11-29 Conversenowai Adaptively modifying dialog output by an artificial intelligence engine during a conversation with a customer based on changing the customer's negative emotional state to a positive one
US11354760B1 (en) 2021-02-24 2022-06-07 Conversenowai Order post to enable parallelized order taking using artificial intelligence engine(s)
US11355122B1 (en) 2021-02-24 2022-06-07 Conversenowai Using machine learning to correct the output of an automatic speech recognition system

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2165969B (en) * 1984-10-19 1988-07-06 British Telecomm Dialogue system
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US5729659A (en) * 1995-06-06 1998-03-17 Potter; Jerry L. Method and apparatus for controlling a digital computer using oral input
US6052666A (en) * 1995-11-06 2000-04-18 Thomson Multimedia S.A. Vocal identification of devices in a home environment
GB9604316D0 (en) * 1996-02-29 1996-05-01 Pulse Train Tech Ltd Dialogue system
DE19615693C1 (de) * 1996-04-19 1997-12-11 Siemens Ag Vorrichtung und Verfahren zur Aktionsermittlung
JP2000507021A (ja) * 1997-01-09 2000-06-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ モジュール式会話構造に基づくような両面音声の形態における人間―機械会話を実行する方法および装置
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
JP4036528B2 (ja) * 1998-04-27 2008-01-23 富士通株式会社 意味認識システム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714223B2 (en) 2000-04-14 2004-03-30 Denso Corporation Interactive-type user interface device having root scenario
WO2002069320A3 (en) * 2001-02-28 2002-11-28 Vox Generation Ltd Spoken language interface
GB2390722A (en) * 2001-02-28 2004-01-14 Vox Generation Ltd Spoken language interface
GB2390722B (en) * 2001-02-28 2005-07-27 Vox Generation Ltd Spoken language interface
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
KR20180083105A (ko) * 2017-01-12 2018-07-20 엘에스산전 주식회사 프로젝트 화면 작성장치
JP2022007018A (ja) * 2020-06-25 2022-01-13 コニカミノルタ株式会社 音声設定システム、音声設定支援装置および音声設定支援プログラム

Also Published As

Publication number Publication date
US6330539B1 (en) 2001-12-11

Similar Documents

Publication Publication Date Title
JPH11224179A (ja) 対話インタフェース・システム
US10679613B2 (en) Spoken language understanding system and method using recurrent neural networks
Zue et al. Conversational interfaces: Advances and challenges
US20210142794A1 (en) Speech processing dialog management
RU2352979C2 (ru) Синхронное понимание семантических объектов для высокоинтерактивного интерфейса
US6430531B1 (en) Bilateral speech system
JP3350293B2 (ja) 対話処理装置及び対話処理方法
EP1794747B1 (en) Interactive conversational dialogue for cognitively overloaded device users
CN102292766B (zh) 用于语音处理的方法和装置
IE86422B1 (en) Method for voice activation of a software agent from standby mode
US11532301B1 (en) Natural language processing
JPWO2007108500A1 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JP2001357053A (ja) 対話装置
CN111128175B (zh) 口语对话管理方法及***
US11626107B1 (en) Natural language processing
Zue et al. Spoken dialogue systems
WO2016027909A1 (ja) データ構造、音声対話装置及び電子機器
Furui et al. Ubiquitous speech processing
Roy et al. Wearable audio computing: A survey of interaction techniques
AT&T
Neto et al. The development of a multi-purpose spoken dialogue system.
JP3844367B2 (ja) 音声情報通信システム
JP2000181475A (ja) 音声応答装置
Singh et al. “jarvis” ai desktop voice assistant using speech recognition
Ramaswamy et al. A pervasive conversational interface for information interaction

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060223

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070403