JPH11224179A

JPH11224179A - 対話インタフェース・システム

Info

Publication number: JPH11224179A
Application number: JP10024471A
Authority: JP
Inventors: Kuniharu Takayama; 訓治高山; Masahiro Matsuoka; 雅裕松岡; Takeshi Koshiba; 健史小柴; Shinya Hosoki; 信也細木; Minoru Sekiguchi; 実関口; Yoshiharu Maeda; 芳晴前田; Hirohisa Naito; 宏久内藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1998-02-05
Filing date: 1998-02-05
Publication date: 1999-08-17
Also published as: US6330539B1

Abstract

(57)【要約】【課題】人と物のみならず物と物が音声によって対話
することができる、人に優しくかつ実用的なインタフェ
ースを備えたシステムを提供すること。【解決手段】音声認識系１は、入力音声を入力意味表
現に変換する。対話処理系２は、対話規則を格納した対
話規則データベースを検索し、音声認識系１から送信さ
れた入力意味表現に対応する出力意味表現と固有の機能
指令を、音声合成系３と固有機能系４に出力する。音声
合成系３は出力意味表現を受信し、出力音声を発生す
る。固有機能系４は固有の機能の指令を受信し該機能を
実行する。音声認識系１は、音声が入力されているとき
音声合成系３に対して待機通知を送出し同時発話を回避
する。また、音声合成系３と固有機能系４は同期通知を
出力し、音声の発生と固有機能の実行を同期して行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータや電
気製品あるいは各種工業機械等に適用可能なユーザ・イ
ンタフェースを備えた情報処理装置に関し、特に本発明
は人と物、物と物が音声を介して会話できるようにした
対話インタフェース・システムに関するものである。

【０００２】

【従来の技術】今日、テレビやビデオに代表される電気
製品の分野では、リモコンを用いたリモコン・インタフ
ェースが広く浸透している。しかしながら、リモコン
は、テレビのチャンネルの切り換えや音量の上げ下げの
ような単純な機能の操作には適しているが、それ以上の
複雑な操作には不向きである。実際、初心者や高齢者の
みならず技術者でさえ多様で高機能な電気製品を完全に
使いこなしているとは言い難い。

【０００３】一方、より複雑な操作を必要とするコンピ
ュータの分野では、ウィンドウやマウスを用いたグラフ
ィカル・ユーザー・インターフェース（ＧＵＩ：Graphi
calUser Interface）が広く使用されている。しかしな
がら、その仕様は製品ごとに異なり、利用者にとっては
まだまだ不便な点も多い。また、初心者や高齢者にとっ
てはＧＵＩ自身が未経験な作業であるため難解な点も少
なくない。さらに、ＧＵＩはその性質上必ず画面を必要
とするので、ディスプレイを必要としない多くの電気製
品や工業機械には適しない。

【０００４】このため、最近、これらのシステムの次世
代のユーザー・インタフェースとして、人（以下、「ヒ
ト」という）にとってより自然であり、かつ、ディスプ
レイも必要としない、音声認識や合成の技術が注目され
ており、これらは、現在、既に、カー・ナビケゲーショ
ン・システムや一部のコンピュータ・システムなどで利
用されている。また、インターフェースの研究において
は、最近、マルチモーダル・インターフェース（MI：Mu
ltimodal Interface) が注目されている（参考文献[1]
R.A.Bolt,"The integrated multi-modal interface,”
（Invited Paper ）,IEICE Transactions on Informati
on Systems, vol.J70-D,no.11,PP.2017-2025, November
1987. 参考文献[2] 長尾確, ”マルチモーダル・ヒュー
マンコンピュータインタラクション−エージェント指向
と実世界指向”計測と制御,vol.36,no.1,PP. 65-70、19
96年1 月. 参考文献[3] 新田恒雄、”GUI からマルチモ
ーダルUI（MUI ）に向けて”情報処理,vol.36 、no.11
、PP.1039-1046, 1995年11月. 参照）。

【０００５】これは、ＧＵＩのように視覚のみならず、
音声や身振り（gesture ）など多様な様相（multimoda
l）を用いて、コンピュータ等とのコミュニケーション
を図ろうとするものである。一方、ヒトが生活する環境
にある様々な物にコンピュータを付け、ヒトの行動等を
支援しようとするユビキュタス・コンピューティング
（UC：Ubiquitous Computing）という研究がなされてい
る（参考文献[4]M.Weiser,”Some computer science is
sues in ubiquitous computing, ”Communications of
the ACM,vol.36, no. 7,pp. 74−85, July 1993.参考文
献 [5]長尾確,"実世界指向インターフェースの技術と動
向，”システム／制御／情報, vol.40, no. 9,pp. 385-
392,1996年 9月. 参照）。

【０００６】これは、例えば、図書館の書棚等にコンピ
ュータを遍在（ubiquitous）させておき、手持ちのモー
バイル・コンピュータ（mobile computer ）との通信
や、あるいは、音声による会話によって、書籍の検索等
を支援しようとするものである。なお、音声の研究にお
いては、近年、ヒトとコンピュータの対話に関する研究
が盛んに行われている（参考文献[6]R.Cole,L.Hirschma
n,L.Atlas,M.Beckman,A.Biermann,M.Bush,M.Clements,
J.Cohen,O.Garcia,B.Hanson,H.Hermansky,S.Levinson,
K.McKeown,N.Morgan,D.G,Novick,M.Ostendorf,S.Oviat
t,P.Price,H.Silverman,J.Spitz,A.Waibel,C.Weinstei
n,S.Zahorian,and V.Zue,"The challenge of spoken la
nguage systems：research directions for the nineti
es ",IEEE Transactions on Speech and Audio Proces
sing,vol.3,no.1,pp.1−21,January 1995.参考文献[7]
伊藤克亘,"音声対話システム”, 電子情報通信学会技術
研究報告, vol.92,no.127,音声, no. SP92−38, pp. 23
−30、1992年 7月. 参考文献[8]竹林洋一，”マルチメ
ディアによる計算機との対話”，電子情報通信学会技術
研究報告,vol.92, no. 127, 音声、no. SP92-37,pp.15-
22,1992 年 7月. 参照）。

【０００７】

【発明が解決しようとする課題】上記した従来の音声認
識や合成の技術を利用したシステムは、基本的に一人の
ヒトと一つの物の間での会話を想定している。今後、音
声認識および合成の機能を持ったシステムがますます増
加するものと予測されるが、このとき、それらが複数で
ヒトと混在した場合、上記した従来のシステムでは、一
つのシステムに対して発した命令を複数のシステムが誤
って実行してしまったり、また、あるシステムがヒトに
対して発した応答を別のシステムが自身に対しての命令
と誤った解釈をしてしまうといった問題が必然的に発生
するものと予測される。

【０００８】本発明は上記した事情を考慮してなされた
ものであって、その目的とするところは、ヒトと物のみ
ならず物と物がヒトにとって自然な音声によって対話す
ることができ、ディスプレイを必要とせず、ヒトに優し
くかつ実用的なインタフェース・システムを提供するこ
とである。

【０００９】

【課題を解決するための手段】前述のようなインターフ
ェースとそのネットワーキングに関する問題を解決し、
より積極的に発展させるための１つの方策として、本発
明においては、「物々の対話インターフェース（以下、
ＴＤＩ：Things' Dialog Interfaceと略記する）」とい
う考えを提案する。ＴＤＩとは、コンピュータのみなら
ず様々な物（電気器具や工業機械などを含むあらゆる
物）に音声の認識および合成の機能を付加することによ
って、ヒトとそれらの物および物同志が音声によって会
話できるようにするためのインターフェースである。

【００１０】前述したように、音声の認識や合成の技術
はカー・ナビゲーション・システムや一部のコンピュー
タ・システム等で既に使用されている。しかしながら、
それらは基本的に１人のヒトと１つの物の間での会話を
想定している。一方、ここで提案するＴＤＩはヒトと物
の会話のみならず物同志の会話をも含めている点が決定
的に異なる。コンピュータのインターフェースを、音声
のようなヒトにとって自然なレベルにまで一気に上げる
ことによって、各社の間でのＧＵＩ戦争の問題はもはや
無関係になる。加えて、音声はヒトの通信手段として既
に長く使用されているものなので、最終的には標準化の
問題も不用であろう。また、画面が不用であるというこ
ともＴＤＩの大きな特徴である（参考文献〔9]管村昇,"
音声認識，音声合成の技術とその動向",計測と制御，vo
l.35、no.1,PP.45−51,1996 年 1月. 等参照）。

【００１１】電気器具や工業機械の多くにおいては、コ
ンピュータに使用されるような大きなディスプレイは不
用であり、この点でもＴＤＩは適している。また、ディ
スプレイが不用なので、小型化にも適している（上記参
考文献[9] 参照）。さらに、手を使用しなくともよいこ
とから、作業しながらの人や、病気の人にも便利であろ
う（上記参考文献[9] 参照）。一方、ネットワーキング
の問題に関しても、音声は無線でかつ簡単にブロードキ
ャスト（broad cast）できるため、家庭内等でのインタ
ーフェースのネットワーキングに有望であろう。また、
既存の電話網を利用することによって、遠隔的に対話す
ることも可能であろう（上記参考文献[9] 参照）。な
お、無線によるネットワーキングに関しては、電波や赤
外線の技術が有望視されているが、これらはデータのネ
ットワーキングに適しているのであって、インターフェ
ースのネットワーキングに関しては、ヒトが介在できる
という点で、音声の方が適している、と思われる。

【００１２】ＴＤＩにより、様々な電気器具や工業機械
と利用者は互いに会話し合い、情報や作業を連絡、調
整、また、実行することができる。将来的には、音声の
認識や合成の能力に加え、学習や適応などの機能を備え
る、知的な製品のみに淘汰されていくであろう。なお、
ＴＤＩにおいては、その他、音量、話速、声質、韻律な
ど多様な性質の利用の可能性が考えられる（参考文献[1
0]中川聖一、堂下修司“音声言語情報処理研究の動向と
研究課題”, 情報処理,vol.36, no. 11,pp.1012−101
9、1995年11月. 等参照）。このようにＴＤＩはポスト
ＧＵＩなる次世代のインターフェースの１つとして有効
であると思われる。

【００１３】さて、改めていうと、ＴＤＩの目標はヒト
に優しくかつ実用的なインターフェースを提供すること
である。ＴＤＩも音声を媒体とする点で、前述したよう
にマルチモーダル・インターフェース（MI：Multimodal
Interface) の一環として捉えることができる。また、
ＴＤＩも様々な物に音声のインターフェースを付加する
という点で、この前述したユビキュタス・コンピューテ
ィング（UC：Ubiquitous Computing）の一環として捉え
ることもできる。なお、前述したように近年、ヒトとコ
ンピュータの対話に関する研究が盛んに行われている
が、ＴＤＩにおけるような物と物との対話についてはま
だ注意が払われていないようである。音声による物と物
との通信の１つの大きな利点は、その対話を同時にヒト
が理解でき、かつ、必要であれば修正や変更できること
である。このように、ＴＤＩにおいてはヒトが物と物と
の通信に容易に介入することでき、この点からもヒトに
優しいインターフェースであるといえよう。

【００１４】本発明は、上記ＴＤＩを用いてヒトと物の
みならず物と物が音声によって対話できるようにした実
用的なシステムを提供する。図１は本発明の原理構成図
である。同図において、１は入力音声を入力意味表現に
変換する音声認識系、２は対話規則に基づき上記音声認
識系１から送信された入力意味表現に対応する出力意味
表現と固有の機能（の指令）を出力する対話処理系であ
る。また、３は上記対話処理系２から出力意味表現を受
信し、出力音声に変換し出力する音声合成系、４は、対
話処理系２から固有の機能の指令を受信し、該機能を実
行する固有機能系である。本発明においては、上記対話
規則に基づき入力音声に応じた出力音声を発生して人と
物、物と物同士の対話を行い、対話の内容に応じた所定
の処理もしくは所定の機能を実行する。

【００１５】上記システムにおいて、音声認識系１に、
音声が入力されているとき音声合成系に対して待機通知
を送出する機能を設けることにより、同時発話を回避す
ることができる。また、対話処理系２に、他者もしくは
自己の命令により対話規則を変更、追加、削除する機能
を設けることにより、システムに自律性を持たせること
ができる。さらに対話処理系３に、同じ内容の入力意味
表現が続けて入力されたとき、一方を棄却する機能を設
けることにより、同一会話を回避することができる。ま
たさらに、音声合成系３と固有機能系４に同期通知を相
互に出力する機能を設けることにより、音声の発生と固
有機能の実行を同期して行うことができる。

【００１６】

【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。なお、ＴＤＩがシステムに実装された任意
の１つの物（コンピュータ、ロボット、工業機械、電気
製品、日用品等、以下「ヒト」と対比させるためこれら
を「物」と呼ぶ）を、ここではＴＤＩシステムと呼ぶこ
ととする。（１）ＴＤＩシステムの機能構成と処理手順図２に本実施例のＴＤＩシステムの機能構成を示す。同
図はある１つの物にＴＤＩを実装した場合を示してい
る。同図に示すように、ＴＤＩシステムは、音声認識系
（Speech Recognition System ）１、対話処理系（Dial
og Management System）２、および、音声合成系（Spee
ch Synthesis System ）３の３つの系から成る。また、
ＴＤＩシステムには、必要に応じて、その他にその物の
固有の機能を実現するための固有機能系（Innate Opera
tion System ）４が含まれている。この固有機能系４に
は例えばビデオの場合には録画や再生などの機能が含ま
れる。

【００１７】図３にＴＤＩシステムのハードウェア構成
の概略を示す。同図に示すようにＴＤＩシステムを構成
する音声認識装置１１、対話処理装置１２、音声合成装
置１３、および、固有機能装置１４はバス１５によって
結合され、バス１５にはバスを制御するためにバスコン
トローラ１６が付加されている。さらに、図３の音声認
識装置１１、対話処理装置１２、音声合成装置１３、お
よび、固有機能装置１４は、それぞれ例えば図４に示す
ようなハードウェアにより構成されている。すなわち、
上記各系は入出力装置２１、演算装置２２、記憶装置２
３、および、インタフェース２５から構成され、これら
は内部バス２６によって結合され、また、その内部バス
２６を制御するためにバスコントローラ２４が付加され
ている。

【００１８】入出力装置２１にはマイクやスピーカある
いは信号処理装置などが含まれる。演算装置２２はＣＰ
Ｕ等であり、場合によってはバスコントローラ２４等も
ここに含まれる。記憶装置２３は半導体メモリ装置や磁
気デイスク装置などである。インタフェース２５にはバ
ス間結合の際に必要となるバッファ等が含まれる。すな
わち、図３に示されるＴＤＩシステムのハードウェア構
成は、図５に示すように書き換えられる。なお、現実的
には、性能や価格に応じて、いくつかの同一のハードウ
ェア部位を一つに統合することができ、最も統合化され
た形態のＴＤＩシステムのハードウェア構成は図６に示
すようになる。以下、音声認識系１、対話処理系２、音
声合成系３、および、固有機能系４の動作について説明
する。

【００１９】(1-1)音声認識系音声認識系１は、ヒトやＴＤＩを備える他の物から入力
音声を受信し、以下のいくつかの過程を経て入力意味表
現に変換し、最終的にそれを対話処理系に送信するもの
である。入力音声（input voice ）は一旦バッファに蓄
えられ、その後、ＦＩＦＯ（First In First Out）の順
で、入力音素列（input sequence of phonemes）、入力
文字列（input sequence of characters）、さらに、入
力意味表現（input speech representation ）へと変換
される。ここで、音素とは音声の基本単位のことであ
り、入力された音声はいくつかの音素の時系列に分解さ
れる。音素列はさらに文字列に変換され、そして、その
文字列が構文解析され形式的な意味表現へと変換され
る。最終的に、得られた入力意味表現は順に対話処理系
に送信される。なお、音声から意味表現への変換は従来
の手法どおりである（参考文献[11]古井貞 ”音声認
識”, 電子情報通信学会誌，vol.78,no.11, PP.1114-11
18, 1995年11月. 参照）。

【００２０】また、音声認識系１が入力音声を受信して
いる間は、音声認識系１から音声合成系３に待機通知を
送出し、「入力中により出力待機」と指令することによ
り音声合成系３は出力音声の送信を待機するようにす
る。これは、誰かあるいは何かが発話中は、少なくとも
他の何かが発話しないようにするためである。図７に音
声認識系の処理手順を示す。音声認識系の処理手順は同
図に示すように記述することができる。

【００２１】図７において、in-voice_u, in- phonemes
_u,in- character_u, および、in-speech_uはそれぞれ
ｕ番目の入力音声、入力音素列、入力文字列、および、
入力意味表現を表す。また、sr-in-buffer_top, sr-in-
buffer_bottom,sr-out-buffer _top、および sr-out-buff
er_bottomはそれぞれ音声認識（speech recognition）
系の入出力バッファの頭および底を表す。sr-in-buffe
r,sr-out-bufferはまとめて１つのバッファにすること
もできる。なお、図７において、手順ａおよびｂは並行
に処理されることに注意を要する。

【００２２】図７において音声認識処理は次のように行
われる。同図ａにおいて、ヒトもしくは物からの音声が
入力されると、音声が入力されている間、音声認識系１
から音声合成系（Speech Synthesis System ）３に待機
信号を通知するとともに、入力音声（in-voice_p）を音
声認識系のバッファの底にプッシュインする処理を繰り
返す。一方、同図ｂにおいて、バッファの頭に入力音声
（in-voice_u）があると、入力音声（in-voice_u）をバ
ッファからポップアウトして入力音声（in-voice_u）を
入力音素列（in- phonemes_u）に変換し、入力文字列
（in- character _u）に変換する。さらに、入力文字列
（in- character _u）を入力意味表現（in- speech_u）
に変換し、変換した入力意味表現（in- speech_u）をバ
ッファの底にプッシュインする。以上処理を入力音声が
入力されている間繰り返す。

【００２３】(1-2)対話処理系対話処理系２は、音声認識系１から入力意味表現を受信
し、それに対する適切な対話規則を対話データベースか
らを検索し、それに基づき出力意味表現を音声合成系３
に出力し、また、固有機能を固有機能系４に指令するも
のである。また、対話処理系２は後述するように、年月
日、時刻等の環境変数を内部情報として保持する機能を
備えている。さらに、対話処理系２は、他者または自己
の命令により対話規則を変更、追加、削除する機能を備
えており、後述するように、この機能より本システムは
自律性を持つことができる。

【００２４】本実施例においては、すべての会話の意味
表現を次のように書き表すこととする。 speech＝[(from-whom),to-whom，message] ここで、from-whom ，to-whom ，および、message は、
それぞれ、その会話が誰あるいは何から誰あるいは何に
対するどのような内容であるかを意味する。from-whom
に（）が付されているのは、通常、話者は自分がその会
話の発話者であることを陽に発話しないからである。こ
のため、必要であればＴＤＩはその会話の発話者が誰あ
るいは何であるかを声質などから特定できる機能を有す
るものと仮定する（前記文献[11] 参照）。

【００２５】一方、会話の中でto-whom が陽に指定され
ていないときには、to-whom 内容をanyone（誰か）と仮
定することにする。to-whom の内容をeveryone（皆）と
することもできるが、その場合には、話者がこれを陽に
指定しなければならないとする。以上により、以下の説
明では、ｉ番目の入力意味表現を次のように書き表すこ
ととする。 in- speech_i＝[(in-from-whom_i),in-to-whom_i，in-m
essage_i] また、ｊ番目の出力意味表現を次のように書き表すこと
にする。 out-speech_j＝[( out-from-whom_j), out-to-whom_j,o
ut-message_j] 次に、対話規則を定義する。本実施例においては、対話
規則データベース中のｋ番目の対話規則を図８のように
書き表す。

【００２６】図８において、name-of-thing はこのＴＤ
Ｉが実装されているその物の名前である。また、記号”
→”は論理的演繹を表す。対話規則データベースは図８
に示す対話規則の集合として定義される。すなわち、対
話規則データベースには、図８に示すように、入力意味
表現（in- speech_k）に対する出力意味表現（out-spee
ch_k）、固有の機能（innate-operation_k）を定義した
対話規則の集合が格納されている。図９に対話処理系の
処理手順を示す。対話処理系の処理手順は同図に示すよ
うに記述することができる。ここで、記号”∧”，”
∨”および、”｜”はそれぞれ論理積（ＡＮＤ）、論理
和（ＯＲ）、および、ＮＯＲを表す。また、図９の手順
１，２および３は順次に処理されることに注意を要す
る。

【００２７】図９において対話処理は次のように行われ
る。図９の１において、音声認識系のバッファに入力意
味表現(in-speech_i) があったら、バッファの頭から入
力意味表現(in-speech_i) をポップアウトする。図９の
２において、対話規則(dialog-rule_k) を検索し、対話
規則から入力意味表現(in-speech_i) に対応した出力意
味表現(out-speech _i) 、固有の機能(innate-opration
_i）を得る。ここで、in-to-whom_iはname-of-thing
（ＴＤＩが実装されている物）、anyone（誰か）、ever
yone（皆）、not-specified （特定しない）のいずれで
もよい。また、out-from-whom _i（発声するもの）はna
me-of-thing （ＴＤＩが実装されている物）であり、ou
t-to-whom _i（話かける相手）は、out-to-whom _kがno
t-specified でない場合（特定されている場合）はout-
to-whom _kとし、out-to-whom _kがnot-specified の場
合（特定されていない場合）には、in-from-whom _iとす
る。

【００２８】図９の３において、次の入力意味表現(in-
speech_i+1）が音声認識系のバッファの頭に無い場合、
あるいは、in-to-whom_iがanyone（誰か）あるいはnot-
specified （特定されない）でないか、out- message_i
とin- message _i+1が等しくない場合は、out-speech_i
を音声合成系のバッファの底に送出し、また、innate-o
pration _iを固有機能系のバッファの底に送出する。す
なわち、図９の３．の３行目においては、ｉ番目の出力
意味表現の候補out-message_iが、音声認識系１におい
て認識される次の、すなわち、ｉ＋１番目の入力意味表
現 in- message_i+1と比較され、もし同一であれば棄却
されている。これは、少なくとも単一あるいは複数の物
によって、同じ内容の会話が繰り返されるのを防ぐため
である。

【００２９】(1-3)音声合成系音声合成系３は、音声認識系１の逆の機能を有するもの
であり、対話処理系２から出力意味表現を受信し、いく
つかの過程を経て出力音声に変換し、最終的にそれをヒ
トやＴＤＩを備える他の物に送信するものである。出力
意味表現（output speech representation）は、出力文
字列（output sequence of characters ）、出力音素列
（output sequence of phonemes ）、さらに、出力音声
（output voice）へと変換され、一旦バッファに蓄えら
れる。最終的に得られた出力音声はＦＩＦＯの順でヒト
やＴＤＩを備える他の物に送信される。なお、意味表現
から音声への変換も従来の手法どおりである（参考文献
[12]中田和男，”音声合成と符号化技術”，電子情報通
信学会誌，vol.78, no.11 ,PP.1119-1124,1995 年11月.
参照）。

【００３０】図１０に音声合成系の処理手順を示す。音
声合成系の処理手順は同図に示すように記述することが
できる。ここで、out-speech_v、out-characters_v、ou
t-phonemes_v、および、out-voice _vはそれぞれｖ番目
の出力意味表現、出力文字列、出力音素列、および、出
力音声を表す。また、ss-in-buffer_top、ss-in-buffer
_bottom、ss- out-buffer _top、およびss-in-buffer
_bottomは、それぞれ音声合成（speech synthesis）系の
入出力バッファの頭および底を表す。ss-in-bufferとss
- out-bufferはまとめて１つのバッファにすることもで
きる。なお、音声認識系からout-wait-signal （待機信
号）を受信している間は、out-voice _qは出力待機とな
る。また、out-voice _qの出力は固有機能系のinnate-o
peration_qの実行と同期してなされることに注意を要す
る。なお、図１０において、手順ａおよびｂは並行に処
理されることにも注意を要する。

【００３１】図１０において音声合成処理は次のように
行われる。図１０のａにおいて、音声合成系のバッファ
の頭に出力意味表現（out-speech _v）があると、バッフ
ァから出力意味表現（out-speech_v）をポップアウト
し、出力意味表現（out-speech_v）を出力文字列（out-
characters_v）に変換し、出力文字列（out-characters
_v）を出力音素列（out-phonemes_v）に変換し、さらに
出力音素列（out-phonemes_v）を出力音声（out-voice
_v）に変換し、バッファの底にプッシュインする処理を
繰り返す。

【００３２】一方、同図のｂにおいて、音声合成系のバ
ッファの頭に出力音声（out-voice _q）があり、かつ、
音声認識系（Speech Recognition System ）から待機信
号（out-wait-signal ）を受信していなければ、バッフ
ァから出力音声（out-voice _q）をポップアウトする。
図１０のｃにおいて、固有機能系（Innate Operation S
ystem ）に同期信号（out-synchronize-signal）を送出
し続け、固有機能系からの同期信号を受信すると、出力
音声（out-voice _q）をヒトあるいは物に送出する。

【００３３】(1-4)固有機能系固有機能系４は、対話処理系２から固有機能（の指令）
を受信し、それを実行するものである。ここで、固有機
能とは例えばビデオの場合には録画や再生などの機能が
これに相当する。図１１に固有機能系の処理手順を示
す。固有機能系の処理手順は同図に示すように記述する
ことができる。ここで、innate-operation_qはｑ番目の
固有機能を表す。また、io-out-buffer _topおよびio-o
ut-buffer _bottomは固有機能系（innate-operation）の
出力バッファの頭および底を表す。なお、innate-opera
tion_qの実行は音声合成系３のout-voice _qの出力と同
期してなされることに注意を要する。

【００３４】図１１において固有機能の処理は次のよう
に行われる。同図ｂにおいて、固有機能系のバッファに
固有機能（innate-operation_q）があれば、固有機能
（innate−operation _q）をバッファからポップアウト
する。同図ｃにおいて、音声合成系（Speech Synthesis
System ）から同期信号（out-synchronize-signal）を
受信していると、音声合成系へ同期信号（out-synchron
ize-signal）を送り、固有機能（innate−operation
_q）の実行を行う処理を繰り返す。

【００３５】（２）ＴＤＩシステムの特徴次に、本発明のＴＤＩシステムの特徴について説明す
る。これらの特徴はＴＤＩシステムの本質を成すもので
あり、それにより、従来の音声認識システムや音声合成
システムとの違いを明らかにする。(2-1)対話対象の特
定化および不特定化ＴＤＩシステムにおいては、対象を特定した対話と、対
象を特定しない対話の両方が可能である。前者の例は、
例えば「ビデオ、番組○○の録画を予約せよ! 」であ
る。一方、後者の例は「（誰か）、時間を教えよ! 」で
あり、この場合はＴＤＩを備える物のうち、適合する対
話規則を持つ物が応答候補となるが、前記(1-2) で述べ
た「同一会話の回避」の機能により、最も反応の速い物
のみが回答することになる。なお、対象を特定しない対
話はいわゆるブロードキャスト（broadcast ）の一種で
あり、音声が空間的な広がりを持つという特徴をうまく
利用している。

【００３６】(2-2)同時発話の回避本発明のＴＤＩシステムにおいては、誰あるいは何かが
発話中は、少なくとも他の何かが発話しないように設定
されている。これは、前記(1-1),(1-3) において説明さ
れたように、音声合成系および固有機能系におけるバッ
ファ機能に加え、音声認識系が入力音声を受信している
間は、音声認識系から音声合成系に「入力中により出力
待機」と指令され、これにより、音声合成系は出力音声
の送信を待機するように設定されていることによって実
現されている。

【００３７】(2-3)同一会話の回避本発明のＴＤＩシステムにおいては、また、少なくとも
単一あるいは複数の物によって、同じ内容の会話が繰り
返されるのを防ぐように設定されている。これは、前記
(1-2) において説明されたように、対話処理系におい
て、ｉ番目の出力意味表現の候補out-message _iが、音
声認識系において導出される次の、すなわち、ｉ＋１番
目の入力意味表現in- message _i+1と比較され、もし同
一であれば棄却される、ことによって実現されている。

【００３８】(2-4)他のインターフェースおよび固有機
能との連係対話処理系においては、確定された出力意味表現が、音
声合成系に送信され、音声によって発話されるだけでな
く、確定された固有機能も、固有機能系に送信され、応
答の内容が表示されたり、その物の固有の機能が実行さ
れる。すなわち、ＴＤＩシステムは多様なインターフェ
ースのうちの音声の（verbal）様相を受け持ち、視覚的
な（visual）様相など音声以外の様相（nonverbal ）
や、また、その物に固有の機能は固有機能系において連
係され実現される。

【００３９】(2-5)物の能動性本発明のＴＤＩシステムにおいては、応答として、他者
ないし自己に対して質問や命令することが可能である。
すなわち、ある物が他の物や場合によってはヒトに対し
て質問したり命令することが可能である。これにより、
ＴＤＩを備えた物は能動性を持つことになる。ここで、
能動性とは他者に対して積極的に働き掛けることを意味
する。

【００４０】(2-6)物の自律性また、本発明のＴＤＩシステムにおいては、自己ないし
他者からの命令として、その物の対話データベースに対
して、新しい対話規則を追加したり、既存の対話規則を
変更したり、また、古い対話規則を削除するよう、命令
することが可能である。これにより、ＴＤＩを備えた物
は自律性を持つことになる。ここで、自律性とは自己に
おいて変革しながら外界に対することを意味する。 (2-7)物の単純性ある物のＴＤＩシステムに、想定されない複雑な音声命
令が入力された場合や、あるいはまた、他の物への音声
命令が入力された場合でも、システムはエラーを起こさ
ず、単に無反応となるだけである。このように、ＴＤＩ
システムは想定された対話規則にのみ反応するという意
味で単純である。

【００４１】(2-8)システムの分散性ＴＤＩシステムを備える物々の群は完全に分散的であ
る。このため、ヒトや物の増減に対して非常に柔軟であ
る。また、基本的に各物には主従の関係はないが、特定
のヒトあるいは物からの命令に対してのみ応答するよう
に、各物の対話規則を設定することも可能かつ容易であ
る。

【００４２】（３）適用例以下、本発明のＴＤＩシステムの具体的な適用例につい
て説明する。なお、以下では、一般性を損なうことなし
に、記述を簡単化するために、in-speech およびout-sp
eechのfrom-whom の項を省略している。 (3-1) 玄関灯の点灯図１２に示すように以下のように受け答えする玄関灯
（Entrance Light）について考える。

【００４３】

【００４４】この玄関灯の対話規則は、図１３のように
記述することができる。すなわち、図１３に示す、入力
意味表現（in- speech）に対する固有の機能（innate-o
peration：この場合のturn-on -light（）は電灯を点け
るという関数）を定義した対話規則を、対話規則データ
ベースに格納しておくことにより、音声に応じて玄関灯
を点灯させることができる。なお、この玄関灯に対して
は、上記のように対話対象の特定化および不特定化（前
記2-1 参照）が可能である。 (3-3) 時計図１４のように、以下のように受け答えする時計（Cloc
k ）について考える。

【００４５】Clock Human ： What-time-is-it-now ？ Clock-1 ：（Sir,） 12 ：34 a.m. （Clock-2 ：（Sir,） 12 ：34 a.m. ） Clock-3 ：（Sir,） 12 ：43 a.m. Human ： Clock-3, Synchronize-to Clock-1 Clock-3 ： Clock-1, teach-time ! Clock-1 ： Clock-3, Change-time -to 12:36! Clock-3 ：（Sir,） thank you.

【００４６】上記の会話は、「ヒト」が「時計」に時刻
を聞き、 Clock-1、 Clock-3が音声により時刻を知らせ
（Clock-2 が返答しようとした時刻は Clock-1と同じ時
刻であるので、Clock-2 は発声しない）、「ヒト」が C
lock-3に対して時刻合わせを指令し、 Clock-3が Clock
-1に時間を聞いて時刻合わせを行う場合を示している。

【００４７】この時計の対話規則は、図１５のように記
述することができる。対話規則データベースに、対話規
則として、図１５に示すような入力意味表現（in-speec
h ）に対する出力意味表現（out-speech）と固有の機能
（innate-operation）を格納しておくことにより、現在
時刻の質問に対する「音声による応答」、および、時間
合わせの指示に対する「時刻の問い合わせ」、「時間合
わせ」機能を実現することができる。ここで、$ の付く
$Time や$clockは変数を表し、$Time は現在の時刻を表
す環境変数であり、時々刻々の値が対話処理系の中に内
部情報（前記図２参照）として保存されているものであ
る。この場合、Clock-2 が返答しようとした時刻は、Cl
ock-1 が返答した時刻と同じであったため、棄却されて
いることに注意を要する。このように、この時計におい
ては、同一会話の回避（2-3 参照）が可能である。

【００４８】(3-3) 風呂への給湯図１６のように、以下のように受け答えする風呂（bat
h）について考える。 Bath Human ： Bath, Prepare! Human ：＝ Bath,Pour-hot-water!

【００４９】この風呂の対話規則は、図１７のように記
述することができる。対話規則データベースに、対話規
則として、図１７に示すような入力意味表現（in-speec
h ）に対する固有の機能（innate-operation）を格納し
ておくことにより、風呂の用意の指示に対する「ブザー
の鳴動」、「風呂への給湯」機能を実現することができ
る。ここで、beep-buzzer() やpourhot-water() などは
関数を表し、この風呂においては、「用意しろ! 」ある
いは「湯を入れろ! 」という命令によって、ブザーが鳴
らされ（他のインターフェース）、湯が注がれる（固有
機能）。このように、この風呂においては、他のインタ
ーフェースおよび固有機能との連係（2-4 参照）が可能
である。

【００５０】(3-4) インフオメータとビデオと電話図１８のように以下のように受け答えするインフォメー
タ（Informator）とビデオ（Video ）と電話（Phone ）
について考える。ここで、インフォメータとは、電子秘
書のように振舞う情報端末のことである。

【００５１】

【００５２】上記の会話は、「ヒト」が「インフォメー
タ」にテレビ番組の検索を指示し、その報告を受けて
「ヒト」が「インフォメータ」にその番組の録画を指示
し、「インフォメータ」が「ビデオ」に対して上記番組
の録画を指示したのち、「ヒト」が「インフォメータ」
にコンサートの検索、コンサートのチケットのカウンタ
の呼び出しを指示し、その指示に基づき「インフォメー
タ」が「電話」に対して上記カウンタに電話を掛けるよ
うに指示した場合を示しており、上記会話の後半部分
は、主としてチケットのカウンタのオペレータとヒトと
の電話による応答である（途中で「ヒト」が「インフォ
メータ」に、カードナンバーの問い合わせを行ってい
る）。

【００５３】これらのインフォメータとビデオと電話の
対話規則は, 図１９、図２０のように記述することがで
きる。インフォメータの対話規則データベースに、対話
規則として、図１９に示すような、入力意味表現（in-s
peech ）に対する出力意味表現（out-speech）と固有の
機能（innate-operation）を格納しておくことにより、
テレビ番組、コンサート、電話番号等の検索指示に対す
る「検索機能」および「検索結果の報告」、検索結果の
記憶指示に対する「記憶機能」、テレビ番組のビデオへ
の録画指示に対する「応答」および「ビデオ」に対する
録画指示、ダイヤル指示に対する電話番号の検索、およ
び「電話」へのダイヤルの指示を行うことができる。

【００５４】また、ビデオの対話規則データベースに、
対話規則として図２０に示すような、入力意味表現（in
-speech ）に対する出力意味表現（out-speech）と固有
の機能（innate-operation）を格納しておくことによ
り、録画指示に対してテレビ番組の「録画機能」を行う
ことができる。さらに、電話の対話規則データベース
に、対話規則として図２０に示すような、入力意味表現
（in-speech ）に対する出力意味表現（out-speech）と
固有の機能（innate-operation）を格納しておくことに
より、電話のダイヤル指示に対する「ダイヤル機能」を
行うことができる。ここで、＄の付く＄key や＄conten
t などは変数を表し、また、" によって囲まれた“phon
e-no. ”などは定数を表す。このインフォメータは、
「ビデオ」に録画を指令することができるという点で能
動性（前記2-5 参照）を有している。

【００５５】(3-5) クローゼット図２１のように以下のように受け答えするクローゼット
（Closet）について考える。

【００５６】Closet Human ：Closet-1, keep "black-coat"! Closet-1 ：(Sir, ） sure. Human ：Closet-2, keep "ski-wear"! Closet-2 ：(Sir, ） sure. Human ：(Anyone,) where-is "black-coat"? Closet-1 ：(Sir, ） Closet-1 keeps "black-Coat".

【００５７】このクローゼットの対話規則は、図２２の
ように記述することができる。ここで、上記対話規則に
おける add-dialog-rule […] 、delete-dialog-rule
[…] はそれぞれ対話規則を追加および削除するための
高階の規則である。対話規則データベースに、対話規則
として、図２２に示すような入力意味表現（in-speech
）に対する出力意味表現（out-speech) 、上記高階の
規則を格納しておくことにより、ヒトがクローゼット
（Closet-1）に衣服をしまう際、しまった衣服の種類を
発声すると、そのクローゼット（Closet-1）の対話規則
データベースにはそれに対応した対話規則が追加され、
ヒトが、クローゼットに対して何処に衣服があるかを聞
いたとき、その衣服が格納されたクローゼット（Closet
-1）がヒトに対して答えることができる。上記のよう
に、このクローゼットは、自分で対話規則を追加および
削除することができるという点で自律性（前記(2-6) 参
照）を有している。

【００５８】(3-6) 掃除ロボット以下のように受け答えする掃除ロボット（Cleaning Rob
ot）について考える。この掃除ロボット達は、図２３に
示すように仕事を配分する１台のチーフロボット（chie
f Robot ）と、実際の掃除をする何台かの掃除ロボット
（Clearing Robot）から編成される。

【００５９】

【００６０】なお、上記の会話は、「ヒト」がチーフロ
ボット（chief Robot ）に、10:00-11:00a.m. の間に15
-18 階、11:00-12:00a.m. の間に1-4 階の掃除を命じ、
これを受けてチーフロボットが掃除ロボット１〜４に仕
事を配分する場合を示している。これらの掃除ロボット
の対話規則は, 図２４のように記述することができる。
チーフロボットの対話規則データベースに、対話規則と
して、図２４に示すような入力意味表現（in-speech ）
に対する出力意味表現（out-speech) および固有の機能
（innate-operation）を格納しておくことにより、ヒト
がチーフロボットに掃除の指令を与えると、チーフロボ
ットが仕事の配分を行って、掃除ロボットに指令するこ
とができる。また、掃除ロボットの対話規則データベー
スに、対話規則として、図２４に示すような入力意味表
現（in-speech ）に対する出力意味表現（out-speech)
および固有の機能（innate-operation）を格納しておく
ことにより、チーフロボットが仕事の配分に対して、掃
除ロボットに指令に応じた仕事をさせることができる。

【００６１】(3-7) ：案内ロボットとナビゲータ図２５のように、以下のように受け答えする案内ロボッ
ト（Guide Robot ）とナビゲータ（Navigator ）につい
て考える。ここで、案内ロボットとは、観光局などで名
勝や旧跡などを案内するロボットのことである。また、
ナビゲータとは、ＧＰＳ（Global Positioning System
）などを備え、特に経路や地点の案内機能を持つイン
フォメータの一種のことであり、この場合は図２５に示
すようにヒトが所持している。

【００６２】

【００６３】上記会話は、ヒトが案内ロボットに対して
「静かな寺」について尋ね、案内ロボットから「銀閣
寺」を紹介され、ヒトがナビゲータに対して銀閣寺のデ
ータの収集を依頼し、ナビゲータが自分のアドレス（ 1
11.222.333.444）を伝えて、案内ロボットから「銀閣
寺」についてのデータを貰う場合を示している。これら
の案内ロボットとナビゲータの対話規則は、図２６、図
２７のように記述することができる。案内ロボットの対
話規則データベースに、対話規則として、図２６に示す
ような入力意味表現（in-speech ）に対する出力意味表
現（out-speech) 、固有の機能（innate-operation）を
格納しておくことにより、ヒトの観光地の質問に対して
該当する観光地を検索し答えるとともに、ナビゲータ等
のアドレスを記憶し、上記アドレスに対して観光地のデ
ータを送ることができる。また、ナビゲータの対話規則
データベースに、対話規則として、図２７に示すような
入力意味表現（in-speech ）に対する出力意味表現（ou
t-speech) 、固有の機能（innate-operation）を格納し
ておくことにより、データ収集指示に対して、自アドレ
スを伝えてデータの転送を依頼し、データの受信を実行
させることができる。

【００６４】

【発明の効果】以上説明したように本発明においては、
以下の効果を得ることができる。（１）ＴＤＩによりヒトに優しくかつ実用的なインター
フェースが提供される。より具体的には、ヒトと物のみ
ならず物と物とがヒトにとって自然な音声によって対話
できる。音声をインターフェースに使うことの利点は前
記したように従来よりいくつか指摘されてきた。まず、
第１は音声がヒトにとって自然であるということであ
る。また、ディスプレイが不用であるということも大き
な利点である。これは、システムの小型化にも適してい
る。また、手を使用しなくともよいことから、作業しな
がらの人や、病気の人にも便利であろう。また、既存の
電話網を利用することによって、遠隔的に対話すること
も可能となる。一方、前記したように、第２の音声の利
点は、ヒトの会話手段として既に長く使用されているも
のなので、最終的には標準化の問題も不用であろうとい
うことである。音声の第３の利点は、もう１つは、ネッ
トワーキングの問題に関してであり、音声は無線でかつ
簡単にブロードキャスト（broadcast ）できるため、家
庭内等でのインターフェースのネットワーキングに有効
であろうということである。

【００６５】（２）ＴＤＩは音声が有するこのような利
点に加え、さらに以下のような利点を有している。１つ
は、物と物との対話を同時にヒトが理解でき、かつ、必
要であれば修正や変更できる、ということである。もう
１つは、物に能動性や自律性を持たせ、知的にすること
ができる、ということである。これらの２つの利点は、
最終的に、ＴＤＩがヒトに優しいインターフェースを提
供するということに貢献する。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明の実施例のＴＤＩシステムの機能構成を
示す図である。

【図３】本発明の実施例のＴＤＩシステムのハードウェ
ア構成の概略を示す図である。

【図４】ＴＤＩシステムの各部のハードウェア構成を示
す図である。

【図５】本発明の実施例のＴＤＩシステムのハードウェ
ア構成の詳細を示す図である。

【図６】最も統合化された形態のＴＤＩシステムのハー
ドウェア構成を示す図である。

【図７】音声認識系の処理手順を示す図である。

【図８】対話規則データベース中のｋ番目の対話規則を
示す図である。

【図９】対話処理系の処理手順を示す図である。

【図１０】音声合成系の処理手順を示す図である。

【図１１】固有機能系の処理手順を示す図である。

【図１２】玄関灯への適用例を示す図である。

【図１３】玄関灯の点灯の対話規則を示す図である。

【図１４】時計への適用例を示す図である。

【図１５】時計の対話規則を示す図である。

【図１６】風呂への適用例を示す図である。

【図１７】風呂の対話規則を示す図である。

【図１８】インフオメータとビデオと電話への適用例を
示す図である。

【図１９】インフォメータとビデオと電話の対話規則を
示す図である。

【図２０】インフォメータとビデオと電話の対話規則を
示す図（続き）である。

【図２１】クローゼットへの適用例を示す図である。

【図２２】クローゼットの対話規則を示す図である。

【図２３】掃除ロボットへの適用例を示す図である。

【図２４】掃除ロボットの対話規則を示す図である。

【図２５】案内ロボットとナビゲータへの適用例を示す
図である。

【図２６】案内ロボットとナビゲータの対話規則を示す
図である。

【図２７】案内ロボットとナビゲータの対話規則を示す
図（続き）である。

【符号の説明】

１音声認識系２対話処理系３音声合成系４固有機能系１１音声認識装置１２対話処理装置１３音声合成装置１４固有機能装置１５バス１６バスコントローラ２１入出力装置２２演算装置２３記憶装置２４バスコントローラ２５インタフェース２６内部バス

フロントページの続き (72)発明者小柴健史神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (72)発明者細木信也神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (72)発明者関口実神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (72)発明者前田芳晴神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (72)発明者内藤宏久神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内

Claims

【特許請求の範囲】

【請求項１】入力音声を入力意味表現に変換する音声
認識系と、入力意味表現に対する出力意味表現と固有の機能を定義
した対話規則に基づき、上記音声認識系から送信された
入力意味表現に対応する出力意味表現と固有の機能を出
力する対話処理系と、上記対話処理系から出力意味表現を受信し、出力音声に
変換し出力する音声合成系と、対話処理系から固有の機能の指令を受信し、該機能を実
行する固有機能系とを備え、上記対話規則に基づき入力音声に応じた出力音声を発生
して人と物、物と物同士の対話を行い、対話の内容に応
じた所定の処理もしくは所定の機能を実行することを特
徴とする対話インタフェース・システム。
【請求項２】音声認識系は、入力音声を入力意味表現
に変換して対話処理系に送出する機能と、音声が入力されているとき、音声合成系に対して待機信
号を送出する機能を備えていることを特徴とする請求項
１の対話インタフェース・システム。
【請求項３】対話処理系は、入力意味表現が与えられ
たとき、対話規則の集合を格納した対話規則データベー
スから、入力意味表現に応じた出力意味表現と固有の機
能を検索して、音声合成系および固有機能系に出力する
機能と、上記対話規則を変更、追加、削除する機能と、同じ内容の入力意味表現が続けて入力されたとき、一つ
の入力意味表現を残して、他の同じ内容の入力意味表現
を棄却する機能を備えていることを特徴とする請求項１
の対話インタフェース・システム。
【請求項４】音声合成系は、対話処理系から与えられ
る出力意味表現を出力音声に変換し出力する機能と、音声合成系から待機信号が受信されているとき音声出力
を待機する機能と、固有機能系に同期信号を通知し、固有機能系における固
有機能の実行と同期して音声を出力する機能を備えてい
ることを特徴とする請求項１の対話インタフェース・シ
ステム。
【請求項５】固有機能系は、対話処理系から与えられ
る固有機能の指令を受信して固有機能を実行する機能
と、音声合成系に同期信号を通知し、音声合成系における音
声出力と同期して固有機能を実行する機能を備えている
ことを特徴とする請求項１の対話インタフェース・シス
テム。