JP2003241797A

JP2003241797A - 音声対話システム

Info

Publication number: JP2003241797A
Application number: JP2002046584A
Authority: JP
Inventors: Shigeru Yamada; 茂山田; Ei Ito; 映伊藤; Yuji Kijima; 裕二木島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-02-22
Filing date: 2002-02-22
Publication date: 2003-08-29
Also published as: US20030163309A1

Abstract

(57)【要約】【課題】利用者と音声対話システム間でのスムーズな
対話を実現するために、音声対話システムの発話に対応
して、利用者が何時発声して良いか否かを容易に認識可
能な音声対話システムを課題とする。【解決手段】音声対話システムには、利用者の音声情
報を解析し、内容を認識するための音声認識部と、認識
した内容に応じたシステム発話を生成する音声合成部と
利用者の発声情報を受け付けるか否かの副音を生成する
副音生成部とこれら各部を制御する対話遂行制御部から
構成される。利用者からの発声を音声対話システムが受
け付ける場合には、その受け付け可能の間、スピーカ等
の発音器から利用者に一定の音（副音）を発する様に、
副音発生部で副音信号を生成し、発音器に送出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声情報を利用者
に提供し、利用者からの応答に基づき処理の遂行を行な
う音声対話システムに関し、より詳しくは、順次提示す
る音声情報の発話に対応して利用者が応答のために発声
が可能か否かを利用者に通知する機能を有した音声対話
システムに関する。

【０００２】

【従来の技術】近年、計算機システムの高性能化及びソ
フトウェア技術の発展に伴い、これらの技術を応用し
て、利用者が発声した音声を言語解析して、発声内容を
認識することが可能になって来た。この音声認識技術
は、電話などを経由した利用者からの問い合わせ内容を
認識し、応答するための音声対話システムなどに利用さ
れている。この音声対話システムには、音声認識機能に
加えて、利用者への音声情報を発話する発話機能とから
構成されており、この両機能によって、利用者との対話
を遂行することが可能になっている。

【０００３】一方、人間同士の対話においては、複数の
話者が同時に発声することは、しばしば見受けられる
が、会話の語尾やイントネーションの変化などの言語的
な伝達手段や、動作や顔の表情などの非言語的な伝達手
段によって、対話相手の発声の牽制する発言権のコント
ロールや発声者の交代など発声順序を行ない、スムーズ
な会話進行がなされていると考えられる。音声チャンネ
ルしか持たない電話のようなメディアを使用した会話で
あっても、人間同士の会話では上記の言語的な伝達手段
によって会話のルールに関する文化的なコードが伝達さ
れ、スムーズな会話の進行が図られていると考えられ
る。

【０００４】この様に、人間同士の会話をスムーズに進
行させる上記した言語的、非言語的なコードを踏まえた
音声対話システムを人間−機械間の音声対話に利用出来
ることが最も好ましいが、現在の技術では実現が困難で
あるものの、より音声対話をスムーズに進行できる技術
が求められている。

【０００５】この従来の音声対話システム７００の構成
を図１４に示し、その動作を説明する。利用者７０１が
発声した発声内容はマイク７０２で集音され、音声信号
に変換され、音響処理部７０４に送られ、信号処理され
る。この信号処理では、利用者７０１の音声信号にスピ
ーカ７１４から回り込んでくるシステム発話される音声
成分が含まれているので、この回り込んでくるループバ
ック音声を利用者７０１の音声信号から差し引くエコー
・キャンセレーション処理や、利用者７０１の音声信号
の正規化が行なわれる。この様な信号処理をうけた音声
信号は、利用者発声内容認識部７０６において、音声信
号に基づく言語内容が認識される。この認識された利用
者７０１の発声内容に基づき、この発声内容に応じて対
話遂行部７０８は、システム発話すべき発話情報の生成
をシステム発話内容生成部７１０に指示し、生成された
発話情報がシステム発話発音部７１２においてシステム
発話信号に変換され、スピーカ７１４に送られ、音声と
してシステム発話され、利用者７０１に聴取される。

【０００６】この従来の音声対話システムにおいても、
上記したエコー・キャンセリング技術を採用し、スピー
カおよびマイクとから構成される帰還ループによってシ
ステムから発話された音声がマイクを介してシステムに
再度入力される発話信号を利用者の音声信号とから分離
できる様に構成している。このエコー・キャンセリング
技術によって、システム発話中であっても利用者が発声
するいわゆる“バージ・イン”を行なっても、利用者の
発声内容を正しく認識出来、人間−音声対話システム間
のスムーズな対話進行が図られる様になっている。

【０００７】また、視覚的な情報を利用者に提示可能な
場合には、ランプの点灯をインジケータとしたり、キャ
ラクタエージェントによるジェスチャ（例えば、画面上
のキャラクタが耳を傾けるしぐさをして、利用者の発声
を促すなどのジェスチャ）によって、利用者に発声のタ
イミングを提示する方法が採用できる。

【０００８】また、聴覚チャンネルしか持たない電話な
どのメディアでは、視覚的な情報を利用することは出来
ないが、利用者に発声タイミングを提示する方法が知ら
れている。即ち、留守番電話に発呼者側がメッセージを
発話する場合（録音する場合）、留守番電話の案内メッ
セージの後に続いて発信される録音開始音（発信音）
が、利用者に発声を促す機能を果たしている。

【０００９】上記した様に、多くの人間−音声対話シス
テム間の対話においては、音声対話システムからの発話
に対して、利用者が応答を発声することによって、会話
を進行している。

【００１０】

【発明が解決しようとする課題】しかしながら、この留
守番電話の発信音は短時間の間、発信されるだけである
ので、利用者がこの発信音を聞き逃す可能性が高く、従
って、一旦聞き逃すとどのタイミングで発声すれば良い
かを判断できなくなる欠点がある。この様に、一過性の
発信音で発声タイミングを通知する方法は、利用者が音
声対話システムの発話中に割り込んで発声が可能なバー
ジ・イン可能な音声対話システムとの対話には、一過性
故に使用しにくい。

【００１１】本発明は、聴覚チャンネルのみを利用した
音声対話システムであっても、利用者に発声を促した
り、発声が可能なタイミングを提示して、利用者−音声
対話システム間の対話をスムーズに遂行するためのイン
ターフェースを有する音声対話システムを提供すること
を課題とする。

【００１２】

【課題を解決するための手段】本発明は、人間−音声対
話システム間のスムーズな対話を遂行するためには、音
声対話システムの発話中に応答しても良い期間中、継続
して利用者に応答が可能であることを利用者に提示出来
れば良い、との着想に基づいている。

【００１３】即ち、請求項１の発明においては、音声対
話システムにおいて、前記音声対話システムに入力され
た音声情報を解析して音声認識する音声認識部と、発話
する音声に対応した発話情報を生成する音声合成部と、
前記音声情報の前記音声対話システムへの入力の可否を
示す音を入力の可または否の期間中継続して出力するた
めの副音信号を生成する副音発生部とを有したことを特
徴とする音声対話システムを要旨とした。

【００１４】この様に、本発明の音声対話システムに
は、音声情報の入力の可否を示す予め定められた音（以
下，副音と称する）を出力するための副音情報を生成す
る副音発生部を設け、この副音発声部では、利用者が発
声することにより生じる音声情報をこの音声対話システ
ムが受け入れ可能の場合と、受け入れ不可能の場合とに
応じて、異なる副音情報を生成し、この副音情報に応じ
た信号を音声対話システムに接続されたスピーカなどの
発音器に送信することによって、利用者に現在、音声対
話システムは応答を受け付けるか否かが容易に判別出来
る様に構成した。

【００１５】ここで、この副音情報は、この音声対話シ
ステムが音声情報を受け付ける期間中、継続して生成さ
れる。

【００１６】請求項２に記載の発明においては、請求項
1に記載の音声対話システムにおいて、前記音声認識部
で音声認識された結果に応じて、前記音声合成部で生成
される発話情報の生成を指示し、前記副音発生部に副音
情報の生成を指示する対話遂行制御部を有したことを特
徴とする音声対話システムを要旨とした。

【００１７】この様に、音声認識部で音声認識した利用
者の音声情報に基づいて、次に音声対話システムから発
話する内容と、利用者に前記音声対話システムへの入力
の可否を提示する副音情報を生成する様に構成したの
で、人間−音声対話システム間のスムーズな対話進行が
図れる。

【００１８】また、請求項３に記載の発明においては、
請求項１または請求項２に記載の音声対話システムにお
いて、前記音声情報を入力するための集音器と、前記生
成された発話情報に基づき発話するための発音器と、前
記副音発生部で生成された副音情報に基づき前記予め定
められた音を発音するための発音器とを有したことを特
徴とする音声対話システムを要旨とした。

【００１９】この様に、マイクロホンなどの集音器とス
ピーカなどの発音器を音声対話システムに含めて構成し
たので、集音器と発音器との間の伝達関数などエコー・
キャンセリングに必要な諸定数の推定がより正確に求め
られ、人間−音声対話システム間のスムーズな対話進行
が図れる。

【００２０】また、請求項４に記載の発明においては、
請求項１乃至請求項３のいずれかに記載の音声対話シス
テムにおいて、前記予め定められた音が前記副音発生部
から出力されている間に前記入力された音声情報を、前
記音声認識部で解析することを特徴とする音声対話シス
テムを要旨とした。さらに、請求項５に記載の発明にお
いては、請求項１乃至請求項３のいずれかに記載の音声
対話システムにおいて、前記副音発生部から出力される
前記予め定められた音が中断されている間に前記入力さ
れた音声情報を、前記音声認識部で解析することを特徴
とする音声対話システムを要旨とした。

【００２１】この様に、副音の有無によって音声対話シ
ステムへの発声が、受け入れられるか否かが聴覚情報の
みによって容易に分かるので、人間−音声対話システム
間のスムーズな対話進行が図れる。特に、聴覚チャンネ
ル利用する場合であってもスムーズな対話進行が可能に
なる。

【００２２】また、請求項６に記載の発明は、請求項１
乃至請求項３のいずれかに記載の音声対話システムにお
いて、前記副音生成部は、入力された音声情報を前記音
声認識部で認識する音声情報受付可能期間と入力された
音声情報を前記音声認識部で認識しない音声情報受付不
可期間とで各々異なる音に対応する副音情報を生成する
ことを特徴とする音声対話システムを要旨とした。

【００２３】この様に、音声対話システムを構成したの
で、利用者−音声対話システム間の対話進行において、
この様に、副音の違いによって音声対話システムへの発
声が、受け入れられるか否かが聴覚情報のみによって容
易に分かるので、人間−音声対話システム間のスムーズ
な対話進行が図れる。特に、聴覚チャンネル利用する場
合であってもスムーズな対話進行が可能になる。

【００２４】また、請求項７に記載の発明においては、
請求項１乃至請求項３のいずれかに記載の音声対話シス
テムにおいて、前記音声認識部が音声情報を検知したの
に応じて、前記副音生成部で生成する副音情報は、前記
検知前と前記検知後とで異なることを特徴とする音声対
話システムを要旨とした。

【００２５】この様に、音声対話システムを構成したの
で、利用者の発声を契機として音声対話システムでの状
態、つまり利用者の発話を受け入れるか、受け入れない
か、または、受け入れ中であるなどの多様な状態を副音
の違いによって、利用者に提示可能になり、人間−音声
対話システム間のスムーズな対話進行が図れる。

【００２６】また、請求項８に記載の発明においては、
請求項１乃至請求項３のいずれかに記載の音声対話シス
テムにおいて、前記音声認識部で所定時間の間、音声情
報を検知しなかった場合または、前記音声認識部で前記
音声情報の認識結果から音声情報の入力が終了したと判
定した場合に、前記副音生成部で生成する副音情報は、
前記所定時間前または前記判定前に前記副音生成部で生
成した副音情報と異なる副音情報であることを特徴とす
る音声対話システムを要旨とした。

【００２７】この様に、音声対話システムを構成したの
で、利用者の発声の終了を契機として音声対話システム
での状態の変化、利用者−音声対話システム間の話者の
交代を副音で利用者に提示出来るので、人間−音声対話
システム間のスムーズな対話進行が図れる。

【００２８】また、請求項９の発明においては、請求項
１乃至請求項４または請求項６乃至請求項８のいずれか
に記載の音声対話システムにおいて、前記副音情報は、
時間の経過とともに変化することを特徴とする音声対話
システムを要旨とした。

【００２９】この様に、音声対話システムを構成したの
で、時間の経過とともに利用者の発声または音声対話シ
ステムの発話の進行状況を利用者に副音によって提示す
ることが可能になり、たとえば副音の音の音階を時間の
経過とともに上げることによって、システム発話の終了
が近づいてくることや、または利用者の発声中では、シ
ステム発話への応答がより適切に行なわれているなどの
状態を利用者に提示することが可能になり、人間−音声
対話システム間のスムーズな対話進行が図れる。

【００３０】さらに、請求項１０に記載の発明において
は、請求項１乃至請求項９のいずれかに記載の音声対話
システムにおいて、前記副音情報に対応する表示情報を
生成することを特徴とする音声対話システムを要旨とし
た。

【００３１】この様に、音声対話システムを構成したの
で、聴覚チャンネルに加え、視覚チャンネルの利用も図
れ、より確実に人間−音声対話システム間のスムーズな
対話進行が図れる。

【００３２】

【発明の実施の形態】図１から図６を参照して、本発明
の音声対話システムの一実施例を説明する。図１は、本
発明の音声対話システムの第一実施例の概略の構成を示
す図である。音声対話システム１０には、マイクロホン
などの集音器１３を介して、利用者１２からの音声が入
力され、音声信号に変換され、音声認識部２０内の音響
処理部２２に送られる。この集音器１３から入力される
音声には、スピーカなどの発音器１４から発声されるシ
ステム発話や副音などが含まれる可能性がある。

【００３３】しかし、集音器１３に利用者の音声と共に
入力されたシステム発話や副音は、音声対話システム１
０では、自己のシステムから発話ないし発音されたもの
であることは識別可能であり、後述する様にこのシステ
ム発話や副音等の情報が、集音器１３からの音声信号と
ともに、この音響処理部２２に入力され、エコー・キャ
ンセリング処理が行なわれ、音声信号の中から利用者の
発声に対応した発声信号が抽出され、またこの発声信号
の音圧正規化などの後段の利用者発声内容認識部２４で
の認識率を向上させるための処理が行なわれる。なお、
図１に示した音声対話システム１０内に集音器１３およ
び発音器１４を含ませた構成としてもよい。

【００３４】本実施例ではエコー・キャンセリングの詳
細は述べないが、音声対話システム１０から出力され発
音器１４から集音器１３で受音され、再度音声対話シス
テム１０に入力されるまでの、電気・音響系の伝達関数
を予め求めておくことにより、システム発話発音部４
４、副音発声部５０から出力される信号に基づいて発音
器１４を介して集音器１３に入力されるシステム発話や
副音等による信号成分を予測することが可能で、この伝
達関数に基づくフィルタ等が音響処理部２２には搭載さ
れ、エコー・キャンセリングに使用されている。

【００３５】次に、音響処理部２２からの出力信号は、
利用者発声内容認識部２４において認識されるが、この
利用者発声内容認識部２４には、予め利用者が発声する
であろう言葉を含む語彙情報を記憶した認識辞書が搭載
されるか、接続可能に構成されている。本実施例では、
この認識辞書を利用者発声内容認識部２４中に搭載させ
ており、音響処理部２２からの出力信号に対応する音声
情報とこの認識辞書中の語彙情報との比較等が行なわ
れ、音声情報がどの語彙情報に対応するかを判定する。
この判定によって、利用者１２の発声した発声内容が音
声対話システム１０によって認識され、この認識結果は
対話遂行制御部３０に送られ、対話遂行制御部３０は、
音声合成部４０内のシステム発話内容生成部４２に、こ
の認識結果を送る。

【００３６】この対話遂行制御部３０には、音声対話シ
ステム１０の各部のタイミングを制御したり、処理を順
次行なうためのマイクロコンピュータやタイマーさらに
は所定のプログラムを記憶した記憶装置が設けられてい
る。

【００３７】このシステム発話内容生成部４２には、こ
の音声対話システム１０が発話するシステム発話の順序
や、利用者１２の発声に呼応して発話すべきシステム発
話などの情報が発話シナリオやロジック（例えば、利用
者の発声内容に応じて、システム発話を選択するツリー
状の階層構造のロジック）としてＲＯＭやディスク装置
に記憶されている。したがって、対話遂行制御部３０か
ら受け取った認識結果に基づいて、システム発話すべき
発話内容が上記発話シナリオ等を利用して構成され、こ
の構成されたシステム発話すべき発話情報はシステム発
話発音部４４に送られる。このシステム発話発音部４４
では、発話情報に基づいて、発音器１４に適応した信号
に変換され送出される。

【００３８】また、副音発生部５０では、対話遂行制御
部３０からの指示に応じて、発音器１４から発声すべき
所望の音に応じた副音信号が生成され、発音部１４に送
出される。ここでこの副音信号は対話遂行制御部３０の
指示によって生成されるが、本実施例では副音発生部５
０に図６に示す副音情報１〜４のテーブルが記憶されて
おり、対話遂行制御部３０の指示にどの副音情報を指定
するかの情報が含まれており、例えば、副音情報１を指
定した場合には、後述する様に、発音器１４から「ピッ
ピッピッピッピッピッピッピッ」という継続的な副音が
発せられる。また副音情報４はこの「ピッピッピッピッ
ピッ」と継続する音の強度が、波打つ様に発声されるこ
とを示している。また、本実施例では副音に対応する副
音情報を４種類だけ示したがこれに限定されるものでは
ない。さらに、例示している電子音だけでなく、「入力
可能ですよ。入力可能ですよ。・・・・・・」、「お答
え頂いてもいいですよ。お答え頂いてもいいですよ。・
・・・・・」といった自然言語によるものであっても良
い。

【００３９】なお、システム発話発音部４４及び副音発
生部５０から発音器１４への出力線１５は複数本であっ
てもまた一本の信号線であっても良いが本実施例では例
示的に複数本で示した。

【００４０】次に、音声対話システムの処理フローの一
例を示す図２を参照して、音声対話システム１０の動作
を説明する。なお、図２において各符号に付したＳはス
テップの略称であり、例えば“Ｓ１００”は“ステップ
１００”を意味する。

【００４１】音声対話システム１０が動作準備が完了す
ると（ステップ１００）、本実施例の音声対話システム
１０では、まずシステム発話を行なう様に構成してい
る。例えば、ステップ１０２のシステム発話では、利用
者への挨拶や対話方法の説明などのために「ご利用下さ
いましてありがとうございます。お客様はこのピーと言
う音が鳴っている間、お客様がお話下さる内容を当シス
テムでは受け付け可能です。」などのアナウンスを対話
シナリオに基づき、発音器１４から利用者１２に通知す
る。

【００４２】そして、対話遂行制御部３０からシステム
発話内容生成部４２に次のシステム発話の有無を問い合
わせる（ステップ１０４）。次のシステム発話がある場
合（ステップ１０４でＹＥＳの場合）には、再度ステッ
プ１０２に戻り、次のシステム発話を行なう。

【００４３】次のシステム発話が無い場合（ステップ１
０４でＮＯの場合）には、対話遂行制御部３０は、副音
発生部５０に利用者からの発声受け付け可能の状態に音
声対話システム１０があることを提示するための副音発
声を指示する。この対話遂行制御部３０からの指示によ
って、副音発生部５０は、一例として「ピー」という受
け付け可能を継続して示す副音を発音器１４から発声す
るための副音情報を生成し、発音器１４へ送信する（ス
テップ１０６）。そして、音声認識部２０からの利用者
１２の発声の有無を対話遂行制御部３０が監視する（ス
テップ１０８）。すなわち、利用者発声内容認識部２４
の出力の有無を監視し、出力が無い場合（ステップ１０
８でＮＯの場合）、ステップ１０６に戻る。この場合に
は、副音発生部５０は、続けて同じ受け付け可能を示す
副音情報を出し続ける。

【００４４】利用者発声内容認識部２４からの出力が有
った場合（ステップ１０８でＹＥＳの場合）、音声認識
部２０は利用者の発声内容を音声認識する（ステップ１
１０）。

【００４５】この音声認識の結果、対話遂行制御部３０
はシステム発話をすべきか否かを判定し、システム発話
をする必要の有る場合（ステップ１１２でＹＥＳの場
合）、副音発生部５０に受け付け不可の副音情報の生成
を指示する。この受け付け不可の副音情報としては、発
音器１４からの上記の「ピー」と言う音と異なる音を発
声するようなものであっても良く、また無音にする様に
してもよい（ステップ１１４）。

【００４６】そして、ステップ１１６で音声認識の結果
と上記発話シナリオとに基づいたシステム発話をシステ
ム発話内容生成部４２で生成し、システム発話発音部４
４を経由して、システム発話を発音器１４から発声す
る。そして、このシステム発話に引き続き発話すべきシ
ステム発話の有無を対話遂行制御部３０が判定し、有る
場合には（ステップ１１８でＹＥＳの場合）、ステップ
１１６に戻り次のシステム発話を行なう。一方、ステッ
プ１１８で次のシステム発話が無いと判定した場合に
は、ステップ１０６に戻り、利用者に受け付け可能を知
らせる副音情報の生成をステップ１０６で行なう。

【００４７】また、ステップ１１２でシステム発話が無
いと判断した場合（ステップ１１２でＮＯの場合）、ス
テップ１２０で一連の音声対話システムでの処理が終了
したか否かを判定する。例えば、発話シナリオの最終の
システム発話を発話し終わったかや、一定時間の間、利
用者からの発声が無かったかなどを対話遂行制御部３０
によって判定する。このステップ１２０で対話遂行制御
部３０で処理終了と判定した場合（ステップ１２０でＹ
ＥＳの場合）、この利用者１２への処理は終了する。一
方、ステップ１２０で処理は未だ終了していないと判断
した場合（ステップ１２０でＮＯの場合）、ステップ１
０６に戻る。

【００４８】次にこの図２に示す処理フローの他の例を
図３に示す。この図３は、音声認識の結果から、利用者
の発声が終了したことを検出する処理フローを図２の処
理フローに付加したものである。即ち、図２に示すステ
ップ１１０の次に利用者の発声が終了したか否かの判定
を行なう。この判定は、例えば、一定時間の間、利用者
からの発声が無かったなどを対話遂行制御部３０によっ
て行なう。この判定で利用者の発声が終了したと判断し
た場合（ステップ１３０でＹＥＳの場合）、利用者にこ
の利用者の発声が終了したと音声対話システム１０が認
識したことを知らせるために対話遂行制御部３０は副音
発生部５０に、受け付け可能を知らせる副音とは異なる
副音を発音器１４から発声するための副音情報の生成を
指示する。

【００４９】一方、ステップ１３０で利用者の発声が終
了していないと判定した場合、例えば、対話遂行制御部
３０内のタイマによって時間監視して一定時間内に利用
者からの発声が有った場合には（ステップ１３０でＮＯ
の場合）、図２に示したステップ１０６に戻り、副音の
変更は行なわない。

【００５０】以上に処理フローの概要を説明したが、図
５に音声対話システム１０のシステム発話期間と副音発
声期間の関係を示した。すなわち、システム発話中以外
の所定期間中は、音声対話システム１０への発声が可能
であることを利用者１２に提示するために、継続して副
音が発声される。

【００５１】さらに、図２に示す処理フローの他の例を
図４に示す。この図４は、音声対話システム１０が受け
付け可能になった後に、利用者が一定時間内に発声を行
なったか否かによって副音を変更する様にしたものであ
る。即ち、利用者１２と音声対話システム１０との間で
の交互の対話で、利用者１２からの発声が一定時間以内
に有るか否かによって受け付け可能の副音とは異なる副
音を利用者が聴取する様にして、利用者１２からの発声
を促そうとするものである。

【００５２】即ち、図２の処理フローのステップ１０６
に代わって、受け付け可能の副音情報の生成と対話遂行
制御部３０内のタイマをオンする動作を行なうステップ
１４０に設ける。ステップ１０８で利用者の発声の有無
を判定して、発声が無い場合（ステップ１０８でＮＯの
場合）、ステップ１４２に移り、対話遂行制御部３０内
のタイマが所定の時間が経過したか否かを判定する。所
定時間がタイマの計測によって経過したと判定できる
と、対話遂行制御部３０は副音発生部５０に受け付け可
能の副音とは異なる副音を生成するための副音情報の生
成を指示する。

【００５３】一方、ステップ１４２で所定時間が未だ経
過していない場合（ステップ１４２でＮＯの場合）、ス
テップ１０８に戻る。この場合には、副音の変更はなさ
れず、受け付け可能を知らせる副音が発音器１４から利
用者１２へ発声されている。

【００５４】次に、本発明の第二実施例を図７、図８、
図９を参照して説明する。図１と図７で同じ機能を有す
る構成要素には同じ符号を付し、その詳細の説明は省略
する。図７は、本発明の音声対話システム２００の概略
構成を示す図であり、第一実施例と大きく異なる点は、
音声対話システム２００にはシステム発話中であって
も、利用者１２からの発声の入力が可能であること、い
わゆるバージ・イン機能を有していることである。

【００５５】一般的に、上記したバージ・イン機能で
は、システム発話に対応して利用者からの発声入力を受
ける際に入力された利用者の発声情報を認識するために
利用者発声内容認識部２４の認識機能を想定される利用
者発声情報に応じて切り換える場合がある。この認識機
能が切り換えられた後、利用者発声情報の認識が可能と
なる。つまり、音声対話システムへの利用者の発声の入
力が可能となる。この利用者の発声の入力が可能となっ
た時点で、対話遂行制御部２３０は、利用者音声の入力
が可能なことを示す副音を流す様に、副音発生部２５０
に指示する。

【００５６】ここで、このバージ・インの一例を図９に
示す。この例は、国内ニュース、海外ニュースや映画案
内などの情報を利用者に提供する音声対話システムのシ
ステム発話と利用者の発声の例を示した図である。シス
テム発話を示す文中の記号「／」は、語と語との間に無
音の“間”を置いてシステム発話を行うことを示してい
る。図９では、「海外ニュース」とのシステム発話中
に、利用者１２がこのシステム発話「海外ニュース」の
直前にシステム発話した「国内ニュース」と黒三角で示
した時刻に発声したことを示している。

【００５７】図９に示すシステム発話「お好きなものを
お選びください。／国内ニュース／海外ニュース／映画
案内／・・・・・・」は予め定められたシナリオに基づ
いて発話されるが、利用者からの応答である発声情報
は、国内ニュースや海外ニュースなどシステム発話され
る言葉中から選択されると予想されるので、利用者発声
内容認識部２４に設けられる認識辞書をこの予想される
利用者の発声情報を含んだ認識辞書に切り換えられる。
この様に、予想される利用者の発声情報を含んだ認識辞
書に切り換えることによって、高速に音声認識が可能に
なる効果がある。

【００５８】しかしながら、この切り換えに要する期間
中は、図９に示す様に利用者の発声情報が入力されても
認識できない、つまり、受け入れ不可期間となる。

【００５９】そこで、この受け入れ不可期間と可能な期
間とを利用者に分かり易く提示するために、本第二実施
例では、バージ・イン可能になった場合に副音の発声を
開始する様に構成されている。以下、詳細に説明する。

【００６０】次に、この音声対話システム２００の詳細
を説明するが、本システムは音声認識部２２０と対話遂
行制御部２３０と音声合成部４０と副音発生部２５０を
有している。

【００６１】本実施例での対話遂行制御部２３０は、利
用者発声内容認識部２４に設けられた認識辞書が発話中
の、あるいはこれから発話しようとしているシステム発
話に対して予め想定される利用者からの応答内容に応じ
たものに切り換えられたという信号を受け付けると、副
音発生部２５０に対して音声情報の受け付けが可能であ
ることを示す副音に切り換える様、指示を行なう機能を
有する。なお、利用者の音声情報の入力を受け付け可能
とするタイミングは、上述の例に限らず発話シナリオや
ロジック中に記述しておき、その記述に従う様にしても
良いし、対話遂行制御部２３０が予め設定されたタイミ
ングで自動的に行なう様にしても良い。

【００６２】音響処理部２２２は、第一実施例の音響処
理部２２とほぼ同じ機能を有しているが、システム発話
中であっても、常に集音器１３を介して送られて来る利
用者１２からの発声を利用者割り込み発声検出部２２６
で常に監視しており、利用者１２の発声を検出すると、
割り込み信号を対話遂行制御部２３０に送信する。な
お、図７に示した音声対話システム２００内に集音器１
３および発音器１４を含ませた構成としてもよい。

【００６３】この割り込み信号が対話遂行制御部２３０
に入力されると、対話遂行制御部２３０では、それ迄に
音声対話システム２００から発話された内容と利用者１
２が割り込みを行なって発声した内容とに基づき、次に
システム発話すべき発話内容の生成をシステム発話内容
生成部４２に指示し、システム発話を生成する。生成さ
れたシステム発話内容は、第一実施例と同様にシステム
発話発音部４４から発音器１４に送信される。また、対
話遂行制御部２３０は割り込み信号があった場合には、
副音発生部２５０に副音変更を指示し、副音発生部２５
０は受け付け可能または受け付け不可を示す副音を変更
して、利用者１２の発声が有効に入力されていることを
示す副音に変更する。

【００６４】図８を参照して、本第二実施例の音声対話
システム２００の処理フローの要点を説明する。この図
８で図２と同様の処理を行なう場合には図２に示したス
テップ番号を使用している。

【００６５】バージ・インはシステム発話中であっても
利用者１２の発声を可能にする機能であり、図２のステ
ップ１０２、ステップ１１６に相当するステップ３０
２、ステップ３０６のシステム発話において、上記した
利用者の発声を受け入れ可能になると副音発生させる。
またステップ３０２、３０６で利用者の発声に基づく割
り込み信号が発生した場合に、ステップ３１０へ処理が
移行する。このステップ３１０では、上記した様に、対
話遂行制御部２３０からの指示に基づいて、副音発生部
２５０がそれまでの副音信号と異なる副音信号を発音器
１４に送出し、副音を変更する。

【００６６】なお、ステップ３０２、ステップ３０６で
利用者の音声受け入れ可能になれば副音を流す様にした
ので、図２に示した処理フロー中のステップ１０６は不
要となる。

【００６７】以上により、利用者は音声対話システムの
発話を聞きながら、応答が可能になったことを容易に把
握することが可能となる。例えば、図９のシナリオの例
では、利用者が既にサービスメニューを認識している場
合、所望のサービス名称の発話を聞くまでもなく応答可
能であるとの副音が流れ始めた時点（図９で△で示した
時点）で利用者は例えば「スポーツ」と応答することに
より、次の処理へ遷移することが可能となる。

【００６８】次に、本発明の第三実施例の概略の構成を
示す図１０を参照して説明する。図１０においても図１
に示した構成要素と同様の機能を持つ構成要素には同じ
符号を付した。この第三実施例の音声対話システム４０
０は、音声認識部４２０と対話遂行制御部４３０と音声
合成部４０と副音発生部５０、第二副音発声部４５０と
を有している。この音声対話システム４００と第一実施
例の音声対話システム１０と異なる点は、この副音発生
部５０と第二副音発生部４５０を有した点にあり、この
副音発生部５０は、第一実施例で述べたと同様に、利用
者１２と音声対話システム４００との対話に関する副音
を発生するが、第二副音発生部４５０は、例えば音声対
話システム４００を利用して利用者１２が遂行しようと
しているタスクの進捗度合いを音階“ドレミファソラシ
ド”の八段階に分けて、タスクの進捗段階が一段進む毎
に、発音器１４から発声される音の音階を一段上げるた
めの副音発生に使用される。この例では、利用者１２に
タスクの進み具合いや、タスクの終了まで後どれほど掛
かりそうか等を利用者に意識的または無意識的に自覚さ
せることが可能になる。なお、図１０に示した音声対話
システム４００内に集音器１３および発音器１４を含ま
せた構成としてもよい。

【００６９】なお、音声対話システム４００において
も、第二副音発生部４５０からの副音信号は音響処理部
４４０に入力され、エコー・キャンセリングに使用され
る。

【００７０】また出力線１６は図１０では複数本を用い
ているが、１または２本使用する様に構成しても良い。

【００７１】次に、図１１を参照して本発明の音声対話
システムの第四実施例を説明する。図１１においても図
１に示した構成要素と同様の機能を持つ構成要素には同
じ符号を付した。この第四実施例の音声対話システム５
００は、音声認識部２０と対話遂行制御部５３０と音声
合成部４０と副音発生部５０とを有している。この音声
対話システム５００と他の実施例と異なる点は、対話遂
行制御部５３０から副音情報に対応した表示用の情報を
送出できる様にした点であり、利用者１２は発音器１４
と表示器５６０の両方から音声対話システム５００が
今、利用者１２の発声を受け入れ可能か不可能かを聴覚
的にも視覚的にも知ることができる。この表示器５６０
にはＣＲＴディスプレイや、発光ダイオードなどを利用
したランプなどであっても良く、ＣＲＴディスプレイを
使用する場合には、音声対話システム５００の状態を示
すキャラクタを表示させる様に構成しても良く、またラ
ンプを使用する場合には、点灯／消灯や点灯周期の変化
などによって音声対話システム５００の状態を表示させ
る様に構成しても良い。

【００７２】なお、図１１に示した音声対話システム５
００内に集音器１３、発音器１４および表示器５６０を
含ませた構成としてもよい。

【００７３】次に、図１２を参照して、本発明を炊飯器
に適用した具体例を説明する。図１２の（Ａ）は炊飯器
６００が概略の外観を示す図であり、炊飯器６００の上
面には蓋６０２が設けられ、側面の突出部上面にはこの
炊飯器６００の操作面が設けられている。この操作面に
は、スピーカ６１０とマイクロホン６２０及び表示パネ
ル６３０が配置されており、炊飯器６００の後部には一
旦にコンセント６４０を設けたコードが接続されてい
る。本発明の音声対話システム６５０は、この側面突出
部に配置されている。図１２の（Ｂ）はこの側面突出部
に配置された音声対話システム６５０を含む炊飯器６０
０の要部を示す図であり、コンセント６４０に接続され
る２線からなるコードの一方にはヒューズ６４２が設け
られ、このコードを介して、音声対話システム６５０の
電源が音声対話システム６５０に供給されている。一
方、コードは更に、炊飯器本体６４４内の加熱部６４６
及び制御部６４８に電源を供給する構成となっている。

【００７４】音声対話システム６５０には、スピーカ６
１０、マイクロホン６２０が接続され、音声対話システ
ム６５０内の図示していない対話遂行制御部から制御信
号が制御部６４８に出力されている。

【００７５】この音声対話システム６５０の機能は、第
一実施例の音声対話システム１０とほぼ同様であり、図
示していない電源スイッチをＯＮにすると、スピーカ６
１０から「ご飯の炊きあがりの予定時刻をお知らせくだ
さい。」とのシステム発話がなされると同時に、副音例
えば「ピッピッピッピッピッピッピッピッ」などの利用
者の応答を受け入れ可能を示す継続音が発声される。利
用者はこの副音に応じて「明日の午前６時半です。」な
どと発声すると、この声は、マイクロホン６２０で集音
され、音声対話システム６５０に入力される。音声対話
システム６５０では、この「明日の午前６時半です。」
との応答が音響処理され発声内容が認識され、音声対話
システム６５０からの信号に基づき、副音が停止される
とともに「炊きあがり時刻は明日の午前６時半ですね。
ではこの時刻に炊きあがり時刻を設定します。」とのシ
ステム発話がなされる。そして、この炊きあがり時刻に
相当する制御信号が音声対話システム６５０の対話遂行
制御部（図示せず）から制御部６４８に送信され、この
明日の午前６時半に炊きあがるために必要な加熱部６４
６への通電開始時刻が制御部６４８で計算され、記憶さ
れ、該時刻になると制御部６４８から加熱部６４６に通
電開始信号が送信される。

【００７６】また、本具体例では、表示パネル６３０に
は利用者が発声して設定した炊きあがり予定時刻が表示
される。

【００７７】次ぎに、図１３を参照して、本発明の他の
具体例を示す。図１３は、本発明の音声対話システム６
６０をネットワーク６７０に接続するための通信インタ
ーフェース部６６２とネットワーク６７０を介して基地
局６８０に接続し、この基地局６８０と無線で交信する
携帯電話６９０との間で、音声対話を行なう例である。
具体的には、携帯電話６９０には、基地局との無線交信
を行なうためのアンテナ６８２、キーボード６８６、種
々の表示を行なう表示部６８４、利用者の音声を入力す
るためにマイクロホン６９２、音声対話システム６６０
からのシステム発話を発声するためのスピーカ６８８が
配置されている。

【００７８】利用者がキーボード６８６を利用して、音
声対話システム６６０に付されたアドレスを入力して、
音声対話システム６６０との接続を行なう。接続が完了
すると、音声対話システム６６０と利用者との間で音声
対話が開始される。ここで、音声対話システム６６０に
は先に述べた音声対話システム１０、２００、４００な
どに通信インターフェース部６６２を接続し、各種の通
信回線に接続できる様に構成した。この具体例では、音
声対話システム６６０が利用者の音声を受け入れ可能に
場合、副音を送信し、携帯電話のスピーカ６８８から副
音を発声する。

【００７９】この様に、ネットワークを介した利用者と
音声対話システム間の音声対話であっても、音声対話シ
ステムに音声を入力できる期間を音声で利用者に提示で
きるので、利用者と音声対話システム間のスムーズな対
話の遂行が可能になる。

【００８０】上記の記載に関連して以下の各付記を開示
する。（付記１）音声対話システムにおいて、前記音声対話シ
ステムに入力された音声情報を解析して音声認識する音
声認識部と、発話する音声に対応した発話情報を生成す
る音声合成部と、前記音声情報の前記音声対話システム
への入力の可否を示す音を入力の可または否の期間中継
続して出力するための副音信号を生成する副音発生部と
を有したことを特徴とする音声対話システム。

【００８１】（付記２）付記１に記載の音声対話システ
ムにおいて、前記音声認識部で音声認識された結果に応
じて、前記音声合成部で生成される発話情報の生成を指
示し、前記副音発生部に副音情報の生成を指示する対話
遂行制御部を有したことを特徴とする音声対話システ
ム。

【００８２】（付記３）付記１または付記２に記載の音
声対話システムにおいて、前記音声情報を入力するため
の集音器と、前記生成された発話情報に基づき発話する
ための発音器と、前記副音発生部で生成された副音情報
に基づき前記予め定められた音を発音するための発音器
とを有したことを特徴とする音声対話システム。

【００８３】（付記４）付記１乃至付記３のいずれかに
記載の音声対話システムにおいて、前記予め定められた
音が前記副音発生部から出力されている間に前記入力さ
れた音声情報を、前記音声認識部で解析することを特徴
とする音声対話システム。

【００８４】（付記５）付記１乃至付記３のいずれかに
記載の音声対話システムにおいて、前記副音発生部から
出力される前記予め定められた音が中断されている間に
前記入力された音声情報を、前記音声認識部で解析する
ことを特徴とする音声対話システム。

【００８５】（付記６）付記１乃至付記３のいずれかに
記載の音声対話システムにおいて、前記副音生成部は、
入力された音声情報を前記音声認識部で認識する音声情
報受付可能期間と入力された音声情報を前記音声認識部
で認識しない音声情報受付不可期間とで各々異なる音に
対応する副音情報を生成することを特徴とする音声対話
システム。

【００８６】（付記７）付記１乃至付記３のいずれかに
記載の音声対話システムにおいて、前記音声認識部が音
声情報を検知したのに応じて、前記副音生成部で生成す
る副音情報は、前記検知前と前記検知後とで異なること
を特徴とする音声対話システム。

【００８７】（付記８）付記１乃至付記３のいずれかに
記載の音声対話システムにおいて、前記音声認識部で所
定時間の間、音声情報を検知しなかった場合または、前
記音声認識部で前記音声情報の認識結果から音声情報の
入力が終了したと判定した場合に、前記副音生成部で生
成する副音情報は、前記所定時間前または前記判定前に
前記副音生成部で生成した副音情報と異なる副音情報で
あることを特徴とする音声対話システム。

【００８８】（付記９）付記１乃至付記４または付記６
乃至付記８のいずれかに記載の音声対話システムにおい
て、前記副音情報は、時間の経過とともに変化すること
を特徴とする音声対話システム。

【００８９】（付記１０）付記１乃至付記９のいずれか
に記載の音声対話システムにおいて、前記副音情報に対
応する表示情報を生成することを特徴する音声対話シス
テム。

【００９０】（付記１１）音声情報を入力可能で、発話
情報を出力可能な音声対話システムにおいて、前記入力
された音声情報を信号処理する音響処理部と、前記音響
処理部で信号処理された音声情報に含まれる音声内容を
認識する利用者発声内容認識部と、システム発話情報を
生成するシステム発話内容生成部と前記発話内容生成部
で生成された発話情報を発話するための発話信号に変換
するシステム発話発音部と、前記利用者発声内容認識部
で認識された音声内容に基づき、前記システム発話内容
生成部にシステム発話情報の生成を指示するとともに副
音発声部に副音の発声または中止を指示する対話遂行制
御部とを備えたことを特徴とする音声対話システム。

【００９１】（付記１２）付記１１に記載の音声対話シ
ステムにおいて、前記利用者発声内容認識部は前記音響
処理部から送られてくる前記信号処理された音声情報に
含まれる音声内容を認識するための認識辞書を含み、前
記システム発話内容生成部または前記対話遂行制御部の
少なくとも一方に無前記システム発話内容生成部で生成
するシステム発話情報の内容および順序を定めるシナリ
オが記録格納されており、前記利用者発声内容認識部で
認識された音声内容に基づき、前記シナリオ内のシステ
ム発話情報がシステム発話内容生成部で生成され、前記
副音発声部で発声する副音を規定する副音情報は前記対
話遂行制御部または前記副音発声部に記録格納されてい
ることを特徴とする音声対話システム。

【００９２】（付記１３）利用者の発声した音声内容を
認識するステップと、発話する発話内容を生成するステ
ップと、前記音声内容を認識する期間の間、発声する音
の生成を指示するステップからなる音声対話方法。

【００９３】（付記１４）付記１乃至付記１２のいずれ
かに記載の音声対話システムにおいて、入力された利用
者の音声情報からシステム発話情報および副音情報を除
去するエコーキャンセル機能を搭載したことを特徴とす
る音声対話システム。

【００９４】（付記１５）付記１乃至付記１０いずれか
に記載の音声対話システムにおいて、入力される利用者
の音声情報と音声対話システムから発話される発話情報
および副音信号は通信回線を経由して送受信されること
を特徴とする音声対話システム。

【００９５】

【発明の効果】以上で説明したように、本発明によれ
ば、音声対話システムにおいて、利用者の発声を認識可
能であるときとそうでないときで副音を変化させること
によって、利用者に発声可能であるという状態を伝達す
ることができる。これによって、利用者は、容易に発声
可能なタイミングであるかどうかを知ることができ、シ
ステムに対して効率的に発声できるようになり、効率的
な対話を行うことが可能となる。

【図面の簡単な説明】

【図１】本発明の音声対話システムの第一実施例の概略
の構成を示す図。

【図２】音声対話システムの処理フローの一例を示す
図。

【図３】音声認識の結果から利用者の発声が終了したこ
とを検出する処理フローの一例を示す図。

【図４】利用者の発声後の経過時間から副音を変更する
処理フローの一例を示す図。

【図５】副音と音声対話システムの状態との関係を示す
図。

【図６】副音情報の種別のテーブルの一例を示す図。

【図７】本発明の音声対話システムの第二実施例の概略
構成を示す図。

【図８】音声対話システムの処理フローの他の例を示す
図。

【図９】バージ・インの一例を示す図。

【図１０】本発明の音声対話システムの第三実施例の概
略の構成を示す図。

【図１１】本発明の音声対話システムの第四実施例の概
略構成を示す図。

【図１２】本発明を炊飯器に適用した具体例を示す図。

【図１３】本発明を適用した他の具体例を示す図。

【図１４】従来の音声対話システムの構成を示す図。

【符号の説明】

１０音声対話システム１２利用者１３集音器１４発音器２０音声認識部２２音響処理部２４利用者発声内容認識部３０対話遂行制御部４０音声合成部４２システム発話内容生成部４４システム発話発音部５０副音発声部２００音声対話システム２２０音声認識部２２２音響処理部２２６利用者割り込み発声検出部２３０対話遂行制御部２５０副音発声部４００音声対話システム４２０音声認識部４４０音響処理部４３０対話遂行制御部４５０第二副音発生部５００音声対話システム５３０対話遂行制御部５６０表示器６００炊飯器６５０音声対話システム６６０音声対話システム

───────────────────────────────────────────────────── フロントページの続き (72)発明者木島裕二神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内Ｆターム(参考） 5D015 LL10

Claims

【特許請求の範囲】

【請求項１】音声対話システムにおいて、前記音声対話システムに入力された音声情報を解析して
音声認識する音声認識部と、発話する音声に対応した発話情報を生成する音声合成部
と、前記音声情報の前記音声対話システムへの入力の可否を
示す音を入力の可または否の期間中継続して出力するた
めの副音信号を生成する副音発生部とを有したことを特
徴とする音声対話システム。
【請求項２】請求項１に記載の音声対話システムにおい
て、前記音声認識部で音声認識された結果に応じて、前記音
声合成部で生成される発話情報の生成を指示し、前記副
音発生部に副音情報の生成を指示する対話遂行制御部を
有したことを特徴とする音声対話システム。
【請求項３】請求項１または請求項２に記載の音声対話
システムにおいて、前記音声情報を入力するための集音器と、前記生成された発話情報に基づき発話するための発音器
と、前記副音発生部で生成された副音情報に基づき前記予め
定められた音を発音するための発音器とを有したことを
特徴とする音声対話システム。
【請求項４】請求項１乃至請求項３のいずれかに記載の
音声対話システムにおいて、前記予め定められた音が前
記副音発生部から出力されている間に前記入力された音
声情報を、前記音声認識部で解析することを特徴とする
音声対話システム。
【請求項５】請求項１乃至請求項３のいずれかに記載の
音声対話システムにおいて、前記副音発生部から出力さ
れる前記予め定められた音が中断されている間に前記入
力された音声情報を、前記音声認識部で解析することを
特徴とする音声対話システム。
【請求項６】請求項１乃至請求項３のいずれかに記載の
音声対話システムにおいて、前記副音生成部は、入力された音声情報を前記音声認識
部で認識する音声情報受付可能期間と入力された音声情
報を前記音声認識部で認識しない音声情報受付不可期間
とで各々異なる音に対応する副音情報を生成することを
特徴とする音声対話システム。
【請求項７】請求項１乃至請求項３のいずれかに記載の
音声対話システムにおいて、前記音声認識部が音声情報を検知したのに応じて、前記
副音生成部で生成する副音情報は、前記検知前と前記検
知後とで異なることを特徴とする音声対話システム。
【請求項８】請求項１乃至請求項３のいずれかに記載の
音声対話システムにおいて、前記音声認識部で所定時間の間、音声情報を検知しなか
った場合または、前記音声認識部で前記音声情報の認識
結果から音声情報の入力が終了したと判定した場合に、
前記副音生成部で生成する副音情報は、前記所定時間前
または前記判定前に前記副音生成部で生成した副音情報
と異なる副音情報であることを特徴とする音声対話シス
テム。
【請求項９】請求項１乃至請求項４または請求項６乃至
請求項８のいずれかに記載の音声対話システムにおい
て、前記副音情報は、時間の経過とともに変化することを特
徴とする音声対話システム。
【請求項１０】請求項１乃至請求項９のいずれかに記載
の音声対話システムにおいて、前記副音情報に対応する表示情報を生成することを特徴
とする音声対話システム。