JP2003058188A

JP2003058188A - 音声対話システム

Info

Publication number: JP2003058188A
Application number: JP2001245707A
Authority: JP
Inventors: Hideki Nakamura; 英樹中村
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2001-08-13
Filing date: 2001-08-13
Publication date: 2003-02-28

Abstract

(57)【要約】【課題】音声認識に当たって認識率の高い音声対話シ
ステムを提供する。【解決手段】本音声対話システムは、ユーザの発声を
認識するための音声認識エンジンと、その認識結果に応
じてユーザへの発話を作成する対話処理エンジンと、作
成された発話を音声に合成するための音声合成エンジン
と、音声認識のための音声パターンを含む辞書データを
格納する音声認識辞書と、音声の入出力手段とを備え
る。さらにこの音声認識エンジンは、前回のユーザ発声
の認識結果を音声認識辞書において探索し、探索された
認識結果に関連する辞書データを抽出して自身の記憶領
域内に設定するよう構成されている。従って、次回のユ
ーザの発声の音声認識に当たっては、前回の認識結果に
関連する辞書データが使用されるので、認識率が向上す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、各種の機器例えば
車両に搭載されたカーナビゲーションシステム、オーデ
ィオ機器などの操作を、ユーザとの対話に基づいて自動
的に遂行する音声対話システムに関する。

【０００２】

【従来の技術】カーナビゲーションシステム、オーディ
オ機器など操作が複雑な機器では、機器を操作するため
に音声対話システムが用いられる。このシステムでは、
予め決められたステップに基づいて作成される質問をシ
ステムが発話し、この発話に対するユーザの回答を音声
認識し、認識結果に基づいて新たな発話を作成すると言
う手順によって、機器の操作に必要な情報をユーザより
得ている。

【０００３】

【発明が解決しようとする課題】ところがユーザの発声
は、発声の速度、音質、イントネーションなどが種々万
別であり、従って音声パターンの比較照合による音声認
識では、往々にして認識エラーが発生する。このような
エラーが発生すると、ユーザはそのエラーを訂正するた
めの発声を行なった後、同じ発声を繰り返す必要があ
り、対話の進行速度が大幅に低下する。従って、認識エ
ラーが度々発生すると、機器の操作性は大幅に低下す
る。

【０００４】本発明は、従来の音声対話システムの上記
の点に関してなされたもので、認識率が高く、従って操
作性の良い音声対話システムを提供することを目的とす
る。

【０００５】

【課題を解決するための手段】上記課題を解決するため
に、本発明の第１の態様では、ユーザの発声を認識する
ための音声認識エンジンと、その認識結果に応じてユー
ザへの発話を作成する対話処理エンジンと、作成された
発話を音声に合成するための音声合成エンジンと、前記
音声認識のための音声パターンを含む辞書データを格納
する音声認識辞書と、音声の入出力手段とを備え、前記
音声認識エンジンは前回のユーザ発声の認識結果を前記
音声認識辞書において探索し、探索された認識結果に関
連する辞書データを抽出して該音声認識エンジンに設定
し次のユーザ発声の音声認識を行なう、音声対話システ
ムが提供される。

【０００６】この音声対話システムでは、音声認識エン
ジンは、前回の認識結果を音声認識辞書内で探索し、探
索された認識結果に関連する辞書データのみを音声認識
辞書から抽出し、これを自身の記憶領域内に辞書として
設定する。次回の音声認識は、音声認識エンジンにおい
てこの様にして設定された辞書を用いて実施される。そ
のため、前回の認識結果に関連しない認識結果を得ると
言う認識エラーの発生が防止される。また、認識のため
の辞書データが大幅に絞り込まれるので、認識速度が向
上し、しいては対話の応答速度が向上する。

【０００７】上記態様の音声システムにおいて、前回の
ユーザ発声の認識結果が複数ある場合、音声認識エンジ
ンはそのいずれをも前記音声認識辞書において探索し、
いずれの認識結果にも関連する辞書データを前記音声認
識エンジンに設定する。

【０００８】これによって、音声認識エンジンに辞書と
して組み込まれるデータがさらに絞り込まれ、認識エラ
ーの発生率が低下すると共に、対話の応答速度が向上す
る。

【０００９】上記態様の音声システムにおいて、音声認
識エンジンは認識結果の探索対象とする単語属性のリス
トを有している。従って前回の音声認識に当たってこの
リストに無い単語が認識された場合は、その単語を除外
してリストにある単語のみを辞書中で探索する。これに
よって、探索対象とする必要がない単語がユーザ発声中
に含まれていた場合でも、対処することができる。

【００１０】上記態様の音声システムにおいて、前記音
声認識エンジンは前回のユーザ発声の認識結果中に前記
リストに対応する単語属性がある場合、それを保存して
おく。これによって、次回のユーザ発声の認識にエラー
が生じた場合、保存してある単語属性を利用して辞書の
探索、関連する辞書データの抽出を行なうことができ
る。この結果、認識エラーに対して速やかに対処可能と
なる。

【００１１】本発明の第２の態様では、ユーザの発声を
認識するための音声認識エンジンと、その認識結果に応
じてユーザへの発話を作成する対話処理エンジンと、作
成された発話を音声に合成するための音声合成エンジン
と、前記音声認識のための音声パターンを含む辞書デー
タを格納する音声認識辞書と、音声の入出力手段とを備
え、前記音声認識辞書は複数の種類の辞書を有し、前記
音声認識エンジンは対話状態と該対話状態で使用する種
類の辞書の対応テーブルを有し、各対話状態のユーザ発
声の認識に当たって前記対応テーブルに従って対応する
種類の辞書を前記音声認識辞書から抽出して使用する、
音声対話システムが提供される。

【００１２】また、この音声対話システムにおいて、前
記音声認識エンジンは前記対応テーブルに従って複数の
種類の辞書を前記音声認識辞書より抽出し使用する。

【００１３】この音声対話システムによれば、音声認識
エンジンは対話状態に応じて予め設定されている対応テ
ーブルに従って、必要とする種類の辞書のみを音声認識
辞書から抽出し、これを自身の記憶領域に設定する。従
って、音声認識に当たって、必要とする辞書以外は認識
作業の対象とならないので、音声認識エンジンにかかる
負荷が低減され、その結果音声認識の処理時間が短縮さ
れ、しいては音声対話のレスポンスが改善される。

【００１４】

【発明の実施の形態】以下に、図面を参照して本発明の
実施形態を説明する。図１は、本発明の１実施形態にか
かる音声対話システム１０の基本構成を示すブロック図
である。このシステムは、カーナビゲーションシステム
に音声による案内機能を提供するためのシステムであっ
て、映像出力装置としてのディスプレイ１２、音声出力
装置としてのスピーカ１４、音声入力装置としてのマイ
ク１６、音声対話開始スイッチ１８及び処理装置２０を
備えている。

【００１５】処理装置２０は、ハードウェアとしては、
周知のように、中央処理装置（ＣＰＵ）、主記憶装置等
からなるものである。また、処理装置２０は、主記憶装
置上で走行せしめられるソフトウェアとして、図１に示
すように、ディスプレイ１２に画像を表示する処理を行
う画像表示エンジン２０２、マイク１６から入力される
音声のパターンを認識するための処理を行う音声認識エ
ンジン２０４、およびスピーカ１４から出力されるべき
音声を電子的に合成する処理を行う音声合成エンジン２
０６を備えている。

【００１６】さらに、処理装置２０は、ソフトウェアと
して、図１に示すように、アプリケーションプログラム
２０８の指示を受けて上述の画像表示エンジン、音声認
識エンジン及び音声合成エンジンを制御する対話処理専
用エンジン２１０を備えている。また、処理装置２０
は、上述の音声認識エンジン２０４、音声合成エンジン
２０６及び対話処理専用エンジン２１０によって参照さ
れる対話用データベース２１２と主に音声認識エンジン
２０４によって参照される音声認識辞書２１４を備え
る。

【００１７】なお、当然のことながら、ハードウェア及
びソフトウェアを総合的に管理及び制御するオペレーテ
ィングシステム（ＯＳ）２１６も処理装置２０において
走行する。また、上述の対話用データベース２１２およ
び音声認識辞書２１４は、処理装置２０内に組み込むこ
となく、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリカード
等の外部メモリ上に構成されてもよい事は勿論である。

【００１８】音声認識エンジン２０４は、図２に示す様
に、音声認識のための処理プログラム（図示せず）と、
カーナビゲーションシステムの操作に用いられる基本用
語のための辞書２０４ａ、さらに音声認識辞書２１４か
ら所定の部分を抽出して設定するＲＡＭ領域２０４ｂを
有している。基本用語辞書２０４ａには、対話に必要な
基本的な用語、例えば「はい」、「いいえ」、「戻
る」、「行く」などの言葉と、都道府県名、および頻繁
に使用される大都市名、デパート、レストランなどの施
設名などが、その音声パターンと共に記憶されている。
尚、基本用語辞書２０４ａは常時ＲＡＭ領域２０４ｂに
設定され、その語は音声認識可能となっている。また都
道府県名及び大都市名は基本用語辞書２０４ａから外
し、地名に関する辞書の最上位の階層として扱うことも
可能である。

【００１９】また音声認識エンジンは、探索対象単語属
性リスト、対話状態とその対話に使用する辞書の種類な
どを記載したテーブルが保存される領域２０４ｃ、探索
対象単語属性リスト中にある単語属性が認識された場合
それを保存するための保存領域２０４ｄなどが設けられ
ているが、これらについては、各実施形態の説明の項で
詳細に述べる。

【００２０】音声認識辞書２１４には、図３に示す様
に、住所の辞書、施設名称の辞書などが記憶されてい
る。住所の辞書は、本発明では、図４に示す様に、概念
的に上下関係を有する属性の単語を階層状に配置した階
層構造を有すると共に、上位の階層の各単語をノードと
して、このノードから関連する下位の階層の単語を分岐
させた構造、即ちツリー構造を有している。

【００２１】図示の例では、最上位の階層を「府県名」
を属性に持つ単語で構成し、２段目の階層を「市名」を
属性に持つ単語で構成し、３段目の階層を「区名」を属
性に持つ単語で構成している。さらに、最上位の階層の
府県名をそれぞれノードとし、各府県中の都市名を分岐
させている。同様に、都市名の階層に属する各単語をノ
ードとし、区名を分岐させている。これにより図４に示
すような、ツリー状の３階層文法のイメージが構成され
る。

【００２２】この様な文法構造を有する住所の認識辞書
を記憶する音声認識辞書２１４に対して、音声認識エン
ジン２０４は、前回のユーザ発声による音声認識の結果
を参照して、特定のノード以下の文法を辞書２１４内か
ら抽出し、これを自身のＲＡＭ領域２０４ｂに設定す
る。音声認識エンジン２０４はこの様にして設定された
辞書を用いて次のユーザ発声を認識する。従って、この
音声認識に当たっては、前回の認識結果によって規定さ
れたノード以降の単語属性のデータ以外は音声認識エン
ジン２０４に設定されず、例えば兵庫県内の市名を発声
したのにそれを大阪府内の市名と誤認識するような事態
の発生は無い。従って、音声認識にあたって、認識率が
向上する。

【００２３】以下に、上記基本構造を有する音声対話シ
ステムの各種の実施形態の動作を、フローチャートを示
して詳細に説明する。

【００２４】図５は、本発明の第１の実施形態にかかる
音声対話システムの動作説明のためのフローチャートで
ある。また、図６はこのフローチャートの説明のため
の、音声対話システムとユーザとの対話例（対話例１）
を示す。

【００２５】システムが駆動設定されると、対話処理用
エンジン２１０が作動して目的地設定のための最初の質
問「どこへ行きたいですか」が作成され、この質問が音
声合成エンジン２０６によって音声に変換され、スピー
カ１４から出力される。この質問に対してユーザが「兵
庫県」と答えると、音声認識エンジン２０４が自身の持
っている基本辞書２０４ａを参照してユーザ発声を認識
する（図５のステップＳ１）。

【００２６】次に、音声認識エンジン２０４は、最初の
認識結果である単語属性「兵庫県」を、音声認識辞書２
０４の住所辞書中で探索し（ステップＳ２）、探索され
た単語属性以降の辞書データを抽出して音声認識エンジ
ン２０４のＲＡＭ領域２０４ｂに設定する（ステップＳ
３）。具体的には、図４のノード１０以下の辞書データ
が領域２０４ｂに設定される。

【００２７】システムは次に「兵庫県のどこですか」を
質問する。これに対してユーザが「神戸市」と答える
と、音声認識エンジン２０４はＲＡＭ領域２０４ｂに設
定された辞書データを用いてこれを認識する（ステップ
Ｓ４）。次のステップＳ５において対話が終了していな
いことを確認すると、音声認識エンジン２０４は再びス
テップＳ２に戻って、認識結果の単語属性である「神戸
市」を図４の辞書中で探索し、ステップＳ３においてノ
ード２０以下の辞書データをＲＡＭ領域２０４ｂに設定
する。

【００２８】システムは次に「神戸市のどこですか」を
質問し、ユーザはこれに対して「灘区」と答える。この
ユーザ発声は、ＲＡＭ領域２０４ｂに設定されたノード
２０以下の辞書データを用いて認識される。これらの操
作を対話終了、即ち目的地の発声が終了するまで繰り返
すことにより、目的地の設定が完了する。

【００２９】上述の実施形態では、「神戸市」の音声認
識に当たって、音声認識エンジン２０４のＲＡＭ領域２
０４ｂには、兵庫県以下の各都市名の辞書しか設定され
ないので、「神戸市」を間違って他府県の都市名と誤認
識する事は無い。同様に、「灘区」の認識に当たって
も、ＲＡＭ領域２０４ｂには、神戸市内の区名しか設定
されないので、これを他市の区名と誤認識する可能性が
排除される。

【００３０】そのため、システムとユーザ間で、例え
ば、システム「どこに行きますか」、ユーザ「大阪
府」、システム「大阪府のどこですか」、ユーザ「堺
市」、システム「明石市のどこですか」（ユーザ発声
「堺市」を「明石市」と誤認識）のような不自然な会話
の発生が防止される。また、各認識に当たって、認識対
象となる単語が絞り込まれるので、認識の速度が大幅に
向上する。

【００３１】図７は、本発明の第２の実施形態にかかる
音声対話システムの動作説明のためのフローチャートで
あり、図８はこのフローチャートの説明に使用する対話
例（対話例２）を示す。

【００３２】この実施形態では、システム側の質問「ど
こへ行きたいですか」に対して、ユーザが「兵庫県神戸
市」と２個の単語で答えた場合に対処し得る構成を有し
ている。

【００３３】まず、ユーザの最初の発声「兵庫県神戸
市」を、例えば基本辞書２０４ａを用いて認識する（ス
テップＳ１０）。次に音声認識エンジン２０４は、認識
結果の単語属性「兵庫県」について、これを認識辞書２
１４中で探索し（ステップＳ１１）、探索された単語属
性以下の辞書、即ち図４のノード１０以下の辞書を抽出
する（ステップＳ１２）。次に、未探索の認識結果が存
在するか否か判断し（ステップＳ１３）、存在する場
合、ステップＳ１１に戻って未探索の認識結果に対して
辞書中で探索を行なう。図８の場合は、未探索の認識結
果「神戸市」が存在するのでこれをノード１０以下の辞
書中から探索し、ノード２０以下の辞書を抽出する。

【００３４】この操作を、未探索の認識結果が無くなる
まで繰り返し、無くなると、ステップＳ１４において最
終的に抽出された辞書のデータを音声認識エンジン２０
４のＲＡＭ領域２０４ｂに設定する。この後、次のユー
ザ発声「灘区」を、設定された辞書データを用いて認識
する（ステップＳ１５）。

【００３５】以上の操作を対話終了まで繰り返す（ステ
ップＳ１６）事により、システムへの目的地の設定が完
了する。

【００３６】この実施形態では、ユーザによる複数の単
語属性の発声に対して、音声認識エンジンが単語属性毎
に繰り返して設定する辞書を絞り込むので、第１の実施
形態の場合と同様、目的地の音声入力に当たって誤認識
の発生が防止され、かつ高い応答速度を得ることができ
る。

【００３７】図９は、本発明の第３の実施形態を説明す
るための図であって、具体的には音声認識エンジン２０
６内に予め設定される探索対象単語属性リストを示す。
この実施形態は、例えば、「大阪府に行く」と言うよう
なユーザの発声に対して、最初の音声認識で「大阪」、
「に」、「行く」と言う３つの単語属性からなる認識結
果を得ている場合に対処するものである。

【００３８】本実施形態では、認識された各単語属性に
ついて、それぞれが探索対象単語属性リスト中に存在す
るか否かをまず探索する。図示の例では、「大阪府」の
みがリスト中に存在するため、「大阪府」と言う単語属
性に対して図５のフローチャートに示す処理を行なう。
これによって、次のユーザ発声で大阪府の市区町村以外
の単語属性を持つ結果が認識されることを防止すること
が出来る。

【００３９】図１０は、本発明にかかる第４の実施形態
の構成を説明するための対話例（対話例３）を示す図で
ある。この実施形態では、過去に認識された認識結果に
ついて、図９に示すような探索対象単語属性リストに属
する単語属性があった場合、これを認識エンジン２０４
の保存領域２０４ｄに保存しておき、その後、ユーザ発
声の認識のための辞書データを作成するに当たって、前
回の認識結果に加えて保存された結果を使用することを
特徴とする。

【００４０】即ち、図１０に示す様に、システム側の質
問「どこに行きますか」に対するユーザの回答「兵庫
県」が認識されると、図５または図７のフローチャート
に示す様に、音声認識エンジン２０４中のＲＡＭ領域２
０６ｂには「兵庫県」をノードとするそれ以降の辞書デ
ータが設定される。認識された単語属性「兵庫県」は、
図９に示す探索対象単語属性リスト中に含まれているの
で、この単語属性「兵庫県」は、音声認識エンジン２０
４の保存領域２０４ｄ中に保存される。

【００４１】システムは、次に「兵庫県のどこですか」
を質問する。ユーザはこれに対して「ラーメン屋」と答
える。「ラーメン屋」と言う単語属性は、音声認識エン
ジン２０４中の基本辞書における施設の種類の辞書中に
含まれているので、その波形データを使用して「ラーメ
ン屋」が認識される。

【００４２】「ラーメン屋」が認識されると、音声認識
エンジンは、音声認識辞書２１４中の施設名の辞書に含
まれている、ラーメン屋の辞書を抽出し、さらに保存領
域２０４ｄ中に保存された単語属性「兵庫県」を用いて
ラーメン屋の辞書をさらに絞り込む。これによって、兵
庫県内のラーメン屋の辞書が抽出され、これが音声認識
エンジン２０４のＲＡＭ領域２０４ｂに設定される。次
のユーザ発声「○○ラーメン」は、この様にして設定さ
れた辞書データを用いて認識される。

【００４３】なお、施設名の単語属性には、それぞれの
住所がデータとして添付されているので、このデータを
探索することにより、特定の地域のラーメン屋を特定す
ることができる。

【００４４】図１１は、本発明にかかる第５の実施形態
の構成を説明するための対話例（対話例４）を示す図で
ある。この実施形態では、過去に認識された認識結果に
ついて、図９に示すような探索対象単語属性リストに属
する単語属性があった場合、これを認識エンジン２０４
の保存領域２０４ｄに保存しておき、その後、システム
とユーザの対話の過程で認識間違いがあった場合、保存
領域２０４ｄに保存されている単語属性を用いて辞書の
絞り込みを行なうことを特徴としている。

【００４５】即ち、図１１に示す様に、システム側の質
問「どこに行きますか」に対するユーザの回答「兵庫
県」が認識されると、図５または図７のフローチャート
に示す様に、音声認識エンジン２０４中のＲＡＭ領域２
０６ｂには「兵庫県」をノードとするそれ以降の辞書デ
ータが設定される。認識された単語属性「兵庫県」は、
図９に示す探索対象単語属性リスト中に含まれているの
で、音声認識エンジン２０４の保存領域２０４ｄ中に保
存される。

【００４６】システムは、次に「兵庫県のどこですか」
を質問する。ユーザはこれに対して「神戸市」と答える
が、システムがこれを「明石市」と誤認識し、次の質問
「明石市のどこですか」を発話する。ユーザはシステム
のこの質問によって前回の自身の回答が誤認識されたこ
とを知って、「ちがう」と回答する。システムが基本辞
書を用いてこの発声を認識すると、保存領域２０４ｄを
探索して保存されている単語属性「兵庫県」を見出す。
次に、この単語属性を用いて辞書の絞り込みを行なうと
共に、質問「兵庫県のどこですか」を再度作成する。

【００４７】この操作は、図１１において二重線矢印で
示すように、認識を誤った場所まで対話が戻ることを示
している。システムの再度の質問以降は、図の二重線矢
印で示す様に、上記各実施形態の処理が実行される。

【００４８】図１２〜１４は、本発明の第６の実施形態
を説明するための図であって、図１２はこの実施形態に
適用される対話例（対話例５）を示し、図１３、１４は
本実施形態における音声認識エンジン２０４と音声認識
辞書２１４の構造を概念的に示す図である。

【００４９】本実施形態では、ユーザとシステムの対話
状態（図１２参照）に応じて使用する辞書の種類を予め
設定しておき、各対話状態に達したとき、予め設定され
た種類の辞書のデータを音声認識辞書から抜き出して、
音声認識エンジン２０４のＲＡＭ領域２０４ｂに設定す
るようにしたことを特徴とする。

【００５０】例えば、対話状態１〜４に対して図１３に
示すような対応テーブル２０４ｅが予め形成されている
と、対話状態４では、該対応テーブルに従って施設名称
の辞書のデータを音声認識辞書２１４から取り出して来
てＲＡＭ領域２０４ｂに設定し、この辞書を用いて次の
ユーザ発声の音声認識を実行する。

【００５１】あるいは、対話状態２の場合は、図１４に
示す様に、対応テーブル２０４ｅに従って住所の辞書と
施設の種類の辞書を音声認識辞書２１４から取り出し、
それらを共にＲＡＭ領域２０４ｂに設定する。これによ
り、ユーザの次の発声が「ラーメン屋」であっても容易
に音声認識される。

【００５２】本実施形態によれば、対話の各状態におい
て、ユーザが発生すると思われる発声パターンを有する
辞書のみを音声認識辞書から取り出し、音声認識エンジ
ンに設定することで、該エンジンにかかる負荷（処理
量）を低減することができる。その結果、音声認識の応
答時間が短縮でき、音声対話のレスポンスが改善され
る。

【００５３】本発明のさらに他の実施形態として、ある
状態で、既に得られている単語属性以外の、対話タスク
を達成させるに必要な単語属性を含む音声認識用辞書を
自動的に選択し、音声認識エンジンに設定する事も可能
である。即ち、目的地設定の対話で、既に「県名」の属
性を持つ認識結果が得られている場合、タスク達成のた
めに他に必要な属性は、「市名」、「町名」、「番地」
などであり、これらの単語属性を含む辞書を、複数の辞
書から探索し、適合する辞書を組み合わせて音声認識エ
ンジンに設定する。

【００５４】これによって、第６の実施形態のように対
応テーブルを持つことなく、この場合の実施形態と同じ
効果を得ることができ、処理量（データ量）の削減が期
待できる。

【００５５】

【発明の効果】以上、各実施形態を挙げて説明したよう
に、本発明の音声対話システムによれば、既に得られて
いる音声認識の結果に関連する辞書データを音声認識辞
書から取り出して音声認識エンジンに設定し、次のユー
ザ発声の音声認識を行なうので、音声認識の誤認率が低
下する。同時に音声認識エンジンに設定されるデータ量
が減少するので認識エンジンの負荷が減少し、認識速度
が速くなる。その結果、対話の応答速度が向上する。

【図面の簡単な説明】

【図１】本発明の１実施形態にかかる音声対話システム
の構成を示すブロック図。

【図２】図１に示す音声認識エンジンの構成を示す図。

【図３】図１に示す音声認識辞書の構成を示す図。

【図４】ツリー状階層構造を有する住所辞書の構成を示
す図。

【図５】本発明の第１の実施形態にかかる音声対話シス
テムの動作説明のためのフローチャート。

【図６】図５のフローチャートの説明に提供する第１の
対話例。

【図７】本発明の第２の実施形態にかかる音声対話シス
テムの動作説明のためのフローチャート。

【図８】図７のフローチャートの説明に提供する第２の
対話例。

【図９】探索対象単語属性リストの一例を示す図。

【図１０】本発明の第３の実施形態の説明に供する第３
の対話例。

【図１１】本発明の第４の実施形態の説明に供する第４
の対話例。

【図１２】本発明の第５の実施形態の説明に供する第５
の対話例。

【図１３】本発明の第６の実施形態の説明に供する図。

【図１４】本発明の第６の実施形態の説明に供する図。

【符号の説明】

１０…音声対話システム１２…ディスプレイ１４…スピーカ１６…マイク１８…スイッチ２０…処理装置２０２…画像表示エンジン２０４…音声認識エンジン２０６…音声合成エンジン２０８…アプリケーションプログラム２１０…対話処理用エンジン２１２…対話用データベース２１４…音声認識辞書

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/18 Ｇ１０Ｌ 3/00 ５３７Ｆ 15/28 ５２１Ｗ

Claims

【特許請求の範囲】

【請求項１】ユーザの発声を認識するための音声認識
エンジンと、その認識結果に応じてユーザへの発話を作
成する対話処理エンジンと、作成された発話を音声に合
成するための音声合成エンジンと、前記音声認識のため
の音声パターンを含む辞書データを格納する音声認識辞
書と、音声の入出力手段とを備え、前記音声認識エンジ
ンは前回のユーザ発声の認識結果を前記音声認識辞書に
おいて探索し、探索された認識結果に関連する辞書デー
タを抽出して前記音声認識エンジンに設定し次のユーザ
発声の音声認識を行なうものである、音声対話システ
ム。
【請求項２】請求項１に記載の音声対話システムにお
いて、前記音声認識エンジンは前回のユーザ発声の認識
結果が複数ある場合、そのいずれをも前記音声認識辞書
において探索し、いずれの認識結果にも関連する辞書デ
ータを前記音声認識エンジンに設定するものである、音
声対話システム。
【請求項３】請求項１に記載の音声対話システムにお
いて、前記音声認識エンジンは認識結果の探索対象とす
る単語属性のリストを有している、音声対話システム。
【請求項４】請求項３に記載の音声対話システムにお
いて、前記音声認識エンジンは前回のユーザ発声の認識
結果中に前記リストに対応する単語属性がある場合、そ
れを保存しておくものである、音声対話システム。
【請求項５】ユーザの発声を認識するための音声認識
エンジンと、その認識結果に応じてユーザへの発話を作
成する対話処理エンジンと、作成された発話を音声に合
成するための音声合成エンジンと、前記音声認識のため
の音声パターンを含む辞書データを格納する音声認識辞
書と、音声の入出力手段とを備え、前記音声認識辞書は
複数の種類の辞書を有し、前記音声認識エンジンは対話
状態と該対話状態で使用する種類の辞書の対応テーブル
を有し、各対話状態のユーザ発声の認識に当たって前記
対応テーブルに従って対応する種類の辞書を前記音声認
識辞書から抽出して使用するものである、音声対話シス
テム。
【請求項６】請求項５に記載の音声対話システムにお
いて、前記音声認識エンジンは前記対応テーブルに従っ
て複数の種類の辞書を前記音声認識辞書より抽出し使用
するものである、音声対話システム。
【請求項７】ユーザの発声を認識するための音声認識
エンジンと、その認識結果に応じてユーザへの発話を作
成する対話処理エンジンと、作成された発話を音声に合
成するための音声合成エンジンと、前記音声認識のため
の音声パターンを含む辞書データを格納する音声認識辞
書と、音声の入出力手段とを備え、前記音声認識エンジ
ンは所定の対話タスクを達成する複数の単語属性中で前
回のユーザ発声の認識時に使用された単語属性以外の単
語属性を含む辞書データを前記音声認識辞書から抽出し
て次回のユーザ発声の認識に使用するものである、音声
対話システム。