JP2005519507A

JP2005519507A - 音声対話システムの操作方法

Info

Publication number: JP2005519507A
Application number: JP2003573635A
Authority: JP
Inventors: ヨウブリン，フランク
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-03-07
Filing date: 2003-03-03
Publication date: 2005-06-30
Anticipated expiration: 2023-03-03
Also published as: JP4460305B2; AU2003207897A1; EP1485908A1; DE10209928A1; DE60316125T2; WO2003075260A1; US20050171779A1; ATE372574T1; DE60316125D1; EP1485908B1

Abstract

音声対話システム（１）を操作する方法について開示している。ユーザが音声対話システム（１）の種々のサービス（９，１０）の１つを選択するために対話を制御することに対して、パスの各々の終端に配置されたサービス対象（Ｄ）にノード（Ｋ）を接続するため且つ互いにノード（Ｋ）を接続するために複数のノード（Ｋ）と複数のパス（Ｐ）とを有する階層データ構造（ＤＳ）を有するデータベース（６）が使用される。サービス対象（Ｄ）は、利用可能である前記サービス（９，１０）を表す。ノード（Ｋ）は、分類される更なるカテゴリ及び／又はサービスが配列されるそれぞれのカテゴリを表す。すくなくともこれらサービス対象（Ｄ）及び／又はノード（Ｋ）の一部に複数のパス（Ｐ）が繋がる。各々のノード（Ｋ）及び各々のサービス対象（Ｄ）に少なくとも１つのキーワード（Ｓ）が更に割り当てられる。検索語は、所定の許容基準に従って割り当てられるキーワード（Ｓ）が前記検索語に適合する候補のノード（Ｋ）及び／又は候補のサービス（Ｄ）対象の数が探索される検索語に基づいて、この発話入力から抽出される。検索方法は、候補のノード（Ｋ）及び／又は候補のサービス対象（Ｄ）が所定の最小数より大きく且つ所定の最大数より小さく位置付けられるまで、種々の検索段階において実行される。次いで、音声出力メニューが生成され、見つけられた候補のノード（Ｋ）及び／又は候補のサービス対象（Ｄ）及び／又はサービス（９，１０）が知らされる。更に、それぞれの音声対話システム（１）が開示される。

Description

本発明は、音声認識装置と音声出力装置を使用しながら、システムがユーザと通信する
音声対話システムを操作させる方法であって、種々のサービスが音声対話システムにおけるユーザに又は音声対話システムにより利用可能であり、音声対話システムにより維持される対話においてユーザにより選択可能である、方法に関する。ユーザによるサービスの選択のための対話を制御するために、データ構造における各々のパスの１つの終端において配列されるサービス対象にノードを接続するため及びノードを相互接続するために複数のパス及び複数のノード並びに階層化されたデータベースを用いる。サービス対象は、このとき、利用可能であるサービスを表し、それぞれのノードより小さいレベルにおいて階層化データ構造に配列された更なるノード又はサービス対象により表される、他のカテゴリ及び／又はサービスが再び分類されるそれぞれのカテゴリを表す。更に、本発明は、それぞれの自動的音声対話システムと、方法を実行するためにプログラム符合化手段を用いるコンピュータプログラムとに関する。

音声認識及び音声出力装置を使用しながらユーザと通信する音声対話システムは、以前から周知である。そのようなシステムは、音声アプリケーションとしばしば呼ばれる、所謂、音声を制御された自動システムである。ユーザのための音声対話システムは、所謂、ボイスポータルと呼ばれる、ユーザが種々のサービスにアクセスすることを成功させる手段である。音声対話システムは、例えば、空港などにおける固定の情報システムのような音声対話システムを用いて通信することができるようにユーザが操作するようになっている特別の端末を有する。しかしながら、そのような音声対話システムは、その音声対話システムが、例えば通常の電話、可搬型無線装置又は電話機能を備えたＰＣ等の手段により音声対話システムが利用できるように、公共の通信ネットワークへの接続をしばしば有する。これらの音声対話システムについての例としては、自動留守番電話機及び情報システムがあり、それらは、コーラーの要望を扱う場所にコーラーを接続するか、又はコーラーに最も速く且つ最も満足のいく方法で望んでいる情報を提供するように、例えば、幾つかの大きい企業、組織及びオフィスにより使用されてきた。この音声対話システムについての更なる例としては、既に幾つかの電話会社により使用されている自動電話問い合わせサービス、自動時刻表又はフライトスケジュール情報サービス、特定地域についての映画及び劇場プログラムのような一般イベントについての情報を扱う情報サービスがある。幾つかの音声対話システムは、要求がある場合に、準備できている状態であり又は調べることができ、そして必要に応じてユーザに送信できるユーザに対する純情報、及び、例えば、電車又は飛行機の席、ホテルの部屋の予約サービス、支払いサービス若しくは物品の注文サービスのような付加的サービスを提供する。

ユーザは、このとき、例えば、対話スイッチング（又、電話転送という）により、外部サービス、即ち、その音声対話システム又は人に属さないサービスに切り換えることができる。本明細書のコンテキストにおける“サービス”の意味は、情報サービス、切り換えサービス、予約サービス等のような１つの複雑なサービスばかりでなく、音声対話システムにおいてユーザに提供されるサービスとしてユーザに対して発行される情報を意味する簡単な情報、例えば、要求された電話番号の案内又はイベントにつての情報が録音されたテープの再生を、明確に含む。基本的に、例えば、インターネットに類似して、ユーザは、音声対話システム等によりいずれかのサービスを、結果的に提供されることが可能である。音声対話システムにおいては、サービスを利用するために、ユーザは標準的な電話又は携帯無線サービスのみを所有していればよいことが有利である。

音声対話システムの特定サービスを選択するユーザのために、実際には、個々のサービスが階層型決定ツリーのようなデータ構造状である方法が、今日、習慣的に実行されている。ユーザと音声対話システムとの間の対話は、そのツリー構造のトップにおけるスタートポイントにおいて開始され、それぞれのサービスを表すサービス対象が見つけられるパスの終端に達するまで、特定のサービスカテゴリ各々を表す複数のノードそれぞれを通ってパス又は枝に沿って進む。本明細書における意味のサービス対象の考え方は、任意のデータ対象、ソフトウェアモジュール等として理解される必要があり、サービスそれ自体を表す、及び／又は、サービスについての情報を含む。こらは、例えば、サービスが問い合わせされる形態についての情報、サービス又はそれぞれのソフトウェアモジュールのアドレス若しくは電話転送を実行するための情報であることが可能である。

それぞれのカテゴリを表すノードは種々のレベルにおいて見つけられる一方、より高いレベルのノードは、下のレベルに位置付けられるノードに属し、それ故、それら下のレベルの上に位置付けられるカテゴリについての所謂サブカテゴリを構成するカテゴリに配列されるカテゴリを表す。

これについてのブラフィックな例としては、特に、例えば、気象情報及びイベント情報等の種々の情報サービスを提供する音声対話システムがある。この例において、細分化は、中心ノードから“気象”及び“イベント情報”において見られる。これらのカテゴリの下には更にカテゴリが存在し、例えば、カテゴリ“気象”の下には、カテゴリ“現在の休日の気象”及びカテゴリ“気象予報”があり、カテゴリ“イベント情報”の下には、カテゴリ“映画”、“劇場”及び“演劇”等がある。これら個々のカテゴリ中には、例えば、カテゴリ“休日の気象”の下の問い合わせされることができる個々の細かい領域、カテ越し“劇場”の下のある町の個々の劇場のような更なるカテゴリが存在する。更に、例えば、音声対話システムの音声出力（以下ではプロンプトという）により、これは、次のように“あなたがイベント情報に興味をお持ちの場合、‘イベント’と言って下さい、あなたが気象情報に興味をお持ちの場合、‘気象’と言って下さい、とすることが可能である。
ユーザの答に従って、新しいプロンプトがその音声対話システムにより更に生成される。例えば、気象情報が選択された後の、“あなたが現在の気象情報を欲しい場合は、‘休日’と言ってください、あなたが次の日の気象情報を欲しい場合は、‘気象情報’と言ってください”等である。

音声対話システムの複雑さをエンハンスすること、音声対話死してムにおけるサービス数をエンハンスすることにより、そのツリー構造が更に複雑なものとなり、更にレベルが多くなり、それ故、個々のパスの枝分かれに対して更にもノードが付加される必要があることは明らかであろう。特定のサービスを得るために、ユーザは、各々のパスのスタートからエンドまでの全体のデータ構造を通して先ず進み、音声対話システムの複数の質問に答える。従って、この方法は、ユーザにとって、かなりの時間を必要とし、冗漫で心地よくないものである。更に、一旦決定されたカテゴリへの厳密な分割は、ユーザがノードにおいて間違った決定を容易にすることがあり得るように、各々の個々のユーザにより必然的にであって直感的にではなく操作される。それ故、ユーザは間違ったサービスに導かれ、全体の対話を再び開始する必要がある。全体のシステムがあまりにも複雑である場合、このようなトラブルに原因して、音声対話システムはもはやユーザにより使用できない現実に直面することとなる。

本発明の目的は、冒頭のパラグラフにおいて規定したタイプの音声対話システムを操作する改善された方法を提供すること、及びいつでも、ユーザが速く且つ簡単なやり方で所望のサービスを見つけることを可能にする音声対話システムを提供することである。

この目的は、データ構造における複数のなるパスがサービス対象及び／又はノードの少なくとも一部に繋がり、各々のノード及びサービス対象に１つ又はそれ以上のキーワードが割り当てられる、冒頭のパラグラフにおいて規定された方法により達成される。本発明に従って、検索語はユーザの発話入力から及び検索語に基づいて抽出され、割り当てられたキーワードが所定の許容基準に従って検索語に適合する多くの候補のノード及び／又は候補のサービス対象が探索される。検索段階の後、見つけられた候補のサービス対象及び／又は候補のノードの数が所定の最小数以上であって所定の最大値以下に位置付けられるまで、種々の検索段階において検索がなされる。音声出力装置は、特定のサービス又は特定のカテゴリを選択するユーザのために見つけられた候補のサービス対象及び／又は候補のノードにより表されるサービス及び／又はカテゴリをユーザにアナウンスするために音声出力メニューを生成する。

装置に関する目的は、音声対話システムにおいてユーザにより選択されることができる複数のサービスを有し、及びユーザとの通信のための音声出力装置及び音声認識装置を有し、及び／又は、ユーザにより選択されることができるサービスに音声対話システムによりユーザをトランスファ（ｔｒａｎｓｆｅｒ）するための手段を有する自動音声対話システムにより達成される一方、その音声対話システムは、サービス対象にノードを接続するため且つノードを相互接続するために複数のパス及び複数のノードを有する上記のそれぞれ階層データ構造を有するデータベースと、ユーザによるサービスの選択に対して対話を制御するための対話制御ユニットと、を有する。サービス対象は利用可能であるサービスを表し、ノードは、階層データ構造におけるそれぞれのノードの下のレベルに配列された、サービス対象又はノードにより表される他のカテゴリ及び／又はサービスが又、分類されるそれぞれのカテゴリを表す。本発明に従って、データ構造におけるノード及び／又はサービス対象の少なくとも一部は、データ構造に導く複数の異なるパスを有する。更に、１つ又はそれ以上のキーワードがデータベースの各々のサービス対象及び各々のノードに割り当てられる。更に、本発明に従った音声対話システムは、諸例の許容基準に従って割り当てられたキーワードが検索語に適合するデータベールにおける候補のサービス対象及び／又は候補のノードの数に対して検索語に基づいて検索するための検索ユニットを有し、ユーザから受信された発話入力から検索語を抽出するための分析ユニットを有し、検索ユニットは、検索段階の後、見つけられた候補のノード及び／又は候補のサービス対象が所定の最小値以上且つ所定の最大値以下に位置付けられるまで、種々の検索段階において検索を実行するように構造化される。最後に、本発明に従った音声対話システムは、成功した検索段階の後、音声出力装置の手段により特定のサービス又は特定のカテゴリを選択するためにユーザのために見つけられた候補のサービス対象及び／又は候補のノードにより表されたサービス及び／又はカテゴリをユーザに対してアナウンスするために音声出力メニューを生成するためのプロンプト生成ユニットを有する必要がある。

各々のノード及び各々のサービス対象に、又は個々のカテゴリ及びサービスそれぞれにキーワードを割り当てる結果として、及び、ユーザの発話入力から抽出された検索語に基づくサービス対象及び／又はノードであって、それらノード及びサービス対象がキーワードとしてそれらの検索語を有する、サービス対象及び／又はノードを適合させるための検索の結果として、ユーザとの対話を比較的自然な方式で確立することができる。各々のサービスに対する検索をしているとき、ユーザは、目的に到達するために所定のカテゴリに従って分類する必要はないが、ユーザは、ユーザの意見でサービスを最もよく表現する定式を用いることができる。それ故、好適には、キーワード、及びユーザが直感的にこのサービス又はカテゴリに関連付けるサービス、カテゴリ又は検索語の特定で同等な表現のような付加キーワードを用いて、その定式は、サービス又はカテゴリそれ自身の名前である。この方法は、明らかに構築される必要がなく、かなりの犠牲の処理をする必要がある矛盾を伴った従来のシステムにおける所謂ショートカットに対応するが、そのショートカットは方法の中に既に組み込まれている。特定の規定ノードに沿った１つのパスのみがサービス対象に導くが、データ構造は、異なるノードが異なるパスに沿って同じサービス対象に導くことが可能である複数のツリー構造の方式で構成されている方法におけるオープン構造の結果として、ユーザは、種々のノードから同じサービス対象に到達する可能性を有する。このことは、１つのサービス対象に対して種々のオーダー基準を定める可能性をつくり出し、その基準は、利用可能な異なる情報及び知識を用いて、可能なサービスに容易にアクセスできるようにする。

キーワードは、特定の予め規定された許容基準のみに合致して検索語に適合する必要があるため、ユーザの音声出力における検索語として、又、ユーザは逐語的にサービス又はカテゴリのキーワード全てを述べる必要はないが、検索語とキーワードとの間の特定のオーバーラップが存在することのみで十分である。許容基準の適切な選択を用いる場合、それ故、一方で、過剰でないサービス又はカテゴリが見つけられるが、他方で、ユーザに所望されるサービスに導くことが可能であり、又は、所望されたサービスそれ自体であるカテゴリ又はサービスが排除されることがないが、それらカテゴリ又はサービスのキーワードは、ユーザの不十分な発話入力の結果としての検索語と部分的にオーバーラップすることのみが提供される。それ故、許容基準は、過剰に制限されないように選択することである。

検索語を用いてデータ構造におけるサービス対象及びノードを検索するために、その通常のインターネット検索エンジンは、検索語とキーワードとの間のオーバーラップがどの程度であるかを示す（以下、ヒットと呼ぶ）、比例ヒット率により見つけられたサービス対象及び／又はノードを評価する、例えば、通常のインターネット検索エンジンからのソフトウェアモジュールを使用することが可能である。そのような検索モジュールは、当業者には十分知られており、又、例えば、ＰｈｉｌｉｐｓＳｐｅｅｃｈＰｒｏｃｅｓｓｉｎｇの製品“Ｆｉｎｄｉｔ”及び“ＳｐｅｅｃｈＦｉｎｄｅｒ”により利用可能である。検索モジュールのデータインタフェースのみが、音声対話システムに適応されるために必要とされ、又はその逆も言える。６０％のヒット率は許容基準であると仮定してもよい。

特定の数の候補のノード、即ち、適合し得るカテゴリ及び／又は可能性のあるサービス対象、即ち、適合し得るサービスが見つけられる限り、サービス及び／又はカテゴリ全ては、好適には、段階的リストのフォームでユーザに提供されるため、正しい可能性のある、即ち適合する可能性のあるサービス又はカテゴリの早過ぎた及び間違った拒絶が回避される。これは、プロンプト生成ユニットにより生成される音声出力メニューにおいて起こり、即ち、ユーザフレンドリな明確化された質問又はユーザ向けメニューは、所望のサービスに到達する又は所望の情報を見つけるための対話においてユーザを支援するように、検索プロセス及び予めの発話入力に依存して、自動的に生成される。検索段階の後、決定された候補のノード及び／又は候補のサービス対象の数が、所定の最小値と所定の最大値との間に位置付けられるまで、間作が種々の検索段階に細分化されることにより、それらの段階は継続される。他方、ユーザは、対話のメニューにおいてカテゴリ又はサービスの長すぎるリストを提供されないことを確実にされている。従って、メニュー出力の終了後、ユーザが提供されたサービス全てを尚も考えることができ、従って、サービス又はカテゴリの１つを選択することができるように、ユーザにとって、最大数は音響的に容易に把握でき且つ気づくことができるカテゴリ又はサービスの数であるような、最大数が選択される必要がある。

最大数は、好適には、多くても４つの異なるカテゴリ及び／又はサービスが一度に提供されることができるように、５に設定される必要がある。

これを実施する可能性は、許容基準が変化され、先ず、例えば、非常に大きい許容基準を用いて検索され、その後は段階的に進行し、多すぎる候補のノード及び／又は候補のサービス対象が決定される場合、許容基準は、最終的に、許容基準に適合するヒット数が所望の範囲内にあることが見つけられるまで強調される、という事実を有する。

実施形態の特に好適な例においては、特定のノードに対して割り当てられるキーワードは、特定のノードの下で分類される更なるノード又はサービス対象に自動的に割り当てられる、即ち、キーワードは、データ構造の範囲内で上方又は下方に“引き継がれる”。

不成功な検索段階の後であって、ここでは、“不成功な”は、少な過ぎる又は多過ぎる候補のノード及び／又は候補のサービス対象が見つけられたことという意味で理解される場合、検索は、それ故、好適には、候補のノード及び／又は候補のサービス対象が所望の制限内に位置付けされるまで、データ構造の他のレベルを有する間に又は他のレベルにおいて継続されることができる。

“受け継ぎ”は、データ構造において最上部から最下部にキーワードが連続的に増加することを確実にし、高位のカテゴリに、即ち、ツリー構造における高位に見つけられるノードに属すキーワード全ては又低位レベルにおいて見つけられることができるため、検索は、好適には、データ構造の最下部において、即ち、サービス対象のレベルにおいて、開始される。ここで、所望の結果が達成されない場合、検索は、ノード間の次の高位レベルを有する度に、段階的に継続される。この方法においては、従って、許容基準それ自体を強調することは必要ないが、ヒット数は、ヒット数が所望の制限内に位置付けられるまで、種々のレベルにおいて段階的な検索により簡単に減少されることができ、ユーザへの次のイシューについての意味のあるメニューを生成することができる。このことは、まさに正しいヒットが拒絶されるという事実に導き得るために、これは、許容基準の強調と異なり、第１検索段階において見つけられたヒットのどれもが拒絶されないという点で有利である。これに代えて、メニューは高位レベルのカテゴリから構成され、それ故、一方において、メニュー内の少数のカテゴリのみが発行されるが、他方において、カテゴリは、検索段階に先立って見つけられるカテゴリ又はサービス全てを、“総称”として尚もカバーする。

換言すれば、本発明に従った対話システムの実施形態のこの好適な例において、一方では、データ構造の最下部レイヤにできるだけ近い、データ構造におけるポイントにユーザを導くことが提供され、それ故、更なる対話の開始から、サービスのサービス対象に到達するために、少数の問い合わせのみがそれぞれ必要である。他方では、開始は、抽出された検索語に基づいて決定されたカテゴリ及びサービス全てをカバーするために十分高位のデータ構造のレベルにおいて見つけられ、いずれのヒットも不必要に拒絶しない。

決定された候補のノード及び／又は候補のサービス対象の数が小さ過ぎる場合、許容基準は、好適には、検索段階において拡張されることができる。これは、好適には、ここでは、サービスのレベルの第１検索段階において、殆どのヒットが常に見つけられ、高位レベルにおけるもう１つの検索段階はヒット数の減少にのみ導くため、検索が段階的に最下部から最上部に開始され、キーワードがデータ構造の上方ノードからそれら上方ノードの下方に位置付けられたノードに進められる、上記の方法の実施形態の例において有利である。

従来のインターネット検索エンジンからデータベース検索モジュールが使用されるとき、許容基準の変化は比例ヒット見積もりを変化させることにより簡単に達成することができる。

達成することが比較的簡単である実施形態のもう１つの例において、抽出された検索語は、検索のために各々の個々のノード及びサービス対象のキーワードと個別に比較され、検索語とキーワードとの間の適合の数が個々のノード及びサービス対象に対してカウントされる。許容基準は、それ故、簡単には、抽出された検索語とキーワードとの間に位置付けられた最小適合数とすることが可能である。例えば、サービス対象又はノードノキーワードにおける全てのキーワード、少なくとも２つの検索語、又は少なくとも１つの検索語等が規定されることが可能である。

請求項１０は、本発明に従った音声対話システムの更に大きく有利な変数について記載している。本発明に従った方法によりメニューの検索及び案内を実行した後、更に新しい検索語を有する発話入力をユーザが利用する場合について言及している。

これに対する例は、検索語“旅行”の後、次のプロンプトをユーザが受信する場合である。“あなたは、自動車、電車又は飛行便のどれで旅行したいですか？選択してください。”次いで、ユーザは比較的略式に答える。“自動車です。私は移動可能が好みです。”
このようなユーザの応答の表現は、２つのポテンシャルの高いキーワード、即ち、“自動車”と“移動可能”とを有している。この表現のその他の単語は、分析に対して意味がないとみなされる。従って、２つの新しい検索語、即ち“自動車”と“移動可能”とがこの発話入力から抽出される。音声対話システムは、次いで、検索語“自動車”と“移動可能”とを用いる新しい検索に繋がり、例えば、カテゴリ“自動車”（第１検索として）と、付加的には、特定の電話問い合わせ情報サービス又は運賃情報サービスに導くことが可能である、カテゴリ“移動可能無線装置”とを見つける。カテゴリ“自動車、電車、飛行便”を有する第１検索の結果が、“自動車”と“移動可能ラジオ”とを有する第２検索結果と共通部分化される場合、得られる総合結果は、疑いなく、ユーザにより所望されるカテゴリである、カテゴリ“自動車”になる。次いで、このカテゴリは、好適には、ユーザに対して出力される。

共通部分が種々のヒットをいう限り、ユーザは、このように、これらの好適なヒットからユーザの選択を行うことができる。１つの共通部分要素のみが存在する場合、例えば、メッセージ“あなたは、‘自動車’を選択しました。これは正しいですか？”により、好適なイシューが更なるユーザによる確認に対してのみ作成されることができる。

共通部分が空である限り、音声対話システムは前の検索結果を無視し、新しい検索結果のみを利用する。この例は、ユーザが第１検索結果の第１出力に応答する場合の、“実際には、私は移動可能ラジオ料金についての情報を欲しい”である。このユーザの応答は、検索語“移動可能”のみを有し、カテゴリ“移動可能ラジオ”のみを有する検索結果に繋がる。第１検索結果“自動車、電車、飛行便”と第２検索結果“移動可能ラジオ”との間の共通部分はこの結果として空であり、ユーザの希望に従って、カテゴリ“移動可能ラジオ”のみが適切に提供される。

本発明の以上の及び他の特徴は、以下に説明する実施形態を参照することにより、理解され、明らかになるであろう。

図１に示す実施形態の例は、音声対話システム１が公共通信ネットワークであって、例えば、電話ネットワークに接続され、それ故、通常の電話１４を用いてユーザが到達することができるネットワークインタフェース５を有する音声対話システム１である。

自然な音声の状態でユーザとの通信を可能にするために、音声対話システム１は音声認識ユニット２を有している。このユニットは、ネットワークインタフェース５により入力するユーザの音声信号を受信し、音声信号に含まれる情報がそのシステムにおける次の構成要素により処理されるデータに変換される音声認識を実行する。出力側において、音声対話システム１は音声生成システム３を有する。音声生成システム３は、例えば、所謂ＴＴＳシステム（テキスト音声システム）とすることが可能である。そのＴＴＳシステムは、音素と言葉を適当にまとめることにより、入力されたコンピュータ読み取り可能データから発話テキストを生成する。しかしながら、音声生成システム３は又、電話が掛かってきて、ユーザに対して再生される記憶されたテキストを有する所謂プロンプトプレーヤ
とすることが可能である。又、音声生成システム３は、ＴＴＳシステムとプロンプトプレーヤとすることが可能である。出力される音声データは、次いで、ネットワークインタフェース５によりユーザの電話１４に切り換えられる。

音声対話システム１の中核は、データベース６がユーザとの対話を制御すると共に、対話制御システム４が音声対話システム１におけるサービス９を呼び出し、又は外部サービス１０に電話転送ユニット７によりユーザに転送する対話制御システム４である。

図示されている音声対話システム１は、本質的に、適切なコンピュータ又はサーバそれぞれにおけるソフトウェアの形につくられる。音声認識システム２、音声生成システム３及び対話制御システム４は、適切な方式で相互結合される純ソフトウェアモジュールとすることが可能である。ネットワークインタフェース５のみが、所望のネットワークへの接続のためのハードウェア構成要素を有する。又、呼び出し転送はハードウェア、即ちネットワークインタフェース５により生じさせることができるため、呼び出し転送ユニット７は、図１に示すものと異なり、種々の外部サービスへの呼び出し転送を実行するために必要な情報のみを有し、ネットワークインタフェース５により通信ネットワークに呼び出し転送を導入する純ソフトウェアとすることが可能である。

図１に示す構成要素に加えて、音声対話システムは又、音声対話システムにおいて慣習的に使用される更なる構成要素を有することが可能である。ここでは、例として、呼び出しの場合に特定されることができ、音声対話システムに対して登録される個々のユーザについての種々の情報アイテムを有する付加データベース８を示している。そのようなデータベースは、ユーザにより好まれて使用されるサービス、それぞれのユーザによる音声対話システムの最後の使用等についての情報を特に有することが可能である。その付加情報は、ユーザをより速く所望のサービスに導くように、ユーザに対するのと同様な方法で又は検索語の分析のための音声認識に対して用いられることが可能である。音声対話システムは又、音声対話システム又は個々のサービスの使用についての統計データ若しくは特定のユーザのための付加構成要素を特に有する。

対話制御システム４自体は、図示している実施形態の例においては、複数の適切に結合されたソフトウェアモジュールを有する。

このソフトウェアモジュールは、音声認識システム２から受信されたデータからの特定な検索語を抽出する分析モジュール１１に、特に関連する。この検索語の抽出は、ユーザにより発語された言葉の集合における言葉全部が検索語として抽出されるのではなく、言葉の集合における意味のない言葉は無視されるように、所定の文法及び構文のルールに基づいて、なされる。例えば、言葉の集合“私は劇場情報を欲しい”から、言葉“劇場”及び“情報”が検索語として抽出され、言葉“私は、欲しい”は、更なる処理に対してはもはや意味を有しない。

更に、対話制御システム４の検索モジュール１２は、検索語のために、データベース６における特定のサービス及び／又はカテゴリに対する検索を実行する。このデータベースは、複数のディシジョンツリーの構成においてデータ構造ＤＳを有する。この例を図２に示している。データ構造ＤＳは、ここでは、パスＰにより相互接続される複数のノードＫを有する。ノードＫは２つのレベルＩ及びＩＩに位置付けられる。低ノードレベルより低い第３のレベルＩＩＩにおいては、サービス対象Ｄのレベルがある。

これらのサービス対象Ｄは個々のサービス９、１０を表す。図示している実施形態の例においては、サービスにおける更なる問い合わせが必要であるさらに複雑なサービスたつ根に存在し、それ故、ユーザは所望の情報に到達する。例えば、サービス“固定ネットワーク”は、ユーザが参照する通常の電話情報とすることが可能である。サービス“電車”を用いる場合、一旦、ユーザがサービス“電車”を選択すると、そのサービスはユーザが参照する鉄道会社のサービスである。ここでは、本発明に従った方法で、個々のサービス９、１０が、音声対話システムとして構成される。例えば、サービス“固定ネットワーク”の背後に隠された電話問い合わせは、複数のカテゴリ及びサービスを有するそれ自身のツリー構造を有するデータベースを有することが可能であり、サービスは、最終的には、例えば、電話番号又は住所等の特定の加入者の検索情報を発行することを意味することであると理解される。

データ構造におけるノードＫ各々は、下位のレベルに置かれたカテゴリ又はサブカテゴリ若しくはサービスが分類され又はソートされることができるカテゴリを表す。図２に明確に示すように、各々のサービスは、少なくとも中間レベルＩＩにおけるカテゴリにソートされる。複数のサービスは、逆に、中間レベルＩＩの１つのノードから、複数のパスＰが異なるサービスＤに繋がることが可能であるように、同じカテゴリにソートされることが可能である。同様に、中間レベルＩＩのカテゴリは、レベルＩにおけるカテゴリのサブカテゴリとして割り当てられる。

明確にするために、図２は、本発明に従ったデータ構造ＤＳの実施形態の非常に簡単な例のみを示している。実際には、そのようなデータ構造は非常に複雑であり、複数の並列のノード及び／又はサービス対象各々を有する複数のレベルに亘って広がっている。更に、全てのサービス又はノードが次の高位レベルのカテゴリに割り当てられる必要はないが、１つ又はそれ以上のレベルは又、あるパスにおいてスキップされてもよい。

個々のノードＫ及びサービス対象Ｄの各々に対して、異なるキーワードが割り当てられる。それらのキーワードＳに、図２において名付けられているように、個々のカテゴリ又はサービスの名前が特別に属している。更に、個々のノードＫ及びサービス対象Ｄ−カテゴリ及びサービスそれぞれ−は、付加キーワードを割り当てられることが可能である。サービスに関連し得る若しくはサービス又はカテゴリをユーザが当然検索する他のキーワード若しくは個々のサービス又はカテゴリの名前の適当な類義語が更なるキーワードに属すことは、好ましい。例えば、図２に示すように、サービス“自動車”には、キーワード“目的地”と“気象”と、が割り当てられ、サービス“電車”には、キーワード“目的地”と“到着”と“気象”と、が割り当てられる。

１つのカテゴリのキーワードが、下位レベルにおける関連カテゴリ又はサービスに対して“通り過ごされる”。このことは、カテゴリ
“位置”、サブカテゴリ“移動”とサービス“自動車”のチェーンによる例として、図２に示されている。カテゴリ“位置”に、キーワード“位置”と“場所”とが、サブカテゴリ“移動”にキーワード“移動”と“位置”と“場所”といずれの更なるキーワードとが属し、キーワード“自動車”と“位置”と“場所”と“情報”と“移動”と“旅行”と更なるキーワードはサービス“自動車”と結合される。

このデータ構造ＤＳの検索は、次のように、３つのレベルを有する次の例において実行される。

低位レベルＩＩＩ、即ちサービス対象ＤのレベルＩＩＩにおける検索段階から開始する。個々のサービス対照Ｄの検索語及びキーワードＳに対するカバリングに基づいて、ユーザの所望サービスに適合することが可能である候補のサービス対象が、ここで検索される。検索の具体的な実行のために、種々の可能性が存在する。一方では、慣習的なソフトウェアモジュールは、インターネットのサーチエンジンにおいて使用されるように、使用されることが可能である。そのようなソフトウェア検索モジュールは、各々のヒットに対する比例適合であって、例えば、それぞれのサービス対象又はノードのキーワードにおいて検索語全てが見つけられる場合に１００％である、比例適合を表す結果を生成する。そのような検索エンジンを使用するとき、割合であって、例えば７０％は、ヒットが許容される許容基準として簡単に設定されることが可能である。割合がこの規定された許容基準より小さい場合、ヒットは拒否される。

検索が単一のヒットに導く場合、そのサービスは所望されているものであるとみなされる。このサービスは、ユーザのために即座に呼び出され、又は、ユーザにより確認されるように、予め、そのサービスが知らされる。

何らサービスが見つけられない場合、ユーザは新しい発話コマンドを入力するように要求され、許容基準を、例えば、サービスが見つけられることを願って、５０％に低くすることができる。

他方で、検索が２つ以上のサービスをもたらす場合、又は、見つけられたそれぞれのサービス対象の数は所定の最大数より小さいかどうかに拘らず、更なる対話の手法は、見つけられるサービスの数がどれ位大きいかに依存する。提供されたように、実施形態の例においては、この最大数は５と定められている。見つけられたヒットの数がこの最大数より小さい場合、音声出力装置３の支援を受ける対話制御システム４のプロンプト生成ユニット１３は、ヒットした４つのメニューを生成する、即ち、見つけられた４つのサービスがユーザに知れせる。

この時点で、そのようなメニューの案内の後、ユーザによる選択は、ＤＴＭＦ方法により、新しい発話入力ばかりか、例えば、電話のキーを押すことによってもなされることができる。例えば、プロンプトの生成に対して、数が、それぞれのヒット、即ち見つけられたサービス又はカテゴリに先立ち、知らされ、従って、ユーザは電話のキーパッドの適当なキーを押すことができる。音声対話システムは、それ故、本質的には、認識し、ＤＴＭＦ信号を処理するための付加手段を有する必要がある。

ヒット数が所定の最大数より大きい場合、更新された検索ステップが実行される。検索は次の高位レベルであって、示された例においては、中間レベルＩＩ、即ち、サービスに割り当てられるノードＫのすぐ上のレベルにおける検索が継続される。種々のサービスは１つのカテゴリに属し、キーワードはずっと下位まで通るため、このレベルにおけるカテゴリ数は、レベルＩＩの下に位置付けられるレベルＩＩＩにおけるサービス数より小さい。このようにして、同じ検索語を用いる検索の間のこのレベルＩＩにおけるヒット数は、レベルＩＩの下に位置付けられるレベルＩＩＩにおける前の検索段階の場合より小さい。

図２に示している例においては、ヒットの数、即ち、可能な補のノードの数は、レベルＩＩは４つのカテゴリのみを有するため、４に等しいか又はそれより小さい数に常に結び付く。実際には又、このレベルは５つよりかなり大きい異なるカテゴリ又はノードを有し、それ故、多くの場合に又、このレベルにおいては、みつけられるカテゴリ数は、尚も最大数より大きい。この場合、最終的に、見つけられる候補のノード又は可能な適当なカテゴリの数が最大数より小さくなるまで、次の高位のレベルにおいて検索がなされる。

検索の間に、全てのサービス又はカテゴリが次の高位レベルのカテゴリに割り当てられるのではないが、１つ又は種々のレベルがパスによってスキップされる事実を考慮される必要がある。その場合、次の高位レベルにおける新しい検索段階を用いて、高位レベルのノードに接続されていない、前の検索段階においてすでに見つけられた候補のサービス対象又は候補のノードでは、検索に再び含められる必要がある。

最終的に、検索段階の間に、１つの候補のノードのみが見つけられた場合、その検索は、もはやヒット数をそれ以上減少させる必要のない状態に達したため、中断される。低位レベルにおける検索の継続は又、ここでは、検索は既になされてしまっており、所定の最大数より大きいヒット数を有する結果に導かれてしまっているため、非常に意味のないことである。このことは、これらのヒット全ては、高位レベルにおいて見つけられる１つの候補のノードに属すことを意味する。そのような状況の例は、販売領域に依存して店が種々の郵便番号領域にソートされ且つ販売領域数が最大ヒット数より大きい、企業の店についての問い合わせである。そのような場合、最後に見つけられたそれぞれの候補のノードに属すカテゴリ及びサービスの全ては、それぞれの数をもつ独立した音声出力メニューの範囲内でユーザに発行される。

この場合、最大数より大きいため、発行は、好適にはグループ化され、グループ基準を備えている。このグループ基準は、例えば、数又は名前であって、それ故、ユーザはグループ基準を示すことにより、先ず、グループを選択することができ、次いで、更なる選択のために、１度以上、カテゴリ又はサービスのこのグループを供給することができる。又、ユーザの応答のため、音声対話システムそれ自体が明確にされた質問を先ず作成することが可能であり、次いで、知らされた２つのグループのどちらかを選択することが可能である。上記の例において、音声対話システムはユーザの抵抗に対してユーザに問い合わせをすることができ、次いで、選択するように近隣の販売領域のみを提供することができる。高位レベルにおける検索段階の間に、候補のポイントが全く決定されない場合、カテゴリ又はサービスの完全なリストが発行される。

図３は、音声対話システム１が使用されるとき、対話の可能なパターンを表すフローチャートの一部を示している。ユーザが発話コマンドを話した後、最初に音声が認識される。次いで、検索語が認識された音声情報から抽出される。続いて、これラノ検索語のため、上記の方法に従って、検索がなされる。正確に１つのサービスが見つけられた場合、それぞれのサービスは呼び出され、又は、このサービスが情報の純発行であるとき、この情報が与えられる。そうでない場合、多くの候補のカテゴリ又は候補のサービスからカテゴリ又はサービスを選択するようにユーザが要求されることを支援して、先ず、プロンプトが生成され、発行される。ユーザが与える答は、次いで、音声認識器に再び提供され、新しい検索語抽出がもたらされる。次いで、検索は新しい検索語を用いて継続される。この方法は、最終的に、所望のサービスが見つけられるまで、又は、ユーザの要求により、対話の明確な中断が起こるまで、進められる。

下記において、商用インターネット検索エンジン又はそのような検索エンジンの検索モジュールの使用の代替について更に説明する。この実施形態の例においては、各々の検索語の後に１度、データベースは検索され、各々の検索語に対して、ノード又はサービス対象の数が結果的に決定され、キーワードはこの特定の検索語を有する。検索語及びキーワードの適合数は許容基準として使用される。これは、検索結果の集合の共通部分及び／又は和集合の適切な生成のために、比較的簡単である。

この方法における最も狭い許容基準は、キーワードの範囲内の検索語全てが同じフォームで存在するようなヒットのみが許容されることを定めている。キーワードが検索語全てを有する、これらのカテゴリ又はサービスは、次のルールに従った共通部分の生成により決定されることができる。

ここで、Ａ_ｉは、ｉ番目の検索語に対するそれぞれの検索結果、即ち、キーワードがｉ番目の検索語を有するカテゴリ又はサービスの数を表す。次のルール

に従って、キーワードの中の少なくとも２つの検索語を有するカテゴリ又はサービス全てを見つけることができる。

更に、次のルール

に従って、検索語の１つに適合する少なくとも１つのキーワードを有するカテゴリ又はサービス全てを決定することができる。

このようにして、利用可能な３つの異なる厳格な許容基準が存在する。従って、先ず、式（１）に従ったヒット数は、１つの検索段階において決定される。ヒット数が小さ過ぎるとき、式（２）に従った計算であって、最終的に式（３）に従った計算がなされる。最終的に、第３の許容基準に従ったヒットが見つけられない場合、ユーザは新しい検索の問い合わせを入力するためにリクエストされる。

式（１）乃至（３）は、具体的な例に関して、下記においてもう一度明確にされる。これは図２を参照する。

検索語“出発”と“気象”とはサービス“自動車”に割り当てられ、検索語“出発”と“到着”はサービス“電車”に割り当てられ、検索語“目的地”と“気象”とはサービス“飛行便”に割り当てられる。

更に、ユーザの音声入力から検索語“出発”が決定されたことを前提とする場合、この１つの検索語Ａ_１に対する検索結果は｛“自動車”，“電車”｝である。１つの検索語のみが利用可能であり、従って、１つのビット数Ａ１のみが存在する場合、式（１）に従った共通部分の生成の結果として、何も変化しない。

更に、検索が、ここで、第２の検索語、例えば、検索語“気象”に対してなされる場合、検索結果は異なる。第２検索語“気象”について検索結果は、Ａ_２＝｛“飛行便”，“自動車”となる。Ａ_１及びＡ_２の共通部分の生成は、次式

に導く、即ち、サービス“自動車”のみが、キーワードとして検索語“出発”と検索語“気象”との両方を有する。このように、最も厳格な許容基準を満足する１つのサービスが正確に見つけられ、ユーザはこのサービスを転送される。

更に、第３キーワード、例えば、キーワード“到着”が加えられる場合、検索結果は別のケースとなる。そのような場合、検索結果Ａ_１＝｛“自動車”，“電車”｝が検索語“出発”について得られ、検索語“気象”については検索結果Ａ_２＝｛“自動車”，“飛行便”｝が得られ、第３検索語“到着”については検索結果Ａ_３＝｛“電車”｝が得られる。全体的な検索結果が式（１）に従って決定される場合、キーワードの範囲内で検索語全てを有するサービスは全くないため、空集合が得られる。許容基準が減少され且つ総合結果の計算が式（２）に従ってなされる場合、次式が得られる。

次に、サービス“自動車”と“電車”はそれらのキーワードの集合の範囲内の２つの検索語を有するため、サービス“自動車”と“電車”が総合結果として得られる。

他方、検索語“目的地”と“到着”が選択される場合、検索結果Ａ_１＝｛“飛行便”｝が第１検索語に対して得られ、検索結果Ａ_２＝｛“電車”｝が第２検索語“到着”に対して得られる。最も厳格な許容基準が選択され、総合結果の計算が式（１）に従ってなされる場合、空集合が得られる。同様に、式（２）に従った計算は、キーワードリストにおける２つの検索語を有する、見つけられたヒットが全くないため、空集合に導く。式（３）に従った総合結果の計算のみが、サービス“電車”と“飛行便”とである、見つけられたヒット全てが候補のサービス又は候補のサービス対象として許容される、という事実に導く。

具体的に説明した検索方法又は商用検索モジュールの使用に加えて、更なる検索アルゴリズムが、本発明に従った方法を実行するために使用されることが可能であることを、もう一度指摘しておく。同様に、本発明を本質的に変更することなく、本発明に従った方法を更に修正することが可能である。例えば、任意の瞬時において、中間的結果の付加確認のために、更なるプロンプトが発行されることが可能である。

本発明に従ったシステムは又、プロンプトの発行の間のいずれの時間において、ユーザが割り込むことができ、この応答が音声対話システムにより許容され且つ処理され、更にプロンプトの発行が中断される、所謂、割り込み対話システムとして構成されることが可能である。同様に、所定の中断基準が生じたとき又はユーザの要求によるいずれかのときに、検索を中断することができる。

更に、図１に示す実施形態の例は、単に、音声対話システムの非常に簡単化した表し方であり、本発明に従った音声対話システムは又形態を修正されることが可能である、ことをもう一度指摘しておく。更に具体的には、個々のソフトウェアモジュールは、１つのコンピュータに代えて、ネットワーク内の種々のコンピュータに割り当てられることが可能である一方、なすべき明らかなことは、音声認識のような高度なコンピュータを利用した機能を他のコンピュータに移すことである。更に、電話接続に対する音声対話システムは、マイクロフォン及び拡声器とのそれ自身のユーザインタフェースを有することが可能である。又、データネットワークの所謂ｖｏｉｃｅ−ｏｖｅｒ−ＩＰ（ＶｏＩＰ）において利用可能である音声データを提供することが可能である。本発明の用いることにより、既知の従来のボイスポータルに比べて、非常に直感的且つフレキシブルにユーザが操作することができるボイスポータルを構成することが可能である。更に、そのような音声対話システムは、大きいデータベースであって、例えば、ディレクトリシステム又は所謂イエローページアプリケーションを管理することができる。これに加えて、ユーザは、皮下雨滴簡単且つ効率的な方法で、ユーザの検索要求を作成し、洗練することができる。更に、本発明の音声対話システムは、もはやユーザにとって明確でない、長く、扱いにくいリストの発行を回避することができる。

本発明に従った音声対話システムの重要な構成要素についてのブロック図である。本発明に従った音声対話システムのデータベースにおけるデータ構造についての簡単なグラフィックの例のブロック図である。音声対話システムを利用する方法の有効な順序についてのフロー図の一部である。

Claims

音声認識装置と音声出力装置とを使用して、ユーザと通信する音声対話システムを操作する方法であって：
種々のサービスは、前記音声対話システムにおいて又は前記音声対話システムにより利用可能であり、前記音声対話システムを用いて持続される前記対話において前記ユーザにより選択可能であり、前記ユーザによるサービスの選択のための前記対話を制御するためのものであり；
データ構造における各々のパスの１つの終端に配列されたサービス対象にノードを接続するため且つノードを互いに接続するために複数のパスと複数のノードと階層データ構造とを有するデータベースが使用され；
前記サービス対象は、利用可能である前記サービスを表し；
前記ノードは、それぞれのノードより小さいレベルにおいて前記階層データ構造の状態に配列される更なるノード又はサービス対象により表される他のカテゴリ及び／又はサービスが再び分類される前記カテゴリを表す；
方法であり、
データ構造における複数のパスは、少なくとも前記サービス対象の一部及び／又はノードを１つ又はそれ以上のキーワードが割り当てられた各々のノード及び各々のサービス対象に繋がり；
ユーザの発話入力が受信されたとき、検索語は、所定の許容基準に従って割り当てられるキーワードが前記検索語に適合する候補のノード及び／又は候補のサービス対象の数が探索される前記検索語に基づいて、この発話入力から抽出され；
検索段階の後に、所定の最小数より大きく且つ所定の最大数より小さく位置付けられる前記候補のノード及び／又は候補のサービス対象の数が見つけられるまで、検索が種々の検索段階においてなされ；そして
前記音声対話装置により、前記ユーザが特定のカテゴリ又は特定のサービスを選択するために見つけられた前記候補のノード及び／又は候補のサービス対象により表された前記カテゴリ及び前記サービスを前記ユーザに知らせるために、音声出力メニューが生成される；
ことを特徴とする方法。
請求項１に記載の方法であって、特定のノードに割り当てられた前記キーワードは又、分類された更なるノード及び／又はサービス対象に割り当てられる、ことを特徴とする方法。
請求項１又は２に記載の方法であって、不成功の検索段階の後、見つけられた前記候補のノード及び／又は候補のサービス対象の数が所定の最小数より大きく且つ所定の最大数より小さくなるまで、前記データ構造の他のレベルの前記検索又は他のレベル（Ｉ、ＩＩ、ＩＩＩ）を有する前記検索が続けられる、ことを特徴とする方法。
請求項３に記載の方法であって、前記データ構造における前記検索は前記サービス対象の前記レベル（Ｉ）において始まり、次いで、前記検索は段階的に又は前記ノードより小さい次の高いレベル（ＩＩ、ＩＩＩ）を有して続けられる、ことを特徴とする方法。
請求項１乃至４のいずれ一項に記載の方法であって、候補のノード及び／又は候補のサービス対象の前記所定の最小数は１に等しく、候補のサービス対象１つのみが検索段階において決定されるとき、この候補のサ−ビス対象により表される前記サービスが呼び出される、ことを特徴とする方法。
請求項１乃至５のいずれ一項に記載の方法であって、候補のノード及び／又は候補のサービス対象の前記所定の最小数は１に等しく、候補のノード１つのみが検索段階において決定されるとき、前記検索は中断され、それぞれの数から独立して、全てのカテゴリ又はサービスが、それぞれの候補のノードより下のデータ構造において位置付けられる前記ノード及び／又はサービス対象によりカテゴリ及びサービスが表される音声出力メニューにおいてユーザに提供される、ことを特徴とする方法。
請求項６に記載の方法であって、前記カテゴリ又はサービスはグループ基準を用いてグループにおいて出される、ことを特徴とする方法。
請求項１乃至７のいずれ一項に記載の方法であって、前記許容基準は、前記抽出された
検索語とノード又はサービス対象に割り当てられた前記キーワードとの間の適合度の最小数である、ことを特徴とする方法。
請求項１乃至８のいずれ一項に記載の方法であって、検索段階において、前記候補のノード及び／又は候補のサービス対象の数が小さ過ぎるとき、前記許容基準は広げられる、ことを特徴とする方法。
請求項１乃至９のいずれ一項に記載の方法であって、第１検索並びに見つけられた前記候補のノード及び／又は候補のサービス対象を表す前記カテゴリ及び／又はサービスを前記ユーザへの案内の後、前記音声対話システムに限っては、前記音声対話システムにより抽出されることができる阿田和しい検索語を有するユーザからの新しい発話入力を受信し、前記新しい検索語に基づいて候補のノード及び／又は候補のサービス対象の新しい数を第２検索において決定し、そして、前記第１検索において見つけられた前記候補のノード及び／又は候補のサービス対象と前記第２検索において見つけられた前記候補のノード及び／又は候補のサービス対象との共通部分を生成し、好適には、前記共通部分において見つけられた前記候補のノード及び／又は候補のサービス対象により表されるそれらカテゴリ及び／又はサービスを前記ユーザに知らせる、ことを特徴とする方法。
自動音声対話システムであって：
ユーザとの通信のための音声認識装置と音声出力装置を有し；
前記ユーザが選択することができるサービスに対する前記音声対話システムにより前記ユーザに転送するために前記音声対話システム及び／又は手段において前記ユーザが選択することができる複数のサービスを有し；
前記ユーザによるサービスの前記選択のための対話を制御するための対話制御ユニットを有し；並びに
データ構造におけるパスのそれぞれオン終端において配列されたサービス対象にノードを接続し且つノードを相互接続するための複数のパス及び複数のノードを有する階層データ構造を有するデータベースであって、利用可能である前記サービスを前記サービス対象が表し、前記階層データ構造にのけるそれぞれのノードの下のレベルに配列された更なるノード及び／又はサービス対象により表される他のカテゴリ及び／又はサービスが分類されるそれぞれのカテゴリを前記ノードが表す、データベースを有する；
自動音声対話システムであり、
複数の異なるパスは前記データ構造において少なくともサービス対象及び／又はノードの一部に繋がり、１つ又はそれ以上のキーワードはデータベースの各々のノード及び尾のオ音のサービス対象に割り当てられ、前記音声対話システムは：
前記ユーザから受信された発話入力から音声語を抽出するための分析ユニット；
割り当てられるキーワードが所定の許容基準に従って検索語に適合する、前記データベースにおける候補のノード及び／又は候補のサービス対象の数を前記検索語に基づいて検索するための検索ユニットであって、検索段階の後に、所定の最小数より大きく且つ所定の最大数より小さく位置付けられる前記候補のノード及び／又は候補のサービス対象の数が見つけられるまで、検索が種々の検索段階において実行されるような構造を有する、検索ユニット；並びに
音声出力装置により特定のサービス又は測定のカテゴリをユーザが選択するために、成功した検索段階の後に見つけられた前記候補のノード及び／又は候補のサービス対象により表される前記カテゴリ及び／又はサービスを前記ユーザに知らせるために音声出力メニューを生成するためのプロンプト生成ユニット；
を有する、ことを特徴とする自動音声対話システム。
音声対話システムのコンピュータにおいてプログラムが実行されるとき、請求項１乃至１０のいずれ一項記載の方法の段階全てを実行するためのコンピュータコード手段を有するコンピュータプログラム。