JP2005519507A - 音声対話システムの操作方法 - Google Patents

音声対話システムの操作方法 Download PDF

Info

Publication number
JP2005519507A
JP2005519507A JP2003573635A JP2003573635A JP2005519507A JP 2005519507 A JP2005519507 A JP 2005519507A JP 2003573635 A JP2003573635 A JP 2003573635A JP 2003573635 A JP2003573635 A JP 2003573635A JP 2005519507 A JP2005519507 A JP 2005519507A
Authority
JP
Japan
Prior art keywords
search
service
candidate
user
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003573635A
Other languages
English (en)
Other versions
JP4460305B2 (ja
Inventor
ヨウブリン,フランク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2005519507A publication Critical patent/JP2005519507A/ja
Application granted granted Critical
Publication of JP4460305B2 publication Critical patent/JP4460305B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

音声対話システム(1)を操作する方法について開示している。ユーザが音声対話システム(1)の種々のサービス(9,10)の1つを選択するために対話を制御することに対して、パスの各々の終端に配置されたサービス対象(D)にノード(K)を接続するため且つ互いにノード(K)を接続するために複数のノード(K)と複数のパス(P)とを有する階層データ構造(DS)を有するデータベース(6)が使用される。サービス対象(D)は、利用可能である前記サービス(9,10)を表す。ノード(K)は、分類される更なるカテゴリ及び/又はサービスが配列されるそれぞれのカテゴリを表す。すくなくともこれらサービス対象(D)及び/又はノード(K)の一部に複数のパス(P)が繋がる。各々のノード(K)及び各々のサービス対象(D)に少なくとも1つのキーワード(S)が更に割り当てられる。検索語は、所定の許容基準に従って割り当てられるキーワード(S)が前記検索語に適合する候補のノード(K)及び/又は候補のサービス(D)対象の数が探索される検索語に基づいて、この発話入力から抽出される。検索方法は、候補のノード(K)及び/又は候補のサービス対象(D)が所定の最小数より大きく且つ所定の最大数より小さく位置付けられるまで、種々の検索段階において実行される。次いで、音声出力メニューが生成され、見つけられた候補のノード(K)及び/又は候補のサービス対象(D)及び/又はサービス(9,10)が知らされる。更に、それぞれの音声対話システム(1)が開示される。

Description

本発明は、音声認識装置と音声出力装置を使用しながら、システムがユーザと通信する
音声対話システムを操作させる方法であって、種々のサービスが音声対話システムにおけるユーザに又は音声対話システムにより利用可能であり、音声対話システムにより維持される対話においてユーザにより選択可能である、方法に関する。ユーザによるサービスの選択のための対話を制御するために、データ構造における各々のパスの1つの終端において配列されるサービス対象にノードを接続するため及びノードを相互接続するために複数のパス及び複数のノード並びに階層化されたデータベースを用いる。サービス対象は、このとき、利用可能であるサービスを表し、それぞれのノードより小さいレベルにおいて階層化データ構造に配列された更なるノード又はサービス対象により表される、他のカテゴリ及び/又はサービスが再び分類されるそれぞれのカテゴリを表す。更に、本発明は、それぞれの自動的音声対話システムと、方法を実行するためにプログラム符合化手段を用いるコンピュータプログラムとに関する。
音声認識及び音声出力装置を使用しながらユーザと通信する音声対話システムは、以前から周知である。そのようなシステムは、音声アプリケーションとしばしば呼ばれる、所謂、音声を制御された自動システムである。ユーザのための音声対話システムは、所謂、ボイスポータルと呼ばれる、ユーザが種々のサービスにアクセスすることを成功させる手段である。音声対話システムは、例えば、空港などにおける固定の情報システムのような音声対話システムを用いて通信することができるようにユーザが操作するようになっている特別の端末を有する。しかしながら、そのような音声対話システムは、その音声対話システムが、例えば通常の電話、可搬型無線装置又は電話機能を備えたPC等の手段により音声対話システムが利用できるように、公共の通信ネットワークへの接続をしばしば有する。これらの音声対話システムについての例としては、自動留守番電話機及び情報システムがあり、それらは、コーラーの要望を扱う場所にコーラーを接続するか、又はコーラーに最も速く且つ最も満足のいく方法で望んでいる情報を提供するように、例えば、幾つかの大きい企業、組織及びオフィスにより使用されてきた。この音声対話システムについての更なる例としては、既に幾つかの電話会社により使用されている自動電話問い合わせサービス、自動時刻表又はフライトスケジュール情報サービス、特定地域についての映画及び劇場プログラムのような一般イベントについての情報を扱う情報サービスがある。幾つかの音声対話システムは、要求がある場合に、準備できている状態であり又は調べることができ、そして必要に応じてユーザに送信できるユーザに対する純情報、及び、例えば、電車又は飛行機の席、ホテルの部屋の予約サービス、支払いサービス若しくは物品の注文サービスのような付加的サービスを提供する。
ユーザは、このとき、例えば、対話スイッチング(又、電話転送という)により、外部サービス、即ち、その音声対話システム又は人に属さないサービスに切り換えることができる。本明細書のコンテキストにおける“サービス”の意味は、情報サービス、切り換えサービス、予約サービス等のような1つの複雑なサービスばかりでなく、音声対話システムにおいてユーザに提供されるサービスとしてユーザに対して発行される情報を意味する簡単な情報、例えば、要求された電話番号の案内又はイベントにつての情報が録音されたテープの再生を、明確に含む。基本的に、例えば、インターネットに類似して、ユーザは、音声対話システム等によりいずれかのサービスを、結果的に提供されることが可能である。音声対話システムにおいては、サービスを利用するために、ユーザは標準的な電話又は携帯無線サービスのみを所有していればよいことが有利である。
音声対話システムの特定サービスを選択するユーザのために、実際には、個々のサービスが階層型決定ツリーのようなデータ構造状である方法が、今日、習慣的に実行されている。ユーザと音声対話システムとの間の対話は、そのツリー構造のトップにおけるスタートポイントにおいて開始され、それぞれのサービスを表すサービス対象が見つけられるパスの終端に達するまで、特定のサービスカテゴリ各々を表す複数のノードそれぞれを通ってパス又は枝に沿って進む。本明細書における意味のサービス対象の考え方は、任意のデータ対象、ソフトウェアモジュール等として理解される必要があり、サービスそれ自体を表す、及び/又は、サービスについての情報を含む。こらは、例えば、サービスが問い合わせされる形態についての情報、サービス又はそれぞれのソフトウェアモジュールのアドレス若しくは電話転送を実行するための情報であることが可能である。
それぞれのカテゴリを表すノードは種々のレベルにおいて見つけられる一方、より高いレベルのノードは、下のレベルに位置付けられるノードに属し、それ故、それら下のレベルの上に位置付けられるカテゴリについての所謂サブカテゴリを構成するカテゴリに配列されるカテゴリを表す。
これについてのブラフィックな例としては、特に、例えば、気象情報及びイベント情報等の種々の情報サービスを提供する音声対話システムがある。この例において、細分化は、中心ノードから“気象”及び“イベント情報”において見られる。これらのカテゴリの下には更にカテゴリが存在し、例えば、カテゴリ“気象”の下には、カテゴリ“現在の休日の気象”及びカテゴリ“気象予報”があり、カテゴリ“イベント情報”の下には、カテゴリ“映画”、“劇場”及び“演劇”等がある。これら個々のカテゴリ中には、例えば、カテゴリ“休日の気象”の下の問い合わせされることができる個々の細かい領域、カテ越し“劇場”の下のある町の個々の劇場のような更なるカテゴリが存在する。更に、例えば、音声対話システムの音声出力(以下ではプロンプトという)により、これは、次のように“あなたがイベント情報に興味をお持ちの場合、‘イベント’と言って下さい、あなたが気象情報に興味をお持ちの場合、‘気象’と言って下さい、とすることが可能である。
ユーザの答に従って、新しいプロンプトがその音声対話システムにより更に生成される。例えば、気象情報が選択された後の、“あなたが現在の気象情報を欲しい場合は、‘休日’と言ってください、あなたが次の日の気象情報を欲しい場合は、‘気象情報’と言ってください”等である。
音声対話システムの複雑さをエンハンスすること、音声対話死してムにおけるサービス数をエンハンスすることにより、そのツリー構造が更に複雑なものとなり、更にレベルが多くなり、それ故、個々のパスの枝分かれに対して更にもノードが付加される必要があることは明らかであろう。特定のサービスを得るために、ユーザは、各々のパスのスタートからエンドまでの全体のデータ構造を通して先ず進み、音声対話システムの複数の質問に答える。従って、この方法は、ユーザにとって、かなりの時間を必要とし、冗漫で心地よくないものである。更に、一旦決定されたカテゴリへの厳密な分割は、ユーザがノードにおいて間違った決定を容易にすることがあり得るように、各々の個々のユーザにより必然的にであって直感的にではなく操作される。それ故、ユーザは間違ったサービスに導かれ、全体の対話を再び開始する必要がある。全体のシステムがあまりにも複雑である場合、このようなトラブルに原因して、音声対話システムはもはやユーザにより使用できない現実に直面することとなる。
本発明の目的は、冒頭のパラグラフにおいて規定したタイプの音声対話システムを操作する改善された方法を提供すること、及びいつでも、ユーザが速く且つ簡単なやり方で所望のサービスを見つけることを可能にする音声対話システムを提供することである。
この目的は、データ構造における複数のなるパスがサービス対象及び/又はノードの少なくとも一部に繋がり、各々のノード及びサービス対象に1つ又はそれ以上のキーワードが割り当てられる、冒頭のパラグラフにおいて規定された方法により達成される。本発明に従って、検索語はユーザの発話入力から及び検索語に基づいて抽出され、割り当てられたキーワードが所定の許容基準に従って検索語に適合する多くの候補のノード及び/又は候補のサービス対象が探索される。検索段階の後、見つけられた候補のサービス対象及び/又は候補のノードの数が所定の最小数以上であって所定の最大値以下に位置付けられるまで、種々の検索段階において検索がなされる。音声出力装置は、特定のサービス又は特定のカテゴリを選択するユーザのために見つけられた候補のサービス対象及び/又は候補のノードにより表されるサービス及び/又はカテゴリをユーザにアナウンスするために音声出力メニューを生成する。
装置に関する目的は、音声対話システムにおいてユーザにより選択されることができる複数のサービスを有し、及びユーザとの通信のための音声出力装置及び音声認識装置を有し、及び/又は、ユーザにより選択されることができるサービスに音声対話システムによりユーザをトランスファ(transfer)するための手段を有する自動音声対話システムにより達成される一方、その音声対話システムは、サービス対象にノードを接続するため且つノードを相互接続するために複数のパス及び複数のノードを有する上記のそれぞれ階層データ構造を有するデータベースと、ユーザによるサービスの選択に対して対話を制御するための対話制御ユニットと、を有する。サービス対象は利用可能であるサービスを表し、ノードは、階層データ構造におけるそれぞれのノードの下のレベルに配列された、サービス対象又はノードにより表される他のカテゴリ及び/又はサービスが又、分類されるそれぞれのカテゴリを表す。本発明に従って、データ構造におけるノード及び/又はサービス対象の少なくとも一部は、データ構造に導く複数の異なるパスを有する。更に、1つ又はそれ以上のキーワードがデータベースの各々のサービス対象及び各々のノードに割り当てられる。更に、本発明に従った音声対話システムは、諸例の許容基準に従って割り当てられたキーワードが検索語に適合するデータベールにおける候補のサービス対象及び/又は候補のノードの数に対して検索語に基づいて検索するための検索ユニットを有し、ユーザから受信された発話入力から検索語を抽出するための分析ユニットを有し、検索ユニットは、検索段階の後、見つけられた候補のノード及び/又は候補のサービス対象が所定の最小値以上且つ所定の最大値以下に位置付けられるまで、種々の検索段階において検索を実行するように構造化される。最後に、本発明に従った音声対話システムは、成功した検索段階の後、音声出力装置の手段により特定のサービス又は特定のカテゴリを選択するためにユーザのために見つけられた候補のサービス対象及び/又は候補のノードにより表されたサービス及び/又はカテゴリをユーザに対してアナウンスするために音声出力メニューを生成するためのプロンプト生成ユニットを有する必要がある。
各々のノード及び各々のサービス対象に、又は個々のカテゴリ及びサービスそれぞれにキーワードを割り当てる結果として、及び、ユーザの発話入力から抽出された検索語に基づくサービス対象及び/又はノードであって、それらノード及びサービス対象がキーワードとしてそれらの検索語を有する、サービス対象及び/又はノードを適合させるための検索の結果として、ユーザとの対話を比較的自然な方式で確立することができる。各々のサービスに対する検索をしているとき、ユーザは、目的に到達するために所定のカテゴリに従って分類する必要はないが、ユーザは、ユーザの意見でサービスを最もよく表現する定式を用いることができる。それ故、好適には、キーワード、及びユーザが直感的にこのサービス又はカテゴリに関連付けるサービス、カテゴリ又は検索語の特定で同等な表現のような付加キーワードを用いて、その定式は、サービス又はカテゴリそれ自身の名前である。この方法は、明らかに構築される必要がなく、かなりの犠牲の処理をする必要がある矛盾を伴った従来のシステムにおける所謂ショートカットに対応するが、そのショートカットは方法の中に既に組み込まれている。特定の規定ノードに沿った1つのパスのみがサービス対象に導くが、データ構造は、異なるノードが異なるパスに沿って同じサービス対象に導くことが可能である複数のツリー構造の方式で構成されている方法におけるオープン構造の結果として、ユーザは、種々のノードから同じサービス対象に到達する可能性を有する。このことは、1つのサービス対象に対して種々のオーダー基準を定める可能性をつくり出し、その基準は、利用可能な異なる情報及び知識を用いて、可能なサービスに容易にアクセスできるようにする。
キーワードは、特定の予め規定された許容基準のみに合致して検索語に適合する必要があるため、ユーザの音声出力における検索語として、又、ユーザは逐語的にサービス又はカテゴリのキーワード全てを述べる必要はないが、検索語とキーワードとの間の特定のオーバーラップが存在することのみで十分である。許容基準の適切な選択を用いる場合、それ故、一方で、過剰でないサービス又はカテゴリが見つけられるが、他方で、ユーザに所望されるサービスに導くことが可能であり、又は、所望されたサービスそれ自体であるカテゴリ又はサービスが排除されることがないが、それらカテゴリ又はサービスのキーワードは、ユーザの不十分な発話入力の結果としての検索語と部分的にオーバーラップすることのみが提供される。それ故、許容基準は、過剰に制限されないように選択することである。
検索語を用いてデータ構造におけるサービス対象及びノードを検索するために、その通常のインターネット検索エンジンは、検索語とキーワードとの間のオーバーラップがどの程度であるかを示す(以下、ヒットと呼ぶ)、比例ヒット率により見つけられたサービス対象及び/又はノードを評価する、例えば、通常のインターネット検索エンジンからのソフトウェアモジュールを使用することが可能である。そのような検索モジュールは、当業者には十分知られており、又、例えば、Philips Speech Processingの製品“Findit”及び“SpeechFinder”により利用可能である。検索モジュールのデータインタフェースのみが、音声対話システムに適応されるために必要とされ、又はその逆も言える。60%のヒット率は許容基準であると仮定してもよい。
特定の数の候補のノード、即ち、適合し得るカテゴリ及び/又は可能性のあるサービス対象、即ち、適合し得るサービスが見つけられる限り、サービス及び/又はカテゴリ全ては、好適には、段階的リストのフォームでユーザに提供されるため、正しい可能性のある、即ち適合する可能性のあるサービス又はカテゴリの早過ぎた及び間違った拒絶が回避される。これは、プロンプト生成ユニットにより生成される音声出力メニューにおいて起こり、即ち、ユーザフレンドリな明確化された質問又はユーザ向けメニューは、所望のサービスに到達する又は所望の情報を見つけるための対話においてユーザを支援するように、検索プロセス及び予めの発話入力に依存して、自動的に生成される。検索段階の後、決定された候補のノード及び/又は候補のサービス対象の数が、所定の最小値と所定の最大値との間に位置付けられるまで、間作が種々の検索段階に細分化されることにより、それらの段階は継続される。他方、ユーザは、対話のメニューにおいてカテゴリ又はサービスの長すぎるリストを提供されないことを確実にされている。従って、メニュー出力の終了後、ユーザが提供されたサービス全てを尚も考えることができ、従って、サービス又はカテゴリの1つを選択することができるように、ユーザにとって、最大数は音響的に容易に把握でき且つ気づくことができるカテゴリ又はサービスの数であるような、最大数が選択される必要がある。
最大数は、好適には、多くても4つの異なるカテゴリ及び/又はサービスが一度に提供されることができるように、5に設定される必要がある。
これを実施する可能性は、許容基準が変化され、先ず、例えば、非常に大きい許容基準を用いて検索され、その後は段階的に進行し、多すぎる候補のノード及び/又は候補のサービス対象が決定される場合、許容基準は、最終的に、許容基準に適合するヒット数が所望の範囲内にあることが見つけられるまで強調される、という事実を有する。
実施形態の特に好適な例においては、特定のノードに対して割り当てられるキーワードは、特定のノードの下で分類される更なるノード又はサービス対象に自動的に割り当てられる、即ち、キーワードは、データ構造の範囲内で上方又は下方に“引き継がれる”。
不成功な検索段階の後であって、ここでは、“不成功な”は、少な過ぎる又は多過ぎる候補のノード及び/又は候補のサービス対象が見つけられたことという意味で理解される場合、検索は、それ故、好適には、候補のノード及び/又は候補のサービス対象が所望の制限内に位置付けされるまで、データ構造の他のレベルを有する間に又は他のレベルにおいて継続されることができる。
“受け継ぎ”は、データ構造において最上部から最下部にキーワードが連続的に増加することを確実にし、高位のカテゴリに、即ち、ツリー構造における高位に見つけられるノードに属すキーワード全ては又低位レベルにおいて見つけられることができるため、検索は、好適には、データ構造の最下部において、即ち、サービス対象のレベルにおいて、開始される。ここで、所望の結果が達成されない場合、検索は、ノード間の次の高位レベルを有する度に、段階的に継続される。この方法においては、従って、許容基準それ自体を強調することは必要ないが、ヒット数は、ヒット数が所望の制限内に位置付けられるまで、種々のレベルにおいて段階的な検索により簡単に減少されることができ、ユーザへの次のイシューについての意味のあるメニューを生成することができる。このことは、まさに正しいヒットが拒絶されるという事実に導き得るために、これは、許容基準の強調と異なり、第1検索段階において見つけられたヒットのどれもが拒絶されないという点で有利である。これに代えて、メニューは高位レベルのカテゴリから構成され、それ故、一方において、メニュー内の少数のカテゴリのみが発行されるが、他方において、カテゴリは、検索段階に先立って見つけられるカテゴリ又はサービス全てを、“総称”として尚もカバーする。
換言すれば、本発明に従った対話システムの実施形態のこの好適な例において、一方では、データ構造の最下部レイヤにできるだけ近い、データ構造におけるポイントにユーザを導くことが提供され、それ故、更なる対話の開始から、サービスのサービス対象に到達するために、少数の問い合わせのみがそれぞれ必要である。他方では、開始は、抽出された検索語に基づいて決定されたカテゴリ及びサービス全てをカバーするために十分高位のデータ構造のレベルにおいて見つけられ、いずれのヒットも不必要に拒絶しない。
決定された候補のノード及び/又は候補のサービス対象の数が小さ過ぎる場合、許容基準は、好適には、検索段階において拡張されることができる。これは、好適には、ここでは、サービスのレベルの第1検索段階において、殆どのヒットが常に見つけられ、高位レベルにおけるもう1つの検索段階はヒット数の減少にのみ導くため、検索が段階的に最下部から最上部に開始され、キーワードがデータ構造の上方ノードからそれら上方ノードの下方に位置付けられたノードに進められる、上記の方法の実施形態の例において有利である。
従来のインターネット検索エンジンからデータベース検索モジュールが使用されるとき、許容基準の変化は比例ヒット見積もりを変化させることにより簡単に達成することができる。
達成することが比較的簡単である実施形態のもう1つの例において、抽出された検索語は、検索のために各々の個々のノード及びサービス対象のキーワードと個別に比較され、検索語とキーワードとの間の適合の数が個々のノード及びサービス対象に対してカウントされる。許容基準は、それ故、簡単には、抽出された検索語とキーワードとの間に位置付けられた最小適合数とすることが可能である。例えば、サービス対象又はノードノキーワードにおける全てのキーワード、少なくとも2つの検索語、又は少なくとも1つの検索語等が規定されることが可能である。
請求項10は、本発明に従った音声対話システムの更に大きく有利な変数について記載している。本発明に従った方法によりメニューの検索及び案内を実行した後、更に新しい検索語を有する発話入力をユーザが利用する場合について言及している。
これに対する例は、検索語“旅行”の後、次のプロンプトをユーザが受信する場合である。“あなたは、自動車、電車又は飛行便のどれで旅行したいですか?選択してください。”次いで、ユーザは比較的略式に答える。“自動車です。私は移動可能が好みです。”
このようなユーザの応答の表現は、2つのポテンシャルの高いキーワード、即ち、“自動車”と“移動可能”とを有している。この表現のその他の単語は、分析に対して意味がないとみなされる。従って、2つの新しい検索語、即ち“自動車”と“移動可能”とがこの発話入力から抽出される。音声対話システムは、次いで、検索語“自動車”と“移動可能”とを用いる新しい検索に繋がり、例えば、カテゴリ“自動車”(第1検索として)と、付加的には、特定の電話問い合わせ情報サービス又は運賃情報サービスに導くことが可能である、カテゴリ“移動可能無線装置”とを見つける。カテゴリ“自動車、電車、飛行便”を有する第1検索の結果が、“自動車”と“移動可能ラジオ”とを有する第2検索結果と共通部分化される場合、得られる総合結果は、疑いなく、ユーザにより所望されるカテゴリである、カテゴリ“自動車”になる。次いで、このカテゴリは、好適には、ユーザに対して出力される。
共通部分が種々のヒットをいう限り、ユーザは、このように、これらの好適なヒットからユーザの選択を行うことができる。1つの共通部分要素のみが存在する場合、例えば、メッセージ“あなたは、‘自動車’を選択しました。これは正しいですか?”により、好適なイシューが更なるユーザによる確認に対してのみ作成されることができる。
共通部分が空である限り、音声対話システムは前の検索結果を無視し、新しい検索結果のみを利用する。この例は、ユーザが第1検索結果の第1出力に応答する場合の、“実際には、私は移動可能ラジオ料金についての情報を欲しい”である。このユーザの応答は、検索語“移動可能”のみを有し、カテゴリ“移動可能ラジオ”のみを有する検索結果に繋がる。第1検索結果“自動車、電車、飛行便”と第2検索結果“移動可能ラジオ”との間の共通部分はこの結果として空であり、ユーザの希望に従って、カテゴリ“移動可能ラジオ”のみが適切に提供される。
本発明の以上の及び他の特徴は、以下に説明する実施形態を参照することにより、理解され、明らかになるであろう。
図1に示す実施形態の例は、音声対話システム1が公共通信ネットワークであって、例えば、電話ネットワークに接続され、それ故、通常の電話14を用いてユーザが到達することができるネットワークインタフェース5を有する音声対話システム1である。
自然な音声の状態でユーザとの通信を可能にするために、音声対話システム1は音声認識ユニット2を有している。このユニットは、ネットワークインタフェース5により入力するユーザの音声信号を受信し、音声信号に含まれる情報がそのシステムにおける次の構成要素により処理されるデータに変換される音声認識を実行する。出力側において、音声対話システム1は音声生成システム3を有する。音声生成システム3は、例えば、所謂TTSシステム(テキスト音声システム)とすることが可能である。そのTTSシステムは、音素と言葉を適当にまとめることにより、入力されたコンピュータ読み取り可能データから発話テキストを生成する。しかしながら、音声生成システム3は又、電話が掛かってきて、ユーザに対して再生される記憶されたテキストを有する所謂プロンプトプレーヤ
とすることが可能である。又、音声生成システム3は、TTSシステムとプロンプトプレーヤとすることが可能である。出力される音声データは、次いで、ネットワークインタフェース5によりユーザの電話14に切り換えられる。
音声対話システム1の中核は、データベース6がユーザとの対話を制御すると共に、対話制御システム4が音声対話システム1におけるサービス9を呼び出し、又は外部サービス10に電話転送ユニット7によりユーザに転送する対話制御システム4である。
図示されている音声対話システム1は、本質的に、適切なコンピュータ又はサーバそれぞれにおけるソフトウェアの形につくられる。音声認識システム2、音声生成システム3及び対話制御システム4は、適切な方式で相互結合される純ソフトウェアモジュールとすることが可能である。ネットワークインタフェース5のみが、所望のネットワークへの接続のためのハードウェア構成要素を有する。又、呼び出し転送はハードウェア、即ちネットワークインタフェース5により生じさせることができるため、呼び出し転送ユニット7は、図1に示すものと異なり、種々の外部サービスへの呼び出し転送を実行するために必要な情報のみを有し、ネットワークインタフェース5により通信ネットワークに呼び出し転送を導入する純ソフトウェアとすることが可能である。
図1に示す構成要素に加えて、音声対話システムは又、音声対話システムにおいて慣習的に使用される更なる構成要素を有することが可能である。ここでは、例として、呼び出しの場合に特定されることができ、音声対話システムに対して登録される個々のユーザについての種々の情報アイテムを有する 付加データベース8を示している。そのようなデータベースは、ユーザにより好まれて使用されるサービス、それぞれのユーザによる音声対話システムの最後の使用等についての情報を特に有することが可能である。その付加情報は、ユーザをより速く所望のサービスに導くように、ユーザに対するのと同様な方法で又は検索語の分析のための音声認識に対して用いられることが可能である。音声対話システムは又、音声対話システム又は個々のサービスの使用についての統計データ若しくは特定のユーザのための付加構成要素を特に有する。
対話制御システム4自体は、図示している実施形態の例においては、複数の適切に結合されたソフトウェアモジュールを有する。
このソフトウェアモジュールは、音声認識システム2から受信されたデータからの特定な検索語を抽出する分析モジュール11に、特に関連する。この検索語の抽出は、ユーザにより発語された言葉の集合における言葉全部が検索語として抽出されるのではなく、言葉の集合における意味のない言葉は無視されるように、所定の文法及び構文のルールに基づいて、なされる。例えば、言葉の集合“私は劇場情報を欲しい”から、言葉“劇場”及び“情報”が検索語として抽出され、言葉“私は、欲しい”は、更なる処理に対してはもはや意味を有しない。
更に、対話制御システム4の検索モジュール12は、検索語のために、データベース6における特定のサービス及び/又はカテゴリに対する検索を実行する。このデータベースは、複数のディシジョンツリーの構成においてデータ構造DSを有する。この例を図2に示している。データ構造DSは、ここでは、パスPにより相互接続される複数のノードKを有する。ノードKは2つのレベルI及びIIに位置付けられる。低ノードレベルより低い第3のレベルIIIにおいては、サービス対象Dのレベルがある。
これらのサービス対象Dは個々のサービス9、10を表す。図示している実施形態の例においては、サービスにおける更なる問い合わせが必要であるさらに複雑なサービスたつ根に存在し、それ故、ユーザは所望の情報に到達する。例えば、サービス“固定ネットワーク”は、ユーザが参照する通常の電話情報とすることが可能である。サービス“電車”を用いる場合、一旦、ユーザがサービス“電車”を選択すると、そのサービスはユーザが参照する鉄道会社のサービスである。ここでは、本発明に従った方法で、個々のサービス9、10が、音声対話システムとして構成される。例えば、サービス“固定ネットワーク”の背後に隠された電話問い合わせは、複数のカテゴリ及びサービスを有するそれ自身のツリー構造を有するデータベースを有することが可能であり、サービスは、最終的には、例えば、電話番号又は住所等の特定の加入者の検索情報を発行することを意味することであると理解される。
データ構造におけるノードK各々は、下位のレベルに置かれたカテゴリ又はサブカテゴリ若しくはサービスが分類され又はソートされることができるカテゴリを表す。図2に明確に示すように、各々のサービスは、少なくとも中間レベルIIにおけるカテゴリにソートされる。複数のサービスは、逆に、中間レベルIIの1つのノードから、複数のパスPが異なるサービスDに繋がることが可能であるように、同じカテゴリにソートされることが可能である。同様に、中間レベルIIのカテゴリは、レベルIにおけるカテゴリのサブカテゴリとして割り当てられる。
明確にするために、図2は、本発明に従ったデータ構造DSの実施形態の非常に簡単な例のみを示している。実際には、そのようなデータ構造は非常に複雑であり、複数の並列のノード及び/又はサービス対象各々を有する複数のレベルに亘って広がっている。更に、全てのサービス又はノードが次の高位レベルのカテゴリに割り当てられる必要はないが、1つ又はそれ以上のレベルは又、あるパスにおいてスキップされてもよい。
個々のノードK及びサービス対象Dの各々に対して、異なるキーワードが割り当てられる。それらのキーワードSに、図2において名付けられているように、個々のカテゴリ又はサービスの名前が特別に属している。更に、個々のノードK及びサービス対象D−カテゴリ及びサービスそれぞれ−は、付加キーワードを割り当てられることが可能である。サービスに関連し得る若しくはサービス又はカテゴリをユーザが当然検索する他のキーワード若しくは個々のサービス又はカテゴリの名前の適当な類義語が更なるキーワードに属すことは、好ましい。例えば、図2に示すように、サービス“自動車”には、キーワード“目的地”と“気象”と、が割り当てられ、サービス“電車”には、キーワード“目的地”と“到着”と“気象”と、が割り当てられる。
1つのカテゴリのキーワードが、下位レベルにおける関連カテゴリ又はサービスに対して“通り過ごされる”。このことは、カテゴリ
“位置”、サブカテゴリ“移動”とサービス“自動車”のチェーンによる例として、図2に示されている。カテゴリ“位置”に、キーワード“位置”と“場所”とが、サブカテゴリ“移動”にキーワード“移動”と“位置”と“場所”といずれの更なるキーワードとが属し、キーワード“自動車”と“位置”と“場所”と“情報”と“移動”と“旅行”と更なるキーワードはサービス“自動車”と結合される。
このデータ構造DSの検索は、次のように、3つのレベルを有する次の例において実行される。
低位レベルIII、即ちサービス対象DのレベルIIIにおける検索段階から開始する。個々のサービス対照Dの検索語及びキーワードSに対するカバリングに基づいて、ユーザの所望サービスに適合することが可能である候補のサービス対象が、ここで検索される。検索の具体的な実行のために、種々の可能性が存在する。一方では、慣習的なソフトウェアモジュールは、インターネットのサーチエンジンにおいて使用されるように、使用されることが可能である。そのようなソフトウェア検索モジュールは、各々のヒットに対する比例適合であって、例えば、それぞれのサービス対象又はノードのキーワードにおいて検索語全てが見つけられる場合に100%である、比例適合を表す結果を生成する。そのような検索エンジンを使用するとき、割合であって、例えば70%は、ヒットが許容される許容基準として簡単に設定されることが可能である。割合がこの規定された許容基準より小さい場合、ヒットは拒否される。
検索が単一のヒットに導く場合、そのサービスは所望されているものであるとみなされる。このサービスは、ユーザのために即座に呼び出され、又は、ユーザにより確認されるように、予め、そのサービスが知らされる。
何らサービスが見つけられない場合、ユーザは新しい発話コマンドを入力するように要求され、許容基準を、例えば、サービスが見つけられることを願って、50%に低くすることができる。
他方で、検索が2つ以上のサービスをもたらす場合、又は、見つけられたそれぞれのサービス対象の数は所定の最大数より小さいかどうかに拘らず、更なる対話の手法は、見つけられるサービスの数がどれ位大きいかに依存する。提供されたように、実施形態の例においては、この最大数は5と定められている。見つけられたヒットの数がこの最大数より小さい場合、音声出力装置3の支援を受ける対話制御システム4のプロンプト生成ユニット13は、ヒットした4つのメニューを生成する、即ち、見つけられた4つのサービスがユーザに知れせる。
この時点で、そのようなメニューの案内の後、ユーザによる選択は、DTMF方法により、新しい発話入力ばかりか、例えば、電話のキーを押すことによってもなされることができる。例えば、プロンプトの生成に対して、数が、それぞれのヒット、即ち見つけられたサービス又はカテゴリに先立ち、知らされ、従って、ユーザは電話のキーパッドの適当なキーを押すことができる。音声対話システムは、それ故、本質的には、認識し、DTMF信号を処理するための付加手段を有する必要がある。
ヒット数が所定の最大数より大きい場合、更新された検索ステップが実行される。検索は次の高位レベルであって、示された例においては、中間レベルII、即ち、サービスに割り当てられるノードKのすぐ上のレベルにおける検索が継続される。種々のサービスは1つのカテゴリに属し、キーワードはずっと下位まで通るため、このレベルにおけるカテゴリ数は、レベルIIの下に位置付けられるレベルIIIにおけるサービス数より小さい。このようにして、同じ検索語を用いる検索の間のこのレベルIIにおけるヒット数は、レベルIIの下に位置付けられるレベルIIIにおける前の検索段階の場合より小さい。
図2に示している例においては、ヒットの数、即ち、可能な補のノードの数は、レベルIIは4つのカテゴリのみを有するため、4に等しいか又はそれより小さい数に常に結び付く。実際には又、このレベルは5つよりかなり大きい異なるカテゴリ又はノードを有し、それ故、多くの場合に又、このレベルにおいては、みつけられるカテゴリ数は、尚も最大数より大きい。この場合、最終的に、見つけられる候補のノード又は可能な適当なカテゴリの数が最大数より小さくなるまで、次の高位のレベルにおいて検索がなされる。
検索の間に、全てのサービス又はカテゴリが次の高位レベルのカテゴリに割り当てられるのではないが、1つ又は種々のレベルがパスによってスキップされる事実を考慮される必要がある。その場合、次の高位レベルにおける新しい検索段階を用いて、高位レベルのノードに接続されていない、前の検索段階においてすでに見つけられた候補のサービス対象又は候補のノードでは、検索に再び含められる必要がある。
最終的に、検索段階の間に、1つの候補のノードのみが見つけられた場合、その検索は、もはやヒット数をそれ以上減少させる必要のない状態に達したため、中断される。低位レベルにおける検索の継続は又、ここでは、検索は既になされてしまっており、所定の最大数より大きいヒット数を有する結果に導かれてしまっているため、非常に意味のないことである。このことは、これらのヒット全ては、高位レベルにおいて見つけられる1つの候補のノードに属すことを意味する。そのような状況の例は、販売領域に依存して店が種々の郵便番号領域にソートされ且つ販売領域数が最大ヒット数より大きい、企業の店についての問い合わせである。そのような場合、最後に見つけられたそれぞれの候補のノードに属すカテゴリ及びサービスの全ては、それぞれの数をもつ独立した音声出力メニューの範囲内でユーザに発行される。
この場合、最大数より大きいため、発行は、好適にはグループ化され、グループ基準を備えている。このグループ基準は、例えば、数又は名前であって、それ故、ユーザはグループ基準を示すことにより、先ず、グループを選択することができ、次いで、更なる選択のために、1度以上、カテゴリ又はサービスのこのグループを供給することができる。又、ユーザの応答のため、音声対話システムそれ自体が明確にされた質問を先ず作成することが可能であり、次いで、知らされた2つのグループのどちらかを選択することが可能である。上記の例において、音声対話システムはユーザの抵抗に対してユーザに問い合わせをすることができ、次いで、選択するように近隣の販売領域のみを提供することができる。高位レベルにおける検索段階の間に、候補のポイントが全く決定されない場合、カテゴリ又はサービスの完全なリストが発行される。
図3は、音声対話システム1が使用されるとき、対話の可能なパターンを表すフローチャートの一部を示している。ユーザが発話コマンドを話した後、最初に音声が認識される。次いで、検索語が認識された音声情報から抽出される。続いて、これラノ検索語のため、上記の方法に従って、検索がなされる。正確に1つのサービスが見つけられた場合、それぞれのサービスは呼び出され、又は、このサービスが情報の純発行であるとき、この情報が与えられる。そうでない場合、多くの候補のカテゴリ又は候補のサービスからカテゴリ又はサービスを選択するようにユーザが要求されることを支援して、先ず、プロンプトが生成され、発行される。ユーザが与える答は、次いで、音声認識器に再び提供され、新しい検索語抽出がもたらされる。次いで、検索は新しい検索語を用いて継続される。この方法は、最終的に、所望のサービスが見つけられるまで、又は、ユーザの要求により、対話の明確な中断が起こるまで、進められる。
下記において、商用インターネット検索エンジン又はそのような検索エンジンの検索モジュールの使用の代替について更に説明する。この実施形態の例においては、各々の検索語の後に1度、データベースは検索され、各々の検索語に対して、ノード又はサービス対象の数が結果的に決定され、キーワードはこの特定の検索語を有する。検索語及びキーワードの適合数は許容基準として使用される。これは、検索結果の集合の共通部分及び/又は和集合の適切な生成のために、比較的簡単である。
この方法における最も狭い許容基準は、キーワードの範囲内の検索語全てが同じフォームで存在するようなヒットのみが許容されることを定めている。キーワードが検索語全てを有する、これらのカテゴリ又はサービスは、次のルールに従った共通部分の生成により決定されることができる。
Figure 2005519507
ここで、Aは、i番目の検索語に対するそれぞれの検索結果、即ち、キーワードがi番目の検索語を有するカテゴリ又はサービスの数を表す。次のルール
Figure 2005519507
に従って、キーワードの中の少なくとも2つの検索語を有するカテゴリ又はサービス全てを見つけることができる。
更に、次のルール
Figure 2005519507
に従って、検索語の1つに適合する少なくとも1つのキーワードを有するカテゴリ又はサービス全てを決定することができる。
このようにして、利用可能な3つの異なる厳格な許容基準が存在する。従って、先ず、式(1)に従ったヒット数は、1つの検索段階において決定される。ヒット数が小さ過ぎるとき、式(2)に従った計算であって、最終的に式(3)に従った計算がなされる。最終的に、第3の許容基準に従ったヒットが見つけられない場合、ユーザは新しい検索の問い合わせを入力するためにリクエストされる。
式(1)乃至(3)は、具体的な例に関して、下記においてもう一度明確にされる。これは図2を参照する。
検索語“出発”と“気象”とはサービス“自動車”に割り当てられ、検索語“出発”と“到着”はサービス“電車”に割り当てられ、検索語“目的地”と“気象”とはサービス“飛行便”に割り当てられる。
更に、ユーザの音声入力から検索語“出発”が決定されたことを前提とする場合、この1つの検索語Aに対する検索結果は{“自動車”,“電車”}である。1つの検索語のみが利用可能であり、従って、1つのビット数A1のみが存在する場合、式(1)に従った共通部分の生成の結果として、何も変化しない。
更に、検索が、ここで、第2の検索語、例えば、検索語“気象”に対してなされる場合、検索結果は異なる。第2検索語“気象”について検索結果は、A={“飛行便”,“自動車”となる。A及びAの共通部分の生成は、次式
Figure 2005519507
に導く、即ち、サービス“自動車”のみが、キーワードとして検索語“出発”と検索語“気象”との両方を有する。このように、最も厳格な許容基準を満足する1つのサービスが正確に見つけられ、ユーザはこのサービスを転送される。
更に、第3キーワード、例えば、キーワード“到着”が加えられる場合、検索結果は別のケースとなる。そのような場合、検索結果A={“自動車”,“電車”}が検索語“出発”について得られ、検索語“気象”については検索結果A={“自動車”,“飛行便”}が得られ、第3検索語“到着”については検索結果A={“電車”}が得られる。全体的な検索結果が式(1)に従って決定される場合、キーワードの範囲内で検索語全てを有するサービスは全くないため、空集合が得られる。許容基準が減少され且つ総合結果の計算が式(2)に従ってなされる場合、次式が得られる。
Figure 2005519507
次に、サービス“自動車”と“電車”はそれらのキーワードの集合の範囲内の2つの検索語を有するため、サービス“自動車”と“電車”が総合結果として得られる。
他方、検索語“目的地”と“到着”が選択される場合、検索結果A={“飛行便”}が第1検索語に対して得られ、検索結果A={“電車”}が第2検索語“到着”に対して得られる。最も厳格な許容基準が選択され、総合結果の計算が式(1)に従ってなされる場合、空集合が得られる。同様に、式(2)に従った計算は、キーワードリストにおける2つの検索語を有する、見つけられたヒットが全くないため、空集合に導く。式(3)に従った総合結果の計算のみが、サービス“電車”と“飛行便”とである、見つけられたヒット全てが候補のサービス又は候補のサービス対象として許容される、という事実に導く。
具体的に説明した検索方法又は商用検索モジュールの使用に加えて、更なる検索アルゴリズムが、本発明に従った方法を実行するために使用されることが可能であることを、もう一度指摘しておく。同様に、本発明を本質的に変更することなく、本発明に従った方法を更に修正することが可能である。例えば、任意の瞬時において、中間的結果の付加確認のために、更なるプロンプトが発行されることが可能である。
本発明に従ったシステムは又、プロンプトの発行の間のいずれの時間において、ユーザが割り込むことができ、この応答が音声対話システムにより許容され且つ処理され、更にプロンプトの発行が中断される、所謂、割り込み対話システムとして構成されることが可能である。同様に、所定の中断基準が生じたとき又はユーザの要求によるいずれかのときに、検索を中断することができる。
更に、図1に示す実施形態の例は、単に、音声対話システムの非常に簡単化した表し方であり、本発明に従った音声対話システムは又形態を修正されることが可能である、ことをもう一度指摘しておく。更に具体的には、個々のソフトウェアモジュールは、1つのコンピュータに代えて、ネットワーク内の種々のコンピュータに割り当てられることが可能である一方、なすべき明らかなことは、音声認識のような高度なコンピュータを利用した機能を他のコンピュータに移すことである。更に、電話接続に対する音声対話システムは、マイクロフォン及び拡声器とのそれ自身のユーザインタフェースを有することが可能である。又、データネットワークの所謂voice−over−IP(VoIP)において利用可能である音声データを提供することが可能である。本発明の用いることにより、既知の従来のボイスポータルに比べて、非常に直感的且つフレキシブルにユーザが操作することができるボイスポータルを構成することが可能である。更に、そのような音声対話システムは、大きいデータベースであって、例えば、ディレクトリシステム又は所謂イエローページアプリケーションを管理することができる。これに加えて、ユーザは、皮下雨滴簡単且つ効率的な方法で、ユーザの検索要求を作成し、洗練することができる。更に、本発明の音声対話システムは、もはやユーザにとって明確でない、長く、扱いにくいリストの発行を回避することができる。
本発明に従った音声対話システムの重要な構成要素についてのブロック図である。 本発明に従った音声対話システムのデータベースにおけるデータ構造についての簡単なグラフィックの例のブロック図である。 音声対話システムを利用する方法の有効な順序についてのフロー図の一部である。

Claims (12)

  1. 音声認識装置と音声出力装置とを使用して、ユーザと通信する音声対話システムを操作する方法であって:
    種々のサービスは、前記音声対話システムにおいて又は前記音声対話システムにより利用可能であり、前記音声対話システムを用いて持続される前記対話において前記ユーザにより選択可能であり、前記ユーザによるサービスの選択のための前記対話を制御するためのものであり;
    データ構造における各々のパスの1つの終端に配列されたサービス対象にノードを接続するため且つノードを互いに接続するために複数のパスと複数のノードと階層データ構造とを有するデータベースが使用され;
    前記サービス対象は、利用可能である前記サービスを表し;
    前記ノードは、それぞれのノードより小さいレベルにおいて前記階層データ構造の状態に配列される更なるノード又はサービス対象により表される他のカテゴリ及び/又はサービスが再び分類される前記カテゴリを表す;
    方法であり、
    データ構造における複数のパスは、少なくとも前記サービス対象の一部及び/又はノードを1つ又はそれ以上のキーワードが割り当てられた各々のノード及び各々のサービス対象に繋がり;
    ユーザの発話入力が受信されたとき、検索語は、所定の許容基準に従って割り当てられるキーワードが前記検索語に適合する候補のノード及び/又は候補のサービス対象の数が探索される前記検索語に基づいて、この発話入力から抽出され;
    検索段階の後に、所定の最小数より大きく且つ所定の最大数より小さく位置付けられる前記候補のノード及び/又は候補のサービス対象の数が見つけられるまで、検索が種々の検索段階においてなされ;そして
    前記音声対話装置により、前記ユーザが特定のカテゴリ又は特定のサービスを選択するために見つけられた前記候補のノード及び/又は候補のサービス対象により表された前記カテゴリ及び前記サービスを前記ユーザに知らせるために、音声出力メニューが生成される;
    ことを特徴とする方法。
  2. 請求項1に記載の方法であって、特定のノードに割り当てられた前記キーワードは又、分類された更なるノード及び/又はサービス対象に割り当てられる、ことを特徴とする方法。
  3. 請求項1又は2に記載の方法であって、不成功の検索段階の後、見つけられた前記候補のノード及び/又は候補のサービス対象の数が所定の最小数より大きく且つ所定の最大数より小さくなるまで、前記データ構造の他のレベルの前記検索又は他のレベル(I、II、III)を有する前記検索が続けられる、ことを特徴とする方法。
  4. 請求項3に記載の方法であって、前記データ構造における前記検索は前記サービス対象の前記レベル(I)において始まり、次いで、前記検索は段階的に又は前記ノードより小さい次の高いレベル(II、III)を有して続けられる、ことを特徴とする方法。
  5. 請求項1乃至4のいずれ一項に記載の方法であって、候補のノード及び/又は候補のサービス対象の前記所定の最小数は1に等しく、候補のサービス対象1つのみが検索段階において決定されるとき、この候補のサ−ビス対象により表される前記サービスが呼び出される、ことを特徴とする方法。
  6. 請求項1乃至5のいずれ一項に記載の方法であって、候補のノード及び/又は候補のサービス対象の前記所定の最小数は1に等しく、候補のノード1つのみが検索段階において決定されるとき、前記検索は中断され、それぞれの数から独立して、全てのカテゴリ又はサービスが、それぞれの候補のノードより下のデータ構造において位置付けられる前記ノード及び/又はサービス対象によりカテゴリ及びサービスが表される音声出力メニューにおいてユーザに提供される、ことを特徴とする方法。
  7. 請求項6に記載の方法であって、前記カテゴリ又はサービスはグループ基準を用いてグループにおいて出される、ことを特徴とする方法。
  8. 請求項1乃至7のいずれ一項に記載の方法であって、前記許容基準は、前記抽出された
    検索語とノード又はサービス対象に割り当てられた前記キーワードとの間の適合度の最小数である、ことを特徴とする方法。
  9. 請求項1乃至8のいずれ一項に記載の方法であって、検索段階において、前記候補のノード及び/又は候補のサービス対象の数が小さ過ぎるとき、前記許容基準は広げられる、ことを特徴とする方法。
  10. 請求項1乃至9のいずれ一項に記載の方法であって、第1検索並びに見つけられた前記候補のノード及び/又は候補のサービス対象を表す前記カテゴリ及び/又はサービスを前記ユーザへの案内の後、前記音声対話システムに限っては、前記音声対話システムにより抽出されることができる阿田和しい検索語を有するユーザからの新しい発話入力を受信し、前記新しい検索語に基づいて候補のノード及び/又は候補のサービス対象の新しい数を第2検索において決定し、そして、前記第1検索において見つけられた前記候補のノード及び/又は候補のサービス対象と前記第2検索において見つけられた前記候補のノード及び/又は候補のサービス対象との共通部分を生成し、好適には、前記共通部分において見つけられた前記候補のノード及び/又は候補のサービス対象により表されるそれらカテゴリ及び/又はサービスを前記ユーザに知らせる、ことを特徴とする方法。
  11. 自動音声対話システムであって:
    ユーザとの通信のための音声認識装置と音声出力装置を有し;
    前記ユーザが選択することができるサービスに対する前記音声対話システムにより前記ユーザに転送するために前記音声対話システム及び/又は手段において前記ユーザが選択することができる複数のサービスを有し;
    前記ユーザによるサービスの前記選択のための対話を制御するための対話制御ユニットを有し;並びに
    データ構造におけるパスのそれぞれオン終端において配列されたサービス対象にノードを接続し且つノードを相互接続するための複数のパス及び複数のノードを有する階層データ構造を有するデータベースであって、利用可能である前記サービスを前記サービス対象が表し、前記階層データ構造にのけるそれぞれのノードの下のレベルに配列された更なるノード及び/又はサービス対象により表される他のカテゴリ及び/又はサービスが分類されるそれぞれのカテゴリを前記ノードが表す、データベースを有する;
    自動音声対話システムであり、
    複数の異なるパスは前記データ構造において少なくともサービス対象及び/又はノードの一部に繋がり、1つ又はそれ以上のキーワードはデータベースの各々のノード及び尾のオ音のサービス対象に割り当てられ、前記音声対話システムは:
    前記ユーザから受信された発話入力から音声語を抽出するための分析ユニット;
    割り当てられるキーワードが所定の許容基準に従って検索語に適合する、前記データベースにおける候補のノード及び/又は候補のサービス対象の数を前記検索語に基づいて検索するための検索ユニットであって、検索段階の後に、所定の最小数より大きく且つ所定の最大数より小さく位置付けられる前記候補のノード及び/又は候補のサービス対象の数が見つけられるまで、検索が種々の検索段階において実行されるような構造を有する、検索ユニット;並びに
    音声出力装置により特定のサービス又は測定のカテゴリをユーザが選択するために、成功した検索段階の後に見つけられた前記候補のノード及び/又は候補のサービス対象により表される前記カテゴリ及び/又はサービスを前記ユーザに知らせるために音声出力メニューを生成するためのプロンプト生成ユニット;
    を有する、ことを特徴とする自動音声対話システム。
  12. 音声対話システムのコンピュータにおいてプログラムが実行されるとき、請求項1乃至10のいずれ一項記載の方法の段階全てを実行するためのコンピュータコード手段を有するコンピュータプログラム。
JP2003573635A 2002-03-07 2003-03-03 音声対話システムの操作方法 Expired - Lifetime JP4460305B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10209928A DE10209928A1 (de) 2002-03-07 2002-03-07 Verfahren zum Betrieb eines Sprach-Dialogsystems
PCT/IB2003/000834 WO2003075260A1 (en) 2002-03-07 2003-03-03 Method of operating a speech dialogue system

Publications (2)

Publication Number Publication Date
JP2005519507A true JP2005519507A (ja) 2005-06-30
JP4460305B2 JP4460305B2 (ja) 2010-05-12

Family

ID=27762753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003573635A Expired - Lifetime JP4460305B2 (ja) 2002-03-07 2003-03-03 音声対話システムの操作方法

Country Status (7)

Country Link
US (1) US20050171779A1 (ja)
EP (1) EP1485908B1 (ja)
JP (1) JP4460305B2 (ja)
AT (1) ATE372574T1 (ja)
AU (1) AU2003207897A1 (ja)
DE (2) DE10209928A1 (ja)
WO (1) WO2003075260A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005292476A (ja) * 2004-03-31 2005-10-20 Jfe Systems Inc 顧客応対方法及び装置
JP2016212826A (ja) * 2015-04-28 2016-12-15 百度在線網絡技術(北京)有限公司 音声検索を行う方法及び装置
CN111242431A (zh) * 2019-12-31 2020-06-05 联想(北京)有限公司 信息处理方法和装置、构建客服对话工作流的方法和装置

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050102149A1 (en) * 2003-11-12 2005-05-12 Sherif Yacoub System and method for providing assistance in speech recognition applications
WO2006124027A1 (en) * 2005-05-16 2006-11-23 Ebay Inc. Method and system to process a data search request
US7773731B2 (en) * 2005-12-14 2010-08-10 At&T Intellectual Property I, L. P. Methods, systems, and products for dynamically-changing IVR architectures
US7577664B2 (en) * 2005-12-16 2009-08-18 At&T Intellectual Property I, L.P. Methods, systems, and products for searching interactive menu prompting system architectures
WO2007087682A1 (en) * 2006-02-01 2007-08-09 Hr3D Pty Ltd Human-like response emulator
US7961856B2 (en) 2006-03-17 2011-06-14 At&T Intellectual Property I, L. P. Methods, systems, and products for processing responses in prompting systems
US8166027B2 (en) * 2006-03-30 2012-04-24 International Business Machines Corporation System, method and program to test a web site
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10276170B2 (en) * 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9214156B2 (en) 2013-08-06 2015-12-15 Nuance Communications, Inc. Method and apparatus for a multi I/O modality language independent user-interaction platform
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
WO2016147401A1 (ja) * 2015-03-19 2016-09-22 株式会社 東芝 分類装置、方法及びプログラム
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
KR20210001082A (ko) * 2019-06-26 2021-01-06 삼성전자주식회사 사용자 발화를 처리하는 전자 장치와 그 동작 방법
US12033637B2 (en) * 2021-05-17 2024-07-09 Google Llc Arranging and/or clearing speech-to-text content without a user providing express instructions

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6478327A (en) * 1987-01-22 1989-03-23 Ricoh Kk Inference system
JPH03196261A (ja) * 1989-12-25 1991-08-27 Agency Of Ind Science & Technol 会話制御システム
JPH03282677A (ja) * 1990-03-29 1991-12-12 Nec Corp 記号と概念の対応関係の設定方法
JPH06149812A (ja) * 1992-11-06 1994-05-31 Sharp Corp 文書データ検索機能付き文書処理装置
JP2001249685A (ja) * 2000-03-03 2001-09-14 Alpine Electronics Inc 音声対話装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6701428B1 (en) * 1995-05-05 2004-03-02 Apple Computer, Inc. Retrieval of services by attribute
US6192110B1 (en) * 1995-09-15 2001-02-20 At&T Corp. Method and apparatus for generating sematically consistent inputs to a dialog manager
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6829603B1 (en) * 2000-02-02 2004-12-07 International Business Machines Corp. System, method and program product for interactive natural dialog
US7305400B2 (en) * 2000-03-09 2007-12-04 The Web Access, Inc. Method and apparatus for performing a research task by interchangeably utilizing a multitude of search methodologies
US6625595B1 (en) * 2000-07-05 2003-09-23 Bellsouth Intellectual Property Corporation Method and system for selectively presenting database results in an information retrieval system
US6999932B1 (en) * 2000-10-10 2006-02-14 Intel Corporation Language independent voice-based search system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6478327A (en) * 1987-01-22 1989-03-23 Ricoh Kk Inference system
JPH03196261A (ja) * 1989-12-25 1991-08-27 Agency Of Ind Science & Technol 会話制御システム
JPH03282677A (ja) * 1990-03-29 1991-12-12 Nec Corp 記号と概念の対応関係の設定方法
JPH06149812A (ja) * 1992-11-06 1994-05-31 Sharp Corp 文書データ検索機能付き文書処理装置
JP2001249685A (ja) * 2000-03-03 2001-09-14 Alpine Electronics Inc 音声対話装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005292476A (ja) * 2004-03-31 2005-10-20 Jfe Systems Inc 顧客応対方法及び装置
JP2016212826A (ja) * 2015-04-28 2016-12-15 百度在線網絡技術(北京)有限公司 音声検索を行う方法及び装置
CN111242431A (zh) * 2019-12-31 2020-06-05 联想(北京)有限公司 信息处理方法和装置、构建客服对话工作流的方法和装置

Also Published As

Publication number Publication date
JP4460305B2 (ja) 2010-05-12
AU2003207897A1 (en) 2003-09-16
EP1485908A1 (en) 2004-12-15
DE10209928A1 (de) 2003-09-18
DE60316125T2 (de) 2008-06-19
WO2003075260A1 (en) 2003-09-12
US20050171779A1 (en) 2005-08-04
ATE372574T1 (de) 2007-09-15
DE60316125D1 (de) 2007-10-18
EP1485908B1 (en) 2007-09-05

Similar Documents

Publication Publication Date Title
JP4460305B2 (ja) 音声対話システムの操作方法
US8064573B2 (en) Computer generated prompting
US9117453B2 (en) Method and system for processing parallel context dependent speech recognition results from a single utterance utilizing a context database
US7275032B2 (en) Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics
US7242752B2 (en) Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application
US7609829B2 (en) Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution
US7286985B2 (en) Method and apparatus for preprocessing text-to-speech files in a voice XML application distribution system using industry specific, social and regional expression rules
CA2793118A1 (en) Maintaining context information between user interactions with a voice assistant
CN104700835A (zh) 提供话音接口的方法和***
JP2000078296A (ja) 対話的音声応答システムにおける指示方法および対話的音声応答システム
US7424428B2 (en) Automatic dialog system with database language model
KR100803900B1 (ko) 음성 인식 ars 서비스 방법 및 시스템
JP4890721B2 (ja) 音声対話システムを動作させる方法
US20050240409A1 (en) System and method for providing rules-based directory assistance automation
JP2022161353A (ja) 情報出力システム、サーバ装置および情報出力方法
US20060140357A1 (en) Graphical tool for creating a call routing application
JP2003177788A (ja) 音声対話システムおよびその方法
US20210210092A1 (en) Efficient dialogue configuration
CN111324719A (zh) 用于法律咨询的模糊识别***
JP2011501509A (ja) 電話注文を処理するための方法
WO1999044345A2 (en) Controlling navigation paths of a speech-recognition process
CN114844992A (zh) 一种多层ivr导航处理的方法
Ahmed et al. Interactive voice response mashup system for service enhancement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081222

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090908

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20091102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100119

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100212

R150 Certificate of patent or registration of utility model

Ref document number: 4460305

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130219

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130219

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140219

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term