JP2003029784A

JP2003029784A - データベースのエントリを決定する方法

Info

Publication number: JP2003029784A
Application number: JP2002118436A
Authority: JP
Inventors: Stefanie Krass; クラースシュテファニー; Henrik Hodam; ホーダムヘンリク
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-04-20
Filing date: 2002-04-19
Publication date: 2003-01-31
Anticipated expiration: 2022-04-19
Also published as: EP1251491A2; US7496508B2; JP4741777B2; CN1326074C; US20020169751A1; EP1251491A3; CN1384453A; DE50205081D1; ATE311649T1; EP1251491B1; DE10119677A1

Abstract

(57)【要約】【課題】ユーザによる使い心地に影響を与えずに追加
的な費用を最小限としつつユーザへ出力されるデータベ
ースエントリをサーチすることを目的とする。【解決手段】本発明の自動対話システムによりデータ
ベースのエントリを決定する方法は、音声入力を一時的
に記憶する段階と、音声入力を自動音声認識装置で処理
し、各辞書エントリが少なくとも１つの音響リファレン
スを含む第１の辞書エントリ集合を有する第１の辞書を
用いて音声認識結果を生成する段階と、音声認識結果に
対応するデータベースエントリについてサーチする段階
と、データベースエントリが見つからない場合は、少な
くとも１つの辞書エントリが第１の辞書エントリ集合と
は異なる第２の辞書エントリ集合を有するよう、第１の
辞書を適応し、一時的に記憶された音声発話と適応され
た第１の辞書とを用いて自動音声認識装置による処理及
びデータベースのサーチの段階を繰り返す段階とを含
む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は自動対話システムに
よってデータベースのデータベースエントリを決定する
方法に関する。

【０００２】

【従来の技術】対話システムの自動的な動作を保証する
ため、一般的に、辞書エントリ（音声認識装置の語彙）
を用いて辞書にアクセスし、隠れマルコフモデルに基づ
いて動作する自動音声認識装置が用いられる。辞書エン
トリは、音声認識手順において音声入力と比較される音
声認識装置用の音響リファレンスを含む。音響リファレ
ンスは、例えば一連の音素を表わす。本発明による方法
は、例えば「イエローページ」サービスに関連する。こ
のようなサービスを用いて、各ユーザは、要求されてい
る地区の利用可能な提供者から、例えば医者、販売者又
は他の企業についての情報、また、警察、プール、学校
等の公共の設備についての情報を得ることができる。電
話を通じたこのような地区情報システム、即ち職業別電
話情報の形式のシステムは周知である。

【０００３】更に、例えばインターネット又はイントラ
ネットのためのデータネットワークにおいてかかる情報
システムが既に知られている。端末は、情報システムの
種別に応じて、電話機、移動電話機、適切な電話機能を
有するコンピュータ又はオーガナイザ等であるか、純粋
なデータネットワーク中の情報システムが使用される場
合は例えばＷＡＰ移動電話機といった関連するネットワ
ークへの対応するアクセス機能を有するＰＣ又はオーガ
ナイザ又は移動電話機が使用される。サーチパラメータ
は、例えば、地区、職業分野、或いは場所、又は、例え
ば「医師」或いは「ホメオパシー」或いは「ミュンヘ
ン」といった関連するサーチ概念といった種々のサーチ
規準である。加入者データは、例えば、情報システムに
加入している供給者にユーザが接触すること又は連絡を
とることを可能とする電話番号、住所、又は他の情報、
即ち情報システムのデータベースに含まれる情報であり
うる。公知のシステムでは、辞書は例えば地区の入力と
いったあるカテゴリの音声入力のために使用され、この
辞書は計算上の費用を制限するために音声認識システム
上の要求に応じて調整される。

【０００４】

【発明が解決しようとする課題】ここで、当該の音声認
識の結果について行われるデータベースのサーチにおい
て、ユーザへ出力されうる関連するデータベースエント
リが見いだせないという問題が生ずる。本発明は、ユー
ザによる使い心地ができる限り影響を受けないよう追加
的な計算上の費用を最小限としつつ上述の問題を解決す
ることを目的とする。

【０００５】

【課題を解決するための手段】上述の目的は、（１）音
声入力を一時的に記憶する段階と、（２）音声入力を自
動音声認識装置によって処理し、各辞書エントリが少な
くとも１つの音響リファレンスを含む第１の辞書エント
リ集合を有する第１の辞書を用いて音声認識結果を生成
する段階と、（３）音声認識結果に対応するデータベー
スエントリについてサーチする段階と、（４）段階
（３）においてデータベースエントリが見つからない場
合は、少なくとも１つの辞書エントリが第１の辞書エン
トリ集合とは異なる第２の辞書エントリ集合を有するよ
う、第１の辞書を適応し、一時的に記憶された音声発話
と適応された第１の辞書とを用いて段階（２）及び
（３）を繰り返す段階とを含む上述の方法によって達成
される。

【０００６】最初のデータベースのサーチが成功しなか
った場合でも、ユーザは音声の発話によって生成される
音声入力を繰り返す必要がない。一時的に記憶された音
声入力は、適応された辞書を用いた第２の音声認識動作
にも使用される。辞書は動的に適応される。辞書の適用
の方法は、出来る限り小さい辞書で考慮されている音声
認識結果に対してデータベースの入力の割当てが成功す
る確率を最大とすることを保証するよう選択される。特
に、第１の辞書を適応するためにそのエントリが使用さ
れうる総合辞書が使用される（請求項２）。

【０００７】請求項３は、音声入力の質が低く割当て可
能なデータベースエントリがない場合に本発明による方
法が予め設定された基準に従って中断されることを保証
する。

【０００８】請求項４及び請求項５は、音声認識のため
に使用される第１の辞書がデータベースエントリのカテ
ゴリに関連付けられる実施例を示す。請求項４に記載の
ように辞書を適応するとき、データベースエントリのカ
テゴリ（例えば地区）の制限内で、追加的な辞書エント
リが追加されるか、辞書エントリが変更される。請求項
４は、第１の辞書の適応のために、辞書のエントリがカ
テゴリの外で適応される実施例を開示する。適応される
前の第１の辞書がデータベースエントリの特定のカテゴ
リに属する辞書エントリを含む場合、適応された後は、
第１の辞書は関連するカテゴリ（例えば関連する地区）
に属する少なくとも１つの辞書エントリを含む。

【０００９】請求項６に記載の実施例では、音声入力に
対してデータベースエントリを割り当てることができな
い場合、辞書は個々の音声認識結果の選択肢に対して適
応されるだけでなく、音声認識の選択肢は辞書が適応さ
れるときにも考慮される。従って、新規な音声認識動作
により、データベースエントリが一時的に記憶された音
声入力に対して割り当てられうる確率が高まる。

【００１０】本発明による方法は、特に、対話システム
へのアクセスが特に電話インタフェース（請求項８）を
通じて行われるイエローページのデータの集合（請求項
７）においてエントリを決定するために使用される。

【００１１】また、本発明は、本発明による方法を実施
するために使用される自動対話システムに関する。

【００１２】

【発明の実施の形態】以下、本発明の実施例について図
面を参照して詳述する。図１は、本実施例では電話イン
タフェースであるインタフェース２を有する対話システ
ム１を示す。対話システム１は、インタフェース２を通
じて、また構内交換機が利用可能であればこれを介し
て、電話網に接続される。メモリ３が設けられ、これに
受信される音声入力が音声ファイルとして一時的に記憶
されうる。自動音声認識装置４は、メモリ３に記憶され
た音声認識の自動認識を行う。音声認識装置４は、音声
認識モジュール５と辞書６とを含み、辞書のエントリは
音声認識装置４によって利用可能な語彙を構成する。各
辞書エントリは、語又は単語を示す少なくとも１つの音
響リファレンスを含む。各音響リファレンスは、少なく
とも１つの状態を有する隠れマルコフモデル（ＨＭＭ）
に対応する。音声認識モジュール５は、ここでは辞書６
を除く音声認識装置４の全ての機能を含む。音声認識装
置４は、例えばフィリップス社製のシステム「Speech P
earl」を用いて実施されうる。

【００１３】本発明による対話システム１では、音声認
識装置４によって用いられる辞書６は、設定されている
ものではなく、動的に適応可能である。本例では、辞書
６の辞書エントリは、総合辞書７の部分集合を構成す
る。総合辞書７は、辞書６のための辞書エントリの貯蔵
部を構成する。中央対話制御・管理ユニット８は、ユー
ザとの対話を制御すると共に辞書６の適応を制御する。
ユニット８は特定用途向けデータを有するデータベース
９にアクセス可能であり、音声出力を生成しこれをイン
タフェース２を介してユーザへ出力する音声出力ユニッ
ト１０を制御する。

【００１４】データベース９に記憶された特定用途向け
データは、各用途に対して予め設定されうる対話構造を
定義する。従って、例えばユーザとの対話は、挨拶から
始まり続いて特定の音声入力のアクティブ化の要求がな
されうる。ユーザによる続く音声入力は、インタフェー
ス２を介して受信されメモリ３に一時的に記憶される。
一時的に記憶された音声入力３は、自動音声認識装置４
によって音声認識結果へ変化され、音声認識結果はユニ
ット８へ与えられ、音声認識結果に応じて、データベー
ス９に記憶されたデータに従って予め指定されたような
ユーザとの対話を続けるか、対話を終了する。

【００１５】図２は、本発明の更なる説明のためのフロ
ーチャートを示す図である。本発明について、ユーザが
地区情報を検索しうるイエローページデータ集合へのア
クセスの例を用いて説明する。本例では、地区情報はデ
ータベース９に記憶され、例えば複数の企業名、夫々の
場所、関連する地区、通りの名前、電話番号、及び郵便
番号を含む。電話の呼によりユーザにより対話システム
１へアクセスした後、対話システム１はユーザへの挨拶
定型文を出力し、町名を入力するよう求める。ステップ
２０において町名が入力され正しく検出されると、ステ
ップ２１においてユーザに対して地区を入力するよう要
求する。ステップ２２において音声入力によって地区を
入力した後、ステップ２３においてこの音声入力はメモ
リ中に音声ファイルとして一時的に記憶される。ステッ
プ２４において、音声認識装置４を用いて一時的に記憶
された音声入力に対して音声認識手順が実行される。こ
のために、限られた数の地区名を表わす辞書ＬＥＸ
（１）が使用され、即ち音声認識装置によって使用され
る語彙はこのようにステップ２４において制限される。
ステップ２４において発生した音声認識結果を用いて、
つづくステップ２５において、認識されたセクタ名及び
町名に対してデータベース９に記憶された企業名を探す
ために対話制御・管理ユニット８によってデータベース
９におけるデータベースサーチが実行される。

【００１６】ステップ２６において、認識されたブラン
チ名に属する少なくとも１つのデータベースエントリが
見つかると、ステップ３５において対応する企業名及び
存在する場合は更なる関連する企業情報がユーザへ出力
されるか、必要な情報をより詳細に指定するよう（例え
ば郵便番号又は通りの名前を入力することによって行わ
れる）ユーザに求める音声出力を用いてユーザとの対話
を続ける。しかしながら、ステップ２６において、デー
タベース９には認識された町名及びセクタ名に対応する
データベースエントリが見つからない場合、ステップ２
７において、先行する音声認識手順で使用される辞書６
のバージョンを示すために用いられるパラメータｎは、
ｎ＝１に設定される。ステップ２８において、辞書６
は、辞書バージョンＬＥＸ（ｎ）が少なくとも１つの辞
書エントリについて辞書バージョンＬＥＸ（ｎ）とは異
なる辞書バージョンＬＥＸ（ｎ＋１）へ変形されるよ
う、適応される。辞書バージョンＬＥＸ（ｎ＋１）と比
較して、辞書バージョンＬＥＸ（ｎ）は限られた数のセ
クタ名を表わす辞書エントリを含み、ｎが増加するにつ
れあまり頻繁に探されない地区名も考慮される。辞書の
拡張は、データベース９に記憶された割当てテーブルに
よって決まる。

【００１７】総合辞書７の利用可能な辞書エントリがカ
テゴリに分割されると、辞書は、カテゴリ内及び／又は
カテゴリ間で適応されうる。辞書エントリの特定のカテ
ゴリについての例は、例えば特定の町に対する地区名の
数である。カテゴリ内の辞書適応は、その町に割り当て
られた他の及び／又は追加的な地区名が辞書６の作成の
ために考慮された場合に生じうる。カテゴリ間の辞書の
適応の場合、すなわち本例では辞書の適応の場合、例え
ば認識された町に近い他の町に割り当てられた地区名も
考慮に入れられる。この場合も、割当てはデータベース
９に記憶された割当てテーブル中で定義される。原理的
には、当該の用途及び辞書の適応についての要求から生
ずる多数のカテゴリが存在することが可能であり、この
ために最適化される。

【００１８】ステップ２８において辞書を適応させた
後、ステップ２９において、変更された辞書ＬＥＸ（ｎ
＋１）を用いて音声認識方法が行われる。既知の地区を
表わす音声認識結果が決定され、町が既に知られている
ときに、対話制御・管理ユニット８によってデータベー
ス９の更なるデータベースサーチが行われる。ステップ
３１において、データベースのサーチによって認識され
た町に対するエントリ（地区名）が与えられることがわ
かると、方法は、ステップ３５と同様にデータ出力を行
うステップ３６へ進む。

【００１９】ステップ３１において、やはり割り当てら
れうるデータベースがないことがわかると、ステップ３
２においてパラメータｎは１ずつインクリメントされ
る。ステップ３３において、中断判定基準が満たされて
いるかチェックする。本例では、中断判定基準は先験的
に設定される数字Ｎによって表わされる。数字Ｎは、辞
書の所望の適応の回数を表わす。ステップ３３において
中断判定基準がまだ満たされてない場合（ｎ≦Ｎ）、シ
ステムはステップ２８へ戻る。ステップ３３において、
中断判定基準が満たされた、即ちｎ＞Ｎであるとわかる
と、対話システム１によるユーザ入力の処理は中断され
る。本例では、対話システム１とユーザとの間の対話は
中断され、ステップ３４において所望のデータをユーザ
によって利用可能とするために、ユーザは電話オペレー
タに接続される。

【００２０】本発明の実施例では、音声認識装置１は、
個々の音声認識結果を供給するだけでなく、Ｎ≧１の最
善の認識結果の選択肢の数Ｎも与える。この場合、辞書
６の適応は、音声認識装置４によって供給される１以上
の認識結果の選択肢に依存する。このように、音声認識
装置６は、例えば地区名の入力の後に認識結果として２
つの同様の音の地区名を出力し、２つの音声認識結果の
選択肢はそれらの信頼性に従って順序付けられる。デー
タベース９に、その中に記憶された割当てテーブルに、
音声認識結果の選択肢として決定された２つの地区名に
ついて辞書６の適応のための異なる割当てが与えられ、
これらは辞書６の適応にも考慮される。

【図面の簡単な説明】

【図１】対話システムを示すブロック回路図である。

【図２】本発明による方法を説明するためのフローチャ
ートである。

【符号の説明】１対話システム２インタフェース３メモリ４音声認識装置５音声認識モジュール６辞書７総合辞書８対話制御・管理ユニット９データベース１０音声出力ユニット

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/14 Ｇ１０Ｌ 3/00 ５７１Ｕ５３５Ｚ (72)発明者シュテファニークラースドイツ連邦共和国，52068 アーヘン，ぺリゼルカーシュトラーセ 84 (72)発明者ヘンリクホーダムドイツ連邦共和国，52070 アーヘン，アムヴォルフ４Ｆターム(参考） 5B075 NK02 NK34 PP07 PQ04 UU40 5D015 AA05 HH11

Claims

【特許請求の範囲】

【請求項１】（１）音声入力を一時的に記憶する段階
と、（２）上記音声入力を自動音声認識装置によって処理
し、各辞書エントリが少なくとも１つの音響リファレン
スを含む第１の辞書エントリ集合を有する第１の辞書を
用いて音声認識結果を生成する段階と、（３）上記音声認識結果に対応するデータベースエント
リについてサーチする段階と、（４）上記段階（３）においてデータベースエントリが
見つからない場合は、少なくとも１つの辞書エントリが上記第１の辞書エント
リ集合とは異なる第２の辞書エントリ集合を有するよ
う、上記第１の辞書を適応し、上記一時的に記憶された音声発話と上記適応された第１
の辞書とを用いて上記段階（２）及び（３）を繰り返す
段階とを含む、自動対話システムによってデータベースのデータベース
エントリを決定する方法。
【請求項２】上記辞書エントリは総合辞書として用い
られる第２の辞書から得られることを特徴とする、請求
項１記載の方法。
【請求項３】上記段階（２）乃至（４）は、中断判定
基準に達するまで繰り返されることを特徴とする、請求
項１又は２記載の方法。
【請求項４】データベースエントリのカテゴリに対応
する辞書エントリのカテゴリが設けられ、辞書エントリのカテゴリについて適応された後の第１の
辞書は少なくとも１つの辞書エントリが適応される前の
形とは異なることを特徴とする、請求項１乃至３のうち
いずれか一項記載の方法。
【請求項５】データベースエントリのカテゴリに対応
する辞書エントリのカテゴリが設けられ、適応される前の第１の辞書が少なくとも部分集合を含む
少なくとも１つの辞書エントリのカテゴリには、適応さ
れた後の第１の辞書が少なくとも部分集合を含む第２の
辞書エントリのカテゴリが割り当てられることを特徴と
する、請求項１乃至４のうちいずれか一項記載の方法。
【請求項６】音声認識装置によって与えられる音声認
識結果は、Ｎ個（Ｎ≧１）の最善の認識結果の選択肢を
含み、上記辞書の適応は、少なくとも１つの認識結果の選択肢
に依存することを特徴とする、請求項１乃至５のうちい
ずれか一項記載の方法。
【請求項７】上記データベースエントリはイエローペ
ージデータの集まりの部分であることを特徴とする、請
求項１乃至６のうちいずれか一項記載の方法。
【請求項８】上記対話システムは電話インタフェース
を有し、前記電話インタフェースを通じて音声入力及び
音声出力が伝送されることを特徴とする、請求項１乃至
７のうちいずれか一項記載の方法。
【請求項９】（１）入力されるべき音声発話を一時的
に記憶する段階と、（２）上記音声発話を自動音声認識
装置によって処理し、各辞書エントリが少なくとも１つ
の音響リファレンスを含む第１の辞書エントリ集合を有
する第１の辞書を用いて音声認識結果を生成する段階
と、（３）上記音声認識結果に対応するデータベースエ
ントリについてサーチする段階と、（４）上記段階
（３）においてデータベースエントリが見つからない場
合は、少なくとも１つの辞書エントリが上記第１の辞書
エントリ集合とは異なる第２の辞書エントリ集合を有す
るよう、上記第１の辞書を適応し、上記一時的に記憶さ
れた音声発話と上記適応された第１の辞書とを用いて上
記段階（２）及び（３）を繰り返す段階とを含む方法を
実行するためのシステム構成要素を有するデータベース
のデータベースエントリを決定する自動対話システム。