JP5111607B2

JP5111607B2 - 音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法および装置

Info

Publication number: JP5111607B2
Application number: JP2010521152A
Authority: JP
Inventors: ウェインバーグ、ガレット; ラマクリシュナン、ビクシャ; シュミット−ニールセン、ベント; ハーシャム、ブレット・エイ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2008-02-25
Filing date: 2009-02-25
Publication date: 2013-01-09
Anticipated expiration: 2029-02-25
Also published as: US20090216538A1; EP2245617A1; CN101952883A; JP2011505026A; CN101952883B; EP2245617B1; US7917368B2; WO2009107848A1

Description

本発明は、包括的には自動音声認識システムに関し、より詳細には、そのようなシステムのためのユーザ対話インタフェースに関する。

自動音声認識（ＡＳＲ：ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）を利用するアプリケーションは、ユーザと対話するために、音声ベースのユーザインタフェースを必要とする。一般的に、ユーザは、発話ユーザ入力を使用する２タイプのタスクを実行することができる。第１のタイプは、クエリを用いた情報検索（ＩＲ：ＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ）に関連する。このタスクにおいて、ユーザは、アイテム、例えば、文書、画像、記録を、データベースに格納された多くのアイテムの集合、例えば、インターネットのウェブから検索することを望む。もう一方のタスクのタイプは、音声対応のコマンド及び制御である。ここでは、ユーザは、何らかの操作を実行することを望む。両タスクは、ユーザが言ったかもしれないことの可能性の「絞込み」を含む。

ＩＲの場合、これは多くの場合で、図１に示すようなやりとりを通じて遂行される。図１において、縦軸は時間を示す。図１において、ユーザ１０１のステップは、左側に示されており、システム１０２のステップは、右側にある。システムは、或るルート状態Ｒ１２０を有している。ユーザ１０１は、例えばアイテムを検索するために、発話入力１１０を提供する。発話入力１１０は、いくつかの他の状態セットＹ及びＺ１２３に関連するのではなく、状態セットＸ１２４に関連するものとして解釈される（１２２）。これに応じて、システムは、次の状態Ｘ_０１２５に入り、おそらくユーザを促す。

ユーザは、追加入力１１０を提供する。例えば、声ベースの目的地エントリーシステムにおいて、ユーザは、最初に国を選択することを要求される場合ある。その後、分岐したステップにおいて、目的地の通り名を言うことを許可される前に、都市を選択することを要求される場合がある。対話が完了し、関連するアイテム１２７が検索されるまで、プロセス１２４は反復し、状態１２８−１２９を変更する（１２６）システムを継続する。

通常、すべてのシステム状態は、限られた状態固有の文法、語彙、及び／又は言語モデルを有し、１２８及び１２９のような状態は、有限状態機械（ＦＳＭ：ｆｉｎｉｔｅ−ｓｔａｔｅｍａｃｈｉｎｅ）における２つ以上のアプリケーション状態の横断を含むマルチステッププロセスを介してのみ到達可能である。

図２に示すように、コマンド型アプローチは、多くの場合に「キャリア」フレーズを含み、そこでは、いくつかの修飾語及び／又は変数として同一フレーズ１３０の中にコマンド言語が存在する。システムは、フレーズ１３０の中にある修飾語句及び変数として付与されたキャリアフレーズの意味を解釈し（１２２）、状態セットＸ１２４に入る。キャリアフレーズが或る状態例Ｘ_１と関連がある場合、本システムは、すぐに該状態に入るか、又は該状態に入る前にユーザからの確認を要求する（１３２）。ユーザパート１３３上の確認又は取り消し１３７は、言語的な対話様式又は物理的な対話様式を使用して実現することができる（１３９）。プロセス１２４は、前述同様に反復することができる。

他方のアプローチも一般的である。例えば、コマンドなしで変数を発話することができるか、又は、コマンドは変数のみを利用可能なダイアログ状態を開始し得る。検索タスクは、例えば、「アーティストＶａｎｉｌｌａＩｃｅを見つけろ」というフレーズの中のキャリアワードを使用して達成される。しかし、それぞれの場合に、状態毎の語彙、フレーズの文法、及び／又は言語モデルが確定される。

一般的に、２つの異なるインタフェースは、互いに互換性がない。すなわち、ＩＲインタフェースはコマンドを処理できず、制御インタフェースはクエリを処理できない。

音声インタフェースは、１つ又は複数の単語から成るフレーズの形式において発話入力を取得する。該フレーズがクエリであるか、又はコマンドであるかが判断される。該フレーズがクエリである場合、該フレーズによって特定される関連性のあるアイテムをデータベースから検索し、そうではなく、該フレーズがコマンドの場合、動作を実行する。

従来技術の情報検索ための音声ベースのインタフェースのブロック図である。従来技術のコマンド及び制御のための音声ベースのインタフェースのブロック図である。本発明の実施の形態１による発話によるユーザインタフェースのブロック図である。本発明の実施の形態１によるドメインの概略図である。図４のドメインを構築するためのプロセスの概略図である。本発明の実施の形態１によるドメイン構造例の概略図である。

実施の形態１．
本発明の実施の形態１は、音声ベースのインタフェースを介してユーザと対話するための方法を提供する。任意の発話入力は、情報検索に、又はコマンド及び制御に関連し得る。ここで、後者は、メニュー間又は機能階層間の選択を含み得る。

限られた語彙及び文法を有する従来の発話によるユーザインタフェースと対照的に、本発明のインタフェースは、基本的に無制限な語彙及び文法を有する。これは、任意の順番で任意の単語を発話することができることを意味する。これは、発話によるインタフェースの操作の柔軟性と効率性とを非常に高める。

インタフェース構造及び操作
図３は、本発明の実施の形態１による音声ベースのユーザインタフェースを示す。縦軸は、時間を表している。ユーザ１０１の動作は、左側に示されており、システム１０２の動作は、右側に示されている。

ユーザは、１つ又は複数の単語から成るフレーズの形式において、非構造的又は半構造的な発話入力１３３を提供することによって対話を開始する。従来のインタフェースとは異なり、該入力は、クエリ又はコマンドであり得る。

変数及び修飾語句が、コマンド言語に加えてコマンドフレーズの中に含まれている場合がある。すなわち、本インタフェースによって、ユーザは、何でも言うことができる。

従来のインタフェースにおけるように、有限状態機械（ＦＳＭ）１２４に入るのではなく、本システムは、参照によりその全体が本明細書に援用される、米国特許第６，８７７，００１号明細書に説明されているような、音声ベースのＩＲシステムを使用する発話入力に対するマルチドメイン検索及び関連度解析のシーケンス１３５を実行する。

発話入力は、同時係属中の関連する米国特許出願第１２／０３６，６８１号明細書に説明及び示されているように、任意の下層のインデックス及びデータベースと同様に、パーティクルを使用することができる。検索及び関連度評価は、様々なドメインの中で起き、ドメインによっては、従来のコマンド及び制御インタフェースと同様にコマンドに関係するものもあり、文書の集合若しくは音楽の集合、又はナビゲーションシステムの関心地点（ＰＯＩ：ｐｏｉｎｔｓｏｆｉｎｔｅｒｅｓｔ）のような、検索可能なコンテンツに関係するものもある。

アプリケーションの異なる機能領域の中の状態、例えば、オーディオ／ビジュアル及びナビゲーションに、別個にインデックス付けし、１つ又は複数の異なるコマンドドメインを形成することができる。

コマンド及びクエリドメイン
コマンドドメインの場合、ＩＲエンジンによって検索される「アイテム」は、所与のＦＳＭ状態に対するポインタであり、該アイテムは、この状態及び該アイテムの状態から到達可能な他の状態によって予期される任意の入力に関する情報を含む場合がある。コマンドアイテムのＩＲインデックスの中に含まれていない入力が要求される場合、従来の有限状態文法（ＦＳＧ：ｆｉｎｉｔｅｓｔａｔｅｇｒａｍｍａｒ）に反する、変数及び／又は修飾語句の代用語を含む音声入力を再認識することにより、又は、追加的な明確化用入力をユーザに促すことにより、入力を抽出することができる。

コンテンツドメインの場合、検索される「アイテム」は、アーティスト、アルバム、又は音楽集合の中の楽曲、又は近くのレストランＰＯＩのような、検索可能なコンテンツの個別のノードに対するポインタである。

本システムは、発話入力がクエリであるか又はコマンドであるか判断する（１３６）。最も一致するドメインがコンテンツドメインである場合、結果リスト１３７がユーザに提示され、ユーザは、有効にするコンテンツを選択する（１４０）。入力フレーズがコマンドの場合、最も一致するコマンド若しくは複数のコマンドが確認のためにユーザに提示され得るか、又は、明らかに最も一致するコマンドがある場合には、すぐに実行され得る（１３８）。必要であれば、コマンド又はクエリを精密化するか又は完全にするために、追加的なフレーズを入力することができる。

結果の提示
関連性のあるコマンド又は関連性のあるアイテムは、多数の異なる方法でユーザに提示され得る。異なるドメインからの関連性のある一致は、ドメイン毎に分離することができ、ドメインは、毎回同じ順序で表示されるか、又は所与のクエリに対する関連度の降順で表示される。代替的には、全ドメインからの一致が、結合された結果リストの中に混合されてもよい。

関連性のあるドメインの判断
いかなる音声入力フレーズも、ドメインのそれぞれの中で一致する可能性が高い。入力フレーズに対する最も関連性のあるドメインを判断するために、無作為の取り出しによって最も取得される可能性の低い一致はどれかを判断する。その尤度は、従来のように計算され得る。

図４は、全ドメイン内のアイテムＩのセット４０６を示す。該セット内のアイテムＩの数はＴである。サブセットＩ_１、Ｉ_２等は、ドメイン１、２等からのアイテムを表し、Ｔ_１、Ｔ_２等は、これらサブセットのそれぞれの中にあるアイテムの数を表す。これらサブセットは交わることができる。サブセット４０７及び４０８を参照されたい。

ユーザの入力フレーズＵは、Ｎ個のアイテムを検索する。Ｎ個のアイテムの中でＮ_１個のアイテムは、サブセットＩ_１からのもの、Ｎ_２個は、サブセットＩ_２からのものであり、以下同様である。これらの検索の関連度を判断するために、確率Ｐ_１ ^rand（Ｎ_１，Ｎ）を求める。ここで、セットＩからＮ個のアイテムを無作為に取り出す場合、アイテムのうちのＮ_１個がサブセットＤ_１からのものである。

同様に、確率Ｐ_２ ^rand（Ｎ_２，Ｎ）を求める。ここで、セットＩからＮ個の文書を無作為に取り出す場合、Ｎ_２個がサブセットＩ_２に属する。概して、確率Ｐ_ｉ ^rand（Ｎ_ｉ，Ｎ）は、ｉ番目のドメインから取得されるアイテムの数が、セットＩからのＮ個の文書の無作為な取り出しによっても同様に取得された可能性がある確率である。そのとき、入力フレーズＵに対するドメインは、最小確率Ｐ_ｉ ^rand（Ｎ_ｉ，Ｎ）を有する。すなわち、次式が成立する。

Ｄｏｍａｉｎ（Ｕ）＝ａｒｇｍｉｎ_ｉＰ_ｉ ^ｒａｎｄ（Ｎ_ｉ，Ｎ）

上記方法は、無作為に取得された可能性が最も低いのは、いずれのドメインであるかを判断し、対応するドメインが入力フレーズに対して最も関連性のあるドメインであるとして選択される。さらに、確率に関する追加の閾値が、入力フレーズを完全に拒否するために適用され得る。

無作為にＮ個の文書を取り出すことの実際の確率を考慮に入れるか、又は、定型句の範囲内でのＰ_ｉ ^rand（Ｎ_ｉ，Ｎ）に対する上限又は下限を使用する、上記方法の他の実施の形態も可能である。

文書ベースのドメインの構造
関連の米国出願で説明されているように、ドメイン内のアイテムは、各アイテムにインデックス付けすることによって構築される。例えば、アイテムは、オペレータのマニュアル５１０のようなテキスト文書である（図５）。該文書は、明示的又は黙示的に設定されていることがあり、機械可読形式もしくは人間可読形式で提供されている場合がある。インデックス付けする過程は、文書を分割してより小さなセクションとし（５２０）、所与のセクションをユーザが検索することにより、発話される可能性が高い用語又はフレーズを識別する。

チャプタのタイトル及びサブチャプタのような、文書の構造を使用して用語を識別することができるいくつかの手段がある。単語及びフレーズの発生に関する統計値を全体として及びセクション毎に集計することができる。セクション毎に、文書全体のそれぞれに関する用語に対し、重みを割り当てることができる。これは、ＩＲの目的のためのより関連性のある用語の識別を可能にする。

例えば「ｔｈｅ」のような非常に短い又は一般的な単語、重要でない用語から成る、手動生成又はマシン生成の「ストップリスト」を組み込むことができる。しかし、ストップリスト上の用語が、特定のセクションにおいて高頻度で発生し、他のセクションではそうではないことが判明した場合、その用語は、ストップリストから関連性のある用語リストに移される。

チャプタのタイトル又はサブチャプタのタイトルに現れる、関連性のある用語又は特徴的な用語は、類義語辞書で調べらことができ、見つかった場合、そのような類義語も、所与のセクションの関連性のある用語リスト又は特徴的な用語リストに追加される。

図６は、ユーザ入力１３３、サーチドメイン６１０のセット及びコマンドドメイン６０２のセット、並びにアイテムの様々なサブセットを備え、それらのうちのいくつかが交わることができる階層的構造におけるドメイン構造を示す。

本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び変更を行うことができることは理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入るすべての変形及び変更を包含することである。

Claims

音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法であって、
１つ又は複数の単語から成るフレーズの構造におけるユーザからの発話入力を取得するステップと、
前記フレーズがクエリであるか又はコマンドであるかを、複数の異なるドメインを使用して判断するステップと、
前記フレーズがクエリである場合、複数のデータベースから関連性のあるアイテムを検索し、提示するステップと、
前記フレーズがコマンドである場合、動作を実行するステップと、
を備え、
すべての可能性のあるアイテムがアイテムのセットを形成し、
前記方法は、
前記セット内のアイテムをアイテムのサブセットにグループ分けするステップであって、アイテムの各前記サブセットは、前記複数のドメインのうちの１つを形成する、グループ分けするステップと、
前記クエリに応答して、前記複数のドメインうちの１つ又は複数から前記アイテムを検索するステップと、
検索されたアイテムが、アイテムのセット全体からの無作為の取り出しによって取得される可能性が最も低い場合、前記クエリに最も関連性があるものとして特定のドメインを選択するステップと、
をさらに備えた音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
前記フレーズが前記コマンドである場合、該フレーズは、変数と修飾語句とを含む、請求項１に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
前記フレーズは、パーティクルの形式であり、アイテムに対するインデックスは、パーティクルの形式である、請求項１に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
関連性のあるアイテムは、ドメイン毎に分離される、請求項１に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
関連性のあるアイテムは、関連度順に提示される、請求項１に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
関連性のあるアイテムは、結合された結果リスト内で混合される、請求項１に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
音声ベースのユーザインタフェースを介してユーザと対話するための装置であって、
１つ又は複数の単語から成るフレーズの構造におけるユーザからの発話入力を取得する手段と、
前記フレーズがクエリであるか又はコマンドであるかを、複数の異なるドメインを使用して判断する手段と、
前記フレーズがクエリである場合、複数のデータベースから関連性のあるアイテムを検索し、提示する手段と、
前記フレーズがコマンドである場合、動作を実行する手段と、
を備え、
すべての可能性のあるアイテムがアイテムのセットを形成し、
前記装置は、
前記セット内のアイテムをアイテムのサブセットにグループ分けする手段であって、アイテムの各前記サブセットは、前記複数のドメインのうちの１つを形成する、グループ分けする手段と、
前記クエリに応答して、前記複数のドメインうちの１つ又は複数から前記アイテムを検索する手段と、
検索されたアイテムが、アイテムのセット全体からの無作為の取り出しによって取得される可能性が最も低い場合、前記クエリに最も関連性があるものとして特定のドメインを選択する手段と、
をさらに備えた音声ベースのユーザインタフェースを介してユーザと対話するための装置。
前記フレーズが前記コマンドである場合、該フレーズは、変数と修飾語句とを含む、請求項７に記載の音声ベースのユーザインタフェースを介してユーザと対話するための装置。
前記フレーズは、パーティクルの形式であり、アイテムに対するインデックスは、パーティクルの形式である、請求項７に記載の音声ベースのユーザインタフェースを介してユーザと対話するための装置。
関連性のあるアイテムは、ドメイン毎に分離される、請求項７に記載の音声ベースのユーザインタフェースを介してユーザと対話するための装置。
関連性のあるアイテムは、関連度順に提示される、請求項７に記載の音声ベースのユーザインタフェースを介してユーザと対話するための装置。
関連性のあるアイテムは、結合された結果リスト内で混合される、請求項７に記載の音声ベースのユーザインタフェースを介してユーザと対話するための装置。