JP2005512246A

JP2005512246A - 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム

Info

Publication number: JP2005512246A
Application number: JP2003551774A
Authority: JP
Inventors: ラマスワミ、ガネッシュ、エヌ; チャウダリ、アペンドラ、ブイ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-12-12
Filing date: 2001-12-12
Publication date: 2005-04-28
Anticipated expiration: 2021-12-12
Also published as: EP1470549B1; AU2002230762A8; JP4143541B2; EP1470549A1; CN1213398C; AU2002230762A1; KR20040068548A; EP1470549A4; CN1522431A

Abstract

【課題】
ユーザのアイデンティティを検証するためのシステム及び方法を提供する。
【解決手段】
本発明によるシステムは、ユーザ（１１０）からの入力を受けとってその入力を提携コマンドに変換するための会話システム（１１４）を含む。入力から特徴を抽出するための動作検証装置（１１８）が会話システム（１１４）に結合される。それらの特徴はユーザの動作パターンを含む。動作検証装置（１１８）は、入力された動作を動作モデル（２１４）に比較して、ユーザが会話システムと対話することを許容されるかどうかを決定する。

Description

本発明は、自然言語理解（natural languageunderstanding）システムに関し、より詳しく云えば、ユーザの動作（behavior）に基づいて煩雑的でなく（non-intrusively）ユーザを検証するための方法及びシステムに関するものである。

話者を検証(識別)するための伝統的な方法は、検証だけを目的としたユーザからの特定的な入力に依存している。これらの方法は、音声サンプルを提供すること及びバイオメトリック（biometric）質問に答えることを含むことがある。一旦検証されると、話者はターゲット・システムにアクセスすることを許され、一般に、それ以上の検証は行われない。たとえ更なる検証が行われるにしても、それは、検証を目的としたユーザからのより具体的な入力を必要とする。これは、ユーザにとって煩雑である。

従来技術の話者検証システム(又は、口頭入力形態（spokeninput modality）でないシステムのためのユーザ検証システム)は、下記の基準の１つ又はそれ以上に基づいて所与のユーザのアイデンティティを検証する：
１．ユーザの音声、指紋、手書き等によって決定可能である、そのユーザが誰であるかということ、
２．パスワード、又は或るバイオメトリック質問（例えば、母親の旧姓が何であるか）に対する返答によって決定可能である、ユーザが知っているもの、
３．識別ドキュメント、キー、特定の番号を持った携帯電話等のような、ユーザが所持しているもの。

検証のための上記方法はすべて、偽者がキー又は旧姓等のような情報を知っているか又は所持している場合に打ち破られることがある。

従って、ユーザの動作に基づいてユーザのアイデンティティを決定するための方法及びシステムに対する要求が存在する。更に、煩雑でないユーザ検証システムに対する要求も存在する。

本発明によるユーザ・アイデンティティを検証するためのシステムは、ユーザから入力を受け、それらの入力を定型コマンドに変換するための一般的なシステムを含む。それらの入力から特徴を抽出するための動作検証装置（behavior verifier）がその一般的なシステムに結合される。それらの特徴は、ユーザの動作パターンを含む。動作検証装置は、入力された動作を動作モデルと比較することによってユーザがそのシステムと対話することを許容されるかどうかを決定するように適応する。

別の実施例では、会話システムが、入力として受け取った音声を解釈するための自然言語理解ユニットを含み得る。それらの入力は、音声、手書き、テキスト、及び身振りの少なくとも１つを含み得る。動作検証装置は、入力から特徴ベクトルを抽出するための特徴抽出装置を含み得る。特徴ベクトルは、言語モデル・スコア、音響モデル・スコア、自然言語理解スコア、コマンド叙述スコア、及び(又は)発音スコアの少なくとも１つを含み得る。特徴ベクトルは、ユーザに対するシステム応答に関する情報、ユーザ・コマンド間の期間及びユーザとシステムとの間のダイアログ状態、及び(又は)ユーザによって使用される入力形態のタイプの少なくとも１つを含み得る。動作モデルは複数のモデルを含み得る。動作検証装置は、確率計算装置を含み得る。確率計算装置は、ユーザがそのユーザの動作に基づいてシステムと対話することを許容される第１の確率を計算するように適応可能である。動作検証装置は、ユーザに対する動作モデルを構成するためのモデル構成装置を含み得る。動作モデルは、動作をユーザの現在の動作に比較するために確率計算装置によって使用される。システムは、更に、ユーザからの音響及びバイオメトリック情報を決定するための及びユーザがそのユーザの音響又はバイオメトリック情報に基づいてシステムと対話することを許容される第２の確率を決定するための音響及びバイオメトリック検証装置を含み得る。動作検証装置は、ユーザがシステムと対話することを許容されることを検証するために第１の確率を第２の確率と統合するように適応した確率混合装置を含み得る。第１の確率は、ユーザがシステムを使用することを許容されるかどうかを決定するために閾値確率に比較可能である。

本発明によれば、動作に基づきユーザを検証するための方法は、ユーザから入力を受け取ってその入力を定型コマンドに変換するための会話システムにその入力を供給するステップと、ユーザの動作パターンを含む特徴をその入力から抽出するステップと、入力された動作を動作モデルに比較して、ユーザがシステムと対話することを許容されるかどうかを決定するステップとを含む。

別の方法では、一般的なシステムは自然言語理解ユニットを含み得るし、その方法は、更に、入力として受け取った音声を解釈するステップを含み得る。入力は、音声、手書き、テキスト、及び身振りの少なくとも１つを含み得る。特徴ベクトルは、言語モデル・スコア、音響モデル・スコア、自然言語理解スコア、コマンド叙述スコア、及び(又は)発音スコアの少なくとも１つを含み得る。特徴ベクトルは、ユーザに対するシステム応答に関する情報、ユーザ・コマンド相互間の期間及びユーザとシステムとの間のダイアログ状態、及び(又は)ユーザによって使用される入力形態のタイプの少なくとも１つを含み得る。動作検証装置は確率計算装置を含み得るし、その方法は、ユーザがそのユーザの動作に基づいてシステムと対話することを許容されるかどうかを表すための第１の確率を確率計算装置において計算するステップを含み得る。

更に別の方法では、動作検証装置はモデル構成装置を含み得る。その方法は、ユーザに対する動作モデルを構成するステップを含み得るし、その動作モデルは、動作をユーザの現在の動作に比較するために確率計算装置によって使用される。ユーザからの音響及びバイオメトリック情報を決定するための音響及びバイオメトリック検証装置を含むことも可能である。その方法は、更に、ユーザがそのユーザの音響又はバイオメトリック情報に基づいてシステムと対話することを許容されるかどうかを表すための第２の確率を決定し、ユーザがシステムと対話することを許容されることを検証するために、確率混合装置を使用することによって第１の確率を第２の確率と統合するステップを含む。ユーザがシステムを使用することを許容されるかどうかを決定するために、第１の確率を閾値確率と比較することが可能である。本発明の方法及び方法ステップは、マシンにより読み取り可能なプログラム・ストレージ・デバイスによって実装可能である。動作に基づいてユーザを検証するための方法ステップを遂行するようにマシンによって実行可能な命令のプログラムを具体的に実施可能である。

本発明に関するこれらの及び他の目的、特徴、及び利点は、添付図面と関連して読まれるべき本発明の実施例に関する以下の詳細な説明から明らかとなるであろう。

本発明は、ユーザがターゲット・システムと対話する方法に基づいてユーザのアイデンティティを連続的に検証するための方法及びシステムを提供する。これは、ユーザの現在の動作を過去の動作と比較することによって遂行可能である。ユーザからの更なる専用的な入力は（初期検証のために使用されるもの以外は）必要なく、従って、システムは煩雑ではない。更に、検証が連続的に行われ、そしてセッションの途中においてユーザを拒否するための十分な証拠が得られる場合、それ以上の損傷が与えられる前にユーザをカットオフすることが可能である。

別の実施例では、初期検証さえも必要なく、すべてのユーザが（例えば、非機密情報に対する）ベース・レベルのアクセスを与えられ、煩雑ではないプロセスを介した更なる検証時に、フル・アクセスが与えられることが可能である。

本発明では、話者(又は、ユーザ)検証パラダイムに対する新たなディメンジョンが、新たな基準：「ユーザがどのようにふるまうか（howthe user behaves）」を導入することによって与えられる。例えば、通常「ハウディ（Howdy）」と言って挨拶するユーザは、「ハロー（Hello）」又は「ハウ・アー・ユー（Howare you）」と言って挨拶する詐称者、又は何の挨拶もなしに対話を始める詐称者から区別可能である。同様に、幾つもの機密ドキュメントをサーチしようとする詐称者は、一般にはそのようなサーチを行わない正当なユーザから区別可能である。システムとのどれか１つの対話は意思決定するに不十分であるかもしれないけれども、ユーザとシステムとの対話の後に収集された情報が有効な検証判断を行うに十分であるかもしれない。

本発明の利点の１つは、検証という唯一の目的のために期待されるユーザからの更なる専用的な入力がないという意味で煩雑でないことであり、しかも検証のために必要な情報がバックグラウンド・プロセスによって自動的に収集されることによって、ユーザが通常のようにシステムと対話し得るということである。ユーザの現在の動作と既知の過去の動作との比較もまた、ユーザにとって如何なる煩雑さ又は不便さもなくシステムによって自動的に完了する。

図１及び図２に示された素子が、ハードウェア、ソフトウェア、又はそれらの結合という種々の形で実装可能であるということは理解されるべきである。望ましくは、これらの素子は、プロセッサ、メモリ、及び入出力インターフェースを有する１つ又はそれ以上の適切にプログラムされた汎用ディジタル・コンピュータにおいてソフトウェアとして実施される。次に、同じ参照番号が同等又は同様の素子を表す図面、先ず、図１を参照すると、本発明に従って動作検証を使用するための例示的なシステム／方法が示される。話者検証を必要とするターゲット・システム１００は、ユーザ１１０がそのシステムと対話する方法に関連した幾つかのパラメータを提供できることが望ましい。例えば、システム１００は、ユーザ１１０が、タイプされたテキスト、口頭の音声、手書きされた入力、身振り等のような幾つもの異なる入力形態を使用してそのシステムと対話することを可能にし得る。自然言語理解及びダイアログ管理を伴う、音声認識、手書き認識、及びイメージ認識のようなテクノロジが、ユーザ入力を解釈するために、及びシステム１００のコンピュータによる実行に適した形にそれを変換するために、システム１００によって使用可能である。システム１００は、電子メール、電子カレンダ、バンキング、株式または投資信託売買、旅行サービス、スプレッドシート、プログラムの編集等のような数多くの種々のアプリケーション１１６に接続し得るし、ユーザがこれらのアプリケーションと対話することを可能にする。システム１００は、音声認識又は自然言語理解に関するパラメータのような、ユーザがそのシステムと対話する方法を記述するに必要なパラメータも提供可能である。

図１に示されるように、動作検証装置１１８を含むシステム１００の例が示される。ユーザ１１０からの入力は、口頭の音声であることを期待されるが、それは、手書き入力、タイプされたテキスト、又は身振りのような他の何らかの形態であってもよい。口頭の入力が使用されるとき、会話システム１１４が先ず、その分野では知られている音声認識エンジン１１３を使用してその口頭の音声をテキストに変換する。例えば、アプリケーション１１６が電子メール・アプリケーションである場合、ユーザは「何か新しいメッセージがありますか（do I have any new messages）というかも知れず、その口頭の音声は、音声認識エンジンによって対応するテキスト・ストリングに変換される。手書き入力のような口頭形式でない入力も、その分野で知られている、例えば、手書き認識エンジンの如き他の認識エンジン１１７のような適正なテクノロジを使用して対応するテキスト・ストリングに変換される。これは、専有の認識エンジンが使用される身振り又は他の形態を解釈することに対しても当てはまる。この方法では、すべての入力が、システム１００にとって理解される認識可能な形式に変換される。

次に、テキスト・ストリング又は他のフォーマットされた信号が自然言語理解（Natural Language Understanding : ＮＬＵ）エンジン１１５によって分析され、アプリケーション１１６においてシステム１００による実行に適した定型コマンドに変換される。例えば、「何か新しいメッセージがありますか（doI have any new messages）」又は「私のメールボックスをチェックして頂けますか（can you check my mailbox）」というような同じ意味を有する文章が定型コマンドのフォーム：checkNewMail()に変換可能である。次に、その定型コマンドがそのコマンドの実行のためにアプリケーション１１６に提示される。ユーザとのダイアログを管理するために、及び曖昧リゾリューション（ambiguityresolution）のような他の機能を遂行するために、ダイアログ・エンジン又はダイアログ・マネージャ１２０も使用可能である。

従って、会話システムは、音声及び他の入力認識エンジン、自然言語理解エンジン（ＮＬＵ）１１５、及びダイアログ・エンジン１２０を含み得る。会話システムを形成するための方法はその分野において知られている。

システム１００には音響及びバイオメトリック検証装置１１２が含まれる。音響及びバイオメトリック検証装置１１２は、ユーザ１１０のアイデンティティを識別及び検証することに寄与する。検証は、ユーザ１１０がシステム１００をアクセスすることを可能にする前に名目的に遂行される。検証プロセスは、所定のユーザであることを主張する人の音響署名（acoustic signature）をその主張したユーザの既知の音響署名に突き合わせることを含み得る。なお、それは音響検証プロセスである。検証プロセスは、バイオメトリック検証も含み得る。それによって、そのユーザであることを主張する人がパスワード、母親の旧姓、社会的保障番号（socialsecurity number）等のような特定の質問に対する回答をプロンプト指示される。音響及びバイオメトリック検証のための方法はその分野では周知である。

動作検証装置１１８は、本発明によれば、使用中、ユーザのアイデンティティの追加検証を連続して遂行することに寄与する。図２に関連して、動作検証装置１１８の詳細を以下で説明する。動作検証装置１１８は、会話システム１１４並びに音響及びバイオメトリック検証装置１１２の両方から入力を受け、それの出力を音響及びバイオメトリック検証装置１１２に供給する。

図２を参照すると、特徴抽出装置２０４は、一般的なシステム１１４によって供給されたデータから１セットの特徴を抽出し、次式（数１）のようにｎ個の特徴を含む特徴ベクトルｖを構成することに寄与する：
（数１）
v = [v_１．．．．．v_ｎ](1)

ｎの値は、システム設計者によって選択されなければならず、システムにとって必要な精度のタイプ及び認識のタイプに依存し得る。特徴抽出装置によって抽出された特徴 v_１．．．．．v_ｎは、１つ又はそれ以上の下記のような特徴又は他の同様の特徴を含み得る。下記の特徴は、例示的なものであり、本発明を限定するものと解されるべきではない。更に、本願において開示された特徴は、本発明に従って適切な特徴ベクトルを決定するために単独で又は他の特徴と結合して使用可能である。これらの特徴は、下記の（１）乃至（１０）の特徴における１つ又はそれ以上を含み得る。

（１）．言語モデル・スコア：
音声認識エンジンが１つの言語モデル又は１セットの言語モデルを使用して認識を行う。２つ以上の言語モデルが使用されるとき、それらのモデルの幾つかが所定のユーザに対して個別設定される（それは、所定のユーザによって頻繁に話されるワード及びフレーズを使用して形成されるパーソナル・キャッシュとして知られている）。言語モデル・スコアは内部的に生成及び使用され、認識が完了した後に廃棄される。しかし、これらのスコアは、特に、頻繁に使用されるワード及びフレーズの選択に関してユーザを特徴付けることができる情報を保持する。例えば、ユーザが普通に「口述開始（begin dictation）」と言う場合、「このメッセージ用のテキストを作りましょう（let us create the textfor this message）」という詐称者を検出することが可能である。同様に、いつも簡潔且つ最適なフレーズを使用してコマンドを発するユーザは、長い文章を使用する詐称者から区別可能である。従って、言語モデル・スコアは、特徴ベクトル内に特徴として保管及び組み込み可能である。単一のフレーズ又は複数のフレーズに基づいて詐称者を拒絶する必要がないことは注目されるべきである。その代わり、累積的な動作スコアが所定のユーザ・セッションに対して維持され、ユーザが詐称者であるか又はシステムを使用することに関して検証されてないかを決定するためには、閾値に関して定期的にチェックされる。

（２）．音響モデル・スコア
音響モデル・スコア（高速マッチ・スコア及び詳細マッチ・スコアとしても知られている）及び他の中間出力が音声認識エンジンにおいて内部的に使用され、認識後に廃棄される。言語モデル・スコアと同様に、音響モデル・スコアは、ユーザを特徴付けることに関する情報も含み、所定のタスクに対するスコアの正常範囲からの如何なる偏移も検出され、詐称者を識別するために使用可能である。従って、音響モデルを特徴ベクトルに加えることは有用である。

（３）．自然言語理解（ＮＬＵ）スコア：
ＮＬＵエンジンは「テキスト・ツー・定型コマンド（text-to-formalcommand）」から変換が完了した後に廃棄される内部スコアも生成する。これらのスコアは、ユーザを特徴付ける場合に使用可能な情報も含む。ＮＬＵエンジンは、通常、２つ又はそれ以上のステージ（タグ付けステージ及び変換ステージのようなステージ）を含み、所定のタスクに対する正常範囲からの如何なる逸脱も検出されるように、これらのスコアすべてが、特徴ベクトルに付加可能である。

これらのスコアの他に、定型コマンドの第２選択項目、即ち、タグ付けするという中間ステージからのタグ付けされたセンテンスという第２選択項目のような他の入力も特徴としてエンコード可能である。例えば、ユーザが「スティーブをオープン（Open Steve）」と言うことがある。その結果、それは、スティーブからのメッセージをオープンすることに対応する最高ランクの定型コマンドOpenMessage(name=Steve) 及びスティーブと呼ばれるフォルダをオープンすることに対応する第２選択項目の定型コマンド OpenFolder(folder=Steve)を生じ得る。しかし、詐称者はもっと明晰かも知れず、「スティーブからメッセージをオープンして下さい（Open the message from Steve）」というようなことを言う。この場合、第１選択項目の定型コマンドは同じになりそうだが、第２選択項目のコマンドは異なるかもしれない。

（４）コマンド予測スコア：
ユーザは、ユーザが発するコマンドのシーケンスにおけるパターン及びタスクを達成するためにしばしば使用されるコマンドの結合を示すことが多い。「自然言語ダイアログ・システムのための適応性コマンド予測装置（Adaptive Command Predictor for a Natural Language Dialog System）」と題したG. Ramaswamy 及び J. Kleindienst の両氏により１９９９年１０月３０日に出願された米国特許出願番号第０９/４３１,０３４号において開示されているシステムのような過去の動作に基づいてユーザの次のコマンドを予測するシステムが会話システムの精度を改善するために及びシステムが主導権をとってユーザに次のコマンドを提案するために使用可能である。しかし、これらのアプリケーションのほかに、コマンド予測システムは詐称者を検出する場合にも有用である。実際のユーザによって使用されたことがない（従って、低いコマンド予測スコアを得ると思われる）コマンドを人が発する場合、又は最高ランキング予測のコマンドの部分ではなかった（これもコマンド予測スコアが低いと思われる）一連のコマンドを人が発する場合、通常のコマンド又はコマンド・シーケンスが詐称者の存在を表すことがある。従って、コマンド予測スコアは特徴ベクトルに加えられるべき良好な特徴である。

（５）．発音モデル：
ほとんどの言語において、２つ以上の発音を有する幾つかのワードが存在する。例えば、英語の場合、ワード「the」は、次のような一般的な発音を有する：
｜ＤＨＡＨ
｜ＤＨＡＸ
｜ＤＨＩＹ。

ほとんどのユーザはこれらのワードに対して唯一の発音しか使用しないことが多い。或るワードに関してユーザの望ましい発音を知らない詐称者は別の発音を使用することがある。この場合に詐称者を検出するために、特徴ベクトルは、これらのワードのために使用される発音をエンコードする一組の特徴を含むことがある。

（６）．他の入力スコア：
システムが手書き認識又はイメージ認識のような他の入力形態をサポートする場合、これらの認識エンジンからのスコアは、音声認識からの言語モデル・スコア及び音響モデル・スコアと同様に特徴ベクトルにも追加可能である。

（７）システム応答：
会話システムは、ユーザからの口頭入力を受け入れるのみならず、ユーザとのダイアログを維持し、ユーザに与えられるべき応答を生成する。本発明のシステムは、そのシステムがユーザに対して一般にどのような応答を生成するかを調べ、その情報を使用して詐称者を検出することが可能である。「私はそのメッセージを見つけることができませんでした（I could not find that message）」、「そのような会合はありません（there is no suchmeeting）」、又は「あなたはそのミューチャル・ファンドにおける取り分がありません（you do not own any shares in thatmutual fund）」というような応答は、ユーザがシステムとの従来の対話に関する知識を持たず、潜在的に詐称者であり得るということを意味する。同様に、或るユーザは非常に几帳面であり、更なる明確化を必要としない「これをスティーブ・ジョーンズに送ってください（sendthis to Steve Jones）」というようなコマンドを発し得るが、別のユーザは曖昧であって、明確化のための更なるダイアログを必要とする「これをスティーブに送ってください（sendthis to Steve）」と同じコマンドを発し得る。システムは、「あなたはスティーブ・ジョーンズのことを云っているのですか、それともスティーブ・ブラウンのことを云っているのですか（doyou mean Steve Jones or Steve Brown?）」という形の質問をユーザにプロンプト指示し得る。この場合、実際のユーザよりももっと几帳面であるか或いはもっと曖昧である詐称者が検出可能である。

特徴ベクトルにおける特徴としてシステム応答を使用するために、標準的なシステム応答が種々のカテゴリ（否定応答、肯定応答、確認、明確化等）に入り得るし、応答が生成されるとき、カテゴリの識別が１つの特徴として入り得る。

（８）．マルチモーダル対話モデル：
マルチモーダル入力（音声、キーボード、マウス、手書き、身振り等）をサポートするシステムに対して、ユーザは、一般に使用する入力形態の結合が本発明に従って分析されてタスクを達成し、同じタスクに対する異なるセットの入力形態を使用しようとしている詐称者を検出することが可能である。例えば、或るユーザは、ファイルを保管するために「保管（save）」ボタンをクリックすることを望むことがあり得るし、別のユーザは、このタスクに対する口頭コマンドを使用することを望むことがあり得る。従って、或るタスクを達成するために使用される入力形態を特徴ベクトルにおける追加の特徴として加えることは有用である。

（９）．ダイアログ状態：
或るシステムは、ユーザが任意の所定の時間にオープンされる複数のトランザクションを有することを許容し得る（ユーザは、１つのタスクを終わらせた後でなければ次のタスクに移ってはならないわけではない）。この場合、現在オープンしているトランザクションの数及び最も古いトランザクションが開始した以後に経過した時間を表す特徴が追加可能である。この情報は、所定のユーザの特質を表す特徴ベクトルを構成するためにも使用可能である。ダイアログ状態は、システムにおいて遂行されるアクティビティの使用のタイプ又は期間も含む。例えば、或る特定の使用は、システムにログ・オンするときいつもｅメールをアクセスし得るし、しかる後、株価をチェックし得る。

（１０）．コマンド間の期間：
種々のユーザが種々の速度でシステムと対話し得る。しかし、所定のユーザは、コマンド相互間の期間、例えば、ユーザがコマンド相互間で一時停止する時間において規則性を示すことが多い。従って、最後のコマンドの終了と現在のコマンドの開始との間の期間が１つの特徴として明示的に入力可能である。

上記の特徴はすべて、ユーザがシステムと対話する方法を説明している。利用可能な更なる特徴は、所定のユーザが動作する方法を特徴とするものであってもよい。これらの更なる特徴は、例えば、システムの初期設定時にユーザのシステムによって調整可能であり、特徴ベクトルｖに付属させることも可能である。会話システム１１４は、ｖを計算するために必要なデータをすべて提供する。

特徴抽出装置２０４はユーザからのすべての入力に対して特徴ベクトルｖを抽出し、それを動作データ・ストア２０６及び確率計算装置２１０の両方に送る。動作データ・ストア２０６は、特定のユーザのために収集された特徴ベクトルをすべてストアするために使用され、各許容されたユーザに対する動作モデル２１４を形成するためにモデル構成装置２０８によって使用される。本発明の１つの実施例では、特徴ベクトルのセット（ｖ’s）に対する平均ベクトルｍ及び共分散マトリクスΣのみを含む単純な動作モデルが構成される。この場合、モデル構成装置２０８は、特徴ベクトルｖに関する十分な数のサンプルが収集されてしまったとき、所定のユーザに対する平均ベクトルｍ及び共分散マトリクスΣを計算する。そのプロセスは、十分な数の追加の特徴ベクトルが収集されるとき周期的に繰り返される。平均ベクトルｍ及び共分散マトリクスΣが動作モデル２１４にストアされる。平均ベクトル及び共分散マトリクスの計算はこの分野では既知である。ユーザの動作における如何なる段階的な変化も考慮して、特徴ベクトルが連続的に収集され、動作モデル２１４が周期的なインターバルで更新される。

次に、確率計算装置２１０が、例えば、数２として表された式（２）によって所定の確率Ｐを計算する：

この式（２）は、動作モデル２１４に基づいて所定の入力が適正なユーザから生じた公算を示している。Ｐの値が高いことは、入力が適正な又は許容されたユーザから生じた公算が大きいことに対応するであろう。

確率混合装置２１２は確率スコアＰを持ち、２つのステップを遂行する。先ず、それは、現在の入力及び選択された数の前の入力に対する確率スコアＰのウェート付けされた平均を式（２）から計算する。現在の入力に対する確率スコアがＰ(ｔ)として示され、ｉ番目の前の入力に対するスコアがｉ＝１，．．．，ｍ（但し、ｍは、考慮されるべき前の入力の合計数である）に対してＰ(ｔ−１)として示される場合、確率混合装置２１２は、式（３）によって与えられる現在の例における共分散動作スコアＰ_ｂ(ｔ)を計算する：
（数３）
Ｐ_ｂ(ｔ)＝α_ｔＰ(ｔ)＋α_ｔ−１Ｐ(ｔ−１)＋．．．．＋α_ｔ−ｍＰ(ｔ−ｍ) （３）

なお、式（３）における非負数ウェートα_ｉは、α_ｔ＋α_ｔ−１．．．．．＋α_ｔ―ｍ＝１及びα_ｔ≧α_ｔ−１≧．．．．．≧α_ｔ―ｍ≧０を満足する。ｍの値は、考慮されるべき前の確率スコアの数を決定するシステム・パラメータである。幾つものスコアにわたって平均を取るという目的は、１つの擬似スコアが誤った意思決定を行わせないことを保証することである。

確率混合装置２１２によって行われるべき第２のステップは、動作スコアＰ_ｂ(ｔ)を、音響及びバイオメトリック検証装置１１２（図１）によって与えられた現在の入力に対する音響スコア（及び／又はバイオメトリック・スコア）Ｐ_α(ｔ)と更に混合することである。音響スコアＰ_α(ｔ)は、話者検証において使用される標準的な音響スコアであってもよく、現在のユーザ入力が口頭形式におけるものである場合、現在のユーザ入力から音声サンプルを使用して計算されてもよい。（現在の入力が口頭形式におけるものではない場合、Ｐ_α(ｔ)＝Ｐ_α(ｔ−１)を設定する、即ち、最も近い過去の口頭入力から音響スコアを設定するというような別の近似値が使用されてもよい）。確率混合装置２１２は、式（４）によって与えられる全体スコアＰ_{ｔｏｔａｌ}(ｔ)を計算する：
（数４）
Ｐ_{ｔｏｔａｌ}(ｔ)＝β_ａＰ_ａ(ｔ)＋β_ｂＰ_ｂ(ｔ) （４）

なお、非負数のウェートβ_ｉは、β_α＋β_ｂ＝１を満足する。これは、システム設計者によって選択可能であるが、ユーザが自分の好みに基づいて後で修正することが可能である。

確率混合装置２１２は、Ｐ_{ｔｏｔａｌ}(ｔ)の値を所定の閾値Ｐ_ｔｈに比較し、Ｐ_{ｔｏｔａｌ}(ｔ)＜Ｐ_ｔｈである場合、ユーザが詐称者あるかもしれないというメッセージが音響及びバイオメトリック検証装置１１２に送られる。１つの実施例では、音響及びバイオメトリック検証装置１１２がユーザに割り込みを行い、もっと完全な検証プロセスを行うようにユーザに要請する。更なる検証が失敗する場合、ユーザは、最早、そのシステムを使用することを許されないことがある。更なる検証が成功する場合、確率混合装置２１２によってその後の警告メッセージが発生されるまで、ユーザは、システムと対話することを許される。

別の実施例では、ユーザは、システムと対話し続けることを許されるが、そのシステムにおけるセンシティブな資料へのアクセスを拒否される。資料のセンシティビティはレベルを含み、センシティブな資料へのアクセスのレベルは閾値に関するスコアに基づくこともある。例えば、従業員の或るグループはシステムにアクセスすることを許されるが、或る従業員はセンシティブな資料から排除されなければならない。未許可の従業員をセンシティブな資料から排除するために、従業員の動作を使用することも可能である。

閾値Ｐ_ｔｈは、システム設計者によって選択されることが可能なシステム・パラメータである。しかし、その閾値は、所望のレベルのパフォーマンスに従ってユーザにより修正されることが可能である。

次に、本発明のもう１つの実施例を説明することにする。モデル構成装置２０８は２つ又はそれ以上のモデルを構成し、その集合体が動作モデル２１４にストアされる。これらのモデルの各々を構成するために、例えば、周知のＫミーンズ・クラスタリング（means clustering）アルゴリズムのような任意の標準的なクラスタリング・アルゴリズムを使用して、特徴ベクトルｖの集合体が先ず多数のクラスタに区分化される。各クラスタｉに対して、平均ベクトルｍ_ｉ及び共分散マトリクスΣ_ｉが計算され、式（２）が次の式（５）となるように修正される：

式（３）及び（４）は同じままであるが、それらは、上記式（５）から計算されたＰの値を使用するであろう。特徴ベクトルのクラスタを構成する目的は、例えば，使用される種々のタスク又は種々の装置に対応して、異なる時間に同じユーザによって示され得る種々の動作に適応することである。従って、クラスタリング・アルゴリズムを使用する代わりに、クラスタは、アクセスされるアプリケーション（ｅメール、カレンダ、株式取引等）、アクセス装置（電話、携帯電話、ノートブック・コンピュータ、デスクトップ・コンピュータ、パーソナル・ディジタル・アシスタント等）、或いは、何らかの他の要素のような対話に関連した要素に基づいて明示的に構成可能である。

動作モデル（説明することを意図したものであって、限定することを意図するものではない）を使用して非侵入性の（non-intrusive）話者検証のための方法及びシステムの望ましい実施例を説明したけれども，上記の教示に従ってその分野に精通した人により修正及び変更を行い得ることは勿論である。従って、「請求の範囲」によって概説された本発明の範囲及び精神に含まれる本発明の開示された特定に実施例における変更を行い得ることは理解されるべきである。従って，特許法により要求される詳細及び特徴に従って本発明を説明したけれども，この特許出願によって請求され且つ保護されることが望ましい事項が「請求の範囲」において示される。

本発明に従って動作検証を使用する例示的なシステム／方法のブロック図／流れ図を示す。本発明による例示的な動作検証装置のブロック図を示す。

Claims

ユーザ・アイデンティティを検証するためのシステムであって，
ユーザからの入力を受け取り、前記入力を定型コマンドに変換するための会話システムと，
前記会話システムに結合され、前記入力から特徴を抽出するための動作検証装置と、
を含み，前記特徴は前記ユーザの動作パターンを含み，前記動作検証装置は前記動作パターンを動作モデルに比較し、前記ユーザが前記会話システムと対話することを許容されるかどうかを決定するように適応する、システム。
前記会話システムは、前記入力として受け取られた音声を解釈するための自然言語理解ユニットを含む、請求項１に記載のシステム。
前記入力は、音声、手書き、テキスト、及び身振りの少なくとも１つを含む、請求項１に記載のシステム。
前記動作検証装置は、前記入力から特徴ベクトルを抽出するための特徴抽出装置を含む、請求項１に記載のシステム。
前記特徴ベクトルは、言語モデル・スコア、音響モデル・スコア、及び自然言語理解スコアの少なくとも１つを含む、請求項４に記載のシステム。
前記特徴ベクトルは、コマンド叙述スコア及び発音スコアの少なくとも１つを含む、請求項４に記載のシステム。
前記特徴ベクトルは、前記ユーザに対するシステム応答に関する情報を含む、請求項４に記載のシステム。
前記特徴ベクトルは、ユーザ・コマンド相互間の期間及び前記ユーザと前記会話システムとの間のダイアログ状態の少なくとも１つを含む、請求項４に記載のシステム。
前記特徴ベクトルは、前記ユーザによって使用される入力形態のタイプを含む、請求項４に記載のシステム。
前記動作モデルは複数のモデルを含む、請求項１に記載のシステム。
前記動作検証装置は確率計算装置を含み、前記確率計算装置は、前記ユーザが前記ユーザの動作に基づいて前記会話システムと対話することを許容される第１の確率を計算するように適応する、請求項１に記載のシステム。
前記動作検証装置は、ユーザに対する動作モデルを構成するためのモデル構成装置を含み、前記動作モデルは、動作を前記ユーザの現在の動作に比較するために前記確率計算装置によって使用される、請求項１１に記載のシステム。
前記ユーザからの音響及びバイオメトリック情報を決定し、前記ユーザが前記ユーザの音響又はバイオメトリック情報に基づいて前記会話システムと対話することを許容される第２の確率を決定するための音響及びバイオメトリック検証装置を更に含み、
前記動作検証装置は、前記ユーザが前記会話システムとの対話を許容されることを検証するために前記第１の確率を前記第２の確率と統合するように適応した確率混合装置を含む、請求項１１に記載のシステム。
前記第１の確率は、前記ユーザが前記会話システムを使用することを許容されるかどうかを決定するために閾値確率と比較される、請求項１１に記載のシステム。
動作検証装置を使用して、動作に基づきユーザを検証するための方法であって、
ユーザからの入力を受け取り、前記入力を定型コマンドに変換するための会話システムに前記入力を供給するステップと、
前記ユーザの動作パターンを含む特徴を前記入力から抽出するステップと、
前記動作パターンを動作モデルに比較して、前記ユーザが前記システムと対話することを許容されるかどうかを決定するステップと、
を含む方法。
前記会話システムは自然言語理解ユニットを含み、
前記自然言語ユニットを使用して、前記入力として受け取られた音声を解釈するステップを更に含む、請求項１５に記載の方法。
前記入力は、音声、手書き、テキスト、及び身振りの少なくとも１つを含む、請求項１５に記載の方法。
前記動作検証装置は特徴抽出装置を含み、
前記特徴抽出装置を使用して前記入力から特徴ベクトルを抽出するステップを更に含む、請求項１５に記載の方法。
前記特徴ベクトルは、言語モデル・スコア、音響モデル・スコア、及び自然言語理解スコアの少なくとも１つを含む、請求項１８に記載の方法。
前記特徴ベクトルは、コマンド叙述スコア及び発声スコアの少なくとも１つを含む、請求項１８に記載の方法。
前記特徴ベクトルは前記ユーザに対するシステム応答に関する情報を含む、請求項１８に記載の方法。
前記特徴ベクトルは、ユーザ・コマンド相互間の期間及び前記ユーザと前記システムとの間のダイアログ状態の少なくとも１つを含む、請求項１８に記載の方法。
前記特徴ベクトルは、前記ユーザによって使用される入力形態のタイプを含む、請求項１８に記載の方法。
前記動作検証装置は確率計算装置を含み、
前記ユーザが前記ユーザの動作に基づいて前記システムと対話することを許容されるかどうかを表すための第１の確率を前記確率計算装置において計算するステップを更に含む、請求項１５に記載の方法。
前記動作検証装置はモデル構成装置を含み、
動作をユーザの現在の動作に比較するために前記確率計算装置によって使用される該ユーザに対する動作モデルを構成するステップを更に含む、請求項２４に記載の方法。
音響及びバイオメトリック検証装置によって決定された前記ユーザの音響及びバイオメトリック情報に基づいて、前記ユーザが前記システムと対話することを許容されるかどうかを表すための第２の確率を決定するステップと、
前記ユーザが前記システムとの対話を許容されることを検証するために、確率混合装置を使用することによって前記第１の確率を前記第２の確率と統合するステップと、
を含む、請求項２４に記載の方法。
前記ユーザが前記システムを使用することを許容されるかどうかを決定するために前記第１の確率が閾値確率に比較される、請求項２４に記載の方法。
動作検証装置を使用して、動作に基づきユーザを検証するための方法ステップを遂行するためにマシンにより実行し得るプログラム命令を具体的に実施する、前記マシンにより読み取り可能なプログラム・ストレージ・デバイスであって、前記方法ステップは、
ユーザからの入力を受け取り、前記入力を定型コマンドに変換するための会話なシステムに前記入力を供給するステップと、
前記ユーザの動作パターンを含む特徴を前記入力から抽出するステップと、
前記動作パターンを動作モデルに比較して、前記ユーザが前記システムと対話することを許容されるかどうかを決定するステップと
を含む、プログラム・ストレージ・デバイス。
前記会話システムは自然言語理解ユニットを含み、
前記方法ステップは、前記自然言語理解ユニットを使用して、前記入力として受け取られた音声を解釈するステップを更に含む、請求項２８に記載のプログラム・ストレージ・デバイス。
前記入力は、音声、手書き、テキスト、及び身振りの少なくとも１つを含む、請求項２８に記載のプログラム・ストレージ・デバイス。
前記動作検証装置は特徴抽出装置を含み、
前記方法ステップは、前記特徴抽出装置を使用して前記入力から特徴ベクトルを抽出するステップを更に含む、請求項２８に記載のプログラム・ストレージ・デバイス。
前記特徴ベクトルは、言語モデル・スコア、音響モデル・スコア、及び自然言語理解スコアの少なくとも１つを含む、請求項３１に記載のプログラム・ストレージ・デバイス。
前記特徴ベクトルは、コマンド叙述スコア及び発声スコアの少なくとも１つを含む、請求項３１記載のプログラム・ストレージ・デバイス。
前記特徴ベクトルは前記ユーザに対するシステム応答に関する情報を含む、請求項３１記載のプログラム・ストレージ・デバイス。
前記特徴ベクトルは、ユーザ・コマンド相互間の期間及び前記ユーザと前記システムとの間のダイアログ状態の少なくとも１つを含む、請求項３１記載のプログラム・ストレージ・デバイス。
前記特徴ベクトルは、前記ユーザによって使用される入力形態のタイプを含む、請求項３１に記載のプログラム・ストレージ・デバイス。
前記動作検証装置は確率計算装置を含み、
前記方法ステップは、前記ユーザが前記ユーザの動作に基づいて前記システムと対話することを許容されるかどうかを表すための第１の確率を前記確率計算装置において計算するステップを更に含む、請求項２８に記載のプログラム・ストレージ・デバイス。
前記動作検証装置はモデル構成装置を含み、
前記方法ステップは、動作をユーザの現在の動作に比較するために前記確率計算装置によって使用される該ユーザに対する動作モデルを構成するステップを更に含む、請求項３７に記載のプログラム・ストレージ・デバイス。
前記方法ステップは、更に、
音響及びバイオメトリック検証装置によって決定された前記ユーザの音響及びバイオメトリック情報に基づいて、前記ユーザが前記システムと対話することを許容されるかどうかを表すための第２の確率を決定するステップと、
前記ユーザが前記システムとの対話を許容されることを検証するために、確率混合装置を使用することによって前記第１の確率を前記第２の確率と統合するステップと、
を含む、請求項３７に記載のプログラム・ストレージ・デバイス。
前記ユーザが前記システムを使用することを許容されるかどうかを決定するために前記第１の確率が閾値確率に比較される、請求項３７に記載のプログラム・ストレージ・デバイス。