JP2005512246A - 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム - Google Patents

動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム Download PDF

Info

Publication number
JP2005512246A
JP2005512246A JP2003551774A JP2003551774A JP2005512246A JP 2005512246 A JP2005512246 A JP 2005512246A JP 2003551774 A JP2003551774 A JP 2003551774A JP 2003551774 A JP2003551774 A JP 2003551774A JP 2005512246 A JP2005512246 A JP 2005512246A
Authority
JP
Japan
Prior art keywords
user
probability
input
behavior
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003551774A
Other languages
English (en)
Other versions
JP4143541B2 (ja
Inventor
ラマスワミ、ガネッシュ、エヌ
チャウダリ、アペンドラ、ブイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority claimed from PCT/US2001/047910 external-priority patent/WO2003050799A1/en
Publication of JP2005512246A publication Critical patent/JP2005512246A/ja
Application granted granted Critical
Publication of JP4143541B2 publication Critical patent/JP4143541B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/316User authentication by observing the pattern of computer usage, e.g. typical user behaviour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Collating Specific Patterns (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】
ユーザのアイデンティティを検証するためのシステム及び方法を提供する。
【解決手段】
本発明によるシステムは、ユーザ(110)からの入力を受けとってその入力を提携コマンドに変換するための会話システム(114)を含む。入力から特徴を抽出するための動作検証装置(118)が会話システム(114)に結合される。それらの特徴はユーザの動作パターンを含む。動作検証装置(118)は、入力された動作を動作モデル(214)に比較して、ユーザが会話システムと対話することを許容されるかどうかを決定する。

Description

本発明は、自然言語理解(natural languageunderstanding)システムに関し、より詳しく云えば、ユーザの動作(behavior)に基づいて煩雑的でなく(non-intrusively)ユーザを検証するための方法及びシステムに関するものである。
話者を検証(識別)するための伝統的な方法は、検証だけを目的としたユーザからの特定的な入力に依存している。これらの方法は、音声サンプルを提供すること及びバイオメトリック(biometric)質問に答えることを含むことがある。一旦検証されると、話者はターゲット・システムにアクセスすることを許され、一般に、それ以上の検証は行われない。たとえ更なる検証が行われるにしても、それは、検証を目的としたユーザからのより具体的な入力を必要とする。これは、ユーザにとって煩雑である。
従来技術の話者検証システム(又は、口頭入力形態(spokeninput modality)でないシステムのためのユーザ検証システム)は、下記の基準の1つ又はそれ以上に基づいて所与のユーザのアイデンティティを検証する:
1.ユーザの音声、指紋、手書き等によって決定可能である、そのユーザが誰であるかということ、
2.パスワード、又は或るバイオメトリック質問(例えば、母親の旧姓が何であるか)に対する返答によって決定可能である、ユーザが知っているもの、
3.識別ドキュメント、キー、特定の番号を持った携帯電話等のような、ユーザが所持しているもの。
検証のための上記方法はすべて、偽者がキー又は旧姓等のような情報を知っているか又は所持している場合に打ち破られることがある。
従って、ユーザの動作に基づいてユーザのアイデンティティを決定するための方法及びシステムに対する要求が存在する。更に、煩雑でないユーザ検証システムに対する要求も存在する。
本発明によるユーザ・アイデンティティを検証するためのシステムは、ユーザから入力を受け、それらの入力を定型コマンドに変換するための一般的なシステムを含む。それらの入力から特徴を抽出するための動作検証装置(behavior verifier)がその一般的なシステムに結合される。それらの特徴は、ユーザの動作パターンを含む。動作検証装置は、入力された動作を動作モデルと比較することによってユーザがそのシステムと対話することを許容されるかどうかを決定するように適応する。
別の実施例では、会話システムが、入力として受け取った音声を解釈するための自然言語理解ユニットを含み得る。それらの入力は、音声、手書き、テキスト、及び身振りの少なくとも1つを含み得る。動作検証装置は、入力から特徴ベクトルを抽出するための特徴抽出装置を含み得る。特徴ベクトルは、言語モデル・スコア、音響モデル・スコア、自然言語理解スコア、コマンド叙述スコア、及び(又は)発音スコアの少なくとも1つを含み得る。特徴ベクトルは、ユーザに対するシステム応答に関する情報、ユーザ・コマンド間の期間及びユーザとシステムとの間のダイアログ状態、及び(又は)ユーザによって使用される入力形態のタイプの少なくとも1つを含み得る。動作モデルは複数のモデルを含み得る。動作検証装置は、確率計算装置を含み得る。確率計算装置は、ユーザがそのユーザの動作に基づいてシステムと対話することを許容される第1の確率を計算するように適応可能である。動作検証装置は、ユーザに対する動作モデルを構成するためのモデル構成装置を含み得る。動作モデルは、動作をユーザの現在の動作に比較するために確率計算装置によって使用される。システムは、更に、ユーザからの音響及びバイオメトリック情報を決定するための及びユーザがそのユーザの音響又はバイオメトリック情報に基づいてシステムと対話することを許容される第2の確率を決定するための音響及びバイオメトリック検証装置を含み得る。動作検証装置は、ユーザがシステムと対話することを許容されることを検証するために第1の確率を第2の確率と統合するように適応した確率混合装置を含み得る。第1の確率は、ユーザがシステムを使用することを許容されるかどうかを決定するために閾値確率に比較可能である。
本発明によれば、動作に基づきユーザを検証するための方法は、ユーザから入力を受け取ってその入力を定型コマンドに変換するための会話システムにその入力を供給するステップと、ユーザの動作パターンを含む特徴をその入力から抽出するステップと、入力された動作を動作モデルに比較して、ユーザがシステムと対話することを許容されるかどうかを決定するステップとを含む。
別の方法では、一般的なシステムは自然言語理解ユニットを含み得るし、その方法は、更に、入力として受け取った音声を解釈するステップを含み得る。入力は、音声、手書き、テキスト、及び身振りの少なくとも1つを含み得る。特徴ベクトルは、言語モデル・スコア、音響モデル・スコア、自然言語理解スコア、コマンド叙述スコア、及び(又は)発音スコアの少なくとも1つを含み得る。特徴ベクトルは、ユーザに対するシステム応答に関する情報、ユーザ・コマンド相互間の期間及びユーザとシステムとの間のダイアログ状態、及び(又は)ユーザによって使用される入力形態のタイプの少なくとも1つを含み得る。動作検証装置は確率計算装置を含み得るし、その方法は、ユーザがそのユーザの動作に基づいてシステムと対話することを許容されるかどうかを表すための第1の確率を確率計算装置において計算するステップを含み得る。
更に別の方法では、動作検証装置はモデル構成装置を含み得る。その方法は、ユーザに対する動作モデルを構成するステップを含み得るし、その動作モデルは、動作をユーザの現在の動作に比較するために確率計算装置によって使用される。ユーザからの音響及びバイオメトリック情報を決定するための音響及びバイオメトリック検証装置を含むことも可能である。その方法は、更に、ユーザがそのユーザの音響又はバイオメトリック情報に基づいてシステムと対話することを許容されるかどうかを表すための第2の確率を決定し、ユーザがシステムと対話することを許容されることを検証するために、確率混合装置を使用することによって第1の確率を第2の確率と統合するステップを含む。ユーザがシステムを使用することを許容されるかどうかを決定するために、第1の確率を閾値確率と比較することが可能である。本発明の方法及び方法ステップは、マシンにより読み取り可能なプログラム・ストレージ・デバイスによって実装可能である。動作に基づいてユーザを検証するための方法ステップを遂行するようにマシンによって実行可能な命令のプログラムを具体的に実施可能である。
本発明に関するこれらの及び他の目的、特徴、及び利点は、添付図面と関連して読まれるべき本発明の実施例に関する以下の詳細な説明から明らかとなるであろう。
本発明は、ユーザがターゲット・システムと対話する方法に基づいてユーザのアイデンティティを連続的に検証するための方法及びシステムを提供する。これは、ユーザの現在の動作を過去の動作と比較することによって遂行可能である。ユーザからの更なる専用的な入力は(初期検証のために使用されるもの以外は)必要なく、従って、システムは煩雑ではない。更に、検証が連続的に行われ、そしてセッションの途中においてユーザを拒否するための十分な証拠が得られる場合、それ以上の損傷が与えられる前にユーザをカットオフすることが可能である。
別の実施例では、初期検証さえも必要なく、すべてのユーザが(例えば、非機密情報に対する)ベース・レベルのアクセスを与えられ、煩雑ではないプロセスを介した更なる検証時に、フル・アクセスが与えられることが可能である。
本発明では、話者(又は、ユーザ)検証パラダイムに対する新たなディメンジョンが、新たな基準:「ユーザがどのようにふるまうか(howthe user behaves)」を導入することによって与えられる。例えば、通常「ハウディ(Howdy)」と言って挨拶するユーザは、「ハロー(Hello)」又は「ハウ・アー・ユー(Howare you)」と言って挨拶する詐称者、又は何の挨拶もなしに対話を始める詐称者から区別可能である。同様に、幾つもの機密ドキュメントをサーチしようとする詐称者は、一般にはそのようなサーチを行わない正当なユーザから区別可能である。システムとのどれか1つの対話は意思決定するに不十分であるかもしれないけれども、ユーザとシステムとの対話の後に収集された情報が有効な検証判断を行うに十分であるかもしれない。
本発明の利点の1つは、検証という唯一の目的のために期待されるユーザからの更なる専用的な入力がないという意味で煩雑でないことであり、しかも検証のために必要な情報がバックグラウンド・プロセスによって自動的に収集されることによって、ユーザが通常のようにシステムと対話し得るということである。ユーザの現在の動作と既知の過去の動作との比較もまた、ユーザにとって如何なる煩雑さ又は不便さもなくシステムによって自動的に完了する。
図1及び図2に示された素子が、ハードウェア、ソフトウェア、又はそれらの結合という種々の形で実装可能であるということは理解されるべきである。望ましくは、これらの素子は、プロセッサ、メモリ、及び入出力インターフェースを有する1つ又はそれ以上の適切にプログラムされた汎用ディジタル・コンピュータにおいてソフトウェアとして実施される。次に、同じ参照番号が同等又は同様の素子を表す図面、先ず、図1を参照すると、本発明に従って動作検証を使用するための例示的なシステム/方法が示される。話者検証を必要とするターゲット・システム100は、ユーザ110がそのシステムと対話する方法に関連した幾つかのパラメータを提供できることが望ましい。例えば、システム100は、ユーザ110が、タイプされたテキスト、口頭の音声、手書きされた入力、身振り等のような幾つもの異なる入力形態を使用してそのシステムと対話することを可能にし得る。自然言語理解及びダイアログ管理を伴う、音声認識、手書き認識、及びイメージ認識のようなテクノロジが、ユーザ入力を解釈するために、及びシステム100のコンピュータによる実行に適した形にそれを変換するために、システム100によって使用可能である。システム100は、電子メール、電子カレンダ、バンキング、株式または投資信託売買、旅行サービス、スプレッドシート、プログラムの編集等のような数多くの種々のアプリケーション116に接続し得るし、ユーザがこれらのアプリケーションと対話することを可能にする。システム100は、音声認識又は自然言語理解に関するパラメータのような、ユーザがそのシステムと対話する方法を記述するに必要なパラメータも提供可能である。
図1に示されるように、動作検証装置118を含むシステム100の例が示される。ユーザ110からの入力は、口頭の音声であることを期待されるが、それは、手書き入力、タイプされたテキスト、又は身振りのような他の何らかの形態であってもよい。口頭の入力が使用されるとき、会話システム114が先ず、その分野では知られている音声認識エンジン113を使用してその口頭の音声をテキストに変換する。例えば、アプリケーション116が電子メール・アプリケーションである場合、ユーザは「何か新しいメッセージがありますか(do I have any new messages)というかも知れず、その口頭の音声は、音声認識エンジンによって対応するテキスト・ストリングに変換される。手書き入力のような口頭形式でない入力も、その分野で知られている、例えば、手書き認識エンジンの如き他の認識エンジン117のような適正なテクノロジを使用して対応するテキスト・ストリングに変換される。これは、専有の認識エンジンが使用される身振り又は他の形態を解釈することに対しても当てはまる。この方法では、すべての入力が、システム100にとって理解される認識可能な形式に変換される。
次に、テキスト・ストリング又は他のフォーマットされた信号が自然言語理解(Natural Language Understanding : NLU)エンジン115によって分析され、アプリケーション116においてシステム100による実行に適した定型コマンドに変換される。例えば、「何か新しいメッセージがありますか(doI have any new messages)」又は「私のメールボックスをチェックして頂けますか(can you check my mailbox)」というような同じ意味を有する文章が定型コマンドのフォーム:checkNewMail()に変換可能である。次に、その定型コマンドがそのコマンドの実行のためにアプリケーション116に提示される。ユーザとのダイアログを管理するために、及び曖昧リゾリューション(ambiguityresolution)のような他の機能を遂行するために、ダイアログ・エンジン又はダイアログ・マネージャ120も使用可能である。
従って、会話システムは、音声及び他の入力認識エンジン、自然言語理解エンジン(NLU)115、及びダイアログ・エンジン120を含み得る。会話システムを形成するための方法はその分野において知られている。
システム100には音響及びバイオメトリック検証装置112が含まれる。音響及びバイオメトリック検証装置112は、ユーザ110のアイデンティティを識別及び検証することに寄与する。検証は、ユーザ110がシステム100をアクセスすることを可能にする前に名目的に遂行される。検証プロセスは、所定のユーザであることを主張する人の音響署名(acoustic signature)をその主張したユーザの既知の音響署名に突き合わせることを含み得る。なお、それは音響検証プロセスである。検証プロセスは、バイオメトリック検証も含み得る。それによって、そのユーザであることを主張する人がパスワード、母親の旧姓、社会的保障番号(socialsecurity number)等のような特定の質問に対する回答をプロンプト指示される。音響及びバイオメトリック検証のための方法はその分野では周知である。
動作検証装置118は、本発明によれば、使用中、ユーザのアイデンティティの追加検証を連続して遂行することに寄与する。図2に関連して、動作検証装置118の詳細を以下で説明する。動作検証装置118は、会話システム114並びに音響及びバイオメトリック検証装置112の両方から入力を受け、それの出力を音響及びバイオメトリック検証装置112に供給する。
図2を参照すると、特徴抽出装置204は、一般的なシステム114によって供給されたデータから1セットの特徴を抽出し、次式(数1)のようにn個の特徴を含む特徴ベクトルvを構成することに寄与する:
(数1)
v = [v.....v](1)
nの値は、システム設計者によって選択されなければならず、システムにとって必要な精度のタイプ及び認識のタイプに依存し得る。特徴抽出装置によって抽出された特徴 v.....vは、1つ又はそれ以上の下記のような特徴又は他の同様の特徴を含み得る。下記の特徴は、例示的なものであり、本発明を限定するものと解されるべきではない。更に、本願において開示された特徴は、本発明に従って適切な特徴ベクトルを決定するために単独で又は他の特徴と結合して使用可能である。これらの特徴は、下記の(1)乃至(10)の特徴における1つ又はそれ以上を含み得る。
(1).言語モデル・スコア:
音声認識エンジンが1つの言語モデル又は1セットの言語モデルを使用して認識を行う。2つ以上の言語モデルが使用されるとき、それらのモデルの幾つかが所定のユーザに対して個別設定される(それは、所定のユーザによって頻繁に話されるワード及びフレーズを使用して形成されるパーソナル・キャッシュとして知られている)。言語モデル・スコアは内部的に生成及び使用され、認識が完了した後に廃棄される。しかし、これらのスコアは、特に、頻繁に使用されるワード及びフレーズの選択に関してユーザを特徴付けることができる情報を保持する。例えば、ユーザが普通に「口述開始(begin dictation)」と言う場合、「このメッセージ用のテキストを作りましょう(let us create the textfor this message)」という詐称者を検出することが可能である。同様に、いつも簡潔且つ最適なフレーズを使用してコマンドを発するユーザは、長い文章を使用する詐称者から区別可能である。従って、言語モデル・スコアは、特徴ベクトル内に特徴として保管及び組み込み可能である。単一のフレーズ又は複数のフレーズに基づいて詐称者を拒絶する必要がないことは注目されるべきである。その代わり、累積的な動作スコアが所定のユーザ・セッションに対して維持され、ユーザが詐称者であるか又はシステムを使用することに関して検証されてないかを決定するためには、閾値に関して定期的にチェックされる。
(2).音響モデル・スコア
音響モデル・スコア(高速マッチ・スコア及び詳細マッチ・スコアとしても知られている)及び他の中間出力が音声認識エンジンにおいて内部的に使用され、認識後に廃棄される。言語モデル・スコアと同様に、音響モデル・スコアは、ユーザを特徴付けることに関する情報も含み、所定のタスクに対するスコアの正常範囲からの如何なる偏移も検出され、詐称者を識別するために使用可能である。従って、音響モデルを特徴ベクトルに加えることは有用である。
(3).自然言語理解(NLU)スコア:
NLUエンジンは「テキスト・ツー・定型コマンド(text-to-formalcommand)」から変換が完了した後に廃棄される内部スコアも生成する。これらのスコアは、ユーザを特徴付ける場合に使用可能な情報も含む。NLUエンジンは、通常、2つ又はそれ以上のステージ(タグ付けステージ及び変換ステージのようなステージ)を含み、所定のタスクに対する正常範囲からの如何なる逸脱も検出されるように、これらのスコアすべてが、特徴ベクトルに付加可能である。
これらのスコアの他に、定型コマンドの第2選択項目、即ち、タグ付けするという中間ステージからのタグ付けされたセンテンスという第2選択項目のような他の入力も特徴としてエンコード可能である。例えば、ユーザが「スティーブをオープン(Open Steve)」と言うことがある。その結果、それは、スティーブからのメッセージをオープンすることに対応する最高ランクの定型コマンドOpenMessage(name=Steve) 及びスティーブと呼ばれるフォルダをオープンすることに対応する第2選択項目の定型コマンド OpenFolder(folder=Steve)を生じ得る。しかし、詐称者はもっと明晰かも知れず、「スティーブからメッセージをオープンして下さい(Open the message from Steve)」というようなことを言う。この場合、第1選択項目の定型コマンドは同じになりそうだが、第2選択項目のコマンドは異なるかもしれない。
(4)コマンド予測スコア:
ユーザは、ユーザが発するコマンドのシーケンスにおけるパターン及びタスクを達成するためにしばしば使用されるコマンドの結合を示すことが多い。「自然言語ダイアログ・システムのための適応性コマンド予測装置(Adaptive Command Predictor for a Natural Language Dialog System)」と題したG. Ramaswamy 及び J. Kleindienst の両氏により1999年10月30日に出願された米国特許出願番号第09/431,034号において開示されているシステムのような過去の動作に基づいてユーザの次のコマンドを予測するシステムが会話システムの精度を改善するために及びシステムが主導権をとってユーザに次のコマンドを提案するために使用可能である。しかし、これらのアプリケーションのほかに、コマンド予測システムは詐称者を検出する場合にも有用である。実際のユーザによって使用されたことがない(従って、低いコマンド予測スコアを得ると思われる)コマンドを人が発する場合、又は最高ランキング予測のコマンドの部分ではなかった(これもコマンド予測スコアが低いと思われる)一連のコマンドを人が発する場合、通常のコマンド又はコマンド・シーケンスが詐称者の存在を表すことがある。従って、コマンド予測スコアは特徴ベクトルに加えられるべき良好な特徴である。
(5).発音モデル:
ほとんどの言語において、2つ以上の発音を有する幾つかのワードが存在する。例えば、英語の場合、ワード「the」は、次のような一般的な発音を有する:
|DH AH
|DH AX
|DH IY。
ほとんどのユーザはこれらのワードに対して唯一の発音しか使用しないことが多い。或るワードに関してユーザの望ましい発音を知らない詐称者は別の発音を使用することがある。この場合に詐称者を検出するために、特徴ベクトルは、これらのワードのために使用される発音をエンコードする一組の特徴を含むことがある。
(6).他の入力スコア:
システムが手書き認識又はイメージ認識のような他の入力形態をサポートする場合、これらの認識エンジンからのスコアは、音声認識からの言語モデル・スコア及び音響モデル・スコアと同様に特徴ベクトルにも追加可能である。
(7)システム応答:
会話システムは、ユーザからの口頭入力を受け入れるのみならず、ユーザとのダイアログを維持し、ユーザに与えられるべき応答を生成する。本発明のシステムは、そのシステムがユーザに対して一般にどのような応答を生成するかを調べ、その情報を使用して詐称者を検出することが可能である。「私はそのメッセージを見つけることができませんでした(I could not find that message)」、「そのような会合はありません(there is no suchmeeting)」、又は「あなたはそのミューチャル・ファンドにおける取り分がありません(you do not own any shares in thatmutual fund)」というような応答は、ユーザがシステムとの従来の対話に関する知識を持たず、潜在的に詐称者であり得るということを意味する。同様に、或るユーザは非常に几帳面であり、更なる明確化を必要としない「これをスティーブ・ジョーンズに送ってください(sendthis to Steve Jones)」というようなコマンドを発し得るが、別のユーザは曖昧であって、明確化のための更なるダイアログを必要とする「これをスティーブに送ってください(sendthis to Steve)」と同じコマンドを発し得る。システムは、「あなたはスティーブ・ジョーンズのことを云っているのですか、それともスティーブ・ブラウンのことを云っているのですか(doyou mean Steve Jones or Steve Brown?)」という形の質問をユーザにプロンプト指示し得る。この場合、実際のユーザよりももっと几帳面であるか或いはもっと曖昧である詐称者が検出可能である。
特徴ベクトルにおける特徴としてシステム応答を使用するために、標準的なシステム応答が種々のカテゴリ(否定応答、肯定応答、確認、明確化等)に入り得るし、応答が生成されるとき、カテゴリの識別が1つの特徴として入り得る。
(8).マルチモーダル対話モデル:
マルチモーダル入力(音声、キーボード、マウス、手書き、身振り等)をサポートするシステムに対して、ユーザは、一般に使用する入力形態の結合が本発明に従って分析されてタスクを達成し、同じタスクに対する異なるセットの入力形態を使用しようとしている詐称者を検出することが可能である。例えば、或るユーザは、ファイルを保管するために「保管(save)」ボタンをクリックすることを望むことがあり得るし、別のユーザは、このタスクに対する口頭コマンドを使用することを望むことがあり得る。従って、或るタスクを達成するために使用される入力形態を特徴ベクトルにおける追加の特徴として加えることは有用である。
(9).ダイアログ状態:
或るシステムは、ユーザが任意の所定の時間にオープンされる複数のトランザクションを有することを許容し得る(ユーザは、1つのタスクを終わらせた後でなければ次のタスクに移ってはならないわけではない)。この場合、現在オープンしているトランザクションの数及び最も古いトランザクションが開始した以後に経過した時間を表す特徴が追加可能である。この情報は、所定のユーザの特質を表す特徴ベクトルを構成するためにも使用可能である。ダイアログ状態は、システムにおいて遂行されるアクティビティの使用のタイプ又は期間も含む。例えば、或る特定の使用は、システムにログ・オンするときいつもeメールをアクセスし得るし、しかる後、株価をチェックし得る。
(10).コマンド間の期間:
種々のユーザが種々の速度でシステムと対話し得る。しかし、所定のユーザは、コマンド相互間の期間、例えば、ユーザがコマンド相互間で一時停止する時間において規則性を示すことが多い。従って、最後のコマンドの終了と現在のコマンドの開始との間の期間が1つの特徴として明示的に入力可能である。
上記の特徴はすべて、ユーザがシステムと対話する方法を説明している。利用可能な更なる特徴は、所定のユーザが動作する方法を特徴とするものであってもよい。これらの更なる特徴は、例えば、システムの初期設定時にユーザのシステムによって調整可能であり、特徴ベクトルvに付属させることも可能である。会話システム114は、vを計算するために必要なデータをすべて提供する。
特徴抽出装置204はユーザからのすべての入力に対して特徴ベクトルvを抽出し、それを動作データ・ストア206及び確率計算装置210の両方に送る。動作データ・ストア206は、特定のユーザのために収集された特徴ベクトルをすべてストアするために使用され、各許容されたユーザに対する動作モデル214を形成するためにモデル構成装置208によって使用される。本発明の1つの実施例では、特徴ベクトルのセット(v’s)に対する平均ベクトルm及び共分散マトリクスΣのみを含む単純な動作モデルが構成される。この場合、モデル構成装置208は、特徴ベクトルvに関する十分な数のサンプルが収集されてしまったとき、所定のユーザに対する平均ベクトルm及び共分散マトリクスΣを計算する。そのプロセスは、十分な数の追加の特徴ベクトルが収集されるとき周期的に繰り返される。平均ベクトルm及び共分散マトリクスΣが動作モデル214にストアされる。平均ベクトル及び共分散マトリクスの計算はこの分野では既知である。ユーザの動作における如何なる段階的な変化も考慮して、特徴ベクトルが連続的に収集され、動作モデル214が周期的なインターバルで更新される。
次に、確率計算装置210が、例えば、数2として表された式(2)によって所定の確率Pを計算する:
Figure 2005512246
この式(2)は、動作モデル214に基づいて所定の入力が適正なユーザから生じた公算を示している。Pの値が高いことは、入力が適正な又は許容されたユーザから生じた公算が大きいことに対応するであろう。
確率混合装置212は確率スコアPを持ち、2つのステップを遂行する。先ず、それは、現在の入力及び選択された数の前の入力に対する確率スコアPのウェート付けされた平均を式(2)から計算する。現在の入力に対する確率スコアがP(t)として示され、i番目の前の入力に対するスコアがi=1,...,m(但し、mは、考慮されるべき前の入力の合計数である)に対してP(t−1)として示される場合、確率混合装置212は、式(3)によって与えられる現在の例における共分散動作スコアP(t)を計算する:
(数3)
(t)=αP(t)+αt−1P(t−1)+....+αt−mP(t−m) (3)
なお、式(3)における非負数ウェートαは、α+αt−1 .....+αt―m=1及びα≧αt−1≧.....≧αt―m≧0を満足する。mの値は、考慮されるべき前の確率スコアの数を決定するシステム・パラメータである。幾つものスコアにわたって平均を取るという目的は、1つの擬似スコアが誤った意思決定を行わせないことを保証することである。
確率混合装置212によって行われるべき第2のステップは、動作スコアP(t)を、音響及びバイオメトリック検証装置112(図1)によって与えられた現在の入力に対する音響スコア(及び/又はバイオメトリック・スコア)Pα(t)と更に混合することである。音響スコアPα(t)は、話者検証において使用される標準的な音響スコアであってもよく、現在のユーザ入力が口頭形式におけるものである場合、現在のユーザ入力から音声サンプルを使用して計算されてもよい。(現在の入力が口頭形式におけるものではない場合、Pα(t)=Pα(t−1)を設定する、即ち、最も近い過去の口頭入力から音響スコアを設定するというような別の近似値が使用されてもよい)。確率混合装置212は、式(4)によって与えられる全体スコアPtotal(t)を計算する:
(数4)
total(t)=β(t)+β(t) (4)
なお、非負数のウェートβは、βα+β=1を満足する。これは、システム設計者によって選択可能であるが、ユーザが自分の好みに基づいて後で修正することが可能である。
確率混合装置212は、Ptotal(t)の値を所定の閾値Pthに比較し、Ptotal(t)<Pthである場合、ユーザが詐称者あるかもしれないというメッセージが音響及びバイオメトリック検証装置112に送られる。1つの実施例では、音響及びバイオメトリック検証装置112がユーザに割り込みを行い、もっと完全な検証プロセスを行うようにユーザに要請する。更なる検証が失敗する場合、ユーザは、最早、そのシステムを使用することを許されないことがある。更なる検証が成功する場合、確率混合装置212によってその後の警告メッセージが発生されるまで、ユーザは、システムと対話することを許される。
別の実施例では、ユーザは、システムと対話し続けることを許されるが、そのシステムにおけるセンシティブな資料へのアクセスを拒否される。資料のセンシティビティはレベルを含み、センシティブな資料へのアクセスのレベルは閾値に関するスコアに基づくこともある。例えば、従業員の或るグループはシステムにアクセスすることを許されるが、或る従業員はセンシティブな資料から排除されなければならない。未許可の従業員をセンシティブな資料から排除するために、従業員の動作を使用することも可能である。
閾値Pthは、システム設計者によって選択されることが可能なシステム・パラメータである。しかし、その閾値は、所望のレベルのパフォーマンスに従ってユーザにより修正されることが可能である。
次に、本発明のもう1つの実施例を説明することにする。モデル構成装置208は2つ又はそれ以上のモデルを構成し、その集合体が動作モデル214にストアされる。これらのモデルの各々を構成するために、例えば、周知のKミーンズ・クラスタリング(means clustering)アルゴリズムのような任意の標準的なクラスタリング・アルゴリズムを使用して、特徴ベクトルvの集合体が先ず多数のクラスタに区分化される。各クラスタiに対して、平均ベクトルm及び共分散マトリクスΣが計算され、式(2)が次の式(5)となるように修正される:
Figure 2005512246
式(3)及び(4)は同じままであるが、それらは、上記式(5)から計算されたPの値を使用するであろう。特徴ベクトルのクラスタを構成する目的は、例えば,使用される種々のタスク又は種々の装置に対応して、異なる時間に同じユーザによって示され得る種々の動作に適応することである。従って、クラスタリング・アルゴリズムを使用する代わりに、クラスタは、アクセスされるアプリケーション(eメール、カレンダ、株式取引等)、アクセス装置(電話、携帯電話、ノートブック・コンピュータ、デスクトップ・コンピュータ、パーソナル・ディジタル・アシスタント等)、或いは、何らかの他の要素のような対話に関連した要素に基づいて明示的に構成可能である。
動作モデル(説明することを意図したものであって、限定することを意図するものではない)を使用して非侵入性の(non-intrusive)話者検証のための方法及びシステムの望ましい実施例を説明したけれども,上記の教示に従ってその分野に精通した人により修正及び変更を行い得ることは勿論である。従って、「請求の範囲」によって概説された本発明の範囲及び精神に含まれる本発明の開示された特定に実施例における変更を行い得ることは理解されるべきである。従って,特許法により要求される詳細及び特徴に従って本発明を説明したけれども,この特許出願によって請求され且つ保護されることが望ましい事項が「請求の範囲」において示される。
本発明に従って動作検証を使用する例示的なシステム/方法のブロック図/流れ図を示す。 本発明による例示的な動作検証装置のブロック図を示す。

Claims (40)

  1. ユーザ・アイデンティティを検証するためのシステムであって,
    ユーザからの入力を受け取り、前記入力を定型コマンドに変換するための会話システムと,
    前記会話システムに結合され、前記入力から特徴を抽出するための動作検証装置と、
    を含み,前記特徴は前記ユーザの動作パターンを含み,前記動作検証装置は前記動作パターンを動作モデルに比較し、前記ユーザが前記会話システムと対話することを許容されるかどうかを決定するように適応する、システム。
  2. 前記会話システムは、前記入力として受け取られた音声を解釈するための自然言語理解ユニットを含む、請求項1に記載のシステム。
  3. 前記入力は、音声、手書き、テキスト、及び身振りの少なくとも1つを含む、請求項1に記載のシステム。
  4. 前記動作検証装置は、前記入力から特徴ベクトルを抽出するための特徴抽出装置を含む、請求項1に記載のシステム。
  5. 前記特徴ベクトルは、言語モデル・スコア、音響モデル・スコア、及び自然言語理解スコアの少なくとも1つを含む、請求項4に記載のシステム。
  6. 前記特徴ベクトルは、コマンド叙述スコア及び発音スコアの少なくとも1つを含む、請求項4に記載のシステム。
  7. 前記特徴ベクトルは、前記ユーザに対するシステム応答に関する情報を含む、請求項4に記載のシステム。
  8. 前記特徴ベクトルは、ユーザ・コマンド相互間の期間及び前記ユーザと前記会話システムとの間のダイアログ状態の少なくとも1つを含む、請求項4に記載のシステム。
  9. 前記特徴ベクトルは、前記ユーザによって使用される入力形態のタイプを含む、請求項4に記載のシステム。
  10. 前記動作モデルは複数のモデルを含む、請求項1に記載のシステム。
  11. 前記動作検証装置は確率計算装置を含み、前記確率計算装置は、前記ユーザが前記ユーザの動作に基づいて前記会話システムと対話することを許容される第1の確率を計算するように適応する、請求項1に記載のシステム。
  12. 前記動作検証装置は、ユーザに対する動作モデルを構成するためのモデル構成装置を含み、前記動作モデルは、動作を前記ユーザの現在の動作に比較するために前記確率計算装置によって使用される、請求項11に記載のシステム。
  13. 前記ユーザからの音響及びバイオメトリック情報を決定し、前記ユーザが前記ユーザの音響又はバイオメトリック情報に基づいて前記会話システムと対話することを許容される第2の確率を決定するための音響及びバイオメトリック検証装置を更に含み、
    前記動作検証装置は、前記ユーザが前記会話システムとの対話を許容されることを検証するために前記第1の確率を前記第2の確率と統合するように適応した確率混合装置を含む、請求項11に記載のシステム。
  14. 前記第1の確率は、前記ユーザが前記会話システムを使用することを許容されるかどうかを決定するために閾値確率と比較される、請求項11に記載のシステム。
  15. 動作検証装置を使用して、動作に基づきユーザを検証するための方法であって、
    ユーザからの入力を受け取り、前記入力を定型コマンドに変換するための会話システムに前記入力を供給するステップと、
    前記ユーザの動作パターンを含む特徴を前記入力から抽出するステップと、
    前記動作パターンを動作モデルに比較して、前記ユーザが前記システムと対話することを許容されるかどうかを決定するステップと、
    を含む方法。
  16. 前記会話システムは自然言語理解ユニットを含み、
    前記自然言語ユニットを使用して、前記入力として受け取られた音声を解釈するステップを更に含む、請求項15に記載の方法。
  17. 前記入力は、音声、手書き、テキスト、及び身振りの少なくとも1つを含む、請求項15に記載の方法。
  18. 前記動作検証装置は特徴抽出装置を含み、
    前記特徴抽出装置を使用して前記入力から特徴ベクトルを抽出するステップを更に含む、請求項15に記載の方法。
  19. 前記特徴ベクトルは、言語モデル・スコア、音響モデル・スコア、及び自然言語理解スコアの少なくとも1つを含む、請求項18に記載の方法。
  20. 前記特徴ベクトルは、コマンド叙述スコア及び発声スコアの少なくとも1つを含む、請求項18に記載の方法。
  21. 前記特徴ベクトルは前記ユーザに対するシステム応答に関する情報を含む、請求項18に記載の方法。
  22. 前記特徴ベクトルは、ユーザ・コマンド相互間の期間及び前記ユーザと前記システムとの間のダイアログ状態の少なくとも1つを含む、請求項18に記載の方法。
  23. 前記特徴ベクトルは、前記ユーザによって使用される入力形態のタイプを含む、請求項18に記載の方法。
  24. 前記動作検証装置は確率計算装置を含み、
    前記ユーザが前記ユーザの動作に基づいて前記システムと対話することを許容されるかどうかを表すための第1の確率を前記確率計算装置において計算するステップを更に含む、請求項15に記載の方法。
  25. 前記動作検証装置はモデル構成装置を含み、
    動作をユーザの現在の動作に比較するために前記確率計算装置によって使用される該ユーザに対する動作モデルを構成するステップを更に含む、請求項24に記載の方法。
  26. 音響及びバイオメトリック検証装置によって決定された前記ユーザの音響及びバイオメトリック情報に基づいて、前記ユーザが前記システムと対話することを許容されるかどうかを表すための第2の確率を決定するステップと、
    前記ユーザが前記システムとの対話を許容されることを検証するために、確率混合装置を使用することによって前記第1の確率を前記第2の確率と統合するステップと、
    を含む、請求項24に記載の方法。
  27. 前記ユーザが前記システムを使用することを許容されるかどうかを決定するために前記第1の確率が閾値確率に比較される、請求項24に記載の方法。
  28. 動作検証装置を使用して、動作に基づきユーザを検証するための方法ステップを遂行するためにマシンにより実行し得るプログラム命令を具体的に実施する、前記マシンにより読み取り可能なプログラム・ストレージ・デバイスであって、前記方法ステップは、
    ユーザからの入力を受け取り、前記入力を定型コマンドに変換するための会話なシステムに前記入力を供給するステップと、
    前記ユーザの動作パターンを含む特徴を前記入力から抽出するステップと、
    前記動作パターンを動作モデルに比較して、前記ユーザが前記システムと対話することを許容されるかどうかを決定するステップと
    を含む、プログラム・ストレージ・デバイス。
  29. 前記会話システムは自然言語理解ユニットを含み、
    前記方法ステップは、前記自然言語理解ユニットを使用して、前記入力として受け取られた音声を解釈するステップを更に含む、請求項28に記載のプログラム・ストレージ・デバイス。
  30. 前記入力は、音声、手書き、テキスト、及び身振りの少なくとも1つを含む、請求項28に記載のプログラム・ストレージ・デバイス。
  31. 前記動作検証装置は特徴抽出装置を含み、
    前記方法ステップは、前記特徴抽出装置を使用して前記入力から特徴ベクトルを抽出するステップを更に含む、請求項28に記載のプログラム・ストレージ・デバイス。
  32. 前記特徴ベクトルは、言語モデル・スコア、音響モデル・スコア、及び自然言語理解スコアの少なくとも1つを含む、請求項31に記載のプログラム・ストレージ・デバイス。
  33. 前記特徴ベクトルは、コマンド叙述スコア及び発声スコアの少なくとも1つを含む、請求項31記載のプログラム・ストレージ・デバイス。
  34. 前記特徴ベクトルは前記ユーザに対するシステム応答に関する情報を含む、請求項31記載のプログラム・ストレージ・デバイス。
  35. 前記特徴ベクトルは、ユーザ・コマンド相互間の期間及び前記ユーザと前記システムとの間のダイアログ状態の少なくとも1つを含む、請求項31記載のプログラム・ストレージ・デバイス。
  36. 前記特徴ベクトルは、前記ユーザによって使用される入力形態のタイプを含む、請求項31に記載のプログラム・ストレージ・デバイス。
  37. 前記動作検証装置は確率計算装置を含み、
    前記方法ステップは、前記ユーザが前記ユーザの動作に基づいて前記システムと対話することを許容されるかどうかを表すための第1の確率を前記確率計算装置において計算するステップを更に含む、請求項28に記載のプログラム・ストレージ・デバイス。
  38. 前記動作検証装置はモデル構成装置を含み、
    前記方法ステップは、動作をユーザの現在の動作に比較するために前記確率計算装置によって使用される該ユーザに対する動作モデルを構成するステップを更に含む、請求項37に記載のプログラム・ストレージ・デバイス。
  39. 前記方法ステップは、更に、
    音響及びバイオメトリック検証装置によって決定された前記ユーザの音響及びバイオメトリック情報に基づいて、前記ユーザが前記システムと対話することを許容されるかどうかを表すための第2の確率を決定するステップと、
    前記ユーザが前記システムとの対話を許容されることを検証するために、確率混合装置を使用することによって前記第1の確率を前記第2の確率と統合するステップと、
    を含む、請求項37に記載のプログラム・ストレージ・デバイス。
  40. 前記ユーザが前記システムを使用することを許容されるかどうかを決定するために前記第1の確率が閾値確率に比較される、請求項37に記載のプログラム・ストレージ・デバイス。
JP2003551774A 2001-12-12 2001-12-12 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム Expired - Fee Related JP4143541B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2001/047910 WO2003050799A1 (en) 2001-12-12 2001-12-12 Method and system for non-intrusive speaker verification using behavior models

Publications (2)

Publication Number Publication Date
JP2005512246A true JP2005512246A (ja) 2005-04-28
JP4143541B2 JP4143541B2 (ja) 2008-09-03

Family

ID=32986313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003551774A Expired - Fee Related JP4143541B2 (ja) 2001-12-12 2001-12-12 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム

Country Status (5)

Country Link
EP (1) EP1470549B1 (ja)
JP (1) JP4143541B2 (ja)
KR (1) KR20040068548A (ja)
CN (1) CN1213398C (ja)
AU (1) AU2002230762A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009175984A (ja) * 2008-01-23 2009-08-06 Nippon Telegr & Teleph Corp <Ntt> 本人認証装置、本人認証方法および本人認証プログラム
JP2018509649A (ja) * 2015-02-05 2018-04-05 北京得意音通技▲術▼有限▲責▼任公司Beijing D−Ear Technologies Co., Ltd. 動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法
JP2023503718A (ja) * 2020-01-30 2023-01-31 グーグル エルエルシー 音声認識

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100437577C (zh) * 2004-09-10 2008-11-26 索尼株式会社 用户识别方法、用户识别装置、电子设备和电子***
KR100847532B1 (ko) * 2006-04-06 2008-07-21 재단법인서울대학교산학협력재단 사용자의 행동 패턴 정보를 이용한 사용자 인증에 사용되는사용자 단말기 및 인증 장치
TWI416366B (zh) 2009-10-12 2013-11-21 Htc Corp 生物特徵資料建立方法、電子裝置及電腦程式產品
CN103019378B (zh) * 2012-12-07 2016-09-07 无锡清华信息科学与技术国家实验室物联网技术中心 一种移动电子设备手势控制交互方法、装置及移动终端
CN103738295B (zh) * 2013-12-25 2016-03-02 科大讯飞股份有限公司 一种基于语音识别的被盗机动车辆的主动式报警与跟踪***及方法
CN104954343B (zh) * 2014-03-31 2018-04-17 腾讯科技(深圳)有限公司 验证信息处理方法、服务器及***
CN105489218A (zh) * 2015-11-24 2016-04-13 江苏惠通集团有限责任公司 一种语音控制的***、遥控器及服务器
CN111462733B (zh) * 2020-03-31 2024-04-16 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05274269A (ja) * 1991-11-18 1993-10-22 Internatl Business Mach Corp <Ibm> コンピュータ・システムにおけるアクセスの正当性検証のための方法及びシステム
NL9200297A (nl) * 1992-02-18 1993-09-16 Nederland Ptt Methode voor toegangsbeveiliging van een dataterminal.
US6081782A (en) * 1993-12-29 2000-06-27 Lucent Technologies Inc. Voice command control and verification system
WO1997023816A1 (en) * 1995-12-21 1997-07-03 Philips Electronics N.V. User identification system for data processing equipment with keyboard

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009175984A (ja) * 2008-01-23 2009-08-06 Nippon Telegr & Teleph Corp <Ntt> 本人認証装置、本人認証方法および本人認証プログラム
JP2018509649A (ja) * 2015-02-05 2018-04-05 北京得意音通技▲術▼有限▲責▼任公司Beijing D−Ear Technologies Co., Ltd. 動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法
JP2023503718A (ja) * 2020-01-30 2023-01-31 グーグル エルエルシー 音声認識
JP7255032B2 (ja) 2020-01-30 2023-04-10 グーグル エルエルシー 音声認識

Also Published As

Publication number Publication date
EP1470549B1 (en) 2019-04-10
AU2002230762A8 (en) 2009-10-08
JP4143541B2 (ja) 2008-09-03
EP1470549A1 (en) 2004-10-27
CN1213398C (zh) 2005-08-03
AU2002230762A1 (en) 2003-06-23
KR20040068548A (ko) 2004-07-31
EP1470549A4 (en) 2007-08-08
CN1522431A (zh) 2004-08-18

Similar Documents

Publication Publication Date Title
US6490560B1 (en) Method and system for non-intrusive speaker verification using behavior models
US7689418B2 (en) Method and system for non-intrusive speaker verification using behavior models
KR102151681B1 (ko) 언어 모델용 대화 상태들 결정
JP6561219B1 (ja) 話者照合
KR102026396B1 (ko) 화자 검증을 위한 신경망들
CN104143326B (zh) 一种语音命令识别方法和装置
US20170236520A1 (en) Generating Models for Text-Dependent Speaker Verification
CN108989349B (zh) 用户账号解锁方法、装置、计算机设备及存储介质
CN105723450A (zh) 用于话语检测的包络比较
JPWO2006109515A1 (ja) 操作者認識装置、操作者認識方法、および、操作者認識プログラム
TW202018696A (zh) 語音識別方法、裝置及計算設備
JP4143541B2 (ja) 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム
KR20230116886A (ko) 페이크 오디오 검출을 위한 자기 지도형 음성 표현
KR20230070523A (ko) 텍스트 종속 화자 검증 피처들의 자동 생성 및/또는 사용
JP5646675B2 (ja) 情報処理装置及び方法
JP6996627B2 (ja) 情報処理装置、制御方法、及びプログラム
CN117378006A (zh) 混合多语种的文本相关和文本无关说话者确认
Maes et al. Conversational speech biometrics
JPWO2018088534A1 (ja) 電子機器、電子機器の制御方法及び電子機器の制御プログラム
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
CN110895938B (zh) 语音校正***及语音校正方法
JP2020154061A (ja) 話者識別装置、話者識別方法およびプログラム
Ceaparu et al. Multifactor voice-based authentication system
CN112037772B (zh) 基于多模态的响应义务检测方法、***及装置
Madhusudhana Rao et al. Machine hearing system for teleconference authentication with effective speech analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070912

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080404

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080610

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080616

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4143541

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 3

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130620

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees