JP2021182420A - アイデンティティ認証方法及び装置 - Google Patents

アイデンティティ認証方法及び装置 Download PDF

Info

Publication number
JP2021182420A
JP2021182420A JP2021123330A JP2021123330A JP2021182420A JP 2021182420 A JP2021182420 A JP 2021182420A JP 2021123330 A JP2021123330 A JP 2021123330A JP 2021123330 A JP2021123330 A JP 2021123330A JP 2021182420 A JP2021182420 A JP 2021182420A
Authority
JP
Japan
Prior art keywords
audio
voiceprint
target object
video stream
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021123330A
Other languages
English (en)
Other versions
JP7109634B2 (ja
Inventor
リー,パァン
Peng Li
スン,イーパァン
Yipeng Sun
シェ,ヨンシャン
Yongxiang Xie
リー,リィァン
Liang Li
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Publication of JP2021182420A publication Critical patent/JP2021182420A/ja
Application granted granted Critical
Publication of JP7109634B2 publication Critical patent/JP7109634B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】認証の効率及び信頼性を高めるアイデンティティ認証方法及び装置を提供する。【解決手段】方法は、認証対象である対象オブジェクトにより生成される音声及び映像ストリームを取得するステップと、読唇と音声とが一致しているかを特定し、一致している場合、音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を対象オブジェクトのオブジェクト識別子として用いるステップと、事前に格納されたオブジェクト登録情報がオブジェクト識別子を含む場合、オブジェクト登録情報からオブジェクト識別子に対応するモデル生理学的特徴を取得するステップと、音声及び映像ストリームから、対象オブジェクトの生理学的特徴を取得するステップと、対象オブジェクトの生理学的特徴をモデル生理学的特徴と比較し、比較結果が認証条件を満たす場合、対象オブジェクトは認証された、と特定するステップと、を含む。【選択図】図5

Description

本願はネットワーク技術に関し、特に、アイデンティティ(身元)認証方法及び装置に関する。
インターネット技術の発展に伴い、ネットワークベースのサービスが、人々に益々広く使われるようになっている。例えば、人々は、メールボックスを用いて電子メールを送受信し、オンラインで買い物をし、オンラインで働くことすらできる。アプリケーションによっては、そのセキュリティ要件は高く、ユーザのアイデンティティが認証される必要がある。例えば、オンラインショッピングに対する決済が承認される前に、ユーザのアイデンティティが認証される必要がある、又は、ユーザは、ユーザのアイデンティティが認証された後に、セキュリティ要件が比較的高いアプリケーションにログインすることができる。関連技術において、顔認識(顔認証)及び声紋認識(声紋認証)など、インターネットで用いられるアイデンティティ認証方法が幾つか存在する。しかし、これらの一般に用いられる認証方法は比較的複雑である。例えば、ユーザは、ユーザのIDを入力し、次いで、声紋認識のために声紋を検証する必要がある。加えて、既存の認証方法の信頼性は比較的低い。例えば、攻撃者は、アナログ映像又は録画を使って顔認識を達成できる。検証が、例えば顔と声紋を参照する2種類の組み合わされた認証方法に基づいて実行される場合であっても、これらの認証方法は、比較的、互いに独立しているので、攻撃者は、認証プロセスを打ち破ることができる。アイデンティティ認証方法の上記の欠点は、アプリケーションセキュリティに対し何らかのリスクを生む可能性がある。
上記に鑑み、本願は、アイデンティティ認証の効率及び信頼性を高めるアイデンティティ認証方法及び装置を提供する。
具体的に、本願は、以下の技術的解決策を用いて実施される。
第1の態様によれば、アイデンティティ認証方法が提供され、この方法は:収集された音声及び映像ストリームを取得するステップであって、前記音声及び映像ストリームは、認証対象である対象オブジェクトにより生成される、ステップと;前記音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、前記読唇と前記音声とが一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトのオブジェクト識別子として用いるステップと;事前に格納されたオブジェクト登録情報が前記オブジェクト識別子を含む場合、前記オブジェクト登録情報から、前記オブジェクト識別子に対応するモデル生理学的特徴を取得するステップと;前記音声及び映像ストリームに対して生理学的認識を実行して、前記対象オブジェクトの生理学的特徴を取得するステップと;前記対象オブジェクトの前記生理学的特徴を、前記モデル生理学的特徴と比較して比較結果を取得し、前記比較結果が認証条件を満たす場合、前記対象オブジェクトは認証された、と特定するステップと;を含む。
第2の態様によれば、アイデンティティ認証装置が提供され、この装置は:収集された音声及び映像ストリームを取得するよう構成された情報取得モジュールであって、前記音声及び映像ストリームは、認証対象である対象オブジェクトにより生成される、情報取得モジュールと;前記音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、前記読唇と前記音声とが一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトのオブジェクト識別子として用いるよう構成された識別子特定モジュールと;事前に格納されたオブジェクト登録情報が前記オブジェクト識別子を含む場合、前記オブジェクト登録情報から前記オブジェクト識別子に対応するモデル生理学的特徴を取得するよう構成された情報管理モジュールと;前記音声及び映像ストリームに対して生理学的認識を実行して、前記対象オブジェクトの生理学的特徴を取得するよう構成された特徴認識モジュールと;前記対象オブジェクトの前記生理学的特徴を前記モデル生理学的特徴と比較して比較結果を取得し、前記比較結果が認証条件を満たす場合、前記対象オブジェクトは認証された、と特定するように構成された認証処理モジュールと;を含む。
本願において提供されるアイデンティティ認証方法及び装置によれば、ユーザの認証時に、音声及び映像ストリームの認識を通じてユーザ識別子が取得され、顔特徴と声紋特徴も同じ音声及び映像ストリームを用いて検証できる。これにより、ユーザの操作は簡素化され、認証効率が向上し、1対1認証モデルは維持され、且つ認識精度が確保される。その上、本方法では、読唇と音声との一致を特定することにより、対象オブジェクトが攻撃者による偽の映像記録ではなく、本人そのものであることが保証され、よって認証のセキュリティ及び信頼性が向上する。
図1は、本願の実施の例に係る、アイデンティティ登録手順を示す図である。
図2は、本願の実施の例に係る、読唇と音声との一致を特定する手順を示す図である。
図3は、本願の実施の例に係る、顔特徴認識手順を示す図である。
図4は、本願の実施の例に係る、声紋特徴認識手順を示す図である。
図5は、本願の実施の例に係る、アイデンティティ認証手順を示す図である。
図6は、本願の実施の例に係る、アイデンティティ認証装置の構造図である。
図7は、本願の実施の例に係る、アイデンティティ認証装置の構造図である。
実施の例をここに詳細に述べ、これら実施の例のいくつかを添付図面に提示する。下記の説明が添付図面に関する場合、別段の定めがない限り、異なる添付図面における同一の符号は、同一の要素又は類似の要素を表す。下記の実施の例で述べる実施は、本願に合致する全ての実施を表す訳ではない。むしろそれらは、添付の特許請求の範囲に詳細に記載される本願の一部の態様に合致する装置及び方法の実施例に過ぎない。
本願の実施において提供されるアイデンティティ認証方法は、インターネットアイデンティティ認証に適用できる。例えば、アプリケーションのセキュリティを確保するため、ユーザは、本方法を用いて認証された後に、ネットワークアプリケーションにログインすることができる。
セキュリティ要件が比較的高いアプリケーションを以下一例として用いる。アプリケーションは、ユーザのインテリジェントデバイス上、例えばスマートフォン又はインテリジェントタブレット上で作動できると仮定する。ユーザがインテリジェントデバイス上でアプリケーションにログインする必要がある場合、インテリジェントデバイス上のカメラとマイクロホンとを用いて音声及び映像ストリームを収集できる。例えば、ユーザは、ユーザのアプリケーションIDを携帯電話のカメラとマイクロホンとに向かって読み上げることができる。アプリケーションIDは、ユーザによってアプリケーションに登録されているアカウント番号「123456」とすることができる。ユーザがアプリケーションIDを読み上げた後、携帯電話は、ビデオ画像と読み上げ音声とを含むユーザの音声(オーディオ)及び映像(ビデオ)ストリームを収集できる。
本願のこの実施におけるアイデンティティ認証方法によると、収集された音声及び映像ストリームを処理できる。認証に先立ち、ユーザは、後でアイデンティティ認証を実行するためのアイデンティティ登録手順を実行する必要がある。登録手順も、収集された音声及び映像ストリームに基づいて実行される。以下、アイデンティティ登録手順とアイデンティティ認証手順とを別々に述べる。また、この実施は、実際のアプリケーションにおいてアイデンティティ登録又は認証処理を実行するデバイスに制限を課すものではない。例えば、ユーザの音声及び映像ストリームが収集された後、スマートフォンは、音声及び映像ストリームをアプリケーションのバックエンドサーバへ伝送できる、又は、処理の一部をスマートフォンのクライアントソフトウェア側で実行でき、処理のその他の部分をサーバ側で実行でき、さもなければ、他の方法を用いることができる。
<アイデンティティ登録>
この実施の方法において、ユーザがアイデンティティ登録を実行する際、2つのタイプの情報を含めることができる。一方のタイプの情報はオブジェクト識別子である。例えば、ユーザがアプリケーションにログインする場合、ユーザを対象オブジェクトと称することができる。ユーザがアプリケーションに登録する際、ユーザを別のユーザと区別するために用いられる情報が、アプリケーションにおけるオブジェクト識別子であって、例えば、アプリケーションにおけるユーザのアカウント番号123456とすることができ、アカウント番号123456が、対象オブジェクトのオブジェクト識別子である。他方のタイプの情報は、ユーザを一意に識別ができる生理学的情報、例えば、ユーザの声紋特徴又はユーザの顔特徴である。通常、声紋及び顔は人によって異なり、各ユーザを識別する生理学的情報は、モデル生理学的特徴と呼ぶことができる。
この2つのタイプの情報、すなわちオブジェクト識別子及びモデル生理学的特徴の間にマッピング関係が確立され、このマッピング関係が格納される。対応して格納される対象オブジェクトのオブジェクト識別子とモデル生理学的特徴は、「オブジェクト登録情報」と呼ぶことができる。例えば、ユーザXiao Zhangは、ユーザのオブジェクト登録情報を「123456−モデル生理学的特徴A」として格納できる。ユーザのより正確な識別のため、この例で用いられるモデル生理学的特徴に含まれる生理学的情報は、少なくとも2つのタイプの生理学的情報、例えば、顔及び声紋とすることができる。
図1は、アイデンティティ登録手順の例を示す。この手順は、下記の処理を含む。
ステップ101:対象オブジェクトの登録対象である音声及び映像ストリームを取得する。
例えば、ユーザはアプリケーションに登録し、ユーザは、アプリケーションのアカウント番号「123456」をユーザのインテリジェントデバイス、例えば携帯電話に向かって読み上げることができる。この例において、登録を実行中のユーザを対象オブジェクトと呼ぶことができ、インテリジェントデバイスのカメラとマイクロホンは、ユーザがアカウント番号を読み上げる際に生成される音声及び映像ストリームを収集できる。登録時に収集される音声及び映像ストリームは、登録対象である音声及び映像ストリームと呼ぶことができ、音声ストリームと映像ストリームとを含む。音声ストリームは、ユーザの読み上げ音声であり、映像ストリームは、ユーザの読み上げビデオ画像である。
このステップで音声及び映像ストリームが取得された後、下記の3つの態様の処理を実行してユーザの登録を完了できる。詳細については、同じく図1を参照できる。
一の態様における処理は下記の通りである。すなわち、ステップ102:登録対象である音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定する。
ここでの一致は、唇の動きと音声によって示される動きとのマッピング関係を意味する。例えば、音声が「今日の天気は晴れです」であり、音声は低速で生成されたものの、唇の動きは、高速で生成された「今日の天気は晴れです」に対応すると仮定する。音声と唇の動きが互いに対応しないことは明らかである。すなわち、唇の動きは既に止まっている(内容は完全に読み上げられている)のに、音声は続いている(…晴れです)。これは、多くの予想される状況、例えば、攻撃者がユーザのID及び顔検出をパスしようと試みる場合、攻撃者がユーザ(攻撃されたユーザ)の以前の映像レコードを使用することにより顔検出を攻撃する可能性がある場合、及び攻撃者が音声内容のIDの認識を攻撃するためにユーザのIDを読み上げる場合に起こり得る。このようにして、攻撃者が認証されてしまうことがあり得る。しかし、こうした攻撃において、読唇と音声は、通常、一致せず、そして読み上げ者はユーザではない、と特定できる。
ステップ102に示すように、登録対象である音声及び映像ストリーム中の読唇と音声とが一致しない、と特定された場合、登録の失敗をユーザに通知できる。或いは、図1に示すように、処理エラーを防ぐために、ステップ101に進み、音声及び映像ストリームを再度収集する。
一方、登録対象である音声及び映像ストリーム中の読唇と音声が一致していると特定された場合、ステップ103を実行する。すなわち、収集された音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を対象オブジェクトのオブジェクト識別子として使用する。音声認識は、個人の音声内容を自動的に認識するためのコンピュータ技術、すなわち、音声を内容に変換する認識プロセスを用いる。例えば、登録を実行すべきユーザによる「123456」を読み上げる音声に対して音声認識が実行された後、音声ストリームの取得された音声内容は「123456」であり、認識を通じて取得される内容は、ユーザの識別子、すなわち、ユーザのIDとして用いることができる。
音声ストリームの上記音声認識は、読唇と音声が一致していると特定された後に実行してオブジェクト識別子を取得することができ、或いは、読唇と音声が一致しているかどうかを特定するプロセスにおいて実行してオブジェクト識別子を取得することができる。
別の態様において、登録対象である音声及び映像ストリームに対して生理学的認識(認証)を実行して、登録対象である音声及び映像ストリームのモデル生理学的特徴を取得する。この例において、生理学的特徴としては顔特徴と声紋特徴とを含むが、特徴の一例がユーザを一意的に識別でき、異なるユーザの生理学的特徴の区別に用いることができる限り、この2つの特徴に限定されない。この態様において、ステップ104に示すように、登録対象である音声及び映像ストリームにおける音声ストリームに対して声紋認識を実行して、対象オブジェクトの声紋特徴を取得することができる。
更に別の態様において、登録対象である音声及び映像ストリームにおける映像ストリームに対して顔検出を実行して、対象オブジェクトの顔特徴を取得する。
登録手順において、検出された顔特徴はモデル顔特徴と呼ぶことができ、以降の認証プロセスにおいて基準として用いることができる。同様に、検出された声紋特徴もモデル声紋特徴と呼ぶことができ、モデル声紋特徴とモデル顔特徴は、総称してモデル生理学的特徴と呼ぶことができる。
この実施において、対象オブジェクトのモデル生理学的特徴とオブジェクト識別子は、オブジェクト登録情報とも呼ばれる。オブジェクト登録情報におけるデータが揃っていると特定された後、ステップ106において、対象オブジェクトのオブジェクト識別子と対応するモデル生理学的特徴が、オブジェクト登録情報としてデータベースに格納される。
また、図1に示す3つの態様の実行順序は限定されない。例えば、ステップ101において登録対象である音声及び映像ストリームを取得した後、3つの態様を並行して実行することができる。読唇と音声が一致していない場合、認識された声紋特徴と認識された顔特徴は、格納されなくてもよい。或いは、読唇と音声が一致していると特定された後、次いで声紋特徴と顔特徴についての検出と認識が実行される。
図2は、図1における読唇と音声の一致を特定する手順を示す。手順は、下記のステップを含むことができる。
ステップ201:登録対象である音声及び映像ストリームにおける音声ストリームに基
づいてエンドポイント(端点)検出を実行する。このステップでは、連続する音声ストリームにおいて音声ストリームの開始時刻と終了時刻とを検出できる。
ステップ202:音声ストリームに基づき、連続する音声特徴を抽出する。ここで、特徴としてはMFCC特徴とLPCC特徴とを含むが、これに限定されない。このステップで抽出される特徴は、音声認識に用いることができる。
ステップ203:音声ストリーム中の音声の音節と対応する時点を識別する。このステップにおいて、音声ストリーム中の各音節をステップ202において抽出される音声特徴に基づいて識別でき、音節の対応する出現時点と、対応する消滅時点とを特定できる。音声認識方法としては、隠れマルコフモデル(Hidden Markov Model、HMM)、ディープニューラルネットワーク(Deep Neural Network、DNN)、及びロングショートタイムモデル(Long Short Time Model、LSTM)などの方法を含むが、これらに限定されない。
ステップ204:登録対象である音声及び映像ストリームにおける映像ストリームに基づいて唇の位置を検出する。このステップにおいて、唇の位置は、映像の画像から検出できる。
ステップ205:検出された唇画像の品質を特定する。例えば、唇の位置の解像度及び露出などのパラメータを特定できる。解像度が低い場合、又は露出度が高過ぎる場合、映像は適格ではない、と特定され、この場合、登録対象である音声及び映像ストリームを再度収集する。映像が適格であれば、ステップ206に進んで読唇認識を実行する。
ステップ206:唇の連続的な特徴を抽出する。このステップにおいて、特徴は、連続的な唇画像から抽出でき、この特徴は、ベアピクセル、LBP、Gabor(ガボール)、SIFT、又はSurfなどのローカル映像記述子を含むが、これらに限定されない。
ステップ207:映像ストリーム中の読唇の音節と、対応する時点とを識別する。このステップにおいて、読唇の音節は、隠れマルコフモデル(HMM)及びロングショートタイムモデルなどの方法を用いて識別できる。映像時間シーケンスにおける読唇の音節に対応する時点も、読唇認識時にこのモデルを用いて特定される。
ステップ208:読唇の音節と音声の音節との両方の、対応する時点が一致しているかどうかを特定する。例えば、このステップにおいて、音声の音節の時点情報を、読唇の音節の時点情報と比較できる。比較結果が一致を示す場合、音声ストリームは実在の人物によって生成されたとみなされ、この場合、ステップ209へ進む。比較結果が不一致を示す場合、音声ストリームは攻撃行為である疑いがあり、この場合、登録手順に戻る。この実施では、読唇の音節及び音声の音節の両方の、対応する時点の一致を検出する方法は、より細部にわたり、したがって、実在の人物の音声を特定する精度はより高くなる。
ステップ209:ステップ202で抽出される音声特徴に対して音声認識を実行して、ユーザのID、すなわちオブジェクト識別子を取得する。音声認識方法としては、隠れマルコフモデル(HMM)、ディープニューラルネットワーク(DNN)、及びロングショートタイムモデル(LSTM)などの方法を含むが、これらに限定されない。
更に、図2に示す実施例では、読唇と音声とが一致している、と特定された後、ステップ209において音声ストリームの音声認識を実行できる。或いは、ステップ203において音声ストリーム中の音節の時点が識別されると、音声特徴に基づき音声認識を実行することによりユーザのIDが取得される。この場合、ステップ208において読唇と音声とが一致している、と特定された後、認識を通じて取得されるユーザのIDは、オブジェクト識別子として、直接、用いることができる。
図3は、図1における顔特徴認識手順を示す。この手順は、下記のステップを含むことができる。
ステップ301:登録対象である音声及び映像ストリームにおける映像ストリームに基づき顔画像を検出する。このステップにおいて、映像フレーム画像を音声及び映像ストリームにおける映像ストリームから抽出でき、顔が映像フレーム画像に出現するかどうかを検出できる。肯定である場合、ステップ302へ進む。さもなければ、特定手順へ戻る。
ステップ302:顔画像の品質を検出する。このステップにおいて、ステップ301で検出された顔に対して顔特徴点検出を実行でき、特徴点検出の結果に基づいて水平方向と垂直方向の両方における顔の角度を特定できる。両角度が特定の傾斜角を超えていない場合、品質要件は満たされる。そうでなければ、品質要件は満たされない。加えて、顔領域の解像度、露出などが特定され、これらも特定の閾値以内である必要がある。顔画像が良好な品質であれば、顔特徴をより良好に認識できる。
ステップ303:品質要件を満たす顔画像に関し、顔画像から固有ベクトルを抽出する。ここで、固有ベクトルは、ローカルバイナリパターン(Local Binary Pattern、LBP)、Gabor、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)等を含むが、これらに限定されない。
ステップ304:ステップ303において抽出された複数の顔固有ベクトルを組み合わせてユーザの一意の顔特徴、すなわちモデル顔特徴を形成する。
図4は、図1における声紋特徴認識手順を示す。この手順は、下記のステップを含むことができる。
ステップ401:登録対象である音声及び映像ストリームにおける音声ストリームを取得する。
この例では、登録対象である音声及び映像ストリームにおける音声ストリームに基づいて声紋特徴認識を実行できる。
ステップ402:音声ストリームの音声品質は品質基準を満たしている、と特定する。
このステップでは音声品質を特定できる。収集された音声ストリームの品質が良好であるほど、音声に対して声紋認識を実行する効果が良好となる。したがって、以降の声紋認識を実行する前に、音声ストリームの品質を先ず特定できる。例えば、音声ストリーム中の音声の信号強度及び信号対ノイズ比などの情報を計算して、音声が品質基準を満たしているかどうかを特定できる。例えば、信号対ノイズ比が特定の範囲内に収まること、又は音声の信号強度が強度閾値より大きいことを品質基準とすることができる。音声ストリームが適格である場合、ステップ403へ進む。そうでなければ、登録対象である音声及び映像ストリームを再度収集する。
ステップ403:音声ストリームから声紋固有ベクトルを抽出する。
この例では、複数の登録対象である音声及び映像ストリームが存在する可能性がある。例えば、ユーザは、ユーザのIDを2度読み上げる可能性があり、これに応じ2つの音声及び映像ストリームが収集される。このステップにおいて、各音声及び映像ストリームにおける音声ストリームの声紋固有ベクトルを抽出できる。固有ベクトルは、複数の方法で抽出できるが、ここでは簡略化のため詳細は省略する。例えば、音声ストリームの音声信号から音声特徴パラメータメル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficient、MFCC)を抽出でき、次いで、i−vector(話者認識アルゴリズム)又は確率的線形判別分析(Probabilistic Linear Discriminant Analysis、PLDA、すなわち、声紋認識のためのチャネル補償アルゴリズム)などの方法を用いて固有ベクトルが計算される。
ステップ404:複数の音声ストリームの声紋固有ベクトルが一致しているかどうかを特定する。
例えば、登録時にユーザがユーザのIDを少なくとも2度読み上げた場合、これに応じて、収集された音声ストリームは少なくとも2つ存在することになる。複数の音声ストリームの声紋特徴間の差が大きくなり過ぎないようにするため、複数の音声ストリーム間において声紋一致の特定を実行できる。例えば、ステップ403において各音声ストリームから抽出された声紋固有ベクトルに基づき、複数の音声ストリーム間の類似度スコアを計算できる。
類似度スコアが特定のスコア閾値の範囲内にある場合、それは、音声ストリームが類似要件を満たしていることを意味し、この場合、ステップ405へ進む。そうでなければ、それは、ユーザによって入力された複数の音声間に大きな差があることを意味し、登録を実行しているユーザに、ユーザのIDの再度の読み上げを指示する、すなわち音声ストリームを再度収集する。
ステップ405:複数の音声ストリームの声紋固有ベクトルに基づいてモデル声紋特徴を生成する。
このステップでは、先のステップにおいて音声ストリームから抽出された声紋固有ベクトルに対して加重総和法を実行して、モデル声紋特徴を取得できる。
上記登録手順の完了後、対象オブジェクトのオブジェクト登録情報はデータベースに格納された状態にある。オブジェクト登録情報は、オブジェクト識別子と、対応するモデル生理学的特徴とを含むことができる。モデル生理学的特徴は、モデル声紋特徴とモデル顔特徴とを含むことができ、オブジェクト登録情報に基づいてオブジェクトのアイデンティティ認証の処理を以下の通り実行できる。
<アイデンティティ認証>
図5は、アイデンティティ認証手順の実施例を示す。この手順において、認証に用いられる生理学的特徴は、例えば顔特徴と声紋特徴との組合せを用いて記述される。更に、認証過程にある対象オブジェクトが映像ではなく本人である、と特定された後に、生理学的特徴を比較することができる。図5に示すように、認証手順は下記の処理を含む。
ステップ501:収集された音声及び映像ストリームを取得する。ここで、音声及び映像ストリームは、認証対象である対象オブジェクトによって生成される。
例えば、ユーザは、ユーザのアイデンティティがアプリケーションによって認証されて初めて、セキュリティ要件が比較的高いアプリケーションにログインすることができる。このステップにおいて、ユーザは、ユーザのインテリジェントデバイス、例えば、スマートフォン上でアプリケーションを起動でき、ユーザは、スマートフォンのカメラとマイクロホンとを使って認証対象である音声及び映像ストリームを収集できる。音声及び映像ストリームは、ユーザがユーザのアプリケーションIDを読み上げるときに生成できる。
ステップ502:音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定する。
この例では、音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを先ず特定できる。具体的な一致特定手順については図2を参照でき、ここでは簡略化のためその詳細は省略する。
読唇と音声とが一致している場合、それは、認証過程にある対象オブジェクトが映像などではなく本人であることを意味する。この場合、ステップ503へ進む。そうでなければ、ステップ501に戻って再度収集を実行する。
ステップ503:音声及び映像ストリームにおける音声ストリームに対して音声認識を実行して、音声ストリームの音声内容を取得する。例えば、認識を通して取得される音声内容は、ユーザのID「123456」とすることができる。
ステップ504:音声内容を対象オブジェクトのオブジェクト識別子として用い、事前に格納されたオブジェクト登録情報がこのオブジェクト識別子を含むかどうかを特定する。
例えば、事前に格納されたオブジェクト登録情報がオブジェクト識別子を含む場合、オブジェクト識別子に対応するモデル生理学的特徴、例えばモデル顔特徴及びモデル声紋特徴を、オブジェクト登録情報において取得できる。生理学的特徴をモデル生理学的特徴と比較するために、認証対象である音声及び映像ストリームに対して生理学的認識が更に実行されて、対象オブジェクトの生理学的特徴が取得される。事前に格納されたオブジェクト登録情報がオブジェクト識別子を含まない場合、ユーザは登録を未だ実行していないことをユーザに通知できる。
ステップ505:音声及び映像ストリームに対して声紋認識を実行して、対象オブジェクトの声紋特徴を取得する。このステップにおける声紋特徴の抽出については、図4を参照できる。
ステップ506:音声及び映像ストリームに対して顔認識を実行して、対象オブジェクトの顔特徴を取得する。
次いで、対象オブジェクトの生理学的特徴をモデル生理学的特徴と比較して比較結果を取得でき、この比較結果が認証条件を満たす場合、対象オブジェクトは認証された、と特定される。例えば、ステップ507乃至ステップ509が含まれる。
ステップ507:対象オブジェクトの声紋特徴をモデル声紋特徴と比較して、声紋比較スコアを取得する。
ステップ508:対象オブジェクトの顔特徴をモデル顔特徴と比較して顔比較スコアを取得する。
ステップ509:声紋比較スコアと顔比較スコアが認証条件を満たすかどうかを特定する。
例えば、声紋比較スコアと顔比較スコアとが:声紋比較スコアが声紋スコア閾値より大きく、且つ顔比較スコアが顔スコア閾値より大きい;及び、声紋比較スコアと顔比較スコアとの積が、対応する積閾値より大きい;及び、声紋比較スコアと顔比較スコアの加重和が、対応する加重閾値より大きい;うちの少なくとも1つを満たす場合、対象オブジェクトは認証された、と特定される。
このステップにおいて、声紋比較スコアと顔比較スコアとが認証条件を満たす、と特定された場合、対象オブジェクトは認証された、と特定される。そうでなければ、対象オブジェクトは認証に失敗した、と特定される。
更に、このアイデンティティ認証の例では、上記アイデンティティ登録手順と同様に、読唇と音声とが一致している、と特定された後、音声ストリームに対して音声認識を実行してユーザのIDを取得できる、或いは、音声ストリーム中の音節時点が識別される際に、ユーザのIDを取得できる。上記の例において、ユーザのIDは、読唇と音声とが一致している、と特定された後に識別される。
本願のこの実施におけるアイデンティティ認証方法によると、音声及び映像ストリームは、ユーザの認証時に1度しか生成する必要がない。例えば、ユーザは、ユーザのIDを1度しか読み上げる必要がない。本方法において、ユーザのIDは、音声及び映像ストリームに対して音声認識を実行することにより取得でき、同じ音声及び映像ストリームを用いて顔特徴と声紋特徴とを検証できる。これによりユーザの操作は簡略化され、認証効率が向上し、1対1認証モデルが維持され、認識精度が確保される。換言すると、認識対象である生理学的特徴は、データベースにおけるオブジェクト識別子に対応する特徴とだけ比較され、それにより認識精度が確保される。加えて、本方法において、対象オブジェクトが攻撃者の偽の映像記録ではなく本人であることを保証するために読唇と音声との一致が特定され、それにより認証のセキュリティと信頼性が向上する。本方法において、認識を通じて取得されるユーザのIDと生理学的特徴は、同じ音声及び映像ストリームに基づいて取得される。ある程度までは、攻撃者の偽の音声及び映像ストリームを認識することができる。
上記アイデンティティ認証方法を実施するため、本願の実施は、アイデンティティ認証装置を更に提供する。図6に示すように、この装置は、情報取得モジュール61、識別子特定モジュール62、情報管理モジュール63、特徴認識モジュール64、及び認証処理モジュール65を含むことができる。
情報取得モジュール61は、収集された音声及び映像ストリームを取得するよう構成されている。ここで、音声及び映像ストリームは、認証対象である対象オブジェクトによって生成される。
識別子特定モジュール62は、音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、読唇と音声とが一致している場合、音声及び映像ストリームにおける音声ストリームに対して音声認識を実行して取得される音声内容を、対象オブジェクトのオブジェクト識別子として用いるよう構成されている。
情報管理モジュール63は、事前に格納されたオブジェクト登録情報がオブジェクト識別子を含む場合、オブジェクト登録情報からオブジェクト識別子に対応するモデル生理学的特徴を取得するよう構成されている。
特徴認識モジュール64は、音声及び映像ストリームに対して生理学的認識を実行して、対象オブジェクトの生理学的特徴を取得するよう構成されている。
認証処理モジュール65は、対象オブジェクトの生理学的特徴をモデル生理学的特徴と比較して比較結果を取得し、その比較結果が認証条件を満たす場合、対象オブジェクトは認証された、と特定するよう構成されている。
図7を参照すると、実施例において、特徴認識モジュール64は、声紋認識サブモジュール641と顔認識サブモジュール642とを含むことができる。
声紋認識サブモジュール641は、音声及び映像ストリームに対して声紋認識を実行して、対象オブジェクトの声紋特徴を取得するよう構成されている。
顔認識サブモジュール642は、音声及び映像ストリームに対して顔認識を実行して対象オブジェクトの顔特徴を取得するよう構成されている。
認証処理モジュール65は、対象オブジェクトの声紋特徴をモデル声紋特徴と比較して声紋比較スコアを取得し、対象オブジェクトの顔特徴をモデル顔特徴と比較して顔比較スコアを取得するように、そして、声紋比較スコアと顔比較スコアとが認証条件を満たす場合、対象オブジェクトは認証されたと特定するように、構成されている。
実施例において、声紋比較スコアと顔比較スコアとが:声紋比較スコアが声紋スコア閾値より大きく、且つ顔比較スコアが顔スコア閾値より大きい;及び、声紋比較スコアと顔比較スコアとの積が、対応する積閾値より大きい;及び、声紋比較スコアと顔比較スコアの加重和が、対応する加重閾値より大きい;のうちの少なくとも1つを満たす場合、対象オブジェクトは認証された、と特定される。
実施例において、図7に示すように、識別子特定モジュール62は、音声及び映像ストリームにおける音声ストリーム中の音声の音節と対応する時点を識別し、音声及び映像ストリームにおける映像ストリーム中の読唇の音節と対応する時点を識別するよう構成された音節認識サブモジュール621と;音声の音節及び読唇の音節の両方が対応する時点で一致している場合、読唇と音声が一致している、と特定するよう構成された一致特定サブモジュール622と;を含むことができる。
実施例において、情報取得モジュール61は、対象オブジェクトの登録対象である音声及び映像ストリームを取得するよう更に構成されている。
識別子特定モジュール62は、登録対象である音声及び映像ストリーム中の読唇と音声とが一致している場合、音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、対象オブジェクトのオブジェクト識別子として用いるよう更に構成されている。
特徴認識モジュール64は、登録対象である音声及び映像ストリームに対して生理学的認識を実行して、登録対象である音声及び映像ストリームのモデル生理学的特徴を取得するよう更に構成されている。
情報管理モジュール63は、これに応じ、対象オブジェクトのオブジェクト識別子と対応するモデル生理学的特徴をオブジェクト登録情報に格納するよう更に構成されている。
上記の説明は本願の実施の例に過ぎず、本願を限定することを意図したものではない。本願の主旨と原理の範囲内でなされるいかなる改変、均等物との置き換え、改良なども、本願の保護範囲内に含まれるべきものである。
61 情報取得モジュール
62 識別子特定モジュール
63 情報管理モジュール
64 特徴認識モジュール
65 認証処理モジュール
621 音節認識サブモジュール
622 一致特定サブモジュール
641 声紋認識サブモジュール
642 顔認識サブモジュール

Claims (10)

  1. アイデンティティ認証方法であって:
    収集された音声及び映像ストリームを取得するステップであって、前記音声及び映像ストリームは、認証対象である対象オブジェクトにより生成される、ステップと;
    前記音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、前記読唇と前記音声とが一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトのオブジェクト識別子として用いるステップと;
    事前に格納されたオブジェクト登録情報が前記オブジェクト識別子を含む場合、前記オブジェクト登録情報から、前記オブジェクト識別子に対応するモデル生理学的特徴を取得するステップと;
    前記音声及び映像ストリームに対して生理学的認識を実行して、前記対象オブジェクトの生理学的特徴を取得するステップと;
    前記対象オブジェクトの前記生理学的特徴を、前記モデル生理学的特徴と比較して比較結果を取得し、前記比較結果が認証条件を満たす場合、前記対象オブジェクトは認証された、と特定するステップと;を備える、
    アイデンティティ認証方法。
  2. 前記生理学的特徴が声紋特徴と顔特徴とを含み、前記モデル生理学的特徴がモデル顔特徴とモデル声紋特徴とを含み、
    前記音声及び映像ストリームに対して生理学的認識を実行して、前記対象オブジェクトの生理学的特徴を取得する前記ステップは:
    前記音声及び映像ストリームに対して声紋認識を実行して前記対象オブジェクトの声紋特徴を取得するステップと;
    前記音声及び映像ストリームに対して顔認識を実行して前記対象オブジェクトの顔特徴を取得するステップと;を備え、
    前記対象オブジェクトの前記生理学的特徴を前記モデル生理学的特徴と比較して比較結果を取得し、前記比較結果が認証条件を満たす場合、前記対象オブジェクトは認証された、と特定する前記ステップは:
    前記対象オブジェクトの前記声紋特徴を前記モデル声紋特徴と比較して声紋比較スコアを取得し、前記対象オブジェクトの前記顔特徴を前記モデル顔特徴と比較して顔比較スコアを取得するステップと;
    前記声紋比較スコアと前記顔比較スコアとが前記認証条件を満たす場合、前記対象オブジェクトは認証された、と特定するステップと;を備える、
    請求項1に記載のアイデンティティ認証方法。
  3. 前記声紋比較スコアと前記顔比較スコアとが:
    前記声紋比較スコアが声紋スコア閾値より大きく、且つ前記顔比較スコアが顔スコア閾値より大きい;前記声紋比較スコアと前記顔比較スコアとの積が、対応する積閾値より大きい;及び、前記声紋比較スコアと前記顔比較スコアとの加重和が、対応する加重閾値より大きい;のうちの少なくとも1つを満たす場合、前記対象オブジェクトは認証された、と特定される、
    請求項2に記載のアイデンティティ認証方法。
  4. 前記音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、前記読唇と前記音声とが一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトのオブジェクト識別子として用いる前記ステップは:
    前記音声及び映像ストリームにおける前記音声ストリーム中の音声の音節と対応する
    時点を識別するステップと;
    前記音声及び映像ストリームにおける映像ストリーム中の読唇の音節と対応する時点を識別するステップと;
    前記音声の音節及び前記読唇の音節の両方が前記対応する時点で一致している場合、前記読唇と前記音声とが一致している、と特定するステップと;を備える、
    請求項1に記載のアイデンティティ認証方法。
  5. 収集された音声及び映像ストリームを取得する前記ステップの前に:
    前記対象オブジェクトの登録対象である音声及び映像ストリームを取得するステップと;
    前記登録対象である音声及び映像ストリーム中の前記読唇と前記音声とが一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトの前記オブジェクト識別子として用いるステップと;
    前記登録対象である音声及び映像ストリームに対して生理学的認識を実行して前記登録対象である音声及び映像ストリームの前記モデル生理学的特徴を取得するステップと;
    対応して、前記対象オブジェクトの前記オブジェクト識別子と前記対応するモデル生理学的特徴とを、前記オブジェクト登録情報に格納するステップと;を更に備える、
    請求項1に記載のアイデンティティ認証方法。
  6. アイデンティティ認証装置であって:
    収集された音声及び映像ストリームを取得するよう構成された情報取得モジュールであって、前記音声及び映像ストリームは、認証対象である対象オブジェクトにより生成される、情報取得モジュールと;
    前記音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、前記読唇と前記音声とが一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトのオブジェクト識別子として用いるよう構成された識別子特定モジュールと;
    事前に格納されたオブジェクト登録情報が前記オブジェクト識別子を含む場合、前記オブジェクト登録情報から前記オブジェクト識別子に対応するモデル生理学的特徴を取得するよう構成された情報管理モジュールと;
    前記音声及び映像ストリームに対して生理学的認識を実行して、前記対象オブジェクトの生理学的特徴を取得するよう構成された特徴認識モジュールと;
    前記対象オブジェクトの前記生理学的特徴を前記モデル生理学的特徴と比較して比較結果を取得し、前記比較結果が認証条件を満たす場合、前記対象オブジェクトは認証された、と特定するように構成された認証処理モジュールと;を備える、
    アイデンティティ認証装置。
  7. 前記特徴認識モジュールが、声紋認識サブモジュールと顔認識サブモジュールとを備え;
    前記声紋認識サブモジュールが、前記音声及び映像ストリームに対して声紋認識を実行して前記対象オブジェクトの声紋特徴を取得するよう構成され;
    前記顔認識サブモジュールが、前記音声及び映像ストリームに対して顔認識を実行して、前記対象オブジェクトの顔特徴を取得するよう構成され;
    前記認証処理モジュールが、前記対象オブジェクトの前記声紋特徴を前記モデル声紋特徴と比較して声紋比較スコアを取得し、前記対象オブジェクトの前記顔特徴を前記モデル顔特徴と比較して顔比較スコアを取得し、前記声紋比較スコアと前記顔比較スコアとが前記認証条件を満たす場合、前記対象オブジェクトは認証された、と特定するように構成される、
    請求項6に記載のアイデンティティ認証装置。
  8. 前記声紋比較スコアと前記顔比較スコアとが:
    前記声紋比較スコアが声紋スコア閾値より大きく、且つ前記顔比較スコアが顔スコア閾値より大きい;前記声紋比較スコアと前記顔比較スコアとの積が、対応する積閾値より大きい;及び、前記声紋比較スコアと前記顔比較スコアとの加重和が、対応する加重閾値より大きい;のうちの少なくとも1つを満たす場合、前記対象オブジェクトは認証された、と特定される、
    請求項7に記載のアイデンティティ認証装置。
  9. 前記識別子特定モジュールは:
    前記音声及び映像ストリームにおける前記音声ストリーム中の音声の音節と対応する時点を識別し、前記音声及び映像ストリームにおける映像ストリーム中の読唇の音節と対応する時点を識別するよう構成される音節認識サブモジュールと;
    前記音声の音節及び前記読唇の音節の両方が前記対応する時点で一致している場合、前記読唇と前記音声とが一致している、と特定するよう構成される一致特定サブモジュールと;を備える、
    請求項6に記載のアイデンティティ認証装置。
  10. 前記情報取得モジュールは、前記対象オブジェクトの登録対象である音声及び映像ストリームを取得するよう更に構成され;
    前記識別子特定モジュールは、前記登録対象である音声及び映像ストリーム中の前記読唇と前記音声が一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトの前記オブジェクト識別子として用いるように更に構成され;
    前記特徴認識モジュールは、前記登録対象である音声及び映像ストリームに対して生理学的認識を実行して前記登録対象である音声及び映像ストリームの前記モデル生理学的特徴を取得するように更に構成され;
    前記情報管理モジュールは、対応して、前記対象オブジェクトの前記オブジェクト識別子と前記対応するモデル生理学的特徴とを、前記オブジェクト登録情報に格納するよう更に構成される、
    請求項6に記載のアイデンティティ認証装置。
JP2021123330A 2016-05-19 2021-07-28 アイデンティティ認証方法及び装置 Active JP7109634B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610340549.4A CN107404381A (zh) 2016-05-19 2016-05-19 一种身份认证方法和装置
CN201610340549.4 2016-05-19
JP2018560844A JP2019522840A (ja) 2016-05-19 2017-04-12 アイデンティティ認証方法及び装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018560844A Division JP2019522840A (ja) 2016-05-19 2017-04-12 アイデンティティ認証方法及び装置

Publications (2)

Publication Number Publication Date
JP2021182420A true JP2021182420A (ja) 2021-11-25
JP7109634B2 JP7109634B2 (ja) 2022-07-29

Family

ID=60324817

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018560844A Pending JP2019522840A (ja) 2016-05-19 2017-04-12 アイデンティティ認証方法及び装置
JP2021123330A Active JP7109634B2 (ja) 2016-05-19 2021-07-28 アイデンティティ認証方法及び装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2018560844A Pending JP2019522840A (ja) 2016-05-19 2017-04-12 アイデンティティ認証方法及び装置

Country Status (16)

Country Link
US (1) US10789343B2 (ja)
EP (1) EP3460697B1 (ja)
JP (2) JP2019522840A (ja)
KR (1) KR102196686B1 (ja)
CN (1) CN107404381A (ja)
AU (1) AU2017266971B2 (ja)
BR (1) BR112018073635A2 (ja)
CA (1) CA3024565C (ja)
MX (1) MX2018014147A (ja)
MY (1) MY192351A (ja)
PH (1) PH12018502437A1 (ja)
RU (1) RU2738325C2 (ja)
SG (1) SG11201810131VA (ja)
TW (1) TWI706268B (ja)
WO (1) WO2017198014A1 (ja)
ZA (1) ZA201807860B (ja)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6778010B2 (ja) * 2016-04-13 2020-10-28 キヤノン株式会社 画像識別システム、画像識別方法
CN107404381A (zh) * 2016-05-19 2017-11-28 阿里巴巴集团控股有限公司 一种身份认证方法和装置
US11132429B2 (en) * 2016-12-14 2021-09-28 Telefonaktiebolaget Lm Ericsson (Publ) Authenticating a user subvocalizing a displayed text
US10795979B2 (en) 2017-09-27 2020-10-06 International Business Machines Corporation Establishing personal identity and user behavior based on identity patterns
US10776467B2 (en) 2017-09-27 2020-09-15 International Business Machines Corporation Establishing personal identity using real time contextual data
US10839003B2 (en) 2017-09-27 2020-11-17 International Business Machines Corporation Passively managed loyalty program using customer images and behaviors
US10803297B2 (en) 2017-09-27 2020-10-13 International Business Machines Corporation Determining quality of images for user identification
KR20190046063A (ko) * 2017-10-25 2019-05-07 현대자동차주식회사 사용자 인증 시스템, 사용자 인증 방법 및 서버
US10565432B2 (en) * 2017-11-29 2020-02-18 International Business Machines Corporation Establishing personal identity based on multiple sub-optimal images
CN108052813A (zh) * 2017-11-30 2018-05-18 广东欧珀移动通信有限公司 终端设备的解锁方法、装置及移动终端
US10971173B2 (en) 2017-12-08 2021-04-06 Google Llc Signal processing coordination among digital voice assistant computing devices
KR20230004947A (ko) 2017-12-08 2023-01-06 구글 엘엘씨 디지털 음성 어시스턴트 컴퓨팅 디바이스들 사이에서 신호 프로세싱 조정
CN108074575A (zh) * 2017-12-14 2018-05-25 广州势必可赢网络科技有限公司 一种基于循环神经网络的身份验证方法及装置
TWI661329B (zh) 2017-12-15 2019-06-01 鴻海精密工業股份有限公司 身份資訊關聯系統與方法、電腦存儲介質及使用者設備
CN110288349A (zh) * 2018-03-16 2019-09-27 杭州海康威视数字技术股份有限公司 用户信息管理方法、装置及***、存储介质
CN108597523B (zh) * 2018-03-23 2019-05-17 平安科技(深圳)有限公司 说话人认证方法、服务器及计算机可读存储介质
CN108712381A (zh) * 2018-04-16 2018-10-26 出门问问信息科技有限公司 一种身份验证方法及装置
CN108446674A (zh) * 2018-04-28 2018-08-24 平安科技(深圳)有限公司 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质
US10678899B2 (en) * 2018-05-24 2020-06-09 Nice Ltd. System and method for performing voice biometrics analysis
CN108682424A (zh) * 2018-07-13 2018-10-19 广州势必可赢网络科技有限公司 一种音频采集设备及方法
CN109344703B (zh) * 2018-08-24 2021-06-25 深圳市商汤科技有限公司 对象检测方法及装置、电子设备和存储介质
CN109271915B (zh) * 2018-09-07 2021-10-08 北京市商汤科技开发有限公司 防伪检测方法和装置、电子设备、存储介质
CN109409204B (zh) * 2018-09-07 2021-08-06 北京市商汤科技开发有限公司 防伪检测方法和装置、电子设备、存储介质
CN109461437B (zh) * 2018-11-28 2023-05-09 平安科技(深圳)有限公司 唇语识别的验证内容生成方法及相关装置
JP7299708B2 (ja) * 2019-01-15 2023-06-28 グローリー株式会社 認証システム、管理装置及び認証方法
CN109801638B (zh) * 2019-01-24 2023-10-13 平安科技(深圳)有限公司 语音验证方法、装置、计算机设备及存储介质
CN109872714A (zh) * 2019-01-25 2019-06-11 广州富港万嘉智能科技有限公司 一种提高语音识别准确性的方法、电子设备及存储介质
CN110113319A (zh) * 2019-04-16 2019-08-09 深圳壹账通智能科技有限公司 身份认证方法、装置、计算机设备和存储介质
CN110223710A (zh) * 2019-04-18 2019-09-10 深圳壹账通智能科技有限公司 多重联合认证方法、装置、计算机装置及存储介质
CN110110513A (zh) * 2019-04-24 2019-08-09 上海迥灵信息技术有限公司 基于人脸和声纹的身份认证方法、装置和存储介质
CN110288286A (zh) * 2019-05-21 2019-09-27 深圳壹账通智能科技有限公司 基于身份验证的物品入库方法、装置、设备及存储介质
CN110324314B (zh) * 2019-05-23 2023-04-18 深圳壹账通智能科技有限公司 用户注册方法及装置、存储介质、电子设备
CN110569707A (zh) * 2019-06-25 2019-12-13 深圳和而泰家居在线网络科技有限公司 一种身份识别方法和电子设备
CN110364163A (zh) * 2019-07-05 2019-10-22 西安交通大学 一种语音和唇语相融合的身份认证方法
CN110348378A (zh) * 2019-07-10 2019-10-18 北京旷视科技有限公司 一种认证方法、装置和存储介质
CN111684459A (zh) * 2019-07-18 2020-09-18 深圳海付移通科技有限公司 一种身份验证方法、终端设备、存储介质
CN110517106A (zh) * 2019-07-24 2019-11-29 合肥善达信息科技有限公司 一种用于评标的专家身份认证***及其实时监测方法
TWI822646B (zh) * 2019-08-07 2023-11-11 華南商業銀行股份有限公司 基於唇部動態影像的身分驗證裝置及方法
TWI801647B (zh) * 2019-08-07 2023-05-11 華南商業銀行股份有限公司 基於動態影像的身分驗證裝置及方法
CN110491413B (zh) * 2019-08-21 2022-01-04 中国传媒大学 一种基于孪生网络的音频内容一致性监测方法及***
CN110717407A (zh) * 2019-09-19 2020-01-21 平安科技(深圳)有限公司 基于唇语密码的人脸识别方法、装置及存储介质
CN110602405A (zh) * 2019-09-26 2019-12-20 上海盛付通电子支付服务有限公司 拍摄方法和装置
CN110738159A (zh) * 2019-10-11 2020-01-31 中国建设银行股份有限公司 用于实现变更企业实际控制人的在线股东大会方法、装置
CN111160928A (zh) * 2019-12-16 2020-05-15 深圳前海微众银行股份有限公司 一种验证身份的方法及装置
CN116797971A (zh) * 2019-12-31 2023-09-22 支付宝实验室(新加坡)有限公司 一种视频流识别方法及装置
CN111178287A (zh) * 2019-12-31 2020-05-19 云知声智能科技股份有限公司 一种声像融合的端对端身份识别方法及装置
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
US11403369B2 (en) 2020-01-21 2022-08-02 Disney Enterprises, Inc. Secure content processing pipeline
US11425120B2 (en) * 2020-02-11 2022-08-23 Disney Enterprises, Inc. Systems for authenticating digital contents
CN114616565A (zh) * 2020-03-24 2022-06-10 乐天集团股份有限公司 使用视听不一致性的活体检测
CN111667835A (zh) * 2020-06-01 2020-09-15 马上消费金融股份有限公司 语音识别方法、活体检测方法、模型训练方法及装置
CN111881726B (zh) * 2020-06-15 2022-11-25 马上消费金融股份有限公司 一种活体检测方法、装置及存储介质
CN111814732B (zh) * 2020-07-23 2024-02-09 度小满科技(北京)有限公司 一种身份验证方法及装置
CN112102546A (zh) * 2020-08-07 2020-12-18 浙江大华技术股份有限公司 一种人机交互控制方法、对讲呼叫方法及相关装置
GB202014436D0 (en) * 2020-09-14 2020-10-28 Voice Biometrics Limted Multifactor voice and face authentication systems and methods
CN112133311B (zh) * 2020-09-18 2023-01-17 科大讯飞股份有限公司 说话人识别方法、相关设备及可读存储介质
US20220115002A1 (en) * 2020-10-14 2022-04-14 Beijing Horizon Robotics Technology Research And Development Co., Ltd. Speech recognition method, speech recognition device, and electronic equipment
CN112348527A (zh) * 2020-11-17 2021-02-09 上海桂垚信息科技有限公司 一种基于语音识别在银行交易***中的身份认证方法
CN112491844A (zh) * 2020-11-18 2021-03-12 西北大学 一种基于可信执行环境的声纹及面部识别验证***及方法
CN112397072B (zh) * 2021-01-18 2021-04-30 深圳市声扬科技有限公司 语音检测方法、装置、电子设备及存储介质
KR20220138669A (ko) * 2021-04-06 2022-10-13 삼성전자주식회사 개인화 오디오 정보를 제공하기 위한 전자 장치 및 방법
CN113347608B (zh) * 2021-06-11 2023-05-12 焦作大学 一种用于车辆的物联网可信认证方法
CN114677634B (zh) * 2022-05-30 2022-09-27 成都新希望金融信息有限公司 面签识别方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011203992A (ja) * 2010-03-25 2011-10-13 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2011215942A (ja) * 2010-03-31 2011-10-27 Nec Personal Products Co Ltd ユーザ認証装置、ユーザ認証システム、ユーザ認証方法及びプログラム
JP2014085913A (ja) * 2012-10-25 2014-05-12 Ntt Communications Corp 認証装置、認証方法及び認証プログラム
US20150228278A1 (en) * 2013-11-22 2015-08-13 Jonathan J. Huang Apparatus and method for voice based user enrollment with video assistance

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060206724A1 (en) * 2005-02-16 2006-09-14 David Schaufele Biometric-based systems and methods for identity verification
TWI326427B (en) 2005-06-22 2010-06-21 Egis Technology Inc Biometrics signal input device, computer system having the biometrics signal input device, and control method thereof
JP2007156974A (ja) * 2005-12-07 2007-06-21 Kddi Corp 個人認証・識別システム
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
US9100825B2 (en) * 2012-02-28 2015-08-04 Verizon Patent And Licensing Inc. Method and system for multi-factor biometric authentication based on different device capture modalities
US20140143551A1 (en) * 2012-11-21 2014-05-22 Leigh M. Rothschild Encoding biometric identification information into digital files
CN104995865B (zh) * 2013-03-14 2018-06-08 英特尔公司 基于声音和/或面部辨识的服务提供
US9003196B2 (en) * 2013-05-13 2015-04-07 Hoyos Labs Corp. System and method for authorizing access to access-controlled environments
RU2543958C2 (ru) * 2013-05-14 2015-03-10 Российская Федерация, от имени которой выступает Федеральная служба по техническому и экспортному контролю (ФСТЭК России) Способ контроля исполнения домашнего ареста с биометрической аутентификацией контролируемого
US9721079B2 (en) * 2014-01-15 2017-08-01 Steve Y Chen Image authenticity verification using speech
CN103841108B (zh) * 2014-03-12 2018-04-27 北京天诚盛业科技有限公司 用户生物特征的认证方法和***
CN104361276B (zh) * 2014-11-18 2017-07-18 新开普电子股份有限公司 一种多模态生物特征身份认证方法及***
CN104598796B (zh) * 2015-01-30 2017-08-25 科大讯飞股份有限公司 身份识别方法及***
US9615224B2 (en) * 2015-02-19 2017-04-04 Cisco Technology, Inc. Zero touch deployment over a wireless wide area network
WO2016139655A1 (en) * 2015-03-01 2016-09-09 I Am Real Ltd. Method and system for preventing uploading of faked photos
CN104834900B (zh) * 2015-04-15 2017-12-19 常州飞寻视讯信息科技有限公司 一种联合声像信号进行活体检测的方法和***
CN105141619A (zh) * 2015-09-15 2015-12-09 北京云知声信息技术有限公司 一种帐号登录方法及装置
CN105426723A (zh) * 2015-11-20 2016-03-23 北京得意音通技术有限责任公司 基于声纹识别、人脸识别以及同步活体检测的身份认证方法及***
CN107404381A (zh) * 2016-05-19 2017-11-28 阿里巴巴集团控股有限公司 一种身份认证方法和装置
US9686238B1 (en) * 2016-07-07 2017-06-20 Oceus Networks Inc. Secure network enrollment
US11868995B2 (en) * 2017-11-27 2024-01-09 Nok Nok Labs, Inc. Extending a secure key storage for transaction confirmation and cryptocurrency

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011203992A (ja) * 2010-03-25 2011-10-13 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2011215942A (ja) * 2010-03-31 2011-10-27 Nec Personal Products Co Ltd ユーザ認証装置、ユーザ認証システム、ユーザ認証方法及びプログラム
JP2014085913A (ja) * 2012-10-25 2014-05-12 Ntt Communications Corp 認証装置、認証方法及び認証プログラム
US20150228278A1 (en) * 2013-11-22 2015-08-13 Jonathan J. Huang Apparatus and method for voice based user enrollment with video assistance

Also Published As

Publication number Publication date
AU2017266971A1 (en) 2018-12-06
EP3460697B1 (en) 2021-12-08
KR102196686B1 (ko) 2020-12-31
EP3460697A1 (en) 2019-03-27
TWI706268B (zh) 2020-10-01
RU2738325C2 (ru) 2020-12-11
CN107404381A (zh) 2017-11-28
MY192351A (en) 2022-08-17
CA3024565A1 (en) 2017-11-23
BR112018073635A2 (pt) 2019-02-26
US10789343B2 (en) 2020-09-29
SG11201810131VA (en) 2018-12-28
US20190102531A1 (en) 2019-04-04
CA3024565C (en) 2022-09-06
WO2017198014A1 (zh) 2017-11-23
RU2018144787A (ru) 2020-06-19
JP2019522840A (ja) 2019-08-15
PH12018502437A1 (en) 2019-05-15
ZA201807860B (en) 2019-08-28
TW201741921A (zh) 2017-12-01
AU2017266971B2 (en) 2021-05-13
JP7109634B2 (ja) 2022-07-29
RU2018144787A3 (ja) 2020-06-19
MX2018014147A (es) 2019-08-12
EP3460697A4 (en) 2019-05-08
KR20190009361A (ko) 2019-01-28

Similar Documents

Publication Publication Date Title
JP2021182420A (ja) アイデンティティ認証方法及び装置
EP3540621B1 (en) Identity authentication method and apparatus, terminal and server
US9177131B2 (en) User authentication method and apparatus based on audio and video data
US20230176815A1 (en) Systems and methods for private authentication with helper networks
CN107346568B (zh) 一种门禁***的认证方法和装置
CN106709402A (zh) 基于音型像特征的真人活体身份验证方法
JP2001092974A (ja) 話者認識方法及びその実行装置並びに音声発生確認方法及び装置
Marcel et al. On the results of the first mobile biometry (MOBIO) face and speaker verification evaluation
CN111611568A (zh) 一种人脸声纹复核终端及其身份认证方法
Kumar et al. Analysis of various biometric techniques
JP6280068B2 (ja) パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム
KR100898766B1 (ko) 얼굴 인식 장치, 얼굴 인식 등록 및 인증 방법
Shenai et al. Fast biometric authentication system based on audio-visual fusion
McShane et al. Challenge based visual speech recognition using deep learning
Marcel et al. Bi-modal face and speech authentication: a biologin demonstration system
De Marsico et al. House in the (biometric) cloud: a possible application
WO2021060256A1 (ja) 顔認証装置、顔認証方法、及びコンピュータ読み取り可能な記録媒体
Aides et al. Robust audiovisual liveness detection for biometric authentication using deep joint embedding and dynamic time warping
Khoury et al. On the improvements of uni-modal and bi-modal fusions of speaker and face recognition for mobile biometrics
Zakeri et al. WhisperNetV2: SlowFast Siamese Network For Lip-Based Biometrics
Dixit et al. SIFRS: Spoof Invariant Facial Recognition System (A Helping Hand for Visual Impaired People)
Poh et al. Multimodal Interaction in Biometrics: Technological and Usability Challenges
Kaur et al. Cuckoo search based optimization for multimodal biometrics (signature, speech and palmprint)
BANU et al. IMPLEMENTATION OF ACCURATE PERSONAL IDENTIFICATION BY USING PALM PRINT IMAGE PROCESSING
Kumar The Secured Biometric Protection System Based on Face and Voice Recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210803

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220719

R150 Certificate of patent or registration of utility model

Ref document number: 7109634

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150