JP2021182420A

JP2021182420A - アイデンティティ認証方法及び装置

Info

Publication number: JP2021182420A
Application number: JP2021123330A
Authority: JP
Inventors: リー，パァン; Peng Li; スン，イーパァン; Yipeng Sun; シェ，ヨンシャン; Yongxiang Xie; リー，リィァン; Liang Li
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd
Priority date: 2016-05-19
Filing date: 2021-07-28
Publication date: 2021-11-25
Anticipated expiration: 2037-04-12
Also published as: AU2017266971A1; EP3460697B1; KR102196686B1; EP3460697A1; TWI706268B; RU2738325C2; CN107404381A; MY192351A; CA3024565A1; BR112018073635A2; US10789343B2; SG11201810131VA; US20190102531A1; CA3024565C; WO2017198014A1; RU2018144787A; JP2019522840A; PH12018502437A1; ZA201807860B; TW201741921A

Abstract

【課題】認証の効率及び信頼性を高めるアイデンティティ認証方法及び装置を提供する。【解決手段】方法は、認証対象である対象オブジェクトにより生成される音声及び映像ストリームを取得するステップと、読唇と音声とが一致しているかを特定し、一致している場合、音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を対象オブジェクトのオブジェクト識別子として用いるステップと、事前に格納されたオブジェクト登録情報がオブジェクト識別子を含む場合、オブジェクト登録情報からオブジェクト識別子に対応するモデル生理学的特徴を取得するステップと、音声及び映像ストリームから、対象オブジェクトの生理学的特徴を取得するステップと、対象オブジェクトの生理学的特徴をモデル生理学的特徴と比較し、比較結果が認証条件を満たす場合、対象オブジェクトは認証された、と特定するステップと、を含む。【選択図】図５

Description

本願はネットワーク技術に関し、特に、アイデンティティ（身元）認証方法及び装置に関する。

インターネット技術の発展に伴い、ネットワークベースのサービスが、人々に益々広く使われるようになっている。例えば、人々は、メールボックスを用いて電子メールを送受信し、オンラインで買い物をし、オンラインで働くことすらできる。アプリケーションによっては、そのセキュリティ要件は高く、ユーザのアイデンティティが認証される必要がある。例えば、オンラインショッピングに対する決済が承認される前に、ユーザのアイデンティティが認証される必要がある、又は、ユーザは、ユーザのアイデンティティが認証された後に、セキュリティ要件が比較的高いアプリケーションにログインすることができる。関連技術において、顔認識（顔認証）及び声紋認識（声紋認証）など、インターネットで用いられるアイデンティティ認証方法が幾つか存在する。しかし、これらの一般に用いられる認証方法は比較的複雑である。例えば、ユーザは、ユーザのＩＤを入力し、次いで、声紋認識のために声紋を検証する必要がある。加えて、既存の認証方法の信頼性は比較的低い。例えば、攻撃者は、アナログ映像又は録画を使って顔認識を達成できる。検証が、例えば顔と声紋を参照する２種類の組み合わされた認証方法に基づいて実行される場合であっても、これらの認証方法は、比較的、互いに独立しているので、攻撃者は、認証プロセスを打ち破ることができる。アイデンティティ認証方法の上記の欠点は、アプリケーションセキュリティに対し何らかのリスクを生む可能性がある。

上記に鑑み、本願は、アイデンティティ認証の効率及び信頼性を高めるアイデンティティ認証方法及び装置を提供する。

具体的に、本願は、以下の技術的解決策を用いて実施される。

第１の態様によれば、アイデンティティ認証方法が提供され、この方法は：収集された音声及び映像ストリームを取得するステップであって、前記音声及び映像ストリームは、認証対象である対象オブジェクトにより生成される、ステップと；前記音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、前記読唇と前記音声とが一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトのオブジェクト識別子として用いるステップと；事前に格納されたオブジェクト登録情報が前記オブジェクト識別子を含む場合、前記オブジェクト登録情報から、前記オブジェクト識別子に対応するモデル生理学的特徴を取得するステップと；前記音声及び映像ストリームに対して生理学的認識を実行して、前記対象オブジェクトの生理学的特徴を取得するステップと；前記対象オブジェクトの前記生理学的特徴を、前記モデル生理学的特徴と比較して比較結果を取得し、前記比較結果が認証条件を満たす場合、前記対象オブジェクトは認証された、と特定するステップと；を含む。

第２の態様によれば、アイデンティティ認証装置が提供され、この装置は：収集された音声及び映像ストリームを取得するよう構成された情報取得モジュールであって、前記音声及び映像ストリームは、認証対象である対象オブジェクトにより生成される、情報取得モジュールと；前記音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、前記読唇と前記音声とが一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトのオブジェクト識別子として用いるよう構成された識別子特定モジュールと；事前に格納されたオブジェクト登録情報が前記オブジェクト識別子を含む場合、前記オブジェクト登録情報から前記オブジェクト識別子に対応するモデル生理学的特徴を取得するよう構成された情報管理モジュールと；前記音声及び映像ストリームに対して生理学的認識を実行して、前記対象オブジェクトの生理学的特徴を取得するよう構成された特徴認識モジュールと；前記対象オブジェクトの前記生理学的特徴を前記モデル生理学的特徴と比較して比較結果を取得し、前記比較結果が認証条件を満たす場合、前記対象オブジェクトは認証された、と特定するように構成された認証処理モジュールと；を含む。

本願において提供されるアイデンティティ認証方法及び装置によれば、ユーザの認証時に、音声及び映像ストリームの認識を通じてユーザ識別子が取得され、顔特徴と声紋特徴も同じ音声及び映像ストリームを用いて検証できる。これにより、ユーザの操作は簡素化され、認証効率が向上し、１対１認証モデルは維持され、且つ認識精度が確保される。その上、本方法では、読唇と音声との一致を特定することにより、対象オブジェクトが攻撃者による偽の映像記録ではなく、本人そのものであることが保証され、よって認証のセキュリティ及び信頼性が向上する。

図１は、本願の実施の例に係る、アイデンティティ登録手順を示す図である。

図２は、本願の実施の例に係る、読唇と音声との一致を特定する手順を示す図である。

図３は、本願の実施の例に係る、顔特徴認識手順を示す図である。

図４は、本願の実施の例に係る、声紋特徴認識手順を示す図である。

図５は、本願の実施の例に係る、アイデンティティ認証手順を示す図である。

図６は、本願の実施の例に係る、アイデンティティ認証装置の構造図である。

図７は、本願の実施の例に係る、アイデンティティ認証装置の構造図である。

実施の例をここに詳細に述べ、これら実施の例のいくつかを添付図面に提示する。下記の説明が添付図面に関する場合、別段の定めがない限り、異なる添付図面における同一の符号は、同一の要素又は類似の要素を表す。下記の実施の例で述べる実施は、本願に合致する全ての実施を表す訳ではない。むしろそれらは、添付の特許請求の範囲に詳細に記載される本願の一部の態様に合致する装置及び方法の実施例に過ぎない。

本願の実施において提供されるアイデンティティ認証方法は、インターネットアイデンティティ認証に適用できる。例えば、アプリケーションのセキュリティを確保するため、ユーザは、本方法を用いて認証された後に、ネットワークアプリケーションにログインすることができる。

セキュリティ要件が比較的高いアプリケーションを以下一例として用いる。アプリケーションは、ユーザのインテリジェントデバイス上、例えばスマートフォン又はインテリジェントタブレット上で作動できると仮定する。ユーザがインテリジェントデバイス上でアプリケーションにログインする必要がある場合、インテリジェントデバイス上のカメラとマイクロホンとを用いて音声及び映像ストリームを収集できる。例えば、ユーザは、ユーザのアプリケーションＩＤを携帯電話のカメラとマイクロホンとに向かって読み上げることができる。アプリケーションＩＤは、ユーザによってアプリケーションに登録されているアカウント番号「１２３４５６」とすることができる。ユーザがアプリケーションＩＤを読み上げた後、携帯電話は、ビデオ画像と読み上げ音声とを含むユーザの音声（オーディオ）及び映像（ビデオ）ストリームを収集できる。

本願のこの実施におけるアイデンティティ認証方法によると、収集された音声及び映像ストリームを処理できる。認証に先立ち、ユーザは、後でアイデンティティ認証を実行するためのアイデンティティ登録手順を実行する必要がある。登録手順も、収集された音声及び映像ストリームに基づいて実行される。以下、アイデンティティ登録手順とアイデンティティ認証手順とを別々に述べる。また、この実施は、実際のアプリケーションにおいてアイデンティティ登録又は認証処理を実行するデバイスに制限を課すものではない。例えば、ユーザの音声及び映像ストリームが収集された後、スマートフォンは、音声及び映像ストリームをアプリケーションのバックエンドサーバへ伝送できる、又は、処理の一部をスマートフォンのクライアントソフトウェア側で実行でき、処理のその他の部分をサーバ側で実行でき、さもなければ、他の方法を用いることができる。

＜アイデンティティ登録＞
この実施の方法において、ユーザがアイデンティティ登録を実行する際、２つのタイプの情報を含めることができる。一方のタイプの情報はオブジェクト識別子である。例えば、ユーザがアプリケーションにログインする場合、ユーザを対象オブジェクトと称することができる。ユーザがアプリケーションに登録する際、ユーザを別のユーザと区別するために用いられる情報が、アプリケーションにおけるオブジェクト識別子であって、例えば、アプリケーションにおけるユーザのアカウント番号１２３４５６とすることができ、アカウント番号１２３４５６が、対象オブジェクトのオブジェクト識別子である。他方のタイプの情報は、ユーザを一意に識別ができる生理学的情報、例えば、ユーザの声紋特徴又はユーザの顔特徴である。通常、声紋及び顔は人によって異なり、各ユーザを識別する生理学的情報は、モデル生理学的特徴と呼ぶことができる。

この２つのタイプの情報、すなわちオブジェクト識別子及びモデル生理学的特徴の間にマッピング関係が確立され、このマッピング関係が格納される。対応して格納される対象オブジェクトのオブジェクト識別子とモデル生理学的特徴は、「オブジェクト登録情報」と呼ぶことができる。例えば、ユーザＸｉａｏＺｈａｎｇは、ユーザのオブジェクト登録情報を「１２３４５６−モデル生理学的特徴Ａ」として格納できる。ユーザのより正確な識別のため、この例で用いられるモデル生理学的特徴に含まれる生理学的情報は、少なくとも２つのタイプの生理学的情報、例えば、顔及び声紋とすることができる。

図１は、アイデンティティ登録手順の例を示す。この手順は、下記の処理を含む。

ステップ１０１：対象オブジェクトの登録対象である音声及び映像ストリームを取得する。

例えば、ユーザはアプリケーションに登録し、ユーザは、アプリケーションのアカウント番号「１２３４５６」をユーザのインテリジェントデバイス、例えば携帯電話に向かって読み上げることができる。この例において、登録を実行中のユーザを対象オブジェクトと呼ぶことができ、インテリジェントデバイスのカメラとマイクロホンは、ユーザがアカウント番号を読み上げる際に生成される音声及び映像ストリームを収集できる。登録時に収集される音声及び映像ストリームは、登録対象である音声及び映像ストリームと呼ぶことができ、音声ストリームと映像ストリームとを含む。音声ストリームは、ユーザの読み上げ音声であり、映像ストリームは、ユーザの読み上げビデオ画像である。

このステップで音声及び映像ストリームが取得された後、下記の３つの態様の処理を実行してユーザの登録を完了できる。詳細については、同じく図１を参照できる。

一の態様における処理は下記の通りである。すなわち、ステップ１０２：登録対象である音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定する。

ここでの一致は、唇の動きと音声によって示される動きとのマッピング関係を意味する。例えば、音声が「今日の天気は晴れです」であり、音声は低速で生成されたものの、唇の動きは、高速で生成された「今日の天気は晴れです」に対応すると仮定する。音声と唇の動きが互いに対応しないことは明らかである。すなわち、唇の動きは既に止まっている（内容は完全に読み上げられている）のに、音声は続いている（…晴れです）。これは、多くの予想される状況、例えば、攻撃者がユーザのＩＤ及び顔検出をパスしようと試みる場合、攻撃者がユーザ（攻撃されたユーザ）の以前の映像レコードを使用することにより顔検出を攻撃する可能性がある場合、及び攻撃者が音声内容のＩＤの認識を攻撃するためにユーザのＩＤを読み上げる場合に起こり得る。このようにして、攻撃者が認証されてしまうことがあり得る。しかし、こうした攻撃において、読唇と音声は、通常、一致せず、そして読み上げ者はユーザではない、と特定できる。

ステップ１０２に示すように、登録対象である音声及び映像ストリーム中の読唇と音声とが一致しない、と特定された場合、登録の失敗をユーザに通知できる。或いは、図１に示すように、処理エラーを防ぐために、ステップ１０１に進み、音声及び映像ストリームを再度収集する。

一方、登録対象である音声及び映像ストリーム中の読唇と音声が一致していると特定された場合、ステップ１０３を実行する。すなわち、収集された音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を対象オブジェクトのオブジェクト識別子として使用する。音声認識は、個人の音声内容を自動的に認識するためのコンピュータ技術、すなわち、音声を内容に変換する認識プロセスを用いる。例えば、登録を実行すべきユーザによる「１２３４５６」を読み上げる音声に対して音声認識が実行された後、音声ストリームの取得された音声内容は「１２３４５６」であり、認識を通じて取得される内容は、ユーザの識別子、すなわち、ユーザのＩＤとして用いることができる。

音声ストリームの上記音声認識は、読唇と音声が一致していると特定された後に実行してオブジェクト識別子を取得することができ、或いは、読唇と音声が一致しているかどうかを特定するプロセスにおいて実行してオブジェクト識別子を取得することができる。

別の態様において、登録対象である音声及び映像ストリームに対して生理学的認識（認証）を実行して、登録対象である音声及び映像ストリームのモデル生理学的特徴を取得する。この例において、生理学的特徴としては顔特徴と声紋特徴とを含むが、特徴の一例がユーザを一意的に識別でき、異なるユーザの生理学的特徴の区別に用いることができる限り、この２つの特徴に限定されない。この態様において、ステップ１０４に示すように、登録対象である音声及び映像ストリームにおける音声ストリームに対して声紋認識を実行して、対象オブジェクトの声紋特徴を取得することができる。

更に別の態様において、登録対象である音声及び映像ストリームにおける映像ストリームに対して顔検出を実行して、対象オブジェクトの顔特徴を取得する。

登録手順において、検出された顔特徴はモデル顔特徴と呼ぶことができ、以降の認証プロセスにおいて基準として用いることができる。同様に、検出された声紋特徴もモデル声紋特徴と呼ぶことができ、モデル声紋特徴とモデル顔特徴は、総称してモデル生理学的特徴と呼ぶことができる。

この実施において、対象オブジェクトのモデル生理学的特徴とオブジェクト識別子は、オブジェクト登録情報とも呼ばれる。オブジェクト登録情報におけるデータが揃っていると特定された後、ステップ１０６において、対象オブジェクトのオブジェクト識別子と対応するモデル生理学的特徴が、オブジェクト登録情報としてデータベースに格納される。

また、図１に示す３つの態様の実行順序は限定されない。例えば、ステップ１０１において登録対象である音声及び映像ストリームを取得した後、３つの態様を並行して実行することができる。読唇と音声が一致していない場合、認識された声紋特徴と認識された顔特徴は、格納されなくてもよい。或いは、読唇と音声が一致していると特定された後、次いで声紋特徴と顔特徴についての検出と認識が実行される。

図２は、図１における読唇と音声の一致を特定する手順を示す。手順は、下記のステップを含むことができる。

ステップ２０１：登録対象である音声及び映像ストリームにおける音声ストリームに基
づいてエンドポイント（端点）検出を実行する。このステップでは、連続する音声ストリームにおいて音声ストリームの開始時刻と終了時刻とを検出できる。

ステップ２０２：音声ストリームに基づき、連続する音声特徴を抽出する。ここで、特徴としてはＭＦＣＣ特徴とＬＰＣＣ特徴とを含むが、これに限定されない。このステップで抽出される特徴は、音声認識に用いることができる。

ステップ２０３：音声ストリーム中の音声の音節と対応する時点を識別する。このステップにおいて、音声ストリーム中の各音節をステップ２０２において抽出される音声特徴に基づいて識別でき、音節の対応する出現時点と、対応する消滅時点とを特定できる。音声認識方法としては、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ）、ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ、ＤＮＮ）、及びロングショートタイムモデル（ＬｏｎｇＳｈｏｒｔＴｉｍｅＭｏｄｅｌ、ＬＳＴＭ）などの方法を含むが、これらに限定されない。

ステップ２０４：登録対象である音声及び映像ストリームにおける映像ストリームに基づいて唇の位置を検出する。このステップにおいて、唇の位置は、映像の画像から検出できる。

ステップ２０５：検出された唇画像の品質を特定する。例えば、唇の位置の解像度及び露出などのパラメータを特定できる。解像度が低い場合、又は露出度が高過ぎる場合、映像は適格ではない、と特定され、この場合、登録対象である音声及び映像ストリームを再度収集する。映像が適格であれば、ステップ２０６に進んで読唇認識を実行する。

ステップ２０６：唇の連続的な特徴を抽出する。このステップにおいて、特徴は、連続的な唇画像から抽出でき、この特徴は、ベアピクセル、ＬＢＰ、Ｇａｂｏｒ（ガボール）、ＳＩＦＴ、又はＳｕｒｆなどのローカル映像記述子を含むが、これらに限定されない。

ステップ２０７：映像ストリーム中の読唇の音節と、対応する時点とを識別する。このステップにおいて、読唇の音節は、隠れマルコフモデル（ＨＭＭ）及びロングショートタイムモデルなどの方法を用いて識別できる。映像時間シーケンスにおける読唇の音節に対応する時点も、読唇認識時にこのモデルを用いて特定される。

ステップ２０８：読唇の音節と音声の音節との両方の、対応する時点が一致しているかどうかを特定する。例えば、このステップにおいて、音声の音節の時点情報を、読唇の音節の時点情報と比較できる。比較結果が一致を示す場合、音声ストリームは実在の人物によって生成されたとみなされ、この場合、ステップ２０９へ進む。比較結果が不一致を示す場合、音声ストリームは攻撃行為である疑いがあり、この場合、登録手順に戻る。この実施では、読唇の音節及び音声の音節の両方の、対応する時点の一致を検出する方法は、より細部にわたり、したがって、実在の人物の音声を特定する精度はより高くなる。

ステップ２０９：ステップ２０２で抽出される音声特徴に対して音声認識を実行して、ユーザのＩＤ、すなわちオブジェクト識別子を取得する。音声認識方法としては、隠れマルコフモデル（ＨＭＭ）、ディープニューラルネットワーク（ＤＮＮ）、及びロングショートタイムモデル（ＬＳＴＭ）などの方法を含むが、これらに限定されない。

更に、図２に示す実施例では、読唇と音声とが一致している、と特定された後、ステップ２０９において音声ストリームの音声認識を実行できる。或いは、ステップ２０３において音声ストリーム中の音節の時点が識別されると、音声特徴に基づき音声認識を実行することによりユーザのＩＤが取得される。この場合、ステップ２０８において読唇と音声とが一致している、と特定された後、認識を通じて取得されるユーザのＩＤは、オブジェクト識別子として、直接、用いることができる。

図３は、図１における顔特徴認識手順を示す。この手順は、下記のステップを含むことができる。

ステップ３０１：登録対象である音声及び映像ストリームにおける映像ストリームに基づき顔画像を検出する。このステップにおいて、映像フレーム画像を音声及び映像ストリームにおける映像ストリームから抽出でき、顔が映像フレーム画像に出現するかどうかを検出できる。肯定である場合、ステップ３０２へ進む。さもなければ、特定手順へ戻る。

ステップ３０２：顔画像の品質を検出する。このステップにおいて、ステップ３０１で検出された顔に対して顔特徴点検出を実行でき、特徴点検出の結果に基づいて水平方向と垂直方向の両方における顔の角度を特定できる。両角度が特定の傾斜角を超えていない場合、品質要件は満たされる。そうでなければ、品質要件は満たされない。加えて、顔領域の解像度、露出などが特定され、これらも特定の閾値以内である必要がある。顔画像が良好な品質であれば、顔特徴をより良好に認識できる。

ステップ３０３：品質要件を満たす顔画像に関し、顔画像から固有ベクトルを抽出する。ここで、固有ベクトルは、ローカルバイナリパターン（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ、ＬＢＰ）、Ｇａｂｏｒ、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）等を含むが、これらに限定されない。

ステップ３０４：ステップ３０３において抽出された複数の顔固有ベクトルを組み合わせてユーザの一意の顔特徴、すなわちモデル顔特徴を形成する。

図４は、図１における声紋特徴認識手順を示す。この手順は、下記のステップを含むことができる。

ステップ４０１：登録対象である音声及び映像ストリームにおける音声ストリームを取得する。

この例では、登録対象である音声及び映像ストリームにおける音声ストリームに基づいて声紋特徴認識を実行できる。

ステップ４０２：音声ストリームの音声品質は品質基準を満たしている、と特定する。

このステップでは音声品質を特定できる。収集された音声ストリームの品質が良好であるほど、音声に対して声紋認識を実行する効果が良好となる。したがって、以降の声紋認識を実行する前に、音声ストリームの品質を先ず特定できる。例えば、音声ストリーム中の音声の信号強度及び信号対ノイズ比などの情報を計算して、音声が品質基準を満たしているかどうかを特定できる。例えば、信号対ノイズ比が特定の範囲内に収まること、又は音声の信号強度が強度閾値より大きいことを品質基準とすることができる。音声ストリームが適格である場合、ステップ４０３へ進む。そうでなければ、登録対象である音声及び映像ストリームを再度収集する。

ステップ４０３：音声ストリームから声紋固有ベクトルを抽出する。

この例では、複数の登録対象である音声及び映像ストリームが存在する可能性がある。例えば、ユーザは、ユーザのＩＤを２度読み上げる可能性があり、これに応じ２つの音声及び映像ストリームが収集される。このステップにおいて、各音声及び映像ストリームにおける音声ストリームの声紋固有ベクトルを抽出できる。固有ベクトルは、複数の方法で抽出できるが、ここでは簡略化のため詳細は省略する。例えば、音声ストリームの音声信号から音声特徴パラメータメル周波数ケプストラム係数（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ、ＭＦＣＣ）を抽出でき、次いで、ｉ−ｖｅｃｔｏｒ（話者認識アルゴリズム）又は確率的線形判別分析（ＰｒｏｂａｂｉｌｉｓｔｉｃＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ、ＰＬＤＡ、すなわち、声紋認識のためのチャネル補償アルゴリズム）などの方法を用いて固有ベクトルが計算される。

ステップ４０４：複数の音声ストリームの声紋固有ベクトルが一致しているかどうかを特定する。

例えば、登録時にユーザがユーザのＩＤを少なくとも２度読み上げた場合、これに応じて、収集された音声ストリームは少なくとも２つ存在することになる。複数の音声ストリームの声紋特徴間の差が大きくなり過ぎないようにするため、複数の音声ストリーム間において声紋一致の特定を実行できる。例えば、ステップ４０３において各音声ストリームから抽出された声紋固有ベクトルに基づき、複数の音声ストリーム間の類似度スコアを計算できる。

類似度スコアが特定のスコア閾値の範囲内にある場合、それは、音声ストリームが類似要件を満たしていることを意味し、この場合、ステップ４０５へ進む。そうでなければ、それは、ユーザによって入力された複数の音声間に大きな差があることを意味し、登録を実行しているユーザに、ユーザのＩＤの再度の読み上げを指示する、すなわち音声ストリームを再度収集する。

ステップ４０５：複数の音声ストリームの声紋固有ベクトルに基づいてモデル声紋特徴を生成する。

このステップでは、先のステップにおいて音声ストリームから抽出された声紋固有ベクトルに対して加重総和法を実行して、モデル声紋特徴を取得できる。

上記登録手順の完了後、対象オブジェクトのオブジェクト登録情報はデータベースに格納された状態にある。オブジェクト登録情報は、オブジェクト識別子と、対応するモデル生理学的特徴とを含むことができる。モデル生理学的特徴は、モデル声紋特徴とモデル顔特徴とを含むことができ、オブジェクト登録情報に基づいてオブジェクトのアイデンティティ認証の処理を以下の通り実行できる。

＜アイデンティティ認証＞
図５は、アイデンティティ認証手順の実施例を示す。この手順において、認証に用いられる生理学的特徴は、例えば顔特徴と声紋特徴との組合せを用いて記述される。更に、認証過程にある対象オブジェクトが映像ではなく本人である、と特定された後に、生理学的特徴を比較することができる。図５に示すように、認証手順は下記の処理を含む。

ステップ５０１：収集された音声及び映像ストリームを取得する。ここで、音声及び映像ストリームは、認証対象である対象オブジェクトによって生成される。

例えば、ユーザは、ユーザのアイデンティティがアプリケーションによって認証されて初めて、セキュリティ要件が比較的高いアプリケーションにログインすることができる。このステップにおいて、ユーザは、ユーザのインテリジェントデバイス、例えば、スマートフォン上でアプリケーションを起動でき、ユーザは、スマートフォンのカメラとマイクロホンとを使って認証対象である音声及び映像ストリームを収集できる。音声及び映像ストリームは、ユーザがユーザのアプリケーションＩＤを読み上げるときに生成できる。

ステップ５０２：音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定する。

この例では、音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを先ず特定できる。具体的な一致特定手順については図２を参照でき、ここでは簡略化のためその詳細は省略する。

読唇と音声とが一致している場合、それは、認証過程にある対象オブジェクトが映像などではなく本人であることを意味する。この場合、ステップ５０３へ進む。そうでなければ、ステップ５０１に戻って再度収集を実行する。

ステップ５０３：音声及び映像ストリームにおける音声ストリームに対して音声認識を実行して、音声ストリームの音声内容を取得する。例えば、認識を通して取得される音声内容は、ユーザのＩＤ「１２３４５６」とすることができる。

ステップ５０４：音声内容を対象オブジェクトのオブジェクト識別子として用い、事前に格納されたオブジェクト登録情報がこのオブジェクト識別子を含むかどうかを特定する。

例えば、事前に格納されたオブジェクト登録情報がオブジェクト識別子を含む場合、オブジェクト識別子に対応するモデル生理学的特徴、例えばモデル顔特徴及びモデル声紋特徴を、オブジェクト登録情報において取得できる。生理学的特徴をモデル生理学的特徴と比較するために、認証対象である音声及び映像ストリームに対して生理学的認識が更に実行されて、対象オブジェクトの生理学的特徴が取得される。事前に格納されたオブジェクト登録情報がオブジェクト識別子を含まない場合、ユーザは登録を未だ実行していないことをユーザに通知できる。

ステップ５０５：音声及び映像ストリームに対して声紋認識を実行して、対象オブジェクトの声紋特徴を取得する。このステップにおける声紋特徴の抽出については、図４を参照できる。

ステップ５０６：音声及び映像ストリームに対して顔認識を実行して、対象オブジェクトの顔特徴を取得する。

次いで、対象オブジェクトの生理学的特徴をモデル生理学的特徴と比較して比較結果を取得でき、この比較結果が認証条件を満たす場合、対象オブジェクトは認証された、と特定される。例えば、ステップ５０７乃至ステップ５０９が含まれる。

ステップ５０７：対象オブジェクトの声紋特徴をモデル声紋特徴と比較して、声紋比較スコアを取得する。

ステップ５０８：対象オブジェクトの顔特徴をモデル顔特徴と比較して顔比較スコアを取得する。

ステップ５０９：声紋比較スコアと顔比較スコアが認証条件を満たすかどうかを特定する。

例えば、声紋比較スコアと顔比較スコアとが：声紋比較スコアが声紋スコア閾値より大きく、且つ顔比較スコアが顔スコア閾値より大きい；及び、声紋比較スコアと顔比較スコアとの積が、対応する積閾値より大きい；及び、声紋比較スコアと顔比較スコアの加重和が、対応する加重閾値より大きい；うちの少なくとも１つを満たす場合、対象オブジェクトは認証された、と特定される。

このステップにおいて、声紋比較スコアと顔比較スコアとが認証条件を満たす、と特定された場合、対象オブジェクトは認証された、と特定される。そうでなければ、対象オブジェクトは認証に失敗した、と特定される。

更に、このアイデンティティ認証の例では、上記アイデンティティ登録手順と同様に、読唇と音声とが一致している、と特定された後、音声ストリームに対して音声認識を実行してユーザのＩＤを取得できる、或いは、音声ストリーム中の音節時点が識別される際に、ユーザのＩＤを取得できる。上記の例において、ユーザのＩＤは、読唇と音声とが一致している、と特定された後に識別される。

本願のこの実施におけるアイデンティティ認証方法によると、音声及び映像ストリームは、ユーザの認証時に１度しか生成する必要がない。例えば、ユーザは、ユーザのＩＤを１度しか読み上げる必要がない。本方法において、ユーザのＩＤは、音声及び映像ストリームに対して音声認識を実行することにより取得でき、同じ音声及び映像ストリームを用いて顔特徴と声紋特徴とを検証できる。これによりユーザの操作は簡略化され、認証効率が向上し、１対１認証モデルが維持され、認識精度が確保される。換言すると、認識対象である生理学的特徴は、データベースにおけるオブジェクト識別子に対応する特徴とだけ比較され、それにより認識精度が確保される。加えて、本方法において、対象オブジェクトが攻撃者の偽の映像記録ではなく本人であることを保証するために読唇と音声との一致が特定され、それにより認証のセキュリティと信頼性が向上する。本方法において、認識を通じて取得されるユーザのＩＤと生理学的特徴は、同じ音声及び映像ストリームに基づいて取得される。ある程度までは、攻撃者の偽の音声及び映像ストリームを認識することができる。

上記アイデンティティ認証方法を実施するため、本願の実施は、アイデンティティ認証装置を更に提供する。図６に示すように、この装置は、情報取得モジュール６１、識別子特定モジュール６２、情報管理モジュール６３、特徴認識モジュール６４、及び認証処理モジュール６５を含むことができる。

情報取得モジュール６１は、収集された音声及び映像ストリームを取得するよう構成されている。ここで、音声及び映像ストリームは、認証対象である対象オブジェクトによって生成される。

識別子特定モジュール６２は、音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、読唇と音声とが一致している場合、音声及び映像ストリームにおける音声ストリームに対して音声認識を実行して取得される音声内容を、対象オブジェクトのオブジェクト識別子として用いるよう構成されている。

情報管理モジュール６３は、事前に格納されたオブジェクト登録情報がオブジェクト識別子を含む場合、オブジェクト登録情報からオブジェクト識別子に対応するモデル生理学的特徴を取得するよう構成されている。

特徴認識モジュール６４は、音声及び映像ストリームに対して生理学的認識を実行して、対象オブジェクトの生理学的特徴を取得するよう構成されている。

認証処理モジュール６５は、対象オブジェクトの生理学的特徴をモデル生理学的特徴と比較して比較結果を取得し、その比較結果が認証条件を満たす場合、対象オブジェクトは認証された、と特定するよう構成されている。

図７を参照すると、実施例において、特徴認識モジュール６４は、声紋認識サブモジュール６４１と顔認識サブモジュール６４２とを含むことができる。

声紋認識サブモジュール６４１は、音声及び映像ストリームに対して声紋認識を実行して、対象オブジェクトの声紋特徴を取得するよう構成されている。

顔認識サブモジュール６４２は、音声及び映像ストリームに対して顔認識を実行して対象オブジェクトの顔特徴を取得するよう構成されている。

認証処理モジュール６５は、対象オブジェクトの声紋特徴をモデル声紋特徴と比較して声紋比較スコアを取得し、対象オブジェクトの顔特徴をモデル顔特徴と比較して顔比較スコアを取得するように、そして、声紋比較スコアと顔比較スコアとが認証条件を満たす場合、対象オブジェクトは認証されたと特定するように、構成されている。

実施例において、声紋比較スコアと顔比較スコアとが：声紋比較スコアが声紋スコア閾値より大きく、且つ顔比較スコアが顔スコア閾値より大きい；及び、声紋比較スコアと顔比較スコアとの積が、対応する積閾値より大きい；及び、声紋比較スコアと顔比較スコアの加重和が、対応する加重閾値より大きい；のうちの少なくとも１つを満たす場合、対象オブジェクトは認証された、と特定される。

実施例において、図７に示すように、識別子特定モジュール６２は、音声及び映像ストリームにおける音声ストリーム中の音声の音節と対応する時点を識別し、音声及び映像ストリームにおける映像ストリーム中の読唇の音節と対応する時点を識別するよう構成された音節認識サブモジュール６２１と；音声の音節及び読唇の音節の両方が対応する時点で一致している場合、読唇と音声が一致している、と特定するよう構成された一致特定サブモジュール６２２と；を含むことができる。

実施例において、情報取得モジュール６１は、対象オブジェクトの登録対象である音声及び映像ストリームを取得するよう更に構成されている。

識別子特定モジュール６２は、登録対象である音声及び映像ストリーム中の読唇と音声とが一致している場合、音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、対象オブジェクトのオブジェクト識別子として用いるよう更に構成されている。

特徴認識モジュール６４は、登録対象である音声及び映像ストリームに対して生理学的認識を実行して、登録対象である音声及び映像ストリームのモデル生理学的特徴を取得するよう更に構成されている。

情報管理モジュール６３は、これに応じ、対象オブジェクトのオブジェクト識別子と対応するモデル生理学的特徴をオブジェクト登録情報に格納するよう更に構成されている。

上記の説明は本願の実施の例に過ぎず、本願を限定することを意図したものではない。本願の主旨と原理の範囲内でなされるいかなる改変、均等物との置き換え、改良なども、本願の保護範囲内に含まれるべきものである。

６１情報取得モジュール
６２識別子特定モジュール
６３情報管理モジュール
６４特徴認識モジュール
６５認証処理モジュール
６２１音節認識サブモジュール
６２２一致特定サブモジュール
６４１声紋認識サブモジュール
６４２顔認識サブモジュール

Claims

アイデンティティ認証方法であって：
収集された音声及び映像ストリームを取得するステップであって、前記音声及び映像ストリームは、認証対象である対象オブジェクトにより生成される、ステップと；
前記音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、前記読唇と前記音声とが一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトのオブジェクト識別子として用いるステップと；
事前に格納されたオブジェクト登録情報が前記オブジェクト識別子を含む場合、前記オブジェクト登録情報から、前記オブジェクト識別子に対応するモデル生理学的特徴を取得するステップと；
前記音声及び映像ストリームに対して生理学的認識を実行して、前記対象オブジェクトの生理学的特徴を取得するステップと；
前記対象オブジェクトの前記生理学的特徴を、前記モデル生理学的特徴と比較して比較結果を取得し、前記比較結果が認証条件を満たす場合、前記対象オブジェクトは認証された、と特定するステップと；を備える、
アイデンティティ認証方法。
前記生理学的特徴が声紋特徴と顔特徴とを含み、前記モデル生理学的特徴がモデル顔特徴とモデル声紋特徴とを含み、
前記音声及び映像ストリームに対して生理学的認識を実行して、前記対象オブジェクトの生理学的特徴を取得する前記ステップは：
前記音声及び映像ストリームに対して声紋認識を実行して前記対象オブジェクトの声紋特徴を取得するステップと；
前記音声及び映像ストリームに対して顔認識を実行して前記対象オブジェクトの顔特徴を取得するステップと；を備え、
前記対象オブジェクトの前記生理学的特徴を前記モデル生理学的特徴と比較して比較結果を取得し、前記比較結果が認証条件を満たす場合、前記対象オブジェクトは認証された、と特定する前記ステップは：
前記対象オブジェクトの前記声紋特徴を前記モデル声紋特徴と比較して声紋比較スコアを取得し、前記対象オブジェクトの前記顔特徴を前記モデル顔特徴と比較して顔比較スコアを取得するステップと；
前記声紋比較スコアと前記顔比較スコアとが前記認証条件を満たす場合、前記対象オブジェクトは認証された、と特定するステップと；を備える、
請求項１に記載のアイデンティティ認証方法。
前記声紋比較スコアと前記顔比較スコアとが：
前記声紋比較スコアが声紋スコア閾値より大きく、且つ前記顔比較スコアが顔スコア閾値より大きい；前記声紋比較スコアと前記顔比較スコアとの積が、対応する積閾値より大きい；及び、前記声紋比較スコアと前記顔比較スコアとの加重和が、対応する加重閾値より大きい；のうちの少なくとも１つを満たす場合、前記対象オブジェクトは認証された、と特定される、
請求項２に記載のアイデンティティ認証方法。
前記音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、前記読唇と前記音声とが一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトのオブジェクト識別子として用いる前記ステップは：
前記音声及び映像ストリームにおける前記音声ストリーム中の音声の音節と対応する
時点を識別するステップと；
前記音声及び映像ストリームにおける映像ストリーム中の読唇の音節と対応する時点を識別するステップと；
前記音声の音節及び前記読唇の音節の両方が前記対応する時点で一致している場合、前記読唇と前記音声とが一致している、と特定するステップと；を備える、
請求項１に記載のアイデンティティ認証方法。
収集された音声及び映像ストリームを取得する前記ステップの前に：
前記対象オブジェクトの登録対象である音声及び映像ストリームを取得するステップと；
前記登録対象である音声及び映像ストリーム中の前記読唇と前記音声とが一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトの前記オブジェクト識別子として用いるステップと；
前記登録対象である音声及び映像ストリームに対して生理学的認識を実行して前記登録対象である音声及び映像ストリームの前記モデル生理学的特徴を取得するステップと；
対応して、前記対象オブジェクトの前記オブジェクト識別子と前記対応するモデル生理学的特徴とを、前記オブジェクト登録情報に格納するステップと；を更に備える、
請求項１に記載のアイデンティティ認証方法。
アイデンティティ認証装置であって：
収集された音声及び映像ストリームを取得するよう構成された情報取得モジュールであって、前記音声及び映像ストリームは、認証対象である対象オブジェクトにより生成される、情報取得モジュールと；
前記音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、前記読唇と前記音声とが一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトのオブジェクト識別子として用いるよう構成された識別子特定モジュールと；
事前に格納されたオブジェクト登録情報が前記オブジェクト識別子を含む場合、前記オブジェクト登録情報から前記オブジェクト識別子に対応するモデル生理学的特徴を取得するよう構成された情報管理モジュールと；
前記音声及び映像ストリームに対して生理学的認識を実行して、前記対象オブジェクトの生理学的特徴を取得するよう構成された特徴認識モジュールと；
前記対象オブジェクトの前記生理学的特徴を前記モデル生理学的特徴と比較して比較結果を取得し、前記比較結果が認証条件を満たす場合、前記対象オブジェクトは認証された、と特定するように構成された認証処理モジュールと；を備える、
アイデンティティ認証装置。
前記特徴認識モジュールが、声紋認識サブモジュールと顔認識サブモジュールとを備え；
前記声紋認識サブモジュールが、前記音声及び映像ストリームに対して声紋認識を実行して前記対象オブジェクトの声紋特徴を取得するよう構成され；
前記顔認識サブモジュールが、前記音声及び映像ストリームに対して顔認識を実行して、前記対象オブジェクトの顔特徴を取得するよう構成され；
前記認証処理モジュールが、前記対象オブジェクトの前記声紋特徴を前記モデル声紋特徴と比較して声紋比較スコアを取得し、前記対象オブジェクトの前記顔特徴を前記モデル顔特徴と比較して顔比較スコアを取得し、前記声紋比較スコアと前記顔比較スコアとが前記認証条件を満たす場合、前記対象オブジェクトは認証された、と特定するように構成される、
請求項６に記載のアイデンティティ認証装置。
前記声紋比較スコアと前記顔比較スコアとが：
前記声紋比較スコアが声紋スコア閾値より大きく、且つ前記顔比較スコアが顔スコア閾値より大きい；前記声紋比較スコアと前記顔比較スコアとの積が、対応する積閾値より大きい；及び、前記声紋比較スコアと前記顔比較スコアとの加重和が、対応する加重閾値より大きい；のうちの少なくとも１つを満たす場合、前記対象オブジェクトは認証された、と特定される、
請求項７に記載のアイデンティティ認証装置。
前記識別子特定モジュールは：
前記音声及び映像ストリームにおける前記音声ストリーム中の音声の音節と対応する時点を識別し、前記音声及び映像ストリームにおける映像ストリーム中の読唇の音節と対応する時点を識別するよう構成される音節認識サブモジュールと；
前記音声の音節及び前記読唇の音節の両方が前記対応する時点で一致している場合、前記読唇と前記音声とが一致している、と特定するよう構成される一致特定サブモジュールと；を備える、
請求項６に記載のアイデンティティ認証装置。
前記情報取得モジュールは、前記対象オブジェクトの登録対象である音声及び映像ストリームを取得するよう更に構成され；
前記識別子特定モジュールは、前記登録対象である音声及び映像ストリーム中の前記読唇と前記音声が一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトの前記オブジェクト識別子として用いるように更に構成され；
前記特徴認識モジュールは、前記登録対象である音声及び映像ストリームに対して生理学的認識を実行して前記登録対象である音声及び映像ストリームの前記モデル生理学的特徴を取得するように更に構成され；
前記情報管理モジュールは、対応して、前記対象オブジェクトの前記オブジェクト識別子と前記対応するモデル生理学的特徴とを、前記オブジェクト登録情報に格納するよう更に構成される、
請求項６に記載のアイデンティティ認証装置。