JP7357649B2

JP7357649B2 - 識別を容易にするための方法および装置

Info

Publication number: JP7357649B2
Application number: JP2020573489A
Authority: JP
Inventors: ルストム、アディ、カンガ; ライ、チュン、リ
Original assignee: Wildfaces Technology Ltd
Current assignee: Wildfaces Technology Ltd
Priority date: 2018-06-26
Filing date: 2019-05-10
Publication date: 2023-10-06
Anticipated expiration: 2039-05-10
Also published as: JP2021529404A; WO2020001175A1; EP3814989A4; US20210271859A1; US11403880B2; EP3814989A1

Description

本発明は、識別を容易にするための方法および装置に関連し、限定されるわけではないが特には、比較的低い解像度の画像からの顔認識を用いた人物の識別を容易にするための方法および装置に関連し、限定されるわけではないが特には、移動するイメージングデバイスによって撮影された画像からの顔認識を用いた人物の識別を容易にするための方法および装置に関連する。

イメージングデバイスによって取得された人物の画像から人物を識別しようとする顔認識システムが知られている。顔認識（ＦＲ）の一つのアプローチは、イメージングデバイスにより、人物の顔についての１以上の画像を撮影することである。例えばデータベース内にある、当該画像からのデータと、比較のために利用可能な画像のギャラリーからの対応するデータと、を比較する様々なアルゴリズムにより、当該画像は処理される。画像のギャラリーは既知の人物についてのものであり、一つの画像が撮影された画像と一致した場合には、その人物が識別される。

この一般的な顔認識のアプローチは、多くの異なる利用可能な（複雑な）アルゴリズムおよび処理を使用して、多くの方法で実装されてもよい。

顔認識は、多くのアプリケーションにおいて使用されており、特には（限定されるわけではないが）セキュリティに関する。空港、立ち入り制限のある施設、その他の施設などのエリアにおいて、人物の存在を識別することは重要であり得る。ビデオカメラは、そのようなエリアを監視するためによく使用される。事件（犯罪など）が発生し、当該事件に巻き込まれた人物の画像が利用可能な場合（例えば、ビデオカメラが設置されてそのエリアを監視している場合や、例えばスマートフォンなどのパブリックなカメラからの画像など）には、パブリックなエリアにおける人物の識別もまた重要になり得る。

ビデオカメラのようなイメージングデバイスによって得られ得る画像からＦＲを実現するために、あるシーンの１枚の画像が撮影され得る。顔検出（ＦＤ）は、顔を判定して抽出するために当該画像に対して実行され、その後、この顔の画像の抽出は、ＦＲを実行するために、利用可能な顔についてのギャラリーと照合するために使用される。しかし、正確な顔認識を達成するためには、現在のアプローチでは、比較的高い解像度の画像が一般的に必要とされる。

しかし、正確な識別のための適切な解像度の画像が利用できないという状況も多い。このような状況は、例えば、イメージングデバイスが遠くから人物の画像を撮影する場合に発生する。すなわち、イメージングデバイスが十分な解像度を取得することが技術的にできない場合である。

現在の顔認識システムを用いた正確な人物識別のためには、両目間のピクセル数が約７０から１００以上までの間である解像度が要求される。これ以下になると、現在の処理による識別の精度は低下し、一般的に、両目間のピクセル数が４０以下になると識別ができなくなる。これが現在の顔認識システムの問題である。

現在の顔認識システムが利用されている目的のタスクの一つは、地理的なエリアをまたいで、１人または複数の人物の位置を追跡することである。例えば、公共エリアのカメラは、都市のような地理的な場所にいる人々を追跡するために使用されることがある。低解像度の画像しか利用できない場合、これは大抵、公共エリアのカメラの場合であり、追跡される人物がカメラから遠く離れている場合であるが、人物の識別と追跡は困難である。データベース内の画像ギャラリーと比較しても、解像度が低すぎるため、人物を識別することができない。

イメージングデバイスが場所的に固定されておらず、移動可能なイメージングデバイスである場合には、更なる問題が生じる。例えば、身体に装着されたカメラ、ドローン、個人のスマートフォン、ＰＴＺカメラ、または、他の移動するライブ的およびフォレンジック的なソースなどである。

イメージングデバイスによって取得された連続フレームまたは多数画像の間における人物の位置の追跡を要求するアプリケーションがある。カメラまたは他のイメージングデバイスが位置的に固定されている場合は、当該デバイスによって取られた画像の間における人物を追跡するために、位置予測を用いることが可能である。これは、第１の画像に撮影されている特定の人物に関連する「ブロブ」またはピクセルの組み合わせが、第２の画像のどこにあるかを予測することによって行うことができる。第２の画像は、当該イメージングデバイスによって取られた連続フレームであってもよい。人物は、ビデオの２つのフレーム間の非常に短い距離しか移動できないので、固定されたイメージングデバイスを使用した位置予測は非常に正確となり得る。しかし、当該デバイスが移動するイメージングデバイスの場合、フレーム間の追跡は不可能ではないにしても、はるかに困難である。ムービングデバイスの後続のフレームにおいて人物が現れる場所を正確に予測するために必要とされる三角法は、複雑で計算量が多い。さらに、イメージングデバイスが移動しているときには、認識されるはずの人物は遠くにいて、画像が比較的低い解像度である可能性も高い。

第１の側面によれば、本発明は、イメージングデバイスによって取得された画像から人物を識別する方法を提供し、以下のステップ、
人物を含むシーンの画像を取得するステップと、
人物と関連付けられた認識データを取得するために画像を処理するステップと、
人物を含むシーンの更なる画像を取得するステップと、
更なる認識データを取得するために更なる画像を処理するステップと、
連結認識データを取得するために認識データおよび更なる認識データを処理するステップと、
を備え、
連結認識データは、人物を識別するための処理において利用され得る。

ある実施形態では、認識データおよび更なる認識データを処理するステップは、認識データを統合するステップを含む。ある実施形態では、認識データは、両目の距離、口の幅などの顔の特徴に関するデータや、更なる特徴に関するデータを含んでいてもよく、同じ特徴に関するデータが各画像において得られ、画像および特徴からのデータ全てが統合される。

ある実施形態では、方法は、連結認識データを、同等の処理を使用して登録された複数の人物に対する連結認識データのデータベースと照合することにより、人物を識別するために連結認識データを処理するステップをさらに含む。ある実施形態では、同等の処理は、上述したのと同じであり、登録は、人物の画像および更なる画像を取得し、認識データを統合することによって認識データを統合することを含む。

当該処理は多数の画像を取得することを含み、多数の画像は、２と１０の間、３から９、４から７、または５枚であってもよく、人物に関する取得した画像のそれぞれから認識データを取得することを含む。有利な点としては、画像からの認識データを統合して認識データを連結することにより、その後の識別処理の精度を向上させることができる。人物に関する連結認識データのデータベースは、同等の処理を用いて登録されていてもよい。

ある実施形態では方法は、比較的低い解像度の画像から人物を識別することができる。ある実施形態では、識別は、両目の間において、１０から１００ピクセルの間、または１５から８０ピクセルの間、または１８から７０ピクセルの間、または２０から６０ピクセルの間、のピクセルがある場合に、有利に取得することができる。ある実施形態では、処理は、精度を低下させつつも、２５ピクセル未満のピクセルから１０ピクセルまでの全てのピクセルを有する人物を識別してもよい。

人物の複数の画像（画像、更なる画像等）を取得するために、ある実施形態では、イメージングデバイスによって生成された複数の画像にわたって人物の位置を追跡することが必要である。例えば、人物は、多数のフレームにわたって、フレームからフレームへと追跡されてもよい。イメージングデバイスが固定され、あるシーンに向けられている場合、これは単純な位置追跡で達成され得る。このトラッキングを行う方法は多数知られている。ある方法は、基本的には、人物を表すピクセルの組み合わせ（例えば、人物の形状のブロブ、服の色、顔を構成するピクセルの組み合わせなど）を撮影する。次のステップは、その人がどこに移動したかを予測し、新しい場所でピクセルの組み合わせを探すことによってこれを確認する。個人は、ビデオの２つのフレーム間で画像内のごく短い距離（１／６秒間隔などの非常に短い時間）だけしか移動する可能性がないので、トラッキングは非常に正確に行うことができ、連続したフレームをまたいで人物を追跡することを簡単にする。人物の多数の画像（例えば５枚）が得られ、これらの画像から認識データを組み合わせて統合することにより、この実施形態の処理は、合成画像を構築することができ、低解像度の画像であっても比較的高い識別精度を可能にすることができる。

カメラがある位置に固定されている場合など、イメージングデバイスの位置が分かっている場合には、あるフレームから別のフレームへの人物の位置を予測することは可能だが、カメラが移動している場合には、追跡は、不可能ではないにしても、はるかに困難である。例えば、ドローン、身体に装着されたカメラ、ＰＴＺカメラ、動くスマートフォンのカメラ、またはその他の移動するライブ的およびフォレンジック的なソースなどがある。高解像度の画像が得られれば、従来の方法でも顔認識を行うことは可能かもしれない。しかし、多くの場合、特にこれらのソースでは、比較的高解像度の画像を取得することは困難である。

モバイルカメラからのトラッキングを実現することも時々は可能であるが、これは非常に困難で、後続の画像のどこに人物が現れるかを正確に予測するために必要な三角法は、非常に複雑で計算量が多いものである。

ある実施形態では、更なる画像を処理するステップは、第１の画像と関連付けられた認識データと、更なる画像から取得された認識データと、を利用することにより、更なる画像内の人物を区別するステップを含む。更なる画像内の人物を区別するステップは、更なる画像内の人物の位置を確定することができる。ある実施形態では、人物を区別するステップは、多数の画像に対して繰り返され、多数の画像のそれぞれについて人物の位置が確立され得るようにすることができる。したがって、人物は、画像から画像へと「追跡」され得る。この追跡は、従来の位置予測を使用せずに行われる。その代わりに、画像から利用可能な認識データを用いて、画像ごとに人物が識別される。各画像から取得された人物のデータを大規模なデータベースと照合する必要はない。各画像において利用可能な限られた認識データを用いることが、他の画像内の人物の位置を特定するのに必要である。

ある実施形態では、画像内に複数の人物が存在する場合に、人物ごとに認識データと更なる認識データが得られ、区別するステップは、画像内の各人物を他の人物と区別するために人物ごとの認識データを利用することを含み、それにより、多数の画像内で、各人物は識別され得るし、その位置を特定され得る。

ある実施形態では、複数の画像を介して人物を追跡するためのこのアプローチは、モバイルカメラのようなモバイルイメージングデバイスで使用され得る。これは、従来の位置予測ではなく、各画像内の人物を区別する限定的な識別処理によって追跡が行われるからである。画像内の限られた潜在的な数の他の人物から人物を区別するための限定的な認識処理（ある実施形態では、顔認識）を行うことは、各フレーム内で人物が識別されることを可能にし、したがって、人物についての複数の画像から連結データを取得することを可能にする。そして、この連結データは、上述した識別処理に使用することができる。ある実施形態では、シーン内に複数の人物がいる場合に、各人物は画像内の他の人物と区別され得るし、各人物は識別処理において別々に識別され得る。

ある実施形態では、認識データは顔認識データを含む。ある実施形態では、認識データは、衣服の色、歩き方、体の位置、および人物に関する他のデータなど、人物に関連付けられた他のデータも含んでいてよい。

第２の側面によれば、本発明は、イメージングデバイスによって取得された画像から人物を識別するための装置を提供し、当該装置は、プロセッサ、メモリ、および、コンピュータの処理をサポートするオペレーティングシステム、を有するコンピューティング装置と、人物と関連付けられた認識データを取得するために人物を含むシーンの画像を処理するようにアレンジされたデータキャプチャ処理であって、人物に対する更なる認識データを取得するために更なる画像を処理するようにアレンジされたデータキャプチャ処理と、連結認識データを取得するために認識データおよび更なる認識データを処理するようにアレンジされた連結処理と、を含む。連結認識データは人物を識別するための処理において利用され得る。

当該装置は、人物を識別するために、連結認識データを、複数の人物に対する同等の連結認識データを含むデータベースと照合するようにアレンジされた識別処理をさらに含む。

第３の側面によれば、本発明は、本発明の第１の側面に従う方法を実施するためにコンピュータを制御するための命令を含む、コンピュータプログラムを提供する。

第４の側面によれば、本発明は、本発明の第３の側面によるコンピュータプログラムを提供する不揮発性のコンピュータ可読媒体を提供する。

第５の側面によれば、本発明は、本発明の第３の側面によるコンピュータプログラムを含むデータ信号を提供する。

第６の側面によれば、本発明は、イメージングデバイスによって取得された画像から人物を識別するための方法を提供し、当該方法は、
１人以上の人物を含むシーンの画像を取得するステップと、
人物のうちの少なくとも１人と関連付けられた認識データを取得するために画像を処理するステップと、
少なくとも１人の人物を区別して１人の人物に対する更なる認識データを取得するために、更なる画像を取得するステップと、認識データを利用して更なる画像を処理するステップと、
を含む。

ある実施形態では、人物を区別するステップは、画像および更なる画像からの認識データを比較することと、画像内の人物の位置を特定することと、を含む。ある実施形態では、これにより、画像間において人物の位置が追跡されることを可能する。

ある実施形態では、画像および更なる画像を処理するステップは、画像内の複数の人物に対する認識データを取得することと、画像内の各人物を区別するために各人物からの認識データを照合することと、を含む。ある実施形態では、これにより、画像内の複数の人物を画像から画像へ追跡することを可能にする。

複数の実施形態では、３枚以上の画像およびそれらの画像のそれぞれにおいて区別された人物に対する認識データが取得され、それらの位置が特定されてもよい。

この実施形態では、位置予測を使用し、従来の方法にて、ある画像から別の画像への人物の位置を予測する必要はない。その代わりに、画像内に存在するかもしれない他の人物からその人物を区別するために、認識データを使用することによって人物は「追跡」される。複数の実施形態では、このアプローチは、位置予測を必要としないため、モバイルビデオカメラによって取得された画像に適している。代わりに、画像内の限定的で潜在的な数の他の人物からその人物を区別するための限定的な顔認識処理（認識データが顔認識データである実施形態においては）を実施することが、各画像内でその人物を区別することを可能にする。

ある実施形態では、方法は、連結認識データを提供するために、認識データおよび更なる認識データを処理する更なるステップを含む。連結認識データは、人物を識別するための処理において使用されてもよい。ある実施形態では、この処理は、本発明の第１の側面に関連して上述した処理であってもよい。ある実施形態では、画像内に複数の人物がいる場合、各人物が区別されて識別されてもよい。

本発明の本実施形態は、モバイルカメラからの画像での使用に限定されるものではなく、静止したビデオカメラから得られる画像を含む、あらゆる画像で使用することができる。しかしながら、ある実施形態の利点は、この処理がモバイルカメラからの画像で使用できることである。複数の実施形態では、画像は、テレビ番組、オンラインビデオなどのフォレンジックなソースから取得されてもよく、この処理に従って、画像を撮影するイメージングデバイスが移動している場合でも、人物の識別が行われてもよい。

ある実施形態では、認識データは顔認識メタデータを含む。ある実施形態では、認識データはまた、衣服の色、歩き方、体の位置など、人物に関連付けられた他のデータを含んでいてもよい。

第７の側面によれば、本発明は、イメージングデバイスによって取得された画像から人物を識別するための装置を提供し、当該装置は、プロセッサ、メモリ、および、コンピュータの処理をサポートするオペレーティングシステム、を有するコンピューティング装置と、そのうちの少なくとも１人と関連付けられた認識データを取得するために１人以上の人物を含むシーンの画像を処理するようにアレンジされたデータキャプチャ処理であって、人物に対する更なる認識データを取得するために更なる画像を処理するようにアレンジされたデータキャプチャ処理と、画像内の人物を区別するために認識データを利用するようにアレンジされた照合処理と、を含む。

ある実施形態では、データキャプチャ処理は、画像内の複数の人物に対する認識データを取得するようにアレンジされ、照合処理は、画像内の人物を区別するために、各人物の認識データを照合するようにアレンジされる。

ある実施形態では、装置は、人物を識別するための処理で使用され得る連結認識データを提供するために、認識データおよび更なる認識データを処理するようにアレンジされた連結処理をさらに含む。

第８の側面によれば、本発明は、本発明の第６の側面による方法を実施するためにコンピュータを制御するための命令を含むコンピュータプログラムを提供する。

第９の側面によれば、本発明は、本発明の第３の側面によるコンピュータプログラムを提供する、不揮発性のコンピュータ可読媒体を提供する。

第１０の側面によれば、本発明は、本発明の第８の側面によるコンピュータプログラムを含むデータ信号を提供する。

本発明の実施形態は、人を識別することに限定されないが、いくつかの実施形態では、物体、動物などといったアイテム、またはその他のアイテム、を識別するために使用されてもよい。

第１１の側面によれば、本発明は、イメージングデバイスによって取得された画像からアイテムを識別する方法を提供し、当該方法は、
１以上のアイテムを含むシーンの画像を取得するステップと、
アイテムのうちの少なくとも一つと関連付けられた認識データを取得するために画像を処理するステップと、少なくとも一つのアイテムを区別して当該アイテムに対する更なる認識データを取得するために、更なる画像を取得するステップと、認識データを利用して更なる画像を処理するステップと、を含む。

第１２の側面によれば、本発明は、イメージングデバイスによって取得された画像からアイテムを識別するための装置を提供し、当該装置は、プロセッサ、メモリ、および、コンピュータの処理をサポートするオペレーティングシステム、を有するコンピューティング装置と、少なくとも一つのアイテムと関連付けられた認識データを取得するために１以上のアイテムを含むシーンの画像を処理するようにアレンジされたデータキャプチャ処理であって、当該アイテムに対する更なる認識データを取得するために更なる画像を処理するようにアレンジされたデータキャプチャ処理と、画像内の当該アイテムを区別するために認識データを利用するようにアレンジされた照合処理と、を含む。

装置は、アイテムに対する連結データを取得するために、認識データと更なる認識データを連結するようにアレンジされた連結処理をさらに含む。

第１３の側面によれば、本発明は、本発明の第１１の側面による方法を実施するためにコンピュータを制御するための命令を含むコンピュータプログラムを提供する。

第１４の側面によれば、本発明は、本発明の第１３の側面によるコンピュータプログラムを提供する、不揮発性のコンピュータ可読媒体を提供する。

第１５の側面によれば、本発明は、本発明の第１３の側面によるコンピュータプログラムを含むデータ信号を提供する。

第１６の側面によれば、本発明は、イメージングデバイスによって取得された画像からアイテムを識別する方法を提供し、当該方法は、
アイテムを含むシーンの画像を取得するステップと、
アイテムと関連付けられた認識データを取得するために画像を処理するステップと、
アイテムを含むシーンの更なる画像を取得するステップと、
更なる認識データを取得するために更なる画像を処理するステップと、
連結認識データを取得するために認識データおよび更なる認識データを処理するステップと、
を備え、
それにより、連結認識データは、アイテムを識別するための処理において利用され得る。

第１７の側面によれば、本発明は、イメージングデバイスによって取得された画像からアイテムを識別するための装置を提供し、当該装置は、プロセッサ、メモリ、および、コンピュータの処理をサポートするオペレーティングシステム、を有するコンピューティング装置と、アイテムと関連付けられた認識データを取得するためにアイテムを含むシーンの画像を処理するようにアレンジされたデータキャプチャ処理であって、アイテムに対する更なる認識データを取得するために更なる画像を処理するようにアレンジされたデータキャプチャ処理と、連結認識データを取得するために認識データおよび更なる認識データを処理するようにアレンジされた連結処理と、を含む。連結認識データはアイテムを識別するための処理において利用され得る。

第１８の側面によれば、本発明は、本発明の第１６の側面による方法を実施するためにコンピュータを制御するための命令を含むコンピュータプログラムを提供する。

第１９の側面によれば、本発明は、本発明の第１８の側面によるコンピュータプログラムを提供する、不揮発性コンピュータ可読媒体を提供する。

第２０の側面によれば、本発明は、本発明の第１８の側面によるコンピュータプログラムを含むデータ信号を提供する。

本発明の特徴および利点は、単なる例示ではあるが、添付の図面を参照して、その実施形態の以下の説明から明らかになるであろう。

本発明のある実施形態による装置を示す概略ブロック図である。本発明のある実施形態による装置を実施するために利用され得るコンピューティング装置の概略図である。本発明のある実施形態による処理を説明するフロー図である。本発明の更なる実施形態による装置を実施するために利用され得るコンピューティング装置の概略図である。本発明の更なる実施形態による処理を説明するフロー図である。

図１は、参照番号１によって参照される、本発明のある実施形態による装置を示す。この実施形態では、装置１は、サーバコンピュータ１として図示されている。しかし、多数のサーバコンピュータを含んでいてもよいし、他のタイプのコンピュータ装置を含んでいてもよいし、「クラウド」で実装されたコンピュータシステムを含んでいてもよい。

コンピュータ装置１は、複数のコンピュータの処理２、３、４、５を実行する、プロセッサ、メモリ、およびオペレーティングシステム（図示せず）を含む。

この実施形態では、コンピュータ装置１は、正確なＦＲを可能にするのに十分な情報を必ずしも提供しない１枚の画像のような、比較的低い解像度を有する画像から、適切なデータを取得して顔認識（ＦＲ）処理を実行するようにアレンジされている。

この実施形態では、装置１は、複数の人物１１を含むシーン１０の１以上のイメージングデバイス（図１では参照番号６、７、および８）によって取得された画像を処理するようにアレンジされている。

画像は装置１によって処理され、そのうちの少なくとも１人の人物１１と関連付けられた認識データを取得する。更なる画像は、認識データを利用して処理され、そのうちの少なくとも１人の人物を他の人物から区別し、その人物に対する更なる認識データを取得する。そして、装置１は、認識データおよび更なる認識データを処理して顔認識（ＦＲ）処理で用いられ得る連結認識データを提供するようにアレンジされている。

データベース２０は、ＦＲ処理を可能にするための画像のギャラリーを格納してもよい。当該データベースは、装置１のメモリによって実装されてもよいし、別個のデータベースであってもよいし、リモートデータベースであってもよい。

装置１は、通信インターフェース（図示せず）を含み、イメージングデバイス６、７、８と、（リモートの場合）データベース２０と、また、対応者のデバイス２５、２６、２７とも通信する。

対応者のデバイス２５、２６、２７は、人物の画像の識別を取得したい人物によって操作されてもよい。例えば、対応者は、対応を必要とする場所またはインシデントを監視するセキュリティ要員を含んでもよい。

図２は、装置１の実施のために利用され得るコンピューティングアレンジメントの例についての概略ブロック図である。

コンピュータ９００は、サーバコンピュータ、パーソナルコンピュータ、ポータブルコンピュータ、または他のタイプのコンピューティングデバイスにより構成されてもよい。また、コンピュータ９００は、イメージングデバイス６、７、８内に組み込まれた組み込みシステムにより構成されてもよい。そのような代替案では、装置１は、全てまたは主にイメージングデバイス６、７、８内に組み込まれるであろう。しかし、例えば、広範な監視アプリケーションの場合、装置１は、図１に示されているように、サーバのような別個のコンピューティング装置である可能性が高い。

コンピュータ９００は、本発明のこの実施形態の識別装置１を実現するためのふさわしいオペレーティングシステムおよび適切なコンピュータの処理を含む。

コンピュータ９００は、１以上のデータ処理ユニット（ＣＰＵｓ）９０２と、ＲＡＭメモリ、磁気ディスク、光ディスク、ソリッドステートメモリなどといった様々なタイプの揮発性または不揮発性メモリが含まれてもよいとするメモリ９０４と、モニタ、キーボード、マウス、および／またはタッチスクリーンディスプレイが含まれてもよいとするユーザインタフェース９０６と、他のコンピュータおよび他のデバイスと通信するためのネットワークまたは他の通信インターフェース９０８と、システム９００の異なる部分を相互に接続するための１以上の通信バス９１０と、を含む。

また、コンピュータ９００は、通信インターフェース９０８を介してデータベース９１４に格納されたデータにアクセスしてもよい。データベース９１４は、分散型データベースであってもよい。データベースは、図１では２０として示されている。

コンピュータ装置の一部または全部が「クラウド」において実現されていてもよい。

本発明のこの実施形態は、コンピューティング装置のハードウェアの動作のための命令を提供するソフトウェアの形態における適切なコンピュータの処理によって実現され、本実施形態の装置および本実施形態の方法を実施する。本発明の実施形態を容易にするコンピュータの処理は、ルーチンやサブルーチンのような共通基盤を共有し得る別個のモジュールとして実現されてもよい。コンピュータの処理は、いずれのふさわしい方法で実現されてもよく、別個のモジュールに限定されるものではない。機能を実現するためのあらゆるソフトウェア／ハードウェアのアーキテクチャが利用され得る。

本発明の実施形態を実現するためのコンピュータシステムは、上記の段落に記載されたコンピュータシステムに限定されない。あらゆるコンピュータシステムアーキテクチャ、例えば、スタンドアロンコンピュータ、ネットワーク化されたコンピュータ、専用のコンピューティングデバイス、ハンドヘルドデバイス、または本発明の実施形態のように受信および処理することが可能なデバイスなど、が利用され得る。アーキテクチャは、クライアント／サーバアーキテクチャ、または他のアーキテクチャから構成されてもよい。本発明の実施形態を実現するためのソフトウェアは、「クラウド」コンピューティングアーキテクチャによって処理されてもよい。複数の実施形態では、実装される様々な処理は、多数のプロセッサに分散されてもよい。例えば、いくつかは、イメージングデバイスの近く（「エッジ」で）で実行されてもよく、いくつかは中央サーバで実行されてもよい。

図１を再び参照すると、本発明の実施形態は、１枚の画像だけでは正確なＦＲを可能にするのに十分な情報が必ずしも得られないといったような、比較的解像度が低い画像しか得られなかった場合でも、顔認識（ＦＲ）を介した人物の識別を容易にする処理を実装している。

この実施形態の処理では、対象の人物を「追跡」して、当該人物の顔に関する多数の画像を取得する。多数の画像から取得された認識データは連結され、連結データを用いてＦＲが行われる。次に、図３を参照して、この処理についてさらに詳細に説明する。

ステップ１では、シーンの画像がイメージングデバイス６、７、８から取得される。ステップ２では、顔検出（ＦＤ）処理が取得された画像に対して行われ、画像内のあらゆる顔を検出する。

ステップ３では、更なる画像が得られる。更なる画像は、通常、ビデオシーケンスの次のフレームである。第１の画像で顔が検出された人物は、第２の画像に位置する。位置特定は、本実施形態で利用され、上述されたプレディクティブモーション予測のような従来手法によって行われてもよい。プレディクティブモーションを使用することは、知られているが、上述のように、静止したカメラに特に適している。この発明の更なる実施形態は、ビデオシーケンス内の人物の位置を追跡するために別の技術を使用し、この更なる実施形態を以下に説明する。しかし、この実施形態では、ビデオシーケンス内のある画像から別の画像への人物の動きを予測するためのあらゆる手段が利用され得る。

この処理がｎ回繰り返されて、追跡処理３（図１）により、同一人物の顔についてのｎ枚の画像を取得する（ステップ４）。

ステップ５では、同じ顔のｎ枚の画像を用いて、各画像から顔ごとに認識データを取得し（データキャプチャ処理２）、連結処理４によってデータの合成が作成される。

合成データは、１枚の画像だけから得られるデータよりも高い精度で、識別処理５によるＦＲを行うために用いられ得る（ステップ６）。

ステップ６の識別処理は、どのような方法で行われてもよいが、通常は、複数の画像から取得された合成データと、データベースに格納されている大勢の人物に対する合成データであって類似のものと、を比較することによって行われる。データベース内の各人物に対する合成データを取得するために、大勢の人物に対するデータが、上記と同様の処理を利用して登録される。

ここからは、データを連結する処理について詳しく説明する。

人物の顔に対する比較的解像度の高い画像が取得された場合、顔認識を行うための手法は以下の通りである。

それぞれの顔ごとに、多くの特徴が抽出され得る。このような特徴は、両目間における距離、口の幅などといった様々な形態をとることができる。いくつかの特徴は重要度が高く、それ故に他よりも価値が高い場合には、これらの特徴は、通常、加重平均を用いて統合され、その人を表す単一の特徴属性が作成される。伝統的に、この単一の統合された特徴属性は、ライブまたはフォレンジックなビデオからの対象の人物の画像の同じ統合された特徴属性と照合される。

である。ｘは特定の特徴、ａは重み付け係数、ｙは抽出された特徴の数である。

低解像度の画像を有しているときに起こりうるが、利用可能な特徴が不足していると、最も重要な特徴は収集されているが十分な特徴ではなくて精度は低下し、人物を識別することができない可能性が高くなる。

しかし、本発明のこの実施形態によれば、上述のように、人物についての複数の画像が得られる。これらの画像はそれぞれ、人物の顔についてわずかに異なる画像を提供する。この実施形態では、当該複数の画像のパラメータがマージされて、人物の顔の合成、統合された画像が作成され、これは、人物の３Ｄ画像とみなすことができる。

このような技術を使用して、照合と同様、データベースに人物を登録することができる。人物の３Ｄ画像を有することにより、１枚の低解像度画像では利用可能な情報の不足を補い、１枚の低解像度画像よりもはるかに高い精度を達成し得る。

そのため、この場合は、

である。ｘは特定の特徴、ａは重み付け係数、ｚは抽出された特徴の数である。Ｎは、３Ｄ画像の作成に用いられる画像の数である。

従来では、複数の画像を使用していた場合、例えば３枚の画像を使用したとすると、ＳＡＦ（１）、ＳＡＦ（２）、ＳＡＦ（３）という三つの個別のＳＡＦが算出され、対象の（ＳＡＦ（Ｔ））の統合された単一特徴が、三つの個別のＳＡＦのうちのそれぞれと照合され、ＳＡＦ（Ｔ）が、ＳＡＦ（１）、ＳＡＦ（２）、ＳＡＦ（３）のうちのいずれかに十分に近い場合には、一致していると判断される。

本発明のこの実施形態のアプローチでは、特徴についてのＮ個のセットを上記のようにマージし、人物の特徴の平均的統合を表す単一３Ｄ統合特徴を作成する。

そして、対象の３ＤのＡＦが登録されたデータベースのものと一致したときに、はるかに高い照合精度を達成することができる。

この実施形態では、あるビデオフレームから次のビデオフレームまで人物を追跡するために従来手法が使用され得る。この例では、あるフレームから次のフレームまで、人物のそれを表すピクセルを追跡することにより、従来の位置予測が使用される。上述のように、この追跡技術は、位置が固定されているカメラ（例えば、カメラ８）での使用に適しているが、モバイルであり得るカメラ（例えば、６および７）において、この技術を使用することははるかに困難である。

本発明の更なる実施形態は、新規な追跡技術を利用するが、図４および５を参照して説明される。

図４では、同様の構成要素を示すために、図１と同じ参照番号が用いられている。これらの構成要素についての更なる詳細な説明は省略する。しかし、イメージングデバイス６，７，８によって取得された画像をまたいで人物の画像を追跡するために、図１の従来の追跡処理３に代えて、装置１によって照合処理３Ａが実施される。

より詳細には

カメラ６、７、８（もしくは他のカメラまたはイメージングデバイス）は、シーン１０内の人物１１を撮影するために使用されてもよい。シーン１０は、固定された場所ではなく、それ自体が移動可能であってもよい。例えば、ウェアラブルカメラ６やスマートフォンカメラ７は、あらゆる場所の人物のインシデントまたは画像を撮影するために用いられてもよい。したがって、シーン１０は移動してもよく、人物１１はシーン内を移動してもよい。また、モバイルカメラ６、７も移動可能である。

カメラ６、７、８は、シーン１０内の人物１１のビデオを撮影するようにアレンジされている。ビデオフレームは、処理装置１に送信され、シーンの画像が処理装置によって得られるようにアレンジされている（ステップ１、図４）。処理装置１のデータキャプチャ処理２は、取得された画像を処理して画像内の顔を検出し（ステップ２）、検出された顔についての認識データ（本実施形態では顔認識データ（ＦＲ）の形態）を取得する（ステップ３）ようにアレンジされている。

次に、データキャプチャ処理は、更なる画像を処理し、更なる画像内の顔を検出するために顔検出を行い（ステップ４）、更なる画像内の顔からＦＲデータを取得する（ステップ５）ようにアレンジされる。次に、照合処理３が、ステップ４および５で取得されたＦＲデータを用いて、画像内の人物１１を区別するために、「内部的な」顔照合を基本的に行う（ステップ６）。これは、画像フレーム間で同一人物を識別するために、基本的に動作する。画像内には数人の人物しかいない可能性が高いので、ＦＲによって得られるメタデータは、画像の大ギャラリーに対する人物の完全な識別を要求することなく、画像内の人物を容易に区別することができる。照合処理は、撮影された画像内のごく少数の人物を区別するだけでよい。

このようにして、画像および更なる画像からのメタデータは、人物のうちの１人と関連付けることができる。更なる画像を取得し、顔検出を実行し、人物に対する更なるデータを取得するために顔認識を行うという処理は、複数回（「ｎ」回）繰り返すことができる。したがって、顔認識のためのメタデータは、多数の画像フレームから取得され、その人物に関する画像データが照合処理３によって区別されているので、１人の人物に関連付けられ得る。次に、連結処理４は、画像から処理を経て取得された全てのＦＲデータを連結する。これにより、フレーム間の人物の位置に対する位置予測を要求せずに、撮影された画像フレームを介して、人物を効果的に「追跡」することができる。

一旦、ＦＲデータの連結が行われると（ステップ７）、次に、追跡された１以上の顔の識別が、上述の第１の実施形態の識別処理（ステップ８）によって行われ得る。識別は、比較可能なデータを含む画像のギャラリーについての非常に大きなデータベースに対する連結データを用いて実施され得る。

識別される１以上の人物が全ての画像にいる必要はない。彼らは「ｎ」枚の画像にいれば十分である。彼らは、例えば、モバイルのイメージングデバイスが関与している場合は特に、そのシーンに出たり入ったりしてもよい。

なお、１枚の低解像度画像からの顔認識から取得されたメタデータは、情報量が多すぎたり、少なすぎたりすることがある。これは、そのシーンが人々でどれほど混雑しているかに依存する。例えば、シーンに数人しかいない場合は、「追跡」区別認識のために、より少なくて単純なパラメータを使用することが適切であるかもしれない。これは、顔全体に対してより少ないパラメータを使用することを意味し得るし、または、より多くのパラメータを使用するものの、顔の限られた部分、例えば上半分から目までの部分、にのみしか使用しないことを意味し得る。したがって、処理の要件は変わり得る。シーン内の人々を区別するために十分なパラメータは必要であるが、完全な識別を行うのに十分なほどは必要ない。画像から画像へと人物を追跡できるために十分なパラメータだけを必要とする。

シーンに多くの人物がいる場合、ＦＲトラッキングに必要なものを超えた追加のパラメータが使用される可能性がある。これらは、性別、年齢、もしくは民族、または、衣服、人物の髪の色、人物の身長などの顔的ではないその他のパラメータを含まれ得る。また、人物の歩き方、人物が座っているか倒れているか、車両内にいるか、木などのマーカーからの距離などといった「行動に関する」パラメータを含まれ得る。図４を再び参照すると、ステップ４、５、および６では、顔認識データと同様に、他の認識データが取得され得る。

上述のように、全ての画像に同一人物の顔が写っていない可能性がある。しかし、この方法を使えば、一部にはいるが全ての画像にはいないかもしれない人物を識別することができ、例えば連続した１０枚の画像のうちの５枚から（あらゆる数が用いられ得る）、十分なデータを取り出すことができる。これは、メタデータを連結するのに、そしてそれによって人物を特定するのに、十分であるかもしれない。

なお、照合処理のために、異なるデータに異なる重み付けが対応付けられていてもよい。例えば、顔認識データ以外の更なるデータが使用される場合、更なるデータは、二次確認として「例えば、服の色」が用いられ得る。あるいは、顔認識データは、他のデータよりも低い評価を与えられ得る。

なお、上記の実施形態では、照合処理を介した追跡処理は、異なるシーンをまたいで人物を追跡するために利用され得るし、必ずしも同様に登録された人物についての大規模なデータベースと比較することによって人物を識別することが要求されているわけではない。例えば、ある監視カメラは、ある人物が不審な行動をしていることを検知し、その人物に関する認識データを取得してもよい。そして、照合処理は、他のエリアにある他のカメラから受信した画像で、その人物（絶対的な身元がわからなくても）がそれらのカメラに映っているかどうかを判定するために用いられ得る。そのため、不審者を地理的なエリアをまたいで追跡することができる。大規模なデータベースでの顔照合識別は、必要ならば、後で行い得る。

上記の実施形態では、処理および装置が人々の顔認識に適用された。本発明は、これに限定されるものではない。別の実施形態では、シーン内の物体などのアイテムが、互いに区別されて認識され得る。例えば、異なる車両は、その車体形状、または他のパラメータに基づいて区別され認識され得る。別のアイテムが識別され得る。

上記の実施形態では、本発明は、モバイルのイメージングデバイスに最も有用に適用される。しかし、本発明はこの適用に限定されるものではない。例えば、静止したカメラにも適用され得る。

上記実施形態では、デバイスが、スマートフォン、ウェアラブルカメラ、他のモバイルデバイスなどといったモバイルである場合に、デバイスに対する位置データも取得され得るし、デバイスがシーンの写真を取得しているときにデバイスがどのような地理的位置にいるのかを特定し得るし、したがって、そのシーンがどこかを特定し得る。

特定の実施形態に示されているように、広く説明された本発明の精神または範囲から逸脱することなく、多数の変形および／または修正が本発明になされ得ることは、当技術に熟練した者には理解されるであろう。したがって、本実施形態は、全ての点で例示的なものであり、制限的なものではないと考えるべきである。

Claims

イメージングデバイスによって取得されたビデオシーケンスから人物を識別する方法であって、
（ａ）人物を含む前記ビデオシーケンスからシーンの画像を取得するステップと、
（ｂ）前記人物と関連付けられた認識データを取得するために前記画像を処理するステップと、
（ｃ）前記人物を含む前記シーンの更なる画像を取得するステップであって、前記更なる画像は前記ビデオシーケンスおける次のフレームであるステップと、
（ｄ）更なる認識データを取得するために前記更なる画像を処理するステップと、
（ｅ）連結認識データを取得するために前記認識データおよび前記更なる認識データを処理するステップと、
を備え、
前記連結認識データは、前記人物を識別するための処理において利用され得、
前記認識データの各々および前記更なる認識データの各々は、前記人物の単一統合特徴を含み、
前記ステップ（ｅ）が、
前記人物の特徴の平均的統合を表す合成統合特徴を作成するために前記単一統合特徴をマージするステップと、
同等の処理を使用して前記人物を識別するために、前記合成統合特徴を、登録されたデータベースと照合するステップと、を備える、
方法。
前記更なる画像を処理するステップは、第１の画像と関連付けられた認識データと、前記更なる画像から取得された認識データと、を利用することにより、前記更なる画像内の前記人物を区別するステップを含む、
請求項１に記載の方法。
前記更なる画像内の前記人物の位置を特定するステップ
をさらに備える請求項２に記載の方法。
前記人物を区別するステップは、多数の画像に対して繰り返され、前記多数の画像のそれぞれについて人物の位置が確立され、前記人物に対する認識データが前記多数の画像から得られる、
請求項３に記載の方法。
前記画像内に複数の人々がおり、人物ごとに認識データおよび更なる認識データが得られ、前記区別するステップは前記画像内の各人物を他の人物と区別するために人物ごとの前記認識データを利用するステップを含み、それにより、各人物は識別され、多数の画像内における彼らの位置が特定され得る、
請求項２に記載の方法。
イメージングデバイスによって取得されたビデオシーケンスから人物を識別するための装置であって、プロセッサ、メモリ、および、コンピュータの処理と、人物と関連付けられた認識データを取得するために前記人物を含む前記ビデオシーケンスからシーンの画像を処理するようにアレンジされたデータキャプチャ処理であって、更なる画像を処理して前記人物に対する更なる認識データを取得するようにアレンジされ、前記更なる画像が、前記ビデオシーケンスにおける次のフレームであるデータキャプチャ処理と、連結認識データを取得するために前記認識データおよび前記更なる認識データを処理するようにアレンジされた連結処理と、をサポートするオペレーティングシステム、を有するコンピューティング装置を備え、
前記認識データの各々および前記更なる認識データの各々は、前記人物の顔の単一統合特徴を含み、前記連結処理は、前記人物の顔の特徴の平均的統合を表す合成統合特徴を作成するために前記単一統合特徴をマージし、前記人物を識別するために、複数の人物の同等の連結認識データを含むデータベースに対して、前記合成統合特徴を照合するようにアレンジされる、
装置。
イメージングデバイスによって取得されたビデオシーケンスから人物を識別するための方法であって、
（ａ）１人以上の人物を含む前記ビデオシーケンスからシーンの画像を取得するステップと、
（ｂ）前記人物のうちの少なくとも１人と関連付けられた認識データを取得するために前記画像を処理するステップと、
（ｃ）少なくとも１人の人物を区別して前記１人の人物に対する更なる認識データを取得するために、更なる画像を取得するステップであって、前記更なる画像は前記ビデオシーケンスおける次のフレームであるステップと、
（ｄ）連結認識データを取得するために前記認識データおよび前記更なる認識データを処理するステップと、
を備え、
前記連結認識データは、前記少なくとも１人の人物を識別するための処理において利用され得、
前記認識データの各々および前記更なる認識データの各々は、前記少なくとも１人の人物の単一統合特徴を含み、
前記ステップ（ｄ）が、
前記少なくとも１人の人物の特徴の平均的統合を表す合成統合特徴を作成するために前記単一統合特徴をマージするステップと、
同等の処理を使用して前記少なくとも１人の人物を識別するために、前記合成統合特徴を、登録されたデータベースと照合するステップと、
を備える方法。
前記人物を区別するステップは、前記画像および前記更なる画像からの前記認識データを比較するステップと、前記画像内の人物の位置を特定するステップと、を含む、
請求項７に記載の方法。
前記画像および更なる画像を処理するステップは、前記画像内の複数の人物に対する認識データを取得するステップと、前記画像内の人物を区別するために各人物からの前記認識データを照合するステップと、を含む、
請求項７に記載の方法。
前記画像および更なる画像を処理するステップは、前記複数の人物に対する更なる認識データを取得するステップと、各人物に対する連結認識データを提供するために、前記認識データおよび前記更なる認識データを処理するステップと、を含む、
請求項９に記載の方法。
前記認識データは顔認識データを含む、
請求項７に記載の方法。
前記認識データは、人物の画像に関連づけられた、顔認識データではない別のデータをさらに含む、
請求項１１に記載の方法。