JP6853379B2

JP6853379B2 - 対象人物の検索方法および装置、機器、プログラム製品ならびに媒体

Info

Publication number: JP6853379B2
Application number: JP2019553914A
Authority: JP
Inventors: マオチンティエン; シュアイイー; ジュンジエイエン
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2017-11-28
Filing date: 2018-10-29
Publication date: 2021-03-31
Anticipated expiration: 2038-10-29
Also published as: SG11201909885QA; JP2020515983A; CN110431560A; US10891465B2; CN110431560B; US20190325197A1; CN108229314B; CN108229314A; WO2019105163A1

Description

本願は２０１７年１１月２８日に中国特許局に提出された、出願番号ＣＮ２０１７１１２１９１７８．５、発明名称「対象人物の検索方法、装置および電子機器」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

本願はコンピュータビジョンの技術分野に関し、特に対象人物の検索方法および装置、電子機器、コンピュータプログラム製品ならびに記憶媒体に関する。

現在、対象人物に対する検索の解決手段は、通常、予め作成された画像ライブラリにおいて検索して対象人物の画像と同じであるまたは類似する人物画像を得て、検索して得られた人物画像を対象人物の検索結果とする。どのように高いリコール率および高い正確率を同時に確保するかは当分野において研究が盛んになっている。

本願の実施例は対象人物検索の技術的解決手段を提供する。

本願の実施例の一態様によれば、対象人物の画像を取得することと、前記対象人物の画像により、複数の顔画像テンプレートを含む顔画像ライブラリを検索し、前記対象人物の画像とマッチする第一顔画像テンプレートを得ることと、前記第一顔画像テンプレート、および複数の歩行者画像テンプレートを含む歩行者画像ライブラリに基づき、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得ることと、を含む対象人物の検索方法が提供される。

任意選択的に、前記対象人物の画像により、顔画像ライブラリを検索し、前記対象人物の画像とマッチする第一顔画像テンプレートを得ることは、前記対象人物の画像の第一顔特徴データを取得することと、前記第一顔特徴データに基づき、前記顔画像ライブラリに記憶された複数の顔画像テンプレートから前記第一顔画像テンプレートを決定することと、を含む。

任意選択的に、前記第一顔特徴データに基づき、前記顔画像ライブラリに記憶された複数の顔画像テンプレートから前記第一顔画像テンプレートを決定することは、前記第一顔特徴データと前記複数の顔画像テンプレートに対応する複数の第二顔特徴データのうちの各々との距離に基づき、前記複数の顔画像テンプレートから前記第一顔画像テンプレートを決定することを含む。

任意選択的に、前記第一顔特徴データと前記複数の顔画像テンプレートに対応する複数の第二顔特徴データのうちの各々との距離に基づき、前記複数の顔画像テンプレートから前記第一顔画像テンプレートを決定することは、
前記複数の第二顔特徴データのうち前記第一顔特徴データとの距離が最も小さい第二顔特徴データに対応する少なくとも一つの顔画像テンプレートを前記第一顔画像テンプレートとして決定すること、または
前記複数の第二顔特徴データのうち前記第一顔特徴データとの距離が第一閾値以下である第二顔特徴データに対応する少なくとも一つの顔画像テンプレートを前記第一顔画像テンプレートとして決定することを含む。

任意選択的に、前記複数の顔画像テンプレートのうちの少なくとも二つは同一人物に対応する顔軌跡を形成し、前記少なくとも二つの顔画像テンプレートに対応する第二顔特徴データは前記少なくとも二つの顔画像テンプレートが形成する顔軌跡の平均特徴データである。

任意選択的に、前記第一顔画像テンプレートおよび歩行者画像ライブラリに基づき、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得ることは、前記第一顔画像テンプレートに対応する第一歩行者画像を取得することと、前記第一歩行者画像により前記歩行者画像ライブラリを検索し、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得ることと、を含む。

任意選択的に、前記第一歩行者画像により前記歩行者画像ライブラリを検索し、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得ることは、前記第一歩行者画像の第一歩行者特徴データを決定することと、前記第一歩行者特徴データに基づき、前記歩行者画像ライブラリに記憶された複数の歩行者画像テンプレートから前記第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを決定し、前記第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを前記対象歩行者画像テンプレートとして決定することと、を含む。

任意選択的に、前記第一歩行者特徴データに基づき、前記歩行者画像ライブラリに記憶された複数の歩行者画像テンプレートから前記第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを決定することは、前記第一歩行者特徴データと前記複数の歩行者画像テンプレートに対応する複数の第二歩行者特徴データのうちの各々との距離に基づき、前記複数の歩行者画像テンプレートから前記第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを決定することを含む。

任意選択的に、前記第一歩行者特徴データと前記複数の歩行者画像テンプレートに対応する複数の第二歩行者特徴データのうちの各々との距離に基づき、前記複数の歩行者画像テンプレートから前記第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを決定することは、前記複数の第二歩行者特徴データのうち前記第一歩行者特徴データとの距離が最も小さい第二歩行者特徴データに対応する少なくとも一つの歩行者画像テンプレートを前記第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートとして決定すること、または前記複数の第二歩行者特徴データのうち前記第一歩行者特徴データとの距離が第二閾値以下である第二歩行者特徴データに対応する少なくとも一つの歩行者画像テンプレートを前記第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートとして決定することを含む。

任意選択的に、前記複数の歩行者画像テンプレートのうちの少なくとも二つは同一人物に対応する歩行者軌跡を形成し、前記少なくとも二つの歩行者画像テンプレートに対応する第二歩行者特徴データは前記少なくとも二つの歩行者画像テンプレートが形成する歩行者軌跡の平均特徴データである。

任意選択的に、前記第一顔画像テンプレートは第一顔画像に対応し、前記第一顔画像テンプレートに対応する第一歩行者画像を取得することは、前記第一顔画像が属する第一映像、および前記第一顔画像のフレーム番号情報や画像位置情報を決定することと、前記第一顔画像のフレーム番号情報や画像位置情報に基づき、前記第一映像において前記第一顔画像テンプレートに対応する第一歩行者画像を取得することと、を含む。

任意選択的に、前記第一顔画像のフレーム番号情報や画像位置情報に基づき、前記第一映像において前記第一顔画像テンプレートに対応する第一歩行者画像を取得することは、前記第一映像にフレーム番号が前記第一顔画像のフレーム番号情報に対応しかつ前記第一顔画像を含む歩行者画像が存在する場合、前記第一顔画像を含む前記歩行者画像を前記第一顔画像テンプレートに対応する第一歩行者画像として決定することを含む。

任意選択的に、前記方法はさらに、前記第一映像にフレーム番号が前記第一顔画像のフレーム番号情報に対応しかつ前記第一顔画像を含む歩行者画像が存在しない場合、前記第一顔画像を第一映像画像において予め設定された比率に従って拡大し、前記第一顔画像テンプレートに対応する第一歩行者画像を得ることを含み、ここで、前記第一映像画像の前記第一映像におけるフレーム番号は前記第一顔画像のフレーム番号情報に対応する。

任意選択的に、前記第一顔画像テンプレートおよび歩行者画像ライブラリに基づき、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得ることの後に、前記方法はさらに、前記少なくとも一つの対象歩行者画像テンプレートをスクリーニングし、前記対象人物の検索結果を得ることを含む。

任意選択的に、前記少なくとも一つの対象歩行者画像テンプレートをスクリーニングし、前記対象人物の検索結果を得ることは、前記少なくとも一つの対象歩行者画像テンプレートのうちの各々の特徴データに基づき、前記少なくとも一つの対象歩行者画像テンプレートを少なくとも１グループの歩行者画像テンプレートに分けることと、前記少なくとも１グループの歩行者画像テンプレートのうちの各々に含まれる歩行者画像の特徴データに基づき、前記各グループの歩行者画像テンプレートのスクリーニング統計データを決定することと、前記少なくとも１グループの歩行者画像テンプレートのうちの各々のスクリーニング統計データに基づき、前記少なくとも１グループの歩行者画像テンプレートのうちの１グループ以上に対応する歩行者画像を前記対象人物の検索結果として決定することと、を含む。

任意選択的に、前記対象人物の画像により、顔画像ライブラリを検索し、前記対象人物の画像とマッチする第一顔画像テンプレートを得る前に、前記方法はさらに、少なくとも一つの映像のうちの各々に含まれる映像画像の顔検出処理を行い、複数の顔画像を得ることと、前記複数の顔画像のうちの各々、および／または、それぞれが前記顔画像の特徴データ、前記顔画像が属する映像情報、前記顔画像のフレーム番号情報、前記顔画像の映像画像における位置情報のうちの少なくとも一つを含む前記各顔画像の情報を顔画像テンプレートとして前記顔画像ライブラリに記憶することと、を含む。

任意選択的に、前記方法はさらに、前記複数の顔画像の顔追跡処理を行い、それぞれが前記複数の顔画像のうちの少なくとも二つを含む少なくとも一つの顔軌跡を得ることと、前記少なくとも一つの顔軌跡のうちの各々に含まれる少なくとも二つの顔画像に基づき、前記各顔軌跡の平均特徴データを決定することと、前記少なくとも一つの顔軌跡のうちの各々の平均特徴データを前記顔画像ライブラリに記憶することと、を含む。

任意選択的に、前記第一顔画像テンプレートおよび歩行者画像ライブラリに基づき、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得ることの前に、前記方法はさらに、少なくとも一つの映像のうちの各々に含まれる映像画像の歩行者検出処理を行い、複数の歩行者画像を得ることと、前記複数の歩行者画像のうちの各々、および／または、それぞれが前記歩行者画像の特徴データ、前記歩行者画像が属する映像情報、前記歩行者画像のフレーム番号情報、前記歩行者画像の映像画像における位置情報のうちの少なくとも一つを含む前記各歩行者画像の情報を歩行者画像テンプレートとして前記歩行者画像ライブラリに記憶することと、を含む。

任意選択的に、前記方法はさらに、前記複数の歩行者画像の歩行者追跡処理を行い、それぞれが前記複数の歩行者画像のうちの少なくとも二つを含む少なくとも一つの歩行者軌跡を得ることと、前記少なくとも一つの歩行者軌跡のうちの各々に含まれる少なくとも二つの歩行者画像に基づき、前記各歩行者軌跡の平均特徴データを決定することと、前記少なくとも一つの歩行者軌跡のうちの各々の平均特徴データを前記歩行者画像ライブラリに記憶することと、を含む。

本願の実施例の別の一態様によれば、対象人物の画像を取得するための取得モジュールと、前記取得モジュールが取得した前記対象人物の画像により、複数の顔画像テンプレートを含む顔画像ライブラリを検索し、前記対象人物の画像とマッチする第一顔画像テンプレートを得るための顔検索モジュールと、前記顔検索モジュールが得た前記第一顔画像テンプレート、および複数の歩行者画像テンプレートを含む歩行者画像ライブラリに基づき、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得るための歩行者検索モジュールと、を含む対象人物の検索装置が提供される。

任意選択的に、前記検索装置は上記任意の可能な実施形態における検索方法を実現するために用いられ、上記任意の検索方法におけるステップまたはプロセスを実現するためのモジュールを含む。

本願の実施例のさらに別の一態様によれば、少なくとも一つの実行可能命令を記憶するためのプロセッサおよびメモリを含み、前記実行可能命令によって前記プロセッサは上記任意の可能な実施形態における対象人物の検索方法を実行する電子機器が提供される。

本願の実施例のさらに別の一態様によれば、実行される時に上記任意の可能な実施形態における対象人物の検索方法を実現するコンピュータ読み取り可能な命令が記憶されているコンピュータ記憶媒体が提供される。

本願の実施例のさらに別の一態様によれば、コンピュータ読み取り可能コードを含むコンピュータプログラム製品であって、前記コンピュータ読み取り可能コードが機器において運用される時、前記機器内のプロセッサは上記任意の可能な実施形態における対象人物の検索方法を実現するための動作を実行するコンピュータプログラム製品が提供される。

本願の実施例が提供する対象人物の検索方法および装置、電子機器、コンピュータプログラム製品ならびに記憶媒体に基づき、顔検索と歩行者検索を結合した連携検索ポリシーを採用し、まず顔画像ライブラリに基づいて検索して対象人物の画像とマッチする第一顔画像テンプレートを得て、さらに歩行者画像ライブラリおよび第一顔画像テンプレートに基づいて対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを取得し、対象人物検索の正確率を向上させる。

以下に図面および実施例により、本願の技術的解決手段をさらに詳細に説明する。

明細書の一部となる図面は本願の実施例を説明するものであり、かつその説明と共に本願の原理を解釈するために用いられる。

図面と関連付けて、以下の詳細な説明によれば、本願をより明確に理解できる。
本願のいくつかの実施例に係る対象人物の検索方法のフローチャートである。本願の別のいくつかの実施例に係る対象人物の検索方法のフローチャートである。本願の別のいくつかの実施例に係る対象人物の検索方法の論理ブロック図である。本願のいくつかの実施例に係る対象人物の検索装置の構成ブロック図である。本願の別のいくつかの実施例に係る対象人物の検索装置の構成ブロック図である。本願のいくつかの実施例に係る電子機器の構成模式図である。

ここで、図面を参照しながら本願の様々な例示的実施例を詳細に説明する。なお、特に断らない限り、これらの実施例において記述した部材およびステップの相対的配置、数式および数値は本願の範囲を限定するものではないことに注意すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的実施例に対する説明は実際に説明的なものに過ぎず、本願およびその適用または使用へのなんらの制限にもならない。

関連分野の当業者に既知の技術、方法および機器については、詳細に説明しないが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。

なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本願の実施例は端末機器、コンピュータシステム、サーバなどの電子機器に適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。端末機器、コンピュータシステム、サーバなどの電子機器との併用に適する公知の端末機器、計算システム、環境および／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび上記あらゆるシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

端末機器、コンピュータシステム、サーバなどの電子機器はコンピュータシステムにより実行されるコンピュータシステム実行可能命令（例えばプログラムモジュール）の一般的なコンテキストにおいて説明できる。通常、プログラムモジュールは、決定のタスクを実行するかまたは決定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム／サーバは、タスクが通信ネットワークにわたって接続された遠隔処理機器により実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。

図１に示すように、それは本願のいくつかの実施例に係る対象人物の検索方法のフローチャートである。

Ｓ１００において、対象人物の画像を取得する。

本願の実施例では、対象人物の画像は対象人物の少なくとも一部を含む画像、例えば対象人物の顔画像であってもよく、顔の静的画像または映像において顔を含む映像フレーム画像を含んでもよい。例えば、対象人物の画像は映像フレーム画像であってもよく、画像収集機器に由来する映像シーケンスにおける画像フレームであってもよく、単一のフレーム画像または画像であってもよく、また他の機器に由来してもよく、本願の実施例は対象人物の画像の属性、由来および取得アプローチなどの具体的な実施形態を限定しない。

任意選択的な一例では、該Ｓ１００はメモリに記憶された対応する命令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される取得モジュール４００によって実行してもよい。

Ｓ１０２において、対象人物の画像により、顔画像ライブラリを検索し、対象人物の画像とマッチする第一顔画像テンプレートを得る。

本願の実施例では、顔画像ライブラリは予め作成された、顔画像テンプレートを記憶するための画像ライブラリであってもよい。顔画像ライブラリには一つ以上の人物の顔画像テンプレートが含まれてもよく、各人物は一つ以上の顔画像テンプレートに対応してもよい。

任意選択的に、顔画像テンプレートは顔画像および／または顔画像の情報を含み、顔画像の情報は顔画像の特徴データを含んでもよく、顔画像の特徴データは例えば少なくとも一つの特徴ベクトル、少なくとも一つの特徴マップを含んでもよく、または他の形式などであってもよく、本願の実施例はこれを限定しない。または、顔画像の情報はさらに、顔画像が属する映像情報、顔画像のフレーム番号情報、顔画像の映像画像における位置情報、顔画像が属する顔軌跡の情報などを含んでもよく、本願の実施例はこれを限定しない。

任意選択的に、顔画像ライブラリに含まれる顔画像テンプレートは一つ以上の映像における映像画像の顔検出処理を行って得られてもよく、または、顔画像ライブラリに含まれる顔画像テンプレートは静的画像の顔検出処理を行って得られてもよく、本願の実施例は顔画像ライブラリに含まれる顔画像テンプレートの由来を限定しない。

任意選択的に、第一顔画像テンプレートの数は一つ以上としてもよく、つまり、対象人物の画像により顔画像ライブラリを検索し、対象人物の画像とマッチする少なくとも一つの第一顔画像テンプレートを得ることができる。

例えば、顔画像ライブラリＬに複数の人物の顔画像テンプレートが記憶されており、各人物の顔画像テンプレートは一つ以上としてもよく、顔画像ライブラリＬに基づいて対象人物の画像Ｐとマッチする第一顔画像テンプレートｌ１、ｌ２およびｌ３を検索する。第一顔画像テンプレートｌ１、ｌ２およびｌ３は対象人物の画像Ｐと同一人物に対応する顔画像テンプレートである。

任意選択的な一例では、該Ｓ１０２はメモリに記憶された対応する命令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される顔検索モジュール４０１によって実行してもよい。

Ｓ１０４において、第一顔画像テンプレートおよび歩行者画像ライブラリに基づき、対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得る。

本願の実施例では、歩行者画像ライブラリは予め作成された、歩行者画像テンプレートを記憶するための画像ライブラリであってもよい。歩行者画像ライブラリには一つ以上の人物の複数の歩行者画像テンプレートが含まれてもよく、各人物は一つ以上の歩行者画像テンプレートに対応してもよい。

任意選択的に、歩行者画像テンプレートは歩行者画像および／または歩行者画像の情報を含み、歩行者画像の情報は歩行者画像の特徴データを含んでもよく、歩行者画像の特徴データは例えば少なくとも一つの特徴ベクトル、少なくとも一つの特徴マップを含んでもよく、または他の形式などであってもよく、本願の実施例はこれを限定しない。または、歩行者画像の情報はさらに、歩行者画像が属する映像情報、歩行者画像のフレーム番号情報、歩行者画像の映像画像における位置情報、歩行者画像が属する歩行者軌跡の情報などを含んでもよく、本願の実施例はこれを限定しない。

任意選択的に、歩行者画像ライブラリに含まれる歩行者画像テンプレートは一つ以上の映像における映像画像の歩行者検出処理を行って得られてもよく、そのうち、歩行者画像ライブラリにおける歩行者画像テンプレートの映像の由来は顔画像ライブラリにおける顔画像テンプレートの映像の由来と完全に重複するか、部分的に重複するかまたは重複しないようにしてもよく、あるいは、歩行者画像ライブラリにおける歩行者画像テンプレートは静的画像の歩行者検出処理を行って得られてもよく、本願の実施例は歩行者画像ライブラリに含まれる歩行者画像テンプレートの由来を限定しない。

任意選択的に、各第一顔画像テンプレートおよび歩行者画像ライブラリに基づき、少なくとも一つの対象歩行者画像テンプレートを得ることができる。該対象歩行者画像テンプレートは歩行者画像ライブラリを検索することによって得ることができるが、本願の実施例はこれを限定しない。

例えば、歩行者画像ライブラリＸには一つ以上の人物の歩行者画像テンプレートが記憶されてもよく、各人物の歩行者画像テンプレートは複数としてもよく、歩行者画像ライブラリＸおよび第一顔画像テンプレートｌ１に基づいて対象人物の画像Ｐとマッチする歩行者画像テンプレートｘ１およびｘ２を取得することができ、歩行者画像ライブラリＸおよび第一顔画像テンプレートｌ２に基づいて対象人物の画像Ｐとマッチする歩行者画像テンプレートｘ３を取得することができ、歩行者画像ライブラリＸおよび第一顔画像テンプレートｌ３に基づいて対象人物の画像Ｐとマッチする歩行者画像テンプレートｘ４およびｘ５を取得することができる。このように、対象人物の画像とマッチする五つの対象歩行者画像テンプレートｘ１〜ｘ５を得ることができる。

任意選択的な一例では、該Ｓ１０４はメモリに記憶された対応する命令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される歩行者検索モジュール４０２によって実行してもよい。

本願の実施例では、上記Ｓ１０２は顔検索プロセスと認められてもよく、Ｓ１０４は歩行者検索プロセスと認められてもよい。

通常、同一人物の顔は経時変化的ではなく、顔検索の適用可能なタイムスパンは非常に長く、数月ひいては数年にわたっても適用可能である。それに対して、歩行者検索は歩行者の服装、リュックサックなどの情報に焦点を集めるため、歩行者検索の適用可能なタイムスパンは数時間だけである場合が多く、長くても一日または二日だけである。しかも、顔画像ライブラリにおける顔画像テンプレートの数、および歩行者画像ライブラリにおける歩行者画像テンプレートの数が一定程度（例えば十万級または百万級）に達してから、顔検索の精度は歩行者検索の精度よりも大幅に高くなる。しかし、スマート映像監視の用途では、検索結果として対象人物の画像に対応する全ての検索結果が望まれている。顔検索によって取得可能なのは顔画像だけであるため（カメラに背を向けた対象者は顔が撮影される可能性が全くないことが考えられる）、顔検索のリコール率はスマート映像監視の用途において歩行者検索のリコール率よりも低い。そのうち、リコール率は再現率とも呼ばれ、所望の検索結果のうち検索された対象が存在する割合を評価するために用いられる。

本願の実施例が提供する方法は顔検索と歩行者検索を結合した連携検索ポリシーを採用し、まず顔画像ライブラリに基づいて検索して対象人物の画像とマッチする第一顔画像テンプレートを得て、さらに歩行者画像ライブラリおよび第一顔画像テンプレートに基づいて対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを取得し、顔検索のタイムスパンが長く、精度が高いという利点を有するのみならず、歩行者検索のリコール率が高いという利点をも有し、対象人物検索の正確率を向上させる。

図２に示すように、それは本願の別のいくつかの実施例に係る対象人物の検索方法のフローチャートである。

Ｓ２００において、顔画像ライブラリおよび歩行者画像ライブラリを作成する。

本願の実施例では、顔画像ライブラリおよび歩行者画像ライブラリの作成プロセスは互いに独立し、互いに影響しないようにしてもよく、並行に実行するかまたは任意の前後順序に従って実行してもよく、本願の実施例はこれを限定しない。以下に顔画像ライブラリおよび歩行者画像ライブラリの作成プロセスをそれぞれ説明する。

（一）顔画像ライブラリの作成
１）顔検出処理
少なくとも一つの映像のうちの各々に含まれる映像画像の顔検出処理を行い、複数の顔画像を得て、複数の顔画像のうちの各々および／または各顔画像の情報を顔画像テンプレートとして顔画像ライブラリに記憶することができる。

いくつかの可能な実施形態では、顔画像の情報は顔画像の特徴データ、顔画像が属する映像情報、顔画像のフレーム番号情報、顔画像の映像画像における位置情報（即ち顔画像の画像位置情報）などのうちの少なくとも一つを含んでもよい。

顔画像のフレーム番号情報は顔画像が属する映像画像を示すことができ、または、顔画像が属する映像画像は他の情報によって示されてもよい。任意選択的に、顔画像の映像画像における位置情報は顔画像の映像画像における位置を示すことができ、例えば、顔画像の映像画像における位置情報は顔画像の境界ボックスの映像画像における位置情報を含む。別のいくつかの可能な実施形態では、顔画像の情報はさらに他の情報を含み、本願の実施例はこれを限定しない。

例えば、映像Ｓ１をフレーム毎に処理し、２フレームの映像画像Ｙ１およびＹ２を得ることができる。続いて、映像画像Ｙ１およびＹ２の顔検出処理をそれぞれ行い、映像画像Ｙ１から顔画像ｙ１、ｙ２およびｙ３を得て、映像画像Ｙ２から顔画像ｙ４およびｙ５を得て、かつ各顔画像の情報を取得することができる。そのうち、例を挙げれば、顔画像ｙ１の情報は、映像画像Ｙ１の情報（例えば映像画像Ｙ１の名称、フレーム番号、占有空間、時間の長さなど）、顔画像ｙ１の映像画像Ｙ１における位置情報などを含む。顔画像ｙ２、ｙ３、ｙ４およびｙ５の情報は顔画像ｙ１の情報に類似し、ここでは説明を省略する。最後に、顔画像ｙ１、ｙ２、ｙ３、ｙ４およびｙ５および／または各々の情報を顔画像テンプレートとして顔画像ライブラリＬに記憶する。

２）顔追跡処理
上記顔検出処理によって得られた複数の映像フレーム画像における顔画像の顔追跡処理を行い、それぞれが複数の顔画像のうちの少なくとも二つを含む少なくとも一つの顔軌跡を得る。

顔軌跡に含まれる少なくとも二つの顔画像は同一人物に対応してもよい。

いくつかの可能な実施形態では、該複数の顔画像と該少なくとも一つの顔軌跡との対応関係を示すための情報を顔画像ライブラリに記憶する。例えば、顔画像に対応する顔画像テンプレートは顔画像が属する顔軌跡の識別情報を含み、さらに例えば、顔画像ライブラリは顔軌跡の識別情報および顔軌跡に含まれる少なくとも二つの顔画像に対応する顔画像テンプレートの識別情報などを含むが、本願の実施例はこれに限定されない。

いくつかの例では、該少なくとも一つの顔軌跡のうちの各々の情報を顔画像ライブラリに記憶する。

任意選択的に、顔軌跡の情報は顔軌跡に含まれる顔画像に対応する顔画像テンプレートの識別情報および／または顔軌跡に対応する特徴データなどを含んでもよい。

任意選択的に、少なくとも一つの顔軌跡のうちの各々に含まれる少なくとも二つの顔画像に基づき、各顔軌跡の平均特徴データを決定し、少なくとも一つの顔軌跡のうちの各々の平均特徴データを顔画像ライブラリに記憶する。そのうち、いくつかの実施形態では、顔軌跡に含まれる少なくとも二つの顔画像に対応する顔画像テンプレートの特徴データは該顔軌跡の平均特徴データであり、別のいくつかの実施形態では、顔軌跡に含まれる顔画像に対応する顔画像テンプレートの特徴データは顔画像に対する特徴抽出によって得られ、本願の実施例はこれを限定しない。

例えば、顔画像ｙ１、ｙ２、ｙ３、ｙ４およびｙ５の顔追跡処理を行い、顔画像ｙ１、ｙ３やｙ５を含む顔軌跡ｇ１、および顔画像ｙ２やｙ４を含むｇ２を得ることができる。顔画像ｙ１、ｙ３およびｙ５の特徴データをそれぞれ抽出し、顔画像ｙ１、ｙ３およびｙ５の特徴データの平均処理結果を顔軌跡ｇ１の平均特徴データｇｔ１とすることができ、ここで、該平均処理は算術平均、幾何平均または重み付け平均などとし、本願の実施例はこれを限定しない。また、顔画像ｙ２およびｙ４の特徴データをそれぞれ抽出し、顔画像ｙ２およびｙ４の特徴データの平均処理結果を顔軌跡ｇ２の平均特徴データｇｔ２とする。最後に、顔軌跡ｇ１の平均特徴データｇｔ１および顔軌跡ｇ２の平均特徴データｇｔ２を顔画像ライブラリＬに記憶する。具体的には、顔軌跡ｇ１の平均特徴データｇｔ１を顔画像ｙ１、ｙ３およびｙ５に対応する顔画像テンプレートの特徴データとして顔画像ライブラリＬに記憶し、顔軌跡ｇ２の平均特徴データｇｔ２を顔画像ｙ２およびｙ４に対応する顔画像テンプレートの特徴データとして顔画像ライブラリＬに記憶する。または、顔画像ライブラリＬは顔画像ｙ１、ｙ３およびｙ５のうちの各々の特徴データおよび顔軌跡ｇ１の平均特徴データｇｔ１を記憶する。

なお、上記例では顔軌跡に含まれる複数の顔画像の特徴データの平均処理結果を顔軌跡の平均特徴データとし、本願の実施例では、顔軌跡の平均特徴データは顔軌跡に含まれる少なくとも二つの顔画像の特徴データに一つ以上の処理を施して得られてもよく、本願の実施例は処理の具体的な実施形態を限定しないことを理解すべきである。

いくつかの可能な実施形態では、顔画像が属する顔軌跡の情報を顔画像に対応する顔画像テンプレートの情報として顔画像ライブラリに記憶し、例えば、顔画像テンプレートの情報は顔画像が属する顔軌跡の識別情報および／または平均特徴データを含み、本願の実施例はこれを限定しない。

任意選択的に、顔画像ライブラリを作成するプロセスにおいて、ニューラルネットワークモデルなどを採用して顔検出処理および顔追跡処理を行うことができ、本願の実施例は顔検出処理および顔追跡処理に採用される技術的解決手段を限定しない。

（二）歩行者画像ライブラリの作成
１）歩行者検出処理
少なくとも一つの映像のうちの各々に含まれる映像画像の歩行者検出処理を行い、複数の歩行者画像を得て、複数の歩行者画像のうちの各々および／または各歩行者画像の情報を歩行者画像テンプレートとして歩行者画像ライブラリに記憶する。

いくつかの可能な実施形態では、歩行者画像の情報は、歩行者画像の特徴データ、歩行者画像が属する映像情報、歩行者画像のフレーム番号情報、歩行者画像の映像画像における位置情報などのうちの少なくとも一つを含んでもよい。

歩行者画像のフレーム番号情報は歩行者画像が属する映像画像を示すことができ、または、歩行者画像が属する映像画像は他の情報によって示されてもよい。任意選択的に、歩行者画像の映像画像における位置情報は歩行者画像の映像画像における位置を示すことができ、例えば、歩行者画像の映像画像における位置情報は歩行者画像の境界ボックスの映像画像における位置情報を含んでもよい。別のいくつかの可能な実施形態では、歩行者画像の情報は他の情報を含んでもよく、本願の実施例はこれを限定しない。

歩行者検出処理の実行プロセスは上記顔検出処理の実行プロセスを参照すればよく、ここでは説明を省略する。

２）歩行者追跡処理
上記歩行者検出処理によって得られた複数の映像フレーム画像における歩行者画像の歩行者追跡処理を行い、それぞれが複数の歩行者画像のうちの少なくとも二つを含む少なくとも一つの歩行者軌跡を得る。

歩行者軌跡に含まれる少なくとも二つの歩行者画像は同一人物に対応してもよい。

いくつかの可能な実施形態では、該複数の歩行者画像と該少なくとも一つの歩行者軌跡との対応関係を示すための情報を歩行者画像ライブラリに記憶することができる。例えば、歩行者画像に対応する歩行者画像テンプレートは歩行者画像が属する歩行者軌跡の識別情報を含み、さらに例えば、歩行者画像ライブラリは歩行者軌跡の識別情報および歩行者軌跡に含まれる少なくとも二つの歩行者画像に対応する歩行者画像テンプレートの識別情報などを含むが、本願の実施例はこれに限定されない。

いくつかの例では、該少なくとも一つの歩行者軌跡のうちの各々の情報を歩行者画像ライブラリに記憶することができる。

任意選択的に、歩行者軌跡の情報は歩行者軌跡に含まれる歩行者画像に対応する歩行者画像テンプレートの識別情報および／または歩行者軌跡に対応する特徴データなどを含んでもよい。

歩行者軌跡に対応する特徴データは歩行者軌跡に含まれる少なくとも二つの歩行者画像から抽出された特徴データに基づいて得られる。いくつかの実施形態では、歩行者軌跡に含まれる少なくとも二つの歩行者画像に基づき、歩行者軌跡の平均特徴データを決定し、歩行者軌跡の平均特徴データを歩行者画像ライブラリに記憶する。具体的には、歩行者軌跡に対応する特徴データは歩行者軌跡に含まれる少なくとも二つの歩行者画像から抽出された特徴データに基づいて平均処理、例えば算術平均、幾何平均、重み付け平均などを行って得られる。そのうち、いくつかの実施形態では、歩行者軌跡に含まれる少なくとも二つの歩行者画像に対応する歩行者画像テンプレートの特徴データは該歩行者軌跡の平均特徴データであり、別のいくつかの実施形態では、歩行者軌跡に含まれる歩行者画像に対応する歩行者画像テンプレートの特徴データは歩行者画像に対する特徴提取によって得られ、本願の実施例はこれを限定しない。

なお、上記例では歩行者軌跡に含まれる複数の歩行者画像の特徴データの平均処理結果を歩行者軌跡の平均特徴データとし、本願の実施例では、歩行者軌跡の平均特徴データは歩行者軌跡に含まれる少なくとも二つの歩行者画像の特徴データに一つ以上の処理を施して得られてもよく、本願の実施例は処理の具体的な実施形態を限定しないことを理解すべきである。

いくつかの可能な実施形態では、歩行者画像が属する歩行者軌跡の情報を歩行者画像に対応する歩行者画像テンプレートの情報として歩行者画像ライブラリに記憶することができ、例えば、歩行者画像テンプレートの情報は歩行者画像が属する歩行者軌跡の識別情報および／または平均特徴データを含み、本願の実施例はこれを限定しない。

任意選択的に、歩行者画像ライブラリを作成するプロセスにおいて、ニューラルネットワークモデルまたは他の機械学習アルゴリズムなどの手段を採用して歩行者検出処理および歩行者追跡処理を行うことができ、本願の実施例は歩行者検出処理および歩行者追跡処理に採用される技術的解決手段を限定しない。

歩行者追跡処理の実行プロセスは上記顔追跡処理の実行プロセスを参照すればよく、ここでは説明を省略する。

いくつかの可能な実施形態では、映像シーケンスにおける映像画像に対する顔／歩行者検出処理は、顔／歩行者検出アルゴリズムにより映像における画像をフレーム毎に解析し、各画像フレームに含まれる顔／歩行者を得るように、または、キーフレーム技術に基づき、映像シーケンスにおけるキーフレームのみを顔／歩行者検出処理を行い、非キーフレームに追跡技術を用いるようにしてもよいが、本願の実施例はこれを限定しない。

任意選択的な一例では、該Ｓ２００はメモリに記憶された対応する命令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される顔検出モジュール５０４、顔追跡モジュール５０５、歩行者検出モジュール５０６および歩行者追跡モジュール５０７によって実行してもよい。

Ｓ２０２において、対象人物の画像を取得する。

任意選択的な一例では、該Ｓ２０２はメモリに記憶された対応する命令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される取得モジュール５００によって実行してもよい。

Ｓ２０４において、対象人物の画像により、顔画像ライブラリを検索し、対象人物の画像とマッチする第一顔画像テンプレートを得る。

いくつかの可能な実施形態では、Ｓ２０４は以下のステップを含む。

Ｓ２０４０において、対象人物の画像の第一顔特徴データを取得する。

本願の実施例では、対象人物の画像の特徴データを第一顔特徴データと呼ぶ。任意選択的に、顔認識ニューラルネットワークに基づいて対象人物の画像の第一顔特徴データを抽出してもよく、または、機械学習アルゴリズムや他の手段により対象人物の画像の特徴データを取得してもよい。例えば、顔認識ニューラルネットワークに基づいて対象人物の画像の特徴を抽出し、第一顔特徴データを得て、第一顔特徴データは２５６次元または５１２次元のベクトルまたはマップ、または他の次元数のベクトル、行列、マップまたはテンソルであってもよく、次元数の値は顔認識ニューラルネットワークの実現に依存し、第一顔特徴データの各桁の数値は実数であってもよく、その値は−１０から１０の間としてもよく、第一顔特徴データを正規化処理する場合、各桁の値は−１から１の間としてもよいが、本願の実施例はこれに限定されない。

別のいくつかの任意選択的な例では、他の機器から第一顔特徴データを取得する。例えば、サーバは端末機器が送信する対象人物の画像の第一顔特徴データを受信するが、本開示の実施例はこれに限定されない。

Ｓ２０４１において、第一顔特徴データに基づき、顔画像ライブラリに記憶された複数の顔画像テンプレートから第一顔画像テンプレートを決定する。

任意選択的に、複数の第二顔特徴データのうち第一顔特徴データとの距離が予め設定された条件を満たす第二顔特徴データに対応する顔画像テンプレートを第一顔画像テンプレートとして決定する。いくつかの可能な実施形態では、第一顔特徴データと複数の顔画像テンプレートに対応する複数の第二顔特徴データのうちの各々との距離（例えばコサイン距離、ユークリッド距離など）に基づき、複数の顔画像テンプレートから第一顔画像テンプレートを決定するようにしてもよい。任意選択的な一例では、複数の第二顔特徴データのうち第一顔特徴データとの距離が最も小さい第二顔特徴データに対応する少なくとも一つの顔画像テンプレートを第一顔画像テンプレートとして決定してもよい。別の任意選択的な例では、複数の第二顔特徴データのうち第一顔特徴データとの距離が第一閾値以下である第二顔特徴データに対応する少なくとも一つの顔画像テンプレートを第一顔画像テンプレートとして決定してもよく、ここで、第一閾値は実際の必要に応じて設定でき、本願はその実施形態を限定しない。

ここで顔画像ライブラリにおける顔画像テンプレートの特徴データを第二顔特徴データと呼ぶ。任意選択的に、複数の顔画像テンプレートのうちの各々は対応する第二顔特徴データを有してもよく、そのうち、任意選択的に、顔画像テンプレートに対応する第二顔特徴データは顔画像テンプレートに対応する顔画像から抽出された特徴データから得られるか、または顔画像テンプレートに対応する人物または人物軌跡における一つ以上の顔画像から抽出された特徴データに基づいて得られ、本開示の実施例はこれを限定しない。該複数の顔画像テンプレートのうち異なる顔画像テンプレートに対応する第二顔特徴データは同じであってもなくてもよい。任意選択的に、該複数の顔画像テンプレートのうち同一人物軌跡に対応する少なくとも二つの顔画像テンプレートは同じ第二顔特徴データを有する。例えば、該少なくとも二つの顔画像テンプレートの第二顔特徴データは該少なくとも二つの顔画像テンプレートが属する顔軌跡の平均特徴データであってもよいが、本願の実施例はこれに限定されない。

例えば、顔画像テンプレートｙ１、ｙ２、ｙ３、ｙ４およびｙ５のうち顔画像テンプレートｙ１、ｙ３およびｙ５は顔軌跡ｇ１に属し、顔画像テンプレートｙ２およびｙ４はいかなる顔軌跡にも属さない場合、顔画像テンプレートｙ１に対応する第二顔特徴データ、顔画像テンプレートｙ３に対応する第二顔特徴データ、および顔画像テンプレートｙ５に対応する第二顔特徴データはいずれも顔軌跡ｇ１の平均特徴データｇｔ１となり、顔画像テンプレートｙ２の第二顔特徴データは顔画像テンプレートｙ２の特徴データであってもよい。

任意選択的な一例では、該Ｓ２０４はメモリに記憶された対応する命令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される顔検索モジュール５０１によって実行してもよい。

Ｓ２０６において、第一顔画像テンプレートおよび歩行者画像ライブラリに基づき、対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得る。

任意選択的に、Ｓ２０６は以下のステップを含んでもよい。

Ｓ２０６０において、第一顔画像テンプレートに対応する第一歩行者画像を取得する。

本願の実施例では、第一顔画像テンプレートは第一顔画像に対応し、顔画像ライブラリから第一顔画像テンプレートの情報、例えば第一顔画像テンプレートに対応する第一顔画像の情報などを取得し、取得した情報に基づき、第一顔画像テンプレートに対応する第一歩行者画像を決定することができる。任意選択的に、第一顔画像の情報は第一顔画像が属する映像の情報および／または第一顔画像のフレーム番号情報を含んでもよく、またはさらに第一顔画像の画像位置情報を含んでも良い。いくつかの例では、第一顔画像が属する第一映像および第一顔画像のフレーム番号情報や画像位置情報を決定し、第一顔画像のフレーム番号情報や画像位置情報に基づき、第一映像において第一顔画像テンプレートに対応する第一歩行者画像を取得するようにしてもよい。

第一顔画像のフレーム番号情報は第一顔画像の第一映像において存在するフレームを示し、第一顔画像のフレーム番号情報に基づいて第一映像において第一顔画像を含む第一映像画像を取得することができ、ここで、第一映像画像が第一映像において属するフレームは該第一顔画像のフレーム番号情報に対応する。

第一顔画像の画像位置情報は第一顔画像の属する映像画像における位置、例えば、第一顔画像の境界ボックスの第一映像画像における座標情報を示すが、本願の実施例はこれに限定されない。

任意選択的に、第一歩行者画像を取得するプロセスにおいて、以下の二つの場合に従って実行することができる。

場合１：第一映像にフレーム番号が第一顔画像のフレーム番号情報に対応しかつ第一顔画像を含む歩行者画像が存在し、第一顔画像を含む歩行者画像を第一顔画像テンプレートに対応する第一歩行者画像として決定する。

例えば、第一顔画像ｌ１は第一映像Ｍ１の１０フレーム目の映像画像に存在し、第一映像Ｍ１の１０フレーム目の映像画像に第一顔画像ｌ１を完全に含む歩行者画像ｘ１が存在する場合、歩行者画像ｘ１を第一顔画像ｌ１に対応する第一歩行者画像として決定する。

場合２：第一映像にフレーム番号が第一顔画像のフレーム番号情報に対応しかつ第一顔画像を含む歩行者画像が存在せず、第一顔画像を第一映像画像において予め設定された比率に従って拡大し、第一顔画像テンプレートに対応する第一歩行者画像を得て、ここで、第一映像画像の第一映像におけるフレーム番号は第一顔画像のフレーム番号情報に対応する。

例えば、第一顔画像ｌ２は第一映像Ｍ２の１３フレーム目の映像画像に存在し、第一映像Ｍ２の１３フレーム目の映像画像に第一顔画像ｌ２を完全に含む歩行者画像が存在しない場合、第一顔画像ｌ２を第一映像画像即ち１３フレーム目の映像画像において予め設定された比率（例えば４または８倍の比率など）に従って拡大し、拡大後の領域を第一顔画像ｌ２に対応する第一歩行者画像として決定する。

Ｓ２０６１において、第一歩行者画像により歩行者画像ライブラリを検索し、対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得る。

本願の実施例におけるいくつかの実施形態では、第一歩行者画像の第一歩行者特徴データを決定し、第一歩行者特徴データに基づき、歩行者画像ライブラリに記憶された複数の歩行者画像テンプレートから第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを決定する。

ここで、第一歩行者画像の特徴データを第一歩行者特徴データと呼ぶ。任意選択的に、歩行者画像ライブラリに記憶された複数の歩行者画像テンプレートから第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを決定する時、第一歩行者特徴データと複数の歩行者画像テンプレートに対応する複数の第二歩行者特徴データのうちの各々との距離に基づき、複数の歩行者画像テンプレートから第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを決定することができる。具体的には、複数の第二歩行者特徴データのうち第一歩行者特徴データとの距離が予め設定された条件を満たす第二歩行者特徴データに対応する歩行者画像テンプレートを第一歩行者画像とマッチする歩行者画像テンプレートとして決定する。任意選択的な一例では、複数の第二歩行者特徴データのうち第一歩行者特徴データとの距離が最も小さい第二歩行者特徴データに対応する少なくとも一つの歩行者画像テンプレートを第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートとして決定する。別の任意選択的な例では、複数の第二歩行者特徴データのうち第一歩行者特徴データとの距離が第二閾値以下である第二歩行者特徴データに対応する少なくとも一つの歩行者画像テンプレートを第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートとして決定し、ここで、第二閾値は実際の必要に応じて予め設定でき、本願はその具体的な実施形態を限定しない。

任意選択的に、複数の歩行者画像テンプレートのうちの各々は対応する第二歩行者特徴データを有し、そのうち、任意選択的に、歩行者画像テンプレートに対応する第二歩行者特徴データは歩行者画像テンプレートに対応する歩行者画像から抽出された特徴データから得られるか、または歩行者画像テンプレートに対応する人物または人物軌跡における一つ以上の歩行者画像から抽出された特徴データに基づいて得られ、本開示の実施例はこれを限定しない。該複数の歩行者画像テンプレートのうち異なる歩行者画像テンプレートに対応する第二歩行者特徴データは同じであってもなくてもよい。任意選択的に、該複数の歩行者画像テンプレートのうち同一人物軌跡に対応する少なくとも二つの歩行者画像テンプレートは同じ第二歩行者特徴データを有する。例えば、該少なくとも二つの歩行者画像テンプレートの第二歩行者特徴データは該少なくとも二つの歩行者画像テンプレートが属する歩行者軌跡の平均特徴データであってもよいが、本願の実施例はこれに限定されない。

いくつかの可能な実施形態では、第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを対象人物の画像とマッチする対象歩行者画像テンプレートとして決定する。

別のいくつかの可能な実施形態では、Ｓ２０６はさらに、第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートをスクリーニングし、対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得ることを含む。

本願の実施例では、対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを対象人物の検索結果として決定する。または、まず対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを決定し、続いて対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートをスクリーニングし、対象人物の検索結果を得て、本願の実施例はこれを限定しない。

任意選択的な一例では、該Ｓ２０６はメモリに記憶された対応する命令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用される歩行者検索モジュール５０２によって実行してもよい。

Ｓ２０８において、対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートをスクリーニングし、対象人物の検索結果を得る。

任意選択的に、Ｓ２０８は以下の二つの方式の少なくとも一つに従って実現する。

１）時間スクリーニング条件および映像スクリーニング条件の少なくとも一つに従って対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートをスクリーニングする。

いくつかの可能な実施形態では、スクリーニング条件を手動で設定してもよく、例えば、時間スクリーニング条件（例えばある日のある時間帯）、映像スクリーニング条件（例えば由来する監視機器）に従って対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートをスクリーニングする。

本願の実施例では、スクリーニング条件は時間スクリーニング条件および映像スクリーニング条件を含むが、これらに限定されず、さらに人物スクリーニング条件、例えば性別、年齢などを含んでもよく、本願の実施例はこれを限定しない。

２）対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートの特徴データをクラスタリングし、クラスタリング結果に基づいてスクリーニングする。

任意選択的に、対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートのうちの各々の特徴データに基づき、少なくとも一つの対象歩行者画像テンプレートを少なくとも１グループの歩行者画像テンプレートに分け、該少なくとも１グループの歩行者画像テンプレートのうちの各々に含まれる歩行者画像の特徴データに基づき、該各グループの歩行者画像テンプレートのスクリーニング統計データを決定し、そして該少なくとも１グループの歩行者画像テンプレートのうちの各々のスクリーニング統計データに基づき、該少なくとも１グループの歩行者画像テンプレートのうちの１グループ以上に対応する歩行者画像を対象人物の検索結果として決定する。

いくつかの可能な実施形態では、１グループの歩行者画像テンプレートのスクリーニング統計データは該グループの歩行者画像テンプレートに含まれる少なくとも一つの歩行者画像の特徴データの平均値または平均分散を含んでもよいが、本願の実施例はこれに限定されない。

いくつかの可能な実施形態では、各グループの歩行者画像テンプレートのスクリーニング統計データに基づき、少なくとも１グループの歩行者画像テンプレートを順に並び替え、最初または最後の１グループ以上の歩行者画像テンプレートを削除し、対象人物の検索結果を得るようにしてもよい。

いくつかの可能な実施形態では、ｋ−ｍｅａｎｓクラスタリングアルゴリズムを採用して対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートの特徴データをクラスタリングし、ｋグループの特徴データを得て、各グループ内の特徴データについて、その対応する軌跡の数、特徴データの分散などのスクリーニング統計データを計算し、スクリーニング統計データに基づいてどのグループがノイズであるか（例えば分散が最も大きいグループはノイズグループである）を決定する。例えば、対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートは１００個の歩行者軌跡であり、各歩行者軌跡は複数の歩行者画像を含むと仮定すると、ｋ−ｍｅａｎｓクラスタリングアルゴリズムによって１００個の歩行者軌跡の特徴データを１０グループに分けることができ、任意選択的に、１００個の歩行者軌跡の１００個の特徴データの数回反復するｋ−ｍｅａｎｓクラスタリング演算を行い、１０グループに分けることができ、ここで各グループに含まれる歩行者軌跡の数は同じであってもなくてもよく、第１０のグループには歩行者軌跡が５個のみあり、かつその特徴データの分散が最も大きい場合、第１０のグループ内の５個の歩行者軌跡がノイズであると決定し、結果から第１０のグループ内の５個の歩行者軌跡に含まれる歩行者画像を除去することができ、残りの結果は検索結果となる。

任意選択的な一例では、該Ｓ２０８はメモリに記憶された対応する命令をプロセッサによって呼び出して実行してもよく、プロセッサにより運用されるスクリーニングモジュール５０３によって実行してもよい。

本願の実施例の上記説明に基づき、本願の実施例の対象人物の検索方法の論理ブロック図は図３に示すように、大量の映像（例えば監視映像）の映像構造化動作（主に顔／歩行者検出処理および顔／歩行者追跡処理を含む）を予め実行し、顔画像ライブラリおよび歩行者画像ライブラリを作成する。顔を含む対象人物の画像を検索する時、まず顔画像ライブラリに基づいて顔検索を行い、第一顔画像テンプレートを得て、さらに歩行者画像ライブラリに基づいて第一顔画像テンプレートの歩行者検索を行い、複数の歩行者画像テンプレートを得て、続いて複数の歩行者画像テンプレートをスクリーニングし、最終的に対象人物の検索結果を得る。

本願の実施例は顔検索と歩行者検索を結合した連携検索ポリシーを採用し、まず顔画像ライブラリに基づいて検索して対象人物の画像とマッチする第一顔画像テンプレートを得て、さらに歩行者画像ライブラリおよび第一顔画像テンプレートに基づいて対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを取得する。本願の実施例は顔検索のタイムスパンが長く、精度が高いという利点を有するのみならず、歩行者検索のリコール率が高いという利点をも有し、対象人物検索の正確率を向上させる。

本願の実施例が提供するいずれの対象人物の検索方法もデータ処理能力を有する任意の適当な機器によって実行することができ、前記機器は、端末機器およびサーバなどを含むが、これらに限定されない。または、本願の実施例が提供するいずれの対象人物の検索方法もプロセッサによって実行することができ、例えばプロセッサはメモリに記憶された対応する命令を呼び出すことで本願の実施例において言及したいずれかの対象人物の検索方法を実行することができる。以下は説明を省略する。

当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出して完了させることができることを理解すべきであり、前記プログラムは、ＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行時、上記方法の実施例のステップを実行する。

図４に示すように、それは本願のいくつかの実施例に係る対象人物の検索装置の構成ブロック図である。

本願の実施例が提供する対象人物の検索装置は、対象人物の画像を取得するための取得モジュール４００と、取得モジュール４００が取得した対象人物の画像により、複数の顔画像テンプレートを含む顔画像ライブラリを検索し、対象人物の画像とマッチする第一顔画像テンプレートを得るための顔検索モジュール４０１と、顔検索モジュール４０１が得た第一顔画像テンプレート、および複数の歩行者画像テンプレートを含む歩行者画像ライブラリに基づき、対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得るための歩行者検索モジュール４０２と、を含む。

本願の実施例の対象人物の検索装置は上記実施例における対応する対象人物の検索方法を実現するためのものであり、かつ対応する方法の実施例の有益な効果を有し、ここでは説明を省略する。

図５に示すように、それは本願の別のいくつかの実施例に係る対象人物の検索装置の構成ブロック図である。

本願の実施例が提供する対象人物の検索装置は、対象人物の画像を取得するための取得モジュール５００と、取得モジュール５００が取得した対象人物の画像により、複数の顔画像テンプレートを含む顔画像ライブラリを検索し、対象人物の画像とマッチする第一顔画像テンプレートを得るための顔検索モジュール５０１と、顔検索モジュール５０１が得た第一顔画像テンプレート、および複数の歩行者画像テンプレートを含む歩行者画像ライブラリに基づき、対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得るための歩行者検索モジュール５０２と、を含む。

任意選択的に、顔検索モジュール５０１は、対象人物の画像の第一顔特徴データを取得し、そして第一顔特徴データに基づき、顔画像ライブラリに記憶された複数の顔画像テンプレートから第一顔画像テンプレートを決定するために用いられる。

任意選択的に、顔検索モジュール５０１は、第一顔特徴データと複数の顔画像テンプレートに対応する複数の第二顔特徴データのうちの各々との距離に基づき、複数の顔画像テンプレートから第一顔画像テンプレートを決定するために用いられる。

任意選択的に、顔検索モジュール５０１は、複数の第二顔特徴データのうち第一顔特徴データとの距離が最も小さい第二顔特徴データに対応する少なくとも一つの顔画像テンプレートを第一顔画像テンプレートとして決定するために、または複数の第二顔特徴データのうち第一顔特徴データとの距離が第一閾値以下である第二顔特徴データに対応する少なくとも一つの顔画像テンプレートを第一顔画像テンプレートとして決定するために用いられる。

任意選択的に、複数の顔画像テンプレートのうちの少なくとも二つは同一人物に対応する顔軌跡を形成し、少なくとも二つの顔画像テンプレートに対応する第二顔特徴データは少なくとも二つの顔画像テンプレートが形成する顔軌跡の平均特徴データである。

任意選択的に、歩行者検索モジュール５０２は、第一顔画像テンプレートに対応する第一歩行者画像を取得し、そして第一歩行者画像により歩行者画像ライブラリを検索し、対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得るために用いられる。

任意選択的に、歩行者検索モジュール５０２は、第一歩行者画像の第一歩行者特徴データを決定し、そして第一歩行者特徴データに基づき、歩行者画像ライブラリに記憶された複数の歩行者画像テンプレートから第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを決定し、第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートとして決定するために用いられる。

任意選択的に、歩行者検索モジュール５０２は、第一歩行者特徴データと複数の歩行者画像テンプレートに対応する複数の第二歩行者特徴データのうちの各々との距離に基づき、複数の歩行者画像テンプレートから第一歩行者画像とマッチする少なくとも一つの歩行者画像を決定するために用いられる。

任意選択的に、歩行者検索モジュール５０２は、複数の第二歩行者特徴データのうち第一歩行者特徴データとの距離が最も小さい第二歩行者特徴データに対応する少なくとも一つの歩行者画像テンプレートを第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートとして決定するために、または複数の第二歩行者特徴データのうち第一歩行者特徴データとの距離が第二閾値以下である第二歩行者特徴データに対応する少なくとも一つの歩行者画像テンプレートを第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートとして決定するために用いられる。

任意選択的に、複数の歩行者画像テンプレートのうちの少なくとも二つは同一人物に対応する歩行者軌跡を形成し、少なくとも二つの歩行者画像テンプレートに対応する第二歩行者特徴データは少なくとも二つの歩行者画像テンプレートが形成する歩行者軌跡の平均特徴データである。

任意選択的に、第一顔画像テンプレートは第一顔画像に対応し、歩行者検索モジュール５０２は、第一顔画像が属する第一映像および第一顔画像のフレーム番号情報や画像位置情報を決定し、そして第一顔画像のフレーム番号情報や画像位置情報に基づき、第一映像において第一顔画像テンプレートに対応する第一歩行者画像を取得するために用いられる。

任意選択的に、歩行者検索モジュール５０２は、第一映像にフレーム番号が第一顔画像のフレーム番号情報に対応しかつ第一顔画像を含む歩行者画像が存在する場合、第一顔画像を含む歩行者画像を第一顔画像テンプレートに対応する第一歩行者画像として決定するために用いられる。

任意選択的に、歩行者検索モジュール５０２は、第一映像にフレーム番号が第一顔画像のフレーム番号情報に対応しかつ第一顔画像を含む歩行者画像が存在しない場合、第一顔画像を第一映像画像において予め設定された比率に基づいて拡大し、第一顔画像テンプレートに対応する第一歩行者画像を得るために用いられ、ここで、第一映像画像の第一映像におけるフレーム番号は第一顔画像のフレーム番号情報に対応する。

任意選択的に、本願の実施例が提供する対象人物の検索装置はさらに、歩行者検索モジュール５０２が第一顔画像テンプレートおよび歩行者画像ライブラリに基づき、対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得た後に、対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートをスクリーニングし、対象人物の検索結果を得るためのスクリーニングモジュール５０３を含む。

任意選択的に、スクリーニングモジュール５０３は、少なくとも一つの対象歩行者画像テンプレートのうちの各々の特徴データに基づき、少なくとも一つの対象歩行者画像テンプレートを少なくとも１グループの歩行者画像テンプレートに分け、少なくとも１グループの歩行者画像テンプレートのうちの各々に含まれる歩行者画像の特徴データに基づき、各グループの歩行者画像テンプレートのスクリーニング統計データを決定し、そして少なくとも１グループの歩行者画像テンプレートのうちの各々のスクリーニング統計データに基づき、少なくとも１グループの歩行者画像テンプレートのうちの一つ以上に対応する歩行者画像を対象人物の検索結果として決定するために用いられる。

任意選択的に、本願の実施例が提供する対象人物の検索装置はさらに、顔検索モジュール５０１が対象人物の画像により、顔画像ライブラリを検索し、対象人物の画像とマッチする第一顔画像テンプレートを得る前に、少なくとも一つの映像のうちの各々に含まれる映像画像の顔検出処理を行い、複数の顔画像を得て、そして複数の顔画像のうちの各々、および／または、それぞれが顔画像の特徴データ、顔画像が属する映像情報、顔画像のフレーム番号情報、顔画像の映像画像における位置情報のうちの少なくとも一つを含む各顔画像の情報を顔画像テンプレートとして顔画像ライブラリに記憶するための顔検出モジュール５０４を含む。

任意選択的に、本願の実施例が提供する対象人物の検索装置はさらに、複数の顔画像の顔追跡処理を行い、それぞれが複数の顔画像のうちの少なくとも二つを含む少なくとも一つの顔軌跡を得て、少なくとも一つの顔軌跡のうちの各々に含まれる少なくとも二つの顔画像に基づき、各顔軌跡の平均特徴データを決定し、そして少なくとも一つの顔軌跡の各々の平均特徴データを顔画像ライブラリに記憶するための顔追跡モジュール５０５を含む。

任意選択的に、本願の実施例が提供する対象人物の検索装置はさらに、歩行者検索モジュール５０２が第一顔画像テンプレートおよび歩行者画像ライブラリに基づき、対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得る前に、少なくとも一つの映像のうちの各々に含まれる映像画像の歩行者検出処理を行い、複数の歩行者画像を得て、そして複数の歩行者画像のうちの各々、および／または、それぞれが歩行者画像の特徴データ、歩行者画像が属する映像情報、歩行者画像のフレーム番号情報、歩行者画像の映像画像における位置情報のうちの少なくとも一つを含む各歩行者画像の情報を歩行者画像ライブラリに記憶するための歩行者検出モジュール５０６を含む。

任意選択的に、本願の実施例が提供する対象人物の検索装置はさらに、複数の歩行者画像の歩行者追跡処理を行い、それぞれが複数の歩行者画像のうちの少なくとも二つを含む少なくとも一つの歩行者軌跡を得て、少なくとも一つの歩行者軌跡のうちの各々に含まれる少なくとも二つの歩行者画像に基づき、各歩行者軌跡の平均特徴データを決定し、そして少なくとも一つの歩行者軌跡のうちの各々の平均特徴データを歩行者画像ライブラリに記憶するための歩行者追跡モジュール５０７を含む。

本願の実施例の対象人物の検索装置は上記実施例における対応する対象人物の検索方法を実現するために用いられ、該検索装置内の各モジュールおよび／またはユニットは上記方法の実施例における各ステップを実行するために用いることができ、説明を簡潔にするために、ここでは詳細な説明を繰り返さない。

本願の実施例はさらに電子機器を提供し、例えば移動端末、パーソナルコンピュータ（ＰＣ）、タブレット、サーバなどであってもよい。以下に図６を参照すると、本願の実施例の対象人物の検索装置の実現に適する電子機器６００の構成模式図が示される。図６に示すように、電子機器６００はメモリおよびプロセッサを含んでもよい。任意選択的に、電子機器６００は一つ以上のプロセッサ、通信要素などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置（ＣＰＵ）６０１、および／または一つ以上の加速ユニット６１３などであり、加速ユニット６１３はＧＰＵ、ＦＰＧＡ、他のタイプの専用プロセッサなどを含むことができるが、これらに限定されず、プロセッサは読み取り専用メモリ（ＲＯＭ）６０２に記憶されている実行可能命令または記憶部分６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信要素は通信コンポ―ネット６１２および／または通信インタフェース６０９を含む。そのうち、通信コンポ―ネット６１２はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含むことができるが、これに限定されず、通信インタフェース６０９はＬＡＮカード、モデムのネットワークインタフェースカードなどの通信インタフェースを含み、かつインターネットのようなネットワークによって通信処理を実行する。

プロセッサは読み取り専用メモリ６０２および／またはランダムアクセスメモリ６０３と通信して実行可能命令を実行し、通信バス６０４を介して通信コンポ―ネット６１２と接続し、通信コンポ―ネット６１２によって他の目標機器と通信し、それにより本願の実施例が提供するいずれか一項の対象人物の検索方法に対応の動作、例えば、対象人物の画像を取得することと、前記対象人物の画像により、複数の顔画像テンプレートを含む顔画像ライブラリを検索し、前記対象人物の画像とマッチする第一顔画像テンプレートを得ることと、前記第一顔画像テンプレート、および複数の歩行者画像テンプレートを含む歩行者画像ライブラリに基づき、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得ることと、を完了することができる。

また、ＲＡＭ６０３には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。ＣＰＵ６０１または加速ユニット６１３、ＲＯＭ６０２およびＲＡＭ６０３は通信バス６０４を介して互いに接続される。ＲＡＭ６０３が存在する場合、ＲＯＭ６０２は任意選択的なモジュールとなる。ＲＡＭ６０３は実行可能命令を記憶するか、または動作時にＲＯＭ６０２へ実行可能命令を書き込み、実行可能命令によってプロセッサは上記方法に対応する動作を実行する。入力／出力（Ｉ／Ｏ）インタフェース６０５も通信バス６０４に接続される。通信コンポ―ネット６１２は統合設置してもよく、また複数のサブモジュール（例えば複数のＩＢネットワークカード）を有するように設置してもよく、かつ通信バスリンクに存在する。

キーボード、マウスなどを含む入力部分６０６、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などおよびスピーカーなどを含む出力部分６０７、ハードディスクなどを含む記憶部分６０８、およびＬＡＮカード、モデムのネットワークインタフェースカードなどを含む通信インタフェース６０９といった部品は、Ｉ／Ｏインタフェース６０５に接続される。ドライバ６１０も必要に応じてＩ／Ｏインタフェース６０５に接続される。取り外し可能な媒体６１１、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ６１０に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部分６０８にインストールされる。

説明すべきは、図６に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図６の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えば加速ユニット６１３とＣＰＵ６０１は分離設置するかまたは加速ユニット６１３をＣＰＵ６０１に統合するようにしてもよく、通信要素は分離設置してもよく、またＣＰＵ６０１または加速ユニット６１３に統合してもよいなどである。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。

本願の実施例の電子機器は上記実施例における対応する対象人物の検索方法を実現するために用いることができ、該電子機器内の各デバイスは上記方法の実施例における各ステップを実行するために用いることができ、例えば、上述した対象人物の検索方法は電子機器のプロセッサによってメモリに記憶された関連命令を呼び出して実行可能であり、説明を簡潔にするために、ここでは詳細な説明を繰り返さない。

本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータプログラム製品として実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法を実行するステップに対応する命令、例えば、対象人物の画像を取得することと、前記対象人物の画像により、複数の顔画像テンプレートを含む顔画像ライブラリを検索し、前記対象人物の画像とマッチする第一顔画像テンプレートを得ることと、前記第一顔画像テンプレート、および複数の歩行者画像テンプレートを含む歩行者画像ライブラリに基づき、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得ることと、を含むことができる。このような実施例では、該コンピュータプログラムは通信要素によってネットワークからダウンロードおよびインストールでき、および／または取り外し可能な媒体６１１からインストールできる。該コンピュータプログラムはプロセッサに実行される時、本願の実施例の方法に開示された機能を実行する。

説明すべきは、本願の各実施例に記述した部分は着目している点が異なり、ある実施例において詳細に記述されていない部分は本願の他の実施例における記述および説明を参照すればよく、詳細な説明は繰り返さないということである。

本願の方法および装置、電子機器ならびに記憶媒体は様々な方式で実現し得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせで本願の実施例の方法および装置、電子機器ならびに記憶媒体を実現できる。前記方法のステップに付けられる上記順序は説明するためのものに過ぎず、本願の実施例の方法のステップは、特に断らない限り、以上に具体的に記述した順序に限定されない。また、いくつかの実施例では、本願を記録媒体に記録されたプログラムとして実施してもよく、これらのプログラムは本願の実施例に係る方法を実現するための機械可読命令を含む。従って、本願は本願の実施例に係る方法を実行するためのプログラムを記憶する記録媒体をも包含する。

本願の実施例に対する記述は例示および説明のためのもので、漏れがないものまたは開示した形式に本発明を限定するものではなく、様々な修正および変更は当業者にとって自明である。選択および記述した実施例は、本願の原理および実際の適用をより効果的に説明し、かつ当業者に本願を理解させて決定の用途に適する様々な修正付きの様々な実施例を設計するためのものである。

Claims

対象人物の画像を取得することと、
対象人物の検索装置が前記対象人物の画像により、複数の人物の顔画像テンプレートを含む顔画像ライブラリを検索し、前記対象人物の画像とマッチする第一顔画像テンプレートを得ることであって、各人物は１つ以上の顔画像テンプレートに対応し、前記顔画像テンプレートは顔画像及び／又は顔画像の情報を含み、前記顔画像の情報は顔画像の特徴データを含む、ことと、
前記対象人物の検索装置が前記第一顔画像テンプレート、および複数の人物の歩行者画像テンプレートを含む歩行者画像ライブラリに基づき、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得ることであって、各人物は１つ以上の歩行者画像テンプレートに対応し、前記歩行者画像テンプレートは歩行者画像及び／又は歩行者画像の情報を含み、前記歩行者画像の情報は前記歩行者画像の特徴データを含む、ことと、を含み、
前記対象人物の検索装置が前記第一顔画像テンプレートおよび歩行者画像ライブラリに基づき、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得ることは、
前記対象人物の検索装置が前記第一顔画像テンプレートに対応する第一歩行者画像を取得することと、
前記対象人物の検索装置が前記第一歩行者画像により前記歩行者画像ライブラリを検索し、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得ることと、を含むことを特徴とする対象人物の検索方法。
前記対象人物の検索装置が前記対象人物の画像により、顔画像ライブラリを検索し、前記対象人物の画像とマッチする第一顔画像テンプレートを得ることは、
前記対象人物の検索装置が前記対象人物の画像の第一顔特徴データを取得することと、
前記対象人物の検索装置が前記第一顔特徴データに基づき、前記顔画像ライブラリに記憶された複数の顔画像テンプレートから前記第一顔画像テンプレートを決定することと、を含むことを特徴とする請求項１に記載の方法。
前記対象人物の検索装置が前記第一顔特徴データに基づき、前記顔画像ライブラリに記憶された複数の顔画像テンプレートから前記第一顔画像テンプレートを決定することは、
前記対象人物の検索装置が前記第一顔特徴データと前記複数の顔画像テンプレートに対応する複数の第二顔特徴データのうちの各々との距離に基づき、前記複数の顔画像テンプレートから前記第一顔画像テンプレートを決定することを含むことを特徴とする請求項２に記載の方法。
前記対象人物の検索装置が前記第一顔特徴データと前記複数の顔画像テンプレートに対応する複数の第二顔特徴データのうちの各々との距離に基づき、前記複数の顔画像テンプレートから前記第一顔画像テンプレートを決定することは、
前記対象人物の検索装置が前記複数の第二顔特徴データのうち前記第一顔特徴データとの距離が最も小さい第二顔特徴データに対応する少なくとも一つの顔画像テンプレートを前記第一顔画像テンプレートとして決定すること、または
前記対象人物の検索装置が前記複数の第二顔特徴データのうち前記第一顔特徴データとの距離が第一閾値以下である第二顔特徴データに対応する少なくとも一つの顔画像テンプレートを前記第一顔画像テンプレートとして決定することを含むことを特徴とする請求項３に記載の方法。
前記複数の顔画像テンプレートのうちの少なくとも二つは同一人物に対応する顔軌跡を形成し、前記少なくとも二つの顔画像テンプレートに対応する第二顔特徴データは前記少なくとも二つの顔画像テンプレートが形成する顔軌跡の平均特徴データであることを特徴とする請求項３または４に記載の方法。
前記対象人物の検索装置が前記第一歩行者画像により前記歩行者画像ライブラリを検索し、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得ることは、
前記対象人物の検索装置が前記第一歩行者画像の第一歩行者特徴データを決定することと、
前記対象人物の検索装置が前記第一歩行者特徴データに基づき、前記歩行者画像ライブラリに記憶された複数の歩行者画像テンプレートから前記第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを決定し、前記第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを前記対象歩行者画像テンプレートとして決定することと、を含むことを特徴とする請求項１に記載の方法。
前記対象人物の検索装置が前記第一歩行者特徴データに基づき、前記歩行者画像ライブラリに記憶された複数の歩行者画像テンプレートから前記第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを決定することは、
前記対象人物の検索装置が前記第一歩行者特徴データと前記複数の歩行者画像テンプレートに対応する複数の第二歩行者特徴データのうちの各々との距離に基づき、前記複数の歩行者画像テンプレートから前記第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを決定することを含むことを特徴とする請求項６に記載の方法。
前記対象人物の検索装置が前記第一歩行者特徴データと前記複数の歩行者画像テンプレートに対応する複数の第二歩行者特徴データのうちの各々との距離に基づき、前記複数の歩行者画像テンプレートから前記第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートを決定することは、
前記対象人物の検索装置が前記複数の第二歩行者特徴データのうち前記第一歩行者特徴データとの距離が最も小さい第二歩行者特徴データに対応する少なくとも一つの歩行者画像テンプレートを前記第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートとして決定すること、または
前記対象人物の検索装置が前記複数の第二歩行者特徴データのうち前記第一歩行者特徴データとの距離が第二閾値以下である第二歩行者特徴データに対応する少なくとも一つの歩行者画像テンプレートを前記第一歩行者画像とマッチする少なくとも一つの歩行者画像テンプレートとして決定することを含むことを特徴とする請求項７に記載の方法。
前記対象人物の検索装置が前記複数の歩行者画像テンプレートのうちの少なくとも二つは同一人物に対応する歩行者軌跡を形成し、前記少なくとも二つの歩行者画像テンプレートに対応する第二歩行者特徴データは前記少なくとも二つの歩行者画像テンプレートが形成する歩行者軌跡の平均特徴データであることを特徴とする請求項７または８に記載の方法。
前記第一顔画像テンプレートは第一顔画像に対応し、
前記対象人物の検索装置が前記第一顔画像テンプレートに対応する第一歩行者画像を取得することは、
前記対象人物の検索装置が前記第一顔画像が属する第一映像、および前記第一顔画像のフレーム番号情報や画像位置情報を決定することと、
前記対象人物の検索装置が前記第一顔画像のフレーム番号情報や画像位置情報に基づき、前記第一映像において前記第一顔画像テンプレートに対応する第一歩行者画像を取得することと、を含むことを特徴とする請求項１，６−９のいずれか一項に記載の方法。
前記対象人物の検索装置が前記第一顔画像のフレーム番号情報や画像位置情報に基づき、前記第一映像において前記第一顔画像テンプレートに対応する第一歩行者画像を取得することは、
前記対象人物の検索装置が前記第一映像にフレーム番号が前記第一顔画像のフレーム番号情報に対応しかつ前記第一顔画像を含む歩行者画像が存在する場合、前記第一顔画像を含む前記歩行者画像を前記第一顔画像テンプレートに対応する第一歩行者画像として決定すること、又は、
前記対象人物の検索装置が前記第一映像にフレーム番号が前記第一顔画像のフレーム番号情報に対応しかつ前記第一顔画像を含む歩行者画像が存在しない場合、前記第一顔画像を第一映像画像において予め設定された比率に従って拡大し、前記第一顔画像テンプレートに対応する第一歩行者画像を得ることを含み、ここで、前記第一映像画像の前記第一映像におけるフレーム番号は前記第一顔画像のフレーム番号情報に対応することを特徴とする請求項１０に記載の方法。
前記対象人物の検索装置が前記第一顔画像テンプレートおよび歩行者画像ライブラリに基づき、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得た後に、前記方法は、さらに、
前記対象人物の検索装置が前記少なくとも一つの対象歩行者画像テンプレートをスクリーニングし、前記対象人物の検索結果を得ることを含むことを特徴とする請求項１−１１のいずれか一項に記載の方法。
前記対象人物の検索装置が前記少なくとも一つの対象歩行者画像テンプレートをスクリーニングし、前記対象人物の検索結果を得ることは、
前記対象人物の検索装置が前記少なくとも一つの対象歩行者画像テンプレートのうちの各々の特徴データに基づき、前記少なくとも一つの対象歩行者画像テンプレートを少なくとも１グループの歩行者画像テンプレートに分けることと、
前記対象人物の検索装置が前記少なくとも１グループの歩行者画像テンプレートのうちの各々に含まれる歩行者画像の特徴データに基づき、前記各グループの歩行者画像テンプレートのスクリーニング統計データを決定することと、
前記対象人物の検索装置が前記少なくとも１グループの歩行者画像テンプレートのうちの各々のスクリーニング統計データに基づき、前記少なくとも１グループの歩行者画像テンプレートのうちの１グループ以上に対応する歩行者画像を前記対象人物の検索結果として決定することと、を含むことを特徴とする請求項１２に記載の方法。
前記対象人物の検索装置が前記対象人物の画像により、顔画像ライブラリを検索し、前記対象人物の画像とマッチする第一顔画像テンプレートを得る前に、前記方法は、さらに、
前記対象人物の検索装置が少なくとも一つの映像のうちの各々に含まれる映像画像の顔検出処理を行い、複数の顔画像を得ることと、
前記対象人物の検索装置が前記複数の顔画像のうちの各々、および／または、それぞれが、前記顔画像が属する映像情報、前記顔画像のフレーム番号情報、前記顔画像の映像画像における位置情報のうちの少なくとも一つをさらに含む前記各顔画像の情報を顔画像テンプレートとして前記顔画像ライブラリに記憶することと、を含むことを特徴とする請求項１−１３のいずれか一項に記載の方法。
前記方法は、さらに、
前記対象人物の検索装置が前記複数の顔画像の顔追跡処理を行い、それぞれが前記複数の顔画像のうちの少なくとも二つを含む少なくとも一つの顔軌跡を得ることと、
前記対象人物の検索装置が前記少なくとも一つの顔軌跡のうちの各々に含まれる少なくとも二つの顔画像に基づき、前記各顔軌跡の平均特徴データを決定することと、
前記対象人物の検索装置が前記少なくとも一つの顔軌跡のうちの各々の平均特徴データを前記顔画像ライブラリに記憶することと、を含むことを特徴とする請求項１４に記載の方法。
前記対象人物の検索装置が前記第一顔画像テンプレートおよび歩行者画像ライブラリに基づき、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得る前に、前記方法は、さらに、
前記対象人物の検索装置が少なくとも一つの映像のうちの各々に含まれる映像画像の歩行者検出処理を行い、複数の歩行者画像を得ることと、
前記対象人物の検索装置が前記複数の歩行者画像のうちの各々、および／または、それぞれが、前記歩行者画像が属する映像情報、前記歩行者画像のフレーム番号情報、前記歩行者画像の映像画像における位置情報のうちの少なくとも一つをさらに含む前記各歩行者画像の情報を歩行者画像テンプレートとして前記歩行者画像ライブラリに記憶することと、を含むことを特徴とする請求項１−１５のいずれか一項に記載の方法。
前記方法は、さらに、
前記対象人物の検索装置が前記複数の歩行者画像の歩行者追跡処理を行い、それぞれが前記複数の歩行者画像のうちの少なくとも二つを含む少なくとも一つの歩行者軌跡を得ることと、
前記対象人物の検索装置が前記少なくとも一つの歩行者軌跡のうちの各々に含まれる少なくとも二つの歩行者画像に基づき、前記各歩行者軌跡の平均特徴データを決定することと、
前記対象人物の検索装置が前記少なくとも一つの歩行者軌跡のうちの各々の平均特徴データを前記歩行者画像ライブラリに記憶することと、を含むことを特徴とする請求項１６に記載の方法。
対象人物の画像を取得するための取得モジュールと、
前記取得モジュールが取得した前記対象人物の画像により、複数の人物の顔画像テンプレートを含む顔画像ライブラリを検索し、前記対象人物の画像とマッチする第一顔画像テンプレートを得るための顔検索モジュールであって、各人物は１つ以上の顔画像テンプレートに対応し、前記顔画像テンプレートは顔画像及び／又は顔画像の情報を含み、前記顔画像の情報は顔画像の特徴データを含む、顔検索モジュールと、
前記顔検索モジュールが得た前記第一顔画像テンプレート、および複数の人物の歩行者画像テンプレートを含む歩行者画像ライブラリに基づき、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得るための歩行者検索モジュールであって、各人物は１つ以上の歩行者画像テンプレートに対応し、前記歩行者画像テンプレートは歩行者画像及び／又は歩行者画像の情報を含み、前記歩行者画像の情報は前記歩行者画像の特徴データを含む、歩行者検索モジュールと、を含み、
前記歩行者検索モジュールはさらに、
前記対象人物の検索装置が前記第一顔画像テンプレートに対応する第一歩行者画像を取得し、前記対象人物の検索装置が前記第一歩行者画像により前記歩行者画像ライブラリを検索し、前記対象人物の画像とマッチする少なくとも一つの対象歩行者画像テンプレートを得るために用いられることを特徴とする対象人物の検索装置。
実行される時に請求項１−１７のいずれか一項に記載の対象人物の検索方法を実現するコンピュータ読み取り可能な命令が記憶されていることを特徴とするコンピュータ読み取り可能な記憶媒体。
コンピュータに請求項１−１７のいずれか一項に記載の対象人物の検索方法を実行させるためのコンピュータプログラム。