JP7337541B2

JP7337541B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7337541B2
Application number: JP2019091384A
Authority: JP
Inventors: 博佐藤; 貴久山本; 敦夫野本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2023-09-04
Anticipated expiration: 2039-05-14
Also published as: JP2020187531A

Description

本発明は、映像から特定の人物を識別する技術に関する。

複数のカメラで撮影された映像から人物を識別する技術において、カメラの設置条件に応じて、人物を識別するための識別条件を設定する必要がある。例えば、人物の顔を認証する（個人を特定する）処理を例にとる。この場合、あるカメラで得られた映像中の顔画像の特徴と、あらかじめ登録された顔画像の特徴とを比較する。このとき、この２つの顔画像から抽出された特徴を用いて、本人と識別する基準を識別条件として設定する必要がある。しかし、カメラの設置環境によっては、あらかじめ学習された顔画像と同じ特徴が抽出できるとは限らない。このため、カメラが設置された環境に応じて、人物を識別する識別条件をそれぞれ設定する必要である。この識別条件を設定するには、カメラが設置された環境に応じて識別対象である人物についての学習データを十分に取得する必要がある。

特許文献１では、実際に設置された環境においてカメラが撮像した映像を用いて、ある人物についての学習データを収集する技術として、映像中に映った特定の人物を追尾し、そのフレームごとにその人物を識別する。本人と識別されたフレームと、本人と識別されなかったフレームを選別し、後者のフレームについて識別された人物のラベルを付与することによって、新たな学習データを生成する。

特開２０１８－１８１１５７号広報

特許文献１では、現地に設置されたカメラで撮影された映像について人物の学習データを取得できる。しかし、同じカメラで撮影された映像から人物の追尾をするため、複数のカメラに適用することを考慮していない。また、同じ画角に含まれる人物を対象に追尾するため学習データとして偏りが発生する懸念がある。このような理由から、特許文献１の方法では、必要な学習データを十分に収集できないために、人物を識別するための識別条件を適切に設定できない可能性がある。本発明は上記課題に鑑みてなされたものであり、カメラの設置環境が異なる場合でも特定の人物を識別できる条件を決定することを目的とする。

上記課題を解決する本発明にかかる情報処理装置は、顔画像から人物と対応する顔特徴を出力する識別器の出力結果に基づいて前記顔特徴が示す人物が所定の人物と同一人物であると判定する閾値を決定する情報処理装置であって、複数の画像から、人物の顔を示す顔画像と、前記顔と対応する人体を示す人体画像と、を抽出する抽出手段と、前記人体画像と類似した第１の人体画像群を複数の前記画像から特定する特定手段と、前記特定手段によって特定された前記第１の人体画像群と対応する顔画像群を、前記識別器に入力した第１の出力結果同士を比較した第１の類似度に基づいて、同一人物でないと判定される割合が所定の割合より小さくなるように前記閾値を決定する決定手段と、を有することを特徴とする。

本発明によれば、カメラの設置環境が異なる場合でも特定の人物を識別できる条件を決定できる。

情報処理システムの概念を説明する図情報処理システムの機能構成例を示すブロック図情報処理装置のハードウェア構成例を示す図情報処理システムが実行する処理を説明するフローチャート情報処理装置が実行する処理を説明するフローチャート情報処理装置が実行する処理を説明するフローチャート情報処理装置が実行する処理を説明するフローチャート監視カメラの映像と認識結果の一例を示す識別結果の分布の一例を示す図情報処理装置が実行する処理を説明するフローチャート

＜実施形態１＞
以下、図面を参照して本発明の実施形態を詳細に説明する。はじめに、本実施形態の概念について図１を用いて説明する。情報処理システム１は、ある環境に設置された複数のカメラにおいて共通の映像解析（例えば、人物識別やブラックリスト検知等）を行う。撮像システム２は、監視対象のエリアに設置された複数の監視カメラから構成される。

ここでは例として、４つのエリアに監視カメラを設置した例を説明する。それぞれのカメラは、野外（１０Ａ）、屋内の高い位置（１０Ｂ）、屋内の低い位置（１０Ｃ）、屋上（１０Ｄ）の４か所に設置される。それぞれのカメラは、設置された位置姿勢、環境条件、カメラの内部パラメータが同じとは限らない。特定人物の画像と照合して、その人物と同じ人を探し出す際は、それぞれのカメラで撮影された映像を、それぞれのカメラに対応した識別条件（閾値）を設定することになる。ここで、識別条件とは、画像から検出された人物の画像特徴同士の類似度についての閾値である。類似度とは、人物に固有の特徴を有する特定の部位（例えば顔）を含む画像を識別器に入力し、出力された特徴同士を比較することによって取得する。監視システム３では、１台以上の監視カメラから取得された映像を解析することによって、タスクを達成する。

撮像装置１０Ａは、例えば監視カメラで、周辺環境を撮像する。撮像装置１０Ａ～Ｄまたは情報処理装置１００は、複数のカメラから取得した映像を用いて、映像に含まれる人物を識別する各監視カメラの閾値を決定する。表示装置１０７は、監視中のカメラの映像や、情報処理装置１００や各監視カメラによって撮影された映像や映像を用いた解析結果を表示する。これによって、ユーザ（監視者）はカメラの映像や、識別処理における判定結果を容易に視認できる。

以下の実施形態では、各監視カメラに識別器を備え、他のカメラの映像の解析結果を用いて各撮像装置に設定すべき閾値を決定する例を述べる。なお、情報処理装置１００が各撮像装置に対応する閾値を決定するような実施形態も可能である。その場合は、以下に示す撮像装置の機能構成を情報処理装置１００に置き換えればよい。

実施形態１では、他のカメラに映った人物の特徴の照合結果を使って、所定のカメラに対応する閾値を決定する。人物が映った画像から得られる異なる２つの特徴（ここでは顔と人体）を抽出し、他のカメラから得られる映像と各特徴を照合する。このとき、照合に用いる特徴は各監視カメラで共通して抽出されやすい特徴で照合すると良い。つまり、複数のカメラによってとらえられた人物の特徴をマッチングする。例えば、人物の服の色から得られる輝度（特徴）は、他の特徴に比べてカメラの設置場所の影響を受けにくいと考えられるため、複数のカメラによって撮像された画像間で同一人物を特定することができる。

以下、説明では便宜上、閾値を決定したいカメラを注目撮像装置と呼ぶ。本実施形態では、注目撮像装置で撮像された画像と、他のカメラで撮像された画像に類似する特徴を特定し、同一人物の特徴同士を比較した第１類似度と、他人の特徴同士を比較した第２類似度に基づいて人物の識別に必要な識別条件を決定する方法を説明する。

先述した通り、複数の環境に設置されたカメラによって撮像された映像から、同一の人物を検出するためには、識別基準をカメラ（環境）毎に用意する必要がある。その為には、多様な人物の特徴を識別器に十分に学習させるデータが必要である。しかしながら、監視対象となる現場において、人物についての特に正解データを収集することは現実的ではない。

また、学習に用いた画像が、監視対象である現場で得られる画像と類似しているとは限らないという問題もある。特に学習に用いた画像が、デジタルカメラやスマートフォンでのスナップショットからの画像である場合は、上記問題はより顕著となる。なぜなら、学習に用いた画像は正面から顔を撮影した画像であることが多い。それ対し、監視カメラの場合は、屋内の天井など高い位置に取り付けられるため、監視カメラの画像は上から見下ろした顔画像が得られる。正面からの顔画像と上からの顔画像は、正面顔と正面顔同士の比較に対して、本人同士であっても類似度が下がる場合がほとんどであり、同じ閾値を用いて本人と識別することは、困難である。

つまり、複数の環境に設置されたカメラから共通する人物を検出するためには以下のような困難がある。すなわち、例えば複数の監視カメラを現地に設置した状態で、得られた映像から人物の顔画像を抽出し、人物と同一であるかを示すラベルを付与することは、手間がかかる。特に数十台を超えるカメラに映った人物に対してラベルを付けることは、相当な労力を要する。その上に、そのラベルを付けた映像に対して、解析結果から人物を識別するための適切な識別条件を各撮像装置で決定することは、手間がかかる。これは、適切な識別条件を決定するのに必要なデータを十分に収集することが困難であるためである。

本実施形態では、これらの問題を、複数の環境で撮影された画像から人物を検出した複数の検出結果を組み合わせることによって、人物を識別する識別条件を撮像装置毎に決定することで対処する。なお、本実施形態では、識別器の識別条件を決定する決定フェーズと、識別条件を決定済みの識別器を用いた識別フェーズに分けて説明する。まず、決定フェーズについて説明する。なお、以下の説明では、複数の撮像装置のうち１つの撮像装置で行う処理を説明する。同様の処理を他の撮像装置で実行することによって、すべての撮像装置に対応する閾値を決定できる。また、情報処理装置１００で一括して処理を実行してもよい。現地の映像でこのようなヒストグラムを得るには、従来は人手で正解を
付けて、測定する必要があったが、本発明により、自動的に正解とみなせるデータを得ることにより、人手を省いて、識別条件を得ることが可能になった。

なお、説明上、監視カメラが複数あるシステムで説明しているが、本発明は監視カメラに限定されるものではない。Ｗｅｂカメラや、デジタルカメラなど、用途が異なる複数のカメラから構成されるカメラシステムにおいても、本実施形態を適応可能であることは言うまでもない。また、カメラはすべて同一機種である必要はない。すなわち、異なるカメラを複数の環境で用いてもよい。以下、詳細に説明する。

図２は、情報処理装置１０Ａの機能構成例を示したブロック図である。本情報処理装置１０Ａは、具体的には撮像装置である。情報処理装置１０Ａは、撮像部２００、画像取得部２０１、検出部２０２、識別部２０３、決定部２０４、記録部２０５、出力部２０６を含む。これらは、バスによって接続され、必要なデータ、命令等の情報が伝達される。なお、出力部２０６は装置の外部に備わっていても良い。また、撮像部２００についても外部の装置に備わっていてもよい。ここでは、撮像装置１０Ａについて説明するが、撮像装置１０Ｂ、１０Ｃ、１０Ｄも同様の構成を有する情報処理装置であるとする。

撮像装置１０Ａ、１０Ｂ、１０Ｃ、１０Ｄは、監視対象の環境のうちそれぞれ異なる環境に設置されたカメラである。個々の監視カメラは、結像光学系、ズーム機構を備えた光学レンズで構成される。また、パン・チルト軸方向の駆動機構を備えてもよい。

撮像部２００は、センサによって外界を計測する。ここでは、情報処理装置１０Ａは監視カメラであるため、画像センサによって画像（映像）を撮像する。画像（映像）センサの具体例としては、典型的にはＣＣＤまたはＣＭＯＳイメージセンサが用いられ、不図示のセンサ駆動回路からの読み出し制御信号により所定の映像信号が画像データとして出力される。例えば、サブサンプリング、ブロック読み出しして得られる信号が画像データとして出力される。それぞれのカメラの設置場所と撮影する画像の例は後述する。

画像取得部２０１は、複数の監視カメラが撮影した映像（時系列画像）を取得する。なお、後述するフローチャートではフレーム毎に処理を行う。

検出部２０２は、画像取得部２０１から取得した時系列画像または後述する記録部２０５から取得した時系列画像データに対して、人物の検出を行う。ここで人物とは典型的には人物の顔や人体のことである。画像中の顔の位置や、人体の位置について検出を行う。車や動物など人以外の物体についても検出してもよい。

これらは、公知の技術、例えばＤｅｅｐＬｅａｒｎｉｎｇ（以下、ＤＬと表記する）の技術を用いることで容易に実現することが出来る。顔検出のＤＬは、画像中から顔を探すように訓練したニューラルネットワークである。具体的には、画像を入力すると何らかの値が出るようなニューラルネットで、顔画像の時は高い値で、そうでない画像（非顔画像）では低い値になるように訓練する。訓練データに顔画像についてより詳細な情報を含むことで、例えば顔の向きや、年齢・性別などその属性情報を検出するようにしてもよい。これもＤＬによって実現することが出来る。

識別部２０３は、識別フェーズにおいて、検出部２０２で検出した人物の顔画像を識別器に入力した出力結果（顔特徴）を出力する。すなわち、個体の違い、例えば、人物であれば、ＡさんはＢさんなど、個体としての違いを判別する処理を行う。識別部２０３の詳細については、後述する。

決定部２０４は、特定の人物を識別するための識別条件である閾値を決定する。つまり、決定フェーズにおいて、各カメラによって撮像された画像から検出された人物のうち共通する人物の情報に基づいて、各カメラに設定された閾値を決定する。本人を示す特徴が本人ではないと誤る確率（本人拒否率）と、他人を示す特徴が本人であると誤る確率（他人受入率）とに基づいて、誤りが少なくなるように閾値を決定する。決定部２０４の処理については、後で詳しく説明する。

記録部２０５は、画像取得部２０１によって撮像された映像を受け取り、圧縮などの記録のための処理と、映像解析の処理を行って、不揮発性の内部メモリやＨＤＤやＳＤなどのメディア等の、記録装置に記録を行う。

出力部２０６は、閾値に基づいて、対象画像を識別器に入力した出力結果と予め登録された登録人物の画像の特徴とを比較した類似度が閾値を満たす場合は対象画像が示す人物は登録人物であること、を示す判定結果を出力する。また、類似度が閾値を満たさない場合は対象画像が示す人物は登録人物ではないこと、を示す判定結果を出力する。また、記録部２０５によって処理された映像および付随する情報を、モニタ等に出力する。なお、外部、典型的にはネットワークを介して、ＰＣサーバ等に接続し、映像と解析情報を転送するようにしてもよい。または、出力部２０６は表示部であって、撮影中の映像や、識別結果を表示してもよい。

ここで、情報処理装置１０Ａのハードウェア構成例について図３を用いて説明する。中央処理ユニット（ＣＰＵ）３０１は、ＲＡＭ３０３をワークメモリとして、ＲＯＭ３０２や記憶装置３０４に格納されたＯＳやその他プログラムを読みだして実行し、システムバス３０９に接続された各構成を制御して、各種処理の演算や論理判断などを行う。ＣＰＵ３０１が実行する処理には、実施形態の情報処理が含まれる。記憶装置３０４は、ハードディスクドライブや外部記憶装置などであり、実施形態の画像認識処理にかかるプログラムや各種データを記憶する。入力部３０５は、カメラなどの撮像装置、ユーザ指示を入力するためのボタン、キーボード、タッチパネルなどの入力デバイスである。なお、記憶装置３０４は例えばＳＡＴＡなどのインタフェイスを介して、入力部３０５は例えばＵＳＢなどのシリアルバスを介して、それぞれシステムバス３０９に接続されるが、それらの詳細は省略する。通信Ｉ／Ｆ３０６は無線通信で外部の機器と通信を行う。表示部３０７はディスプレイである。なお、表示部は情報処理装置の内部に有していても、外部に接続されていてもよい。センサ３０８は画像センサである。

識別部２０３は、人体画像抽出部５０１、部分画像抽出部５０２、人体画像照合部５０３、部分画像照合部５０４、識別部５０５を含む。図で示したもの以外に、人物の色特徴を抽出するものや、輪郭特徴を抽出するもの、動きの特徴を抽出するものなど、複数の特徴抽出と、それに対応する画像照合部があってよい。

人体画像抽出部５０１、検出部２０２が検出した人物の位置と大きさに関する情報をもとに、人体を示す人体画像を抽出する。また、部分画像抽出部５０２は、検出部２０２が検出した人物の位置と大きさに関する情報をもとに、顔を示す顔画像を抽出する。これらの部分画像から、個体を識別するための特徴を取得する。この処理には、公知の技術を用いればよい。例えば、ＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）特徴などを用いることができる。ＨＯＧ（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔ）特徴やＳＩＦＴ（Ｓｃａｌｅ－ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）特徴、これらを混合した特徴を用いてもよい。抽出した特徴をＰＣＡ（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）等の手法を用いて次元圧縮してもよい。また、これについても前述のようにＤＬ技術を適用することが可能である。

人体特徴と部分特徴を、抽出する領域が異なるだけになるようにしてもよいが、人物の識別の場合、全体と部分とで取得される特徴が示す情報の種類を異なるようにすることが多い。具体的には、顔は位置関係の情報、人体は色情報で特徴を取得する。人体で個体を識別する場合、服装など、色を含んだ情報が有用とされており、そのような特徴を用いる場合が多い。ＤＬ技術を適用する場合でも、明示的に輪郭のみを抽出するように設計した場合を除いて、暗黙的に色の情報が含まれていることが多いとされる。これは、被写体が画像上で小さいサイズである場合や、後ろを向いている場合などでも有用な情報は服装のテククスチャ、すなわち色成分を含んだ情報が有用と考えられるからである。これに対して、部分的な特徴、人物の場合の顔特徴は、色情報では不十分なだけでなく、色情報だけだと、誤認証する場合もあり得るので、あまり積極的に色情報は用いられない。顔領域のエッジ量や、輝度の勾配方向などを用いることが多い。近年はＤＬ技術の発展が目覚ましく、顔の識別においても、有用な特徴として、ＤＬ特徴が用いられている。人体と顔とで同じＤＬ技術を用いた場合でも、学習データはそれぞれ別であり、ネットワーク構造も個別に設計することが多いので、特徴としては全く別物である。なお、人体特徴は人物が着用しているゼッケン番号や、個人毎に付与された視認できるバーコードによって個人を画像で識別できるような特徴でも良い。

人体画像照合部５０３は、類似する人体画像の集合を取得するため、抽出された人体画像をそれぞれ照合する。また、部分画像照合部５０４は、類似する顔画像の集合を取得するため、抽出された顔画像をそれぞれ照合する。それぞれ人体画像または部分画像同士の照合処理を行う。典型的には、特徴を数値列（特徴ベクトル）として扱い、２つの特徴ベクトルの距離を計測することによって識別する。特徴ベクトルを、機械学習の技術、例えばサポートベクターマシンに投入することにより、同一か否か識別させることも可能である。距離ではなく、内積を取得して、２つの特徴がどれほど類似しているかを数値（以下類似度と呼ぶ）としてあらわすこともできる。簡単には、距離の逆数をとれば、同じく類似度に変換することもできる。ＤＬ特徴を用いる場合では、学習時に用いた類似度取得方法と同じにするのが良い。

以下、同一人物の照合の方法について図８を用いて説明する。図８の画像Ａはカメラ１０Ａ、画像Ｂはカメラ１０Ｂ、画像Ｃはカメラ１０Ｃ、画像Ｄはカメラ１０Ｄによって撮影された異なる時刻における画像であるとする。第１の人物は、人体１００００と顔１０００１で示される人物であるとする。この第１の人物は、画像Ｂにおける人体１０００２、顔１０００３、画像Ｃにおける人体１０００４、顔１０００５、画像Ｄにおける人体１０００６、顔１０００７にそれぞれ対応する。識別部５０５が行う具体的な処理の一例としては、画像Ａにおける第１の人物の顔画像１０００１（または顔画像の特徴）を、他の画像Ｂ，Ｃ，Ｄにおいて人物照合用の特徴量を抽出して、照合を行う。その結果、理想的には、顔画像１０００３、１０００５、１０００７が得られる。これらの顔画像は同一人物であると見なせる。なお、広域を監視するカメラにおいては、顔画像よりも人体画像の方がマッチングしやすい場合がある。特に、珍しい服装を着用している人物等は人体画像のマッチングが精度よい。例えば、各画像から所定の人物を抽出するために、画像Ａの人体画像１００００（の特徴）をテンプレートとする。このテンプレートを、画像Ｂ，Ｃ，Ｄにおいてスライディングウィンドウとして走査する。結果、人体画像１０００２、１０００４、１０００６を得る。抽出された部分画像は所定の人物であると見なせる。なお、所定の人物は少なくとも２つ以上のカメラで撮影された画像において検出された任意の人物である。

識別部５０５は、人体画像照合部５０３による照合結果をもとに類似した人体画像群に対応する顔画像群を、識別器に入力し、第１の出力結果を取得する。ここでは、人体画像は各監視カメラに共通して取得しやすいという前提として、複数の画像から類似した人体画像群を抽出し、さらにその人体画像群からそれぞれ対応した顔画像群を取得する。

つまり、典型的には以下のように行う。すなわち、あるカメラ（注目撮像装置：識別器を決定する対象）の画像に映った所定の人物の人体を示す人体画像と、他の監視カメラの画像から検出された人物の人体画像とを照合する。その結果、最も高い類似度を示した（画像）特徴が、さらに所定の条件に当てはまっていれば、注目撮像装置の画像に映った所定の人物と、照合された特徴は同一人物であると識別する。最も高い類似度が閾値を下回った場合、検出された所定の人物に該当する画像がないと識別する。以上が１つの識別器についての識別で、人物の場合は、例えば顔だけで識別することに該当する。同じことを人体特徴についても行い、２つの結果を統合して、最終的な識別を行う。

統合の方法は、簡単には多数決で行う。複数の識別器の結果が相反する場合、以下のようにするとよい。すなわち、事前に識別器に信頼度を設定しておき、もっとも信頼度の高い識別器の結果を採用する。信頼度は、例えば、事前に決めた画像セット（正解情報がある）で、各識別器の正解率を求めて、その正解率を信頼度として設定する。また、以下のようにしてもよい。個々の識別器の類似度に信頼度をかけて、全識別器の結果を足すことで、統合された類似度が取得され、その値をもって閾値と比較して、該当する画像を識別すればよい。以上が、識別部２０３の処理の内容である。個々の識別器（以下、顔識別器と人体識別器と呼ぶ）について特徴取得した後、それらの出力結果を統合して人物の識別を行う。人物の識別の場合、まず顔による識別を行い、次に人体の識別を行って、２つの出力結果を統合する。ほかにも識別器がある場合は、順次識別を行い、最後に統合を行って、出力結果とする。

次に、決定部２０４について説明する。決定部２０４は、画像情報取得部６０１、対応付け部６０２、誤り率取得部６０３、決定部６０４を含む。画像情報取得部６０１は、記録部２０５と検出部２０２から、撮像装置毎に撮像された映像（時系列画像）と、その映像（時系列画像）から検出された各人物の位置情報とを含む画像情報を取得する。

対応付け部６０２は、画像情報取得部６０１から取得した画像情報に基づいて、複数の撮像装置において検出された人物を対応付ける。対応付け部６０２で行われる処理については、後で詳しく説明する。誤り率取得部６０３は、対応付け部６０２の対応付け結果に基づいて、識別部２０３のある識別器に関して誤り率を取得する。ここで、誤り率とは、他人受入率（Ｆａｌｓｅ－Ｐｏｓｉｔｉｖｅ；誤検知）と本人拒否率（Ｆａｌｓｅ－Ｎｅｇａｔｉｖｅ；検知漏れ）とを含む。例えば人物Ａを特定したい場合に、本人拒否率は、検出された人物Ａが同一人物でないと識別した結果が誤りである確率（割合）である。他人受入率は、検出された人物Ｂが同一人物であると識別した結果が誤りである確率（割合）である。

誤り率取得部６０３の処理の内容については後述する。決定部６０４は、誤り率取得部６０３で取得された誤り率に基づいて、撮像装置毎の閾値を決定する。閾値決定部６０４の処理の内容についても、後で詳しく説明する。なお、閾値は、初期設定として予め決定された閾値をセットしておく。これによって、元の認識精度を確かめることができる。

図４は、情報処理装置が実行する処理を説明するフローチャートである。図４を用いて本実施形態の処理の概要を説明する。以下の説明では、各工程（ステップ）について先頭にＳを付けて表記することで、工程（ステップ）の表記を省略する。ただし、図４のフローチャートに示した処理は、コンピュータである図３のＣＰＵ１０１により記憶装置１０４に格納されているコンピュータプログラムに従って実行される。情報処理装置１００は必ずしもこのフローチャートで説明するすべてのステップを行わなくても良い。なお、ここではＳ４０３における識別条件の更新は行わないものとする（第２の実施形態で説明する。）
Ｓ４００では、決定部２０４が識別器の閾値を決定するか否かを判断する。本実施形態においては、時間に応じて判断する。例えば、監視カメラが一定時間（例えば、２４時間）稼働したら閾値を決め直すようにする。また、例えば初回に本情報処理装置を起動する際も、識別条件を新たに決定するようにしてもよい。Ｓ４００でＹｅｓと判断した場合、Ｓ４０２に進む。Ｓ４００でＮｏと判断した場合、Ｓ４０４に進む。

Ｓ４０１とＳ４０２は閾値決定フェーズである。Ｓ４０１では、決定部２０４が、各カメラの映像について検出された人物の対応付けを行う。詳しい処理は図５を用いて後述する。Ｓ４０２では、決定部２０４が、監視カメラ毎に設定された識別器の閾値を決定する。詳しい説明は後述する。

Ｓ４０４は、監視フェーズである。Ｓ４０４では、識別部２０３が、識別器と閾値とを用いて撮像された画像にターゲット人物が含まれていないか識別する。つまり、ターゲット人物を映像から検出する。Ｓ４０４では、識別部２０３が監視を続行するか否かを判断する。本実施形態では、ユーザ指示によって、監視の続行もしくは中断を判断する。監視を続行する場合（Ｙｅｓ）は、Ｓ４００に戻る。監視を中断する場合（Ｎｏ）は、処理を終了する。処理を開始してから一定時間経過後に終了するようにしてもよい。また、所望の人物を識別できた場合に終了するようにしてもよい。

図５は、決定部２０４が実行する処理の一例を説明するフローチャートである。最初に前提条件として、処理量が膨大になることを避けるため、以下の処理を行う時間範囲がユーザまたは事前の設定により指定されるか、設置後に予め定めた期間内で行うようにする。

以下の図５に沿って、決定部２０４が実行する処理を説明する。まず、Ｓ７０１では、画像取得部２０１が、各撮像装置によって撮像された時系列画像を取得する。画像情報には、時系列画像とカメラの識別子とが含まれる。次に、Ｓ７０２では、対応付け部６０２が、Ｓ７０１で取得した画像情報に基づいて、検出部２０２から各撮像装置の画像から検出された人物の検出結果に対して人物の位置を取得する。

次に、Ｓ７０３では、人体画像抽出部５０１と、部分画像抽出部５０２が、各撮像装置によって撮像された各時系列画像に含まれる人物を示す部分画像（顔画像）と人体画像とを抽出する。ここでは、各時系列画像から検出された人物すべてにこの処理を行う。ここまでで取得した各映像に対して共通する方法（同じ識別器）で、すべての人物の画像を抽出する。照合するときは同じ識別器から取得した特徴同士で比較するためである。なお、検出された人物のうち、検出の信頼度（検出された物体が人物である確からしさ）が所定の閾値より大きいといった条件を満たす一部の人物のみを取得してもよい。例えば、画角の中央付近に映った人物は特徴がうまく抽出できる可能性が高いため、積極的に閾値決定に用いる。この際、画像を入力する識別部２０３にある識別器のうち、もっとも信頼できるものにするとよい。人物識別器の信頼性はあらかじめ定めたテストデータで事前に性能を測ることで取得することができる。

次に、Ｓ７０４では、人体画像照合部５０３が、Ｓ７０３において取得された人体画像のうち、所定の人物を示す注目人体画像に基づいて、第１の撮像装置とは別の第２の撮像装置によって撮像された画像から所定の人物を示す人体画像を照合する。ここで、照合した少なくとも１つ以上の人体画像を第１の人体画像群と呼ぶ。つまり、取得されたすべての画像におけるすべての人体画像のうち、所定の人物を示す注目人体画像と類似した人体画像を所定の人物と見なす。これによって、複数の撮像装置によって撮像された所定の人物の人体画像を対応付ける。この処理は以下のようにして行う。ある撮像装置によって撮像された画像から検出された人物の人体画像と、ほか撮像装置によって撮像された画像から検出された人物の人体画像とを照合する。具体的には、第１撮像装置によって撮像された画像から検出された人物の人体画像Ｘと、第１撮像装置とは異なる撮像装置によって撮像された画像から検出された人物画像Ｙとを比較し、類似度が所定の値より大きい場合、類似した画像であると照合する。処理の高速化のために、時刻情報を用いてもよい。視野の重複がないように設置された監視カメラでは、同時に同じ人物が映ることはない。また、カメラの位置関係によって、一方のカメラに現れた時刻から、他方のカメラまでの移動時間が予測されるので、同一人物が現れやすい時間帯が推定可能である。また、ディープラーニングによって、照合を行ってもよい。

続いて、Ｓ７０５では、対応付け部６０２が全ての撮像装置によって撮像されたすべての画像から検出されたすべての人物について、上記処理を行ったか判断する。未処理の人物がある場合（ＹＥＳ）、次の人物を対象に処理を行うためＳ７０１に戻る。全ての人物を処理した場合（Ｓ７０５でＮＯの場合）、Ｓ７０６に進む。

Ｓ７０６では、対応付け部６０２が、Ｓ７０４で注目特徴と照合した第１の人体画像群と対応する第１の顔画像群を対応付ける。画像から検出された人物に各撮像装置に共通のユニークな識別子（ＩＤ）を付与する。この識別子は後段の誤り率取得部６０３で用いられる。以上が、対応付け部６０２で行われる処理の説明である。この処理によって、ある撮像装置によって撮像されたある人物が検出された画像を、システムに含まれる複数の撮像装置によって撮像された画像と対応付けることができる。その結果、複数の撮像装置で撮像された画像から共通人物を特定することができる。

次に、決定部２０４が実行する処理について図８を用いて詳細に説明する。この処理では、ある人物を識別する識別器について、カメラ毎に適切な閾値を設定する。図９を用いて識別条件（閾値）の決定方法について説明する。

図９のグラフ９０は、縦軸ｙ（ｘ＝０）は頻度を、横軸ｘ（ｙ＝０）は同じ識別器によって出力された特徴同士のペアの類似度を示すヒストグラムである。ここでは、類似度は特徴ベクトルの内積で示されるものとする（－１＜類似度Ｓ＜１）。つまり、類似度が大きいほどペアが同一人物である可能性が高く、類似度は小さいほどペアは他人同士である可能性が高い。まず、従来技術において、識別条件を決定する際には図９（Ａ）に示すヒストグラムが得られる。このとき、顔画像のペア（顔特徴のペア）は本人同士であるか、他人同士であるか分からない（正解のペアが既知でない）。特に、本人同士の顔画像のペアを取得するのが難しい。そのため、２種類の誤り率（本人拒否率と他人受入率）を特定することができない。従って、誤り率が小さくなるような識別条件を自動的に決定することができなかった。

一方で、本実施形態では、照合結果を用いることで、本人同士と他人同士の顔画像（顔特徴）の２種類のペアが特定できる。本人同士のペアである顔画像群から取得された類似度をグラフ９１に示す。これは本人同士の顔画像の組み合わせが取りうる類似度の頻度を示す。また、他人同士のペアからはグラフ９２が得られる。これは他人同士の顔画像の組み合わせが取りうる類似度の頻度を示す。グラフ９１の左側（０に近い類似度を取る範囲）は、本人の顔画像同士のペアであるのに低い類似度を取るため、識別結果を誤る可能性が高い。この場合の識別ミスを本人拒否率（検知漏れ）と呼ぶ。この本人拒否率は、図９（Ｂ）に示す閾値９００と、グラフ９１とｘ軸（ｙ＝０）が成す面積９０１で示される。この本人拒否率を下げたい場合は、この面積が所定の割合より小さくなるように閾値（識別条件）を大きくすると良い。もう一方の誤り率である他人受入率は、図９（Ｃ）の面積９０２に示される。グラフ９２は、他人同士の顔画像（顔特徴）の類似度をプロットした結果である。

面積９０２は、閾値９００‘とグラフ９２とｙ＝０を積分した値である。他人を本人である間違えてしまう他人受入率（誤検知）を減らしたい場合は、面積９０２が所定の割合より小さくなるように閾値を小さくすると良い。なお、面積９０１と面積９０２はトレードオフの関係であって、どちらかを小さくすると一方が大きくなる。したがって、ユースケースに応じて、２つの和を最小にする、一方の確率が所定の割合より小さくなるようにするといった条件を満たすように閾値を決定すると良い。この条件はユーザが予め設定してもよい。このようにして、２種類のヒストグラムを用いて識別条件を設定することができる。現地の映像でこのようなヒストグラムを得るには、従来は人手で正解を
付けて、測定する必要があったが、本発明により、自動的に正解とみなせる
データを得ることにより、人手を省いて、識別条件を得ることが可能になった
Ｓ４０２の処理について図６のフローチャートで説明する。Ｓ８０１では、誤り率取得部６０３が、閾値を更新する対象となる撮像装置に対応する識別器を取得する。この識別器は、様々な人物の顔画像とその個人に固有な特徴を学習したニューラルネットワークである。すなわち、複数の人物の顔画像を複数セット用意し、同一人物には類似した値を出力するよう学習させる。なお、人体画像でも同様の識別器を用いる。人物の部分画像（例えば顔画像や人体画像）を入力すると、人物毎に固有の特徴を出力する。

例えば、人物Ｎの顔画像を入力したときに、ベクトルＳｎという出力をしたとする。次に、人物Ｎが映った画像で他のアングルや画角で撮った画像を入力すると、共通した特徴があればベクトルＳｎに近いベクトルＳｎ’と出力される。人物Ｎと異なる人物Ｍの画像がその識別器に入力された場合は、ベクトルＳｎと異なる、人物Ｍに固有なベクトルＳｍが出力される。つまり、２つの画像を入力された識別器の識別結果ベクトルＳｎとＳｍとの距離や内積が所定の値以下あれば、２つの画像に映った人物は同一人物と見なせる。ＳｎとＳｍが所定の値より大きい場合は、２つの画像に映った人物は異なる人物同士である。

次に、Ｓ８０２では、誤り率取得部６０３が、対応付け部６０２からある期間の全ての撮影装置の画像から検出された全ての人物について付与した識別子を含む対応付け情報を取得する。抽出された各特徴には、画像から検出された人物に各撮像装置に共通のユニークな識別子（ＩＤ）を付与されている。

次に、Ｓ８０３では、識別部５０５が、所定の人物を示す注目特徴と、別の撮像装置の画像から抽出された特徴のうち注目特徴と照合した特徴を示す照合結果を取得する。つまり、識別部５０５は、所定の人物を示す人体画像と類似した第１の人体画像群と、所定の人物の人体画像と類似しない第２の人体画像群を特定する。例えば、所定の人物の服装（人体特徴）をテンプレートに決定し、他の撮像装置の画像に対してテンプレートマッチングを行った照合結果は、他の撮像装置によって撮像された所定の人物を示している可能性がある。すなわち、第１の人体画像群は同一人物（本人）である可能性が高い人体画像の集合で、第２の人体画像群は所定の人物とは異なる人物である（他人）である可能性が高い人体画像の集合である。また、その人体画像に対応する顔画像についても同様のことがいえる。

次に、Ｓ８０４では、誤り率取得部６０３が、第１の人体画像群と対応する顔画像群を、画像から人物と対応する（顔）特徴を出力する第１の識別器に入力した第１の出力結果同士を比較し、第１の類似度を取得する。また。誤り率取得部６０３が、第２の人体画像群と対応する顔画像群を、画像から人物と対応する（顔）特徴を出力する第２の識別器に入力した第２の出力結果同士を比較し、第２の類似度を取得する。図９（Ｂ）における、グラフ９１は第１の類似度の頻度を示す。また、図９（Ｂ）における、グラフ９２は第２の類似度の頻度を示す。のちの処理において、この２つのヒストグラムを用いて閾値を決定する。

Ｓ８０５では、誤り率取得部６０３が、第１の類似度と閾値とを比較し、本人の画像を本人でないと誤る可能性を示す本人拒否率を取得する。同様に、誤り率取得部６０３が、第２の類似度と閾値とを比較し、他人の画像を本人であると誤る可能性を示す他人受入率を取得する。なお、誤り率とは、本人拒否率と他人受入率との和で示される。照合結果によって示される本人同士の人体画像（とそれに対応する顔画像）のペアが正しいとして、誤り率を取得する。人物の同一性を識別する際の誤りは、２つの場合が考えられる。すなわち、本来同一であるはずの２つの人物を、異なる人物としてしまう誤り（ＦａｌｓｅＮｅｇａｔｉｖｅ：本人拒否率）と、異なる人物２つを同一であると識別してしまう誤り（ＦａｌｓｅＰｏｓｉｔｉｖｅ：他人受入率）である。この２つの誤りについて、それぞれ取得する。なお、この２つの確率はトレードオフの関係にあるため、どちらかを小さくするともう一方が大きくなってしまう。そのため、ユースケースに応じて、どちらの確率をコントロールするか設定すると良い。または、両方の確率の和が最小になるような閾値を決定すると良い。

次に、Ｓ８０６では、決定部６０４が、本人拒否率または他人受入率を所定の割合より小さくなるように閾値を決定する。つまり、決定部６０２は、閾値より小さい第１の類似度の頻度が所定の値よりも少なくなるように閾値を決定する。または、決定部６０４が、閾値より大きい第２の類似度の頻度が所定の値よりも少なくなるように閾値を決定する。または、決定部６０４は、閾値より小さい第１の類似度の頻度と前記閾値より大きい第２の類似度の頻度との和が所定の値より小さくなるように閾値を決定する。

決定部６０４で行われる処理について説明する。以下では特に、類似度を、閾値を超えたか否かで識別する処理について説明する。決定部３０４では、誤り率取得部６０３で取得された、識別器のパラメータ（典型的には閾値）と誤り率の表を取得して、所望の誤り率に近くなるパラメータを選択する。上述したように、誤り率には、同じ人物を異なると識別してしまう誤り（ＦａｌｓｅＮｅｇａｔｉｖｅ）と、異なる人物を同一と識別してしまう誤り（ＦａｌｓｅＰｏｓｉｔｉｖｅ）の、２種類の誤りがあり、一般に、トレードオフの関係がある。すなわち、ＦａｌｓｅＮｅｇａｔｉｖｅを減らそうとして、類似度が低くても同一と識別するようにする（閾値を下げることに相当）と、異なる人物を同一と識別するＦａｌｓｅＰｏｓｉｔｉｖｅが増える。類似度が高くても同一でないと判断する（閾値を上げることに相当）と、ＦａｌｓｅＰｏｓｉｔｉｖｅは下がるが、ＦａｌｓｅＮｅｇａｔｉｖｅは上がってしまう。通常は、２つの誤り率の総和が最小になるように設定するが、用途によっては、ＦａｌｓｅＰｏｓｉｔｉｖｅを避けたい（誤認証は避けたい）など、目的に応じた設定がとりえる。このような誤り率の目標設定は、あらかじめユーザによる指定等で、事前に定めておくことができる。実際の監視映像で事前に定めた誤り率に近くなるように、識別器のパラメータ、典型的には類似度の閾値を更新することが可能になる。このように選んだ識別器のパラメータを、識別部２０３の識別器の新しいパラメータとして設定する。以上が、決定部６０４で行われる処理の説明である。

すべての識別器について、または予め指定された所定の回数を満たすまでは、Ｓ８０６からＳ８０３に戻り、誤り率取得部６０３が、誤り率を求め直す。これを予め定めた回数繰り返す。これによって、繰り返し処理することで識別の精度を向上させる。以上が、第１の決定で行われる処理の説明である。なお、第１の決定と第２の決定は片方のみ行ってもよいし、両方実施してもよい。また、顔特徴と人体特徴は、ケースに応じて入れ替えて処理を行ってもよい。例えば、学校行事等で似たような服装を着用する人物が多い場合は、人体特徴では個体を識別するのは難しい。そのため、顔特徴を用いて映像全体における人物の抽出を行うと良い。また、顔特徴と人体特徴だけではなく、持ち物や個体識別用の道具を用いて人物の特徴を抽出してもよい。

なお、所定の人物は、より多くのカメラによって撮像されている人物を選択するようにしてもよい。様々な角度から撮像された画像が得られていると識別器の学習や決定がうまくいきやすいためである。また、人物の登場回数（または撮像されている時間）に応じて、決定の際に重みづけを行ってもよい。所定の人物が撮像された画像が多いほど（撮像された時間が長いほど）、所定の人物が様々なアングルで撮像されている可能性が高いためである。こうすることによって、効率的に識別器の決定ができる。また、決定対象である撮像装置に対応する識別器は、撮像装置の設置位置によって決定の重みづけを行ってもよい。

次に識別フェーズを説明する。パラメータ決定された識別器を利用する具体例として、１台以上の監視カメラの映像から予め登録された人物（以下、ターゲット人物と呼ぶ）を検出する例を説明する。ターゲット人物は施設の周辺を自由に行き来するため、複数のカメラで検出できることが望ましい。ターゲット人物が検出された場合、その旨をユーザに知らせることでユーザはターゲット人物に対して適切な対応をとることができる。なお、本実施形態における情報処理システムのタスクは、不特定多数の人物が映った映像からターゲット人物１０００を検出することである。ターゲット人物１０００とターゲット人物１０００’は同一人物である。監視カメラに映った人物が、事前に登録してあるターゲット人物に該当するか、画像から得る顔の特徴を使って識別する顔認証を行う。

識別フェーズでは、図２における画像取得部２０１、検出部２０２、識別部２０３と出力部２０６によって処理が行われる。画像取得部２０１は、各監視カメラからリアルタイムで撮像した時系列画像（映像）を取得する。検出部２０２では、決定フェーズと同様に、画像取得部２０１によって取得された時系列画像から人物を検出する。識別部２０３は、検出部２０２によって検出された人物から、２つの異なる部分特徴を抽出し、特徴から人物を識別する。ここで、決定フェーズで閾値を決定した識別器を用いる。出力部２０６は、識別部２０３によって識別された結果を図示しない表示部等に出力する。

図４のフローチャートを用いて、識別フェーズについて説明する。Ｓ４００において、決定部２０４が、識別器の識別条件を更新しないと判断した場合（ＮＯ）、Ｓ４０４に進み、識別フェーズが実行される。Ｓ４０４は、識別部２０２が、各監視カメラによって取得された画像から特定の人物を識別する。なお、監視カメラ（情報処理装置）は、特定の人物の顔画像（人体画像）と登録画像として登録された共通のウォッチリスト（ブラックリスト）を保持しており、撮像された画像に含まれる対象人物が登録画像の人物と類似しているか比較する。登録画像との類似度のうち、最も類似度が高いかつその類似度が識別条件より大きい場合に、対象人物は最も類似した登録画像が示す人物であると識別する。

図１０を用いてＳ４０４の処理を更に説明する。Ｓ１２０１では、識別部２０３が、対象人物の画像（または特徴）を取得する。ここでは、顔画像による識別器によって個人の識別をする場合を考える。そのため、対象人物の顔を示す対象顔画像を取得する。ユーザが過去の映像データから指定しても良い。または、リアルタイム映像から指定された人物の画像を取得する。

Ｓ１２０２では、識別部２０３が、画像取得部２０１で取得した時系列画像から特徴を取得する。なお、ここで取得する特徴は、決定した閾値に対応した特徴がよい。つまり、決定フェーズにおいて、顔特徴による識別器の閾値を決定した場合は、顔特徴を取得する。

Ｓ１２０４では、人物識別部５０５は、人体画像照合部５０３、および、部分画像照合部５０４による、照合結果をもとに、検出された人物を識別する。識別部２０３が、決定された識別器と、Ｓ１２０３で取得された特徴とに基づいて、時系列画像に含まれる人物を識別する。

Ｓ１２０５では、識別部２０３が、識別器によって出力された結果と対象人物とを照合する。Ｓ１２０５では、識別部２０３が、Ｓ１２０４の照合結果に基づいて、対象人物が画像に映っているか判断する。Ｓ１２０４で、対象人物と識別結果が一致した場合は、Ｓ１２０６に進む。Ｓ１２０４で、対象人物と識別結果が一致しなかった場合は、Ｓ１２０１に戻る。

Ｓ１２０６では、出力部２０６が、閾値に基づいて、対象顔画像を識別器に入力した出力結果と予め登録された登録人物の画像の特徴とを比較した類似度が閾値を満たす場合は対象顔画像が示す人物は登録人物であること、を示す判定結果を出力する。また、類似度が閾値を満たさない場合は対象顔画像が示す人物は登録人物ではないこと、を示す判定結果を出力する。具体的には、モニタ表示やアラート音によって、対象人物が検出されたことをユーザ（監視者）に伝える。

以上に説明した処理によって以下のような効果が期待される。従来ユーザは所望の誤り率を実現するために、設置環境の映像で、実際にどのような誤り率となっているか、確かめる必要があった。これは実際には困難である。次善の策として、所望の誤り率に近くなるように設置環境とパラメータの対応表を用意することが考えられるが、すべての条件を事前に用意することは困難であるため、現実には不十分な対応表しか用意しえない。

それに対して、本実施形態では実際の設置環境で得られた映像に対して、異なる撮像装置の映像から共通する人物の画像を取得し、これを用いてさまざまな撮像装置の閾値を変更可能となる。これにより、所望の誤り率を実現する閾値を人手に頼らずに設定可能となる。また、このように得られた映像によって適切なパラメータを設定可能なので、複数台あるカメラの映像に個別に閾値を設定することも可能となる。

カメラ台数が数十台から百台以上になる大規模な情報処理システムでは、個々のカメラ映像に対する閾値の設定問題が必ず発生する。本実施形態では、そのような大規模なシステムの課題を、逆に複数のカメラの映像が得られるメリットとして利用し、より信頼性のある閾値を取得可能である。以上が実施形態１の内容の説明である。上記のような処理を実行することによってカメラの設置環境に応じて特定の人物を識別する条件を決定できる。

＜実施形態２＞
実施形態１では、複数ある人物識別器のうち最も信頼性の高い識別器を選び出し、その識別器により取得した、カメラ間の人物の対応関係をもとに、誤り率を取得して、適切なパラメータを設定する例を示した。それに対して、本実施形態では、複数ある識別器の取得した、複数のカメラ間人物の対応関係を、相互に参照して、パラメータを更新する点が異なる。

以下、具体的に説明する。なお、重複を避けるため、以下の説明において、実施形態１と同じ部分は、省略する。本実施形態にかかわるシステムの構成は、実施形態１と同じであるので、説明を省略する。説明は実施形態１を参照されたい。実施形態１と異なる点は、決定部の処理である。以下、実施形態１と異なる点を中心に説明を行う。

決定部の構成は実施形態１と同じである。図７は決定部で行われるＳ４０３の処理の一例を示したフローチャートである。まず、Ｓ９０１では、決定部が、人物識別部の識別器から、任意の識別器を取得する。ここで適切な識別器とは、実施形態１と同じく、もっとも信頼されるべき識別器を選択すればよい。この信頼性は、事前に定められたデータを用いた性能評価を行い、その数値をもとに、取得すればよい。次に、Ｓ９０２では、対応付け部が、取得した識別器を使って、各撮像装置によって所定の期間に撮像された各時系列画像から検出された少なくとも１つ以上のオブジェクト（たとえば人物）について、基準となる識別子（ＩＤ）を付与する。識別子を付与する処理については、実施形態１の対応付け部６０２で行われる処理と同じであるので、割愛する。次に、Ｓ９０３では、決定部が、識別条件を決定する対象となるターゲット識別器を取得する。これは、特に基準は不要で、順番に選択すればよい。次に、Ｓ９０４では、誤り率取得部が、ターゲット識別器を用いて、識別子をもとに誤り率を取得する。Ｓ９０４では、決定部が、全カメラ全人物にＩＤを割り当てる。誤り率の求め方は、実施形態１の誤り率取得部６０３の処理と同じである。全人物に対するＩＤの割り当ても、Ｓ７０２の処理と同様にすればよい。Ｓ９０５では、決定部が、〇〇に基づいてすべての識別器に対して誤り率の取得が完了したか否かを判断する。全識別器に対して処理が済むまでこれを繰り返す（Ｓ９０５でＮｏの場合）。全識別器で誤り率、ＩＤ割り当てが済んだら（Ｓ９０５でＹｅｓの場合）、Ｓ９０６では、決定部が、誤り率に基づいて識別子の補正を行う。識別子の補正は、単純には、１つ以上の識別器で識別された識別結果もとに、多数決を行うようにするとよい。一つ一つの人物について、１つ以上の識別器の識別結果を投票し、もっとも投票数の多かった識別結果をその人物の識別子とすればよい。Ｓ７０５で同時に取得した誤り率をもとに、重み付の投票を行うようにしてもよい。誤り率の低い識別器の重みづけが大きくなるようにすればよい。例えば、１票に誤り率の逆数をかけて投票すればよい。誤り率は、ＦａｌｓｅＮｅｇａｔｉｖｅとＦａｌｓｅＰｏｓｉｔｉｖｅの２つがあるが、両者の和や平均を用いることができる。上記Ｓ９０３から、Ｓ９０６までの処理を所定回数繰り返す。予め定めた回数繰り返すようにしてもよいし、別の基準でやめるようにしてもよい。例えば、識別子の変化が所定の回数より少なくなった場合や、全識別器の誤り率の変化が所定の回数より少なくなった場合、などが考えられる。

上記のようにして求めた識別子をもとに、決定部で、誤り率を取得して、識別条件の変更を行うようにする。この処理は、実施形態１と同じである。このように、識別子の割り当てを１つの識別器の結果ではなく、複数の識別器の結果で補正し、より信頼性の高いものにしていくことで、より適切な識別子の取得と決定が可能になる。例えば、人物の識別を行う場合、人体特徴での照合と、顔特徴での照合の２つが考えられるが、一般的に、解像度が十分であれば、顔特徴の方が、信頼性が高いとされる。人体の特徴は、ＤＬ特徴であっても、色特徴に近い特徴と考えられるので、同じような服装の人物が複数いると、誤る可能性が高い。そのため、相対的に顔特徴の方が、信頼性が高いと言え、識別子は顔特徴で取得するのが妥当と考えられるが、顔特徴も万能ではない。例えば、解像度が低い場合や、顔の向きが正面から大きく離れた場合、顔の一部が隠れてしまっている場合などは、十分な精度は得られず、人体の特徴を用いた方が、精度が高い場合もある。このように、１つの識別器の結果だけを参照して、パラメータを更新するのではなく、複数の識別器の識別結果を相互に参照して、識別子を更新した方が、より適切な識別条件の決定につながり、ユーザの意図した誤り率の実現に寄与できると考えられる。以上が、実施形態２の説明である。

本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、データ通信用のネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。また、そのプログラムをコンピュータが読み取り可能な記録媒体に記録して提供してもよい。

１情報処理システム
２撮影システム
３監視システム
１０Ａ～１０Ｄ監視カメラ
１００情報処理装置
１０７表示装置
１０００，１０００’ 人物

Claims

顔画像から人物と対応する顔特徴を出力する識別器の出力結果に基づいて前記顔特徴が示す人物が所定の人物と同一人物であると判定する閾値を決定する情報処理装置であって、
複数の画像から、人物の顔を示す顔画像と、前記顔と対応する人体を示す人体画像と、を抽出する抽出手段と、
前記人体画像と類似した第１の人体画像群を複数の前記画像から特定する特定手段と、
前記特定手段によって特定された前記第１の人体画像群と対応する顔画像群を、前記識別器に入力した第１の出力結果同士を比較した第１の類似度に基づいて同一人物でないと判定される割合が所定の割合より小さくなるように前記閾値を決定する決定手段と、を有することを特徴とする情報処理装置。
前記決定手段は、前記第１の類似度に基づいて同一人物でないと判定する割合が、予め決定された前記閾値に基づいて取得される同一人物でないと判定される割合より小さくなるように前記閾値を更新することを特徴とする請求項１に記載の情報処理装置。
前記決定手段によって決定された前記閾値に基づいて、対象顔画像を前記識別器に入力した出力結果と予め登録された登録人物の顔画像の特徴とを比較した類似度が前記閾値を満たす場合は前記対象顔画像に対応する人物は前記登録人物であること、前記類似度が前記閾値を満たさない場合は前記対象顔画像に対応する人物は前記登録人物ではないこと、を示す判定結果を出力する出力手段を更に有することを特徴とする請求項１に記載の情報処理装置。
前記決定手段は、前記第１の類似度に基づいて、同一人物でないと判定される割合を示す本人拒否率が、所定の値より小さくなるように前記閾値を決定することを特徴とする請求項２または３に記載の情報処理装置。
前記特定手段は、所定の人物を示す前記人体画像と類似した前記第１の人体画像群と、前記所定の人物とは類似しない人物を示す第２の人体画像群を複数の前記画像からさらに特定し、
前記決定手段は、さらに前記第２の人体画像群と対応する顔画像群を前記識別器に入力した第２の出力結果同士を比較した第２の類似度に基づいて、同一人物であると判定される割合が所定の割合より小さくなるように前記閾値を決定することを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
前記決定手段は、前記第２の類似度に基づいて、同一人物であると判定される割合を示す他人受入率が、所定の値より小さくなるように前記閾値を決定することを特徴とする請求項５に記載の情報処理装置。
前記決定手段は、前記第１の類似度に基づいて同一人物でないと判定される割合と前記第２の類似度に基づいて同一人物であると判定される割合との和が所定の値より小さくなるように前記閾値を決定することを特徴とする請求項５または６に記載の情報処理装置。
前記複数の画像から人物を検出する検出手段を更に有し、
前記抽出手段は、前記検出手段によって検出された人物に基づいて、前記顔画像と、前記人体画像とを抽出することを特徴とする請求項１乃至７のいずれか１項に記載の情報処理装置。
前記識別器は、人物の顔が含まれる画像を入力とし、人物毎に固有の出力をするように学習された識別器であることを特徴とする請求項１乃至８のいずれか１項に記載の情報処理装置。
前記決定手段は、複数の撮像装置毎に用意されたそれぞれの前記閾値を決定することを特徴とする請求項１乃至９のいずれか１項に記載の情報処理装置。
前記決定手段は、すでに決定した前記閾値に基づいて、異なる環境に対応する閾値を決定することを特徴とする請求項１乃至１０のいずれか１項に記載の情報処理装置。
コンピュータを、請求項１乃至１１のいずれか１項に記載の情報処理装置が有する各手段として機能させるためのプログラム。
顔画像から人物と対応する顔特徴を出力する識別器の出力結果に基づいて前記顔特徴が示す人物が所定の人物と同一人物であると判定する閾値を決定する情報処理装置による情報処理方法であって、
複数の画像から、人物の顔を示す顔画像と、前記顔と対応する人体を示す人体画像と、を抽出する抽出ステップと、
前記人体画像と類似した第１の人体画像群を複数の前記画像から特定する特定ステップと、
前記特定ステップによって特定された前記第１の人体画像群と対応する顔画像群を、前記識別器に入力した第１の出力結果同士を比較した第１の類似度に基づいて、同一人物でないと判定される割合が所定の割合より小さくなるように前記閾値を決定する決定ステップと、を有することを特徴とする情報処理方法。