以下、本発明の実施形態について説明する。
図1には、本実施形態に係る情報処理システム10の構成概略図が示されている。情報処理システム10は、カメラ12と、ユーザ端末14と、情報処理装置としてのサーバ16とを含んで構成される。カメラ12とサーバ16との間、及び、ユーザ端末14とサーバ16との間は、LANあるいはインターネットなどの通信回線18を介して通信可能に接続されている。
カメラ12は、例えば防犯カメラあるいは監視カメラである。カメラ12は、例えば街中や店内の様子を撮影する。本実施形態においては、カメラ12は固定されており、一定の視野の画像を取得する。また、カメラ12は、本実施形態においてはビデオカメラであって動画を撮影するものとするが、間欠的に静止画を取得するものであってもよい。カメラ12によって撮像された撮像画像は、通信回線18を介してサーバ16に送られる。
ユーザ端末14は、ユーザ(サーバ16で実行される2つの画像間における人物像の同一性の判定処理の結果を確認する者)が利用する端末である。ユーザ端末14は、例えばパーソナルコンピュータやタブレット端末などであってよい。ユーザ端末14は、CPU(Central Processing Unit)などの処理部、ハードディスク、ROM(Read Only Memory)あるいはRAM(Random Access Memory)などの記憶部、液晶パネルなどの表示部、マウス、キーボード、タッチパネルなどの入力部、ネットワークアダプタなどの通信部などを含んで構成される。ユーザ端末14は、サーバ16にアクセスすることによって、サーバ16における人物像の同一性の判定処理の結果を受信することができる。
図2に、サーバ16の構成概略図が示されている。本実施形態においては、サーバ16はコンピュータによって構成されるが、情報処理装置としては、以下に示す機能を有する限りにおいて、どのような装置であってもよい。
通信部20は、例えばネットワークアダプタなどから構成される。通信部20は、通信回線18を介して、カメラ12及びユーザ端末14と通信する機能を発揮する。具体的には、通信部20は、カメラ12から撮像画像を受信する。また、通信部20は、ユーザ端末14からの要求に応じて、後述の制御部24による人物像の同一性の判定処理結果をユーザ端末14に送信する。サーバ16を介した情報の流れとしては、まずカメラ12から撮像画像がサーバ16へ送信され、当該撮像画像に対する処理の結果がサーバ16からユーザ端末14へ送信される流れとなる。
記憶部22は、例えばROM、RAMあるいはハードディスクなどから構成される。記憶部22には、サーバ16の各部を動作させるための情報処理プログラムが記憶される。また、記憶部22には、カメラ12から送信されてくる撮像画像が記憶される。
制御部24は、例えばCPU、マイクロコントローラ、あるいは画像処理用の専用ICなどを含んで構成される。制御部24は、記憶部22に記憶された情報処理プログラムに従ってサーバ16の各部を制御する。また、図2に示される通り、制御部24は、器官点検出部26、同一性判定部28、及び、位置尤度分布算出部30としても機能する。
器官点検出部26、同一性判定部28、及び、位置尤度分布算出部30により、人物像の同一性の判定処理が実現される。本実施形態では、制御部24は、カメラ12から送信され記憶部22に記憶された撮像画像(動画像)から2つのフレーム画像を選択し、選択した一方のフレーム画像を第1画像とし、他方のフレーム画像を第2画像とする。すなわち、第1画像及び第2画像は、同一視野において異なるタイミングで撮像された画像であると言える。器官点検出部26、同一性判定部28、及び、位置尤度分布算出部30は、当該第1画像及び第2画像に対して処理を行う。なお、第1画像及び第2画像には人物像が含まれているものとする。
器官点検出部26は、第1画像に対して画像処理を施すことにより、第1画像に含まれる第1人物像に関する複数の第1器官点を検出する。同様に、器官点検出部26は、第2画像に含まれる第2人物像に関する複数の第2器官点を検出する。第1画像あるいは第2画像に複数の人物像が含まれている場合には、器官点検出部26は、各画像における複数の人物像に関する複数の器官点を検出する。人物像における複数の器官点の検出の具体的な方法としては、非特許文献2に記載されているOpenPoseの技術を適用することができる。もちろん、人物像における複数の器官点が検出できる限りにおいて、OpenPose以外の技術を用いるようにしてもよい。
図3(a)には第1画像40の例が、図3(b)には第2画像42の例が示されている。本実施形態においては、第1画像40には1つの第1人物像Aが含まれているものとし、第2画像42には2つの第2人物像B及びCが含まれているものとする。
図3(a)を参照して、第1画像40において、第1人物像Aに関する複数の第1器官点44Aが検出されている。本実施形態においては、器官点検出部26は、人物像の器官点として、鼻、首、左肩、左肘、左手、右肩、右肘、右手、左腰、左膝、左足、右腰、右足、左眼、右眼、左耳、右耳の18箇所を検出する。なお、器官点検出部26は、人物像のどの部位(鼻、首など)に対応するものであるかを識別した上で各器官点を検出する。また、本実施形態では、器官点検出部26は、第1画像40の1つの画素の位置(座標)を各器官点の位置として検出する。なお、第1画像40に複数の第1人物像が含まれる場合には、器官点検出部26は、各第1人物像に関する複数の器官点を検出する。
図3(b)を参照して、第2画像42においても、第1画像40と同様に、第2人物像Bに関する複数の第2器官点44Bが検出されている。また、第2人物像Cに関する複数の第2器官点44Cが検出されている。
図2に戻り、同一性判定部28は、まず、器官点検出部26が検出した第1人物像Aに関する複数の第1器官点に対応する各画素の色情報と、第2人物像B及びCに関する複数の第2器官点に対応する各画素の色情報とを取得する。なお、色情報とは、色相、明度(輝度)、及び彩度を含む概念である。
上述のように、器官点検出部26は、各器官点の位置を第1画像40あるいは第2画像42の1つの画素の位置として検出しているところ、本実施形態では、同一性判定部28は、器官点検出部26により検出された1つの画素を中心とする一定の面積を持った領域を各器官点に対応する画素(画素領域)とする。具体的には、各器官点に対応する画素領域は、10(pixel)×10(pixel)の大きさを持つものとしている。また、画像中の人物像の大きさに応じて、画素領域の面積を変化させるようにしてもよい。例えば、画像中の人物像が大きい程、画素領域の面積を大きくするようにしてもよい。
本実施形態では、同一性判定部28は、器官点に対応する画素領域に含まれる各画素の色をL*a*b*色空間で表現した上で、各画素の色の代表値(例えば平均値、中央値、最頻値)を求める。そして、求めた色の代表値を当該器官点の画素(領域)の色情報とする。なお、各画素の色をL*a*b*色空間で表現するのは、L*a*b*色空間が人間の視覚に近似するように設計されているためである。
なお、各器官点の画素の色情報として上記以外の特徴量を採用してもよい。例えば、色情報として、器官点に対応する画素領域のHOG(Histograms of Oriented Gradients)特徴量を算出するようにしてもよい。ここで、HOG特徴量とは、画素領域における各画素の輝度の勾配方向をヒストグラム化した特徴量である。
以上のようにして、第1画像40に含まれる第1人物像Aの各第1器官点に対応する画素の色情報、及び、第2画像に含まれる第2人物像B及びCの各第2器官点に対応する画素の色情報が取得される。
次いで、同一性判定部28は、第1人物像Aの複数の第1器官点に対応する画素の色情報と、第2人物像Bの複数の第2器官点に対応する画素の色情報とを比較し、また、第1人物像Aの複数の第1器官点に対応する画素の色情報と、第2人物像Cの複数の第2器官点に対応する画素の色情報とを比較することで、第1人物像Aと、第2人物像B及びCとの同一性を判定する。
具体的には、第1人物像Aの第1器官点44Aと、それに対応する部位の第2人物像B及びCの第2器官点44B及び44Cとの画素の色情報の差分(色差)を算出する。図4に、第1画像40における第1人物像Aの顔部分の拡大図、第2画像42における第2人物像Bの顔部分の拡大図、及び、第2画像42における第2人物像Cの顔部分の拡大図が示されている。図4に示す通り、例えば、第1人物像Aの鼻に対応する画素の色情報と、第2人物像Bの鼻に対応する画素の色情報との色差を算出し、その他の部位(器官点)についても同様に色差を算出する。同様に、第1人物像Aの鼻に対応する画素の色情報と、第2人物像Cの鼻に対応する画素の色情報との色差を算出し、その他の部位(器官点)についても同様に色差を算出する。
本実施形態では、CIE2000色差式により、各器官点の画素の色情報の色差を算出する。これは、CIE2000色差式は、人間の目の色識別域の特徴である、色相依存性、明度依存性、及び彩度依存性を考慮した計算式であるためである。すなわち、CIE2000色差式に基づく色差は、人間の視覚による色の差に近い値となるためである。
図5に、第1人物像Aの各第1器官点の画素の色情報と、第2人物像Bの各第2器官点の画素の色情報との差(色差)が示されている。図5に示されるように、器官点毎に色差が算出される。同一性判定部28は、算出された色差に基づいて、器官点毎に類似度を算出する。具体的には、同一性判定部28は、色差が小さい程類似度が大きくなるように算出する。本実施形態では、以下の式によって色差から類似度を算出する。
ここで、dは色差であり、α及びβは定数である。α及びβを適宜設定することにより、色差の値に対する類似度の値を調整することができる。
図5には、器官点毎に算出された類似度が示されている。このようにして、第1人物像Aと第2人物像Bとの間において、複数の(本実施形態では18個)器官点についての複数の類似度が算出される。同一性判定部28は、算出された複数の類似度の代表値(例えば平均値、中央値、最頻値)を求める。このように求められた類似度の代表値が第1人物像Aと第2人物像Bとの類似度となる。なお、第1画像40又は第2画像42における見切れ、あるいは隠れなどにより、第1人物像A又は第2人物像Bの複数の器官点のうち器官点検出部26により検出されなかった器官点がある場合には、当該器官点に関する類似度は予め定められた値とする。本実施形態では、図3(b)及び図5に示す通り、第2人物像Bの左腰の器官点が検出されていないため、第1人物像Aと第2人物像Bとの間における左腰に関する類似度を予め定められた値である50%としている。
同様にして、同一性判定部28は、第1人物像Aと第2人物像Cとの類似度を算出する。第1画像40に複数の第1人物像が含まれている場合には、同一性判定部28は、各第1人物像と各第2人物像とのそれぞれの類似度を算出する。
同一性判定部28は、複数の第2人物像のうち、予め定められた類似度閾値以下の第2人物像を、第1人物像Aと同一人物の像ではないと判定する。その上で、複数の第2人物像が残った場合(複数の第2人物像の類似度が類似度閾値よりも大きかった場合)、そのうち最も類似度が大きかった第2人物像を第1人物像Aと同一人物の像であると判定する。なお、全ての第2人物像の類似度が類似度閾値以下であった場合、同一性判定部28は、第2画像42には第1人物像Aと同一人物の像が含まれていないと判定する。また、第1画像40に複数の第1人物像が含まれている場合には、同一性判定部28は、各第1人物像について、上記の同一性判定処理を行う。
なお、同一性判定部28の同一性判定処理の後、ユーザ端末14からの要求に応じて、サーバ16は、第1人物像Aと、第2人物像B及びCとの同一性の判定結果をユーザ端末14に送信する。それにより、ユーザ端末14の表示部に、同一性の判定結果が表示され、ユーザは同一性の判定結果を確認することができる。
以上のようにして、第1画像40と第2画像42との間において、第1人物像と第2人物像の同一性が判定される。好適には、カメラ12が撮像した動画に含まれる、隣接するフレーム画像間毎に上記処理を行うことによって、動画像において同一人物をトラッキングすることができる。
本実施形態では、第1人物像の各器官点と第2人物像の各器官点を検出し、検出された各器官点を両人物像の画素の比較ポイントとして用いている。対応する各器官点毎に類似度を算出することで、人物像間における類似度算出の精度が向上するだけでなく、人物像全体を比較する場合に比して類似度算出のための演算量が低減されることとなる。つまり、より効率的に両人物像の同一性を判定することができる。
また、本実施形態によれば、第1画像40における第1人物像の位置と、当該第1人物像と同一人物を表す第2画像42における第2人物像の位置とが離れていたとしても、好適に両人物像が同一人物の像である、と判定することができる。したがって、動画のフレームレートが小さかったとしても(例えば2FPS(Frames Per Second)程度であっても)好適に両人物像の同一性の判定(つまりトラッキング)が可能となっている。この点、動画のフレームレートが高いことが要求される従来のトラッキング技術(例えば粒子フィルタなど)に対して、本実施形態が優れている点である。このように、本実施形態においては、同一性の判定に高フレームレートが要求されない(すなわち第2画像42は、第1画像40の0.5秒程度後のフレーム画像であってもよい)ことから、1回の同一性判定処理に多少時間がかかったとしても、動画の再生に伴ってリアルタイムに第1人物像と第2人物像の同一性を判定することも可能となっている。
第1画像40及び第2画像42が、同一視野において異なるタイミングで撮像された複数の撮像画像から選択されたものである場合(例えば第1画像40及び第2画像42がカメラ12が撮像した動画に含まれるフレーム画像である場合)において、好適には、同一性判定部28は、位置尤度分布算出部30の演算結果をさらに考慮することにより、より高精度に両人物像の同一性を判定することができる。
位置尤度分布算出部30は、第1画像40における第1人物像Aの位置と、第1画像40の前に撮像された1又は複数の撮像画像における第1人物像Aと同一人物を表す人物像の位置とに基づいて、第1画像40の後に撮像された第2画像42において、第1人物像Aと同一人物を表す人物像が存在する位置の尤度分布を算出する。
図6を参照して詳細に説明する。図6(a)には、図3と同様の第1画像40が示されている。図6(a)には、さらに、第1画像40の直前のフレーム画像A’における第1人物像Aと同一人物を表す人物像A’の位置、及び、第1画像40の2つ前のフレーム画像A’’における第1人物像Aと同一人物を表す人物像A’’の位置が示されている。なお、フレーム画像A’’における人物像A’’、フレーム画像A’における人物像A’、及び第1画像40における第1人物像Aとの同一性は、同一性判定部28の上述の処理により判定される。
本実施形態では、図6(a)に示される通り、人物像A’’の首に対応する器官点44A’’の位置を人物像A’’の位置とし、人物像A’の首に対応する器官点44A’の位置を人物像A’の位置とし、第1人物像Aの首に対応する第1器官点44Aの位置を第1人物像Aの位置とする。これは、複数の器官点のうち、首に対応する器官点は、人物像の姿勢による位置変動が最も少ないことによるものである。
位置尤度分布算出部30は、本実施形態では、人物像A’’、人物像A’、及び第1人物像Aの経時的な位置変動に基づいて、第1画像40の次のフレーム画像である第2画像42における、第1人物像Aと同一人物を表す人物像(の首の位置)が存在する予測位置50を演算する。予測位置50は、既知の手法を用いることで演算することができる。
次いで、位置尤度分布算出部30は、第2画像42において、第1画像40における予測位置50と同じ位置に予測位置50’をプロットし、予測位置50’を中心とした2次元正規分布を形成する。当該2次元正規分布が、第1人物像Aと同一人物を表す人物像が存在する位置の尤度分布52となる。つまり、位置の尤度分布52は、予測位置50’において最も位置の尤度が大きくなり、予測位置50’からの距離が大きくなるほど位置の尤度が小さくなるようになっている。なお、本実施形態では、図6(b)に示す通り、位置の尤度分布52においては、予測位置50’から、第1画像40における第1人物像Aの首に対応する第1器官点44Aの位置に相当する位置までの距離が正規分布におけるσに設定される。また、予測位置50’における位置の尤度の値は、適宜設定されてよい。本実施形態では、位置の尤度は0から1までの値を取るようにし、予測位置50’における位置の尤度の値を1としている。
同一性判定部28は、第1人物像Aと第2人物像Bとの間の色情報の類似度のみならず、第2人物像Bの位置の尤度に基づいて、第1人物像Aと第2人物像Bが同一人物であることを示す指標である総合尤度を算出する。
まず、第2人物像Bの位置の尤度は、位置の尤度分布52と第2人物像Bの位置とから算出される。本実施形態では、位置の尤度分布52と第2人物像Bの首に対応する第2器官点44Bの位置とに基づいて、第2人物像Bの位置の尤度が算出される。図6(b)を参照して、第2人物像Bの首に対応する第2器官点44Bの位置が、予測位置50’に近い程、第2人物像Bの位置の尤度が大きく算出される。つまり、第2人物像Bの首に対応する第2器官点44Bの位置が、予測位置50’に近い程、第2人物像Bは第1人物像Aと同一人物を表すものである可能性が高いと判断される。
次いで、同一性判定部28は、上述の処理により算出した第1人物像Aと第2人物像Bとの間の色情報の類似度と、算出した第2人物像Bの位置の尤度とに基づいて、第1人物像Aと第2人物像Bとの間の総合尤度を算出する。本実施形態では、第1人物像Aと第2人物像Bとの間の色情報の類似度と、算出した第2人物像Bの位置の尤度とを乗算することによって、総合尤度を算出している。
同様にして、同一性判定部28は、第1人物像Aと第2人物像Cとの間の総合尤度を算出する。図7に、算出された総合尤度が示されている。
同一性判定部28は、複数の第2人物像に関して算出された総合尤度のうち、予め定められた総合尤度閾値以下の第2人物像を、第1人物像Aと同一人物の像ではないと判定する。その上で、複数の第2人物像が残った場合(複数の第2人物像の総合尤度が総合尤度閾値よりも大きかった場合)、そのうち最も総合尤度が大きかった第2人物像を第1人物像Aと同一人物の像であると判定する。なお、この場合も、全ての第2人物像の総合尤度が総合尤度閾値以下であった場合、同一性判定部28は、第2画像42には第1人物像Aと同一人物の像が含まれていないと判定する。
各第2人物像の位置の尤度も考慮して同一性を判定することで、より同一性の判定の精度を向上させることができる。例えば、第1人物像Aと第2人物像Bが同一人物を表すものである場合を考える。図7に示す通り、何らかの要因により、第1人物像Aと第2人物像Bとの間の色情報の類似度より、第1人物像Aと第2人物像Cとの間の色情報の類似度が大きく算出されてしまう場合があるとする。このような場合であっても、図6(b)に示される通り、第2人物像Bの位置は予測位置50’に比較的近いことから、位置の尤度として比較的高い値「0.33」(図7参照)が算出され、第2人物像Cの位置は予測位置50’から比較的遠いことから、位置の尤度として比較的低い値「0.01」(図7参照)が算出される。したがって、総合尤度としては、第1人物像Aと第2人物像Bとの間の総合尤度が第1人物像Aと第2人物像Cとの間の総合尤度よりも大きくなり、結果として、第2人物像Bが第1人物像Aと同一人物を表すものである、と正しく判定することが可能になる。
以下、図8に示すフローチャートに従って、本実施形態に係るサーバ16の処理の流れを説明する。
ステップS10において、まず、制御部24は、カメラ12により撮像され記憶部22に記憶された複数の画像から第1画像40及び第2画像42を選択する。本例では、カメラ12が撮像した動画から2つのフレームを選択し、図3に示すような2つの画像を第1画像40及び第2画像42とする。
ステップS12において、器官点検出部26は、第1画像40に含まれる第1人物像Aに関する複数の第1器官点を検出する。
ステップS14において、器官点検出部26は、第2画像42に含まれる第2人物像Bに関する複数の第2器官点を検出する。ステップS12及びS14が器官点検出ステップに相当する。
ステップS16において、同一性判定部28は、ステップS12で検出した第1人物像Aに関する複数の器官点、及び、ステップS14で検出した第2人物像B及びCに関する複数の器官点それぞれに対応する画素の色情報を取得する。
ステップS18において、同一性判定部28は、第1人物像Aの複数の第1器官点に対応する画素の色情報と、第2人物像Bの複数の第2器官点に対応する画素の色情報との色差を算出し、また、第1人物像Aの複数の第1器官点に対応する画素の色情報と、第2人物像Cの複数の第2器官点に対応する画素の色情報との色差を算出する。
ステップS20において、同一性判定部28は、ステップS18で算出した器官点毎の色差に基づいて、第1人物像Aと第2人物像Bとの間の色の類似度、及び、第1人物像Aと第2人物像Cとの間の色の類似度を算出する。
ステップS22において、位置尤度分布算出部は、第1画像40と、その直前の1又は複数のフレーム画像に基づいて、第2画像42において、第1人物像Aと同一人物を表す人物像が存在する位置の尤度分布を算出する。
ステップS24において、同一性判定部28は、ステップS22で算出された位置の尤度分布、及び、第2画像42における第2人物像B及びCの位置とに基づいて、第2人物像B及びCの位置の尤度を算出する。
ステップS26において、同一性判定部28は、ステップS20で算出された色の類似度、及び、ステップS24で算出された位置の尤度とに基づいて、第1人物像Aと第2人物像Bとの間の総合尤度、及び、第1人物像Aと第2人物像Cとの間の総合尤度を算出する。
ステップS28において、同一性判定部28は、ステップS26で算出された総合尤度に基づいて、第1人物像Aと、第2人物像B及びCとの同一性の判定を行う。ステップS28が同一性判定ステップに相当する。
以上、本発明に係る実施形態を説明したが、本発明は上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない限りにおいて種々の変更が可能である。
また、本発明は、コンピュータを、第1画像に含まれる第1人物像に関する複数の第1器官点、及び、第2画像に含まれる第2人物像に関する複数の第2器官点を検出する器官点検出部と、前記第1器官点毎に、前記第1器官点を含む第1画素領域であって前記第1人物像の前記第1画像における大きさに応じた面積を有する第1画素領域を設定し、前記第2器官点毎に、前記第2器官点を含む第2画素領域であって前記第2人物像の前記第2画像における大きさに応じた面積を有する第2画素領域を設定し、前記第1画像における前記複数の第1器官点に対応する複数の前記第1画素領域の色情報と、前記第2画像における前記複数の第2器官点に対応する複数の前記第2画素領域の色情報との比較に基づいて、前記第1人物像と前記第2人物像の同一性を判定する同一性判定部と、として機能させることを特徴とする情報処理プログラムである。
また、本発明は、コンピュータが、第1画像に含まれる第1人物像に関する複数の第1器官点、及び、第2画像に含まれる第2人物像に関する複数の第2器官点を検出する器官点検出ステップと、コンピュータが、前記第1器官点毎に、前記第1器官点を含む第1画素領域であって前記第1人物像の前記第1画像における大きさに応じた面積を有する第1画素領域を設定し、前記第2器官点毎に、前記第2器官点を含む第2画素領域であって前記第2人物像の前記第2画像における大きさに応じた面積を有する第2画素領域を設定し、前記第1画像における前記複数の第1器官点に対応する複数の前記第1画素領域の色情報と、前記第2画像における前記複数の第2器官点に対応する複数の前記第2画素領域の色情報との比較に基づいて、前記第1人物像と前記第2人物像の同一性を判定する同一性判定ステップと、を含むことを特徴とする情報処理方法。