JP2019009752A - 画像処理装置 - Google Patents

画像処理装置 Download PDF

Info

Publication number
JP2019009752A
JP2019009752A JP2017132271A JP2017132271A JP2019009752A JP 2019009752 A JP2019009752 A JP 2019009752A JP 2017132271 A JP2017132271 A JP 2017132271A JP 2017132271 A JP2017132271 A JP 2017132271A JP 2019009752 A JP2019009752 A JP 2019009752A
Authority
JP
Japan
Prior art keywords
person
image
avatar
camera
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017132271A
Other languages
English (en)
Inventor
寛紀 山内
Hiroki Yamauchi
寛紀 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JAPAN IMAGE ANALYSIS ASS
JAPAN IMAGE ANALYSIS ASSOCIATION
Original Assignee
JAPAN IMAGE ANALYSIS ASS
JAPAN IMAGE ANALYSIS ASSOCIATION
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JAPAN IMAGE ANALYSIS ASS, JAPAN IMAGE ANALYSIS ASSOCIATION filed Critical JAPAN IMAGE ANALYSIS ASS
Priority to JP2017132271A priority Critical patent/JP2019009752A/ja
Publication of JP2019009752A publication Critical patent/JP2019009752A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)

Abstract

【課題】同一の被写体の映像から有効な特徴情報をより高精度に抽出でき、被写体の代替画像をより高解像度にて作成可能な情報処理装置を提供する。
【解決手段】監視対象エリアWAを複数のカメラ11a、11bで撮影して得られる映像内の人物から特徴量を抽出し、カメラの撮影範囲における被写体の座標情報を取得し、人物特徴量に基づいて前記人物のアバター画像を生成し、座標情報に基づいてカメラの撮影範囲の背景画像に対しアバター画像を合成することにより合成画像を生成する。カメラの撮影範囲において特徴量の抽出に必要な解像度が確保可能な撮影範囲(有効撮影範囲EPa、EPb)に一部重なる領域SLAが生ずるよう監視対象エリアWAを互いに異なるアングルにて撮影する複数台のカメラからの映像に基づいて特徴量を抽出する。また、同一人物について複数のカメラが抽出する特徴量の情報を互い連携させることによりアバター画像を作成する。
【選択図】図2

Description

本発明は、カメラで取得された映像情報を処理する画像処理装置に関する。
近年、防犯等の目的で、ショッピングセンターや街頭等の様々な場所に監視カメラが設置されている。これらのカメラで撮影された映像は、例えばネットワークを介して遠隔地の集中監視センター等にリアルタイムで送られ、モニタに表示される。この場合、肖像権侵害の防止やプライバシー保護の観点から、映像に移り込んだ人物の画像を加工したり隠ぺいしたりする処理を行い、処理後の画像を配信する技術が種々提案されている(特許文献1〜4)。これらの文献に開示された画像加工の具体的な手法は顔部分にモザイクやぼかしをかけたり塗りつぶしたりする方法や、人物全体をシルエット化する手法がとられている。しかし、この方法では、画像の加工により人物特定に必要な情報が減じられるため、当然のことながら加工後の画像から実際に移り込んでいる人物を特定することは困難になる。他方、特許文献5には、映像に移り込んでいる人物の顔を似顔絵で置き換え、顔の実写画像は隠ぺいしつつ、似顔絵にその人物の特徴を反映させることにより、加工後の映像からもそれが誰の映像であるかを把握できるようにする技術が開示されている。
WO2009/013822号公報 特許第6007523号公報 特許第5408156号公報 特許第4036051号公報 特開2001−127990号公報 特開2007−323572号公報 特開2017− 22621号公報
しかしながら、カメラで人物を撮影する際には、顔やその他の特徴情報を抽出するのに常に好都合な撮影環境が確保されているわけではなく、写り込んでいる姿が小さすぎたり、他の被写体の陰になって必要な特徴量が抽出できなかったりして、結果的に特徴把握可能な代替画像である似顔絵が満足に作成できないケースも多々存在する。
本発明の課題は、同一の被写体の映像から有効な特徴情報をより高精度に抽出でき、ひいては被写体の代替画像をより高解像度にて作成可能な画像処理装置を提供することにある。
上記の課題を解決するために本発明の画像処理装置は、
監視対象エリアをカメラで撮影して得られる映像内の人物から、当該人物に固有の特徴量を人物特徴情報として抽出する人物特徴情報抽出部と、
前記カメラの撮影範囲における前記人物の座標情報を抽出する座標情報抽出部と、
前記人物特徴情報に基づいて前記人物のアバター画像を生成するアバター生成部と、
前記座標情報に基づいて前記カメラの撮影範囲の背景を表す背景画像に対し前記アバター画像を合成することにより合成画像を生成する画像合成部とを備え、
前記人物特徴情報抽出部及び前記座標情報抽出部は、前記カメラの撮影範囲において前記特徴量の抽出に必要な解像度が確保可能な撮影範囲を有効撮影範囲と定義したとき、該有効撮影範囲に一部重なりが生ずるよう前記監視対象エリアを互いに異なるアングルにて撮影する複数台のカメラからの映像に基づいて前記人物特徴情報及び前記座標情報を抽出することを特徴とする。
上記本発明によると、人物の実映像の代わりにアバター画像が用いられるので、不特定多数の人物を撮影する場面においても、プライバシーを侵害するおそれがないという利点がある。そして、有効撮影範囲に一部重なりが生ずるよう監視対象エリアを互いに異なるアングルにて撮影する複数台のカメラからの映像に基づいて人物特徴情報及び座標情報を抽出するようにした。これにより、人物特徴情報や座標情報の抽出精度を高めることができ、ひいてはアバター画像のリアリティ(解像度)向上や背景画像へアバター画像を合成するに際しての位置的な精度の向上、さらにはカメラ撮影される人物の異同判定精度の向上等に寄与することができる。
アバター生成部は、例えば、複数台のカメラが撮影した映像から人物特徴情報抽出部が同一人物について個別に抽出した人物特徴情報を統合しつつ、当該人物のアバター画像を生成するように構成できる。同じ人物でも、これを撮影するカメラの位置により抽出できる人物特徴情報の種別や解像度は異なる。そこで、複数台のカメラが同じ人物から各々抽出する人物特徴情報を統合する(例えば、「いいところ取りをする」)ことで、アバター画像に盛り込む情報量を増やすことができ、アバター画像のリアリティ(解像度)向上に著しく貢献することができる。
また、画像合成部は、複数台のカメラが撮影した映像から座標情報抽出部が同一人物について個別に抽出した座標情報を参照して、背景画像へのアバター画像の合成位置を決定するように構成できる。あるカメラでは着目している人物までの距離が遠すぎたり、あるいは同じカメラの視野に複数の人物が近接して写り込んでいたり、さらには障害物の影になっていたりして、座標情報特定の精度が損なわれていても、当該人物を別角度からとらえるカメラの映像から、当該人物の座標情報の精度を補うことが可能である。
また、本発明の画像処理装置には抽出された人物特徴情報を人物IDと対応付けて記憶する人物特徴情報記憶部と、人物IDとアバター画像のデータであるアバターデータとを対応付けて記憶するアバターデータ記憶部とを設けることができる。アバター生成部は、カメラが新たに撮影する人物の映像について人物特徴情報抽出部が抽出した人物特徴情報を人物特徴情報記憶部にて検索するとともに、抽出された人物特徴情報とあらかじめ定められた範囲内にて一致する人物特徴情報が検索された場合に、アバター画像生成部は当該検索された人物特徴情報が示す人物IDに対応するアバターデータをアバターデータ記憶部から読み出し、そのアバターデータを用いてアバター画像を生成するように構成することができる。時系列的に先行して抽出された人物特徴情報からすでにアバターデータが作成されている場合、人物特徴情報記憶部ないしアバターデータ記憶部(これらの記憶部は一体化されていてもよい)としてこれをデータベース化しておくことができる。そして、新たに撮影された映像から人物特徴情報が抽出された場合に、該人物特徴情報をデータベース上で検索し、あらかじめ定められた範囲内にて一致する人物特徴情報及び対応するアバターデータが既に存在していれば、データベス上の人物と同一であると判定することができ、これを用いてアバター画像を生成することで、アバターデータ作成の処理負荷を軽減することができる。
また、人物特徴情報抽出部を、座標情報抽出部が抽出する座標情報の時間的変化に基づいて人物の動作方向情報を抽出するものとし、抽出された動作方向情報を人物ID及び抽出時刻と対応付けて記憶する動作方向情報記憶部と、人物IDとアバター画像のデータデータであるアバターデータとを対応付けて記憶するアバターデータ記憶部とを設けることもできる。この場合、アバター生成部は、カメラが新たに撮影する人物の映像について人物特徴情報抽出部が抽出した動作方向情報及び抽出時刻を動作方向情報記憶部にて検索するとともに、抽出された動作方向情報及び抽出時刻とあらかじめ定められた範囲内にて一致する動作方向情報が検索された場合に、アバター画像生成部は当該検索された動作方向情報が示す人物IDに対応したアバターデータをアバターデータ記憶部から読み出し、そのアバターデータを用いてアバター画像を生成するように構成することができる。この構成では、座標情報の時間的変化に基づいて人物の動作方向情報を抽出し、その人物のアバターデータとともに、動作情報記憶部ないしアバターデータ記憶部(これらの記憶部は一体化されていてもよい)としてこれをデータベース化しておく。そして、新たに撮影された映像から人物の動作方向情報が抽出された場合に、該動作方向情報をデータベース上で検索し、あらかじめ定められた範囲内にて一致する動作方向情報(及びその抽出時刻)と対応するアバターデータとが既に存在していれば、データベース上の人物と同一であると判定することができる。そして、そのアバターデータを用いてアバター画像を生成することにより、アバターデータ作成の処理負荷を軽減することができる。
人物特徴情報抽出部は、カメラ正面に位置する人物を互いに反対方向から撮影するとともに、特徴量抽出に必要な解像度が確保可能な有効半径にて各カメラのレンズ中心からカメラ視野角がカバーされるよう平面視における監視対象エリアへの有効撮影範囲の投影を扇形に描いたとき、当該有効撮影範囲の半径方向端縁に葉型の重なり領域が形成されるように配置された1対のカメラからの映像に基づいて特徴量を抽出することができる。人物を1対のカメラにより互いに反対方向から撮影することで、一方のカメラに人物が正対していない場合でも、他方のカメラでその人物の特徴量を高精度に抽出できる。また、1対のカメラの有効撮影範囲に葉型の重なりが生じていることで、特徴量抽出に必要な解像度確保が困難となるデッドエリアが削減される。また、一方のカメラについては人物までの距離が遠すぎて特徴量抽出の精度が劣る場合も、他方のカメラでは人物までの距離が縮小する結果、望ましい解像度での特徴量抽出の確度を向上することができる。
この場合、人物特徴情報抽出部は、矩形(特に正方形)をなす監視対象エリアの対角線方向の角部に配置された1対のカメラからの映像に基づいて特徴量を抽出するようにすれば、エリア中央付近において人物の撮影死角が特に生じにくくなり、特徴量抽出の確度を一層向上できる。また、監視対象エリアが広い場合は、人物特徴情報抽出部を、監視対象エリアを区画する複数の矩形のサブエリアのそれぞれにおいて対角線方向の角部に配置されたカメラの各対からの映像に基づいて特徴量を抽出するように構成することで、広大な監視対象エリアに対し複数のカメラ対により、同じ原理により特徴量抽出の確度向上効果を均等に付与することができる。
また、人物特徴情報抽出部は、有効撮影範囲として第一の有効撮影範囲を有する第一のカメラと、該第一のカメラよりも広角の第二の有効撮影範囲を有するとともに、該第二の有効撮影範囲の視野角方向における端部に第一の有効撮影範囲が重なるように配置された第二のカメラとを含む複数台のカメラからの映像に基づいて特徴量を抽出するように構成することもできる。第二のカメラをなす広角カメラはより広い視野角で撮影でき、より少ないカメラ台数で広い監視対象エリアをカバーできるので、カメラハードウェアコストの削減を図ることができる。しかし、広角カメラの撮影画像は視野角端部に向かうほど(つまり、光軸からの角度方向の隔たりが大きいほど)レンズ歪が大きくなり、特徴量の抽出精度が低下しやすくなる。そこで、この広角カメラの有効撮影範囲(第二の有効撮影範囲)の視野角方向における端部を、これよりも視野角が狭くレンズ歪の小さい第一のカメラの有効撮影範囲(第一の有効撮影範囲)との重なり領域としてカバーすることで、当該領域にて人物が撮影されたときの特徴量の抽出精度を高めることができる。
複数台のカメラにより同一の人物の特徴量を抽出することの利点は、人物特徴情報抽出部の種々の具体的な構成により明確にすることができる。
(1)人物特徴情報抽出部を、複数のカメラの1つのものからの映像による人物の特徴量の特定が当該カメラと人物との間に介在する障害物により妨害された場合に、カメラと撮影アングルの異なる別のカメラからの映像により障害物による妨害を軽減しつつ特徴量の特定を行なうものとして構成する。カメラと人物との間に障害物(例えば、別の人物)が介在すると、そのカメラでは人物の一部が障害物に隠れてしまい、隠れた部位における特徴量の抽出ができなくなる場合がある。このとき、撮影アングルの異なる別のカメラからの映像であれば、隠れていた部位もきちんと撮影でき、特徴量の抽出が可能となる。
(2)人物特徴情報抽出部を、複数のカメラの1つのものからの映像による人物の特徴量の特定が当該カメラと人物との距離的問題により困難であった場合に、該カメラと撮影アングルの異なる別のカメラからの映像により距離的問題を軽減しつつ特徴量の特定を行なうものとして構成する。カメラと人物との距離が大きすぎると、撮影画面上での被写体のサイズが小さくなりすぎ、特徴量を十分な解像度で抽出できなくなる。しかし、被写体に近い別のカメラであれば、カメラと人物との距離を縮小でき、特徴量抽出の解像度を向上させることができる。一方、カメラと人物との距離が小さ過ぎると、被写体部位の特徴量抽出に必要な領域の撮影画面上でのサイズが大きくなりすぎて、画面からはみ出してしまう結果、画像領域の情報が欠落したり、ピンボケを起こしたりして、この場合も特徴量を十分な解像度で抽出できなくなる。しかし、被写体から適度に遠い別のカメラであれば、特徴量抽出に必要な被写体部位のより多くの部分を撮影視野内に納めることができ、ピンボケも起こしにくくなるので、特徴量抽出の解像度を向上させることができる。
(3)人物特徴情報抽出部を、複数のカメラの1つのものからの映像による人物の特徴量の特定が、当該カメラに対する人物の姿勢の問題により困難であった場合に、該カメラと撮影アングルの異なる別のカメラからの映像により姿勢の問題を軽減しつつ特徴量の特定を行なうものとして構成する。つまり、被写体があるカメラに対して正面ではなく、横向きや後ろ向きに撮影されていると、抽出可能な特徴量の種別は大幅に減じられることがある(特に、後述の顔など)。他方、被写体が正面から撮影されている場合にあっても、特徴量の種別によっては抽出が困難となることもある(例えば、歩容など)。このとき、撮影アングルの異なる別のカメラからの映像であれば、カメラに対する被写体の姿勢が改善され、特徴量抽出の確度を向上させることができる。
人物特徴情報抽出部は、人物属性を解析して前記の特徴情報を人物属性情報として出力するものとして構成できる。この構成によれば、この人物属性情報を用いて様々な分析・統計処理等を行なうことができる。この場合、アバター生成部はアバター画像を、人物属性情報を反映したものとして生成ように構成できる。これにより、対応する人物の属性をアバター画像に変換された後も容易に把握することができる。これは、例えば防犯目的の使用を考える場合、肖像権などのプライバシー侵害を回避しつつ被疑者の特定に貢献することにもつながるし、防犯を目的としないビューイング等においても、撮影エリアを行きかう人々の属性をアバター画像によりより単純化ないし強調することができ、画像上での傾向把握を容易にできる利点がある。人物属性情報は、具体的には、人物の性別を反映した性別情報と人物の年齢を反映した年齢情報とを含むものとして構成できるが、これらに限定されるものではなく、例えば顔の風貌などから明確に把握可能なものに限られるものの、国籍(例えば、日本人か、欧米人か)なども属性の一つとしてとらえることができる。
具体的には、人物特徴情報抽出部は、特徴量として人物の顔特徴量を抽出するものとして構成することができる。アバター生成部は、この抽出された顔特徴量の情報を顔部分に反映させたものとしてアバター画像を生成する。これにより、アバター画像の顔部分を人物の顔に似せて生成することができるようになり、アバター画像と元の人物との関連性把握がより容易になる他、性別、年齢、国籍といった属性情報の把握精度も向上することができる。顔特徴量の抽出精度を高めたい場合、人物特徴情報抽出部は、顔特徴量の抽出に必要な解像度が確保可能な有効半径にてカメラのレンズ中心からカメラ視野角がカバーされるよう、平面視における監視対象エリアへの有効撮影範囲の投影を扇形に描いたとき、該有効半径内の人物の顔に対する解像度が1.5cm/画素よりも高く(より望ましくは1.0cm/画素よりも高く)確保されるように有効半径が定められているのがよい。
また、人物特徴情報抽出部は、人物の外観を解析して外観人物特徴情報として出力するものとすることもできる。人物の外観は、人物属性に次いで個々の人物の特定につながる重要な情報であり、分析・統計処理においては有益である。そして、アバター生成部はアバター画像を、外観人物特徴情報を反映したものとして生成するように構成することで、アバター画像に変換された後の、対応する人物の特徴把握を一層踏み込んで行なうことができる。
人物の外観の特徴を最も反映する要素として髪、着衣、持ち物などを例示できる。この場合、外観人物特徴情報は人物の頭髪の形態及び色彩の一方又は双方を反映した頭髪特徴量と、人物の着衣の形態及び色彩の一方又は双方を反映した着衣特徴量と、人物の持ち物の形態及び色彩の一方又は双方を反映した持ち物特徴量の1以上のものを含むものとして構成できる。これらは、性別や年齢層などの属性の把握補助に貢献し、例えば顔の特徴だけでは年齢等の把握が困難な場合に、これらの人物特徴情報を合わせて考慮することでより正確な属性把握が可能になる。例えば、着衣や持ち物は年齢層別の流行なども反映するから、10台後半と20台半ばなど、世代の接近した人物の属性を明確化する上で有用である。また、防犯等を目的とする場合は、人物の体形(肥満、小太り、やせ形、中肉中背、足の長短など)も有用な情報である。この場合、外観人物特徴情報は人物の体形を反映した体形情報を含むものとして構成できる。
着衣特徴量、頭髪特徴量又は持ち物特徴量の抽出精度を高めたい場合、人物特徴情報抽出部は、それら着衣特徴量、頭髪特徴量又は持ち物特徴量の抽出に必要な解像度が確保可能な有効半径にてカメラのレンズ中心からカメラ視野角がカバーされるよう、平面視における監視対象エリアへの有効撮影範囲の投影を扇形に描いたとき、該有効半径内の人物の着衣、頭髪又は持ち物に対する解像度が6cm/画素よりも高く(望ましくは5cm/画素よりも高く)確保されるように有効半径が定められているのがよい。
人物の固有性は、制服などにより画一化されている場合を除き、該人物が着用している着衣の外観、特に色彩に的確に反映されるものであり、これを利用することは、不特定多数の中において人物同士の異同把握を行なう上で極めて有用であるといえる。この場合、人物特徴情報抽出部は、カメラによる人物の画像領域を、各々あらかじめ定められた大きさの画素マトリックスからなるセルに分割するとともに各セル内の画素の色設定値分布を算出し、該色設定値分布の類似度が予め定められたレベル以上に高いセルを、人物の着衣、頭髪又は持ち物に由来した同一色彩を示す同一色彩領域の構成セルとして特定するとともに、それら同一色彩領域の構成セルの集合情報を、着衣、頭髪又は持ち物を示す外観人物特徴情報として抽出するものとして構成できる。また、アバター生成部は同一色彩領域の構成セルの色設定値分布に基づいて、着衣、頭髪又は持ち物を示すアバター構成要素の表示色を決定するように構成できる。
画像領域を画素マトリックスからなるセルに区切り、各セル内の色設定値分布(例えばヒストグラム)を算出して、その分布の類似度をセル間で比較することにより、それらセルが、同じ着衣、頭髪あるいは持ち物に由来した人物の同一色として把握されるべき画像領域(同一色彩領域)に属するものかどうかの判定を高い正解率で行なうことができるようになる。その結果、各同一色彩領域に固有の着衣、頭髪あるいは持ち物の特徴量としての抽出精度を高めることができ、アバター生成部は、同一色彩領域の構成セルの色設定値分布に基づいて、着衣、頭髪又は持ち物を示すアバター構成要素の表示色を、もとの人物にて把握される着衣、頭髪あるいは持ち物の色彩に近づけて設定することができる。
この場合、人物特徴情報抽出部は、各セル内の画素の色設定値分布を色彩パラメータと明度パラメータとが分離された表色系にて算出するとともに、色彩パラメータの設定値分布の類似度が予め定められたレベル以上に高いセル同士を同一色彩領域の構成セルとして特定するように構成することができる。色設定値分布の算出において色彩(色相+彩度)と明度とを分離しておくことで、明度パラメータ部分に照明環境等による変動やバラツキが吸収される。その結果、残余の色彩パラメータの分布比較により、外光の色や輝度あるいは照射角度、さらにはノイズの影響などが軽減され、同一色彩領域の特定をより高精度に実現することが可能となる。
次に、本発明においては、人物特徴情報抽出部を、人物の画像を人体の部位に相当する複数のパーツに分割し、各パーツから特徴量を抽出する。この構成によれば、各部位の特徴量を有効に検出することができる。この場合、アバター生成部は、アバター画像のデータを複数の前記パーツに対応したアバター断片に分割して記憶するアバターデータ記憶手段を備え、人物の対応するパーツについて抽出された特徴量の情報に基づいてアバター画像のアバター断片を補正した後、その補正後のアバター断片を統合してアバター画像を生成ように構成できる。このようにすると、アバター断片(すなわち、人物の部位)ごとに特徴量を反映した補正をきめ細かく行なうことができ、かつ、アバター全体の画像データを特徴別に多数用意する必要がなくなるので、データ容量の削減を図ることができるようになる。
この場合、人物特徴情報抽出部は、人物の画像領域を、当該領域内に特定される複数の同一色彩領域の境界を分割位置として、人体の部位に相当する少なくとも頭部、上半身、及び下半身を含む複数のパーツに分割し、各パーツから特徴量を抽出するものとして構成できる。アバター生成部は、アバター画像のデータを複数のパーツに対応したアバター断片に分割して記憶するアバターデータ記憶手段を備え、人物の対応するパーツについて抽出された特徴量の情報に基づいてアバター画像のアバター断片を補正した後、その補正後のアバター断片を統合してアバター画像を生成するものとすることができる。人体を頭部、上半身及び下半身に分割しようとする場合、着衣などに由来した外観上の切れ目は、人体骨格に基づいてこれらを構造医学的に分割したときの各部位の切れ目とは一致しない。そして、アバター画像に着衣の特徴量を反映させるようとした場合、上記のように、人物の画像領域を、当該領域内に特定される複数の同一色彩領域の接触境界を分割位置としてパーツ分割することで、上記外観上の切れ目により頭部、上半身及び下半身への分割を合理的かつ高精度に分行なうことができるようになる。
また、近年は、歩容(歩き方の特徴)も人物を特定する情報として有用である。この場合、外観人物特徴情報は人物の歩容を反映した歩容特徴量を含むものとして構成できる。歩容を特定する情報は、例えば歩幅(あるいは、歩行速度と連動した動きの周波数)、腕の振り角、歩行速度、歩行時の上半身角度や上下方向の揺れなどであり、その1種又は2種以上を組み合わせて使用できる。この場合、アバター生成部は、人物歩行動作を細分化したコマデータからなるアバターアニメーションデータを使用するものとして構成でき、背景画像上でアバター画像を歩行動作するアニメーションとしてリアルに表現できる。この場合、アバター生成部にて、コマデータの各コマを歩容情報に基づいて補正する画像補正処理を行い、画像合成部はアバター画像を、補正後のコマデータに基づき歩容特徴を反映させたアニメーション形態で背景画像に合成するものとして構成できる。アバターアニメーションデータの各コマの補正処理により、対応する人物の歩容情報反映したアバター画像の動きを容易に実現できる。
なお、歩容特徴量の抽出精度を高めたい場合、人物特徴情報抽出部は、歩容特徴量の抽出に必要な解像度が確保可能な有効半径にてカメラのレンズ中心からカメラ視野角がカバーされるよう、平面視における監視対象エリアへの有効撮影範囲の投影を扇形に描いたとき、該有効半径内の人物の歩容特定のための解像度が4cm/画素よりも高く(望ましくは3cm/画素よりも高く)確保されるように有効半径が定められているのがよい。
次に、アバター生成手段は、人物特徴情報抽出部が特定の人物について抽出した人物特徴情報を記憶する特徴量情報記憶部と、人物特徴情報抽出部が前記特定の人物について特徴量情報記憶部に記憶されている人物特徴情報よりも解像度の高い新たな人物特徴情報を抽出した場合に、特徴量情報記憶部に記憶されている特徴量情報を前記新たな人物特徴情報により更新する特徴量情報更新手段と、を備えるものとして構成することができる。本発明によると、監視エリア内を移動しつつある同一の人物が複数のカメラにより順次撮影され、個々のカメラによる特徴量抽出を順次的に進行させることができる。この場合、時系列的に早い段階で撮影されたカメラによる映像では特徴量抽出の解像度が比較的低くとどまる可能性がある(例えば、先行する映像では被写体の顔が隠れて見えにくくなる場合など)。そこで、そのような解像度の低い人物特徴情報が先行している場合、それと同一ないし別のカメラによる映像から新たな高解像度の人物特徴情報が得られたときに、解像度の低い古い人物特徴情報を該高解像度の人物特徴情報で更新して、これをアバター画像に随時反映させることで、アバター画像を効果的に進化させることができる。そして、本発明では人物がアングルの異なる複数のカメラで繰り返し撮影される結果、それに応じて人物特徴情報が高解像度側に更新される確率も高くなり、その後の人物異同判定の精度も向上できる。
また、本発明の情報尻装置は、人物特徴情報および座標情報をネットワークへ送出する情報送信部と、ネットワークから人物特徴情報および座標情報を受け取る情報受信部と、を備えたものとして構成でき、アバター生成部は情報受信部からの人物特徴情報に基づいて人物のアバター画像を生成し、画像合成部は情報受信部からの座標情報に基づいてカメラの撮影範囲の背景を表す背景画像に対しアバター画像を合成することにより合成画像を生成するように構成することができる。
この構成によれば、人物から抽出した特徴量の人物特徴情報と、カメラの撮影範囲における人物の座標情報とがネットワークへ送出される。そして、この人物特徴情報に基づいて人物のアバター画像が生成され、座標情報に基づいて、カメラの撮影範囲の背景を表す画像に、当該アバター画像が合成される。これにより、カメラの映像信号を送ることなく、受信側で背景画像とアバター画像とによって合成画像が生成されるので、カメラの映像信号を送る場合に比較して、ネットワークの通信帯域を有効に利用することが可能となる。
上記本発明の画像処理装置において座標情報抽出部は、撮影画面上に現れる人物をなす人物の接地点として識別される位置を撮影接地位置とし、当該撮影設置位置に現れる人物画像領域の撮影画面上の高さを人物撮影高さとして、座標情報抽出部は、人物が人物である場合の実空間における歩行面を高さ方向の基準として、カメラの撮影画面上に設定されるカメラ二次元座標系における平面座標点と実空間三次元座標系における歩行面上の空間座標点との変換関係と、カメラ二次元座標系における撮影接地位置毎の人物の撮影高さと実空間座標系での当該人物の実高さとの変換関係とを含む位置・高さ変換関係情報を取得する位置・高さ変換関係情報取得手段と、撮影画面上にて人物画像の撮影接地位置及び撮影高さを特定する撮影接地位置・高さ特定手段と、特定されたそれら撮影接地位置座標及び撮影高さの情報を、位置・高さ変換関係情報に基づいて実空間における人物の接地位置座標である実接地位置座標情報と実空間における人物の高さを情報である実人物高さ情報とに変換・生成する実人物座標・高さ情報生成手段とを備えたものとすることができる。また、アバター生成部は、生成された実人物高さ情報に基づいてアバター画像の高さ寸法を決定するアバター高さ決定手段を備え、画像合成部は、実接地位置座標情報に基づいて背景画像へのアバター画像の合成位置を決定するアバター合成位置決定手段を備えたものとすることができる。
三次元空間内の立体をカメラ映像から特定したい場合、映像は二次元データであるから、一般の立体の空間的な状態を1台のカメラ映像で特定することは原理的にできない。しかし、この発明が対象とする人物はカメラ撮影される平面上のエリア内を動き回る人物であり、上記構成によれば、その空間幾何学的な移動特性を考慮することで、カメラ映像上の人物画像領域の情報から実空間内の人物位置と高さとを容易に特定可能である。すなわち、監視対象エリアの人物の空間的な存在範囲は、床面や地面など、高さ方向(仮に実空間直交座標系のz軸方向とする)位置が一定の水平面(同様にx−y平面である)にほぼ限られており、その接地点(足元位置)のz座標は常に一定(例えば0)とみなしえる。つまり、監視対象エリア内を歩行する人物の接地点の座標は実質的にx−yの二次元系で記述でき、カメラ二次元座標系とも一義的な対応付けが可能となる。カメラ二次元座標系は実空間三次元座標系が射影変換されたものに相当し、カメラから隔たった人物ほど寸法が縮小されて投影される。この変換は数学的には行列で記述されるが、床面上ないし地面上の実空間座標系での予め知れた種々の位置に高さが既知の基準体を配置してカメラで撮影し、その基準体画像の撮影画面上での位置と高さとを、実空間上の位置及び実寸と比較することにより、カメラ画面上の人物の位置と高さを実空間上の位置と高さに変換する情報である位置・高さ変換関係情報を得ることができる。これを用いることによりアバター生成部は、背景画像上に合成するべきアバター画像の高さを容易に決定でき、画像合成部は、背景画像へのアバター画像の合成位置を合理的かつ容易に決定することができる。
次に、本発明の画像処理装置は、人物特徴情報抽出部が人物の動きまたは向きを解析して動作解析情報として出力し、画像合成部が動作解析情報に基づいてアバター画像の動きまたは向きを調整するものとして構成できる。これによれば、撮影された時点の人物の動きや向きに基づいてアバター画像の動きや向きが調整されるので、例えば人物の動く速度や動く方向を、アバター画像に反映させることができる。
この場合、カメラは動画撮影可能なものであり、座標情報抽出部は撮影された動画のフレーム別に人物をなす人物の座標情報を取得するものであり、人物特徴情報抽出部は、人物の座標情報のフレーム間の移動軌跡情報を動作解析情報として出力するものとして構成しておくとよい。現在のフレームに対し、これに先行するフレームの移動軌跡情報を解析すれば、現在のフレームに至る人物画像の動きを把握することが特に容易となる。
例えば、人物は、横歩きや後ずさりなどのイレギュラーな動きをしない限り、顔や胴体が前を向くように歩行動作するのが通常なので、人物画像の代表点(例えば接地点)の移動軌跡が判明していれば、歩行動作に応じた体の向きを逐次把握することができる。そこで、画像合成部は上記の移動軌跡情報に基づいて、背景画像上に合成するアバター画像の向きを調整するように構成できる。
この場合、アバター生成部は、カメラからの視点による当該人物の見え方が反映されるように、実空間における人物の移動方向に応じて異なる表現形態のアバター画像を生成するように構成できる。カメラ視点に対し人物の歩行方向が変化する場合、その歩行方向によるカメラへの映り方(角度)に応じてアバター画像を変化させることで、アバター画像の表現のリアリティーを増すことができる。
例えば、アバター生成部は、実空間における人物の予め定められた複数の移動方向別に表現形態が互いに異なる複数の二次元アバターデータを記憶する方向別二次元アバターデータ記憶手段を備え、先行するフレームについて取得されている移動軌跡情報に基づいて人物の移動方向を推定するとともに、方向別の二次元アバターデータから、推定された移動方向に適合するものを選択するものであり、画像合成部は、選択された二次元アバターデータに基づくアバター画像を背景画像と合成するものとして構成できる。アバター化する人物の移動方向を、上記のように決められた複数の方向から選択するようにしておき、かつアバターデータを二次元描画データとして構成しておくことで、用意するアバターデータの容量を大幅に削減することができる。
一方、アバター生成部は、アバター画像のデータを三次元アバターデータとして記憶する三次元アバターデータ記憶手段を備え、該三次元アバターデータに基づいて三次元アバターオブジェクトを生成するとともに、先行するフレームについて取得されている移動軌跡情報に基づいて人物の移動方向を推定し、推定された移動方向を向くように該三次元アバターオブジェクトの実空間上への配置方向を決定するものであり、画像合成部は、配置方向が決定された実空間上の三次元アバターオブジェクトを背景画像の二次元座標系に射影変換することにより二次元アバターデータを生成し、該二次元アバターデータに基づくアバター画像を背景画像と合成するように構成することもできる。この場合はアバターデータが三次元化されることでデータ容量は増すが、アバター画像の背景画像への貼り込み方向は無段階化でき、一層リアリティーのある表現が可能となる。
また、画像合成部は、移動軌跡情報に基づいて人物の動線を表す画像を生成することも可能である。この構成によれば、特定の人物が背景画像上でどのように動いたかを視覚的に把握することが容易となる。例えば、防犯目的等に有効活用することができほか、展示会場や公共施設等において個々の人物が関心を集める場所がどこにあるかを、動線画像の統計傾向分析により明確にできるなど、種々の利点を享受できる。
また、本発明において監視対象エリアは実空間座標を共有する形で複数のカメラによりカバーすることができる。各カメラは共通のエリアに対し異なるカメラ座標系で撮影を行なうが、共通の監視対象エリアの実空間を同一座標系にて張っておくと、のちに各カメラの撮影情報を統合したい場合に、前述した手法により人物の座標を、その共通の実空間(例えば、GPSなどで取得できるグローバル座標系など)上に変換する処理を行なうだけで直ちに統合処理も完了する利点がある。このとき、異なるカメラの視野感を同一人物が移動する場合、その画像の人物の同一性の判定をカメラ間で受け渡す必要が生じるが、この場合、上記の属性情報や外観人物特徴情報の一致度に応じて人物の同一性を判定するように構成すれば、特定の人物の追跡や、同一人物に同一アバター画像を使用する、といった判断にも容易に利用できる。
また、画像合成部は、複数のカメラの撮影範囲を含む俯瞰画像として合成画像を生成するように構成できる。これによれば、複数のカメラの撮影範囲の全体を一目で把握することができる。
さらに、上記のような俯瞰画像を得るためには、座標情報抽出部を次のように構成するとよい。すなわち、複数のカメラの撮影画面上に現れる人物の接地点として識別される位置を撮影接地位置とし、当該撮影設置位置に現れる人物画像領域の撮影画面上の高さを人物撮影高さとして、座標情報抽出部は、人物が人物である場合の実空間における歩行面を高さ方向の基準として、カメラの撮影画面上に設定されるカメラ二次元座標系における平面座標と、実空間三次元座標系における歩行面上の空間座標点との変換関係と、カメラ二次元座標系における撮影接地位置毎の人物の撮影高さと実空間座標系での当該人物の実高さとの変換関係とを含む位置・高さ変換関係情報を取得する位置・高さ変換関係情報取得手段と、撮影画面上にて人物画像の撮影接地位置及び撮影高さを特定する撮影接地位置・高さ特定手段と、特定されたそれら撮影接地位置座標及び撮影高さの情報を、位置・高さ変換関係情報に基づいて実空間における人物の接地位置座標である実接地位置座標情報と実空間における人物の高さを情報である実人物高さ情報とに変換・生成する実人物座標・高さ情報生成手段とを備えたものとして、座標情報抽出部を構成する。アバター生成部は、生成された実人物高さ情報に基づいてアバター画像の高さ寸法を決定するアバター高さ決定手段を備え、画像合成部は、実空間座標系における複数のカメラが撮影した人物の実接地位置座標情報を俯瞰画像の視点にて座標変換しつつ該俯瞰画像へのアバター画像の合成位置を決定するアバター合成位置決定手段を備えるものとして構成する。
これは、位置・高さ変換関係情報をカメラ側に付随させることで、撮影画面上の人物領域の位置と高さ情報を実空間座標系に変換する前述の構成を応用したものである。人物の画像情報を一旦実空間上の位置・寸法情報に変換してしまえば、俯瞰視点の背景画像にアバター画像を合成したい場合も、その俯瞰背景画像と実空間との変換関係を予め用意しておくことで、俯瞰視点の背景画像上へもアバター画像の合成を容易に行なうことができる。
本発明の作用及び効果の詳細については、「課題を解決するための手段」の欄にすでに記載したので、ここでは繰り返さない。
本発明の一実施形態にかかる画像処理装置の概略構成を示すブロック図。 図1の画像処理装置が使用するカメラの監視対象エリア内の配置例を示す平面模式図。 各カメラの高さ方向設置位置の設定例を示す側面図。 カメラの撮影範囲に設定された座標系の一例を示す模式図。 背景画像にアバター画像が合成された表示例を示す模式図。 座標情報付加処理の説明図。 図6に続く説明図。 レンズ歪補正の説明図。 座標情報付加処理の流れを示すフローチャート。 人物特徴情報抽出部の全体処理手順を示すフローチャート。 人物特徴情報抽出部が人体を各パーツに分けて特徴を抽出する様子を示す模式図。 人物特徴情報抽出部が人物属性情報を抽出する処理の流れを示すフローチャート。 人物画像領域の背景差分抽出の概念を説明する図。 背景画像の概念図。 移動体検出処理の一例を示すフローチャート。 背景差分処理に用いる混合正規分布の概念図。 影除去処理の説明図。 図17に続く説明図。 図15のステップC105の詳細を示すフローチャート。 HOT特徴量の抽出処理の説明図。 CSS特徴量の抽出処理の説明図。 画面上の人物画像領域の抽出状態の一例を示す図。 人物画像領域の高さhを、変換係数αを用いて実身長Hに変換する説明図。 座標位置・身長特定処理の流れを示すフローチャート。 歩容人物特徴情報の抽出概念を示す図。 移動軌跡情報の抽出概念を示す図。 受信部側に蓄積される履歴データベースの概念を示す図。 アバターデータベースの概念を示す図。 アバター画像の方向決定に用いる人物移動方向の概念を示す図。 アバター断片図形データの例を示す図。 アバター断片図形を合成してアバター画像を得る例を示す説明図。 アバターデータをアバターアニメーションデータとして構成する例を示す図。 アバター断片画像データを二次元のベクトル図形データとして構成する例を示す図。 受信部側処理の流れを示すフローチャート。 アバター作成処理の流れを示すフローチャート。 色特徴量の抽出処理の流れを示すフローチャート。 色特徴量に基づいて人物の異同特定を行なう処理の流れを示すフローチャート。 固定的な人体比率に従い人物画像を頭部、上半身及び下半身に分割する例を示す説明図。 図38の方法を用いた場合の誤分割の事例を説明する画像。 CSS特徴解析により、図38の誤分割不具合を解消する事例を示す画像。 表色系で表現した領域の色彩設定状態の比較により人物の異同特定を行なう処理の流れを示すフローチャート。 人物学習・補正処理の流れを示すフローチャート。 アバター学習・補正処理の流れを示すフローチャート。 エントランスカメラによる人物撮影画像の例を示す図。 エントランスカメラによる顔特定が困難になる場合の説明図。 カメラアングルが変わることにより顔特定が可能となる場合の説明図。 画面上寸法の大きい人物画像が取得できた場合の、特徴量抽出への貢献を説明する図。 解像度の高い顔特徴量により、解像度の低い顔特徴量を更新する概念を示す図。 解像度の高い色特徴量により、解像度の低い色特徴量を更新する概念を示す図。 歩容特徴量抽出に適した人物画像の例を示す図。 歩容特徴量抽出に適した人物画像の別例を示す図。 障害物により着目している人物の特徴量が抽出できなくなる例を示す説明図。 異なるアングルのカメラ画像により特徴量抽出が可能となる例を示す説明図。 アバター背景合成処理の流れを示すフローチャート。 統合モード表示処理の流れを示すフローチャート。 統合表示モードにおける平面視表示形態の一例を示す図。 同じく俯瞰視表示形態の一例を示す図。 三次元アバター画像を表示する例を示す画像。 本発明の応用例を示す模式図。 監視対象エリアのカメラレイアウトの第一の変形例を示す図。 同じく第二の変形例を示す図。 同じく第三の変形例を示す図。 同じく第四の変形例を示す図。 同じく第五の変形例を示す図。 同じく第六の変形例を示す図。 図1の画像処理装置の変形構成例を示すブロック図。
以下、図面を参照しながら、本発明の具体的な実施形態について詳しく説明する。
まず、図1を参照しながら、本発明の一実施形態にかかる画像処理装置1の構成と動作の概略について説明する。図1は、画像処理装置1の概略構成を示すブロック図である。画像処理装置1は、映像解析部12(情報送信部)と、映像表示処理部13(情報受信部)とを有している。映像解析部12と、映像表示処理部13とは、ネットワーク15を介して接続されている。ネットワーク15は、例えばインターネットなどの公共ネットワークであるが、ローカルネットワークなどのプライベートネットワークであっても良い。また、ネットワーク15ではなく、一般的な通信ケーブルで接続されていてもよい。
映像解析部12は、監視対象エリアの様々な場所に設置された複数のカメラ11(11a,11b・・・)から映像信号を受信し、送信前処理(後に詳述する。)を行ってからネットワーク15へ送出する。なお、図1においては、カメラ11を2台のみ図示しているが、カメラの台数は任意である。カメラ11と映像解析部12との間の通信は、有線通信であっても良いし、無線通信であっても良い。また、映像表示処理部13は、映像解析部12からネットワーク15を介して送信された映像信号を受信し、受信後処理(後に詳述する。)を行ってから、モニタ14へ表示させたり、必要に応じて映像記録装置(図示せず)へ録画したりする。
映像解析部12は、座標情報抽出部121、人物特徴情報抽出部122、複数カメラ連携部123、および、映像解析部124を備えている。座標情報抽出部121および人物特徴情報抽出部122は、一つのカメラ11に対して一組ずつ設けられている。例えば、図1においては、カメラ11aに対して座標情報抽出部121aおよび人物特徴情報抽出部122aが設けられ、カメラ11bに対して座標情報抽出部121bおよび人物特徴情報抽出部122bが設けられている。また、人物特徴情報抽出部122は、カメラ11で撮影された映像信号から人物領域を検出し、さらに、それぞれの人物の顔及び外観(例えば、着衣、髪型、体形、持ち物等)についての特徴を抽出する。座標情報抽出部121は、カメラ11で撮影されるエリア内の人物の位置を、座標情報として検出する。
本実施形態において画像処理装置1は、カメラで撮影した映像信号をそのまま圧縮して伝送するのではなく、人物特徴情報抽出部122で得られた人物特徴情報と座標情報抽出部121で得られた座標情報のみを、ネットワーク15を介して伝送するようにしている。そして、この人物特徴情報と座標情報とを受け取った映像表示処理部13側では、それぞれのカメラ11の撮影範囲の背景画像を予め記録しておき、前記の人物特徴情報に基づいて個々の人物を的確に表すアバターの画像を生成し、前記の座標情報にしたがって、背景画像の適宜の位置にアバター画像を合成する。このようにすることで、撮影された映像信号をそのまま圧縮して伝送する場合と比較して、伝送されるデータ量が少なくて済むので、ネットワークの通信帯域を有効に利用することができる。
なお、画像処理装置1は、複数のカメラ11と接続されているので、前述のように、カメラ11のそれぞれについて座標情報抽出部121および人物特徴情報抽出部122を備えている。このため、複数カメラ連携部123は、座標情報抽出部121で得られた座標情報と、人物特徴情報抽出部122で得られた人物特徴情報とに、複数のカメラ11のうちいずれのカメラの映像信号から得られた情報であるかを示すタグ情報を付与して、映像解析部124へ送る。映像解析部124は、複数カメラ連携部123から得た情報を所定の規格で符号化し、ネットワーク15へ送出する。
映像表示処理部13は、映像表示処理部131、アバター生成部132、および、画像合成部133を備えている。映像表示処理部131は、ネットワーク15から受信した情報を復号化し、アバター生成部132へ送る。アバター生成部132は、受信した情報に含まれる人物特徴情報に基づいて、撮影された人物を表すアバターの画像を生成する。アバター生成部132で生成されたアバター画像は、座標情報と共に画像合成部133へ送られる。画像合成部133は、アバター画像と座標情報とに基づいて、それぞれのカメラ11の撮影範囲の背景画像とアバター画像との合成画像を生成し、モニタ14へ表示させる。このとき、どのカメラ11の映像信号から得られた情報であるかを示す前記のタグ情報は、背景画像を特定するために用いられる。
なお、図66に示すように、図1にてネットワーク15を介して映像解析部12と映像表示処理部13とに分散していた各機能実現部を1つの主処理装置1Mに集約し、ネットワーク通信機能部分を省略した構成とすることも可能である。
図2は、監視対象エリアにおける各カメラの配置レイアウトの例を示すものである。本実施形態において監視対象エリアWAは展示会場であり、大小複数の展示ブースBTが通路ALを介して会場全体にレイアウトされている。そして、この通路ALを行きかう人物(来訪者)HMが複数のカメラ11a〜11cにより監視されている。矩形をなす監視対象エリアWAの全体は、複数の矩形のサブエリアSA(本実施形態では正方形状に設定されている)に区画されており、各サブエリアSAには、その対角線方向の角部に互いに対をなす第一のカメラ11a及び第二のカメラ11bが配置されている。これにより、同じサブエリアSAに属する第一のカメラ11aと第二のカメラ11bとは、各カメラの正面に位置する人物HMを互いに反対方向から撮影する位置関係となる。
そして、これら一対のカメラ11a,11bの視野の向き及び配置距離は、各カメラ11a,11bの有効撮影範囲EPa,EPbの間に重なりが生ずるように設定されている。ここで、カメラの有効撮影範囲とは、そのカメラの全撮影範囲において、被写体である人物から特定の特徴量の抽出に必要な解像度が確保可能な撮影範囲のことをいう。具体的には、特徴量抽出に必要な解像度が確保可能な有効半径にて、各カメラ11a,11bのレンズ中心からカメラ視野角がカバーされるよう平面視における監視対象エリアWAへの有効撮影範囲の投影を扇形に描いたものとして把握される。
図1の例では、平面視にて視野角90°のカメラの視野角がサブエリアSAの頂角と一致し、かつ、有効半径Rが正方形状のサブエリアSAの1辺と等しくなるように定められている。その結果、サブエリアSAの中央には、一対のカメラ11a,11bの有効撮影範囲EPa,EPbにより、各々半径Rの2つの四分円弧に囲まれた葉型の重なり領域SLA(サブエリアSAの全面積の約57%)が形成されている。この重なり領域は、2つのカメラ11a,11bのいずれからも特徴量抽出に必要な解像度が確保できるエリアであることを意味する。
図1では、監視対象エリアWAの全体が4つのサブエリアSAにより区画され、第一のカメラ11aが監視対象エリアWAの4つの角部に位置し、第二のカメラ11bが監視対象エリアWAの中央付近に集合するように、各々幾何学的に合同なレイアウトにてカメラ11a,11bが配置されている。このように1対のカメラ11a,11bが配置されたサブエリアSAを単位として用いることにより、図60に示すように、より広大な監視対象エリアWAについても、サブエリアSAの数を増やすことで全体を容易にカバーすることができる。
また、本実施形態では、上記カメラ11a,11bとは別の補助カメラとしてエントランスカメラ11eが配置されている。該エントランスカメラ11eは監視対象エリアWAである展示会場への入場者を個別に撮影するために、入り口ETを会場内側から見込む位置に設置されている。図3に示すように、エントランスカメラ11eは、会場全体の監視把握のために配置されるカメラ11a,11bよりも焦点距離が長く、視野角の狭いカメラであり、入り口ETから歩行しつつ入場する人物HMの顔を含めた全体(頭部、上半身、下半身)が視野内に収まるように設置高さ及び位置が定められている。一方、カメラ11a,11bについては、受け持ちのサブエリアSA内を俯瞰しつつサブエリア全体での人物の位置把握と身長ないし体形の特定とが可能となるよう、エントランスカメラ11eよりもやや高い位置(例えば、平均的な成人男性身長の1.5倍以上3倍以下)に取り付けられている。
本明細書にて解像度は、被写体上の実寸が1画素当たりに何cm割り振られるか(単位:cm/画素)により表示し、この数値が小さいほど解像度が高くなることを意味する。例えば16:9サイズ画面の短辺方向の画素数は、標準解像度(SD)カメラで約500、ハイビジョン(HD)カメラで約1000であり、後者は前者の約2倍の解像度を有しており、約2倍遠方の被写体でも解像度を確保することができる。
特徴量抽出に必要な解像度の下限値(以下、限界解像度という)は、抽出したい特徴量の種別によって異なり、例えば以下の通りである。
・顔特徴量:1.5cm/画素よりも高くする(より望ましくは1.0cm/画素よりも高くする)。被写体までの距離にて、標準仕様カメラで23m以下(望ましくは15m以下)、ハイビジョンカメラで約45m以下(望ましくは30m以下)。
・歩容特徴量:4.0cm/画素よりも高くする(より望ましくは3.0cm/画素よりも高くする)。被写体までの距離にて、標準仕様カメラで60m以下(望ましくは45m以下)、ハイビジョンカメラで約120m以下(望ましくは90m以下)。
・着衣、頭髪、持ち物にかかる特徴量:6.0cm/画素よりも高くする(より望ましくは5.0cm/画素よりも高くする)。被写体までの距離にて、標準仕様カメラで90m以下(望ましくは75m以下)、ハイビジョンカメラで約180m以下(望ましくは150m以下)。
本実施形態では、カメラ11a,11b,11eは標準仕様カメラであり、サブエリアSAの1辺の長さは約15mとされている。したがって、カメラ11a,11bの有効撮影範囲の半径Rも約15mであり、顔特徴量、歩容特徴量及び着衣、頭髪、持ち物にかかる特徴量のいずれを抽出する上でも十分な解像度が確保されている。
次に、座標情報抽出部121の処理について説明する。座標情報抽出部121は、それぞれのカメラ11の撮影範囲に対して設定された座標系において、人物がいる位置の座標を特定する。例えば図4に示すように、一つのカメラの撮影範囲において、x−y座標系51を設定する。図1の座標情報抽出部121は、このx−y座標系51において、人物特徴情報抽出部122が特定した人物領域の座標を検出する。ここで検出された座標は、当該人物のいる位置を表す座標情報として、人物特徴情報と共に映像表示処理部13へ送られる。
三次元空間内の立体をカメラ映像から特定したい場合、映像は二次元データであるから、一般の立体の空間的な状態を1台のカメラ映像で特定することは原理的にできない。しかし、本発明が対象とする人物はカメラが撮影するエリア内を動き回る人物であり、その空間幾何学的な移動特性を考慮することで、図4に示すカメラの画面上の人物画像領域PAの情報から実空間内の人物位置と高さを特定可能である。すなわち、撮影対象となるエリアの人物の空間的な存在範囲は、床面や地面、図4の場合は人物が歩行する路面RSなどであり、要するに高さ方向(z軸方向)の位置が一定の水平面にほぼ限られている点に着目する。この路面RSは、直交座標系にてz軸座標が常に0のx−y平面であり、該路面RS上を歩行する人物の接地点の座標は実質的にx−yの二次元で記述でき、三次元空間内の点でありながら、撮影画面に設定されるカメラ二次元座標系と一義的な対応付けが可能となる。なお、図5は、後で詳述するアバター合成後の映像の一例を示すものである。
他方、カメラ二次元座標系は実空間三次元座標系が射影変換されたものに相当し、カメラ光軸方向に隔たった人物ほど寸法が縮小されて投影される。これは数学的には射影変換行列で記述されるが、実空間座標系での予め知れた種々の位置に基準体を配置してカメラで撮影すれば、その基準体画像の撮影画面上での位置と高さを実空間上の基準体の位置及び実寸と比較することにより、カメラ上の人物の映像位置・高さを実空間上の位置・高さに変換する位置・高さ変換関係情報を得ることができる。その具体例を図6〜図8の説明図及び図9のフローチャートを用いて説明する。
すなわち、カメラの撮影視野SAにおいて、路面RS上に高さが既知の基準体SCを前後左右の種々の位置に配置し撮影を行なう。図9のS501では、その基準体の高さHを入力する。すると撮影画面SA上では、これは同一の基準体に由来したものであるにもかかわらず、カメラ11からの距離に応じて異なる寸法の基準体画像SCIとなって現れるので、これを抽出する(S502)。これらの基準体画像SCIは全て同じ路面RS(すなわち、x−y平面(z=0))上にあるので、その下端を表す点(基準点)p1〜p3は実空間においてすべてz=0の接地点である。そこで、この基準点p1〜p3を画面上に設定されたカメラ二次元座標系であるξ−η座標系にて読み取り、基準点の画面座標データp(ξ,η)として記憶する(S503)。なお、画面上のどのエリアが路面RSを表すかについては、路側縁REや路面上の白線WLなどの画像を参考にすることができる。
次に、撮影画面上の映像はカメラレンズの歪の影響を受けるので、実空間の厳密な射影変換画像とはなっておらず、視野内の位置に応じて画像にゆがみが生じていることがある。図8の左に示すように、そのひずみは画面の端に近い領域ほど大きく座標系も非線形化する。例えば、広角レンズなど視野角の大きいレンズでは外向きに凸状の歪となり、逆に望遠レンズなど視野角の小さいレンズでは凹状の歪となる。そこで、この歪を解消し、直交平面座標系の点となるように変換補正を行なう(S504)。この時の補正係数は、例えば図6において、画面上に現れている白線WLなど、実空間上で直線であることが予めわかっている図形の形状が直線化するような最適化演算によって定めることができる。なお、この補正により画面の端ほど歪み解消に伴い寸法は伸長するから、補正後の画面形状SA’は元の画面SAの外にはみ出すこととなる。
次いで、図7に示すように、基準体SCの実空間系での座標を決定する。例えば、測量による場合は、カメラ11から路面に設置した基準体SCまでの距離dと、カメラから基準体を見込む線と基準線(例えば、x軸方向)とのなす角度θを測定すれば、
x=d・cosθ
y=d・sinθ
として基準体SCの接地点の実空間座標P(x,y,0)を求めることができる。他方、衛星測位システム(GPS)により座標を直接特定してもよい。なお、ここで用いられる実空間座標系は、それぞれのカメラの撮影範囲内に設定される独立した座標系であっても良いし、衛星測位システム(GPS)から提供されるグローバル座標系と連動していても良い。ただし、後述するが、複数のカメラの撮影範囲を統合して一つの空間を生成する場合は、それぞれのカメラの座標系を連結する必要があり、複数カメラが連携撮影するエリアに対し、統合的な実空間座標を張っておくことが望ましい。また、x−y座標系51を設定する際に、例えばLEDライト等を用いて、キャリブレーションを行なうことが望ましい。
次に、図6において、基準体画像SCIの画面上の高さhを読み取る(図9:S506)。基準体SCの実高さHは既知なので、基準体画像SCIの高さhを実高さHに変換する係数
α=H/h
を計算し(S507)、画面座標データp(ξ,η)と実空間座標データP(x,y,0)と互いに対応付て記憶する(S508)。以上の処理をすべての基準体SCについて繰り返したのち(S509→S501)、路面RS上にて実測していない主要点でのp,P,αの組を補う処理を行なう。この処理は補間データを取得するステップとして行ってもよいし、得られているp,Pの組から射影変換行列の要素を定める処理として行ってもよい。そして、これらの情報が位置・高さ変換関係情報を構成することとなる。
なお、図6に示すように、座標情報の取得には、基準体SCに代えて人物SPを用いてもよい。この場合、人物SPの身長を入力し、その人物SPがカメラの有効撮影範囲の四隅などを歩くことでカメラ画角と位置情報を学習取得するキャリブレーション方式などを用いてもよい。
次に、人物特徴情報抽出部122による特徴量抽出処理の内容について詳しく説明する。図10は、人物特徴情報抽出部122の処理手順を示すフローチャートである。図11は、人物特徴情報抽出部122が人体を各パーツに分けて特徴を抽出する様子を示す模式図である。人物特徴情報抽出部122は、対応するカメラ11から所定数のフレームの映像信号を入力すると、図13に示すようにフレームFM間の差分を取ることにより、映像信号に映り込んでいる動物体MOを検出する(図2のステップS11)。具体的には、先行するフレームの画像領域MO’と後続のフレームの画像領域MOとは、画像領域が動物体であればフレーム間で位置や形状が変化するが背景は変化しないので、両フレーム間の画像差分をとれば動物体の画像領域MOを抽出することができる。一方、動物体が存在しない状態で撮影すれば、図14に示すように背景画像BPが得られる。上記の背景画像BPはカメラごとに撮影され、図1の受信部13に送信されて該受信部13をなすコンピュータがアクセス可能な記憶装置135(本実施形態では外部記憶装置ないし別のコンピュータにて構成された情報蓄積・統計処理部)に格納される。
次に、人物特徴情報抽出部122は、ステップS11で検出した動物体の画像に対して、セグメンテーション、エッジ検出、パターンマッチング等を行なうことによって人物領域を抽出し、その動物体が人物か否かを判断する(ステップS12)。なお、映像信号からの動物体検出処理や人物抽出処理については、様々な手法を用いることができ、特定の手法に限定されない。また、映像信号から検出された動物体のうち、そのサイズが比較的小さいものはノイズである可能性が高いので人物ではないと判断し、比較的大きいサイズの領域については人物であるものと判断しても良い。
以下、人物検出の典型的な処理例について説明する。
図15は移動体検出処理の流れを示すフローチャートである。C101では、まず、背景画像を混合正規分布の概念を用いてモデル化しておく。この手法は周知であるため(例えば特許文献6)、詳細な説明は略するが、概要は以下の通りである。すなわち、背景差分を用いた人物領域抽出にあっては、背景が全てキャンセルされるよう、差分に用いる人物領域の映り込んだ画像と背景のみを撮影したブランク画像との間で、背景部分が等価であることが望ましい。しかし、定点的なカメラの撮影画像にあっては種々の要因によって背景画像にも微細な変化は常に生じていると考えなければならず、実際問題として1画素単位の誤差が画像ごとに変動し、単純に差分を取っても、その誤差の影響により動物体領域を精度よく抽出することは実質的に不可能なケースが多い。該誤差の要因は背景の種類により種々存在し、例えば外光の向きや強度、風などによる背景構成体の揺らぎなどを例示できる。
そこで、背景を構成する画素が人の目に同じ背景と実質的に認識できる範囲内で変動する場合の画素設定値の分布を、複数個の正規分布(ガウス分布)の重ね合わせで表現できると仮定する(混合正規分布:図16は、重ね合わせ数Kが2の場合を示す)。そして、その重ね合わせる正規分布の個数と重み、個々の正規分布の平均及び分散を未定パラメータとして、種々の外乱要因を組み込んだ多数のサンプル背景差分処理を通じて回帰的にこれらの未定パラメータを決定することにより背景モデルを得るようにする。なお、モデル決定後において実際の動物体検出処理を開始後も、カメラごとに背景の監視を継続し、画素設定値に有意な差が検出されるごとに背景を規定する混合正規分布の更新を行なうことが望ましい(図15:C106)。
図15に戻り、C102では上記で得られた背景モデルを用いて前述の背景差分法により前景画像を抽出する。このとき、図17あるいは図18に示すように、背景に含まれる接地面に動物体の影が映り込み、この影が動物体の一部として前景抽出されてしまうことがある。そこで、C103ではこの影を除去する処理を行なう。影除去処理自体は周知(例えば特許文献7)であるが、例えば本実施形態では、影領域と背景領域の類似性を利用した影領域の検出・除去を以下のようにして行なう。
(影除去方法1)
まず現在取得した観測画像と予め取得した移動物体が入っていない背景画像との各画素のRGBの輝度値の各差分に対して二乗和sumをとる。二乗和sumは(1)式により得られる。
ここでRGBは観測画像の輝度値、R′G′B′は背景画像の輝度値を示す。
次に、上記算出したsumを背景画像と観測画像の類似度を示す値として用い、その注目画素が人などの移動物体であるのか、影であるのかを判断する。影はその濃さによって背景部分を透過する性質があるので、影が薄ければ背景と影の輝度値は近い値となるのは明白である。すなわちsumの値が大きければ互いの画素は似通っていないことを意味し、小さければその画素は似通っていることを意味する。その判定方法を以下の(2)式に示す。
ここでThresholdは閾値を示し、sumの平方根を取ったものが閾値より小さければその画素は背景との類似度が高いため影と判断し、それ以外は類似度が低いため移動物体と判断する。
(影除去処理2)
この手法は注目画素の近傍の画素にも注目し、背景の模様やパターンなどを利用して影除去するものである。処理に先立って、予め取得した、移動物体が入っていない背景画像(ブランク画像)と現在観測された画像とに対して、画像輪郭のコントラストを高めるため、ハイパスフィルタを適用することが望ましい。このような画像に対して、移動物体検出で前景とみなされた領域の画素値を比較していく。比較方法は注目画素の近傍の複数個(図17に9個の場合を示す)の画素について行い、それぞれの画素値の差分に対して二乗和をとる。二乗和は(3)式となる。
ここでdifiは近傍画素のi番目の画素同士の差分とする。
次に、上記算出したsumを背景画像と観測画像のテクスチャにおける相関を表す値として用い、その注目画素が影領域の画素か否か判断する。すなわちsumの値が大きければお互いの画像のテクスチャが類似していないことを意味し、小さければ類似していることを意味する。その判別方法は以下の(4)式で与えられる。
ここでThresholdは閾値であり、相関値の平方根を取ったものが閾値より小さければその画素を影とみなし、それ以外は移動物体とみなす。
図15に戻り、C104では影除去後の抽出領域に対しモルフォロジー演算を行なう。この処理は、二値化した白黒画像内の図形を1画素分膨らませる膨張処理や、1画素分縮める縮小処理を数回組み合わせて行なう処理などであり、二値化画像の平滑化や独立点除去などの効果がある。代表的な手法としては、収縮処理を複数回行った後に膨張処理を複数回行なうオープニング処理や、膨張処理を複数回行った後に収縮処理を複数回行なうクロージング処理などがある。オープニング処理は、図形の突起部分を除去したり、結合部分を分離する効果を有し、クロージング処理には図形の穴埋めをしたり、切断部分を結合する効果がある。
次に、C105に進み、動物体(人物)検出処理となる。その詳細を図19に示している。まず、D101では、検出された動物体に対する外接矩形を求め、これを検出窓として設定する。続いて、この検出窓内に画素マトリックスからなるセルを設定し、このセルにより検出窓内をスキャンしながら、スキャン位置毎にセル内の画素の特徴量を算出する(D103及びD104)。具体的には、D103でHOG(Histograms of Oriented Gradients)特徴量を、D104でCSS(Color Self−Similarity)特徴量を演算する。
図20はHOG特徴量の算出概念を示すものであり、セルは5×5画素のマトリックスとしている。まず対象領域の各ピクセルにおいて、注目画素の輝度値から勾配強度と勾配方向(本実施形態では9方向)とを求める。次に算出した勾配強度と勾配方向を用いて、セルごとに輝度の勾配方向ヒストグラムを作成する。最後に各セルについて作成したヒストグラムを、近傍セルの集合体(図20では3×3セル)であるブロック内で正規化する。正規化はブロックを1セルずつ移動しながら行なうものであり、複数のセルで構成されるブロック領域毎に正規化することで、照明変化や幾何学的変化の影響を受けにくく画像上での動物体の形状特徴を的確に反映した特徴量を得ることができる。
図21はCSS特徴量の算出概念を示すものである。
まず入力されたカラー画像に対し、各画素の色空間を次式でRGBからHSV(色相、彩度、明度)に変換する。
ここでR、G、BはそれぞれRGBの画素値であり、MAXおよびMINはRGBの画素値中での最大値および最小値である。
次に、HOG特徴量の算出と同様に、検出窓により得られた対象領域を局所領域のセルに分割し、セルごとにHSV表色系の色ヒストグラムを作成する。ここでヒストグラムを作成する際のH、S、Vの量子化数をNとすると、1つのセルから得られるヒストグラムの次元数は3×N次元となり、セル内の全ピクセルの量子化されたHSVの値の頻度を蓄積していく。そして、上記で作成した全てのセルヒストグラムに対して、それぞれのヒストグラム同士の類似度を(8)式のユークリッド距離によって算出する。
HOG特徴量は検出対象の形状に関する特徴量であったのに対し、CSS特徴量は色情報に基づいた特徴量である。人物の着衣には幅広いバリエーションがあるため、何の指定もなしに色を抽出しても人物を検出する特徴量とはならない。他方、CSS特徴量ではHOG特徴量同様に画像をセル領域に分解し、それぞれのセル同士で算出された色の類似度、つまり色の特徴を把握したい領域内部の色彩の自己相似性(Self−Similarity)がどの程度であるかを意味する特徴量である。一般の人物の着衣は、上半身と下半身において同様の色をしていることが多く、上半身ないし下半身の着衣が内包する色彩の自己相似性(Self−Similarity)には、「人間」の着衣であるということ、ひいてはその着衣を有する動物体が「人間」であるということが、より的確に反映されうる。また、制服等で画一化されている場合は別として、人間の着衣の色彩は、その人の趣味や好みを反映して固有のものとなりやすい。この観点にてCSS特徴量を用いた解析手法は、異なる画像に検出された人物の異同を判別する上で有用である。
図20あるいは図21に示すように、画像上に設定された検出窓は動物体領域に外接するように定められ、検出窓内の動物体画像が人物であれば、上記HOG特徴量から人物領域を構成すると判定されるべき領域とそうでない領域との境界線を合理的に決定できる。そして、その外形線を基準に人物領域の内側領域と外側領域とを判別し、内側領域と推定されるセルがCSS特徴量にて色彩の自己相似性を有すると判定されれば、そのセルは人物領域を構成するセル(以下、「人物領域セル」という)であると判定することができる。こうして判定された人物領域セルは、CSS特徴量が示す色情報と対応付けて順次メモリに記憶(スタック)されてゆく。
このセルの数は、一般的な身長の人物であって人体形状の識別に適した姿勢(例えば立位であって、ほぼ全身がカメラの視野に捉えられていること)で撮影されていれば、前述の検出窓内に占める人物領域セルの数(あるいは比率)は一定レベル以上に大きくなるはずである。そこで、検出窓内の人物領域セルの数(あるいは比率)に一定の閾値を設定しておき、スタックされた人物領域セルの数がこの閾値に到達しつつ、全セルについての判定が終了したところで人物領域セルを統合し、IDを付与しつつ人物検出結果として登録・記憶する(図19:D105→D106)。なお、本実施形態では、人物領域セルの統合結果を、をCSS特徴量から決定される色彩にて各セルの外形線を着色しつつ表示・出力できるようにしている。
一方、人物領域セルの数がこの閾値に到達せずに、全セルについての判定が終了した場合は、人物領域が検出されていてもD106の処理及び人物検出結果としての登録を行なわない。これは、人物領域セルの数が閾値未満になっているということは、検出されている人物領域が人体形状の識別に適した形状(姿勢)でないか、あるいは人体の必要な部分の全てがカメラの撮影視野に写り込んでいない、と判断されるためである。なお、カメラに人物が近づきすぎて、人体の一部によりカメラの撮影視野の大半が覆われてしまうこともあり得るから、上記の閾値には、上限と下限の両方を設けておくようにすることもできる。なお、撮影視野に複数(=N)の動物体領域が検出されている場合は、すべての動物体領域の検出窓について同様の処理が繰り返される(D102→D106)。
HOG特徴量とCSS特徴量とに基づいて、検出窓内のセルが人物領域セルであるかそうでないかを判定するエンジンについては、人物が写り込んだサンプル画像(ポジティブサンプル)と、逆に非人物が写り込んだサンプル画像(ネガディブサンプル)とを用いて判定学習させることができるように構成しておくことが望ましい。この学習方法については種々の方式が存在するが、本実施形態では周知のRealAdaBoostにより特徴選択を行なう学習アルゴリズムが採用されている。このアルゴリズムの概要は、以下の通りである。
(i)どの学習サンプル(上記のポジティブサンプル及びネガティブサンプル)の重要度も、最初は同じに設定する。
(ii)でたらめよりは多少ましな程度の弱識別器を多数用意する。
(iii)学習サンプルを与えて、どの弱識別器が良くあてるかを調べる。ただし、学習サンプルには重要度があるので、重要度の高いサンプルを間違えると、減点が大きくなり、ダメな弱識別器のレッテルが貼られる。
(iv)最もよく当たった(間違いによる減点が少なかった)弱識別器を探し出し、学習サンプルと識別結果を比較し、間違った学習サンプルの重要度を高める。つまり、各弱識別器に対して、このサンプルに対する訓練を強化する。
(v)優秀な弱識別器と、ダメなものとが次第に明確になるので、最終的に、優秀な弱識別器には重みを増し、そうでないものには、重みを減らしたり、削除したりして、最終的に上位となる所定数の弱識別器を結合することにより、全体的に強力な識別器(今日識別器)を構成する。
本発明への適用を考える場合、弱識別器は、検出窓内のセルについてHOG特徴量とCSS特徴量との双方に基づいて当該セルが人物領域セルであるか否かを識別するソフトウェア的な機能実現手段として構成される。HOG特徴量とCSS特徴量との抽出に使用される検出窓内のセルの数は、各々例えば数十のレベルであるが、HOG特徴量の場合はセルごとにヒストグラムのクラスの数が特徴量の次元数に乗算で寄与する。他方、CSS特徴量の場合はすべてのセルについて色の類似・非類似が二値的に識別されるから、全てのセルについての二値識別の組み合わせが特徴量の次元数となる。これらはいずれも数100〜数1000の次元数となるが、各特徴量に基づく人物領域セルであるか否かの識別は互いに独立した事象であるから、実質的な特徴量の次元数はその合計で与えられる。弱識別器は、上記合計次元数の各特徴量についてのポジティブクラス(+:検出対象)とネガティブクラス(−:非検出対象)とのそれぞれについて、学習サンプルの重みに基づき、全ての次元の特徴量を渡る形で確率密度関数を順次作成する。各弱識別器の評価値は上記の確率密度関数を用いて算出され(評価値は0〜1の範囲の実数である)、その結果を用いて弱識別器が評価値の高い順にソートされる。この処理は、学習サンプルを変えながら繰り返し実行され、最終的に上位を示す所定数の弱識別器が強識別器に組み込まれて採用される。
次に、上記の人物領域の抽出に随伴して、人物の位置座標と身長を特定する処理がなされる。以下、図22及び図23の説明図と、図24のフローチャートを用いて説明する。まず、図22に示すように、検出された人物領域PAの下端縁位置を接地点pとしてみなし、その画面上の座標p(ξ,η)を読み取り(図24(以下、同じ):S1201)、前述の位置・高さ変換関係情報を参照し、物の姿勢により人物領域の高さ方向寸法は変化するので、最も直立状態に近いと思われる人物領域の画像を全そのフレーム内を検索して特定する(S1203)。例えば、歩行中の人物については、両足を開いている姿勢よりは、先に踏み出した足に対し後方に位置する反対側の足を次に踏み出す過程で、先に踏み出したほうの足にほぼ重なるときが直立姿勢に最も近いから、そのようになる画像フレーム上での人物領域を用いて領域の高さhを画面上で測定する(S1204)。そして、図23に示すように、前述の位置・高さ変換関係情報に含まれる変換係数αを用いてこれを実身長Hに変換する(S1205)。
また、人物特徴情報抽出部122は、さらに、各部位の動作を解析する処理(ステップS15)を行なうことが好ましい。例えば、頭p1については、頭の動作(動きや向き)が検出される。人体の部位のうち、認識が最も容易であるのは頭であると言われている。最初に頭p1を抽出することで頭の向きが分かれば、他の部位の状態や動く方向等を特定し易い。また、例えば、頭が右を向いている場合、後述のパーツ化において、左手や左足は隠れていて見えない可能性があるという推定を働かせることも可能となる。
歩行中の人物の動作であれば、動作は歩容情報として解析取得される。この場合、胴体p2の動作としては、例えば、図25に示すように、上半身角度ψなどの姿勢や猫背か否か等が検出される。右手p3・左手p4の動作は、例えば、手の振り各λ等として検出される。右足p5・左足p6の動作としては、例えば、歩速、歩幅WL、ひざ曲げ角などが検出される。ここで検出された歩容等の動作解析情報は、動作解析情報として映像表示処理部13へ送られ、当該人物を表すアバターの動きや向きに反映される。
また、動作の解析情報として重要なのは、人物の移動方向である。図26に示すように、撮影された動画のフレーム別に人物の座標情報P1、P2、・・・Pnが特定された場合、その座標情報P1、P2、・・・Pnの組は当該人物のフレーム間の移動軌跡情報を構成することとなる。そして、隣接するフレーム間の座標Pn、Pn−1の位置ベクトルVn、Vn−1の差Vn−Vn−1(動作方向ベクトル)は位置Pnでの人物の動作方向(移動方向)を表す指標として使用でき(すなわち、動作方向情報)、後述のアバター画像の方向決定にも有効活用される。
次に、人物特徴情報抽出部122は、図10のステップS12で抽出された人物領域P(図11の(a)参照)を、頭p1、胴体p2、右手p3、左手p4、右足p5、左足p6の6部位(図11の(b)参照)にパーツ化する(ステップS13)。そして、パーツ化された6部位のそれぞれについて、外観的な特徴の解析を行なう(ステップS14)。例えば、頭p1については、髪型、髪色、帽子の有無等が特徴量として抽出される。胴体p2については、体形、着衣の形、着衣の色、リュックサックなどの特定の持物の有無等が特徴量として抽出される。右手p3・左手p4についての特徴量は、例えば、体形、着衣の形(あるいは種別)、着衣の色、持物等である。右足p5・左足p6についての特徴量は、例えば、体形、着衣の形(あるいは種別)、着衣の色、靴等である。
なお、パーツ化する際のパーツ数は6つに限定されない。処理負荷を軽減する目的で、例えば、頭、上半身、および下半身、の3部位に分割することも考えられる。逆に、よりリアルなアバターを生成するために、6つよりも多い数のパーツに分割することも考えられる。抽出されたパーツごとの特徴量は、特徴データとして出力され、映像表示処理部13へ送られる。
抽出される特徴量(特徴データ)のバリエーションは、後述の通り、映像表示処理部13で生成される当該人物のアバター画像において、各部位の構成要素(部分画像)のバリエーションに対応する。例えば、髪型の特徴量として「長髪」が抽出された場合は、アバターの頭髪として「長髪」の部分画像が使用される。また、例えば、胴体が太い人物の場合は、アバターの胴体の部分画像として太い胴体が用いられる。なお、図19のフローチャートでも説明した通り、図10のステップS11およびS12において一つのカメラ11の撮影範囲において複数の人物領域が抽出された場合は、ステップS13〜S15の処理は、それぞれの人物領域に対して行われる。そして、得られた人物特徴情報と動作情報は、個々の人物領域を特定するタグ情報と共に、複数カメラ連携部123へ送られる。
また、人物特徴情報抽出部122は、人物の年齢や性別等の、人物をある程度特定する情報(人物属性情報)をさらに抽出するようにしてもよい。この場合、図12に示すように、人物特徴情報抽出部122は、パーツ化された部位の画像から抽出される特徴量に基づいて、当該人物の年齢や性別を判別する(ステップS23)。例えば、頭p1を捕捉できれば、顔認識技術を利用して、年齢や性別を判別することが可能である。なお、年齢は、1歳きざみの年齢データとして出力しても良いし、例えば「20歳台」のように年齢ゾーンを表すデータとして出力しても良い。また、ここでは、人物属性情報として性別と年齢を例示したが、人物をある程度特定する情報としては、これ以外に任意の情報を利用できる。例えば、「大人」と「子供」を判別することも考えられる。
上記の場合は、人物を一意に特定するのではなく性別や年齢等で属性付けをするのに対して、顔等の画像と人物の個人情報(氏名等)とが予め登録された人物データベースを利用できる場合には、必要に応じて、頭p1の画像と人物データベースに登録されている顔画像とを照合することにより、個人を一意に特定することも可能である(ステップS24)。これにより、例えば、
(1)犯人逮捕などを目的とする場合は1対1照合
(2)迷子探しなどを目的とする場合は着衣年齢による照合
(3)マーケティング活用などを目的とする場合は大まかな年齢推定のための照合
といった個人識別が可能となる。
図1に戻り、映像表示処理部13においては、映像表示処理部131が、ネットワーク15から情報を受信して復号化する。復号化された情報には、上述したように、複数のカメラ11(カメラ11a,11b・・・)の映像信号から得られた情報(人物特徴情報および座標情報)が含まれており、情報蓄積・統計処理部135に履歴データベースとして記憶・蓄積される(人物特徴情報記憶部、動作方向情報記憶部)。図27は蓄積されている履歴データベースの例を示し、前述の人物特徴情報の一致度から同一と判断される人物に人物IDが振られ、受信の時刻と日付、人物の実空間座標による位置(x座標及びy座標)、図26を用いて説明した動作方向ベクトル、歩き方(歩容)、体格、身長、頭髪の色、上半身の着衣の色、下半身の着衣の色、顔の人物特徴情報、性別、年齢などの抽出データと対応付けて順次記憶されている。また、同じIDについて時刻と位置の情報は、対応する人物が移動するに伴い複数のカメラにより繰り返し抽出されたものが全て記録されており、監視エリア内の人物の行動把握あるいは動線解析に使用される(図26参照)。また、日付やID部分は#1、#2等に省略して表現しているが、上半身及び下半身の服装の種別(形態)、帽子の有無、持ち物などの情報も対応付けられている。さらに、歩容のデータは、歩幅WL、腕振り角λ、上半身角ψ、膝曲げ角δ、一歩周期τなどを含むものとなっている。また、人物画像の解像度の目安とするために、撮影画面上での身長の情報も合わせて記録されている。この人物画像寸法の情報は、特徴量の属性ごとに、当該特徴量を抽出した際の値が個別に記憶される。
以下、受信部側の処理について説明する。
アバター生成部132は、受け取った人物特徴情報に基づいて、各人物のアバター画像を生成する。すなわち、人物特徴情報には、前述したように、人物のパーツごとの特徴を表す特徴データが含まれている。アバター生成部132は、この特徴データのそれぞれに対応するアバターの部分画像を予め記憶したパーツデータベース(図1の情報蓄積・統計処理部135内に形成されているものとするが、ネットワーク上の別の記憶装置やサーバであってもよい)にアクセス可能である。例えば、ある人物の頭p1の特徴データとして「長髪」が含まれる場合は、長髪の部分画像を上記パーツデータベースから取得する。アバター生成部132は、人物の各パーツの特徴データに基づいてアバターの部分画像を組み合わせることにより、当該人物のアバター画像を生成する。つまり、この実施形態では、図27の人物特徴情報がアバターパーツを指定する情報を兼ねており、パーツデータベース上のアバターの部分画像データととともにアバターデータを構成していると見ることができる。
図28は、そのパーツデータベースの構築例を概念的に示すものである。該データベースには、身長や体形を標準に設定したときの上半身及び下半身の着衣、髪型、持ち物等からなる、アバター構成要素となるアバター断片図形データが含まれている。アバター構成要素ごとに各アバター断片図形データは、カメラからの視点による人物の見え方(カメラに対する向き)が反映されるように、実空間における人物の移動方向に応じて異なる表現形態に構成されている。本実施形態では、図29に示すように、カメラ11に対する人物Pの向きを8方向(J1〜J8)に定め、図11で説明した人体パーツp1〜p6に対応する形で分割されたアバター断片図形データ(上半身着衣ではp2〜p4、下半身着衣ではp5、p6)が、該8方向における見え方に対応して各々8通り(v1〜v8:引数はJ1〜J8に対応)ずつ用意されている。また、靴や頭髪、持物は分割されないが、これも8通りずつ用意されている。
図30の左は、図29における方向v7が指定されたときのアバター断片図形データの選択例を、同じく右は方向v1が指定されたときのアバター断片図形データの選択例を示すものである。上半身についてはTシャツが、下半身についてはジーンズが選択され、図28のデータから、方向v7及びv1に対応するものがそれぞれ選択されている。図31はそれらを合成して得られるアバター画像AV7及びAV1である。なお、顔については、抽出された顔特徴情報を反映した輪郭や人相のものをその都度方向別に合成するようにしているが、性別や年齢に応じて標準的な顔(ないし頭部)の画像をデフォルトとして用意しておいてもよい。
また、アバターデータ(あるいはアバター断片図形データ)は、図32に示すように、物歩行動作を細分化したコマデータの集合からなるアバターアニメーションデータとして構成されている。図32の例では、右足を踏み出して着地するまでの複数コマ(ここではAFM1〜4の4コマ)と、左足を踏み出して着地するまでの4コマ(AFM5〜8)の2歩分1周期を8コマのアニメーションで表現している。図28に示すように、少なくとも下半身着衣と上半身着衣については、アバター断片図形データの種別ごとにこの8コマのデータが用意されている。
そして、各アバター断片の画像データは、図33に示すように、二次元のベクトル図形データとして構成されている。該ベクトル図形データは図形外形線を特定する頂点座標をベクトルで周回連結したものであり、一次変換変形処理を施すと、頂点座標もその一次変換を表す行列演算に従って移動し、移動後の点を再びベクトル連結することで、図形の拡大や縮小、回転などの変形処理を簡単に実行することができる。そして、そのベクトルで囲まれた図形の内部はベクトル線を基準とした内外判断により着色領域が特定され、指定の色にて領域内の画素をラスタライジングすることにより、図27の人物特徴情報が規定する色情報を最終的なアバター画像VDRに容易に反映させることができる。
図34は、受信部側の処理の流れを示すフローチャートである。まず、ネットワークを介して送られてくる人物IDと動作情報(座標点)及び人物特徴情報を受信する(S601)。次に、受信した座標情報Pを、複数のカメラが共有する実空間座標上にプロットする(S602)。そして、前後のフレームにおける人物の座標Pの位置変化から人物の動作方向(歩行方向)ベクトルを演算するとともに、図28の8つの方向J1〜J8から、その動作方向ベクトルの向きに最も近いものを選択してアバター画像の配置方向として決定する(S603)。
あるカメラの視野から移動して、着目している別のカメラの視野に初めて入ってきた人物については、先のカメラの画像からすでにID特定されてアバター画像を作成済みの場合がある。また、本発明の場合、図1にてサブエリアSA内の人物は、そのサブエリアSAに設置された2つのカメラ11a及び11bにより異なるアングルで同時に撮影される場合もあり、これら2つのカメラ11a及び11bがそれぞれ別IDでこの人物の特徴情報を抽出している場合がある。そこで、S604では、受信したIDとともに送られてきた動作方向情報及び人物特徴情報に対し、一定条件で適合する特徴情報を有した人物がすでに特定されていないかどうかを、図27の履歴データベース上で検索する。S607で適合する人物がいなければ新規アバター画像の作成処理となる(S609)。図34は、アバター作成処理の詳細を示すもので、S6101で特徴データに含まれる髪型、服装、持ち物及びそれらの色を特定する。次に、S6102で、特定された特徴に対応するアバター断片図形のうち、決定されたアバター画像配置方向(J1〜J8のいずれか)に対応するもの(図29のv1〜v8のいずれか)を読み出す。次に、S6103では、特徴データに含まれる身長・体形・歩容情報によりアバター断片図形を補正し、S6104で指定された色にアバター断片図形を着色する。最後にS6105で各アバター断片を合成することによりアバターデータが完成する。
図33に戻り、S604で適合する特徴情報を有した人物の履歴があった場合はS609に進み、受信した人物IDを履歴データベース内の該当する人物のIDで更新する。例えば図2において、太い破線の矢印で示すごとく、左上のサブエリアSAの有効撮影範囲Epaから有効撮影範囲Epbを経て、さらに左下のサブエリアSAの有効撮影範囲Epbを通過し、最終的に左下のサブエリアSAの有効撮影範囲に同じ人物が歩いて移動する様子考える。具体的には、左上のサブエリアSAのカメラ11a(ステップQ1)→同カメラ11b(ステップQ2)→左下のサブエリアSAのカメラ11b(ステップQ3)→同カメラ11a(ステップQ4)が順次撮影したとする。このとき、多数の人物がエリア内の往来しており、各カメラ11a,11bには着目する人物を含めて複数の人物が写り込んでいる場合を考慮する。ステップQ1、すなわち左上のサブエリアSAのカメラ11aでは着衣や顔も含め比較的に明瞭に人物特徴情報及び動作方向情報が抽出され、図27の履歴データベースに人物IDと対応付けて記憶蓄積されている。ここで、ステップQ2及びQ3では、対応するカメラの有効撮影範囲の通過区間が短く、対応するカメラ(11b)による撮影のコマが途切れたり、別の人物やブースの影に入って座標情報及び動作方向情報の抽出ができず、ステップQ4においてカメラ11aの映像にて着目している人物の座標情報及び動作方向情報の取得が再開されたとする。この場合、ステップQ1にて有効撮影範囲Epaを脱出する直前に取得されている、当該人物のIDに対応する動作方向情報(及び座標情報)とその抽出時刻を履歴データベースから読み出す。そして、ステップQ4で抽出されている複数人物の動作方向情報及び抽出時刻のうち、履歴データベースから読み出された座標情報と抽出時刻から、一定時間内に抽出されかつ動作方向情報が一定の範囲内にて類似しているもの、例えば動作方向ベクトルのx成分とy成分との差分が一定の範囲内に収まっているものが存在すれば、その人物をステップQ1にて特定されている人物と同一であると判断するための、少なくとも一つの条件として採用することができる。例えば、ステップQ1とステップQ4における座標移動距離を、成人男性の徒歩速度で割った時間を基準所要時間T0とし、これを両ステップの抽出時刻の差分Trと比較したとき、0.5To<Tr<2T0であれば、同一人物とする可能性ありと判断する。この場合、直ちに同一人物であると判定して、図27において対応するIDの人物特徴情報が示すアバターデータを用いてアバター画像を表示するようにしてもよいし、ステップQ4にて、動作方向情報が一致した人物の映像から改めて人物特徴情報を抽出し、人物異同をさらに高精度に判定するようにしてもよい(このとき、ステップQ4においてより詳細な人物特徴情報が抽出された場合は、後述のごとく、これに基づいてアバター画像を更新することもできる)。
以下、人物特徴情報の照合に基づいた同一人物か否かを判定する処理の例について、主に色情報の照合による場合を中心に説明する。図36は、ある動画(▲1▼)の一連のフレームに写り込んだ人物画像の、履歴として記録する色特徴情報の生成処理の流れを示すものである(複数の人物(N)が写り込んでいる場合は、全ての人物について処理を繰り返す(D201→D207)。D202では、検出されている人物領域の頭部、上半身及び下半身への分割を行なう。
上記の分割は、図34に示すように、成人における分割比の統計的な平均を目安に、図39に示すように一義的に行ってもよい(例えば、図39では、頭:上半身:下半身=3:10:11)。しかし、このような分割方法では図40の右に示すように、人体構造上の上半身と下半身とにまたがって装着されるワンピースやコートなどの着衣の場合、本来一体の着衣の中間に境界を生じる形で誤分割されてしまう問題を生ずることがある。しかし、図21で説明したCSS特徴量解析時において、同一色彩であると判定された個々の領域(着衣、頭髪、持ち物(あるいは、露出した肌領域))の境界に基づいて分割を行なうようにすることで、図41に示すように、着衣の形状および色を的確に反映した分割が可能となる。この手法は、俯瞰で撮影した動画像のように少々急な角度がついた画像において人物領域を分割する場合にも有効である。
次にD203では、色ヒストグラム作成時に取得されたRGBによる色分布の情報を分割された各領域の色情報として取得する。また、色ヒストグラムが示す色分布の代表値(例えば平均値)も合わせて算出され、頭部(髪の毛や帽子等)、上半身着衣、下半身着衣、及び靴などのアバターの構成要素の表示色として使用される。この情報は、表色系の定義に従い、D204でXYZ表色系の値に、さらにD205でそのXYZ表色系の値をL表色系の値に順次変換される。変換式は以下の通りである。まず、人物領域から抽出したRGB値を(9)〜(11)式によりXYZ値へ変換する。
値を表すものであり、その白色点の基準として適当な色温度を有する標準光源を指定する必要がある。(12)式で用いられているXn、Yn、Znは基準となる白色点のXYZ表色系での三刺激値を意味し、例えば最も自然光に近いとされるD65光源を使用した場合は、Xn=98.072、Yn=100、Zn=118.225となる。ただし光源色については、監視対象エリアの照明や外光のスペクトル分布を考慮してその都度適当なものを選択することも可能である。
が張る二次元平面上の極座標にて角度成分が色相を規定し、動径成分が彩度を規定する。
負方向が青となるように、符号の相違が互いに補色関係をなすように定められている点に
くなって無彩色に近づいてゆく。
れ、抽出した人物の色特徴情報として記憶される。次に、図37は、照合対象となる動画▲2▼の処理についてのフローチャートである。D301〜D308までの処理は図36の動画▲1▼の場合の処理と全く同じであり、D309で動画▲1▼と動画▲2▼についてそれぞれ得られ
そうでない場合は同一人物でないと判定する。
果に関係なくその人物は別人であると判定する。しかし別人であると判断できるパターンはこれ以外にも存在し、さらに同一人物であると判断できるパターンも複数ある。この場合、異同識別における判定方法の詳細は、例えば図41のフローチャートのようにするとよい。
D401〜D403は、図36及び図37の処理と同じであり、D404では、分割し
たりが閾値未満と判定された場合においては、より詳細な解析D404へ進む。このステ
て認識される範囲にあるかどうかを調べ、全ての領域について有彩色であった場合は同一
4において、彩度+色相では判定できない無彩色の領域が含まれている場合にはD405に進み、分割した領域のどれか1つでも明度パラメータLが閾値を超えていれば同一人物でないと判断する。この明度にかかる閾値は当然、外光や反射など外乱の影響で変動しや
る)が設定される。
図34に戻り、S605にて、新たにIDとともに受信した特徴情報が特定する人物が、上記のような処理により、すでに履歴データベース上に存在する人物と同一であると判定された場合はS606に進み、受信した人物IDを履歴データベース上の該当する人物のIDで更新し、S610の人物情報学習・補正処理に進む。この処理では、新たに受信した特徴情報が、履歴データベース上の特徴情報と比較して、より多くの、あるいは少なくとも一つの属性にてより精度の高い特徴情報を含んでいれば、履歴データベース上の古い特徴情報を、受信した特徴情報を用いて更新する処理を行い、そうでない場合は更新を行わない処理となる。図42は、その処理の一例を示すフローチャートである。
まず、S701で、履歴データベース上のIDに対応する特徴情報に顔の特徴量の情報が含まれているか否かを判断する。図1において監視対象エリアであるWAは展示会場であり、図44に示すごとく、来場者である人物HMP1は入口ETから入場する際に、エントランスカメラ11eにより顔を含めた全身が撮影される。この画像は人物HMP1の正面画像であるため、頭髪、上半身及び下半身の着衣、体形及び身長などの特徴情報はほぼ問題なく抽出される。また、図44のごとく、顔FCPがカメラ方向正面を向いていれば、顔特徴量も十分な精度で抽出される。しかし、図45に示すごとく人物HMP2が、エントランスカメラ11eの撮影視野を通過するまでの間、終始うつむいているような場合は、顔の特徴量だけが抽出できない場合も比較的高い頻度で発生する。また、二人の人物が前後に接近しあって入場してきた場合、後方の人物の特徴情報が抽出できなくなる場合もある。これらの場合、別のカメラで顔の特徴量が抽出されるまでの間は、顔特徴量(後者の場合は、他の特徴量も)の情報は欠落するか、デフォルトのダミーデータで置き換えられた状態になっている。さらに、顔特徴量から連動して抽出される年齢や性別の情報も欠落してしまう可能性が高い。そこで、S702で履歴データベース上にて特徴情報に顔特徴量の情報が含まれていなければS704に進み、新規受信した特徴情報に含まれる顔特徴量の情報を補充する形で更新する。
ここで、図2において、エントランスカメラ11eでの撮影時に顔特徴量が抽出できなかった場合、該当人物の顔特徴量が抽出できる次の機会は、その人物が監視対象エリアWAを移動して、どれかのサブエリアSAに設置された2つのカメラ11aないし11bに撮影される際に到来する。例えば図46に示すように、一方のカメラ(例えば11a)に対して人物HMP3が背を向けて立っている場合など、顔撮影に不利な姿勢で立っている場合、そのカメラでの人物HMP3の顔特徴量は抽出できない(頭髪、着衣などの情報は抽出可能である)。一方、サブエリアSA内のカメラ11aないし11bは対角線方向に有効撮影範囲EPa,EPbを対向させる形で配置されているので、他方のカメラ(11b)であれば人物HMP4のように顔FCPの特徴量を十分にとらえることができる。
図42に戻り、S701で履歴データベースに顔特徴量が含まれていた場合はS702に進み、新規受信した人物領域の画像寸法(身長)Snをリードする。S703では、履歴データベース上の対応する人物の、顔特徴量を抽出したときの画像寸法(身長)SfcとSnとを比較する(図47)。もし、Snのほうが大きければS704に進み、新規受信した特徴情報に顔特徴情報が含まれているか否かを判断する。もし含まれていれば、画像寸法の大きい新規受信した顔特徴量のほうが解像度も高いと考えられるので、図53に示すように、解像度の低い古い顔特徴量FCA’を、新規受信した顔特徴量FCAで更新し(図42:S705)、S706に進む。一方、新規受信した特徴情報に顔特徴情報が含まれていなければ、この処理はスキップする。また、S703でSnのほうがSfcよりも小さければ、直ちに次のS706へ向かう流れとなる。
S706では、履歴データベースの特徴情報において顔特徴量以外にも欠落している属性の特徴量が存在し、新規受信した特徴情報にこれが含まれている場合(例えば、性別や年齢など)、それら特徴情報を補う形で更新する。特に、歩容については、図44に示すような、エントランスカメラ11eによる正面画像では特徴量を抽出できず、欠落状態となるケースが多くなる。そこで、図50のように、別のカメラで人物HMP7を側方から撮影した動画が取得でき、歩容特徴量を抽出できた場合は、履歴データベースにおいてこれを補う形で更新することができる。
続いてS707では、履歴データベースの特徴情報における色特徴量について、同様に更新の余地がないかどうかを調べる。すなわち、S707では、履歴データベース上の対応する人物につき、前述のCSS特徴量により頭髪、着衣及び持ち物等の色特徴量を抽出したときの画像寸法(身長)Sfcと、前述のSnとを比較する。もし、Snのほうが大きければS708に進み、新規受信した特徴情報に新たな色特徴量の情報が含まれているか否かを判断する。もし含まれていれば、画像寸法の大きい新規受信した特徴情報のほうが、色識別に対する解像度も高いと考えられるので、図49に示すように、解像度の低い古い各領域の色特徴量CL1’及びCL2’を、新規受信した色特徴量CL1及びCL2で更新し(図42:S709)、S710に進む。一方、含まれていなければ、この処理はスキップする。また、S707でSnのほうがSfcよりも小さければ、直ちに次のS710へ向かう流れとなる。
図54に示すように、遠方であれば、着衣の色特徴量CL1’及びCL2’は領域全体の平均的な色彩にて視認され、アバターにおける着衣も、その平均的に視認される色彩にて単一色に設定されることとなる。他方、別のカメラにより、同じ人物がより近くから撮影された場合は、周知のパターン認識手法により、着衣の模様(パターン)まで識別できる場合がある。このとき、撮影画像から着衣の模様をパターン分離して、これをアバターに反映させることも可能となる。
S710では、履歴データベースの特徴情報における歩容特徴量について、更新の余地がないかどうかを調べる。すなわち、S710では、履歴データベース上の対応する人物につき、歩容特徴量を抽出したときの画像寸法(身長)Sfcと、前述のSnとを比較する。もし、Snのほうが大きければS711に進み、新規受信した特徴情報に新たな歩容特徴量の情報が含まれているか否かを判断する。もし含まれていれば、図51に示すように、画像寸法の大きい新規受信した歩容特徴量(人物MHP10)のほうが、古い歩容特徴情報(人物HMP10’)よりも歩容に対する解像度も高いと考えられるので、新規受信した歩容特徴量で更新し(図42:S712)、処理を終了する。また、S710でSnのほうがSfcよりも小さければ、同様に処理を終了する。図51では、遠方のため詳細な歩容が当初不明であった人物HMP10’を、をより近くから撮影できたことで、本来の人物HMP10の歩容がやや内またであることが明確となり、これを反映することでよりリアルなアバター表示が可能となる。
また、図1のサブエリアSAごとに複数のカメラ11a,11bで撮影できることの利点として、図51に示すように、あるカメラ(例えば11a)による撮影画像にて、着目している人物HMP8’が障害物(ここでは、別の人物HMP9’)の陰に隠れてしまい、特徴量だけでなく位置情報の特定も不能となってしまう場合がある。このとき、別のカメラ(例えば11b)の撮影視野であれば、カメラに対する障害物HMP9と人物HMP8との位置関係が逆転し、特徴量や位置情報を問題なく抽出できる確率が高くなる。特に、人物の位置の時間変化を追跡する場合、1アングルのカメラでは、こうした障害物によって一部の位置情報が欠落してしまうような場合でも、複数アングルのカメラが使用できる場合は、一方のカメラでは欠落してしまう位置情報を他のカメラが補うことができ、途切れのない追跡が可能となる。
以上のようにして履歴データベース上の各人物の特徴情報が更新されれば、図43に示すフローチャートのごとく、これを受けてアバター画像のデータも、その更新された特徴情報にて補正され、随時学習・進化を遂げてゆく。
次に、図34に戻り、図1のアバター生成部132で生成された各人物のアバター画像は、それぞれの人物の座標情報と共に、画像合成部133へ送られ、アバター・背景合成処理となる(S611)。画像合成部133は、それぞれのカメラ11の撮影範囲の背景画像を予め記憶したデータベース(情報蓄積・統計処理部135内)にアクセス可能である。画像合成部133は、それぞれのカメラ11の背景画像を上記データベースから取得し、アバター生成部132で生成されたアバター画像と合成する。合成画像はモニタ14へ出力される。このときに、アバター画像を配置する位置は、当該アバターの人物の座標情報に基づく。また、画像合成部133は、人物特徴情報抽出部122で得られた動作解析情報(人物の動きや向きを表すデータ)に基づいて、アバターの向きを変えたり、アバターの動く速さを調整したりすることができる。なお、映像解析部12からの伝送を、人物特徴情報抽出部122および座標情報抽出部121や、アバター生成部132および画像合成部133が処理可能な範囲で、できるだけ高いフレームレートで行なうことにより、カメラ11の映像信号をほぼリアルタイムにモニタ14へ表示させることができる。
図54は、アバター背景・合成処理の流れを示すものである。まず、S61101では、特定されたID及び方向に対応するアバターデータを読み出す。このアバターデータはアニメーションを構成するコマデータの集合であり(図32)、移動する座標点Pの速度と歩幅に合わせて、アバターアニメーションンのコマを動画再生のフレームに割り振る(S61102)。
合成映像の表示形態であるが、この実施形態では、カメラ11の撮影画面と同じ視野での表示モード(カメラ実映像モード)と、複数カメラの統合表示モードのいずれかを選択できるようになっている。このモード選択は、図1にて映像表示処理部13に接続された入力部(キーボードやタッチパネルで構成される)により切り替えが可能である。カメラ実映像モードが選択された場合はS61104に進み、同時表示するすべてのアバターの位置座標P(x,y,0)を、対応するカメラの実空間視野領域にプロットする。S61105では、プロットされた位置座標Pとともに実空間視野領域を、対応するカメラの座標系に射影変換する。
ここで、位置座標Pの決定に使用したカメラ二次元座標系は、すでに説明したごとく、レンズ歪を考慮して、図8の左の状態から右の状態へと一旦補正されている。この場合、補正前の座標系で視野の全体が出力画面に収まるようになっていたものが、補正後は視野の端の領域がモニタ(図1:符号14)の画面からはみ出ており、単純に射影変換しただけでは、カメラの撮影画像を直接見る場合と比較して、歪補正した分だけ画像が変化して違和感を生じるほか、視野の端に写り込んでいた人物のアバター画像を表示できなくなる場合もある。そこで、図54のS61106では、射影変換画像に元のレンズ歪の影響を復活させるための逆歪補正を施し、視野の形状を元に戻す。これにより、上記の不具合は解消されることとなる。
そして、S61107では、マッピングされた人物座標位置Pとともに、射影変換及び歪逆補正を経てカメラ二次元座標系に戻された出力平面上に、選択されている背景映像を重ね合わせ(S61107)、変換後の(カメラ二次元座標系による)各位置pに、上記のごとく寸法及び向きを調整されたアバターデータを貼付け、合成する。なお、図1のモニタ14の画面は、分割することにより複数のカメラ11の映像信号を同時に表示しても良いし、モニタ14の画面を切り替え操作することにより、複数のカメラ11のうちのいずれかの映像信号のみを表示するようにしても良い。
一方、S61104で統合表示モードが選択されている場合はS1000に進み、統合モードでの表示を行なう。図55はその詳細を示すフローチャートであり、S1001では、同時表示するすべてのアバターの位置P(x,y,0)及び方向を、複数カメラが共有する実空間にプロットする。そして、S1002では、前後のフレームにおける人物位置座標Pを重ね合わせて動線軌跡データを作成する。本実施形態では、図56のような平面視による表示形態と、図57のような俯瞰視による表示形態のいずれかから選択できるようになっている。
平面視を選択した場合はS1004に進み、図56に示すように、予め用意された平面視背景画像PBPを貼付ける。そして、アバター画像AVを、平面視背景画像上にプロットし表示する。この場合、平面視用のアバター画像を別に用意してもよいし、アバターを横方向に表示して人物特徴情報を把握しやすくしてもよい。そして、動線表示が指定され場合は、前述の動線軌跡データに基づいて、対応するアバター画像AVの動線画像MLを表示する。
一方、S1003で俯瞰視を選択した場合はS1006に進み、俯瞰角度及び方向に応じてアバターの実空間位置、方向及び動線データを射影変換し、S100で俯瞰視の場合の背景画像を重ね合わせる。背景画像については、俯瞰視用の撮影画像を用意して用いてもよいし、三次元背景画像データ(例えば三次元コンピュータグラフィックス(CG)データ)を用意して射影変換により俯瞰視化してもよい。S1008で、射影変換後のアバターの方向に対応するアバター画像を読み出し、図57に示すように、俯瞰視背景画像PBPS上に貼付けアバター画像AVSを貼りつける。この場合も、動線表示が指定され場合は、前述の動線軌跡データに基づいて、対応するアバター画像AVSの動線画像MLSを表示する。
なお、アバターデータは三次元アバターデータを用い、アバター画像を、図58に示すように、三次元CG画像として表示するようにしてもよい。この場合、アバター画像は最初から三次元化されたアバターオブジェクトとして用意されるので、指定された方向への配置や回転も三次元的に自由に設定できる。この場合、画像合成部133(図1)は、配置方向が決定された実空間上の三次元のアバターオブジェクトを背景画像の二次元座標系に射影変換することにより二次元アバターデータを生成し、該二次元アバターデータに基づくアバター画像を背景画像と合成する処理を行なう。
以上説明したごとく、カメラ11の映像信号から人物の特徴量と位置座標とを抽出し、抽出されたデータのみを伝送することにより、従来のように映像信号をそのまま圧縮して伝送する場合に比べて、ネットワーク15の帯域を有効に利用することができる。また、モニタ14に人物の映像がそのまま映されるのではなく、擬人化(アバター化)された状態で表示するので、街頭の防犯カメラのように不特定多数の人物を撮影する場合に、プライバシーを侵害しないという利点がある。例えば、図4に示した撮影画像中の人物は、図5に示すようなアバターとしてモニタ14に表示される。また、それぞれのアバターは、映像から抽出された人物特徴情報に基づいて、それぞれの人物の特徴を表すデザインになっているので、どのような人物が撮影範囲内にいるのかを把握することができる。
また、上述の実施形態において、カメラ11の映像信号から人物の人物特徴情報や座標情報を取得し、さらには、その人物の動きや向きを表す動作解析情報や、年齢・性別等の人物属性情報を取得する例を説明した。このような情報を利用して、様々な応用例が考えられる。例えば、図59に示すように、上記の情報を画像合成部133において処理加工し、モニタ14に複数の画面を表示するようにしても良い。図59の例では、モニタ14に、実映像空間画面81、特徴量再現画面82、統計空間画面83、動線解析空間画面84、個人識別空間画面85が並べて表示されている。或いは、アバターを見ながら必要に応じて実映像をストリーミングするといった方法でもよい。また送信側で顔を認識した時にその顔のキャプチャーを送信側で録画しておき、受信側からの要求でアバターと紐付された顔画像を受信側の要求により受け取ることができるように構成してもよい。実映像空間画面81は、複数のカメラ11からの映像信号を、人物をアバターに置き換えた状態で表示する画面である。
特徴量再現画面82は、複数台のカメラ11からの映像を表示する画面であり、人物がアバターに置き換えられ、かつ、背景画像もグラフィック表示にしたものである。なお、図59の例では、複数台のカメラ11からの映像を三次元的に統合して、特徴量再現画面82が生成されている。すなわち、複数個所に設置された複数台のカメラで撮影した映像を組み合わせて、俯瞰画像として特徴量再現画面82を構成する。例えば、特徴量再現画面82は、駅構内(ホームと改札口周辺)とその周辺の店舗の様子を表す画面である。この例では、例えば、駅のホームの設置カメラ、改札口周辺の設置カメラ、および、複数の店舗のそれぞれに設置されたカメラ、からそれぞれ取得された映像信号を用いる。一台のカメラでこの全ての領域を撮影することは不可能であるが、複数個所に設置された複数台のカメラで撮影された映像を三次元的に組み合わせることにより、このような俯瞰画像的な画面を構成することができる。
また、カメラの映像信号から抽出された動作解析情報には、人物の向きや動いている方向についての情報が含まれている。この情報を利用して、実際の人物の向きに合うようにアバターを配置することにより、特徴量再現画面82において群衆の動きが把握しやすくなるという利点がある。このような特徴量再現画面82を構成することにより、複数個所に設置されたカメラの映像を統合的に見ることができ、より広い範囲の状況をリアルタイムに監視することが可能になる。また、実映像空間画面81と同様に、人物がアバターに置き換えられているので、プライバシーを侵害しないという利点がある。また、それぞれのアバターは、映像から抽出された人物特徴情報に基づいて、それぞれの人物の特徴を表すデザインになっているので、どのような人物が撮影範囲内にいるのかを把握することが可能である。
統計空間画面83は、様々な統計結果を表示する画面である。例えば、あるカメラの撮影範囲内にいる人の数の推移をグラフで表すことができる。あるいは、人物属性情報に基づいて、撮影範囲内にいる人を、性別や年代別にグラフで表しても良い。また、析空間画面84は、ある人物(アバター)に着目して、その人物がカメラの撮影範囲でどのように移動したかを動線で表示するものである。これは、ある人物(アバター)の座標情報を時系列で取得することにより可能である。さらに、個人識別空間画面85は、撮影範囲にいる人物の人物属性情報を表示する。図59の例では、それぞれの人物のアバター画像の顔部分と、性別と年齢とが表示されている。
また、実映像空間画面81、特徴量再現画面82、統計空間画面83、および動線解析空間84は、GUI(グラフィカルユーザインタフェース)機能を有していることが好ましい。例えば、この特徴量再現画面82において、表示されているアバターの一つを、マウス等のポインティングデバイスを用いて選択すると(図59では、アバター82a)、このアバターで表されている人物の人物属性情報が、個人識別空間画面85でハイライト表示される。この例では、アバター82aの人物属性情報である「男、35歳」が、個人識別空間画面85においてハイライト表示されている。また、これとは逆に、個人識別空間画面85において、いずれかの人物属性情報を選択すると、特徴量再現画面82において、選択された人物属性情報に対応するアバター画像がハイライト表示されるようにしても良い。また、特徴量再現画面82においていずれかのアバターを選択すると、そのアバターの移動経路が、動線解析空間画面84に表示されるようにしても良い。
以下、監視対象エリアに対するカメラ配置の種々の変形例について説明する。
図62は、図1の実施形態において、サブエリアSA内のカメラの台数をさらに増やした例を示すものであり、具体的には各サブエリアSAの、図1においてはカメラ11a,11bが配置されなかった側の対角線の両端に、それぞれ新たなカメラ11c,11dを追加した事例を示すものである。このようにすると、カメラの台数は図1よりも余計に必要になるが、サブエリアSA内の全ての領域が最低でもアングルの異なる2台のカメラで撮影されることとなり、特徴量抽出上の死角が生じにくくなり、図54や図55で示したように情報抽出が障害物により妨げられる不具合が一層生じにくくなる。特に、各カメラ11a〜11cが設置されるサブエリアSAの4つの角部付近は、それぞれ3つのカメラが異なるアングルにより撮影する三重エリアTLAとなり、サブエリアSAの中央部は4つのカメラが異なるアングルで撮影する四重エリアQLAとなる。これらのエリアで取得される特徴情報は、特に被写体である人物の立体形状を把握する上で非常に有用であり、該エリアで取得されたが象情報ひいては特徴情報をもとに、図58に示すような3Dアバターを容易に、かつよりリアルに作成することが可能となる。
図62は、解像度及び撮影視野の異なる複数台のカメラを用いる例である。監視対象エリアWAは長方形であり、高解像度カメラであるハイビジョンカメラ11a(第一のカメラ:平面視での撮影視野角は90°)がエリアの4つのコーナーに配置されている。これらのハイビジョンカメラの有効撮影領域EPaの半径は監視対象エリアWAの短辺長さよりも短くなっており、結果として監視対象エリアWAの長編方向における中央には、4台のハイビジョンカメラ11aの有効撮影領域EPaではカバーされないデッドエリアが短編方向に細長く形成される。そこで、監視対象エリアWAの長編方向にてこのデッドエリアを挟んで対向する1対の、標準解像度の広角カメラ11f,11f(第二のカメラ:ハイビジョンカメラ11aよりも視野角の広いカメラ:図62では120°)を配置し、各々の有効撮影領域Epf,Epfによりデッドエリアを被覆するようにしている。
広角カメラ11fの有効撮影領域Epfの角度方向における両端縁の部分が、ハイビジョンカメラ11aの有効撮影領域EPaの外周縁部分と重なり領域DLAを形成している。広角カメラ11fの視野の端に位置する画像はレンズ歪の影響により画素密度が下がり解像度が低下しやすいが、これを視野角の小さいハイビジョンカメラ11aの有効撮影領域EPaで補うことにより、該エリアでの特徴量抽出精度を高めるようにしている。他方、この重なりエリアはハイビジョンカメラ11aの側から見れば、カメラからの距離が有効半径一杯に大きくなるので解像度の点でややハンデがある。しかし、広角カメラ11fの側から見ると被写体までの距離は比較的小さいから、ハイビジョンカメラ11a側で抽出された特徴情報の精度が今一歩の場合も、広角カメラ11f側での特徴情報で補える可能性もある。本実施形態では、監視対象エリアWAの各短辺の両端に位置するカメラ11a,11aの各対が作る有効撮影領域EPaの外縁交点の近傍に広角カメラ11f,11fが配置されている。
また、図62の例では、デッドエリアの短編方向両端に、広角カメラ11f,11fの有効撮影領域Epf,11fでも覆いきれない領域がわずかに生じており、これを補う標準解像度カメラ11g,11g(広角カメラ11fよりも視野角の狭いカメラ:図62では90°)にてそれぞれカバーしている。また、これらカメラ11g,11gの一方は入口ETに面して配置されており、エントランスカメラにも兼用されている。
図63は、長方形状の監視対象エリアWAを、より少ない台数のカメラでカバーする例を示すものである。具体的には、ハイビジョン仕様の広角カメラ11f,11f(ここでは視野角120°)を監視対象エリアWAの中央にて各々その短編方向を見込むように配置する。これにより、その有効撮影範囲EPf,EPfは監視対象エリアWAの短編方向両端域をカバーすることとなる。一方、監視対象エリアWAの長辺方向は両端域が広角カメラ11f,11fでカバーされていることを考慮して、監視対象エリアWAの中央から各長辺方向を見込む位置に、広角カメラ11f,11fよりも視野角の小さいハイビジョンカメラ11g,11gを配置している。これらのハイビジョンカメラ11g,11gの有効撮影範囲EPg,EPgは、広角カメラ11f,11fの有効撮影範囲EPf,EPfの各角度方向両端縁のエリアと重なりを生じさせ、レンズ歪の影響を受けやすい領域における特徴情報の抽出を、互いに補わせるようにしている。なお、広角カメラ11f,11fの有効撮影範囲EPf,EPfの角度方向両端縁領域は、解像度のハンデが生じやすい半径方向末端に位置する部分を故意に監視対象エリアWAの外にはみ出させることにより無効化している。
図64は、図63の構成において、広角カメラ11f,11fからの距離が遠くなるため、解像度確保の上でやや手薄となる監視対象エリアWAの4つの角部の領域を、広角カメラ11fよりも視野角の狭い4つの標準仕様カメラ11hにより、広角カメラ11f,11fとは逆方向から撮影するようにした例である。さらに、図65は、図64のカメラレイアウトにおいて、広角カメラ11f,11fとハイビジョンカメラ11g,11gの位置関係を入れ替えるとともに、これら4つのカメラを監視対象エリアWAの中央の通行不能領域に集合させた例を示すものである。
1 画像処理装置
11a〜11g カメラ
12 情報送信部
13 情報受信部
14 モニタ
15 ネットワーク
121 座標情報抽出部
122 人物特徴情報抽出部
123 複数カメラ連携部
124 情報送信部
131 情報受信部
132 アバター生成部
133 画像合成部

Claims (23)

  1. 監視対象エリアをカメラで撮影して得られる映像内の人物から、当該人物に固有の特徴量を人物特徴情報として抽出する人物特徴情報抽出部と、
    前記カメラの撮影範囲における前記人物の座標情報を抽出する座標情報抽出部と、
    前記人物特徴情報に基づいて前記人物のアバター画像を生成するアバター生成部と、
    前記座標情報に基づいて前記カメラの撮影範囲の背景を表す背景画像に対し前記アバター画像を合成することにより合成画像を生成する画像合成部とを備え、
    前記人物特徴情報抽出部及び前記座標情報抽出部は、前記カメラの撮影範囲において前記特徴量の抽出に必要な解像度が確保可能な撮影範囲を有効撮影範囲と定義したとき、該有効撮影範囲に一部重なりが生ずるよう前記監視対象エリアを互いに異なるアングルにて撮影する複数台のカメラからの映像に基づいて前記人物特徴情報及び前記座標情報を抽出することを特徴とする画像処理装置。
  2. 前記アバター生成部は、前記複数台のカメラが撮影した映像から前記人物特徴情報抽出部が同一人物について個別に抽出した人物特徴情報を統合しつつ、当該人物のアバター画像を生成するものである請求項1記載の画像処理装置。
  3. 前記画像合成部は、前記複数台のカメラが撮影した映像から前記座標情報抽出部が同一人物について個別に抽出した座標情報を参照して、前記背景画像への前記アバター画像の合成位置を決定する請求項1又は請求項2に記載の画像処理装置。
  4. 抽出された前記人物特徴情報を人物IDと対応付けて記憶する人物特徴情報記憶部と、前記人物IDとアバター画像のデータであるアバターデータとを対応付けて記憶するアバターデータ記憶部とを備え、
    前記アバター生成部は、前記カメラが新たに撮影する人物の映像について前記人物特徴情報抽出部が抽出した人物特徴情報を前記人物特徴情報記憶部にて検索するとともに、抽出された人物特徴情報とあらかじめ定められた範囲内にて一致する人物特徴情報が検索された場合に、前記アバター画像生成部は当該検索された人物特徴情報が示す人物IDに対応するアバターデータを前記アバターデータ記憶部から読み出し、そのアバターデータを用いて前記アバター画像を生成する請求項1ないし請求項3のいずれか1項に記載の画像処理装置。
  5. 前記人物特徴情報抽出部は、前記座標情報抽出部が抽出する前記座標情報の時間的変化に基づいて前記人物の動作方向情報を抽出するものであり、抽出された前記動作方向情報を人物ID及び抽出時刻と対応付けて記憶する動作方向情報記憶部と、前記人物IDと前記アバター画像のデータであるアバターデータとを対応付けて記憶するアバターデータ記憶部とを備え、
    前記アバター生成部は、前記カメラが新たに撮影する人物の映像について前記人物特徴情報抽出部が抽出した動作方向情報及び抽出時刻を前記動作方向情報記憶部にて検索するとともに、抽出された動作方向情報及び抽出時刻とあらかじめ定められた範囲内にて一致する動作方向情報が検索された場合に、前記アバター画像生成部は当該検索された動作方向情報が示す人物IDに対応したアバターデータを前記アバターデータ記憶部から読み出し、そのアバターデータを用いて前記アバター画像を生成する請求項1ないし請求項4のいずれか1項に記載の画像処理装置。
  6. 前記人物特徴情報抽出部は、カメラ正面に位置する前記人物を互いに反対方向から撮影するとともに、前記特徴量抽出に必要な解像度が確保可能な有効半径にて各カメラのレンズ中心からカメラ視野角がカバーされるよう平面視における前記監視対象エリアへの前記有効撮影範囲の投影を扇形に描いたとき、当該有効撮影範囲の半径方向端縁に葉型の重なり領域が形成されるように配置された1対の前記カメラからの映像に基づいて前記特徴量を抽出するものである請求項1ないし請求項5のいずれか1項に記載の画像処理装置。
  7. 前記人物特徴情報抽出部は、矩形をなす前記監視対象エリアの対角線方向の角部に配置された1対の前記カメラからの映像に基づいて前記特徴量を抽出するものである請求項6記載の画像処理装置。
  8. 前記人物特徴情報抽出部は、前記監視対象エリアを区画する複数の矩形のサブエリアのそれぞれにおいて対角線方向の角部に配置された前記カメラの各対からの映像に基づいて前記特徴量を抽出するものである請求項6記載の画像処理装置。
  9. 前記人物特徴情報抽出部は、前記有効撮影範囲として第一の有効撮影範囲を有する第一のカメラと、該第一のカメラよりも広角の第二の有効撮影範囲を有するとともに、該第二の有効撮影範囲の視野角方向における端部に前記第一の有効撮影範囲が重なるように配置された第二のカメラとを含む前記複数台のカメラからの映像に基づいて前記特徴量を抽出するものである請求項1ないし請求項5のいずれか1項に記載の画像処理装置。
  10. 前記人物特徴情報抽出部は、前記複数のカメラの1つのものからの映像による前記人物の前記特徴量の特定が当該カメラと前記人物との間に介在する障害物により妨害された場合に、前記カメラと撮影アングルの異なる別のカメラからの映像により前記障害物による妨害を軽減しつつ前記特徴量の特定を行なうものである請求項1ないし請求項9のいずれか1項に記載の画像処理装置。
  11. 前記人物特徴情報抽出部は、前記複数のカメラの1つのものからの映像による前記人物の前記特徴量の特定が当該カメラと前記人物との距離的問題により困難であった場合に、該カメラと撮影アングルの異なる別のカメラからの映像により前記距離的問題を軽減しつつ前記特徴量の特定を行なうものである請求項1ないし請求項10のいずれか1項に記載の画像処理装置。
  12. 前記人物特徴情報抽出部は、前記複数のカメラの1つのものからの映像による前記人物の前記特徴量の特定が、当該カメラに対する前記人物の姿勢の問題により困難であった場合に、該カメラと撮影アングルの異なる別のカメラからの映像により前記姿勢の問題を軽減しつつ前記特徴量の特定を行なうものである請求項1ないし請求項11のいずれか1項に記載の画像処理装置。
  13. 前記人物特徴情報抽出部は、前記特徴量として前記人物の顔特徴量を抽出するものである請求項1ないし請求項12のいずれか1項に記載の画像処理装置。
  14. 前記人物特徴情報抽出部は、前記顔特徴量の抽出に必要な解像度が確保可能な有効半径にて前記カメラのレンズ中心からカメラ視野角がカバーされるよう、平面視における前記監視対象エリアへの前記有効撮影範囲の投影を扇形に描いたとき、該有効半径内の前記人物の顔に対する解像度が1.5cm/画素よりも高く確保されるように前記有効半径が定められてなる請求項13記載の画像処理装置。
  15. 前記人物特徴情報抽出部は、前記人物の外観を解析して外観人物特徴情報として出力するものであり、前記アバター生成部は前記アバター画像を、前記外観人物特徴情報を反映したものとして生成する請求項1ないし請求項14のいずれか1項に記載の画像処理装置。
  16. 前記外観人物特徴情報は前記人物の着衣の形態及び色彩の一方又は双方を反映した着衣特徴量と、前記人物の頭髪の形態及び色彩の一方又は双方を反映した頭髪特徴量と、前記人物の持ち物の形態及び色彩の一方又は双方を反映した持ち物特徴量の1以上のものを含むものである請求項15記載の画像処理装置。
  17. 前記人物特徴情報抽出部は、前記着衣特徴量、前記頭髪特徴量又は前記持ち物特徴量の抽出に必要な解像度が確保可能な有効半径にて前記カメラのレンズ中心からカメラ視野角がカバーされるよう、平面視における前記監視対象エリアへの前記有効撮影範囲の投影を扇形に描いたとき、該有効半径内の前記人物の前記着衣、頭髪又は持ち物に対する解像度が6cm/画素よりも高く確保されるように前記有効半径が定められてなる請求項16記載の画像処理装置。
  18. 前記人物特徴情報抽出部は、前記カメラによる前記人物の画像領域を、各々あらかじめ定められた大きさの画素マトリックスからなるセルに分割するとともに各セル内の画素の色設定値分布を算出し、該色設定値分布の類似度が予め定められたレベル以上に高いセルを、前記人物の着衣、頭髪又は持ち物に由来した同一色彩を示す同一色彩領域の構成セルとして特定するとともに、それら同一色彩領域の構成セルの集合情報を、前記着衣、頭髪又は持ち物を示す前記外観人物特徴情報として抽出するものであり、
    前記アバター生成部は前記同一色彩領域の前記構成セルの前記色設定値分布に基づいて、前記前記着衣、頭髪又は持ち物を示すアバター構成要素の表示色を決定する請求項16又は請求項17に記載の画像処理装置。
  19. 前記人物特徴情報抽出部は、各セル内の画素の色設定値分布を色彩パラメータと明度パラメータとが分離された表色系にて算出するとともに、前記色彩パラメータの設定値分布の類似度が予め定められたレベル以上に高いセル同士を前記同一色彩領域の構成セルとして特定するものである請求項18記載の画像処理装置。
  20. 前記人物特徴情報抽出部は、前記人物の画像領域を、当該領域内に特定される複数の前記同一色彩領域の境界を分割位置として、人体の部位に相当する少なくとも頭部、上半身、及び下半身を含む複数のパーツに分割し、各パーツから特徴量を抽出するものであり、
    前記アバター生成部は、前記アバター画像のデータを複数の前記パーツに対応したアバター断片に分割して記憶するアバター画像データ記憶手段を備え、前記人物の対応する前記パーツについて抽出された前記特徴量の情報に基づいて前記アバター画像の前記アバター断片を補正した後、その補正後のアバター断片を統合して前記アバター画像を生成するものである請求項19記載の画像処理装置。
  21. 前記外観人物特徴情報は前記人物の歩容を反映した歩容特徴量を含むものである請求項15記載の画像処理装置。
  22. 前記人物特徴情報抽出部は、前記歩容特徴量の抽出に必要な解像度が確保可能な有効半径にて前記カメラのレンズ中心からカメラ視野角がカバーされるよう、平面視における前記監視対象エリアへの前記有効撮影範囲の投影を扇形に描いたとき、該有効半径内の前記人物の歩容特定のための解像度が4cm/画素よりも高く確保されるように前記有効半径が定められてなる請求項21記載の画像処理装置。
  23. 前記アバター生成手段は、前記人物特徴情報抽出部が特定の人物について抽出した人物特徴情報を記憶する特徴量情報記憶部と、前記人物特徴情報抽出部が前記特定の人物について前記特徴量情報記憶部に記憶されている人物特徴情報よりも解像度の高い新たな人物特徴情報を抽出した場合に、前記特徴量情報記憶部に記憶されている特徴量情報を前記新たな人物特徴情報により更新する特徴量情報更新手段と、を備える請求項1ないし請求項22のいずれか1項に記載の画像処理装置。
JP2017132271A 2017-06-20 2017-06-20 画像処理装置 Pending JP2019009752A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017132271A JP2019009752A (ja) 2017-06-20 2017-06-20 画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017132271A JP2019009752A (ja) 2017-06-20 2017-06-20 画像処理装置

Publications (1)

Publication Number Publication Date
JP2019009752A true JP2019009752A (ja) 2019-01-17

Family

ID=65029754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017132271A Pending JP2019009752A (ja) 2017-06-20 2017-06-20 画像処理装置

Country Status (1)

Country Link
JP (1) JP2019009752A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6529062B1 (ja) * 2019-02-27 2019-06-12 株式会社 テクノミライ デジタルアキュレート・セキュリティシステム、方法及びプログラム
CN111091507A (zh) * 2019-12-09 2020-05-01 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备以及存储介质
CN111242016A (zh) * 2020-01-10 2020-06-05 深圳数联天下智能科技有限公司 衣物管理方法、控制装置、衣柜以及计算机可读存储介质
WO2020194973A1 (ja) * 2019-03-28 2020-10-01 株式会社ドワンゴ コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム
JP2020162084A (ja) * 2019-03-28 2020-10-01 株式会社ドワンゴ コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム
JP2020167661A (ja) * 2019-03-28 2020-10-08 株式会社ドワンゴ コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム
JP2020167654A (ja) * 2019-07-16 2020-10-08 株式会社ドワンゴ コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム
JP2020201863A (ja) * 2019-06-13 2020-12-17 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム
CN112305638A (zh) * 2019-07-26 2021-02-02 西安光启未来技术研究院 一种有效感知范围识别方法及相关设备
CN112433261A (zh) * 2020-11-25 2021-03-02 猫岐智能科技(上海)有限公司 扫描成像监测***及方法以及电动车入梯扫描成像监测***
WO2021192183A1 (ja) * 2020-03-26 2021-09-30 日本電気株式会社 配置方法
CN113807284A (zh) * 2021-09-23 2021-12-17 上海亨临光电科技有限公司 一种太赫兹图像上随身物品在人体中定位方法
JP2024004972A (ja) * 2022-06-29 2024-01-17 アースアイズ株式会社 監視システム、監視方法、及び、監視システム用の画像認識装置の学習方法
JP7505681B2 (ja) 2020-09-17 2024-06-25 株式会社ネクストシステム 動画データの記録方法及び動画データの再生方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6529062B1 (ja) * 2019-02-27 2019-06-12 株式会社 テクノミライ デジタルアキュレート・セキュリティシステム、方法及びプログラム
WO2020174634A1 (ja) * 2019-02-27 2020-09-03 株式会社 テクノミライ デジタルアキュレート・セキュリティシステム、方法及びプログラム
JP7344084B2 (ja) 2019-03-28 2023-09-13 株式会社ドワンゴ コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム
US11961190B2 (en) 2019-03-28 2024-04-16 Dwango Co., Ltd. Content distribution system, content distribution method, and content distribution program
WO2020194973A1 (ja) * 2019-03-28 2020-10-01 株式会社ドワンゴ コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム
JP2020162083A (ja) * 2019-03-28 2020-10-01 株式会社ドワンゴ コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム
JP2020162084A (ja) * 2019-03-28 2020-10-01 株式会社ドワンゴ コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム
JP2020167661A (ja) * 2019-03-28 2020-10-08 株式会社ドワンゴ コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム
JP7401199B2 (ja) 2019-06-13 2023-12-19 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020201863A (ja) * 2019-06-13 2020-12-17 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020167654A (ja) * 2019-07-16 2020-10-08 株式会社ドワンゴ コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム
CN112305638A (zh) * 2019-07-26 2021-02-02 西安光启未来技术研究院 一种有效感知范围识别方法及相关设备
CN111091507A (zh) * 2019-12-09 2020-05-01 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备以及存储介质
CN111242016A (zh) * 2020-01-10 2020-06-05 深圳数联天下智能科技有限公司 衣物管理方法、控制装置、衣柜以及计算机可读存储介质
WO2021192183A1 (ja) * 2020-03-26 2021-09-30 日本電気株式会社 配置方法
JP7424471B2 (ja) 2020-03-26 2024-01-30 日本電気株式会社 配置方法
JP7505681B2 (ja) 2020-09-17 2024-06-25 株式会社ネクストシステム 動画データの記録方法及び動画データの再生方法
CN112433261A (zh) * 2020-11-25 2021-03-02 猫岐智能科技(上海)有限公司 扫描成像监测***及方法以及电动车入梯扫描成像监测***
CN113807284A (zh) * 2021-09-23 2021-12-17 上海亨临光电科技有限公司 一种太赫兹图像上随身物品在人体中定位方法
JP2024004972A (ja) * 2022-06-29 2024-01-17 アースアイズ株式会社 監視システム、監視方法、及び、監視システム用の画像認識装置の学習方法

Similar Documents

Publication Publication Date Title
JP2019009752A (ja) 画像処理装置
CN110515452B (zh) 图像处理方法、装置、存储介质和计算机设备
US11721067B2 (en) System and method for virtual modeling of indoor scenes from imagery
CN109934176B (zh) 行人识别***、识别方法及计算机可读存储介质
JP6357595B2 (ja) 情報伝送システム、情報受信装置、およびコンピュータプログラム
US9456131B2 (en) Video processing systems and methods
US20140300758A1 (en) Video processing systems and methods
CN107256377A (zh) 用于检测视频中的对象的方法、设备和***
US20180357819A1 (en) Method for generating a set of annotated images
AU2008210192A1 (en) Method of moving target tracking and number accounting
CN106033601A (zh) 检测异常情形的方法和装置
CN110941996A (zh) 一种基于生成对抗网络的目标及轨迹增强现实方法和***
Pan et al. Virtual-real fusion with dynamic scene from videos
Kim et al. Augmenting aerial earth maps with dynamic information from videos
JPH0981732A (ja) 領域抽出装置及びそれを用いた方向検出装置
Yin et al. 3D face recognition based on high-resolution 3D face modeling from frontal and profile views
Khan et al. A review of benchmark datasets and training loss functions in neural depth estimation
Braun et al. Ecp2. 5d-person localization in traffic scenes
Rurainsky et al. Template-based eye and mouth detection for 3D video conferencing
Dijk et al. Image processing in aerial surveillance and reconnaissance: from pixels to understanding
Kosmopoulos et al. Vision-based production of personalized video
Malerczyk et al. 3D reconstruction of sports events for digital TV
Gutfeter et al. Fusion of depth and thermal imaging for people detection
Thuan et al. PDIWS: Thermal Imaging Dataset for Person Detection in Intrusion Warning Systems
Szczuko Simple gait parameterization and 3D animation for anonymous visual monitoring based on augmented reality

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180112