WO2012029518A1

WO2012029518A1 - 挙動解析装置

Info

Publication number: WO2012029518A1
Application number: PCT/JP2011/068247
Authority: WO
Inventors: 吉光裕司; 内藤丈嗣; 上條俊介; 藤村嘉一
Original assignee: オムロン株式会社; 国立大学法人東京大学
Priority date: 2010-08-31
Filing date: 2011-08-10
Publication date: 2012-03-08
Also published as: US8965050B2; JP5559335B2; US20130164722A1; JPWO2012029518A1

Abstract

オブジェクトの三次元情報を用いることなく、そのオブジェクトの挙動を精度良く判断し、且つ、システムの大型化やコストアップを十分に抑える。挙動解析装置（１）は、ビデオカメラ（２）が撮像している撮像エリアのフレーム画像を処理し、撮像されているオブジェクトを抽出する。挙動解析装置（１）は、抽出したオブジェクト毎に、撮像エリア内の位置を検出するとともに、抽出したオブジェクト毎に、そのオブジェクトの高さと、幅との比に基づいて、その姿勢を推定する。また、挙動解析装置（１）は、設定したオブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さの変化も加えて、当該オブジェクトの姿勢を推定することもできる。

Description

挙動解析装置

　この発明は、ビデオカメラ等の撮像装置で撮像している対象エリアのフレーム画像を処理し、撮像されている人物の挙動を解析する挙動解析装置に関する。

　従来、駅、ショッピングセンタ、繁華街等の不特定多数の人が集まる場所では、設置した監視カメラ（以下、単にカメラと言う。）の撮像画像を処理し、特異な行動をとった不審者等の人物（以下、単に不審者と言う。）の検出を行っている。具体的には、カメラで撮像しているフレーム画像を処理し、撮像されている人物の挙動を解析し、その挙動が特異であるかどうかを判断している。また、不正行為等にかかる特異な挙動をとった人物を検知すると、その旨を警備員等に通報することも行っている。

　例えば、特許文献１には、視点の異なる複数の撮像装置（所謂、ステレオカメラ）を用い、各撮像装置で撮像した対象物の画像を処理し、その対象物の代表点の三次元位置を検出し、三次元画像を生成する構成が記載されている。そして、生成した対象物の三次元画像から、当該対象物の動作および姿勢を判断することによって、当該対象物の挙動を解析している。

特開平６－２１３６３２号公報

　しかしながら、上述の特許文献１は、撮像した対象物の三次元画像を生成するために、ステレオカメラおよび、このステレオカメラで撮像した画像を処理して三次元画像を生成する画像処理部を必要とする。したがって、特許文献１は、システムの大型化や、コストアップという問題があった。

　この発明の目的は、オブジェクトの三次元情報を用いることなく、そのオブジェクトの挙動を精度良く判断することができ、且つ、システムの大型化やコストアップが十分に抑えられる挙動解析装置を提供することにある。

　この発明の挙動解析装置は、上述の課題を解決し、その目的を達するために、以下のように構成している。

　オブジェクト抽出手段は、撮像装置が撮像している撮像エリアのフレーム画像を処理し、撮像されているオブジェクトを抽出する。ここで抽出するオブジェクトは、人や物である。位置検出手段は、オブジェク抽出手段が抽出したオブジェクト毎に、撮像エリア内の位置を検出する。さらに、姿勢推定手段が、オブジェク抽出手段が抽出したオブジェクト毎に、その姿勢を推定する。そして、挙動判断手段が、オブジェク抽出手段が抽出したオブジェクト毎に、位置検出手段が検出した撮像エリア内の位置と、姿勢推定手段が推定した姿勢とに基づいて、当該オブジェクトの挙動を判断する。

　姿勢推定手段は、例えば、オブジェクト抽出手段が抽出したオブジェクトの高さと、幅とに基づいて、その姿勢を推定すればよい。具体的には、オブジェクト抽出手段が抽出したオブジェクトを囲む矩形領域を設定し、この矩形領域の高さと幅との比（所謂、アスペクト比）に基づいて姿勢を推定すればよい。

また、姿勢推定手段は、設定したオブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さの変化も加えて、当該オブジェクトの姿勢を推定してもよい。この場合、オブジェクトが人であれば、上辺の高さが下方に変化したときにはしゃがんだと推定でき、下辺の高さが上方に変化したときには、ジャンプしたと推定できる。

　また、姿勢推定手段は、オブジェク抽出手段が抽出したオブジェクトの形状と、姿勢モデル記憶手段がオブジェクトの姿勢別に記憶する形状モデルとの類似度を算出し、ここで算出した類似度に基づいて姿勢を推定してもよい。この場合、算出した類似度が最大であった形状モデルに対応する姿勢を、そのオブジェクトの姿勢として推定すればよい。

また、オブジェクト抽出手段が、複数の撮像装置が異なるアングルで撮像している撮像エリアのフレーム画像毎に、撮像されているオブジェクトを抽出し、同定手段が、抽出されたオブジェクトを、複数の撮像装置のフレーム画像間で同定する構成としてもよい。この場合、姿勢推定手段は、オブジェクト抽出手段が抽出し、同定手段が同定したオブジェクトの姿勢を、複数の撮像装置が撮像しているフレーム画像毎に推定した姿勢の組合せによって判断すればよい。

　また、ロケーション情報記憶手段が、撮像エリアを複数の領域に分割した領域毎に、対応するフレーム画像上での領域と、を対応付けて設定したロケーション情報を記憶する構成としてもよい。この場合、挙動判断手段が、ロケーション情報から得られるオブジェクトが位置する場所の環境を加えて、当該オブジェクトの挙動を判断すればよい。これにより、撮像されている人物等のオブジェクトの挙動を監視装置が撮像している場所に応じて推定できる。

　さらに、オブジェクトマップ作成手段が、オブジェク抽出手段が抽出したオブジェクトについて、位置検出手段が検出した位置と、姿勢推定手段が推定した姿勢とを時系列に登録したオブジェクトマップを作成する構成としてもよい。この場合、挙動判断手段は、オブジェクトマップ作成手段が作成したオブジェクトマップから得られる、時間経過にともなうオブジェクトの位置、および推定した姿勢の変化から当該オブジェクトの挙動を判断すればよい。これにより、オブジェクトの挙動が、そのオブジェクトの動きに基づいて推定できる。

　なお、ここで言うオブジェクトは、人だけでなく、荷物等も含んでいる。

　この発明によれば、オブジェクトの三次元情報を用いることなく、そのオブジェクトの挙動を精度良く判断することができ、システムの大型化やコストアップが十分に抑えられる。

挙動解析装置の主要部の構成を示すブロック図である。オブジェクトマップを示す図である。ビデオカメラの撮像エリアを分割した領域毎に設定している場所情報を説明する図である。ビデオカメラの撮像エリアを分割した領域毎に設定している場所情報を説明する図である。挙動解析装置の動作を示すフローチャートである。オブジェクトの種類を判定するフローチャートである。自動改札機における不正通行の検出を示す図である。自動改札機における不正通行の検出を示す図である。自動改札機における不正通行の検出を示す図である。別の挙動解析装置の主要部の構成を示すブロック図である。シルエット画像の例を示す図である。オブジェクトマップを示す図である。別の挙動解析装置の主要部の構成を示すブロック図である。オブジェクトマップを示す図である。挙動判断テーブルを示す図である。

　以下、この発明の実施形態である挙動解析装置の実施形態について説明する。

　図１は、この発明の実施形態にかかる挙動解析装置の主要部の構成を示すブロック図である。この実施形態にかかる挙動解析装置１は、監視カメラとして設置したビデオカメラ２で撮像しているフレーム画像を処理し、撮像されているオブジェクト（人や物）を抽出する。ビデオカメラ２は、１秒間に数十フレーム（例えば、３０フレーム）程度のフレーム画像を画像入力部１２に入力する。ビデオカメラ２は、例えば、駅の改札口や駅ホーム等の監視対象エリアを撮像する。また、挙動解析装置１は、抽出したオブジェクトが人であれば、その人の挙動を判断する。さらに、挙動解析装置１は、抽出したオブジェクトが物であれば、その物を放置した人を探索する機能も有している。

　この挙動解析装置１は、制御部１１と、画像入力部１２と、画像処理部１３と、記憶部１４と、タイマ１５と、通信部１６と、を備えている。制御部１１は、挙動解析装置１本体の動作を制御する。

　画像入力部１２には、接続しているビデオカメラ２が撮像しているフレーム画像が入力される。

　画像処理部１３は、オブジェクト抽出機能１３ａ、および姿勢推定機能１３ｂを有している。オブジェクト抽出機能１３ａは、ビデオカメラ２から入力されたフレーム画像を処理し、撮像されている人や物等をオブジェクトとして抽出する。また、オブジェクト抽出機能１３ａは、抽出したオブジェクトにＩＤを付与するとともに、その位置（フレーム画像上の位置）を検出する。このＩＤは、オブジェクトを識別できるユニークな値である。また、画像処理部１３は、時間的に連続するビデオカメラ２の複数のフレーム画像を処理し、オブジェクトマップを作成することにより、ビデオカメラ２の撮像エリア内に位置しているオブジェクト（ＩＤが付与されている人や物）を追跡する。このオブジェクトマップについては後述する。

画像処理部１３は、時空間ＭＲＦ(Markov Random Field)モデルを利用して、撮像されているオブジェクトの抽出や追跡を行う。時空間ＭＲＦモデルは、公知のように、時空間画像の時間軸方向の相関関係に着目し、ＭＲＦモデルを時空間モデルとして拡張したものである。この時空間ＭＲＦモデルは、処理対象であるフレーム画像に対して数ピクセル×数ピクセル（例えば、８ピクセル×８ピクセル）のブロックで領域分割を行い、時間的に連続するフレーム画像間でのブロック毎の動きベクトルを参照した時間軸方向の相関を定義するモデルである。

　また、姿勢推定機能１３ｂは、オブジェクト抽出機能１３ａが抽出したオブジェクトの姿勢を推定する。具体的には、姿勢推定機能１３ｂは、オブジェクト抽出機能１３ａが抽出したオブジェクトについて、そのオブジェクトを囲む矩形領域を設定する。また、この矩形領域は、抽出したオブジェクトに外接するように設定する。姿勢推定機能１３ｂは、ここで設定した矩形の高さと幅の比、すなわちアスペクト比、に基づき、そのオブジェクトの姿勢を推定する。

　例えば、オブジェクトを囲む矩形領域の高さαと、幅βとの比が、
　β／α＜０６であれば、立ち状態
　０．６＜β／α＜１．５であれば、しゃがみ込み、または飛び跳ね状態
　１．５＜β／αであれば、横たわり状態、
であると推定する。

　なお、ここでは、抽出したオブジェクトに対して矩形領域を設定するとしたが、矩形領域を設定せずに、そのオブジェクトの高さαと、幅βと、を検出し、姿勢を推定してもよい。

　また、挙動解析装置１は、フレーム画像上における位置が予め定めた時間（数十秒程度）変化しないオブジェクトを荷物（放置物）と判断する。この時間は、監視対象エリアに応じて設定すればよい。挙動解析装置１は、オブジェクトマップを参照することにより、オブジェクト毎に、時間経過にともなう位置の変化を得ることができる。

　図２は、オブジェクトマップを示す図である。オブジェクトマップは、図２に示すように、画像処理部１３で抽出したオブジェクト毎に作成する。図２は、抽出したオブジェクトである物体Ａ（図２（Ａ）参照）、および物体Ｂ（図２（Ｂ）参照）について作成されたオブジェクトマップの例である。物体Ａは人であり、物体Ｂは物である。図２に示すように、オブジェクトマップは、物体の種類（人、または物）、姿勢（人のみ）、位置、オブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さ、場所情報、および時刻を対応づけたレコードを時系列に登録したものである。上述したように、画像処理部１３が、このオブジェクトマップを作成する。記憶部１４が、このオブジェクトマップを記憶する。

　図２に示すオブジェクトマップの場所情報は、その場所の環境を示す情報である。例えば、不特定多数の人の通行路であるフロア、自動改札機を設置している改札機エリア、ベンチを設置しているベンチエリアを示す。また、場所情報は、ビデオカメラ２の撮像エリアを図３に示すように分割し、分割した領域毎に設定している。図３（Ａ）は、ビデオカメラ２による改札口周辺の撮像画像を示している。また、図３（Ｂ）は、図３（Ａ）に示す撮像領域に対する場所情報の設定例を示す図である。図４（Ａ）は、ビデオカメラ２による駅ホームの撮像画像を示している。また、図４（Ｂ）は、図４（Ａ）に示す撮像領域に対する場所情報の設定例を示す図である。

　記憶部１４は、挙動解析装置１の動作時に用いる設定パラメータや、動作時に発生した処理データ（上述したオブジェクトマップを含む。）等を記憶する。タイマ１５は、現在時刻を計時する。通信部１６は、図示していない上位装置等との間における通信を制御する。

　この挙動解析装置１は、１つのオブジェクト（単独オブジェクト）の挙動の解析が行えるだけでなく、複数オブジェクト間で関連する挙動の解析も行える。単独オブジェクトの挙動の解析により、自動改札機の不正通行（強行突破）、駅ホームや改札口周辺における徘徊、座り込み、倒れ込み、滞留、酔客等の検知が行える。また、複数オブジェクトの挙動の解析により、自動改札機の不正通行（共連れ）、不審物の置き去り、持ち去り、口論、つきまとい、キャッチセールス、通り魔等の検知が行える。

　以下、この実施形態にかかる挙動解析装置１の動作について説明する。

　図５は、この挙動解析装置の動作を示すフローチャートである。挙動解析装置１は、画像処理部１３において、画像入力部１２に入力されたビデオカメラ２で撮像しているフレーム画像を処理し、撮像されているオブジェクト（人や、物）を抽出する（Ｓ１）。Ｓ１では、例えば、背景との差分画像を生成し、この差分画像から撮像されている物体を抽出する。

　画像処理部１３は、前回処理したフレーム画像で抽出した人物と、Ｓ１で抽出した人物と、を対応付ける（Ｓ２）。画像処理部１３は、時空間ＭＲＦモデルを用い、人物を、８ピクセル×８ピクセルのブロックを単位とする人物領域として抽出する。Ｓ２では、前回処理したフレーム画像で抽出した人物と、Ｓ１で抽出した人物と、を対応付けることにより、今回抽出した人物の移動方向や移動量を得ることができ、抽出した人物の追跡が行える。

　また、今回の処理で抽出した人物であって、前回の処理で抽出されていなかった人物（すなわち、今回初めて抽出した人物）については、仮ＩＤを付与する（Ｓ３、Ｓ４）。この仮ＩＤが付与される人物は、前回のフレーム画像の処理から、今回のフレーム画像の処理までの間に、ビデオカメラ２の撮像エリア内に入ってきた人物である。

　なお、前回の処理で抽出されていたが、今回の処理で抽出されなかった人物は、前回のフレーム画像の処理から、今回のフレーム画像の処理までの間に、ビデオカメラ２の撮像エリア外に出た人物である。

　画像処理部１３は、今回抽出した人物毎に、その人物を囲む矩形領域を設定する（Ｓ５）。画像処理部１３は、今回抽出した人物毎に、Ｓ５で設定した矩形領域の高さ、および幅を検出し、アスペクト比（縦横比）を算出し、その人物（人のみ）の姿勢を推定する（Ｓ６）。Ｓ６では、上述したように、オブジェクトを囲む矩形領域の高さαと、幅βとの比が、
　β／α＜０６であれば、立ち状態
　０．６＜β／α＜１．５であれば、しゃがみ込み、または飛び跳ね状態
　１．５＜β／αであれば、横たわり状態、
であると推定する。

　また、Ｓ６では、今回抽出した人物毎に、設定した矩形領域の上辺の高さ、および下辺の高さを検出する。

　画像処理部１３は、今回処理したフレーム画像から抽出したオブジェクト毎に、オブジェクトマップに登録するレコードを生成する（Ｓ７）。Ｓ７では、図２に示したように、オブジェクトの種類（人、または物）、姿勢（人のみ）、位置、オブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さ、場所情報、および時刻を対応づけたレコードを生成する。

　なお、抽出したオブジェクトが人、または物であるかの判定は、位置が変化することなく一定時間経過したときに、物であるとする。言い換えれば、一定時間経過する前に、位置が変化している物体（移動している物体）であれば人と判定する。人、または物の判定にかかる詳細については、後述する。

　挙動解析装置１は、Ｓ７で生成したレコードをオブジェクトマップに登録する（Ｓ８）。挙動解析装置１は、このオブジェクトマップを記憶部１４に記憶する。

　挙動解析装置１は、上述したＳ１～Ｓ８にかかる処理を繰り返すことにより、ビデオカメラ２の撮像エリア内に位置する人や、物にかかるオブジェクトマップ（図２参照）を作成し、記憶部１４に記憶する。

　次に、上述した処理で作成したオブジェクトマップに基づき、オブジェクトの種類（人、または物）を判定する手法について説明する。

　制御部１１は、上述したオブジェクトマップに基づき、この判定を行う。この判定は、人、または物のどちらであるか判定していないオブジェクトについてのみ行い、すでに同判定を行っているオブジェクトについては、この判定を繰り返し行わない。図６は、このオブジェクトの種類を判定するフローチャートである。

　制御部１１は、種類を判定していないオブジェクトをオブジェクトマップから抽出する（Ｓ１１）。制御部１１は、Ｓ１１で抽出したオブジェクト毎に、過去１０フレームの撮像画像の処理で位置が変化していないかどうかを判定する（Ｓ１２）。制御部１１は、位置が変化しているオブジェクトを人であると判定する。一方、過去１０フレームの撮像画像の処理で位置が変化していないオブジェクトであれば、そのオブジェクトが過去５０フレーム前のフレーム画像に存在しているかどうかを判定する（Ｓ１３）。このＳ１３は、オブジェクトが、一時的に他のオブジェクトの影になってビデオカメラ２に撮像されなかった設置物であるかどうかを判定している。制御部１１は、Ｓ１３で過去５０フレーム前のフレーム画像にも存在していないオブジェクトであれば、そのオブジェクトを物（放置物）であると判定する（Ｓ１４）。

　なお、制御部１１は、Ｓ１２で過去１０フレームの撮像画像の処理で位置が変化していると判定した場合、そのオブジェクトを人であると判定する（Ｓ１５）。また、制御部１１は、Ｓ１３で過去５０フレーム前のフレーム画像に存在しているオブジェクトであると判定した場合、このオブジェクトを設置物であると判定する（Ｓ１６）。

　このように、挙動解析装置１は、ビデオカメラ２の撮像エリア内に位置するオブジェクトの種類を判定する。

　また、挙動解析装置１は、上述した処理で作成したオブジェクトマップを用いることで、Ｓ１４で放置物と判定したオブジェクトを放置した人の探索が行える。具体的には、その放置物が検出される直前に、その場所に位置していた人をオブジェクトマップから検索する。これにより、この放置物を放置した人が特定できる。同様に、オブジェクトマップを用いることで、喧嘩や口論等に関わった人の探索が行える。

また、上述したように、オブジェクトマップにはオブジェクトが位置している場所を示す場所情報が対応づけられている。オブジェクトのアスペクト比を用いることで、当該オブジェクト（人）の挙動を精度良く判定できる。例えば、オブジェクトである人が位置している場所の場所情報がフロアであり、姿勢が横たわり状態である場合、酔客等の倒れ込みであると判断できる。また、オブジェクトである人が位置している場所の場所情報がベンチであり、姿勢がしゃがみ込み状態である場合、ベンチに座っていると判断できる。また、オブジェクトである人が位置している場所の場所情報がベンチであり、姿勢が横たわり状態である場合、ベンチに横たわっていると判断できる。また、オブジェクトである人が位置している場所の場所情報がごみ箱エリアであり、姿勢が立ち状態であれば、ゴミ箱をあさっていると判断できる。

　なお、酔客であるかどうかの判断は、その人の移動速度から判断すればよい。一般に酔客は、移動速度が遅い。移動速度は、オブジェクトマップから得られる。

　また、上述したように、オブジェクトマップには、オブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さが登録されているので、その人が飛び上がったのか、しゃがんだのか判断できる。すなわち下辺の高さが床面よりも上方に位置していれば飛び上がったと判断でき、下辺の高さが床面に位置していればしゃがんだと判断できる。

　また、図７に示すように、自動改札機のゲートをしゃがんで不正に通行した場合、その不正通行者を囲む矩形の上辺が一時的（図７（Ｂ）参照）に下がる。図７（Ａ）は、自動改札機の通路に進入する直前のフレーム画像を示している。図７（Ｂ）は、自動改札機の通路を通行しているとき（しゃがんでいる状態）のフレーム画像を示している。図７（Ｃ）は、自動改札機の通路から退出したときのフレーム画像を示している。すなわち、自動改札機の通路を通行している人が、一時的にしゃがんだことを検出したとき、自動改札機の不正通行者であると判断できる。

　また、図８に示すように、自動改札機のゲートを飛び越えて不正に通行した場合、その不正通行者を囲む矩形の下辺が一時的（図８（Ｂ）参照）に上がる。図８（Ａ）は、自動改札機の通路に進入する直前のフレーム画像を示している。図８（Ｂ）は、自動改札機の通路を通行しているとき（ゲートを飛び越えている状態）のフレーム画像を示している。図８（Ｃ）は、自動改札機の通路から退出したときのフレーム画像を示している。すなわち、自動改札機の通路を通行している人が、一時的に飛び跳ねたことを検出したとき、自動改札機の不正通行者であると判断できる。

　なお、オブジェクト（通行者）を囲む矩形のアスペクト比を用いて状態を判断しているので、立ち状態である通行者を、しゃがんだ、または飛び跳ねたとする誤判断が抑えられる。

　さらに、自動改札機から得られる通行者の人数を用いて、共連れにかかる不正通行の検出も行える。例えば、図９（Ａ）は、自動改札機の通路に進入する直前のフレーム画像を示している。図９（Ｂ）は、自動改札機の通路を通行しているときのフレーム画像を示している。図９（Ｃ）は、自動改札機の通路から退出したときのフレーム画像を示している。図９（Ａ）、（Ｃ）に示すように、自動改札機の入口、または出口で２人の人を検出していた場合に、自動改札機から得られた改札通路の通行者の人数が１人であれば、共連れであると判断できる。

　このように、この実施形態にかかる挙動解析装置１は、抽出したオブジェクトの高さと、幅の比であるアスペクト比に基づいて、そのオブジェクトの挙動を判断する。すなわち、この挙動解析装置１は、オブジェクトの三次元情報を用いないので、システムの大型化やコストアップが十分に抑えられる。

　次に、この発明の別の実施形態について説明する。この別の実施形態にかかる挙動解析装置１も図１０に示す構成である。図１０に示すように、この例の挙動解析装置１は、姿勢モデル記憶部２１を備えている点で、上記例の挙動解析装置と異なる。また、後述するように、Ｓ６にかかる姿勢を推定する処理が異なる。

　姿勢モデル記憶部２１は、オブジェクトの姿勢毎に特徴量のモデルベクトルを記憶している。このモデルベクトルは、姿勢毎に、ビデオカメラ２で撮像したオブジェクトの画像を処理し得たものである。具体的には、姿勢毎に、ビデオカメラ２でオブジェクトを撮像し、その撮像画像に撮像されているオブジェクトを抽出する。抽出したオブジェクトについて、そのオブジェクトを囲む矩形領域を設定する。ここで設定した矩形領域内におけるオブジェクトと、それ以外と、を区別したシルエット画像（２値化画像）を生成する（図１１参照）。図１１（Ａ）、（Ｂ）は、ベンチに座っている人のシルエット画像であり、図１１（Ｃ）はフロアに座っている人のシルエット画像である。図１１（Ａ）は、背筋を延ばした状態の人であり、図１１（Ｂ）、（Ｃ）は、背中を丸めて、頭を下げている状態の人である。このシルエット画像における、垂直方向のヒストグラム（ｘ１～ｘｎ）、および水平方向のヒストグラム（ｙ１～ｙｍ）に基づいて作成した特徴量ベクトルを、該当する姿勢のモデルベクトルＸとして、姿勢モデル記憶部２１に記憶している。モデルベクトルＸは、以下のようにして作成する。

作成に用いるシルエット画像の大きさの違いによる影響を抑えるため、シルエット画像を垂直方向にｎ分割（図１１では、ｎ＝８）、水平方向にｍ分割（図１１では、ｍ＝８）した大きさに正規化し、垂直方向のヒストグラム（ｘ１～ｘｎ）、および水平方向のヒストグラム（ｙ１～ｙｍ）を作成する。モデルベクトルＸは、作成した垂直方向のヒストグラム、および水平方向のヒストグラムに基づく、ｎ＋ｍ（図１１では、８＋８＝１６）次元ベクトル（ｘ１、ｘ２、・・・ｘｎ、ｙ１、ｙ２、・・・ｙｍ）である。

　また、この挙動解析装置１は、図１２に示すオブジェクトマップを作成する。上記の例と異なる点は、抽出したオブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さを登録していない点である。

　次に、この挙動解析装置１におけるオブジェクトの姿勢を推定する処理（上述のＳ６にかかる処理）について説明する。

　上述したように、画像処理部１３のオブジェクト抽出機能１３ａが、Ｓ５で、今回抽出した人物毎に、その人物を囲む矩形領域を設定する。姿勢推定機能１３ｂは、今回抽出したオブジェクト毎に、Ｓ５で設定した矩形領域内におけるオブジェクトと、それ以外と、を区別したシルエット画像を生成する。オブジェクト抽出機能１３ａは、ここで生成したシルエット画像における、垂直方向のヒストグラム（ｘ１～ｘｎ）、および水平方向のヒストグラム（ｙ１～ｙｍ）に基づいて、このオブジェクトの特徴量ベクトルＹを得る。このオブジェクトの特徴量ベクトルＹも、上述したモデルベクトルＸと同様に、シルエット画像を垂直方向にｎ分割、水平方向にｍ分割した大きさに正規化し作成した垂直方向のヒストグラム（ｘ１～ｘｎ）、および水平方向のヒストグラム（ｙ１～ｙｍ）に基づく、ｎ＋ｍ（図１１では、８＋８＝１６）次元ベクトル（ｘ１、ｘ２、・・・ｘｎ、ｙ１、ｙ２、・・・ｙｍ）である。

　姿勢推定機能１３ｂは、オブジェクト毎に、そのオブジェクトについて取得した特徴量ベクトルＹと、姿勢モデル記憶部２１が記憶している各姿勢のモデルベクトルＸとの距離（類似度）を算出する。そして、ここで算出した類似度が、最小で、且つ、予め定めた閾値未満であるモデルベクトルＸに対応する姿勢を、このオブジェクトの姿勢と推定する。一方、算出した類似度が、最小であっても、予め定めた閾値未満でなければ、オブジェクトの姿勢を不明とする。

　なお、この挙動解析装置１は、Ｓ６以外の処理については上記の例と同じである。

　このように、この例にかかる挙動解析装置１は、シルエット画像からオブジェクト（人）の姿勢を推定するので、例えばベンチに座っている人が、背筋を延ばして座っているのか、背中を丸め、頭を下げてうずくまっているのか等の違いについても判別できる。

　また、挙動解析装置１は、図１３に示すように、ビデオカメラ２（２Ｘ、２Ｙ）、画像入力部１２（１２Ｘ、１２Ｙ）、画像処理部１３（１３Ｘ、１３Ｙ）を２系統設けた構成としてもよい。

　この例にかかる挙動解析装置１は、監視カメラとして設置した２台のビデオカメラ２（２Ｘ、２Ｙ）で撮像しているフレーム画像を処理し、撮像されているオブジェクト（人や物）を抽出する。ビデオカメラ２Ｘ、２Ｙは、上述した例のものと同じである。２台のビデオカメラ２Ｘ、２Ｙは、同じ監視対象エリアを撮像する。監視対象エリアに対する、ビデオカメラ２Ｘのアングル（撮像方向）と、ビデオカメラ２Ｙのアングル（撮像方向）とは、略９０°異なる。

　画像入力部１２Ｘには、接続しているビデオカメラ２Ｘが撮像しているフレーム画像が入力される。画像入力部１２Ｙは、接続しているビデオカメラ２Ｙが撮像しているフレーム画像が入力される。

　画像処理部１３Ｘは、画像入力部１２Ｘに入力されたビデオカメラ２Ｘの撮像画像を処理する。画像処理部１３Ｙは、画像入力部１２Ｙに入力されたビデオカメラ２Ｙの撮像画像を処理する。この画像処理部１３（１３Ｘ、１３Ｙ）も、オブジェクト抽出機能１３ａ、および姿勢推定機能１３ｂを有している。画像処理部１３（１３Ｘ、１３Ｙ）は、上述したシルエット画像から、撮像されているオブジェクトの姿勢を推定する処理を行う。

　より具体的には、画像処理部１３Ｘは、ビデオカメラ２Ｘが撮像した監視対象エリアの撮像画像に撮像されているオブジェクトの姿勢を推定する。また画像処理部１３Ｙは、ビデオカメラ２Ｙが撮像した監視対象エリアの撮像画像に撮像されているオブジェクトの姿勢を推定する。言い換えれば、監視対象エリア内に位置するオブジェクトは、ビデオカメラ２Ｘが撮像した撮像画像によって姿勢が推定されるとともに、ビデオカメラ２Ｙが撮像した撮像画像によっても姿勢が推定される。

　この例では、生成されるオブジェクトマップは、Ｓ７で画像処理部１３Ｘが生成したレコードと、画像処理部１３Ｙが生成したレコードと、を統合したレコードを登録したものである。このレコードの統合にかかる処理は、制御部１１が行う。

　制御部１１は、画像処理部１３Ｘが抽出したオブジェクトと、画像処理部１３Ｙが抽出したオブジェクトを対応づける（同定する）同定処理を行う。

　ここで、画像処理部１３Ｘが抽出したオブジェクトと、画像処理部１３Ｙが抽出したオブジェクトを同定する同定処理について説明する。

　挙動解析装置１は、ビデオカメラ２Ｘが撮像したフレーム画像の２次元座標系と、ビデオカメラ２Ｙが撮像したフレーム画像の２次元座標系と、の相対的な位置関係を示す座標変換情報を記憶部１４に記憶している。この座標変換情報は、ビデオカメラ２Ｘが撮像したフレーム画像の２次元座標系と、ビデオカメラ２Ｙが撮像したフレーム画像の２次元座標系と、を共通の座標系に射影変換する情報である。ここでは、この座標変換情報として、以下に示す、第１の座標変換パラメータと、第２の座標変換パラメータと、を記憶部１４に記憶している。第１の座標変換パラメータは、ビデオカメラ２Ｘが撮像したフレーム画像の２次元座標系を、ビデオカメラ２Ｙが撮像したフレーム画像の２次元座標系に射影変換するパラメータである。第２の座標変換パラメータは、ビデオカメラ２Ｙが撮像したフレーム画像の２次元座標系を、ビデオカメラ２Ｘが撮像したフレーム画像の２次元座標系に射影変換するパラメータである。

　なお、座標変換情報は、第１の座標変換パラメータ、または第２の座標変換パラメータのどちらか一方のみであってもよい。

　ここで、第１の座標変換パラメータ、および第２の座標変換パラメータについて説明しておく。この第１の座標変換パラメータ、および第２の座標変換パラメータは、ビデオカメラ２Ｘ、２Ｙの設置時に、実際に撮像したフレーム画像を用いて算出した値である。

　まず、ビデオカメラ２Ｘ、２Ｙの設置完了時に、テープ等を用いて、監視対象エリア内の床面に４点をマーキングする。そして、ビデオカメラ２Ｘで撮像したフレーム画像を処理し、このフレーム画像上におけるマーキングした４点の座標位置（ｘ，ｙ）を検出する。同様に、ビデオカメラ２Ｙで撮像したフレーム画像上におけるマーキングした４点の座標位置（Ｘ，Ｙ）を検出する。そして、マーキングした点毎に、その座標位置を、
　Ｘ＝（ａ１ｘ＋ｂ１ｙ＋ｃ１）／（ａ０ｘ＋ｂ０ｙ＋１）
　Ｙ＝（ａ２ｘ＋ｂ２ｙ＋ｃ２）／（ａ０ｘ＋ｂ０ｙ＋１）
に代入し、８元連立方程式を得る。この８元連立方程式の解である、ａ０，ｂ０，ａ１，ｂ１，ｃ１，ａ２，ｂ２，ｃ２の８個の定数が、ビデオカメラ２Ｘが撮像したフレーム画像の２次元座標系を、ビデオカメラ２Ｙが撮像したフレーム画像の２次元座標系に射影変換する第１の座標変換パラメータである。

　同様に、マーキングした点毎に、その座標位置を、
　ｘ＝（Ａ１Ｘ＋Ｂ１Ｙ＋Ｃ１）／（Ａ０Ｘ＋Ｂ０Ｙ＋１）
　ｙ＝（Ａ２Ｘ＋Ｂ２Ｙ＋Ｃ２）／（Ａ０Ｘ＋Ｂ０Ｙ＋１）
に代入し、８元連立方程式を得る。この８元連立方程式の解である、Ａ０，Ｂ０，Ａ１，Ｂ１，Ｃ１，Ａ２，Ｂ２，Ｃ２の８個の定数が、ビデオカメラ２Ｙが撮像したフレーム画像の２次元座標系を、ビデオカメラ２Ｘが撮像したフレーム画像の２次元座標系に射影変換する第２の座標変換パラメータである。

　ビデオカメラ２Ｘ、２Ｙが撮像したフレーム画像上におけるオブジェクトの同定は、一方のビデオカメラ２Ｘに撮像されているオブジェクト毎に、フレーム画像上の座標位置を取得する。また、他方のビデオカメラ２Ｙに撮像されているオブジェクト毎に、フレーム画像上の座標位置を取得する。これらは、画像処理部１３Ｘ，１３ＹがＳ７で作成したレコードから取得できる。そして、オブジェクトを、１対１で対応付ける組み合せパターンを作成する。ここで作成される組み合せのパターン数は、例えば、オブジェクトが２つであれば２通りであり、また３つであれば６通りである。

　また、挙動解析装置１は、一方のビデオカメラ２Ｘに撮像されているオブジェクト毎に、第１の座標変換パラメータを用いて、そのオブジェクトの座標位置を他方のビデオカメラ２Ｙが撮像したフレーム画像の２次元座標系に射影変換する。挙動解析装置１は、オブジェクトの組み合せパターン毎に、他方のビデオカメラ２Ｙが撮像したフレーム画像の２次元座標系での、対応するオブジェクト間の距離の総和である第１の距離エネルギーを算出する。

また、挙動解析装置１は、他方のビデオカメラ２Ｙに撮像されているオブジェクト毎に、第２の座標変換パラメータを用いて、そのオブジェクトの座標位置を一方のビデオカメラ２Ｘが撮像したフレーム画像の２次元座標系に射影変換する。挙動解析装置１は、オブジェクトの組み合せパターン毎に、一方のビデオカメラ２Ｘが撮像したフレーム画像の２次元座標系での、対応するオブジェクト間の距離の総和である第２の距離エネルギーを算出する。

　そして、挙動解析装置１は、受け渡しエリアに位置するオブジェクトの組合せの中で、第１の距離エネルギーと、第２の距離エネルギーとの和が最小である組み合せパターンを、撮像されているオブジェクトの適正な対応付けと判断し、同定する。

　この統合したレコードを、オブジェクトマップに登録する。このオブジェクトマップには、図１４に示すように、画像処理部１３Ｘが推定したオブジェクトの姿勢、および画像処理部１３Ｙが推定したオブジェクトの姿勢がともに登録される。

　また、この挙動解析装置１は、オブジェクトの挙動を、画像処理部１３Ｘが推定したオブジェクトの姿勢、および画像処理部１３Ｙが推定したオブジェクトの姿勢を用いて判断する。例えば、図１５に示す、挙動判断テーブルを記憶部１４に記憶している。この挙動判断テーブルは、改札機エリア（図１５（Ａ）参照）、ベンチエリア（図１５（Ｂ）参照）、フロア（図１５（Ｃ）参照）等の場所毎に記憶している。挙動判断テーブルは、画像処理部１３Ｘが推定したオブジェクトの姿勢、および画像処理部１３Ｙが推定したオブジェクトを、オブジェクトの挙動に対応づけるテーブルである。例えば、改札機エリアであれば、画像処理部１３Ｘが推定したオブジェクトの姿勢、および画像処理部１３Ｙが推定したオブジェクトの姿勢がともに、立ち状態であれば適性利用者と判断する。一方、画像処理部１３Ｘが推定したオブジェクトの姿勢、または画像処理部１３Ｙが推定したオブジェクトの姿勢の少なくとも一方が、立ち状態でなければ、不正利用者（異常行動）と判断する。

　また、監視対象エリアに対する、ビデオカメラ２Ｘのアングルと、ビデオカメラ２Ｙのアングルとを、略９０°異ならせているので、オブジェクトが人である場合、少なくとも一方のビデオカメラ２で、このオブジェクトを横方向から撮像することができ、その姿勢の推定精度を向上させることができる。また、オブジェクトがオクルージョンによって、一方のビデオカメラ２で撮像されなくても、他方のビデオカメラ２で撮像される可能性が高く、オブジェクトの抽出精度の向上が図れる。

　なお、上記の例では、ビデオカメラ２（２Ｘ、２Ｙ）、画像入力部１２（１２Ｘ、１２Ｙ）、画像処理部１３（１３Ｘ、１３Ｙ）を２系統設けた構成を示したが、３系統以上設けた構成としてもよい。

　また、上記の説明では、挙動解析装置１を自動改札機や駅ホームにおけるオブジェクトの挙動を判断する場合を例示したが、その他の場所にも適用可能である。

　１…挙動解析装置
　２（２Ｘ、２Ｙ）…ビデオカメラ
　１１…制御部
　１２（１２Ｘ、１２Ｙ）…画像入力部
　１３（１３Ｘ、１３Ｙ）…画像処理部
　１３ａ…オブジェクト抽出機能
　１３ｂ…姿勢推定機能
　１４…記憶部
　１５…タイマ
　１６…通信部
　２１…姿勢モデル記憶部

Claims

　撮像装置が撮像している撮像エリアのフレーム画像を処理し、撮像されているオブジェクトを抽出するオブジェクト抽出手段と、
　前記オブジェク抽出手段が抽出したオブジェクト毎に、撮像エリア内の位置を検出する位置検出手段と、
　前記オブジェク抽出手段が抽出したオブジェクト毎に、その姿勢を推定する姿勢推定手段と、
　前記オブジェク抽出手段が抽出したオブジェクト毎に、前記位置検出手段が検出した撮像エリア内の位置と、前記姿勢推定手段が推定した姿勢とに基づいて、当該オブジェクトの挙動を判断する挙動判断手段と、を備えた挙動解析装置。
　前記姿勢推定手段は、前記オブジェク抽出手段が抽出したオブジェクト毎に、そのオブジェクトの高さと、幅とに基づいて姿勢を推定する、請求項１に記載の挙動解析装置。
　前記姿勢推定手段は、前記オブジェク抽出手段が抽出したオブジェクト毎に、そのオブジェクトを囲む矩形領域を設定し、この矩形領域の高さと、幅との比に基づいて姿勢を推定する、請求項２に記載の挙動解析装置。
　前記姿勢推定手段は、設定したオブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さも加えて、当該オブジェクトの姿勢を推定する、請求項３に記載の挙動解析装置。
　オブジェクトの姿勢別に、その姿勢におけるオブジェクトの形状モデルを記憶する姿勢モデル記憶手段を備え、
　前記姿勢推定手段は、前記オブジェク抽出手段が抽出したオブジェクト毎に、前記姿勢モデル記憶手段が記憶する形状モデルとの類似度を算出し、ここで算出した類似度に基づいて姿勢を推定する、請求項１に記載の挙動解析装置。
　前記姿勢推定手段は、算出した類似度が最大である形状モデルに対応する姿勢を、そのオブジェクトの姿勢として推定する、請求項５に記載の挙動解析装置。
　前記オブジェクト抽出手段は、複数の撮像装置が異なるアングルで撮像している前記撮像エリアのフレーム画像毎に、撮像されているオブジェクトを抽出し、
　前記オブジェクト抽出手段が抽出したオブジェクトを、前記複数の撮像装置のフレーム画像間で同定する同定手段を備え、
　前記挙動判断手段は、前記オブジェクト抽出手段が抽出し、前記同定手段が同定したオブジェクトの姿勢を、前記複数の撮像装置が撮像しているフレーム画像毎に推定した姿勢の組合せによって判断する、請求項５に記載の挙動解析装置。
　撮像エリアを複数の領域に分割した領域毎に、対応するフレーム画像上での領域と、その場所の環境と、を対応付けて設定したロケーション情報を記憶するロケーション情報記憶手段を備え、
　前記挙動判断手段は、前記ロケーション情報から得られるオブジェクトが位置する場所の環境を加えて、当該オブジェクトの挙動を判断する、請求項１に記載の挙動解析装置。
　前記オブジェク抽出手段が抽出したオブジェクトについて、前記位置検出手段が検出した位置と、前記姿勢検知手段が検知した姿勢とを時系列に登録したオブジェクトマップを作成するオブジェクトマップ作成手段を備え、
　前記挙動判断手段は、前記オブジェクトマップ作成手段が作成したオブジェクトマップから得られる、時間経過にともなうオブジェクトの位置の変化、および推定した姿勢の変化から当該オブジェクトの挙動を判断する、請求項８に記載の挙動解析装置。