JP7243372B2

JP7243372B2 - 物体追跡装置および物体追跡方法

Info

Publication number: JP7243372B2
Application number: JP2019060877A
Authority: JP
Inventors: 信二高橋
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2023-03-22
Anticipated expiration: 2039-03-27
Also published as: JP2020160901A

Description

本発明は、動画像中の物体を追跡する技術に関する。

動画像（時系列画像）のあるフレームにおいて検出された物体を追跡する物体追跡は、コンピュータビジョン分野において重要な技術である。

物体追跡の方法として、所定のフレーム数または所定の時間が経過すると、検出と追跡とを切り替える方法が知られている。この方法では、追跡に失敗（ロスト）した場合、所定のフレーム数になるまで、追跡対象の追跡処理が続けられる。この結果、ロストしてから所定の時間が経過するまでの間、誤った追跡結果が出力されたり、余剰な計算の負荷が生じたりするという課題があった。

これに対して、非特許文献１は、相関フィルタモデルと呼ばれるオンライン学習を行う追跡アルゴリズムを提案し、このアルゴリズムが物体追跡に好適な手法であることを示している。さらに、この文献では、ＰＳＲ（Peak to sidelobe ratio、ピーク対サイドローブ比）という応答マップの質を表す指標を定義し、フレームごとに指標を算出し、指標の値が閾値未満であれば追跡に失敗したと判定する方法を開示する。この方法は、即時性はあるものの、追跡しているにもかかわらず、失敗と判定することがある旨が報告されている。

また、特許文献１は、初期テンプレート画像と入力画像との類似度、および更新テンプレート画像と入力画像との類似度に基づいて、追尾被写***置を特定することを開示する。この方法では、テンプレート画像との類似度に基づいてロストの判定と被写体追尾処理の再開を行う。フレームごとに追跡対象の検出有無を判定する方法であり、非特許文献1
と同様に時系列的な変化を利用していない。特に、カメラの視点がトップ・ビューである場合、追跡対象は移動にともない、初期テンプレートとも更新テンプレートとも異なる見えになることがあり適さない。

ところで、ビルディングオートメーション（ＢＡ）やファクトリーオートメーション（ＦＡ）の分野において、画像センサにより人の「数」・「位置」・「動線」などを自動で計測し、照明や空調などの機器を最適制御するアプリケーションが必要とされている。このような用途では、できるだけ広い範囲の画像情報を取得するために、魚眼レンズ（フィッシュアイレンズ）を搭載した超広角のカメラ（魚眼カメラ、全方位カメラ、全天球カメラなどと呼ばれるが、いずれも意味は同じである。本明細書では「魚眼カメラ」の語を用いる）を利用することが多い。さらに、上記の用途では、できるだけ広い範囲の画像情報を取得するために、天井などの高所に取り付けたカメラをカメラの視点がトップ・ビューになるようにして配置する。この配置のカメラで撮影された画像は、人物が画像の周辺にいるときには正面像になり、画像の中央にいるときには上面図となる。

魚眼カメラで撮影された画像は、撮影面内の位置により撮影対象の見た目が歪みのため変形する。さらに、カメラの視点がトップ・ビューである場合、人物が画像の周辺から中央に移動すると正面像から上面図へと見た目が変化する。このカメラの視点にともなう物体の変形によって、追跡に成功している場合であっても応答マップの質は低下する。オンライン学習アルゴリズムの追跡手法に対して応答マップの指標が閾値未満であればロストと判定する従来技術では、精度良くロストを判定できない場合がある。

特開２０１４－０３６４２９号公報

David S. Bolme, et al. "Visual Object Tracking using Adaptive Correlation Filters",（米）,Computer Science Department Colorado State University, 2010, p.1-10

本発明は上記実情に鑑みなされたものであって、動画像中の物体の追跡処理において、追跡対象のロストを精度良く判定する技術を提供することを目的とする。

上記目的を達成するために本発明は、以下の構成を採用する。

本発明の第一側面は、動画像に含まれるフレーム画像において対象物を追跡する物体追跡装置であって、前記フレーム画像の対象領域から特徴量を抽出する特徴量抽出手段と、前記フレーム画像の前記対象領域において前記対象物が存在する確からしさを表す応答マップを前記特徴量に基づいて求める応答マップ算出手段と、前記応答マップから前記フレーム画像に対応する指標を算出し、前記動画像に含まれる各フレーム画像に対応する応答マップから算出した指標の時系列データに基づいて、前記対象物の追跡に失敗したか否かを判定する判定手段と、を備え、前記判定手段は、前記時系列データにおいて指標が極小となる極小フレームを検出し、前記極小フレームの前後における指標の変化に基づいて、前記対象物の追跡に失敗したか否かを判定する、ことを特徴とする物体追跡装置を提供する。

追跡の対象とする物体、すなわち「対象物」は、任意の物体であってよく、人体、顔、動物、車両などがその一例である。「対象領域」はフレーム画像における対象物の探索を行う領域であり、典型的には、前のフレーム画像における対象物の位置に基づいて決定される部分領域である。

応答マップ算出部によって求められる応答マップは、対象物が存在する領域の中心で最大値を取ることが期待される。応答マップから算出される「指標」は、実施形態においては応答マップの最大値であるが、ＰＳＲなどのフィルタの質を測定するための応答マップに基づく指標を採用することも可能である。

指標の時系列データは、動画像に含まれる各フレーム画像から算出した指標の時間的変化を示す。時系列データにおける指標の値は、応答マップの質を表す。応答マップの質は、追跡対象にオクルージョンが発生したり、追跡対象が大きく変形したりすると急速に減少する。応答マップにおける質が低い状況下では、追跡対象の中心以外の位置において応答が最大となるケースが頻発する。これは、追跡を続けるうちに追跡の推定位置が徐々に追跡対象から離れていくドリフト現象を引き起こし、結果として追跡の失敗となる。相関フィルタモデルなどのオンライン学習を行う追跡手法では、直前のフレームを用いて推定した位置を正解とみなして現在のフレームに対する学習処理を行うため、ドリフトによる追跡失敗後には、背景などを学習用画像として学習がなされる。この際に、相関フィルタなどのオンライン学習を行う追跡手法では、フィルタの更新を行うときに、前回のフィルタと今回のフィルタとの重みづけ和で更新を行う。特徴量の変化が見られない背景にドリフトが発生する場合では、現在のフレームにおける応答マップの最大値は同じ値および同
じ位置になりやすい。つまり、背景、特に静止した背景、にドリフトした後では応答マップの質は安定する。上記のため、指標の値は、背景へドリフトする際に低下し、その後、背景、特に静止した背景、にドリフトが発生すると急速に上昇し、上昇後の値で安定する。「極小フレーム」は、指標の時系列データにおいて極小となるフレームであり、以下の説明では「谷」とも称される。物体追跡装置は、指標の時系列データにおいて谷を検出し、谷の前後の指標の変化に基づいて、ロストの判定をすることにより、単一のフレームにおける指標に基づいてロストを判定する従来技術よりもロストの誤判定を抑制することができる。

本発明の判定手段は、極小フレームの前後における指定フレーム数分のフレーム画像の指標を取得し、取得した指標の変化の度合いを算出し、変化の度合いに基づいて、対象物の追跡に失敗したか否かを判定してもよい。

極小フレームの前後における指定フレーム数は、谷の前後における指標の変化（差分）の度合いを算出できるフレーム数であればよい。指標の変化（差分）の度合いは、谷の前後における指定フレーム数分の指標から算出される。指標の変化の度合いは、谷の前後における指標の変化の急峻度合いを判定できるものであればよく、例えば、谷の前後における指定フレーム数分の指標の変化量（減少量および上昇量の合算）としてもよい。このように、物体追跡装置は、谷の前後の指標の変化の度合いに基づいて、ロストの判定をすることにより、誤判定を抑制することができる。

本発明においてフレーム画像から抽出される特徴量は、形状に関する特徴量、色に関する特徴量または輝度に関する特徴量の少なくともいずれかである。形状に関する特徴量の例として、ＨＯＧ特徴量、ＬＢＰ特徴量、ＳＨＩＦＴ特徴量、ＳＵＲＦ特徴量の少なくともいずれかが挙げられる。色に関する特徴量として、色ヒストグラム、Color Names特徴
量の少なくともいずれか、輝度に関する特徴量として、輝度ヒストグラムが挙げられる。

本発明の特徴量抽出手段は、形状に関する特徴量である第１特徴量と、色に関する特徴量または輝度に関する特徴量である第２特徴量とを抽出し、判定手段は、第１特徴量、前記第２特徴量、または前記第１特徴量と前記第２特徴量とを組み合わせた特徴量に基づいて求めた応答マップから算出される指標の変化、および前記極小フレームの前後の指定フレームにおける前記第１特徴量または前記第２特徴量の類似度に基づいて、対象物の追跡に失敗したか否かを判定してもよい。ＢＡやＦＡの分野においてレンズを魚眼レンズとしカメラの視点をトップ・ビューとして人物の追跡を行う場合では、形状は人物の歩行や作業に伴い変形しやすいが、服装や頭髪などの色は変化しにくいため、判定手段に用いる特徴量としては第２特徴量を用いることが望ましい。

判定手段は、形状に関する特徴量に基づいて求めた応答マップから算出される指標の変化に加え、谷の前後の指定フレームの色の特徴量の類似度に基づいてロストを判定してもよい。例えば、対象物が急に向きを変え直後に停止する場合、形状に関する特徴量を用いた追跡手法による応答マップでは、向きの変化にともない応答マップの質が低くなり、その直後に停止すると画像情報に変化が乏しいため、静止した背景にドリフトが発生する場合と同様な指標の時系列的な変化になる。このため、適切に追跡をしている場合であっても指標の時系列的な変化だけを利用すると誤ってロストと判定する可能性がある。しかし、室内の人物を追跡する場合、服装や頭髪などの色情報は谷の前後の指定フレーム間であっても類似していると想定できる。このため、形状に関する特徴量より求めた応答マップにおける指標の時系列データに加え、谷の前後の指定フレームの色の特徴量の類似度も考慮することで、ロストでないことを正しく判断することができる。色に関する特徴量の類似度は、色に関する特徴ベクトルを抽出し、ヒストグラムインタセクション、バタチャリヤ係数、ＥａｒｔｈＭｏｖｅｒ’ｓＤｉｓｔａｎｃｅの少なくともいずれかに基づい
て測定する方法を採用することができる。このように、判定手段は、形状に関する特徴量に加え、色に関する特徴量または輝度に関する特徴量を用いて判定するため、精度よくロストを判定することができる。

さらに、本発明の判定手段は、対象物が他の対象物と重なっている場合に、対象物における他の対象物と重なる領域の割合、または、重なっている他の対象物の数の少なくともいずれかに基づいて、対象物の追跡に失敗したか否かを判定してもよい。

複数の対象物を追跡する場合、対象物同士が重なり合う場合がある。他の対象物と重なる領域が増加すると、谷の前後の時系列データに基づいて通常のロストの判定をした場合、誤判定が生じるおそれがある。通常のロストの判定に加え、他の対象物と重なる割合や重なっている他の対象物の数に基づいてロストを判定することで、判定手段は、複数の対象物が重なりあう場合においても、精度よくロストを判定することができる。

また、本発明において処理対象とされる画像は、魚眼カメラにより得られた魚眼画像であってよい。「魚眼カメラ」は、魚眼レンズを搭載したカメラであり、通常のカメラに比べて超広角での撮影が可能なカメラである。全方位カメラ、全天球カメラおよび魚眼カメラはいずれも超広角カメラの一種であり、いずれも意味は同じである。魚眼カメラは、検出対象エリアの上方から検出対象エリアを見下ろすように設置されていればよい。典型的には魚眼カメラの光軸が鉛直下向きとなるように設置されるが、魚眼カメラの光軸が鉛直方向に対して傾いていても構わない。魚眼画像はひずみが大きいため、フレーム間での物体の特徴変化が大きく、背景へのドリフトが多発する。さらに、カメラの光軸を鉛直下向きとなるように設置すると、画像における対象物の位置により対象物を撮影する視点が変化するため、物体が大きく変形し追跡の失敗を検出するのは困難である。しかし、本発明によればそのような魚眼画像においても、精度良くロストを判定し、誤判定を抑制することができる。もっとも、本発明が処理対象とする画像は、魚眼画像に限られず、通常の画像（歪みの少ない画像）であっても構わない。

本発明の第二側面は、動画像に含まれるフレーム画像において対象物を追跡する物体追跡方法であって、前記フレーム画像の対象領域から特徴量を抽出する特徴量抽出ステップと、前記フレーム画像の前記対象領域において前記対象物が存在する確からしさを表す応答マップを前記特徴量に基づいて求める応答マップ算出ステップと、前記応答マップから前記フレーム画像の指標を算出し、前記動画像に含まれる各フレーム画像から算出した指標の時系列データに基づいて、前記対象物の追跡に失敗したか否かを判定する判定ステップと、を含み、前記判定ステップは、前記時系列データにおいて指標が極小となる極小フレームを検出するステップと、前記極小フレームの前後における指標の変化に基づいて、前記対象物の追跡に失敗したか否かを判定するステップと、を含むことを特徴とする物体追跡方法を提供する。

本発明は、上記手段の少なくとも一部を有する物体追跡装置として捉えてもよいし、画像処理装置や監視システムとして捉えてもよい。また、本発明は、上記処理の少なくとも一部を含む物体追跡方法、画像処理方法、監視方法として捉えてもよい。また、本発明は、かかる方法を実現するためのプログラムやそのプログラムを非一時的に記録した記録媒体として捉えることもできる。なお、上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば、動画像中の物体の追跡処理において、追跡対象のロストを精度良く判定する技術を提供することができる。

図１は、本発明に係る人追跡装置の適用例を示す図である。図２は、応答マップの最大値の時間的変化について説明する図である。図３は、応答マップの最大値の時間的変化について説明する図である。図４は、人追跡装置を備える監視システムの構成を示す図である。図５は、人追跡装置が実施する全体処理のフローチャートである。図６は、学習処理のフローチャートである。図７は、追跡処理のフローチャートである。図８は、実施形態１に係るロスト判定処理のフローチャートである。図９は、学習処理および学習結果を用いた追跡処理を説明する図である。図１０は、応答マップの例を示す図である。図１１は、応答マップの最大値の時間的変化について説明する図である。図１２は、実施形態１の変形例に係るロスト判定処理のフローチャートである。図１３は、実施形態２に係る人追跡装置が実施する全体処理のフローチャートである。図１４は、実施形態２に係るロスト判定処理のフローチャートである。

＜適用例＞
図１を参照して、本発明に係る物体追跡装置の適用例を説明する。物体追跡装置（人追跡装置１）は、追跡対象エリア１１の上方（例えば天井１２など）に設置された魚眼カメラ１０により得られた魚眼画像を解析して、追跡対象エリア１１内に存在する人１３を検出・追跡する装置である。この人追跡装置１は、例えば、オフィスや工場などにおいて、追跡対象エリア１１を通行する人１３の検出、認識、追跡などを行う。図１の例では、魚眼画像から検出された４つの人体それぞれの領域がバウンディングボックスで示されている。人追跡装置１の検出結果は、外部装置に出力され、例えば、人数のカウント、照明や空調など各種機器の制御、不審者の監視および動線分析などに利用される。

物体追跡は、前フレーム画像において特定された対象物の位置近傍の現フレームのターゲット領域（対象領域）を対象として、対象物と同様の特徴を有する領域の位置を特定することにより行われる。人追跡装置１は、現フレームのターゲット領域内で対象物らしさを表す尤度が最大となる位置を、対象物の位置として特定する。ターゲット領域内で、対象物らしさを表す応答マップは、信頼度マップ、尤度の分布とも称される。各フレームに対する応答マップにおける最大値（対象物の位置と特定された位置での尤度）は、追跡状況に応じて、時間の経過とともに変化する。

ここで、図２および図３を参照して、応答マップの最大値の時間的変化について説明する。図２は、対象物の追跡に成功している場合に、応答マップの最大値が徐々に減少していく様子を例示する。図２に示すグラフの縦軸は応答マップの最大値、横軸はフレーム番号である。応答マップの最大値は、各フレームの応答マップにおいて、対象物の位置として特定された位置での尤度である。応答マップの最大値は、時間の経過とともに変化し、応答マップの最大値が所定の閾値を下回った場合、対象物をロストしたものと考えられる。なお、図２および図３の説明では、応答マップから算出される指標は、応答マップの最大値であるものとして説明されるが、ＰＳＲなどの他の指標が用いられてもよい。

図２で示されるように、応答マップの最大値は、時間の経過とともに徐々に減少していく。これは、人追跡装置１が対象物を含む画像領域として学習する画像に、エラーが蓄積されていくためである。人追跡装置１は、時系列画像の各フレームにおいて、対象物を含む画像領域を学習する。人追跡装置１が学習した画像は、背景の画像情報などのノイズを
含む。人追跡装置１は、ノイズを含む画像についても、対象物を含む画像領域とみなして学習を進める。このため、ノイズによるエラーは、時間の経過とともに学習画像に蓄積されていく。各フレームにおいて、対象物を含む画像領域は、エラーが蓄積された学習画像と比較されることになる。したがって、応答マップの最大値は、時間の経過とともに徐々に減少していく。

図２の例で、ロストが発生したか否かを判定する閾値を０．３５とした場合、人追跡装置１は、対象物の追跡に成功しているにもかかわらず、Ｌ１のフレームにおいてロストが発生したものと誤判定をしてしまう。しかし、実際にロストが生じたのは、閾値０．３５を下回ってから１０フレーム以上経過後のＬ２で示されるフレームである。応答マップの最大値は、対象物の追跡に成功している場合でも、ノイズが蓄積されて徐々に減少するため、ロストが発生していなくても閾値０．３５を下回る場合がある。このように、応答マップの最大値における時間的変化は、対象物の追跡に成功している場合でも徐々に減少し、エラーが蓄積されていくという特性を有する。

図３は、対象物の追跡に失敗し、その後、静止した背景にドリフトする場合を例示するグラフである。応答マップの最大値は減少し所定の閾値を下回り谷において背景にドリフトし、その後、上昇していく。図３に示すグラフの縦軸は応答マップの最大値、横軸はフレーム数である。

図３で示されるように、応答マップの最大値は、フレームＬ３で所定の閾値を下回る。フレームごとにロストの判定をする場合、人追跡装置１は、フレームＬ３でロストしたと判定することができる。しかし、フレームＬ３より１０フレーム程度経過後まで追跡に成功しているため、実際には追跡できているにもかかわらず早いタイミングでロストと判定してしまうことになる。図３では、その後、静止した背景にドリフトが発生する。人追跡装置１は、静止した背景などへのドリフトにより、背景を追跡対象物として特定し、学習する場合がある。この場合、背景には変化が少ないため、図３に示すように応答マップの最大値は、閾値以上の値で安定する。このように、応答マップの最大値の時間的変化は、対象物の追跡に失敗し、背景、特に静止した背景にドリフトする場合、失敗する直前までは減少し、失敗後には上昇するという性質がある。

図３の例において、フレームごとに応答マップに基づく指標を算出し、各フレームの指標の値および指標の時系列変化を考慮する方法では、人追跡装置１は、適切なタイミングでロストを検出することができる。しかし、フレームごとにロストを判定する方法では、追跡ができているにもかかわらずロストと判定したり、適切なタイミングでロストを判定できなかったりすることがある。一方で、所定の時間間隔で対象物を再検出する方法（Ｔｒａｃｋｉｎｇ－ｂｙ－ｄｅｔｅｃｔｉｏｎ方式）では、追跡に失敗していても所定の時間が経過するまで追跡処理を継続するため、ロストした結果を出力し続けたり、追跡せずともよい対象を追跡し続けることによる余剰な計算が発生したりする可能性がある。

本発明に係る人追跡装置１は、動画像に含まれる各フレームの応答マップから、応答マップの最大値またはＰＳＲなどの応答マップに基づく指標を求め、時系列データとして人追跡装置１の記憶部に記録する。人追跡装置１は、各フレームの応答マップから算出した指標が、閾値未満であり、指標の時系列データの谷（各フレームにおける応答マップの最大値が極小となる位置、極小フレーム）に位置する場合、谷の前後の指標データ（指標の時系列データ）を用いて、谷の前後における変化（差異）の度合いを求める。変化の度合いは、谷の前後における指標の変化の急峻度合いを判定できるものであればよい。人追跡装置１は、変化の度合いが閾値以上であれば、追跡対象をロストしたと判定することができる。このように、人追跡装置１は、谷の前後のフレームの指標の変化に基づいて、ロストの判定をすることで、単一のフレームに対応する指標を用いて即時にロストの判定をす
る場合よりも、追跡対象のロストを精度良く判定することができる。

なお、人追跡装置１は、谷の後のフレームの指標データを用いて、ロストの判定をするようにしてもよい。追跡に成功している場合、指標データは、谷の後でも徐々に減少する。これに対し、ロストした場合には、指標データは、ドリフトに起因して谷の直後から上昇に転じ、上昇した値で安定することが考えられる。このため、人追跡装置１は、谷の後の指標データを用いてロストの判定をすることが可能である。

＜実施形態１＞
（監視システム）
図４を参照して、本発明の実施形態を説明する。図４は、本発明の実施形態に係る人追跡装置１を適用した監視システムの構成を示すブロック図である。監視システム２は、魚眼カメラ１０と人追跡装置１とを備えている。

魚眼カメラ１０は、魚眼レンズを含む光学系と撮像素子（ＣＣＤやＣＭＯＳなどのイメージセンサ）を有する撮像装置である。魚眼カメラ１０は、例えば図１に示すように、追跡対象エリア１１の天井１２などに、光軸を鉛直下向きにした状態で設置され、追跡対象エリア１１の全方位（３６０度）の画像を撮影するとよい。魚眼カメラ１０は人追跡装置１に対し有線（ＵＳＢケーブル、ＬＡＮケーブルなど）または無線（ＷｉＦｉなど）で接続され、魚眼カメラ１０で撮影された画像データは人追跡装置１に取り込まれる。画像データはモノクロ画像、カラー画像のいずれでもよく、また画像データの解像度やフレームレートやフォーマットは任意である。本実施形態では、約２４ｆｐｓ（１秒あたり２４枚）で取り込まれるカラー（ＲＧＢ）画像を用いることを想定している。

本実施形態の人追跡装置１は、画像入力部２０、人体検出部２１、学習部２２、記憶部２３、追跡部２４、出力部２８を有している。

画像入力部２０は、魚眼カメラ１０から画像データを取り込む機能を有する。取り込まれた画像データは人体検出部２１および追跡部２４に引き渡される。この画像データは、記憶部２３にも格納される。

人体検出部２１は、人体を検出するアルゴリズムを用いて、魚眼画像から人体を検出する機能を有する。人体検出部２１によって検出された人体が、追跡部２４による追跡処理の対象となる。なお、人体検出部２１は、画像内に新たに現れた人物のみを検出してもよく、追跡対象の人物が存在している位置の近くは検出処理の対象から除外してもよい。さらに、一定の時間間隔またはフレーム間隔により、画像全体に人体検出部２１による人物の検出を行い、その後、追跡部２４による追跡処理をするＴｒａｃｋｉｎｇ－ｂｙ－ｄｅｔｅｃｔｉｏｎ方式にしてもよい。

学習部２２は、人体検出部２１が検出した、あるいは追跡部２４が特定した人体の画像から、追跡対象の人体の特徴を学習して学習結果を記憶部２３に記憶する。ここでは、学習部２２は、形状特徴に基づく評価を行うための相関フィルタを求める。学習部２２は、毎フレーム学習を行い、現フレームから得られる学習結果を所定の係数（学習係数）で過去の学習結果に反映させて更新する。

記憶部２３は、魚眼カメラ１０から取り込まれた画像データ、各フレームに対応する応答マップの最大値、および学習部２２によって学習された学習結果を記憶する。記憶部２３は、また、利用する特徴量、各特徴量のパラメータ、学習係数など、学習処理および追跡処理のハイパーパラメータも記憶する。さらに、記憶部２３は、ロスト判定に用いる特徴量、応答マップから求める指標の算出方法、ロスト判定の閾値、「谷」の前後を比較す
るためのフレーム数、指標の変化の度合いを比較する方法、変化の度合いの閾値など、ロスト判定のためのパラメータも記憶する。

追跡部２４は、追跡対象の人物の現フレーム画像中での位置を特定する。追跡部２４は、最初は人体検出部２１による検出位置を含む領域をターゲット領域（対象領域）として、そのターゲット領域内から検出された人物と同様の特徴を有する物***置を特定する。それ以降は、前フレーム画像について追跡部２４が特定した位置の付近をターゲット領域として、現フレーム画像中から追跡対象の人物の位置を特定する。

特徴量抽出部２５は、ターゲット領域から物体の形状に関する特徴量を抽出する。特徴量抽出部２５は、形状に関する特徴としてＨＯＧ特徴量を抽出する。

応答マップ生成部２６は、抽出された特徴量と、記憶部２３に記憶されている相関フィルタおよび色ヒストグラムを用いて、ターゲット領域の各位置について追跡対象物が存在する確からしさを表す応答マップを生成する。応答マップ生成部２６は、各フレームの応答マップの最大値を、記憶部２３に格納する。なお、応答マップは信頼度マップ、尤度の分布とも称される。

ロスト判定部２７は、尤度のマップの最大値の時間的変化に基づいて、対象物の追跡に失敗したか否かを判定するロストの判定をする。具体的には、ロスト判定部２７は、尤度の最大値またはＰＳＲなどの指標が閾値以下であり、時系列データの谷に位置している場合、谷の前後の指標を比較する。ロスト判定部２７は、指標の変化の度合いが前後のデータを比較するための閾値以上であれば、追跡対象をロストしたと判定する

出力部２８は、魚眼画像や検出結果・追跡結果などの情報を外部装置に出力する機能を有する。例えば、出力部２８は、外部装置としてのディスプレイに情報を表示してもよいし、外部装置としてのコンピュータに情報を転送してもよいし、外部装置としての照明装置や空調やＦＡ装置に対し情報や制御信号を送信してもよい。

人追跡装置１は、例えば、ＣＰＵ（プロセッサ）、メモリ、ストレージなどを備えるコンピュータにより構成することができる。その場合、図４に示す構成は、ストレージに格納されたプログラムをメモリにロードし、ＣＰＵが当該プログラムを実行することによって実現されるものである。かかるコンピュータは、パーソナルコンピュータ、サーバコンピュータ、タブレット端末、スマートフォンのような汎用的なコンピュータでもよいし、オンボードコンピュータのように組み込み型のコンピュータでもよい。あるいは、図４に示す構成の全部または一部を、ＡＳＩＣやＦＰＧＡなどで構成してもよい。あるいは、図４に示す構成の全部または一部を、クラウドコンピューティングや分散コンピューティングにより実現してもよい。

（全体処理）
図５は、人追跡装置が実施する全体処理のフローチャートである。図５に沿って人追跡処理の全体的な流れを説明する。

まず、ステップＳ１０１において、ユーザが人追跡装置１に対して学習および追跡のハイパーパラメータ、ロスト判定のパラメータの設定を行う。ハイパーパラメータの例として、利用する特徴量、各特徴量のパラメータ、学習係数などが挙げられる。ロスト判定におけるハイパーパラメータとして利用する特徴量、応答マップに基づく指標、指標に対する閾値、「谷」の前後を比較するためのフレーム数、指標の変化の度合いを比較する方法、変化の度合いの閾値などが挙げられる。入力されたハイパーパラメータは記憶部２３に記憶される。

次に、ステップＳ１０２において、人追跡装置１は、ターゲット領域（対象領域）を取得する。ターゲット領域は、追跡対象の人物が存在する領域とその周辺をあわせた領域であり、追跡対象の人物が存在する可能性が高い領域である。ターゲット領域は、追跡部２４によって処理対象とされる領域ともいえる。本実施形態では、追跡対象人物の初期位置は人体検出部２１によって検出される。ただし、追跡対象人物の初期位置は、例えば、ユーザによって入力されるなどしてもよい。

以下、ステップＳ１０４からＳ１０９の処理が繰り返し実施される。ステップＳ１０３の終了判定において終了条件を満たしたら処理を終了する。終了条件は、例えば、追跡対象人物の喪失（フレームアウト）や動画の終了とすることができる。

ステップＳ１０４において、画像入力部２０が魚眼カメラ１０から１フレームの魚眼画像を入力する。この際、魚眼画像の歪みを補正した平面展開画像を作成して以降の処理を行ってもよいが、本実施形態の監視システム２では、魚眼画像をそのまま（歪んだまま）検出や追跡の処理に用いる。

ステップＳ１０５では、現在のフレームが最初の画像であるか否かが判定される。ここで、最初の画像とは、追跡対象人物の初期位置が与えられたフレーム画像のことであり、典型的には人体検出部２１によって追跡対象人物が検出されたフレーム画像のことである。

現在のフレームが最初の画像である場合には（ステップＳ１０５－ＹＥＳ）、ステップＳ１０９に進む。現在のフレームが最初の画像でない場合には（ステップＳ１０５－ＮＯ）、ステップＳ１０６に進む。

ステップＳ１０６では、追跡部２４が追跡処理を実行する。追跡処理の詳細は後述する。ステップＳ１０７では、ロスト判定部２７がロスト判定処理を実行する。ロスト判定処理の詳細は後述する。

ステップＳ１０８では、ロスト判定部２７が、追跡部２４による追跡処理が失敗した（ロストした）か否かを判定する。ロスト判定部２７がロストしたと判定した場合には、処理を終了する。ロスト判定部２７がロストしていないと判定した場合には、ステップＳ１０９に進む。

ステップＳ１０９では、現在のフレーム画像において対象人物が存在する領域に基づいて、学習部２２が学習処理を実行する。学習処理の詳細は後述する。

このように、追跡処理Ｓ１０６による追跡対象人物の位置特定が毎フレーム行われて、追跡が実現される。また、本実施形態の追跡手法は、追跡対象人物の特徴を毎フレーム学習する逐次学習型の追跡アルゴリズムを採用している。

（学習処理）
図６は、ステップＳ１０９の学習処理の詳細を示すフローチャートである。また、図９は学習処理および学習結果を用いた追跡処理を説明する図である。以下、図６および図９を参照して学習処理について説明する。

学習部２２は、まず、現フレーム画像からターゲット領域７４を切り出す（ステップＳ２０１）。図９に示すように、ターゲット領域７４は、人物の前景領域７２および背景領域７３を含む領域である。前景領域７２は追跡対象人物が存在する領域であり、背景領域
は追跡対象人物が存在しない領域である。背景領域７３の大きさは、前景領域７２の大きさに応じて決定されている。例えば、前景領域７２のサイズがターゲット領域７４の全体サイズの所定の比率（例えば１／３）となるように、背景領域７３のサイズが決定されている。なお、ターゲット領域７４は中心が追跡対象人物の位置となるように追跡処理の最後に更新されている（図５のステップＳ３０４）ので、ターゲット領域７４の中心は追跡対象人物の中心位置と等しい。

学習部２２は、ターゲット領域７４内のＨＯＧ特徴量を取得する（ステップＳ２０２）。ＨＯＧ特徴量は、局所領域の輝度勾配方向をヒストグラム化した特徴量であり、物体の形状・輪郭を表す特徴量と捉えられる。ここでは、ＨＯＧ特徴量を採用しているが、物体の形状・輪郭を表す他の特徴量、例えば、ＬＢＰ特徴量、ＳＨＩＦＴ特徴量、ＳＵＲＦ特徴量を採用してもよい。

学習部２２は、応答がターゲットの中心にピークを持つような相関フィルタ７６を求める（ステップＳ２０３）。具体的には、ターゲット領域よりＨＯＧ特徴量を抽出した後に、典型的にはガウス分布を所望の出力と想定して、特徴量と相関フィルタとの乗算および所望の出力との差を最小化する最適問題を解くことによって相関フィルタを求める。相関フィルタの計算をフーリエ空間において行う際には、不連続性を滑らかにするために、特徴量に窓関数を乗じても良い。想定する所望の出力はガウス分布以外の任意の分布であってよい。ＨＯＧ特徴量は、次フレームの追跡処理で相関フィルタをかける際に使用するため、記憶部２３に記憶する。

今回の学習が最初の学習であれば（ステップＳ２０４－ＹＥＳ）、ステップＳ２０３で生成した相関フィルタ７６をそのまま記憶部２３に記憶する。一方、今回の学習が２回目以降の学習であれば（ステップＳ２０４－ＮＯ）、処理はステップＳ２０５に進む。

学習部２２は、ステップＳ２０５において、前回求めた相関フィルタ（記憶部２３に記憶されている相関フィルタ）と今回ステップＳ２０３で求めた相関フィルタを合成することで新たな相関フィルタ７６を求め、記憶部２３に記憶する。合成の際の重み（学習係数）は適宜決定すればよい。

（追跡処理）
図７は、ステップＳ１０６の追跡処理の詳細を示すフローチャートである。また、図９は学習処理および学習結果を用いた追跡処理を説明する図である。以下、図７および図９を参照して追跡処理について説明する。

追跡部２４は、現フレーム画像からターゲット領域７５を切り出す（ステップＳ３０１）。なお、ターゲット領域は中心が追跡対象人物の位置となるように前回の追跡処理の最後に更新されている（図７のステップＳ３０４）ので、ターゲット領域７４の中心は追跡対象人物の中心位置と等しい。図９において、追跡部２４の処理対象がＴ＋１フレーム目の画像である場合、Ｔフレーム目において特定された追跡対象人物の位置を中心とするターゲット領域７４に対応するターゲット領域７５が切り出される。

特徴量抽出部２５は、ターゲット領域７５内の各セルからＨＯＧ特徴量を抽出する（ステップＳ３０２）。応答マップ生成部２６は、ターゲット領域７５内のＨＯＧ特徴量に対して相関フィルタ７６をかけて応答マップ７８を求める。（ステップＳ３０３）。図１０のグラフ８１がＨＯＧ特徴量に基づく応答マップ７８の例である。なお、応答マップ７８は、ターゲット領域７５内のそれぞれの位置についての追跡対象人物である確からしさ（尤度）を表すマップである。

追跡部２４は、応答マップ７８において最大値をとる位置を現フレーム画像における追跡対象人物の中心位置であると決定する。追跡部２４は、ターゲット領域の中心を、決定された追跡対象人物の中心位置に更新し（ステップＳ３０４）、ターゲット領域のサイズを更新する（ステップＳ３０５）。このように、追跡処理が完了した後に、ターゲット領域の中心は追跡対象人物の中心位置に更新され、また、ターゲット領域のサイズも追跡結果に応じて更新される。ターゲット領域の更新サイズは、ＤＳＳＴ（Discriminative Scale Space Tracking）のように画像のピラミッドを用いる方法で推定してもよいし、前フ
レームにおけるターゲット領域のサイズ、レンズ歪みの特性、カメラの視点、カメラの配置およびターゲット領域の画像における位置の少なくともいずれかに基づいて決定されてもよい。追跡処理完了後のターゲット領域の中心が追跡対象人物の中心位置であり、ターゲット領域中の前景領域が追跡対象人物の存在領域（バウンディングボックス）である。

（ロスト判定処理）
図８は、ステップＳ１０７のロスト判定処理の詳細を示すフローチャートである。図８のロスト判定処理では、ＨＯＧ特徴量に関する応答マップ７８を使用した場合について説明するが、ロスト判定部２７は、色の特徴量に関する応答マップを使用してロストの判定をしてもよい。

ロスト判定部２７は、現在のフレームの応答マップ７８から指標を算出する（ステップＳ４０１）。指標は、応答マップ７８の最大値、ＰＳＲなどである。ロスト判定部２７は、算出した指標を、記憶部２３に記憶する。

ロスト判定部２７は、算出した指標が閾値（例えば、１を基準として０．３５）以上であるか否かを判定する。指標が閾値以上であれば（ステップＳ４０２－ＹＥＳ）処理は終了する。指標が閾値未満であれば（ステップＳ４０２－ＮＯ）、処理はステップＳ４０３に進む。

ロスト判定部２７は、応答マップ７８の時系列データの谷を検出する（ステップＳ４０３）。具体的には、ロスト判定部２７は、ステップＳ４０１で記憶部２３に記憶された指標の時系列データを取得する。現フレームの前後において、谷（指標が極小値をとるフレーム）を検出する。

ロスト判定部２７は、応答マップ７８の時系列データにおいて、指標が閾値未満であり、谷となるフレームがあるか否かを判定する。指標が閾値未満であり、谷となるフレームがある場合（ステップＳ４０４－ＹＥＳ）、処理はステップＳ４０５に進む。指標が閾値未満でない、または谷となるフレームがない場合（ステップＳ４０４－ＮＯ）処理は終了する。

ロスト判定部２７は、指標が閾値未満で谷となるフレームを検出した場合、谷の前の指定フレーム数分の指標を取得する（ステップＳ４０５）。また、ロスト判定部２７は、谷の後の指定フレーム数分の指標を取得する（ステップＳ４０６）。指定フレーム数は、所定の時間間隔（１秒から数秒）で対象物を再検出するＴｒａｃｋｉｎｇ－ｂｙ－ｄｅｔｅｃｔｉｏｎ方式での再検出の間隔よりも短い時間内のフレーム数であることが好ましい。例えば、ロスト判定部２７は、前後それぞれ１０フレーム分を取得すればよい。また、谷の後の指標データのみ利用してロストを判定する場合、ロスト判定部２７は、指定フレーム数として、谷の前は０フレーム、谷の後は１０フレームと指定すればよい。

ロスト判定部２７は、取得した谷の前後の指定フレーム数分の指標の変化の度合いを算出する（ステップＳ４０７）。ロスト判定部２７は、例えば、谷の前後の各フレームでの
指標データの傾き（指標の値の時間変化率）から変化の度合いを算出することができる。具体的には、谷の後の各フレームにおける傾きの平均値から谷の前の各フレームにおける傾きの平均値を減算した値を、変化の度合いとして算出してもよい。また、ロスト判定部２７は、谷の前後の指定フレーム数分の指標データに基づいて算出されるハミング距離を変化の度合いとしてもよい。ハミング距離は、例えば、谷の前の各フレームでの傾きを正負に応じて０、１に変換したビット列と、谷の後の各フレームでの傾きを正負に応じて０、１に変換したビット列との距離（差分）として算出することができる。算出した変化の度合いが大きいほど、谷の前後における指標は、急上昇または急降下したことを示す。なお、変化の度合いは、谷の前後における指標データの変化が急峻であることが判定できればよく、上記以外の方法で算出されてもよい。

ロスト判定部２７は、ステップＳ４０７で算出した変化の度合いが閾値以上であるか否かを判定する（ステップＳ４０８）。ロスト判定部２７は、変化の度合いが閾値以上であれば（ステップＳ４０８－ＹＥＳ）、ロストと判定し（ステップＳ４０９）、変化の度合いが閾値未満であれば（ステップＳ４０８－ＮＯ）、処理を終了する。

（実施形態１の作用効果）
上記の実施形態１において、人追跡装置１は、動画像中の追跡処理において、各フレームの応答マップから算出した指標および指標の時系列データを解析することにより、追跡対象物のロストを判定する。人追跡装置１は、フレームごとに、指標が所定の閾値未満であるか否かを判定する。指標が所定の閾値未満である場合、人追跡装置１は、現フレームまたは現フレームの前後で指標が極小となる谷を検出する。人追跡装置１は、谷の前後における指標の変化（差分）の度合いを算出し、変化の度合いが閾値以上であれば、対象物の追跡に失敗（ロスト）したと判定する。人追跡装置１は、応答マップから算出した指標が閾値未満であるか否かだけではなく、谷となるフレームを検出し、谷の前後のフレームの指標の変化の度合いを考慮してロストの判定をする。これにより、人追跡装置１は、対象物の追跡に成功しているにもかかわらず、エラーの蓄積により指標が閾値未満となった場合でもロストの誤検出を抑制することができる。したがって、人追跡装置１は、動画像中の物体の追跡処理において、追跡対象のロストを精度良く判定することができる。

＜実施形態１の変形例＞
上述の実施形態１では、人追跡装置１は、応答マップ７８の最大値またはＰＳＲなどの指標の時間的変化を利用してロストを判定する。具体的には、実施形態１は、応答マップ７８の時系列データにおいて谷を検出し、谷の前後のフレームの指標データから算出した変化の度合いに基づいて、ロストを判定する。しかし、追跡に成功している場合であっても、追跡対象が急に向きを変えた場合には、谷が検出される場合がある。図１１に示すように、Ｌ１１のフレームで追跡対象が向きを変えたことにより、応答マップ７８の時系列データは一時的に減少して谷となるが、向きを変えた後の追跡対象を学習部２２が学習することで、谷の後の時系列データは安定する。

そこで、実施形態１の変形例では、人追跡装置１は、実施形態１と同様にロストの判定をした後、さらに谷の前後の指定フレームにおける画像情報（例えば、色ヒストグラム）を利用して、再度ロストの判定をする。追跡対象が向きを変えた場合に、追跡対象の形状が変化しても、同じ対象物であれば、谷の前後における色の特徴量は、類似していることが考えられる。したがって、谷の前後における色ヒストグラムの類似度が閾値以上であれば、ロスト判定部２７は、形状に関する特徴量に基づいてロストしたと誤判定された場合でも、追跡に成功していると判定することができる。これにより、追跡対象が急に向きを変えたような場合でも、人追跡装置１は、精度よくロストを判定し、ロストの誤判定を抑制することができる。

図１２を参照して、実施形態１の変形例に係るロスト判定処理を説明する。なお、変形例の全体処理は、図５に示す処理とほぼ同様であるため、図５と異なる部分について説明する。

図１２は、変形例におけるステップＳ１０７のロスト判定処理の詳細を示すフローチャートである。ロスト判定部２７は、実施形態１と同様に、応答マップ７８の時系列データにおいて谷を検出し、谷の前後の指標に基づきロストしたか否かを判定する（ステップＳ５０１）。ステップＳ５０１の処理の詳細は、図８のフローチャートのステップＳ４０１からＳ４０９までの処理と同様であるため説明は省略する。

なお、図８のステップＳ４０８において変化の度合いが閾値以上となり、ステップＳ４０９でロストしたと判定された場合、処理はステップＳ５０２に進む。また、テップＳ４０８において変化の度合いが閾値未満であった場合、図１２に示す処理は終了する。

ロスト判定部２７は、谷の前の指定フレームの色ヒストグラムを算出する（ステップＳ５０２）。谷の前の指定フレームは、谷の前であればいずれのフレームであってもよい。例えば、谷の前の指定フレームは、図８のステップＳ４０５で取得した指定フレーム数分のいずれかのフレームとすることができる。また、色ヒストグラムには、時間の経過とともに背景色などのノイズが蓄積されるため、谷の前の指定フレームは、図５のステップＳ１０５における最初の画像（フレーム）としてもよい。

また、ロスト判定部２７は、谷の後の指定フレームの色ヒストグラムを算出する（ステップＳ５０３）。谷の後の指定フレームは、例えば、図８のステップＳ４０６で取得した指定フレーム数分のいずれかのフレームとすることができる。

ロスト判定部２７は、ステップＳ５０２およびＳ５０３で算出した２つの色ヒストグラムの類似度を算出する（ステップＳ５０４）。色ヒストグラムの類似度は、色に関する特徴ベクトルを抽出し、ヒストグラムインタセクション、バタチャリヤ係数、ＥａｒｔｈＭｏｖｅｒ’ｓＤｉｓｔａｎｃｅの少なくともいずれかに基づいて測定する方法を採用することができる。

なお、図１２に示す例では、ステップＳ５０２からステップＳ５０５において、色ヒストグラムにより類似度を算出する例を示したがこれに限られない。ロスト判定部２７は、指定フレームのフレーム画像において追跡対象を含む画像の平均色、平均輝度、代表色のようにスカラーで表される画像情報の少なくともいずれかを特徴量として、差、差の絶対値、差の二乗の少なくともいずれかを類似度の尺度とする方法を採用してもよい。さらに、ロスト判定部２７は、形状に関する特徴量、輝度に関する特徴量に基づいて類似度を算出してもよい。

また、ステップＳ５０１で求める応答マップ７８は、形状に関する特徴量に基づいて求められる場合に限られない。応答マップ７８は、色に関する特徴量に基づいて求められてもよく、形状に関する特徴量と色に関する特徴量とを組み合わせた特徴量に基づいて求められてもよい。

ロスト判定部２７は、ステップＳ５０４で算出した類似度が閾値未満か否かを判定する。ロスト判定部２７は、類似度が閾値未満であれば（ステップＳ５０５－ＹＥＳ）、ロストと判定し（ステップＳ５０６）、類似度が閾値以上であれば（ステップＳ５０５－ＮＯ）、処理を終了する。

（変形例の作用効果）
上記の実施形態１の変形例において、人追跡装置１は、実施形態１と同様にロストの判定をした後、さらに谷の前後の指定フレームにおける色ヒストグラムなどの画像情報を利用して、再度ロストの判定をする。これにより、追跡対象が急に向きを変えたり停止したりしたような場合でも、人追跡装置１は、精度よくロストを判定し、ロストの誤判定を抑制することができる。

＜実施形態２＞
実施形態２は、複数の追跡対象（以下、ターゲットとも称される）に対してロストの判定をするものである。人追跡装置１は、複数のターゲットを追跡する場合、ターゲット同士が重なることにより応答マップから求める指標の値が低くなり、誤ってロストと判定する可能性がある。この場合、ロスト後に他の追跡対象にドリフトすると指標の値が上昇する可能性がある。実施形態２では、人追跡装置１は、ターゲット同士の重なりを考慮してロストの判定をする。実施形態２に係る監視システム２の構成は、図４に示す実施形態１の構成と同様であるため、説明は省略する。図１３を参照して、実施形態２に係る人追跡装置が実施する全体処理について説明する。

図１３は、実施形態２に係る人追跡装置１が実施する全体処理のフローチャートである。ステップＳ６０１からステップＳ６０４までの処理は、図５のステップＳ１０１からステップＳ１０４までの処理と同様である。

ステップＳ６０５では、現在のフレームが最初の画像であるか否かが判定される。実施形態２では、最初の画像は、複数の追跡対象人物（ターゲット）の初期位置が与えられたフレーム画像であり、典型的には人体検出部２１によって、複数の追跡対象人物（ターゲット）が検出されたフレーム画像のことである。

現在のフレームが最初の画像である場合には（ステップＳ６０５－ＹＥＳ）、ステップＳ６０９に進む。現在のフレームが最初の画像でない場合には（ステップＳ６０５－ＮＯ）、最初の画像で検出された全てのターゲットに対して、ステップＳ６０６の追跡処理が実施される。

ステップＳ６０７では、ロスト判定部２７がロスト判定処理を実行する。ロスト判定処理の詳細は後述する。ステップＳ６０８およびＳ６０９の処理は、図５のステップＳ１０８およびステップＳ１０９の処理と同様である。なお、ステップＳ６０９において、学習部２２は、最初の画像で検出されたターゲットごとに、ステップＳ１０９で説明した学習処理を実施する。

（実施形態２：ロスト判定処理）
図１４は、ステップＳ６０７のロスト判定処理の詳細を示すフローチャートである。図１４のロスト判定処理では、ロスト判定部２７は、ステップＳ６０５の最初の画像で検出された各ターゲットｉ（ｉ＝１，…，ｎ）に対して、ステップＳ７０１からＳ７０４までの処理を実施する。

ロスト判定部２７は、実施形態１と同様に、ターゲットｉに対する応答マップ７８より算出する指標の時系列データにおいて谷を検出し、谷の前後の指標に基づきロストしたか否かを判定する（ステップＳ７０１）。ステップＳ７０１の処理の詳細は、図８のフローチャートのステップＳ４０１からＳ４０９までの処理と同様であるため説明は省略する。

なお、図８のステップＳ４０８において変化の度合いが閾値以上となり、ステップＳ４０９でロストと判定された場合、処理はステップＳ７０２に進む。また、ステップＳ４０８において変化の度合いが閾値未満であった場合、図１４の処理では、次のターゲットｉ
に対してステップＳ７０１からＳ７０４までの処理が実施される。

ロスト判定部２７は、現在のターゲットｉに対して、既にステップＳ７０１においてロストの判定をしたターゲットｊ（ｊ＝１，…，ｉ－１）との重なりの状況を求める。ロスト判定部２７は、まず、現在のターゲットｉがターゲットｊと重なる割合を求める（ステップＳ７０２）。ターゲットｉがターゲットｊと重なる割合は、ターゲットｉが占める領域に対する、ターゲットｉがターゲットｊと重なる領域の割合である。次に、ロスト判定部２７は、各ターゲットｊについてステップＳ７０２で求めた割合を積算していく（ステップＳ７０３）。また、ロスト判定部２７は、現在のターゲットｉとターゲットｊとが重なっているかを判定し、現在のターゲットｉと重なる人数（ターゲット数）をカウントする（ステップＳ７０４）。

ロスト判定部２７は、各ターゲットｉ（ｉ＝１，…，ｎ）に対して、ステップＳ７０１からＳ７０４までの処理を実施する。ロスト判定部２７は、ターゲットごとに、ステップＳ７０３で求めた重なる割合の和、およびステップＳ７０４でカウントした重なる人数から指標を算出する（ステップＳ７０５）。ロスト判定部２７は、例えば、重なる割合の和の値、および重なる人数をそのまま個別の指標として使用してもよい。また、Ｓ７０５での指標は、重なる割合の和と重なる人数とを、所定の係数により重みづけをして加算することにより算出されてもよい。

ロスト判定部２７は、ステップＳ７０５で算出した指標が閾値以上のターゲットｉが存在するか否かを判定する。算出した指標が閾値以上のターゲットｉが存在する場合（ステップＳ７０６－ＹＥＳ）、ロストと判定し（ステップＳ７０７）、算出した指標が閾値以上のターゲットｉが存在しない場合、処理は終了する。

（実施形態２の作用効果）
上記の実施形態２において、人追跡装置１は、複数のターゲットを追跡対象とする。ターゲット間で重なりが生じた場合、追跡に成功しているにもかかわらず、応答マップ７８の最大値の時系列データは、閾値を下回るおそれがある。そこで、人追跡装置１は、重なる割合の和および重なる人数から算出した指標が閾値より大きい場合に、ロストしたものと判定する。これにより、人追跡装置１は、ターゲット同士が重なり合う場合におけるロストの誤判定を抑制することができる。

＜その他＞
上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。

例えば、上記の実施形態では魚眼画像を平面展開せずに処理しているが、魚眼画像を平面展開した画像を処理対象としてもよいし、通常のカメラにより撮影された画像を処理対象としてもよい。

＜付記１＞
（１）動画像に含まれるフレーム画像において対象物を追跡する物体追跡装置（１）であって、
前記フレーム画像の対象領域（７４）から特徴量を抽出する特徴量抽出手段（２５）と、
前記フレーム画像の前記対象領域において前記対象物が存在する確からしさを表す応答マップを前記特徴量に基づいて求める応答マップ算出手段（２６）と、
前記応答マップから前記フレーム画像の指標を算出し、前記動画像に含まれる各フレー
ム画像から算出した指標の時系列データに基づいて、前記対象物の追跡に失敗したか否かを判定する判定手段（２７）と、を備え、
前記判定手段は、
前記時系列データにおいて指標が極小となる極小フレームを検出し、
前記極小フレームの前後における指標の変化に基づいて、前記対象物の追跡に失敗したか否かを判定する、
ことを特徴とする物体追跡装置。

（２）動画像に含まれるフレーム画像において対象物を追跡する物体追跡方法であって、
前記フレーム画像の対象領域から特徴量を抽出する特徴量抽出ステップ（Ｓ３０２）と、
前記フレーム画像の前記対象領域において前記対象物が存在する確からしさを表す応答マップを前記特徴量に基づいて求める応答マップ算出ステップ（Ｓ３０３）と、
前記応答マップから前記フレーム画像の指標を算出し、前記動画像に含まれる各フレーム画像から算出した指標の時系列データに基づいて、前記対象物の追跡に失敗したか否かを判定する判定ステップ（Ｓ１０７）と、を含み、
前記判定ステップは、
前記時系列データにおいて指標が極小となる極小フレームを検出するステップ（Ｓ４０３）と、
前記極小フレームの前後における指標の変化に基づいて、前記対象物の追跡に失敗したか否かを判定するステップ（Ｓ４０８、Ｓ４０９）と、を含む
ことを特徴とする物体追跡方法。

１：人追跡装置
２：監視システム
１０：魚眼カメラ
１１：追跡対象エリア
１２：天井
１３：人

Claims

動画像に含まれるフレーム画像において対象物を追跡する物体追跡装置であって、
前記フレーム画像の対象領域から特徴量を抽出する特徴量抽出手段と、
前記フレーム画像の前記対象領域において前記対象物が存在する確からしさを表す応答マップを前記特徴量に基づいて求める応答マップ算出手段と、
前記応答マップから前記フレーム画像の指標を算出し、前記動画像に含まれる各フレーム画像から算出した指標の時系列データに基づいて、前記対象物の追跡に失敗したか否かを判定する判定手段と、を備え、
前記判定手段は、
前記時系列データにおいて指標が極小となる極小フレームを検出し、
前記極小フレームの前後における指標の変化に基づいて、前記対象物の追跡に失敗したか否かを判定する、
ことを特徴とする物体追跡装置。
前記判定手段は、前記極小フレームの前後における指定フレーム数分の前記フレーム画像の指標を取得し、前記取得した指標の変化の度合いを算出し、前記変化の度合いに基づいて、前記対象物の追跡に失敗したか否かを判定する、
ことを特徴とする、請求項１に記載の物体追跡装置。
前記特徴量は、形状に関する特徴量、色に関する特徴量または輝度に関する特徴量の少なくともいずれかである
ことを特徴とする、請求項１または２に記載の物体追跡装置。
前記形状に関する特徴量は、ＨＯＧ特徴量、ＬＢＰ特徴量、ＳＨＩＦＴ特徴量、ＳＵＲＦ特徴量の少なくともいずれかであり、
前記色に関する特徴量は、色ヒストグラム、Color Names特徴量の少なくともいずれか
であり、
前記輝度に関する特徴量は、輝度ヒストグラムである、
ことを特徴とする、請求項３に記載の物体追跡装置。
前記特徴量抽出手段は、前記フレーム画像の前記対象領域から、前記形状に関する特徴量である第１特徴量と、前記色に関する特徴量または前記輝度に関する特徴量である第２特徴量とを抽出し、
前記判定手段は、前記第１特徴量、前記第２特徴量、または前記第１特徴量と前記第２特徴量とを組み合わせた特徴量に基づいて求めた前記応答マップから算出される指標の変化、および前記極小フレームの前後の指定フレームにおける前記第１特徴量または前記第２特徴量の類似度に基づいて、前記対象物の追跡に失敗したか否かを判定する、
ことを特徴とする、請求項３または４に記載の物体追跡装置。
前記判定手段は、前記対象物が他の対象物と重なっている場合に、前記対象物における前記他の対象物と重なる領域の割合、および重なっている他の対象物の数の少なくともいずれかに基づいて、前記対象物の追跡に失敗したか否かを判定する、
ことを特徴とする、請求項１から５のいずれか１項に記載の物体追跡装置。
前記フレーム画像は、魚眼カメラにより得られた魚眼画像である、
ことを特徴とする、請求項１から６のいずれか１項に記載の物体追跡装置。
動画像に含まれるフレーム画像において対象物を追跡する物体追跡方法であって、
前記フレーム画像の対象領域から特徴量を抽出する特徴量抽出ステップと、
前記フレーム画像の前記対象領域において前記対象物が存在する確からしさを表す応答マップを前記特徴量に基づいて求める応答マップ算出ステップと、
前記応答マップから前記フレーム画像の指標を算出し、前記動画像に含まれる各フレーム画像から算出した指標の時系列データに基づいて、前記対象物の追跡に失敗したか否かを判定する判定ステップと、を含み、
前記判定ステップは、
前記時系列データにおいて指標が極小となる極小フレームを検出するステップと、
前記極小フレームの前後における指標の変化に基づいて、前記対象物の追跡に失敗したか否かを判定するステップと、を含む
ことを特徴とする物体追跡方法。
請求項８に記載の方法の各ステップをコンピュータに実行させるためのプログラム。