JP2018124689A

JP2018124689A - 移動物体検出装置、移動物体検出システム、及び移動物体検出方法

Info

Publication number: JP2018124689A
Application number: JP2017014965A
Authority: JP
Inventors: クリンキグト，マルティン; Klinkigt Martin; 健一米司; Kenichi Yoneshi
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-01-31
Filing date: 2017-01-31
Publication date: 2018-08-09
Anticipated expiration: 2037-01-31
Also published as: JP6947508B2

Abstract

【課題】動画像中から所定の移動物体を迅速かつ適切に検出することができるようにする。【解決手段】動画像の中から検出対象の移動物体を検出する移動物体検出装置１０において、動画像を入力する画像入力部１０１と、２つのフレーム画像間の対応するキーポイントを特定し、キーポイントの動きベクトルを特定し、動きベクトルに基づいて、同一の移動物体を構成すると想定されるキーポイント集合を生成するキーポイント処理部１０３と、一方のフレーム画像における同一の集合のキーポイントを含む第１領域を推定する初期領域推定部１０４と、第１領域について、所定の変形を行った第２領域を決定する候補領域決定部１０５と、各領域に対して、検出対象の移動物体である確度の評価を行う物体分類部１０６と、各領域の中から検出対象の移動物体である確度が高い領域を、移動物体が存在する存在領域として決定する存在領域決定部１０７と、を備えるようにする。【選択図】図２

Description

本発明は、動画像中から所定の移動物体（物体の全体又は物体の部分）を検出する移動物体検出装置等に関する。

多くの画像処理のタスクの中では、物体検出が重要な役割を担っている。物体検出の背後にある動機付けは、画像の中から物体又は物体の部分を検出することにある。さらに、物体のサイズと、現実における物体までの距離との情報を受け取るためには、物体のサイズ推定において高い正確性が要求される。

物体検出においては、一般的に、いわゆるスライディングウインドウが用いられている。このアプローチの背後にあるアイデアは、画像から任意の領域を取出し、この領域が特定の移動物体を表している可能性を計算することである。もし、この可能性が、与えられている閾値を超えている場合には、物体が検出されることとなる。このスライディングウインドウのアプローチによると、高い正確性が達成される。しかしながら、このアプローチは、考えられる物体の位置についての先験的な情報が利用できない場合には、計算コストが高いという欠点を有している。この場合においては、所定の可能性の閾値に到達するためには、ウィンドウは、多くの異なる位置と大きさで配置される必要がある。物体を検出するために、しばしば数千よりも多くの領域が試されなければならないことがある。

さらに、このスライディングウインドウのアプローチは、しばしば、領域にいる特定の物体の可能性を計算するためにテンプレートマッチングを利用することがある。これらのテンプレートは、予め定義されていることがあり、物体の外観が経年により変化すると、よく適合しない。この場合には、高い正確性をもって再び適合するようにするためにテンプレートを更新しなければならない。

例えば、物体を検出する技術としては、フレーム画像毎に検出された顔の特徴点の座標をフレーム画像間で比較して検出精度を検証し、所定の検出精度に満たない顔の特徴点の座標の補正を行い、検出された顔の特徴点の検出結果を補正することにより、顔の認証の精度低下を抑止する技術が知られている（特許文献１参照）。

特開２０１３−６５１１９号公報

画像から物体を検出する処理においては、画像中の物体の位置や、物体のサイズを高精度に検出することが要請されている。また、物体を検出する処理に要する計算コストを低減することが要請されている。

本発明は、上記事情に鑑みなされたものであり、その目的は、動画像中から所定の移動物体を迅速かつ適切に検出することのできる技術を提供することにある。

上記目的を達成するため、一観点に係る移動物体検出装置は、動画像の中から検出対象の移動物体を検出する移動物体検出装置において、動画像を入力する動画像入力部と、動画像における２つのフレーム画像間の対応するキーポイントを特定し、キーポイントの動きベクトルを特定し、動きベクトルに基づいて、同一の移動物体を構成すると想定されるキーポイントの集合を生成するキーポイント処理部と、２つのフレーム画像における一方のフレーム画像における同一の集合のキーポイントを含む第１領域を推定する第１領域推定部と、第１領域について、所定の変形を行った１以上の第２領域を決定する第２領域決定部と、記第１領域と、第２領域とに対して、その領域の画像が検出対象の移動物体である確からしさを示す確度の評価を行う物体分類部と、第１領域及び第２領域の中から検出対象の移動物体である確度が高い領域を、移動物体が存在する存在領域として決定する存在領域決定部と、を備える。

本発明によれば、動画像中から所定の移動物体を迅速かつ適切に検出することができる。

図１は、第１実施例に係る移動物体検出装置の全体構成図である。図２は、第１実施例に係る移動物体検出装置の機能構成図である。図３は、第１実施例に係るキーポイント処理部によるキーポイント処理を説明する図である。図４は、第１実施例に係る候補領域を説明する図である。図５は、第１実施例に係る移動物体検出処理のフローチャートである。図６は、第２実施例に係る範囲特定情報の一例を示す図である。図７は、第２実施例に係る移動物体検出処理のフローチャートである。図８は、第３実施例に係る移動物体検出システムの全体構成図である。図９は、第４実施例に係る移動物体検出処理の一部のシーケンス図である。

いくつかの実施例について、図面を参照して説明する。なお、以下に説明する実施例は特許請求の範囲に係る発明を限定するものではなく、また実施例の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

＜第１実施例＞
図１は、第１実施例に係る移動物体検出装置の全体構成図である。

移動物体検出装置１０は、例えば、ＰＣ（Personal Computer）で構成され、ＣＰＵ（Central Processing Unit）１１と、メモリ１２と、補助記憶装置１３と、外部機器Ｉ／Ｆ１４と、表示装置１５と、入力装置１６と、各部を通信可能に接続するバス１７とを備える。

外部機器Ｉ／Ｆ１４は、ケーブル等を介して、外部の機器（例えば、監視カメラ２０）と通信するためのインターフェースである。監視カメラ２０は、監視対象箇所を観察するように設置されており、監視対象箇所の動画像データを移動物体検出装置１０に出力する。

ＣＰＵ１１は、補助記憶装置１３からメモリ１２に呼び出されたプログラムを実行し、補助記憶装置１３に格納されているデータを用いて、各種処理を実行する。メモリ１２は、例えば、ＲＡＭ（ＲＡＮＤＯＭＡＣＣＥＳＳＭＥＭＯＲＹ）であり、ＣＰＵ１１で実行されるプログラムや、必要な情報を記憶する。補助記憶装置１３は、例えばバードディスク、フラッシュメモリなどであり、ＣＰＵ１１で実行されるプログラムや、ＣＰＵ１１に利用されるデータを記憶する。表示装置１５は、例えば、液晶ディスプレイであり、各種情報を表示する。入力装置１６は、例えば、マウス、キーボード等であり、各種入力を受け付ける。

図２は、第１実施例に係る移動物体検出装置の機能構成図である。

移動物体検出装置１０は、動画像入力部の一例としての画像入力部１０１と、背景差分処理部１０２と、キーポイント処理部１０３と、第１領域推定部の一例としての初期領域推定部１０４と、第２領域決定部の一例としての候補領域決定部１０５と、物体分類部１０６と、存在領域決定部１０７と、存在領域表示部１０８とを備える。画像入力部１０１、背景差分処理部１０２、キーポイント処理部１０３、初期領域推定部１０４、候補領域決定部１０５、物体分類部１０６、存在領域決定部１０７、及び存在領域表示部１０８は、ＣＰＵ１１がメモリ１２に読み出されたプログラムを実行することにより実現される。

画像入力部１０１は、監視カメラ２０により撮影された動画像（動画像のそれぞれのフレームの画像（フレーム画像））を入力する。

背景差分処理部１０２は、入力されたフレーム画像における背景差分を取得する処理（背景差分処理）を実行する。背景差分処理においては、監視カメラ２０により撮影される監視箇所における、移動物体が含まれていない背景画像が必要となる。この背景画像は、例えば、監視カメラ２０により予め撮影され、補助記憶装置１３に記憶されている。背景画像は、フレーム画像における移動物体の検出において重要でない部分を決定する。

背景差分処理部１０２は、同一の監視カメラ２０により撮影された、新たなフレーム画像と、背景画像とに対して、画素単位の比較を実行する。具体的には、背景差分処理部１０２は、フレーム画像の各画素のカラー情報と、背景画像の同一の画素のカラー情報とを比較する。画像差分処理部１０２は、それらの画素の色の違いが所定のしきい値を超える場合には、異なる、すなわち、移動物体を表している画素としてマークする。また、画像差分処理部１０２は、それらの画素が同じカラー情報の場合には、その画素が背景であるとしてマークする。この結果、フレーム画像における、異なるとしてマークされた画素群は、移動物体を示しており、この画素群中には、キーポイント（特徴点）が存在する。

キーポイント処理部１０３は、２つの異なるフレーム画像（例えば、時間的に連続する２つのフレーム画像）のそれぞれのキーポイント（特徴点）を抽出し、それぞれのフレーム画像間のキーポイントのマッチングを行い、フレーム画像間のマッチするキーポイントの移動ベクトルを特定し、移動ベクトルに基づいて同一の移動物体を示すキーポイントをグループ化（クラスタリング）するキーポイント処理を実行する。

図３は、第１実施例に係るキーポイント処理部によるキーポイント処理を説明する図である。

キーポイント処理では、キーポイント処理部１０３は、背景差分処理が行われたフレーム画像について、エッジ検出を行い、エッジにおける勾配を算出する。大きい勾配は、よいキーポイントを示す指標となる。キーポイント処理部１０３は、勾配に基づいて、キーポイントを抽出する。キーポイント処理部１０３は、キーポイントを決定した後に、エッジパターンを利用してキーポイントの特徴ベクトルを算出する。

キーポイント処理部１０３は、２つの異なるフレーム画像から抽出されたすべてのキーポイントについての特徴ベクトルを算出した後に、それぞれについてのユークリッド距離を算出する。キーポイント処理部１０３は、一方のフレーム画像におけるそれぞれのキーポイントについて、それに対応する特徴ベクトルが、他方のフレーム画像における最も近い特徴ベクトルに対応するキーポイントを最もマッチするキーポイントとみなす。図３（ａ）、（ｂ）には、一方のフレーム画像ｆ１におけるキーポイント３１と、そのキーポイント３１に対応する他方のフレーム画像ｆ２におけるキーポイント３２とを示している。なお、この段階では、不正確なマッチが発生する。しかしながら、不正確なマッチは、以降の段階で検出されるので問題はない。

キーポイント処理部１０３は、キーポイントのクラスタリングを行う際には、マッチしたキーポイント間の動きベクトルを算出する。キーポイント処理部１０３は、２つの連続するフレーム画像からのマッチするキーポイントを取得し、２つのフレーム画像における画素単位の位置を解析する。キーポイント処理部１０３は、フレーム画像の枠におけるユークリッド距離を計算することにより、動きベクトルを割り当てる。図３（ｃ）には、このようにして求められた動きベクトル３３を示している。

次に、キーポイント処理部１０３は、同じ移動物体に属するキーポイントを同一のクラスタ（グループ）にするためのクラスタリングを行う。キーポイント処理部１０３は、動きベクトルが同じ方向を示す、近接するキーポイントについては、同じ移動物体に属するとして同一のクラスタとする。また、キーポイント処理部１０３は、図３（ｄ）のキーポイント３５のように、動きベクトルが同じ方向であるが、大多数のキーポイントから離れているキーポイントは、異なる移動物体に属する、すなわち、同一のクラスタではないとみなしている。また、キーポイント処理部１０３は、図３（ｄ）のキーポイント３４に示すように、大多数のキーポイントが属するクラスタの領域内又はクラスタの領域に近接するキーポイントは、同一の移動物体に属するとみなしている。このようなキーポイントは、前の段階での、マッチするキーポイントの検出が間違っていたものであると考えられる。

初期領域推定部１０４は、キーポイント処理部１０３により同一のクラスタとされたキーポイント群に対して、図３（ｄ）に示すように、クラスタに対応する対象の移動物体をカバーする画像領域（初期領域ＩＲ：第１領域）を推定する。ここで、初期領域ＩＲは、同一のクラスタのキーポイント群が含まれる最小の矩形領域としてもよく、移動物体がこの領域にカバーされるように、これよりもわずかに大きい矩形領域としてもよい。

候補領域決定部１０５は、初期領域ＩＲに基づいて、移動物体が存在する可能性のある複数の候補領域ＴＲ（第２領域）を決定する。

図４は、第１実施例に係る候補領域を説明する図である。なお、初期領域ＩＲと、候補領域（ＴＲ１〜ＴＲ８）とのいずれか３辺については、全く同じ位置で重なっているが、図４においては、各領域を把握容易にするために、便宜的にわずかにずらした状態で示している。

本実施例では、候補領域決定部１０５は、図４に示すように、初期領域ＩＲの右辺ＲＳだけを右辺ＲＳに垂直な幅（左右方向の幅）が所定の割合（例えば、１０％）だけ拡大するように移動（右方向移動）させた候補領域ＴＲ１と、初期領域ＩＲの右辺ＲＳだけを幅が所定の割合（例えば、１０％）だけ縮小するように移動（左方向移動）させた候補領域ＴＲ２と、初期領域ＩＲの左辺ＬＳだけを幅が所定の割合（例えば、１０％）だけ拡大するように移動（左方向移動）させた候補領域ＴＲ３と、初期領域ＩＲの左辺ＬＳだけを幅が所定の割合（例えば、１０％）だけ縮小するように移動（右方向移動）させた候補領域ＴＲ４と、初期領域ＩＲの上辺ＵＳだけを幅（上下方向の幅）が所定の割合（例えば、１０％）だけ拡大するように移動（上方向移動）させた候補領域ＴＲ５と、初期領域ＩＲの上辺ＵＳだけを幅が所定の割合（例えば、１０％）だけ縮小するように移動（下方向移動）させた候補領域ＴＲ６と、初期領域ＩＲの下辺ＤＳだけを幅（上下方向の幅）が所定の割合（例えば、１０％）だけ拡大するように移動（下方向移動）させた候補領域ＴＲ７と、初期領域ＩＲの下辺ＤＳだけを幅が所定の割合（例えば、１０％）だけ縮小するように移動（上方向移動）させた候補領域ＴＲ８と、を候補領域として決定している。このように、候補領域を決定することにより、対象の移動物体の大きさに適合する領域の候補を適切に検出することができるようになる。特に、初期領域ＩＲの各辺について移動させた候補領域を用意することにより、移動物体がいずれの方向にずれていた場合であっても適切に移動物体が存在する領域を得ることができる。

物体分類部１０６は、初期領域ＩＲと、候補領域ＴＲ１〜ＴＲ８との９つのそれぞれの領域について、対象の移動物体であるか否かについて評価する。対象の移動物体としては、物体の全体であってもよく、物体の一部分であってもよく、例えば、人間としてもよいし、人間の部分である顔としてもよい。本実施形態では、フレーム画像よりも小さい、これらの少数の領域のみに対して対象の移動物体が存在するか否かについて評価するので、処理量を低減することができ、処理時間を低減することができる。

物体分類部１０６は、対象の移動物体であるか否かについて評価として、領域が所定の移動物体である確からしさを示す確度を決定する。物体分類部１０６としては、例えば、ＣＮＮ（Convolutional Neural Network：畳み込みニューラルネットワーク）により、領域の画像を用いて、領域が対象の移動物体である確からしさを示す確度を出力する構成としてもよい。なお、ＣＮＮは、対象とする移動物体である確度を適切に決定できるように、予め学習させておく必要がある。物体分類部１０６の構成として、ＣＮＮを用いることにより、非常に高い正確性と、監視システムに必要なリアルタイム性（短時間での処理の実行）とを実現することができる。

物体分類部１０６により決定された確度は、対象の移動物体の大きさに、より高精度に適合している領域を決定するために利用することができる。すなわち、決定された確度が高い領域ほど、対象の移動物体の大きさに高精度に適合している領域であるといえる。

存在領域決定部１０７は、物体分類部１０６により決定された、各領域についての確度に基づいて、最も高い確度に決定された領域を特定し、この領域を移動物体が存在する領域（存在領域）に決定し、フレーム画像における存在領域の位置を存在領域表示部１０８に通知する。なお、決定した存在領域の画像を用いて更なる処理（例えば、移動物体についてのより詳細な認識処理等）に利用するようにしてもよい。この存在領域は、移動物体の大きさに、より高精度に適合しているので、移動物体に対する更なる処理における処理精度を向上することができる。

存在領域表示部１０８は、存在領域決定部１０７から通知された存在領域の位置に基づいて、表示装置１５にフレーム画像を表示させるとともに、フレーム画像中において、通知された存在領域に対応する範囲を識別可能に表示させる。これにより、表示装置１５のフレーム画像中の移動物体の存在領域を適切に表示させることができ、ユーザは移動物体を適切に把握することができる。

次に、第１実施例に係る移動物体検出装置の処理動作について説明する。

図５は、第１実施例に係る移動物体検出処理のフローチャートである。

まず、画像入力部１０１は、監視カメラ２０により撮影された動画像のそれぞれのフレーム画像を入力する（ステップＳ１０）。

次いで、背景差分処理部１０２は、入力されたフレーム画像における背景差分を取得する処理を実行する（ステップＳ１１）。

次いで、キーポイント処理部１０３は、２つの異なるフレーム画像のそれぞれのキーポイントを抽出し（ステップＳ１２）、それぞれのフレーム画像間のキーポイントのマッチングを行い（ステップＳ１３）、フレーム画像間のマッチするキーポイントの移動ベクトルを特定し、移動ベクトルに基づいて同一の移動物体を示すキーポイントをクラスタリングする（ステップＳ１４）。

次いで、初期領域推定部１０４は、キーポイント処理部１０３により同一のクラスタとされたキーポイント群に対して、クラスタに対応する移動物体をカバーする画像の初期領域ＩＲを推定する（ステップＳ１５）。

次いで、候補領域決定部１０５は、初期領域ＩＲに基づいて、移動物体が存在する可能性のある複数の候補領域ＴＲを決定する（ステップＳ１６）。

次いで、物体分類部１０６は、初期領域ＩＲと、候補領域ＴＲとのそれぞれの領域について、対象の移動物体が存在するか否かについて評価する（ステップＳ１７）。

次いで、存在領域決定部１０７は、物体分類部１０６により決定された、各領域についての確度に基づいて、最も高い確度に決定された領域を特定し、当該領域を移動物体が存在する存在領域に決定し、フレーム画像における存在領域の位置を存在領域表示部１０８に通知する（ステップＳ１８）。

次いで、存在領域表示部１０８は、存在領域決定部１０７から通知された存在領域の位置に基づいて、表示装置１５にフレーム画像を表示させるとともに、フレーム画像における通知された存在領域に対応する範囲を識別可能に表示させる（ステップＳ１９）。なお、ステップＳ１９が終了した後には、移動物体検出装置１０は、ステップＳ１０からの処理と同様な処理を、処理に使用した２つのフレーム画像のうちの新しいフレーム画像と、その後続のフレーム画像とを対象に実行する。

上記実施例によると、初期領域ＩＲと、他の候補領域との中から移動物体に最も適合する領域を容易かつ適切に検出することができる。

＜第２実施例＞
次に、第２実施例に係る移動物体検出装置について説明する。なお、図２に示す各構成を用いて第２実施例について説明する。

第２実施例は、直前のフレーム画像に対する処理時における移動物体の初期領域ＩＲに対する存在領域の範囲を利用して、次のフレーム画像における移動物体の存在領域を検出するようにすることにより、処理の負荷を低減するようにしたものである。これは、初期領域ＩＲに対する存在領域の範囲は、同一の移動物体であれば、フレーム画像が異なっても同様な対応関係が維持されている可能性が比較的高いことに着目したものである。

第２実施例における存在領域決定部１０７（範囲特定情報登録部の一例）は、初期領域に対する存在領域の範囲を特定可能な情報（範囲特定情報）を、メモリ１２（記憶部の一例）に格納する。

図６は、第２実施例に係る範囲特定情報の一例を示す図である。

範囲特定情報は、図６に示すように、例えば、初期領域ＩＲの基準位置（例えば、左上の点）から存在領域ＯＲの基準位置（例えば、左上の点）までのベクトルＶと、存在領域ＯＲの基準点から存在領域ＯＲの対向する点（右下の点）までのベクトルＷとを含む情報であってもよい。この範囲特定情報によると、初期領域ＩＲの基準位置を基準として、存在領域ＯＲの範囲を適切に表すことができる。

また、存在領域決定部１０７（第３領域特定部の一例）は、メモリ１２に直前の処理における範囲特定情報があるか否かを判定し、範囲特定情報がある場合には、現在の初期領域を基準に範囲特定情報に対応する領域を存在領域候補（第３領域の一例）に決定し、物体分類部１０６に通知する。また、存在領域決定部１０７は、物体分類部１０６から通知された確度が所定の閾値以上であるか否かを判定し、確度が所定の閾値以上である場合には、存在領域候補が存在候補として適切であることを意味しているので、存在領域候補を存在領域に決定する一方、確度が所定の閾値より小さい場合には、存在領域候補は存在候補には適さないので、第１実施例と同様の処理、すなわち、初期範囲ＩＲと、複数の候補領域の中から存在領域を決定するための処理を行わせるようにする。

物体分類部１０６は、存在領域決定部１０７から通知された存在領域候補に対して、対象の移動物体である確度を特定し、特定した確度を存在領域決定部１０７に通知する。

次に、第２実施例に係る移動物体検出装置の処理動作について説明する。

図７は、第２実施例に係る移動物体検出処理のフローチャートである。なお、図５に示す移動物体検出処理と同様なステップには、同一の符号を付している。

ステップＳ１０〜ステップＳ１５の処理が終了した後に、存在領域決定部１０７は、メモリ１２に直前の処理における範囲特定情報があるか否かを判定する（ステップＳ２１）。この結果、直前の処理における範囲特定情報がない場合（ステップＳ２１：ＮＯ）には、存在領域決定部１０７は、ステップＳ１６〜Ｓ１８の処理を実行させるようにする。

一方、直前の処理における範囲特定情報がある場合（ステップＳ２１：ＹＥＳ）には、現在の初期領域（直前のステップＳ１５で推定された初期領域）を基準に範囲特定情報に対応する領域を存在領域候補に決定し、存在領域候補を物体分類部１０６に通知する（ステップＳ２２）。

次いで、物体分類部１０６は、通知された存在領域候補に対して、対象の移動物体である確度を特定し、存在領域決定部１０７に通知する（ステップＳ２３）。

次いで、存在領域決定部１０７は、物体分類部１０６から通知された確度が所定の閾値以上であるか否かを判定する（ステップＳ２４）。この結果、確度が所定の閾値より小さい場合（ステップＳ２４：ＮＯ）には、存在領域決定部１０７は、存在領域候補は存在領域には適していないので、ステップＳ１６〜Ｓ１８の処理を実行させるようにする。

一方、確度が所定の閾値以上である場合（ステップＳ２４：ＹＥＳ）には、存在領域候補が存在領域として適していることを意味しているので、存在領域決定部１０７は、存在領域候補を存在領域に決定し、処理をステップＳ２６に進める（ステップＳ２５）。

次いで、存在領域を決定した後（ステップＳ１８、又はステップＳ２５を実行した後）には、存在領域決定部１０７は、初期領域に対する存在領域の範囲を示す範囲特定情報を、メモリ１２に格納し（ステップＳ２６）、処理をステップＳ１９に進める。

上記第２実施例によると、直前の処理における範囲特定情報を用いて、存在領域候補を決定し、その存在領域候補の画像が対象の移動物体である確からしさを示す確度が所定の閾値以上である場合には、存在領域候補を存在領域と決定するので、複数の候補領域を決定し、各候補領域の評価を行う処理を行わずに済み、処理負荷を低減できるとともに、処理時間を短縮することができる。

＜第３実施例＞
次に、第３実施例に係る移動物体検出システムについて説明する。

第３実施例に係る移動物体検出システムは、移動物体検出装置１０による処理を、ネットワークを介して接続されたクライアント装置２００と、サーバ装置３００とで実現するようにしたシステムである。

移動物体検出システムは、クライアント装置２００と、サーバ装置３００とを備える。クライアント装置２００と、サーバ装置３００とは、ネットワーク４００を介して接続されている。ネットワーク４００は、インターネットであっても、イントラネットであってもよい。サーバ装置３００は、クライアント装置２００のそばに配置しなくてもよく、例えば、遠隔地（例えば、外国）に配置することができる。

クライアント装置２００は、ＣＰＵ２０１と、メモリ２０２と、補助記憶装置２０３と、外部機器Ｉ／Ｆ２０４と、通信Ｉ／Ｆ２０５と、表示装置２０６と、入力装置２０７と、各部を通信可能に接続するバス２０８とを備える。図１に示す移動物体検出装置１０と同一の名称の構成は、同様な構成となっている。通信Ｉ／Ｆ２０５は、ネットワーク４００を介してサーバ装置３００と通信するためのインターフェースである。

クライアント装置２００は、図２に示す画像入力部１０１を備えるとともに、画像入力部１０１で入力したフレーム画像を、ネットワーク４００を介してサーバ装置３００に送信する送信部をさらに有している。

サーバ装置３００は、ＣＰＵ３０１と、メモリ３０２と、補助記憶装置３０３と、通信Ｉ／Ｆ３０４と、表示装置３０５と、入力装置３０６と、各部を通信可能に接続するバス３０７とを備える。図１に示す移動物体検出装置１０と同一の名称の構成は、同様な構成となっている。通信Ｉ／Ｆ３０４は、ネットワーク４００を介してクライアント装置２００と通信するためのインターフェースである。

サーバ装置３００は、図２に示す、背景差分処理部１０２と、キーポイント処理部１０３と、初期領域推定部１０４と、候補領域決定部１０５と、物体分類部１０６と、存在領域決定部１０７とを備える。本実施例では、背景差分処理部１０２は、ネットワーク４００を介してクライアント装置２００から送信されるフレーム画像を受信する機能をさらに有している。

なお、存在領域表示部１０８については、クライアント装置２００と、サーバ装置３００のいずれか一方に設けるようにしてもよく、クライアント装置２００側に設ける場合には、サーバ装置３００は、ネットワーク４００を介して存在領域の位置を通知する送信部を有するようにし、クライアント装置２００の存在領域表示部１０８は、通知に基づいて、フレーム画像中に存在領域を識別可能に表示するようにすればよい。

第３実施例に係る移動物体検出システムによると、クライアント装置２００における処理の負荷を軽減することができる。

＜第４実施例＞
次に、第４実施例に係る移動物体検出システムについて説明する。

第４実施例に係る移動物体検出システムは、ハードウエアの構成は、図８に示す移動物体検出システムと同様である。

第４実施例に係る移動物体検出システムは、クライアント装置２００からサーバ装置３００に対してフレーム画像の全体ではなく、フレーム画像の一部を送信することにより、送信する画像データのサイズを低減するようにしたものである。

クライアント装置２００は、図２に示す画像入力部１０１と、背景差分処理部１０２と、キーポイント処理部１０３と、初期領域推定部１０４とを備える。初期領域推定部１０４は、推定された初期領域を含む、フレーム画像の一部の領域を送信する機能をさらに有する。初期領域推定部１０４は、初期領域と、サーバ装置３００の存在領域決定部１０７により存在領域として使用される領域とを含む、フレーム画像の一部分の領域（部分画像）をサーバ装置３００に送信する。

サーバ装置３００は、図２に示す候補領域決定部１０５と、物体分類部１０６と、存在領域決定部１０７とを備える。候補領域決定部１０５は、ネットワーク４００を介してクライアント装置２００から送信される部分画像を用いて、候補領域を決定する。なお、存在領域表示部１０８については、クライアント装置２００と、サーバ装置３００のいずれに設けるようにしてもよい。

次に、第４実施例に係る移動物体検出システムの処理動作について説明する。

図９は、第４実施例に係る移動物体検出処理の一部のシーケンス図である。

まず、監視カメラ２０は、フレーム画像ｆ１を取得し（ステップＳ１００）、取得したフレーム画像ｆ１をクライアント装置２００に送信する（ステップＳ１０１）。次いで、監視カメラ２０は、次のフレーム画像ｆ２を取得し（ステップＳ１０２）、取得したフレーム画像ｆ２をクライアント装置２００に送信する（ステップＳ１０３）。以降、監視カメラ２０は、逐次フレーム画像を取得し、取得したフレーム画像をクライアント装置２００に送信する。

一方、クライアント装置２００のキーポイント処理部１０３は、監視カメラ２０から送信されたフレーム画像ｆ１を取得すると、フレーム画像ｆ１からキーポイントｋｐ１を特定する（ステップＳ２０１）。次いで、クライアント装置２００のキーポイント処理部１０３は、監視カメラ２０から送信されたフレーム画像ｆ２を取得すると、フレーム画像ｆ２からキーポイントｋｐ２を特定する（ステップＳ２０２）。

次いで、キーポイント処理部１０３は、フレーム画像ｆ１のキーポイントｋｐ１と、フレーム画像ｆ２のキーポイントｋｐ２との間のマッチングを行い（ステップＳ２０３）、マッチしたキーポイント間の動きベクトルを特定し（ステップＳ２０４）、動きベクトルに基づいて、キーポイントをクラスタリングする（ステップＳ２０５）。

次いで、初期領域決定部１０４は、キーポイント処理部１０３により同一のクラスタとされたキーポイント群に対して、クラスタに対応する移動物体をカバーする画像の初期領域ＩＲを推定し（ステップＳ２０６）、推定した初期領域ＩＲと、サーバ装置３００で候補領域とされる可能性のある領域とを含む部分画像をサーバ装置３００に送信する（ステップＳ２０７）。

これに対して、サーバ装置３００では、クライアント装置２００から送信される部分画像を用いて、図５のステップＳ１６以降の処理と同様な処理を実行する。

第４実施例に係る移動物体検出システムでは、クライアント装置２００からサーバ装置３００に対してフレーム画像の全体ではなく、フレーム画像の一部を送信するようにしたので、例えば、クライアント装置２００とサーバ装置３００との間のネットワークが、長距離無線通信等の帯域幅が狭い場合であっても支障なく、移動物体検出処理を行うことができる。

＜第５実施例＞
次に、第５実施例に係る移動物体検出装置について説明する。

第５実施例に係る移動物体検出装置１０は、候補領域決定部１０５による処理を変更したものである、候補領域決定部１０５は、キーポイントの動きベクトルの大きさをキーポイント処理部１０３から受け取り、動きベクトルの大きさに基づいて、図４に示すような候補領域を決定する際の初期領域ＩＲの幅に対して変動する幅の割合を変更する。例えば、動きベクトルの大きさが大きいほど、変動する幅の割合を大きくするようにしてもよい。変動する幅の基準とする動きベクトルの大きさとしては、初期領域内のすべてのキーポイントの動きベクトルの大きさの平均としてもよく、初期領域のキーポイントの動きベクトルのうちで最も大きい動きベクトルの大きさとしてもよい。

第５実施例によると、移動物体の動きに応じて、候補範囲の大きさを適切に調整することができ、候補範囲内に移動物体が存在する可能性を高くすることができる。

なお、本発明は、上述の実施例に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。

例えば、上記実施例では、監視カメラにより撮影された動画像を逐次入力して処理対象としていたが、本発明はこれに限られず、例えば、予めカメラにより撮影され、補助記憶装置１３に記憶されている動画像を処理対象としてもよく、外部の装置から送信される動画像を処理対象としてもよい。

また、上記実施例におけるキーポイントの検出方法や抽出方法としては、上記方法に限られず、ＳＩＦＴ（Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）、ＳＵＲＦ（ＳｐｅｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ）、ＨＯＧ（ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）、ＢＲＩＳＫ（ＢｉｎａｒｙＲｏｂｕｓｔＩｎｖａｒｉａｎｔＳｃａｌａｂｌｅＫｅｙｐｏｉｎｔｓ）を用いるようにしてもよい。

また、上記実施例では、初期領域や候補領域の画像が対象の移動物体である確度を、ＣＮＮを用いて決定するようにしていたが、本発明はこれに限られず、ＣＮＮ以外の方法、例えば、画像マッチングを行うことにより、画像が対象の移動物体である確度を決定するようにしてもよい。

また、上記実施例では、移動物体検出処理においては、連続する２つのフレーム画像を対象として処理を行うようにしていたが、本発明はこれに限られず、例えば、所定のフレームだけ離れた２つのフレーム画像を対象として処理を行うようにしてもよい。このようにすると、処理量を低減しつつ、比較的高精度に対象の移動物体の存在領域を特定することができる。

また、上記実施例では、初期領域と、それに対する候補領域との中から最も確度の高い領域を存在領域に決定するようにしていたが、本発明はこれに限られず、例えば、最も確度の高い領域の確度が所定値以下である場合には、この領域を新たな初期領域として、同様な処理を行うようにして、得られる確度が所定値以上となるまで同様な処理を繰り返し実行するようにしてもよい。このようにすると、より確度の高い領域を存在領域とすることができる。

また、上記実施例では、移動物体検出装置、移動物体検出システムの各機能部を、プロセッサがプログラムを実行することにより構成される例を示していたが、本発明はこれに限られず、各機能部の一部又は全部を、例えば集積回路等のハードウエアによって構成するようにしてもよい。また、上記実施例において、機能部を構成するプログラムは、プログラムコードを記録した記録媒体により提供されてもよい。この場合には、記録媒体のプログラムをコンピュータのプロセッサが読み出して実行することにより、機能部を実現することができる。プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ，ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いてよい。また、機能部を構成するプログラムを、ネットワークを介して配信することによって、コンピュータのハードディスクやメモリ等の記憶部又はＣＤ−ＲＷ、ＣＤ−Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが記憶部や記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

１０…移動体検出装置、１１…ＣＰＵ、１２…メモリ、１３…補助記憶装置、１４…外部機器Ｉ／Ｆ、１５…表示装置、１６…入力装置、２０…監視カメラ、１０１…画像入力部、１０２…背景差分処理部、１０３…キーポイント処理部、１０４…初期領域推定部、１０５…候補領域決定部、１０６…物体分類部、１０７…存在領域決定部、１０８…存在領域表示部、２００…クライアント装置、３００…サーバ装置、４００…ネットワーク

Claims

動画像の中から検出対象の移動物体を検出する移動物体検出装置において、
動画像を入力する動画像入力部と、
前記動画像における２つのフレーム画像間の対応するキーポイントを特定し、キーポイントの動きベクトルを特定し、前記動きベクトルに基づいて、同一の移動物体を構成すると想定されるキーポイントの集合を生成するキーポイント処理部と、
前記２つのフレーム画像における一方のフレーム画像における同一の集合のキーポイントを含む第１領域を推定する第１領域推定部と、
前記第１領域について、所定の変形を行った１以上の第２領域を決定する第２領域決定部と、
前記第１領域と、前記第２領域とに対して、その領域の画像が検出対象の移動物体である確からしさを示す確度の評価を行う物体分類部と、
前記第１領域及び前記第２領域の中から前記検出対象の移動物体である確度が高い領域を、前記移動物体が存在する存在領域として決定する存在領域決定部と、
を備える移動物体検出装置。
キーポイントを特定する２つのフレーム画像は、時間的に連続するフレーム画像である
請求項１に記載の移動物体検出装置。
前記第１領域は、矩形の領域であり、
前記第２領域決定手段は、前記第１領域のいずれか一辺を移動させる変形により得られる領域を前記第２領域として決定する
請求項１又は請求項２に記載の移動物体検出装置。
前記第２領域は、前記第１領域の各辺について、前記第１領域の一辺を移動させて前記第１領域よりも拡大させた４つの拡大領域と、前記第１領域の各辺について、前記第１領域の一辺を移動させて前記第１領域よりも縮小させた４つの縮小領域とを含む
請求項３に記載の移動物体検出装置。
前記第２領域は、前記第１領域のいずれか一辺について垂直な方向に前記第１領域のその方向の幅に対して所定の割合だけ移動させた領域である
請求項３又は請求項４に記載の移動物体検出装置。
前記第２領域決定部は、前記第１領域に含まれる前記キーポイントの前記動きベクトルの長さに基づいて前記所定の割合を決定する
請求項５に記載の移動物体検出装置。
前記物体分類部は、畳み込みニューラルネットワークにより、領域のデータを用いて、領域が検出対象の移動物体である確度を出力するように構成されている
請求項１から請求項６のいずれか一項に記載の移動物体検出装置。
前記動画像の背景画像を記憶する記憶部と、
それぞれの前記フレーム画像から背景画像の成分を取り除く背景差分処理部と、をさらに有し、
前記キーポイント処理部は、前記背景画像の成分を取り除いたフレーム画像を用いて処理を実行する
請求項１から請求項７のいずれか一項に記載の移動物体検出装置。
前記第１領域に対する前記存在領域の範囲を特定可能な範囲特定情報を登録する範囲特定情報登録部と、
前記第１領域決定手段により推定された新たなフレーム画像に対する第１領域の位置を基準に、前記範囲特定情報により特定される第３領域を特定する第３領域特定部とをさらに備え、
前記物体分類部は、前記第３領域に対して、前記所定の移動物体であるか否かの評価を行い、
前記存在領域決定部は、前記第３領域に対する前記評価結果が所定の評価以上である場合には、前記第３領域を前記移動物体が存在する存在領域に決定する
請求項１から請求項８のいずれか一項に記載の移動物体検出装置。
前記範囲特定情報は、前記第１領域の基準位置から前記第３領域の基準位置までのベクトルと、前記第３領域の基準位置から前記第３領域の前記基準の位置に対して対角となる位置までのベクトルとを含む
請求項９に記載の移動物体検出装置。
前記第３領域に対する前記評価結果が所定の評価未満である場合に、前記第２領域決定手段は、第２領域を決定し、前記物体分類部は、前記第１領域と、前記第２領域とに対して、前記所定の移動物体であるか否かの評価を行い、前記存在領域決定部は、前記第１領域及び前記第２領域の中から前記移動物体である評価が高い領域を、前記移動物体が存在する存在領域として決定する
請求項９又は請求項１０に記載の移動物体検出装置。
ネットワークを介して接続されたクライアント装置と、サーバ装置とを備える移動物体検出システムであって、
前記クライアント装置は、
動画像を入力する動画像入力部と、
前記動画像における２つのフレーム画像間の対応するキーポイントを特定し、キーポイントの動きベクトルを特定し、前記動きベクトルに基づいて、同一の移動物を構成すると想定されるキーポイントの集合を生成するキーポイント処理部と、
フレーム画像における同一の集合のキーポイントを含む第１領域を推定する第１領域決定部と、
前記動画像のフレーム画像の第１領域を含む画像を前記サーバ装置に送信する送信部と、を備え、
前記サーバ装置は、
前記クライアント装置から送信された画像に基づいて、前記第１領域について、所定の変形を行った１以上の第２領域を決定する第２領域決定部と、
前記第１領域と、前記第２領域とに対して、その領域の画像が前記所定の移動物体である確からしさを示す確度の評価を行う物体分類部と、
前記第１領域及び前記第２領域の中から前記移動物体である確度が高い領域を、前記移動物体が存在する領域として決定する存在領域決定部と、
を備える
移動物体検出システム。
前記送信部は、フレーム画像よりも小さいサイズの画像であって、全ての前記第２領域を包含するサイズの画像を送信する
請求項１２に記載の移動物体検出システム。
前記サーバ装置は、
前記移動物体が存在する領域の位置を示す情報を前記クライアント装置に送信する送信部をさらに有し、
前記クライアント装置は、
前記動画像を表示させるとともに、その動画像中の前記存在領域に対応する領域を識別可能に表示させる存在領域表示部をさらに有する
請求項１２又は請求項１３に記載の移動物体検出システム。
動画像の中から所定の移動物体を検出する移動物体検出装置による移動物体検出方法であって、
前記移動物体検出装置は、
動画像を入力し、
前記動画像における２つのフレーム画像間の対応するキーポイントを特定し、キーポイントの動きベクトルを特定し、
前記動きベクトルに基づいて、同一の移動物を構成すると想定されるキーポイントの集合を生成し、
フレーム画像における同一の集合のキーポイントを含む第１領域を推定し、
前記第１領域について、所定の変形を行った１以上の第２領域を決定し、
前記第１領域と、前記第２領域とに対して、その領域の画像が前記所定の移動物体である確からしさを示す確度の評価を行い、
前記第１領域及び前記第２領域の中から前記移動物体である確度が高い領域を、前記移動物体が存在する領域として決定する
移動物体検出方法。