WO2022230738A1

WO2022230738A1 - 物体追跡装置及び物体追跡方法

Info

Publication number: WO2022230738A1
Application number: PCT/JP2022/018330
Authority: WO
Inventors: 顕嗣山本; 淳黒田; 徹佐原; 方偉童; 拓也本間
Original assignee: 京セラ株式会社
Priority date: 2021-04-27
Filing date: 2022-04-20
Publication date: 2022-11-03
Also published as: JP2022169320A; EP4332895A1; US20240212172A1; CN117355863A

Abstract

演算の負荷を増大させずに、物体を高精度に追跡できる物体追跡装置及び物体追跡方法が提供される。物体追跡装置（２０）は、センサデータを取得する入力インターフェイス（２１）と、センサデータから検出対象を検出し、検出対象及び観測値のそれぞれに対応付けが行われたカルマンフィルタを用いて、検出対象の追跡を行うプロセッサ（２３）と、検出対象の検出結果を出力する出力インターフェイス（２４）と、を備え、プロセッサ（２３）は、同一の検出対象又は観測値に対応付けが行われた複数のカルマンフィルタのうち確からしさが低いものを、対応付けから除外され得る除外候補カルマンフィルタとして選択する第１の処理と、初期化条件を満たした除外候補カルマンフィルタを対応付けから除外して初期化する第２の処理と、を実行する。

Description

物体追跡装置及び物体追跡方法

関連出願の相互参照

　本出願は、日本国特許出願２０２１－０７５２８９号（２０２１年４月２７日出願）の優先権を主張するものであり、当該出願の開示全体を、ここに参照のために取り込む。

　本開示は、物体追跡装置及び物体追跡方法に関する。

　周囲の物体を検知し、検知した物体を追跡して動きを予測する技術が知られている。例えば、特許文献１は、車両周辺の映像を取り込む車載カメラから出力される映像信号を処理して接近する車両及び歩行者の有無を検知し、接近車両及び歩行者に四角枠のマークを付加して表示する装置を開示する。

特開平１１－３２１４９４号公報

　一実施形態に係る物体追跡装置は、
　センサデータを取得する入力インターフェイスと、
　前記センサデータから検出対象を検出し、前記検出対象及び観測値のそれぞれに対応付けが行われたカルマンフィルタを用いて、前記検出対象の追跡を行うプロセッサと、
　前記検出対象の検出結果を出力する出力インターフェイスと、を備え、
　前記プロセッサは、
　　同一の検出対象又は観測値に対応付けが行われた複数の前記カルマンフィルタのうち確からしさが低いものを、前記対応付けから除外され得る除外候補カルマンフィルタとして選択する第１の処理と、
　　初期化条件を満たした前記除外候補カルマンフィルタを前記対応付けから除外して初期化する第２の処理と、を実行する。

　一実施形態に係る物体追跡方法は、
　センサデータを取得することと、
　前記センサデータから検出対象を検出し、前記検出対象及び観測値のそれぞれに対応付けが行われたカルマンフィルタを用いて、前記検出対象の追跡を行うことと、
　前記検出対象の検出結果を出力することと、を含み、
　前記検出対象の追跡を行うことは、
　　同一の検出対象又は観測値に対応付けが行われた複数の前記カルマンフィルタのうち確からしさが低いものを、前記対応付けから除外され得る除外候補カルマンフィルタとして選択する第１の処理と、
　　初期化条件を満たした前記除外候補カルマンフィルタを前記対応付けから除外して初期化する第２の処理と、を含む。

図１は、一実施形態に係る物体追跡装置を含む物体追跡システムの概略構成を示すブロック図である。図２は、図１の物体追跡システムを搭載する車両と検出対象とを示す図である。図３は、動画像上の物体の像を追跡する処理の例を示すフローチャートである。図４は、動画像上の物体の像の一例を示す図である。図５は、実空間の物体、動画像中の物体の像及び仮想空間における質点の関係を説明する図である。図６は、仮想空間における質点の移動の一例を示す図である。図７は、データアソシエーションを説明するための図である。図８は、追跡物体ＩＤ管理の階層構造を例示する図である。図９は、同一の観測点に対応付けられた重複カルマンフィルタのそれぞれの誤差楕円を示す図である。図１０は、同一の検出対象に対応付けられた重複カルマンフィルタのそれぞれの誤差楕円を示す図である。

　以下、図面を参照して、本開示の実施形態が説明される。以下の説明で用いられる図は模式的なものである。図面上の寸法比率などは現実のものと必ずしも一致していない。

　図１は、物体追跡システム１の概略構成を示すブロック図である。本開示の一実施形態に係る物体追跡装置２０は、物体追跡システム１に含まれる。本実施形態において、物体追跡システム１は、撮像装置１０と、物体追跡装置２０と、ディスプレイ３０とを含む。また、本実施形態において、物体追跡システム１は、図２に例示するように移動体の一例である車両１００に搭載される。

　本実施形態に係る物体追跡装置２０は、センサデータとして撮像装置１０から動画像を取得する。つまり、本実施形態において、検出対象を検出するために用いられるセンサは、撮像装置１０が備える可視光を撮像する撮像素子１２である。ただし、物体追跡システム１は、図１に示される構成に限定されない。物体追跡システム１は、検出対象を検出するものであれば、撮像装置１０と異なる装置を備えることができる。別の例として、物体追跡システム１は、撮像装置１０に代えて、照射したレーザー光の反射波から検出対象との距離を測定する測定装置を備える構成であってよい。別の例として、物体追跡システム１は、撮像装置１０に代えて、ミリ波センサを有する検出装置を備える構成であってよい。また、別の例として、物体追跡システム１は、可視光領域以外の光を撮像する撮像素子１２を備える撮像装置１０を備える構成であってよい。

　本実施形態において、物体追跡システム１は移動体に搭載されて、移動する移動体の周囲の物体４０（図２参照）を検出対象とする。ただし、物体追跡システム１は、移動体に搭載される構成に限定されない。別の例として、物体追跡システム１は、工場などの施設で用いられて、従業員、搬送ロボット及び製造物などを検出対象としてよい。また、別の例として、物体追跡システム１は、老人福祉施設などで用いられて、室内の老人及びスタッフなどを検出対象としてよい。また、物体追跡システム１は、走行又は行動の安全のために物体の追跡を行うだけでなく、例えば農業及び工業の現場において作業の効率化、品質管理又は生産性向上などのために物体の追跡を行ってよい。ここで、本開示において、物体追跡装置２０の検出対象である物体は、移動体などの物だけでなく人を含む。

　図２に示すように、本実施形態において、実空間の座標のうち、ｘ軸方向は、撮像装置１０が設置された車両１００の幅方向とする。ｙ軸正方向は、車両１００の後退する方向とする。ｘ軸方向とｙ軸方向とは、車両１００が位置する路面に平行な方向である。ｚ軸方向は、路面に対して垂直な方向である。ｚ軸方向は、鉛直方向とよぶことができる。ｘ軸方向、ｙ軸方向及びｚ軸方向は、互いに直交する。ｘ軸方向、ｙ軸方向及びｚ軸方向のとり方はこれに限られない。ｘ軸方向、ｙ軸方向及びｚ軸方向は、互いに入れ替えることができる。

　撮像装置１０は、撮像光学系１１、撮像素子１２及びプロセッサ１３を含んで構成される。

　撮像装置１０は、車両１００の種々の位置に設置され得る。撮像装置１０は、フロントカメラ、左サイドカメラ、右サイドカメラ及びリアカメラなどを含むが、これらに限られない。フロントカメラ、左サイドカメラ、右サイドカメラ及びリアカメラは、それぞれ車両１００の前方、左側方、右側方及び後方の周辺領域を撮像可能となるように車両１００に設置される。以下に一例として説明する実施形態では、図２に示すように、撮像装置１０は、車両１００の後方を撮像可能なように、光軸方向を水平方向より下に向けて車両１００に取付けられている。

　撮像光学系１１は、１つ以上のレンズを含んで構成されてよい。撮像素子１２は、ＣＣＤイメージセンサ（ｃｈａｒｇｅ－ｃｏｕｐｌｅｄ　ｄｅｖｉｃｅ　ｉｍａｇｅ　ｓｅｎｓｏｒ）又はＣＭＯＳイメージセンサ（ｃｏｍｐｌｅｍｅｎｔａｒｙ　ＭＯＳ　ｉｍａｇｅ　ｓｅｎｓｏｒ）を含んで構成されてよい。

　撮像素子１２は、撮像光学系１１により撮像素子１２の撮像面に結像された物体の像（被写体像）を電気信号に変換する。撮像素子１２は、所定のフレームレートで、動画像を撮像することができる。フレームは動画像を構成する各静止画像である。１秒間に撮像できる画像の数をフレームレートという。フレームレートは、例えば６０ｆｐｓ（ｆｒａｍｅｓ　ｐｅｒ　ｓｅｃｏｎｄ）であってよいし、３０ｆｐｓであってよい。

　プロセッサ１３は、撮像装置１０全体を制御するとともに、撮像素子１２から出力された動画像に対して、種々の画像処理を実行する。プロセッサ１３が行う画像処理は、歪み補正、明度調整、コントラスト調整、ガンマ補正等の任意の処理を含み得る。

　プロセッサ１３は、１つ又は複数のプロセッサで構成され得る。プロセッサ１３は、例えば、関連するメモリに記憶された指示を実行することによって１以上のデータ計算手続又は処理を実行するように構成された１以上の回路又はユニットを含む。プロセッサ１３は、１以上のプロセッサ、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎ　ｓｐｅｃｉｆｉｃ　ｉｎｔｅｇｒａｔｅｄ　ｃｉｒｃｕｉｔ）、デジタル信号処理装置（ＤＳＰ：ｄｉｇｉｔａｌ　ｓｉｇｎａｌ　ｐｒｏｃｅｓｓｏｒ）、プログラマブルロジックデバイス（ＰＬＤ：ｐｒｏｇｒａｍｍａｂｌｅ　ｌｏｇｉｃ　ｄｅｖｉｃｅ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅ　ｇａｔｅ　ａｒｒａｙ）、これらのデバイス若しくは構成の任意の組み合わせ又は他の既知のデバイス若しくは構成の組み合わせを含む。

　物体追跡装置２０は、入力インターフェイス２１、記憶部２２、プロセッサ２３及び出力インターフェイス２４を含んで構成される。

　入力インターフェイス２１は、撮像装置１０との間で有線又は無線の通信手段により通信可能に構成される。入力インターフェイス２１は、センサデータとして撮像装置１０から動画像を取得する。入力インターフェイス２１は、撮像装置１０の送信する画像信号の伝送方式に対応してよい。入力インターフェイス２１は、入力部又は取得部と言い換えることができる。撮像装置１０と入力インターフェイス２１との間は、ＣＡＮ（ｃｏｎｔｒｏｌ　ａｒｅａ　ｎｅｔｗｏｒｋ）などの車載通信ネットワークにより接続されてよい。

　記憶部２２は、プロセッサ２３が行う処理に必要なデータ及びプログラムを格納する記憶装置である。例えば、記憶部２２は、撮像装置１０から取得した動画像を一時的に記憶する。例えば、記憶部２２は、プロセッサ２３が行う処理により生成されるデータを格納する。記憶部２２は、例えば半導体メモリ、磁気メモリ及び光メモリなどのいずれか一つ以上を用いて構成されてよい。半導体メモリは、揮発性メモリ及び不揮発性メモリを含んでよい。磁気メモリは、例えばハードディスク及び磁気テープなどを含んでよい。光メモリは、例えばＣＤ（ｃｏｍｐａｃｔ　ｄｉｓｃ）、ＤＶＤ（ｄｉｇｉｔａｌ　ｖｅｒｓａｔｉｌｅ　ｄｉｓｃ）及びＢＤ（ｂｌｕ－ｒａｙ（登録商標）　ｄｉｓｃ）などを含んでよい。

　プロセッサ２３は、物体追跡装置２０の全体を制御する。プロセッサ２３は、入力インターフェイス２１を介して取得した動画像に含まれる物体の像を認識する。プロセッサ２３は、認識した物体の像の座標を仮想空間４６（図６参照）の物体４０の座標に写像変換し、仮想空間４６上で物体４０を表す質点４５（図５参照）の位置及び速度を追跡する。質点４５は、質量を有し大きさを持たない点である。仮想空間４６は、実空間のｘ軸、ｙ軸及びｚ軸の３軸より成る座標系において、ｚ軸方向の値を所定の固定値とする２次元空間である。プロセッサ２３は、追跡した質点４５の仮想空間４６上の座標を動画像上の座標に写像変換してよい。

　また、プロセッサ２３は、動画像から検出対象を検出し、カルマンフィルタを用いて追跡を行う。ここで、プロセッサ２３は、動画像から複数の検出対象を検出可能であって、複数の検出対象のそれぞれについてカルマンフィルタを用いて追跡を行う。複数の検出対象を検出する場合に、動画像においてそれらの像が重なると、従来の技術では追跡を誤ったり、精度が低下したりする。本実施形態において、プロセッサ２３は、複数の検出対象のそれぞれに１つ以上のカルマンフィルタを対応付けることによって、このような問題を回避できる。また、プロセッサ２３は、観測値と、カルマンフィルタと、追跡物体の固有識別情報（以下「追跡物体ＩＤ」）と、を各レイヤ（層）で管理する。プロセッサ２３は、追跡物体について同一物体（同一の検出対象）であるか否かを判定し、観測値と、カルマンフィルタと、追跡物体ＩＤと、を対応付ける処理を実行する。これによって、複数の検出対象の追跡の精度をさらに向上させることができる。

　また、プロセッサ２３は、同一の検出対象又は観測値に対応付けが行われた複数のカルマンフィルタのうち確からしさが低いものを、対応付けから除外する候補としたり、初期化したりする。プロセッサ２３は、例えば多くのカルマンフィルタが同一の検出対象又は観測値に対応付けられた場合に、一部を除外することによって、演算の負荷が増大することを防ぐことができる。プロセッサ２３が行う処理の詳細については後述する。プロセッサ２３は、撮像装置１０のプロセッサ１３と同じく、複数のプロセッサを含んでよい。また、プロセッサ２３は、プロセッサ１３と同じく、複数の種類のデバイスが組み合わされて構成されてよい。

　出力インターフェイス２４は、物体追跡装置２０から出力信号を出力するように構成される。出力インターフェイス２４は、出力部と言い換えることができる。出力インターフェイス２４は、例えば質点４５の座標などの検出対象の検出結果を出力してよい。

　出力インターフェイス２４は、物理コネクタ及び無線通信機を含んで構成され得る。出力インターフェイス２４は、例えばＣＡＮなどの車両１００のネットワークに接続されてよい。出力インターフェイス２４は、ＣＡＮなどの通信ネットワークを介してディスプレイ３０、車両１００の制御装置及び警報装置などに接続され得る。出力インターフェイス２４から出力された情報は、ディスプレイ３０、制御装置及び警報装置の各々で適宜利用されてよい。

　ディスプレイ３０は、物体追跡装置２０から出力される動画像を表示し得る。ディスプレイ３０は、物体追跡装置２０から、物体の像の位置を表す質点４５の座標を受け取った場合、これに従う画像要素（例えば、接近する物体とともに表示する警告）を生成して動画像に重畳させる機能を有してよい。ディスプレイ３０は、種々の種類の装置を採用し得る。例えば、ディスプレイ３０は、液晶ディスプレイ（ＬＣＤ：ｌｉｑｕｉｄ　ｃｒｙｓｔａｌ　ｄｉｓｐｌａｙ）、有機ＥＬ（ｅｌｅｃｔｒｏ－ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、無機ＥＬディスプレイ、プラズマディスプレイ（ＰＤＰ：ｐｌａｓｍａ　ｄｉｓｐｌａｙ　ｐａｎｅｌ）、電界放出ディスプレイ（ＦＥＤ：ｆｉｅｌｄ　ｅｍｉｓｓｉｏｎ　ｄｉｓｐｌａｙ）、電気泳動ディスプレイ、ツイストボールディスプレイなどを採用し得る。

　次に、図３のフローチャートを参照して、物体追跡装置２０が実行する物体追跡方法を説明する。物体追跡装置２０は、以下に説明するプロセッサ２３が行う処理を、非一時的なコンピュータ可読媒体に記録されたプログラムを読み込んで実装するように構成されてよい。非一時的なコンピュータ可読媒体は、磁気記憶媒体、光学記憶媒体、光磁気記憶媒体、半導体記憶媒体を含むがこれらに限られない。磁気記憶媒体は、磁気ディスク、ハードディスク、磁気テープを含む。光学記憶媒体は、ＣＤ、ＤＶＤ及びＢＤなどの光ディスクを含む。半導体記憶媒体は、ＲＯＭ（ｒｅａｄ　ｏｎｌｙ　ｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（ｅｌｅｃｔｒｉｃａｌｌｙ　ｅｒａｓａｂｌｅ　ｐｒｏｇｒａｍｍａｂｌｅ　ｒｅａｄ－ｏｎｌｙ　ｍｅｍｏｒｙ）、フラッシュメモリを含む。

　図３のフローチャートは、動画像の順次のフレームを取得して、プロセッサ２３が実行する処理を示す。物体追跡装置２０のプロセッサ２３は、図３のフローチャートに従い、動画像のフレームを取得する度に、物体の像４２（図４参照）の位置を追跡（トラッキング）する。図２に示すように、検出対象となる物体４０は複数であってよく、歩行者４０Ａ、自動車４０Ｂ及び自転車４０Ｃを含み得る。さらに、物体４０は、移動している物及び人に限定されず、道路上の障害物など、種々の対象物を含み得る。以下の物体追跡方法についての説明では、車両１００の後ろに設置された撮像装置１０の動画像に含まれる複数の物体４０のうち１つ（具体的には歩行者４０Ａ）を用いて説明する。他の物体４０（例えば自動車４０Ｂ及び自転車４０Ｃ）のそれぞれについても、同様の処理によって追跡が行われる。

　プロセッサ２３は、入力インターフェイス２１を介して、撮像装置１０から動画像の各フレームを取得する（ステップＳ１０１）。図４に、動画像の１フレームの一例が示される。図４の例では、ｕｖ座標系からなる２次元の画像空間４１に、車両１００の後方の物体４０の像（物体の像４２）が表示されている。ｕ座標は、画像の横方向の座標である。ｖ座標は、画像の縦方向の座標である。図４において、ｕｖ座標の原点は、画像空間４１の左上端の点である。また、ｕ座標は、左から右へ向かう方向を正の方向とする。ｖ座標は、上から下へ向かう方向を正の方向とする。

　プロセッサ２３は、画像認識により動画像の各フレームから物体の像４２を認識する（ステップＳ１０２）。物体の像４２の認識方法は、公知の種々の方法を含む。例えば、物体の像４２の認識方法は、車及び人などの物体の形状認識による方法、テンプレートマッチングによる方法、画像から特徴量を算出しマッチングに利用する方法などを含む。特徴量の算出には、入出力の関係を学習可能な関数近似器を用いることができる。入出力の関係を学習可能な関数近似器には、例えばニューラルネットワークを用いることができる。

　プロセッサ２３は、画像空間４１の物体の像４２の座標（ｕ，ｖ）を仮想空間４６（図６参照）の物体の座標（ｘ´，ｙ´）に写像変換する（ステップＳ１０３）。一般に、２次元座標である画像空間４１の座標（ｕ，ｖ）は、実空間の座標（ｘ，ｙ，ｚ）に変換することはできない。しかし、実空間における高さを特定し、ｚ座標を所定値に固定することにより、画像空間４１の座標（ｕ，ｖ）を、実空間の座標（ｘ，ｙ，ｚ_０）（ｚ_０は固定値）に対応する２次元の仮想空間４６の座標（ｘ´，ｙ´）に写像することが可能になる。ここで、本実施形態では仮想空間４６を２次元としたが、入力情報（センサの種類）によって３次元とすることがあり得る。

　図４に示すように、物体の像４２の最下部の中央に位置する代表点４３が特定される。例えば、代表点４３は、画像空間４１において、物体の像４２が占める領域のｖ座標の最も下の位置且つｕ座標の範囲の中心位置とすることができる。この代表点４３は、物体の像４２に対応する物体４０の路面又は地面と接している位置であると想定される。

　図５において、３次元の実空間に位置する物体４０と、２次元の画像空間４１上の物体の像４２との関係が示される。撮像装置１０の内部パラメータが既知の場合、画像空間４１の座標（ｕ，ｖ）に基づき、撮像装置１０の撮像光学系１１の中心から実空間の対応する座標（ｘ，ｙ，ｚ）に向かう方向を算出することができる。撮像装置１０の内部パラメータは、撮像光学系１１の焦点距離、歪み及び撮像素子１２の画素サイズなどの情報を含む。実空間において、画像空間４１の代表点４３に対応する方向に向かう直線が、ｚ＝０の基準面４４と交差する点を物体４０の質点４５とする。基準面４４は、車両１００が位置する路面又は地面に相当する。質点４５は、３次元の座標（ｘ，ｙ，０）を有する。したがって、ｚ＝０の２次元空間を仮想空間４６とするとき、質点４５の座標は、（ｘ´，ｙ´）で表すことができる。仮想空間４６上の質点４５の座標（ｘ´，ｙ´）は、実空間においてｚ軸に沿う方向から物体４０を見た場合のｘｙ平面（ｚ＝０）での物体４０の特定の点の座標（ｘ，ｙ）に相当する。特定の点は、質点４５に対応する点である。

　プロセッサ２３は、図６に示すように、仮想空間４６上で物体の像４２の代表点４３から仮想空間４６に写像変換された質点４５の位置（ｘ´，ｙ´）及び速度（ｖ_ｘ´，ｖ_ｙ´）を追跡する（ステップＳ１０４）。質点４５が位置（ｘ´，ｙ´）及び速度（ｖ_ｘ´，ｖ_ｙ´）の情報を有することにより、プロセッサ２３は、順次のフレームにおける質点４５の位置（ｘ´，ｙ´）の範囲を予測することができる。プロセッサ２３は、次のフレームで予測された範囲に位置する質点４５を、追跡している物体の像４２に対応する質点４５であると認識することができる。プロセッサ２３は、新たなフレームの入力を受ける毎に、順次質点４５の位置（ｘ´，ｙ´）及び速度（ｖ_ｘ´，ｖ_ｙ´）を更新する。

　質点４５の追跡は、例えば、状態空間モデルに基づくカルマンフィルタを用いた推定を採用することができる。カルマンフィルタを用いた予測／推定を行うことにより、検出対象の物体４０の検知不能及び誤検知などに対するロバスト性が向上する。一般に、画像空間４１の物体の像４２に対しては、運動を記述する適切なモデルで記述することは困難である。そのため、画像空間４１の物体の像４２に対して簡易に高精度の位置の推定を行うことは困難であった。本開示の物体追跡装置２０では、物体の像４２を実空間の質点４５に写像変換することにより、実空間における運動を記述するモデルの適用が可能になるので、物体の像４２の追跡の精度が向上する。また、物体４０を、大きさを持たない質点４５として扱うことにより、単純で簡易な追跡が可能となる。

　プロセッサ２３は、質点４５の新たな位置を推定するごとに、推定位置を示すために、質点４５の仮想空間４６上の座標を画像空間４１上の座標（ｕ，ｖ）に写像変換してよい（ステップＳ１０５）。仮想空間４６の座標（ｘ´，ｙ´）に位置する質点４５は、実空間の座標（ｘ，ｙ，０）に位置する点として、画像空間４１に写像変換することができる。実空間の座標（ｘ，ｙ，０）は、公知の方法により撮像装置１０の画像空間４１上の座標（ｕ，ｖ）に写像することができる。プロセッサ２３は、画像空間４１上の座標（ｕ，ｖ）と、仮想空間４６の座標（ｘ´，ｙ´）と、実空間の座標（ｘ，ｙ，０）と、を相互に変換することができる。

（データアソシエーション）
　図７は、データアソシエーションを説明するための図である。データアソシエーションは、カルマンフィルタを観測値に対応付ける処理である。データアソシエーションにおいて、複数のカルマンフィルタが、複数の観測値と対応付けられ得る。ここで、観測値は、検出対象の位置である。プロセッサ２３は、複数の観測値及び複数のカルマンフィルタに識別子を付して区別する。本実施形態において、プロセッサ２３は、例えば通し番号を用いて、複数の観測値のそれぞれを観測値（１）、観測値（２）、観測値（３）…とする。また、プロセッサ２３は、例えば記号及び通し番号を用いて、複数のカルマンフィルタのそれぞれをＫＦ（１）、ＫＦ（２）、ＫＦ（３）…とする。

　本実施形態において、プロセッサ２３は、Ｍ個の観測値とＮ個のカルマンフィルタとのデータアソシエーションを行う。Ｍは２以上の整数である。ＮはＭ以上の整数である。図７の例において、プロセッサ２３は、３個の観測値と５個のカルマンフィルタとのデータアソシエーションを行っている。観測値（１）は動画像のフレーム（ｋ）において検出されている歩行者４０Ａの位置である。観測値（２）は動画像のフレーム（ｋ）において検出されている自動車４０Ｂの位置である。観測値（３）は動画像のフレーム（ｋ）において検出されている自転車４０Ｃの位置である。また、フレーム（ｋ－１）は、動画像におけるフレーム（ｋ）の１つ前のフレームである。フレーム（ｋ－２）は、動画像におけるフレーム（ｋ）の２つ前のフレームである。現フレームはフレーム（ｋ）であるとする。

　ここで、ＫＦ（２）は、フレーム（ｋ－１）の時まで歩行者４０Ａの追跡に用いられていたが、後述する初期化条件を満たしたため初期化されて、検出対象の位置の追跡に用いられない。また、ＫＦ（５）は、フレーム（ｋ－２）で新たな自転車４０Ｃが認識されたことによって、新たに用意されたカルマンフィルタである。ＫＦ（５）は、新たに認識された自転車４０Ｃが、現フレーム（ｋ）でも認識されたために、検出対象の追跡を始動している。その他のカルマンフィルタは、フレーム（ｋ－２）の時から、それぞれ検出対象の追跡を継続している。

　図７の例において、プロセッサ２３は観測値（１）にＫＦ（１）を対応付けている。プロセッサ２３は観測値（２）にＫＦ（３）及びＫＦ（４）を対応付けている。また、プロセッサ２３は観測値（３）にＫＦ（５）を対応付けている。観測値（２）の例のように、プロセッサ２３は、複数の検出対象の追跡過程における検出結果の重複を許容する。つまり、プロセッサ２３は、ＫＦ（３）及びＫＦ（４）を用いて、観測値（２）すなわち自動車４０Ｂの位置の範囲の予測を行う。このように、データアソシエーションにおいて重複を許容することによって、局所最適化を行うことができる。例えば、重複を許容せずに、複数の観測値と複数のカルマンフィルタとを一対一で対応付ける手法（一例としてハンガリアン法）は、全体最適化のため、１つのミスアソシエーションが連鎖するおそれがある。本実施形態においては、重複が許容されるため、ミスアソシエーションの連鎖といった問題は生じない。また、追跡過程において、１つの観測値に対して１つ以上のカルマンフィルタが対応付けられており、どの観測値についても追跡の失敗が生じにくいため、ロバスト性を向上できる。

（追跡物体ＩＤ管理）
　ここで、上記のように１つの観測値に複数のカルマンフィルタが対応付けられ得るが、検出対象である１つの物体に複数の観測値が対応付けられることもあり得る。例えば、検出対象が自動車４０Ｂであって、車線変更などによって動画像から一度消失した後に再び動画像に出現した場合などに、別物体として新たな観測値が対応付けられることがあり得る。正確な物体の追跡を行うために、物体追跡装置２０は、それぞれの追跡物体を識別して、観測値との対応付けを把握することが好ましい。本実施形態において、プロセッサ２３は、以下に説明するように階層構造を用いた追跡物体ＩＤ管理を実行し、複数のカルマンフィルタのグループ化を行って同一物体に対応するものか否かを判定する。

　図８は、本実施形態における追跡物体ＩＤ管理（ＩＤマネジメント）の階層構造を示す図である。追跡物体ＩＤ管理は、カルマンフィルタを検出対象に対応付ける処理である。図８に示すように、プロセッサ２３は、観測値と、カルマンフィルタと、追跡物体ＩＤと、を各レイヤ（層）で管理する。また、プロセッサ２３は、観測値と、カルマンフィルタと、追跡物体ＩＤと、を対応付けることによって、正確な物体の追跡を可能にする。ここで、追跡物体ＩＤは上記のように追跡物体の固有識別情報である。複数の観測値又は複数のカルマンフィルタに対応付けられる追跡物体ＩＤが同じであれば、これらの観測値又はカルマンフィルタは同一物体の追跡に関連するものである。

　プロセッサ２３は、動画像のフレームが取得されると複数のカルマンフィルタのグループ化を実行する。そして、プロセッサ２３は、観測値、カルマンフィルタ及び追跡物体ＩＤの対応付けを更新する。図８の例において、プロセッサ２３は、ＫＦ（１）、ＫＦ（２）及びＫＦ（３）をグループ化して、これらのカルマンフィルタを用いて追跡する物体に識別子である「追跡物体ＩＤ（１）」を割り当てて、この物体の追跡制御を行う。また、プロセッサ２３は、ＫＦ（４）及びＫＦ（５）をグループ化して、これらのカルマンフィルタを用いて追跡する物体に識別子である「追跡物体ＩＤ（２）」を割り当てて、この物体の追跡制御を行う。プロセッサ２３は、同一と判定した物体に対応するカルマンフィルタを紐付けし、これらのカルマンフィルタに対応する検出対象の検出結果についても紐付けする階層構造で追跡を制御することによって、誤りのない高精度な追跡が可能になる。プロセッサ２３は、例えば紐づけされた複数のカルマンフィルタを用いた検出結果を比較又は選択して、確信度が高い検出結果を得ることが可能である。

（重複カルマンフィルタ管理）
　上記のように、１つの観測値に複数のカルマンフィルタが対応付けられ、１つの検出対象（１つの追跡物体ＩＤを有する検出対象）に複数のカルマンフィルタが対応付けられ得る。複数のカルマンフィルタを対応付けることによって追跡の失敗が生じにくくなり、ロバスト性を向上させることができる。しかし、多くのカルマンフィルタの対応付けは演算の負荷を増大させて、プロセッサ２３の物体追跡装置２０の制御に遅延を生じさせ得る。プロセッサ２３は、以下に説明するように、重複カルマンフィルタ（同一の検出対象又は観測値に対応付けが行われた複数のカルマンフィルタ）の一部を対応付けから除外する重複カルマンフィルタ管理を実行する。

　本実施形態において、プロセッサ２３は、重複カルマンフィルタ管理として、第１の処理と、第２の処理と、を実行する。第１の処理は、プロセッサ２３が、重複カルマンフィルタのうち「確からしさ」が低いものを、対応付けから除外され得る「除外候補カルマンフィルタ」として選択する処理である。第１の処理は、重要度の低いカルマンフィルタを枝刈りする（剪定する）ことになぞらえることができ、プルーニング（ｐｒｕｎｉｎｇ）処理と称することができる。第２の処理は、プロセッサ２３が、初期化条件を満たした「除外候補カルマンフィルタ」を対応付けから除外して初期化する処理である。第２の処理は、カルマンフィルタを初期化して空の状態にするので、ベイカント（ｖａｃａｎｔ）処理と称することができる。

　ここで、第１の処理におけるカルマンフィルタの「確からしさ」は、対応付けられた検出対象又は観測値の位置の予測／推定の精度の高さ、換言すると確信度の高さ、である。プロセッサ２３は、カルマンフィルタの確からしさを、例えば誤差楕円の大きさにより判定することができる。誤差楕円は、位置の確率密度分布による推定範囲を示すものであって、所定の確率（一例として９９％）で楕円の内部に位置することを示すものである。誤差楕円は、２次元の仮想空間４６（図６参照）のｘ´方向の標準偏差及びｙ´方向の標準偏差などを用いて計算される。重複カルマンフィルタのうち、最も大きい誤差楕円を有するカルマンフィルタが、確からしさが低いとして、「除外候補カルマンフィルタ」として選択され得る。

　また、第２の処理における初期化条件は、除外候補カルマンフィルタとして選択された回数が第１の値に達することである。第１の値は、任意に選択され得るが、一例として「５」である。例えば、あるカルマンフィルタが、第１の処理によって除外候補カルマンフィルタとして選択された回数が５回となった場合に、第２の処理が実行されて、５回目の除外候補カルマンフィルタとなったカルマンフィルタは、検出対象又は観測値との対応付けから除外されて、初期化される。ここで、除外候補カルマンフィルタとして選択された回数は、連続であってよいし、累計であってよい。例えば、連続の回数が用いられる場合に、あるカルマンフィルタが途中の第１の処理において除外候補カルマンフィルタとして選択されなかった場合に、回数は「０」に戻る。除外候補カルマンフィルタとして選択された回数は、プロセッサ２３が備えるカウンタによって、カルマンフィルタ毎にカウントされてよい。

　プロセッサ２３は、上記のデータアソシエーションにおいて、第１の処理及び第２の処理を実行してよい。図９は、データアソシエーションにおける、同一の観測点に対応付けられた重複カルマンフィルタのそれぞれの誤差楕円を示す図である。同一の観測点（１つの観測値）に複数のカルマンフィルタが対応付けられる状況としては、例えば１つの物体が光の反射の影響などで２つの物体であると認識されて、その一方に新たなカルマンフィルタが対応付けられた場合などがあり得る。上記のように、対応付けられた複数のカルマンフィルタを用いて検出対象の追跡の制御は並列に実行され得るが、演算処理が増大し得る。したがって、データアソシエーションにおいて、重複カルマンフィルタ管理を実行することは好ましい。

　図９の例では、同一の観測点に３つのカルマンフィルタであるＫＦ（ｐ）、ＫＦ（ｑ）及びＫＦ（ｒ）、が対応付けられている。プロセッサ２３は、３つのカルマンフィルタのそれぞれについて誤差楕円を計算する。プロセッサ２３は、第１の処理を実行して、相対的に大きい誤差楕円を有するカルマンフィルタを除外候補カルマンフィルタとして選択する。プロセッサ２３は、複数の除外候補カルマンフィルタを選択してよいが、図９の例において最も大きい誤差楕円を有するＫＦ（ｑ）を除外候補カルマンフィルタとして選択する。その後、プロセッサ２３は第２の処理を実行する。図９の例において、プロセッサ２３は、ＫＦ（ｑ）が除外候補カルマンフィルタとして選択された回数が第１の値（例えば５回）に達した、すなわち初期化条件が満たされている場合に、ＫＦ（ｑ）の対応付けを外して、ＫＦ（ｑ）を初期化する。

　ここで、プロセッサ２３は、同一の観測値に対応付けが行われた複数のカルマンフィルタの数が第２の値を超えた場合に、第１の処理及び第２の処理を実行してよい。第２の値は、任意に選択され得るが、図９の例において「２」である。第２の値は、同一の観測点に対応付けられる重複カルマンフィルタの数の上限値である。第２の値は、演算処理の負担軽減の観点から小さい数値であることが好ましいが、物体の追跡の処理におけるロバスト性を確保するため２以上に設定される。図９の例において、プロセッサ２３は、重複カルマンフィルタの数が２を超えているため、第１の処理及び第２の処理を実行して、ＫＦ（ｑ）を初期化する。重要度が相対的に低いＫＦ（ｑ）が対応付けから除外されることによって、プロセッサ２３の演算処理の増大が防止される。また、ＫＦ（ｐ）及びＫＦ（ｒ）が引き続き同一の観測点に対応付けられており、この観測点に対応する検出対象の位置の追跡においてロバスト性も確保される。

　図９の例において、除外候補カルマンフィルタとして１つのＫＦ（ｑ）が選択されたが、第１の処理で複数の除外候補カルマンフィルタが選択されてよい。同様に、第２の処理で初期化される除外候補カルマンフィルタが複数であってよい。除外候補カルマンフィルタの数は、重複カルマンフィルタの数と、上記の第２の値（同一の観測点に対応付けられる重複カルマンフィルタの数の上限値）と、に基づいて決定されてよい。例えば第２の値が「２」であって、重複カルマンフィルタの数が「５」の場合に、プロセッサ２３は、第１の処理によって、これらの差である３つの除外候補カルマンフィルタを選択してよい。つまり、プロセッサ２３は、第１の処理によって、相対的に誤差楕円が大きい３つのカルマンフィルタを、同一の観測点との対応付けから除外する候補として選択してよい。

　また、プロセッサ２３は、上記の追跡物体ＩＤ管理において、第１の処理及び第２の処理を実行してよい。図１０は、追跡物体ＩＤ管理における、同一の検出対象に対応付けられた重複カルマンフィルタのそれぞれの誤差楕円を示す図である。上記のように、同一の検出対象（１つの追跡物体ＩＤを有する同一物体）に対応付けられた複数のカルマンフィルタを用いて検出対象の追跡の制御は並列に実行され得るが、演算処理が増大し得る。したがって、追跡物体ＩＤ管理において、重複カルマンフィルタ管理を実行することは好ましい。

　ここで、追跡物体ＩＤ管理における、同一の検出対象とカルマンフィルタとの対応付けは、例えばＤＢＳＣＡＮ（ｄｅｎｓｉｔｙ－ｂａｓｅｄ　ｓｐａｔｉａｌ　ｃｌｕｓｔｅｒｉｎｇ　ｏｆ　ａｐｐｌｉｃａｔｉｏｎｓ　ｗｉｔｈ　ｎｏｉｓｅ）などのクラスタリングによって行われる。図１０に示すように、プロセッサ２３は、複数のカルマンフィルタの誤差楕円の中心が所定範囲に含まれる場合に、それらのカルマンフィルタが１つのグループに属すると判定する。図１０の例において、所定範囲は円で示されている。ここで、所定範囲は追跡物体の大きさに応じて変化してよい。例えば追跡物体が自動車４０Ｂであれば、所定範囲は追跡物体が歩行者４０Ａである場合よりも大きく設定されてよい。また、所定範囲は、追跡物体の種類によらずに一定であってよい。クラスタリングの手法は、ＤＢＳＣＡＮに限定されない。例えばｋ－ｍｅａｎｓ法など、他の手法でクラスタリングが実行されてよい。

　図１０の例では、同一の検出対象に３つのカルマンフィルタであるＫＦ（ｐ）、ＫＦ（ｑ）及びＫＦ（ｒ）、が対応付けられている。図９の例と同様に、プロセッサ２３は、第１の処理を実行して、相対的に大きい誤差楕円を有するカルマンフィルタを除外候補カルマンフィルタとして選択する。その後、プロセッサ２３は第２の処理を実行する。図１０の例において、プロセッサ２３は、ＫＦ（ｑ）が除外候補カルマンフィルタとして選択された回数が第１の値（例えば５回）に達した、すなわち初期化条件が満たされている場合に、ＫＦ（ｑ）の対応付けを外して、ＫＦ（ｑ）を初期化する。

　ここで、プロセッサ２３は、図９の例と同様に、同一の検出対象に対応付けが行われた複数のカルマンフィルタの数が第２の値を超えた場合に、第１の処理及び第２の処理を実行してよい。第２の値は、上記のように「同一の観測点に対応付けられる重複カルマンフィルタの数の上限値」であって、一例として「２」である。図１０の例において、プロセッサ２３は、重複カルマンフィルタの数が２を超えているため、第１の処理及び第２の処理を実行して、ＫＦ（ｑ）を初期化する。重要度が相対的に低いＫＦ（ｑ）が対応付けから除外されることによって、プロセッサ２３の演算処理の増大が防止される。また、ＫＦ（ｐ）及びＫＦ（ｒ）が引き続き同一の検出対象に対応付けられており、この検出対象の位置の追跡においてロバスト性も確保される。

　ここで、別の例として、プロセッサ２３は、同一の検出対象に対応付けが行われた複数のカルマンフィルタの数が第３の値を超えた場合に、第１の処理及び第２の処理を実行してよい。第３の値は、「同一の検出対象に対応付けられる重複カルマンフィルタの数の上限値」であって、第２の値に関係なく設定される。例えば、プロセッサ２３は、データアソシエーションにおいて、重複カルマンフィルタの数が第２の値（一例として「２」）を超えた場合に第１の処理及び第２の処理を実行し、追跡物体ＩＤ管理において、重複カルマンフィルタの数が第３の値（一例として「４」）を超えた場合に第１の処理及び第２の処理を実行してよい。

　プロセッサ２３は、上記の実行のタイミング及び実行の条件を選択したり、組み合わせたりして、重複カルマンフィルタ管理を実行してよい。プロセッサ２３は、例えばデータアソシエーション及び追跡物体ＩＤ管理において、第１の処理及び第２の処理を実行してよい。プロセッサ２３は、例えばデータアソシエーションのみにおいて、重複カルマンフィルタの数が第２の値を超えた場合に、第１の処理及び第２の処理を実行してよい。また、プロセッサ２３は、例えば追跡物体ＩＤ管理のみにおいて、重複カルマンフィルタの数が第３の値を超えた場合に、第１の処理及び第２の処理を実行してよい。

　以上のように、本実施形態に係る物体追跡装置２０は、上記の構成によって、複数の検出対象の追跡過程における検出結果の重複を許容する。そのため、物体追跡装置２０は、ミスアソシエーションの連鎖を生じさせることなく、複数の物体を高精度に追跡できる。また、本実施形態に係る物体追跡装置２０は、物体を追跡する処理において、重複カルマンフィルタ管理も実行する。そのため、物体追跡装置２０は、演算の負荷を増大させずに、物体を高精度に追跡できる。

　本開示に係る実施形態について、諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形又は修正を行うことが容易であることに注意されたい。従って、これらの変形又は修正は本開示の範囲に含まれることに留意されたい。例えば、各構成部又は各ステップなどに含まれる機能などは論理的に矛盾しないように再配置可能であり、複数の構成部又はステップなどを１つに組み合わせたり、或いは分割したりすることが可能である。本開示に係る実施形態について装置を中心に説明してきたが、本開示に係る実施形態は装置の各構成部が実行するステップを含む方法としても実現し得るものである。本開示に係る実施形態は装置が備えるプロセッサにより実行される方法、プログラム又はプログラムを記録した記憶媒体としても実現し得るものである。本開示の範囲にはこれらも包含されるものと理解されたい。例えば重複カルマンフィルタ管理は、プロセッサ２３が実行する処理の各ステップを図３の物体追跡方法に含めることによって、方法としても実現される。

　上記の実施形態において、物体追跡システム１は、撮像装置１０と、物体追跡装置２０と、ディスプレイ３０とを含むが、これらのうちの少なくとも２つが一体化した構成であってよい。例えば物体追跡装置２０の機能は、撮像装置１０に搭載することができる。このとき、撮像装置１０は、撮像光学系１１、撮像素子１２及びプロセッサ１３に加えて、上記の記憶部２２、出力インターフェイス２４を備えてよい。また、プロセッサ１３は、撮像装置１０が出力した動画像について、上記の実施形態においてプロセッサ２３が行った処理を実行してよい。このような構成によって、物体の追跡を実行する撮像装置１０が実現されてよい。

　本開示における「移動体」には、車両、船舶、航空機を含む。本開示における「車両」には、自動車及び産業車両を含むが、これに限られず、鉄道車両及び生活車両、滑走路を走行する固定翼機を含めてよい。自動車は、乗用車、トラック、バス、二輪車及びトロリーバスなどを含むがこれに限られず、道路上を走行する他の車両を含んでよい。産業車両は、農業及び建設向けの産業車両を含む。産業車両には、フォークリフト及びゴルフカートを含むがこれに限られない。農業向けの産業車両には、トラクター、耕耘機、移植機、バインダー、コンバイン及び芝刈り機を含むが、これに限られない。建設向けの産業車両には、ブルドーザー、スクレーバー、ショベルカー、クレーン車、ダンプカー及びロードローラを含むが、これに限られない。車両は、人力で走行するものを含む。ここで、車両の分類は、上述に限られない。例えば、自動車には、道路を走行可能な産業車両を含んでよく、複数の分類に同じ車両が含まれてよい。本開示における船舶には、マリンジェット、ボート、タンカーを含む。本開示における航空機には、固定翼機、回転翼機を含む。

　１　　　物体追跡システム
　１０　　撮像装置
　１１　　撮像光学系
　１２　　撮像素子
　１３　　プロセッサ
　２０　　物体追跡装置
　２１　　入力インターフェイス
　２２　　記憶部
　２３　　プロセッサ
　２４　　出力インターフェイス
　３０　　ディスプレイ
　４０　　物体
　４０Ａ　歩行者
　４０Ｂ　自動車
　４０Ｃ　自転車
　４１　　画像空間
　４２　　物体の像
　４３　　代表点
　４４　　基準面
　４５　　質点
　４６　　仮想空間
　１００　車両

Claims

　センサデータを取得する入力インターフェイスと、
　前記センサデータから検出対象を検出し、前記検出対象及び観測値のそれぞれに対応付けが行われたカルマンフィルタを用いて、前記検出対象の追跡を行うプロセッサと、
　前記検出対象の検出結果を出力する出力インターフェイスと、を備え、
　前記プロセッサは、
　　同一の検出対象又は観測値に対応付けが行われた複数の前記カルマンフィルタのうち確からしさが低いものを、前記対応付けから除外され得る除外候補カルマンフィルタとして選択する第１の処理と、
　　初期化条件を満たした前記除外候補カルマンフィルタを前記対応付けから除外して初期化する第２の処理と、を実行する、物体追跡装置。
　前記プロセッサは、前記カルマンフィルタの確からしさを誤差楕円の大きさにより判定する、請求項１に記載の物体追跡装置。
　前記初期化条件は、前記除外候補カルマンフィルタとして選択された回数が第１の値に達することである、請求項１又は２に記載の物体追跡装置。
　前記プロセッサは、同一の検出対象又は観測値に対応付けが行われた複数の前記カルマンフィルタの数が第２の値を超えた場合に、前記第１の処理及び前記第２の処理を実行する、請求項１から３のいずれか一項に記載の物体追跡装置。
　前記プロセッサは、前記カルマンフィルタを前記観測値に対応付ける処理において、前記第１の処理及び前記第２の処理を実行する、請求項１から４のいずれか一項に記載の物体追跡装置。
　前記プロセッサは、前記カルマンフィルタを前記検出対象に対応付ける処理において、前記第１の処理及び前記第２の処理を実行する、請求項１から５のいずれか一項に記載の物体追跡装置。
　センサデータを取得することと、
　前記センサデータから検出対象を検出し、前記検出対象及び観測値のそれぞれに対応付けが行われたカルマンフィルタを用いて、前記検出対象の追跡を行うことと、
　前記検出対象の検出結果を出力することと、を含み、
　前記検出対象の追跡を行うことは、
　　同一の検出対象又は観測値に対応付けが行われた複数の前記カルマンフィルタのうち確からしさが低いものを、前記対応付けから除外され得る除外候補カルマンフィルタとして選択する第１の処理と、
　　初期化条件を満たした前記除外候補カルマンフィルタを前記対応付けから除外して初期化する第２の処理と、を含む、物体追跡方法。