WO2019172172A1

WO2019172172A1 - 物体追跡装置、物体追跡方法、及びコンピュータプログラム

Info

Publication number: WO2019172172A1
Application number: PCT/JP2019/008342
Authority: WO
Inventors: 裕一廣井; 陽子石井; 徹郎徳永; 喜秀外村; 日高　浩太
Original assignee: 日本電信電話株式会社
Priority date: 2018-03-05
Filing date: 2019-03-04
Publication date: 2019-09-12
Also published as: US20210042935A1; US11257224B2; JP6850751B2; JP2019153112A

Abstract

動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現する物体追跡装置、物体追跡方法、及びコンピュータプログラムを提供する。物体追跡装置１は、映像中の物体を追跡する装置であって、深層学習による識別器である深層学習識別器２と、深層学習識別器２による特徴量を含んだ映像のマルチチャネル特徴量を用いて、マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部３とを備える。

Description

物体追跡装置、物体追跡方法、及びコンピュータプログラム

　本発明は、映像中の物体を追跡する物体追跡装置、物体追跡方法、及びコンピュータプログラムに関する。

　従来、単一のRGBカメラで撮影された映像中の物体追跡技術として、深層学習による識別器を用いたものがある（例えば、非特許文献１参照）。深層学習識別器による手法では、単一の画像を深層学習識別器に入力することで、物体の種別を示すクラスラベルと、画像中の物体を示す矩形領域（物体の中心位置x,yおよび物体の矩形w,h）を出力する。深層学習識別器では、画像1枚あたり20ミリ秒程度といった高速な処理により画像中の物体領域を検出する。これにより、映像に対してもリアルタイムに物体検出と追跡を可能とする。例えば、単一のRGBカメラで撮影された映像中の物体について、「選手」や「ボール」といった物体のカテゴリを検出しながら追跡することが可能である。

"YOLO: Real-Time Object Detection"、［平成30年2月14日検索］、インターネット＜URL：https://pjreddie.com/darknet/yolo/＞

　上記の深層学習識別器による物体検出および物体追跡方法では、映像を構成する1枚ごとのフレームに対して物体検出・追跡処理を行っている。ゆえに、映像中の時系列を考慮した物体追跡を行っていない。その結果、スポーツのように物体の形や動きの変化が激しい動画や、物体の遮蔽が大きい動画に対して頑健でないという問題が発生する。

　本発明は、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現する物体追跡装置、物体追跡方法、及びコンピュータプログラムを提供することを目的とする。

　上記目的を達成するため、第１の態様に係る発明は、映像中の物体を追跡する物体追跡装置であって、深層学習による識別器である深層学習識別器と、前記深層学習識別器による特徴量を含んだ映像のマルチチャネル特徴量を用いて、前記マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部とを備えることを要旨とする。

　第２の態様に係る発明は、第１の態様に係る発明において、前記パーティクルフィルタ機能部が、前記マルチチャネル特徴量をもとに、シーンの状態により各パーティクルの尤度の重み付けを動的に変更することを要旨とする。

　第３の態様に係る発明は、第１又は第２の態様に係る発明において、前記パーティクルフィルタ機能部が、各物体について、前記深層学習識別器により検出された物体の矩形とラベルが一致し、かつ矩形内に存在するパーティクルのみを抽出し、各パーティクル周辺の画素領域を抽出し、それらの画素領域に対して特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成し、時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数とすることを要旨とする。

　第４の態様に係る発明は、第３の態様に係る発明において、前記パーティクルフィルタ機能部が、あるパーティクルが前記深層学習識別器の検出矩形内に存在する場合に、前記深層学習識別器が検出した矩形の信頼度をp、矩形中心から四隅までの距離をR、前記パーティクルまでの距離をr、時刻tにおける前記パーティクルの尤度をπ_t、前記深層学習識別器の寄与率を決めるパラメータをβとしたとき、下式により前記パーティクルの尤度を更新することを要旨とする。

　第５の態様に係る発明は、第４の態様に係る発明において、前記パーティクルフィルタ機能部が、前記深層学習識別器の検出結果の信頼度pが高いほど、また前記パーティクルの位置が矩形中心に近いほど、前記パーティクルが「より物体らしい」と評価することを要旨とする。

　第６の態様に係る発明は、第１から第５のいずれかの態様に係る発明において、更に、センサ部を備え、前記パーティクルフィルタ機能部が、前記深層学習識別器による物体検出結果に加え、前記センサ部からのセンサデータを前記パーティクルフィルタの尤度評価に組み合わせることを要旨とする。

　第７の態様に係る発明は、映像中の物体を追跡する物体追跡方法であって、映像中の物体を追跡する物体追跡装置が、深層学習による識別器である深層学習識別器が物体を検出する検出ステップと、前記深層学習識別器による物体検出結果をパーティクルフィルタの尤度評価に適用することで物体を追跡する追跡ステップとを実行することを要旨とする。

　第８の態様に係る発明は、コンピュータプログラムであって、第１乃至第６のいずれかの態様に係る各機能部としてコンピュータを機能させることを要旨とする。

　本発明によれば、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現する物体追跡装置、物体追跡方法、及びコンピュータプログラムを提供することが可能である。

本発明の実施の形態における物体追跡装置の概略機能ブロック図である。本発明の実施の形態における物体追跡装置が行う処理の流れを示すフローチャートである。本発明の実施の形態における各物体の尤度関数の更新方法を示す図である。本発明の実施の形態における各パーティクルの尤度の計算方法を示す図である。 YOLO単体による結果（YOLO追跡失敗時）との比較を示す図である。 YOLO単体による結果（YOLO誤検出時）との比較を示す図である。 YOLO単体による結果（オクルージョン発生時）との比較を示す図である。本発明の実施の形態における物体追跡装置の詳細機能ブロック図である。本発明の実施の形態におけるパーティクルフィルタ機能部が行う処理の流れを示す図である。本発明の実施の形態における各クラスの尤度関数の更新の詳細を示す図である。本発明の実施の形態におけるパーティクルフィルタの詳細を示す図である。

　以下、本発明の実施の形態について図面を参照して詳細に説明する。なお、以下の実施の形態は、この発明の技術的思想を具体化するための物体追跡装置を例示するものであり、装置の構成やデータの構成等は以下の実施の形態に限定されるものではない。

　＜概要＞
　図１は、本発明の実施の形態における物体追跡装置１の概略機能ブロック図である。この物体追跡装置１は、パーティクルフィルタと深層学習識別器２の統合による物体検出と追跡を実現する装置であって、図１に示すように、深層学習識別器２と、パーティクルフィルタ機能部３とを備える。

　深層学習識別器２は、深層学習による識別器である。深層学習識別器２には非特許文献１の技術（YOLO）を利用することができる。YOLO（You Only Look Once）は、7×7のグリッドで分割した局所領域毎に物体矩形と物体カテゴリを出力する手法である。

　パーティクルフィルタ機能部３は、パーティクルフィルタを用いて物体追跡を行う。パーティクルフィルタとは、シミュレーションに基づく複雑なモデルの推定法である。具体的には、パーティクルフィルタ機能部３は、深層学習識別器２による物体検出結果をパーティクルフィルタの尤度評価に適用することで物体を追跡する。深層学習識別器２により検出された物体領域の情報を重み付け和として粒子に付加することで、時系列データとして頑健に一般物体検出を行うようになっている。結果として、スポーツ等の物体の変動や遮蔽が大きい動画においても、物体検出と追跡を同時に行うことが可能となる。

　更に、物体追跡装置１は、環境に応じて深度センサ等のセンサ部４を備えてもよい。この場合、パーティクルフィルタ機能部３は、深層学習識別器２による物体検出結果に加え、センサ部４からのセンサデータをパーティクルフィルタの尤度評価に組み合わせる。これにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。

　なお、図１では、物体追跡装置１の要部のみを図示している。物体追跡装置１は、ビデオカメラ、記憶装置、表示装置、通信装置などを備えてもよい。

　＜処理の流れ＞
　図２は、本発明の実施の形態における物体追跡装置１が行う処理の流れを示すフローチャートである。以下、図２を用いて、物体追跡装置１の構成を処理の流れとともに説明する。

　起動後、物体追跡装置１は、ビデオカメラより毎フレーム映像をキャプチャする（Ｓ１）。

　次いで、キャプチャされた各画像を深層学習識別器２に入力することにより、各画像中の物体を示す矩形領域と、物体カテゴリ（ラベル）を識別する（Ｓ２）。深層学習識別器２には非特許文献１の技術を利用した。

　次いで、前記の矩形領域および物体カテゴリの情報に加え、任意で環境に応じて深度センサ等ほかのセンサデータを入力し（Ｓ３）、各物体を表すパーティクルフィルタの尤度関数を更新する（Ｓ４）。

　次いで、更新された尤度関数を元に各パーティクルの尤度を更新する（Ｓ５）。尤度は物体らしさを表し、尤度が高いパーティクルほど、パーティクル周辺の画素が目標とする物体が表す画素に近いことを表す。

　次いで、更新された尤度をもとに、パーティクルのリサンプリングを行う（Ｓ６）。ここでは、ランダムな閾値をもとに尤度の低いパーティクルを淘汰し、尤度の高いパーティクルに置き換える。

　次いで、各パーティクルの位置を尤度に応じて重み付け平均することにより、現在の物***置を観測する（Ｓ７）。また、前フレームとの位置の差分をとることにより、現在の物体速度を観測する（Ｓ７）。

　次いで、現在の物体速度に応じて各パーティクルの位置を更新する（Ｓ８）。ここでは、物体速度に一定の閾値を設ける。物体速度の絶対値が閾値以下ならば、現在位置を中心とした同心円状の範囲内で、ランダムにパーティクル位置を移動させる。物体速度の絶対値が閾値より大きければ、その速度ベクトルを基準としてパーティクル位置を移動させる。

　以上の処理を繰り返す。これにより、各フレームにおいて、パーティクルが追跡する各物体の重心位置、物体領域、ラベル情報を出力する。

　＜パーティクルの生成＞
　深層学習識別器２により物体が検出されたとき、以下の条件を満たす場合、新しい物体が検出されたとみなし、深層学習識別器２の検出矩形の中心に物体を表す新しいパーティクル群を生成する。

　条件：前フレームでパーティクルフィルタにより追跡されている全ての物体について、現フレームで深層学習識別器２により検出されたどの矩形とも物体領域がオーバーラップしていない。

　＜パーティクルの消滅＞
　パーティクルフィルタにより追跡を行っていた物体について、以下の条件１、２をすべて満たす場合、追跡していた物体は消滅したとみなす。

　条件１：同じラベルを持つ2つの追跡物体について、尤度関数と中心間距離に関する指標を計算したとき、設定した閾値以下ならば両者は同じ物体を追跡しているとみなし、片方の物体のパーティクルを消滅させる。

　条件２：パーティクルによる追跡物体の領域が、深層学習識別器２の検出矩形とオーバーラップしていない時間（フレーム数）をカウントする。カウント数が設定した閾値を超えたら目標の物体は消失したとみなし、パーティクルを消滅させる。

　＜各物体の尤度関数の更新方法＞
　図３は、本発明の実施の形態における各物体の尤度関数の更新方法を示す図である。最初に、画像１００内の各物体について、深層学習識別器２により検出された物体の矩形１０１とラベルが一致し、かつ矩形１０１内に存在するパーティクル１０２のみを抽出する。その後、各パーティクル１０２周辺の画素領域１０３を抽出し、それらの画素領域１０３に対して色や輪郭などの特徴量（マルチチャネル特徴量）を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成する。時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数とする。ここで、図３中の重みαはユーザが指定可能なパラメータである。

　本発明の実施の形態によれば、マルチチャネル特徴量を用いて物体を追跡することが可能である。マルチチャネル特徴量については後に詳しく説明する。

　＜各パーティクルの尤度の更新方法＞
　図４は、本発明の実施の形態における各パーティクルの尤度の計算方法を示す図である。あるパーティクル１０２が深層学習識別器２により検出された矩形１０１内に存在する場合を考える。いま、深層学習識別器２が検出した矩形１０１の信頼度をp、矩形中心１０４から四隅までの距離をR、パーティクル１０２までの距離をr、時刻tにおけるパーティクル１０２の尤度をπ_tとしたとき、下式によりパーティクル１０２の尤度を更新する。

　ここで、βは深層学習識別器２の寄与率を決める、ユーザが指定可能なパラメータである。

　上式は、深層学習識別器２の検出結果の信頼度pが高いほど、またパーティクル１０２の位置が矩形中心１０４に近いほど、パーティクル１０２が「より物体らしい」と評価されることを示す。これにより、深層学習識別化がパーティクルフィルタの物体追跡性能を補うことが期待される。

　以上のように、本発明の実施の形態における物体追跡装置１では、従来の課題を解決するため、パーティクルフィルタと呼ばれる状態遷移モデルの尤度評価に深層学習識別器２の結果を適用することにより、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現することが可能となる。本手法によれば、物体のカテゴリや物体数の誤検出を低減しつつ、物体検出と追跡を同時に行えることを確認した。

　また、深層学習識別器２に加え、環境に応じて深度センサ等の様々なセンサの値をパーティクルフィルタの尤度評価に組み合わせることにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。本手法によれば、更に物体のカテゴリや物体数の誤検出を低減しつつ、物体検出と追跡を同時に行えることを確認した。

　＜マルチチャネル特徴量＞
　マルチチャネル特徴量とは、一般的には、「画像自身が持つ輝度や色の特徴に関する情報を複数組み合わせることで、単一の特徴よりも多くの情報量を持つ特徴量」である。物体追跡においては、「物体の色＋輪郭＋深度＋深層学習結果に関する情報を用いて追跡を行う」場合など、画像自身の持つ特徴を複数組み合わせる場合には、その組み合わせに応じて物体に関する情報量が増え、より精度の高い追跡を行うことができる。この場合が“マルチチャネルの情報”になる。一方、「物体の色に関する情報だけを用いて追跡を行う」「物体の輪郭に関する情報だけを用いて追跡を行う」「物体の深度に関する情報だけを用いて追跡を行う」といった場合は、単一の情報だけを用いて追跡を行うことになり、すべて“シングルチャネルの情報”になる。

　本発明の実施の形態においては、パーティクルフィルタの尤度関数、および尤度の計算がマルチチャネルの情報となっている。例えば、前述の「画素領域１０３に対して色や輪郭などの特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成する」という記述については、「色＋輪郭」といった複数の特徴量が一つのヒストグラムに統合されることで、２チャネルの尤度がパーティクルに反映されることとなる。さらに、前述の「パーティクルフィルタと呼ばれる状態遷移モデルの尤度評価に深層学習識別器２の結果を適用する」という記述については、前述の「色＋輪郭」に「深層学習の特徴」が組み合わされ、３チャネルの情報量をパーティクルが持つこととなる。

　本発明の実施の形態では、上記の３チャネルの情報に加え、その後の「環境に応じて深度センサ等の様々なセンサの値をパーティクルフィルタの尤度評価に組み合わせることにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。」という記述にあるように、さらに「深度」や他のセンサ（例えば「音」「対象の温度」など）の情報を加え、４チャネル以上の情報量をパーティクルに付加できる余地が残されている。このように、本発明の実施の形態によれば、パーティクルの持つ情報はマルチチャネルの情報となり、複数の特徴に関する情報をパーティクルに持たせることで、より頑強な物体の追跡を行うことが可能になる。

　＜YOLO単体による結果との比較＞
　図５～図７は、YOLO単体による結果との比較を示す図である。ここでは、白い柔道着の選手Ａと青い柔道着の選手Ｂが対戦している映像を例示している。細線は、YOLO単体での結果を示し、太線は、本発明の実施の形態（YOLO＋パーティクルフィルタ）での結果を示している。

　図５は、YOLO追跡失敗時を示している。図５に示すように、本発明の実施の形態によれば、YOLOで検出していない青い柔道着の選手Ｂも追跡可能である。

　図６は、YOLO誤検出時を示している。図６に示すように、本発明の実施の形態によれば、YOLOで白と誤認された青い柔道着の選手Ｂを正しく判定することが可能である。

　図７は、オクルージョン発生時を示している。図７に示すように、本発明の実施の形態によれば、カメラからほぼ見えない青い柔道着の選手Ｂの位置を推定することが可能である。

　以上のように、本発明の実施の形態における物体追跡装置１では、ビデオ情報とLiDAR情報から、より頑強に人物位置を抽出するために、パーティクルフィルタを導入している。そのため、YOLOによる追跡失敗時や、ラベリング誤検出時に、物体追跡を継続することが可能である。また、人物のオクルージョン発生時においても、物体追跡を継続することが可能である。更に、YOLOのBounding-Boxに比べ、人物の重心位置を精確に特定することが可能である。

　＜パーティクルフィルタ機能部の組み込み位置＞
　図８は、本発明の実施の形態における物体追跡装置１０の詳細機能ブロック図である。図８に示すように、パーティクルフィルタ機能部３０は、ビデオ情報からの検出機能群２０、及びLiDAR情報からの抽出機能群４０の後段に組み込まれる。

　ビデオ情報からの検出機能群２０は、ビデオ情報から人物位置を検出する機能群であって、Tiny-YOLO（物体認識部）２１と、同ラベルBoudingBox重なり解消機能部２２と、座標系変換機能部２３とを備える。LiDAR情報からの抽出機能群４０は、LiDAR情報から人物位置を抽出する機能群であって、人物抽出機能部４１と、変換行列ファイル４２と、座標系変換機能部４３と、LiDAR補間機能部４４とを備える。デプスマップ生成機能部５０は、LiDAR情報からの抽出機能群４０の抽出結果に基づいてデプスマップを生成する。

　その結果、パーティクルフィルタ機能部３０には、ビデオ情報からの検出機能群２０からBoundingBox&ラベル情報が入力されるとともに（入力1）、デプスマップ生成機能部５０からデプスマップが入力される（入力2）。また、パーティクルフィルタ機能部３０からは、物体の重心位置，BoundingBox&ラベル情報が出力される。

　＜パーティクルフィルタ機能部：処理の流れ＞
　図９は、本発明の実施の形態におけるパーティクルフィルタ機能部３０が行う処理の流れを示す図である。図９に示すように、パーティクルフィルタ機能部３０は、BoundingBox&ラベル情報、デプスマップが入力されると、各クラスの尤度関数を更新し（Ｓ１０）、パーティクルフィルタを用いた物体検出と追跡を行い（Ｓ２０）、物体の重心位置，BoundingBox&ラベル情報を出力する。

　図１０は、各クラスの尤度関数の更新（Ｓ１０）の詳細を示す図である。図１０に示すように、1フレーム目のみ、YOLOのBoxを基準に、パーティクル、尤度関数H(1)を初期化する（Ｓ１１）。以降、各時刻tで、YOLOのBox内にあるパーティクルを抽出する（Ｓ１２）。ここで、YOLOのBoxが無い場合又はBox内にパーティクルが1個も無い場合（Ｓ１３）、尤度関数を更新しない（H(t)=H(t-1)）。一方、Box内にパーティクルが存在する場合（Ｓ１４）、抽出したパーティクルを用い尤度関数H′(t)を計算し、前フレームの尤度関数と混合し、現フレームの尤度関数とおく（H(t)=αH′(t)+{1-αH(t-1)}）。最後に、物体数のフィルタリングを行う（Ｓ１５）。このフィルタリングでは、似通った物体は同じ物体とみなして統合し、またロストした物体は除去する。

　図１１は、パーティクルフィルタ（Ｓ２０）の詳細を示す図である。図１１に示すように、まず、各パーティクルの尤度を更新する（Ｓ２１）。具体的には、各パーティクル近辺の領域でヒストグラムを作り、尤度関数との距離を計算する。また、尤度関数との距離をパーティクルの尤度（物体らしさ）とする。更に、ラベルが対応するYOLOのBox内にパーティクルが入っていたら、尤度をさらに上げる。次いで、リサンプリングを行う（Ｓ２２）。具体的には、尤度の低いパーティクルを淘汰（尤度の高いパーティクルで置換）する。次いで、観測を行う（Ｓ２３）。具体的には、各パーティクルの重み付け平均により、重心とBounding-Boxを計算する。最後に、位置予測を行う（Ｓ２４）。具体的には、各パーティクルの位置およびヒストグラムの計算領域をランダムに変更する。

　＜まとめ＞
　以上のように、本発明の実施の形態における物体追跡装置１は、映像中の物体を追跡する装置であって、深層学習による識別器である深層学習識別器２と、深層学習識別器２による特徴量を含んだ映像のマルチチャネル特徴量を用いて、マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部３とを備える。これにより、映像中の時系列を考慮した物体追跡を行うことができる結果、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現することが可能となる。

　具体的には、物体追跡装置１は、以下の（ａ）（ｂ）（ｃ）の特徴を備える。

　まず、（ａ）深層学習識別器による特徴量を用いる。すなわち、物体検出結果（ラベルや矩形領域）だけでなく、深層学習の中間層から得られる結果なども含めた、深層学習を用いて得られる特徴量全般を取り扱う。

　また、（ｂ）深層学習の特徴量に他の特徴量を組み合わせたマルチチャネル特徴量を用いる。すなわち、深層学習の情報だけでなく、色や輪郭の情報、深度センサによるデプス情報など、映像にオーバーレイされる各種特徴量についても統合的に取り扱うことができる物体追跡機能を備える。

　更に、（ｃ）「パーティクルと深層学習の位置情報の距離関係を尤度に反映する」という制約が存在する。すなわち、深層学習とパーティクルフィルタの組み合わせ方に関して具体化したものであると言える。

　ここで、パーティクルフィルタ機能部３は、マルチチャネル特徴量をもとに、シーンの状態により各パーティクルの尤度の重み付けを動的に変更してもよい。すなわち、システムを使用するユーザ自身が、マルチチャネル特徴量に関する各チャネルの寄与の割合を動的に変更することが可能である。

　上記したように、深層学習を含んだマルチチャネル特徴量を統合的に取り扱える物体追跡機能を備えた上で、マルチチャネルの特徴量を重み付けして統合する。マルチチャネル特徴量の重み付けについては、パーティクルフィルタ内の尤度関数および尤度の更新、リサンプリングによって自動的に実現されている。

　また、パーティクルフィルタ機能部３は、各物体について、深層学習識別器２により検出された物体の矩形とラベルが一致し、かつ矩形内に存在するパーティクルのみを抽出し、各パーティクル周辺の画素領域を抽出し、それらの画素領域に対して特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成し、時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数としてもよい。これにより、深層学習識別器２による物体検出結果を用いて、各物体の尤度関数を更新することが可能である。

　また、パーティクルフィルタ機能部３は、あるパーティクルが深層学習識別器２の検出矩形内に存在する場合に、深層学習識別器２が検出した矩形の信頼度をp、矩形中心から四隅までの距離をR、パーティクルまでの距離をr、時刻tにおけるパーティクルの尤度をπ_t、深層学習識別器２の寄与率を決めるパラメータをβとしたとき、下式によりパーティクルの尤度を更新してもよい。これにより、深層学習識別器２による物体検出結果を用いて、各パーティクルの尤度を更新することが可能である。

　また、パーティクルフィルタ機能部３は、深層学習識別器２の検出結果の信頼度pが高いほど、またパーティクルの位置が矩形中心に近いほど、パーティクルが「より物体らしい」と評価してもよい。これにより、深層学習識別化がパーティクルフィルタの物体追跡性能を補うことが期待される。

　更に、センサ部４を備え、パーティクルフィルタ機能部３は、深層学習識別器２による物体検出結果に加え、センサ部４からのセンサデータをパーティクルフィルタの尤度評価に組み合わせてもよい。これにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。

　以上説明したように、従来技術では、複数の物体があるときに一方の遮蔽が大きい場合や動きの激しい物体の追跡に失敗していた。本発明の実施の形態によれば、複数画像フレームのデータに対してパーティクルフィルタの尤度に基づいて物***置を推定することで、追跡の精度を向上させることが可能である。

　なお、本発明は、物体追跡装置１として実現することができるだけでなく、物体追跡装置１が備える特徴的な各機能部を各ステップとする物体追跡方法として実現したり、物体追跡装置１が備える特徴的な各機能部としてコンピュータを機能させるためのコンピュータプログラムとして実現したりすることもできる。そして、そのようなコンピュータプログラムは、ＣＤ－ＲＯＭ等の記録媒体やインターネット等の伝送媒体を介して配信することができるのはいうまでもない。

　１…物体追跡装置
　２…深層学習識別器
　３…パーティクルフィルタ機能部
　４…センサ部
　１０…物体追跡装置
　２０…ビデオ情報からの検出機能群
　３０…パーティクルフィルタ機能部
　４０…LiDAR情報からの抽出機能群
　５０…デプスマップ生成機能部

Claims

　映像中の物体を追跡する物体追跡装置であって、
　深層学習による識別器である深層学習識別器と、
　前記深層学習識別器による特徴量を含んだ映像のマルチチャネル特徴量を用いて、前記マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部と
　を備えることを特徴とする物体追跡装置。
　前記パーティクルフィルタ機能部は、前記マルチチャネル特徴量をもとに、シーンの状態により各パーティクルの尤度の重み付けを動的に変更することを特徴とする請求項１に記載の物体追跡装置。
　前記パーティクルフィルタ機能部は、各物体について、前記深層学習識別器により検出された物体の矩形とラベルが一致し、かつ矩形内に存在するパーティクルのみを抽出し、各パーティクル周辺の画素領域を抽出し、それらの画素領域に対して特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成し、時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数とすることを特徴とする請求項１又は２に記載の物体追跡装置。
　前記パーティクルフィルタ機能部は、あるパーティクルが前記深層学習識別器の検出矩形内に存在する場合に、前記深層学習識別器が検出した矩形の信頼度をp、矩形中心から四隅までの距離をR、前記パーティクルまでの距離をr、時刻tにおける前記パーティクルの尤度をπ_t、前記深層学習識別器の寄与率を決めるパラメータをβとしたとき、下式により前記パーティクルの尤度を更新することを特徴とする請求項３に記載の物体追跡装置。
　前記パーティクルフィルタ機能部は、前記深層学習識別器の検出結果の信頼度pが高いほど、また前記パーティクルの位置が矩形中心に近いほど、前記パーティクルが「より物体らしい」と評価することを特徴とする請求項４に記載の物体追跡装置。
　更に、センサ部を備え、
　前記パーティクルフィルタ機能部は、前記深層学習識別器による物体検出結果に加え、前記センサ部からのセンサデータを前記パーティクルフィルタの尤度評価に組み合わせることを特徴とする請求項１から５のいずれか１項に記載の物体追跡装置。
　映像中の物体を追跡する物体追跡方法であって、
　映像中の物体を追跡する物体追跡装置が、
　深層学習による識別器である深層学習識別器が物体を検出する検出ステップと、
　前記深層学習識別器による特徴量を含んだ映像のマルチチャネル特徴量を用いて、前記マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡する追跡ステップと
　を実行することを特徴とする物体追跡方法。
　請求項１乃至６のいずれか１項に記載した各機能部としてコンピュータを機能させることを特徴とするコンピュータプログラム。