JP6850751B2 - 物体追跡装置、物体追跡方法、及びコンピュータプログラム - Google Patents
物体追跡装置、物体追跡方法、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP6850751B2 JP6850751B2 JP2018038232A JP2018038232A JP6850751B2 JP 6850751 B2 JP6850751 B2 JP 6850751B2 JP 2018038232 A JP2018038232 A JP 2018038232A JP 2018038232 A JP2018038232 A JP 2018038232A JP 6850751 B2 JP6850751 B2 JP 6850751B2
- Authority
- JP
- Japan
- Prior art keywords
- deep learning
- likelihood
- particle filter
- object tracking
- particle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20072—Graph-based image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30221—Sports video; Sports image
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Description
本発明は、映像中の物体を追跡する物体追跡装置、物体追跡方法、及びコンピュータプログラムに関する。
従来、単一のRGBカメラで撮影された映像中の物体追跡技術として、深層学習による識別器を用いたものがある(例えば、非特許文献1参照)。深層学習識別器による手法では、単一の画像を深層学習識別器に入力することで、物体の種別を示すクラスラベルと、画像中の物体を示す矩形領域(物体の中心位置x,yおよび物体の矩形w,h)を出力する。深層学習識別器では、画像1枚あたり20ミリ秒程度といった高速な処理により画像中の物体領域を検出する。これにより、映像に対してもリアルタイムに物体検出と追跡を可能とする。例えば、単一のRGBカメラで撮影された映像中の物体について、「選手」や「ボール」といった物体のカテゴリを検出しながら追跡することが可能である。
"YOLO: Real-Time Object Detection"、[平成30年2月14日検索]、インターネット<URL:https://pjreddie.com/darknet/yolo/>
上記の深層学習識別器による物体検出および物体追跡方法では、映像を構成する1枚ごとのフレームに対して物体検出・追跡処理を行っている。ゆえに、映像中の時系列を考慮した物体追跡を行っていない。その結果、スポーツのように物体の形や動きの変化が激しい動画や、物体の遮蔽が大きい動画に対して頑健でないという問題が発生する。
本発明は、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現する物体追跡装置、物体追跡方法、及びコンピュータプログラムを提供することを目的とする。
上記目的を達成するため、第1の態様に係る発明は、映像中の物体を追跡する物体追跡装置であって、深層学習による識別器である深層学習識別器と、前記深層学習識別器による特徴量を含んだ映像のマルチチャネル特徴量を用いて、前記マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部とを備えることを要旨とする。
第2の態様に係る発明は、第1の態様に係る発明において、前記パーティクルフィルタ機能部が、前記マルチチャネル特徴量をもとに、シーンの状態により各パーティクルの尤度の重み付けを動的に変更することを要旨とする。
第3の態様に係る発明は、第1又は第2の態様に係る発明において、前記パーティクルフィルタ機能部が、各物体について、前記深層学習識別器により検出された物体の矩形とラベルが一致し、かつ矩形内に存在するパーティクルのみを抽出し、各パーティクル周辺の画素領域を抽出し、それらの画素領域に対して特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成し、時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数とすることを要旨とする。
第4の態様に係る発明は、第3の態様に係る発明において、前記パーティクルフィルタ機能部が、あるパーティクルが前記深層学習識別器の検出矩形内に存在する場合に、前記深層学習識別器が検出した矩形の信頼度をp、矩形中心から四隅までの距離をR、前記パーティクルまでの距離をr、時刻tにおける前記パーティクルの尤度をπt、前記深層学習識別器の寄与率を決めるパラメータをβとしたとき、下式により前記パーティクルの尤度を更新することを要旨とする。
第5の態様に係る発明は、第4の態様に係る発明において、前記パーティクルフィルタ機能部が、前記深層学習識別器の検出結果の信頼度pが高いほど、また前記パーティクルの位置が矩形中心に近いほど、前記パーティクルが「より物体らしい」と評価することを要旨とする。
第6の態様に係る発明は、第1から第5のいずれかの態様に係る発明において、更に、センサ部を備え、前記パーティクルフィルタ機能部が、前記深層学習識別器による物体検出結果に加え、前記センサ部からのセンサデータを前記パーティクルフィルタの尤度評価に組み合わせることを要旨とする。
第7の態様に係る発明は、映像中の物体を追跡する物体追跡方法であって、映像中の物体を追跡する物体追跡装置が、深層学習による識別器である深層学習識別器が物体を検出する検出ステップと、前記深層学習識別器による物体検出結果をパーティクルフィルタの尤度評価に適用することで物体を追跡する追跡ステップとを実行することを要旨とする。
第8の態様に係る発明は、コンピュータプログラムであって、第1乃至第6のいずれかの態様に係る各機能部としてコンピュータを機能させることを要旨とする。
本発明によれば、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現する物体追跡装置、物体追跡方法、及びコンピュータプログラムを提供することが可能である。
以下、本発明の実施の形態について図面を参照して詳細に説明する。なお、以下の実施の形態は、この発明の技術的思想を具体化するための物体追跡装置を例示するものであり、装置の構成やデータの構成等は以下の実施の形態に限定されるものではない。
<概要>
図1は、本発明の実施の形態における物体追跡装置1の概略機能ブロック図である。この物体追跡装置1は、パーティクルフィルタと深層学習識別器2の統合による物体検出と追跡を実現する装置であって、図1に示すように、深層学習識別器2と、パーティクルフィルタ機能部3とを備える。
図1は、本発明の実施の形態における物体追跡装置1の概略機能ブロック図である。この物体追跡装置1は、パーティクルフィルタと深層学習識別器2の統合による物体検出と追跡を実現する装置であって、図1に示すように、深層学習識別器2と、パーティクルフィルタ機能部3とを備える。
深層学習識別器2は、深層学習による識別器である。深層学習識別器2には非特許文献1の技術(YOLO)を利用することができる。YOLO(You Only Look Once)は、7×7のグリッドで分割した局所領域毎に物体矩形と物体カテゴリを出力する手法である。
パーティクルフィルタ機能部3は、パーティクルフィルタを用いて物体追跡を行う。パーティクルフィルタとは、シミュレーションに基づく複雑なモデルの推定法である。具体的には、パーティクルフィルタ機能部3は、深層学習識別器2による物体検出結果をパーティクルフィルタの尤度評価に適用することで物体を追跡する。深層学習識別器2により検出された物体領域の情報を重み付け和として粒子に付加することで、時系列データとして頑健に一般物体検出を行うようになっている。結果として、スポーツ等の物体の変動や遮蔽が大きい動画においても、物体検出と追跡を同時に行うことが可能となる。
更に、物体追跡装置1は、環境に応じて深度センサ等のセンサ部4を備えてもよい。この場合、パーティクルフィルタ機能部3は、深層学習識別器2による物体検出結果に加え、センサ部4からのセンサデータをパーティクルフィルタの尤度評価に組み合わせる。これにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。
なお、図1では、物体追跡装置1の要部のみを図示している。物体追跡装置1は、ビデオカメラ、記憶装置、表示装置、通信装置などを備えてもよい。
<処理の流れ>
図2は、本発明の実施の形態における物体追跡装置1が行う処理の流れを示すフローチャートである。以下、図2を用いて、物体追跡装置1の構成を処理の流れとともに説明する。
図2は、本発明の実施の形態における物体追跡装置1が行う処理の流れを示すフローチャートである。以下、図2を用いて、物体追跡装置1の構成を処理の流れとともに説明する。
起動後、物体追跡装置1は、ビデオカメラより毎フレーム映像をキャプチャする(S1)。
次いで、キャプチャされた各画像を深層学習識別器2に入力することにより、各画像中の物体を示す矩形領域と、物体カテゴリ(ラベル)を識別する(S2)。深層学習識別器2には非特許文献1の技術を利用した。
次いで、前記の矩形領域および物体カテゴリの情報に加え、任意で環境に応じて深度センサ等ほかのセンサデータを入力し(S3)、各物体を表すパーティクルフィルタの尤度関数を更新する(S4)。
次いで、更新された尤度関数を元に各パーティクルの尤度を更新する(S5)。尤度は物体らしさを表し、尤度が高いパーティクルほど、パーティクル周辺の画素が目標とする物体が表す画素に近いことを表す。
次いで、更新された尤度をもとに、パーティクルのリサンプリングを行う(S6)。ここでは、ランダムな閾値をもとに尤度の低いパーティクルを淘汰し、尤度の高いパーティクルに置き換える。
次いで、各パーティクルの位置を尤度に応じて重み付け平均することにより、現在の物***置を観測する(S7)。また、前フレームとの位置の差分をとることにより、現在の物体速度を観測する(S7)。
次いで、現在の物体速度に応じて各パーティクルの位置を更新する(S8)。ここでは、物体速度に一定の閾値を設ける。物体速度の絶対値が閾値以下ならば、現在位置を中心とした同心円状の範囲内で、ランダムにパーティクル位置を移動させる。物体速度の絶対値が閾値より大きければ、その速度ベクトルを基準としてパーティクル位置を移動させる。
以上の処理を繰り返す。これにより、各フレームにおいて、パーティクルが追跡する各物体の重心位置、物体領域、ラベル情報を出力する。
<パーティクルの生成>
深層学習識別器2により物体が検出されたとき、以下の条件を満たす場合、新しい物体が検出されたとみなし、深層学習識別器2の検出矩形の中心に物体を表す新しいパーティクル群を生成する。
深層学習識別器2により物体が検出されたとき、以下の条件を満たす場合、新しい物体が検出されたとみなし、深層学習識別器2の検出矩形の中心に物体を表す新しいパーティクル群を生成する。
条件:前フレームでパーティクルフィルタにより追跡されている全ての物体について、現フレームで深層学習識別器2により検出されたどの矩形とも物体領域がオーバーラップしていない。
<パーティクルの消滅>
パーティクルフィルタにより追跡を行っていた物体について、以下の条件1、2をすべて満たす場合、追跡していた物体は消滅したとみなす。
パーティクルフィルタにより追跡を行っていた物体について、以下の条件1、2をすべて満たす場合、追跡していた物体は消滅したとみなす。
条件1:同じラベルを持つ2つの追跡物体について、尤度関数と中心間距離に関する指標を計算したとき、設定した閾値以下ならば両者は同じ物体を追跡しているとみなし、片方の物体のパーティクルを消滅させる。
条件2:パーティクルによる追跡物体の領域が、深層学習識別器2の検出矩形とオーバーラップしていない時間(フレーム数)をカウントする。カウント数が設定した閾値を超えたら目標の物体は消失したとみなし、パーティクルを消滅させる。
<各物体の尤度関数の更新方法>
図3は、本発明の実施の形態における各物体の尤度関数の更新方法を示す図である。最初に、画像100内の各物体について、深層学習識別器2により検出された物体の矩形101とラベルが一致し、かつ矩形101内に存在するパーティクル102のみを抽出する。その後、各パーティクル102周辺の画素領域103を抽出し、それらの画素領域103に対して色や輪郭などの特徴量(マルチチャネル特徴量)を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成する。時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数とする。ここで、図3中の重みαはユーザが指定可能なパラメータである。
図3は、本発明の実施の形態における各物体の尤度関数の更新方法を示す図である。最初に、画像100内の各物体について、深層学習識別器2により検出された物体の矩形101とラベルが一致し、かつ矩形101内に存在するパーティクル102のみを抽出する。その後、各パーティクル102周辺の画素領域103を抽出し、それらの画素領域103に対して色や輪郭などの特徴量(マルチチャネル特徴量)を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成する。時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数とする。ここで、図3中の重みαはユーザが指定可能なパラメータである。
本発明の実施の形態によれば、マルチチャネル特徴量を用いて物体を追跡することが可能である。マルチチャネル特徴量については後に詳しく説明する。
<各パーティクルの尤度の更新方法>
図4は、本発明の実施の形態における各パーティクルの尤度の計算方法を示す図である。あるパーティクル102が深層学習識別器2により検出された矩形101内に存在する場合を考える。いま、深層学習識別器2が検出した矩形101の信頼度をp、矩形中心104から四隅までの距離をR、パーティクル102までの距離をr、時刻tにおけるパーティクル102の尤度をπtとしたとき、下式によりパーティクル102の尤度を更新する。
図4は、本発明の実施の形態における各パーティクルの尤度の計算方法を示す図である。あるパーティクル102が深層学習識別器2により検出された矩形101内に存在する場合を考える。いま、深層学習識別器2が検出した矩形101の信頼度をp、矩形中心104から四隅までの距離をR、パーティクル102までの距離をr、時刻tにおけるパーティクル102の尤度をπtとしたとき、下式によりパーティクル102の尤度を更新する。
ここで、βは深層学習識別器2の寄与率を決める、ユーザが指定可能なパラメータである。
上式は、深層学習識別器2の検出結果の信頼度pが高いほど、またパーティクル102の位置が矩形中心104に近いほど、パーティクル102が「より物体らしい」と評価されることを示す。これにより、深層学習識別化がパーティクルフィルタの物体追跡性能を補うことが期待される。
以上のように、本発明の実施の形態における物体追跡装置1では、従来の課題を解決するため、パーティクルフィルタと呼ばれる状態遷移モデルの尤度評価に深層学習識別器2の結果を適用することにより、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現することが可能となる。本手法によれば、物体のカテゴリや物体数の誤検出を低減しつつ、物体検出と追跡を同時に行えることを確認した。
また、深層学習識別器2に加え、環境に応じて深度センサ等の様々なセンサの値をパーティクルフィルタの尤度評価に組み合わせることにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。本手法によれば、更に物体のカテゴリや物体数の誤検出を低減しつつ、物体検出と追跡を同時に行えることを確認した。
<マルチチャネル特徴量>
マルチチャネル特徴量とは、一般的には、「画像自身が持つ輝度や色の特徴に関する情報を複数組み合わせることで、単一の特徴よりも多くの情報量を持つ特徴量」である。物体追跡においては、「物体の色+輪郭+深度+深層学習結果に関する情報を用いて追跡を行う」場合など、画像自身の持つ特徴を複数組み合わせる場合には、その組み合わせに応じて物体に関する情報量が増え、より精度の高い追跡を行うことができる。この場合が“マルチチャネルの情報”になる。一方、「物体の色に関する情報だけを用いて追跡を行う」「物体の輪郭に関する情報だけを用いて追跡を行う」「物体の深度に関する情報だけを用いて追跡を行う」といった場合は、単一の情報だけを用いて追跡を行うことになり、すべて“シングルチャネルの情報”になる。
マルチチャネル特徴量とは、一般的には、「画像自身が持つ輝度や色の特徴に関する情報を複数組み合わせることで、単一の特徴よりも多くの情報量を持つ特徴量」である。物体追跡においては、「物体の色+輪郭+深度+深層学習結果に関する情報を用いて追跡を行う」場合など、画像自身の持つ特徴を複数組み合わせる場合には、その組み合わせに応じて物体に関する情報量が増え、より精度の高い追跡を行うことができる。この場合が“マルチチャネルの情報”になる。一方、「物体の色に関する情報だけを用いて追跡を行う」「物体の輪郭に関する情報だけを用いて追跡を行う」「物体の深度に関する情報だけを用いて追跡を行う」といった場合は、単一の情報だけを用いて追跡を行うことになり、すべて“シングルチャネルの情報”になる。
本発明の実施の形態においては、パーティクルフィルタの尤度関数、および尤度の計算がマルチチャネルの情報となっている。例えば、前述の「画素領域103に対して色や輪郭などの特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成する」という記述については、「色+輪郭」といった複数の特徴量が一つのヒストグラムに統合されることで、2チャネルの尤度がパーティクルに反映されることとなる。さらに、前述の「パーティクルフィルタと呼ばれる状態遷移モデルの尤度評価に深層学習識別器2の結果を適用する」という記述については、前述の「色+輪郭」に「深層学習の特徴」が組み合わされ、3チャネルの情報量をパーティクルが持つこととなる。
本発明の実施の形態では、上記の3チャネルの情報に加え、その後の「環境に応じて深度センサ等の様々なセンサの値をパーティクルフィルタの尤度評価に組み合わせることにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。」という記述にあるように、さらに「深度」や他のセンサ(例えば「音」「対象の温度」など)の情報を加え、4チャネル以上の情報量をパーティクルに付加できる余地が残されている。このように、本発明の実施の形態によれば、パーティクルの持つ情報はマルチチャネルの情報となり、複数の特徴に関する情報をパーティクルに持たせることで、より頑強な物体の追跡を行うことが可能になる。
<YOLO単体による結果との比較>
図5〜図7は、YOLO単体による結果との比較を示す図である。ここでは、白い柔道着の選手Aと青い柔道着の選手Bが対戦している映像を例示している。細線は、YOLO単体での結果を示し、太線は、本発明の実施の形態(YOLO+パーティクルフィルタ)での結果を示している。
図5〜図7は、YOLO単体による結果との比較を示す図である。ここでは、白い柔道着の選手Aと青い柔道着の選手Bが対戦している映像を例示している。細線は、YOLO単体での結果を示し、太線は、本発明の実施の形態(YOLO+パーティクルフィルタ)での結果を示している。
図5は、YOLO追跡失敗時を示している。図5に示すように、本発明の実施の形態によれば、YOLOで検出していない青い柔道着の選手Bも追跡可能である。
図6は、YOLO誤検出時を示している。図6に示すように、本発明の実施の形態によれば、YOLOで白と誤認された青い柔道着の選手Bを正しく判定することが可能である。
図7は、オクルージョン発生時を示している。図7に示すように、本発明の実施の形態によれば、カメラからほぼ見えない青い柔道着の選手Bの位置を推定することが可能である。
以上のように、本発明の実施の形態における物体追跡装置1では、ビデオ情報とLiDAR情報から、より頑強に人物位置を抽出するために、パーティクルフィルタを導入している。そのため、YOLOによる追跡失敗時や、ラベリング誤検出時に、物体追跡を継続することが可能である。また、人物のオクルージョン発生時においても、物体追跡を継続することが可能である。更に、YOLOのBounding-Boxに比べ、人物の重心位置を精確に特定することが可能である。
<パーティクルフィルタ機能部の組み込み位置>
図8は、本発明の実施の形態における物体追跡装置10の詳細機能ブロック図である。図8に示すように、パーティクルフィルタ機能部30は、ビデオ情報からの検出機能群20、及びLiDAR情報からの抽出機能群40の後段に組み込まれる。
図8は、本発明の実施の形態における物体追跡装置10の詳細機能ブロック図である。図8に示すように、パーティクルフィルタ機能部30は、ビデオ情報からの検出機能群20、及びLiDAR情報からの抽出機能群40の後段に組み込まれる。
ビデオ情報からの検出機能群20は、ビデオ情報から人物位置を検出する機能群であって、Tiny-YOLO(物体認識部)21と、同ラベルBoudingBox重なり解消機能部22と、座標系変換機能部23とを備える。LiDAR情報からの抽出機能群40は、LiDAR情報から人物位置を抽出する機能群であって、人物抽出機能部41と、変換行列ファイル42と、座標系変換機能部43と、LiDAR補間機能部44とを備える。デプスマップ生成機能部50は、LiDAR情報からの抽出機能群40の抽出結果に基づいてデプスマップを生成する。
その結果、パーティクルフィルタ機能部30には、ビデオ情報からの検出機能群20からBoundingBox&ラベル情報が入力されるとともに(入力1)、デプスマップ生成機能部50からデプスマップが入力される(入力2)。また、パーティクルフィルタ機能部30からは、物体の重心位置,BoundingBox&ラベル情報が出力される。
<パーティクルフィルタ機能部:処理の流れ>
図9は、本発明の実施の形態におけるパーティクルフィルタ機能部30が行う処理の流れを示す図である。図9に示すように、パーティクルフィルタ機能部30は、BoundingBox&ラベル情報、デプスマップが入力されると、各クラスの尤度関数を更新し(S10)、パーティクルフィルタを用いた物体検出と追跡を行い(S20)、物体の重心位置,BoundingBox&ラベル情報を出力する。
図9は、本発明の実施の形態におけるパーティクルフィルタ機能部30が行う処理の流れを示す図である。図9に示すように、パーティクルフィルタ機能部30は、BoundingBox&ラベル情報、デプスマップが入力されると、各クラスの尤度関数を更新し(S10)、パーティクルフィルタを用いた物体検出と追跡を行い(S20)、物体の重心位置,BoundingBox&ラベル情報を出力する。
図10は、各クラスの尤度関数の更新(S10)の詳細を示す図である。図10に示すように、1フレーム目のみ、YOLOのBoxを基準に、パーティクル、尤度関数H(1)を初期化する(S11)。以降、各時刻tで、YOLOのBox内にあるパーティクルを抽出する(S12)。ここで、YOLOのBoxが無い場合又はBox内にパーティクルが1個も無い場合(S13)、尤度関数を更新しない(H(t)=H(t-1))。一方、Box内にパーティクルが存在する場合(S14)、抽出したパーティクルを用い尤度関数H′(t)を計算し、前フレームの尤度関数と混合し、現フレームの尤度関数とおく(H(t)=αH′(t)+{1-αH(t-1)})。最後に、物体数のフィルタリングを行う(S15)。このフィルタリングでは、似通った物体は同じ物体とみなして統合し、またロストした物体は除去する。
図11は、パーティクルフィルタ(S20)の詳細を示す図である。図11に示すように、まず、各パーティクルの尤度を更新する(S21)。具体的には、各パーティクル近辺の領域でヒストグラムを作り、尤度関数との距離を計算する。また、尤度関数との距離をパーティクルの尤度(物体らしさ)とする。更に、ラベルが対応するYOLOのBox内にパーティクルが入っていたら、尤度をさらに上げる。次いで、リサンプリングを行う(S22)。具体的には、尤度の低いパーティクルを淘汰(尤度の高いパーティクルで置換)する。次いで、観測を行う(S23)。具体的には、各パーティクルの重み付け平均により、重心とBounding-Boxを計算する。最後に、位置予測を行う(S24)。具体的には、各パーティクルの位置およびヒストグラムの計算領域をランダムに変更する。
<まとめ>
以上のように、本発明の実施の形態における物体追跡装置1は、映像中の物体を追跡する装置であって、深層学習による識別器である深層学習識別器2と、深層学習識別器2による特徴量を含んだ映像のマルチチャネル特徴量を用いて、マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部3とを備える。これにより、映像中の時系列を考慮した物体追跡を行うことができる結果、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現することが可能となる。
以上のように、本発明の実施の形態における物体追跡装置1は、映像中の物体を追跡する装置であって、深層学習による識別器である深層学習識別器2と、深層学習識別器2による特徴量を含んだ映像のマルチチャネル特徴量を用いて、マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部3とを備える。これにより、映像中の時系列を考慮した物体追跡を行うことができる結果、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現することが可能となる。
具体的には、物体追跡装置1は、以下の(a)(b)(c)の特徴を備える。
まず、(a)深層学習識別器による特徴量を用いる。すなわち、物体検出結果(ラベルや矩形領域)だけでなく、深層学習の中間層から得られる結果なども含めた、深層学習を用いて得られる特徴量全般を取り扱う。
また、(b)深層学習の特徴量に他の特徴量を組み合わせたマルチチャネル特徴量を用いる。すなわち、深層学習の情報だけでなく、色や輪郭の情報、深度センサによるデプス情報など、映像にオーバーレイされる各種特徴量についても統合的に取り扱うことができる物体追跡機能を備える。
更に、(c)「パーティクルと深層学習の位置情報の距離関係を尤度に反映する」という制約が存在する。すなわち、深層学習とパーティクルフィルタの組み合わせ方に関して具体化したものであると言える。
ここで、パーティクルフィルタ機能部3は、マルチチャネル特徴量をもとに、シーンの状態により各パーティクルの尤度の重み付けを動的に変更してもよい。すなわち、システムを使用するユーザ自身が、マルチチャネル特徴量に関する各チャネルの寄与の割合を動的に変更することが可能である。
上記したように、深層学習を含んだマルチチャネル特徴量を統合的に取り扱える物体追跡機能を備えた上で、マルチチャネルの特徴量を重み付けして統合する。マルチチャネル特徴量の重み付けについては、パーティクルフィルタ内の尤度関数および尤度の更新、リサンプリングによって自動的に実現されている。
また、パーティクルフィルタ機能部3は、各物体について、深層学習識別器2により検出された物体の矩形とラベルが一致し、かつ矩形内に存在するパーティクルのみを抽出し、各パーティクル周辺の画素領域を抽出し、それらの画素領域に対して特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成し、時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数としてもよい。これにより、深層学習識別器2による物体検出結果を用いて、各物体の尤度関数を更新することが可能である。
また、パーティクルフィルタ機能部3は、あるパーティクルが深層学習識別器2の検出矩形内に存在する場合に、深層学習識別器2が検出した矩形の信頼度をp、矩形中心から四隅までの距離をR、パーティクルまでの距離をr、時刻tにおけるパーティクルの尤度をπt、深層学習識別器2の寄与率を決めるパラメータをβとしたとき、下式によりパーティクルの尤度を更新してもよい。これにより、深層学習識別器2による物体検出結果を用いて、各パーティクルの尤度を更新することが可能である。
また、パーティクルフィルタ機能部3は、深層学習識別器2の検出結果の信頼度pが高いほど、またパーティクルの位置が矩形中心に近いほど、パーティクルが「より物体らしい」と評価してもよい。これにより、深層学習識別化がパーティクルフィルタの物体追跡性能を補うことが期待される。
更に、センサ部4を備え、パーティクルフィルタ機能部3は、深層学習識別器2による物体検出結果に加え、センサ部4からのセンサデータをパーティクルフィルタの尤度評価に組み合わせてもよい。これにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。
以上説明したように、従来技術では、複数の物体があるときに一方の遮蔽が大きい場合や動きの激しい物体の追跡に失敗していた。本発明の実施の形態によれば、複数画像フレームのデータに対してパーティクルフィルタの尤度に基づいて物***置を推定することで、追跡の精度を向上させることが可能である。
なお、本発明は、物体追跡装置1として実現することができるだけでなく、物体追跡装置1が備える特徴的な各機能部を各ステップとする物体追跡方法として実現したり、物体追跡装置1が備える特徴的な各機能部としてコンピュータを機能させるためのコンピュータプログラムとして実現したりすることもできる。そして、そのようなコンピュータプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのはいうまでもない。
1…物体追跡装置
2…深層学習識別器
3…パーティクルフィルタ機能部
4…センサ部
10…物体追跡装置
20…ビデオ情報からの検出機能群
30…パーティクルフィルタ機能部
40…LiDAR情報からの抽出機能群
50…デプスマップ生成機能部
2…深層学習識別器
3…パーティクルフィルタ機能部
4…センサ部
10…物体追跡装置
20…ビデオ情報からの検出機能群
30…パーティクルフィルタ機能部
40…LiDAR情報からの抽出機能群
50…デプスマップ生成機能部
Claims (8)
- 映像中の物体を追跡する物体追跡装置であって、
深層学習による識別器である深層学習識別器と、
前記深層学習識別器による特徴量を含んだ映像のマルチチャネル特徴量を用いて、前記マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部と
を備えることを特徴とする物体追跡装置。 - 前記パーティクルフィルタ機能部は、前記マルチチャネル特徴量をもとに、シーンの状態により各パーティクルの尤度の重み付けを動的に変更することを特徴とする請求項1に記載の物体追跡装置。
- 前記パーティクルフィルタ機能部は、各物体について、前記深層学習識別器により検出された物体の矩形とラベルが一致し、かつ矩形内に存在するパーティクルのみを抽出し、各パーティクル周辺の画素領域を抽出し、それらの画素領域に対して特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成し、時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数とすることを特徴とする請求項1又は2に記載の物体追跡装置。
- 前記パーティクルフィルタ機能部は、前記深層学習識別器の検出結果の信頼度pが高いほど、また前記パーティクルの位置が矩形中心に近いほど、前記パーティクルが「より物体らしい」と評価することを特徴とする請求項4に記載の物体追跡装置。
- 更に、センサ部を備え、
前記パーティクルフィルタ機能部は、前記深層学習識別器による物体検出結果に加え、前記センサ部からのセンサデータを前記パーティクルフィルタの尤度評価に組み合わせることを特徴とする請求項1から5のいずれか1項に記載の物体追跡装置。 - 映像中の物体を追跡する物体追跡方法であって、
映像中の物体を追跡する物体追跡装置が、
深層学習による識別器である深層学習識別器が物体を検出する検出ステップと、
前記深層学習識別器による特徴量を含んだ映像のマルチチャネル特徴量を用いて、前記マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡する追跡ステップと
を実行することを特徴とする物体追跡方法。 - 請求項1乃至6のいずれか1項に記載した各機能部としてコンピュータを機能させることを特徴とするコンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018038232A JP6850751B2 (ja) | 2018-03-05 | 2018-03-05 | 物体追跡装置、物体追跡方法、及びコンピュータプログラム |
PCT/JP2019/008342 WO2019172172A1 (ja) | 2018-03-05 | 2019-03-04 | 物体追跡装置、物体追跡方法、及びコンピュータプログラム |
US16/978,360 US11257224B2 (en) | 2018-03-05 | 2019-03-04 | Object tracker, object tracking method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018038232A JP6850751B2 (ja) | 2018-03-05 | 2018-03-05 | 物体追跡装置、物体追跡方法、及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019153112A JP2019153112A (ja) | 2019-09-12 |
JP6850751B2 true JP6850751B2 (ja) | 2021-03-31 |
Family
ID=67846251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018038232A Active JP6850751B2 (ja) | 2018-03-05 | 2018-03-05 | 物体追跡装置、物体追跡方法、及びコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11257224B2 (ja) |
JP (1) | JP6850751B2 (ja) |
WO (1) | WO2019172172A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102615422B1 (ko) * | 2019-10-08 | 2023-12-20 | 삼성디스플레이 주식회사 | 물체 검출 후-처리 장치, 및 이를 포함하는 표시 장치 |
CN111294643A (zh) * | 2020-01-21 | 2020-06-16 | 海信视像科技股份有限公司 | 在显示设备中显示音轨语言的方法及显示设备 |
JP6818283B1 (ja) * | 2020-03-18 | 2021-01-20 | マルハニチロ株式会社 | 計数システム、計数装置、計数方法およびプログラム |
US11783612B1 (en) * | 2020-08-26 | 2023-10-10 | Amazon Technologies, Inc. | False positive suppression using keypoints |
TWI783572B (zh) * | 2021-07-14 | 2022-11-11 | 信驊科技股份有限公司 | 物件追蹤方法及物件追蹤裝置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9443320B1 (en) * | 2015-05-18 | 2016-09-13 | Xerox Corporation | Multi-object tracking with generic object proposals |
-
2018
- 2018-03-05 JP JP2018038232A patent/JP6850751B2/ja active Active
-
2019
- 2019-03-04 US US16/978,360 patent/US11257224B2/en active Active
- 2019-03-04 WO PCT/JP2019/008342 patent/WO2019172172A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20210042935A1 (en) | 2021-02-11 |
WO2019172172A1 (ja) | 2019-09-12 |
US11257224B2 (en) | 2022-02-22 |
JP2019153112A (ja) | 2019-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6850751B2 (ja) | 物体追跡装置、物体追跡方法、及びコンピュータプログラム | |
US20220261087A1 (en) | Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data | |
US10885372B2 (en) | Image recognition apparatus, learning apparatus, image recognition method, learning method, and storage medium | |
JP4663966B2 (ja) | 映像信号から対象物を追跡する方法及びその装置 | |
JP6525453B2 (ja) | オブジェクト位置推定システム、及びそのプログラム | |
JP4898800B2 (ja) | イメージセグメンテーション | |
US9213896B2 (en) | Method for detecting and tracking objects in image sequences of scenes acquired by a stationary camera | |
WO2023082882A1 (zh) | 一种基于姿态估计的行人摔倒动作识别方法及设备 | |
US8706663B2 (en) | Detection of people in real world videos and images | |
US20090262989A1 (en) | Image processing apparatus and method | |
JP2019109765A (ja) | 物体追跡プログラム、物体追跡装置、及び物体追跡方法 | |
TWI667621B (zh) | 人臉辨識方法 | |
JP4682820B2 (ja) | オブジェクト追跡装置及びオブジェクト追跡方法、並びにプログラム | |
JP4644022B2 (ja) | 映像解析装置および映像解析プログラム | |
Morais et al. | A multiple camera methodology for automatic localization and tracking of futsal players | |
CN105208402B (zh) | 一种基于运动对象与图像分析的视频帧复杂度测度方法 | |
JP6558831B2 (ja) | オブジェクト追跡装置、方法およびプログラム | |
US11373318B1 (en) | Impact detection | |
CN111914689B (zh) | 一种图像型火灾探测器的火焰识别方法 | |
GB2467643A (en) | Improved detection of people in real world videos and images. | |
Tsai et al. | Multiple human objects tracking in crowded scenes | |
CN114140744A (zh) | 基于对象的数量检测方法、装置、电子设备及存储介质 | |
JP2022019339A (ja) | 情報処理装置、情報処理方法及びプログラム | |
Martín et al. | Automatic players detection and tracking in multi-camera tennis videos | |
CN117612205A (zh) | 基于深度图的目标检测方法、***及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210302 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210308 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6850751 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |