JP6850751B2 - 物体追跡装置、物体追跡方法、及びコンピュータプログラム - Google Patents

物体追跡装置、物体追跡方法、及びコンピュータプログラム Download PDF

Info

Publication number
JP6850751B2
JP6850751B2 JP2018038232A JP2018038232A JP6850751B2 JP 6850751 B2 JP6850751 B2 JP 6850751B2 JP 2018038232 A JP2018038232 A JP 2018038232A JP 2018038232 A JP2018038232 A JP 2018038232A JP 6850751 B2 JP6850751 B2 JP 6850751B2
Authority
JP
Japan
Prior art keywords
deep learning
likelihood
particle filter
object tracking
particle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018038232A
Other languages
English (en)
Other versions
JP2019153112A (ja
Inventor
裕一 廣井
裕一 廣井
陽子 石井
陽子 石井
徹郎 徳永
徹郎 徳永
喜秀 外村
喜秀 外村
日高 浩太
浩太 日高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018038232A priority Critical patent/JP6850751B2/ja
Priority to PCT/JP2019/008342 priority patent/WO2019172172A1/ja
Priority to US16/978,360 priority patent/US11257224B2/en
Publication of JP2019153112A publication Critical patent/JP2019153112A/ja
Application granted granted Critical
Publication of JP6850751B2 publication Critical patent/JP6850751B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は、映像中の物体を追跡する物体追跡装置、物体追跡方法、及びコンピュータプログラムに関する。
従来、単一のRGBカメラで撮影された映像中の物体追跡技術として、深層学習による識別器を用いたものがある(例えば、非特許文献1参照)。深層学習識別器による手法では、単一の画像を深層学習識別器に入力することで、物体の種別を示すクラスラベルと、画像中の物体を示す矩形領域(物体の中心位置x,yおよび物体の矩形w,h)を出力する。深層学習識別器では、画像1枚あたり20ミリ秒程度といった高速な処理により画像中の物体領域を検出する。これにより、映像に対してもリアルタイムに物体検出と追跡を可能とする。例えば、単一のRGBカメラで撮影された映像中の物体について、「選手」や「ボール」といった物体のカテゴリを検出しながら追跡することが可能である。
"YOLO: Real-Time Object Detection"、[平成30年2月14日検索]、インターネット<URL:https://pjreddie.com/darknet/yolo/>
上記の深層学習識別器による物体検出および物体追跡方法では、映像を構成する1枚ごとのフレームに対して物体検出・追跡処理を行っている。ゆえに、映像中の時系列を考慮した物体追跡を行っていない。その結果、スポーツのように物体の形や動きの変化が激しい動画や、物体の遮蔽が大きい動画に対して頑健でないという問題が発生する。
本発明は、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現する物体追跡装置、物体追跡方法、及びコンピュータプログラムを提供することを目的とする。
上記目的を達成するため、第1の態様に係る発明は、映像中の物体を追跡する物体追跡装置であって、深層学習による識別器である深層学習識別器と、前記深層学習識別器による特徴量を含んだ映像のマルチチャネル特徴量を用いて、前記マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部とを備えることを要旨とする。
第2の態様に係る発明は、第1の態様に係る発明において、前記パーティクルフィルタ機能部が、前記マルチチャネル特徴量をもとに、シーンの状態により各パーティクルの尤度の重み付けを動的に変更することを要旨とする。
第3の態様に係る発明は、第1又は第2の態様に係る発明において、前記パーティクルフィルタ機能部が、各物体について、前記深層学習識別器により検出された物体の矩形とラベルが一致し、かつ矩形内に存在するパーティクルのみを抽出し、各パーティクル周辺の画素領域を抽出し、それらの画素領域に対して特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成し、時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数とすることを要旨とする。
第4の態様に係る発明は、第3の態様に係る発明において、前記パーティクルフィルタ機能部が、あるパーティクルが前記深層学習識別器の検出矩形内に存在する場合に、前記深層学習識別器が検出した矩形の信頼度をp、矩形中心から四隅までの距離をR、前記パーティクルまでの距離をr、時刻tにおける前記パーティクルの尤度をπt、前記深層学習識別器の寄与率を決めるパラメータをβとしたとき、下式により前記パーティクルの尤度を更新することを要旨とする。
Figure 0006850751
Figure 0006850751
第5の態様に係る発明は、第4の態様に係る発明において、前記パーティクルフィルタ機能部が、前記深層学習識別器の検出結果の信頼度pが高いほど、また前記パーティクルの位置が矩形中心に近いほど、前記パーティクルが「より物体らしい」と評価することを要旨とする。
第6の態様に係る発明は、第1から第5のいずれかの態様に係る発明において、更に、センサ部を備え、前記パーティクルフィルタ機能部が、前記深層学習識別器による物体検出結果に加え、前記センサ部からのセンサデータを前記パーティクルフィルタの尤度評価に組み合わせることを要旨とする。
第7の態様に係る発明は、映像中の物体を追跡する物体追跡方法であって、映像中の物体を追跡する物体追跡装置が、深層学習による識別器である深層学習識別器が物体を検出する検出ステップと、前記深層学習識別器による物体検出結果をパーティクルフィルタの尤度評価に適用することで物体を追跡する追跡ステップとを実行することを要旨とする。
第8の態様に係る発明は、コンピュータプログラムであって、第1乃至第6のいずれかの態様に係る各機能部としてコンピュータを機能させることを要旨とする。
本発明によれば、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現する物体追跡装置、物体追跡方法、及びコンピュータプログラムを提供することが可能である。
本発明の実施の形態における物体追跡装置の概略機能ブロック図である。 本発明の実施の形態における物体追跡装置が行う処理の流れを示すフローチャートである。 本発明の実施の形態における各物体の尤度関数の更新方法を示す図である。 本発明の実施の形態における各パーティクルの尤度の計算方法を示す図である。 YOLO単体による結果(YOLO追跡失敗時)との比較を示す図である。 YOLO単体による結果(YOLO誤検出時)との比較を示す図である。 YOLO単体による結果(オクルージョン発生時)との比較を示す図である。 本発明の実施の形態における物体追跡装置の詳細機能ブロック図である。 本発明の実施の形態におけるパーティクルフィルタ機能部が行う処理の流れを示す図である。 本発明の実施の形態における各クラスの尤度関数の更新の詳細を示す図である。 本発明の実施の形態におけるパーティクルフィルタの詳細を示す図である。
以下、本発明の実施の形態について図面を参照して詳細に説明する。なお、以下の実施の形態は、この発明の技術的思想を具体化するための物体追跡装置を例示するものであり、装置の構成やデータの構成等は以下の実施の形態に限定されるものではない。
<概要>
図1は、本発明の実施の形態における物体追跡装置1の概略機能ブロック図である。この物体追跡装置1は、パーティクルフィルタと深層学習識別器2の統合による物体検出と追跡を実現する装置であって、図1に示すように、深層学習識別器2と、パーティクルフィルタ機能部3とを備える。
深層学習識別器2は、深層学習による識別器である。深層学習識別器2には非特許文献1の技術(YOLO)を利用することができる。YOLO(You Only Look Once)は、7×7のグリッドで分割した局所領域毎に物体矩形と物体カテゴリを出力する手法である。
パーティクルフィルタ機能部3は、パーティクルフィルタを用いて物体追跡を行う。パーティクルフィルタとは、シミュレーションに基づく複雑なモデルの推定法である。具体的には、パーティクルフィルタ機能部3は、深層学習識別器2による物体検出結果をパーティクルフィルタの尤度評価に適用することで物体を追跡する。深層学習識別器2により検出された物体領域の情報を重み付け和として粒子に付加することで、時系列データとして頑健に一般物体検出を行うようになっている。結果として、スポーツ等の物体の変動や遮蔽が大きい動画においても、物体検出と追跡を同時に行うことが可能となる。
更に、物体追跡装置1は、環境に応じて深度センサ等のセンサ部4を備えてもよい。この場合、パーティクルフィルタ機能部3は、深層学習識別器2による物体検出結果に加え、センサ部4からのセンサデータをパーティクルフィルタの尤度評価に組み合わせる。これにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。
なお、図1では、物体追跡装置1の要部のみを図示している。物体追跡装置1は、ビデオカメラ、記憶装置、表示装置、通信装置などを備えてもよい。
<処理の流れ>
図2は、本発明の実施の形態における物体追跡装置1が行う処理の流れを示すフローチャートである。以下、図2を用いて、物体追跡装置1の構成を処理の流れとともに説明する。
起動後、物体追跡装置1は、ビデオカメラより毎フレーム映像をキャプチャする(S1)。
次いで、キャプチャされた各画像を深層学習識別器2に入力することにより、各画像中の物体を示す矩形領域と、物体カテゴリ(ラベル)を識別する(S2)。深層学習識別器2には非特許文献1の技術を利用した。
次いで、前記の矩形領域および物体カテゴリの情報に加え、任意で環境に応じて深度センサ等ほかのセンサデータを入力し(S3)、各物体を表すパーティクルフィルタの尤度関数を更新する(S4)。
次いで、更新された尤度関数を元に各パーティクルの尤度を更新する(S5)。尤度は物体らしさを表し、尤度が高いパーティクルほど、パーティクル周辺の画素が目標とする物体が表す画素に近いことを表す。
次いで、更新された尤度をもとに、パーティクルのリサンプリングを行う(S6)。ここでは、ランダムな閾値をもとに尤度の低いパーティクルを淘汰し、尤度の高いパーティクルに置き換える。
次いで、各パーティクルの位置を尤度に応じて重み付け平均することにより、現在の物***置を観測する(S7)。また、前フレームとの位置の差分をとることにより、現在の物体速度を観測する(S7)。
次いで、現在の物体速度に応じて各パーティクルの位置を更新する(S8)。ここでは、物体速度に一定の閾値を設ける。物体速度の絶対値が閾値以下ならば、現在位置を中心とした同心円状の範囲内で、ランダムにパーティクル位置を移動させる。物体速度の絶対値が閾値より大きければ、その速度ベクトルを基準としてパーティクル位置を移動させる。
以上の処理を繰り返す。これにより、各フレームにおいて、パーティクルが追跡する各物体の重心位置、物体領域、ラベル情報を出力する。
<パーティクルの生成>
深層学習識別器2により物体が検出されたとき、以下の条件を満たす場合、新しい物体が検出されたとみなし、深層学習識別器2の検出矩形の中心に物体を表す新しいパーティクル群を生成する。
条件:前フレームでパーティクルフィルタにより追跡されている全ての物体について、現フレームで深層学習識別器2により検出されたどの矩形とも物体領域がオーバーラップしていない。
<パーティクルの消滅>
パーティクルフィルタにより追跡を行っていた物体について、以下の条件1、2をすべて満たす場合、追跡していた物体は消滅したとみなす。
条件1:同じラベルを持つ2つの追跡物体について、尤度関数と中心間距離に関する指標を計算したとき、設定した閾値以下ならば両者は同じ物体を追跡しているとみなし、片方の物体のパーティクルを消滅させる。
条件2:パーティクルによる追跡物体の領域が、深層学習識別器2の検出矩形とオーバーラップしていない時間(フレーム数)をカウントする。カウント数が設定した閾値を超えたら目標の物体は消失したとみなし、パーティクルを消滅させる。
<各物体の尤度関数の更新方法>
図3は、本発明の実施の形態における各物体の尤度関数の更新方法を示す図である。最初に、画像100内の各物体について、深層学習識別器2により検出された物体の矩形101とラベルが一致し、かつ矩形101内に存在するパーティクル102のみを抽出する。その後、各パーティクル102周辺の画素領域103を抽出し、それらの画素領域103に対して色や輪郭などの特徴量(マルチチャネル特徴量)を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成する。時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数とする。ここで、図3中の重みαはユーザが指定可能なパラメータである。
本発明の実施の形態によれば、マルチチャネル特徴量を用いて物体を追跡することが可能である。マルチチャネル特徴量については後に詳しく説明する。
<各パーティクルの尤度の更新方法>
図4は、本発明の実施の形態における各パーティクルの尤度の計算方法を示す図である。あるパーティクル102が深層学習識別器2により検出された矩形101内に存在する場合を考える。いま、深層学習識別器2が検出した矩形101の信頼度をp、矩形中心104から四隅までの距離をR、パーティクル102までの距離をr、時刻tにおけるパーティクル102の尤度をπtとしたとき、下式によりパーティクル102の尤度を更新する。
Figure 0006850751
Figure 0006850751
ここで、βは深層学習識別器2の寄与率を決める、ユーザが指定可能なパラメータである。
上式は、深層学習識別器2の検出結果の信頼度pが高いほど、またパーティクル102の位置が矩形中心104に近いほど、パーティクル102が「より物体らしい」と評価されることを示す。これにより、深層学習識別化がパーティクルフィルタの物体追跡性能を補うことが期待される。
以上のように、本発明の実施の形態における物体追跡装置1では、従来の課題を解決するため、パーティクルフィルタと呼ばれる状態遷移モデルの尤度評価に深層学習識別器2の結果を適用することにより、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現することが可能となる。本手法によれば、物体のカテゴリや物体数の誤検出を低減しつつ、物体検出と追跡を同時に行えることを確認した。
また、深層学習識別器2に加え、環境に応じて深度センサ等の様々なセンサの値をパーティクルフィルタの尤度評価に組み合わせることにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。本手法によれば、更に物体のカテゴリや物体数の誤検出を低減しつつ、物体検出と追跡を同時に行えることを確認した。
<マルチチャネル特徴量>
マルチチャネル特徴量とは、一般的には、「画像自身が持つ輝度や色の特徴に関する情報を複数組み合わせることで、単一の特徴よりも多くの情報量を持つ特徴量」である。物体追跡においては、「物体の色+輪郭+深度+深層学習結果に関する情報を用いて追跡を行う」場合など、画像自身の持つ特徴を複数組み合わせる場合には、その組み合わせに応じて物体に関する情報量が増え、より精度の高い追跡を行うことができる。この場合が“マルチチャネルの情報”になる。一方、「物体の色に関する情報だけを用いて追跡を行う」「物体の輪郭に関する情報だけを用いて追跡を行う」「物体の深度に関する情報だけを用いて追跡を行う」といった場合は、単一の情報だけを用いて追跡を行うことになり、すべて“シングルチャネルの情報”になる。
本発明の実施の形態においては、パーティクルフィルタの尤度関数、および尤度の計算がマルチチャネルの情報となっている。例えば、前述の「画素領域103に対して色や輪郭などの特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成する」という記述については、「色+輪郭」といった複数の特徴量が一つのヒストグラムに統合されることで、2チャネルの尤度がパーティクルに反映されることとなる。さらに、前述の「パーティクルフィルタと呼ばれる状態遷移モデルの尤度評価に深層学習識別器2の結果を適用する」という記述については、前述の「色+輪郭」に「深層学習の特徴」が組み合わされ、3チャネルの情報量をパーティクルが持つこととなる。
本発明の実施の形態では、上記の3チャネルの情報に加え、その後の「環境に応じて深度センサ等の様々なセンサの値をパーティクルフィルタの尤度評価に組み合わせることにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。」という記述にあるように、さらに「深度」や他のセンサ(例えば「音」「対象の温度」など)の情報を加え、4チャネル以上の情報量をパーティクルに付加できる余地が残されている。このように、本発明の実施の形態によれば、パーティクルの持つ情報はマルチチャネルの情報となり、複数の特徴に関する情報をパーティクルに持たせることで、より頑強な物体の追跡を行うことが可能になる。
<YOLO単体による結果との比較>
図5〜図7は、YOLO単体による結果との比較を示す図である。ここでは、白い柔道着の選手Aと青い柔道着の選手Bが対戦している映像を例示している。細線は、YOLO単体での結果を示し、太線は、本発明の実施の形態(YOLO+パーティクルフィルタ)での結果を示している。
図5は、YOLO追跡失敗時を示している。図5に示すように、本発明の実施の形態によれば、YOLOで検出していない青い柔道着の選手Bも追跡可能である。
図6は、YOLO誤検出時を示している。図6に示すように、本発明の実施の形態によれば、YOLOで白と誤認された青い柔道着の選手Bを正しく判定することが可能である。
図7は、オクルージョン発生時を示している。図7に示すように、本発明の実施の形態によれば、カメラからほぼ見えない青い柔道着の選手Bの位置を推定することが可能である。
以上のように、本発明の実施の形態における物体追跡装置1では、ビデオ情報とLiDAR情報から、より頑強に人物位置を抽出するために、パーティクルフィルタを導入している。そのため、YOLOによる追跡失敗時や、ラベリング誤検出時に、物体追跡を継続することが可能である。また、人物のオクルージョン発生時においても、物体追跡を継続することが可能である。更に、YOLOのBounding-Boxに比べ、人物の重心位置を精確に特定することが可能である。
<パーティクルフィルタ機能部の組み込み位置>
図8は、本発明の実施の形態における物体追跡装置10の詳細機能ブロック図である。図8に示すように、パーティクルフィルタ機能部30は、ビデオ情報からの検出機能群20、及びLiDAR情報からの抽出機能群40の後段に組み込まれる。
ビデオ情報からの検出機能群20は、ビデオ情報から人物位置を検出する機能群であって、Tiny-YOLO(物体認識部)21と、同ラベルBoudingBox重なり解消機能部22と、座標系変換機能部23とを備える。LiDAR情報からの抽出機能群40は、LiDAR情報から人物位置を抽出する機能群であって、人物抽出機能部41と、変換行列ファイル42と、座標系変換機能部43と、LiDAR補間機能部44とを備える。デプスマップ生成機能部50は、LiDAR情報からの抽出機能群40の抽出結果に基づいてデプスマップを生成する。
その結果、パーティクルフィルタ機能部30には、ビデオ情報からの検出機能群20からBoundingBox&ラベル情報が入力されるとともに(入力1)、デプスマップ生成機能部50からデプスマップが入力される(入力2)。また、パーティクルフィルタ機能部30からは、物体の重心位置,BoundingBox&ラベル情報が出力される。
<パーティクルフィルタ機能部:処理の流れ>
図9は、本発明の実施の形態におけるパーティクルフィルタ機能部30が行う処理の流れを示す図である。図9に示すように、パーティクルフィルタ機能部30は、BoundingBox&ラベル情報、デプスマップが入力されると、各クラスの尤度関数を更新し(S10)、パーティクルフィルタを用いた物体検出と追跡を行い(S20)、物体の重心位置,BoundingBox&ラベル情報を出力する。
図10は、各クラスの尤度関数の更新(S10)の詳細を示す図である。図10に示すように、1フレーム目のみ、YOLOのBoxを基準に、パーティクル、尤度関数H(1)を初期化する(S11)。以降、各時刻tで、YOLOのBox内にあるパーティクルを抽出する(S12)。ここで、YOLOのBoxが無い場合又はBox内にパーティクルが1個も無い場合(S13)、尤度関数を更新しない(H(t)=H(t-1))。一方、Box内にパーティクルが存在する場合(S14)、抽出したパーティクルを用い尤度関数H′(t)を計算し、前フレームの尤度関数と混合し、現フレームの尤度関数とおく(H(t)=αH′(t)+{1-αH(t-1)})。最後に、物体数のフィルタリングを行う(S15)。このフィルタリングでは、似通った物体は同じ物体とみなして統合し、またロストした物体は除去する。
図11は、パーティクルフィルタ(S20)の詳細を示す図である。図11に示すように、まず、各パーティクルの尤度を更新する(S21)。具体的には、各パーティクル近辺の領域でヒストグラムを作り、尤度関数との距離を計算する。また、尤度関数との距離をパーティクルの尤度(物体らしさ)とする。更に、ラベルが対応するYOLOのBox内にパーティクルが入っていたら、尤度をさらに上げる。次いで、リサンプリングを行う(S22)。具体的には、尤度の低いパーティクルを淘汰(尤度の高いパーティクルで置換)する。次いで、観測を行う(S23)。具体的には、各パーティクルの重み付け平均により、重心とBounding-Boxを計算する。最後に、位置予測を行う(S24)。具体的には、各パーティクルの位置およびヒストグラムの計算領域をランダムに変更する。
<まとめ>
以上のように、本発明の実施の形態における物体追跡装置1は、映像中の物体を追跡する装置であって、深層学習による識別器である深層学習識別器2と、深層学習識別器2による特徴量を含んだ映像のマルチチャネル特徴量を用いて、マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部3とを備える。これにより、映像中の時系列を考慮した物体追跡を行うことができる結果、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現することが可能となる。
具体的には、物体追跡装置1は、以下の(a)(b)(c)の特徴を備える。
まず、(a)深層学習識別器による特徴量を用いる。すなわち、物体検出結果(ラベルや矩形領域)だけでなく、深層学習の中間層から得られる結果なども含めた、深層学習を用いて得られる特徴量全般を取り扱う。
また、(b)深層学習の特徴量に他の特徴量を組み合わせたマルチチャネル特徴量を用いる。すなわち、深層学習の情報だけでなく、色や輪郭の情報、深度センサによるデプス情報など、映像にオーバーレイされる各種特徴量についても統合的に取り扱うことができる物体追跡機能を備える。
更に、(c)「パーティクルと深層学習の位置情報の距離関係を尤度に反映する」という制約が存在する。すなわち、深層学習とパーティクルフィルタの組み合わせ方に関して具体化したものであると言える。
ここで、パーティクルフィルタ機能部3は、マルチチャネル特徴量をもとに、シーンの状態により各パーティクルの尤度の重み付けを動的に変更してもよい。すなわち、システムを使用するユーザ自身が、マルチチャネル特徴量に関する各チャネルの寄与の割合を動的に変更することが可能である。
上記したように、深層学習を含んだマルチチャネル特徴量を統合的に取り扱える物体追跡機能を備えた上で、マルチチャネルの特徴量を重み付けして統合する。マルチチャネル特徴量の重み付けについては、パーティクルフィルタ内の尤度関数および尤度の更新、リサンプリングによって自動的に実現されている。
また、パーティクルフィルタ機能部3は、各物体について、深層学習識別器2により検出された物体の矩形とラベルが一致し、かつ矩形内に存在するパーティクルのみを抽出し、各パーティクル周辺の画素領域を抽出し、それらの画素領域に対して特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成し、時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数としてもよい。これにより、深層学習識別器2による物体検出結果を用いて、各物体の尤度関数を更新することが可能である。
また、パーティクルフィルタ機能部3は、あるパーティクルが深層学習識別器2の検出矩形内に存在する場合に、深層学習識別器2が検出した矩形の信頼度をp、矩形中心から四隅までの距離をR、パーティクルまでの距離をr、時刻tにおけるパーティクルの尤度をπt、深層学習識別器2の寄与率を決めるパラメータをβとしたとき、下式によりパーティクルの尤度を更新してもよい。これにより、深層学習識別器2による物体検出結果を用いて、各パーティクルの尤度を更新することが可能である。
Figure 0006850751
Figure 0006850751
また、パーティクルフィルタ機能部3は、深層学習識別器2の検出結果の信頼度pが高いほど、またパーティクルの位置が矩形中心に近いほど、パーティクルが「より物体らしい」と評価してもよい。これにより、深層学習識別化がパーティクルフィルタの物体追跡性能を補うことが期待される。
更に、センサ部4を備え、パーティクルフィルタ機能部3は、深層学習識別器2による物体検出結果に加え、センサ部4からのセンサデータをパーティクルフィルタの尤度評価に組み合わせてもよい。これにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。
以上説明したように、従来技術では、複数の物体があるときに一方の遮蔽が大きい場合や動きの激しい物体の追跡に失敗していた。本発明の実施の形態によれば、複数画像フレームのデータに対してパーティクルフィルタの尤度に基づいて物***置を推定することで、追跡の精度を向上させることが可能である。
なお、本発明は、物体追跡装置1として実現することができるだけでなく、物体追跡装置1が備える特徴的な各機能部を各ステップとする物体追跡方法として実現したり、物体追跡装置1が備える特徴的な各機能部としてコンピュータを機能させるためのコンピュータプログラムとして実現したりすることもできる。そして、そのようなコンピュータプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのはいうまでもない。
1…物体追跡装置
2…深層学習識別器
3…パーティクルフィルタ機能部
4…センサ部
10…物体追跡装置
20…ビデオ情報からの検出機能群
30…パーティクルフィルタ機能部
40…LiDAR情報からの抽出機能群
50…デプスマップ生成機能部

Claims (8)

  1. 映像中の物体を追跡する物体追跡装置であって、
    深層学習による識別器である深層学習識別器と、
    前記深層学習識別器による特徴量を含んだ映像のマルチチャネル特徴量を用いて、前記マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部と
    を備えることを特徴とする物体追跡装置。
  2. 前記パーティクルフィルタ機能部は、前記マルチチャネル特徴量をもとに、シーンの状態により各パーティクルの尤度の重み付けを動的に変更することを特徴とする請求項1に記載の物体追跡装置。
  3. 前記パーティクルフィルタ機能部は、各物体について、前記深層学習識別器により検出された物体の矩形とラベルが一致し、かつ矩形内に存在するパーティクルのみを抽出し、各パーティクル周辺の画素領域を抽出し、それらの画素領域に対して特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成し、時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数とすることを特徴とする請求項1又は2に記載の物体追跡装置。
  4. 前記パーティクルフィルタ機能部は、あるパーティクルが前記深層学習識別器の検出矩形内に存在する場合に、前記深層学習識別器が検出した矩形の信頼度をp、矩形中心から四隅までの距離をR、前記パーティクルまでの距離をr、時刻tにおける前記パーティクルの尤度をπt、前記深層学習識別器の寄与率を決めるパラメータをβとしたとき、下式により前記パーティクルの尤度を更新することを特徴とする請求項3に記載の物体追跡装置。
    Figure 0006850751
    Figure 0006850751
  5. 前記パーティクルフィルタ機能部は、前記深層学習識別器の検出結果の信頼度pが高いほど、また前記パーティクルの位置が矩形中心に近いほど、前記パーティクルが「より物体らしい」と評価することを特徴とする請求項4に記載の物体追跡装置。
  6. 更に、センサ部を備え、
    前記パーティクルフィルタ機能部は、前記深層学習識別器による物体検出結果に加え、前記センサ部からのセンサデータを前記パーティクルフィルタの尤度評価に組み合わせることを特徴とする請求項1から5のいずれか1項に記載の物体追跡装置。
  7. 映像中の物体を追跡する物体追跡方法であって、
    映像中の物体を追跡する物体追跡装置が、
    深層学習による識別器である深層学習識別器が物体を検出する検出ステップと、
    前記深層学習識別器による特徴量を含んだ映像のマルチチャネル特徴量を用いて、前記マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡する追跡ステップと
    を実行することを特徴とする物体追跡方法。
  8. 請求項1乃至6のいずれか1項に記載した各機能部としてコンピュータを機能させることを特徴とするコンピュータプログラム。
JP2018038232A 2018-03-05 2018-03-05 物体追跡装置、物体追跡方法、及びコンピュータプログラム Active JP6850751B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018038232A JP6850751B2 (ja) 2018-03-05 2018-03-05 物体追跡装置、物体追跡方法、及びコンピュータプログラム
PCT/JP2019/008342 WO2019172172A1 (ja) 2018-03-05 2019-03-04 物体追跡装置、物体追跡方法、及びコンピュータプログラム
US16/978,360 US11257224B2 (en) 2018-03-05 2019-03-04 Object tracker, object tracking method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018038232A JP6850751B2 (ja) 2018-03-05 2018-03-05 物体追跡装置、物体追跡方法、及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2019153112A JP2019153112A (ja) 2019-09-12
JP6850751B2 true JP6850751B2 (ja) 2021-03-31

Family

ID=67846251

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018038232A Active JP6850751B2 (ja) 2018-03-05 2018-03-05 物体追跡装置、物体追跡方法、及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US11257224B2 (ja)
JP (1) JP6850751B2 (ja)
WO (1) WO2019172172A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102615422B1 (ko) * 2019-10-08 2023-12-20 삼성디스플레이 주식회사 물체 검출 후-처리 장치, 및 이를 포함하는 표시 장치
CN111294643A (zh) * 2020-01-21 2020-06-16 海信视像科技股份有限公司 在显示设备中显示音轨语言的方法及显示设备
JP6818283B1 (ja) * 2020-03-18 2021-01-20 マルハニチロ株式会社 計数システム、計数装置、計数方法およびプログラム
US11783612B1 (en) * 2020-08-26 2023-10-10 Amazon Technologies, Inc. False positive suppression using keypoints
TWI783572B (zh) * 2021-07-14 2022-11-11 信驊科技股份有限公司 物件追蹤方法及物件追蹤裝置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443320B1 (en) * 2015-05-18 2016-09-13 Xerox Corporation Multi-object tracking with generic object proposals

Also Published As

Publication number Publication date
US20210042935A1 (en) 2021-02-11
WO2019172172A1 (ja) 2019-09-12
US11257224B2 (en) 2022-02-22
JP2019153112A (ja) 2019-09-12

Similar Documents

Publication Publication Date Title
JP6850751B2 (ja) 物体追跡装置、物体追跡方法、及びコンピュータプログラム
US20220261087A1 (en) Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data
US10885372B2 (en) Image recognition apparatus, learning apparatus, image recognition method, learning method, and storage medium
JP4663966B2 (ja) 映像信号から対象物を追跡する方法及びその装置
JP6525453B2 (ja) オブジェクト位置推定システム、及びそのプログラム
JP4898800B2 (ja) イメージセグメンテーション
US9213896B2 (en) Method for detecting and tracking objects in image sequences of scenes acquired by a stationary camera
WO2023082882A1 (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
US8706663B2 (en) Detection of people in real world videos and images
US20090262989A1 (en) Image processing apparatus and method
JP2019109765A (ja) 物体追跡プログラム、物体追跡装置、及び物体追跡方法
TWI667621B (zh) 人臉辨識方法
JP4682820B2 (ja) オブジェクト追跡装置及びオブジェクト追跡方法、並びにプログラム
JP4644022B2 (ja) 映像解析装置および映像解析プログラム
Morais et al. A multiple camera methodology for automatic localization and tracking of futsal players
CN105208402B (zh) 一种基于运动对象与图像分析的视频帧复杂度测度方法
JP6558831B2 (ja) オブジェクト追跡装置、方法およびプログラム
US11373318B1 (en) Impact detection
CN111914689B (zh) 一种图像型火灾探测器的火焰识别方法
GB2467643A (en) Improved detection of people in real world videos and images.
Tsai et al. Multiple human objects tracking in crowded scenes
CN114140744A (zh) 基于对象的数量检测方法、装置、电子设备及存储介质
JP2022019339A (ja) 情報処理装置、情報処理方法及びプログラム
Martín et al. Automatic players detection and tracking in multi-camera tennis videos
CN117612205A (zh) 基于深度图的目标检测方法、***及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210308

R150 Certificate of patent or registration of utility model

Ref document number: 6850751

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150