WO2019172172A1 - 物体追跡装置、物体追跡方法、及びコンピュータプログラム - Google Patents

物体追跡装置、物体追跡方法、及びコンピュータプログラム Download PDF

Info

Publication number
WO2019172172A1
WO2019172172A1 PCT/JP2019/008342 JP2019008342W WO2019172172A1 WO 2019172172 A1 WO2019172172 A1 WO 2019172172A1 JP 2019008342 W JP2019008342 W JP 2019008342W WO 2019172172 A1 WO2019172172 A1 WO 2019172172A1
Authority
WO
WIPO (PCT)
Prior art keywords
deep learning
particle
likelihood
tracking
particle filter
Prior art date
Application number
PCT/JP2019/008342
Other languages
English (en)
French (fr)
Inventor
裕一 廣井
陽子 石井
徹郎 徳永
喜秀 外村
日高 浩太
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US16/978,360 priority Critical patent/US11257224B2/en
Publication of WO2019172172A1 publication Critical patent/WO2019172172A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image

Definitions

  • the present invention relates to an object tracking device, an object tracking method, and a computer program for tracking an object in a video.
  • Non-Patent Document 1 a technique using a classifier by deep learning (see, for example, Non-Patent Document 1).
  • a single image is input to the deep learning classifier, and a class label indicating the type of object and a rectangular area indicating the object in the image (the center position x, y of the object and the object) Output rectangle w, h).
  • the deep learning discriminator detects an object region in an image by high-speed processing such as about 20 milliseconds per image. As a result, it is possible to detect and track an object in real time even for an image. For example, it is possible to track an object in an image captured by a single RGB camera while detecting the category of the object such as “player” or “ball”.
  • object detection and object tracking method by the deep learning discriminator object detection / tracking processing is performed for each frame constituting the video. Therefore, object tracking that considers the time series in the video is not performed. As a result, there arises a problem that it is not robust against a moving image in which the shape and movement of an object are drastic as in sports or a moving image in which the object is largely shielded.
  • An object of the present invention is to provide an object tracking device, an object tracking method, and a computer program that realize object detection and tracking that are robust against fluctuations in motion and observation noise.
  • an invention according to a first aspect is an object tracking device that tracks an object in a video, and includes a deep learning discriminator that is a discriminator based on deep learning, and features of the deep learning discriminator.
  • Particle filter for tracking an object by using multi-channel feature amount of video including the amount and applying it to likelihood evaluation of the particle filter according to the distance between the position information of the multi-channel feature amount and the position information of the particle.
  • the gist is to include a functional unit.
  • the invention according to a second aspect is the invention according to the first aspect, wherein the particle filter function unit dynamically weights the likelihood of each particle according to a scene state based on the multi-channel feature quantity.
  • the gist is to change.
  • the particle filter function unit for each object, the label of the object detected by the deep learning discriminator matches the label, And only the particles that exist in the rectangle are extracted, the pixel area around each particle is extracted, and the feature quantity is calculated for those pixel areas, thereby creating the feature quantity histogram of the tracking object at time t,
  • the gist is to obtain the likelihood function of the tracked object at time t by taking the weighted sum of the histogram at time t-1 and the histogram at time t.
  • the invention according to a fourth aspect is the invention according to the third aspect, wherein the deep learning discriminator detects the particle filter function unit when a particle is present in a detection rectangle of the deep learning discriminator.
  • the reliability of the rectangle is p
  • the distance from the rectangle center to the four corners is R
  • the distance to the particle is r
  • the likelihood of the particle at time t is ⁇ t
  • the parameters that determine the contribution rate of the deep learning discriminator are When ⁇ is set, the gist is to update the likelihood of the particle by the following equation.
  • the invention according to a fifth aspect is the invention according to the fourth aspect, wherein the particle filter function unit increases the reliability p of the detection result of the deep learning discriminator, and the position of the particle is at the center of the rectangle.
  • the gist is that the closer the particle is, the more likely the particle is to be evaluated as “more object-like”.
  • the invention according to a sixth aspect is the invention according to any one of the first to fifth aspects, further comprising a sensor unit, wherein the particle filter function unit is added to the object detection result by the deep learning discriminator, The gist is to combine sensor data from the sensor unit with likelihood evaluation of the particle filter.
  • the invention according to the seventh aspect is an object tracking method for tracking an object in a video, wherein the object tracking device that tracks the object in the video is a classifier based on deep learning, and the deep learning classifier detects the object And a tracking step of tracking the object by applying the object detection result by the deep learning discriminator to the likelihood evaluation of the particle filter.
  • the invention according to the eighth aspect is a computer program, characterized by causing a computer to function as each functional unit according to any one of the first to sixth aspects.
  • an object tracking device it is possible to provide an object tracking device, an object tracking method, and a computer program that can realize object detection and tracking that are robust against fluctuations in motion and observation noise.
  • FIG. 1 is a schematic functional block diagram of an object tracking device 1 according to an embodiment of the present invention.
  • This object tracking device 1 is a device that realizes object detection and tracking by integrating a particle filter and a deep learning discriminator 2, and as shown in FIG. 1, a deep learning discriminator 2, a particle filter function unit 3, Is provided.
  • the deep learning classifier 2 is a classifier based on deep learning.
  • the deep learning discriminator 2 can use the technology (YOLO) of Non-Patent Document 1.
  • YOLO You Only Look Once
  • YOLO is a method of outputting an object rectangle and an object category for each local region divided by a 7 ⁇ 7 grid.
  • the particle filter function unit 3 performs object tracking using a particle filter.
  • the particle filter is a method for estimating a complex model based on simulation. Specifically, the particle filter function unit 3 tracks the object by applying the object detection result by the deep learning discriminator 2 to the likelihood evaluation of the particle filter. By adding information on the object region detected by the deep learning discriminator 2 to the particles as a weighted sum, general object detection is performed robustly as time-series data. As a result, it is possible to simultaneously detect and track an object even in a moving image in which an object such as a sport has a large fluctuation or shielding.
  • the object tracking device 1 may include a sensor unit 4 such as a depth sensor according to the environment.
  • the particle filter function unit 3 combines the sensor data from the sensor unit 4 with the likelihood evaluation of the particle filter in addition to the object detection result by the deep learning discriminator 2. Thereby, it is possible to robustly perform both object detection and tracking while incorporating evaluation suitable for the environment.
  • the object tracking device 1 may include a video camera, a storage device, a display device, a communication device, and the like.
  • FIG. 2 is a flowchart showing a flow of processing performed by the object tracking device 1 according to the embodiment of the present invention.
  • the configuration of the object tracking apparatus 1 will be described together with the flow of processing with reference to FIG.
  • the object tracking device 1 After activation, the object tracking device 1 captures an image of each frame from the video camera (S1).
  • each captured image is input to the deep learning discriminator 2 to identify a rectangular area indicating an object in each image and an object category (label) (S2).
  • the deep learning discriminator 2 uses the technique of Non-Patent Document 1.
  • the likelihood of each particle is updated based on the updated likelihood function (S5).
  • the likelihood represents the object likeness, and the higher the likelihood of the particle, the closer the pixel around the particle is to the pixel represented by the target object.
  • particle resampling is performed based on the updated likelihood (S6).
  • particles having a low likelihood are deceived based on a random threshold value and replaced with particles having a high likelihood.
  • the current object position is observed by averaging the position of each particle according to the likelihood (S7). Further, the current object speed is observed by taking the position difference from the previous frame (S7).
  • the position of each particle is updated according to the current object speed (S8).
  • a constant threshold is provided for the object speed. If the absolute value of the object velocity is less than or equal to the threshold value, the particle position is randomly moved within a concentric range centered on the current position. If the absolute value of the object velocity is larger than the threshold value, the particle position is moved with reference to the velocity vector.
  • Condition 1 When an index related to the likelihood function and the distance between centers is calculated for two tracked objects with the same label, they are considered to be tracking the same object if they are below the set threshold, and particles of one object Annihilate.
  • Condition 2 The time (number of frames) in which the region of the tracking object by particles does not overlap the detection rectangle of the deep learning discriminator 2 is counted. If the count exceeds the set threshold, the target object is considered to have disappeared and the particles are extinguished.
  • FIG. 3 is a diagram showing a method for updating the likelihood function of each object in the embodiment of the present invention.
  • Create The likelihood function of the tracked object at time t is obtained by taking the weighted sum of the histogram at time t-1 and the histogram at time t.
  • the weight ⁇ in FIG. 3 is a parameter that can be designated by the user.
  • the present invention it is possible to track an object using multi-channel feature quantities.
  • the multi-channel feature amount will be described in detail later.
  • FIG. 4 is a diagram showing a method of calculating the likelihood of each particle in the embodiment of the present invention.
  • is a parameter that can be specified by the user and determines the contribution rate of the deep learning discriminator 2.
  • the object tracking device 1 applies the result of the deep learning discriminator 2 to the likelihood evaluation of a state transition model called a particle filter in order to solve the conventional problem.
  • This makes it possible to realize object detection and tracking that are robust against movement fluctuations and observation noise. According to this method, it was confirmed that object detection and tracking can be performed simultaneously while reducing false detection of the object category and the number of objects.
  • the multi-channel feature amount is generally “a feature amount having a larger amount of information than a single feature by combining a plurality of pieces of information regarding luminance and color features of the image itself”.
  • object tracking when combining multiple features of the image itself, such as “tracking using information on object color + contour + depth + depth learning result”, the amount of information related to the object according to the combination And more accurate tracking can be performed. This case becomes “multi-channel information”.
  • tracking using only information about the color of the object “tracking using only information about the contour of the object”, and “tracking using only information about the depth of the object” Tracking is performed using only this information, and all become “single channel information”.
  • the likelihood function of the particle filter and the calculation of the likelihood are multi-channel information.
  • the description “to create a feature amount histogram of a tracking object at time t by calculating feature amounts such as colors and contours for the pixel region 103” described above includes a plurality of “color + contour”. By combining the feature amounts into one histogram, the likelihood of two channels is reflected in the particles.
  • the result of the deep learning discriminator 2 is applied to the likelihood evaluation of a state transition model called a particle filter” described above, “the feature of deep learning” is combined with the above “color + contour”.
  • the particle has an information amount of 3 channels.
  • an evaluation suitable for the environment is performed by combining the values of various sensors such as a depth sensor according to the environment with the likelihood evaluation of the particle filter. It is possible to perform both object detection and tracking steadily while incorporating ".” As well as information on "depth” and other sensors (such as “sound” and “target temperature”). In addition, there is room for adding information amount of 4 channels or more to particles. As described above, according to the embodiment of the present invention, the information held by the particles becomes multi-channel information, and it is possible to track the object more robustly by giving the particles information about multiple features. become.
  • FIG. 5 to FIG. 7 are diagrams showing comparisons with the results of YOLO alone.
  • a video in which a player A wearing white judo and a player B wearing blue judo are competing is illustrated.
  • the thin line shows the result of the YOLO alone
  • the thick line shows the result of the embodiment of the present invention (YOLO + particle filter).
  • Fig. 5 shows the YOLO tracking failure. As shown in FIG. 5, according to the embodiment of the present invention, it is possible to track a player B in blue judo clothing that is not detected by YOLO.
  • FIG. 6 shows a YOLO error detection time. As shown in FIG. 6, according to the embodiment of the present invention, it is possible to correctly determine a player B in blue judo that is misidentified as white by YOLO.
  • FIG. 7 shows the time when occlusion occurs. As shown in FIG. 7, according to the embodiment of the present invention, it is possible to estimate the position of a player B in a blue judo that is almost invisible from the camera.
  • a particle filter is introduced in order to more robustly extract a person position from video information and LiDAR information. Therefore, it is possible to continue object tracking when YOLO tracking fails or when labeling is erroneously detected. Further, it is possible to continue object tracking even when a person's occlusion occurs. Furthermore, compared to YOLO's Bounding-Box, it is possible to accurately identify the position of the center of gravity of a person.
  • FIG. 8 is a detailed functional block diagram of the object tracking device 10 according to the embodiment of the present invention. As shown in FIG. 8, the particle filter function unit 30 is incorporated in the subsequent stage of the detection function group 20 from the video information and the extraction function group 40 from the LiDAR information.
  • the detection function group 20 from the video information is a function group that detects a person position from the video information, and includes a Tiny-YOLO (object recognition unit) 21, a labeling Box overlap elimination function unit 22, and a coordinate system conversion function unit.
  • the LiDAR information extraction function group 40 is a function group for extracting a person position from LiDAR information, and includes a person extraction function unit 41, a transformation matrix file 42, a coordinate system conversion function unit 43, and a LiDAR interpolation function unit 44.
  • the depth map generation function unit 50 generates a depth map based on the extraction result of the extraction function group 40 from LiDAR information.
  • the particle filter function unit 30 receives the BoundingBox & label information from the detection function group 20 from the video information (input 1) and also receives the depth map from the depth map generation function unit 50 (input 2). . Further, the particle filter function unit 30 outputs the position of the center of gravity of the object and BoundingBox & label information.
  • FIG. 9 is a diagram showing a flow of processing performed by the particle filter function unit 30 according to the embodiment of the present invention.
  • the particle filter function unit 30 updates the likelihood function of each class (S10), and performs object detection and tracking using the particle filter. (S20), the center of gravity position of the object, BoundingBox & label information are output.
  • FIG. 10 is a diagram showing details of the likelihood function update (S10) of each class.
  • S10 the particles and likelihood function H (1) are initialized based on the YOLO Box (S11). Thereafter, the particles in the YOLO box are extracted at each time t (S12).
  • the number of objects is filtered (S15). In this filtering, similar objects are regarded as the same object and integrated, and lost objects are removed.
  • FIG. 11 is a diagram showing details of the particle filter (S20).
  • the likelihood of each particle is updated (S21). Specifically, a histogram is created in the area near each particle, and the distance to the likelihood function is calculated. Further, the distance from the likelihood function is defined as the likelihood of the particle (object-likeness).
  • the likelihood is further increased.
  • resampling is performed (S22). Specifically, particles with low likelihood are replaced (replaced with particles with high likelihood).
  • observation is performed (S23). Specifically, the center of gravity and Bounding-Box are calculated by the weighted average of each particle.
  • position prediction is performed (S24). Specifically, the position of each particle and the calculation area of the histogram are changed randomly.
  • the object tracking device 1 is a device that tracks an object in a video, and includes a deep learning discriminator 2 that is a discriminator based on deep learning and the deep learning discriminator 2.
  • Particle filter that tracks objects by applying multi-channel feature quantities of video including feature quantities to the likelihood evaluation of particle filters according to the distance between the position information of multi-channel feature quantities and the position information of particles And a functional unit 3.
  • the object tracking device 1 includes the following features (a), (b), and (c).
  • a feature value by a deep learning discriminator is used. That is, not only object detection results (labels and rectangular areas) but also general features obtained using deep learning including results obtained from an intermediate layer of deep learning are handled.
  • a multi-channel feature value obtained by combining a feature value of deep learning with another feature value is used. That is, it has an object tracking function that can handle not only deep learning information but also various feature amounts overlaid on the video such as color and contour information, depth information by depth sensors, and the like.
  • the particle filter function unit 3 may dynamically change the likelihood weighting of each particle according to the scene state based on the multi-channel feature amount. That is, the user who uses the system can dynamically change the contribution ratio of each channel with respect to the multi-channel feature.
  • an object tracking function that can handle multi-channel feature values including deep learning in an integrated manner is provided, and multi-channel feature values are weighted and integrated.
  • the weighting of the multi-channel feature quantity is automatically realized by updating the likelihood function and likelihood in the particle filter and resampling.
  • the particle filter function unit 3 extracts, for each object, only the particles whose labels coincide with the rectangles of the objects detected by the deep learning discriminator 2 and exist within the rectangles. By extracting and calculating feature amounts for those pixel regions, a feature amount histogram of the tracking object at time t is created, and by taking a weighted sum of the histogram at time t-1 and the histogram at time t, It may be a likelihood function of the tracking object at time t. Thereby, it is possible to update the likelihood function of each object using the object detection result by the deep learning discriminator 2.
  • the particle filter function unit 3 sets the reliability of the rectangle detected by the deep learning discriminator 2 to p and the distance from the center of the rectangle to the four corners.
  • R the distance to the particle r, a particle of the likelihood of [pi t at time t, when the parameter for determining the contribution of the deep learning classifier 2 was beta, may update the likelihood of particles by the following formula . Thereby, it is possible to update the likelihood of each particle using the object detection result by the deep learning discriminator 2.
  • the particle filter function unit 3 may evaluate that a particle is “more object-like” as the reliability p of the detection result of the deep learning discriminator 2 is higher and the position of the particle is closer to the center of the rectangle. As a result, it is expected that deep learning discrimination will supplement the object tracking performance of the particle filter.
  • the particle filter function unit 3 may combine the sensor data from the sensor unit 4 with the likelihood evaluation of the particle filter in addition to the object detection result by the deep learning discriminator 2. Thereby, it is possible to robustly perform both object detection and tracking while incorporating evaluation suitable for the environment.
  • the present invention can be realized not only as the object tracking device 1 but also as an object tracking method in which each characteristic function unit included in the object tracking device 1 is used as each step, or the object tracking device 1 is provided. It can also be realized as a computer program for causing a computer to function as each characteristic function unit. Needless to say, such a computer program can be distributed via a recording medium such as a CD-ROM or a transmission medium such as the Internet.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現する物体追跡装置、物体追跡方法、及びコンピュータプログラムを提供する。物体追跡装置1は、映像中の物体を追跡する装置であって、深層学習による識別器である深層学習識別器2と、深層学習識別器2による特徴量を含んだ映像のマルチチャネル特徴量を用いて、マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部3とを備える。

Description

物体追跡装置、物体追跡方法、及びコンピュータプログラム
 本発明は、映像中の物体を追跡する物体追跡装置、物体追跡方法、及びコンピュータプログラムに関する。
 従来、単一のRGBカメラで撮影された映像中の物体追跡技術として、深層学習による識別器を用いたものがある(例えば、非特許文献1参照)。深層学習識別器による手法では、単一の画像を深層学習識別器に入力することで、物体の種別を示すクラスラベルと、画像中の物体を示す矩形領域(物体の中心位置x,yおよび物体の矩形w,h)を出力する。深層学習識別器では、画像1枚あたり20ミリ秒程度といった高速な処理により画像中の物体領域を検出する。これにより、映像に対してもリアルタイムに物体検出と追跡を可能とする。例えば、単一のRGBカメラで撮影された映像中の物体について、「選手」や「ボール」といった物体のカテゴリを検出しながら追跡することが可能である。
"YOLO: Real-Time Object Detection"、[平成30年2月14日検索]、インターネット<URL:https://pjreddie.com/darknet/yolo/>
 上記の深層学習識別器による物体検出および物体追跡方法では、映像を構成する1枚ごとのフレームに対して物体検出・追跡処理を行っている。ゆえに、映像中の時系列を考慮した物体追跡を行っていない。その結果、スポーツのように物体の形や動きの変化が激しい動画や、物体の遮蔽が大きい動画に対して頑健でないという問題が発生する。
 本発明は、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現する物体追跡装置、物体追跡方法、及びコンピュータプログラムを提供することを目的とする。
 上記目的を達成するため、第1の態様に係る発明は、映像中の物体を追跡する物体追跡装置であって、深層学習による識別器である深層学習識別器と、前記深層学習識別器による特徴量を含んだ映像のマルチチャネル特徴量を用いて、前記マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部とを備えることを要旨とする。
 第2の態様に係る発明は、第1の態様に係る発明において、前記パーティクルフィルタ機能部が、前記マルチチャネル特徴量をもとに、シーンの状態により各パーティクルの尤度の重み付けを動的に変更することを要旨とする。
 第3の態様に係る発明は、第1又は第2の態様に係る発明において、前記パーティクルフィルタ機能部が、各物体について、前記深層学習識別器により検出された物体の矩形とラベルが一致し、かつ矩形内に存在するパーティクルのみを抽出し、各パーティクル周辺の画素領域を抽出し、それらの画素領域に対して特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成し、時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数とすることを要旨とする。
 第4の態様に係る発明は、第3の態様に係る発明において、前記パーティクルフィルタ機能部が、あるパーティクルが前記深層学習識別器の検出矩形内に存在する場合に、前記深層学習識別器が検出した矩形の信頼度をp、矩形中心から四隅までの距離をR、前記パーティクルまでの距離をr、時刻tにおける前記パーティクルの尤度をπt、前記深層学習識別器の寄与率を決めるパラメータをβとしたとき、下式により前記パーティクルの尤度を更新することを要旨とする。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 第5の態様に係る発明は、第4の態様に係る発明において、前記パーティクルフィルタ機能部が、前記深層学習識別器の検出結果の信頼度pが高いほど、また前記パーティクルの位置が矩形中心に近いほど、前記パーティクルが「より物体らしい」と評価することを要旨とする。
 第6の態様に係る発明は、第1から第5のいずれかの態様に係る発明において、更に、センサ部を備え、前記パーティクルフィルタ機能部が、前記深層学習識別器による物体検出結果に加え、前記センサ部からのセンサデータを前記パーティクルフィルタの尤度評価に組み合わせることを要旨とする。
 第7の態様に係る発明は、映像中の物体を追跡する物体追跡方法であって、映像中の物体を追跡する物体追跡装置が、深層学習による識別器である深層学習識別器が物体を検出する検出ステップと、前記深層学習識別器による物体検出結果をパーティクルフィルタの尤度評価に適用することで物体を追跡する追跡ステップとを実行することを要旨とする。
 第8の態様に係る発明は、コンピュータプログラムであって、第1乃至第6のいずれかの態様に係る各機能部としてコンピュータを機能させることを要旨とする。
 本発明によれば、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現する物体追跡装置、物体追跡方法、及びコンピュータプログラムを提供することが可能である。
本発明の実施の形態における物体追跡装置の概略機能ブロック図である。 本発明の実施の形態における物体追跡装置が行う処理の流れを示すフローチャートである。 本発明の実施の形態における各物体の尤度関数の更新方法を示す図である。 本発明の実施の形態における各パーティクルの尤度の計算方法を示す図である。 YOLO単体による結果(YOLO追跡失敗時)との比較を示す図である。 YOLO単体による結果(YOLO誤検出時)との比較を示す図である。 YOLO単体による結果(オクルージョン発生時)との比較を示す図である。 本発明の実施の形態における物体追跡装置の詳細機能ブロック図である。 本発明の実施の形態におけるパーティクルフィルタ機能部が行う処理の流れを示す図である。 本発明の実施の形態における各クラスの尤度関数の更新の詳細を示す図である。 本発明の実施の形態におけるパーティクルフィルタの詳細を示す図である。
 以下、本発明の実施の形態について図面を参照して詳細に説明する。なお、以下の実施の形態は、この発明の技術的思想を具体化するための物体追跡装置を例示するものであり、装置の構成やデータの構成等は以下の実施の形態に限定されるものではない。
 <概要>
 図1は、本発明の実施の形態における物体追跡装置1の概略機能ブロック図である。この物体追跡装置1は、パーティクルフィルタと深層学習識別器2の統合による物体検出と追跡を実現する装置であって、図1に示すように、深層学習識別器2と、パーティクルフィルタ機能部3とを備える。
 深層学習識別器2は、深層学習による識別器である。深層学習識別器2には非特許文献1の技術(YOLO)を利用することができる。YOLO(You Only Look Once)は、7×7のグリッドで分割した局所領域毎に物体矩形と物体カテゴリを出力する手法である。
 パーティクルフィルタ機能部3は、パーティクルフィルタを用いて物体追跡を行う。パーティクルフィルタとは、シミュレーションに基づく複雑なモデルの推定法である。具体的には、パーティクルフィルタ機能部3は、深層学習識別器2による物体検出結果をパーティクルフィルタの尤度評価に適用することで物体を追跡する。深層学習識別器2により検出された物体領域の情報を重み付け和として粒子に付加することで、時系列データとして頑健に一般物体検出を行うようになっている。結果として、スポーツ等の物体の変動や遮蔽が大きい動画においても、物体検出と追跡を同時に行うことが可能となる。
 更に、物体追跡装置1は、環境に応じて深度センサ等のセンサ部4を備えてもよい。この場合、パーティクルフィルタ機能部3は、深層学習識別器2による物体検出結果に加え、センサ部4からのセンサデータをパーティクルフィルタの尤度評価に組み合わせる。これにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。
 なお、図1では、物体追跡装置1の要部のみを図示している。物体追跡装置1は、ビデオカメラ、記憶装置、表示装置、通信装置などを備えてもよい。
 <処理の流れ>
 図2は、本発明の実施の形態における物体追跡装置1が行う処理の流れを示すフローチャートである。以下、図2を用いて、物体追跡装置1の構成を処理の流れとともに説明する。
 起動後、物体追跡装置1は、ビデオカメラより毎フレーム映像をキャプチャする(S1)。
 次いで、キャプチャされた各画像を深層学習識別器2に入力することにより、各画像中の物体を示す矩形領域と、物体カテゴリ(ラベル)を識別する(S2)。深層学習識別器2には非特許文献1の技術を利用した。
 次いで、前記の矩形領域および物体カテゴリの情報に加え、任意で環境に応じて深度センサ等ほかのセンサデータを入力し(S3)、各物体を表すパーティクルフィルタの尤度関数を更新する(S4)。
 次いで、更新された尤度関数を元に各パーティクルの尤度を更新する(S5)。尤度は物体らしさを表し、尤度が高いパーティクルほど、パーティクル周辺の画素が目標とする物体が表す画素に近いことを表す。
 次いで、更新された尤度をもとに、パーティクルのリサンプリングを行う(S6)。ここでは、ランダムな閾値をもとに尤度の低いパーティクルを淘汰し、尤度の高いパーティクルに置き換える。
 次いで、各パーティクルの位置を尤度に応じて重み付け平均することにより、現在の物***置を観測する(S7)。また、前フレームとの位置の差分をとることにより、現在の物体速度を観測する(S7)。
 次いで、現在の物体速度に応じて各パーティクルの位置を更新する(S8)。ここでは、物体速度に一定の閾値を設ける。物体速度の絶対値が閾値以下ならば、現在位置を中心とした同心円状の範囲内で、ランダムにパーティクル位置を移動させる。物体速度の絶対値が閾値より大きければ、その速度ベクトルを基準としてパーティクル位置を移動させる。
 以上の処理を繰り返す。これにより、各フレームにおいて、パーティクルが追跡する各物体の重心位置、物体領域、ラベル情報を出力する。
 <パーティクルの生成>
 深層学習識別器2により物体が検出されたとき、以下の条件を満たす場合、新しい物体が検出されたとみなし、深層学習識別器2の検出矩形の中心に物体を表す新しいパーティクル群を生成する。
 条件:前フレームでパーティクルフィルタにより追跡されている全ての物体について、現フレームで深層学習識別器2により検出されたどの矩形とも物体領域がオーバーラップしていない。
 <パーティクルの消滅>
 パーティクルフィルタにより追跡を行っていた物体について、以下の条件1、2をすべて満たす場合、追跡していた物体は消滅したとみなす。
 条件1:同じラベルを持つ2つの追跡物体について、尤度関数と中心間距離に関する指標を計算したとき、設定した閾値以下ならば両者は同じ物体を追跡しているとみなし、片方の物体のパーティクルを消滅させる。
 条件2:パーティクルによる追跡物体の領域が、深層学習識別器2の検出矩形とオーバーラップしていない時間(フレーム数)をカウントする。カウント数が設定した閾値を超えたら目標の物体は消失したとみなし、パーティクルを消滅させる。
 <各物体の尤度関数の更新方法>
 図3は、本発明の実施の形態における各物体の尤度関数の更新方法を示す図である。最初に、画像100内の各物体について、深層学習識別器2により検出された物体の矩形101とラベルが一致し、かつ矩形101内に存在するパーティクル102のみを抽出する。その後、各パーティクル102周辺の画素領域103を抽出し、それらの画素領域103に対して色や輪郭などの特徴量(マルチチャネル特徴量)を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成する。時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数とする。ここで、図3中の重みαはユーザが指定可能なパラメータである。
 本発明の実施の形態によれば、マルチチャネル特徴量を用いて物体を追跡することが可能である。マルチチャネル特徴量については後に詳しく説明する。
 <各パーティクルの尤度の更新方法>
 図4は、本発明の実施の形態における各パーティクルの尤度の計算方法を示す図である。あるパーティクル102が深層学習識別器2により検出された矩形101内に存在する場合を考える。いま、深層学習識別器2が検出した矩形101の信頼度をp、矩形中心104から四隅までの距離をR、パーティクル102までの距離をr、時刻tにおけるパーティクル102の尤度をπtとしたとき、下式によりパーティクル102の尤度を更新する。
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
 ここで、βは深層学習識別器2の寄与率を決める、ユーザが指定可能なパラメータである。
 上式は、深層学習識別器2の検出結果の信頼度pが高いほど、またパーティクル102の位置が矩形中心104に近いほど、パーティクル102が「より物体らしい」と評価されることを示す。これにより、深層学習識別化がパーティクルフィルタの物体追跡性能を補うことが期待される。
 以上のように、本発明の実施の形態における物体追跡装置1では、従来の課題を解決するため、パーティクルフィルタと呼ばれる状態遷移モデルの尤度評価に深層学習識別器2の結果を適用することにより、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現することが可能となる。本手法によれば、物体のカテゴリや物体数の誤検出を低減しつつ、物体検出と追跡を同時に行えることを確認した。
 また、深層学習識別器2に加え、環境に応じて深度センサ等の様々なセンサの値をパーティクルフィルタの尤度評価に組み合わせることにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。本手法によれば、更に物体のカテゴリや物体数の誤検出を低減しつつ、物体検出と追跡を同時に行えることを確認した。
 <マルチチャネル特徴量>
 マルチチャネル特徴量とは、一般的には、「画像自身が持つ輝度や色の特徴に関する情報を複数組み合わせることで、単一の特徴よりも多くの情報量を持つ特徴量」である。物体追跡においては、「物体の色+輪郭+深度+深層学習結果に関する情報を用いて追跡を行う」場合など、画像自身の持つ特徴を複数組み合わせる場合には、その組み合わせに応じて物体に関する情報量が増え、より精度の高い追跡を行うことができる。この場合が“マルチチャネルの情報”になる。一方、「物体の色に関する情報だけを用いて追跡を行う」「物体の輪郭に関する情報だけを用いて追跡を行う」「物体の深度に関する情報だけを用いて追跡を行う」といった場合は、単一の情報だけを用いて追跡を行うことになり、すべて“シングルチャネルの情報”になる。
 本発明の実施の形態においては、パーティクルフィルタの尤度関数、および尤度の計算がマルチチャネルの情報となっている。例えば、前述の「画素領域103に対して色や輪郭などの特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成する」という記述については、「色+輪郭」といった複数の特徴量が一つのヒストグラムに統合されることで、2チャネルの尤度がパーティクルに反映されることとなる。さらに、前述の「パーティクルフィルタと呼ばれる状態遷移モデルの尤度評価に深層学習識別器2の結果を適用する」という記述については、前述の「色+輪郭」に「深層学習の特徴」が組み合わされ、3チャネルの情報量をパーティクルが持つこととなる。
 本発明の実施の形態では、上記の3チャネルの情報に加え、その後の「環境に応じて深度センサ等の様々なセンサの値をパーティクルフィルタの尤度評価に組み合わせることにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。」という記述にあるように、さらに「深度」や他のセンサ(例えば「音」「対象の温度」など)の情報を加え、4チャネル以上の情報量をパーティクルに付加できる余地が残されている。このように、本発明の実施の形態によれば、パーティクルの持つ情報はマルチチャネルの情報となり、複数の特徴に関する情報をパーティクルに持たせることで、より頑強な物体の追跡を行うことが可能になる。
 <YOLO単体による結果との比較>
 図5~図7は、YOLO単体による結果との比較を示す図である。ここでは、白い柔道着の選手Aと青い柔道着の選手Bが対戦している映像を例示している。細線は、YOLO単体での結果を示し、太線は、本発明の実施の形態(YOLO+パーティクルフィルタ)での結果を示している。
 図5は、YOLO追跡失敗時を示している。図5に示すように、本発明の実施の形態によれば、YOLOで検出していない青い柔道着の選手Bも追跡可能である。
 図6は、YOLO誤検出時を示している。図6に示すように、本発明の実施の形態によれば、YOLOで白と誤認された青い柔道着の選手Bを正しく判定することが可能である。
 図7は、オクルージョン発生時を示している。図7に示すように、本発明の実施の形態によれば、カメラからほぼ見えない青い柔道着の選手Bの位置を推定することが可能である。
 以上のように、本発明の実施の形態における物体追跡装置1では、ビデオ情報とLiDAR情報から、より頑強に人物位置を抽出するために、パーティクルフィルタを導入している。そのため、YOLOによる追跡失敗時や、ラベリング誤検出時に、物体追跡を継続することが可能である。また、人物のオクルージョン発生時においても、物体追跡を継続することが可能である。更に、YOLOのBounding-Boxに比べ、人物の重心位置を精確に特定することが可能である。
 <パーティクルフィルタ機能部の組み込み位置>
 図8は、本発明の実施の形態における物体追跡装置10の詳細機能ブロック図である。図8に示すように、パーティクルフィルタ機能部30は、ビデオ情報からの検出機能群20、及びLiDAR情報からの抽出機能群40の後段に組み込まれる。
 ビデオ情報からの検出機能群20は、ビデオ情報から人物位置を検出する機能群であって、Tiny-YOLO(物体認識部)21と、同ラベルBoudingBox重なり解消機能部22と、座標系変換機能部23とを備える。LiDAR情報からの抽出機能群40は、LiDAR情報から人物位置を抽出する機能群であって、人物抽出機能部41と、変換行列ファイル42と、座標系変換機能部43と、LiDAR補間機能部44とを備える。デプスマップ生成機能部50は、LiDAR情報からの抽出機能群40の抽出結果に基づいてデプスマップを生成する。
 その結果、パーティクルフィルタ機能部30には、ビデオ情報からの検出機能群20からBoundingBox&ラベル情報が入力されるとともに(入力1)、デプスマップ生成機能部50からデプスマップが入力される(入力2)。また、パーティクルフィルタ機能部30からは、物体の重心位置,BoundingBox&ラベル情報が出力される。
 <パーティクルフィルタ機能部:処理の流れ>
 図9は、本発明の実施の形態におけるパーティクルフィルタ機能部30が行う処理の流れを示す図である。図9に示すように、パーティクルフィルタ機能部30は、BoundingBox&ラベル情報、デプスマップが入力されると、各クラスの尤度関数を更新し(S10)、パーティクルフィルタを用いた物体検出と追跡を行い(S20)、物体の重心位置,BoundingBox&ラベル情報を出力する。
 図10は、各クラスの尤度関数の更新(S10)の詳細を示す図である。図10に示すように、1フレーム目のみ、YOLOのBoxを基準に、パーティクル、尤度関数H(1)を初期化する(S11)。以降、各時刻tで、YOLOのBox内にあるパーティクルを抽出する(S12)。ここで、YOLOのBoxが無い場合又はBox内にパーティクルが1個も無い場合(S13)、尤度関数を更新しない(H(t)=H(t-1))。一方、Box内にパーティクルが存在する場合(S14)、抽出したパーティクルを用い尤度関数H′(t)を計算し、前フレームの尤度関数と混合し、現フレームの尤度関数とおく(H(t)=αH′(t)+{1-αH(t-1)})。最後に、物体数のフィルタリングを行う(S15)。このフィルタリングでは、似通った物体は同じ物体とみなして統合し、またロストした物体は除去する。
 図11は、パーティクルフィルタ(S20)の詳細を示す図である。図11に示すように、まず、各パーティクルの尤度を更新する(S21)。具体的には、各パーティクル近辺の領域でヒストグラムを作り、尤度関数との距離を計算する。また、尤度関数との距離をパーティクルの尤度(物体らしさ)とする。更に、ラベルが対応するYOLOのBox内にパーティクルが入っていたら、尤度をさらに上げる。次いで、リサンプリングを行う(S22)。具体的には、尤度の低いパーティクルを淘汰(尤度の高いパーティクルで置換)する。次いで、観測を行う(S23)。具体的には、各パーティクルの重み付け平均により、重心とBounding-Boxを計算する。最後に、位置予測を行う(S24)。具体的には、各パーティクルの位置およびヒストグラムの計算領域をランダムに変更する。
 <まとめ>
 以上のように、本発明の実施の形態における物体追跡装置1は、映像中の物体を追跡する装置であって、深層学習による識別器である深層学習識別器2と、深層学習識別器2による特徴量を含んだ映像のマルチチャネル特徴量を用いて、マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部3とを備える。これにより、映像中の時系列を考慮した物体追跡を行うことができる結果、動きの変動や観測のノイズに対しても頑健な物体検出と追跡を実現することが可能となる。
 具体的には、物体追跡装置1は、以下の(a)(b)(c)の特徴を備える。
 まず、(a)深層学習識別器による特徴量を用いる。すなわち、物体検出結果(ラベルや矩形領域)だけでなく、深層学習の中間層から得られる結果なども含めた、深層学習を用いて得られる特徴量全般を取り扱う。
 また、(b)深層学習の特徴量に他の特徴量を組み合わせたマルチチャネル特徴量を用いる。すなわち、深層学習の情報だけでなく、色や輪郭の情報、深度センサによるデプス情報など、映像にオーバーレイされる各種特徴量についても統合的に取り扱うことができる物体追跡機能を備える。
 更に、(c)「パーティクルと深層学習の位置情報の距離関係を尤度に反映する」という制約が存在する。すなわち、深層学習とパーティクルフィルタの組み合わせ方に関して具体化したものであると言える。
 ここで、パーティクルフィルタ機能部3は、マルチチャネル特徴量をもとに、シーンの状態により各パーティクルの尤度の重み付けを動的に変更してもよい。すなわち、システムを使用するユーザ自身が、マルチチャネル特徴量に関する各チャネルの寄与の割合を動的に変更することが可能である。
 上記したように、深層学習を含んだマルチチャネル特徴量を統合的に取り扱える物体追跡機能を備えた上で、マルチチャネルの特徴量を重み付けして統合する。マルチチャネル特徴量の重み付けについては、パーティクルフィルタ内の尤度関数および尤度の更新、リサンプリングによって自動的に実現されている。
 また、パーティクルフィルタ機能部3は、各物体について、深層学習識別器2により検出された物体の矩形とラベルが一致し、かつ矩形内に存在するパーティクルのみを抽出し、各パーティクル周辺の画素領域を抽出し、それらの画素領域に対して特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成し、時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数としてもよい。これにより、深層学習識別器2による物体検出結果を用いて、各物体の尤度関数を更新することが可能である。
 また、パーティクルフィルタ機能部3は、あるパーティクルが深層学習識別器2の検出矩形内に存在する場合に、深層学習識別器2が検出した矩形の信頼度をp、矩形中心から四隅までの距離をR、パーティクルまでの距離をr、時刻tにおけるパーティクルの尤度をπt、深層学習識別器2の寄与率を決めるパラメータをβとしたとき、下式によりパーティクルの尤度を更新してもよい。これにより、深層学習識別器2による物体検出結果を用いて、各パーティクルの尤度を更新することが可能である。
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
 また、パーティクルフィルタ機能部3は、深層学習識別器2の検出結果の信頼度pが高いほど、またパーティクルの位置が矩形中心に近いほど、パーティクルが「より物体らしい」と評価してもよい。これにより、深層学習識別化がパーティクルフィルタの物体追跡性能を補うことが期待される。
 更に、センサ部4を備え、パーティクルフィルタ機能部3は、深層学習識別器2による物体検出結果に加え、センサ部4からのセンサデータをパーティクルフィルタの尤度評価に組み合わせてもよい。これにより、環境に適した評価を取り入れながら頑強に物体検出と追跡の双方を行うことが可能となる。
 以上説明したように、従来技術では、複数の物体があるときに一方の遮蔽が大きい場合や動きの激しい物体の追跡に失敗していた。本発明の実施の形態によれば、複数画像フレームのデータに対してパーティクルフィルタの尤度に基づいて物***置を推定することで、追跡の精度を向上させることが可能である。
 なお、本発明は、物体追跡装置1として実現することができるだけでなく、物体追跡装置1が備える特徴的な各機能部を各ステップとする物体追跡方法として実現したり、物体追跡装置1が備える特徴的な各機能部としてコンピュータを機能させるためのコンピュータプログラムとして実現したりすることもできる。そして、そのようなコンピュータプログラムは、CD-ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのはいうまでもない。
 1…物体追跡装置
 2…深層学習識別器
 3…パーティクルフィルタ機能部
 4…センサ部
 10…物体追跡装置
 20…ビデオ情報からの検出機能群
 30…パーティクルフィルタ機能部
 40…LiDAR情報からの抽出機能群
 50…デプスマップ生成機能部

Claims (8)

  1.  映像中の物体を追跡する物体追跡装置であって、
     深層学習による識別器である深層学習識別器と、
     前記深層学習識別器による特徴量を含んだ映像のマルチチャネル特徴量を用いて、前記マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡するパーティクルフィルタ機能部と
     を備えることを特徴とする物体追跡装置。
  2.  前記パーティクルフィルタ機能部は、前記マルチチャネル特徴量をもとに、シーンの状態により各パーティクルの尤度の重み付けを動的に変更することを特徴とする請求項1に記載の物体追跡装置。
  3.  前記パーティクルフィルタ機能部は、各物体について、前記深層学習識別器により検出された物体の矩形とラベルが一致し、かつ矩形内に存在するパーティクルのみを抽出し、各パーティクル周辺の画素領域を抽出し、それらの画素領域に対して特徴量を計算することで、時刻tにおける追跡物体の特徴量ヒストグラムを作成し、時刻t-1のヒストグラムと時刻tのヒストグラムの重み付け和を取ることにより、時刻tにおける追跡物体の尤度関数とすることを特徴とする請求項1又は2に記載の物体追跡装置。
  4.  前記パーティクルフィルタ機能部は、あるパーティクルが前記深層学習識別器の検出矩形内に存在する場合に、前記深層学習識別器が検出した矩形の信頼度をp、矩形中心から四隅までの距離をR、前記パーティクルまでの距離をr、時刻tにおける前記パーティクルの尤度をπt、前記深層学習識別器の寄与率を決めるパラメータをβとしたとき、下式により前記パーティクルの尤度を更新することを特徴とする請求項3に記載の物体追跡装置。
    Figure JPOXMLDOC01-appb-M000001
    Figure JPOXMLDOC01-appb-M000002
  5.  前記パーティクルフィルタ機能部は、前記深層学習識別器の検出結果の信頼度pが高いほど、また前記パーティクルの位置が矩形中心に近いほど、前記パーティクルが「より物体らしい」と評価することを特徴とする請求項4に記載の物体追跡装置。
  6.  更に、センサ部を備え、
     前記パーティクルフィルタ機能部は、前記深層学習識別器による物体検出結果に加え、前記センサ部からのセンサデータを前記パーティクルフィルタの尤度評価に組み合わせることを特徴とする請求項1から5のいずれか1項に記載の物体追跡装置。
  7.  映像中の物体を追跡する物体追跡方法であって、
     映像中の物体を追跡する物体追跡装置が、
     深層学習による識別器である深層学習識別器が物体を検出する検出ステップと、
     前記深層学習識別器による特徴量を含んだ映像のマルチチャネル特徴量を用いて、前記マルチチャネル特徴量の位置情報とパーティクルの位置情報の距離に応じてパーティクルフィルタの尤度評価に適用することで、物体を追跡する追跡ステップと
     を実行することを特徴とする物体追跡方法。
  8.  請求項1乃至6のいずれか1項に記載した各機能部としてコンピュータを機能させることを特徴とするコンピュータプログラム。
PCT/JP2019/008342 2018-03-05 2019-03-04 物体追跡装置、物体追跡方法、及びコンピュータプログラム WO2019172172A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/978,360 US11257224B2 (en) 2018-03-05 2019-03-04 Object tracker, object tracking method, and computer program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-038232 2018-03-05
JP2018038232A JP6850751B2 (ja) 2018-03-05 2018-03-05 物体追跡装置、物体追跡方法、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2019172172A1 true WO2019172172A1 (ja) 2019-09-12

Family

ID=67846251

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/008342 WO2019172172A1 (ja) 2018-03-05 2019-03-04 物体追跡装置、物体追跡方法、及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US11257224B2 (ja)
JP (1) JP6850751B2 (ja)
WO (1) WO2019172172A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111294643A (zh) * 2020-01-21 2020-06-16 海信视像科技股份有限公司 在显示设备中显示音轨语言的方法及显示设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102615422B1 (ko) * 2019-10-08 2023-12-20 삼성디스플레이 주식회사 물체 검출 후-처리 장치, 및 이를 포함하는 표시 장치
JP6818283B1 (ja) * 2020-03-18 2021-01-20 マルハニチロ株式会社 計数システム、計数装置、計数方法およびプログラム
US11783612B1 (en) * 2020-08-26 2023-10-10 Amazon Technologies, Inc. False positive suppression using keypoints
TWI783572B (zh) * 2021-07-14 2022-11-11 信驊科技股份有限公司 物件追蹤方法及物件追蹤裝置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016219004A (ja) * 2015-05-18 2016-12-22 ゼロックス コーポレイションXerox Corporation 一般物体提案を用いる複数物体の追跡

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016219004A (ja) * 2015-05-18 2016-12-22 ゼロックス コーポレイションXerox Corporation 一般物体提案を用いる複数物体の追跡

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAYASHI HIDETAKA ET AL.: "Tracking and Individual Identification of Japanese Macaque Using Deep Learning and Particle Filter", IEICE TECHNICAL REPORT, vol. 117, no. 238, 5 October 2017 (2017-10-05), pages 121 - 125 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111294643A (zh) * 2020-01-21 2020-06-16 海信视像科技股份有限公司 在显示设备中显示音轨语言的方法及显示设备

Also Published As

Publication number Publication date
US20210042935A1 (en) 2021-02-11
US11257224B2 (en) 2022-02-22
JP6850751B2 (ja) 2021-03-31
JP2019153112A (ja) 2019-09-12

Similar Documents

Publication Publication Date Title
WO2019172172A1 (ja) 物体追跡装置、物体追跡方法、及びコンピュータプログラム
US10885372B2 (en) Image recognition apparatus, learning apparatus, image recognition method, learning method, and storage medium
US8619135B2 (en) Detection of abnormal behaviour in video objects
US9213896B2 (en) Method for detecting and tracking objects in image sequences of scenes acquired by a stationary camera
CN107452015B (zh) 一种具有重检测机制的目标跟踪***
CN106846359A (zh) 基于视频序列的运动目标快速检测方法
AU2017272325A1 (en) System and method of generating a composite frame
TWI667621B (zh) 人臉辨識方法
CN110006444B (zh) 一种基于优化混合高斯模型的抗干扰视觉里程计构建方法
CN110555868A (zh) 一种复杂地面背景下运动小目标检测方法
CN109460764A (zh) 一种结合亮度特征与改进帧间差分法的卫星视频船舶监测方法
CN106657948A (zh) 低照度Bayer图像的增强方法及增强装置
CN110782442A (zh) 一种基于多域耦合的图像人工模糊检测方法
CN101710426B (zh) 一种深度图像跟踪方法
CN103425958B (zh) 一种视频中不动物检测的方法
KR20160108979A (ko) 표적 추적 방법 및 장치
JP6558831B2 (ja) オブジェクト追跡装置、方法およびプログラム
CN105208402B (zh) 一种基于运动对象与图像分析的视频帧复杂度测度方法
CN107067411B (zh) 一种结合密集特征的Mean-shift跟踪方法
CN111914689B (zh) 一种图像型火灾探测器的火焰识别方法
CN111860161B (zh) 一种目标遮挡检测方法
Tsai et al. Multiple human objects tracking in crowded scenes
Hammer et al. Motion segmentation and appearance change detection based 2D hand tracking
Takada et al. Human tracking in crowded scenes using target information at previous frames
CN111191524A (zh) 运动人群计数方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19763901

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19763901

Country of ref document: EP

Kind code of ref document: A1