CN107274433B - 基于深度学习的目标跟踪方法、装置及存储介质 - Google Patents

基于深度学习的目标跟踪方法、装置及存储介质 Download PDF

Info

Publication number
CN107274433B
CN107274433B CN201710474118.1A CN201710474118A CN107274433B CN 107274433 B CN107274433 B CN 107274433B CN 201710474118 A CN201710474118 A CN 201710474118A CN 107274433 B CN107274433 B CN 107274433B
Authority
CN
China
Prior art keywords
target
frame
current frame
area
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710474118.1A
Other languages
English (en)
Other versions
CN107274433A (zh
Inventor
王欣
石祥文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201710474118.1A priority Critical patent/CN107274433B/zh
Publication of CN107274433A publication Critical patent/CN107274433A/zh
Application granted granted Critical
Publication of CN107274433B publication Critical patent/CN107274433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image
    • G06T2207/30224Ball; Puck
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度学***稳设定中心点位置,并得到搜索区域;将目标区域与搜索区域输入卷积神经网络计算得到当前帧目标区域;计算得到当前帧相对于前一帧目标的帧间位移;判断当前帧是否为最后一帧,以判断是否继续进行迭代的目标跟踪。本发明通过判断目标物体在图像中运动快速的快慢,来实现对当前帧裁剪区域的中心点位置的预测,相对于已有算法,在基本保持了原有的高的跟踪速度的前提下,提高了目标跟踪准确率和目标重合度,并且具有较好的跟踪鲁棒性。

Description

基于深度学习的目标跟踪方法、装置及存储介质
技术领域
本发明涉及图像处理领域,具体的,涉及一种在图像处理中基于深度学习的目标跟踪方法、装置及存储介质。
背景技术
目标跟踪在计算机视觉领域是一项富有挑战性的研究课题,因其在安防、交通、军事、虚拟现实、医学影像等众多领域都有其广泛地应用,而成为一个研究热点。目标跟踪目的是在有序图像序列中确定目标物体的连续位置,以便于进行进一步分析和处理,从而实现对目标物体运动行为的分析和理解。进入二十一世纪以来,信息技术得以高速发展,计算机的计算性能以及摄像机等图像采集设备的采集质量都在逐步提高,加上人们对于自身以及财产安全的日趋重视,越来越多的专家学者投身于研究目标跟踪相关技术。
目标跟踪技术是计算机视觉领域的核心研究课题之一,它包含了计算机图形学、目标识别、人工智能以及自动控制等多方面技术。目标跟踪技术起源于上世纪50年代,经过60多年的不断发展,目前已经提出了多种跟踪算法,比如均值漂移算法(Mean Shift)、背景差分法(Background difference method)、背景建模法(Background modeling)、光流法(optical flow method)、卡尔曼滤波器(Kalman Filter)、粒子滤波器(Particle Filter)以及以上述算法为基础的各种改进算法等,但是这些算法基本上都存在一定的问题和缺陷,比如跟踪精度较低或者实时性较差,难以满足现实场景应用的各种需求。
自从2006年深度学习(Deep Learning)的概念提出以后,深度学习的研究开始变得流行起来,越来越多的专家学者投身到深度学习的研究中来,深度学习在许多领域都取得了突破性进展,也得到了广泛应用,比如计算机视觉、图像处理、自然语言处理、信息分类、搜索以及大数据等领域。自然而然地,人们开始尝试采用深度学习的方法来解决目标跟踪问题。但是,采用深度学习的方式研究目标跟踪的算法,由于庞大的计算量,往往都比较慢,实时性较差,难以满足实际应用的要求。
因此,如何在目标跟踪中既提高跟踪精度又提高跟踪效率,成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于提出一种基于深度学习的目标跟踪方法、装置及存储介质,对输入视频逐帧处理,实现对目标物体的精确跟踪,通过大量带标签数据的离线训练,使得神经网络具有较强的特征泛化能力,提高了跟踪精度,通过剪裁和GPU加速等手段,加快了运算速度,提高了跟踪效率。
为达此目的,本发明采用以下技术方案:
一种基于深度学习的目标跟踪方法,包括如下步骤:
图片读取步骤S110:连续读取两帧图片,包括前一帧图片和当前帧图片,所述前一帧图片具有已计算得知的目标位置,所述当前帧图片需要计算目标位置;
区域设定步骤S120:分别设定并裁剪前一帧的目标区域和当前帧的搜索区域;
所述设定并裁剪前一帧的目标区域具体为:根据前一帧已知目标的中心点位置c=(cx,cy)作为中心点,以矩形框作为第一包围盒对目标物体进行标记,第一包围盒的高度为h,宽度为w,经过剪裁后得到的目标区域的高度和宽度分别为k1h和k1w。参数k1用于控制目标区域的大小;
所述设定并裁剪当前帧的搜索区域具体为:判断物体在图像中运动是否平稳,如果速度稳定,则当前帧的搜索区域的中心点位置 c'=(c'x,c'y)等于前一帧的已知目标的中心点位置c=(cx,cy)加上前两帧图像目标的帧间位移S,如果速度剧烈变化,例如迅速减小或者增大,则当前帧的搜索区域的中心点位置c'=(c'x,c'y)为前一帧的已知目标的中心点位置c=(cx,cy),即以前一帧的目标中心点位置作为当前帧的剪裁中心,以矩形框作为第二包围盒进行标记,第二包围盒的高度为h,宽度为w,经过剪裁后得到的搜索区域的高度和宽度分别为k2h和 k2w。参数k2用于控制搜索区域的大小;
特征提取及对比步骤S130:将目标区域与搜索区域输入卷积神经网络(CNN),进行特征提取和特征对比,计算得到当前帧的目标区域;
帧间位移计算步骤S140:利用当前帧的目标区域和前一帧的目标区域,计算得到当前帧相对于前一帧目标的帧间位移;
判断步骤S150:判断当前帧是否为最后一帧,如果是,则跟踪结束,否则进入图片读取步骤S110,继续读取连续两帧图片,继续进行迭代的目标跟踪。
优选的,在区域设定步骤S120中,判断目标物体在图像中是否运动平稳为:比较在当前帧之前的连续三帧中相邻两帧的目标的帧间位移,如果连续三帧中相邻两帧的帧间位移相差较小,则认为运动稳定;如果连续三帧中相邻两帧的帧间位移相差较大,则认为运动速度剧烈变化。
优选的,在区域设定步骤S120中,判断连续三帧中相邻两帧的帧间位移相差较小是,是否小于前两帧帧间位移的1/3;
控制区域大小的k2和k1均取值为2。
优选的,在区域设定步骤S120中,为了避免由于运动速度变化过快,而导致当前帧目标的实际位置超出第二包围盒的情况,当速度发生剧烈变化时,增大第二包围盒的大小,即增大k2的数值。
优选的,特征提取及对比步骤S130具体为,首先在卷积层对目标区域和搜索区域进行特征提取,然后将提取到的特征输入到全连接层,在全连接层对目标区域和搜索区域进行特征比较,最后计算后得到当前帧的目标区域。
本发明进一步公开了一种基于深度学习的目标跟踪装置,包括如下:
图片读取单元:连续读取两帧图片,包括前一帧图片和当前帧图片,所述前一帧图片具有已计算得知的目标位置,所述当前帧图片需要计算目标位置;
区域设定单元:分别设定并裁剪前一帧的目标区域和当前帧的搜索区域;
所述设定并裁剪前一帧的目标区域具体为:根据前一帧已知目标的中心点位置c=(cx,cy)作为中心点,以矩形框作为第一包围盒对目标物体进行标记,第一包围盒的高度为h,宽度为w,经过剪裁后得到的目标区域的高度和宽度分别为k1h和k1w。参数k1用于控制目标区域的大小;
所述设定并裁剪当前帧的搜索区域具体为:判断物体在图像中运动是否平稳,如果速度稳定,则当前帧的搜索区域的中心点位置 c'=(c'x,c'y)等于前一帧的已知目标的中心点位置c=(cx,cy)加上前两帧图像目标的帧间位移S,如果速度剧烈变化,例如迅速减小或者增大,则当前帧的搜索区域的中心点位置c'=(c'x,c'y)为前一帧的已知目标的中心点位置c=(cx,cy),即以前一帧的目标中心点位置作为当前帧的剪裁中心,以矩形框作为第二包围盒进行标记,第二包围盒的高度为h,宽度为w,经过剪裁后得到的搜索区域的高度和宽度分别为k2h和k2w。参数k2用于控制搜索区域的大小;
特征提取及对比步骤:将目标区域与搜索区域输入卷积神经网络 (CNN),进行特征提取和特征对比,计算得到当前帧的目标区域;
帧间位移计算单元:利用当前帧的目标区域和前一帧的目标区域,计算得到当前帧相对于前一帧目标的帧间位移;
判断单元:判断当前帧是否为最后一帧,如果是,则跟踪结束,否则继续由图片读取单元读取连续两帧图片,进行迭代的目标跟踪。
优选的,在区域设定单元中,判断物体在图像中是否运动平稳为:比较在当前帧之前的连续三帧中相邻两帧的目标的帧间位移,如果连续三帧中相邻两帧的帧间位移相差较小,则认为运动稳定;如果连续三帧中相邻两帧的帧间位移相差较大,则认为运动速度剧烈变化。
优选的,在区域设定单元中,判断连续三帧中相邻两帧的帧间位移相差较小是,是否小于前两帧帧间位移的1/3;
控制区域大小的k2和k1均取值为2。
优选的,在区域设定单元(220)中,为了避免由于运动速度变化过快,而导致当前帧目标的实际位置超出第二包围盒的情况,当速度发生剧烈变化时,增大第二包围盒的大小,即增大k2的数值;和/或
特征提取及对比单元(230)首先在卷积层对目标区域和搜索区域进行特征提取,然后将提取到的特征输入到全连接层,在全连接层对目标区域和搜索区域进行特征比较,最后计算后得到当前帧的目标区域。
一种存储介质,用于存储计算机可执行指令,
所述计算机可执行指令在被处理器执行时执行如上述的目标跟踪方法。
本发明通过判断物体在图像中是否快速运动,或者说运动时是否平稳,从而通过上一帧目标中心点的位置来设定当前帧裁剪区域的中心点位置,相对于已有算法提高了目标跟踪准确率,目标重合度高,并基本保持了原有的高的跟踪速度,且具有较好的算法鲁棒性。
附图说明
图1是根据本发明具体实施例的基于深度学习的目标跟踪方法的原理示意图;
图2是根据本发明具体实施例的基于深度学习的目标跟踪方法的流程示意图;
图3是根据本发明具体实施例的基于深度学习的目标跟踪方法的运动模型示意图;
图4是根据本发明具体实施例的目标跟踪方法的跟踪鲁棒性的对比示例;
图5是根据本发明具体实施例的目标跟踪方法的跟踪鲁棒性的另一个对比示例
图6是根据本发明的基于深度学习的目标跟踪装置的模块图.
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
参见图1,示出了根据本发明的基于深度学习的目标跟踪方法的网络构架图。
本发明是一种迭代循环的方法,在前一帧中已知目标的位置,包括其目标中心,以目标位置为中心设定矩形框作为第一包围盒对目标物体进行标记,并扩大化后剪裁得到目标区域;通过前一帧的目标位置预测当前帧的搜索位置,并以搜索位置为中心设定矩形框作为第二包围盒,并扩大化后剪裁得到搜索区域,目标区域与搜索区域的大小可以相同也可以不同,然后输入卷积神经网络(CNN)进行计算从而得到当前帧的目标位置。
在本发明中优选使用Caffe(Convolution Architecture For FeatureExtraction)框架进行计算,网络的卷积层采用的是CaffeNet的前5个卷积层,后面3层是全连接层,每个全连接层具有4096个神经节点,全连接层最后的输出层具有4个神经节点,分别输出跟踪目标的左上和右下两对坐标值,从而计算得到当前帧的目标位置。
进一步的参见图2,示出了根据本发明的基于深度学习的目标跟踪方法的流程图,包括如下步骤:
图片读取步骤S110:连续读取两帧图片,包括前一帧图片和当前帧图片,所述前一帧图片具有已计算得知的目标位置,所述当前帧图片需要计算目标位置。
如上所述,本发明是一种循环迭代的算法,在步骤S110中,每次读取的连续两帧图片都有一张是重复上一次的,比如:本次读取了第t-1帧和第t帧,则第t-1的目标位置已知,需要计算第t帧的目标位置;下次读取的就是第t帧和第t+1帧,接着计算第t+1帧的剪裁中心。
区域设定步骤S120:分别设定并裁剪前一帧的目标区域和当前帧的搜索区域;
所述设定并裁剪前一帧的目标区域具体为:根据前一帧已知目标的中心点位置c=(cx,cy),以矩形框作为第一包围盒对目标物体进行标记,第一包围盒的高度为h,宽度为w,经过剪裁后得到的目标区域的高度和宽度分别为k1h和k1w。参数k1用于控制目标区域的大小;
所述设定并裁剪当前帧的搜索区域具体为:判断物体在图像中的运动是否平稳,如果运动稳定,则当前帧的搜索区域的中心点位置 c'=(c'x,c'y)等于前一帧的已知目标的中心点位置c=(cx,cy)加上前两帧图像目标的帧间位移S,如果速度剧烈变化,例如迅速减小或者增大,则当前帧的搜索区域的中心点位置c'=(c'x,c'y)为前一帧的已知目标的中心点位置c=(cx,cy),即以前一帧的目标中心点位置作为当前帧的剪裁中心,以矩形框作为第二包围盒进行标记,第二包围盒的高度为h,宽度为w,经过剪裁后得到的搜索区域的高度和宽度分别为k2h和 k2w。参数k2用于控制搜索区域的大小。
在一个实施例中,k2和k1均取值为2。
进一步的,判断物体在图像中是否运动平稳为:比较在当前帧之前的连续三帧中相邻两帧的目标的帧间位移,如果连续三帧中相邻两帧的帧间位移相差较小,例如小于前两帧帧间位移的1/3,则认为运动即速度稳定;如果连续三帧中相邻两帧的帧间位移相差较大,例如大于前两帧帧间位移的1/3,则认为速度剧烈变化。所述帧间位移即指的是目标连续两帧在图像中的相对位置的变化。
具体而言,首先将前一帧图片(第t-1帧)进行剪裁,跟踪目标位于剪裁后的图像块中间位置。在跟踪过程中,用矩形框作为第一包围盒对目标物体进行标记,设包围盒的中心点坐标为c=(cx,cy),高度为h,宽度为w,经过剪裁后得到的图片的高度和宽度分别为k1h和k1w。参数k1用于控制目标区域的大小,决定了剪裁后的图片中背景信息的多少,k1值越大,则剪裁的图片面积也就越大,所包含的背景信息相应增多;同样的,k1值取的越小,则剪裁的图片面积随之变小,所包含的背景信息也就越少。对于运动速度剧烈变化的物体,应该增加k1的值来扩大目标区域,本发明的实验环境下k1的值取2。
对于当前帧而言,现实场景中,不同的物体一般具有不同的运动速度,有些物体的运动速度会非常快,可能还会剧烈变化(迅速减小或者迅速增大)。快速运动的目标物体经摄像机捕捉拍摄成视频并切分成帧之后,连续的两帧图片之间,目标物体在图片中位置(并非在场景中的绝对位置)会存在一定的帧间差,运动速度较低帧间差较小,运动速度较高则帧间差相应增大。
首先参见图3,示出了根据本发明具体实施例的基于深度学习的目标跟踪方法的运动模型示意图。
假设当前帧(第t帧)目标位于xt位置处,第t-1帧目标位于xt-1位置处,第t-2帧位于xt-2位置处,第t-3帧位于xt-3位置处,第t+1 帧位于xt+1位置处,令:
st-2=xt-2-xt-3……………………………(1)
st-1=xt-1-xt-2………………………………(2) 其中,st-2表示第t-3帧与第t-2帧间的位移,方向为xt-3指向xt-2;st-1表示第t-2帧与第t-1帧间的位移,方向为xt-2指向xt-1
下面将目标物体的运动速度分为减速和加速两个过程进行分别讨论:
(1)当目标物体的运动处于减速过程时,如xt-3到xt+1段的运动轨迹所示。
其中,xt-3到xt-1段的速度变化不明显,即st-2和st-1的大小相差不大;而xt-1到xt+1段,速度快速降为0。对于目标运动速度变化的快慢程度,经多次实验,本发明取
Figure BDA0001327807390000091
作为判断标准。
Figure BDA0001327807390000092
时,即连续三帧目标的位移量相差较小,表明目标物体的运动速度变化不大,如xt-3到xt段。此时,当前帧的剪裁中心xt'的值按下式求得:
xt'=xt-1+st-1…………………………(3)
由图3中可以看出,剪裁中心xt'的位置与当前帧(第t帧)的实际位置xt之间的距离远小于前一帧(第t-1帧)的实际位置xt-1与当前帧(第t帧)的实际位置xt之间的距离,说明本发明提出的这种运动模型对于快速运动的目标物体的跟踪,具有更加明显的优势。
Figure BDA0001327807390000101
时,即连续两帧的位移相差较大,表明目标物体的运动速度变化较大,如xt-1到xt+1段。此时,当前帧的剪裁中心xt' 按下式求得:
xt'=xt………………………………(4)
即这里,当速度剧烈变化时,把前一帧(第t-1帧)的目标中心作为当前帧(第t帧)的剪裁中心。另外,本发明中t的取值范围是 t≥4,对于第2帧和第3帧的跟踪,也同样适用于公式4。
(2)当目标物体的运动处于加速过程时,如xt+1到xt+5段的运动轨迹所示。其中,xt+1到xt+3段的速度由0快速增加,此时的剪裁中心对照xt-1到xt+1段进行求解;而xt+3到xt+5段的速度变化不明显,此时的剪裁中心对照xt-3到xt-1段进行求解。
假设当前帧图片(第t帧)中目标物体的中心点坐标为c'=(c'x,c'y),根据公式(3)和公式(4)计算得到当前帧的剪裁中心,并以此位置为中心,高度为h,宽度为w设定第二包围盒,然后以k2h和k2w设定搜索区域,k2和k1一样,同样取值为2。
因此,在本步骤中,首先通过相邻三帧的帧间位移来判断物体运动是否平稳,如果帧间位移的差值较小,即物体运动较为稳定时,则当前帧(第t帧)的剪裁中心由前一帧(第t-1帧)的目标位置加上之前两帧(第t-2和t-1帧)间的位移S求得;当其速度剧烈变化时(迅速减小或者增大),帧间位移变化较大,仍然采用目标位置加上之前两帧间的位移S来预测当前帧的剪裁中心已经不具备参考意义,可能还会带来更大误差,因此,为了更加准确的预测当前帧的剪裁中心,在这里把前一帧(第t-1帧)的目标位置作为当前帧(第t帧) 的剪裁中心来进行计算。
进一步的,为了避免由于运动速度变化过快,而导致当前帧目标的实际位置超出第二包围盒的情况,当速度发生剧烈变化时,能够增大第二包围盒的大小,即增大k2的数值,这样从而增加搜索比较的区域,以避免上述情况的发生。
特征提取及对比步骤S130:将目标区域与搜索区域输入卷积神经网络(CNN),进行特征提取和特征对比,计算得到当前帧的目标区域。
具体的,首先在卷积层对目标区域和搜索区域进行特征提取,然后将提取到的特征输入到全连接层,在全连接层对目标区域和搜索区域进行特征比较,最后计算后得到当前帧的目标区域。
该步骤是使用卷积神经网络进行当前帧目标区域的获取,在使用之前,该卷积神经网络应当利用视频和/或图片进行深度学习,即训练。
帧间位移计算步骤S140:利用当前帧的目标区域和前一帧的目标区域,计算得到当前帧相对于前一帧目标的帧间位移。
该步骤是用于迭代计算中,在区域设定步骤中用于计算物体是否 是运动速度发生剧烈变化,以及计算搜索区域的中心位置。
判断步骤S150:判断当前帧是否为最后一帧,如果是,则跟踪结束,否则,进入图片读取步骤S110,继续读取连续两帧图片,继续进行迭代的目标跟踪。
该步骤是用于判断目标跟踪是否已经结束还是应当继续进行。
本发明的网络训练采用如下方法:
1.训练集
训练集包括视频和图片两部分,其中视频来自于ALOV300++数据集,图片来自于ImageNet2012数据集。
ALOV300++数据集是一个视频数据集,常被用来检测各种目标跟踪算法的性能,其网址为:http://alov300pp.joomlafree.it/。 ALOV300++数据集中共有314段视频,包含14个类型的视频:Light、 SurfaceCover、Specularity、Transparency、Shape、MotionSmoothness、MotionCoherence、Clutter、Confusion、 LowContrast、Occlusion、MovingCamera、ZoomingCamera、 LongDuration,分别针对光照改变、遮挡、目标形变、摄像机移动等问题进行分类,可以有效的针对这些问题对神经网络进行训练,以更好的应对和处理这些难题。除了第14类LongDuration包含10段1-2 分钟的长视频外,其他视频都比较短,平均时长9.2秒每段,最大时长35秒。这些视频被切分成帧,以图片形式呈现,共约15万帧图片,包含314种不同类型的目标物体,所有图片中目标物体的位置均被手工标记了Ground Truth。
本发明将这314段视频序列分成两部分,划分方法是每隔5段视频抽取1段。例如,Light类型的视频共33段,抽取编号为1、6、 11、16、21、26、31共7段视频,其他类型的视频同样按照该方法进行划分。划分完成后,第一部分251段视频序列,包含11.8万张图片,用于训练网络;第二部分64段视频序列,包含3.2万张图片,用作验证集,用于神经网络超参数微调(hyper-parameter tuning)。
ImageNet2012数据集是一个海量的图片数据集,包含135万张图片,其中训练集120万张,验证集5万张,测试集10万张。鉴于 ImageNet2012数据集庞大的数据量,无法全部将其用于训练网络,将其中的测试集图片10万张作为本发明的训练集。本发明用该图片训练集对神经网络进行预训练,以充分利用ImageNet2012数据集海量的图片信息,增加神经网络的分类识别能力,使网络学会目标物体的表观模型。
2.测试集
测试集用的是VOT2016数据集,这也是一个视频数据集,共60 段视频,包含2.1万张图片,所有图片中目标物体的位置均被手工标记了Ground Truth,网址:http://www.votchallenge.net/vot2016/dataset.html。VOT2016数据集是一个目标跟踪标准数据集,使用它可以同目前最先进的各种目标跟踪算法进行对比和量化。VOT2016数据集包含丰富的物体种类,针对目标跟踪中的遮挡、光照改变、目标形变、相机移动等难题,均设有针对性的检测标签,所以,本发明采用该数据集对本发明算法的神经网络进行测试。
3.训练策略
先用ImageNet2012数据集中的部分图片对神经网络进行预训练,训练神经网络在已知图像A中目标物体的特征时,在图像B中准确定位目标物***置的能力,使网络学会目标物体的表观模型;接着用训练集中251段视频序列对神经网络进行训练,让神经网络学习不同种类物体的连续运动,让其获得跟踪视频序列中运动物体的能力,使网络学会目标物体的运动模型;最后用验证集中64段视频序列再次对神经网络进行训练,不断调整神经网络超参数(hyper-parameter tuning),使其获得优秀的目标识别和跟踪能力。
实施例1:
在本实施例中,示出了利用本发明的方法与其他目标跟踪方法的对比示例。
目前,采用深度学习方法研究目标跟踪问题的算法大多较慢,最快的是2016年提出的基于回归网络的通用目标跟踪算法GOTURN (Generic Object Tracking UsingRegression Networks)。为了更加准确、客观的评价本发明算法的性能,本发明设计了多组对比实验和GOTURN算法进行对比,针对目标跟踪算法的准确性、实时性和鲁棒性三个方面的性能进行评价:用跟踪准确率和重合度对跟踪准确性进行量化,用跟踪速度对实时性进行量化,对于鲁棒性的评价本实验进行定性分析。
本发明所设计的对比实验使用的PC机的配置如表1所示:
表1实验装置参数配置
Figure BDA0001327807390000141
(1)目标跟踪的难点与挑战
测试集VOT2016包含60段视频序列,限于篇幅,本发明没有将 60段视频序列全部列出,而是挑选了8段有挑战性的视频进行展示。这8段视频序列包含了大部分目标跟踪问题中常出现的各种挑战和困难,比如相机抖动、光照改变、运动模糊、遮挡、目标尺度变化等,具体情况如表2所示:
表2视频序列中的各种挑战和困难
Figure BDA0001327807390000151
(2)跟踪准确性
本发明定义的目标跟踪准确性是这样计算的:首先计算跟踪结果和Ground Truth之间的中心点误差Serror,然后计算中心点误差Serror小于设定阈值t0(本发明取t0=20像素)的跟踪目标帧数Ft和视频帧总数F的比值E,比值E称为目标跟踪的准确性,计算公式如下:
Figure BDA0001327807390000161
中心点误差Serror通过跟踪结果和Ground Truth之间的平均欧氏距离来计算,计算公式如下:
Figure BDA0001327807390000162
上式中,x和y分别表示跟踪结果在x方向和y方向上的坐标值;xg和 yg分别表示跟踪目标在x方向和y方向上坐标值的Ground Truth。
本发明在测试集VOT2016上做的8组对比实验的数据如表3所示:
表3跟踪准确率(%)
视频序列名称 GOTURN算法 本发明算法
ball1 87.34 91.75
gymnastics2 89.91 95.06
gymnastics3 50.07 81.40
hand 37.85 77.28
leaves 24.60 63.18
motocross1 92.59 94.30
road 71.36 83.86
soccer2 45.77 71.56
表3是GOTURN算法与本发明算法在测试集VOT2016上的跟踪准确率对比实验的部分统计结果。其中,对于ball1、gymnastics2和 motocross1三段序列的跟踪,GOTURN算法已经取得了不错的效果,但是本发明算法的表现更优秀,将跟踪准确率提高了几个百分点。剩余5段视频的跟踪,GOTURN算法的表现不佳,尤其是对于hand序列和leaves序列的跟踪,出现了严重的丢帧现象。由于目标物体较小,剪裁得到的搜索区域也相对较小,对于移动速度较快的物体,帧间位移过大导致目标“跑出”搜索区域,GOTURN算法的跟踪失效。而本发明算法在考虑了帧间位移的影响后,将跟踪准确率提高了较大幅度,其中hand序列和leaves序列的跟踪准确率提高了近40%。
(3)跟踪重合度
本发明定义的跟踪重合度是指目标物体的跟踪框和Ground Truth的标记框之间的比值,计算公式如下:
Figure BDA0001327807390000171
上式中,S表示跟踪重合度;Rg表示Ground Truth的跟踪框的区域大小;R表示目标物体的跟踪框的区域大小;符号∩表示取交集操作;符号∪表示取并集操作。根据公式7,可以看出跟踪重合度越高表明算法的跟踪准确性也就越高。表4列出了8种不同算法在测试集VOT2016中的跟踪重合度。
表4跟踪重合度(%)
Figure BDA0001327807390000172
Figure BDA0001327807390000181
表4是GOTURN算法与本发明算法在测试集VOT2016上的跟踪重合度对比实验的部分统计结果。上一小节中介绍的跟踪准确率衡量的是跟踪目标与Ground Truth之间距离的远近程度,而本小节中的跟踪重合度衡量的是跟踪目标的跟踪框与Ground Truth的标记框之间重合程度。一般来说,相距越近,则重合度也就越高,所以表4中的数据总体上和表3呈现出一致性。对于ball1、gymnastics2和 motocross1三段序列的跟踪,两种算法的表现都相对较好,而对于 hand序列和leaves序列的跟踪,两种算法的表现都不甚理想,但是本发明算法较GOTURN算法的跟踪重合度更高,表明本发明算法比 GOTURN算法更优秀。
(4)跟踪速度
本发明定义的跟踪速度是指某段被跟踪的视频帧总数与跟踪时间的比值,计算公式如下:
Figure BDA0001327807390000182
上式中,V表示跟踪速度;N表示某段被跟踪视频的总帧数;T表示跟踪这段视频的时长。表5列出了不同算法在测试集VOT2016中的跟踪速度。
表5跟踪速度(帧/秒)
Figure BDA0001327807390000183
Figure BDA0001327807390000191
本发明算法和GOTURN算法最大的区别是所采用的运动模型不同,GOTURN算法采用的运动模型过于简单,在跟踪快速运动的目标时表现不佳,本发明构建的运动模型主要用于解决快速运动目标的跟踪问题。本发明设计的运动模型只涉及到一些简单的帧间坐标运算,不涉及复杂的图像操作,算法复杂度增加不大,因此在提高了跟踪准确性的同时,基本上没有降低跟踪速度,基本保持了和GOTURN算法相当的跟踪速度。
(5)跟踪鲁棒性
对于运动速度较慢或者目标物体相对较大的视频序列的跟踪,本发明算法和GOTURN算法的表现相当。为了说明本发明算法的跟踪效果,同时又限于篇幅,挑选了2组运动速度较快或者目标物体相对较小的视频序列的跟踪结果,其中实线框表示GOTURN算法的跟踪结果,虚线框表示本文算法的跟踪结果。
两段视频包括足球和运动的摩托车,这两段视频序列包含了目标跟踪过程中大部分常见困难,同时,目标物体相对较小而且运动速度较快,这些问题给目标的正确跟踪带来了极大挑战。对于足球序列,足球体积相对较小,在被击打或者撞击地面后,其运动速度是很快的,使得目标物体“跑出”搜索区域,导致GOTURN算法跟踪失败。对于运动的摩托车,摩托车的运动速度相当快,而且拍摄距离比较远,使得拍到的图片中目标区域相对较小,这些问题对于GOTURN算法来说相当有挑战性。本发明算法在考虑了帧间差对于目标跟踪的影响后,构建了基于帧间差的运动模型,实验表明本发明算法和GOTURN算法相比具有较好的鲁棒性。
参见图6,本发明进一步公开了一种基于深度学习的目标跟踪装置,包括如下:
图片读取单元210:连续读取两帧图片,包括前一帧图片和当前帧图片,所述前一帧图片具有已计算得知的目标位置,所述当前帧图片需要计算目标位置;
区域设定单元220:分别设定并裁剪前一帧的目标区域和当前帧的搜索区域;
所述设定并裁剪前一帧的目标区域具体为:根据前一帧已知目标的中心点位置c=(cx,cy)作为中心点,以矩形框作为第一包围盒对目标物体进行标记,第一包围盒的高度为h,宽度为w,经过剪裁后得到的目标区域的高度和宽度分别为k1h和k1w。参数k1用于控制目标区域的大小;
所述设定并裁剪当前帧的搜索区域具体为:判断物体在图像中运动是否平稳,如果速度稳定,则当前帧的搜索区域的中心点位置 c'=(c'x,c'y)等于前一帧的已知目标的中心点位置c=(cx,cy)加上前两帧图像目标的帧间位移S,如果速度剧烈变化,例如迅速减小或者增大,则当前帧的搜索区域的中心点位置c'=(c'x,c'y)为前一帧的已知目标的中心点位置c=(cx,cy),即以前一帧的目标中心点位置作为当前帧的剪裁中心,以矩形框作为第二包围盒进行标记,第二包围盒的高度为h,宽度为w,经过剪裁后得到的搜索区域的高度和宽度分别为k2h和 k2w。参数k2用于控制搜索区域的大小;
特征提取及对比单元230:将目标区域与搜索区域输入卷积神经网络(CNN),进行特征提取和特征对比,计算得到当前帧的目标区域;
帧间位移计算单元240:利用当前帧的目标区域和前一帧的目标区域,计算得到当前帧相对于前一帧目标的帧间位移;
判断单元250:判断当前帧是否为最后一帧,如果是,则跟踪结束,否则继续由图片读取单元读取连续两帧图片,进行迭代的目标跟踪。
进一步的,在区域设定单元220中,判断物体在图像中是否运动平稳为:比较在当前帧之前的连续三帧中相邻两帧的目标的帧间位移,如果连续三帧中相邻两帧的帧间位移相差较小,则认为运动稳定;如果连续三帧中相邻两帧的帧间位移相差较大,则认为运动速度剧烈变化。
进一步的,在区域设定单元220中,判断连续三帧中相邻两帧的帧间位移相差较小是,是否小于前两帧帧间位移的1/3;
控制区域大小的k2和k1均取值为2。
进一步的,在区域设定单元220中,为了避免由于运动速度变化过快,而导致当前帧目标的实际位置超出第二包围盒的情况,当速度发生剧烈变化时,增大第二包围盒的大小,即增大k2的数值;和/或
特征提取及对比单元230首先在卷积层对目标区域和搜索区域进行特征提取,然后在全连接层对目标区域和搜索区域进行特征比较,最后计算后得到当前帧的目标区域。
本发明还进一步公开了一种存储介质,用于存储计算机可执行指令,
所述计算机可执行指令在被处理器执行时执行上述的方法。
如本领域技术人员将意识到的,本发明的各个方面可以被实现为***、方法或计算机程序产品。因此,本发明的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“***”的将软件方面与硬件方面相结合的实施方式。此外,本发明的方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体***、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器 (RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本文件的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行***、设备或装置使用的程序或结合指令执行***、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行***、设备或装置使用的或结合指令执行***、设备或装置使用的程序进行通信、传播或传输。
可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。
用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk、C++等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网 (LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (6)

1.一种基于深度学习的目标跟踪方法,包括如下步骤:
图片读取步骤S110:连续读取两帧图片,包括前一帧图片和当前帧图片,所述前一帧图片具有已计算得知的目标位置,所述当前帧图片需要计算目标位置;
区域设定步骤S120:分别设定并裁剪前一帧的目标区域和当前帧的搜索区域;
所述设定并裁剪前一帧的目标区域具体为:根据前一帧已知目标的中心点位置c=(cx,cy),作为中心点,以矩形框作为第一包围盒对目标物体进行标记,第一包围盒的高度为h,宽度为w,经过剪裁后得到的目标区域的高度和宽度分别为k1h和k1w,参数k1用于控制目标区域的大小;
所述设定并裁剪当前帧的搜索区域具体为:判断物体在图像中运动是否平稳,如果速度稳定,则当前帧的搜索区域的中心点位置c′=(c′x,c′y)等于前一帧的已知目标的中心点位置c=(cx,cy)加上前两帧图像目标的帧间位移S,如果速度剧烈变化,则当前帧的搜索区域的中心点位置c′=(c′x,c′y)为前一帧的已知目标的中心点位置c=(cx,cy),即以前一帧的目标中心点位置作为当前帧的剪裁中心,以矩形框作为第二包围盒进行标记,第二包围盒的高度为h,宽度为w,经过剪裁后得到的搜索区域的高度和宽度分别为k2h和k2w,参数k2用于控制搜索区域的大小;
特征提取及对比步骤S130:将目标区域与搜索区域输入卷积神经网络(CNN),进行特征提取和特征对比,计算得到当前帧的目标区域;
帧间位移计算步骤S140:利用当前帧的目标区域和前一帧的目标区域,计算得到当前帧相对于前一帧目标的帧间位移;
判断步骤S150:判断当前帧是否为最后一帧,如果是,则跟踪结束,否则进入图片读取步骤S110,继续读取连续两帧图片,继续进行迭代的目标跟踪;
在区域设定步骤S120中,判断目标物体在图像中是否运动平稳为:比较在当前帧之前的连续三帧中相邻两帧的目标的帧间位移,如果连续三帧中相邻两帧的帧间位移相差较小,则认为运动稳定;如果连续三帧中相邻两帧的帧间位移相差较大,则认为运动速度剧烈变化;
在区域设定步骤S120中,判断连续三帧中相邻两帧的帧间位移相差较小是,是否小于前两帧帧间位移的1/3;
控制区域大小的k2和k1均取值为2。
2.根据权利要求1所述的目标跟踪方法,其特征在于:
在区域设定步骤S120中,为了避免由于运动速度变化过快,而导致当前帧目标的实际位置超出第二包围盒的情况,当速度发生剧烈变化时,增大第二包围盒的大小,即增大k2的数值。
3.根据权利要求1所述的目标跟踪方法,其特征在于:
特征提取及对比步骤S130具体为,首先在卷积层对目标区域和搜索区域进行特征提取,然后将提取到的特征输入到全连接层,在全连接层对目标区域和搜索区域进行特征比较,最后计算后得到当前帧的目标区域。
4.一种基于深度学习的目标跟踪装置,包括如下:
图片读取单元(210):连续读取两帧图片,包括前一帧图片和当前帧图片,所述前一帧图片具有已计算得知的目标位置,所述当前帧图片需要计算目标位置;
区域设定单元(220):分别设定并裁剪前一帧的目标区域和当前帧的搜索区域;
所述设定并裁剪前一帧的目标区域具体为:根据前一帧已知目标的中心点位置c=(cx,cy),作为中心点,以矩形框作为第一包围盒对目标物体进行标记,第一包围盒的高度为h,宽度为w,经过剪裁后得到的目标区域的高度和宽度分别为k1h和k1w,参数k1用于控制目标区域的大小;
所述设定并裁剪当前帧的搜索区域具体为:判断物体在图像中运动是否平稳,如果速度稳定,则当前帧的搜索区域的中心点位置c′=(c′x,c′y)等于前一帧的已知目标的中心点位置c=(cx,cy)加上前两帧图像目标的帧间位移S,如果速度剧烈变化,则当前帧的搜索区域的中心点位置c′=(c′x,c′y)为前一帧的已知目标的中心点位置c=(cx,cy),即以前一帧的目标中心点位置作为当前帧的剪裁中心,以矩形框作为第二包围盒进行标记,第二包围盒的高度为h,宽度为w,经过剪裁后得到的搜索区域的高度和宽度分别为k2h和k2w,参数k2用于控制搜索区域的大小;
特征提取及对比步骤(230):将目标区域与搜索区域输入卷积神经网络(CNN),进行特征提取和特征对比,计算得到当前帧的目标区域;
帧间位移计算单元(240):利用当前帧的目标区域和前一帧的目标区域,计算得到当前帧相对于前一帧目标的帧间位移;
判断单元(250):判断当前帧是否为最后一帧,如果是,则跟踪结束,否则继续由图片读取单元读取连续两帧图片,进行迭代的目标跟踪;
在区域设定单元(220)中,判断物体在图像中是否运动平稳为:比较在当前帧之前的连续三帧中相邻两帧的目标的帧间位移,如果连续三帧中相邻两帧的帧间位移相差较小,则认为运动稳定;如果连续三帧中相邻两帧的帧间位移相差较大,则认为运动速度剧烈变化;
在区域设定单元(220)中,判断连续三帧中相邻两帧的帧间位移相差较小是,是否小于前两帧帧间位移的1/3;
控制区域大小的k2和k1均取值为2。
5.根据权利要求4所述的目标跟踪装置,其特征在于:
在区域设定单元(220)中,为了避免由于运动速度变化过快,而导致当前帧目标的实际位置超出第二包围盒的情况,当速度发生剧烈变化时,增大第二包围盒的大小,即增大k2的数值;和/或
特征提取及对比单元(230)首先在卷积层对目标区域和搜索区域进行特征提取,然后将提取到的特征输入到全连接层,在全连接层对目标区域和搜索区域进行特征比较,最后计算后得到当前帧的目标区域。
6.一种存储介质,用于存储计算机可执行指令,
所述计算机可执行指令在被处理器执行时执行如权利要求1-3中任一项所述的目标跟踪方法。
CN201710474118.1A 2017-06-21 2017-06-21 基于深度学习的目标跟踪方法、装置及存储介质 Active CN107274433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710474118.1A CN107274433B (zh) 2017-06-21 2017-06-21 基于深度学习的目标跟踪方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710474118.1A CN107274433B (zh) 2017-06-21 2017-06-21 基于深度学习的目标跟踪方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN107274433A CN107274433A (zh) 2017-10-20
CN107274433B true CN107274433B (zh) 2020-04-03

Family

ID=60068118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710474118.1A Active CN107274433B (zh) 2017-06-21 2017-06-21 基于深度学习的目标跟踪方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN107274433B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766821B (zh) * 2017-10-23 2020-08-04 江苏鸿信***集成有限公司 基于卡尔曼滤波与深度学习的视频中全时段车辆检测跟踪方法及***
CN109754412B (zh) * 2017-11-07 2021-10-01 北京京东乾石科技有限公司 目标跟踪方法、目标跟踪装置及计算机可读存储介质
CN108021883B (zh) * 2017-12-04 2020-07-21 深圳市赢世体育科技有限公司 球体运动模式识别的方法、装置和存储介质
CN108171752A (zh) * 2017-12-28 2018-06-15 成都阿普奇科技股份有限公司 一种基于深度学习的海面船只视频检测与跟踪方法
CN108510523A (zh) * 2018-03-16 2018-09-07 新智认知数据服务有限公司 一种建立获取目标物特征的模型和目标物搜索方法及装置
CN108805907B (zh) * 2018-06-05 2022-03-29 中南大学 一种行人姿势多特征智能辨识方法
CN110830846B (zh) * 2018-08-07 2022-02-22 阿里巴巴(中国)有限公司 一种视频裁剪方法及服务器
CN109086725B (zh) * 2018-08-10 2021-01-05 北京华捷艾米科技有限公司 手部跟踪方法及机器可读存储介质
CN109087510B (zh) * 2018-09-29 2021-09-07 讯飞智元信息科技有限公司 交通监测方法及装置
CN109446978B (zh) * 2018-10-25 2022-01-07 哈尔滨工程大学 基于凝视卫星复杂场景的飞机动目标跟踪方法
CN111127510B (zh) * 2018-11-01 2023-10-27 杭州海康威视数字技术股份有限公司 一种目标对象位置的预测方法及装置
CN109726683B (zh) * 2018-12-29 2021-06-22 北京市商汤科技开发有限公司 目标对象检测方法和装置、电子设备和存储介质
CN109816014A (zh) * 2019-01-22 2019-05-28 天津大学 生成深度学习目标检测网络训练用带标注数据集的方法
US10943132B2 (en) * 2019-04-10 2021-03-09 Black Sesame International Holding Limited Distant on-road object detection
CN110189364B (zh) * 2019-06-04 2022-04-01 北京字节跳动网络技术有限公司 用于生成信息的方法和装置,以及目标跟踪方法和装置
CN110378938A (zh) * 2019-06-24 2019-10-25 杭州电子科技大学 一种基于残差回归网络的单目标跟踪方法
CN110276739B (zh) * 2019-07-24 2021-05-07 中国科学技术大学 一种基于深度学习的视频去抖方法
CN110533699B (zh) * 2019-07-30 2024-05-24 平安科技(深圳)有限公司 基于光流法的像素变化的动态多帧测速方法
CN110647836B (zh) * 2019-09-18 2022-09-20 中国科学院光电技术研究所 一种鲁棒的基于深度学习的单目标跟踪方法
CN111274914B (zh) * 2020-01-13 2023-04-18 目骉资讯有限公司 一种基于深度学习的马匹速度计算***及方法
CN110956165B (zh) * 2020-02-25 2020-07-21 恒大智慧科技有限公司 智慧社区未栓绳宠物预警方法及***
CN111311643B (zh) * 2020-03-30 2023-03-24 西安电子科技大学 使用动态搜索的视频目标跟踪方法
CN111627046A (zh) * 2020-05-15 2020-09-04 北京百度网讯科技有限公司 目标部位跟踪方法、装置、电子设备和可读存储介质
CN112037257B (zh) * 2020-08-20 2023-09-29 浙江大华技术股份有限公司 一种目标跟踪方法、终端及其计算机可读存储介质
CN112184770A (zh) * 2020-09-28 2021-01-05 中国电子科技集团公司第五十四研究所 一种基于YOLOv3和改进KCF的目标跟踪方法
CN112188212B (zh) * 2020-10-12 2024-02-13 杭州电子科技大学 一种高清监控视频智能转码的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750522A (zh) * 2012-06-18 2012-10-24 吉林大学 一种目标跟踪的方法
CN105741316A (zh) * 2016-01-20 2016-07-06 西北工业大学 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法
CN106875425A (zh) * 2017-01-22 2017-06-20 北京飞搜科技有限公司 一种基于深度学习的多目标追踪***及实现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750522A (zh) * 2012-06-18 2012-10-24 吉林大学 一种目标跟踪的方法
CN105741316A (zh) * 2016-01-20 2016-07-06 西北工业大学 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法
CN106875425A (zh) * 2017-01-22 2017-06-20 北京飞搜科技有限公司 一种基于深度学习的多目标追踪***及实现方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Learning to Track at 100 FPS with Deep Regression Networks;David Held 等;《European Conference on Computer Vision,ECCV 2016》;20160816;第749-765页第3节,图2 *
基于PTZ主动摄像头的动目标检测跟踪***;张永霞;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140115(第01期);第I138-1875页第30-31页,图3-8 *
旋转运动背景下对地运动目标检测跟踪技术研究;储林臻;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150115(第01期);第I138-1475页第56,60-61页,图5.3、5.6 *

Also Published As

Publication number Publication date
CN107274433A (zh) 2017-10-20

Similar Documents

Publication Publication Date Title
CN107274433B (zh) 基于深度学习的目标跟踪方法、装置及存储介质
US11176381B2 (en) Video object segmentation by reference-guided mask propagation
Wen et al. Detection, tracking, and counting meets drones in crowds: A benchmark
CN107481270B (zh) 乒乓球目标跟踪和轨迹预测方法、装置、存储介质和计算机设备
Zhao et al. Spatio-temporal autoencoder for video anomaly detection
US20220417590A1 (en) Electronic device, contents searching system and searching method thereof
Felsberg et al. The thermal infrared visual object tracking VOT-TIR2015 challenge results
JP7147078B2 (ja) ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム
Lai et al. Semantic-driven generation of hyperlapse from 360 degree video
WO2017096949A1 (zh) 一种对目标进行跟踪拍摄的方法、控制装置及***
Wen et al. Visdrone-sot2018: The vision meets drone single-object tracking challenge results
TWI777185B (zh) 機器人圖像增強方法、處理器、電子設備、電腦可讀儲存介質
Zhu et al. Multi-drone-based single object tracking with agent sharing network
WO2021027543A1 (zh) 基于单目图像的模型训练方法、装置及数据处理设备
Liang et al. Deep background subtraction with guided learning
Martin et al. Optimal choice of motion estimation methods for fine-grained action classification with 3d convolutional networks
WO2023109361A1 (zh) 用于视频处理的方法、***、设备、介质和产品
CN113160283A (zh) 一种基于sift的多摄像头场景下的目标跟踪方法
CN111833378A (zh) 一种基于代理共享网络的多无人机单目标跟踪方法及装置
Liu et al. MBA-VO: Motion blur aware visual odometry
Wu et al. Multi‐camera 3D ball tracking framework for sports video
Rozumnyi et al. Fmodetect: Robust detection of fast moving objects
Gao et al. A joint local–global search mechanism for long-term tracking with dynamic memory network
Xu et al. Fast and accurate object detection using image cropping/resizing in multi-view 4K sports videos
Abulwafa et al. A fog based ball tracking (FB 2 T) system using intelligent ball bees

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant