CN111415318B - 基于拼图任务的无监督相关滤波目标跟踪方法及*** - Google Patents

基于拼图任务的无监督相关滤波目标跟踪方法及*** Download PDF

Info

Publication number
CN111415318B
CN111415318B CN202010201902.7A CN202010201902A CN111415318B CN 111415318 B CN111415318 B CN 111415318B CN 202010201902 A CN202010201902 A CN 202010201902A CN 111415318 B CN111415318 B CN 111415318B
Authority
CN
China
Prior art keywords
image
training
task
resolution
unsupervised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010201902.7A
Other languages
English (en)
Other versions
CN111415318A (zh
Inventor
张伟
王嘉伦
宋柯
宋然
顾建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010201902.7A priority Critical patent/CN111415318B/zh
Publication of CN111415318A publication Critical patent/CN111415318A/zh
Application granted granted Critical
Publication of CN111415318B publication Critical patent/CN111415318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于拼图任务的无监督相关滤波目标跟踪方法及***。包括了离线预训练和在线微调两个阶段。在离线预训练阶段,基于拼图任务的神经网络的训练过程主要为无监督相关滤波算法训练和拼图任务训练两个任务结合。训练过程大体可分为四个部分:数据处理、深度特征提取、拼图任务训练、无监督相关滤波训练。本发明是在无监督相关滤波算法的训练中,同时引入对图像块位置索引的预测任务,以增加深度神经网络对物体细节特征的提取能力,并通过对不同层的特征进行融合使得算法兼顾语义信息和位置信息,准确性得到提升。

Description

基于拼图任务的无监督相关滤波目标跟踪方法及***
技术领域
本发明涉及自动化识别领域,特别涉及基于拼图任务的无监督相关滤波目标跟踪方法及***。
背景技术
本部分的陈述仅仅是提高了与本发明相关的背景技术,并不必然构成现有技术。
目标跟踪是计算机视觉研究领域的一个重要课题,在实际生活中有着广阔的应用前景。具体的应用领域有智能视频监控,三维重建,人机交互,图像理解,智能视觉导航等。目标跟踪任务通过在连续的视频序列中估计运动目标的确切位置和所占区域,得到运动目标完整的运动轨迹,实现对运动目标行为的分析和理解,为后续的高级任务做铺垫。目前目标跟踪算法的性能已经获得较大的改善,但在复杂的现实场景中实现对运动目标实时并且稳定的跟踪仍然面临较大的挑战。这些挑战有由运动目标自身变化引起的,如形状变化、姿态变化等,也有由外在因素引起的,如运动模糊、背景遮挡、背景杂乱、光照变化等,它们为目标跟踪带来很多难点。
基于相关滤波的跟踪算法是当前目标跟踪领域的一个研究热点。其使用目标图像来训练具有判别性的相关滤波器,并对搜索区域图像进行相关滤波的处理,寻找滤波器响应图像的最大值位置,即对应的目标位置。目前,相关滤波算法因为良好的精确度和较快的跟踪速度,得到了广泛的应用。另外,基于深度学习的目标跟踪算法也在目标跟踪领域获得了巨大成功,主要因为深度神经网络所提取的特征相较于传统的手工提取的特征,有更强的表达能力和抗干扰能力。较浅层的特征包含更多的目标位置信息,而较深层的特征包含更多的目标语义信息,因此通过不同层的特征融合,有助于提高整体算法的准确度。同时由于目标跟踪任务相关训练数据的严重缺乏,使用无监督的训练方式进行模型的离线预训练、然后在线微调的方法为深度学习在目标跟踪领域的实际应用提供了可行的方向。为了同时保证目标跟踪任务的速度和精度,现有很多算法结合了相关滤波算法和深度学习算法,在相关数据集上取得了不错的性能提升。
但发明人发现:现有的无监督算法对物体细节特征的提取能力不够,且难以很好地兼顾语义信息和位置信息,准确性仍有待提升。
发明内容
为了解决现有技术的不足,本发明提供了基于拼图任务的无监督相关滤波目标跟踪方法及***,在无监督相关滤波算法的训练中,同时引入对图像块位置索引的预测任务,以增加深度神经网络对物体细节特征的提取能力,并通过对不同层的特征进行融合使得算法兼顾语义信息和位置信息,准确性得到提升。其中包括了离线预训练和在线微调两个阶段。
为实现上述技术目的,本发明采用如下技术方案:
本发明的第一个方面,提供了一种基于拼图任务的无监督相关滤波目标跟踪方法,包括:
对输入的图像进行处理;
采用孪生深度网络模型对处理后的图像做深度特征提取;
进行拼图任务训练,使用分类器网络模型对提取的深度特征进行处理,预测小图的位置索引;
深度特征提取得到的多层特征进行无监督相关滤波训练,对于不同图片的特征循环使用相关滤波算法;
在线更新外观模型,进行在线微调。
在离线预训练阶段,基于拼图任务的神经网络的训练过程主要为无监督相关滤波算法训练和拼图任务训练两个任务结合。输入图像通过孪生网络来提取深度特征并进行特征融合,同时拼图任务的训练使得孪生网络模型的特征有更强的通用性和细节提取能力,取得更高的跟踪精度。
本发明的第二个方面,提供了一种基于拼图任务的无监督相关滤波目标跟踪***,包括:
数据输入设备;
数据处理模块,用于对输入的图像进行处理;
深度特征提取模块,用于对采用孪生深度网络模型对处理后的图像做深度特征提取;
拼图任务训练模块,使用分类器网络模型对提取的深度特征进行处理,预测小图的位置索引;
无监督相关滤波训练模块,用于对深度特征提取得到的多层特征进行无监督相关滤波训练;
在线微调模块,用于在线更新外观模型。
本发明的***操作简单、交互方便,极具参考与实践价值。
本发明的有益效果在于:
(1)本发明是在无监督相关滤波算法的训练中,同时引入对图像块位置索引的预测任务,以增加深度神经网络对物体细节特征的提取能力,并通过对不同层的特征进行融合使得算法兼顾语义信息和位置信息,准确性得到提升。
(2)本发明的***操作简单、交互方便,极具参考与实践价值。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是实施例1的拼图任务训练网络;
图2是实施例1的整体训练框架。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释:
Search:搜索区域;
Template:模板区域;
CNN:卷积网络;
Correlation Filter:相关滤波器;
Pseudo Label:伪标签;
Consistency Loss:一致性损失函数;
Initial Label:初始标签。
一种基于拼图任务的无监督相关滤波目标跟踪方法,包括:
对输入的图像进行处理;
采用孪生深度网络模型对处理后的图像做深度特征提取;
进行拼图任务训练,使用分类器网络模型对提取的深度特征进行处理,预测小图的位置索引;
深度特征提取得到的多层特征进行无监督相关滤波训练,对于不同图片的特征循环使用相关滤波算法;
在线更新外观模型,进行在线微调。
在一些实施例中,所述数据处理使用ILSVRC2015数据集。
在一些实施例中,所述数据处理的具体步骤包括:
对每张图片做中心裁剪,裁剪的长度、宽度都为原图片的
Figure BDA0002419672830000051
大小;
将裁剪得到的图片缩放至125x125分辨率大小;
对于同一视频序列的图片,随机选取3张作为模板T、搜索区域S1、搜索区域S2
对选取的每张图片,在其左上、左下、右上、右下四个位置分别裁剪出50x50分辨率大小的无重叠的小图并缩放至63x63分辨率大小;
将裁剪出的每张小图的各个通道做2个像素点以内的随机抖动;
将得到的小图随机打乱,打乱后的位置索引、打乱的63x63分辨率小图和125x125分辨率的大图作为一组训练数据参与训练。
在一些实施例中,所述深度特征提取的具体步骤为:
将63x63分辨率的4张小图分别通过孪生卷积网络模型提取相应的1x1分辨率大小的深度特征;
将125x125分辨率大小的图片通过孪生卷积网络模型提取特定层的特征;
将得到的不同分辨率大小的层特征,使用双线性插值将其缩放至125x125的固定分辨率。
在一些实施例中,所述拼图任务训练的具体步骤为:
将深度特征提取过程中得到的4个三维深度特征调整为一维向量,并以给定的次序连接在一起;
将得到的特征向量通过多个全连接层组成的分类器,预测小图打乱后的位置索引,计算其与给定位置索引之间的交叉熵损失函数。输入图像通过孪生网络来提取深度特征并进行特征融合,同时拼图任务的训练使得孪生网络模型的特征有更强的通用性和细节提取能力,取得更高的跟踪精度。
在一些实施例中,所述无监督相关滤波训练的具体步骤包括:
对于特定层的特征Ft、Fs1以及相应响应图像Yt,使用相关滤波算法可得到对应层的响应图像,按权重相加得到搜索区域S1的响应图像Rs1
对于特定层的特征Fs1、Fs2以及得到的响应图像Rs1,使用相关滤波算法可得到对应层的响应图像,按权重相加可得到搜索区域S2的响应图像Rs2
对于特定层的特征Fs2、Ft以及得到的响应图像Rs2,使用相关滤波算法可得到对应层的响应图像,按权重相加可得模板T的响应图像Rt
对于得到的响应图像Rt和原始响应图像Yt计算均方损失函数。同一视频序列的模板T、搜索区域S1、搜索区域S2通过深度特征提取步骤得到多层特征。其中较浅的层特征有着更多的位置信息,但语义信息不明显,较深的层特征有着更多的语义信息,抗干扰能力较强,但缺乏必要的位置信息,通过结合不同层的特征有助于目标跟踪效果的提升。
在一些实施例中,所述孪生卷积网络结构为:
第一卷积层,卷积核大小为3x3,步长为1x1,输出32个特征图;激活函数为线性整流单元ReLU;
第二卷积层,卷积核大小为3x3,步长为1x1,输出32个特征图;并对其做局部响应归一化和最大池化;
第三卷积层,卷积核大小为3x3,步长为1x1,输出64个特征图;激活函数为线性整流单元ReLU;
第四卷积层,卷积核大小为3x3,步长为1x1,输出64个特征图;并对其做局部响应归一化和最大池化;
第五卷积层,卷积核大小为3x3,步长为1x1,输出128个特征图;激活函数为线性整流单元ReLU;
第六卷积层,卷积核大小为3x3,步长为1x1,输出128个特征图;并对其做局部响应归一化和最大池化;
第七卷积层,卷积核大小为3x3,步长为1x1,输出256个特征图;激活函数为线性整流单元ReLU;
第八卷积层,卷积核大小为3x3,步长为1x1,输出256个特征图;并对其做局部响应归一化和最大池化;
第九卷积层,卷积核大小为3x3,步长为1x1,输出256个特征图;激活函数为线性整流单元ReLU;
第十卷积层,卷积核大小为3x3,步长为1x1,输出256个特征图;并对其做局部响应归一化和最大池化。
在一些实施例中,所述分类器网络结构为:
第一全连接层,包括512个隐藏单元,激活函数为线性整流单元ReLU;
第二全连接层,包括24个隐藏单元,输出为预测的小图位置索引。
在一些实施例中,所述在线微调的具体步骤包括:
裁剪缩放:在搜索图像上裁剪出与上一帧图像中心位置相同但较大的图像,缩放至125x125分辨率大小;
将得到的图像用于更新相关滤波算法的参数,
Wt=(1-αt)Wt-1tW
其中αt-1∈[0,1];
在搜索图像上裁剪出与上一帧图像中心位置相同但分辨率大小不同的三张图像,通过相关滤波算法求得三者中最大的响应值,其分辨率大小即为目标在搜索图像上的大小,响应值所在位置即为目标移动方向;将当前搜索图像作为模板,重复上述的裁剪缩放步骤。
下面结合具体的实施例,对本发明做进一步的详细说明,应该指出,所述具体实施例是对本发明的解释而不是限定。
实施例1:
本发明提供了基于拼图任务的无监督相关滤波目标跟踪方法及***,其中包括了离线预训练和在线微调两个阶段。
在离线预训练阶段,基于拼图任务的神经网络的训练过程主要为无监督相关滤波算法训练和拼图任务训练两个任务结合。输入图像通过孪生网络来提取深度特征并进行特征融合,同时拼图任务的训练使得孪生网络模型的特征有更强的通用性和细节提取能力,取得更高的跟踪精度。训练过程大体可分为四个部分:数据处理、深度特征提取、拼图任务训练、无监督相关滤波训练。
数据处理:训练过程中使用ILSVRC2015数据集,具体步骤如下:
步骤(1):对每张图片做中心裁剪,裁剪的长度、宽度都为原图片的
Figure BDA0002419672830000091
大小。
步骤(2):将步骤(1)中裁剪得到的图片缩放至125x125分辨率大小。
步骤(3):对于同一视频序列的图片,随机选取3张作为模板T、搜索区域S1、搜索区域S2
步骤(4):对于步骤(3)中选中的每张图片,在其左上、左下、右上、右下四个位置分别裁剪出50x50分辨率大小的无重叠的小图并缩放至63x63分辨率大小。
步骤(5):将步骤(4)中裁剪出的每张小图的各个通道做2个像素点以内的随机抖动。
步骤(6):将步骤(5)中得到的小图随机打乱,打乱后的位置索引、打乱的63x63分辨率小图和125x125分辨率的大图作为一组训练数据参与训练。
深度特征提取:使用孪生深度网络模型做特征提取,具体的步骤如下:
步骤(1):将63x63分辨率的4张小图分别通过孪生卷积网络模型提取相应的1x1分辨率大小的深度特征。
步骤(2):将125x125分辨率大小的图片通过孪生卷积网络模型提取特定层的特征。
步骤(3):对于步骤(2)中不同分辨率大小的层特征,使用双线性插值将其缩放至125x125的固定分辨率。
拼图任务训练:使用分类器网络模型预测小图的位置索引,如图1所示。具体步骤如下:
步骤(1):将深度特征提取步骤(1)中得到的4个三维深度特征调整为一维向量,并以给定的次序连接在一起。
步骤(2):将步骤(1)中得到的特征向量通过多个全连接层组成的分类器,预测小图打乱后的位置索引,计算其与给定位置索引之间的交叉熵损失函数。
无监督相关滤波训练:如图2所示为具体训练过程。同一视频序列的模板T、搜索区域S1、搜索区域S2通过深度特征提取步骤(3)得到多层特征。其中较浅的层特征有着更多的位置信息,但语义信息不明显,较深的层特征有着更多的语义信息,抗干扰能力较强,但缺乏必要的位置信息,通过结合不同层的特征有助于目标跟踪效果的提升。训练时对于不同图片的特征循环使用相关滤波算法,具体步骤如下:
步骤(1):对于特定层的特征Ft、Fs1以及相应响应图像Yt,使用相关滤波算法可得到对应层的响应图像,按权重相加得到搜索区域S1的响应图像Rs1
步骤(2):对于特定层的特征Fs1、Fs2以及步骤(1)中得到的响应图像Rs1,使用相关滤波算法可得到对应层的响应图像,按权重相加可得到搜索区域S2的响应图像Rs2
步骤(3):对于特定层的特征Fs2、Ft以及步骤(2)中得到的响应图像Rs2,使用相关滤波算法可得到对应层的响应图像,按权重相加可得模板T的响应图像Rt
步骤(4):对于步骤(3)中得到的响应图像Rt和原始响应图像Yt计算均方损失函数。
下面是本发明的完整网络结构:
孪生卷积网络结构:
第一卷积层,卷积核大小为3x3,步长为1x1,输出32个特征图;激活函数为线性整流单元ReLU;
第二卷积层,卷积核大小为3x3,步长为1x1,输出32个特征图;并对其做局部响应归一化和最大池化;
第三卷积层,卷积核大小为3x3,步长为1x1,输出64个特征图;激活函数为线性整流单元ReLU;
第四卷积层,卷积核大小为3x3,步长为1x1,输出64个特征图;并对其做局部响应归一化和最大池化;
第五卷积层,卷积核大小为3x3,步长为1x1,输出128个特征图;激活函数为线性整流单元ReLU;
第六卷积层,卷积核大小为3x3,步长为1x1,输出128个特征图;并对其做局部响应归一化和最大池化;
第七卷积层,卷积核大小为3x3,步长为1x1,输出256个特征图;激活函数为线性整流单元ReLU;
第八卷积层,卷积核大小为3x3,步长为1x1,输出256个特征图;并对其做局部响应归一化和最大池化;
第九卷积层,卷积核大小为3x3,步长为1x1,输出256个特征图;激活函数为线性整流单元ReLU;
第十卷积层,卷积核大小为3x3,步长为1x1,输出256个特征图;并对其做局部响应归一化和最大池化。
分类器网络结构:
第一全连接层,包括512个隐藏单元,激活函数为线性整流单元ReLU;
第二全连接层,包括24个隐藏单元,输出为预测的小图位置索引。
在在线微调阶段,为更好地捕捉目标在运动过程中的变化,需要在线更新外观模型,具体步骤为:
步骤(1):在搜索图像上裁剪出与上一帧图像中心位置相同但较大的图像,缩放至125x125分辨率大小。
步骤(2):将步骤(1)中得到的图像用于更新相关滤波算法的参数,
Wt=(1-αt)Wt-1tW
其中αt-1∈[0,1]。
步骤(3):在搜索图像上裁剪出与上一帧图像中心位置相同但分辨率大小不同的三张图像,通过相关滤波算法求得三者中最大的响应值,其分辨率大小即为目标在搜索图像上的大小,响应值所在位置即为目标移动方向。将当前搜索图像作为模板,重复步骤(1)。
最后应该说明的是,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。上述虽然对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种基于拼图任务的无监督相关滤波目标跟踪方法,其特征在于,包括:
对输入的图像进行处理;
采用孪生深度网络模型对处理后的图像做深度特征提取;
进行拼图任务训练,使用分类器网络模型对提取的深度特征进行处理,预测小图的位置索引;
深度特征提取得到的多层特征进行无监督相关滤波训练,对于不同图片的特征循环使用相关滤波算法;
在线更新外观模型,进行在线微调;
数据处理的具体步骤包括:
对每张图片做中心裁剪,裁剪的长度、宽度都为原图片的
Figure QLYQS_1
大小;
将裁剪得到的图片缩放至125x125分辨率大小;
对于同一视频序列的图片,随机选取3张作为模板
Figure QLYQS_2
、搜索区域/>
Figure QLYQS_3
、搜索区域/>
Figure QLYQS_4
对选取的每张图片,在其左上、左下、右上、右下四个位置分别裁剪出50x50分辨率大小的无重叠的小图并缩放至63x63分辨率大小;
将裁剪出的每张小图的各个通道做2个像素点以内的随机抖动;
将得到的小图随机打乱,打乱后的位置索引、打乱的63x63分辨率小图和125x125分辨率的大图作为一组训练数据参与训练。
2.如权利要求1所述的基于拼图任务的无监督相关滤波目标跟踪方法,其特征在于,数据处理使用ILSVRC2015数据集。
3.如权利要求1所述的基于拼图任务的无监督相关滤波目标跟踪方法,其特征在于,所述深度特征提取的具体步骤为:
将63x63分辨率的4张小图分别通过孪生卷积网络模型提取相应的1x1分辨率大小的深度特征;
将125x125分辨率大小的图片通过孪生卷积网络模型提取特定层的特征;
将得到的不同分辨率大小的层特征,使用双线性插值将其缩放至125x125的固定分辨率。
4.如权利要求3所述的基于拼图任务的无监督相关滤波目标跟踪方法,其特征在于,所述拼图任务训练的具体步骤为:
将深度特征提取过程中得到的4个三维深度特征调整为一维向量,并以给定的次序连接在一起;
将得到的特征向量通过多个全连接层组成的分类器,预测小图打乱后的位置索引,计算其与给定位置索引之间的交叉熵损失函数。
5.如权利要求3所述的基于拼图任务的无监督相关滤波目标跟踪方法,其特征在于,所述无监督相关滤波训练的具体步骤包括:
对于特定层的特征
Figure QLYQS_5
、/>
Figure QLYQS_6
以及相应响应图像/>
Figure QLYQS_7
,使用相关滤波算法得到对应层的响应图像,按权重相加得到搜索区域/>
Figure QLYQS_8
的响应图像/>
Figure QLYQS_9
对于特定层的特征
Figure QLYQS_10
、/>
Figure QLYQS_11
以及得到的响应图像/>
Figure QLYQS_12
,使用相关滤波算法得到对应层的响应图像,按权重相加得到搜索区域/>
Figure QLYQS_13
的响应图像/>
Figure QLYQS_14
对于特定层的特征
Figure QLYQS_15
、/>
Figure QLYQS_16
以及得到的响应图像/>
Figure QLYQS_17
,使用相关滤波算法得到对应层的响应图像,按权重相加得模板T的响应图像/>
Figure QLYQS_18
对于得到的响应图像
Figure QLYQS_19
和原始响应图像/>
Figure QLYQS_20
计算均方损失函数。
6.如权利要求3所述的基于拼图任务的无监督相关滤波目标跟踪方法,其特征在于,所述孪生卷积网络模型为:
第一卷积层,卷积核大小为3x3,步长为1x1,输出32个特征图;激活函数为线性整流单元ReLU;
第二卷积层,卷积核大小为3x3,步长为1x1,输出32个特征图;并对其做局部响应归一化和最大池化;
第三卷积层,卷积核大小为3x3,步长为1x1,输出64个特征图;激活函数为线性整流单元ReLU;
第四卷积层,卷积核大小为3x3,步长为1x1,输出64个特征图;并对其做局部响应归一化和最大池化;
第五卷积层,卷积核大小为3x3,步长为1x1,输出128个特征图;激活函数为线性整流单元ReLU;
第六卷积层,卷积核大小为3x3,步长为1x1,输出128个特征图;并对其做局部响应归一化和最大池化;
第七卷积层,卷积核大小为3x3,步长为1x1,输出256个特征图;激活函数为线性整流单元ReLU;
第八卷积层,卷积核大小为3x3,步长为1x1,输出256个特征图;并对其做局部响应归一化和最大池化;
第九卷积层,卷积核大小为3x3,步长为1x1,输出256个特征图;激活函数为线性整流单元ReLU;
第十卷积层,卷积核大小为3x3,步长为1x1,输出256个特征图;并对其做局部响应归一化和最大池化。
7.如权利要求3所述的基于拼图任务的无监督相关滤波目标跟踪方法,其特征在于,所述分类器网络结构为:
第一全连接层,包括512个隐藏单元,激活函数为线性整流单元ReLU;
第二全连接层,包括24个隐藏单元,输出为预测的小图位置索引。
8.如权利要求1所述的基于拼图任务的无监督相关滤波目标跟踪方法,其特征在于,所述在线微调的具体步骤包括:
裁剪缩放:在搜索图像上裁剪出与上一帧图像中心位置相同但较大的图像,缩放至125x125分辨率大小;
将得到的图像用于更新相关滤波算法的参数,
Figure QLYQS_21
其中
Figure QLYQS_22
;/>
在搜索图像上裁剪出与上一帧图像中心位置相同但分辨率大小不同的三张图像,通过相关滤波算法求得三者中最大的响应值,其分辨率大小即为目标在搜索图像上的大小,响应值所在位置即为目标移动方向;将当前搜索图像作为模板,重复上述的裁剪缩放步骤。
9.一种基于拼图任务的无监督相关滤波目标跟踪***,其特征在于,包括:
数据输入设备;
数据处理模块,用于对输入的图像进行处理;
深度特征提取模块,用于对采用孪生深度网络模型对处理后的图像做深度特征提取;
拼图任务训练模块,使用分类器网络模型对提取的深度特征进行处理,预测小图的位置索引;
无监督相关滤波训练模块,用于对深度特征提取得到的多层特征进行无监督相关滤波训练,对于不同图片的特征循环使用相关滤波算法;
在线微调模块,用于在线更新外观模型;
所述数据处理模块进行数据处理的具体步骤包括:
对每张图片做中心裁剪,裁剪的长度、宽度都为原图片的
Figure QLYQS_23
大小;
将裁剪得到的图片缩放至125x125分辨率大小;
对于同一视频序列的图片,随机选取3张作为模板
Figure QLYQS_24
、搜索区域/>
Figure QLYQS_25
、搜索区域/>
Figure QLYQS_26
对选取的每张图片,在其左上、左下、右上、右下四个位置分别裁剪出50x50分辨率大小的无重叠的小图并缩放至63x63分辨率大小;
将裁剪出的每张小图的各个通道做2个像素点以内的随机抖动;
将得到的小图随机打乱,打乱后的位置索引、打乱的63x63分辨率小图和125x125分辨率的大图作为一组训练数据参与训练。
CN202010201902.7A 2020-03-20 2020-03-20 基于拼图任务的无监督相关滤波目标跟踪方法及*** Active CN111415318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010201902.7A CN111415318B (zh) 2020-03-20 2020-03-20 基于拼图任务的无监督相关滤波目标跟踪方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010201902.7A CN111415318B (zh) 2020-03-20 2020-03-20 基于拼图任务的无监督相关滤波目标跟踪方法及***

Publications (2)

Publication Number Publication Date
CN111415318A CN111415318A (zh) 2020-07-14
CN111415318B true CN111415318B (zh) 2023-06-13

Family

ID=71494404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010201902.7A Active CN111415318B (zh) 2020-03-20 2020-03-20 基于拼图任务的无监督相关滤波目标跟踪方法及***

Country Status (1)

Country Link
CN (1) CN111415318B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016591A (zh) * 2020-08-04 2020-12-01 杰创智能科技股份有限公司 一种图像识别模型的训练方法及图像识别方法
CN113240591B (zh) * 2021-04-13 2022-10-04 浙江大学 一种基于对抗网络的稀疏深度补全方法
CN113112518B (zh) * 2021-04-19 2024-03-26 深圳思谋信息科技有限公司 基于拼接图像的特征提取器生成方法、装置和计算机设备
CN113192062A (zh) * 2021-05-25 2021-07-30 湖北工业大学 一种基于图像复原的动脉斑块超声图像自监督分割方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191491A (zh) * 2018-08-03 2019-01-11 华中科技大学 基于多层特征融合的全卷积孪生网络的目标跟踪方法及***
CN110211192A (zh) * 2019-05-13 2019-09-06 南京邮电大学 一种基于深度学习的三维模型到二维图像的渲染方法
CN110210551A (zh) * 2019-05-28 2019-09-06 北京工业大学 一种基于自适应主体敏感的视觉目标跟踪方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9218365B2 (en) * 2011-12-15 2015-12-22 Yeda Research And Development Co. Ltd. Device, system, and method of visual inference by collaborative composition
US11055854B2 (en) * 2018-08-23 2021-07-06 Seoul National University R&Db Foundation Method and system for real-time target tracking based on deep learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191491A (zh) * 2018-08-03 2019-01-11 华中科技大学 基于多层特征融合的全卷积孪生网络的目标跟踪方法及***
CN110211192A (zh) * 2019-05-13 2019-09-06 南京邮电大学 一种基于深度学习的三维模型到二维图像的渲染方法
CN110210551A (zh) * 2019-05-28 2019-09-06 北京工业大学 一种基于自适应主体敏感的视觉目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘侃等.一种基于深度神经网络的无线定位方法.计算机工程.2016,(第07期),88-91. *

Also Published As

Publication number Publication date
CN111415318A (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN111415318B (zh) 基于拼图任务的无监督相关滤波目标跟踪方法及***
US11637971B2 (en) Automatic composition of composite images or videos from frames captured with moving camera
CN109410242B (zh) 基于双流卷积神经网络的目标跟踪方法、***、设备及介质
Zhang et al. SiamFT: An RGB-infrared fusion tracking method via fully convolutional Siamese networks
US20200051250A1 (en) Target tracking method and device oriented to airborne-based monitoring scenarios
KR20220108165A (ko) 타깃 추적 방법, 장치, 전자 기기 및 저장 매체
CN113011329B (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN111260688A (zh) 一种孪生双路目标跟踪方法
CN111639571B (zh) 基于轮廓卷积神经网络的视频动作识别方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN111814753A (zh) 针对雾天条件下的目标检测方法和装置
CN111696110A (zh) 场景分割方法及***
CN115713546A (zh) 移动终端设备用的轻量化目标跟踪算法
CN114036969A (zh) 一种多视角情况下的3d人体动作识别算法
CN112700476A (zh) 一种基于卷积神经网络的红外船视频跟踪方法
CN113592900A (zh) 一种基于注意力机制与全局推理的目标跟踪方法及***
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN115862130B (zh) 基于人体姿态及其躯干运动场的行为识别方法
CN115761885B (zh) 一种共时与跨域异步融合驱动的行为识别方法
CN112257638A (zh) 一种图像比对方法、***、设备及计算机可读存储介质
CN109492530B (zh) 基于深度多尺度时空特征的健壮性视觉物体跟踪方法
CN114743045B (zh) 一种基于双分支区域建议网络的小样本目标检测方法
CN113627410B (zh) 一种视频中动作语义识别检索的方法
Wu et al. Hi-net: boosting self-supervised indoor depth estimation via pose optimization
Gupta et al. Reconnoitering the Essentials of Image and Video Processing: A Comprehensive Overview

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant