CN111899284A - 一种基于参数化esm网络的平面目标跟踪方法 - Google Patents

一种基于参数化esm网络的平面目标跟踪方法 Download PDF

Info

Publication number
CN111899284A
CN111899284A CN202010816457.5A CN202010816457A CN111899284A CN 111899284 A CN111899284 A CN 111899284A CN 202010816457 A CN202010816457 A CN 202010816457A CN 111899284 A CN111899284 A CN 111899284A
Authority
CN
China
Prior art keywords
target
feature
data
template
input image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010816457.5A
Other languages
English (en)
Other versions
CN111899284B (zh
Inventor
王涛
刘贺
李浥东
郎丛妍
冯松鹤
金�一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202010816457.5A priority Critical patent/CN111899284B/zh
Publication of CN111899284A publication Critical patent/CN111899284A/zh
Application granted granted Critical
Publication of CN111899284B publication Critical patent/CN111899284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种基于参数化ESM网络的平面目标跟踪方法,包括:S1、获取目标模板T、第t帧的输入图像以及第t帧中的初始运动参数,由初始运动参数确定输入图像的目标区域It,对目标模板T和目标区域It进行预处理,包括图片缩放和归一化操作,使用特征提取网络对预处理后的目标模板T和第t帧的输入图像的目标区域It进行特征的提取,得到特征映射FT和Ft I;S2、利用相似性度量模块计算两个特征映射FT和Ft I之间的差异;S3、通过遮挡检测机制确定并排除目标在当前帧中被遮挡的部分,通过最小化当前帧中未被遮挡部分的差异求解目标的运动参数。本发明的方法更适用于目标跟踪任务,而且大大提高跟踪的准确性。

Description

一种基于参数化ESM网络的平面目标跟踪方法
技术领域
本发明涉及机器视觉与模式识别领域,尤其涉及一种基于参数化ESM网络的平面目标跟踪方法。
背景技术
平面目标跟踪是指给定一段视频帧序列,并在第一帧中指定感兴趣的平面物体,平面物体跟踪算法的目标是在后续视频帧中计算出平面物体的姿态变化。平面物体跟踪作为计算机视觉中的一个核心问题,在很多领域都有着应用,比如,增强现实,机器人控制,无人机技术等。
申请号为201510147895.6的专利文献公开了一种基于位平面的运动目标跟踪方法。该发明对跟踪目标和搜索区域求取平滑后的亮度位平面和局部二值模式位平面;然后在搜索区域的两个外观平面上搜索与跟踪目标对应的两个外观模型最为接近的区域作为跟踪目标;跟踪完成后,根据已建立的外观模型和当前帧中的跟踪结果,按照预先设定的更新速率更新外观模型。该发明在跟踪精度和鲁棒性上有明显的优势,有效地解决了视频中光照条件变化、目标位姿变化、以及外观显著变化等情况下运动目标跟踪困难的问题。
申请号为201910297980.9的专利文献公开了一种基于模板匹配和深度分类网络的运动目标跟踪方法,主要解决当时现有技术中目标检测速度慢,及在目标发生外观形变、遮挡时跟踪不准确的问题。该方案从双残差深度分类网络中提取模板网络和检测网络;在模板和检测区域上用对应的网络提取出模板特征和检测特征;将模板特征在检测特征上进行模板匹配,得到模板匹配图;根据模板匹配图确定目标位置;跟踪目标位置更新模板特征。该发明跟踪速度快,准确率高,用于对剧烈形变、光照变化视频目标跟踪。
对于申请号为201510147895.6专利文献,该方案在一定程度上解决了视频中光照变化、外观变化等情况下目标跟踪困难的问题。该发明虽然对目标的亮度以及纹理进行了精心设计的建模,但是其手工设计的建模方法并不能准确体现目标外观的特性。对于申请号为201910297980.9专利文献,该发明虽然采用了深度网络来作为特征提取器,但其特征提取器并没有嵌入在视频跟踪任务中构建成端到端的框架来进行训练和验证,而是在分类任务上对特征提取器进行训练,另外,该发明在计算特征响应图时采用的是简单的滑窗卷积方法。实际上,滑窗卷积方法不一定在深度特征图上适用。此外,这两种发明都没有考虑到目标部分被遮挡或者目标部分超出视野范围的情况。
发明内容
本发明的实施例提供了一种基于参数化ESM网络的平面目标跟踪方法,以克服现有技术的缺陷。
为了实现上述目的,本发明采取了如下技术方案。
一种基于参数化ESM网络的平面目标跟踪方法,构建深度平面物体跟踪模型,所述深度平面物体跟踪模型包括:特征提取网络、相似性度量模块和遮挡检测机制,构造数据集训练所述深度平面物体跟踪模型,所述平面目标跟踪方法包括:
S1、获取目标模板T、第t帧的输入图像以及第t帧中的初始运动参数,由初始运动参数确定输入图像的目标区域It,对目标模板T和目标区域It进行预处理,包括图片缩放和归一化操作,使用特征提取网络对预处理后的目标模板T和第t帧的输入图像的目标区域It进行特征的提取,得到特征映射FT
Figure BDA0002632908990000021
其中,预处理后的模板和目标区域维度均为h×l×3,h、l、3分别为图像的宽、长、图片的通道数;
S2、利用相似性度量模块计算两个特征映射FT
Figure BDA0002632908990000031
之间的差异;
S3、通过遮挡检测机制确定并排除目标在当前帧中被遮挡的部分,通过最小化当前帧中未被遮挡部分的差异求解目标的运动参数。
优选地,将视频中每一帧的跟踪分为两个阶段,具体为:
第一阶段的跟踪结果的运动参数作为第二阶段的初始运动参数,在下一次迭代过程中,上一次第二阶段跟踪结果的运动参数作为当前迭代中第一阶段的初始运动参数。
优选地,每个阶段的特征提取网络是由7个卷积层组成的,每一层后连接着batchnorm层和激活函数ReLU层,前6个卷积层的卷积核数都为64,最后一个卷积层的卷积核数为8,在第k个阶段中,这7个卷积层的前4-k个卷积层的步长为2,剩余卷积层的步长为1,k为1或2。
优选地,所述相似性度量模块是基于u-net框架的encoder-decoder网络,其输入为目标模板T的特征映射FT和第t帧输入图像的目标区域It的特征映射
Figure BDA0002632908990000032
的拼接,输出为这两个特征映射FT
Figure BDA0002632908990000033
的差异性张量。
优选地,所述S3包括:
将第t帧的输入图像的目标区域It简化表示为I,其特征映射
Figure BDA0002632908990000034
简化表示为FI,给定模板和第t帧输入图像的目标区域的L2标准化后的特征映射FT和FI,其特征维度为h′×l′×d,其中,h′和l′分别对应于被提取特征图像的宽和长,
Figure BDA0002632908990000035
k为1或2,d表示特征的维度;
首先以每个特征为单位,分别将FT和FI沿h′方向展开成m×d的矩阵,其中m=h′×l′,记为
Figure BDA0002632908990000036
Figure BDA0002632908990000037
Figure BDA0002632908990000038
表示被展开的模板T的特征映射,
Figure BDA0002632908990000039
表示的是被展开的目标区域的特征映射,然后计算相关图R来记录每一对特征的相似度,相关图R维度为m×m,其公式如下:
Figure BDA00026329089900000310
其中,i,j分别表示目标模板T和目标区域的特征映射中特征的索引,Ri,j表示的是模板特征映射中第i个特征与目标区域的特征映射中第j个特征的相似度,Z是可训练的参数矩阵,Z维度为d×d,通过选取R中每行最大值来构成置信度向量
Figure BDA0002632908990000041
公式如下:
Figure BDA0002632908990000042
然后,将
Figure BDA0002632908990000043
中的元素归一化到[0,1]区间内作为最终的置信度向量;
最后,将置信度向量
Figure BDA0002632908990000044
以h′为一行,排列成h′×l′的大小,记为C,通过最小化未被遮挡部分的差异来求解目标的运动参数,见如下公式:
Figure BDA0002632908990000045
其中,p表示当前预测的目标运动参数;x表示特征在特征映射中的二维索引;C(·)是通过遮挡检测机制检测后该位置特征对优化的贡献度,被遮挡部分特征对于优化的贡献度为0,未被遮挡的特征贡献度为1;M(·,·)度量模板和目标区域中每对特征的差异性;
Figure BDA0002632908990000046
表示坐标变换的公式;
采用ESM方法求解公式(3),具体如下:
Figure BDA0002632908990000047
通过下式得到运动参数的增量:
Figure BDA0002632908990000048
其中
Figure BDA0002632908990000049
表示矩阵的伪逆,JT是在U单位变换处计算的
Figure BDA00026329089900000410
的雅可比矩阵,JE(p)表示p处E(x;p)的雅可比矩阵:
Figure BDA0002632908990000051
运动参数结合运动参数的增量Δp来更新:
Figure BDA0002632908990000052
其中,
Figure BDA0002632908990000053
表示二进制操作。
优选地,所述构造数据集训练所述深度平面物体跟踪模型,包括:
构造两个带标签的数据集GEN-DATA和OCC-DATA,其中,GEN-DATA包括了光照、形变和噪声因素,OCC-DATA在GEN-DATA的基础之上,增加目标部分被遮挡和目标部分超出视野范围的情况,数据集GEN-DATA和OCC-DATA中的每个样本均为一个四元组(T,Q,p0,pgt),其中,T为模板图像,Q为当前输入图像,p0为初始运动参数,pgt为目标的真实运动参数;
所述数据集GEN-DATA构造过程包括:几何变换和光学扰动;
所述几何变换包括:
给定目标模板T和目标的真实运动参数pgt,通过透视变换公式将目标模板中的像素点映射到输入图像Q中,透视变换公式如下:
Figure BDA0002632908990000054
Figure BDA0002632908990000055
其中,
Figure BDA0002632908990000056
为变换矩阵,(u,v)为像素的坐标,(x,y)为像素被透视变换后的坐标;
将输入图像Q中目标的角点分别沿任意方向移动d个像素,d取0到20的整数,根据移动后的角点坐标计算出对应的变换矩阵,即初始运动参数p0
所述光学扰动包括:
1)在输入图像上添加运动模糊或高斯模糊;
2)在输入图像上添加高斯噪声;
3)对输入图像上的所有像素沿一定方向实施不同程度的亮度变化;
所述数据集OCC-DATA构造过程包括:
对于GEN-DATA中的每一个样本,在输入图像中目标的每一个边上选择一个点,构成大小为NP的点集,随机选择n(0≤n≤NP)个点并顺次连接使视频帧中的目标区域分为几个部分,随机选取一部分填充上另一幅图片的图案来模拟遮挡情况;
数据集GEN-DATA和OCC-DATA均以8:2的比例分为训练集和验证集用来训练模型和验证模型的性能;
在训练时,首先不加入遮挡检测机制,用GEN-DATA来训练特征提取网络和相似性度量模块,在训练完成之后固定住特征提取网络和相似性度量模块的参数,用OCC-DATA来训练遮挡检测机制,同时微调特征提取网络和相似性度量模块的参数;
上述训练过程中所采用的损失函数公式如下:
Figure BDA0002632908990000061
其中,
Figure BDA0002632908990000062
为模型预测的目标运动参数,pgt为目标的真实运动参数;N为目标角点的数量,rq为角点的坐标;
Figure BDA0002632908990000063
表示坐标变换的公式。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例提供了一种基于参数化ESM网络的平面目标跟踪方法,通过可训练的特征提取模块和充足的训练集,从而使特征提取模块学***面物体跟踪准确率远高于传统方法以及现有的基于深度网络的方法。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪方法的流程图;
图2为本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪方法的GEN-DATA生成效果图;
图3为本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪方法的OCC-DATA生成效果图;
图4为本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪方法的相似性度量模块流程图;
图5为本发明实施例提供的在第一帧中选定跟踪目标的示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例提供了一种基于参数化ESM网络的平面目标跟踪方法,如图1所示,构建深度平面物体跟踪模型,深度平面物体跟踪模型包括:特征提取网络、相似性度量模块(ML Layer,即metric learning layer)和遮挡检测机制(CMG,即confidence mapgenerator),构造数据集训练深度平面物体跟踪模型。
为了训练模型,以MS-COCO数据集为材料,构造了两个带标签的数据集GEN-DATA和OCC-DATA来训练深度平面物体跟踪模型。其中,GEN-DATA主要包括了光照,形变,噪声等因素;OCC-DATA在GEN-DATA的基础之上,增加了目标部分被遮挡和目标部分超出视野范围的情况。这两个数据集中的每个样本均为一个四元组(T,Q,p0,pgt),分别为模板图像,当前输入图像,初始运动参数,目标的真实运动参数。模板图像来自于由MS-COCO构建的模板池,即,将MS-COCO中的图片缩放为长宽为80~160像素的图片。
上述数据集GEN-DATA构造过程中主要包括几何变换和光学扰动的方法,如图2所示。
上述几何变换的方法为:
1)给定目标模板T和目标的真实运动参数pgt,通过透视变换公式将目标模板中的像素点映射到输入图像Q中。透视变换公式如下:
Figure BDA0002632908990000091
Figure BDA0002632908990000092
其中,
Figure BDA0002632908990000093
为变换矩阵,(u,v)为像素的坐标,(x,y)为像素被透视变换后的坐标。
2)将输入图像Q中目标的角点分别沿任意方向移动d个像素,d取0到20的整数。根据移动后的角点坐标计算出对应的变换矩阵,即初始的运动参数p0
上述光学扰动的实施具体为:
1)在输入图像上添加运动模糊或高斯模糊;
2)在输入图像上添加高斯噪声;
3)对输入图像上的所有像素沿一定方向(比如,从上到下,或者从左到右)实施不同程度的亮度变化。
上述数据集OCC-DATA的生成方法具体为:
对于GEN-DATA中的每一个样本,在输入图像中目标的每一个边上选择一个点,构成大小为NP的点集。然后随机选择n(0≤n≤NP)个点并顺次连接。这样,视频帧中的目标区域就会被分为几个部分。然后随机选取一部分填充上另一幅图片的图案来模拟遮挡情况,如图3所示。
上述两个数据集GEN-DATA和OCC-DATA均以8:2的比例分为训练集和验证集用来训练模型和验证模型的性能。
通过大量数据学习出来的特征更能体现目标的外观特性。在训练时,首先不加入特征检测模块,用GEN-DATA来训练特征提取网络和相似性度量模块。在训练完成之后我们固定住这两个模块的参数,用OCC-DATA来训练遮挡检测模块,同时微调特征提取网络和相似性度量模块的参数。
上述训练过程中所采用的损失函数公式如下:
Figure BDA0002632908990000101
其中,
Figure BDA0002632908990000102
为模型预测的目标运动参数,pgt为目标的真实运动参数。N为目标角点的数量,rq为角点的坐标。
Figure BDA0002632908990000103
表示坐标变换的公式。
将角点的距离和嵌入对数函数中,以避免loss比较大的样本主导整个训练过程。
在深度平面物体跟踪模型训练完成后,目标跟踪的过程如下:
将每一帧的跟踪分为两个阶段,具体为:
第一阶段的跟踪结果的运动参数作为第二阶段的初始运动参数,在下一次迭代过程中,上一次第二阶段跟踪结果的运动参数又作为当前迭代中第一阶段的初始运动参数。
以第一阶段为例:
S1、首先获取目标模板T、第t帧的输入图像以及第t帧中的初始运动参数,由初始运动参数确定输入图像的目标区域It,对目标模板T和目标区域It进行预处理,包括图片缩放和归一化等操作;使用特征提取网络对目标模板T和第t帧的输入图像的目标区域It进行特征的提取,得到特征映射FT
Figure BDA0002632908990000111
其中,预处理后的模板和目标区域维度均为h×l×3,h、l、3分别为图像的宽、长、图片的通道数。
每个阶段的特征提取网络是由7个卷积层组成的,每一层后连接着batchnorm层和激活函数(ReLU)层。前6个卷积层的卷积核数都为64,最后一个卷积层的卷积核数为8。在第k个阶段中,这7个卷积层的前4-k个卷积层的步长为2,剩余卷积层的步长为1,k取1或2。以第一阶段为例,则k=1。
S2、利用相似性度量模块来计算两个特征映射FT
Figure BDA0002632908990000112
之间的差异。其中,相似性度量模块是基于u-net框架的encoder-decoder网络,其输入为目标模板T的特征映射FT和第t帧输入图像的目标区域It的特征映射
Figure BDA0002632908990000113
的拼接,输出为这两个特征映射FT
Figure BDA0002632908990000114
的差异性张量,如图4所示。
S3、利用遮挡检测机制来确定并排除目标在当前帧中被遮挡的部分,通过最小化当前帧中未被遮挡部分的差异求解目标的运动参数。
遮挡检测机制的检测过程具体如下:
为了更清楚的描述该过程,将第t帧的输入图像的目标区域It简化表示为I,其特征映射
Figure BDA0002632908990000115
简化表示为FI。给定模板和第t帧的输入图像的目标区域的L2标准化后的特征映射FT和FI(其特征维度为h′×l′×d,h′×l′分别对应于被提取特征图像的宽和长,
Figure BDA0002632908990000116
k为1或2,d表示特征的维度)。
首先以每个特征为单位,将FT和FI沿h′方向展开成m×d的矩阵(其中m=h′×l′),记为
Figure BDA0002632908990000117
Figure BDA0002632908990000118
Figure BDA0002632908990000119
表示被展开的模板T的特征映射,
Figure BDA00026329089900001110
表示的是被展开的目标区域的特征映射,然后计算相关图R(维度为m×m)来记录每一对特征的相似度,公式如下:
Figure BDA00026329089900001111
其中,i,j分别表示目标模板T和目标区域的特征映射中特征的索引,Ri,j表示的是模板特征映射中第i个特征与目标区域特征映射中第j个特征的相似度,Z(维度为d×d)是可训练的参数矩阵。然后通过选取R中每行最大值来构成置信度向量
Figure BDA0002632908990000121
公式如下:
Figure BDA0002632908990000122
然后,将
Figure BDA0002632908990000123
中的元素归一化到[0,1]区间内作为最终的置信度向量。
最后,将置信度向量
Figure BDA0002632908990000124
以h’为一行,排列成h′×l′的大小,记为C。通过最小化未被遮挡部分的差异来求解目标的运动参数。见如下公式:
Figure BDA0002632908990000125
其中,p表示当前预测的目标运动参数;x表示特征在特征映射中的二维索引;C(·)是通过遮挡检测机制检测后该位置特征对优化的贡献度,理论上说被遮挡部分特征对于优化的贡献度为0,未被遮挡的特征贡献度为1;M(·,·)度量模板和目标区域中每对特征的差异性;
Figure BDA0002632908990000126
表示坐标变换的公式。
采用ESM方法求解下述公式,具体如下:
Figure BDA0002632908990000127
可以通过下式得到运动参数的增量:
Figure BDA0002632908990000128
其中
Figure BDA0002632908990000129
表示矩阵的伪逆,JT是在U(单位变换)处计算的
Figure BDA00026329089900001210
的雅可比矩阵,JE(p)表示p处E(x;p)的雅可比矩阵:
Figure BDA00026329089900001211
运动参数结合运动参数的增量Δp来更新:
Figure BDA00026329089900001212
其中,
Figure BDA0002632908990000131
表示二进制操作。
第二阶段具体过程与前述第一阶段的方法类似,此处不再赘述。
本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪过程如下:
(1)在第一帧中,通过标定目标的角点确定被跟踪目标区域。如图5所示,矩形框内部即为目标模板。
以图5为例,在标定好目标的同时,可以通过目标的四个角点坐标计算出对应的目标第一帧的真实运动参数
Figure BDA0002632908990000132
Figure BDA0002632908990000133
的获取过程如下:
假设模板的宽高为l,h。图5中以点1为原点建立模板的坐标系,点1到点4的坐标分别为(0,0),(0,l),(h,l),(h,0)。在以这帧图像的左上角为原点建立这幅图像的坐标系,点1到点4在这幅图像的坐标为(x1,y1),(x2,y2),(x3,y3),(x4,y4),将a33设为1,通过求解下面公式的逆运算得到
Figure BDA0002632908990000134
Figure BDA0002632908990000135
Figure BDA0002632908990000136
(2)从第二帧开始,第一帧的真实运动参数
Figure BDA0002632908990000137
作为第二帧的初始运动参数p,输入图像为Q通过
Figure BDA0002632908990000138
得到大小与模板相同的图像块(patch),即为目标区域。然后对模板和目标区域进行预处理,特征提取,相似性度量,遮挡检测,最后通过多次迭代ESM的求解过程更新p。最后更新得到的p1就作为这一帧的跟踪结果。
(3)在后续帧中,过程与(2)类似。
综上所述,本发明实施例提供了一种基于参数化ESM网络的平面目标跟踪方法,通过使用可训练的度量模块来计算深度特征之间的差异性,并且利用可训练的遮挡检测机制来辅助优化过程。另外,本发明生成了大量的带标签的样本来模拟现实跟踪场景,并通过设计好的loss函数来监督模型的训练过程,从而使用生成的目标跟踪样本以端到端的形式来训练特征提取网络、相似性度量模块和遮挡检测机制。相比于使用在图像分类任务上训练出来的特征提取器,结合传统的滑窗卷积的方法,本发明的训练方法使模型更适用于目标跟踪任务,并且学习出来的度量方法比传统的滑窗卷积方法更兼容于深度卷积特征,从而大大提高跟踪的准确性。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种基于参数化ESM网络的平面目标跟踪方法,其特征在于,构建深度平面物体跟踪模型,所述深度平面物体跟踪模型包括:特征提取网络、相似性度量模块和遮挡检测机制,构造数据集训练所述深度平面物体跟踪模型,所述平面目标跟踪方法包括:
S1、获取目标模板T、第t帧的输入图像以及第t帧中的初始运动参数,由初始运动参数确定输入图像的目标区域It,对目标模板T和目标区域It进行预处理,包括图片缩放和归一化操作,使用特征提取网络对预处理后的目标模板T和第t帧的输入图像的目标区域It进行特征的提取,得到特征映射FT
Figure FDA0002632908980000011
其中,预处理后的模板和目标区域维度均为h×l×3,h、l、3分别为图像的宽、长、图片的通道数;
S2、利用相似性度量模块计算两个特征映射FT
Figure FDA0002632908980000012
之间的差异;
S3、通过遮挡检测机制确定并排除目标在当前帧中被遮挡的部分,通过最小化当前帧中未被遮挡部分的差异求解目标的运动参数。
2.根据权利要求1所述的方法,其特征在于,将视频中每一帧的跟踪分为两个阶段,具体为:
第一阶段的跟踪结果的运动参数作为第二阶段的初始运动参数,在下一次迭代过程中,上一次第二阶段跟踪结果的运动参数作为当前迭代中第一阶段的初始运动参数。
3.根据权利要求2所述的方法,其特征在于,每个阶段的特征提取网络是由7个卷积层组成的,每一层后连接着batchnorm层和激活函数ReLU层,前6个卷积层的卷积核数都为64,最后一个卷积层的卷积核数为8,在第k个阶段中,这7个卷积层的前4-k个卷积层的步长为2,剩余卷积层的步长为1,k为1或2。
4.根据权利要求1所述的方法,其特征在于,所述相似性度量模块是基于u-net框架的encoder-decoder网络,其输入为目标模板T的特征映射FT和第t帧输入图像的目标区域It的特征映射
Figure FDA0002632908980000021
的拼接,输出为这两个特征映射FT
Figure FDA0002632908980000022
的差异性张量。
5.根据权利要求1所述的方法,其特征在于,所述S3包括:
将第t帧的输入图像的目标区域It简化表示为I,其特征映射
Figure FDA0002632908980000023
简化表示为FI,给定模板和第t帧输入图像的目标区域的L2标准化后的特征映射FT和FI,其特征维度为h′×l′×d,其中,h′和l′分别对应于被提取特征图像的宽和长,
Figure FDA0002632908980000024
k为1或2,d表示特征的维度;
首先以每个特征为单位,分别将FT和FI沿h′方向展开成m×d的矩阵,其中m=h′×l′,记为
Figure FDA0002632908980000025
Figure FDA0002632908980000026
Figure FDA0002632908980000027
表示被展开的模板T的特征映射,
Figure FDA0002632908980000028
表示的是被展开的目标区域的特征映射,然后计算相关图R来记录每一对特征的相似度,相关图R维度为m×m,其公式如下:
Figure FDA0002632908980000029
其中,i,j分别表示目标模板T和目标区域的特征映射中特征的索引,Ri,j表示的是模板特征映射中第i个特征与目标区域的特征映射中第j个特征的相似度,Z是可训练的参数矩阵,Z维度为d×d,通过选取R中每行最大值来构成置信度向量
Figure FDA00026329089800000210
公式如下:
Figure FDA00026329089800000211
然后,将
Figure FDA00026329089800000212
中的元素归一化到[0,1]区间内作为最终的置信度向量;
最后,将置信度向量
Figure FDA00026329089800000213
以h′为一行,排列成h′×l′的大小,记为C,通过最小化未被遮挡部分的差异来求解目标的运动参数,见如下公式:
Figure FDA00026329089800000214
Figure FDA0002632908980000031
其中,p表示当前预测的目标运动参数;x表示特征在特征映射中的二维索引;C(·)是通过遮挡检测机制检测后该位置特征对优化的贡献度,被遮挡部分特征对于优化的贡献度为0,未被遮挡的特征贡献度为1;M(·,·)度量模板和目标区域中每对特征的差异性;
Figure FDA0002632908980000032
表示坐标变换的公式;
采用ESM方法求解公式(3),具体如下:
Figure FDA0002632908980000033
通过下式得到运动参数的增量:
Figure FDA0002632908980000034
其中
Figure FDA0002632908980000035
表示矩阵的伪逆,JT是在U单位变换处计算的
Figure FDA0002632908980000036
的雅可比矩阵,JE(p)表示p处E(x;p)的雅可比矩阵:
Figure FDA0002632908980000037
运动参数结合运动参数的增量Δp来更新:
Figure FDA0002632908980000038
其中,
Figure FDA0002632908980000039
表示二进制操作。
6.根据权利要求1所述的方法,其特征在于,所述构造数据集训练所述深度平面物体跟踪模型,包括:
构造两个带标签的数据集GEN-DATA和OCC-DATA,其中,GEN-DATA包括了光照、形变和噪声因素,OCC-DATA在GEN-DATA的基础之上,增加目标部分被遮挡和目标部分超出视野范围的情况,数据集GEN-DATA和OCC-DATA中的每个样本均为一个四元组(T,Q,p0,pgt),其中,T为模板图像,Q为当前输入图像,p0为初始运动参数,pgt为目标的真实运动参数;
所述数据集GEN-DATA构造过程包括:几何变换和光学扰动;
所述几何变换包括:
给定目标模板T和目标的真实运动参数pgt,通过透视变换公式将目标模板中的像素点映射到输入图像Q中,透视变换公式如下:
Figure FDA0002632908980000041
Figure FDA0002632908980000042
其中,
Figure FDA0002632908980000043
为变换矩阵,(u,v)为像素的坐标,(x,y)为像素被透视变换后的坐标;
将输入图像Q中目标的角点分别沿任意方向移动d个像素,d取0到20的整数,根据移动后的角点坐标计算出对应的变换矩阵,即初始运动参数p0
所述光学扰动包括:
1)在输入图像上添加运动模糊或高斯模糊;
2)在输入图像上添加高斯噪声;
3)对输入图像上的所有像素沿一定方向实施不同程度的亮度变化;
所述数据集OCC-DATA构造过程包括:
对于GEN-DATA中的每一个样本,在输入图像中目标的每一个边上选择一个点,构成大小为NP的点集,随机选择n(0≤n≤NP)个点并顺次连接使视频帧中的目标区域分为几个部分,随机选取一部分填充上另一幅图片的图案来模拟遮挡情况;
数据集GEN-DATA和OCC-DATA均以8:2的比例分为训练集和验证集用来训练模型和验证模型的性能;
在训练时,首先不加入遮挡检测机制,用GEN-DATA来训练特征提取网络和相似性度量模块,在训练完成之后固定住特征提取网络和相似性度量模块的参数,用OCC-DATA来训练遮挡检测机制,同时微调特征提取网络和相似性度量模块的参数;
上述训练过程中所采用的损失函数公式如下:
Figure FDA0002632908980000051
其中,
Figure FDA0002632908980000052
为模型预测的目标运动参数,pgt为目标的真实运动参数;N为目标角点的数量,rq为角点的坐标;
Figure FDA0002632908980000053
表示坐标变换的公式。
CN202010816457.5A 2020-08-14 2020-08-14 一种基于参数化esm网络的平面目标跟踪方法 Active CN111899284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010816457.5A CN111899284B (zh) 2020-08-14 2020-08-14 一种基于参数化esm网络的平面目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010816457.5A CN111899284B (zh) 2020-08-14 2020-08-14 一种基于参数化esm网络的平面目标跟踪方法

Publications (2)

Publication Number Publication Date
CN111899284A true CN111899284A (zh) 2020-11-06
CN111899284B CN111899284B (zh) 2024-04-09

Family

ID=73229031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010816457.5A Active CN111899284B (zh) 2020-08-14 2020-08-14 一种基于参数化esm网络的平面目标跟踪方法

Country Status (1)

Country Link
CN (1) CN111899284B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609316A (zh) * 2021-07-27 2021-11-05 支付宝(杭州)信息技术有限公司 媒体内容相似度的检测方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324956A (zh) * 2008-07-10 2008-12-17 上海交通大学 基于均值漂移的抗遮挡运动目标跟踪方法
CN103729861A (zh) * 2014-01-03 2014-04-16 天津大学 一种多目标跟踪方法
CN106920248A (zh) * 2017-01-19 2017-07-04 博康智能信息技术有限公司上海分公司 一种目标跟踪方法及装置
CN110796680A (zh) * 2019-08-09 2020-02-14 北京邮电大学 一种基于相似模板更新的目标跟踪方法和装置
WO2020155873A1 (zh) * 2019-02-02 2020-08-06 福州大学 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324956A (zh) * 2008-07-10 2008-12-17 上海交通大学 基于均值漂移的抗遮挡运动目标跟踪方法
CN103729861A (zh) * 2014-01-03 2014-04-16 天津大学 一种多目标跟踪方法
CN106920248A (zh) * 2017-01-19 2017-07-04 博康智能信息技术有限公司上海分公司 一种目标跟踪方法及装置
WO2020155873A1 (zh) * 2019-02-02 2020-08-06 福州大学 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法
CN110796680A (zh) * 2019-08-09 2020-02-14 北京邮电大学 一种基于相似模板更新的目标跟踪方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WU ZIJIAN: "《Netted Radar Tracking with Multiple Simultaneous Transmissions against Combined PDS Interception》", 《 JOURNAL OF SENSORS》 *
王涛: "《基于核相关滤波的长时间目标跟踪算法研究》", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
王涛等: "《基于时空背景差的带跟踪补偿目标检测方法》", 《计算机应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609316A (zh) * 2021-07-27 2021-11-05 支付宝(杭州)信息技术有限公司 媒体内容相似度的检测方法和装置

Also Published As

Publication number Publication date
CN111899284B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
US10839543B2 (en) Systems and methods for depth estimation using convolutional spatial propagation networks
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN110738697B (zh) 基于深度学习的单目深度估计方法
CN113269237B (zh) 基于注意力机制的装配体变化检测方法、设备和介质
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
EP3815043A1 (en) Systems and methods for depth estimation via affinity learned with convolutional spatial propagation networks
CN102722697B (zh) 一种无人飞行器视觉自主导引着陆的目标跟踪方法
CN108021889A (zh) 一种基于姿态外形和运动信息的双通道红外行为识别方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN114565655B (zh) 一种基于金字塔分割注意力的深度估计方法及装置
CN112348849A (zh) 一种孪生网络视频目标跟踪方法及装置
CN110084201B (zh) 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法
US20220044072A1 (en) Systems and methods for aligning vectors to an image
CN113516693B (zh) 一种快速通用的图像配准方法
CN114399533B (zh) 一种基于多层次注意力机制的单目标追踪方法
CN113724379B (zh) 融合图像与激光点云的三维重建方法及装置
CN114429555A (zh) 由粗到细的图像稠密匹配方法、***、设备及存储介质
CN114140623A (zh) 一种图像特征点提取方法及***
CN116402851A (zh) 一种复杂背景下的红外弱小目标跟踪方法
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
CN112669452B (zh) 一种基于卷积神经网络多分支结构的物体定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant