CN111899284B - 一种基于参数化esm网络的平面目标跟踪方法 - Google Patents
一种基于参数化esm网络的平面目标跟踪方法 Download PDFInfo
- Publication number
- CN111899284B CN111899284B CN202010816457.5A CN202010816457A CN111899284B CN 111899284 B CN111899284 B CN 111899284B CN 202010816457 A CN202010816457 A CN 202010816457A CN 111899284 B CN111899284 B CN 111899284B
- Authority
- CN
- China
- Prior art keywords
- target
- feature
- data
- template
- input image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000001514 detection method Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000005259 measurement Methods 0.000 claims abstract description 19
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000000903 blocking effect Effects 0.000 claims abstract description 4
- 238000010606 normalization Methods 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 30
- 230000009466 transformation Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 9
- 230000003287 optical effect Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000005286 illumination Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000011524 similarity measure Methods 0.000 claims 1
- 230000008859 change Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种基于参数化ESM网络的平面目标跟踪方法,包括:S1、获取目标模板T、第t帧的输入图像以及第t帧中的初始运动参数,由初始运动参数确定输入图像的目标区域It,对目标模板T和目标区域It进行预处理,包括图片缩放和归一化操作,使用特征提取网络对预处理后的目标模板T和第t帧的输入图像的目标区域It进行特征的提取,得到特征映射FT和Ft I;S2、利用相似性度量模块计算两个特征映射FT和Ft I之间的差异;S3、通过遮挡检测机制确定并排除目标在当前帧中被遮挡的部分,通过最小化当前帧中未被遮挡部分的差异求解目标的运动参数。本发明的方法更适用于目标跟踪任务,而且大大提高跟踪的准确性。
Description
技术领域
本发明涉及机器视觉与模式识别领域,尤其涉及一种基于参数化ESM网络的平面目标跟踪方法。
背景技术
平面目标跟踪是指给定一段视频帧序列,并在第一帧中指定感兴趣的平面物体,平面物体跟踪算法的目标是在后续视频帧中计算出平面物体的姿态变化。平面物体跟踪作为计算机视觉中的一个核心问题,在很多领域都有着应用,比如,增强现实,机器人控制,无人机技术等。
申请号为201510147895.6的专利文献公开了一种基于位平面的运动目标跟踪方法。该发明对跟踪目标和搜索区域求取平滑后的亮度位平面和局部二值模式位平面;然后在搜索区域的两个外观平面上搜索与跟踪目标对应的两个外观模型最为接近的区域作为跟踪目标;跟踪完成后,根据已建立的外观模型和当前帧中的跟踪结果,按照预先设定的更新速率更新外观模型。该发明在跟踪精度和鲁棒性上有明显的优势,有效地解决了视频中光照条件变化、目标位姿变化、以及外观显著变化等情况下运动目标跟踪困难的问题。
申请号为201910297980.9的专利文献公开了一种基于模板匹配和深度分类网络的运动目标跟踪方法,主要解决当时现有技术中目标检测速度慢,及在目标发生外观形变、遮挡时跟踪不准确的问题。该方案从双残差深度分类网络中提取模板网络和检测网络;在模板和检测区域上用对应的网络提取出模板特征和检测特征;将模板特征在检测特征上进行模板匹配,得到模板匹配图;根据模板匹配图确定目标位置;跟踪目标位置更新模板特征。该发明跟踪速度快,准确率高,用于对剧烈形变、光照变化视频目标跟踪。
对于申请号为201510147895.6专利文献,该方案在一定程度上解决了视频中光照变化、外观变化等情况下目标跟踪困难的问题。该发明虽然对目标的亮度以及纹理进行了精心设计的建模,但是其手工设计的建模方法并不能准确体现目标外观的特性。对于申请号为201910297980.9专利文献,该发明虽然采用了深度网络来作为特征提取器,但其特征提取器并没有嵌入在视频跟踪任务中构建成端到端的框架来进行训练和验证,而是在分类任务上对特征提取器进行训练,另外,该发明在计算特征响应图时采用的是简单的滑窗卷积方法。实际上,滑窗卷积方法不一定在深度特征图上适用。此外,这两种发明都没有考虑到目标部分被遮挡或者目标部分超出视野范围的情况。
发明内容
本发明的实施例提供了一种基于参数化ESM网络的平面目标跟踪方法,以克服现有技术的缺陷。
为了实现上述目的,本发明采取了如下技术方案。
一种基于参数化ESM网络的平面目标跟踪方法,构建深度平面物体跟踪模型,所述深度平面物体跟踪模型包括:特征提取网络、相似性度量模块和遮挡检测机制,构造数据集训练所述深度平面物体跟踪模型,所述平面目标跟踪方法包括:
S1、获取目标模板T、第t帧的输入图像以及第t帧中的初始运动参数,由初始运动参数确定输入图像的目标区域It,对目标模板T和目标区域It进行预处理,包括图片缩放和归一化操作,使用特征提取网络对预处理后的目标模板T和第t帧的输入图像的目标区域It进行特征的提取,得到特征映射FT和Ft I,其中,预处理后的模板和目标区域维度均为h×l×3,h、l、3分别为图像的宽、长、图片的通道数;
S2、利用相似性度量模块计算两个特征映射FT和Ft I之间的差异;
S3、通过遮挡检测机制确定并排除目标在当前帧中被遮挡的部分,通过最小化当前帧中未被遮挡部分的差异求解目标的运动参数。
优选地,将视频中每一帧的跟踪分为两个阶段,具体为:
第一阶段的跟踪结果的运动参数作为第二阶段的初始运动参数,在下一次迭代过程中,上一次第二阶段跟踪结果的运动参数作为当前迭代中第一阶段的初始运动参数。
优选地,每个阶段的特征提取网络是由7个卷积层组成的,每一层后连接着batchnorm层和激活函数ReLU层,前6个卷积层的卷积核数都为64,最后一个卷积层的卷积核数为8,在第k个阶段中,这7个卷积层的前4-k个卷积层的步长为2,剩余卷积层的步长为1,k为1或2。
优选地,所述相似性度量模块是基于u-net框架的encoder-decoder网络,其输入为目标模板T的特征映射FT和第t帧输入图像的目标区域It的特征映射Ft I的拼接,输出为这两个特征映射FT和Ft I的差异性张量。
优选地,所述S3包括:
将第t帧的输入图像的目标区域It简化表示为I,其特征映射Ft I简化表示为FI,给定模板和第t帧输入图像的目标区域的L2标准化后的特征映射FT和FI,其特征维度为h′×l′×d,其中,h′和l′分别对应于被提取特征图像的宽和长,k为1或2,d表示特征的维度;
首先以每个特征为单位,分别将FT和FI沿h′方向展开成m×d的矩阵,其中m=h′×l′,记为和/>表示被展开的模板T的特征映射,/>表示的是被展开的目标区域的特征映射,然后计算相关图R来记录每一对特征的相似度,相关图R维度为m×m,其公式如下:
其中,i,j分别表示目标模板T和目标区域的特征映射中特征的索引,Ri,j表示的是模板特征映射中第i个特征与目标区域的特征映射中第j个特征的相似度,Z是可训练的参数矩阵,Z维度为d×d,通过选取R中每行最大值来构成置信度向量公式如下:
然后,将中的元素归一化到[0,1]区间内作为最终的置信度向量/>
最后,将置信度向量以h′为一行,排列成h′×l′的大小,记为C,通过最小化未被遮挡部分的差异来求解目标的运动参数,见如下公式:
其中,p表示当前预测的目标运动参数;x表示特征在特征映射中的二维索引;C(·)是通过遮挡检测机制检测后该位置特征对优化的贡献度,被遮挡部分特征对于优化的贡献度为0,未被遮挡的特征贡献度为1;M(·,·)度量模板和目标区域中每对特征的差异性;表示坐标变换的公式;
采用ESM方法求解公式(3),具体如下:
令
通过下式得到运动参数的增量:
其中表示矩阵的伪逆,JT是在U单位变换处计算的的雅可比矩阵,JE(p)表示p处E(x;p)的雅可比矩阵:
运动参数结合运动参数的增量Δp来更新:
其中,表示二进制操作。
优选地,所述构造数据集训练所述深度平面物体跟踪模型,包括:
构造两个带标签的数据集GEN-DATA和OCC-DATA,其中,GEN-DATA包括了光照、形变和噪声因素,OCC-DATA在GEN-DATA的基础之上,增加目标部分被遮挡和目标部分超出视野范围的情况,数据集GEN-DATA和OCC-DATA中的每个样本均为一个四元组(T,Q,p0,pgt),其中,T为模板图像,Q为当前输入图像,p0为初始运动参数,pgt为目标的真实运动参数;
所述数据集GEN-DATA构造过程包括:几何变换和光学扰动;
所述几何变换包括:
给定目标模板T和目标的真实运动参数pgt,通过透视变换公式将目标模板中的像素点映射到输入图像Q中,透视变换公式如下:
其中,为变换矩阵,(u,v)为像素的坐标,(x,y)为像素被透视变换后的坐标;
将输入图像Q中目标的角点分别沿任意方向移动d个像素,d取0到20的整数,根据移动后的角点坐标计算出对应的变换矩阵,即初始运动参数p0;
所述光学扰动包括:
1)在输入图像上添加运动模糊或高斯模糊;
2)在输入图像上添加高斯噪声;
3)对输入图像上的所有像素沿一定方向实施不同程度的亮度变化;
所述数据集OCC-DATA构造过程包括:
对于GEN-DATA中的每一个样本,在输入图像中目标的每一个边上选择一个点,构成大小为NP的点集,随机选择n(0≤n≤NP)个点并顺次连接使视频帧中的目标区域分为几个部分,随机选取一部分填充上另一幅图片的图案来模拟遮挡情况;
数据集GEN-DATA和OCC-DATA均以8:2的比例分为训练集和验证集用来训练模型和验证模型的性能;
在训练时,首先不加入遮挡检测机制,用GEN-DATA来训练特征提取网络和相似性度量模块,在训练完成之后固定住特征提取网络和相似性度量模块的参数,用OCC-DATA来训练遮挡检测机制,同时微调特征提取网络和相似性度量模块的参数;
上述训练过程中所采用的损失函数公式如下:
其中,为模型预测的目标运动参数,pgt为目标的真实运动参数;N为目标角点的数量,rq为角点的坐标;/>表示坐标变换的公式。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例提供了一种基于参数化ESM网络的平面目标跟踪方法,通过可训练的特征提取模块和充足的训练集,从而使特征提取模块学***面物体跟踪准确率远高于传统方法以及现有的基于深度网络的方法。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪方法的流程图;
图2为本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪方法的GEN-DATA生成效果图;
图3为本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪方法的OCC-DATA生成效果图;
图4为本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪方法的相似性度量模块流程图;
图5为本发明实施例提供的在第一帧中选定跟踪目标的示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例提供了一种基于参数化ESM网络的平面目标跟踪方法,如图1所示,构建深度平面物体跟踪模型,深度平面物体跟踪模型包括:特征提取网络、相似性度量模块(ML Layer,即metric learning layer)和遮挡检测机制(CMG,即confidence mapgenerator),构造数据集训练深度平面物体跟踪模型。
为了训练模型,以MS-COCO数据集为材料,构造了两个带标签的数据集GEN-DATA和OCC-DATA来训练深度平面物体跟踪模型。其中,GEN-DATA主要包括了光照,形变,噪声等因素;OCC-DATA在GEN-DATA的基础之上,增加了目标部分被遮挡和目标部分超出视野范围的情况。这两个数据集中的每个样本均为一个四元组(T,Q,p0,pgt),分别为模板图像,当前输入图像,初始运动参数,目标的真实运动参数。模板图像来自于由MS-COCO构建的模板池,即,将MS-COCO中的图片缩放为长宽为80~160像素的图片。
上述数据集GEN-DATA构造过程中主要包括几何变换和光学扰动的方法,如图2所示。
上述几何变换的方法为:
1)给定目标模板T和目标的真实运动参数pgt,通过透视变换公式将目标模板中的像素点映射到输入图像Q中。透视变换公式如下:
其中,为变换矩阵,(u,v)为像素的坐标,(x,y)为像素被透视变换后的坐标。
2)将输入图像Q中目标的角点分别沿任意方向移动d个像素,d取0到20的整数。根据移动后的角点坐标计算出对应的变换矩阵,即初始的运动参数p0。
上述光学扰动的实施具体为:
1)在输入图像上添加运动模糊或高斯模糊;
2)在输入图像上添加高斯噪声;
3)对输入图像上的所有像素沿一定方向(比如,从上到下,或者从左到右)实施不同程度的亮度变化。
上述数据集OCC-DATA的生成方法具体为:
对于GEN-DATA中的每一个样本,在输入图像中目标的每一个边上选择一个点,构成大小为NP的点集。然后随机选择n(0≤n≤NP)个点并顺次连接。这样,视频帧中的目标区域就会被分为几个部分。然后随机选取一部分填充上另一幅图片的图案来模拟遮挡情况,如图3所示。
上述两个数据集GEN-DATA和OCC-DATA均以8:2的比例分为训练集和验证集用来训练模型和验证模型的性能。
通过大量数据学习出来的特征更能体现目标的外观特性。在训练时,首先不加入特征检测模块,用GEN-DATA来训练特征提取网络和相似性度量模块。在训练完成之后我们固定住这两个模块的参数,用OCC-DATA来训练遮挡检测模块,同时微调特征提取网络和相似性度量模块的参数。
上述训练过程中所采用的损失函数公式如下:
其中,为模型预测的目标运动参数,pgt为目标的真实运动参数。N为目标角点的数量,rq为角点的坐标。/>表示坐标变换的公式。
将角点的距离和嵌入对数函数中,以避免loss比较大的样本主导整个训练过程。
在深度平面物体跟踪模型训练完成后,目标跟踪的过程如下:
将每一帧的跟踪分为两个阶段,具体为:
第一阶段的跟踪结果的运动参数作为第二阶段的初始运动参数,在下一次迭代过程中,上一次第二阶段跟踪结果的运动参数又作为当前迭代中第一阶段的初始运动参数。
以第一阶段为例:
S1、首先获取目标模板T、第t帧的输入图像以及第t帧中的初始运动参数,由初始运动参数确定输入图像的目标区域It,对目标模板T和目标区域It进行预处理,包括图片缩放和归一化等操作;使用特征提取网络对目标模板T和第t帧的输入图像的目标区域It进行特征的提取,得到特征映射FT和Ft I,其中,预处理后的模板和目标区域维度均为h×l×3,h、l、3分别为图像的宽、长、图片的通道数。
每个阶段的特征提取网络是由7个卷积层组成的,每一层后连接着batchnorm层和激活函数(ReLU)层。前6个卷积层的卷积核数都为64,最后一个卷积层的卷积核数为8。在第k个阶段中,这7个卷积层的前4-k个卷积层的步长为2,剩余卷积层的步长为1,k取1或2。以第一阶段为例,则k=1。
S2、利用相似性度量模块来计算两个特征映射FT和Ft I之间的差异。其中,相似性度量模块是基于u-net框架的encoder-decoder网络,其输入为目标模板T的特征映射FT和第t帧输入图像的目标区域It的特征映射Ft I的拼接,输出为这两个特征映射FT和Ft I的差异性张量,如图4所示。
S3、利用遮挡检测机制来确定并排除目标在当前帧中被遮挡的部分,通过最小化当前帧中未被遮挡部分的差异求解目标的运动参数。
遮挡检测机制的检测过程具体如下:
为了更清楚的描述该过程,将第t帧的输入图像的目标区域It简化表示为I,其特征映射Ft I简化表示为FI。给定模板和第t帧的输入图像的目标区域的L2标准化后的特征映射FT和FI(其特征维度为h′×l′×d,h′×l′分别对应于被提取特征图像的宽和长,k为1或2,d表示特征的维度)。
首先以每个特征为单位,将FT和FI沿h′方向展开成m×d的矩阵(其中m=h′×l′),记为和/>表示被展开的模板T的特征映射,/>表示的是被展开的目标区域的特征映射,然后计算相关图R(维度为m×m)来记录每一对特征的相似度,公式如下:
其中,i,j分别表示目标模板T和目标区域的特征映射中特征的索引,Ri,j表示的是模板特征映射中第i个特征与目标区域特征映射中第j个特征的相似度,Z(维度为d×d)是可训练的参数矩阵。然后通过选取R中每行最大值来构成置信度向量公式如下:
然后,将中的元素归一化到[0,1]区间内作为最终的置信度向量/>
最后,将置信度向量以h’为一行,排列成h′×l′的大小,记为C。通过最小化未被遮挡部分的差异来求解目标的运动参数。见如下公式:
其中,p表示当前预测的目标运动参数;x表示特征在特征映射中的二维索引;C(·)是通过遮挡检测机制检测后该位置特征对优化的贡献度,理论上说被遮挡部分特征对于优化的贡献度为0,未被遮挡的特征贡献度为1;M(·,·)度量模板和目标区域中每对特征的差异性;表示坐标变换的公式。
采用ESM方法求解下述公式,具体如下:
令
可以通过下式得到运动参数的增量:
其中表示矩阵的伪逆,JT是在U(单位变换)处计算的的雅可比矩阵,JE(p)表示p处E(x;p)的雅可比矩阵:
运动参数结合运动参数的增量Δp来更新:
其中,°表示二进制操作。
第二阶段具体过程与前述第一阶段的方法类似,此处不再赘述。
本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪过程如下:
(1)在第一帧中,通过标定目标的角点确定被跟踪目标区域。如图5所示,矩形框内部即为目标模板。
以图5为例,在标定好目标的同时,可以通过目标的四个角点坐标计算出对应的目标第一帧的真实运动参数
的获取过程如下:
假设模板的宽高为l,h。图5中以点1为原点建立模板的坐标系,点1到点4的坐标分别为(0,0),(0,l),(h,l),(h,0)。在以这帧图像的左上角为原点建立这幅图像的坐标系,点1到点4在这幅图像的坐标为(x1,y1),(x2,y2),(x3,y3),(x4,y4),将a33设为1,通过求解下面公式的逆运算得到
(2)从第二帧开始,第一帧的真实运动参数作为第二帧的初始运动参数p,输入图像为Q通过/>得到大小与模板相同的图像块(patch),即为目标区域。然后对模板和目标区域进行预处理,特征提取,相似性度量,遮挡检测,最后通过多次迭代ESM的求解过程更新p。最后更新得到的p1就作为这一帧的跟踪结果。
(3)在后续帧中,过程与(2)类似。
综上所述,本发明实施例提供了一种基于参数化ESM网络的平面目标跟踪方法,通过使用可训练的度量模块来计算深度特征之间的差异性,并且利用可训练的遮挡检测机制来辅助优化过程。另外,本发明生成了大量的带标签的样本来模拟现实跟踪场景,并通过设计好的loss函数来监督模型的训练过程,从而使用生成的目标跟踪样本以端到端的形式来训练特征提取网络、相似性度量模块和遮挡检测机制。相比于使用在图像分类任务上训练出来的特征提取器,结合传统的滑窗卷积的方法,本发明的训练方法使模型更适用于目标跟踪任务,并且学习出来的度量方法比传统的滑窗卷积方法更兼容于深度卷积特征,从而大大提高跟踪的准确性。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (5)
1.一种基于参数化ESM网络的平面目标跟踪方法,其特征在于,构建深度平面物体跟踪模型,所述深度平面物体跟踪模型包括:特征提取网络、相似性度量模块和遮挡检测机制,构造数据集训练所述深度平面物体跟踪模型,所述平面目标跟踪方法包括:
S1、获取目标模板T、第t帧的输入图像以及第t帧中的初始运动参数,由初始运动参数确定输入图像的目标区域It,对目标模板T和目标区域It进行预处理,包括图片缩放和归一化操作,使用特征提取网络对预处理后的目标模板T和第t帧的输入图像的目标区域It进行特征的提取,得到特征映射FT和Ft I,其中,预处理后的模板和目标区域维度均为h×l×3,h、l、3分别为图像的宽、长、图片的通道数;
S2、利用相似性度量模块计算两个特征映射FT和Ft I之间的差异;
S3、通过遮挡检测机制确定并排除目标在当前帧中被遮挡的部分,通过最小化当前帧中未被遮挡部分的差异求解目标的运动参数;具体包括:
将第t帧的输入图像的目标区域It简化表示为I,其特征映射Ft I简化表示为FI,给定模板和第t帧输入图像的目标区域的L2标准化后的特征映射FT和FI,其特征维度为h′×l′×d,其中,h′和l′分别对应于被提取特征图像的宽和长,k为1或2,d表示特征的维度;
首先以每个特征为单位,分别将FT和FI沿h′方向展开成m×d的矩阵,其中m=h′×l′,记为和/> 表示被展开的模板T的特征映射,/>表示的是被展开的目标区域的特征映射,然后计算相关图R来记录每一对特征的相似度,相关图R维度为m×m,其公式如下:
其中,i,j分别表示目标模板T和目标区域的特征映射中特征的索引,Ri,j表示的是模板特征映射中第i个特征与目标区域的特征映射中第j个特征的相似度,Z是可训练的参数矩阵,Z维度为d×d,通过选取R中每行最大值来构成置信度向量公式如下:
然后,将中的元素归一化到[0,1]区间内作为最终的置信度向量/>
最后,将置信度向量以h′为一行,排列成h′×l′的大小,记为C,通过最小化未被遮挡部分的差异来求解目标的运动参数,见如下公式:
其中,p表示当前预测的目标运动参数;x表示特征在特征映射中的二维索引;C(·)是通过遮挡检测机制检测后该位置特征对优化的贡献度,被遮挡部分特征对于优化的贡献度为0,未被遮挡的特征贡献度为1;M(·,·)度量模板和目标区域中每对特征的差异性;表示坐标变换的公式;
采用ESM方法求解公式(3),具体如下:
令
通过下式得到运动参数的增量:
其中表示矩阵的伪逆,JT是在U单位变换处计算的/>的雅可比矩阵,JE(p)表示p处E(x;p)的雅可比矩阵:
运动参数结合运动参数的增量Δp来更新:
p←p°Δp……(7)其中,°表示二进制操作。
2.根据权利要求1所述的方法,其特征在于,将视频中每一帧的跟踪分为两个阶段,具体为:
第一阶段的跟踪结果的运动参数作为第二阶段的初始运动参数,在下一次迭代过程中,上一次第二阶段跟踪结果的运动参数作为当前迭代中第一阶段的初始运动参数。
3.根据权利要求2所述的方法,其特征在于,每个阶段的特征提取网络是由7个卷积层组成的,每一层后连接着batchnorm层和激活函数ReLU层,前6个卷积层的卷积核数都为64,最后一个卷积层的卷积核数为8,在第k个阶段中,这7个卷积层的前4-k个卷积层的步长为2,剩余卷积层的步长为1,k为1或2。
4.根据权利要求1所述的方法,其特征在于,所述相似性度量模块是基于u-net框架的encoder-decoder网络,其输入为目标模板T的特征映射FT和第t帧输入图像的目标区域It的特征映射Ft I的拼接,输出为这两个特征映射FT和Ft I的差异性张量。
5.根据权利要求1所述的方法,其特征在于,所述构造数据集训练所述深度平面物体跟踪模型,包括:
构造两个带标签的数据集GEN-DATA和OCC-DATA,其中,GEN-DATA包括了光照、形变和噪声因素,OCC-DATA在GEN-DATA的基础之上,增加目标部分被遮挡和目标部分超出视野范围的情况,数据集GEN-DATA和OCC-DATA中的每个样本均为一个四元组(T,Q,p0,pgt),其中,T为模板图像,Q为当前输入图像,p0为初始运动参数,pgt为目标的真实运动参数;
所述数据集GEN-DATA构造过程包括:几何变换和光学扰动;
所述几何变换包括:
给定目标模板T和目标的真实运动参数pgt,通过透视变换公式将目标模板中的像素点映射到输入图像Q中,透视变换公式如下:
其中,为变换矩阵,(u,v)为像素的坐标,(x,y)为像素被透视变换后的坐标;
将输入图像Q中目标的角点分别沿任意方向移动d个像素,d取0到20的整数,根据移动后的角点坐标计算出对应的变换矩阵,即初始运动参数p0;
所述光学扰动包括:
1)在输入图像上添加运动模糊或高斯模糊;
2)在输入图像上添加高斯噪声;
3)对输入图像上的所有像素沿一定方向实施不同程度的亮度变化;
所述数据集OCC-DATA构造过程包括:
对于GEN-DATA中的每一个样本,在输入图像中目标的每一个边上选择一个点,构成大小为NP的点集,随机选择n(0≤n≤NP)个点并顺次连接使视频帧中的目标区域分为几个部分,随机选取一部分填充上另一幅图片的图案来模拟遮挡情况;
数据集GEN-DATA和OCC-DATA均以8:2的比例分为训练集和验证集用来训练模型和验证模型的性能;
在训练时,首先不加入遮挡检测机制,用GEN-DATA来训练特征提取网络和相似性度量模块,在训练完成之后固定住特征提取网络和相似性度量模块的参数,用OCC-DATA来训练遮挡检测机制,同时微调特征提取网络和相似性度量模块的参数;
上述训练过程中所采用的损失函数公式如下:
其中,为模型预测的目标运动参数,pgt为目标的真实运动参数;N为目标角点的数量,rq为角点的坐标;/>表示坐标变换的公式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010816457.5A CN111899284B (zh) | 2020-08-14 | 2020-08-14 | 一种基于参数化esm网络的平面目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010816457.5A CN111899284B (zh) | 2020-08-14 | 2020-08-14 | 一种基于参数化esm网络的平面目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111899284A CN111899284A (zh) | 2020-11-06 |
CN111899284B true CN111899284B (zh) | 2024-04-09 |
Family
ID=73229031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010816457.5A Active CN111899284B (zh) | 2020-08-14 | 2020-08-14 | 一种基于参数化esm网络的平面目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111899284B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609316A (zh) * | 2021-07-27 | 2021-11-05 | 支付宝(杭州)信息技术有限公司 | 媒体内容相似度的检测方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101324956A (zh) * | 2008-07-10 | 2008-12-17 | 上海交通大学 | 基于均值漂移的抗遮挡运动目标跟踪方法 |
CN103729861A (zh) * | 2014-01-03 | 2014-04-16 | 天津大学 | 一种多目标跟踪方法 |
CN106920248A (zh) * | 2017-01-19 | 2017-07-04 | 博康智能信息技术有限公司上海分公司 | 一种目标跟踪方法及装置 |
CN110796680A (zh) * | 2019-08-09 | 2020-02-14 | 北京邮电大学 | 一种基于相似模板更新的目标跟踪方法和装置 |
WO2020155873A1 (zh) * | 2019-02-02 | 2020-08-06 | 福州大学 | 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法 |
-
2020
- 2020-08-14 CN CN202010816457.5A patent/CN111899284B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101324956A (zh) * | 2008-07-10 | 2008-12-17 | 上海交通大学 | 基于均值漂移的抗遮挡运动目标跟踪方法 |
CN103729861A (zh) * | 2014-01-03 | 2014-04-16 | 天津大学 | 一种多目标跟踪方法 |
CN106920248A (zh) * | 2017-01-19 | 2017-07-04 | 博康智能信息技术有限公司上海分公司 | 一种目标跟踪方法及装置 |
WO2020155873A1 (zh) * | 2019-02-02 | 2020-08-06 | 福州大学 | 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法 |
CN110796680A (zh) * | 2019-08-09 | 2020-02-14 | 北京邮电大学 | 一种基于相似模板更新的目标跟踪方法和装置 |
Non-Patent Citations (3)
Title |
---|
《Netted Radar Tracking with Multiple Simultaneous Transmissions against Combined PDS Interception》;Wu Zijian;《 Journal of Sensors》;全文 * |
《基于时空背景差的带跟踪补偿目标检测方法》;王涛等;《计算机应用》;全文 * |
《基于核相关滤波的长时间目标跟踪算法研究》;王涛;《中国优秀硕士学位论文全文数据库(信息科技辑)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111899284A (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108734723B (zh) | 一种基于自适应权重联合学习的相关滤波目标跟踪方法 | |
CN107369166B (zh) | 一种基于多分辨率神经网络的目标跟踪方法及*** | |
US20160379375A1 (en) | Camera Tracking Method and Apparatus | |
Zhao et al. | Deep lucas-kanade homography for multimodal image alignment | |
CN114565655B (zh) | 一种基于金字塔分割注意力的深度估计方法及装置 | |
CN109544603B (zh) | 基于深度迁移学习的目标跟踪方法 | |
CN113724379B (zh) | 融合图像与激光点云的三维重建方法及装置 | |
CN104751493A (zh) | 基于梯度纹理特征的稀疏跟踪方法 | |
Sui et al. | Exploiting the anisotropy of correlation filter learning for visual tracking | |
CN108335328B (zh) | 摄像机姿态估计方法和摄像机姿态估计装置 | |
CN111899284B (zh) | 一种基于参数化esm网络的平面目标跟踪方法 | |
CN114463397A (zh) | 一种基于渐进式滤波的多模态图像配准方法 | |
CN113763274A (zh) | 一种联合局部相位锐度定向描述的多源图像匹配方法 | |
CN108009272B (zh) | 一种基于有向带权图的低空运动目标搜索方法 | |
CN116363205A (zh) | 基于深度学习的空间目标位姿解算方法及计算机程序产品 | |
Yao et al. | Matching wide-baseline stereo images with weak texture using the perspective invariant local feature transformer | |
CN113160271B (zh) | 一种融合相关滤波和粒子滤波的高精度红外目标跟踪方法 | |
CN112348847B (zh) | 一种目标尺度自适应跟踪方法 | |
CN115345902A (zh) | 基于机器学习的红外图像弱小目标检测跟踪方法及*** | |
CN111160300B (zh) | 一种结合全局先验的深度学习高光谱图像显著性检测算法 | |
CN114612545A (zh) | 图像分析方法及相关模型的训练方法、装置、设备和介质 | |
CN111126198B (zh) | 一种基于深度表示学习跟动态匹配的行人再识别方法 | |
CN113705731A (zh) | 一种基于孪生网络的端到端图像模板匹配方法 | |
CN110660079A (zh) | 一种基于时空上下文的单目标跟踪方法 | |
Bi | [Retracted] A Motion Image Pose Contour Extraction Method Based on B‐Spline Wavelet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |