CN112750148A - 一种基于孪生网络的多尺度目标感知跟踪方法 - Google Patents

一种基于孪生网络的多尺度目标感知跟踪方法 Download PDF

Info

Publication number
CN112750148A
CN112750148A CN202110043796.9A CN202110043796A CN112750148A CN 112750148 A CN112750148 A CN 112750148A CN 202110043796 A CN202110043796 A CN 202110043796A CN 112750148 A CN112750148 A CN 112750148A
Authority
CN
China
Prior art keywords
picture
follows
target
features
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110043796.9A
Other languages
English (en)
Other versions
CN112750148B (zh
Inventor
产思贤
陶健
周小龙
白琮
郏杨威
郑竟成
陈胜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110043796.9A priority Critical patent/CN112750148B/zh
Publication of CN112750148A publication Critical patent/CN112750148A/zh
Application granted granted Critical
Publication of CN112750148B publication Critical patent/CN112750148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于孪生网络的多尺度目标感知跟踪方法,在第一帧会根据标注的目标包围框,在图片中裁切出一块作为模板图片,并输入ResNet网络提取其特征;在后续的跟踪过程中,首先会根据上一帧的目标位置信息在当前帧裁切出一定大小的搜索区域图片;其次输入相同的ResNet网络提取其特征,并与模板特征做像素级相关计算,获得具有两者的相似性信息的相关特征;然后将相关特征依次通过通道注意力模块、非局部注意力模块和无锚的预测模块,获得分类图和一致的边框回归结果;最后,找到分类图中正样本概率最高的位置,并以此找到对应的对象边框;当前帧目标的定位信息预测完毕,进入下一帧循环。

Description

一种基于孪生网络的多尺度目标感知跟踪方法
技术领域
本发明属于图像处理领域,是一种基于孪生网络的多尺度目标感知跟踪方法。
背景技术
目标跟踪是计算机视觉领域的重要研究方向之一,在机器人、人机交互、军事侦查、智能交通、虚拟现实等军事、民用领域都有广泛的应用。近年来,许多学者在目标跟踪方面开展了大量工作,并取得了一定的进展。但是,在复杂环境中仍存在目标外观变形(目标纹理、形状、姿态变化等)、光照变化、快速运动和运动模糊、背景相似干扰、平面内外旋转、尺度变化、遮挡和出视野等难题,使得复杂环境下稳定实时的目标跟踪仍然是一个具有挑战性的问题。
基于孪生网络的***通过学习模板特征和搜索特征生成的相似性相关特征来预测目标在当前帧的位置信息,成功的将目标跟踪问题转换为相似性度量问题。SiamFC通过学习从基础相关(
Figure BDA0002896352860000011
-correlation)获得的单通道相似响应图来预测目标的边界框,从而取得了开创性的工作。然而,单通道响应图难以包含多尺度空间信息,对精确跟踪具有一定的局限性。为了克服跟踪过程中由于物体或相机运动引起的尺度变化,SiamRPN采用更好的相关方法获取更多的空间信息,并引入区域建议网络(RPN),利用精心设计的锚盒(anchor)对不同尺度的目标进行预测。SiamRPN++通过使用深度相关方法将相关特征的通道数增加到了256,同时使用了不同深度的ResNet的特征进行目标跟踪,极大的提升了跟踪精度。近年来,学者们发现预先设计的锚盒无法应对跟踪过程中的极端情况。因此,设计了更健壮、更准确的无锚***。然而,尽管有一些方法来解决跟踪过程中尺度变化的挑战。我们发现还有一个关键问题没有得到多少关注。当跟踪过程需要预测不同宽高比的包围框时,固定的方形的感受野引入了过多的背景噪声,导致跟踪漂移。这限制于以往的特征相关方法。模板特征的固定尺寸将导致相关特征中的每个位置都有一个固定的感受野。之后,固定尺寸(正方形)的感受野会使相关特征难以匹配到不同形状的物体。
发明内容
为了克服现有技术的不足,本发明提供一种基于孪生网络的多尺度目标感知跟踪方法,能够有效的获取分割图像的多尺度信息,从而提高了图像分割的精度。
为了解决上述技术问题本发明提供如下的技术方案:
一种基于孪生网络的多尺度目标感知跟踪方法,所述方法包括以下步骤:
S1.精细的特征聚合,过程如下:
S1.1根据视频序列第一帧获得的图片I1和目标的包围框信息B1,进行切片和变形获得跟踪模板Z1,在后续跟踪过程中,根据上一帧的跟踪结果Bi-1,对输入的图片Ii,i∈[2,n]进行切片和变形获得搜索图片Xi
S1.2将获得的跟踪模板Z1和搜索图片Xi输入预训练好的深度残差网络“ResNet-50”,获得深度特征
Figure BDA0002896352860000021
Figure BDA0002896352860000022
模型会收集深度残差网络后三层(CONV3,CONV4,CONV5)输出的特征获得模板特征
Figure BDA0002896352860000023
l∈{3,4,5}和搜索特征
Figure BDA0002896352860000024
l∈{3,4,5};
S1.3将模板特征
Figure BDA0002896352860000025
分解成h×w个子卷积核
Figure BDA0002896352860000026
i∈{1,...,hw}。然后,将每个子卷积核与搜索特征
Figure BDA0002896352860000027
进行基础相关(
Figure BDA00028963528600000212
-correlation)后按通道进行连结,数学表达式如下:
Figure BDA0002896352860000028
其中,*表示基础相关计算,最后,将获得的特征
Figure BDA0002896352860000029
l∈{3,4,5}和
Figure BDA00028963528600000210
l∈{3,4,5}两两进行像素级相关(pixel-wise correlation)后按通道连结;
Figure BDA00028963528600000211
S2.注意力处理过程如下:
S2.1将相关特征RC输入通道注意力模块SENet中,首先,将相关特征RC每一层的特征图通过全局平均池化层(global average pooling layer)压缩成一条向量。
Figure BDA0002896352860000031
其中H和W是相关特征RC高和宽,然后将向量输入一个两层的多层感知机(multi-layer perception),最后,使用sigmoid函数将通道注意力权重映射到0-1区间,数学表达式如下:
Figure BDA0002896352860000032
其中,
Figure BDA0002896352860000033
Figure BDA0002896352860000034
是两个全连接层,σ表示sigmoid激活函数,Ac是获得的通道注意力权值,将通道注意力权值AC与相关特征RC逐通道进行元素间的相乘:
Figure BDA0002896352860000035
其中⊙表示扩展的元素方式乘法(broadcasting element-wisemultiplication);
S2.2利用非局部注意力(Non-Local attention)来聚合全局上下文信息,首先将特征
Figure BDA0002896352860000036
输入三个并行1X1卷积层(θ,φ,g)降低特征通道数,获得三个特征Xθ,Xφ,Xg后进行变形操作获得
Figure BDA0002896352860000037
最后,通过矩阵乘法和softmax函数计算特征不同位置之间的响应值,数学表达式如下:
Figure BDA0002896352860000038
其中,
Figure BDA0002896352860000039
表示矩阵乘法,然后再将ANL
Figure BDA00028963528600000310
矩阵乘法后通过一个1X1层卷积层
Figure BDA00028963528600000311
恢复通道数,最后原始特征
Figure BDA00028963528600000312
相加完成非局部注意力的优化过程:
Figure BDA00028963528600000313
其中,
Figure BDA00028963528600000314
表示元素间的求和。
Figure BDA00028963528600000315
Figure BDA00028963528600000316
的尺寸一直,r1和r2都设置为1;
S3多尺度对象感知,过程如下:
S3.1将相关特征RA并行输入三个相似的卷积模块Φa,b,(a,b)∈{(7,7),(7,13),(13,7)},然后将获得的三个特征Φa,b(RA),(a,b)∈{(7,7),(7,13),(13,7)}按比例线性相加;
Figure BDA0002896352860000041
其中,a和b表示该卷积模块的总卷积核尺寸,XMOP是聚合多尺度对象信息后的特征,αa,b是与网络一起训练的超参数;为了降低算力负担,分别使用串联的三个小卷积层(kernel size=(3,3),stride=1padding=(0,0))Φ7,7,串联的三个小卷积层(kernelsize=(3,5),stride=1,padding=(0,1))表示Φ7,13,串联的三个小卷积层(kernel size=(5,3),stride=1,padding=(1,1))表示Φ13,7,如此,这三个卷积模块分别具有不同的宽高比的卷积感受野;
S4无锚预测过程如下:
S4.1将XMOP分别输入分类分支和边框回归分支,获得分类预测结果
Figure BDA0002896352860000042
预测的是搜索区域中固定位置(pi,pj)中包含目标的概率和不包含目标的概率;
Figure BDA0002896352860000043
其中wim,him和s分别表示搜索图片的宽和高以及ResNet的总步长,这里的w=h=25,wim=him=255,s=8,边框回归分支预测结果为
Figure BDA0002896352860000044
预测的是固定区域中心点到四个边框的距离;
l=pi-x0,t=pj-y0,r=x1-pi,b=y1-,pj其中,(x0,y0)和(x1,y1)分别表示目标包围框的左上和右下两个角点的坐标;
S4.2找到PCls中最大的正样本响应位置后,去PReg中查找包围框结果,最终获得目标跟踪结果。
进一步,所述方法还包括以下步骤:
S5训练流程如下;
S5.1对训练数据集进行预处理,选取视频序列中间隔为T的两帧,根据标注信息,依照S1.1的方法裁切模板图片和搜索图片到127×127和255×255尺寸;
S5.2样本标签选取,依照大小不同的两个椭圆来分配正样本(1)、负样本(0)和忽视样本(-1),数学公式如下:
Figure BDA0002896352860000051
其中,(pi,pj)是搜索图中固定锚点的位置,
Figure BDA0002896352860000052
表示搜索图中目标的中心点和宽高;
S5.3依次经过S1-S4.1后,分类损失LCls和回归损失LReg分别是交叉熵损失和线性IOU(lntersection over Union),其中LCls定义如下:
Figure BDA0002896352860000053
其中PCls是预测结果,LReg定义如下:
Figure BDA0002896352860000054
其中,
Figure BDA0002896352860000055
Figure BDA0002896352860000056
中的正样本标签,PReg和G分别是预测结果和目标的标注结果,最后总体的损失函数为:
L=LCls+LReg (5);
S5.4训练过程中,批处理大小为128,学习率从0.001下降到0.0005,使用随机梯度下降算法(Stochastic Gradient Descent,SGD)迭代训练20次并保存每次迭代结果,前十次迭代冻结ResNet的参数,后十次迭代以整体网络学习率的十分之一开始训练。
一种基于孪生网络的多尺度目标感知跟踪***(SiamMOP),包括以下四个子模块:精细特征聚合模块、注意力模块(包括通道注意力模块和非局部力注意模块)、多尺度对象感知模块(MOP)和无锚模块,SiamMOP从共享的特征提取网络ResNet开始,通过精细特征聚合模块聚合模板块和搜索块之间的特征信息;然后注意力模块结合模板特征的关键局部信息和搜索特征的上下文背景信息对相关特征进行微调;MOP模块集成了不同长宽比的相似性信息,确保每个正样本位置都能匹配不同宽高比的对象信息;无锚预测会将输入的特征进行降维,获得通道数为2的分类图和通道数为4的边框回归结果。最终算法根据分类图和边框回归结果就可以定位跟踪目标。
本发明的有益效果为:能够有效的获取跟踪区域的多尺度信息,从而提高了目标跟踪的精度。
附图说明
图1是SiamMOP的整体网络框架图。
图2是第一帧裁切的模板图。
图3是当前帧裁切的搜索图。
图4是通道注意力模块的网络框架图。
图5是非局部注意力模块的网络框架图。
图6是多尺度对象感知模块的网络框架图。
图7是无锚的预测模块的网络框架图。
图8是一种基于孪生网络的多尺度目标感知跟踪方法的跟踪流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图7,一种基于孪生网络的多尺度目标感知跟踪方法,包括以下步骤:
S1.精细的特征聚合,过程如下:
S1.1根据视频序列第一帧获得的图片I1和目标的包围框信息B1,进行切片和变形获得跟踪模板Z1,如图2所示;在后续跟踪过程中,根据上一帧的跟踪结果Bi-1,对输入的图片Ii,i∈[2,n]进行切片和变形获得搜索图片Xi,如图3所示;
S1.2将获得的跟踪模板Z1和搜索图片Xi输入预训练好的深度残差网络“ResNet-50”,获得深度特征
Figure BDA0002896352860000071
Figure BDA0002896352860000072
模型会收集深度残差网络后三层(CONV3,CONV4,CONV5)输出的特征获得模板特征
Figure BDA0002896352860000073
l∈{3,4,5}和搜索特征
Figure BDA0002896352860000074
l∈{3,4,5};
S1.3将模板特征
Figure BDA0002896352860000075
分解成h×w个子卷积核
Figure BDA0002896352860000076
i∈{1,...,hw}。然后,将每个子卷积核与搜索特征
Figure BDA0002896352860000077
进行基础相关(
Figure BDA00028963528600000716
-correlation)后按通道进行连结,数学表达式如下:
Figure BDA0002896352860000078
其中,*表示基础相关计算,最后,将获得的特征
Figure BDA0002896352860000079
l∈{3,4,5}和
Figure BDA00028963528600000710
l∈{3,4,5}两两进行像素级相关(pixel-wise correlation)后按通道连结;
Figure BDA00028963528600000711
S2.注意力处理过程如下:
S2.1如图4所示是本发明的通道注意力模块网络图。将相关特征RC输入通道注意力模块SENet中,首先,将相关特征RC每一层的特征图通过全局平均池化层(globalaverage pooling layer)压缩成一条向量;
Figure BDA00028963528600000712
其中H和W是相关特征RC高和宽,然后将向量输入一个两层的多层感知机(multi-layer perception),最后,使用sigmoid函数将通道注意力权重映射到0-1区间,数学表达式如下:
Figure BDA00028963528600000713
其中,
Figure BDA00028963528600000714
Figure BDA00028963528600000715
是两个全连接层,σ表示sigmoid激活函数,Ac是获得的通道注意力权值,将通道注意力权值AC与相关特征RC逐通道进行元素间的相乘:
Figure BDA0002896352860000081
其中⊙表示扩展的元素方式乘法(broadcasting element-wisemultiplication),
S2.2如图5所示是本发明的非局部注意力模块网络图,利用非局部注意力(Non-Local attention)来聚合全局上下文信息,首先将特征
Figure BDA0002896352860000082
输入三个并行1×1卷积层(θ,φ,g)降低特征通道数,获得三个特征Xθ,Xφ,Xg后进行变形操作获得
Figure BDA0002896352860000083
最后,通过矩阵乘法和softmax函数计算特征不同位置之间的响应值,数学表达式如下:
Figure BDA0002896352860000084
其中,
Figure BDA0002896352860000085
表示矩阵乘法,然后再将ANL
Figure BDA0002896352860000086
矩阵乘法后通过一个1×1层卷积层
Figure BDA0002896352860000087
恢复通道数,最后原始特征
Figure BDA0002896352860000088
相加完成非局部注意力的优化过程:
Figure BDA0002896352860000089
其中,
Figure BDA00028963528600000810
表示元素间的求和,
Figure BDA00028963528600000811
Figure BDA00028963528600000814
的尺寸一直,r1和r2都设置为1;
S3多尺度对象感知,过程如下:
S3.1如图6所示是本发明的多尺度对象感知模块网络图,将相关特征RA并行输入三个相似的卷积模块Φa,b,(a,b)∈{(7,7),(7,13),(13,7)},这三个卷积模块分别再图6中的上中下三个分支,然后将获得的三个特征Φa,b(RA),(a,b)∈{(7,7),(7,13),(13,7)}按比例线性相加;
Figure BDA00028963528600000813
其中,a和b表示该卷积模块的总卷积核尺寸,XMOP是聚合多尺度对象信息后的特征,αa,b是与网络一起训练的超参数,为了降低算力负担,分别使用串联的三个小卷积层(kernel size=(3,3),stride=1padding=(0,0))Φ7,7,串联的三个小卷积层(kernelsize=(3,5),stride=1,padding=(0,1))表示Φ7,13,串联的三个小卷积层(kernel size=(5,3),stride=1,padding=(1,1))表示Φ13,7。如此,这三个卷积模块分别具有不同的宽高比的卷积感受野;
S4无锚的预测,过程如下:
S4.1如图7所示是本发明的无锚的预测模块网络图,将XMOP分别输入分类分支和边框回归分支,获得分类预测结果
Figure BDA0002896352860000091
预测的是搜索区域中固定位置(pi,pj)中包含目标的概率和不包含目标的概率;
Figure BDA0002896352860000092
其中wim,him和s分别表示搜索图片的宽和高以及ResNet的总步长,这里的w=h=25,wim=him=255,s=8,边框回归分支预测结果为
Figure BDA0002896352860000093
预测的是固定区域中心点到四个边框的距离,
l=pi-x0,t=pj-y0,r=x1-pi,b=y1-,pj其中,(x0,y0)和(x1,y1)分别表示目标包围框的左上和右下两个角点的坐标,
S4.2找到PCls中最大的正样本响应位置后,去PReg中查找包围框结果,最终获得目标跟踪结果;
S5训练流程如下:
S5.1对训练数据集进行预处理,选取视频序列中间隔为T的两帧,根据标注信息,依照S1.1的方法裁切模板图片和搜索图片到127×127和255×255尺寸;
S5.2样本标签选取,依照大小不同的两个椭圆来分配正样本(1)、负样本(0)和忽视样本(-1),数学公式如下:
Figure BDA0002896352860000094
其中,(pi,pj)是搜索图中固定锚点的位置,
Figure BDA0002896352860000105
表示搜索图中目标的中心点和宽高;
S5.3依次经过S1-S4.1后,分类损失LCls和回归损失LReg分别是交叉熵损失和线性IOU(lntersection over Union),其中LCls定义如下:
Figure BDA0002896352860000101
其中PCls是预测结果,LReg定义如下:
Figure BDA0002896352860000102
其中,
Figure BDA0002896352860000103
Figure BDA0002896352860000104
中的正样本标签,PReg和G分别是预测结果和目标的标注结果,最后总体的损失函数为:
L=LCls+LReg (5)
S5.4训练过程中,批处理大小为128,学习率从0.001下降到0.0005,使用随机梯度下降算法(Stochastic Gradient Descent,SGD)迭代训练20次并保存每次迭代结果,前十次迭代冻结ResNet的参数,后十次迭代以整体网络学习率的十分之一开始训练。
本实施例的基于孪生网络的多尺度目标感知跟踪***(SiamMOP)包括以下四个子模块:精细特征聚合模块、注意力模块(包括通道注意力模块和非局部力注意模块)、多尺度对象感知模块(MOP)和无锚的预测模块,如图1所示,SiamMOP从共享的特征提取网络ResNet开始,通过精细特征聚合模块聚合模板块和搜索块之间的特征信息;然后注意力模块结合模板特征的关键局部信息和搜索特征的上下文背景信息对相关特征进行微调;此外,MOP模块集成了不同长宽比的相似性信息,确保每个正样本位置都能匹配不同宽高比的对象信息;无锚的预测模块会将输入的特征进行降维,获得通道数为2的分类图和通道数为4的边框回归结果。最终算法根据分类图和边框回归结果就可以定位跟踪目标。
如图8所示,本发明在第一帧会根据标注的目标包围框,在图片中裁切出一块作为模板图片,并输入ResNet网络提取其特征。在后续的跟踪过程中,首先会根据上一帧的目标位置信息在当前帧裁切出一定大小的搜索区域图片。其次输入相同的ResNet网络提取其特征,并与模板特征做像素级相关计算,获得具有两者的相似性信息的相关特征。然后将相关特征依次通过通道注意力模块、非局部注意力模块和无锚的预测模块,获得分类图和一致的边框回归结果。最后,找到分类图中正样本概率最高的位置,并以此找到对应的对象边框。当前帧目标的定位信息预测完毕,进入下一帧循环。

Claims (2)

1.一种基于孪生网络的多尺度目标感知跟踪方法,其特征在于,所述方法包括以下步骤:
S1.精细的特征聚合,过程如下:
S1.1根据视频序列第一帧获得的图片I1和目标的包围框信息B1,进行切片和变形获得跟踪模板Z1,在后续跟踪过程中,根据上一帧的跟踪结果Bi-1,对输入的图片Ii,i∈[2,n]进行切片和变形获得搜索图片Xi
S1.2将获得的跟踪模板Z1和搜索图片Xi输入预训练好的深度残差网络“ResNet-50”,获得深度特征
Figure FDA0002896352850000011
Figure FDA0002896352850000012
模型会收集深度残差网络后三层(CONV3,CONV4,CONV5)输出的特征获得模板特征
Figure FDA0002896352850000013
和搜索特征
Figure FDA0002896352850000014
S1.3将模板特征
Figure FDA0002896352850000015
分解成h×w个子卷积核
Figure FDA0002896352850000016
然后,将每个子卷积核与搜索特征
Figure FDA0002896352850000017
进行基础相关(naive-correlation)后按通道进行连结,数学表达式如下:
Figure FDA0002896352850000018
其中,*表示基础相关计算,最后,将获得的特征
Figure FDA0002896352850000019
Figure FDA00028963528500000110
Figure FDA00028963528500000111
两两进行像素级相关(pixel-wise correlation)后按通道连结;
Figure FDA00028963528500000112
S2.注意力处理过程如下:
S2.1将相关特征RC输入通道注意力模块SENet中,首先,将相关特征RC每一层的特征图通过全局平均池化层压缩成一条向量;
Figure FDA00028963528500000113
其中H和W是相关特征RC高和宽,然后将向量输入一个两层的多层感知机,最后,使用sigmoid函数将通道注意力权重映射到0-1区间,数学表达式如下:
Figure FDA00028963528500000114
其中,
Figure FDA00028963528500000115
Figure FDA00028963528500000116
是两个全连接层,σ表示sigmoid激活函数,Ac是获得的通道注意力权值,将通道注意力权值AC与相关特征RC逐通道进行元素间的相乘:
Figure FDA00028963528500000117
其中⊙表示扩展的元素方式乘法;
S2.2利用非局部注意力(Non-Local attention)来聚合全局上下文信息,首先将特征
Figure FDA00028963528500000128
输入三个并行1X1卷积层(θ,φ,g)降低特征通道数,获得三个特征Xθ,Xφ,Xg后进行变形操作获得
Figure FDA00028963528500000118
最后,通过矩阵乘法和softmax函数计算特征不同位置之间的响应值,数学表达式如下:
Figure FDA00028963528500000119
其中,
Figure FDA00028963528500000120
表示矩阵乘法,然后再将ANL
Figure FDA00028963528500000121
矩阵乘法后通过一个1X1层卷积层
Figure FDA00028963528500000122
恢复通道数,最后原始特征
Figure FDA00028963528500000123
相加完成非局部注意力的优化过程:
Figure FDA00028963528500000124
其中,
Figure FDA00028963528500000125
表示元素间的求和,
Figure FDA00028963528500000126
Figure FDA00028963528500000127
的尺寸一直,r1和r2都设置为1;
S3多尺度对象感知,过程如下:
S3.1将相关特征RA并行输入三个相似的卷积模块Φa,b,(a,b)∈{(7,7),(7,13),(13,7)},然后将获得的三个特征Φa,b(RA),(a,b)∈{(7,7),(7,13),(13,7)}按比例线性相加;
Figure FDA0002896352850000021
其中,a和b表示该卷积模块的总卷积核尺寸,xMOP是聚合多尺度对象信息后的特征,αa,b是与网络一起训练的超参数;为了降低算力负担,分别使用串联的三个小卷积层(kernelsize=(3,3),stride=1padding=(0,0))Φ7,7,串联的三个小卷积层(kernel size=(3,5),stride=1,padding=(0,1))表示Φ7,13,串联的三个小卷积层(kernel size=(5,3),stride=1,padding=(1,1))表示Φ13,7,如此,这三个卷积模块分别具有不同的宽高比的卷积感受野;
S4无锚预测过程如下:
S4.1将XMOP分别输入分类分支和边框回归分支,获得分类预测结果
Figure FDA0002896352850000022
预测的是搜索区域中固定位置(pi,pj)中包含目标的概率和不包含目标的概率;
Figure FDA0002896352850000023
其中wim,him和s分别表示搜索图片的宽和高以及ResNet的总步长,这里的w=h=25,wim=him=255,s=8,边框回归分支预测结果为
Figure FDA0002896352850000024
预测的是固定区域中心点到四个边框的距离;
l=pi-x0,t=pj-y0,r=x1-pi,b=y1-,pj
其中,(x0,y0)和(x1,y1)分别表示目标包围框的左上和右下两个角点的坐标;
S4.2找到PCls中最大的正样本响应位置后,去PReg中查找包围框结果,最终获得目标跟踪结果。
2.如权利要求1所述的一种基于孪生网络的多尺度目标感知跟踪方法,其特征在于,所述方法还包括以下步骤:
S5训练流程如下;
S5.1对训练数据集进行预处理,选取视频序列中间隔为T的两帧,根据标注信息,依照S1.1的方法裁切模板图片和搜索图片到127×127和255×255尺寸;
S5.2样本标签选取,依照大小不同的两个椭圆来分配正样本(1)、负样本(0)和忽视样本(-1),数学公式如下:
Figure FDA0002896352850000025
其中,(pi,pj)是搜索图中固定锚点的位置,
Figure FDA0002896352850000026
表示搜索图中目标的中心点和宽高;
S5.3依次经过S1-S4.1后,分类损失LCls和回归损失LReg分别是交叉熵损失和线性IOU,其中LCls定义如下:
Figure FDA0002896352850000031
其中PCls是预测结果,LReg定义如下:
Figure FDA0002896352850000032
其中,
Figure FDA0002896352850000033
Figure FDA0002896352850000034
中的正样本标签,PReg和G分别是预测结果和目标的标注结果,最后总体的损失函数为:
L=LCls+LReg (5):
S5.4训练过程中,批处理大小为128,学习率从0.001下降到0.0005,使用随机梯度下降算法迭代训练20次并保存每次迭代结果,前十次迭代冻结ResNet的参数,后十次迭代以整体网络学习率的十分之一开始训练。
CN202110043796.9A 2021-01-13 2021-01-13 一种基于孪生网络的多尺度目标感知跟踪方法 Active CN112750148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110043796.9A CN112750148B (zh) 2021-01-13 2021-01-13 一种基于孪生网络的多尺度目标感知跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110043796.9A CN112750148B (zh) 2021-01-13 2021-01-13 一种基于孪生网络的多尺度目标感知跟踪方法

Publications (2)

Publication Number Publication Date
CN112750148A true CN112750148A (zh) 2021-05-04
CN112750148B CN112750148B (zh) 2024-03-22

Family

ID=75651206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110043796.9A Active CN112750148B (zh) 2021-01-13 2021-01-13 一种基于孪生网络的多尺度目标感知跟踪方法

Country Status (1)

Country Link
CN (1) CN112750148B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283584A (zh) * 2021-05-21 2021-08-20 北京大学 一种基于孪生网络的知识追踪方法及***
CN113297959A (zh) * 2021-05-24 2021-08-24 南京邮电大学 一种基于角点注意力孪生网络的目标跟踪方法及***
CN113592915A (zh) * 2021-10-08 2021-11-02 湖南大学 端到端旋转框目标搜索方法、***及计算机可读存储介质
CN113591811A (zh) * 2021-09-28 2021-11-02 湖南大学 零售货柜商品搜索识别方法、***及计算机可读存储介质
CN113792631A (zh) * 2021-08-31 2021-12-14 电子科技大学 一种基于多尺度自适应与边域注意力的飞行器检测与跟踪方法
CN113808166A (zh) * 2021-09-15 2021-12-17 西安电子科技大学 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法
CN114820792A (zh) * 2022-04-29 2022-07-29 西安理工大学 一种基于混合注意力的相机定位方法
CN117058190A (zh) * 2023-07-07 2023-11-14 国网江苏省电力有限公司南京供电分公司 基于三重注意力机制的孪生网络目标跟踪方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN111291679A (zh) * 2020-02-06 2020-06-16 厦门大学 一种基于孪生网络的目标特定响应注意力目标跟踪方法
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN111291679A (zh) * 2020-02-06 2020-06-16 厦门大学 一种基于孪生网络的目标特定响应注意力目标跟踪方法
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈志旺;张忠新;宋娟;罗红福;彭勇;: "基于目标感知特征筛选的孪生网络跟踪算法", 光学学报, no. 09 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283584A (zh) * 2021-05-21 2021-08-20 北京大学 一种基于孪生网络的知识追踪方法及***
CN113297959A (zh) * 2021-05-24 2021-08-24 南京邮电大学 一种基于角点注意力孪生网络的目标跟踪方法及***
CN113792631A (zh) * 2021-08-31 2021-12-14 电子科技大学 一种基于多尺度自适应与边域注意力的飞行器检测与跟踪方法
CN113808166A (zh) * 2021-09-15 2021-12-17 西安电子科技大学 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法
CN113591811A (zh) * 2021-09-28 2021-11-02 湖南大学 零售货柜商品搜索识别方法、***及计算机可读存储介质
CN113592915A (zh) * 2021-10-08 2021-11-02 湖南大学 端到端旋转框目标搜索方法、***及计算机可读存储介质
CN114820792A (zh) * 2022-04-29 2022-07-29 西安理工大学 一种基于混合注意力的相机定位方法
CN117058190A (zh) * 2023-07-07 2023-11-14 国网江苏省电力有限公司南京供电分公司 基于三重注意力机制的孪生网络目标跟踪方法和***

Also Published As

Publication number Publication date
CN112750148B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN112750148A (zh) 一种基于孪生网络的多尺度目标感知跟踪方法
CN108154118B (zh) 一种基于自适应组合滤波与多级检测的目标探测***及方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN110930454B (zh) 一种基于边界框外关键点定位的六自由度位姿估计算法
CN111242208A (zh) 一种点云分类方法、分割方法及相关设备
JP7417555B2 (ja) 人体ポーズ分析システム及び方法
CN111291809B (zh) 一种处理装置、方法及存储介质
CN113065546B (zh) 一种基于注意力机制和霍夫投票的目标位姿估计方法及***
CN108171133B (zh) 一种基于特征协方差矩阵的动态手势识别方法
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN110610210B (zh) 一种多目标检测方法
CN107067410B (zh) 一种基于增广样本的流形正则化相关滤波目标跟踪方法
CN111523463B (zh) 基于匹配-回归网络的目标跟踪方法及训练方法
CN112232134A (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN113888461A (zh) 基于深度学习的小五金件缺陷检测方法、***及设备
CN113298036A (zh) 一种无监督视频目标分割的方法
CN112785636A (zh) 一种多尺度增强式的单目深度估计方法
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
CN115205336A (zh) 一种基于多层感知机的特征融合目标感知跟踪方法
CN115375737A (zh) 基于自适应时间与序列化时空特征的目标跟踪方法与***
CN115049945A (zh) 一种基于无人机图像的小麦倒伏面积提取方法和装置
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN114612681A (zh) 基于gcn的多标签图像分类方法、模型构建方法及装置
CN114743045B (zh) 一种基于双分支区域建议网络的小样本目标检测方法
CN116543217A (zh) 一种结构相似的小目标分类识别与位姿估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant