CN112200870B - 基于孪生网络的分类和位置损失相结合的单目标跟踪方法 - Google Patents

基于孪生网络的分类和位置损失相结合的单目标跟踪方法 Download PDF

Info

Publication number
CN112200870B
CN112200870B CN202011188664.7A CN202011188664A CN112200870B CN 112200870 B CN112200870 B CN 112200870B CN 202011188664 A CN202011188664 A CN 202011188664A CN 112200870 B CN112200870 B CN 112200870B
Authority
CN
China
Prior art keywords
classification
loss
block
calculating
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011188664.7A
Other languages
English (en)
Other versions
CN112200870A (zh
Inventor
鄢展锋
姚敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202011188664.7A priority Critical patent/CN112200870B/zh
Publication of CN112200870A publication Critical patent/CN112200870A/zh
Application granted granted Critical
Publication of CN112200870B publication Critical patent/CN112200870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供基于孪生网络的分类和位置损失相结合的单目标跟踪方法,包括:确定裁剪后的模板和搜索区域大小,将区域作为模型的输入;以残差网络为主干网络,取最后三个块的卷积特征图;一条支路选取块对应的模板和搜索区域的特征图,计算每个块对应的响应图,得到分类结果,将三个分类误差做线性叠加;计算另一条支路最后一个块对应的卷积层做位置回归的损失,将取到的模板区域对应的卷积特征按通道方向进行升维,进行互相关操作,得到目标盒和真实框的中心点和宽高的偏差;计算两条支路的总损失。本发明基于孪生网络的分类和位置损失相结合的单目标跟踪方法,通过修改后的残差对预处理好的图片进行特征提取,使得不同块的输出大小一致。

Description

基于孪生网络的分类和位置损失相结合的单目标跟踪方法
技术领域
本发明涉及计算机视觉数字图像处理技术领域,特别涉及基于孪生网络的分类和位置损失相结合的单目标跟踪方法。
背景技术
孪生网络(Siamese Network)是一种用于度量学习的监督模型。通常来说,一个孪生网络有两个输入,将它们分别喂进两个共享权值的神经网络,然后在最后一层对两个特征向量做一个相似度损失函数,以找到匹配两个输入的相似度。
残差网络(ResNet)是更深的神经网络,它能抑制随着网络的加深而出现的退化问题。残差网络由一系列残差块(Residual Block)组成,一个残差块可以表示为:
xl+1=xl+F(xl,Wl)
其中,xl是输入特征,F(xl,Wl)是对输入特征进行若干卷积操作,xl+1是输出特征。
锚(anchor)是一组预设的边框,它先大致在可能的位置框出目标,然后再在这些预设的边框基础上进行调整。锚由边框的纵横比(ratio)和边框的尺度(scale)来定义,相当于一系列预设边框的生成规则,它可以在图像的任意位置生成一系列的边框。一般来说,锚以卷积神经网络提取到的特征图的点为中心位置,根据上面所述的规则来生成目标框。
常用的三组纵横比为0.5、1和2,三种尺度为8、16和32,这可以组合成九种不同形状和大小的边框。举个例子,设矩形框的面积s=16×16,矩形框的宽和高分别为空w和h,则有:
化简得:
加入尺度因子后可得到九种不同的矩形框,如下所示:
如何更准确以及更迅速地找到目标位置成为亟待解决的问题。
发明内容
本发明的目的在于提供一种基于孪生网络的分类和位置损失相结合的单目标跟踪方法,以解决如何更准确以及更迅速地找到目标位置的问题。
为了解决上述技术问题,本发明的技术方案是:提供基于孪生网络的分类和位置损失相结合的单目标跟踪方法,包括以下步骤:
步骤一、确定裁剪后的模板和搜索区域大小,将所述区域作为模型的输入;
步骤二、以残差网络为主干网络,取最后三个块的卷积特征图;
步骤三、一条支路选取块对应的模板和搜索区域的特征图,计算每个块对应的响应图,得到分类结果,将三个分类误差做线性叠加,训练阶段通过结合不同块的分类误差来调整标错目标的可能性,在测试阶段用最后一个块进行分类;
步骤四、计算另一条支路最后一个块对应的卷积层做位置回归的损失,将取到的模板区域对应的积特征按通道方向进行升维,维度变为原来的四乘以设定的目标盒数,然后进行互相关操作,得到目标盒和真实框的中心点和宽高的偏差;
步骤五、计算两条支路的总损失。
进一步地,在步骤三中,根据提取的块对应的卷积特征图进行互相关操作,计算分类损失总和:将相同块得到的模板特征升维后做互相关操作,得到每个目标盒被分到前景和背景的概率,计算不同块的分类损失加权求和,公式如下:
Lcls=α1L12L23L3
其中,L表示第i个块的分类损失,为二分类交叉熵损失函数;α表示对应分类损失的权重。
进一步地,在步骤四中,计算目标位置回归与真实值的误差的公式:其中,x表示预测框和真实框之间逐元素的差异,参数σ控制区域的平滑,σ取3;/>其中,R是smoothL1函数,ti和/>分别表示预测锚的偏移量和真实框的偏移量。对于每一个锚,计算完Lreg部分后乘以p*,p*表示物体时为1,没有物体时为0。
进一步地,在步骤五中,将两条支路的结果按一定的权重进行线性相加,两条支路总损失的计算公式:Ltotal=αLcls+γLreg
其中,Lcls是分类支路损失,α是分类支路所占比重,Lreg是回归支路损失,γ是回归支路所占比重。
本发明提供的基于孪生网络的分类和位置损失相结合的单目标跟踪方法,通过修改后的残差对预处理好的图片进行特征提取,使得不同块的输出大小一致。在训练阶段,一条支路通过线性加权不同块间的分类损失来辅助定位目标的中心,另一条支路计算位置回归损失来生成更合适大小的目标框。在测试阶段,只用最后一个块的分类和位置回归结果,既提高了成功率和精度的基础上,又提升了速度。
附图说明
下面结合附图对发明作进一步说明:
图1为本发明实施例提供的基于孪生网络的分类和位置损失相结合的单目标跟踪方法步骤流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明提出的基于孪生网络的分类和位置损失相结合的单目标跟踪方法作进一步详细说明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比率,仅用以方便、明晰地辅助说明本发明实施例的目的。
本发明的核心思想在于,本发明提供的基于孪生网络的分类和位置损失相结合的单目标跟踪方法,通过修改后的残差对预处理好的图片进行特征提取,使得不同块的输出大小一致。在训练阶段,一条支路通过线性加权不同块间的分类损失来辅助定位目标的中心,另一条支路计算位置回归损失来生成更合适大小的目标框。在测试阶段,只用最后一个块的分类和位置回归结果,既提高了成功率和精度的基础上,又提升了速度。
本发明的技术方案提供基于孪生网络的分类和位置损失相结合的单目标跟踪方法,图1为本发明实施例提供的基于孪生网络的分类和位置损失相结合的单目标跟踪方法步骤流程示意图。参照图1,提供基于孪生网络的分类和位置损失相结合的单目标跟踪方法,包括以下步骤:
S11、确定裁剪后的模板和搜索区域大小,将所述区域作为模型的输入;
S12、以残差网络为主干网络,取最后三个块的卷积特征图;
S13、一条支路选取块对应的模板和搜索区域的特征图,计算每个块对应的响应图,得到分类结果,将三个分类误差做线性叠加,训练阶段通过结合不同块的分类误差来调整标错目标的可能性,在测试阶段用最后一个块进行分类;
S14、计算另一条支路最后一个块对应的卷积层做位置回归的损失,将取到的模板区域对应的积特征按通道方向进行升维,维度变为原来的四乘以设定的目标盒数,然后进行互相关操作,得到目标盒和真实框的中心点和宽高的偏差;
S15、计算两条支路的总损失。
首先,在S11中,确定裁剪后的模板区域大小为127,如果超出原图像边界,以图像的均值作为边缘填充;确定裁剪后的搜索区域大小为255;以模板和搜索区域作为两个输入,经过参数完全相同的主干网络。
在S12中,修改原始的残差网络,确保最后三个块的卷积特征图大小相等,去掉最后三个块的步长,同时加入了膨胀卷积,是为了增加感受野。在本发明实施例中,将裁剪好的区域作为模型的输入,分别得到不同块对应的模板区域特征图的大小是15x15x512、15x15x1024和15x15x2048,搜索区域特征图的大小是31x31x512、31x31x1024和31x31x2048。
分别取每个块的模板特征和搜索区域特征做互相关操作,具体公式表达为:
其中,和/>表示模板区域述z和搜索区域x经过相同卷积操作后得到的第i个块的特征映射,*表示响应图的内积,b1表示内积。
线性加权每个块分类的结果,具体公式表达为:
Lcls=α1L12L23L3
其中,L表示第i个块的分类损失,α表示对应分类损失的权重。
计算目标位置回归与真实值的误差的公式:
其中,x表示预测框和真实框之间逐元素的差异,参数σ控制区域的平滑,σ取3;
其中,R是smoothL1函数,ti分别表示预测锚的偏移量和真实框的偏移量。对于每一个锚,计算完Lreg部分后乘以p*,p*为有物体时(positive)为1,没有物体时(negative)为0,意味着只有前景才计算损失,背景不计算损失。
在步骤五中,将两条支路的结果按一定的权重进行线性相加,两条支路总损失的计算公式:Ltotal=αLcls+γLreg,其中,Lcls是分类支路损失,α是分类支路所占比重,Lreg是回归支路损失,γ是回归支路所占比重。
显然,本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (2)

1.一种基于孪生网络的分类和位置损失相结合的单目标跟踪方法,其特征在于,包括以下步骤:
步骤一、确定裁剪后的模板和搜索区域大小,将所述区域作为模型的输入;
步骤二、以残差网络为主干网络,取最后三个块的卷积特征图;
步骤三、一条支路选取块对应的模板和搜索区域的特征图,计算每个块对应的响应图,得到分类结果,将三个分类误差做线性叠加,训练阶段通过结合不同块的分类误差来调整标错目标的可能性,在测试阶段用最后一个块进行分类,根据提取的块对应的卷积特征图进行互相关操作,计算分类损失总和:将相同块得到的模板特征升维后做互相关操作,得到每个目标盒被分到前景和背景的概率,计算不同块的分类损失加权求和,公式如下:
Lcls=α1L12L23L3
其中,L表示第i个块的分类损失,为二分类交叉熵损失函数;α表示对应分类损失的权重;
步骤四、计算另一条支路最后一个块对应的卷积层做位置回归的损失,将取到的模板区域对应的卷积特征按通道方向进行升维,维度变为原来的四乘以设定的目标盒数,然后进行互相关操作,得到目标盒和真实框的中心点和宽高的偏L差,计算目标位置回归与真实值的误差的公式:
其中,x表示预测框和真实框之间逐元素的差异,参数σ控制区域的平滑,σ取3;/>其中,R是smoothL1函数,ti和/>分别表示预测锚的偏移量和真实框的偏移量;对于每一个锚,计算完Lreg部**
分后乘以p,p表示物体时为1,没有物体时为0;
步骤五、计算两条支路的总损失。
2.如权利要求1所述的孪生网络的分类和位置损失相结合的单目标跟踪方法,其特征在于,在步骤五中,将两条支路的结果按一定的权重进行线性相加,两条支路总损失的计算公式:Ltotal=αLcls+γLreg,其中,Lcls是分类支路损失,α是分类支路所占比重,Lreg是回归支路损失,γ是回归支路所占比重。
CN202011188664.7A 2020-10-30 2020-10-30 基于孪生网络的分类和位置损失相结合的单目标跟踪方法 Active CN112200870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011188664.7A CN112200870B (zh) 2020-10-30 2020-10-30 基于孪生网络的分类和位置损失相结合的单目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011188664.7A CN112200870B (zh) 2020-10-30 2020-10-30 基于孪生网络的分类和位置损失相结合的单目标跟踪方法

Publications (2)

Publication Number Publication Date
CN112200870A CN112200870A (zh) 2021-01-08
CN112200870B true CN112200870B (zh) 2024-03-12

Family

ID=74012155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011188664.7A Active CN112200870B (zh) 2020-10-30 2020-10-30 基于孪生网络的分类和位置损失相结合的单目标跟踪方法

Country Status (1)

Country Link
CN (1) CN112200870B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052873B (zh) * 2021-03-16 2022-09-09 南京理工大学 一种在线自监督学习场景适应的单目标跟踪方法
CN113129341B (zh) * 2021-04-20 2021-12-14 广东工业大学 基于轻量型孪生网络的降落跟踪控制方法和***及无人机

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN111179314A (zh) * 2019-12-30 2020-05-19 北京工业大学 一种基于残差密集孪生网络的目标跟踪方法
WO2020173036A1 (zh) * 2019-02-26 2020-09-03 博众精工科技股份有限公司 基于深度学习的定位方法和***
CN111640136A (zh) * 2020-05-23 2020-09-08 西北工业大学 一种复杂环境中的深度目标跟踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020173036A1 (zh) * 2019-02-26 2020-09-03 博众精工科技股份有限公司 基于深度学习的定位方法和***
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN111179314A (zh) * 2019-12-30 2020-05-19 北京工业大学 一种基于残差密集孪生网络的目标跟踪方法
CN111640136A (zh) * 2020-05-23 2020-09-08 西北工业大学 一种复杂环境中的深度目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨康 ; 宋慧慧 ; 张开华 ; .基于双重注意力孪生网络的实时视觉跟踪.计算机应用.2019,(06),全文. *
石国强 ; 赵霞 ; .基于联合优化的强耦合孪生区域推荐网络的目标跟踪算法.计算机应用.2020,(10),全文. *

Also Published As

Publication number Publication date
CN112200870A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN112200870B (zh) 基于孪生网络的分类和位置损失相结合的单目标跟踪方法
CN111126472A (zh) 一种基于ssd改进的目标检测方法
CN112016507A (zh) 基于超分辨率的车辆检测方法、装置、设备及存储介质
CN113128355A (zh) 一种基于通道剪枝的无人机图像实时目标检测方法
CN109492596B (zh) 一种基于K-means聚类和区域推荐网络的行人检测方法及***
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和***
CN112287832A (zh) 一种基于高分辨率遥感影像的城镇违法建筑物检测方法
CN113408423A (zh) 适用于tx2嵌入式平台的水产品目标实时检测方法
CN110020650B (zh) 一种基于深度学习识别模型的倾斜车牌的识别方法及装置
CN111553348A (zh) 一种基于centernet的anchor-based目标检测方法
CN112070037B (zh) 基于遥感影像的道路提取方法、装置、介质及设备
CN111862122A (zh) 一种基于深度学习的瓦楞纸板堆叠层数计数方法
CN112365511A (zh) 基于重叠区域检索与对齐的点云分割方法
CN114972759A (zh) 基于分级轮廓代价函数的遥感图像语义分割方法
CN114782714A (zh) 一种基于上下文信息融合的图像匹配方法及装置
CN117911252A (zh) 基于深度学习去除图像中光照的方法及***
CN114140485A (zh) 一种三七主根切割轨迹生成方法及***
CN117253188A (zh) 基于改进的YOLOv5的变电站接地线状态目标检测方法
CN114419078B (zh) 基于卷积神经网络的表面缺陷区域分割方法及装置
CN115984559A (zh) 智能样本精选方法及相关装置
CN113989267B (zh) 基于轻量级神经网络的电池缺陷检测方法
CN110443277A (zh) 基于注意力模型的少量样本分类方法
CN115995020A (zh) 基于全卷积的小目标检测算法
CN115546279A (zh) 基于分组混合的两阶段实时双目深度估计方法及装置
CN111860332B (zh) 基于多阈值级联检测器的双通道电力图零部件检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant