CN116229112A - 一种基于多重注意力的孪生网络目标跟踪方法 - Google Patents

一种基于多重注意力的孪生网络目标跟踪方法 Download PDF

Info

Publication number
CN116229112A
CN116229112A CN202211558887.7A CN202211558887A CN116229112A CN 116229112 A CN116229112 A CN 116229112A CN 202211558887 A CN202211558887 A CN 202211558887A CN 116229112 A CN116229112 A CN 116229112A
Authority
CN
China
Prior art keywords
attention
features
image
branch
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211558887.7A
Other languages
English (en)
Inventor
周丽芳
刘金兰
李伟生
马将凯
卢峻民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211558887.7A priority Critical patent/CN116229112A/zh
Publication of CN116229112A publication Critical patent/CN116229112A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明请求保护一种基于多重注意力的孪生网络目标跟踪方法(SiamMAN,Siamese Multi‑attention Network),属于计算机视觉技术领域。主要包括以下步骤:首先,为了更高效地利用目标特征信息来应对复杂背景干扰的问题,设计了一个多重注意力模块对特征进行优化,其中,通道注意力分支用于给更具判别性的通道赋予更高的权重,位置注意力分支充分利用目标的位置信息;其次,为了更好地利用浅层特征,在多重注意力模块中设计了一种特征融合方法,使用残差学习方法对浅层特征和经注意力分支优化后的特征进行融合,然后再融合两种注意力特征,进一步增强特征表示;最后,使用Focal‑EIoU损失作为回归损失函数,从而引导***生成更精确的跟踪框。

Description

一种基于多重注意力的孪生网络目标跟踪方法
技术领域
本发明属于计算机视觉技术领域,具体属于一种视觉目标跟踪方法。
背景技术
视频目标跟踪是计算机视觉领域的一项重要研究课题,要求在给定视频序列初始帧的目标大小与位置的情况下,预测后续帧中该目标的大小和位置。近年来,随着目标跟踪算法的不断发展,目标跟踪的理论也越来越完善,目标跟踪技术目前已广泛应用于视频监控、行人跟踪、智慧交通和现代化军事等领域。然而,在复杂多变的现实场景中,运动目标常伴随着遮挡、尺度变化、背景杂斑和光照变化等多种影响因素,想要精确跟踪到任意目标依然是一个极具挑战性的任务,因此,目标跟踪技术的研究仍具有极大的研究价值和实用价值。
目前,目标跟踪方法可以大致分为两大类,一类是基于相关滤波的方法,一类是基于深度学习的方法。基于相关滤波的目标跟踪方法主要通过设计一个滤波模板与目标候选区域进行相关运算操作,在响应图中寻找最大值来定位目标,拥有速度快的优点。但是,此类方法由于余弦窗和搜索区域的限制,会导致滤波模板学习到的信息过少,使得在大范围形变和复杂背景干扰的场景下,容易导致跟踪漂移。而基于深度学习的目标跟踪方法可以提供更具有判别力的特征,使得***更加鲁棒。其中,基于孪生网络的目标跟踪算法将跟踪问题转化为相似度匹配问题,使用端到端的训练方式使得跟踪问题得到简化,从而实现较高的跟踪精度。
然而,在基于孪生网络的目标跟踪方法中,仍存在以下问题:1)在复杂多变的现实场景中,复杂背景干扰时跟踪领域一个非常棘手的问题,而现有的针对复杂背景挑战的***大多采用深层骨干网络提取特征,尽管提取到的特征比较多,但是引入了较大的参数量,增加了计算开销,从而导致跟踪缓慢;2)此外,其他的针对复杂背景挑战的***通过增加训练数据来增强网络的抗干扰能力,但是这样带来的时间代价加大,增加了训练时间且跟踪效果提升不大。为了缓解上述不足,本发明针对现实场景中的复杂背景挑战问题提出了一种基于多重注意力的孪生网络目标跟踪方法,用于提升跟踪性能。
CN111192292A,一种基于注意力机制与孪生网络的目标跟踪方法及相关设备,通过将目标模板和搜索区域输入至预设的目标跟踪模型,通过预设的目标跟踪模型输出目标模板在所述搜索区域中的目标跟踪信息;所述目标跟踪模型中包含孪生网络,并且孪生网络中增加设置通道注意力模块和/或空间注意力模块。本实施例提供的目标跟踪方法及相关设备,由于在残差网络中加入通道注意力模块和/或空间注意力模块,显著提高了孪生跟踪算法的平均期望重叠率和鲁棒性,改善跟踪中的运动变化、相机运动、遮挡、尺寸变化属性的鲁棒性,因此使用本实施例提供的目标跟踪方法进行目标跟踪预测时,可以获取到较准确的结果。
公开号为CN111192292A的发明以SiamRPN++为基础网络,采用ResNet-50作为特征提取网络,并在孪生网络中增加了通道注意力和/或空间注意力模块,再通过边框回归和分类分支得到边框的回归结果和特征分类结果。尽管都是基于孪生网络的目标跟踪方法且都使用了注意力机制提升跟踪性能,但是本发明和公开号为CN111192292A的发明不同于以下几点:
(1)特征提取网络的选择:公开号为CN111192292A的发明利用深层的ResNet-50作为特征提取网络,而本发明采用的相对浅层的GoogLeNet作为特征提取网络。因此,本发明的参数量会更少,跟踪速度也更快。
(2)注意力模块的位置:公开号为CN111192292A的发明是给残差网络的每一个残差学习单元,先加入通道注意力模块,再加入空间注意力模块,而本发明设计了一个多重注意力模块,由通道注意力分支和位置注意力分支组成,经特征提取网络提取得到的特征会并行的进入两个注意力分支,之后再进行融合,这样可以充分地利用通道信息和位置信息,减少冗余信息的干扰,从而提升跟踪性能。
(3)目标预测的方式:公开号为CN111192292A的发明采用的Anchor-based方式来预测目标所在位置,而本发明采用的Anchor-free的方式,通过分类分支区分前景和背景,通过中心度分支计算每个点和目标中心点的距离,用于抑制一些预测点和中心点较远的情况,再通过回归分支得到跟踪框,本发明中使用Focal-EIoU损失作为回归损失函数,引导***生成更精确的跟踪框。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于多重注意力的孪生网络目标跟踪方法。本发明的技术方案如下:
一种基于多重注意力的孪生网络目标跟踪方法,其包括以下步骤:
步骤1:选取视频的第一帧图像作为模板图像,选取视频的后序其他帧图像作为搜索图像,再分别对模板图像和搜索图像进行预处理操作;
步骤2:将预处理后的模板图像和搜索图像分别输入到孪生网络的模板分支和搜索分支,通过GoogLeNet特征提取骨干网络进行特征提取,得到模板图像的特征图和搜索图像的特征图;
步骤3:将模板图像特征和搜索图像特征分别输入到多由并行的通道注意力分支和位置注意力分支组成的多重注意力模块中,其中通道注意力分支给更具有判别性的特征通道赋予更高的权重,位置注意力分支充分利用目标的位置信息,从而进一步细化特征;通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,得到一个特征响应图;
步骤4:将特征响应图输入到分类-回归子网络,回归分支通过引入Focal-EIoU损失替换IoU损失,从而引导***生成更加精确的跟踪框,所得的跟踪框即为最后的跟踪结果。
进一步的,所述步骤1:选取视频的第一帧图像作为模板图像,选取视频的后序其他帧图像作为搜索图像,再分别对模板图像和搜索图像进行预处理操作,具体包含以下步骤:
A1、模板图像预处理:选取视频的第一帧图像,目标区域使用矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超过图像边界,超过的部分使用图像像素均值填充,最后将裁剪的目标图像尺寸缩放至127×127像素大小;
A2、搜索图像预处理:选取视频的后序其他帧图像,目标区域使用矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超过图像边界,超过的部分使用图像像素均值填充,最后将裁剪的目标图像尺寸缩放至287×287像素大小。
进一步的,所述步骤2:将预处理后的模板图像和搜索图像分别输入到孪生网络的模板分支和搜索分支,通过GoogLeNet特征提取骨干网络进行特征提取,得到模板图像的特征和搜索图像的特征,具体包括以下步骤:
B1、根据步骤A1得到127×127大小的模板图像z,根据步骤A2得到287×287大小的搜索图像x;
B2、将模板图像z输入到孪生网络的模板分支,通过GoogLeNet(Inception v3)特征提取骨干网络提取得到模板图像特征
Figure BDA0003983754050000041
B3、将搜索图像x输入到孪生网络的搜索分支,通过GoogLeNet(Inception v3)特征提取骨干网络提取得到搜索图像特征
Figure BDA0003983754050000042
进一步的,所述步骤3:将模板图像的特征和搜索图像的特征分别输入到由并行的通道注意力分支和位置注意力分支组成的多重注意力模块中,其中通道注意力分支给更具有判别性的特征通道赋予更高的权重,位置注意力分支充分利用目标的位置信息,从而进一步细化特征;通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,得到一个特征响应图,具体包括以下步骤:
C1、根据步骤B2得到的模板图像特征
Figure BDA0003983754050000043
将其输入到多重注意力模块,主要包含通道注意力分支和位置注意力分支,得到两种不同的注意力特征,通过逐像素相乘操作对两种注意力特征进行融合,之后再通过两个3×3的卷积操作进一步增强特征表示,最终得到细化后的模板图像特征/>
Figure BDA0003983754050000051
C2、根据步骤B3得到的搜索图像特征
Figure BDA0003983754050000052
将其输入到多重注意力模块,主要包含通道注意力分支和位置注意力分支,得到两种不同的注意力特征,通过逐像素相乘操作对两种注意力特征进行融合,之后再通过两个3×3的卷积操作进一步增强特征表示,最终得到细化后的搜索图像特征/>
Figure BDA0003983754050000053
C3、将细化后的模板图像特征
Figure BDA0003983754050000054
和搜索图像特征/>
Figure BDA0003983754050000055
通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,得到一个特征响应图Ffin
进一步的,所述步骤C3、将细化后的模板图像特征
Figure BDA0003983754050000056
和搜索图像特征/>
Figure BDA0003983754050000057
通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,具体步骤为:
D1、将模板图像特征
Figure BDA0003983754050000058
中的每一个1×1×C的网格视为一个结点,其中C为特征通道数,得到一个包含所有结点的结点集Vz
D2、将搜索图像特征
Figure BDA0003983754050000059
中的每一个1×1×C的网格视为一个结点,其中C为特征通道数,得到一个包含所有结点的结点集Vx
D3、构建完全二分图G=(V,E),其中,
Figure BDA00039837540500000510
/>
Figure BDA00039837540500000511
G的两个子图分别为/>
Figure BDA00039837540500000512
和/>
Figure BDA00039837540500000513
D4、因为搜索图像中的位置与模板图像的局部位置越相似,越有可能是前景,应该向那里传递更多的目标信息。先分别对结点进行线性变化,计算两者的内积来计算相关得分,相关得分即为两个结点的相似程度,最后生成一个响应图,公式为:
Figure BDA00039837540500000514
其中,ei,j表示结点i∈Vx和结点j∈Vz之间的相关得分,Wx和Wz为线性变换矩阵,
Figure BDA00039837540500000515
和/>
Figure BDA00039837540500000516
分别为结点i和j的特征向量。
进一步的,所述多重注意力模块,具体步骤为:
E1、将优化前的特征F输入到通道注意力分支,给更具判别性的通道赋予更高的权重,再利用残差学习与优化前的特征进行像素相乘操作,从而得到特征F1,公式为:
Figure BDA0003983754050000061
其中,F1表示通过多注意力模块中的通道注意力分支优化后的特征,F表示优化前的特征,
Figure BDA0003983754050000062
表示像素相乘操作,σ表示Sigmoid激活函数,FSENet表示通过通道注意力机制之后得到的特征;
E2、将优化前的特征F输入到位置注意力分支,再利用残差学习与优化前的特征进行像素相乘操作,从而得到特征F2,公式为:
Figure BDA0003983754050000063
其中,F2表示通过多注意力模块中的位置注意力分支优化后的特征,F表示优化前的特征,
Figure BDA0003983754050000064
表示像素相乘操作,σ表示Sigmoid激活函数,FCA表示通过位置注意力机制之后得到的特征;
E3、将通过步骤E1得到的特征F1和通过步骤E2得到的特征F2进行特征融合,首先对两个特征进行像素相乘操作,再通过两个3×3的卷积操作进一步增强特征表示,得到优化后的特征Foutput,公式为:
Figure BDA0003983754050000065
其中,Foutput表示优化后的特征,F3×3表示3×3卷积操作,
Figure BDA0003983754050000066
表示像素相乘操作。
进一步的,所述步骤4将特征响应图输入到分类-回归子网络,回归分支通过引入Focal-EIoU损失替换IoU损失,从而引导***生成更加精确的跟踪框,所得的跟踪框即为最后的跟踪结果,具体包含以下步骤:
F1、根据步骤C3,将获得的特征响应图进行卷积,并分别输入到分类分支、中心度分支和回归分支;
F2、分类分支采用常规的交叉熵损失进行分类任务,得到分类损失Lcls
F3、中心度分支与分类分支并行,用于去除异常数据,得到中心度损失Lcen
F4、回归分支采用Focal-EIoU损失进行回归任务,得到回归损失Lreg
F5、根据步骤F2得到分类损失Lcls,根据步骤F3得到中心度损失Lcen,根据步骤F4得到回归损失Lreg,计算出最终总的损失函数的公式为:
L=Lcls1Lcen2Lreg (5)
其中,L表示总的损失函数,λ1表示中心度损失函数中的超参数,λ2表示回归损失函数中的超参数。
进一步的,所述Focal-EIoU损失以及回归分支的损失函数为:
Figure BDA0003983754050000071
其中,LEIOU表示EIoU损失,IOU表示两个锚框的交并比,b表示锚框的中心点,bgt表示真值框的中心点,w表示锚框的宽度,wgt表示真值框的宽度,h表示锚框的高度,hgt表示真值框的高度,wc表示最小的边界框的宽度,hc表示最小的边界框的高度;
Lreg=IoUγLEIoU (7)
其中,Lreg表示通过Focal-EIoU损失计算出的回归损失,γ是一个超参数。
本发明的优点及有益效果如下:
1.本发明针对目标跟踪领域常见的复杂背景干扰问题,设计了一种基于多重注意力的孪生网络目标跟踪方法,通过设计了多重注意力模块从特征层面提升跟踪的性能。与目前最先进的***(SiamFC++、SiamCAR、SiamGAT)相比,本发明能在常见的目标跟踪数据集上表现优越的跟踪性能;
2.特征优化网络是提升***跟踪性能的一种方法,由此本发明设计了一种多重注意力模块,包括通道注意力分支和位置注意力分支,加强了网络对特征选取的学习能力,减少了冗余信息对网络带来的负担。通道注意力分支给更具有判别性的特征通道赋予了更高的权重,位置注意力分支充分利用了目标的位置信息,之后设计了一种特征融合模块对这两种不同的特征进行了融合,进一步增强特征表示,获得更加稳健的特征表示,从而有效提升了***的跟踪精度;
3.目标跟踪任务中包含了分类和回归分支,通过分类分支确定正负样本,通过回归分支确定目标的边界框。目前大多目标跟踪方法常使用IoU损失作为回归损失函数,但在两个跟踪框不相交时,使用IoU损失不能很好的反映两个框的距离远近。EIoU这篇论文中提出了一种Focal-EIoU损失,该损失函数计算了跟踪框的宽高比。因此,本发明通过在回归分支上引入Focal-EIoU损失,从而引导***生成更精准的回归框,从而进一步提升***的跟踪性能。
附图说明
图1是本发明提供优选实施例的基于多重注意力的孪生网络目标跟踪方法总体框架图;
图2是本发明中设计的多重注意力模块示意图;
图3是本发明在OTB100数据集中MotorRolling、Board和Soccer视频序列上的跟踪效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明实施例是基于SiamGAT目标跟踪框架为基本框架,详见文献Dongyan Guo,Yanyan Shao,Ying Cui,Zhenhua Wang,Liyan Zhang,Chunhua Shen.Graph attentiontracking.In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition 9543-9552,2021。首先利用SiamGAT为基础搭建跟踪框架,然后设计了一个多重注意力模块,优化经骨干网络提取后的特征,之后引入Focal-EIoU损失,引导***得到更加精准的回归框,从而提升跟踪精度。
如附图1所示,一种基于多重注意力的孪生网络目标跟踪方法包括以下步骤:
1.如附图1所示,选取视频的第一帧图像作为模板图像,选取视频的后序其他帧图像作为搜索图像,再对模板图像和搜索图像先进行预处理操作,具体包括:
1.1模板图像预处理:选取视频的第一帧图像,目标区域使用矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超过图像边界,超过的部分使用图像像素均值填充,最后将裁剪的目标图像尺寸缩放至127×127像素大小;
1.2搜索图像预处理:选取视频的后序其他帧图像,目标区域使用矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超过图像边界,超过的部分使用图像像素均值填充,最后将裁剪的目标图像尺寸缩放至287×287像素大小。
2.如附图1所示,将预处理后的模板图像和搜索图像分别输入到孪生网络的模板分支和搜索分支,通过GoogLeNet特征提取骨干网络进行特征提取,得到模板图像的特征和搜索图像的特征,具体包括:
2.1根据步骤1.1得到127×127大小的模板图像z,根据步骤1.2得到287×287大小的搜索图像x;
2.2将模板图像z输入到孪生网络的模板分支,通过GoogLeNet(Inception v3)特征提取骨干网络提取得到模板图像特征
Figure BDA0003983754050000091
2.3将搜索图像x输入到孪生网络的搜索分支,通过GoogLeNet(Inception v3)特征提取骨干网络提取得到搜索图像特征
Figure BDA0003983754050000092
3.如附图1所示,将模板图像的特征和搜索图像的特征分别输入到由并行的通道注意力分支和位置注意力分支组成的多重注意力模块中,其中通道注意力分支给更具有判别性的特征通道赋予更高的权重,位置注意力分支充分利用目标的位置信息,从而进一步细化特征;通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,得到一个特征响应图,具体包括:
3.1根据步骤2.2得到的模板图像特征
Figure BDA0003983754050000101
将其输入到多重注意力模块,主要包含通道注意力分支和位置注意力分支,得到两种不同的注意力特征,通过逐像素相乘操作对两种注意力特征进行融合,之后再通过两个3×3的卷积操作进一步增强特征表示,最终得到细化后的模板图像特征/>
Figure BDA0003983754050000102
3.2根据步骤2.3得到的搜索图像特征
Figure BDA0003983754050000103
将其输入到多重注意力模块,主要包含通道注意力分支和位置注意力分支,得到两种不同的注意力特征,通过逐像素相乘操作对两种注意力特征进行融合,之后再通过两个3×3的卷积操作进一步增强特征表示,最终得到细化后的搜索图像特征/>
Figure BDA0003983754050000104
3.3将细化后的模板图像特征
Figure BDA0003983754050000105
和搜索图像特征/>
Figure BDA0003983754050000106
通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,得到一个特征响应图Ffin
4.将细化后的模板图像特征
Figure BDA0003983754050000107
和搜索图像特征/>
Figure BDA0003983754050000108
通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,具体步骤为:
4.1将模板图像特征
Figure BDA0003983754050000109
中的每一个1×1×C的网格视为一个结点,其中C为特征通道数,得到一个包含所有结点的结点集Vz
4.2将搜索图像特征
Figure BDA00039837540500001010
中的每一个1×1×C的网格视为一个结点,其中C为特征通道数,得到一个包含所有结点的结点集Vx
4.3构建完全二分图G=(V,E),其中,
Figure BDA00039837540500001011
Figure BDA00039837540500001012
G的两个子图分别为/>
Figure BDA00039837540500001013
和/>
Figure BDA00039837540500001014
4.4因为搜索图像中的位置与模板图像的局部位置越相似,越有可能是前景,应该向那里传递更多的目标信息。先分别对结点进行线性变化,计算两者的内积来计算相关得分,相关得分即为两个结点的相似程度,最后生成一个响应图,公式为:
Figure BDA00039837540500001015
其中,ei,j表示结点i∈Vx和结点j∈Vz之间的相关得分,Wx和Wz为线性变换矩阵,
Figure BDA00039837540500001016
和/>
Figure BDA00039837540500001017
分别为结点i和j的特征向量。
5.如附图2所示,多重注意力模块包含通道注意力分支和位置注意力分支,具体包括:
5.1将优化前的特征F输入到通道注意力分支,给更具判别性的通道赋予更高的权重,再利用残差学习与优化前的特征进行像素相乘操作,避免多余的信息并抑制背景噪声,从而得到特征F1,公式为:
Figure BDA0003983754050000111
其中,F1表示通过多注意力模块中的通道注意力分支优化后的特征,F表示优化前的特征,
Figure BDA0003983754050000112
表示像素相乘操作,σ表示Sigmoid激活函数,FSENet表示通过通道注意力机制之后得到的特征。
5.2将优化前的特征F输入到位置注意力分支,充分利用目标的位置信息,再利用残差学习与优化前的特征进行像素相乘操作,避免多余的信息并抑制背景噪声,从而得到特征F2,公式为:
Figure BDA0003983754050000113
其中,F2表示通过多注意力模块中的位置注意力分支优化后的特征,F表示优化前的特征,
Figure BDA0003983754050000114
表示像素相乘操作,σ表示Sigmoid激活函数,FCA表示通过位置注意力机制之后得到的特征。
5.3将通过步骤5.1得到的特征F1和通过步骤5.2得到的特征F2进行特征融合,首先对两个特征进行像素相乘操作,再通过两个3×3的卷积操作进一步增强特征表示,得到优化后的特征Foutput,公式为:
Figure BDA0003983754050000115
其中,Foutput表示优化后的特征,F3×3表示3×3卷积操作,
Figure BDA0003983754050000116
表示像素相乘操作。
6.如附图1所示,将特征响应图输入到分类-回归子网络,回归分支通过引入Focal-EIoU损失替换IoU损失,从而引导***生成更加精确的跟踪框,所得的跟踪框即为最后的跟踪结果,具体包括:
6.1根据步骤3.3,将获得的特征响应图进行卷积,并分别输入到分类分支、中心度分支和回归分支;
6.2分类分支采用常规的交叉熵损失进行分类任务,得到分类损失Lcls
6.3中心度分支与分类分支并行,用于去除异常数据,得到中心度损失Lcen
6.4回归分支采用Focal-EIoU损失进行回归任务,得到回归损失Lreg,回归损失的计算公式为:
Figure BDA0003983754050000121
Lreg=IoUγLEIoU (6)
其中,LEIOU表示EIoU损失,IOU表示两个锚框的交并比,b表示锚框的中心点,bgt表示真值框的中心点,w表示锚框的宽度,wgt表示真值框的宽度,h表示锚框的高度,hgt表示真值框的高度,wc表示最小的边界框的宽度,hc表示最小的边界框的高度,Lreg表示通过Focal-EIoU损失计算出的回归损失,γ是一个超参数。
6.5根据步骤6.2得到分类损失Lcls,根据步骤6.3得到中心度损失Lcen,根据步骤6.4得到回归损失Lreg,计算出最终总的损失函数的公式为:
L=Lcls1Lcen2Lreg (7)
其中,L表示总的损失函数,λ1表示中心度损失函数中的超参数,λ2表示回归损失函数中的超参数。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (8)

1.一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,包括以下步骤:
步骤1:选取视频的第一帧图像作为模板图像,选取视频的后序其他帧图像作为搜索图像,再分别对模板图像和搜索图像进行预处理操作;
步骤2:将预处理后的模板图像和搜索图像分别输入到孪生网络的模板分支和搜索分支,通过GoogLeNet特征提取骨干网络进行特征提取,得到模板图像的特征图和搜索图像的特征图;
步骤3:将模板图像特征和搜索图像特征分别输入到由并行的通道注意力分支和位置注意力分支组成的多重注意力模块中,其中通道注意力分支给更具有判别性的特征通道赋予更高的权重,位置注意力分支充分利用目标的位置信息,从而进一步细化特征;通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,得到一个特征响应图;
步骤4:将特征响应图输入到分类-回归子网络,回归分支通过引入Focal-EIoU损失替换IoU损失,从而引导***生成更加精确的跟踪框,所得的跟踪框即为最后的跟踪结果。
2.根据权利要求1所述的一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,所述步骤1:选取视频的第一帧图像作为模板图像,选取视频的后序其他帧图像作为搜索图像,再分别对模板图像和搜索图像进行预处理操作,具体包含以下步骤:
A1、模板图像预处理:选取视频的第一帧图像,目标区域使用矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超过图像边界,超过的部分使用图像像素均值填充,最后将裁剪的目标图像尺寸缩放至127×127像素大小;
A2、搜索图像预处理:选取视频的后序其他帧图像,目标区域使用矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超过图像边界,超过的部分使用图像像素均值填充,最后将裁剪的目标图像尺寸缩放至287×287像素大小。
3.根据权利要求2所述的一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,所述步骤2:将预处理后的模板图像和搜索图像分别输入到孪生网络的模板分支和搜索分支,通过GoogLeNet特征提取骨干网络进行特征提取,得到模板图像的特征和搜索图像的特征,具体包括以下步骤:
B1、根据步骤A1得到127×127大小的模板图像z,根据步骤A2得到287×287大小的搜索图像x;
B2、将模板图像z输入到孪生网络的模板分支,通过GoogLeNet(Inception v3)特征提取骨干网络提取得到模板图像特征
Figure FDA0003983754040000021
B3、将搜索图像x输入到孪生网络的搜索分支,通过GoogLeNet(Inception v3)特征提取骨干网络提取得到搜索图像特征
Figure FDA0003983754040000022
4.根据权利要求3所述的一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,所述步骤3:将模板图像的特征和搜索图像的特征分别输入到由并行的通道注意力分支和位置注意力分支组成的多重注意力模块中,其中通道注意力分支给更具有判别性的特征通道赋予更高的权重,位置注意力分支充分利用目标的位置信息,从而进一步细化特征;通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,得到一个特征响应图,具体包括以下步骤:
C1、根据步骤B2得到的模板图像特征
Figure FDA0003983754040000023
将其输入到多重注意力模块,主要包含通道注意力分支和位置注意力分支,得到两种不同的注意力特征,通过逐像素相乘操作对两种注意力特征进行融合,之后再通过两个3×3的卷积操作进一步增强特征表示,最终得到细化后的模板图像特征/>
Figure FDA0003983754040000024
C2、根据步骤B3得到的搜索图像特征
Figure FDA0003983754040000025
将其输入到多重注意力模块,主要包含通道注意力分支和位置注意力分支,得到两种不同的注意力特征,通过逐像素相乘操作对两种注意力特征进行融合,之后再通过两个3×3的卷积操作进一步增强特征表示,最终得到细化后的搜索图像特征/>
Figure FDA0003983754040000026
C3、将细化后的模板图像特征
Figure FDA0003983754040000027
和搜索图像特征/>
Figure FDA0003983754040000028
通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,得到一个特征响应图Ffin
5.根据权利要求4所述的一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,所述步骤C3、将细化后的模板图像特征
Figure FDA0003983754040000031
和搜索图像特征/>
Figure FDA0003983754040000032
通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,具体步骤为:
D1、将模板图像特征
Figure FDA0003983754040000033
中的每一个1×1×C的网格视为一个结点,其中C为特征通道数,得到一个包含所有结点的结点集Vz
D2、将搜索图像特征
Figure FDA0003983754040000034
中的每一个1×1×C的网格视为一个结点,其中C为特征通道数,得到一个包含所有结点的结点集Vx
D3、构建完全二分图G=(V,E),其中,V=Vz∪Vx
Figure FDA0003983754040000035
Figure FDA0003983754040000036
G的两个子图分别为/>
Figure FDA0003983754040000037
和/>
Figure FDA0003983754040000038
D4、因为搜索图像中的位置与模板图像的局部位置越相似,越有可能是前景,应该向那里传递更多的目标信息。先分别对结点进行线性变化,计算两者的内积来计算相关得分,相关得分即为两个结点的相似程度,最后生成一个响应图,公式为:
Figure FDA0003983754040000039
其中,ei,j表示结点i∈Vx和结点j∈Vz之间的相关得分,Wx和Wz为线性变换矩阵,
Figure FDA00039837540400000310
和/>
Figure FDA00039837540400000311
分别为结点i和j的特征向量。
6.根据权利要求4所述的一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,所述多重注意力模块,具体步骤为:
E1、将优化前的特征F输入到通道注意力分支,给更具判别性的通道赋予更高的权重,再利用残差学习与优化前的特征进行像素相乘操作,从而得到特征F1,公式为:
Figure FDA00039837540400000312
其中,F1表示通过多注意力模块中的通道注意力分支优化后的特征,F表示优化前的特征,
Figure FDA00039837540400000313
表示像素相乘操作,σ表示Sigmoid激活函数,FSENet表示通过通道注意力机制之后得到的特征;/>
E2、将优化前的特征F输入到位置注意力分支,再利用残差学习与优化前的特征进行像素相乘操作,从而得到特征F2,公式为:
Figure FDA0003983754040000041
其中,F2表示通过多注意力模块中的位置注意力分支优化后的特征,F表示优化前的特征,
Figure FDA0003983754040000042
表示像素相乘操作,σ表示Sigmoid激活函数,FCA表示通过位置注意力机制之后得到的特征;
E3、将通过步骤E1得到的特征F1和通过步骤E2得到的特征F2进行特征融合,首先对两个特征进行像素相乘操作,再通过两个3×3的卷积操作进一步增强特征表示,得到优化后的特征Foutput,公式为:
Figure FDA0003983754040000043
其中,Foutput表示优化后的特征,F3×3表示3×3卷积操作,
Figure FDA0003983754040000044
表示像素相乘操作。
7.根据权利要求6所述的一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,所述步骤4将特征响应图输入到分类-回归子网络,回归分支通过引入Focal-EIoU损失替换IoU损失,从而引导***生成更加精确的跟踪框,所得的跟踪框即为最后的跟踪结果,具体包含以下步骤:
F1、根据步骤C3,将获得的特征响应图进行卷积,并分别输入到分类分支、中心度分支和回归分支;
F2、分类分支采用常规的交叉熵损失进行分类任务,得到分类损失Lcls
F3、中心度分支与分类分支并行,用于去除异常数据,得到中心度损失Lcen
F4、回归分支采用Focal-EIoU损失进行回归任务,得到回归损失Lreg
F5、根据步骤F2得到分类损失Lcls,根据步骤F3得到中心度损失Lcen,根据步骤F4得到回归损失Lreg,计算出最终总的损失函数的公式为:
L=Lcls1Lcen2Lreg (5)
其中,L表示总的损失函数,λ1表示中心度损失函数中的超参数,λ2表示回归损失函数中的超参数。
8.根据权利要求7所述的一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,所述Focal-EIoU损失以及回归分支的损失函数为:
Figure FDA0003983754040000051
其中,LEIOU表示EIoU损失,IOU表示两个锚框的交并比,b表示锚框的中心点,bgt表示真值框的中心点,w表示锚框的宽度,wgt表示真值框的宽度,h表示锚框的高度,hgt表示真值框的高度,wc表示最小的边界框的宽度,hc表示最小的边界框的高度;
Lreg=IoUγLEIoU (7)
其中,Lreg表示通过Focal-EIoU损失计算出的回归损失,γ是一个超参数。
CN202211558887.7A 2022-12-06 2022-12-06 一种基于多重注意力的孪生网络目标跟踪方法 Pending CN116229112A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211558887.7A CN116229112A (zh) 2022-12-06 2022-12-06 一种基于多重注意力的孪生网络目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211558887.7A CN116229112A (zh) 2022-12-06 2022-12-06 一种基于多重注意力的孪生网络目标跟踪方法

Publications (1)

Publication Number Publication Date
CN116229112A true CN116229112A (zh) 2023-06-06

Family

ID=86579290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211558887.7A Pending CN116229112A (zh) 2022-12-06 2022-12-06 一种基于多重注意力的孪生网络目标跟踪方法

Country Status (1)

Country Link
CN (1) CN116229112A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934796A (zh) * 2023-07-20 2023-10-24 河南大学 基于孪生残差注意力聚合网络的视觉目标跟踪方法
CN117058190A (zh) * 2023-07-07 2023-11-14 国网江苏省电力有限公司南京供电分公司 基于三重注意力机制的孪生网络目标跟踪方法和***
CN117670938A (zh) * 2024-01-30 2024-03-08 江西方兴科技股份有限公司 一种基于治超机器人的多目标时空跟踪方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058190A (zh) * 2023-07-07 2023-11-14 国网江苏省电力有限公司南京供电分公司 基于三重注意力机制的孪生网络目标跟踪方法和***
CN116934796A (zh) * 2023-07-20 2023-10-24 河南大学 基于孪生残差注意力聚合网络的视觉目标跟踪方法
CN117670938A (zh) * 2024-01-30 2024-03-08 江西方兴科技股份有限公司 一种基于治超机器人的多目标时空跟踪方法
CN117670938B (zh) * 2024-01-30 2024-05-10 江西方兴科技股份有限公司 一种基于治超机器人的多目标时空跟踪方法

Similar Documents

Publication Publication Date Title
CN112001385B (zh) 一种目标跨域检测与理解方法、***、设备及存储介质
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN111460968B (zh) 基于视频的无人机识别与跟踪方法及装置
CN116229112A (zh) 一种基于多重注意力的孪生网络目标跟踪方法
CN111160407B (zh) 一种深度学习目标检测方法及***
CN110929848B (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN112560656A (zh) 一种联合注意力机制端到端训练的行人多目标跟踪方法
CN110942471B (zh) 一种基于时空约束的长时目标跟踪方法
Liang et al. Comparison detector for cervical cell/clumps detection in the limited data scenario
CN111767847A (zh) 一种集成目标检测和关联的行人多目标跟踪方法
CN110781785A (zh) 基于Faster RCNN算法改进的交通场景下行人检测方法
CN113706581B (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN113129335B (zh) 一种基于孪生网络的视觉跟踪算法及多模板更新策略
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
CN111931953A (zh) 一种废旧手机多尺度特征深度森林识别方法
CN112287906B (zh) 一种基于深度特征融合的模板匹配跟踪方法及***
CN113052184A (zh) 一种基于两阶段局部特征对齐的目标检测方法
CN113888586A (zh) 一种基于相关滤波的目标跟踪方法及装置
CN112884147A (zh) 神经网络训练方法、图像处理方法、装置及电子设备
Dong et al. Learning regional purity for instance segmentation on 3d point clouds
CN111291785A (zh) 目标检测的方法、装置、设备及存储介质
CN113762251A (zh) 一种基于注意力机制的目标分类方法及***
Lu et al. Siamese graph attention networks for robust visual object tracking
CN116664867A (zh) 一种基于多证据融合选取训练样本的特征提取方法及装置
CN116977859A (zh) 基于多尺度图像切割和实例困难度的弱监督目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination