CN117974722B - 基于注意力机制和改进的Transformer的单目标跟踪***及方法 - Google Patents
基于注意力机制和改进的Transformer的单目标跟踪***及方法 Download PDFInfo
- Publication number
- CN117974722B CN117974722B CN202410389346.9A CN202410389346A CN117974722B CN 117974722 B CN117974722 B CN 117974722B CN 202410389346 A CN202410389346 A CN 202410389346A CN 117974722 B CN117974722 B CN 117974722B
- Authority
- CN
- China
- Prior art keywords
- feature
- representing
- time
- space
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000007246 mechanism Effects 0.000 title claims abstract description 53
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000010354 integration Effects 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 7
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本申请提出一种基于注意力机制和改进的Transformer的单目标跟踪***及方法,该方法包括:获取视频序列中的两帧图像分别作为训练图像和测试图像并输入单目标跟踪网络进行特征提取,将提取的特征输入构建的特征整合模块,得到全局和局部的整合特征信息;对整合特征信息输入改进的Transformer的多头注意力机制中的时空特征增强模块,以捕获图像内部的时空上下文特征;将时空上下文特征输入构建的双头预测模块中,以得到目标位置信息。本申请提出的方法能够解决现有的单目标跟踪方法由特征提取能力弱、预测存在不确定性以及特征融合阶段没有充分利用相邻键之间的丰富上下文引起的精度和效率不高的问题。
Description
技术领域
本申请涉及计算机视觉、深度学习领域领域,特别涉及一种基于注意力机制和改进的Transformer的单目标跟踪***及方法。
背景技术
单目标跟踪是计算机视觉领域中的一个重要研究方向,在智能安防领域、智慧交通领域、自动驾驶领域、人机交互领域以及智能化军事领域有着广泛的应用。单目标跟踪的核心机制主要是将目标在视频初始帧的状态作为先验知识,然后根据先验知识在后续视频序列中持续准确地捕获该目标的位置信息和尺度信息。其中目标在起始帧的状态包括位置和尺度信息。
目前,单目标跟踪领域的主流算法框架可以分为基于相关滤波的单目标跟踪方法以及基于深度学习的单目标跟踪方法。基于相关滤波的***使用颜色特征、多通道特征和直方图特征等手工特征来提高特征的质量,但这些特征还是相对简单,单纯使用这些特征很难提高***的鲁棒性。而基于深度学习的单目标跟踪算法又可以进一步划分为基于孪生网络和基于其他深度学习方法的单目标跟踪,已表现出较为优异的性能。
然而,在***特征提取方面,由于目标会受到背景干扰物体的影响,导致***错误地关注了非目标区域或错过了目标,并且当目标被遮挡时,传统的单目标跟踪算法容易出现漏检或错误跟踪的情况;在此基础上,在视觉目标跟踪预测阶段,使用由三层感知器组成的前馈神经网络来预测目标的位置虽然简单有效,但没有考虑数据集的模糊性和不确定性,难以处理遮挡和复杂背景等问题。在时空特征融合方面,现有单目标跟踪方法没有充分利用到Transformer编码器和解码器中相邻键之间的丰富上下文,并且没有考虑到输入目标特征本身存在的时空信息以及状态信息对单目标***有较大的增强作用。因此,现有的单目标跟踪***还存在特征提取能力弱、预测存在不确定性以及特征融合阶段没有充分利用相邻键之间的丰富上下文,从而影响了单目标跟踪的精度和效率。
发明内容
基于此,本申请提出一种基于注意力机制和改进的Transformer的单目标跟踪***及方法,旨在能够解决现有的单目标跟踪***还存在特征提取能力弱、预测存在不确定性以及特征融合阶段没有充分利用相邻键之间的丰富上下文,从而影响了单目标跟踪的精度和效率的问题。
实施例的第一方面提供了一种单目标跟踪***,包括:
图像获取模块,用于获取视频序列中的两帧图像分别作为训练图像和测试图像;
特征提取模块,用于将所述训练图像和所述测试图像输入单目标跟踪网络进行特征提取,得到所述视频序列的高级特征表示;
特征整合模块,用于对所述高级特征表示进行特征整合,得到包含特征尺度信息和空间特征信息的整合特征信息;
特征增强模块,用于对所述整合特征信息输入改进的Transformer的多头注意力机制中进行时空特征增强,以捕获图像内部的时空上下文特征;
双头预测模块,用于对所述时空上下文特征进行空间特征、时间特征以及在时空上下文信息的同步处理,再使用分类分支和回归分支结合的方式预测目标的具***置。
与现有技术相比,本申请提出的一种基于注意力机制和改进的Transformer的单目标跟踪***。该***通过使用两帧图像分别作为训练图像和测试图像,再对这两图像进行提取后进行特征整合,结合了全局与局部特征,提高了全局交互信息和遮挡目标的深度特征提取能力;在此基础上设计了包括多层感知机预测单元和改进时空预测单元的双头预测模块,相比于单预测头,能够充分考虑了局部时空环境对目标位置的影响,增强了预测阶段对时空上下文信息的利用能力;还通过一种改进的Transformer,来处理Transformer编/解码层相邻键之间丰富的上下文时空信息,并采用全局关系建模来提高判别时空特征的融合能力,有效缓解了由于目标尺度和形状变化对***的影响。因此,本***能够解决现有的单目标跟踪方法还存在特征提取能力弱、预测存在不确定性以及特征融合阶段没有充分利用相邻键之间的丰富上下文,从而影响了单目标跟踪的精度和效率的问题。
作为第一方面的一种可选实施方式,所述特征整合模块包括:
空间金字塔单元:用于,将所述特征输入所述空间金字塔单元,进行卷积变换将通道数量调整为变换前的1/4,再进行3×3、7×7以及11×11的最大池化操作,再进行通道维度合并,用公式表示为:
,
其中,表示空间金字塔单元的输出特征,/>表示卷积变换输出的特征,/>表示池化操作,/>表示池化核大小;
多尺度注意力单元:用于,将所述空间金字塔单元的输出输入所述多尺度注意力单元,得到全局通道注意力和局部通道注意力,用公式表示为:
,
,
其中,表示全局通道注意力,/>表示局部通道注意力,/>表示最大池化,/>和/>分别表示1D卷积和2D卷积,和/>为激活函数;
第一赋权单元:用于,对所述全局通道注意力和所述局部通道注意力赋予权重,得到所述整合特征信息,用公式表示为:
,
其中,X表示输入特征的权重,Y表示输出的整合特征信息。
作为第一方面的一种可选实施方式,所述特征增强模块包括:
全局尺度时空处理单元:用于,将所述整合特征信息输入全局尺度时空处理单元,通过自适应平均池化、全连接层以及使用Dropout方法,得到键的全局尺度权重,用公式表示为:
,
其中,表示键的全局尺度权重,K表示由整合特征信息Y经线性变换得到的键特征,FC表示全连接层,D表示Dropout方法;
局部尺度时空处理单元:用于,将所述整合特征信息输入局部尺度时空处理单元,通过两个一维卷积和使用激活函数,得到键的局部尺度权重,用公式表示为:
,
其中,表示键的局部尺度权重;
第二赋权单元:用于,采用键的全局尺度权重和局部尺度权重/>的逐元素相加,再与键特征K逐元素相乘,得到最终增强后的键/>,用公式表示为:
。
所述特征增强模块还包括改进的Transformer模型的多头注意力机制单元,用于从最终增强后的相邻键之间的上下文信息和时空特征信息进一步捕捉到图像序列内部的时空上下文特征,所述改进的Transformer模型的多头注意力机制公式表示为:
,
其中,表示多头注意力机制,/>表示K的维度,Q、K和V表示输入特征,T表示时间维度,/>表示位置信息编码,/>表示时空特征增强方法,/>表示分类函数。
作为第一方面的一种可选实施方式,所述双头预测模块包括多层感知机预测单元和改进时空预测单元,所述改进时空预测单元由改进的时空注意力机制嵌入所述多层感知机预测单元所得到;所述改进的时空注意力机制包括全局空间分支单元和局部时间分支单元;
全局空间分支单元:用于,使用两个全连接层及Dropout方法对输入特征进行全局处理,以学习图像的上下文特征信息,所述全局空间分支单元的公式表示为:
,
其中,表示全局空间分支单元输出的权重,/>表示输入特征图;
局部时间分支单元:用于,使用3D卷积层对时序进行建模,以学习帧之间的时序关系,所述局部时间分支单元的公式表示为:
,
其中,表示局部时间分支单元输出的权重,/>表示输入特征图,/>表示3D卷积。
所述多层感知机预测单元包括三个连接层和一个ReLU激活函数,所述多层感知机预测单元的公式表示为:
,
其中,表示输入的时空上下文特征,/>表示多层感知机预测单元输出的预测特征分类信息;
所述改进时空预测单元的公式表示为:
,
其中,表示输入的时空上下文特征,/>表示改进时空预测单元输出的预测特征分类信息。
将所述多层感知机预测单元输出的预测特征分类信息和所述改进时空预测单元输出的预测特征分类信息均经过分类分支和回归分支,得到最终预测目标的具***置。
本申请实施例的第二方面提供了一种单目标跟踪方法,基于注意力机制和改进的Transformer的单目标***实现,所述***包括图像获取模块、特征提取模块、特征整合模块、特征增强模块和双头预测模块,所述方法包括:
获取视频序列中的两帧图像分别作为训练图像和测试图像;
将所述训练图像和所述测试图像输入单目标跟踪网络进行特征提取,得到所述视频序列的高级特征表示;
对所述高级特征表示进行特征整合,得到包含特征尺度信息和空间特征信息的整合特征信息;
对所述整合特征信息输入改进的Transformer的多头注意力机制中进行时空特征增强,以捕获图像内部的时空上下文特征;
对所述时空上下文特征进行空间特征、时间特征以及在时空上下文信息的同步处理,再使用分类分支和回归分支结合的方式预测目标的具***置。
本申请实施例的第三方面提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像处理程序,所述图像处理程序被所述处理器执行时实现所述的单目标跟踪***。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有图像处理程序,所述图像处理程序被处理器运行时执行所述的单目标跟踪***。
本申请有益效果:
在***特征提取方面,本文提出了一个具有较大感受野的空间-通道注意力机制。利用空间金字塔、多尺度通道注意力机制和大感受野方法,通过结合空间特征、全局与局部特征提高了全局交互信息和目标自身深度特征的表达能力;在***的目标预测阶段,利用并行的全局、局部空间特征计算和整体时间特征获取,改进了传统的时空注意力机制。在此基础上设计了相应的时空预测头,充分考虑了局部时空环境对目标位置的影响,增强了预测阶段对时空上下文信息的利用能力,从而提高了***的准确率和鲁棒性。
另一方面,为改善因跟踪视角和光照条件变化导致的目标畸变现象,本文提出了一种Transformer的改进方法,利用全局和局部时空操作,来处理Transformer编/解码层相邻键之间丰富的上下文时空信息,从而增强了编/解码器在空间和时间维度上的联系,并采用全局关系建模来提高判别性时空特征的融合能力,有效缓解了由于目标尺度和形状变化对***的影响从而提高了单目标***的性能。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实施例了解到。
附图说明
图1为本申请第一实施例提出的基于注意力机制和改进的Transformer的单目标跟踪***的结构示意图;
图2为本申请第二实施例提出的基于注意力机制和改进的Transformer的单目标跟踪方法的流程图;
图3为本申请第二实施例中的特征整合模块示意图;
图4为本申请第二实施例中的特征增强模块示意图;
图5为本申请第二实施例中的改进的Transformer结构示意图;
图6为本申请第二实施例中的改进的时空注意力机制示意图;
图7为本申请第二实施例中的双头预测模块示意图。
如下具体实施方式将结合上述附图进一步说明本申请。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的若干个实施例。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本申请的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
请参阅图1,所示为本申请第一实施例提出的基于注意力机制和改进的Transformer的单目标跟踪***的结构示意图,所述***如下:
图像获取模块10,用于获取视频序列中的两帧图像分别作为训练图像和测试图像;
特征提取模块20,用于将所述训练图像和所述测试图像输入单目标跟踪网络进行特征提取,得到所述视频序列的高级特征表示;
特征整合模块30,用于对所述高级特征表示进行特征整合,得到包含特征尺度信息和空间特征信息的整合特征信息;
特征增强模块40,用于对所述整合特征信息输入改进的Transformer的多头注意力机制中进行时空特征增强,以捕获图像内部的时空上下文特征;
双头预测模块50,用于对所述时空上下文特征进行空间特征、时间特征以及在时空上下文信息的同步处理,再使用分类分支和回归分支结合的方式预测目标的具***置。
请参阅图2,所示为本申请第二实施例提出的基于注意力机制和改进的Transformer的单目标跟踪方法的流程图,详述如下:
步骤S01: 获取视频序列中的两帧图像分别作为训练图像和测试图像。
步骤S02:将所述训练图像和所述测试图像输入单目标跟踪网络进行特征提取,得到所述视频序列的高级特征表示。
需要说明的是,在单目标跟踪领域,使用训练帧和测试帧结合的方法可以使得算法更好地理解目标对象在视频序列中的全局上下文。训练帧提供了目标对象的历史信息,而测试帧则提供了当前帧的即时信息。这种结合有助于算法捕捉目标对象随时间变化的特征,以及它与背景之间的相互作用。所以本发明以某一视频序列中的两幅图像分别作为训练图像和测试图像输入到单目标跟踪网络中,并使用ResNet50对图像进行特征提取,从而得到原始视频帧的高级特征表示,即目标的形状、外观、纹理和其他有助于区分目标和背景的特征。
步骤S03:对所述高级特征表示进行特征整合,得到包含特征尺度信息和空间特征信息的整合特征信息。
具体地,可参见图3,为特征整合模块示意图,该特征整合模块包括空间金字塔单元和多尺度注意力单元;
首先将尺度为H×W×C的特征X输入所述空间金字塔单元,经过1×1卷积变换将通道数量调整为原来的1/4,然后经过池化窗口分别为3×3、7×7以及11×11的最大池化操作,最后将三个最大池化的输出与最大池化的输入进行通道维度合并,其计算流程公式如下:
,
其中,表示空间金字塔单元的输出,/>表示输入特征图经过第一个卷积层的输出特征,/>表示空间金字塔单元的池化分支,/>表示其对应的池化核大小;
合并后的特征不仅包含了不同尺寸的空间特征信息,还保持了输入特征的尺度大小,同时,空间金字塔单元拓展了注意力机制的感受野,增强了特征映射的表达能力;
经过了空间金字塔单元的特征信息传输到多尺度注意力单元中,分别经过全局通道注意力和局部通道注意力,其对用算法流程公式如下:
,
,
其中,表示全局通道注意力,/>表示局部通道注意力,/>表示最大池化,/>和/>分别表示1D卷积和2D卷积,和/>为激活函数;
最终通过第一赋权单元赋予了全局通道和局部通道注意力机制的权重大小,权重计算公式如下:
,
其中,X表示输入特征的权重,Y表示输出的整合特征信息,在这些输入输出特征图中,,/>,输入和输出特征图的尺度大小不变。
步骤S04:对所述整合特征信息输入改进的Transformer的多头注意力机制中进行时空特征增强,以捕获图像内部的时空上下文特征。
具体地,可参见图4,为特征增强模块示意图,所述时空特征增强模块包括全局尺度时空处理单元和局部尺度时空处理单元,不同单元使用不同计算方法从而实现多尺度特征处理;
首先,将所述整合特征信息输入全局尺度时空处理单元,通过自适应平均池化、全连接层以及Dropout方法的堆叠实现全局尺度的时空处理;
使用AdaptiveAvgPool1d将输入特征的大小调整为固定大小,与常规的池化层不同,AdaptiveAvgPool1d会自适应地对输入进行平均池化,之后再将特征传输到全连接层生成更抽象和有代表性的特征表示,并且全连接层的堆叠使用可以提高对输入特征的理解和区分,最终使用Sigmoid非线性激活函数来引入非线性变换,这使得该方法能够学习更复杂的非线性函数关系,从而更好地适应真实世界中的复杂数据分布,全局尺度的时空处理算法流程公式如下:
,
其中,表示键的全局尺度权重,/>表示输入特征,/>表示全连接层,/>则代表Dropout方法,/>表示AdaptiveAvgPool1d自适应平均池化方法;
将所述整合特征信息输入局部尺度时空处理单元,使用两个一维卷积实现局部尺度的时空处理,两个一维卷积中间使用的是ReLU非线性激活函数,从而避免梯度消失问题,促进梯度的有效传递,局部尺度的时空处理算法流程公式如下:
,
表示键的局部尺度权重,/>表示输入特征,/>和/>表示对应的激活函数。
通过第二赋权单元,采用键的全局尺度权重和局部尺度权重/>的逐元素相加,再与键特征K逐元素相乘,得到最终增强后的键/>,以表示图像内部的时空上下文特征,用公式表示为:
。
进一步地,可参见图5,为改进的Transformer结构示意图。所述特征增强模块还包括改进的Transformer模型的多头注意力机制单元。在特征传递到Transformer结构的每个多头注意力之前对输入的Key使用时空特征增强方法进行处理,时空特征增强方法可以增强相邻键之间的上下文信息,同时显式地建模目标本身的时空信息,增强后的相邻键之间的上下文信息和目标原始时空特征信息传入到多头注意力机制中可以进一步捕捉到序列内部的时空信息和语义上下文;
改进后的Transformer模型的多头注意力机制的计算公式如下:
,
其中,表示多头注意力机制,/>表示K的维度,Q、K和V表示输入特征,T表示时间维度,/>表示位置信息编码,/>表示时空特征增强方法,/>表示分类函数。
步骤S05:对所述时空上下文特征进行空间特征、时间特征以及在时空上下文信息的同步处理,再使用分类分支和回归分支结合的方式预测目标的具***置。
需要说明的是,所述双头预测模块包括多层感知机预测单元和改进时空预测单元,将改进的时空注意力机制嵌入所述多层感知机预测单元得到所述改进时空预测单元,所述改进的时空注意力机制包括全局空间分支单元和局部时间分支单元,具体可参见图6,为改进的时空注意力机制示意图。
改进的时空注意力机制综合考虑了全局时空上下文信息和局部时空环境,多角度的增强了预测阶段利用时空信息的能力;
改进的时空注意力机制的全局空间分支单元使用两个全连接层及Dropout方法完成了对输入数据的全局处理,全局空间分支通过使用全连接层可以从输入图像中提取空间特征,例如目标的形状、纹理、边缘等信息;
通过多层全连接层的组合,可以捕捉到图像中不同位置的空间相关性,帮助定位和跟踪目标,通过训练大规模的图像数据集,全局空间分支单元可以学习到物体的上下文特征信息,从而实现更准确的跟踪,全局空间分支单元公式如下:
,
其中,表示全局空间分支单元的输出权重,/>表示输入特征图,FC表示全连接层,/>则代表Dropout方法,/>和/>的大小均为T×bs×C×H×W,其中T表示时间维度,bs为batchsize的大小,本文设置为16,H、W、C分别表示特征图的高、宽和通道数;
改进的时空注意力机制的局部时间分支单元是通过3D卷积层来实现的,3D卷积层是一种在时间维度上进行卷积操作的计算层,可以对时序数据进行建模和分析;
局部时间分支单元中的两个3D卷积层是分别使用3×3×3卷积核和1×1×1卷积核进行计算的,通过卷积操作,局部时间分支单元可以学习帧之间的时序关系,局部时间分支单元计算过程如下:
,
其中,表示局部时间分支单元的输出权重,/>表示输入特征图,/>表示3D卷积计算。
进一步地,将改进的时空注意力机制嵌入到常规的多层感知机预测中,设计出一种改进时空预测头;具体可参见图7,为双头预测模块示意图。
常规预测器为多层感知机(MLP)预测结构,MLP由三个完整的连接层和一个ReLU激活函数组成,前两个全连接层的输出维数为256,最后一个全连接层的输出维数根据其任务进行调整,其算法流程公式如下:
,
其中,表示输入的时空上下文特征,/>表示多层感知机预测单元输出的预测特征分类信息;
在MLP结构中嵌入改进的时空注意力机制后形成改进时空预测头,用公式如下:
,
其中,表示输入的时空上下文特征,/>表示改进时空预测单元输出的预测特征分类信息。
将所述多层感知机预测单元输出的预测特征分类信息和所述改进时空预测单元输出的预测特征分类信息均经过分类分支和回归分支,得到最终预测目标的具***置。
双头预测模块可以允许模型在预测阶段同时处理空间特征(如目标的形状和纹理)和时间特征(如目标的运动模式和速度),以及它们在时间和空间上的上下文信息。
综上,本申请提供的基于注意力机制和改进的Transformer的单目标跟踪***,该***通过使用两帧图像分别作为训练图像和测试图像,再对这两图像进行提取后进行特征整合,结合了全局与局部特征,提高了全局交互信息和遮挡目标的深度特征提取能力;在此基础上设计了包括多层感知机预测头和改进时空预测头的双头预测模块,相比于单预测头,能够充分考虑了局部时空环境对目标位置的影响,增强了预测阶段对时空上下文信息的利用能力;还通过一种改进的Transformer,来处理Transformer编/解码层相邻键之间丰富的上下文时空信息,并采用全局关系建模来提高判别时空特征的融合能力,有效缓解了由于目标尺度和形状变化对***的影响。因此,本***能够解决现有的单目标跟踪方法还存在特征提取能力弱、预测存在不确定性以及特征融合阶段没有充分利用相邻键之间的丰富上下文,从而影响了单目标跟踪的精度和效率的问题。
本申请实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像处理程序,所述图像处理程序被所述处理器执行时实现所述的单目标跟踪***。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有图像处理程序,所述图像处理程序被处理器运行时执行所述的单目标跟踪***。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于注意力机制和改进的Transformer的单目标跟踪***,其特征在于,所述***包括:
图像获取模块,用于获取视频序列中的两帧图像分别作为训练图像和测试图像;
特征提取模块,用于将所述训练图像和所述测试图像输入单目标跟踪网络进行特征提取,得到所述视频序列的高级特征表示;
特征整合模块,用于对所述高级特征表示进行特征整合,得到包含特征尺度信息和空间特征信息的整合特征信息;
特征增强模块,用于对所述整合特征信息输入改进的Transformer的多头注意力机制中进行时空特征增强,以捕获图像内部的时空上下文特征;
所述改进的Transformer模型的多头注意力机制公式表示为:
,
其中,表示多头注意力机制,/>表示K的维度,Q、K和V表示输入特征,T表示时间维度,/>表示位置信息编码,/>表示时空特征增强方法,/>表示分类函数;
双头预测模块,用于对所述时空上下文特征进行空间特征、时间特征以及在时空上下文信息的同步处理,再使用分类分支和回归分支结合的方式预测目标的具***置;
所述双头预测模块包括多层感知机预测单元和改进时空预测单元,所述多层感知机预测单元和所述改进时空预测单元分别输出的预测特征分类信息,均经过分类分支和回归分支;
所述多层感知机预测单元包括三个连接层和一个ReLU激活函数;
所述改进时空预测单元由改进的时空注意力机制嵌入所述多层感知机预测单元所得到;所述改进的时空注意力机制包括全局空间分支单元和局部时间分支单元;全局空间分支单元:用于,使用两个全连接层及Dropout方法对输入特征进行全局处理,以学习图像的上下文特征信息;局部时间分支单元:用于,使用3D卷积层对时序进行建模,以学习帧之间的时序关系。
2.根据权利要求1所述的单目标跟踪***,其特征在于,所述特征整合模块包括:
空间金字塔单元:用于,将所述特征输入所述空间金字塔单元,进行卷积变换将通道数量调整为变换前的1/4,再进行3×3、7×7以及11×11的最大池化操作,再进行通道维度合并,用公式表示为:
,
其中,表示空间金字塔单元的输出特征,/>表示卷积变换输出的特征,/>表示池化操作,/>表示池化核大小;
多尺度注意力单元:用于,将所述空间金字塔单元的输出输入所述多尺度注意力单元,得到全局通道注意力和局部通道注意力,用公式表示为:
,
,
其中,表示全局通道注意力,/>表示局部通道注意力,/>表示最大池化,/>和/>分别表示1D卷积和2D卷积,/>和/>为激活函数;
第一赋权单元:用于,对所述全局通道注意力和所述局部通道注意力赋予权重,得到所述整合特征信息,用公式表示为:
,
其中,X表示输入特征的权重,Y表示输出的整合特征信息。
3.根据权利要求2所述的单目标跟踪***,其特征在于,所述特征增强模块包括:
全局尺度时空处理单元:用于,将所述整合特征信息输入全局尺度时空处理单元,通过自适应平均池化、全连接层以及使用Dropout方法,得到键的全局尺度权重,用公式表示为:
,
其中,表示键的全局尺度权重,K表示由整合特征信息Y经线性变换得到的键特征,FC表示全连接层,D表示Dropout方法;
局部尺度时空处理单元:用于,将所述整合特征信息输入局部尺度时空处理单元,通过两个一维卷积和使用激活函数,得到键的局部尺度权重,用公式表示为:
,
其中,表示键的局部尺度权重;
第二赋权单元:用于,采用键的全局尺度权重和局部尺度权重/>的逐元素相加,再与键特征K逐元素相乘,得到最终增强后的键/>,用公式表示为:
。
4.根据权利要求3所述的单目标跟踪***,其特征在于,全局空间分支单元的公式表示为:
,
其中,表示全局空间分支单元输出的权重,/>表示输入特征图;
局部时间分支单元:用于,使用3D卷积层对时序进行建模,以学习帧之间的时序关系,所述局部时间分支单元的公式表示为:
,
其中,表示局部时间分支单元输出的权重,/>表示输入特征图,/>表示3D卷积。
5.根据权利要求4所述的单目标跟踪***,其特征在于,多层感知机预测单元的公式表示为:
,
其中,表示输入的时空上下文特征,/>表示多层感知机预测单元输出的预测特征分类信息;
改进时空预测单元的公式表示为:
,
其中,表示改进时空预测单元输出的预测特征分类信息。
6.一种单目标跟踪方法,其特征在于,基于注意力机制和改进的Transformer的单目标***实现,所述***包括图像获取模块、特征提取模块、特征整合模块、特征增强模块和双头预测模块,所述方法包括:
获取视频序列中的两帧图像分别作为训练图像和测试图像;
将所述训练图像和所述测试图像输入单目标跟踪网络进行特征提取,得到所述视频序列的高级特征表示;
对所述高级特征表示进行特征整合,得到包含特征尺度信息和空间特征信息的整合特征信息;
对所述整合特征信息输入改进的Transformer的多头注意力机制中进行时空特征增强,以捕获图像内部的时空上下文特征;
所述改进的Transformer模型的多头注意力机制公式表示为:
,
其中,表示多头注意力机制,/>表示K的维度,Q、K和V表示输入特征,T表示时间维度,/>表示位置信息编码,/>表示时空特征增强方法,/>表示分类函数;
对所述时空上下文特征进行空间特征、时间特征以及在时空上下文信息的同步处理,再使用分类分支和回归分支结合的方式预测目标的具***置;
所述双头预测模块包括多层感知机预测单元和改进时空预测单元,所述多层感知机预测单元和所述改进时空预测单元分别输出的预测特征分类信息,均经过分类分支和回归分支;
所述多层感知机预测单元包括三个连接层和一个ReLU激活函数;
所述改进时空预测单元由改进的时空注意力机制嵌入所述多层感知机预测单元所得到;所述改进的时空注意力机制包括全局空间分支单元和局部时间分支单元;全局空间分支单元通过使用两个全连接层及Dropout方法对输入特征进行全局处理,以学习图像的上下文特征信息;局部时间分支单元通过使用3D卷积层对时序进行建模,以学习帧之间的时序关系。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像处理程序,所述图像处理程序被所述处理器执行时实现如权利要求1至5中任一项所述的单目标跟踪***。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像处理程序,所述图像处理程序被处理器运行时执行所述权利要求1至5中任一项所述的单目标跟踪***。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410389346.9A CN117974722B (zh) | 2024-04-02 | 2024-04-02 | 基于注意力机制和改进的Transformer的单目标跟踪***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410389346.9A CN117974722B (zh) | 2024-04-02 | 2024-04-02 | 基于注意力机制和改进的Transformer的单目标跟踪***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117974722A CN117974722A (zh) | 2024-05-03 |
CN117974722B true CN117974722B (zh) | 2024-06-11 |
Family
ID=90849920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410389346.9A Active CN117974722B (zh) | 2024-04-02 | 2024-04-02 | 基于注意力机制和改进的Transformer的单目标跟踪***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117974722B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021093821A1 (zh) * | 2019-11-14 | 2021-05-20 | 中兴通讯股份有限公司 | 智能助理评价、推荐方法、***、终端及可读存储介质 |
WO2023116632A1 (zh) * | 2021-12-22 | 2023-06-29 | 中国科学院深圳先进技术研究院 | 基于时空记忆信息的视频实例分割方法和分割装置 |
CN116703980A (zh) * | 2023-08-04 | 2023-09-05 | 南昌工程学院 | 基于金字塔池化Transformer主干网络的目标跟踪方法与*** |
CN116797799A (zh) * | 2023-06-14 | 2023-09-22 | 南京航空航天大学 | 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪*** |
CN117011342A (zh) * | 2023-10-07 | 2023-11-07 | 南京信息工程大学 | 一种注意力增强的时空Transformer视觉单目标跟踪方法 |
CN117058456A (zh) * | 2023-08-22 | 2023-11-14 | 中国科学院长春光学精密机械与物理研究所 | 一种基于多相注意力机制的视觉目标跟踪方法 |
CN117576149A (zh) * | 2023-10-19 | 2024-02-20 | 长春理工大学 | 一种基于注意力机制的单目标跟踪方法 |
-
2024
- 2024-04-02 CN CN202410389346.9A patent/CN117974722B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021093821A1 (zh) * | 2019-11-14 | 2021-05-20 | 中兴通讯股份有限公司 | 智能助理评价、推荐方法、***、终端及可读存储介质 |
WO2023116632A1 (zh) * | 2021-12-22 | 2023-06-29 | 中国科学院深圳先进技术研究院 | 基于时空记忆信息的视频实例分割方法和分割装置 |
CN116797799A (zh) * | 2023-06-14 | 2023-09-22 | 南京航空航天大学 | 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪*** |
CN116703980A (zh) * | 2023-08-04 | 2023-09-05 | 南昌工程学院 | 基于金字塔池化Transformer主干网络的目标跟踪方法与*** |
CN117058456A (zh) * | 2023-08-22 | 2023-11-14 | 中国科学院长春光学精密机械与物理研究所 | 一种基于多相注意力机制的视觉目标跟踪方法 |
CN117011342A (zh) * | 2023-10-07 | 2023-11-07 | 南京信息工程大学 | 一种注意力增强的时空Transformer视觉单目标跟踪方法 |
CN117576149A (zh) * | 2023-10-19 | 2024-02-20 | 长春理工大学 | 一种基于注意力机制的单目标跟踪方法 |
Non-Patent Citations (4)
Title |
---|
Unified Transformer Tracker for Object Tracking;Fan Ma 等;2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR);20211231;全文 * |
基于双重注意力孪生网络的实时视觉跟踪;杨康;宋慧慧;张开华;;计算机应用;20190115(第06期);全文 * |
基于多级特征和混合注意力机制的室内人群检测网络;沈文祥;秦品乐;曾建潮;;计算机应用;20191231(第12期);全文 * |
融合双注意力的深度神经网络在无人机目标检测中的应用;占哲琦;陈鹏;桑永胜;彭德中;;现代计算机;20200415(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117974722A (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN107609460B (zh) | 一种融合时空双重网络流和attention机制的人体行为识别方法 | |
CN107273800B (zh) | 一种基于注意机制的卷积递归神经网络的动作识别方法 | |
WO2020108362A1 (zh) | 人体姿态检测方法、装置、设备及存储介质 | |
CN112651262B (zh) | 一种基于自适应行人对齐的跨模态行人重识别方法 | |
CN111259786A (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN113065645B (zh) | 孪生注意力网络、图像处理方法和装置 | |
CN113449573A (zh) | 一种动态手势识别方法及设备 | |
CN113591968A (zh) | 一种基于非对称注意力特征融合的红外弱小目标检测方法 | |
CN109902601B (zh) | 一种结合卷积网络和递归网络的视频目标检测方法 | |
CN111695457A (zh) | 一种基于弱监督机制的人体姿态估计方法 | |
CN111639571B (zh) | 基于轮廓卷积神经网络的视频动作识别方法 | |
CN112651423A (zh) | 一种智能视觉*** | |
CN114898403A (zh) | 一种基于Attention-JDE网络的行人多目标跟踪方法 | |
CN111368733B (zh) | 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端 | |
CN111291713B (zh) | 一种基于骨架的手势识别方法及*** | |
CN115375737A (zh) | 基于自适应时间与序列化时空特征的目标跟踪方法与*** | |
CN110135435B (zh) | 一种基于广度学习***的显著性检测方法及装置 | |
Ahmad et al. | Embedded deep vision in smart cameras for multi-view objects representation and retrieval | |
CN114067273A (zh) | 一种夜间机场航站楼热成像显著人体分割检测方法 | |
CN116246338B (zh) | 一种基于图卷积和Transformer复合神经网络的行为识别方法 | |
CN117974722B (zh) | 基于注意力机制和改进的Transformer的单目标跟踪***及方法 | |
CN112115786A (zh) | 基于注意力U-net的单目视觉里程计方法 | |
Fang et al. | Dynamic gesture recognition based on multimodal fusion model | |
CN115063724A (zh) | 一种果树田垄的识别方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |