CN116109678A - 基于上下文自注意力学习深度网络的目标跟踪方法与*** - Google Patents

基于上下文自注意力学习深度网络的目标跟踪方法与*** Download PDF

Info

Publication number
CN116109678A
CN116109678A CN202310372849.0A CN202310372849A CN116109678A CN 116109678 A CN116109678 A CN 116109678A CN 202310372849 A CN202310372849 A CN 202310372849A CN 116109678 A CN116109678 A CN 116109678A
Authority
CN
China
Prior art keywords
target
representing
feature map
attention
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310372849.0A
Other languages
English (en)
Other versions
CN116109678B (zh
Inventor
王员云
张文双
王军
秦永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Institute of Technology
Original Assignee
Nanchang Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Institute of Technology filed Critical Nanchang Institute of Technology
Priority to CN202310372849.0A priority Critical patent/CN116109678B/zh
Publication of CN116109678A publication Critical patent/CN116109678A/zh
Application granted granted Critical
Publication of CN116109678B publication Critical patent/CN116109678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于上下文自注意力学习深度网络的目标跟踪方法与***,所述方法包括:基于卷积神经网络模型与上下文自注意力学习模块,构建得到特征提取网络模型;利用区域建议网络分别对提取后的目标模板图像特征和搜索区域图像特征在分类分支和回归分支上分别进行特征融合深度卷积计算,得到对应的相似度得分图,最后将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。在本发明中,通过重构所得到的特征提取网络,可增强模板分支与搜索分支的全局信息表示能力和自注意力学习能力,有利于区域建议网络的分类回归分支的相似度计算,最终实现更加精确的跟踪。

Description

基于上下文自注意力学习深度网络的目标跟踪方法与***
技术领域
本发明涉及计算机视觉与图像处理技术领域,特别涉及一种基于上下文自注意力学习深度网络的目标跟踪方法与***。
背景技术
在计算机视觉领域中,目标跟踪通过在连续的视频图像序列中对目标的表观和运动信息进行建模以定位跟踪目标的位置。目前,目标跟踪在智能视频监控、无人驾驶、医疗诊断以及虚拟现实等视觉领域中有着广泛应用。
在实际跟踪过程中,跟踪算法面临着尺度变化、运动模糊、目标旋转、外部环境的光照变化以及相似背景干扰等因素的影响。随着目标跟踪技术的发展,基于深度学***衡跟踪速度和精确度方面,受到了国内外研究人员的广泛关注。
基于孪生网络的目标跟踪算法,虽然双分支孪生网络在目标跟踪方向得到了很好的应用,但是部分的视觉跟踪算法模型的鲁棒性与精确度均不是很理想。基于此,有必要提出一种基于上下文自注意力学习深度网络的目标跟踪方法与***,以解决上述技术问题。
发明内容
鉴于上述状况,本发明的主要目的是为了解决现有技术中,部分的视觉跟踪算法模型的鲁棒性与精确度均不是很理想的问题。
本发明实施例提出一种基于上下文自注意力学习深度网络的目标跟踪方法,其中,所述方法包括如下步骤:
步骤一、在孪生网络框架下,基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型,所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成,并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征;
步骤二、通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息,通过所述上下文自注意力学习模块,结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息,将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息,所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中,利用输入键之间的上下文信息来指导动态注意力矩阵的学习,以增强目标特征表示能力;
步骤三:利用大规模数据集,对所述特征提取网络模型进行预训练,并结合区域建议网络对所述特征提取网络模型的参数进行调整;
步骤四:利用预训练后的所述特征提取网络模型,在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征,并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中;
步骤五:利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图;
步骤六:根据所述相似度得分图,将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。
本发明提出一种基于上下文自注意力学习深度网络的目标跟踪方法与***,首先在孪生网络框架下,基于卷积神经网络模型与上下文自注意力学习模块,构建得到特征提取网络模型;其中,上下文自注意力学习模块用于提取目标全局上下文信息以进一步得到更加精确的目标表观信息,特征提取网络模型用于分别提取目标模板图像特征和搜索区域图像特征;然后,利用区域建议网络分别对提取后的目标模板图像特征和搜索区域图像特征在分类分支和回归分支上分别进行特征融合深度卷积计算,得到对应的相似度得分图,最后将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。在本发明中,通过重构所得到的特征提取网络,可增强模板分支与搜索分支的全局信息表示能力和自注意力学习能力,有利于区域建议网络的分类回归分支的相似度计算,最终实现更加精确的跟踪。
本发明还提出一种基于上下文自注意力学习深度网络的目标跟踪***,其中,应用如上所述的基于上下文自注意力学习深度网络的目标跟踪方法,所述***包括:
模型构建模块,用于:
在孪生网络框架下,基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型,所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成,并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征;
第一提取模块,用于:
通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息,通过所述上下文自注意力学习模块,结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息,将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息,所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中,利用输入键之间的上下文信息来指导动态注意力矩阵的学习,以增强目标特征表示能力;
预训练模块,用于:
利用大规模数据集,对所述特征提取网络模型进行预训练,并结合区域建议网络对所述特征提取网络模型的参数进行调整;
第二提取模块,用于:
利用预训练后的所述特征提取网络模型,在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征,并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中;
卷积计算模块,用于:
利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图;
目标跟踪模块,用于:
根据所述相似度得分图,将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的基于上下文自注意力学习深度网络的目标跟踪方法的流程图;
图2为本发明的特征提取网络的结构图;
图3为本发明的原理框架图;
图4为本发明提出的基于上下文自注意力学习深度网络的目标跟踪***的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1,本发明提出一种基于上下文自注意力学习深度网络的目标跟踪方法,其中,所述方法包括如下步骤:
S101、在孪生网络框架下,基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型,所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成,并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征。
在本步骤中,重新构建所得到的特征提取网络模型用于分别提取模板分支上的目标模板图像特征和搜索分支上的搜索区域图像特征。在此需要说明的是,如图2所示,特征提取网络模型通过深度卷积神经网络和上下文自注意力学习模块构成。其中,深度卷积神经网络模型提取了模板分支与搜索分支的局部浅层信息。在上下文自注意力学习模块中,结合动态自注意力机制提取全局上下文信息,将全局上下文信息与自注意力学习集成在该上下文自注意力学习模块中,上下文自注意力学习模块具有有效的自注意力学习能力,同时增强了目标特征的聚合能力。
S102、通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息,通过所述上下文自注意力学习模块,结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息,将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息。
其中,所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中,利用输入键之间的上下文信息来指导动态注意力矩阵的学习,以增强目标特征表示能力。
在本发明中,融合了浅层目标局部信息与目标全局上下文信息的上下文自注意力学习模块,充分利用相邻键之间的上下文信息,促进了自注意力学习。此外,模板分支与搜索分支上的特征图均称为目标特征图。具体的,目标特征图表示
其中,表示实数矩阵,表示目标特征图的高度,表示目标特征图的宽度,表示目标特征图的通道数。
目标特征图的键表示为:
目标特征图的查询表示为:
目标特征图的值表示为:
其中,表示卷积操作,表示所输入的嵌入矩阵。
在本实施例中,上下文自注意力学习模块的生成方法包括如下步骤:
S1021、有相邻的键进行卷积,用于使得键有效捕获相邻键之间的上下文信息,对应的公式表示为:
其中,表示卷积权重,表示局部相邻键之间的静态上下文信息。
S1022、将局部相邻键之间的静态上下文信息与查询进行拼接,通过两个连续的卷积得到注意力矩阵,对应的公式表示为:
其中,表示拼接操作,表示带有ReLU激活函数的权重系数,表示不带有激活函数的权重系数,表示基于查询特征与全局上下文消息的键特征在空间位置的注意力矩阵。
S1023、将基于查询特征与全局上下文消息的键特征在空间位置的注意力矩阵与自注意力机制中所有值进行聚集以得到目标特征图的上下文表示,对应的计算公式表示为:
S1024、将目标特征图的上下文表示与局部相邻键之间的静态上下文信息进行融合,以得到通过上下文自注意力学习模块后的特征图,对应的计算公式表示为:
其中,表示融合操作。
S103、利用大规模数据集,对所述特征提取网络模型进行预训练,并结合区域建议网络对所述特征提取网络模型的参数进行调整。
S104、利用预训练后的所述特征提取网络模型,在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征,并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中。
S105、利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图。
请参阅图3,将特征提取网络模块提取的第三个卷积块(卷积块_3)、第四个卷积块(卷积块_4)以及第五个卷积块(卷积块_5)的目标特征和搜索分支的特征分别输入区域建议网络的分类分支和回归分支。在分类分支和回归分支中对模板分支的分类特征和搜索分支的分类特征,以及模板分支的回归特征和搜索分支的回归特征分别进行深度卷积运算。
具体的,进行深度卷积计算的公式表示为:
其中,表示跟踪目标的分类特征图,表示模板分支的分类特征图,表示搜索分支的分类特征图,表示跟踪目标的回归特征图,表示模板分支的回归特征图,表示搜索分支的回归特征图,表示深度卷积计算。
在特征提取网络模型提取的第三个卷积块(卷积块_3)、第四个卷积块(卷积块_4)与第五个卷积块(卷积块_5)的目标模板图像特征和搜索区域图像特征中,浅层特征捕获了目标的表观特征,能够精准定位,深层特征能捕获目标语义信息,增强了目标外观变化的鲁棒性。将三个卷积的分类和回归特征图分别进行加权求和。
其中,将分类特征图与回归特征图分别进行加权求和,对应的公式表示为:
其中,表示目标特征分类分数特征图,表示第个卷积块分类特征图的深度卷积结果的权重,表示第个卷积块分类特征图的深度卷积结果,表示目标特征回归分数特征图,表示第个卷积块回归特征图的深度卷积结果的权重,表示第个卷积块回归特征图的深度卷积的结果。
S106、根据所述相似度得分图,将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。
在此需要说明的是,上述的目标特征分类分数特征图通过三个卷积块分别经过区域建议网络得到,且具有两个通道,用于表示候选目标的位置标签图和背景标签图。
此外,上述的目标特征回归分数特征图通过三个卷积块分别经过区域建议网络得到,且具有四个通道,用于分别表示目标的跟踪框的左上角和右下角的坐标值。
本发明提出一种基于上下文自注意力学习深度网络的目标跟踪方法与***,首先在孪生网络框架下,基于卷积神经网络模型与上下文自注意力学习模块,构建得到特征提取网络模型;其中,上下文自注意力学习模块用于提取目标全局上下文信息以进一步得到更加精确的目标表观信息,特征提取网络模型用于分别提取目标模板图像特征和搜索区域图像特征;然后,利用区域建议网络分别对提取后的目标模板图像特征和搜索区域图像特征在分类分支和回归分支上分别进行特征融合深度卷积计算,得到对应的相似度得分图,最后将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。在本发明中,通过重构所得到的特征提取网络,可增强模板分支与搜索分支的全局信息表示能力和自注意力学习能力,有利于区域建议网络的分类回归分支的相似度计算,最终实现更加精确的跟踪。
请参阅图4,本发明提出一种基于上下文自注意力学习深度网络的目标跟踪***,其中,应用如上所述的基于上下文自注意力学习深度网络的目标跟踪方法,所述***包括:
模型构建模块,用于:
在孪生网络框架下,基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型,所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成,并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征;
在所述上下文自注意力学习模块中,目标特征图表示为
其中,表示实数矩阵,表示目标特征图的高度,表示目标特征图的宽度,表示目标特征图的通道数;
目标特征图的键表示为:
目标特征图的查询表示为:
目标特征图的值表示为:
其中,表示卷积操作,表示所输入的嵌入矩阵;
所述上下文自注意力学习模块还用于:
对所有相邻的键进行卷积,用于使得键有效捕获相邻键之间的上下文信息,对应的公式表示为:
其中,表示卷积权重,表示局部相邻键之间的静态上下文信息;
将局部相邻键之间的静态上下文信息与查询进行拼接,通过两个连续的卷积得到注意力矩阵,对应的公式表示为:
其中,表示拼接操作,表示带有ReLU激活函数的权重系数,表示不带有激活函数的权重系数,表示基于查询特征与全局上下文消息的键特征在空间位置的注意力矩阵;
将基于查询特征与全局上下文消息的键特征在空间位置的注意力矩阵与自注意力机制中所有值进行聚集以得到目标特征图的上下文表示,对应的计算公式表示为:
将目标特征图的上下文表示与局部相邻键之间的静态上下文信息进行融合,以得到通过上下文自注意力学习模块后的特征图,对应的计算公式表示为:
其中,表示融合操作;
第一提取模块,用于:
通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息,通过所述上下文自注意力学习模块,结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息,将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息,所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中,利用输入键之间的上下文信息来指导动态注意力矩阵的学习,以增强目标特征表示能力;
预训练模块,用于:
利用大规模数据集,对所述特征提取网络模型进行预训练,并结合区域建议网络对所述特征提取网络模型的参数进行调整;
第二提取模块,用于:
利用预训练后的所述特征提取网络模型,在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征,并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中;
卷积计算模块,用于:
利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图;
目标跟踪模块,用于:
根据所述相似度得分图,将最大相似度得分值对应的相似度得分图确定为跟踪定位目标;
所述卷积计算模块用于:
利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图,对应的公式表示为:
其中,表示跟踪目标的分类特征图,表示模板分支的分类特征图,表示搜索分支的分类特征图,表示跟踪目标的回归特征图,表示模板分支的回归特征图,表示搜索分支的回归特征图,表示深度卷积计算;
所述目标跟踪***还用于:
将分类特征图与回归特征图分别进行加权求和,对应的公式表示为:
其中,表示目标特征分类分数特征图,表示第个卷积块分类特征图的深度卷积结果的权重,表示第个卷积块分类特征图的深度卷积结果,表示目标特征回归分数特征图,表示第个卷积块回归特征图的深度卷积结果的权重,表示第个卷积块回归特征图的深度卷积的结果;
目标特征分类分数特征图通过三个卷积块分别经过区域建议网络得到,且具有两个通道;
目标特征回归分数特征图通过三个卷积块分别经过区域建议网络得到,且具有四个通道。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于上下文自注意力学习深度网络的目标跟踪方法,其特征在于,所述方法包括如下步骤:
步骤一、在孪生网络框架下,基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型,所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成,并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征;
步骤二、通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息,通过所述上下文自注意力学习模块,结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息,将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息,所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中,利用输入键之间的上下文信息来指导动态注意力矩阵的学习,以增强目标特征表示能力;
步骤三:利用大规模数据集,对所述特征提取网络模型进行预训练,并结合区域建议网络对所述特征提取网络模型的参数进行调整;
步骤四:利用预训练后的所述特征提取网络模型,在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征,并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中;
步骤五:利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图;
步骤六:根据所述相似度得分图,将最大相似度得分值对应的相似度得分图确定为跟踪定位目标;
在所述步骤二中,在所述上下文自注意力学习模块中,目标特征图表示为
其中,表示实数矩阵,表示目标特征图的高度,表示目标特征图的宽度,表示目标特征图的通道数;
目标特征图的键表示为:
目标特征图的查询表示为:
目标特征图的值表示为:
其中,表示卷积操作,表示所输入的嵌入矩阵;
所述上下文自注意力学习模块提取得到的目标特征图的方法包括如下步骤:
对所有相邻的键进行卷积,用于使得键有效捕获相邻键之间的上下文信息,对应的公式表示为:
其中,表示卷积权重,表示局部相邻键之间的静态上下文信息;
将局部相邻键之间的静态上下文信息与查询进行拼接,通过两个连续的卷积得到注意力矩阵,对应的公式表示为:
其中,表示拼接操作,表示带有ReLU激活函数的权重系数,表示不带有激活函数的权重系数,表示基于查询特征与全局上下文消息的键特征在空间位置的注意力矩阵;
将基于查询特征与全局上下文消息的键特征在空间位置的注意力矩阵与自注意力机制中所有值进行聚集以得到目标特征图的上下文表示,对应的计算公式表示为:
将目标特征图的上下文表示与局部相邻键之间的静态上下文信息进行融合,以得到通过上下文自注意力学习模块后的特征图,对应的计算公式表示为:
其中,表示融合操作。
2.根据权利要求1所述的基于上下文自注意力学习深度网络的目标跟踪方法,其特征在于,在所述步骤五中,利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算的步骤中,进行深度卷积计算的公式表示为:
其中,表示跟踪目标的分类特征图,表示模板分支的分类特征图,表示搜索分支的分类特征图,表示跟踪目标的回归特征图,表示模板分支的回归特征图,表示搜索分支的回归特征图,表示深度卷积计算。
3.根据权利要求2所述的基于上下文自注意力学习深度网络的目标跟踪方法,其特征在于,在计算得到了分类特征图与回归特征图之后,所述方法还包括:
将分类特征图与回归特征图分别进行加权求和,对应的公式表示为:
其中,表示目标特征分类分数特征图,表示第个卷积块分类特征图的深度卷积结果的权重,表示第个卷积块分类特征图的深度卷积结果,表示目标特征回归分数特征图,表示第个卷积块回归特征图的深度卷积结果的权重,表示第个卷积块回归特征图的深度卷积的结果。
4.根据权利要求3所述的基于上下文自注意力学习深度网络的目标跟踪方法,其特征在于,目标特征分类分数特征图通过三个卷积块分别经过区域建议网络得到,且具有两个通道;
目标特征回归分数特征图通过三个卷积块分别经过区域建议网络得到,且具有四个通道。
5.一种基于上下文自注意力学习深度网络的目标跟踪***,其特征在于,应用如上述权利要求1至4任一项所述的基于上下文自注意力学习深度网络的目标跟踪方法,所述***包括:
模型构建模块,用于:
在孪生网络框架下,基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型,所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成,并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征;
第一提取模块,用于:
通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息,通过所述上下文自注意力学习模块,结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息,将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息,所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中,利用输入键之间的上下文信息来指导动态注意力矩阵的学习,以增强目标特征表示能力;
预训练模块,用于:
利用大规模数据集,对所述特征提取网络模型进行预训练,并结合区域建议网络对所述特征提取网络模型的参数进行调整;
第二提取模块,用于:
利用预训练后的所述特征提取网络模型,在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征,并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中;
卷积计算模块,用于:
利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图;
目标跟踪模块,用于:
根据所述相似度得分图,将最大相似度得分值对应的相似度得分图确定为跟踪定位目标;
在所述上下文自注意力学习模块中,目标特征图表示为
其中,表示实数矩阵,表示目标特征图的高度,表示目标特征图的宽度,表示目标特征图的通道数;
目标特征图的键表示为:
目标特征图的查询表示为:
目标特征图的值表示为:
其中,表示卷积操作,表示所输入的嵌入矩阵;
所述上下文自注意力学习模块还用于:
对所有相邻的键进行卷积,用于使得键有效捕获相邻键之间的上下文信息,对应的公式表示为:
其中,表示卷积权重,表示局部相邻键之间的静态上下文信息;
将局部相邻键之间的静态上下文信息与查询进行拼接,通过两个连续的卷积得到注意力矩阵,对应的公式表示为:
其中,表示拼接操作,表示带有ReLU激活函数的权重系数,表示不带有激活函数的权重系数,表示基于查询特征与全局上下文消息的键特征在空间位置的注意力矩阵;
将基于查询特征与全局上下文消息的键特征在空间位置的注意力矩阵与自注意力机制中所有值进行聚集以得到目标特征图的上下文表示,对应的计算公式表示为:
将目标特征图的上下文表示与局部相邻键之间的静态上下文信息进行融合,以得到通过上下文自注意力学习模块后的特征图,对应的计算公式表示为:
其中,表示融合操作。
6.根据权利要求5所述的基于上下文自注意力学习深度网络的目标跟踪***,其特征在于,所述卷积计算模块用于:
利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图,对应的公式表示为:
其中,表示跟踪目标的分类特征图,表示模板分支的分类特征图,表示搜索分支的分类特征图,表示跟踪目标的回归特征图,表示模板分支的回归特征图,表示搜索分支的回归特征图,表示深度卷积计算。
7.根据权利要求6所述的基于上下文自注意力学习深度网络的目标跟踪***,其特征在于,所述目标跟踪***还用于:
将分类特征图与回归特征图分别进行加权求和,对应的公式表示为:
其中,表示目标特征分类分数特征图,表示第个卷积块分类特征图的深度卷积结果的权重,表示第个卷积块分类特征图的深度卷积结果,表示目标特征回归分数特征图,表示第个卷积块回归特征图的深度卷积结果的权重,表示第个卷积块回归特征图的深度卷积的结果。
8.根据权利要求7所述的基于上下文自注意力学习深度网络的目标跟踪***,其特征在于,目标特征分类分数特征图通过三个卷积块分别经过区域建议网络得到,且具有两个通道;
目标特征回归分数特征图通过三个卷积块分别经过区域建议网络得到,且具有四个通道。
CN202310372849.0A 2023-04-10 2023-04-10 基于上下文自注意力学习深度网络的目标跟踪方法与*** Active CN116109678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310372849.0A CN116109678B (zh) 2023-04-10 2023-04-10 基于上下文自注意力学习深度网络的目标跟踪方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310372849.0A CN116109678B (zh) 2023-04-10 2023-04-10 基于上下文自注意力学习深度网络的目标跟踪方法与***

Publications (2)

Publication Number Publication Date
CN116109678A true CN116109678A (zh) 2023-05-12
CN116109678B CN116109678B (zh) 2023-06-13

Family

ID=86262394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310372849.0A Active CN116109678B (zh) 2023-04-10 2023-04-10 基于上下文自注意力学习深度网络的目标跟踪方法与***

Country Status (1)

Country Link
CN (1) CN116109678B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433727A (zh) * 2023-06-13 2023-07-14 北京科技大学 一种基于阶段性持续学习的可伸缩单流追踪方法
CN117649582A (zh) * 2024-01-25 2024-03-05 南昌工程学院 基于级联注意力的单流单阶段网络目标跟踪方法与***
CN118096836A (zh) * 2024-04-26 2024-05-28 南昌工程学院 基于旋转等变网络与三重注意力机制目标跟踪方法与***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705588A (zh) * 2021-10-28 2021-11-26 南昌工程学院 基于卷积自注意力模块的孪生网络目标跟踪方法与***
US20220180517A1 (en) * 2020-12-03 2022-06-09 Ping An Technology (Shenzhen) Co., Ltd. Method, device, and computer program product for deep lesion tracker for monitoring lesions in four-dimensional longitudinal imaging
CN115205730A (zh) * 2022-06-10 2022-10-18 西安工业大学 一种结合特征增强与模板更新的目标跟踪方法
CN115375737A (zh) * 2022-10-25 2022-11-22 南昌工程学院 基于自适应时间与序列化时空特征的目标跟踪方法与***
CN115564801A (zh) * 2022-10-14 2023-01-03 长春理工大学 一种基于注意力的单目标跟踪方法
CN115880337A (zh) * 2023-02-16 2023-03-31 南昌工程学院 基于重参数卷积和特征过滤器的目标跟踪方法与***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220180517A1 (en) * 2020-12-03 2022-06-09 Ping An Technology (Shenzhen) Co., Ltd. Method, device, and computer program product for deep lesion tracker for monitoring lesions in four-dimensional longitudinal imaging
CN113705588A (zh) * 2021-10-28 2021-11-26 南昌工程学院 基于卷积自注意力模块的孪生网络目标跟踪方法与***
CN115205730A (zh) * 2022-06-10 2022-10-18 西安工业大学 一种结合特征增强与模板更新的目标跟踪方法
CN115564801A (zh) * 2022-10-14 2023-01-03 长春理工大学 一种基于注意力的单目标跟踪方法
CN115375737A (zh) * 2022-10-25 2022-11-22 南昌工程学院 基于自适应时间与序列化时空特征的目标跟踪方法与***
CN115880337A (zh) * 2023-02-16 2023-03-31 南昌工程学院 基于重参数卷积和特征过滤器的目标跟踪方法与***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MING GAO等: "Manifold Siamese Network: A Novel Visual Tracking ConvNet for Autonomous Vehicles", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS 》, vol. 21, no. 4, pages 1612 - 1623, XP011780778, DOI: 10.1109/TITS.2019.2930337 *
TIANLING BIAN等: "VTT: Long-term Visual Tracking with Transformers", 《2020 25TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》, pages 9585 - 9592 *
王军等: "基于孪生神经网络的目标跟踪算法综述", 《南昌工程学院学报》, vol. 40, no. 6, pages 90 - 99 *
董吉富等: "基于注意力机制的在线自适应孪生网络跟踪算法", 《激光与光电子学进展》, vol. 57, no. 02, pages 021510 - 1 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433727A (zh) * 2023-06-13 2023-07-14 北京科技大学 一种基于阶段性持续学习的可伸缩单流追踪方法
CN116433727B (zh) * 2023-06-13 2023-10-27 北京科技大学 一种基于阶段性持续学习的可伸缩单流追踪方法
CN117649582A (zh) * 2024-01-25 2024-03-05 南昌工程学院 基于级联注意力的单流单阶段网络目标跟踪方法与***
CN117649582B (zh) * 2024-01-25 2024-04-19 南昌工程学院 基于级联注意力的单流单阶段网络目标跟踪方法与***
CN118096836A (zh) * 2024-04-26 2024-05-28 南昌工程学院 基于旋转等变网络与三重注意力机制目标跟踪方法与***
CN118096836B (zh) * 2024-04-26 2024-06-21 南昌工程学院 基于旋转等变网络与三重注意力机制目标跟踪方法与***

Also Published As

Publication number Publication date
CN116109678B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN110287849B (zh) 一种适用于树莓派的轻量化深度网络图像目标检测方法
CN116109678B (zh) 基于上下文自注意力学习深度网络的目标跟踪方法与***
CN110674866B (zh) 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法
Guo et al. Deep learning for 3d point clouds: A survey
Zhou et al. Centerformer: Center-based transformer for 3d object detection
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN113673510B (zh) 一种结合特征点和锚框共同预测和回归的目标检测方法
CN116030097B (zh) 基于双重注意力特征融合网络的目标跟踪方法与***
CN108764244B (zh) 基于卷积神经网络和条件随机场的潜在目标区域检测方法
CN111797841B (zh) 一种基于深度残差网络的视觉显著性检测方法
CN115375737B (zh) 基于自适应时间与序列化时空特征的目标跟踪方法与***
WO2023030182A1 (zh) 图像生成方法及装置
CN117252904B (zh) 基于长程空间感知与通道增强的目标跟踪方法与***
He et al. Learning scene dynamics from point cloud sequences
Jemilda et al. Moving object detection and tracking using genetic algorithm enabled extreme learning machine
CN115880337B (zh) 基于重参数卷积和特征过滤器的目标跟踪方法与***
Manssor et al. Real-time human detection in thermal infrared imaging at night using enhanced Tiny-yolov3 network
Ward et al. RGB-D image-based object detection: from traditional methods to deep learning techniques
Zhu et al. Supplement and suppression: Both boundary and nonboundary are helpful for salient object detection
Keceli Viewpoint projection based deep feature learning for single and dyadic action recognition
Rao et al. PointGLR: Unsupervised structural representation learning of 3D point clouds
CN115049833A (zh) 一种基于局部特征增强和相似性度量的点云部件分割方法
CN110688512A (zh) 基于ptgan区域差距与深度神经网络的行人图像搜索算法
Hou et al. Fe-fusion-vpr: Attention-based multi-scale network architecture for visual place recognition by fusing frames and events
CN114241606A (zh) 一种基于自适应集学习预测的人物交互检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant