CN113705588B - 基于卷积自注意力模块的孪生网络目标跟踪方法与*** - Google Patents

基于卷积自注意力模块的孪生网络目标跟踪方法与*** Download PDF

Info

Publication number
CN113705588B
CN113705588B CN202111261942.1A CN202111261942A CN113705588B CN 113705588 B CN113705588 B CN 113705588B CN 202111261942 A CN202111261942 A CN 202111261942A CN 113705588 B CN113705588 B CN 113705588B
Authority
CN
China
Prior art keywords
target image
branch
image features
network model
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111261942.1A
Other languages
English (en)
Other versions
CN113705588A (zh
Inventor
王军
孟晨晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan Weilin Qinli Machinery Co ltd
Original Assignee
Nanchang Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Institute of Technology filed Critical Nanchang Institute of Technology
Priority to CN202111261942.1A priority Critical patent/CN113705588B/zh
Publication of CN113705588A publication Critical patent/CN113705588A/zh
Application granted granted Critical
Publication of CN113705588B publication Critical patent/CN113705588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于卷积自注意力模块的孪生网络目标跟踪方法与***,该方法包括:构建特征融合网络模型;通过卷积神经网络模型对模板分支上的目标图像特征以及搜索区域目标图像特征中的局部区域进行学习,以得到对应的局部语义信息,对局部语义信息进行聚合得到全局上下文相关信息;对特征融合网络模型进行预训练;利用预训练后的特征融合网络模型,在模板分支中提取目标图像特征以及搜索区域目标图像特征,并引入到带有锚点的区域建议网络的分类分支与回归分支中;并分别进行深度互相关卷积计算以得到相似度得分;对最大相似度得分的目标候选块进行目标跟踪。本发明可提高目标图像和搜索区域目标图像的全局匹配的准确性,实现更准确的跟踪。

Description

基于卷积自注意力模块的孪生网络目标跟踪方法与***
技术领域
本发明涉及计算机视觉与图像处理技术领域,特别涉及一种基于卷积自注意力模块的孪生网络目标跟踪方法与***。
背景技术
在计算机视觉与图像处理领域中,视觉跟踪在计算机视觉中有许多基础应用。例如,自动驾驶、视频监控、交通车辆监控以及人机交互等。因此,随着跟踪的实用性和实时性的提高,越来越多的跟踪相关应用在现实生活中变得越来越常见,这对于视频跟踪技术的研究也变得越来越有价值。
一般来说,由于外观变化、变形、快速运动以及遮挡等诸多原因,视觉跟踪仍然是一项具有挑战性的任务。近年来,基于卷积神经网络(CNN)的孪生网络***被广泛应用于视觉跟踪领域。具体的,将基于CNN模型的特征信息引入到模板和搜索分支中,通过互关操作得到的一个或多个响应图用于解码提取的特征信息。其中,典型的CNN模型包括AlexNet、VGG和ResNet等。目前,大多数CNN模型主要使用多个卷积算子(如3×3或5×5),可以有效地捕捉空间局部信息,从而建模图像内容的全局关系。
然而,该方法削弱了模型在处理复杂场景时获取重要全局上下文信息的能力,如目标外观变化和出视野等,导致目标漂移或跟踪失败。基于此,有必要解决现有技术中,部分视觉跟踪算法由于忽略了在连续帧时间维度中生成的上下文相关信息,导致丢失了大量的前景信息,且产生了冗余的背景信息,进而导致很难处理复杂外观变化所带来的影响。
发明内容
鉴于上述状况,有必要解决现有技术中,部分视觉跟踪算法由于忽略了在连续帧时间维度中生成的上下文相关信息,导致丢失了大量的前景信息,且产生了冗余的背景信息,进而导致很难处理复杂外观变化所带来影响的问题。
本发明实施例提供了一种基于卷积自注意力模块的孪生网络目标跟踪方法,其中,所述方法包括如下步骤:
步骤一:在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
步骤二:通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
步骤三:利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
步骤四:利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
步骤五:利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
步骤六:利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。
本发明提出的基于卷积自注意力模块的孪生网络目标跟踪方法,首先在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型,其中特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;然后,通过该多头自注意力模块通过全局自注意力的方式,对模板分支上的目标图像特征以及搜索区域目标图像特征中的特征图中的信息进行聚合,最后进行深度互相关卷积计算并实现目标跟踪。在本发明中,通过重构所得到的卷积自注意力模块,可增强给定的目标图像和搜索区域目标图像的全局上下文相关信息,从而提高给定的目标图像和搜索区域目标图像的全局匹配的准确性,最终实现更为准确地跟踪。
所述基于卷积自注意力模块的孪生网络目标跟踪方法,其中,在所述步骤五中,对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分的步骤中,相似度得分的公式表述为:
Figure 484334DEST_PATH_IMAGE001
其中,
Figure 446605DEST_PATH_IMAGE002
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值;
Figure 857995DEST_PATH_IMAGE003
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数,
Figure 889405DEST_PATH_IMAGE004
表示值
Figure 44443DEST_PATH_IMAGE005
的偏差,
Figure 985854DEST_PATH_IMAGE006
表示实数集,
Figure 446441DEST_PATH_IMAGE007
Figure 840513DEST_PATH_IMAGE008
Figure 923876DEST_PATH_IMAGE009
以及
Figure 454214DEST_PATH_IMAGE010
表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,
Figure 472986DEST_PATH_IMAGE011
分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
所述基于卷积自注意力模块的孪生网络目标跟踪方法,其中,
Figure 229720DEST_PATH_IMAGE002
为一个2k通道向量,在分类分支中,输出特征图有2k个通道,2k通道包括pos与neg,pos与neg分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块;
Figure 726561DEST_PATH_IMAGE003
为一个4k通道向量,在回归分支中,输出特征图有 4k 个通道,4k通道包括dx、dy、dw以及dh,dx、dy、dw以及dh分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的中心点的横坐标、纵坐标、锚点的宽以及锚点的高分别与与地面之间的距离。
所述基于卷积自注意力模块的孪生网络目标跟踪方法,其中,模板分支上的所述目标图像特征以及搜索分支上的搜索区域目标图像特征输入的2D特征映射为
Figure 767198DEST_PATH_IMAGE012
Figure 425712DEST_PATH_IMAGE013
分别表示通道数、高度和宽度,
Figure 59956DEST_PATH_IMAGE014
表示实数;
在所述步骤一中,所述多头自注意力模块的生成方法包括如下步骤:
在所述模板分支与所述搜索分支上分别应用卷积层的嵌入矩阵进行变换,以分别生成查询、键以及值;
通过所述查询以及所述键构建得到局部关系矩阵;
根据引入的相对位置编码对所述局部关系矩阵进行增强以得到增强的局部关系矩阵;
根据所述增强的局部关系矩阵,通过softmax运算以得到相似局部相对矩阵,并将所述相似局部相对矩阵以及多个值聚合起来,通过局部矩阵乘法计算得到聚合后的特征图;
根据所述聚合后的特征图计算得到所述多头注意力模块。
所述基于卷积自注意力模块的孪生网络目标跟踪方法,其中,所述多头自注意力模块的运算方法具体包括如下步骤:
在所述模板分支与所述搜索分支上分别应用具有1×1核卷积层的嵌入矩阵
Figure 970274DEST_PATH_IMAGE015
进行变换,以分别生成查询
Figure 740784DEST_PATH_IMAGE016
,键
Figure 960413DEST_PATH_IMAGE017
和值
Figure 816374DEST_PATH_IMAGE018
;其中,
Figure 530383DEST_PATH_IMAGE019
的尺寸大小为
Figure 155399DEST_PATH_IMAGE020
Figure 421296DEST_PATH_IMAGE021
表示减少的信道数,
Figure 889186DEST_PATH_IMAGE022
分别为所输入的三个不同的嵌入矩阵;
通过查询
Figure 531520DEST_PATH_IMAGE023
与键
Figure 883479DEST_PATH_IMAGE024
构建得到局部关系矩阵
Figure 585856DEST_PATH_IMAGE025
,局部关系矩阵
Figure 150830DEST_PATH_IMAGE025
的计算公式为:
Figure 455909DEST_PATH_IMAGE026
其中,
Figure 55518DEST_PATH_IMAGE027
Figure 538583DEST_PATH_IMAGE028
表示多头自注意力模块的头数,
Figure 590852DEST_PATH_IMAGE029
表示目标图像特征和搜索区域目标图像特征输入的2D特征图上相对位置区域的高度和宽度的大小,
Figure 574989DEST_PATH_IMAGE030
为局部矩阵乘法;
根据引入的相对位置编码对所述局部关系矩阵
Figure 153738DEST_PATH_IMAGE025
进行增强以得到增强的局部关系矩阵
Figure 932338DEST_PATH_IMAGE031
,所述增强的局部关系矩阵
Figure 612849DEST_PATH_IMAGE031
的计算公式为:
Figure 135097DEST_PATH_IMAGE032
其中,
Figure 568353DEST_PATH_IMAGE033
为所述相对位置编码,相对位置编码
Figure 517854DEST_PATH_IMAGE033
的大小为
Figure 544716DEST_PATH_IMAGE034
Figure 746021DEST_PATH_IMAGE035
表示逐元素求和;
根据所述增强的局部关系矩阵
Figure 909149DEST_PATH_IMAGE031
,通过softmax运算以得到相似局部相对矩阵
Figure 419765DEST_PATH_IMAGE036
,并将所述相似局部相对矩阵
Figure 933923DEST_PATH_IMAGE036
以及多个值
Figure 63553DEST_PATH_IMAGE037
聚合起来,通过局部矩阵乘法计算得到聚合后的特征图
Figure 971202DEST_PATH_IMAGE038
,对应的计算公式为;
Figure 528086DEST_PATH_IMAGE039
根据所述聚合后的特征图
Figure 654173DEST_PATH_IMAGE038
计算得到所述多头注意力模块,其中所述多头注意力模块的运算方法表示为:
Figure 321915DEST_PATH_IMAGE040
其中,
Figure 69422DEST_PATH_IMAGE041
Figure 62786DEST_PATH_IMAGE042
Figure 285957DEST_PATH_IMAGE043
Figure 616444DEST_PATH_IMAGE044
均为参数矩阵,
Figure 874250DEST_PATH_IMAGE045
的默认参数为32,
Figure 648302DEST_PATH_IMAGE046
表示头数与通道数,
Figure 93190DEST_PATH_IMAGE047
表示所述多头注意力模块的输出结果,
Figure 368314DEST_PATH_IMAGE048
表示聚合
Figure 605260DEST_PATH_IMAGE049
个头所输出的特征图Y的结果,
Figure 674847DEST_PATH_IMAGE050
表示所有头串联聚合后的特征图,
Figure 747977DEST_PATH_IMAGE051
表示最终输出的所有头串联聚合后的特征图的结果。
本发明提出一种基于卷积自注意力模块的孪生网络目标跟踪***,其中,所述***包括:
构建模块,所述构建模块用于在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
学习模块,用于通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
预训练模块,用于利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
提取模块,用于利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
计算模块,用于利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
跟踪模块,用于利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。
所述基于卷积自注意力模块的孪生网络目标跟踪***,其中,所述计算模块用于:
对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算以得到对应的相似度得分;
其中,所述相似度得分的公式表述为:
Figure 561212DEST_PATH_IMAGE001
其中,
Figure 528031DEST_PATH_IMAGE002
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值;
Figure 893153DEST_PATH_IMAGE003
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数,
Figure 578212DEST_PATH_IMAGE004
表示值
Figure 801996DEST_PATH_IMAGE005
的偏差,
Figure 888900DEST_PATH_IMAGE006
表示实数集,
Figure 300290DEST_PATH_IMAGE007
Figure 597279DEST_PATH_IMAGE008
Figure 486738DEST_PATH_IMAGE009
以及
Figure 303515DEST_PATH_IMAGE010
表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,
Figure 885806DEST_PATH_IMAGE011
分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
所述基于卷积自注意力模块的孪生网络目标跟踪***,其中,
Figure 279879DEST_PATH_IMAGE002
为一个2k通道向量,在分类分支中,输出特征图有2k个通道,2k通道包括pos与neg,pos与neg分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块;
Figure 363241DEST_PATH_IMAGE003
为一个4k通道向量,4k通道包括dx、dy、dw以及dh,在回归分支中,输出特征图有 4k 个通道,dx、dy、dw以及dh分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的横坐标、纵坐标、锚点的宽以及锚点的高分别与与地面之间的距离。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明第一实施例提出的基于卷积自注意力模块的孪生网络目标跟踪方法的流程图;
图2为本发明第一实施例提出的基于卷积自注意力模块的孪生网络目标跟踪框架的结构图;
图3为本发明第一实施例中多头自注意力模块的原理图;
图4为本发明第二实施例提出的基于卷积自注意力模块的孪生网络目标跟踪***的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1至图3,本发明第一实施例提出一种基于卷积自注意力模块的孪生网络目标跟踪方法,其中,所述方法包括如下步骤:
S101,在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型。
在本步骤中,重新构建所得到的特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征。在此需要说明的是,如图2所示,特征融合网络模型(在图2中对应为卷积自注意力模块)的第一层(卷积层1,CONV1)与第二层(卷积层2,CONV2)采用的是卷积神经网络模型中的深度残差网络ResNet-22,特征融合网络模型的第三层(包括卷积层3_1、卷积层3_2以及卷积层3_3)采用的是多头自注意力模块。在此还需要指出的是,特征融合网络模型由带有多头自注意力模块的残差网络(ResNet)瓶颈块组成。在残差网络的最后一阶段瓶颈块中,通过利用多头自注意力模块的全局自注意力方式,以消除堆叠多层空间(3×3)卷积算子的局限性。作为补充的,重新构建之后所得到的特征融合网络模型,所包含的卷积神经网络模型以及多头自注意力模块,可统称为卷积自注意力模块。
S102,通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息。
在本步骤中,上述被重新构建得到的特征融合网络模型,利用多头自注意力模块的全局自注意力方式可处理并聚合卷积特征图(包括目标图像特征以及搜索区域目标图像特征)中所包含的信息。其中,特征融合网络模型先利用卷积神经网络模型,从给定的目标图像以及搜索区域目标图像中有效学习局部区域中对应的局部语义信息。然后,通过多头自注意力模块的全局自注意力方式对所捕获的特征图中包含的信息进行处理和聚合。
也即,特征融合网络模型直接在二维特征图上使用卷积神经网络模型以及多头自注意力模块,基于孤立的查询(queries)和每个空间位置上的键对(keys)得到注意矩阵。其中,该特征融合网络模型可增强给定的目标图像与搜索区域目标图像之间的全局上下文相关信息,从而提高给定的目标图像与搜索区域目标图像之间的全局匹配的准确性。
其中,模板分支上的所述目标图像特征以及搜索分支上的搜索区域目标图像特征输入的2D特征映射为
Figure 159159DEST_PATH_IMAGE012
Figure 177930DEST_PATH_IMAGE013
分别表示通道数、高度和宽度,
Figure 934665DEST_PATH_IMAGE014
表示实数。
具体而言,如图3所示,从图3中可以看出本发明中多头自注意力模块的生成原理。在本实施例中,该多头自注意力模块的生成方法包括如下步骤:
S1021,在所述模板分支与所述搜索分支上分别应用卷积层的嵌入矩阵进行变换,以分别生成查询、键以及值。
在模板分支与搜索分支上分别应用具有1×1核卷积层的嵌入矩阵
Figure 165926DEST_PATH_IMAGE015
进行变换,以分别生成查询
Figure 206563DEST_PATH_IMAGE016
,键
Figure 130657DEST_PATH_IMAGE017
和值
Figure 764901DEST_PATH_IMAGE018
其中,
Figure 675219DEST_PATH_IMAGE019
的尺寸大小为
Figure 180150DEST_PATH_IMAGE020
Figure 665358DEST_PATH_IMAGE021
表示减少的信道数,
Figure 521318DEST_PATH_IMAGE022
分别为所输入的三个不同的嵌入矩阵。
S1022,通过所述查询以及所述键构建得到局部关系矩阵。
在本步骤中,通过查询
Figure 359961DEST_PATH_IMAGE023
与键
Figure 863274DEST_PATH_IMAGE024
构建得到局部关系矩阵
Figure 129170DEST_PATH_IMAGE025
,局部关系矩阵
Figure 597060DEST_PATH_IMAGE025
的计算公式为:
Figure 239394DEST_PATH_IMAGE026
其中,
Figure 984496DEST_PATH_IMAGE052
Figure 296660DEST_PATH_IMAGE028
表示多头自注意力模块的头数,
Figure 127213DEST_PATH_IMAGE029
表示目标图像特征和搜索区域目标图像特征输入的2D特征图上相对位置区域的高度和宽度的大小,
Figure 166713DEST_PATH_IMAGE030
为局部矩阵乘法。
S1023,根据引入的相对位置编码对所述局部关系矩阵进行增强以得到增强的局部关系矩阵。
具体的,根据引入的相对位置编码对所述局部关系矩阵
Figure 766322DEST_PATH_IMAGE025
进行增强以得到增强的局部关系矩阵
Figure 639600DEST_PATH_IMAGE031
,所述增强的局部关系矩阵
Figure 567236DEST_PATH_IMAGE031
的计算公式为:
Figure 551372DEST_PATH_IMAGE032
其中,
Figure 130121DEST_PATH_IMAGE033
为所述相对位置编码,相对位置编码
Figure 908721DEST_PATH_IMAGE033
的大小为
Figure 713866DEST_PATH_IMAGE034
Figure 111480DEST_PATH_IMAGE035
表示逐元素求和,
Figure 685681DEST_PATH_IMAGE053
Figure 759817DEST_PATH_IMAGE054
分别表示特征图上相对位置编码的宽和高。
S1024,根据所述增强的局部关系矩阵,通过softmax运算以得到相似局部相对矩阵,并将所述相似局部相对矩阵以及多个值聚合起来,通过局部矩阵乘法计算得到聚合后的特征图。
具体的,根据增强的局部关系矩阵
Figure 786678DEST_PATH_IMAGE031
,通过softmax运算以得到相似局部相对矩阵
Figure 112617DEST_PATH_IMAGE036
,并将所述相似局部相对矩阵
Figure 148182DEST_PATH_IMAGE036
以及多个值
Figure 534164DEST_PATH_IMAGE037
聚合起来,通过局部矩阵乘法计算得到聚合后的特征图
Figure 172956DEST_PATH_IMAGE038
在本步骤中,对应的计算公式为;
Figure 302586DEST_PATH_IMAGE055
S1025,根据所述聚合后的特征图计算得到所述多头注意力模块。
在本实施例中,根据聚合后的特征图
Figure 320220DEST_PATH_IMAGE038
计算得到多头注意力模块。其中,所述多头注意力模块的运算方法表示为:
Figure 18049DEST_PATH_IMAGE040
其中,
Figure 753924DEST_PATH_IMAGE041
Figure 280720DEST_PATH_IMAGE042
Figure 684020DEST_PATH_IMAGE043
Figure 411804DEST_PATH_IMAGE044
均为参数矩阵,
Figure 510341DEST_PATH_IMAGE045
的默认参数为32,
Figure 981774DEST_PATH_IMAGE046
表示头数与通道数,
Figure 98635DEST_PATH_IMAGE047
表示所述多头注意力模块的输出结果,
Figure 997321DEST_PATH_IMAGE048
表示聚合
Figure 707788DEST_PATH_IMAGE049
个头所输出的特征图Y的结果,
Figure 858277DEST_PATH_IMAGE050
表示所有头串联聚合后的特征图,
Figure 705011DEST_PATH_IMAGE051
表示最终输出的所有头串联聚合后的特征图的结果。
在此需要补充说明的是,在本实施例中,
Figure 40177DEST_PATH_IMAGE056
Figure 96995DEST_PATH_IMAGE057
S103,利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整。
S104,利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中。
S105,利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积。
在本步骤中,对提取后的目标图像特征以及搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分。其中,相似度得分的公式表述为:
Figure 175809DEST_PATH_IMAGE001
其中,
Figure 9205DEST_PATH_IMAGE002
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值;
Figure 984115DEST_PATH_IMAGE003
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数,
Figure 793808DEST_PATH_IMAGE004
表示值
Figure 410734DEST_PATH_IMAGE005
的偏差,
Figure 232059DEST_PATH_IMAGE006
表示实数集,
Figure 518815DEST_PATH_IMAGE007
Figure 425591DEST_PATH_IMAGE008
Figure 705263DEST_PATH_IMAGE009
以及
Figure 646674DEST_PATH_IMAGE010
表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,
Figure 228965DEST_PATH_IMAGE011
分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
需要补充说明的是,在本实施例中,
Figure 763983DEST_PATH_IMAGE002
为一个2k通道向量,在分类分支中,输出特征图有2k个通道,也即2k通道包括pos与neg。其中,pos与neg分别表示提取后的目标图像特征与搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块。
与此同时,
Figure 457132DEST_PATH_IMAGE003
为一个4k通道向量,在回归分支中,输出特征图有 4k 个通道,4k通道包括dx、dy、dw以及dh。也即dx、dy、dw以及dh分别表示提取后的目标图像特征与搜索区域目标图像特征上相应位置的每个锚点的中心点的横坐标、纵坐标、锚点的宽以及锚点的高分别与地面之间的距离。
S106,利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。
本发明提出的基于卷积自注意力模块的孪生网络目标跟踪方法,首先在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;然后,通过该多头自注意力模块通过全局自注意力的方式,对模板分支上的目标图像特征以及搜索区域目标图像特征中的特征图中的信息进行聚合,最后进行深度互相关卷积计算并实现目标跟踪。在本发明中,通过重构所得到的卷积自注意力模块,可增强给定的目标图像和搜索区域目标图像的全局上下文相关信息,从而提高给定的目标图像和搜索区域目标图像的全局匹配的准确性,最终实现更为准确地跟踪。
请参阅图4,本发明第二实施例提出一种基于卷积自注意力模块的孪生网络目标跟踪***,其中,所述***包括:
构建模块,所述构建模块用于在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
学习模块,用于通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
预训练模块,用于利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
提取模块,用于利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
计算模块,用于利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
跟踪模块,用于利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,所述方法包括如下步骤:
步骤一:在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
步骤二:通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
步骤三:利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
步骤四:利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
步骤五:利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
步骤六:利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪;
其中,所述多头自注意力模块的运算方法具体包括如下步骤:
在模板分支与搜索分支上分别应用具有1×1核卷积层的嵌入矩阵
Figure 67608DEST_PATH_IMAGE001
进行变换,以分别生成查询
Figure 515907DEST_PATH_IMAGE002
,键
Figure 826803DEST_PATH_IMAGE003
和值
Figure 18749DEST_PATH_IMAGE004
其中,
Figure 567542DEST_PATH_IMAGE005
的尺寸大小为
Figure 671896DEST_PATH_IMAGE006
Figure 735667DEST_PATH_IMAGE007
表示减少的信道数,
Figure 465725DEST_PATH_IMAGE008
分别为所输入的三个不同的嵌入矩阵;
通过查询
Figure 869025DEST_PATH_IMAGE009
与键
Figure 393547DEST_PATH_IMAGE010
构建得到局部关系矩阵
Figure 695347DEST_PATH_IMAGE011
,局部关系矩阵
Figure 166779DEST_PATH_IMAGE011
的计算公式为:
Figure 221323DEST_PATH_IMAGE012
其中,
Figure 447905DEST_PATH_IMAGE013
Figure 220689DEST_PATH_IMAGE014
表示多头自注意力模块的头数,
Figure 230233DEST_PATH_IMAGE015
表示目标图像特征和搜索区域目标图像特征输入的2D特征图上相对位置区域的高度和宽度的大小,
Figure 418245DEST_PATH_IMAGE016
为局部矩阵乘法;
根据引入的相对位置编码对所述局部关系矩阵
Figure 284569DEST_PATH_IMAGE011
进行增强以得到增强的局部关系矩阵
Figure 747912DEST_PATH_IMAGE017
,所述增强的局部关系矩阵
Figure 623464DEST_PATH_IMAGE017
的计算公式为:
Figure 652600DEST_PATH_IMAGE018
其中,
Figure 158667DEST_PATH_IMAGE019
为所述相对位置编码,相对位置编码
Figure 391197DEST_PATH_IMAGE019
的大小为
Figure 70440DEST_PATH_IMAGE020
Figure 954082DEST_PATH_IMAGE021
表示逐元素求和;
根据增强的局部关系矩阵
Figure 631051DEST_PATH_IMAGE022
,通过softmax运算以得到相似局部相对矩阵
Figure 865723DEST_PATH_IMAGE023
,并将所述相似局部相对矩阵
Figure 568231DEST_PATH_IMAGE023
以及多个值
Figure 775222DEST_PATH_IMAGE024
聚合起来,通过局部矩阵乘法计算得到聚合后的特征图
Figure 685409DEST_PATH_IMAGE025
,对应的计算公式为;
Figure 141798DEST_PATH_IMAGE026
根据聚合后的特征图
Figure 100527DEST_PATH_IMAGE025
计算得到多头自注意力模块;其中,所述多头自注意力模块的运算方法表示为:
Figure 693182DEST_PATH_IMAGE027
其中,
Figure 525003DEST_PATH_IMAGE028
Figure 468688DEST_PATH_IMAGE029
Figure 231108DEST_PATH_IMAGE030
Figure 209428DEST_PATH_IMAGE031
均为参数矩阵,
Figure 930260DEST_PATH_IMAGE032
的默认参数为32,
Figure 564503DEST_PATH_IMAGE033
表示头数与通道数,
Figure 409575DEST_PATH_IMAGE034
表示所述多头自注意力模块的输出结果,
Figure 507981DEST_PATH_IMAGE035
表示聚合
Figure 602976DEST_PATH_IMAGE036
个头所输出的特征图Y的结果,
Figure 521253DEST_PATH_IMAGE037
表示所有头串联聚合后的特征图,
Figure 687793DEST_PATH_IMAGE038
表示最终输出的所有头串联聚合后的特征图的结果。
2.根据权利要求1所述的基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,在所述步骤五中,对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分的步骤中,相似度得分的公式表述为:
Figure 312809DEST_PATH_IMAGE039
其中,
Figure 391755DEST_PATH_IMAGE040
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值;
Figure 797328DEST_PATH_IMAGE041
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数,
Figure 501979DEST_PATH_IMAGE042
表示值
Figure 247081DEST_PATH_IMAGE043
的偏差,
Figure 11775DEST_PATH_IMAGE044
表示实数集,
Figure 389798DEST_PATH_IMAGE045
Figure 835822DEST_PATH_IMAGE046
Figure 497748DEST_PATH_IMAGE047
以及
Figure 167764DEST_PATH_IMAGE048
表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,
Figure 485612DEST_PATH_IMAGE049
分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
3.根据权利要求2所述的基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,
Figure 266487DEST_PATH_IMAGE040
为一个2k通道向量,在分类分支中,输出特征图有2k个通道,2k通道包括pos与neg,pos与neg分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块;
Figure 799230DEST_PATH_IMAGE041
为一个4k通道向量,在回归分支中,输出特征图有 4k 个通道,4k通道包括dx、dy、dw以及dh,dx、dy、dw以及dh分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的中心点的横坐标、纵坐标、锚点的宽以及锚点的高分别与地面之间的距离。
4.根据权利要求2所述的基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,模板分支上的所述目标图像特征以及搜索分支上的搜索区域目标图像特征输入的2D特征映射为
Figure 843410DEST_PATH_IMAGE050
Figure 445292DEST_PATH_IMAGE051
分别表示通道数、高度和宽度,
Figure 295437DEST_PATH_IMAGE052
表示实数;
在所述步骤一中,所述多头自注意力模块的生成方法包括如下步骤:
在所述模板分支与所述搜索分支上分别应用卷积层的嵌入矩阵进行变换,以分别生成查询、键以及值;
通过所述查询以及所述键构建得到局部关系矩阵;
根据引入的相对位置编码对所述局部关系矩阵进行增强以得到增强的局部关系矩阵;
根据所述增强的局部关系矩阵,通过softmax运算以得到相似局部相对矩阵,并将所述相似局部相对矩阵以及多个值聚合起来,通过局部矩阵乘法计算得到聚合后的特征图;
根据所述聚合后的特征图计算得到所述多头自注意力模块。
5.一种基于卷积自注意力模块的孪生网络目标跟踪***,其特征在于,所述***包括:
构建模块,所述构建模块用于在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
学习模块,用于通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
预训练模块,用于利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
提取模块,用于利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
计算模块,用于利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
跟踪模块,用于利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪;
其中,所述多头自注意力模块的运算方法具体包括如下步骤:
在模板分支与搜索分支上分别应用具有1×1核卷积层的嵌入矩阵
Figure 869637DEST_PATH_IMAGE053
进行变换,以分别生成查询
Figure 881456DEST_PATH_IMAGE054
,键
Figure 718437DEST_PATH_IMAGE055
和值
Figure 106693DEST_PATH_IMAGE056
其中,
Figure 535401DEST_PATH_IMAGE005
的尺寸大小为
Figure 983699DEST_PATH_IMAGE057
Figure 763437DEST_PATH_IMAGE058
表示减少的信道数,
Figure 689804DEST_PATH_IMAGE008
分别为所输入的三个不同的嵌入矩阵;
通过查询
Figure 786067DEST_PATH_IMAGE009
与键
Figure 608530DEST_PATH_IMAGE010
构建得到局部关系矩阵
Figure 406722DEST_PATH_IMAGE011
,局部关系矩阵
Figure 402359DEST_PATH_IMAGE011
的计算公式为:
Figure 336817DEST_PATH_IMAGE012
其中,
Figure 330181DEST_PATH_IMAGE059
Figure 631981DEST_PATH_IMAGE014
表示多头自注意力模块的头数,
Figure 900151DEST_PATH_IMAGE060
表示目标图像特征和搜索区域目标图像特征输入的2D特征图上相对位置区域的高度和宽度的大小,
Figure 157957DEST_PATH_IMAGE016
为局部矩阵乘法;
根据引入的相对位置编码对所述局部关系矩阵
Figure 384539DEST_PATH_IMAGE011
进行增强以得到增强的局部关系矩阵
Figure 891744DEST_PATH_IMAGE017
,所述增强的局部关系矩阵
Figure 166867DEST_PATH_IMAGE017
的计算公式为:
Figure 92229DEST_PATH_IMAGE018
其中,
Figure 224133DEST_PATH_IMAGE019
为所述相对位置编码,相对位置编码
Figure 687476DEST_PATH_IMAGE019
的大小为
Figure 297448DEST_PATH_IMAGE020
Figure 592164DEST_PATH_IMAGE021
表示逐元素求和;
根据增强的局部关系矩阵
Figure 832652DEST_PATH_IMAGE022
,通过softmax运算以得到相似局部相对矩阵
Figure 327831DEST_PATH_IMAGE023
,并将所述相似局部相对矩阵
Figure 7074DEST_PATH_IMAGE023
以及多个值
Figure 93979DEST_PATH_IMAGE024
聚合起来,通过局部矩阵乘法计算得到聚合后的特征图
Figure 567685DEST_PATH_IMAGE025
,对应的计算公式为;
Figure 802357DEST_PATH_IMAGE061
根据聚合后的特征图
Figure 957395DEST_PATH_IMAGE025
计算得到多头自注意力模块;其中,所述多头自注意力模块的运算方法表示为:
Figure 711856DEST_PATH_IMAGE027
其中,
Figure 356464DEST_PATH_IMAGE062
Figure 812853DEST_PATH_IMAGE063
Figure 771582DEST_PATH_IMAGE030
Figure 895395DEST_PATH_IMAGE031
均为参数矩阵,
Figure 461637DEST_PATH_IMAGE032
的默认参数为32,
Figure 608585DEST_PATH_IMAGE033
表示头数与通道数,
Figure 167742DEST_PATH_IMAGE034
表示所述多头自注意力模块的输出结果,
Figure 880483DEST_PATH_IMAGE035
表示聚合
Figure 70156DEST_PATH_IMAGE036
个头所输出的特征图Y的结果,
Figure 501137DEST_PATH_IMAGE064
表示所有头串联聚合后的特征图,
Figure 614718DEST_PATH_IMAGE038
表示最终输出的所有头串联聚合后的特征图的结果。
6.根据权利要求5所述的基于卷积自注意力模块的孪生网络目标跟踪***,其特征在于,所述计算模块用于:
对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算以得到对应的相似度得分;
其中,所述相似度得分的公式表述为:
Figure 181966DEST_PATH_IMAGE039
其中,
Figure 542540DEST_PATH_IMAGE040
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值;
Figure 726396DEST_PATH_IMAGE041
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数,
Figure 361777DEST_PATH_IMAGE042
表示值
Figure 252373DEST_PATH_IMAGE043
的偏差,
Figure 351826DEST_PATH_IMAGE044
表示实数集,
Figure 757400DEST_PATH_IMAGE045
Figure 665313DEST_PATH_IMAGE046
Figure 207153DEST_PATH_IMAGE047
以及
Figure 971846DEST_PATH_IMAGE065
表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,
Figure 802399DEST_PATH_IMAGE049
分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
7.根据权利要求6所述的基于卷积自注意力模块的孪生网络目标跟踪***,其特征在于,
Figure 530315DEST_PATH_IMAGE040
为一个2k通道向量,在分类分支中,输出特征图有2k个通道,2k通道包括pos与neg,pos与neg分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块;
Figure 457819DEST_PATH_IMAGE041
为一个4k通道向量,在回归分支中,输出特征图有 4k 个通道,4k通道包括dx、dy、dw以及dh,dx、dy、dw以及dh分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的中心点的横坐标、纵坐标、锚点的宽以及锚点的高分别与地面之间的距离。
CN202111261942.1A 2021-10-28 2021-10-28 基于卷积自注意力模块的孪生网络目标跟踪方法与*** Active CN113705588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111261942.1A CN113705588B (zh) 2021-10-28 2021-10-28 基于卷积自注意力模块的孪生网络目标跟踪方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111261942.1A CN113705588B (zh) 2021-10-28 2021-10-28 基于卷积自注意力模块的孪生网络目标跟踪方法与***

Publications (2)

Publication Number Publication Date
CN113705588A CN113705588A (zh) 2021-11-26
CN113705588B true CN113705588B (zh) 2022-01-25

Family

ID=78647398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111261942.1A Active CN113705588B (zh) 2021-10-28 2021-10-28 基于卷积自注意力模块的孪生网络目标跟踪方法与***

Country Status (1)

Country Link
CN (1) CN113705588B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114119669A (zh) * 2021-11-30 2022-03-01 南昌工程学院 一种基于Shuffle注意力的图匹配目标跟踪方法与***
CN114359717B (zh) * 2021-12-17 2023-04-25 华南理工大学 基于多视角相关性深度学习的车辆损伤识别方法
CN114581796B (zh) * 2022-01-19 2024-04-02 上海土蜂科技有限公司 目标物跟踪***、方法及其计算机装置
CN114821390B (zh) * 2022-03-17 2024-02-23 齐鲁工业大学 基于注意力和关系检测的孪生网络目标跟踪方法及***
CN115169530B (zh) * 2022-06-29 2023-09-26 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和可读存储介质
CN115063445B (zh) * 2022-08-18 2022-11-08 南昌工程学院 基于多尺度层次化特征表示的目标跟踪方法与***
CN115272419B (zh) * 2022-09-27 2022-12-09 南昌工程学院 基于混合卷积与自注意力的聚合网络目标跟踪方法与***
CN115880337B (zh) * 2023-02-16 2023-05-30 南昌工程学院 基于重参数卷积和特征过滤器的目标跟踪方法与***
CN116030097B (zh) * 2023-02-28 2023-05-30 南昌工程学院 基于双重注意力特征融合网络的目标跟踪方法与***
CN116069973B (zh) * 2023-04-04 2023-06-06 石家庄铁道大学 一种基于语义自挖掘的视频摘要生成方法
CN116109678B (zh) * 2023-04-10 2023-06-13 南昌工程学院 基于上下文自注意力学习深度网络的目标跟踪方法与***
CN116152298B (zh) * 2023-04-17 2023-08-29 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116664624B (zh) * 2023-06-01 2023-10-27 中国石油大学(华东) 基于解耦分类与回归特征的目标跟踪方法及***
CN116701695B (zh) * 2023-06-01 2024-01-30 中国石油大学(华东) 一种级联角点特征与孪生网络的图像检索方法及***
CN117056874A (zh) * 2023-08-17 2023-11-14 国网四川省电力公司营销服务中心 一种基于深度孪生自回归网络的无监督窃电检测方法
CN117252904B (zh) * 2023-11-15 2024-02-09 南昌工程学院 基于长程空间感知与通道增强的目标跟踪方法与***
CN117274883B (zh) * 2023-11-20 2024-01-26 南昌工程学院 基于多头注意力优化特征融合网络的目标跟踪方法与***
CN117333515B (zh) * 2023-12-01 2024-02-09 南昌工程学院 基于区域感知注意力的目标跟踪方法与***
CN118015048A (zh) * 2024-04-09 2024-05-10 南昌工程学院 基于残差网络和群体混合注意力的目标跟踪方法与***
CN118096836B (zh) * 2024-04-26 2024-06-21 南昌工程学院 基于旋转等变网络与三重注意力机制目标跟踪方法与***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161311A (zh) * 2019-12-09 2020-05-15 中车工业研究院有限公司 一种基于深度学习的视觉多目标跟踪方法及装置
CN113256677A (zh) * 2021-04-16 2021-08-13 浙江工业大学 一种图注意力视觉目标跟踪方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3637303B1 (en) * 2018-10-09 2024-02-14 Naver Corporation Methods for generating a base of training images, for training a cnn and for detecting a poi change in a pair of inputted poi images using said cnn
CN111192292B (zh) * 2019-12-27 2023-04-28 深圳大学 基于注意力机制与孪生网络的目标跟踪方法及相关设备
KR20210116966A (ko) * 2020-03-18 2021-09-28 삼성전자주식회사 타겟 트래킹 방법 및 장치
CN112164094A (zh) * 2020-09-22 2021-01-01 江南大学 一种基于孪生网络的快速视频目标跟踪方法
CN113283407A (zh) * 2021-07-22 2021-08-20 南昌工程学院 一种基于通道与空间注意力机制的孪生网络目标跟踪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161311A (zh) * 2019-12-09 2020-05-15 中车工业研究院有限公司 一种基于深度学习的视觉多目标跟踪方法及装置
CN113256677A (zh) * 2021-04-16 2021-08-13 浙江工业大学 一种图注意力视觉目标跟踪方法

Also Published As

Publication number Publication date
CN113705588A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN113705588B (zh) 基于卷积自注意力模块的孪生网络目标跟踪方法与***
Melekhov et al. Dgc-net: Dense geometric correspondence network
CN109840556B (zh) 一种基于孪生网络的图像分类识别方法
CN110929736B (zh) 多特征级联rgb-d显著性目标检测方法
CN106845341B (zh) 一种基于虚拟号牌的无牌车辆识别方法
CN115063445B (zh) 基于多尺度层次化特征表示的目标跟踪方法与***
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN113516133B (zh) 一种多模态图像分类方法及***
CN112560966B (zh) 基于散射图卷积网络的极化sar图像分类方法、介质及设备
CN110738663A (zh) 双域适应模块金字塔型网络及无监督域适应图像分割方法
CN115880337B (zh) 基于重参数卷积和特征过滤器的目标跟踪方法与***
CN116109678B (zh) 基于上下文自注意力学习深度网络的目标跟踪方法与***
WO2021062050A1 (en) Icospherical gauge convolutional neural network
CN117274883B (zh) 基于多头注意力优化特征融合网络的目标跟踪方法与***
Ahmad et al. 3D capsule networks for object classification from 3D model data
Sicre et al. Discriminative part model for visual recognition
CN114565789B (zh) 一种基于集合预测的文本检测方法、***、装置及介质
Salem et al. Semantic image inpainting using self-learning encoder-decoder and adversarial loss
CN110570402B (zh) 基于边界感知神经网络的双目显著物体检测方法
CN109670506A (zh) 基于克罗内克卷积的场景分割方法和***
CN117237623B (zh) 一种无人机遥感图像语义分割方法及***
CN115631513B (zh) 基于Transformer的多尺度行人重识别方法
Guo et al. Efficient convolutional networks learning through irregular convolutional kernels
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法
CN108596034B (zh) 一种基于目标中心编码外观模型的行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240108

Address after: No. 5, 1st Street, Niulanwei Road, Da Tian Tian Tian, Luocun Wuzhuang, Shishan Town, Nanhai District, Foshan City, Guangdong Province, 528200

Patentee after: Foshan Weilin Qinli Machinery Co.,Ltd.

Address before: 330099 No.289 Tianxiang Avenue, high tech Zone, Nanchang City, Jiangxi Province

Patentee before: NANCHANG INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right