CN113327226A

CN113327226A - 目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN113327226A
Application number: CN202110496899.0A
Authority: CN
Inventors: 李建强; 谢海华; 刘冠杰; 张磊
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-08-31
Anticipated expiration: 2041-05-07
Also published as: CN113327226B

Abstract

本发明涉及一种目标检测方法、装置、电子设备及存储介质，该方法包括：获取待检测图像；使用基于多层交叉注意力特征金字塔网络MCAFPN的目标检测模型对所述待检测图像进行目标检测，其中所述MCAFPN在特征金字塔网络中嵌入多层交叉注意力模块，让特征金字塔网络在连接卷积网络不同层级、不同分辨率的特征图时在空间维度上自动对焦，增强特征的表征能力。本发明通过使用多层交叉注意力模块，让特征金字塔网络的浅层特征图和深层特征图在连接时由点到点转变为点到面的匹配关系，使网络主动学习浅层特征图与深层特征图的全局像素空间关联性，给不同空间位置的特征赋予不同的响应权重，实现了更好的特征匹配关系。

Description

目标检测方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉和数字图像处理领域，尤其涉及一种目标检测方法、装置、电子设备及存储介质。

背景技术

目标检测是计算机视觉和数字图像处理的一个方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉减少对人力资本的消耗，具有重要的现实意义。

卷积网络浅层的特征语义信息比较少，但是目标位置准确；深层的特征语义信息比较丰富，但是目标位置比较粗略。由于更深层的网络具有更强的特征表示能力，早期的检测网络框架仅使用卷积网络最顶层特征图来进行后续的检测任务。现实中待检测的物体形状大小各异，有时抱团出现，甚至互相遮挡。在网络加深的过程中，通常使用下采样来降低计算复杂度和提升网络的平移不变性，但在下采样后特征图的像素会降低、空间位置信息会变得模糊，导致仅使用顶层特征图难以适应物体尺寸的变化，容易发生漏检。

为增强检测网络对物体尺寸变化的泛化能力，常在卷积网络中加入特征金字塔网络(feature pyramid network，FPN)，FPN通过连接深层特征来增强浅层特征的表示能力，并且FPN在多层特征图上并行预测，有利于检测模型适应目标物体的尺寸变化，增加检测模型的召回率，然而FPN在连接浅层特征图与深层特征图时采用逐像素相加的方式，不同层的特征图之间并非完全匹配。首先，浅层特征图的分辨率是深层特征图的2倍，使用插值等上采样方法，上采样后的深层特征存在大量的冗余；其次，深层特征图与浅层特征图不仅在分辨率上存在着明显差异，它们的感受野也有较大的区别。使得如何进一步改进FPN、实现更好的特征匹配关系，成为了亟待解决的问题。

发明内容

本发明的目的是提供一种目标检测方法、装置、电子设备及存储介质，提出一种改进的FPN网络——MCAFPN，提高目标检测模型的精确性。

第一方面，本发明提供一种目标检测方法，包括：

获取待检测图像；

使用基于多层交叉注意力特征金字塔网络MCAFPN的目标检测模型对所述待检测图像进行目标检测，其中将卷积网络的不同层级、不同分辨率的特征图输入MCAFPN，所述MCAFPN使用多层交叉注意力模块将所述不同层级、不同分辨率的特征图在空间维度上层层级联，然后输出增强后的多层特征图。

进一步地，所述将卷积网络的不同层级、不同分辨率的特征图输入MCAFPN包括：

将第一特征图作为MCAFPN第一层特征图，将所述MCAFPN第一层特征图与第二特征图输入所述多层交叉注意力模块，输出MCAFPN第二层特征图；

将所述MCAFPN第二层特征图与第三特征图输入所述多层交叉注意力模块，输出MCAFPN第三层特征图；

其中所述第一特征图、第二特征图和第三特征图是所述卷积网络的不同层级、不同分辨率的特征图，其层数由深到浅，第二特征图的分辨率是第一特征图的n倍，第三特征图的分辨率是第二特征图的n倍，n大于等于2。

进一步地，所述MCAFPN使用多层交叉注意力模块将所述不同层级、不同分辨率的特征图在空间维度上层层级联，然后输出增强后的多层特征图包括：

将做n倍上采样后的所述MCAFPN第一层特征图和所述第二特征图输入第一层交叉注意力模块，得到第一层交叉注意力特征图；

将所述第二特征图和所述第一层交叉注意力特征图输入第二层交叉注意力模块，得到第二层交叉注意力特征；

将所述第二特征图与所述第二层交叉注意力特征图逐像素相加，得到所述MCAFPN第二层特征图；

其中所述第一层交叉注意力模块和所述第二层交叉注意力模块对输入进行交叉联积和交叉加权。

进一步地，所述第一层交叉注意力模块和第二层交叉注意力模块对输入进行交叉联积和交叉加权包括：

计算浅层特征图任一空间位置与深层特征图对应交叉区域的空间相关性；

归一化交叉空间中的特征相关性，得到交叉注意力权重；

基于所述交叉注意力权重，与所述深层特征图进行交叉注意力加权，得到最终的交叉注意力特征。

第二方面，本发明提供一种目标检测装置，包括：

获取模块，用于获取待检测图像；

目标检测模块，用于使用基于多层交叉注意力特征金字塔网络MCAFPN的目标检测模型对所述待检测图像进行目标检测，其中将卷积网络的不同层级、不同分辨率的特征图输入MCAFPN，所述MCAFPN使用多层交叉注意力模块将所述不同层级、不同分辨率的特征图在空间维度上层层级联，然后输出增强后的多层特征图。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现根据第一方面所述目标检测方法的步骤。

第四方面，本发明提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现根据第一方面所述目标检测方法的步骤。

由上面技术方案可知，本发明提供的目标检测方法、装置、电子设备及非暂态计算机可读存储介质，通过使用多层交叉注意力模块，使目标检测网络主动学习浅层特征图与深层特征图全局像素空间的关联性，给不同空间位置的特征赋予不同的响应权重，从而实现更好的特征匹配关系。

附图说明

图1是根据本发明实施例的目标检测方法的流程图；

图2是根据本发明实施例的特征金字塔网络的网络结构图；

图3是根据本发明实施例的多层(两层)交叉注意力特征金字塔网络的网络结构图；

图4是根据本发明实施例的基于多层交叉注意力特征金字塔网络的目标检测模型；

图5是根据本发明实施例的目标检测装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据本发明实施例的目标检测方法的流程图，参照图1，本发明实施例提供的目标检测方法包括如下步骤：

步骤110：获取待检测图像；

步骤120：使用基于多层交叉注意力特征金字塔网络MCAFPN的目标检测模型对所述待检测图像进行目标检测，其中将卷积网络的不同层级、不同分辨率的特征图输入MCAFPN，所述MCAFPN使用多层交叉注意力模块将所述不同层级、不同分辨率的特征图在空间维度上层层级联，然后输出增强后的多层特征图。

为了更充分地阐述本发明的概念，首先对特征金字塔网络FPN进行介绍，其是根据特征金字塔概念设计的特征提取器，目的是提高精度和速度。FPN替代了类如Faster R-CNN中的特征提取器，并且生成更高质量的特征图金字塔。FPN连接深层特征图与浅层特征图的方式是对深层特征图做2倍上采样，然后与浅层特征图直接逐像素相加，具体参照图2进行描述。

如图2所示，首先构建作为示例的FPN网络，图中C1，C2，…，C5为卷积网络从浅到深的特征图，从C1到C5特征图的尺寸成2倍依次减小。建立FPN的步骤如下：

(1)将特征图C5作为FPN的顶层，记为P5；

(2)对P5做2倍上采样，使P5的分辨率扩大为原来的2倍；

(3)将上采样后的P5与C4逐像素相加，得到FPN的次高层P4；

(4)基于P4、C3和C3，比照步骤(2)和步骤(3)重复进行连接深层特征图与浅层特征图，得到P3和P2。

通过FPN网络，生成了金字塔形的多个特征图，从而继续下一步的目标检测算法，其中每层特征图在具有高分辨率的同时保留了丰富的语义信息。

但是，在逐像素相加的连接方式中，不同层的特征图之间并非完全匹配。首先，浅层特征图的分辨率是深层特征图的2倍，当然浅层特征图的分辨率还可以是深层特征图的3倍、4倍……等，使用插值等上采样方法，深层特征在上采样后存在大量的冗余；其次，深层特征图与浅层特征图不仅在分辨率上存在着明显差异，深层特征图与浅层特征图的感受野也有较大的区别。

基于此缺点，本申请提出多层交叉注意力特征金字塔网络MCAFPN。MCAFPN通过串联两层交叉注意力，使目标检测网络主动学习浅层特征图与深层特征图全局像素空间的关联性，给不同空间位置的特征赋予不同的响应权重，从而实现更好的特征匹配关系。具体参照图3进行描述。

如图3所示，本申请提出的MCAFPN与FPN相比，提出了串联两层交叉注意力的连接方法，即在连接浅层特征图与深层特征图时加入多层交叉注意力模块(参照图中被虚线框包围的区域)，为图示简洁，图中省略了对深层特征Y做2倍上采样的过程。

MCAFPN使用多层交叉注意力模块对多个不同分辨率的特征图进行处理包括：将做2倍上采样后的深层特征图Y和浅层特征图X输入第一层交叉注意力模块，得到第一层交叉注意力特征图；将浅层特征图X和第一层交叉注意力特征图输入第二层交叉注意力模块，得到第二层交叉注意力特征图；将浅层特征图X与第二层交叉注意力特征图逐像素相加，得到X与Y的多层交叉注意力连接特征图；其中浅层特征图X的分辨率是深层特征图Y的2倍。

在加入多层交叉注意力模块后，FPN中浅层特征图和深层特征图的连接方式从点到点改变为点到面的对应关系，使处在不同空间位置的像素特征自适应对齐。

具体地，假设特征图的空间尺寸为H×W，每个位置包含C个通道。交叉注意力的目的是捕获浅层特征图和深层特征图的空间相关性。每一层交叉注意力模块会生成一个稀疏的注意力图，对特征图中的每个空间位置生成H+W-1个权重，可以捕获水平和垂直方向的空间依赖关系。

第一层交叉注意力模块以浅层特征图X和深层特征图Y作为输入，此时X中每个空间像素汇聚了Y中对应位置水平和垂直方向的上下文信息；第二层交叉注意力模块以浅层特征图X和第一层交叉注意力模块的输出特征图作为输入，注意力在水平和垂直方向上再次展开，最终输出特征图中的每个位置都可以捕获全局像素空间的远程依赖关系。

在每一层交叉注意力模块中，分别使用3个1×1的卷积层Q、K、V学习交叉注意力网络参数，(Q′,K′,V′)和(Q”,K”,V”)分别为第一层和第二层交叉注意力模块的网络参数。在两层交叉注意力中，除了网络的输入不一样外，计算方法完全一致。

首先通过Q与K做交叉联积，计算浅层特征图X与深层特征图Y的交叉空间相关性。定义空间位置i与j的相关值为R_i,j，采用余弦相似度度量不同位置的空间相关性，计算方法如公式1所示，

式中i∈1,2,…,H×W，j为i的水平和垂直方向上的某一位置。特征图的每一空间位置生成H+W-1个关联权重，因此R的大小为H×W×(H+W-1)。

得到空间特征相关性R后，使用softmax函数归一化交叉空间中的特征相关性，得到交叉注意力权重A，如公式2所示，

式中Φ(i)为i所在位置水平和垂直方向上的交叉空间区域，j∈Φ(i)。为了更直观演示交叉注意力的注意力空间，公式3将公式2在二维空间展开，式中以(ix,iy)和(jx,jy)分别代表i和j在二维空间的坐标。

获得注意力权重后，将A与V做交叉注意力加权获得最终的交叉注意力特征图Y′，如公式4所示，

Y′_i，c＝∑_u∈Φ(i)A_i，uV_u，c 公式4

式中i∈1,2,…,H×W；c∈1,2,…，C；Φ(i)为i所在位置水平和垂直方向上的交叉空间区域。

值得注意的是，因为本实施例只对特征图上下文信息的空间维度而不是通道维度感兴趣，因此由R到A的计算公式中没有涉及到特征的通道维度，在计算注意力加权特征图Y′时，A在所有特征通道上共享。

以上便是MCAFPN中交叉注意力的计算方法。如公式5所示，

Z＝X+f(X,f(X,Y)) 公式5

在MCAFPN中第一层交叉注意力模块以浅层特征图X和深层特征图Y作为输入，得到第一层交叉注意力特征图，记为f(X,Y)；第二层交叉注意力模块以浅层特征图X和f(X,Y)作为输入，得到第二层交叉注意力特征图；最后再与浅层特征图X逐像素相加，得到最终的连接特征图。

接下来构建MCAFPN，MCAFPN的输出是包括用于预测的不同尺度特征图的MCAFPN特征图，构建MCAFPN的方法包括：

在本发明实施例中，需要说明的是，第一特征图、第二特征图和第三特征图为深度卷积网络中不同尺寸的特征图，其分辨率由小到大呈金字塔状排列。MCAFPN第一层特征图、MCAFPN第二层特征图和MCAFPN第三层特征图为输出的MCAFPN特征图。MCAFPN不限定上文中的三层，最终输出的级数可以由具体处理的问题和所建立的目标检测网络确定。

在本发明实施例中，可以参照构建FPN的方式构建MCAFPN，C1，C2，…，C5为卷积网络从浅到深的特征图，从C1到C5特征图的尺寸成2倍依次减小。建立MCAFPN的步骤如下：

(a)将最顶层特征图C5作为MCAFPN的顶层Y5；

(b)对Y5做2倍上采样，使Y5的分辨率扩大为原来的2倍；

(c)将上采样后的Y5与C4通过串联两层交叉注意力的连接方法，得到MCAFPN的次高层Y4；

(d)基于Y4、C3和C3，比照步骤(b)和步骤(c)重复进行连接深层特征图与浅层特征图，得到Y3和Y2。

本申请提供的MCAFPN网络可以作为一个子模块嵌入到目标检测模型中，从而配合完成整个目标检测任务，也就是说MCAFPN网络可以作为通用模块可以与任意的深度卷积网络(Deep CNN)结合，建立基于MCAFPN的目标检测网络模型，所述Deep CNN可以是VGG、Resnet、Inception、DarkNet、DenseNet、MobileNet等任意通用深度卷积网络。

参照图4，图4是根据本发明实施例的基于多层交叉注意力特征金字塔网络的目标检测模型，在Deep CNN之上建立MCAFPN，输出用于预测的多级不同尺寸的特征图。然后在MCAFPN的多层特征图上，连接目标检测网络(例如Faster RCNN、YOLO、FCOS等)预测图像中目标物体的像素坐标和类别。

参照图5，图5是根据本发明实施例的目标检测装置的结构示意图，本实施例提供的目标检测装置，包括：获取模块510和目标检测模块520：

获取模块510，用于获取待检测图像；

目标检测模块520，用于使用基于多层交叉注意力特征金字塔网络MCAFPN的目标检测模型对所述待检测图像进行目标检测，其中将卷积网络的不同层级、不同分辨率的特征图输入MCAFPN，所述MCAFPN使用多层交叉注意力模块将所述不同层级、不同分辨率的特征图在空间维度上层层级联，然后输出增强后的多层特征图。

基于上述实施例的内容，在本实施例中，所述MCAFPN使用多层交叉注意力模块对多个不同分辨率的特征图进行处理，输出MCAFPN特征图包括：

其中所述第一特征图、第二特征图和第三特征图是所述卷积网络的不同层级、不同分辨率的特征图，其层数由深到浅，第二特征图的分辨率是第一特征图的2倍，第三特征图的分辨率是第二特征图的2倍。

进一步地，所述MCAFPN使用多层交叉注意力模块对多个不同分辨率的特征图进行处理包括：

将做2倍上采样后的所述MCAFPN第一层特征图和所述第二特征图输入第一层交叉注意力模块，得到第一层交叉注意力特征图；

由于本发明实施例提供的目标检测装置，可以用于执行上述实施例所述的目标检测方法，其工作原理和有益效果类似，故此处不再详述，具体内容可参见上述实施例的介绍。

在本实施例中，需要说明的是，本发明实施例的装置中的各个模块可以集成于一体，也可以分离部署。上述模块可以合并为一个模块，也可以进一步拆分成多个子模块。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行目标检测方法，该方法包括获取待检测图像；使用基于多层交叉注意力特征金字塔网络MCAFPN的目标检测模型对所述待检测图像进行目标检测，其中所述MCAFPN使用多层交叉注意力模块对多个不同分辨率的特征图进行处理，输出MCAFPN特征图。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的目标检测方法，该方法包括：获取待检测图像；使用基于多层交叉注意力特征金字塔网络MCAFPN的目标检测模型对所述待检测图像进行目标检测，其中所述MCAFPN使用多层交叉注意力模块对多个不同分辨率的特征图进行处理，输出MCAFPN特征图。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的目标检测方法，该方法包括：获取待检测图像；使用基于多层交叉注意力特征金字塔网络MCAFPN的目标检测模型对所述待检测图像进行目标检测，其中所述MCAFPN使用多层交叉注意力模块对多个不同分辨率的特征图进行处理，输出MCAFPN特征图。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标检测方法，其特征在于，包括：

获取待检测图像；

2.根据权利要求1所述的目标检测方法，其特征在于，所述将卷积网络的不同层级、不同分辨率的特征图输入MCAFPN包括：

3.根据权利要求2所述的目标检测方法，其特征在于，所述MCAFPN使用多层交叉注意力模块将所述不同层级、不同分辨率的特征图在空间维度上层层级联，然后输出增强后的多层特征图包括：

4.根据权利要求1所述的目标检测方法，其特征在于，所述第一层交叉注意力模块和第二层交叉注意力模块对输入进行交叉联积和交叉加权包括：

归一化交叉空间中的特征相关性，得到交叉注意力权重；

5.一种目标检测装置，其特征在于，包括：

获取模块，用于获取待检测图像；

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现根据权利要求1至4任一项所述目标检测方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现根据权利要求1至4任一项所述目标检测方法的步骤。