CN112686304B

CN112686304B - 一种基于注意力机制以及多尺度特征融合的目标检测方法、设备及存储介质

Info

Publication number: CN112686304B
Application number: CN202011595520.3A
Authority: CN
Inventors: 秦学英; 张振虎; 卢世逸; 金立; 钱建凯
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-03-24
Anticipated expiration: 2040-12-29
Also published as: CN112686304A

Abstract

本发明涉及一种基于注意力机制以及多尺度特征融合的目标检测方法、设备及存储介质，是指：将待检测的图像输入目标检测模型，得到图像中目标的类别、包围框中心的坐标以及包围框的长和宽；目标检测模型的生成过程为：通过标注有目标的类别、包围框中心的坐标以及包围框的长和宽的样本图像训练得到目标检测模型。本发明提出了CombineFPN和Scale Fusion(SF)模块对FPN网络结构多特征融合不充分问题进行改善。提出了轻量级的non‑localattention应用于检测器的头部网络分类部分，用于提升像素级分类的准确度。

Description

一种基于注意力机制以及多尺度特征融合的目标检测方法、设备及存储介质

技术领域

本发明涉及一种基于注意力机制以及多尺度特征融合的目标检测方法、设备及存储介质，属于计算机视觉及人工智能技术领域。

背景技术

目标检测给出的是对图片前景和背景的理解，需要从背景中分离出感兴趣的目标，并确定这一目标的类别和位置。因此，检测模型的输出是一个列表，列表的每一项使用一个数据组给出检出目标的类别和位置(常用矩形检测框的坐标表示)。传统二维目标检测方法主要为三个阶段：选择候选区域，对候选区域提取特征，最后使用训练的分类器进行分类。由于深度学习的不断发展使得基于深度学习的二维目标检测精确度大大提升，最近几年二维目标检测都是在深度学习方向上发展。基于深度学习的二维目标检测方法根据不同的标准主要分为Two-Stage、One-Stage分类器和Anchor-Based、Anchor-Free分类器。

Two-Stage检测器将检测问题划分为两个阶段，首先产生候选区域，然后对候选区域进行分类和位置回归，这类算法的典型代表是基于RPN(region proposalsnetwork)的R-CNN系列算法，如R-CNN[Girshick R.,Donahue J.,Darrell T.,Malik J.Rich featurehierarchiesfor accurate object detection and semantic segmentation.CVPR,2014:580–587],SPP-NET[He K,Zhang X,Ren S,et al.Spatial pyramid pooling in deepconvolutional networks for visual recognition[J].IEEE transactions on patternanalysis and machine intelligence,2015,37(9):1904-1916.],Fast R-CNN[Girshick,Ross.“Fast R-CNN.”2015IEEE International Conference on Computer Vision(ICCV),2015,pp.1440–1448.],Faster R-CNN[Ren,Shaoqing,et al.“Faster R-CNN:TowardsReal-Time Object Detection with Region Proposal Networks.”IEEE Transactionson Pattern Analysis and Machine Intelligence,vol.39,no.6,2017,pp.1137–1149.],Mask R-CNN[He,Kaiming,et al.“Mask R-CNN.”2017IEEE International Conference onComputer Vision(ICCV),2017,pp.2980–2988.]等；

One-Stage检测器不需要region proposal阶段，直接产生物体的类别概率和位置，比较典型的算法如YOLO[Redmon,Joseph,et al.“You Only Look Once:Unified,Real-Time Object Detection.”2016IEEE Conference on Computer Vision and PatternRecognition(CVPR),2016,pp.779–788.],SSD[Liu,Wei,et al.“SSD:Single ShotMultiBox Detector.”European Conference on Computer Vision,2016,pp.21–37]，FCOS[Tian,Zhi,et al.“FCOS:Fully Convolutional One-Stage Object Detection.”2019IEEE/CVF

International Conference on Computer Vision(ICCV),2019,pp.9626–9635..]，CornerNet[Law,Hei,and Jia Deng."CornerNet:Detecting Objects as PairedKeypoints."european conference on computer vision(2018):765-781.]，Centernet[Duan,Kaiwen,et al."CenterNet:Keypoint Triplets for Object Detection."arXiv:Computer VisionandPattern Recognition(2019).],CentripetalNet[Dong,Zhiwei,etal.“CentripetalNet:Pursuing High-Quality Keypoint Pairs for ObjectDetection.”ArXivPreprint ArXiv:2003.09119,2020.]。

相比较而言Two-Stage检测器的平均准确度比One-Stage检测器的高，但是One-Stage检测器的速度更快，实时性好。

Anchor-Based检测器首先人工设定具有不同大小和长宽比的框称为anchor，使用anchor对图像特征进行区域选取，再对选出的区域进行分类和位置回归，有代表性的算法有Faster R-CNN[Ren,Shaoqing,et al.“Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal

Networks.”IEEE Transactions on Pattern Analysis and MachineIntelligence,vol.39,no.6,2017,pp.1137–1149.],Mask R-CNN[He,Kaiming,et al.“Mask R-CNN.”2017IEEE International Conference on Computer Vision(ICCV),2017,pp.2980–2988.]，SSD[Liu,Wei,et al.“SSD:Single Shot MultiBox Detector.”EuropeanConference on Computer Vision,2016,pp.21–37],RetinaNet[Lin,Tsungyi,et al."Focal Loss for Dense Object Detection."international conference on computervision(2017):2999-3007.]。

Anchor-Free检测器不需要使用anchor，直接产生物体的类别概率和位置比较典型的算法如FCOS[Tian,Zhi,et al.“FCOS:Fully Convolutional One-Stage ObjectDetection.”2019IEEE/CVF

International Conference on Computer Vision(ICCV),2019,pp.9626–9635..]，CornerNet[Law,Hei,and Jia Deng."CornerNet:Detecting Objects as PairedKeypoints."european conference on computer vision(2018):765-781.]，Centernet[Duan,Kaiwen,et al."CenterNet:Keypoint Triplets for Object Detection."arXiv:Computer Vision andPattern Recognition(2019).],CentripetalNet[Dong,Zhiwei,etal.“CentripetalNet:Pursuing High-Quality Keypoint Pairs for ObjectDetection.”ArXivPreprint ArXiv:2003.09119,2020.]。

Anchor-Based检测器由于需要大量的anchor，所以会导致计算量增加和正负样本不均衡等问题，目前基于深度学习的二维目标检测方法在往Anchor-Free的方向发展。目前大部分Anchor-Free的方法都在基于FPN(featurepyramidnetwork)为neck，head部分为分类和回归两个不同的分支。FPN融合信息部分会经过大幅度的降维，导致深层特征和浅层特征信息的大量丢失，虽然FPN会向浅层逐渐融合深层特征，但是深层的信息没有得到补充，FPN没有将多尺度特征进行充分的融合。对于基于ones-tage和anchor-free的目标检测方法head部分都会对特征进行像素级别的分类，类似于语义分割，但是目前分类任务的准确度不是很高。

最近几年one-stage的SOTA(state-of-the-art)检测器很多都是以FPN(featurepyramid network)为neck实现的。FPN实现了多尺度特征信息融合，使检测器可以更好的检测不同尺度的物体。但是FPN只是将深层特征信息传递到浅层特征中，并没有实现充分的多尺度特征融合。

对于语义分割这种像素级别的分类经常使用non-localattentionmap获取远距离位置像素之间的关系，但是non-localattention的计算占用了太多的内存空间，很难应用于检测中。

发明内容

针对现有技术的不足，本发明提供了一种基于注意力机制以及多尺度特征融合的目标检测方法；

本发明另外还提供了一种计算机设备及存储介质。

术语解释：

1、标准化，在卷积神经网络里，标准化是将不同的图片，或者图片不同的分量映射到同一特定区间内，或者具有相同的数据分布。

2、特征提取网络，特征提取网络由多个卷积块组成，每个卷积块内有多个卷积操作操作、激活函数、标准化函数，主要目的是为了提取不同层次的特征。例如ResNet和VGG网络。该软件使用的事ResNet作为特征提取网络。

3、浅层，特征提取网络中较为前几个卷积块可以理解为浅层，浅层输出的特征为浅层特征，具有丰富的位置信息。例如图1的C2,C3。

4、深层，特征提取网络中较为后几个卷积块可以理解为深层，深层输出的特征为深层特征，具有丰富的语义信息。例如图1的C4,C5。

5、双线性插值，又称为双线性内插。在数学上，双线性插值是有两个变量的插值函数的线性插值扩展，其核心思想是在两个方向分别进行一次线性插值。双线性插值作为数值分析中的一种插值算法，广泛应用在信号处理，数字图像和视频处理等方面。

6、head：head是获取网络输出内容的网络，利用之前提取的特征，head利用这些特征，做出预测。

7、降维卷积，降维卷积指卷积核为1*1大小，不改变输入特征像素大小，输出维度小于输入维度的卷积操作。

8、下采样，下采样指卷积核为3*3大小，使输出特征像素大小为输入特征像素大小的一半，输出特征维度与输入特征保持一致的卷积操作。

9、像素级别相加操作，只有两个具有相同像素大小和维度的特征才可以进行像素级别的相加，两个特征每一个像素特征为一维向量(可以理解为数组)，将两个特征每个像素特征向量进行对应相加。对应相加：设两个像素特征向量为A1和A2，且向量大小为2，将A1第一个值与A2第一个值相加，A1第二个值与A2第二个值相加。

10、降采样卷积，即下采样。

11、分类概率图，大小为C*H*W的特征，C代表类别数量，H*W代表特征像素大小，每个像素每个维度的值在0-1之间，表示该像素为某一类别的概率。

12、分类加权图，大小为1*H*W的特征(可以理解为二维数组)，H*W代表特征像素大小，每个像素值在0-1之间。目的是给分类概率图加权，抑制分类不准确的像素。

13、卷积，卷积是分析数学中一种重要的运算。简单定义：设:f(x),g(x)是R1上的两个可积函数，作积分：

/>

14、非极大抑制，目标检测的过程中在同一目标的位置上会产生大量的候选框，这些候选框相互之间可能会有重叠，此时我们需要利用非极大值抑制找到最佳的目标边界框，消除冗余的边界框，其思想是搜素局部最大值，抑制不是极大值的元素。

15、空间金字塔池化操作，输入为一个特征，将该特征经过不同的平均池化操作(局部接受域中的所有值求均值)得到不同大小的特征，将这些特征进行平铺操作(将C*H*W的三维特征变为C*N的二维特征,N＝H*W)，然后将平铺后的特征进行连接(concat)的操作。

16、softmax操作，请简单介绍下；假设我们有一个数组，V，Vi表示V中的第i个元素，那么这个元素的Softmax值就是

17、正样本：检测网络得到的包围框和groundtruth的IOU大于0.5，那么该包围框为正样本包围框，否则为负样本包围框。在正样本包围框里的像素为正样本像素，否则为负样本像素。

18、IOU：两个不同包围框的交集比并集。

19、Momentum，是冲量单元，更好地理解方式是“粘性因子”，也就是所说的viscosity。momentum的作用是把直接用SGD方法改变位置(position)的方式变成了用SGD来对速度(velocity)进行改变。momentum让“小球”的速度保持一个衡量，增加了某一方向上的连续性，同时减小了因为learning带来的波动，因此使得采用更大的learning rate来进行训练，从而达到更快。

20、CombineFPN，融合多金字塔特征网络。

21、Scale Fusion，尺度融合。

22、non-localattention，全局注意力机制。

本发明的技术方案为：

一种基于注意力机制以及多尺度特征融合的目标检测方法，是指：

将待检测的图像输入目标检测模型，得到图像中目标的类别、包围框中心的坐标以及包围框的长和宽；所述目标检测模型的生成过程为：通过标注有目标的类别、包围框中心的坐标以及包围框的长和宽的样本图像训练得到所述目标检测模型。

根据本发明优选的，所述目标检测模型包括特征提取网络、特征融合网络、头部网络和后处理单元；

特征提取网络用于实现特征提取，通过一系列卷积操作、激活函数、标准化函数对输入图像进行特征提取，卷积操作使用越多层数越深，在不同层次进行输出可以得到不同层次的特征；将特征提取网络得到的不同层次的特征作为输入，输入至特征融合网络中，将特征之间进行不同尺度的融合，输出融合之后的5个特征；将融合后的5个特征逐步输入至头部网络中，头部网络经过卷积操作和轻量级注意力机制得到分类概率图，分类加权图和每个正样本像素坐标距离上、下、左、右四个包围框边的距离；将头部网络得到的结果输入到后处理单元中，得到图像中的物体类别和物体的包围框中心坐标、包围框长和宽的长度。

训练过程ResNet-50作为特征提取网络并且超参数和mmdetection设置相同。特征提取网络的初始化权重为在ImageNet上与训练的权重。

根据本发明优选的，通过标注有目标的类别、包围框中心的坐标以及包围框的长和宽的样本图像训练得到所述目标检测模型，包括步骤如下：

(1)图像预处理；

(2)特征提取：

将步骤(1)预处理后的图像输入至特征提取网络，提取浅层具有位置信息(浅层特征具有较大的像素，每个像素在图像排列中都有对应位置，像素越大位置信息越丰富)的特征和深层具有丰富语义信息(颜色、纹理、形状信息)的特征，这些特征为不同尺度的特征。

(3)特征融合：

A、由于步骤(2)中提取出的特征为不同尺度的特征，所以不同特征之间的维度和大小具有较大的差异；

将步骤(2)提取出的每个特征进行一次降维卷积将特征维度降至256维，根据特征大小将不同尺度的特征从小到大排序，并分别命名为T5,T4,T3,T2；将特征T2进行一次下采样得到特征T3’，将特征T3与特征T3’进行像素级别相加操作得到特征N3，将特征T3’进行一次下采样得到特征T4’，将特征T4与T4’进行像素级别的相加得到特征N4，将特征T5、特征N4和特征N3进行特征融合操作(Fusion)，得到特征N5；

B、向浅层补充深层信息：从步骤A中得到的特征N5、特征N4、特征N3，特征N5(也为特征P5)为具有丰富语义信息的深层特征，通过双线性插值将其特征大小放大一倍，使其与浅层的特征N4进行像素级别的相加得到特征P4，特征P4通过双线性插值将其特征像素大小放大一倍，使其与特征N3进行像素级别的相加得到特征P3，将具有丰富语义信息的深层特征传递至浅层，经过该过程，浅层特征的信息可以得到充分的补充，最终，根据特征像素大小，从小到大排序得到特征P5、特征P4、特征P3，将特征P5进行两次下采样得到特征P6和特征P7；

C、向深层补充浅层信息：从步骤A中得到的特征N5、特征N4、特征N3，特征N3(也为特征RP3)为具有位置信息的浅层特征，通过一次下采样将特征N3的特征像素大小缩小一倍，使其与特征N4进行像素级别的相加得到特征RP4，特征RP4通过一次下采样将特征RP4的特征像素大小缩小一倍，使其与特征N5进行像素级别的相加得到特征RP5，将具有位置信息的浅层特征传递至深层，经过该过程深层特征的信息可以得到充分的补充，最终，根据特征大小，从小到大得到特征RP5、特征RP4、特征RP3，将特征RP5进行两次下采样得到特征RP6、特征RP7；

将特征P3、特征P4、特征P5、特征P6、特征P7分别与特征RP3、特征RP4、特征RP5、特征RP6、特征RP7对应进行像素级别相加分别得到特征H3、特征H4、特征H5、特征H6、特征H7，作为头部网络的输入；

(4)头部网络有两个分支，包括分类分支和回归分支，分类分支输出为分类概率图和一个分类加权图，回归分支输出每个正样本像素坐标距离上、下、左、右四个包围框边的距离；

将步骤(3)得到的特征H3、特征H4、特征H5、特征H6、特征H7分别输入到头部网络中进行预测，输入的特征在分类分支进行一次卷积、轻量级的全局注意力机制和三次卷积操作，得到分类概率图和分类加权图；

预测特征在回归分支进行四次卷积后得到回归结果，回归结果是指每个正样本像素坐标距离上、下、左、右四个包围框边的距离；

(5)后处理过程：将步骤(4)得到的分类概率图和分类加权图进行像素级别的相乘进行加权，得到加权后的分类概率，为了消除远距离像素产生的较差结果的影响，根据加权后的分类概率对步骤(4)得到的包围框从大到小进行排序，选出加权后的分类概率排名前70对应的包围框进行非极大抑制得到最终的检测结果，即图像中的目标的类别、包围框中心的坐标以及包围框的长和宽。

进一步优选的，轻量级的全局注意力机制操作，包括步骤如下：

将输入到分类分支的预测特征分别经过两次降维卷积得到特征Fq和特征Fk，经过一次卷积得到特征Fv；

特征Fq进行一次重组和转置，得到N*(C/8)二维矩阵，N的值为轻量级的全局注意力机制输入的特征，其像素大小H*W，C为输入特征的维度；

特征Fk进行一次空间金字塔池化操作，得到(C/8)*S二维矩阵，S＝110；

将N*(C/8)二维矩阵和(C/8)*S二维矩阵进行矩阵相乘，得到N*S的二维矩阵；

将N*S二维矩阵经过softmax操作进行归一化得到注意力权重矩阵；

将特征Fv经过一次空间金字塔池化操作得到C*S二维矩阵；

将C*S二维矩阵与注意力权重矩阵进行矩阵相乘后对得到的矩阵进行重组得到加权后的特征，将加权后的特征与输入到分类分支的预测特征进行像素级别相加操作，得到的特征继续头部网络的卷积操作。

根据本发明优选的，训练目标检测模型时，使用随机梯度下降进行了9万次迭代，初始学习率为0.01，预设批大小为16张图片，学习率在迭代到6W和8W次时分别下降为0.001和0.0001，权重衰减和momentum分别设置为0.0001和0.9。

根据本发明优选的，训练目标检测模型时，LOSS函数L(p,t)如式(Ⅰ)所示：

式(Ⅰ)中，N为预测结果中正样本的数量，p为预测的像素类别概率，p^*为像素类别的groundtruth，t为回归的结果，t^*为像素距离包围框的groundtruth，g为分类加权图；

L_cls和L_reg分别代表分类LOSS函数和回归LOSS函数；

y＝1表示预测概率最大的类与groundtruth相同，否则y＝0；α、γ在训练时分别设置为0.25和2；

Intersection表示生成包围框和groundtruth的交集，Union表示生成包围框和groundtruth的并集；

BCE为交叉熵Loss；

进一步优选的，将特征T5、特征N4和特征N3进行特征融合(Fusion)操作，得到特征N5，是指：

输入特征T5、特征N4和特征N3，特征之间的维度相同但是大小不同，首先，将特征N4进行一次下采样得到特征N4’，特征N3进行两次下采样得到特征N3’；

然后，特征N4’、特征N3’与特征T5有同样维度和大小的特征，特征T5和特征N4’、特征N3’进行连接(concat)操作；

最后，经过三个不同的卷积操作和归一化函数得到三维特征权重，将每一维度的特征权重分别与特征N4’、特征N3’和特征T5加权相乘，将加权相乘后的特征N4’、特征N3’和特征T5进行像素级别的相加得到特征N5。

根据本发明优选的，步骤(1)中，图像预处理，包括步骤如下：

首先，调整输入的RGB图像的大小；

然后，对调整大小后的RGB图像进行随机旋转；以减缓因旋转导致的检测精度下降。

最后，将随机旋转后的RGB图像进行标准化。使RGB图像的分布在同一标准下。

进一步优选的，将输入的RGB图像的长边调整为1333个像素大小，短边调整为800个像素大小。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于注意力机制以及多尺度特征融合的目标检测方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于注意力机制以及多尺度特征融合的目标检测方法的步骤。

本发明的有益效果为：

1、本发明提出了CombineFPN和Scale Fusion(SF)模块对FPN网络结构多特征融合不充分问题进行改善。

2、本发明提出了轻量级的non-localattention应用于检测器的头部网络分类部分，用于提升像素级分类的准确度。

附图说明

图1为本发明目标检测模型的整体架构示意图；

图2为本发明提出的Scale Fusion的示意图；

图3为本发明向深层补充浅层信息(CombineFPN)的流程示意图；

图4为本发明不同尺度特征融合的方法示意图；

图5为本发明增加轻量级non-localattention的头部网络的示意图；

图6为本发明轻量级的全局注意力机制操作的流程示意图；

图7为本发明目标检测模型运行过程示例图；

图8为本发明基于注意力机制以及多尺度特征融合的目标检测方法输出结果示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

将待检测的图像输入目标检测模型，得到图像中目标的类别、包围框中心的坐标以及包围框的长和宽；目标检测模型的生成过程为：通过标注有目标的类别、包围框中心的坐标以及包围框的长和宽的样本图像训练得到目标检测模型。

实施例2

根据实施例1所述的一种基于注意力机制以及多尺度特征融合的目标检测方法，其区别在于：

如图1所示，目标检测模型包括特征提取网络、特征融合网络、头部网络和后处理单元；

特征提取网络用于实现特征提取，通过一系列卷积操作、激活函数、标准化函数对输入图像进行特征提取，卷积操作使用越多层数越深，在不同层次进行输出可以得到不同层次的特征；将特征提取网络得到的不同层次的特征作为输入，输入至特征融合网络中，将特征之间进行不同尺度的融合，输出融合之后的5个特征(该过程如图2、图3、图4所示)；将融合后的5个特征逐步输入至头部网络中，头部网络经过卷积操作和轻量级注意力机制得到分类概率图，分类加权图和每个正样本像素坐标距离上、下、左、右四个包围框边的距离(如图5、图6所示)；将头部网络得到的结果输入到后处理单元中，得到图像中的物体类别和物体的包围框中心坐标、包围框长和宽的长度。

通过标注有目标的类别、包围框中心的坐标以及包围框的长和宽的样本图像训练得到目标检测模型，包括步骤如下：

(1)图像预处理；

(2)特征提取：

(3)特征融合：

如图2所示，将步骤(2)提取出的每个特征进行一次降维卷积将特征维度降至256维，根据特征大小将不同尺度的特征从小到大排序，并分别命名为T5,T4,T3,T2；将特征T2进行一次下采样得到特征T3’，将特征T3与特征T3’进行像素级别相加操作得到特征N3，将特征T3’进行一次下采样得到特征T4’，将特征T4与T4’进行像素级别的相加得到特征N4，将特征T5、特征N4和特征N3进行特征融合操作(Fusion)，得到特征N5；

B、如图3所示，向浅层补充深层信息：从步骤A中得到的特征N5、特征N4、特征N3，特征N5(也为特征P5)为具有丰富语义信息的深层特征，通过双线性插值将其特征大小放大一倍，使其与浅层的特征N4进行像素级别的相加得到特征P4，特征P4通过双线性插值将其特征像素大小放大一倍，使其与特征N3进行像素级别的相加得到特征P3，将具有丰富语义信息的深层特征传递至浅层，经过该过程，浅层特征的信息可以得到充分的补充，最终，根据特征像素大小，从小到大排序得到特征P5、特征P4、特征P3，将特征P5进行两次下采样得到特征P6和特征P7；

C、如图3所示，向深层补充浅层信息：从步骤A中得到的特征N5、特征N4、特征N3，特征N3(也为特征RP3)为具有位置信息的浅层特征，通过一次下采样将特征N3的特征像素大小缩小一倍，使其与特征N4进行像素级别的相加得到特征RP4，特征RP4通过一次下采样将特征RP4的特征像素大小缩小一倍，使其与特征N5进行像素级别的相加得到特征RP5，将具有位置信息的浅层特征传递至深层，经过该过程深层特征的信息可以得到充分的补充，最终，根据特征大小，从小到大得到特征RP5、特征RP4、特征RP3，将特征RP5进行两次下采样得到特征RP6、特征RP7；

(4)如图5所示，头部网络有两个分支，包括分类分支和回归分支，分类分支输出为分类概率图和一个分类加权图，回归分支输出每个正样本像素坐标距离上、下、左、右四个包围框边的距离；

轻量级的全局注意力机制操作，包括步骤如下：

如图6所示，将输入到分类分支的预测特征分别经过两次降维卷积得到特征Fq和特征Fk，经过一次卷积得到特征Fv；

将特征Fv经过一次空间金字塔池化操作得到C*S二维矩阵；

训练目标检测模型时，使用随机梯度下降进行了9万次迭代，初始学习率为0.01，预设批大小为16张图片，学习率在迭代到6W和8W次时分别下降为0.001和0.0001，权重衰减和momentum分别设置为0.0001和0.9。

训练目标检测模型时，LOSS函数L(p,t)如式(Ⅰ)所示：

L_cls和L_reg分别代表分类LOSS函数和回归LOSS函数；

BCE为交叉熵Loss；

将特征T5、特征N4和特征N3进行特征融合(Fusion)操作，得到特征N5，是指：

如图4所示，输入特征T5、特征N4和特征N3，特征之间的维度相同但是大小不同，首先，将特征N4进行一次下采样得到特征N4’，特征N3进行两次下采样得到特征N3’；

步骤(1)中，图像预处理，包括步骤如下：

首先，调整输入的RGB图像的大小；

将输入的RGB图像的长边调整为1333个像素大小，短边调整为800个像素大小。

图7为本发明目标检测模型运行过程示例图图8为本发明基于注意力机制以及多尺度特征融合的目标检测方法输出结果示意图。

如以下表1所示，FCOS网络以ResNet-50为特征提取网络，在COCO 2017val数据集下取得的平均精确度为36.2。通过对该网络增加本发明提出的CombineFPN后取得的平均精确度为36.6，证明CombineFPN的有效性。再增加本发明提出的尺度融合(SF)方法后取得的平均精度为36.9，证明SF的有效性。再增加本发明提出的轻量级全局注意力机制(LWA)后取得的平均精度为37.4。最终取得了1.2点的平均张进，证明本发明有效。

表1

实施例3

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1或2所述的基于注意力机制以及多尺度特征融合的目标检测方法的步骤。

实施例4

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1或2所述的基于注意力机制以及多尺度特征融合的目标检测方法的步骤。

Claims

1.一种基于注意力机制以及多尺度特征融合的目标检测方法，其特征在于，是指：

将待检测的图像输入目标检测模型，得到图像中目标的类别、包围框中心的坐标以及包围框的长和宽；所述目标检测模型的生成过程为：通过标注有目标的类别、包围框中心的坐标以及包围框的长和宽的样本图像训练得到所述目标检测模型；

所述目标检测模型包括特征提取网络、特征融合网络、头部网络和后处理单元；

特征提取网络用于实现特征提取，通过一系列卷积操作、激活函数、标准化函数对输入图像进行特征提取，卷积操作使用越多层数越深，在不同层次进行输出可以得到不同层次的特征；将特征提取网络得到的不同层次的特征作为输入，输入至特征融合网络中，将特征之间进行不同尺度的融合，输出融合之后的5个特征；将融合后的5个特征逐步输入至头部网络中，头部网络经过卷积操作和轻量级注意力机制得到分类概率图，分类加权图和每个正样本像素坐标距离上、下、左、右四个包围框边的距离；将头部网络得到的结果输入到后处理单元中，得到图像中的物体类别和物体的包围框中心坐标、包围框长和宽的长度；

通过标注有目标的类别、包围框中心的坐标以及包围框的长和宽的样本图像训练得到所述目标检测模型，包括步骤如下：

(1)图像预处理；

(2)特征提取：

将步骤(1)预处理后的图像输入至特征提取网络，提取浅层具有位置信息的特征和深层具有丰富语义信息的特征，这些特征为不同尺度的特征；

(3)特征融合：

A、将步骤(2)提取出的每个特征进行一次降维卷积将特征维度降至256维，根据特征大小将不同尺度的特征从小到大排序，并分别命名为T5,T4,T3,T2；将特征T2进行一次下采样得到特征T3’，将特征T3与特征T3’进行像素级别相加操作得到特征N3，将特征T3’进行一次下采样得到特征T4’，将特征T4与T4’进行像素级别的相加得到特征N4，将特征T5、特征N4和特征N3进行特征融合操作，得到特征N5；

B、向浅层补充深层信息：从步骤A中得到的特征N5、特征N4、特征N3，特征N5(也为特征P5)为具有丰富语义信息的深层特征，通过双线性插值将其特征大小放大一倍，使其与浅层的特征N4进行像素级别的相加得到特征P4，特征P4通过双线性插值将其特征像素大小放大一倍，使其与特征N3进行像素级别的相加得到特征P3，将具有丰富语义信息的深层特征传递至浅层，最终，根据特征像素大小，从小到大排序得到特征P5、特征P4、特征P3，将特征P5进行两次下采样得到特征P6和特征P7；

C、向深层补充浅层信息：从步骤A中得到的特征N5、特征N4、特征N3，特征N3(也为特征RP3)为具有位置信息的浅层特征，通过一次下采样将特征N3的特征像素大小缩小一倍，使其与特征N4进行像素级别的相加得到特征RP4，特征RP4通过一次下采样将特征RP4的特征像素大小缩小一倍，使其与特征N5进行像素级别的相加得到特征RP5，将具有位置信息的浅层特征传递至深层，最终，根据特征大小，从小到大得到特征RP5、特征RP4、特征RP3，将特征RP5进行两次下采样得到特征RP6、特征RP7；

(5)后处理过程：将步骤(4)得到的分类概率图和分类加权图进行像素级别的相乘进行加权，得到加权后的分类概率，根据加权后的分类概率对步骤(4)得到的包围框从大到小进行排序，选出加权后的分类概率排名前70对应的包围框进行非极大抑制得到最终的检测结果，即图像中的目标的类别、包围框中心的坐标以及包围框的长和宽。

2.根据权利要求1所述的一种基于注意力机制以及多尺度特征融合的目标检测方法，其特征在于，轻量级的全局注意力机制操作，包括步骤如下：

将特征Fv经过一次空间金字塔池化操作得到C*S二维矩阵；

3.根据权利要求1所述的一种基于注意力机制以及多尺度特征融合的目标检测方法，其特征在于，训练目标检测模型时，使用随机梯度下降进行了9万次迭代，初始学习率为0.01，预设批大小为16张图片，学习率在迭代到6W和8W次时分别下降为0.001和0.0001，权重衰减和momentum分别设置为0.0001和0.9。

4.根据权利要求1所述的一种基于注意力机制以及多尺度特征融合的目标检测方法，其特征在于，训练目标检测模型时，LOSS函数L(p,t)如式(I)所示：

式(I)中，N为预测结果中正样本的数量，p为预测的像素类别概率，p*为像素类别的groundtruth，t为回归的结果，t^*为像素距离包围框的groundtruth，g为分类加权图；

L_cls和L_reg分别代表分类LOSS函数和回归LOSS函数；

BCE为交叉熵Loss。

5.根据权利要求1所述的一种基于注意力机制以及多尺度特征融合的目标检测方法，其特征在于，将特征T5、特征N4和特征N3进行特征融合操作，得到特征N5，是指：

首先，将特征N4进行一次下采样得到特征N4’，特征N3进行两次下采样得到特征N3’；

然后，特征N4’、特征N3’与特征T5有同样维度和大小的特征，特征T5和特征N4’、特征N3’进行连接操作；

6.根据权利要求1-5任一所述的一种基于注意力机制以及多尺度特征融合的目标检测方法，其特征在于，步骤(1)中，图像预处理，包括步骤如下：

首先，调整输入的RGB图像的大小；

然后，对调整大小后的RGB图像进行随机旋转；

最后，将随机旋转后的RGB图像进行标准化。

7.根据权利要求6所述的一种基于注意力机制以及多尺度特征融合的目标检测方法，其特征在于，将输入的RGB图像的长边调整为1333个像素大小，短边调整为800个像素大小。

8.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7任一所述基于注意力机制以及多尺度特征融合的目标检测方法的步骤。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述基于注意力机制以及多尺度特征融合的目标检测方法的步骤。