CN116704236A

CN116704236A - 一种基于混合注意力机制的目标检测方法

Info

Publication number: CN116704236A
Application number: CN202310492347.1A
Authority: CN
Inventors: 沈志熙; 李俊北; 吴玥; 金其坚; 张洪田
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-09-05

Abstract

本发明涉及基于混合注意力机制的目标检测方法，包括获取现有数据集，构建多尺度道路场景目标检测模型，该模型是在小目标检测模型MS‑YOLOv5基础上进行的改进；MS‑YOLOv5以YOLOv5的主干特征提取网络作为基础模型，对其中的几个模块进行替换；以MS‑YOLOv5为基础模型，其中的模块进行替换并加入混合注意力机制MSCA；对输入数据集数据引入数据重采样操作，并进行训练，待最优收敛后保存模型参数得最优小目标检测模型；调用最优小目标检测模型，输入测图片进行检测，输出即为识别的结果。通过实验验证结果得出该方法提升了检测精度，同时改善了拥堵场景下存在漏检的情况。

Description

一种基于混合注意力机制的目标检测方法

技术领域

本发明涉及道路场景目标检测技术领域，特别涉及一种基于混合注意力机制的目标检测方法。

背景技术

道路场景目标检测是指在道路交通场景中，使用计算机视觉技术来自动识别和定位多种类型的目标物体，比如车辆、行人、交通标志等。目前，道路场景目标检测已经广泛应用于智能驾驶、交通安全监测、城市管理等领域。它需要通过计算机视觉方法，对图像或视频流进行处理，实现对各种目标物体的准确和实时检测。目标检测方法涉及到深度学习、机器学习、计算机视觉等多个技术领域，具有很高的技术复杂性。

道路场景目标检测中尺度不一致会对检测性能产生负面影响。如果模型只能适应某一特定尺度的目标，那么在不同尺度下的目标将无法被正确识别。同时，由于车辆、行人和其他物体尺度大小的变化，道路场景中存在大量的尺度不一致的目标，因此尺度不一致是道路场景目标检测中的一个严峻问题。为了解决这个问题，2015年，He等人设计了一种新的模块，即空间金字塔池化(Spatial Pyramid Pooling，SPP)，空间金字塔池化以不同尺度大小对输入数据进行分割，从得到的所有块中对每个块进行最大池化操作，最后将结果合并，得到全连接层的固定输入大小。从而解决了需要固定大小输入数据的问题。

而YOLOv5方法框架采用空间金字塔池化技术，旨在将多种尺寸的最大池化操作融合在一起，以此来增强局部特征与整体特征之间的关联，进一步拓展最终特征图的表示能力，并且可以获得更多有用的语义信息。同时还能增强方法在空间布局和物体变性方面的鲁棒性，进而提高方法的检测准确率。YOLOv5方法在Neck网络之前，主干特征提取网络backbone靠后的地方添加了SPP结构，

虽然YOLOv5方法采用SPP模块利用不同尺寸的池化层进行特征提取，可以使不同尺度的特征进行融合，加强最终特征的表达能力。但是还存在如下不足：

1.池化层增加感受野的同时将分辨率也变小了，这就导致了图像中的一些细节信息的缺失，无法将细节全部还原，以至于一些小目标的检测效果不好。

2.当交通道路上出现拥堵情况，各个物体之间存在遮挡，存在漏检的情况。

发明内容

针对现有技术存在的上述问题，本发明的要解决的技术问题是：在交通道路上出现拥堵情况下，如何在确保检查精度的情况下，尽可能不漏检。

为解决上述技术问题，本发明采用如下技术方案：基于混合注意力机制的目标检测方法，包括如下步骤：

S1：获取现有数据集，并对数据集进行预处理，经过预处理后的所有图片构成训练集；

S2：构建多尺度道路场景目标检测模型MSAT-YOLOv5，所述MSAT-YOLOv5是在小目标检测模型MS-YOLOv5基础上进行的改进；

S21：所述MS-YOLOv5将基于通道重组的轻量化逆瓶颈残差模块shuffle_res2net_s与YOLOv5主干特征提取网络中CSP_BottleNeck里的残差结构进行替换，定义为MSL_backbone模型；

将改进的多尺度空洞空间金字塔池化模块Imp_ASPP与YOLOv5中的空间金字塔池化模块SPP进行替换；

将改进后用于改善小目标检测性能的模块CONV_NS用于替换YOLOv5网络中的下采样模块；

S22：将MS-YOLOv5为基础模型，MS-YOLOv5主干网络中的每个CSP_Bottle2Neck中的shuffle_res2net_s结构都替换为ATTShuffle_res2net_s结构，定义为CSPAT_Bottle2Neck；

将混合注意力机制MSCA与MS-YOLOv5中的路径聚合网络PANet进行融合；

S3：对输入数据集数据引入数据重采样操作，并进行训练，待最优收敛后保存模型参数得最优小目标检测模型；

S4：调用最优小目标检测模型，输入测图片进行检测，输出即为识别的结果。

作为优选，S1中预处理是指：将现有数据中的Misc和DontCare类别去掉，将Van，Truck和Tram这三个样本数量很少的类别合并到Car这个大类别中，将Person_sitting类别合并到Pedestrain类别中，对数据集中的所有图片进行标准化操作，最后得到Car、Cyclist、Pedestrain这三个大类别的图片。

作为优选，所述S22中ATTShuffle_res2net_s包括：

所述ATTShuffle_res2net_s输入特征图为X∈R^C×H×W，经过分层的特征信息的提取，最后得到输出特征图y_i，其中i∈(1,2,3,4)。

对输出特征图在通道上进行拼接，通过卷积核大小为1×1的卷积操作进行特征信息的融合和通道维度的降维，然后采用ATTention(.)注意力机制操作【ATTention(.)采用CA(.)】，最后将经过注意力增强过的特征图与最开始的输入特征图进行元素级相加。

作为优选，所述S22中的混合注意力机制MSCA包括：

输入特征图为X∈R^C×H×W；

经过多个卷积核大小为3×3的深度可分离空洞卷积DWATCon₃v_×3(.)进行多尺度特征的提取，采样率分别为1，2，3，4，经过多尺度特征提取后的特征图为X_i∈R^C×H×W，其中i∈(1,2,3,4)；

之后将各个特征图进行元素级相加融合；

对融合后的特征图进行CA注意力机制进行增强，用CA(.)表示；

将得出的高和宽的权重系数g^h,g^w相乘并送入Softmax层进行处理；

将经过Softmax处理后得到的输出与前面4个深度可分离空洞卷积的输出特征图进行分别相乘，得到4个输出特征图；

最后将4个输出特征图进行元素级别的相加融合，并与最开始的输入特征图进行元素级相加实现对原始特征图的注意力加权操作，得到输出特征图Y∈R^C×H×W。

作为优选，所述S21中改进的多尺度空洞空间金字塔池化模块包括：

所述Imp_ASPP的输入特征图为X∈R^C×H×W；

将输入特征图分为5个分支，第一个分支采用卷积核大小为1×1进行卷积操作；

对于第2-4个分支以不同采样率的深度可分离空洞卷积并行采样获取不同尺度的图像上下文信息，并在每个深度可分离空洞卷积后面采样通道洗牌(shuffle)操作。对于分支的输入方面，将前一个分支的输出，与本分支的输入进行拼接作为本分支的输入。同时对于分支的输出方面，将前一个分支的输出，与本分支的输出进行拼接作为本分支的输出；

将第5个分支首先经过一个自适应均值池化，然后经过一个1×1的卷积层，最终将特征图从1×1的大小上采样回原来的尺寸；

将5个分支的输出X′_i＝R^C×H×W，其中i＝(1,2...5)在通道层面进行Concat拼接，再利用Conv(1×1)进行降维恢复到原来的通道数量，最终得到输出特征图Y∈R^C×H×W。

作为优选，所述S21中改进后用于改善小目标检测性能的模块CONV_NS包括：

所述CONV_NS的输入特征图为X∈R^C×H×W；

经过卷积核大小为3×3，stride＝1的卷积进行特征的提取，不改变输入特征图的空间大小，先将通道维数缩小至原来的1/2，变为C/2，得到特征图X′＝R^C/2×H×W；

对特征图X′＝R^C/2×H×W进行重塑操作。特征图变为X”＝R^{C/2×new_h×scale×new_w×scale}，new_h、new_w为之后新生成特征图的高和宽，scale为缩放尺度；

对X”进行transpose转置操作成X”′＝R^{C/2×scale×scale×new_h×new_w}；

转置操作成后再进行重塑操作成Y∈R^{2C×new_h×new_w}，在通道维度进行拼接，使得通道维数变为原来的2倍，同时特征图的空间大小缩小为原来的1/2。

作为优选，所述S3中重采样操作的具体步骤为：

为训练集中每个类别分配一个学习权重；

计算出训练集中每张图片中各个类别的数量，之后根据各个类别的学习权重去计算出每张图片的采样权重；

根据每张图片的采样权重，通过random.choices()函数生成图片索引，在每次数据加载时按照各个索引进行加载图片。

相对于现有技术，本发明至少具有如下优点：

本发明以改进的MS-YOLOv5为基础框架(baseline)对其进行改进，为了改善拥堵场景下遮挡目标存在漏检的情况以及进一步提升小尺度目标的检测能力，引入了计算机视觉领域内的注意力机制，提出了一种融合注意力机制的基于通道重组的轻量化逆瓶颈残差结构ATTShuffle_res2net_s结构。又对常见的注意力机制CA进行改进，提出了一种新型的混合注意力机制MSCA并将其与MS-YOLOv5的路径聚合网络PANet进行融合。通过对KITTI数据集引入数据重采样操作解决道路场景中样本类别不均衡问题。最后通过实验验证结果得出MSAT-YOLOv5进一步提升了对小尺度目标的检测能力，同时改善了拥堵场景下存在漏检的情况。最终MSAT-YOLOv5，在测试集上的精度(Map(@.5))为88.66％，较MS-YOLOv5(baseline)提高了1.21％。每个类别都有一定提升，分别提升了Car(0.65％)，Cyclist(0.53％)，Pedestrian(2.35％)。与原版的YOLOv5相比，MSAT-YOLOv5的MAP(@.5)提高了5.4％，在保证整体精度提升的情况下，对小尺度小样本数量的目标的精度也有所提升，Cyclist提升了8.59％，Pedestrain提升了7.63％。同时与其他主流的几种目标检测方法及改进的道路场景目标检测方法相比，都有较好的效果。

附图说明

图1为MSAT-YOLOv5网络框架图。

图2为MS-YOLOv5方法框架图。

图3为ATTShuffle_res2net_s结构图。

图4为CSPAT_Bottle2Neck模块结构图。

图5为MSCA注意力机制结构图

图6为融合策略方式展示图。

图7为改进的多尺度空洞空间金字塔池化(Imp_ASPP)结构图。

图8为深度可分离空洞卷积的计算过程展示图。

图9为改进用于小目标检测模块(CONV_NS)结构图。

图10为MSAT-YOLOv5检测效果图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1和图2，基于混合注意力机制的目标检测方法，包括如下步骤：

S1：获取现有数据集，并对数据集进行预处理，经过预处理后的所有图片构成训练集。

S2：构建多尺度道路场景目标检测模型MSAT-YOLOv5，所述MSAT-YOLOv5是在小目标检测模型MS-YOLOv5基础上进行的改进。

S21：所述MS-YOLOv5将基于通道重组的轻量化逆瓶颈残差模块shuffle_res2net_s与YOLOv5主干特征提取网络中CSP_BottleNeck里的残差结构进行替换，定义为MSL_backbone模型。

将改进的多尺度空洞空间金字塔池化模块Imp_ASPP与YOLOv5中的空间金字塔池化模块SPP进行替换。

将改进后用于改善小目标检测性能的模块CONV_NS用于替换YOLOv5网络中的下采样模块。

将混合注意力机制MSCA与MS-YOLOv5中的路径聚合网络PANet进行融合。

S3：对输入数据集数据引入数据重采样操作，并进行训练，待最优收敛后保存模型参数得最优小目标检测模型。

具体的，S1中预处理是指：将现有数据中的Misc和DontCare类别去掉，将Van，Truck和Tram这三个样本数量很少的类别合并到Car这个大类别中，将Person_sitting类别合并到Pedestrain类别中，对数据集中的所有图片进行标准化操作，最后得到Car、Cyclist、Pedestrain这三个大类别的图片。本发明使用目前应用较多的交通道路场景数据集KITTI，KITTI总共包括9个类别：Car，Van，Truck，Tram，cyclist，Pedestrian，Person_sitting，Misc和DontCare。

参见图3，具体的，所述S22中ATTShuffle_res2net_s包括：

对输出特征图在通道上进行拼接，通过卷积核大小为1×1的卷积操作进行特征信息的融合和通道维度的降维，然后采用ATTention(.)注意力机制操作，最后将经过注意力增强过的特征图与最开始的输入特征图进行元素级相加。【ATTention(.)采用CA(.)】

ATTShuffle_res2net_s的表达式如下所示：

对MS-YOLOv5的主干网络中的每个CSP_Bottle2Neck进行改造，用ATTShuffle_res2net_s与YOLOv5主干特征提取网络中CSP_BottleNeck里的残差结构进行替换，即只在含有跳跃连接的CSP_Bottle2Neck中加入注意力机制。改进后的CSPAT_Bottle2Neck模块结构图如图4所示。

参见图5，所述S22中的混合注意力机制MSCA包括：

输入特征图为X∈R^C×H×W；

之后将各个特征图进行元素级相加融合；

对融合后的特征图进行CA注意力机制进行增强，用CA(.)表示；

最后将4个输出特征图进行元素级别的相加融合，并与最开始的输入特征图进行元素级相加实现对原始特征图的注意力加权操作，防止因网络深度增加而导致梯度消散，得到输出特征图Y∈R^C×H×W。

混合注意力机制MSCA的表达式如下：

X_i＝DWATConv_3x3(X)(3)

参考图6为融合策略方式展示图。MSCA与路径聚合网络(PANet)的融合策略结构图如参考图6所示。取名为MSCA_PANet。

参见图7，所述S21中改进的多尺度空洞空间金字塔池化模块包括

所述Imp_ASPP的输入特征图为X∈R^C×H×W；

Imp_ASPP的表达式如下所示：

式中的所有卷积操作都包含BN层和激活函数，如参考图7虚线矩形框所示。其中X_i表示输入的第i个分支，Conv_1×1(.)表示卷积核大小为1×1的卷积，目的是使进入深度可分离空洞卷积的输入通道数减半，防止模型过宽。DWATConv(.)表示卷积核大小为3的深度可分离空洞卷积，shuffle表示通道洗牌操作，concat(.)表示在通道层面进行拼接，pool(.)表示对第5个分支采用自适应均值池化操作，up_sample(.)表示上采样操作。

原ASPP模块的参数量为2644480，改进后的多尺度空洞空间金字塔池化Imp_ASPP模块的参数量为1576448，减少了约40％的参数量。并在后续对比实验的验证下，在参数量减少的前提下，Imp_ASPP比原版ASPP给方法带来了更高的检测精度。

参见图8，深度可分离空洞卷积由逐通道空洞卷积(Depthwise AtrousConvolution，DAConv)和逐点卷积(Pointwise Convolution，PWConv)构成。和深度可分离卷积的区别就是第一部分的卷积用空洞卷积来代替。将普通空洞卷积一步操作分解为两步完成，参数量下降2/3，极大地节约了存储空间。

参见图9，所述S21中改进后用于改善小目标检测性能的模块CONV_NS包括：

所述CONV_NS的输入特征图为X∈R^C×H×W；

对特征图X′＝R^C/2×H×W进行重塑操作。特征图变为X”＝R^{C/2×new_h×scale×new_w×scale}，new_h、new_w为之后新生成特征图的高和宽，scale为缩放尺度，这里scale＝2，相当于将特征图的空间大小缩小为原来的1/2；

CONV_NS的表达式如下所示：

Y＝reshape(transpose(reshape(Conv_3x3(X)))) (8)

CONV_NS模块可以在不损失图像中信息的情况下，实现类似于stride＝2的下采样卷积操作。通过后续实验证明，利用CONV_NS模块替换YOLOv5方法框架中的下采样卷积模块，对基于道路场景下的小目标检测精度有明显改善。

实验验证：

以MS-YOLOv5作为baseline模型，采用KITTI数据集中的2D目标检测子数据集进行训练和测试，分析并比较各种改进模块的性能效果，并对检测结果进行展示。

1.实验数据集

采用目前应用较多的交通道路场景数据集KITTI数据集，证明融合了各个改进模块的MSAT-YOLOv5在交通道路场景中检测性能提升。

KITTI数据集中的场景是真实的交通场景(乡村、高速公路、市区)，通过利用搭载多种传感器地采集车辆采集得到的。该数据集常用于2D目标检测，3D目标检测，3D跟踪等任务。本文采用KITTI中2D目标检测的子数据集。这个子数据集包括7481张带有标注信息的训练图片和7518张无标注信息的测试图片。本发明使用7481张带有标注信息的图片进行实验。经过数据预处理后KITTI中各类别样本数量如表1所示。

表2 KITTI中各类别样本数量

类别	Car	Pedestrain	Cyclist	Total
					数量	32750	4709	1627	39086

2.评价标准

由于本发明的实验数据集是基于VOC数据集的格式制作的，为了评价所设计出来的目标检测方法的有效性，采用VOC数据集的评价指标。

IOU(Intersection over Union)：指的是检测框和真实框之间重合面积和取并集面积数值的比值。

TP(True Positive)：当实际值是正样本，目标检测模型预测出来的也是正样本，记为TP。

FP(False Positive)：目标检测模型预测出来的是正样本，但实际真实值是负样本，记为FP。也称误检，预测的Bounding Box与Ground Truth的IOU小于阈值的检测框(定位错误)或者预测的类型与标签类型不匹配(分类错误)。

FN(False Negative)：目标检测模型预测出来的是负样本，但实际真实值却是正样本，记为FN。也称漏检，指没有检测出的Ground Truth区域。

TN(True Negative)：当实际值是负样本，目标检测模型预测出来的是负样本，在目标检测中，通常不关注TN。

准确度(Precision)也叫查准率，是指在识别出的物体中，TP所占的比率。可以用来表示目标检测模型预测某种类别目标的准确性大小。

查全率(Recall)也叫召回率，指的是识别认为是正确的物体占实际是正确物体的比率。

AP(Average Precision)，指的是以recall为横轴，precision为纵轴的PR曲线所包围的面积，MAP(Mean AP)，指的是使用不同的阈值对目标检测后，将所有类别的AP进行求均值，得出的数值。一般目标检测大多采用MAP(@.5)和MAP(@.5:.95)作为评价指标。MAP(@.5)表示在IOU阈值为0.5时的MAP大小，MAP(@.5:.95)表示IOU阈值在离散区间[0.5:0.05:0.95]时的MAP大小。本发明采用MAP(@.5)作为评价目标检测模型性能好坏的指标。

3.实验设置

本发明实验采用KITTI数据集中的2D目标检测子数据集，将数据集按trainval:test(8:2),train:val(9:1)比例划分训练集，验证集和测试集。其中train数据集中包含5385张图片，val数据集包含599张图片，test数据集中包含1497张图片。同时由于KITTI数据集中的图片基本都是从视频中按帧截取得来的，一个视频中的场景大多数相似。为了防止模型过拟合现象的发生，在划分数据集的时候尽量避免类似的场景即出现训练集中又出现在测试集中。对于所有模型，实验设置都采用：图片输入大小为640×640，batch_size设置为10，训练周期(epoch)为100，损失函数Loss为GIOU_Loss，初始学习率learning rate＝0.001，优化器采用Adam，动量momentum＝0.937,权重衰减项weight_decay＝5e-4，采用余弦退火(cos)有序调整学习率，使用Mosica数据增强进行数据集预处理，Mosica数据增强只在前70％个epoch开启，例如100个epoch会开启70个epoch。后30个epoch采用普通的数据增强(随机翻转、色域变换等)。原因是由Mosaic生成的训练图片，远远脱离自然图片的真实分布，应在快要训练结束的时候使图片恢复到自然分布状态。

4.实验结果分析

按照提出的ATTShuffle_res2net_s的结构图，将其中的ATTention模块利用目前计算机视觉领域内几种主流的注意力机制方法(SE(.),ECA(.),CBAM(.),CA(.))进行替换。并将替换好后的ATTShuffle_res2net_s结构按照所介绍的融合策略，与MS-YOLOv5的主干网络进行结合。利用改进后的模型，分别进行实验，最后比较各个模型的性能效果。实验结果如表2所示：

表2各改进模型实验效果对比

从上表可以看出，将目前计算机视觉领域内几种常见的注意力机制方法融入到ATTShuffle_res2net_s中，和MS-YOLOv5(baseline)进行对比，整体精度都可以得到一定程度上的提高。同时由于在数据集预处理环节中加入数据重采样操作，实验结果证明可以改善小样本数量小尺度目标的检测效果，但是由于对大样本数量大尺度目标其实采取了欠采样的数据采样手法，导致Car类别的精度有所下降，但是在本发明提出的ATTShuffle_res2net_s引入MS-YOLOv5方法之后，Car类别的精度都有所提升，同时其他类别也有一定程度上的提升。最后选择ATTShuffle_res2net_s(CA)作为融合注意力机制的多尺度信息逆瓶颈残差结构的最终结构，在测试集上的精度(Map(@.5))为87.67％，较baseline提高了0.22％。Car和Pedestrian的精度为93.00％和82.14％，分别有0.2％和2.05％的提升。最终val_loss减少到约0.0421。

按照参考图6融合策略方式展示图，将MSCA融入进去。为了对比实验，将CA注意力机制方法也分别融入到PANet中。利用改进后的模型，分别进行实验，最后比较各个模型的性能效果。

实验结果如表3所示，从实验结果可以看出提出的MSCA注意力机制融入到路径聚合网络中有一定的效果提升。在整体检测精度提高的前提下，将因数据重采样导致Car类别的精度下降，恢复到了和YOLOv5方法差不多的水平。同时另外两个类别(Cyclist、Pedestrian)的检测精度又有了进一步的提升。最终MSAT-YOLOv5方法，在测试集上的精度(Map(@.5))为88.66％，较baseline提高了1.21％。每个类别都有一定提升，分别提升了0.65％，0.53％，2.35％。最终val_loss减少到约0.0417。

表3各改进模型实验效果对比

将提出的MSAT-YOLOv5和改进的道路场景目标检测方法进行对比。与原版的YOLOv5相比，MSAT-YOLOv5的MAP(@.5)提高了5.4％，在保证整体精度提升的情况下，对小尺度小样本数量的目标的精度也有所提升，Cyclist提升了8.59％，Pedestrain提升了7.63％。同时与其他主流的几种目标检测方法及改进的道路场景目标检测方法相比，都有较好的效果。

表3不同方法模型对比实验结果

分别采用MS-YOLOv5模型和MSAT-YOLOv5模型，对测试集上的图片进行检测，并将检测效果图可视化，检测效果图如参考图10所示。左边列为MSAT-YOLOv5的检测效果图，右边列为MS-YOLOv5的检测效果图。对本章前面提出的几种MS-YOLOv5方法还存在的改进地方：1)由于MS-YOLOv5方法采用了数据重采样的操作，导致Car类别的精度有所下降。2)小样本数量小尺度目标(Cyclist、Pedestrian)的检测精度还有提升的空间。3)当出现遮挡情况，会存在漏检。通过对比检测效果图可以发现，改进的MSAT-YOLOv5方法对存在遮挡情况下的道路场景目标有更好的检测效果，同时也进一步提升了对远距离小尺度目标的检测效果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于混合注意力机制的目标检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于混合注意力机制的目标检测方法，其特征在于：S1中预处理是指：将现有数据中的Misc和DontCare类别去掉，将Van，Truck和Tram这三个样本数量很少的类别合并到Car这个大类别中，将Person_sitting类别合并到Pedestrain类别中，对数据集中的所有图片进行标准化操作，最后得到Car、Cyclist、Pedestrain这三个大类别的图片。

3.如权利要求1或2所述的基于混合注意力机制的目标检测方法，其特征在于：所述S22中ATTShuffle_res2net_s包括：

所述ATTShuffle_res2net_s输入特征图为X∈R^C×H×W，经过分层的特征信息的提取，最后得到输出特征图y_i，其中i∈(1,2,3,4)，X表示输入特征图，C为输入通道，H为特征图高度，W为特征图宽度；

对输出特征图在通道上进行拼接，通过卷积核大小为1×1的卷积操作进行特征信息的融合和通道维度的降维，然后采用CA(.)注意力机制操作，最后将经过注意力增强过的特征图与最开始的输入特征图进行元素级相加。

4.如权利要求3所述的基于混合注意力机制的目标检测方法，其特征在于：所述S22中的混合注意力机制MSCA包括：

输入特征图为X∈R^C×H×W；

经过多个卷积核大小为3×3的深度可分离空洞卷积DWATConv_3×3(.)进行多尺度特征的提取，采样率分别为1，2，3，4，经过多尺度特征提取后的特征图为X_i∈R^C×H×W，其中i∈(1,2,3,4)；

之后将各个特征图进行元素级相加融合；

对融合后的特征图进行CA注意力机制进行增强，用CA(.)表示；

5.如权利要求4所述的基于混合注意力机制的目标检测方法，其特征在于：所述S21中改进的多尺度空洞空间金字塔池化模块包括：

所述Imp_ASPP的输入特征图为X∈R^C×H×W；

将5个分支的输出X'_i＝R^C×H×W，其中i＝(1,2...5)在通道层面进行Concat拼接，再利用Conv(1×1)进行降维恢复到原来的通道数量，最终得到输出特征图Y∈R^C×H×W。

6.如权利要求5所述的基于混合注意力机制的目标检测方法，其特征在于：所述S21中改进后用于改善小目标检测性能的模块CONV_NS包括：

所述CONV_NS的输入特征图为X∈R^C×H×W；

经过卷积核大小为3×3，stride＝1的卷积进行特征的提取，不改变输入特征图的空间大小，先将通道维数缩小至原来的1/2，变为C/2，得到特征图X'＝R^C/2×H×W；

对特征图X'＝R^C/2×H×W进行重塑操作。特征图变为X”＝R^{C/2×new_h×scale×new_w×scale}，new_h、new_w为之后新生成特征图的高和宽，scale为缩放尺度；

对X”进行transpose转置操作成X”'＝R^{C/2×scale×scale×new_h×new_w}；

7.如权利要求6所述的基于混合注意力机制的目标检测方法，其特征在于：

所述S3中重采样操作的具体步骤为：

为训练集中每个类别分配一个学习权重；