CN115272828B

CN115272828B - 一种基于注意力机制的密集目标检测模型训练方法

Info

Publication number: CN115272828B
Application number: CN202210959951.6A
Authority: CN
Inventors: 臧贺藏; 王言景; 周萌; 张建涛; 张�杰; 赵晴; 李国强; 郑国清
Original assignee: Institute Of Agricultural Economics And Information Henan Academy Of Agricultural Sciences
Current assignee: Institute Of Agricultural Economics And Information Henan Academy Of Agricultural Sciences
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2023-04-07
Anticipated expiration: 2042-08-11
Also published as: CN115272828A

Abstract

本发明属于图像处理技术领域，公开了一种基于注意力机制的密集目标检测模型训练方法。步骤为：获取样本图像集，将样本图像集划分为训练集、验证集和测试集，所述样本图像集包括多幅含有目标物的样本图像及其目标标注结果；将训练集输入预先构建的密集目标检测模型进行检测，得到目标检测结果，根据目标检测结果以及目标标注结果构建损失函数，得到训练后的密集目标检测模型；所述密集目标检测模型是在YOLOv5s基础网络框架中嵌入通道注意力机制和全局注意力机制得到的；采用验证集、测试集验证和测试密集目标检测模型性能。本发明密集目标检测模型兼备速度快和精度高的优点，能够准确检测出小尺度小麦穗数，较好地解决了小麦穗数的遮挡和重叠问题。

Description

一种基于注意力机制的密集目标检测模型训练方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于注意力机制的密集目标检测模型训练方法。

背景技术

小麦是我国重要的粮食作物，2021年我国小麦种植面积2291.1万公顷，产量1.34亿吨，是世界最大的小麦生产国。穗数是小麦产量估算的重要指标，因此，小麦穗数检测是预测和评估小麦产量的关键，及时准确获取小麦穗数一直是小麦育种及栽培研究的焦点。

在实际生产中，小麦穗数的获取主要包括低通量的人工田间调查和高通量的遥感图像处理。人工田间调查存在主观性强、随机性强、缺乏统一的标准，导致科研人员费时费力、效率低等缺点，不能高效快速地获取麦穗统计结果。高通量的遥感图像处理是基于遥感影像中不同纹理、颜色特征等进行特征融合提取小麦穗数。近年来，随着人工智能的快速发展，利用深度学习目标检测模型在小麦麦穗图像检测方面取得了显著进展，是目前麦穗识别和检测计数的主要技术手段，在检测精度和速度方面达到了顶级性能。深度学习可利用冬小麦数码图像，获取麦穗的颜色、纹理和形状特征，通过深度学习方法建立麦穗识别分类器，从而实现麦穗识别和检测计数。Zhou等提出了一种支持向量机分割方法，用于可见光图像中分割小麦麦穗。 Sadeghi-Tehran等开发了小麦穗数计数***DeepCount，用于自动识别和统计拍摄麦穗图像中的小麦穗数。Tahani等基于全卷积神经网络构建了SpikeletFCN小穗计数模型，利用密度估计的方法来计算小麦小穗数。Alkhudaydi T等采用全卷积神经网络SpikeletFCN，在提取小麦小穗数时，误差降低了89％。这些研究结果都表明了深度卷积神经网络对小麦麦穗计数具有较好的鲁棒性。此外，Hasan等和Li等采用R-CNN方法进行小麦麦穗检测、计数和分析，具有较高的识别精度，但检测速度慢，无法部署在实时性检测设备中。

目标检测的单阶段算法有SSD和YOLO系列，包括YOLO、YOLO9000、YOLOv3、YOLOv4和YOLOv5。单阶段检测算法也被称为基于回归分析的目标检测算法，其将目标检测问题视为对目标位置和类别信息的回归分析问题，通过一个神经网络模型可直接输出检测结果。考虑到卫星、地面遥感以及无人机的成本和观测局限性，根据研究人员的需求，利用智能手机显著提高了小麦麦穗调查效率。Zhao等提出了一种基于改进的YOLOv5的小麦麦穗检测方法，该方法主要引入数据清洗和数据增强来提高检测网络的泛化能力，根据IoU调整检测层的置信度损失函数来重建网络。然而，在麦穗图像检测中，由于麦穗密度高、遮挡及交叉重叠严重，导致麦穗检测错误和漏检等问题。同时，由于小麦个体麦穗间形态差异较大，且麦穗颜色与背景一致，进一步增加了小麦麦穗检测难度和精度。

发明内容

针对现有技术中存在的问题和不足，本发明的目的在于提供一种基于注意力机制的密集目标检测模型训练方法。

基于上述目的，本发明采用如下技术方案：

本发明第一方面提供了一种基于注意力机制的密集目标检测模型训练方法，包括如下步骤：

S10：获取样本图像集，所述样本图像集包括多幅含有目标物的样本图像以及每幅样本图像对应的目标标注结果，所述样本图像的目标标注结果包括含有目标物的标注框和标注框对应的类别信息；将样本图像集按比例随机划分为训练集、验证集和测试集；

S20：将训练集中的样本图像输入预先构建的密集目标检测模型进行检测，得到所述样本图像的目标检测结果，所述样本图像的目标检测结果包括基于目标检测得到的所述样本图像的含有目标物的预测框和预测框对应的类别信息；根据样本图像的目标检测结果以及样本图像的目标标注结果构建损失函数，根据所述损失函数，采用反向传播对密集目标检测模型进行参数更新，得到训练后的密集目标检测模型；所述密集目标检测模型是在YOLOv5s基础网络框架中嵌入通道注意力机制模块和全局注意力机制模块得到的；

S30：采用验证集对步骤S20得到的训练后的密集目标检测模型进行验证，从训练后的密集目标检测模型中选出最优密集目标检测模型；

S40：采用测试集对步骤S30得到的最优密集目标检测模型进行测试，评估最优密集目标检测模型的性能。

优选地，所述密集目标检测模型中通道注意力机制模块为ECA(EfficientChannel Attention)模块，全局注意力机制模块为GAM(Global Attention Mechanism)模块。

优选地，所述YOLOv5s基础网络框架中主干网络CSPDarknet53包括4个C3模块，所述密集目标检测模型是在主干网络CSPDarknet53每个C3模块后***1个所述ECA模块(即将YOLOv5s基础网络框架中主干网络CSPDarknet53的C3模块替换为C3-ECA模块)。

优选地，所述YOLOv5s基础网络框架中Head网络包括3个二维卷积层，所述密集目标检测模型是在Head网络每个二维卷积层前***1个所述GAM模块。

更加优选地，步骤S20中所述损失函数由定位损失函数、分类损失函数和目标置信度损失函数组成，其中定位损失函数为CIoU损失函数，所述CIoU损失函数的定义如下所示：

其中，IoU是检测框与真实目标框的交并比；ρ²(b，b^gt)表示检测框和真实目标框两个中心点之间的欧氏距离，其中b代表检测框，b^gt代表真实目标框；c表示最小闭合凸面的对角线距离；α是用来平衡比例的参数；v是衡量检测框和真实目标框之间的比例是否一致的参数。

更加优选地，所述ECA模块是基于SENet的改进网络，使用一维卷积替换掉SENet中的两个全连接层组成的瓶颈结构，提出不降维的局部跨信道交互策略和自适应选择卷积核大小。

更加优选地，所述ECA模块对输入的特征图进行处理的具体过程为：

(1)将尺寸大小为H×W×C的特征图输入全局平均池化层(GAP)，对特征图上的全局空间信息进行压缩，即在空间维度H×W上进行压缩，得到尺寸大小为1×1×C的特征图；

(2)将步骤(1)得到的尺寸大小为1×1×C的特征图通过一个卷积核大小为k的一维卷积操作，并进行sogmoid激活函数操作得到各个通道的权重；其中，k的计算公式如下所示：

其中，C代表通道维数，|t|_odd表示距离t最近的奇数，γ设置为2，b设置为1。

(3)将步骤(2)得到的权重与原始输入特征图对应元素相乘，得到尺寸大小为H×W×C 的最终输出特征图。

更加优选地，所述GAM模块采用序贯的通道-空间注意力机制并将CBAM子模块重新设计而成，是一种可以减少信息弥散的同时也可以放大全局维度交互特征的注意力机制。

更加优选地，所述GAM模块由1个通道注意力子模块和1个空间注意力子模块组成，其中，所述通道注意力子模块使用三维排列以在三个维度上保留信息，然后在一个两层的多层感知机(MLP，一种编码-解码器结构，与BAM相同，压缩比为r)上放大跨维通道-空间依赖性；所述空间注意力子模块使用两个卷积核大小为7×7的卷积操作进行空间信息融合，同时为了消除池化带来的特征丢失，删除池化操作以进一步保持特征映射。

更加优选地，所述GAM模块对输入的特征图进行处理的具体过程为：将特征图F₁∈R^C×H×W输入通道注意力子模块得到F₁输出结果，将F₁输出结果与输入特征图F₁对应元素相乘，得到中间特征图F₂；将中间特征图F₂输入空间注意力子模块得到F₂输出结果，将F₂输出结果与中间特征图F₂对应元素相乘，得到最终输出特征图F₃；其中，中间特征图F₂和最终输出特征图F₃定义为：其中，M_C和M_S分别表示通道注意力图和空间注意力图；表示按元素相乘。

更加优选地，所述训练集中样本图像筛选自小麦麦穗图像公开数据集Globalwheat challenge 2021；所述验证集和测试集中样本图像筛选自自建样本图像集。

更加优选地，所述自建样本图像集中样本图像由手机拍摄的小麦抽穗期原始图像经数据增强处理后而成。

更加优选地，所述数据增强处理方式包括明暗度调整、图像翻转与旋转；所述图像翻转包括水平翻转，所述图像旋转包括-45°～45°方向的随机旋转。

本发明第二方面提供了一种图像密集目标检测方法，所述方法包括：获取待检测图像，将所述待检测图像输入密集目标检测模型，得到所述待检测图像的目标检测结果；其中，所述密集目标检测模型为上述第一方面任一所述密集目标检测模型训练方法进行训练得到的训练后的密集目标检测模型。

优选地，所述待检测图像为小麦麦穗图像，所述目标检测结果为小麦穗数。

本发明第三方面提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的密集目标检测模型训练方法中的任一步骤，和/或如上述第二方面所述的图像密集目标检测方法。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的密集目标检测模型训练方法中的任一步骤，和/或如上述第二方面所述的图像密集目标检测方法。

与现有技术相比，本发明的有益效果如下：

(1)本发明提出了一种基于注意力机制改进YOLOv5s的密集目标检测模型，用于小麦穗数的精准检测。由于注意力机制可以更有效的提取特征信息，抑制无用信息，本发明选择将通道注意力机制模块和全局注意力机制模块引入标准YOLOv5s网络中。具体地，本发明密集目标检测模型在标准YOLOv5s网络模型的主干结构的C3模块中引入ECA；同时将GAM***到Neck网络与Head网络之间。该模型提高了网络对目标特征的提取能力，同时提高了YOLOv5s方法在复杂田间环境中的适用性和泛化性，加强对未知特征的提取能力，能够准确检测出小尺度小麦穗数，较好地解决了小麦穗数的遮挡和重叠问题。

(2)本发明提出了基于注意力机制改进的YOLOv5s的密集目标检测模型对小麦麦穗图像进行检测的方法。该方法包括3个关键步骤：小麦麦穗图像的数据预处理、添加注意力机制模块进行模块改进、融合注意力机制的YOLOv5s网络模型。在小麦麦穗计数任务中，改进后的YOLOv5s模型与标准YOLOv5s相比，准确率提升了9.30％；与标准YOLOv5m相比，参数量减少了27.6％，计算量减少了34.0％，而准确率提升了3.92％。实验结果表明，改进后的 YOLOv5s模型对提高复杂田间环境中通过智能手机获取的小麦麦穗图像识别精度具有重要参考价值，能在提高精度的同时拥有更快的检测速度，兼具较强的检测精度、速度和鲁棒性，为模型在移动设备上的部署奠定基础。

附图说明

图1为本发明全球小麦数据集中部分图像示例；

图2为本发明实施例样本图像采集点位置图；

图3为本发明实施例小麦抽穗期部分样本图像示例；

图4为本发明标准YOLOv5s网络结构示意图；

图5为本发明标准YOLOv5s网络中主干网络子模块结构示意图；

图6为本发明ECA模块结构示意图；

图7为本发明C3-ECA模块结构示意图；

图8为本发明GAM模块及其子模块结构示意图；

图9为本发明密集目标检测模型结构示意图；

图10为本发明实施例中标准YOLOv5s网络模型、YOLOv5m网络模型、YOLOv5l网络模型、YOLOv5x网络模型与密集目标检测模型在田间环境下对小麦麦穗的识别结果；

图11为本发明密集目标检测模型在小麦麦穗图像中不同麦穗密度以及背景下的识别结果。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下通过实施例结合附图，对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例1

本实施例提供一种基于注意力机制的密集目标检测模型训练方法，包括如下步骤：

S10：获取样本图像集，所述样本图像集包括多幅含有目标物小麦穗的样本图像以及每幅样本图像对应的目标标注结果，所述样本图像的目标标注结果包括含有目标物的标注框和标注框对应的类别信息；将样本图像集按比例随机划分为训练集、验证集和测试集。

步骤S10中所述含有目标物的样本图像以及每幅样本图像对应的目标标注结果的获取过程为：

S11：筛选公开数据集作为训练集样本图像。

训练集中样本图像筛选自Global wheat challenge 2021 InternationalConference on Computer Vision 2021提供的小麦麦穗图像公开数据集(数据来源：https://www.aicrowd.com/challenges/global-wheat-challenge-2021，于2021年7月6日下载)，包含3655幅图像，每幅图像的分辨率为1024像素×1024像素，部分图像示例如图1所示。该数据集由 sample_submission.csv、test.zip和train.zip组成。

S12：采集试验地抽穗期小麦的样本图像并划分验证集和测试集样本图像。

试验地位于河南省农业科学院河南现代农业研究开发基地的小麦区域试验，地处北纬 35°0’44”，东经113°41’44”，如图2所示。气候类型属暖温带大陆性季风气候，年平均气温为 14.4℃，多年平均降雨量为549.9mm，全年日照时数2300-2600h，小麦—玉米轮作为该地区的主要种植模式。试验采用完全随机区组设计，播种日期为2020年10月9日，种植密度195 万株/hm²，共设有501个小区，每个小区冬小麦新品种种植6行，3次重复，小区面积12m²。试验田管理措施高于普通大田。

于2021年4月19日和4月20日上午10:00，天气晴朗无云，使用智能手机华为Honor20pro 获取小麦抽穗期样本图像，拍摄人员将智能手机固定在手持拍摄杆上，在小麦冠层上方50cm 处垂直拍摄，总共拍摄了560幅图像，每幅图像分辨率为960像素×720像素。小麦抽穗期部分样本图像示例如图3所示。根据每幅图像中小麦穗数，筛选出拍摄清晰无遮挡的500幅原始图像。

为提高训练模型的泛化能力，利用Pytorch框架中的Opencv软件对原始图像进行数据增强，对采集数据进行明暗度调整、、水平翻转以及-45°～45°方向的随机旋转。数据增强后，共获得2500幅样本图像并以此建立自建样本图像集，将自建样本图像集按8:2的比例分为验证集和测试集中的样本图像。

S13：获取每幅样本图像对应的目标标注结果。利用标注工具Labelimg，按照Pascal VOC 数据集的格式要求，对数据集进行标注，生成.xml类型的标注文件，内容包括train/box_loss、train/obj_loss、train/cls_loss、precision、recall、mAP_0.5、mAP_0.5:0.95、val/box_loss、val/obj_loss、 val/cls_loss、x/lr0、x/lr1、x/lr2。

S20：将训练集中的样本图像输入预先构建的密集目标检测模型进行检测，得到所述样本图像的目标检测结果，所述样本图像的目标检测结果包括基于目标检测得到的所述样本图像的含有目标物的预测框和预测框对应的类别信息；根据样本图像的目标检测结果以及样本图像的目标标注结果构建损失函数，根据所述损失函数，采用反向传播对密集目标检测模型进行参数更新，得到训练后的密集目标检测模型；所述密集目标检测模型是在YOLOv5s基础网络框架中嵌入通道注意力机制模块和全局注意力机制模块得到的；所述损失函数由定位损失函数、分类损失函数和目标置信度损失函数组成，其中定位损失函数为CIoU损失函数，所述CIoU损失函数的定义如下所示：

所述密集目标检测模型的构建过程为：

S21：构建标准YOLOv5s基础网络。

基于Pytorch1.10深度学习框架，CUDA11.2；采用Linux Ubuntu18.04 LTS操作***，Core^TMi7-8700 [email protected]处理器，Tesla T4 16G进行实验。本发明实施例采用样本图像的尺寸大小为640像素×640像素，输入的批次大小设置为8，训练过程共设置60个epoch，训练过程采用SGD优化器，初始学习率为0.01，动量因子为0.937，权重衰减率0.0005。

YOLOv5是YOLO系列的最新产品，在YOLOv4基础上进行改进，运行速度大大提高。YOLOv5网络模型结构主要分为YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x5 个版本。YOLOv5n参数量最少，但是准确率较低。YOLOv5s在保证较高准确率的同时深度和宽度较小，其他3个版本是在此基础上不断加深加宽，尤其在增强图像语义信息提取时增加了计算量。如直接使用预训练的YOLOv5x预测准确率高，但是网络的推理速度慢，同时模型的参数量168M，难以在硬件设备上部署。YOLOv5s具有运行速度快、灵活性高的特点，在模型快速部署上具有较强的优势。

因此，本实施例选择构建YOLOv5s基础网络，其结构如图4所示，该网络由输入端(Input)、主干网络(Backbone)、颈部(Neck)和头部(Head)4部分组成。其中，输入端输入图像的尺寸大小为640×640×3，并采用Mosaic数据增强、自适应锚框计算和图像缩放等策略对图像进行预处理；YOLOv5采用CSPDarknet53作为模型的主干网络，主干网络的作用是从输入图像中提取丰富的语义特征，它包括Focus模块、Conv模块、C3模块和SPP模块；颈部采用 FPN和PAN生成特征金字塔，用来增强对多尺度目标的检测；头部是将从颈部传递的特征进行预测，并生成3个不同尺度的特征图。

进一步地，主干网络中所述Conv模块的结构为Conv2d+BN+SiLU，依次是卷积层、归一化操作和激活函数。

所述Focus模块的作用是减少模型的计算量，加快网络的训练速度，其结构如图5所示。 Focus模块对输入图像的处理过程为：先将输入尺寸大小为3×640×640的图像切分成4个切片，其中每个切片的大小为3×320×320；然后使用拼接操作将4个切片通过通道维度拼接起来，得到的特征图尺度大小为12×320×320；再经过一次卷积操作，最终得到32×320×320的特征图。

所述C3模块的作用是为了更好的提取目标的高级特征。所述C3模块是由两个分支组成的，在第一条分支中输入的特征图通过3个连续的Conv模块和多个堆叠的Bottleneck模块；在第二条分支中，特征图仅通过一个Conv模块，最终将两个分支按通道拼接在一起，其结构如图5所示。所述Bottleneck模块主要是由两个连续的卷积操作和一个残差操作组成，其结构如图5所示。

所述SPP模块是空间金字塔池化模块，用来扩大网络的感受野，其结构如图5所示。所述SPP模块将输入的尺寸大小为512×20×20的特征图通过一个Conv模块后通道数减半；然后对特征图使用卷积核分别为5×5、9×9、13×13的最大池化操作，并将3种特征图与输入特征图按通道拼接后在通过一个Conv模块，最终输出尺寸大小为512×20×20的特征图。

S22：构建并***注意力机制模块。

针对小麦麦穗图像中麦穗数量多、分布密集、存在遮挡和重叠等问题，虽然YOLOv5s网络模型的推理速度快，参数量少，但是YOLOv5s的准确率低，直接使用YOLOv5s网络模型来对小麦麦穗进行检测和计数，效果不理想。

卷积神经网络中引入注意力机制，在网络性能提升方面表现出巨大潜能。在计算机视觉领域，能使网络模型忽略无关信息而关注重点信息的注意力机制被广泛应用于自然场景分割、医学图像分割以及目标检测中。在深度卷积神经网络(CNNs)中，图像或者特征图的特征主要分为空间(Spatial)特征和通道(Channel)特征。通道特征是对空间特征图的融合，但是同一个通道维度中不同特征图有着不同的重要程度，也即对于同一个特征图中的信息权重的分配不同。其中，最具有代表性的是压缩-激励模块(Squeeze-and-Excitation，SE)模块和卷积注意模块(Convolutional Block Attention Module，CBAM)模块。虽然SE模块可以提升网络性能，但是会提升模型的复杂度和计算量。CBAM模块忽略了通道与空间的相互作用，从而导致跨维信息的丢失。ECA-Net(Efficient Channel Attention)就是一种应对通道维度且更加轻量的高效注意力机制模块，可以针对通道维度上的特征进行信息权重分配，使得重要的信息获取更多的权重分配，轻量的信息获取较少的权重分配，因此可以学到通道特征的重要程度。GAM注意力机制(Global Attention Mechanism)模块中引入了3D-permutation与多层感知器的通道注意力子模块和卷积空间注意力子模块，可以通过减少信息弥散和放大全局交互表示来提高深度神经网络性能的全局注意力机制。因此本文选用更加轻量的高效通道注意力模块ECA模块和可以放大跨维度交互作用的全局注意力机制GAM模块。为了能对小麦麦穗等密集目标进行检测和计数，本实施例将注意力机制添加到YOLOV5s网络模型的中对其进行改进，用于提高网络模型的鲁棒性。

S221：构建并***改进C3-ECA模块。

所述密集目标检测模型中通道注意力机制模块为ECA模块，其结构如图6所示。所述ECA 模块是基于SENet的改进网络，使用一维卷积替换掉SENet中的两个全连接层组成的瓶颈结构，提出不降维的局部跨信道交互策略和自适应选择卷积核大小。

所述ECA模块对输入的特征图进行处理的具体过程为：

构建并***改进C3-ECA模块：所述YOLOv5s基础网络框架中主干网络CSPDarknet53 包括4个C3模块。本发明密集目标检测模型将ECA模块引入到YOLOv5s网络模型中的主干部分的C3模块中，从而用来提升有用特征，抑制不重要特征，在不额外增加模型参数量的同时提升网络模型检测的准确率。将ECA模块分别***所述C3模块后，得到4个改进C3-ECA 模块；然后将4个改进C3-ECA模块代替所述主干网络的4个C3模块嵌入网络。所述改进 C3-ECA模块结构如图7所示。

S222：***GAM模块。

所述GAM模块(结构如图8所示)采用序贯的通道-空间注意力机制并将CBAM子模块重新设计而成，是一种可以减少信息弥散的同时也可以放大全局维度交互特征的注意力机制。

所述GAM模块由1个通道注意力子模块和1个空间注意力子模块组成，其中，所述通道注意力子模块(结构如图8所示)使用三维排列以在三个维度上保留信息，然后在一个两层的多层感知机(MLP，一种编码-解码器结构，与BAM相同，压缩比为r)上放大跨维通道-空间依赖性；所述空间注意力子模块(结构如图8所示)使用两个卷积核大小为7×7的卷积操作进行空间信息融合，同时为了消除池化带来的特征丢失，删除池化操作以进一步保持特征映射。

所述GAM模块对输入的特征图进行处理的具体过程为：将特征图F₁∈R^C×H×W输入通道注意力子模块得到F₁输出结果，将F₁输出结果与输入特征图F₁对应元素相乘，得到中间特征图 F₂；将中间特征图F₂输入空间注意力子模块得到F₂输出结果，将F₂输出结果与中间特征图F₂对应元素相乘，得到最终输出特征图F₃；其中，中间特征图F₂和最终输出特征图F₃定义为：其中，M_C和M_S分别表示通道注意力图和空间注意力图；表示按元素相乘。

***GAM模块：所述YOLOv5s基础网络框架中Head网络包括3个二维卷积层，本发明密集目标检测模型在Head网络每个二维卷积层前***1个所述GAM模块。

S23：得到融合注意力机制的密集目标检测模型。

将通道注意力机制ECA模块和全局注意力机制GAM模块***YOLOv5s基础网络框架中得到本实施例密集目标检测模型，其整体结构如图9所示。与标准YOLOv5s不同的是，本发明密集目标检测模型将主干部分的C3模块替换为提出的C3-ECA模块，使网络可以有效的提取目标特征；在Neck网络和Head网络之间的二维卷积前添加GAM模块，添加的GAM会增加网络模型的参数量，但是可以使网络捕捉到三维通道、空间宽度和空间高度之间的重要特征。本发明密集目标检测模型算法结构如表1所示，其中，“From”表示该层模块对应的输入层，-1 表示上一层。

表1本发明密集目标检测模型算法结构

层数	From	参数量	模块名称
				0	-1	3520	Focus
1	-1	18560	Conv
				2	-1	18819	C3-ECA
3	-1	73984	Conv
				4	-1	115715	C3-ECA
5	-1	295424	Conv
				6	-1	625155	C3-ECA
7	-1	1180672	Conv
				8	-1	656896	SPP
9	-1	1182723	C3-ECA
				10	-1	131584	Conv
11	-1	0	Upsample
				12	[-1,6]	0	Concat
13	-1	361984	C3
				14	-1	33024	Conv
15	-1	0	Upsample
				16	[-1,4]	0	Concat
17	-1	90880	C3
				18	-1	147712	Conv
19	[-1,14]	0	Concat
				20	-1	296448	C3
21	-1	590336	Conv
				22	[-1,10]	0	Concat
23	-1	1182720	C3
				24	[17,20,23]	8622262	Detect

以Head网络第一条预测分支为例，本实施例密集目标检测模型对输入图像进行处理的具体步骤为：

(1)将尺寸大小为3×640×640的图像输入密集目标检测模型，通过Neck网络C3模块后，得到尺寸大小为256×80×80的特征图F。

(2)GAM通道注意力子模块建模：特征图F经过GAM模块中通道注意力子模块的维度变换得到80×80×256的特征图，再经过一个两层的MLP(设置通道缩放率为4)，先将特征图降维到80×80×64，再升维到80×80×256；然后将80×80×256特征图再次经过维度变换恢复到原始形状大小256×80×80；采用sigmoid函数得到尺寸大小为256×80×80的通道注意力图 M_C(F₁)；将原始输入特征图F与M_C(F₁)相乘，得到尺寸大小为256×80×80的特征图F₁。

(3)GAM空间注意力子模块建模：将特征图F₁输入一个7×7卷积(设置通道缩放率为4)，得到尺寸大小为64×80×80的特征图；再次经过一个7×7卷积，使特征图尺寸大小恢复到 256×80×80；经过sigmoid函数处理后得到尺寸大小为256×80×80的空间注意力图M_S(F₂)；将特征图F₁与M_S(F₂)对应元素相乘得到尺寸大小为256×80×80的输出特征图F₂。

S30：采用验证集对步骤S20得到的训练后的密集目标检测模型进行验证，从训练后的密集目标检测模型中选出最优密集目标检测模型；所述验证集中样本图像为步骤S12得到的自建样本图像集中的2000幅样本图像。

S40：采用测试集对步骤S30得到的最优密集目标检测模型进行测试，评估最优密集目标检测模型的性能；所述测试集中样本图像为步骤S12得到的自建样本图像集中的500幅样本图像。

S41：评价指标预筛选。将YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x以及本发明密集目标检测模型(改进的YOLOv5s模型)在公开数据集Global wheat challenge 2021随机划分验证集进行验证，评价指标精确率(Precision)、召回率(Recall)、[email protected]以及[email protected]∶0.95 均较相近，说明5种模型均能达到Global wheat challenge 2021在检测任务的最好性能，因此不选用上述4个评价指标对模型进行评估。

其中，所述公开数据集Global wheat challenge 2021为由Global wheatchallenge 2021 International Conference on Computer Vision 2021提供的公开数据集(数据来源：https://www.aicrowd.com/challenges/global-wheat-challenge-2021，于2021年7月6日下载)。

S42：评价指标筛选。本实施例主要评估模型对田间采集的小麦麦穗数据(自建样本图像集以及每幅样本图像对应的目标标注结果)作为测试集进行麦穗计数时的性能，因此选用准确率(Accuracy，ACC)和误差率作为YOLOv5s进行计数的评价指标，使用参数量、计算量 (GFLOPs)和训练时间来评估模型性能。其中准确率ACC计算公式如下所示：

其中，TP表示真阳性，TN表示真阴性，FP表示假阳性，FN表示假阴性。ACC值越大代表模型的检测效果越好。

S43：模型评估结果与分析。

S431：定量结果分析。

采用YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x和本发明密集目标检测模型分别对田间采集的小麦麦穗测试集数据进行测试，并计算每幅图像中包含的小麦麦穗数量，随机选取10幅图像统计结果以及10幅图像小麦麦穗检测的平均误差率和平均准确率结果如表2所示。其中，与图像数据采集时间一致，人工统计结果为基于图像的人工计数方法采集，采用统一的小麦麦穗计数标准，选择具有相关农学背景人员分别进行计数，取平均值作为该图像对应的小麦穗数测量值。表3为上述5种YOLOv5模型的参数量、计算量(GFLOPs)和训练时间的数据对比。

表2人工统计与算法统计在田间采集小麦麦穗测试图像结果

表35种YOLOv5模型参数量、GFLOPs和训练时间对比

评价指标	YOLOv5s	YOLOv5m	YOLOv5l	YOLOv5x	密集目标检测模型
						参数量(M)	13.38	39.77	87.9	164.36	28.81
GFLOPs	15.8	47.9	107.6	204.0	31.6
						训练时间(min)	370.5	396.2	415.6	479.9	372.5

通过表2可以看出，从10幅小麦麦穗图像的统计数据上看，标准YOLOv5s的实验结果相对最差，YOLOv5x的实验结果与人工统计的最接近，YOLOv5m、YOLOv5l与本发明密集目标检测模型的实验统计结果相近；从统计数据的平均误差率和平均准确率上看，本发明密集目标检测模型相较于标准YOLOv5s在准确率上提升了9.30％，相较于YOLOv5m、YOLOv5l准确率提升了3.92％和4.78％。

将表2与表3结合分析，可以看出本发明密集目标检测模型与YOLOv5x相比准确率虽低了4.11％，但是本发明密集目标检测模型参数量更少，检测速度更快，训练时间更短；而标准 YOLOv5s虽然参数量少，但是检测准确率低，本发明密集目标检测模型参数量和GFLOPs都比标准YOLOv5s大，但准确率明显提升。同时，本发明密集目标检测模型比YOLOv5m、 YOLOv5l的参数量、GFLOPs和训练时间低，但准确率比YOLOv5m、YOLOv5l高。综上，本发明密集目标检测模型综合性能最佳。

S432：定性结果分析。

图10为标准YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x与本发明密集目标检测模型在田间环境下对小麦麦穗图像的识别结果，图中红色框标注为YOLOv5算法对小麦麦穗图像的识别结果。从图10可以看出，标准YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x网络模型在小麦麦穗图像密集区域存在严重的漏检情况，相比之下，本发明密集目标检测模型对小麦麦穗图像密集、严重遮挡和较小的麦穗具有较高的识别率和良好的泛化性能，紫色框区域展示了本发明密集目标检测模型检测结果的优越性。

此外，由于小麦麦穗图像中的麦穗有稠密和稀疏、与背景色相似和相异的情况出现。图 11为本发明密集目标检测模型在小麦麦穗图像中不同麦穗密度以及背景下的识别结果。其中，图11(a)和(f)展示了本发明密集目标检测模型在小麦麦穗较为稀疏情况下的计数结果；(b)、 (c)和(d)展示了本发明密集目标检测模型在小麦麦穗较为稠密情况下的计数结果。将不同麦穗密度的图像进行比较，可以看出本发明密集目标检测模型在不同麦穗密度的场景中均能有效检出小麦穗数。图11(b)和(d)中小麦叶片颜色与麦穗颜色相似；(c)和(e)小麦叶片为黄色，麦穗颜色为绿色。将不同背景下的麦穗图像进行比较，可以看出本发明密集目标检测模型在不同背景的场景中也能有效检出小麦穗数。

穗数是决定小麦产量表型性状的重要指标，麦穗检测是小麦表型研究的热点。本实施例小麦麦穗图像数据来源于抽穗期，此时由于小麦麦穗形态差异较大，加上麦穗密度大，被遮挡的部分太多，麦穗特征不明显，基于YOLOv5的计数模型对麦穗识别过程中存在麦穗遮挡识别检测有遗漏的问题，进而导致了麦穗计数误差。在麦穗检测中部分图像存在交叉重叠的麦穗没有被识别标记，以及相邻麦穗没有被识别标记，两个麦穗紧密相连被识别为一个麦穗。而本发明提出基于改进YOLOv5s的密集目标检测方法，在麦穗识别过程中修正了这些问题，有效解决了麦穗检测中遮挡、交叉重叠等引起的漏检问题。因此，基于改进YOLOv5s的密集目标检测方法对图像中麦穗标记的准确性以及识别能力显著提升。

此外，本实施例改进YOLOv5s的密集目标检测模型中，当输入图像的分辨率较高时，检测精度较高，这与在一般数据集上测试的其他研究结果一致。而本发明在YOLOv5s网络模型的主干结构C3模块中引入ECA，同时将GAM模块***到YOLOv5s网络模型的颈部结构与头部结构之间，基于改进的YOLOv5s密集目标检测方法在手机拍摄的普通清晰度图像上的准确率和效率均有明显提高，在一定程度上解决了由于麦穗交叉遮挡而导致的麦穗识别不清和遗漏问题，具有更好的实际应用价值。

实施例2

一种图像密集目标检测方法，所述方法包括：获取待检测图像，将所述待检测图像输入密集目标检测模型，得到所述待检测图像的目标检测结果；其中，所述密集目标检测模型为实施例1所述密集目标检测模型训练方法进行训练得到的训练后的密集目标检测模型。

所述待检测图像为小麦麦穗图像，所述目标检测结果为小麦穗数。

实施例3

一种电子设备，包括存储器和处理器，所述存储器存储由计算机程序，所述处理器执行所述计算机程序时实现如实施例1所述的密集目标检测模型训练方法，或者如实施例2所述的图像密集目标检测方法。

实施例4

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如实施例1所述的密集目标检测模型训练方法，或者如实施例2所述的图像密集目标检测方法。

综上所述，本发明有效克服了现有技术中的不足，且具高度产业利用价值。上述实施例的作用在于说明本发明的实质性内容，但并不以此限定本发明的保护范围。本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和保护范围。

Claims

1.一种基于注意力机制的密集目标检测模型训练方法，其特征在于，包括如下步骤：

所述密集目标检测模型中通道注意力机制模块为Efficient Channel Attention模块，全局注意力机制模块为Global Attention Mechanism模块；

其中，所述YOLOv5s基础网络框架中主干网络CSPDarknet53包括4个C3模块，所述密集目标检测模型是在主干网络CSPDarknet53每个C3模块后***1个所述Efficient ChannelAttention模块；所述YOLOv5s基础网络框架中Head网络包括3个二维卷积层，所述密集目标检测模型是在Head网络每个二维卷积层前***1个所述Global Attention Mechanism模块；

2.根据权利要求1所述的密集目标检测模型训练方法，其特征在于，所述样本图像为包含小麦麦穗的图像；所述目标物为小麦麦穗。

3.一种图像密集目标检测方法，其特征在于，所述方法包括：获取待检测图像，将所述待检测图像输入密集目标检测模型，得到所述待检测图像的目标检测结果；其中，所述密集目标检测模型为如权利要求1-2任一所述密集目标检测模型训练方法进行训练得到的训练后的密集目标检测模型。

4.根据权利要求3所述的图像密集目标检测方法，其特征在于，所述待检测图像为小麦麦穗图像，所述目标检测结果为小麦穗数。

5.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-2所述的密集目标检测模型训练方法中的任一步骤，和/或如权利要求3-4所述的图像密集目标检测方法。

6.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-2所述的密集目标检测模型训练方法中的任一步骤，和/或如权利要求3-4所述的图像密集目标检测方法。