CN116563205A

CN116563205A - 基于小目标检测和改进YOLOv5的麦穗计数检测方法

Info

Publication number: CN116563205A
Application number: CN202310228014.8A
Authority: CN
Inventors: 李睿; 何玉环; 武雁鹏
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-08-08

Abstract

基于小目标检测和改进YOLOv5的小麦计数检测方法，主要包括收集田间麦穗头不同角度下的图像；对收集的麦穗图像利用数据增强对图像数量进行扩充；对麦穗图像进行YOLOv5格式的标注并标注麦穗头的方位坐标，形成数据集；利用Mosaic‑8数据增强方式对图像进行预处理拼接，提高数据集的泛化能力；将原有主干网络增加4倍下采样，添加注意力机制，改进损失函数为GIoU，构建改进的YOLOv5麦穗检测模型；利用按比例划分的数据集对构建的麦穗计数检测模型进行训练和模型误差分析。本发明增强了麦穗计数对田间复杂环境下的识别，从而提高了麦穗计数检测的准确率，能够有效的适用于实际的大田环境检测。

Description

基于小目标检测和改进YOLOv5的麦穗计数检测方法

技术领域

本发明涉及小目标检测及作物产量预测技术，具体涉及基于图像增强和改进YOLOv5，属于计算机智慧农业信息化建设方向。

背景技术

小麦是全球一种重要的粮食作物，近三分之一的人口食用小麦。当前小麦产量预测已成为农业生产的重要组成部分。可为田间管理和农业决策提供必要的参考。因此，准确鉴定和计数小麦穗对监测作物生长、估算产量和分析植株表型特征具有重要意义。

小麦穗数采集主要采用田间人工产量预测、容量预测、基于年情景的预测和基于遥感影像的预测。人工野外判断以经验判断为主，准确率低，且劳动密集型。体积法测定小麦密度成本高，效率低。遥感是以卫星图像为样本的。由于这些图像距离较远，只适合大规模处理和分析，导致小麦预测精度较低。同时，基于多元线性回归的预测方法受降水等变量的影响较大，精度难以保证，不适合野外产量估算。传统的图像处理技术往往采用移动窗方法或超像素分割来获取图像，从子图像中提取颜色或纹理特征，然后训练分类器，利用分类器识别麦穗并完成计数，或者通过图像处理方法对麦穗进行高亮处理，如对图像进行二值化处理，去除后放置麦穗粘附。相比之下，视觉传感器可以以较低的成本获取丰富的纹理和颜色信息。但小麦的色质特征影响检测的准确性。因此，在自然环境中检测和计数小麦穗仍然是一个重大的挑战。

随着图像处理技术的发展，前人的研究表明，利用机器学习的方法建立了小麦穗检测分类器，从而实现了小麦穗的检测和计数。Xu等人利用k-means算法对小麦穗进行分割，实现识别。虽然基于机器学习方法进行了小麦穗的识别，但大多数小麦穗的识别仍需要先验知识来人工建立图像特征，这导致在光照不均匀、背景复杂等噪声干扰的田间环境下识别精度不足。同时，由于模型缺乏泛化能力，传统的机器学习方法在不同场景下难以检测和计数小麦数量。

发明内容

针对上述问题，本发明公开了基于小目标检测和改进YOLOv5的麦穗计数检测方法，基于重组后的图像进行麦穗检测，解决了大田图像场景较复杂、麦穗检测头尺寸太小、鲁棒性差、检测准确率较低的问题。

本发明是一种基于小目标检测和改进YOLOv5的麦穗计数检测方法，包括以下步骤：步骤1，构建小麦麦穗头数据集：通过实地拍摄收集小麦稻田图像，通过数据增强扩充图像数量，然后利用Labelme标注工具按照符合YOLOv5的格式对扩展后的图像进行标注，并划分图像为训练集和测试集；步骤2，通过改进Mosaic-8数据增强方式，对八张图片进行拼接，每一张图片都有其对应的框，将八张图片拼接之后就获得一张新的图片，同时也获得这张图片对应的框，这样一张新的图片传入到神经网络当中去学习，相当于一次传入八张图片进行学习极大丰富了检测物体的背景；步骤3，构建改进后的YOLOv5的麦穗计数检测模型对小麦数量进行检测，该***包括依次连接的用于特征提取的Backbone网络、用于特征融合Neck网络和用于预测的Head网络。其中在原有模型的基础上为了提升模型对小目标检测的敏感度，在Backbone网络中引入注意力机制，将CBAM注意力机制添加进C3模块，同时在Neck网络中加入4倍下采样构成新的浅层特征层并将步骤2输出图像输入改进后的YOLOv5网络中，以输出不同尺寸大小的预测病害目标；步骤4，基于测试集，验证麦穗计数***的准确率：将测试集中的图像输入改进后YOLOv5目标检测模型，得到麦穗头位置和计数的检测结果。

在上述技术方案中，本发明提供的一种基于小目标检测和改进YOLOv5的麦穗计数检测方法，具有以下有益效果：

1、采用Mosaic-8数据增强，丰富了数据集，同时增加了小样本目标，可以提升网络训练速度，在进行归一化操作时，可以一次性计算8张图片，能有效达到降低模型对内存的需求，其中合理引入一些随机噪声，增强网络模型对图像中小目标样本的区分力，提升模型的泛化力。

2、改进特征提取模型，在YOLOv5骨干网络的基础上对原始输入图片增加一个4倍下采样的过程，原始图片经过4倍下采样后送入到特征融合网络得到新尺寸的特征图，该特征图感受野较小，位置信息相对丰富，可以提升小目标麦穗头的检测效果；改进特征融合网络，通过自顶向下和自底向上的特征信息融合有利于模型更好的学习到特征，增强模型对小目标和遮挡目标的敏感度。

3、改进目标框公式，综合考虑了真实框与预测框之间的重叠率、中心点距离、长宽比，能使得目标框回归更加稳定，收敛的精度更高。

4、本发明通过引入注意力机制，注意力机制作用在特征图之上，通过获取特征图中的可用注意力信息，能够达到更好的任务效果。

5、本发明在YOLOv5网络中添加了CBAM模块，由于CBAM模型在通道注意力模块中加入了全局最大池化操作，它能在一定程度上弥补全局平均池化所丢失的信息。使YOLOv5网络不仅能更为准确地对目标进行分类识别，而且能更为精准地定位目标所在的位置。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为Mosaic数据增强流程图，图2为Mosaic-8数据增强细节图，图3为CBAM网络结构图，图4为改进后的特征提取模型图，图5为改进后的特征融合网络图，图6为整体网络结构图，图7是本发明实施方式的检测结果图，图8是本发明实施方式的热力图。

实施方式

如图1所示，本发明是一种基于小目标检测和改进YOLOv5的麦穗计数检测方法，包括以下步骤：步骤1，构建小麦麦穗头数据集：通过实地拍摄收集小麦稻田图像，通过数据增强扩充图像数量，然后利用Labelme标注工具按照符合YOLOv5的格式对扩展后的图像进行标注，并划分图像为训练集和测试集；步骤2，通过改进Mosaic-8数据增强方式，对八张图片进行拼接，每一张图片都有其对应的框，将八张图片拼接之后就获得一张新的图片，同时也获得这张图片对应的框，这样一张新的图片传入到神经网络当中去学习，相当于一次传入八张图片进行学习极大丰富了检测物体的背景；步骤3，构建改进后的YOLOv5的麦穗计数检测模型对小麦数量进行检测，该***包括依次连接的用于特征提取的Backbone网络、用于特征融合Neck网络和用于预测的Head网络。其中在原有模型的基础上为了提升模型对小目标检测的敏感度，在Backbone网络中引入注意力机制，将CBAM注意力机制添加进C3模块，同时在Neck网络中加入4倍下采样构成新的浅层特征层并将步骤2输出图像输入改进后的YOLOv5网络中，以输出不同尺寸大小的预测病害目标；步骤4，基于测试集，验证麦穗计数***的准确率：将测试集中的图像输入改进后YOLOv5目标检测模型，得到麦穗头位置和计数的检测结果。

本发明提出了一种新颖、简单的基于YOLO v5的小麦穗数检测方法。首先对真实小麦图像进行质量预处理，在图像增强的基础上，借鉴YOLO v5模型的4-Mosaic方法，提出了一种8-Mosaic数据增强方法。同时，对数据集进行不同程度的亮度转换、不同倍数增加对比度、随机多角度旋转等数据增强方法，极大地丰富了复杂背景下小麦穗识别的样本数量。然后，提取小麦穗图像的颜色和纹理特征，建立定义后续训练的参数。

其次，在PyTorch中建立了一个改进的YOLO v5神经网络模型。主要改进有:(1)利用通道(通道和空间通道)注意机制消除背景干扰；(2)通过增加4倍下采样层和改进特征金字塔结构丰富小目标的语义信息，提高模型的鲁棒性。然后将数据集按照比例分为训练集和测试集，并创建用于训练和测试的输入和输出矩阵。最后，根据实际识别情况，将损失函数改进为GIoU，以加快模型的收敛速度。本发明提出的网络模型为小麦计数的准确性提供了新的思路和方向，将有助于促进可持续、绿色和自动化智能农业的快速发展。

根据以上步骤1、步骤2、步骤3、步骤4，利用Python对输入图片进行注意力机制和基于改进后YOLOv5检测算法相结合，该识别和检测结果可以存放在设置的文件中保存并对用户进行显示。

作为优选，数据增强为：首先，对图像进行线性亮度和对比度调整；其次，对处理过的图像进行尺度变换，以调整至统一大小640×640；最后，通过翻转和添加高斯噪声对图像数据集随机添加噪声干扰并进行高斯滤波，实现图像集的扩充。

作为优选，对图像进行标注即为对图像进行分类，人工标注小麦麦穗头的位置，按照一定比例划分为训练集和检测集。

作为优选的Mosaic-8，将采集到的小麦数据集使用Mosaic-8数据增强，即采用8张图片随机裁剪、随机排列、随机缩放，然后组合成一张图片，同时合理引入一些随机噪声。

作为优选，在原始YOLOv5的基础上，在Backbone骨干网络和Head网络中，新增尺寸为输入图像尺寸四分之一的特征图，提升对小目标数据的挖掘，采用多尺度反馈以引入全局上下文信息。

作为优选，在步骤3中，我们在YOLOv5骨干网络的基础上对原始输入图片增加一个4倍下采样的过程，原始图片经过4倍下采样后送入到特征融合网络得到新尺寸的特征图。

作为优选，将低层特征图与高层特征图进行信息融合，使特征金字塔网络与路径聚合网络(PAN,Path Aggregation Network)相结合，特征金字塔网络自顶向下传递深层次语义特征，路径聚合网络自底向上传递目标的位置信息。

作为优选，进一步地，在原始YOLOv5的网络基础上，引入卷积注意力模块CBAM。CBAM包含两个子模块，分别是通道注意力模块CAM(Channel Attention Module)和空间注意力模块SAM(Spatial Attention Module)。

作为优选，进一步地，在网络结构中采用采用GIOU Loss作为目标框回归的损失函数。

作为优选，进一步地，对目标框公式进行修改。对真实目标框的预测，通过预测相对位置的方法预测出目标框相对于左上角的相对坐标。最终得到预测目标框的中心坐标b_x、b_y和宽高b_w、b_h。

目标框公式如下所示：

b_x＝2σ(t_x)-0.5+c_x

b_y＝2σ(t_y)-0.5+c_y

b_w＝p_w(2σ(t_w))²

b_h＝p_h(2σ(t_h))²

P_r(object)*IOU(b,object)＝σ(t_o)

其中，σ(t_o)是预测框的置信度，由预测框的概率和预测框与真实框的IoU值相乘得到。对σ(t_o)设定阈值，过滤掉置信度较低的预测框，然后再对剩下的预测框用非极大值抑制算法(NMS，Non-Maximum Suppression)得到最终的预测框。

为了使本领域的技术人员更好地理解本发明的技术方案，下面将结合附图对本发明作进一步的详细介绍。

本发明是一种基于小目标检测和改进YOLOv5的麦穗计数检测方法，包括：

第一步，将采集到的麦穗头数据集使用Mosaic-8数据增强，如图1所示，即采用8张图片随机裁剪、随机排列、随机缩放，然后组合成一张图片，同时合理引入一些随机噪声。

第二步，在YOLOv5特征融合网络中添加一个新尺度的特征提取层，并调整YOLOv5网络的目标框回归公式，改进损失函数。

第三步，将增强后的数据送入网络中进行迭代训练，并使用余弦退火算法对学习率进行调整。

第四步，训练完成后，将待检测图片送入至训练后得到的最佳模型中，检测目标类别及位置，最终得到识别结果。

具体地，本实验采用Mosaic-8数据增强，从待测的麦穗数据集中，取出一个批次的数据集，从抽出的批次数据集中随机抽取8张图片，对这8张图片进行随机裁剪、随机排列、随机缩放，然后组合成一张图片，重复该步骤，在合成的图片中合理增加一些随机噪声，达到增强网络模型对图像中小目标样本的区分力，提升模型的泛化能力的效果，最终的效果如图2所示。

具体地，在特征提取过程中，改进特征提取模型。在改进特征提取模型过程中，在YOLOv5骨干网络的基础上对原始输入图片增加一个4倍下采样的过程，增加部分如图3所示，原始图片经过4倍下采样后送入到特征融合网络得到新尺寸的特征图，该特征图感受野较小，位置信息相对丰富，可以提升检测麦穗目标的检测效果。

具体地，在改进特征提取网络中，将特征金字塔网络与路径聚合网络相结合，特征金字塔网络自顶向下传递深层次语义特征，路径聚合网络自底向上传递目标的位置信息，通过自顶向下和自底向上的特征信息融合有利于模型更好的学习到特征，增强模型对小目标和遮挡目标的敏感度，最终融合模型如图4。

在实施案例中，在原始YOLOv5的网络基础上，引入卷积注意力模块CBAM。CBAM如图5所示。需要说明的是，CBAM包含两个子模块，通道注意力模块CAM和空间注意力模块SAM。CAM汇总通道注意力信息，CAM为给定的任意中间特征F∈R^C×H×W使用基于宽和高的最大池化操作(global max pooling)和全局平均池化(global average pooling)对特征映射在空间维度上进行压缩，得到与/>两个特征图，这两个特征图共享一个两层的神经网络MLP，然后对MLP输出的两个特征图使用基于元素的加和操作，再经过Sigmoid激活函数进行归一化处理，得到最终的通道注意力特征图。SAM汇总空间注意力信息，SAM主要关注于目标在图像上的位置信息，它将CAM的输出特征图作为本模块的输出特征图。

在一具体实施案例中的网络模型训练过程中，本发明的损失函数由定位损失、置信度损失和类别损失三部分构成，其中使用GIoU作为目标框回归的损失函数来计算定位损失.

其中，GIoU的计算公式公式如下所示。

在一具体实施案例中，改进了目标框回归公式，通过预测相对位置的方法预测出目标框相对于左上角的相对坐标。预测框通过先验框平移缩放得到，将原始图片根据特征图尺寸划分成S×S个网格单元，每个网格单元会预测3个预测框，每个预测框包含4个坐标信息和1个置信度信息。当真实框中某个目标中心坐标落在某个网格中时，就由该网格预测这个目标。

目标框的坐标预测计算公式如下：

b_x＝2σ(t_x)-0.5+c_x

b_y＝2σ(t_y)-0.5+c_y

b_w＝p_w(2σ(t_w))²

b_h＝p_h(2σ(t_h))²

P_r(object)*IOU(b,object)＝σ(t_o)

需要说明的是，t_x、t_y、t_w、t_h为网络模型预测得到4个偏移，σ表示Sigmoid激活函数，用于将网络预测值t_x、t_y、t_w、t_h映射到[0,1]之间，c_x、c_y是单元网格中相对于图片左上角的偏移量，p_w、p_h是先验框宽高。通过上述公式最终得到预测目标框的中心坐标b_x、b_y和宽高b_w、b_h。σ(t_o)是预测框的置信度，由预测框的概率和预测框与真实框的IoU值相乘得到。对σ(t_o)设定阈值，过滤掉置信度较低的预测框，然后再对剩下的预测框用非极大值抑制算法得到最终的预测框。

在某一实施案例中，模型评估指标主要使用平均精度均值(mAP)、召回率(Recall)、准确率(Precision)。需要说明的是，平均精度均值(mAP)，即所有类别的平均精度求和除以数据集中所有类的平均精度，如以下公式所示，其中AP的值为P-R曲线的面积。

召回率，即样本中的正确类别被模型预测正确的概率，如以下所示，其中TP表示将正类别预测为正类别的个数，FN表示将正类别预测为负类别的个数。

准确率，即预测数据集中预测正确的正样本个数除以实际的正样本个数，如以下公式所示，其中FP表示将负类别预测为正类别的个数。

如图6所示，为本发明的最终网络结构图，图7为测试结果，图8为热力图，下表1为测试数据，本发明基于改进YOLOv5的检测模型的精确率和召回率高，解决了大田图像场景较复杂、麦穗头尺寸太小、鲁棒性差、检测准确率较低的问题。

表1

Method	精确率	召回率	Map
				改进YOLOv5	88.5％	98.1％	94.3％

以上只通过说明的方式描述了本发明的某些示范性实施例，毋庸置疑，对于本领域的普通技术人员，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，上述附图和描述在本质上是说明性的，不应理解为对本发明权利要求保护范围的限制。

Claims

1.基于小目标检测和改进YOLOv5的麦穗计数检测方法，其特征在于，其步骤为：

步骤1，构建小麦麦穗头数据集：通过实地拍摄收集小麦稻田图像，通过数据增强扩充图像数量，然后利用Labelme标注工具按照符合YOLOv5的格式对扩展后的图像进行标注，并划分图像为训练集和测试集；

步骤2，通过改进Mosaic-8数据增强方式，对八张图片进行拼接，每一张图片都有其对应的框，将八张图片拼接之后就获得一张新的图片，同时也获得这张图片对应的框，这样一张新的图片传入到神经网络当中去学习，相当于一次传入八张图片进行学习极大丰富了检测物体的背景；

步骤3，构建改进后的YOLOv5的麦穗计数检测模型对小麦数量进行检测，该***包括依次连接的用于特征提取的Backbone网络、用于特征融合Neck网络和用于预测的Head网络。其中在原有模型的基础上为了提升模型对小目标检测的敏感度，在Backbone网络中引入注意力机制，将CBAM注意力机制添加进C3模块，同时在Neck网络中加入4倍下采样构成新的浅层特征层并将步骤2输出图像输入改进后的YOLOv5网络中，以输出不同尺寸大小的预测病害目标；

步骤4，基于测试集，验证麦穗计数***的准确率：将测试集中的图像输入改进后YOLOv5目标检测模型，得到麦穗头位置和计数的检测结果。

2.根据权利要求1所述的基于小目标检测和改进YOLOv5的麦穗计数检测方法，其特征在于，所述数据增强为：首先，对图像进行线性亮度和对比度调整；其次，对处理过的图像进行尺度变换，以调整至640×640统一大小；最后，通过翻转和添加高斯噪声对图像数据集随机添加噪声干扰并进行高斯滤波，实现图像集的扩充。

3.根据权利要求2所述的基于小目标检测和改进YOLOv5的麦穗计数检测方法，其特征在于，对图像进行标注即为对图像进行分类，标注小麦图像的麦穗头位置，按照一定比例划分为训练集和检测集。

4.根据权利要求1所述的基于小目标检测和改进YOLOv5的麦穗计数检测方法，其特征在于，使用Mosaic-8数据增强方法对其数据集进行数据增强，即采用8张图片随机裁剪、随机排列、随机缩放，然后组合成一张图片，以此来增加样本的数据量，实现丰富数据集的同时，增加了小样本目标，提升网络的训练速度和模型的泛化力。在进行归一化操作的同时，会一次性计算八张图片，因此模型对内存的需求降低。

5.根据权利要求1所述的基于小目标检测和改进YOLOv5的麦穗计数检测方法，其特征在于，本发明在原始的YOLOv5特征提取模型的基础上进行改进，即本文在YOLOv5骨干网络的基础上对原始输入图片增加一个4倍下采样的过程，原始图片经过4倍下采样后进入到特征融合网络得到新尺寸的特征图，该特征图感受野较小，位置信息相对丰富，可以提升检测小尺寸麦穗目标的检测效果。

6.根据权利要求1所述的基于小目标检测和改进YOLOv5的麦穗计数检测方法，其特征在于，改进后的特征融合网络将特征金字塔网络与路径聚合网络相结合，特征金字塔网络自顶向下传递深层次语义特征，路径聚合网络自底向上传递目标的位置信息，通过自顶向下和自底向上的特征信息融合有利于模型更好地学习到特征，增强模型对小目标和遮挡目标的敏感度。

7.根据权利要求1所述的基于小目标检测和改进YOLOv5的麦穗计数检测方法，其特征在于，在训练网络模型的过程中，本发明的损失函数由定位损失、置信度损失和类别损失三部分构成，其中使用GIoU作为目标框回归的损失函数来计算定位损失。

8.根据权利要求1所述的基于小目标检测和改进YOLOv5的麦穗计数检测方法，其特征在于，所引入的卷积注意力模块CBAM包含两个子模块，分别是通道注意力模块CAM和空间注意力模块SAM。

9.根据权利要求8所述的基于小目标检测和改进YOLOv5的麦穗计数检测方法，其中YOLOv5网络模型所引入的卷积注意力模块CBAM，其特征在于，CAM主要关注于目标的类别，作为SAM的输入，将CAM的输出特征图作为本模块的输入特征图，从而能够得到图片更多有用信息。与通道注意力不同，SAM主要关注于目标在图像上的位置信息，作为下一步的输入，它将CAM的输出特征图作为本模块的输入特征图，从而更为准确地对目标进行分类识别并精准定位目标所在的位置。

10.根据权利要求1所述的基于小目标检测和改进YOLOv5的麦穗计数检测方法，其特征在于，本发明评估指标采用平均精度AP、平均精度均值mAP以及每秒检测图片的帧数FPS这三种在目标检测算法中较为常见的评价指标来评估本文算法的性能，平均精度，平均精度均值，精确率Precision和召回率Recall的计算公式如下：