CN114943697A

CN114943697A - 一种基于轻量化改进yolo的番茄成熟度检测方法

Info

Publication number: CN114943697A
Application number: CN202210526772.3A
Authority: CN
Inventors: 魏萱; 曾泰恒
Original assignee: Fujian Agriculture and Forestry University
Current assignee: Fujian Agriculture and Forestry University
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-08-26

Abstract

本发明涉及一种基于轻量化改进YOLO的番茄成熟度检测方法。采集大棚环境下的番茄图像，并基于成熟度将数据集划分为成熟、半成熟、未成熟三种状态。利用K‑means聚类算法对番茄数据集中已标注的目标边界锚框聚类，产生不同数量、不同大小的先验框。构建改进后的YOLO v5模型，摘除原YOLOv5的Focus层，利用MobileNet V3的bneck模块替换原YOLOv5的backbone部分，实现模型的轻量化。调用摄像头，采集大棚环境下番茄视频流，并实时输入改进后的YOLOv5模型，利用显示终端输出预测结果，即番茄的位置、类别和数量。本发明在保证模型检测精度的条件下，减少了模型参数及运算量，提高了检测速度，降低了对于硬件设备的算力要求。

Description

一种基于轻量化改进YOLO的番茄成熟度检测方法

技术领域

本发明属于目标检测领域，具体涉及一种基于轻量化改进YOLO的番茄成熟度检测方法。

背景技术

我国是世界最大的番茄生产和消费国家，番茄生产是农民增收致富和出口创汇的重要途径之一。番茄生长周期短，为了实现优质和高产，需要对番茄的数量、位置和成熟度进行动态而精确的检测，与此同时，随着农业人口的减少和老龄化，越来越多的农业机器人出现来取代人类从事如收获等工作。番茄农业机器人的设计难点之一是番茄的识别和定位，其准确性关系到机器人的工作效率。番茄果实的生长姿态各异，果实之间重叠，叶片、枝干、果柄等对果实遮挡严重，未成熟番茄与叶子和藤蔓的颜色相似，温室光照环境复杂，这些因素都给机器人识别带来了一定的困难。近些年随着深度学***台上，如树莓派、开发板、智能手机等。

发明内容

本发明的目的在于针对原始YOLOv5方法参数过多，计算量大，检测时间较长以及占用内存大的不足，提供一种基于轻量化改进YOLO的番茄成熟度检测方法，有效降低模型的参数量，在保证检测精度的同时提升模型的目标检测速度。

为实现上述目的，本发明的技术方案是：一种基于轻量化改进YOLO的番茄成熟度检测方法，包括如下步骤：

S1、采集大棚环境下的番茄图像形成番茄数据集，利用开源软件LabelImg对不同成熟度下的番茄图像进行锚框标注及类别划分，具体类别包括三类：Mature、Semi-Mature、UnMature；

S2、将番茄数据集划分为训练集、验证集和测试集，分别用于模型的训练和测试；

S3、利用k-means聚类算法对番茄数据集的真实边界框进行聚类分析，得到9种不同尺寸的先验框；

S4、采用YOLOv5作为基础模型，删除其Focus层，同时利用MobileNetV3的bncek模块替换YOLOv5的backbone部分，得到轻量化改进后的YOLOv5模型；

S5、利用标注好的训练集对改进后的YOLOv5模型进行训练，将经过backbone和haed层聚合后的特征输入YOLOv5 detect层，对番茄果实目标的位置和类别进行预测，利用损失函数训练模型，收敛以后得到最终的模型权重；

S6、利用训练得到的最优模型权重，将测试集输入进行检测，产生最终的检测结果。

在本发明一实施例中，步骤S1中，采用以下方法构建番茄数据集：

分别在早上及下午两个时间段，在大棚环境下，利用智能手机采集番茄图像1000张，利用开源软件LabelImg对番茄数据集进行标注，其中番茄表皮颜色为深红色，满足采摘条件的，标注为“Mature”，表皮颜色为较浅的橘红色，尚不满足采摘条件的，标注为“Semi-Mature”，表皮颜色为绿色，还处于生长阶段的，标注为“UnMature”。

在本发明一实施例中，步骤S3中，原始YOLOv5的三组Anchor是基于COCO数据集聚类得到，并不适用于番茄数据集，因此采用k-means聚类算法对于番茄数据集图片中的番茄果实目标检测框进行聚类分析，得到新的适用于大棚场景下番茄果实的Anchor数量与尺寸，并依据k-means聚类算法得到的参数修改YOLO v5网络配置文件中Anchor数量与尺寸。

在本发明一实施例中，步骤S4中，改进后的YOLOv5模型，采用一个3x3的卷积层，接一层BatchNorm正则化层，加上hard_swish激活函数来代替原有的Focus层实现下采样功能，最终将输入尺寸为640×640×3的图像转化为320×320×16的特征图，其中，hard_swish激活函数表达式如下：

ReLU6＝min(6，max(0，x))

其中，ReLU6为非线性激活函数，若x≤0，则直接转化为0，若x＞0，则转化为x与6中的较大值；h-swish为非线性激活函数，若x≤-3，则转化为0，若x大于等于3，则转化为x，否则转化为x*(x+3)/6。

在本发明一实施例中，步骤S4中，bncek结构包括通道可分离卷积+SE通道注意力机制+残差连接，其处理流程为：先将输入特征经过一个卷积组合层和一个深度可分离卷积组合层，然后将得到的特征图经过一个轻量化注意力结构，接着将SE注意力结构的输出通过concat操作对深度可分离卷积输出的特征进行通道加权，最终将输入特征通过add跳跃连接与加权后的特征相加，再经过一个卷积组合层处理后输出；其中，卷积组合层包括1×1的卷积层、批归一化层BN层和激活函数；深度可分离卷积组合层包括3×3的深度可分离卷积层、BatchNorm正则层和激活函数；SE注意力结构包括一个平均池化层和两个1×1的卷积层；其中，根据卷积核大小及步长的不同、SE注意力机制使用与否、激活函数的不同，调整不同层bneck结构的具体参数并进行组合，得到最终改进后的整体网络结构；将320×320×16的特征图输入到benck结构后，分别在第4、9、17层网络后输出三个不同尺度的特征图进入到Neck和detect层。

在本发明一实施例中，步骤S5中，将步骤4聚合得到的特征图分别输入YOLOv5detect层，对目标的位置和类别进行预测，各分支分别输出一组形式为N×N×3×(4+1+C)的向量，N表示该尺度分支下的特征图尺寸，3表示该尺度分支下的预测框数量，4和1分别表示预测框的坐标和置信度，C表示数据的类别数量；利用损失函数对模型进行训练，其中损失函数采用CIoU Loss，如下式：

式中，LCIoU为预测框的位置损失，IoU为预测框和真实框的交叠率，即他们的交集与并集的并集，p、p^gt分别为预测框和真实框的中心点坐标，ρ²()表示欧氏距离，c包含预测框与真实框的最小矩形的对角线长度，α为权重函数，v函数用于度量长宽比的相似性，v、α函数的定义分别如下：

式中，w^gt、h^gt分别表示真实框的宽和高，w、h分别表示预测框的宽和高；设置网络模型参数中输入图像的尺寸、9个先验框尺寸、识别种类的数量和标注的类名称、初始学习率以及学习率调整策略，利用划分好的番茄数据集对模型进行训练；训练过程中使用验证集进行验证，训练至网络模型收敛后保存最终的权重文件。

在本发明一实施例中，加载步骤S5训练得到的最佳模型权重，将测试集输入，进行特征提取及特征聚合后，由detect层得到可能包含行番茄果实目标的边界框坐标、置信度和类别概率，利用非极大值抑制去除冗余的检测框，产生最终的检测结果。

在本发明一实施例中，还包括步骤，即：调用摄像头，采集大棚环境下番茄视频流，并实时输入轻量化改进后的YOLOv5模型，利用显示终端实时输出预测结果，即番茄果实的位置、类别和相应数量。

相较于现有技术，本发明具有以下有益效果：

(1)原始YOLOv5的三组候选框值是基于COCO数据集聚类得到，并不适用于番茄果实目标检测数据集。本发明使用k-means聚类算法针对自制的番茄图像数据集重新计算候选框尺寸，代替原有尺寸，，有利于提高对番茄果实及其遮蔽物的识别框选，能有效提升模型检测精度。

(2)摘除原始YOLOv5网络中的Focus层，利用普通的卷积层+BatchNorm正则层+hard_swish激活函数层代替Focus层实现下采样功能，减少参数，降低模型运算量。

(3)利用MobileNetV3的逆残差bncek模块替换原始YOLOv5的backbone部分，用于提取图像特征，在不同尺度下分批次输出三组特征，显著缩减了模型的参数量，同时也保持了模型的检测精度。

(4)本发明提出一种基于轻量化改进YOLOv5的番茄成熟度检测方法，可利用显示终端实时输出番茄的位置、类别和数量，同时相较于原始YOLOv5模型，参数量减少、运算量降低、检测速度增快，且保持了较好的检测精度，经过转化后可移植于算力较低的运算平台上，用于指导采摘机器人等实际的农业生产活动。

附图说明

图1为本发明的流程图。

图2为本发明改进的YOLOv5网络中的使用的MobileNetV3的逆残差bneck结构。

图3为本发明改进的YOLOv5的整体网络结构图。

图4为本发明一实例的终端显示效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参考图1，本发明提供一种技术方案：一种基于轻量化改进YOLO的番茄成熟度检测方法，其具体步骤包括：

(1)采集大棚环境下的番茄图像，并基于成熟度将数据集划分为成熟、半成熟、未成熟三种状态。

(2)利用K-means聚类算法对番茄数据集中已标注的目标边界锚框聚类，产生不同数量、不同大小的先验框。

(3)构建改进后的YOLO v5模型，摘除原YOLOv5的Focus层，利用MobileNet V3的bneck模块替换原YOLOv5的backbone部分，实现模型的轻量化。

(4)调用摄像头，采集大棚环境下番茄视频流，并实时输入改进后的YOLOv5模型，利用显示终端输出预测结果，即番茄的位置、类别和数量。

对于番茄图像数据集的采集，具体包括以下步骤：

(1)分别在早上及下午两个时间段，在大棚环境下，利用智能手机拍摄番茄图像1000张。

(2)利用开源软件LabelImg对拍摄的番茄图像进行标注分类，具体成熟度划分标准为：番茄表皮颜色为深红色，满足采摘条件的，标注为“Mature”；表皮颜色为较浅的橘红色，尚不满足采摘条件的，标注为“Semi-Mature”；表皮颜色为绿色，还处于生长阶段的，标注为“UnMature”。

对于原始YOLOv5模型的轻量化改进，具体包括以下步骤：

(1)原始YOLOv5的anchor值是经过COCO数据集聚类计算得来，在80×80、40×40、20×20这三个特征尺度上分别为[10，13，16，30，33，23]、[30，61，62，45，59，119]、[116，90，156，198，373，326]。COCO数据集共有80个类别，物品主要源自于复杂的生活场景，而针对本发明所面向的番茄果实数据集，类别较少且目标特征都较为简单，因而采用k-means聚类算法对采集的数据集图片中的番茄果实目标检测框进行重新聚类分析，得到新的anchor数值，并依据得到的参数修改YOLOv5的网络配置文件。

经过k-means聚类算法重新计算得到的anchor值为[4，5，8，10，13，16]、[23，29，43，55，73，105]、[146，217，231，300，335，433]。

原始YOLOv5将输入图像转化为640×640×3的尺寸输入Focus层，Focus层采用切片操作，先将输入图像转化为320×320×12的特征图，再经过一次卷积操作，最终变成320×320×32的特征图，其本意将图像相邻的四个位置进行堆叠，聚焦宽高维度信息到多通道空间，提高每个区域的感受野，并减少原始信息的丢失，但从网络轻量化的角度而言，其计算量和参数量相较于普通单层下采样卷积层要多上许多，因而本发明采用一个3x3的卷积层，接一层BatchNorm正则化层，加上hard_swish激活函数来代替原有的Focus层实现下采样功能，最终将输入尺寸为640×640×3的图像转化为320×320×16的特征图。其中，hard_swish激活函数表达式如下：

ReLU6＝min(6，max(0，x))

原始YOLOv5的backbone部分采用的是CSPDarknet53，基于模型轻量化考虑，本发明利用MobileNetV3的逆残差bncek结构替换YOLOv5的backbone部分。

如图2所示，MobileNetV3的逆残差bncek结构主要包括通道可分离卷积+SE通道注意力机制+残差连接，其具体处理流程为：先将输入特征经过一个卷积组合层和一个深度可分离卷积组合层，然后将得到的特征图经过一个SE注意力结构，接着将SE注意力结构的输出通过concat操作对深度可分离卷积输出的特征进行通道加权，最终将输入特征通过add跳跃连接与加权后的特征相加，再经过一个卷积组合层处理后输出；其中，卷积组合层包括1×1的卷积层、BatchNorm正则层和激活函数；深度可分离卷积组合层包括3×3的深度可分离卷积层、BatchNorm正则层和激活函数；SE注意力结构包括一个平均池化层和两个1×1的卷积层；其中，根据卷积核大小及步长的不同、SE注意力机制使用与否、激活函数(ReLU6和hard-swish)的不同，调整不同层bneck结构的具体参数并进行组合，最终改进后的整体网络结构如图3所不。

将320×320×16的特征图输入到benck结构后，分别在第4、9、17层网络后输出三个不同尺度的特征图进入到Neck和detect层。

将多尺度聚合得到的特征图分别输入YOLOv5 detect层，对目标的位置和类别进行预测，各尺度下的分支分别输出一组形式为N×N×3×(4+1+C)的向量，N表示该尺度分支下的特征图尺寸，3表示该尺度分支下的预测框数量，4和1分别表示预测框的坐标和置信度，C表示数据的类别数量。利用损失函数对模型进行训练，其中损失函数采用CIoU Loss，如下式：

式中，LCIoU为预测框的位置损失，IoU为预测框和真实框的交叠率，即他们的交集与并集的并集，p、p^gt分别为预测框和真实框的中心点坐标，ρ²()表示欧氏距离，c包含预测框与真实框的最小矩形的对角线长度，α为权重函数，v函数用于度量长宽比的相似性，α，v函数的定义分别如下：

式中，w^gt、h^gt分别表示真实框的宽和高，w、h分别表示预测框的宽和高。设置网络模型参数中输入图像的尺寸、9个先验框尺寸、识别种类的数量和标注的类名称、初始学习率以及学习率调整策略等，利用划分好的番茄图像训练集对模型进行训练。

改进后的网络训练超参数如下表1：

表1

训练过程中使用验证集进行验证，训练至网络模型收敛后保存最终的权重文件。

加载训练得到的最佳模型权重，将测试集输入网络，进行特征提取及特征聚合后，由detect层得到可能包含行番茄果实目标的边界框坐标、置信度和类别概率，利用非极大值抑制去除冗余的检测框，产生最终的检测结果。

根据模型的最终检测结果，从平均精度均值map(mean average precision)、参数量(params)、计算量(FLOPs)、模型大小和检测速度(FPS)指标来评判改进后的模型精度和速度。

与原版YOLOv5模型的对比结果如下表2所示：

表2

由上表2可见，轻量化改进后的YOLOv5模型在参数量、计算量、模型大小都大幅降低50％的情况下，保持了和原版模型相近的精准度，同时在CPU平台上提高了170％的检测速度，有效降低了模型对于硬件存储能力和计算能力的要求，其在其他低算力平台上部署的便利性也大大提高。

调用摄像头，采集大棚环境下番茄视频流，并实时输入轻量化改进后的YOLOv5模型，利用显示终端实时输出预测结果，即番茄果实的位置、类别和相应数量。

终端显示效果如图4所示。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于轻量化改进YOLO的番茄成熟度检测方法，其特征在于，包括如下步骤：

S4、采用YOLOv5作为基础模型，删除其Focus层，同时利用MobileNet V3的bncek模块替换YOLOv5的backbone部分，得到轻量化改进后的YOLOv5模型；

2.根据权利要求1所述的一种基于轻量化改进YOLO的番茄成熟度检测方法，其特征在于，步骤S1中，采用以下方法构建番茄数据集：

3.根据权利要求1所述的一种基于轻量化改进YOLO的番茄成熟度检测方法，其特征在于，步骤S3中，原始YOLOv5的三组Anchor是基于COCO数据集聚类得到，并不适用于番茄数据集，因此采用k-means聚类算法对于番茄数据集图片中的番茄果实目标检测框进行聚类分析，得到新的适用于大棚场景下番茄果实的Anchor数量与尺寸，并依据k-means聚类算法得到的参数修改YOLO v5网络配置文件中Anchor数量与尺寸。

4.根据权利要求1所述的一种基于轻量化改进YOLO的番茄成熟度检测方法，其特征在于，步骤S4中，改进后的YOLOv5模型，采用一个3x3的卷积层，接一层BatchNorm正则化层，加上hard_swish激活函数来代替原有的Focus层实现下采样功能，最终将输入尺寸为640×640×3的图像转化为320×320×16的特征图，其中，hard_swish激活函数表达式如下：

ReLU6＝min(6，max(0，x))

5.根据权利要求1所述的一种基于轻量化改进YOLO的番茄成熟度检测方法，其特征在于，步骤S4中，bncek结构包括通道可分离卷积+SE通道注意力机制+残差连接，其处理流程为：先将输入特征经过一个卷积组合层和一个深度可分离卷积组合层，然后将得到的特征图经过一个轻量化注意力结构，接着将SE注意力结构的输出通过concat操作对深度可分离卷积输出的特征进行通道加权，最终将输入特征通过add跳跃连接与加权后的特征相加，再经过一个卷积组合层处理后输出；其中，卷积组合层包括1×1的卷积层、批归一化层BN层和激活函数；深度可分离卷积组合层包括3×3的深度可分离卷积层、BatchNorm正则层和激活函数；SE注意力结构包括一个平均池化层和两个1×1的卷积层；其中，根据卷积核大小及步长的不同、SE注意力机制使用与否、激活函数的不同，调整不同层bneck结构的具体参数并进行组合，得到最终改进后的整体网络结构；将320×320×16的特征图输入到benck结构后，分别在第4、9、17层网络后输出三个不同尺度的特征图进入到Neck和detect层。

6.根据权利要求1所述的一种基于轻量化改进YOLO的番茄成熟度检测方法，其特征在于，步骤S5中，将步骤4聚合得到的特征图分别输入YOLOv5 detect层，对目标的位置和类别进行预测，各分支分别输出一组形式为N×N×3×(4+1+C)的向量，N表示该尺度分支下的特征图尺寸，3表示该尺度分支下的预测框数量，4和1分别表示预测框的坐标和置信度，C表示数据的类别数量；利用损失函数对模型进行训练，其中损失函数采用CIoU Loss，如下式：

7.根据权利要求1所述的一种基于轻量化改进YOLO的番茄成熟度检测方法，其特征在于，加载步骤S5训练得到的最佳模型权重，将测试集输入，进行特征提取及特征聚合后，由detect层得到可能包含行番茄果实目标的边界框坐标、置信度和类别概率，利用非极大值抑制去除冗余的检测框，产生最终的检测结果。

8.根据权利要求1所述的一种基于轻量化改进YOLO的番茄成熟度检测方法，其特征在于，还包括步骤，即：调用摄像头，采集大棚环境下番茄视频流，并实时输入轻量化改进后的YOLOv5模型，利用显示终端实时输出预测结果，即番茄果实的位置、类别和相应数量。