CN114882222B

CN114882222B - 改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法

Info

Publication number: CN114882222B
Application number: CN202210589525.8A
Authority: CN
Inventors: 顾寄南; 王梦妮; 王化佳; 胡甜甜; 张文浩; 方新领
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2024-06-07
Anticipated expiration: 2042-05-27
Also published as: CN114882222A

Abstract

本发明公开了改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法，构建改进的YOLOv5目标检测模型，通过在Backbone模块中设计改进的CSPDarknet53结构，改进的CSPDarknet53结构是在DarkNet53网络的基础上引入了Nonlinear mapping结构，对特征图进行特征提取。此外利用改进的YOLOv5目标检测模型对图像进行预测，输出茶叶嫩芽的目标检测和采摘区域的语义分割图；基于预测结果计算采摘点；最后输出带有采摘点信息的茶叶嫩芽图像，实现对茶叶嫩芽识别与采摘点定位。

Description

改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法

技术领域

本发明属于茶叶智能采摘及机器图像处理技术领域，尤其是改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法。

背景技术

茶树嫩芽的智能化采摘可以明显提高采茶的效率，而嫩芽的识别和采摘点的定位是实现茶叶嫩芽智能化采摘的基础。目前对茶树嫩芽的识别检测和采摘点定位的研究主要有两种方法。

一种是传统分割算法下，基于阈值法或结合颜色信息特征和边缘距离识别嫩芽，并进一步确定嫩芽质心，定为二维采摘点，此方法泛化能力较低，对于光照、拍摄角度、背景的要求较高，自然背景下对于茶叶嫩芽的精确识别与定位的效果并不理想。

另一种是基于深度学***框，并不利于对茶叶嫩芽进行精确的识别定位，尤其是后续再进行的骨架提取确定采摘点，大大加长了任务的时间，且精确度不高。

发明内容

针对现有技术中存在的不足，本发明提出了一种改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法。

本发明所采用的技术方案如下：

一种改进的YOLOv5目标检测模型构建方法，包括如下部分：

步骤1，构建改进的YOLOv5目标检测模型结构，包括Backbone模块、Neck模块、Detect head模块和Segment head模块；

所述Backbone模块包括Focus结构和改进的CSPDarknet53结构；改进的CSPDarknet53结构是在DarkNet53网络的基础上引入了Nonlinear mapping结构，对特征图进行特征提取；改进的CSPDarknet53结构包括CBL模块、第一CSP1_X模块、第二CSP1_X模块、第一CSP_Res8模块、第二CSP_Res8模块、第一Nonlinear mapping模块、第一Nonlinearmapping模块构成；改进的CSPDarknet53结构的输入依次经过CBL模块、第一CSP1_X模块、第二CSP1_X模块，第二CSP1_X模块的输出一方面输入第一Nonlinear mapping模块得到特征图，另一方面输入第一CSP_Res8模块；CSP_Res8模块的输出一方面输入第二Nonlinearmapping模块得到特征图；另一方面输入第二CSP_Res8模块得到特征图。

Neck模块包括空间金字塔池模块SPP、3个注意力模块CBAM和特征金字塔网络FPN组成；

Detect head模块包括路径聚合网络PANet和YOLOv5目标检测头；

Segment head模块的输入是FPN的底层特征图，输出采摘区域的像素级语义分割图。

步骤2，准备训练数据集，并利用训练数据集对改进的YOLOv5目标检测模型进行训练。

进一步，第一CSP1_X模块含有1个残差块Res unit，记为CSP1_1；由CBL模块、1个残差块Res unit、卷积层Conv、Concat、批归一化层、非线性激活函数Leaky relu和CBL模块组成；第二CSP1_X模块含有5个残差块Res unit，记为CSP1_5；由CBL模块、5个残差块Resunit、卷积层Conv、Concat、批归一化层、非线性激活函数Leaky relu和CBL模块组成。

进一步，Nonlinear mapping模块是由卷积层Conv和非线性激活函数Leaky relu组成。

进一步，CSP_Res8模块由8个Res unit模块和CBM组件Concate张量拼接组成。

进一步，CBL模块是由卷积层Conv、批归一化层和非线性激活函数Leaky relu组成。

进一步，将Backbone模块的最后一层的输出特征图作为空间金字塔池模块的输入，空间金字塔池模块的输出经过第一注意力模块的处理；

将Backbone模块的倒数第二层的输出特征图作为第二注意力模块的输入；

将Backbone模块的倒数第三层的输出特征图作为第三注意力模块的输入；

进一步，第一注意力模块的输出结果输入进特征金字塔网络的顶层；

第二注意力模块的输出结果输入进特征金字塔网络的第二层；

第三注意力模块的输出结果输入进特征金字塔网络的第三层。

进一步，注意力模块是将通道注意力机制和空间注意力机制进行结合，

通道注意力机制的实现分为两个部分，对输入进来的单个特征层，分别进行全局平均池化和全局最大池化，之后对平均池化和最大池化的结果，利用共享的全连接层进行处理，处理后的两个结果进行相加，取sigmoid激活函数，获得输入特征层每一个通道的权值后，将权值乘上原输入特征层；

空间注意力机制对输入进来的特征层，在每一个特征点的通道上取最大值和平均值。之后将这两个结果进行堆叠，利用一次通道数为1的卷积调整通道数，然后取sigmoid，此时获得输入特征层每一个特征点的权值，在获得这个权值后，将这个权值乘上原输入特征层。

一种基于改进YOLOv5目标检测模型的茶叶嫩芽识别与采摘点定位方法，包括如下步骤：

步骤1、通过工业相机采集茶树嫩芽图像，输入到计算机中进行图像预处理，消除嫩芽图像中光照、噪声等因素的影响；

步骤2、将预处理后的图像输入采用上述方案构建的改进的YOLOv5目标检测模型中，利用改进的YOLOv5目标检测模型对图像进行预测，输出预测结果；预测结果即为茶叶嫩芽的目标检测和采摘区域的语义分割图；

步骤3、基于预测结果计算采摘点；最后输出带有采摘点信息的茶叶嫩芽图像。

进一步，采摘点计算的方法为：

扫描采摘区域的分割结果轮廓，获得采摘区域所有像素的坐标点，其中横轴为x轴，从左到右为正方向，纵轴为y轴，从上到下为正方向，采摘区域的像素的横坐标集合为{x₁，x₂，x₃，...，x_m}，纵坐标集合为{y₁，y₂，y₃，...，y_m}，m为整数，二维物体质心坐标计算公式具体如下式所示：

X,Y为茶叶嫩芽的采摘点二维坐标(X,Y)。

本发明的有益效果：

(1)在原有特征提取网络CSPDarknet53基础上裁剪最后一个跨阶段的残差块，将CSPDarknet53的最后一个CSP_Res结构生成的特征图通过反卷积上采样成高分辨率特征图，使网络输出的特征图具有更丰富的特征信息；在第二个CSP_Res结构单元中增加两个残差块，提升对茶树嫩芽小目标细节信息的非线性映射能力；

(2)在骨干网络提取出来的有效特征层上增加注意力模块CBAM，在空间和通道有序定位推断注意力权重，快速在茶叶图像中定位感兴趣区域，提高嫩芽的检测精度。

(3)联合目标检测与语义分割，在头部预测网络增加一个预测对象掩码的分割分支Segment head，即在目标检测网络的基础上增加对采摘区域进行分割的分支。提出一种可同时进行茶叶嫩芽目标检测和采摘区域分割的网络模型，仅使用一个算法，相对于只用单级的目标检测检测器来说，可以提高精度；相对于直接使用分割的算法来说，计算的效率高，泛化能力也会得到提高。

(4)嫩芽采摘点定位模块可以根据采摘区域的分割结果快速计算采摘点的坐标，提高总体的效率和精确性。

附图说明

图1是本方法总体技术流程图；

图2是本申请改进的YOLOv5网络结构示意图；

图3是现有DarkNet53网络结构示意图；

图4是本申请改进的CSPDarknet53的网络结构示意图；

图5是本申请注意力模块CBAM结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

一种改进的YOLOv5目标检测模型构建方法，包括如下部分：

步骤1，构建改进的YOLOv5目标检测模型结构，包括Backbone模块、Neck模块、Detect head模块和Segment head模块；各模块具体结构如下：

1、Backbone模块包括Focus结构和改进的CSPDarknet53结构；将待进行目标检测和语义分割的图像作为Backbone模块的输入；Focus结构内对输入的图像进行多次切片和卷积操作把608×608×3的图像变成304×304×32的特征图。改进的CSPDarknet53结构对特征图进行特征提取；改进的CSPDarknet53结构如附图4所示；改进的CSPDarknet53结构是在DarkNet53网络(如图3所示)的基础上引入了Nonlinear mapping结构。改进的CSPDarknet53结构包括CBL模块、2个CSP1_X模块、2个CSP_Res8模块以及2个Nonlinearmapping模块构成；在本实施例中，2个CSP1_X模块依次分别是CSP1_1和CSP1_5，CSP1_1、CSP1_5分别含有1个残差块Res unit、5个残差块Res unit。

改进的CSPDarknet53结构的输入依次经过CBL模块、CSP1_1模块、CSP1_5模块，CSP1_5模块的输出一方面输入第一Nonlinear mapping模块得到输出结果152×152的特征图，另一方面输入第一CSP_Res8模块；CSP_Res8模块的输出一方面输入第二Nonlinearmapping模块得到输出结果76×76的特征图；另一方面输入第二CSP_Res8模块得到输出结果38×38的特征图，从而优化对小目标的检测效果。

改进的CSPDarknet53结构中各模块的具体结构如下：

CBL模块是由卷积层Conv、批归一化层(BN层)和非线性激活函数Leaky relu组成。

CSP1_X模块是由CBL模块、X个残差块Res unit、卷积层Conv、Concat、批归一化层(BN层)、非线性激活函数Leaky relu和CBL模块组成；CSP1_X模块的工作机制分两条路进行处理，一条路是依次经过CBL模块、X个残差块Res unit、卷积层Conv处理，另一条路是经过卷积层Conv处理；两条路的处理结果经过Concat连接后再依次经过BN层、非线性激活函数Leaky relu和CBL模块处理，最后输出CSP1_X模块的输出。残差块Res unit由2个CBL模块组成的上分路和作为下分路的原输入进行add张量相加操作得到残差块Res unit的输出。

Nonlinear mapping模块是由卷积层Conv和非线性激活函数Leaky relu组成；使用Nonlinear mapping对特征图维度进行调整，改进了特征融合的细节，使得在输入图像分辨率为608×608情况下的输出特征图为152×152、76×76、38×38，从而优化对小目标的检测效果。

CSP_Res8模块由8个Res unit模块和CBM组件Concate张量拼接组成。

2、Neck模块包括空间金字塔池模块(SPP)、3个注意力模块(CBAM)和特征金字塔网络(FPN)组成；

将Backbone模块的最后一层的输出特征图作为空间金字塔池模块(SPP)的输入，空间金字塔池模块(SPP)的输出经过第一注意力模块的处理；

第一注意力模块的输出结果输入进特征金字塔网络(FPN)的顶层；

第二注意力模块的输出结果输入进特征金字塔网络(FPN)的第二层；

第三注意力模块的输出结果输入进特征金字塔网络(FPN)的第三层；

本申请中的注意力模块是将通道注意力机制和空间注意力机制进行结合，如图5所示，通道注意力模块能够反映输入特征图中可能存在目标的区域；空间注意模块对通道压缩，可以反映特征图中相应较高的像素点集合。

图5上半部分为通道注意力机制，通道注意力机制的实现分为两个部分，对输入进来的单个特征层，分别进行全局平均池化和全局最大池化，之后对平均池化和最大池化的结果，利用共享的全连接层进行处理，处理后的两个结果进行相加，取sigmoid激活函数，获得输入特征层每一个通道的权值(0-1之间)后，将权值乘上原输入特征层即可。

图5的下半部分为空间注意力机制，对输入进来的特征层，在每一个特征点的通道上取最大值和平均值。之后将这两个结果进行堆叠，利用一次通道数为1的卷积调整通道数，然后取sigmoid，此时获得输入特征层每一个特征点的权值(0-1之间)，在获得这个权值后，将这个权值乘上原输入特征层即可。

CBAM模块引入残差网络的实现方式具体如下表达式。

式中：F表示输入特征图，M_c表示通道注意力操作，F′表示通道注意力模块输出，M_s表示空间注意力操作，表示逐个元素相乘，F″表示空间注意力模块输出。

通道注意力机制在空间维度压缩输入特征图，经过多层感知机运算后按像素点相加输出M_c(F)，最后再与输入特征进行像素级的点乘得到F′；空间注意模块以F′为输入，在通道压缩特征图得到M_s(F′)，最后与输入F′进行像素级点乘，得到F″，实现目标的聚焦。Sigmoid函数之后的显著图的值在[0,1]之间，它可以降低噪声并相对的增强对象信息。由于显著图是连续的，因此不会完全消除背景信息，有利于网络保留某些关联信息并提高检测网络的鲁棒性。

3、Detect head模块包括路径聚合网络(PANet)和YOLOv5目标检测头，路径聚合网络是一种自底向上的特征金字塔网络，PANet自下而上传递定位特征，将PANet与FPN结合起来获得更好的特征融合效果，然后直接使用PANet中的多尺度融合特征图进行检测。每个网格的多尺度特性映射将分配三个不同纵横比的锚,检测头将预测位置的偏移和高度和宽度的比例,以及相应的每个类别的概率和置信度。

4、Segment head模块的输入是FPN的底层特征图，其大小为(W/8,H/8,256)，最后输出采摘区域的像素级语义分割图。

准备训练数据集：把相机拍摄角度范围控制在40°～60°内拍摄茶丛图像，对茶叶嫩芽部分进行目标检测标注；从上到下观察，采摘区域定义为茎上位于最后一片嫩芽与第一片老叶之间的区域，采摘区域部分进行语义分割标注，得到训练数据集。

基于上述方法构建的改进的YOLOv5目标检测模型，本申请利用该改进的YOLOv5目标检测模型实现对茶树嫩芽的识别与采摘点定位；具体如下：

步骤1、通过工业相机采集茶树嫩芽图像，输入到计算机中进行图像预处理，消除嫩芽图像中光照、噪声等因素的影响。在本实施例中，图像预处理具体可以采用去噪处理、图像增强。

步骤2、将预处理后的图像输入采用上述方案构建的改进的YOLOv5目标检测模型中，利用改进的YOLOv5目标检测模型对图像进行预测，输出预测结果；预测结果即为茶叶嫩芽的目标检测和采摘区域的语义分割图。

1、采摘点计算的方法为：

所计算出来的X,Y即为茶叶嫩芽的采摘点二维坐标(X,Y)。

2、在本实施例中，可以调用PIL库中的Image.blend子函数实现茶叶嫩芽图和嫩芽采摘点信息进行融合。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种改进的YOLOv5目标检测模型构建方法，其特征在于，包括如下部分：

步骤1，构建改进的YOLOv5目标检测模型结构，包括Backbone模块、Neck模块、Detecthead模块和Segment head模块；

所述Backbone模块包括Focus结构和改进的CSPDarknet53结构；改进的CSPDarknet53结构是在DarkNet53网络的基础上引入了Nonlinear mapping结构，对特征图进行特征提取；改进的CSPDarknet53结构包括CBL模块、第一CSP1_X模块、第二CSP1_X模块、第一CSP_Res8模块、第二CSP_Res8模块、第一Nonlinear mapping模块、第一Nonlinear mapping模块构成；改进的CSPDarknet53结构的输入依次经过CBL模块、第一CSP1_X模块、第二CSP1_X模块，第二CSP1_X模块的输出一方面输入第一Nonlinear mapping模块得到特征图，另一方面输入第一CSP_Res8模块；CSP_Res8模块的输出一方面输入第二Nonlinear mapping模块得到特征图；另一方面输入第二CSP_Res8模块得到特征图；

Neck模块包括空间金字塔池模块SPP、3个注意力模块CBAM和特征金字塔网络FPN组成；将Backbone模块的最后一层的输出特征图作为空间金字塔池模块的输入，空间金字塔池模块的输出经过第一注意力模块的处理；

第一注意力模块的输出结果输入进特征金字塔网络的顶层；

第三注意力模块的输出结果输入进特征金字塔网络的第三层；

注意力模块是将通道注意力机制和空间注意力机制进行结合；

空间注意力机制对输入进来的特征层，在每一个特征点的通道上取最大值和平均值。之后将这两个结果进行堆叠，利用一次通道数为1的卷积调整通道数，然后取sigmoid，此时获得输入特征层每一个特征点的权值，在获得这个权值后，将这个权值乘上原输入特征层；

Detect head模块包括路径聚合网络PANet和YOLOv5目标检测头；

Segment head模块的输入是FPN的底层特征图，输出采摘区域的像素级语义分割图；

2.根据权利要求1所述的一种改进的YOLOv5目标检测模型构建方法，其特征在于，第一CSP1_X模块含有1个残差块Res unit，记为CSP1_1；由CBL模块、1个残差块Res unit、卷积层Conv、Concat、批归一化层、非线性激活函数Leaky relu和CBL模块组成；第二CSP1_X模块含有5个残差块Res unit，记为CSP1_5；由CBL模块、5个残差块Res unit、卷积层Conv、Concat、批归一化层、非线性激活函数Leaky relu和CBL模块组成。

3.根据权利要求1所述的一种改进的YOLOv5目标检测模型构建方法，其特征在于，Nonlinear mapping模块是由卷积层Conv和非线性激活函数Leaky relu组成。

4.根据权利要求1所述的一种改进的YOLOv5目标检测模型构建方法，其特征在于，CSP_Res8模块由8个Res unit模块和CBM组件Concate张量拼接组成。

5.根据权利要求1所述的一种改进的YOLOv5目标检测模型构建方法，其特征在于，CBL模块是由卷积层Conv、批归一化层和非线性激活函数Leaky relu组成。

6.一种基于改进YOLOv5目标检测模型的茶叶嫩芽识别与采摘点定位方法，其特征在于，包括如下步骤：

步骤1、通过工业相机采集茶树嫩芽图像，输入到计算机中进行图像预处理，消除嫩芽图像中光照、噪声因素的影响；

步骤2、将预处理后的图像输入采用权利要求1所述一种改进的YOLOv5目标检测模型构建方法构建的改进的YOLOv5目标检测模型中，利用改进的YOLOv5目标检测模型对图像进行预测，输出预测结果；预测结果即为茶叶嫩芽的目标检测和采摘区域的语义分割图；

7.根据权利要求6所述的一种基于改进YOLOv5目标检测模型的茶叶嫩芽识别与采摘点定位方法，其特征在于，采摘点计算的方法为：

X,Y为茶叶嫩芽的采摘点二维坐标(X,Y)。