CN116503418A

CN116503418A - 一种复杂场景下的作物三维目标检测方法

Info

Publication number: CN116503418A
Application number: CN202310791383.8A
Authority: CN
Inventors: 张天瀚; 王崎; 高杨杨; 张邦梅; 王亚洲
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-07-28
Anticipated expiration: 2043-06-30
Also published as: CN116503418B

Abstract

本发明公开了一种复杂场景下的作物三维目标检测方法，属于图像处理技术领域，包括以下步骤：S1、数据预处理：使用传感器采集农作物的RGB图像和点云数据，然后对采集的RGB图像进行标注，并利用点云数据生成深度图，最后形成农作物数据集；S2、构建网络模型；S3、将农作物数据集输入到由步骤S2获得的网络模型中，训练网络模型；S4、利用由步骤S3训练完毕的网络模型识别RGB图像中的农作物，并输出识别结果。本发明采用上述复杂场景下的作物三维目标检测方法，使用农作物图像数据用于模型训练，在农业等领域更具针对性、实用性，从而可在实际农业生产生活中辅助农作物信息检测和采摘，降低劳动力成本。

Description

一种复杂场景下的作物三维目标检测方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种复杂场景下的作物三维目标检测方法。

背景技术

相比于传统的以人力为主的粗放型农业，现代智慧农业具有以下几个优势：1.生产效率高：智慧农业利用现代技术手段，如物联网、大数据、人工智能等，可以实现对种植、养殖、灌溉等环节的自动化和智能化控制，从而提高生产效率。2.生产成本低：智慧农业采用节能、环保、智能化的技术和设备，能够减少劳动力和资源的浪费，从而降低生产成本。3.促进可持续发展：智慧农业可以实现对土地、水资源的科学利用和保护，减少农业对环境的负面影响，有利于实现农业的可持续发展。

现代智慧农业中，智能采摘是一种利用现代技术手段实现农作物自动化、智能化采摘的方法。它可以实现自动化和智能化的精准采摘，避免了由于传统人工采摘导致的时间、劳动力浪费以及采摘时的误伤和损伤，从而提高了采摘质量和农业生产效率。

智慧采摘主要采用二维目标检测算法，二维目标检测在智慧采摘存在局限性，例如无法获取深度信息，对遮挡敏感，对光照、视角等因素敏感和无法处理复杂场景等。

发明内容

为解决上述问题，本发明提供一种复杂场景下的作物三维目标检测方法，引入三维目标检测方法，可获取更丰富的空间信息，解决物体遮挡以及对光照、视角等因素不敏感等问题，能够更好地适应不同的采摘场景，从而使得三维目标检测具有更好的适用性和优势。

为实现上述目的，本发明提供了一种复杂场景下的作物三维目标检测方法，包括以下步骤：

S1、数据预处理：使用传感器采集农作物的RGB图像和点云数据，然后对采集的RGB图像进行标注，并利用点云数据生成深度图，最后利用标注后的RGB图像和深度图形成农作物数据集；

S2、构建网络模型，网络模型由用于进行图像特征提取的主干网络、用于进行图像深度图预测的深度预测模块、用于获得所需深度位置编码信息的位置编码模块，用于进行图像特征和深度位置编码信息融合的深度transformer编码器模块和用于进行边界框预测的检测头模块构成；

S3、将农作物数据集输入到由步骤S2获得的网络模型中，训练网络模型；

S4、利用由步骤S3训练完毕的网络模型识别RGB图像中的农作物，并输出识别结果。

优选的，步骤S1具体包括以下步骤：

S11、数据采集：使用单目相机和激光雷达分别采集农作物的RGB图像和点云数据；

S12、标注：

图像数据标注：人工标注RGB图像中农作物的二维边界框和三维边界框；

文本数据标注：人工标注RGB图像中农作物的属性信息；

S13、获取深度图：利用采集的点云数据生成深度图。

优选的，步骤S2具体包括以下步骤：

S21、图像特征提取：

将RGB图像输入到网络模型中，通过一个主干网络模块进行图像特征提取；

S22、将由步骤S21输出的图像特征输入到深度预测模块，利用深度预测模块根据输入的图像特征进行深度特征预测和深度特征增强，分别得到深度预测特征和深度增强特征，并利用深度预测特征预测深度信息特征；

S23、将步骤S22输出的深度增强特征作为深度位置信息编码模块的输入，利用深度位置信息编码模块通过两次卷积和一次特征维度变换操作，将输入的深度增强特征信息转换为所需深度位置编码信息；

S24、通过一次卷积操作将由步骤S22输出的深度增强特征划分为N个大小相同的块，再通过全连接层将块投影为固定长度的向量；

S25、通过一次卷积操作将由步骤S21输出的图像特征划分为N个大小相同的块，再通过全连接层将块投影为固定长度的向量；

S26、分别将由步骤S24输出的特征信息和步骤S25输出的图像类别信息相连接，再与步骤S23输出的深度位置编码信息相加，得到上下文特征；

S27、将由步骤S26 输出的上下文特征和由步骤S22输出的深度信息特征作为深度transformer编码器模块的输入，将上下文特征和深度信息特征进行融合；

S28、将步骤S27输出的融合特征作为检测头模块的输入，预测边界框。

优选的，步骤S21中所述主干网络模块为ResNet101-DCN。

优选的，步骤S22所述的图像特征在深度预测模块依次进行以下操作：卷积、归一化处理、矩阵相乘和矩阵相加。

优选的，步骤S27所述的深度transformer编码器模块包括多头注意力、归一化、残差链接和前反馈网络，其中上下文特征作为多头注意力的键向量K和值向量V，深度信息特征作为多头注意力的查询向量Q；

其具体包括以下步骤：

将步骤S26 输出的上下文特征和深度信息特征作为深度transformer编码器模块的输入，执行顺序如下：多头注意力层、残差链接和归一化层、前反馈网络层、残差链接和归一化层，多次重复上述操作将上下文特征和深度信息特征进行融合。

优选的，在步骤S28中采用预定义的2D-3D锚点去回归预测边界框，每个预定义的锚点由2D边界框和3D边界框/>的参数组成，其中/>和/>表示2D边界框和3D边界框的中心，/>和/>表示2D边界框和3D边界框的物理尺寸，/>表示深度，/>表示观测角。

优选的，步骤S3具体包括以下步骤：

S31、将农作物数据集划分为训练集和测试集；

S32、将训练集载入到由步骤S2获得的网络模型中，使用优化器更新网络模型的参数，并使用动态调整学习率策略对学习率进行更新，得到训练后的网络模型；

S33、将测试集输入到经过由步骤S32训练完毕的网络模型中，计算平均准确率、平均刻度误差；

S34、循环迭代，得到识别效果最佳的网络模型。

优选的，步骤S32具体包括以下步骤：

使用Adam优化器训练网络模型，迭代次数为100，批处理大小为5，学习率从0.002开始，并以余弦退火Cosine Annealing进行学习率动态衰减；

损失函数表达式如下：

；

式中，为分类损失、/>为边界框回归损失和为/>深度损失；

其中表达式如下：

；

式中，为RGB图像上具有有效深度标签的像素区域，/>为由深度箱地面预测值，/>为由激光雷达生成的深度箱地面真实值。

优选的，步骤S33所述的平均准确率是对pr曲线上的Precision值求均值，对于pr曲线来说，使用积分来计算：

；

式中，p表示在pr曲线中，网络模型检测出来的目标中真正的目标物体的比例，r表示在pr曲线中，所有真实的目标有被模型检测出来的比例；

平均刻度误差=，其中/>是角度对齐后的三维交并比。

本发明具有以下有益效果：

1、能够更好地适应不同的采摘场景，从而使得三维目标检测具有更好的适用性和优势；

2、使用农作物图像数据用于模型训练，在农业等领域更具针对性、实用性，从而可在实际农业生产生活中辅助农作物信息检测和采摘，降低劳动力成本。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明所述的一种复杂场景下的作物三维目标检测方法的流程图；

图2为本发明所述的一种复杂场景下的作物三维目标检测方法的农作物三维目标检测模型总体结构图；

图3为本发明所述的一种复杂场景下的作物三维目标检测方法的深度预测模块结构图；

图4为本发明所述的一种复杂场景下的作物三维目标检测方法的位置编码模块结构图；

图5为本发明所述的一种复杂场景下的作物三维目标检测方法的深度Transformer编码器模块结构图；

图6为本发明的实施例的原始农作物RGB图像；

图7为通过本发明检测后的农作物RGB图像。

具体实施方式

为了使本发明实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明实施例，并不用于限定本发明实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

需要说明的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

图1为本发明所述的一种复杂场景下的作物三维目标检测方法的流程图，如图1所示，一种复杂场景下的作物三维目标检测方法，包括以下步骤：

优选的，步骤S1具体包括以下步骤：

S12、标注：

文本数据标注：人工标注RGB图像中农作物的属性信息，本实施例中的属性信息包括RGB图像上显示的大小、类别等信息；

S13、获取深度图：利用采集的点云数据生成深度图。

图2为本发明所述的一种复杂场景下的作物三维目标检测方法的农作物三维目标检测模型总体结构图，如图2所示，S2、构建网络模型，网络模型由用于进行图像特征提取的主干网络、用于进行图像深度图预测的深度预测模块、用于获得所需深度位置编码信息的位置编码模块，用于进行图像特征和深度位置编码信息融合的深度transformer编码器模块和用于进行边界框预测的检测头模块构成；

优选的，步骤S2具体包括以下步骤：

S21、图像特征提取：

将RGB图像输入到网络模型中，通过一个主干网络模块进行图像特征提取；本实施例中的RGB图像为固定尺寸：256像素*256像素。

优选的，步骤S21中所述主干网络模块为ResNet101-DCN。

图3为本发明所述的一种复杂场景下的作物三维目标检测方法的深度预测模块结构图，如图3所示，S22、将由步骤S21输出的图像特征输入到深度预测模块，利用深度预测模块根据输入的图像特征进行深度特征预测和深度特征增强，分别得到深度预测特征和深度增强特征，并利用深度预测特征预测深度信息特征；

图4为本发明所述的一种复杂场景下的作物三维目标检测方法的位置编码模块结构图，如图4所示，S23、将步骤S22输出的深度增强特征作为深度位置信息编码模块的输入，利用深度位置信息编码模块通过两次卷积和一次特征维度变换操作，将输入的深度增强特征信息转换为所需深度位置编码信息；

图5为本发明所述的一种复杂场景下的作物三维目标检测方法的深度Transformer编码器模块结构图，如图5所示，S27、将由步骤S26 输出的上下文特征和由步骤S22输出的深度信息特征作为深度transformer编码器模块的输入，将上下文特征和深度信息特征进行融合；

其具体包括以下步骤：

优选的，步骤S3具体包括以下步骤：

S31、将农作物数据集划分为训练集和测试集；

优选的，步骤S32具体包括以下步骤：

损失函数表达式如下：

；

式中，为分类损失、/>为边界框回归损失和为/>深度损失；

其中表达式如下：

；

S33、将测试集输入到经过由步骤S32训练完毕的网络模型中，计算平均准确率（Average Precision，AP）、平均刻度误差（Average Scale Error，ASE）；

；

平均刻度误差=，其中/>是角度对齐后的三维交并比。

S34、循环迭代，得到识别效果最佳的网络模型。

如图6和图7所示，本实施例中在网络模型训练的过程中，保存epoch为10的倍数的模型及其参数，再对保存的模型进行测试，选择各项指标相对较好的模型，将用于真实验证的图像输入到选择的模型中，从而检测图片中的农作物。

因此，本发明采用上述复杂场景下的作物三维目标检测方法，使用农作物图像数据用于模型训练，在农业等领域更具针对性、实用性，从而可在实际农业生产生活中辅助农作物信息检测和采摘，降低劳动力成本。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种复杂场景下的作物三维目标检测方法，其特征在于：包括以下步骤：

步骤S1具体包括以下步骤：

S12、标注：

文本数据标注：人工标注RGB图像中农作物的属性信息；

S13、获取深度图：利用采集的点云数据生成深度图；

步骤S2具体包括以下步骤：

S21、图像特征提取：

S28、将步骤S27输出的融合特征作为检测头模块的输入，预测边界框；

步骤S3具体包括以下步骤：

S31、将农作物数据集划分为训练集和测试集；

S34、循环迭代，得到识别效果最佳的网络模型；

2.根据权利要求1所述的一种复杂场景下的作物三维目标检测方法，其特征在于：步骤S21中所述主干网络模块为ResNet101-DCN。

3.根据权利要求1所述的一种复杂场景下的作物三维目标检测方法，其特征在于：步骤S22所述的图像特征在深度预测模块依次进行以下操作：卷积、归一化处理、矩阵相乘和矩阵相加。

4.根据权利要求1所述的一种复杂场景下的作物三维目标检测方法，其特征在于：步骤S27所述的深度transformer编码器模块包括多头注意力、归一化、残差链接和前反馈网络，其中上下文特征作为多头注意力的键向量K和值向量V，深度信息特征作为多头注意力的查询向量Q；

其具体包括以下步骤：

5.根据权利要求1所述的一种复杂场景下的作物三维目标检测方法，其特征在于：在步骤S28中采用预定义的2D-3D锚点去回归预测边界框，每个预定义的锚点由2D边界框和3D边界框/>的参数组成，其中/>和表示2D边界框和3D边界框的中心，/>和/>表示2D边界框和3D边界框的物理尺寸，/>表示深度，/>表示观测角。

6.根据权利要求1所述的一种复杂场景下的作物三维目标检测方法，其特征在于：步骤S32具体包括以下步骤：

损失函数表达式如下：

；

式中，为分类损失、/>为边界框回归损失和为/>深度损失；

其中表达式如下：

；

式中，为RGB图像上具有有效深度标签的像素区域，/>为由深度箱地面预测值，为由激光雷达生成的深度箱地面真实值。

7.根据权利要求1所述的一种复杂场景下的作物三维目标检测方法，其特征在于：步骤S33所述的平均准确率是对pr曲线上的Precision值求均值，对于pr曲线来说，使用积分来计算：

；

平均刻度误差=，其中/>是角度对齐后的三维交并比。