CN116071424A

CN116071424A - 基于单目视觉的果实空间坐标定位方法

Info

Publication number: CN116071424A
Application number: CN202211521730.7A
Authority: CN
Inventors: 张晴晖; 李俊萩; 孔德肖; 王甲一
Original assignee: Southwest Forestry University
Current assignee: Southwest Forestry University
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-05-05

Abstract

本发明公开了一种基于单目视觉的果实空间坐标定位方法，包括以下步骤：获取目标检测数据集并对YOLOv5s模型进行训练获得目标检测模型，获取单目深度估计数据集并利用ResNeXt101网络进行训练获得单目深度估计预训练模型，目标检测训练模型对目标物体进行识别和二位坐标提取，单目深度估计预训练模型提取不同分辨率的深度估计，将目标检测模型提取的二维像素坐标信息与深度估计进行融合并进行坐标转换最后获得目标物体的机械臂坐标下的三维坐标。本发明采用融合自适应分辨率深度估计与目标检测的定位算法，将目标物体的相对深度转化为绝对深度并结合其二维坐标，在最终得到果实的三维定位结果。

Description

基于单目视觉的果实空间坐标定位方法

技术领域

本发明涉及计算机视觉领域，具体涉及基于单目视觉的果实空间坐标定位方法。

背景技术

随着生活水平的提高，人们对于水果的需求也随之增加，这也带动了一些地区水果种植业的发展，水果种植的种类和种植面积也大幅增加。传统的水果种植业需要消耗大量的劳动力以完成果树的施肥、农药喷洒和果实的采摘等作业。人工摘果的效率低下，长时间高强度的摘果作业还会给劳动工人的身体造成伤害。利用水果采摘机器人实现自动采摘是改善果园生产管理效率的一个有效途径，水果采摘机器人的采摘动作依赖于水果的准确检测与定位，因此要求水果采摘机器人能够在果园复杂的环境下快速准确地检测树上的水果并完成空间坐标的定位以实现准确采摘。水果采摘机器人的视觉***是用来感知环境信息以及目标物的识别和定位，实现目标的快速、精准识别与定位，这直接影响着摘果机器人的可靠性和实时性。目标物的精准识别与定位是视觉***的关节所在。

近年来，通过融入距离信息，即利用彩色图像和深度图像的水果检测方法已逐渐展开研究，获取深度信息的方式主要有立体视觉技术、激光扫描仪和RGB-D相机等。立体视觉技术计算量大，激光扫描仪和RGB-D的价格昂贵且操作复杂。

发明内容

为解决上述问题，本发明提出了基于单目视觉的果实空间坐标定位方法，该方法利用低分辨率的单目相机获取RGB图像用以目标检测和深度估计以完成果实的空间坐标定位，具有成本低廉的优势；同时对目标检测算法与空间坐标定位算法相融合以获取目标果实的空间三维坐标。

为了达到上述技术效果，本发明通过以下技术方案实现的：

基于单目视觉的果实空间坐标定位方法，包括以下步骤：

S1、获取目标物体检测的数据集；

S2、将步骤S1中获取的数据集使用YOLOv5s进行训练，获得能够实现目标果实种类识别及平面坐标获取的目标物体检测模型；

S3、获取单目深度估计数据集；

S4、将步骤S3中获取的数据集对深度估计模型进行训练，获得能够对包含目标物体的RGB图像进行单目深度估计的单目深度估计预训练模型；

S5、目标检测模型对待定位包含目标物体的RGB图像进行种类识别和位置提取，识别出当前图像中目标物体并得到其二维像素中心坐标；

S6、单目深度估计训练模型将对当前图像进行深度估计，获得不同分辨率图像的深度估计；

S7、利用U-Net将高分辨率图像的深度估计、低分辨率图像的深度估计和局部高频深度估计进行融合，获得兼具高频细节与低频结构的深度估计图；

S8、将步骤S5中获取的二维像素中心坐标输入深度估计图，获得目标物体的相对深度；

S9、对相机进行标定，获得相机的内参矩阵和畸变系数；

S10、对目标物体的相对深度进行标定，转化得目标物体的绝对深度值，并获得目标物体的像素坐标系下的坐标；

S11、对步骤S10获得的像素坐标系进行平移和缩放，得到目标物体的图像坐标系中的坐标；

S12、对图像坐标系进行转换，得到目标物体的相机坐标系中的坐标；

S13、对相机坐标系进行转换，得到以机械臂底座的中心点为原点的世界坐标系中的坐标。

进一步的，在所述步骤S1中，获取的数据集包括训练集、验证集和测试集。

进一步的，在所述步骤S2中，获取得数据集包括训练集，所述训练集包括DIMLIndoor、MegaDepth、WSVD、ETH3D和Sintel训练集。

进一步的，在所述步骤5中，目标物体的二维像素中心坐标由下式获得：

式中，(u1，v1)为目标框的左上角坐标，(u2，v2)为右下角坐标。

进一步的，在所述步骤10中，由像素的相对深度标定至绝对深度的公式如下：

式中，B＝0.075m对应红外投影仪到红外摄像机的距离(基线)，Fx为红外摄像机水平方向的焦距为367.749，V_max是相对深度的最大值，v是相对深度。

进一步的，在所述步骤11中，像素坐标系与图像坐标系的转换公式如下：

式中，dx是x方向上单位长度的像素数，dy是y方向单位长度的像素数。

进一步的，在所述步骤S12中图像坐标系与相机坐标系的转换公式如下：

式中，f是焦距，Zc是物体离相机光心的距离。

进一步的，在所述步骤S13中，相机坐标系与世界坐标系的转换公式如下：

式中，R为旋转矩阵，T为平移矩阵

进一步的，将所述式(3)、式(4)和式(5)合并化简后得到像素坐标系与世界坐标系的转换公式，如下：

利用像素坐标系下的二维坐标p(x，y)求解出世界坐标系下的(X_W，Y_W，Z_W)，得到目标物体在机械臂坐标系下的三维坐标。

本发明的有益效果如下：

1、与RGB-D、激光雷达、双目视觉对比，单目视觉定位成本更低，本发明将单目视觉定位与空间坐标算法相融合从而获取果实目标的三维坐标，兼具低成本和高准度定位的优势。

2、双目视觉的定位效果受相机基线的约束，而本发明可以实现低分辨率相机下的深度估计值获取，并且在果实密集区域仍能获取定位值。

3、该方法能够较准确快速的识别出目标物体的种类并得到目标物体的平面坐标。该方法对每种目标物体的识别准确率平均可达95％，帧率平均达到22.1fps，更满足果实采摘轻量级、实时性的需求。

4、该方法能够较准确地从单目图像中提取深度信息，本方法在近距离光照强度正常时具有普适性，在近距离定位中具有可行性。

5、该方法可以实现可以从单目图像中检测标记出多个果实的三维坐标，在近距离和正常光照强度影响下均可完成测量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是实施例中不同光照强度下水果的样本图像；

图2是机械臂抓取定位的单目深度估计定位方法的流程图；

图3是单目自适应性多分辨率深度估计网络模型图；

图4是三维定位构建流程图；

图5是实施例中坐标系转换图；

图6是模型训练参数指标；

图7是实施例中石榴在不同光照强度下的识别效果图；

图8是实施例中不同光照强度下桃子的深度估计图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本实施例中以桃子、桔子和石榴三种果实作为目标物体做进一步说明。

获取目标物体检测、识别的数据集。本实施例中，图像采集设备为树莓派90度无畸变720P的USB单目摄像机。为了模拟采摘现场，我们搭建了5种不同光照强度下的的果树场景进行拍摄，共750张，其中石榴250张，桃子250张，橘子250张，图片大小为640×480像素。根据8：1：1比例构造出训练集、验证集、测试集。图1所示为不同的光线强度场所的图片。

由于水果自然生长导致叶片遮挡，形态各异等问题，对识别准确性造成了影响，为了提高训练效果，加强模型的泛化能力，对图片进行增强，方式包括镜像，旋转，加入高斯噪声。经过增强后，共有数据集3000张，分为训练集2400张，验证集300张，测试集300张。增强后的数据集信息如表1所示，使用LabelImg对图像标注，类型分别为peach，orange，pomegranate并生成xml文件，文件包含了水果名称，大小以及在图像中的位置。

表1水果种类数据集信息统计

本实施例中，目标识别检测算法选用YOLOv5S，YOLOv5是一种单阶段的目标检测算法，该算法在YOLOv4的基础上加入了一些改进，使其速度和精度都得到了较大的提升，有较强的灵活性与便捷性，这种轻量级的模型更容易部署到移动端设备。将获取的数据集对YOLOv5s目标检测算法进行训练，获得目标检测模型；

获取单目深度估计数据集，单目深度估计依赖于大而多样的深度训练集，由于在不同规模环境中获取地面真实深度存在挑战，因此出来了许多明显特征和偏差的数据集。已有研究表明在特定的数据集上训练网络，跨数据的训练更加可靠，在未知场所也可以稳定发挥。

本实施例中，数据集进行互补训练与测试，训练集有5个数据集组成，DIML Indoor中主要是静态室内场景的RGB-D数据集，由Kinectv2捕获；MegaDepth主要是静态场景，采用sfm与MVS重构的3D模型；ReDWeb是多样化的动态场景；WSVD由立体视频组成，具有多样的动态场景；3D电影数据集中包含以高质量视频帧为特色的动态环境。测试集选择了6个准确深度的数据集，DIW中包括户外和相对深度注释；ETH3D在静态场景中具有高度精确的激光深度；Sintel是来自动画中合成的数据集；KITTI与NYUDv2是具有特征偏差的数据集；TUM-RGBD是室内环境中RGBD数据集。

使用上述5个数据集对ResNext101网络对训练，得到深度估计预训练模型。相对于ResNet-101、ResNeXt-101和DenseNet-161的模型上，ResNeXt-101使用WLS(WeaklySupervised Learning)预训练相对性能较好。首先采用以ResNeXt-101进行预训练，预训练前先进行弱监督训练。由于现有的深度数据集的场景没有一个足够丰富，可以在多个场景下应用的训练数据，因此发明采用多个数据集，可以充分利用不同数据集的互补性，具体数据如表2所示。由于每种数据集表达方式不一致，部分数据集给出了相对深度，但是跨数据集的深度无法转化，因此本发明采用MIDAS提出具有深度和偏移不变性的损失函数如下式所示，它改变了数据集之间的不兼容即未知的或不一致的基线和规模。

M是图像中具有有效地面真实值的像素个数，视差预测d＝d(θ)∈R^M,θ为预测模型参数，相应地面视差d^*∈R^M，在单个像素框下进行索引，ρ定义了特定的损失函数类型，和表示预测值和地面真实值的尺度和移位变换。将损失定义在视差空间中，尺度和移位变换可以使不同数据集数据兼容。

虽然得到预训练模型，但在果实定位场景下，还要考虑如何提高树叶果实重叠密集区域深度估计的性能。本研究采用通过内容自适应多分辨率合并将单目深度估计模型提高到兼具高频细节与低频结构的深度估计。单目估计深度的网络特性随输入图像的变化而变化，在接近训练分辨率的低分辨率中，深度估计具有一致的结构，但缺乏高频细节；当相同的图像以更高的分辨率输入网络时，可以更好的捕捉高频细节，而结构一致性将会下降。这种特性源于模型的能力与感受野大小的限制，采用双重估计框架，融合同一图像在不同分辨率下的两种自适应深度估计，以产生高频细节，同时保证结构的一致性。

如图3所示，得到低分辨率的深度图后，采用pix2pix架构以10层U-Net为生成器的模型将高分辨率细粒度的细节传输到低分辨率的输入，得到基本估计。双重估计得到的结果还可以继续优化高频细节，即为图像的不同区域生成不同分辨率的深度估计，再合并得到一致的完整结果。以基本分辨率平铺图像，平铺图像等于感受野大小，每一个patch有1/3的重叠。将patch中的边缘密度与整个图像的边缘密度进行比较，如果小于图像，则丢弃，如果大于，则扩大patch，直到patch的边缘密度与整个图像的边缘密度相同，提取出具有区域高频细节的图像，再使用pix2pix将高频细节输入y3传输到基本估计的输入最后得到深度估计。

如图4所示，由目标物体的目标物体的二维像素中心坐标得到目标物体的世界坐标系包括以下步骤：

1、通过YOLOv5s模型得到图像中每一个果实的种类和目标框左上角坐标(u1，v1)和右下角坐标(u2，v2)，通过式1计算出中心坐标为(x，y)

将式1得到的(x，y)输入图像的单目深度估计图中得到相对深度Zc′，相对深度结果用于后续计算绝对深度。

2、相机标定

使用张正友标定法标定得到了相机的内参矩阵如式8：

3、不同距离下相对深度的标定

在深度估计中得到的是物体的相对深度，可以将每一点的真实距离进行标定完成相对深度到绝对深度的转换。根据Kinetic深度相机的成像原理，确定了原始深度即相对深度与以米为单位的度量深度d之间的关系如式2：

其中B＝0.075m对应红外投影仪到红外摄像机的距离(基线)，Fx为红外摄像机水平方向的焦距为367.749,V_max是相对深度的最大值，v是相对深度。如表3所示实验中选取了15cm到150cm的桃子图像测量实际深度d与相对深度v对V_max进行标定，标定结果用于后文中实际距离的计算。

表2不同深度下相对深度的标定结果

4、像素坐标系与世界坐标系的转换

在本研究中相机坐标系的o点为相机光心，世界坐标系的o点为机械臂底座的中心点，相机坐标系位于机械臂上，世界坐标系到相机坐标系的转换如式5用齐次坐标的形式表示：

像素坐标系到相机坐标系得转换如图6所示。相机坐标系转换到图像坐标系根据相似三角形利用△ABO′～△OCO′和△BPO′～△CP′O′可得式(9)：

进而得出式10、式11：

最终可得式4：

这样就能够得出二维成像平面上的坐标标P′(x,y)。

将图像坐标系转化为像素坐标系涉及到平移和缩放

将三次转化的关系式合并可得：

化简得

由式8得到相机内参矩阵转置后即随后得到果实真实的深度Z_c，即可通过像素坐标系下的(x，y)，求解世界坐标系下的(X_W，Y_W，Z_W)。

5、目标检测的结果与分析

本次目标检测训练操作***为AlamLinux，GPU为24G显存的GeForce RTX3090 Ti，框架使用pytorch，使用YOLO版本为YOLOv5s。水果数据集迭代轮数共设置为300轮，批尺寸(batch size)设置为32，输入图片大小为640像素×640像素，在实验配置环境中共训练12小时。

模型训练的参数如图6所示，横坐标均为迭代次数，a图纵坐标为YOLOv5s的性能表现，召回率(recall)、精确率(precision)、mAP_0.5随着训练轮数的增加逐渐趋向于1，mAP_0.5:0.95在训练达到300轮时，达到89.03；b图纵坐标为损失表现，train_loss、train_obj、val_loss、val_obj随训练轮数的增加逐渐减小，说明模型具有有效性。

图7中在不同光照强度下，网络都能表现出不错的精度。将YOLOv5s与YOLOv5版本m、l、x及YOLOv6s、YOLOv7[23]对比，模型迭代轮数均设置为300轮，批尺寸(batch size)设置为32，最终结果如表3、表4所示，YOLOv5不同版本之间精确度、召回率、mAP_0.5均在0.99以上，帧率相差不大，但YOLOv5s的mAP_0.5:0.95最高为89.03，且模型最小为13.75MB。与更高版本YOLOv6s和YOLOv7对比得出YOLOv5s帧率略低，但精确度、召回率、mAP_0.5、mAP_0.5:0.95更高且模型更小。因此YOLOv5s在保证精度、速度较高的情况下，模型更小，更适用于果实采摘设备轻量级和实时性的需求。

6、单目估计结果与分析

为了验证本实验单目深度估计的准确性，使用桃子、桔子、石榴各100张进行测试，计算单目测距的结果。深度估计的结果评价采用MAE(mean absolute error)、RMSE(rootmean squqred error)进行评价分析[24]，MAE是绝对误差的平均值，RMSE是预测值与真实值的误差平方根的均值。

1、计算不同距离对单目深度估计的影响，如表3三种水果在不同距离下测量结果。

表3不同距离下三维坐标的测量结果

在15cm～150cm的检测范围内，桃子、桔子和石榴三种水果的(MAE,RSME)分别为(0.525,0.747)、(0.576,0.707)、(0.612,0.703)。在15cm～120cm的检测范围内，桃子、桔子和石榴三种水果的(MAE,RSME)分别为(0.419,0.538)、(0.458,0.544)、(0.474,0.565)。由此说明在近距离下的定位更准确。

2、如图8所示，使用GY-30传感器在距离桃子50cm处测量不同光照强度下的深度信息。

表4不同光照强度下的定位测量结果

由表4得到20.83lx至184.17lx时MEA的平均值为1.12，RSME的平均值为1.908。在109.16lx至184.17lx时MEA的平均值为0.413，RSME的平均值为0.379，光照强度为109.16lx时MAE和RMSE最低，测量效果最好，光照强度低于100lx时误差最大。由此可得本方法在光照强度正常或偏高时定位比较准确。

综上，可以得出的主要结论如下：

1)该方法能够较准确快速的识别出果实种类并得到目标果实平面坐标。本研究使用YOLOv5s对桃子、桔子、石榴进行检测模型训练，模型精确率为99.7％，召回率为99.8％，mAP(0.95)为89.03％，每种水果的识别准确率平均可达95％，帧率平均达到22.1fps，更满足果实采摘轻量级、实时性的需求。

2)该方法能够较准确地从单目图像中提取深度信息。本研究通过对桃子，桔子，石榴进行深度测量，在15cm到120cm内桃子MAE为0.419，RSME为0.538，桔子MAE为0.458，RSME为0.544，石榴MAE为0.474，RSME为0.565。在109.16lx至184.17lx时MEA的平均值为0.413，RSME的平均值为0.379。说明本方法在近距离光照强度正常时具有普适性。

3)本方法在模拟摘果场景中，15cm处抓取成功率为80.6％，30cm处抓取成功率为91％。说明本方法在近距离具有可行性。

4)该方法可以实现可以从单目图像中检测标记出多个果实的三维坐标，在近距离和正常光照强度影响下均可完成测量。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。