CN113808205B

CN113808205B - 一种基于检测约束的快速动态目标抓取方法

Info

Publication number: CN113808205B
Application number: CN202111017087.XA
Authority: CN
Inventors: 魏武; 冯凯月; 余秋达; 高天啸
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-07-18
Anticipated expiration: 2041-08-31
Also published as: CN113808205A

Abstract

本发明公开了一种基于检测约束的快速动态目标抓取方法，包括以下步骤：S1建立快速目标检测方法；S2、用迁移学习的方法对S1中的网络进行训练；S3、使用S2中训练好的模型，基于摄像头获取的RGB图像数据流进行目标检测，实现对真实环境中抓取物体的分类与标注；S4、设计物体边界框矫正策略，减小图像中标注的边界框与真实边界框的偏差；S5、利用深度信息算法估计目标物体抓取点的深度值；S6、将抓取位姿映射到机器人操作空间中的三维抓取位姿。本发明提出了一种基于检测约束的快速动态目标抓取方法，并且建立MobileNetV3融合YOLOV4检测方法的检测算法，可以满足抓取操作对实时性的要求。

Description

一种基于检测约束的快速动态目标抓取方法

技术领域

本发明涉及计算机视觉，深度学习领域，具体涉及一种基于检测约束的快速动态目标抓取方法。

背景技术

21世纪开始以来，机器人已在人们生产生活的各个领域发挥的重大的作用，工业上自动分拣机器人、物流机器人已逐渐取代人工，工业上的机器人抓取也发挥了极大的作用。工业上的机器人抓取大都是结构化的物品，通过简单的识别甚至是设定好的流程，但是机器人在非结构化的生活物品的抓取还是一项富有挑战性的工作。

深度相机能够实时采集当前实验场景中的RGB图像和深度图像数据流，利用物体检测算法从RGB图像中提取出需要的信息，并且用于目标检测的大型公开数据集包含的全面对不同的非结构化的场景中的物体分类与检测都能达到很好的效果。

随着深度学习的发展，深度学习已经应用到非结构化的生活物品抓取中，很多研究者用深度学习的方法进行抓取检测。通过抓取检测数据集对构建的神经网络训练，再形成合理的抓取位姿(喻群超等.基于三级卷积神经网络的物体抓取检测[J].安徽，合肥:中国科学技术大学)。其中生成的抓取位姿包含可旋转的对象，但是用于抓取检测的开源数据集较小，网络收敛困难。且算法对于无旋转的物体抓取产生的冗余的问题。

发明内容

为了解决现有技术所存在的技术问题，本发明提供一种基于检测约束的快速动态目标抓取方法，首先使用基于RGB图像的抓取物体实时检测算法对相机采集的包含抓取物体的RGB图像数据流进行目标检测，实现对真实环境中抓取物体的分类与标注；然后通过基于检测约束的抓取估计算法估计图像上的目标抓取位姿；最后估计抓取位姿精确的深度信息，利用标定得到的机器人视觉抓取***坐标系的转换关系将图像上的抓取位姿映射到机器人的操作空间中，将其作为机器人抓取目标物体的期望抓取位姿，进行抓取操作。将RGB图像下的物体检测和抓取检测结合起来能够有效的提升传统目标检测的效率。

本发明至少通过如下技术方案之一实现。

一种基于检测约束的快速动态目标抓取方法，包括以下步骤：

S1、建立快速目标检测模型；

S2、对快速目标检测模型进行预训练，再使用标注的数据集训练快速目标检测模型；

S3、使用训练好的快速目标检测模型对摄像头获取的RGB图像数据流进行目标检测，对真实环境中抓取物体进行分类与标注，所述标注包括标注物体边界框；

S4、对步骤S3中的物体边界框进行矫正，减小图像中标注的边界框与真实边界框的偏差；

S5、利用深度信息算法估计目标物体抓取点的深度值；

S6、利用机器人视觉抓取***的标定结果，将抓取位姿映射到机器人操作空间中的三维抓取位姿。

优选地，所述快速目标检测模型为MobileNetV3-YOLOv4模型，MobileNetV3-YOLOv4模型的主干特征提取网络为MobileNet V3的特征提取网络，所述特征提取网络包括若干个瓶颈结构网络结构，所述瓶颈结构网络结构为线性瓶颈的倒残差结构。

优选地，每个瓶颈结构网络结构包括若干个卷积核、池化层、两个全连接层。

优选地，向一个瓶颈结构网络输入一个特征图a，使用一个卷积核对输入的特征图进行降维操作，再经过另一卷积核的深度可分离卷积，提取抽象的特征图b，然后依次池化层和两个全连接层，将前面高度抽象化的特征图进行整合，经过第一个全连接层时先将特征图的通道数缩小为原来的h倍，经过第二个全连接层时再将特征图的通道数扩张h倍，变回原来的通道数；经过两个全连接层得到的特征图C再与特征图b进行相乘操作，得到特征图D，最后特征图D经过卷积核的卷积层，得到特征图E，最后该瓶颈结构网络输出的是特征图a和特征图E相加得到的特征图F。

优选地，步骤S2中，利用开源数据集PASCAL VOC数据集对模型进行训练，将数据集分为训练集和验证集，使用验证集对训练完的快速目标检测模型进行验证，训练结果达到峰值的的平均准确率后，保存训练得到的参数。

优选地，步骤S4包括以下步骤：

S401、遍历物体边界框中所有的像素的深度值，设置阈值d_t＝d_c-d₀，d₀为常数，d_c为边界框中心点的深度值；

S402、假设生成的边界框的四个顶点分别是A、B、C、D，读取边界A-B所有像素的深度值，如果存在深度值小于阈值d_t的像素点，则将A-B上移一个像素，读取移动后的A-B的所有像素的深度值，如果仍存在深度值小于阈值d_t的像素点，则将边界A-B上移，直到边界A-B及其上方3个像素的边界上所有像素的深度值均大于d_t，将此时边界的端点分别设置为第一端点A1和第二端点B1；反之，如果边界A-B所有像素的深度值均大于d_t，则将边界A-B下移一个像素，直至边界A-B及其下方的m个像素的边界上存在深度值小于d_t的像素；

S403、通过步骤S402的方式，对边界C-D、边界A-C、边界B-D依次进行校正，最终得到矫正后的边界框以及边界框的四个顶点。

优选地，步骤S5包括以下步骤：

S501、将RGB图像中目标物体的边界框映射到深度相机获取的深度图像中，在深度图像上标记出目标物体边界框对应的深度区域，将边界框中间的1/4区域作为深度值估计区域；

S502、对深度值估计区域的数据进行稀疏采样，每个采样点之间间隔n个像素，n为正整数，与区域中的数据量大小成正比；

S503、在深度图像中读取以上采样点的深度值，使用滤波算法剔除深度值等于0的点，假设保存的像素点的深度值为b_zi，i≤m，m为边界框区域内采样点的数量，则估计抓取点的深度值b_z为：

优选地，所述抓取位姿包括最佳抓取点像素和最佳抓取点张开的宽度和最佳抓取角度θ。

优选地，抓取位姿生成的方式为：夹爪的旋转角度和夹爪两指的开合的宽度基于预测后的边界框的宽度和高度进行计算，由于深度摄像头固定在夹爪末端，随着夹爪的旋转移动，边界框的长边为夹爪开合的方向，短边的长度为夹爪开合的宽度，夹爪旋转角度为θ，夹爪两指的开合宽度为

优选地，步骤S6包括以下步骤：

S601、获取抓取点在相机坐标系中的位姿：

由相机的内参数模型，将抓取点的RGB图像像素坐标(b_x,b_y)转化为相机坐标系下的坐标

x_b＝(b_x-u₀)/k_xb_z

{y_b＝(b_y-v₀)k_yb_z

z_b＝d

其中，u₀、v₀、k_x、k_y分别为彩色相机内参数的标定值，d为深度相机中的深度值；

S602、获取机械臂基坐标系中的抓取点位置：

抓取点在机械臂基坐标系的位置为：

其中为相机坐标系与机械臂坐标系的变换矩阵，/>为坐标/>

S603、获取机械手的真实抓取宽度：

机械手在图像上的宽度像素值为将其转化为机械手真实的抓取宽度w，图像上的宽度像素值和真实抓取的宽度与相机离物体的距离具有线性关系，真实的抓取宽度w为：

其中k是图像像素值与相机与物体的距离之间的参数；根据上述推导，得到机器人操作空间中的抓取g＝((p_x,p_y,p_z),w,θ)本发明与现有技术相比，具有如下优点和有益效果：

本发明提出的基于检测约束的目标抓取算法可以直接利用目标检测算法输出目标物体边界框估计抓取位姿，无需对目标物体建立3D模型，算法简单易实现，简化了目标抓取的流程，通过边界框矫正可以避免目标检测算法标注的边界框不准确对抓取造成影响。

附图说明

图1为本发明实施例方法的算法结构图；

图2为本发明实施例分类边界框矫正算法的示意图；

图3为本发明实施例本发明中预测最佳抓取位姿的示意图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

如图1所示，本发明基于检测约束的快速动态目标抓取方法，包括以下步骤：

S1、建立MobileNetV3-YOLOv4快速目标检测模型；

S2、采用大PASCAL VOC公开数据集对步骤S1中的网络进行预训练，再将其迁移到针对自制日常物品数据集的目标检测任务中训练；

S3、使用S2中训练好的模型，基于摄像头获取的RGB图像数据流进行目标检测，实现对真实环境中抓取物体的分类与标注；

S4、采用物体边界框矫正策略，减小图像中标注的边界框与真实边界框的偏差，使边框更精准的包含所含物体；

S5、使用抓取位姿估计算法和深度信息算法，估计目标物体在空间中的抓取位姿；

S6、利用机器人视觉抓取***的标定结果，将空间里的抓取位姿映射到机器人操作空间中，估计目标物体在机器人极坐标系中的抓取位姿；抓取位姿包括最佳的抓取点像素和最佳抓取点张开的宽度和最佳抓取的角度θ。其中角度θ的信息由图像的边框决定，θ的值包括90度和0度。

作为优选的例子，所述MobileNetV3-YOLOv4快速目标检测模型融合了MobileNetV3结构和YOLOv4结构，MobileNetV3-YOLOv4模型的特征提取网络主要包含15个bneck网络结构。bneck网络整体是一个线性瓶颈的倒残差结构。

在一个bneck网络中，输入一个特征图a，首先使用一个1×1卷积核对输入的特征图进行降维操作，再经过一个3×3或5×5的卷积核的深度可分离卷积，提取融合更深层、抽象的特征图特征，得到特征图b，然后经过一个池化层，进一步提取特征图特征，扩大感受野，然后再是两个FC(Fully Connected layer)层，即全连接层，将前面高度抽象化的特征图进行整合，经过第一个全连接层时先将特征图的通道数缩小为原来的4倍，经过第二个全连接层时再将特征图的通道数扩张四倍，变回原来的通道数。经过两个全连接层得到的特征图C再与特征图b进行相乘操作，得到特征图D，最后特征图D经过一个1×1卷积核的卷积层，得到特征图E，最后bneck网络输出的是特征图a和特征图E相加得到的特征图F。

优选的，模型利用开源数据集PASCAL VOC数据集对模型进行训练，其中数据集的的70％作为训练集，30％作为验证集。使用验证集对训练完的快速目标检测模型进行验证，训练结果达到峰值的的平均准确率后，保存训练得到的参数。

优选的，训练模型优劣的衡量指标是的平均准确率mAP，即在多类目标检测中，每一类的检测精度AP相加求得的平均值。AP通过交并比IoU的值来评价模型，IoU0.5表示将阈值设定为0.5，当预测框和真实框的IoU大于0.5时被认定预测为正样本。

IoU计算方法如下：

其中，A为预测矩形，B为真实矩形，IOU预测矩形和真实矩形之间面积的交并比为评价指标。

作为优选的例子，边界框的矫正如图2所示：

(1)、步骤S3中经过物体检测算法后会生成物体的边界框，在深度图像中遍历物体边界框中所有的像素的深度值，d_c为边界框中心点的深度值，设置阈值d_t＝d_c-d₀，d₀为常数。

(2)、假设生成的矩形边界框的四个顶点分别是A、B、C、D。读取边界A-B所有像素的深度值，如果存在深度值小于d_t的像素点，则将A-B上移一个像素，读取移动后的A-B的所有像素的深度值，如果仍存在深度值小于d_t的像素点，则将边界A-B上移，知道边界A-B及其上方3个像素的边界上所有像素的深度值均大于d_t，将此时边界的端点分别设置为A1和B1；反之，如果边界A-B所有像素的深度值均大于d_t，则将边界A-B下移一个像素，直到边界A-B，直至边界A-B及其下方的3个像素的边界上存在深度值小于d_t的像素；

(3)、通过与步骤S42类似的方式，对边界C-D、A-C、B-D依次进行校正。最终得到矫正后的边界框，边界框的四个顶点分别为(A1、B1、C1、D1)。

优选的，图3所示为本发明中抓取位姿生成的方式示意图，图中A点为边界框的左上顶点坐标，B点为右下顶点坐标。边界框的表示即为(u_min,v_min,u_max,v_max)，则抓取点(b_x,b_y)，和夹爪宽度为：

w＝min(u_max-u_min,v_max-v_min)

夹爪的旋转角度和夹爪两指的开合的宽度基于预测框的宽度和高度进行计算。本发明是采取对待抓取目标物体的预测框短边抓取的策略，由于深度摄像头固定在夹爪末端，随着夹爪的旋转移动，矩形框的长边为夹爪开合的方向，长边的长度为夹爪开合的宽度，夹爪需顺时针旋转角度为θ，夹爪两指的开合宽度为旋转角度和短边的朝向一致，短边竖直，角度为90度，短边水平，角度为0度。开合的宽度w和短边的长度相等。

优选的，步骤S5得到二维图像中的抓取位姿后，设计机器人操作空间的抓取位姿估计算法，从处理后的深度图像中估计抓取点的深度值。

(1)将RGB图像中目标物体的边界框映射到处理后的深度图像中，在深度图像上标记出目标物体边界框对应的深度区域，将边界框中间的1/4区域作为深度值估计区域。

(2)为了避免处理过多的数据量，影响算法的计算效率，对深度值估计区域的数据进行稀疏采样，每个采样点之间间隔n个像素(n为正整数，与区域中的数据量大小成正比)。

(3)在深度图像中读取以上采样点的深度值，使用滤波算法剔除深度值等于0的点。假设保存的像素点的深度值为b_zi(i≤m)，m为边界框区域内采样点的数量，则估计抓取点的深度值b_z为：

在步骤S6中，得到二维图像中的抓取位姿和抓取点的深度值后，将其映射到机器人操作空间g＝((p_x,p_y,p_z),w,θ)，(p_x,p_y,p_z)表示在机器人坐标系中的三维位置坐标，利用机器人视觉抓取***的标定结果，将空间里的抓取位姿映射到机器人操作空间中，估计目标物体在机器人极坐标系中的抓取位姿。具体操作如下：

S601、计算抓取点在相机坐标系中的位姿

x_b＝(b_x-u₀)/k_xb_z

{y_b＝(b_y-v₀)k_yb_z

z_b＝d

其中，u₀,v₀,k_x,k_y为彩色相机内参数的标定值，d为深度相机中的深度值。

S602、计算机械臂基坐标系中的抓取点位置

抓取点在机械臂基坐标系的位置为：

其中为相机坐标系与机械臂坐标系的变换矩阵。

S603、计算机械手的真实抓取宽度

机械手在图像上的宽度像素值为将其转化为机械手真实的抓取宽度w。图像上的宽度像素值和真实抓取的宽度是和相机离物体的距离有一定的线性关系。所以在真实的抓取宽度w为：

其中k是图像像素值与相机与物体的距离之间的一个参数，b_z为S5中计算出物体的深度值。

S604、根据上述推导，计算可得到机器人操作空间中的抓取g＝((p_x,p_y,p_z),w,θ)

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于检测约束的快速动态目标抓取方法，其特征在于，包括以下步骤：

S1、建立快速目标检测模型，所述快速目标检测模型为MobileNetV3-YOLOv4模型，MobileNetV3-YOLOv4模型的主干特征提取网络为MobileNet V3的特征提取网络，所述特征提取网络包括若干个瓶颈结构网络结构，所述瓶颈结构网络结构为线性瓶颈的倒残差结构；

S5、利用深度信息算法估计目标物体抓取点的深度值；

S6、利用机器人视觉抓取***的标定结果，将抓取位姿映射到机器人操作空间中的三维抓取位姿，包括以下步骤：

S601、获取抓取点在相机坐标系中的位姿：

由相机的内参数模型，将抓取点的RGB图像像素坐标(b_x,b_y)转化为相机坐标系下的坐标P_b ^c(x_b,y_b,z_b)：

x_b＝(b_x-u₀)/k_xb_z

y_b＝(b_y-v₀)k_yb_z

z_b＝d

其中，u₀、v₀、k_x、k_y分别为彩色相机内参数的标定值，d为深度相机中的深度值；b_z为抓取点的深度值；

S602、获取机械臂基坐标系中的抓取点位置：

抓取点在机械臂基坐标系的位置为：

其中T_c ^o为相机坐标系与机械臂坐标系的变换矩阵，为坐标/>

S603、获取机械手的真实抓取宽度：

其中k是图像像素值与相机与物体的距离之间的参数；根据上述推导，得到机器人操作空间中的抓取g＝((p_x,p_y,p_z),w,θ)。

2.根据权利要求1所述的一种基于检测约束的快速动态目标抓取方法，其特征在于，每个瓶颈结构网络结构包括若干个卷积核、池化层、两个全连接层。

3.根据权利要求2所述的一种基于检测约束的快速动态目标抓取方法，其特征在于，向瓶颈结构网络输入一个特征图a，使用一个卷积核对输入的特征图进行降维操作，再经过另一卷积核的深度可分离卷积，提取抽象的特征图b，然后依次池化层和两个全连接层，将前面高度抽象化的特征图进行整合，经过第一个全连接层时先将特征图的通道数缩小为原来的h倍，经过第二个全连接层时再将特征图的通道数扩张h倍，变回原来的通道数；经过两个全连接层得到的特征图C再与特征图b进行相乘操作，得到特征图D，最后特征图D经过卷积核的卷积层，得到特征图E，最后该瓶颈结构网络输出的是特征图a和特征图E相加得到的特征图F。

4.根据权利要求1所述的一种基于检测约束的快速动态目标抓取方法，其特征在于，步骤S2中，利用开源数据集PASCAL VOC数据集对模型进行训练，将数据集分为训练集和验证集，使用验证集对训练完的快速目标检测模型进行验证，训练结果达到峰值的平均准确率后，保存训练得到的参数。

5.根据权利要求1所述的一种基于检测约束的快速动态目标抓取方法，其特征在于，步骤S4包括以下步骤：

6.根据权利要求1所述的一种基于检测约束的快速动态目标抓取方法，其特征在于，步骤S5包括以下步骤：

7.根据权利要求1所述的一种基于检测约束的快速动态目标抓取方法，其特征在于：所述抓取位姿包括最佳抓取点像素和最佳抓取点张开的宽度和最佳抓取角度θ。

8.根据权利要求7所述的一种基于检测约束的快速动态目标抓取方法，其特征在于：抓取位姿生成的方式为：夹爪的旋转角度和夹爪两指的开合的宽度基于预测后的边界框的宽度和高度进行计算，由于深度摄像头固定在夹爪末端，随着夹爪的旋转移动，边界框的长边为夹爪开合的方向，短边的长度为夹爪开合的宽度，夹爪旋转角度为θ，夹爪两指的开合宽度为