CN113505806B

CN113505806B - 一种机器人抓取检测方法

Info

Publication number: CN113505806B
Application number: CN202110614570.XA
Authority: CN
Inventors: 王洪刚; 胡标
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2023-12-15
Anticipated expiration: 2041-06-02
Also published as: CN113505806A

Abstract

本发明公开了一种机器人抓取检测方法。针对输入物体图像信息采用区域候选网络对特征进行感兴趣区域提取和归一化操作，采用基于通道注意力机制的多层特征提取网络聚合特征映射的空间信息，通过将先验框与预测框进行重新编码使网络可以进行快速预测，通过设计新的RS损失函数来矫正抓取特征提取网络的学习方向，提升了对各种形状物体抓取框的检测能力。本发明将机器人抓取物体的检测过程分阶段处理，可以有效地应对机器人抓取单物体或多个物体堆积的场景，且能同时识别待抓取物体的类型，具有较高的机器人抓取检测精度和速度。

Description

一种机器人抓取检测方法

技术领域

本发明属于计算机视觉与智能机器人领域，具体涉及一种机器人抓取检测方法。

背景技术

在未来智能机器人中，环境感知能力是智能化水平的重要体现，例如在自动驾驶汽车方面，进行实时地图构建和出行避障成为了关键；另一方面就是对环境的认知能力，像人类一样认识各种物体的种类和所处位置，并能完成更多动作，其中机器人智能抓取物体在特殊危险环境、医疗和家庭服务机器人等方面扮演着重要角色。

目前抓取检测方法主要分为二维平面抓取检测和物体六自由度位姿估计两种方法。首先基于二维平面彩色图像的检测方法将输入图像划分为N个网格单元预测抓取矩形框相对于先验框的偏移量，虽然可以减少了网络模型回归边框的难度，但检测速度较慢且只关注抓取方面的检测能力，并不关心物体的种类信息。基于二维平面深度图的检测方法只考虑物体的外形信息，对输入深度图像的每个像素分别进行抓取质量、抓取角度和抓取宽度的预测。虽然达到了较高的运行速度，但对检测背景内不能有其它物体，这种方法同样也无法关注物体的类别信息。利用物体六自由度估计的方法进行检测主要是对物体的三维信息进行关键点的检测并生成可行的抓取候选者。但这种方法实际要求传感器精度高，抗干扰能力强，最好是多个传感器在不同的角度进行信息的融合。

基于此，本发明提供了一种机器人抓取检测方法。

发明内容

针对现有机器人抓取检测算法的缺陷，本发明的目的是提供一种机器人抓取检测方法。具有同时进行物体识别的特点，且能有效地应对多物体环境下的检测，有效地提升了机器人抓取的实用性。

为了达到上述目的，本发明包括以下步骤：

一种机器人抓取检测方法主要包括以下内容：

步骤一：利用Kinect相机获取包含机器人抓取物体的图像信息；

步骤二：利用卷积网络对获取的机器人抓取物体图像进行初步的语义特征提取获得初级特征图；

步骤三：利用区域候选网络对得到的初级特征图进行检测获得机器人抓取物体在输入图像上的位置信息；

步骤四：根据机器人抓取物***置信息得到抓取物体在输入图像中的位置区域，然后对不同大小的区域进行同一池化操作，使输出的机器人抓取物体特征图尺寸相同；

步骤五：将获取到相同大小的机器人抓取物体特征图送入物体识别支路进行抓取物体识别检测和抓取检测支路进行抓取框检测；

步骤六：对属于同一区域的两个支路的机器人抓取物体的检测结果进行匹配，得到最终的机器人抓取物体检测结果。

根据本发明的一种机器人抓取检测方法，步骤二具体如下：

利用ResNet101的前四层网络作为我们的特征提取网络，该网络为全卷积网络，计算量相对于全连接网络大幅减少，通过16倍的下采样将输入机器人抓取物体图像中的物体纹理提取出来。

根据本发明的一种机器人抓取检测方法，步骤三具体如下：

首先对输入的机器人抓取物体的初级特征图进行3×3的卷积操作进行降维，然后利用两个1×1的卷积对特征图进行分类和回归计算，将得分较高的区域看作包含目标物体的区域。

根据本发明的一种机器人抓取检测方法，步骤五具体如下：

将同一尺寸的特征图经过由三个瓶颈层组成的模块进行更深层次语义特征的提取，并在每一个瓶颈层后加入通道注意力机制模块，利用全局池化和平均池化聚合输入机器人抓取物体特征映射的空间信息，提高抓取检测支路对物体抓取检测位置的预测能力。

对机器人物体抓取检测之路的抓取先验框与抓取真实框进行了匹配，编码公式如下：

其中，c表示网格单元的宽度，n表示每个网格单元中的先验框数量，(t_x,t_y,t_w,t_h,t_a)分别表示物体编码后预测框的中心点横纵坐标、宽高以及旋转角度；(b_x,b_y,b_w,b_h,b_a)分别表示物体抓取先验框的中心点横纵坐标、宽高以及旋转角度，(p_x,p_y,p_w,p_h,p_a)分别表示物体抓取真实框的中心点横纵坐标、宽高以及旋转角度。

抓取检测支路预测物体抓取框在图像中的位置，设计了新的旋转框的RS损失函数，公式如下：

其中，L_gd表示抓取物体的分类损失和回归损失之和；表示正样本中抓取先验框的概率，/>表示负样本中抓取物体先验框的概率；tⁱ为表示预测抓取矩形框的向量，/>为与抓取先验框相关的真实框坐标；θⁱ为抓取预测框角度，/>为和抓取先验框匹配的真实框；N为匹配的抓取先验框数量，α表示损失函数中回归损失占的比重，β表示回归损失中旋转角度差值占的比重。

对属于同一区域的两个支路的机器人抓取物体的检测结果进行匹配，得到最终的机器人抓取物体检测结果。

附图说明

图1是***框架流程图；

图2是本发明的机器人抓取检测方法流程图；

图3是抓取检测支路流程图；

图4是物体识别可视化结果图；

图5是抓取检测可视化结果图；

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

步骤一：训练机器人抓取检测网络获得权重参数

利用VMRD数据集对两阶段检测网络进行训练和测试；

加载ResNet101在ImageNet数据集上的预训练模型，对数据集的图片进行数据增强，例如图像翻转、裁剪、光照变化、对比度变化和颜色变化等。

训练到30代后观察loss变化是否趋于稳定并小于设定值，满足条件后停止训练，保存权重文件；

步骤二：加载训练好的参数，准备利用机器人抓取物体图像进行检测；

步骤三：利用Kinect相机拍摄的机器人抓取物体图像作为我们检测模型的输入，输入的抓取物体图像尺寸不要求长宽相等，输入图像尺寸宽为600；

步骤四：输入机器人抓取物体图像到检测网络中，利用ResNet101的前四层卷积网络作为特征提取网络，将图像中的抓取物体的纹理特征提取出来；

步骤五：利用区域候选网络对获得的初级特征图进行检测获得物体在输入图像上的位置信息，首先对输入特征进行3×3的卷积操作，降低初级特征图在通道维度的尺寸，然后利用两个单独的1×1的卷积进行物体分类和边框回归计算，将得分较高的区域看作包含机器人抓取物体的区域。

步骤六：根据机器人抓取物***置信息对不同大小的区域进行同一池化操作，使输出的机器人抓取物体特征图尺寸相同，具体步骤如下：假定采样点数为4，则将区域平分四份小矩形，每一份取其中心点位置，中心点位置的像素采用双线性插值法进行计算，然后对每个单元格内的四个采样点进行最大池化，就可以得到最终的结果。

步骤七：将获取到相同大小的机器人抓取物体特征图送入物体识别支路进行抓取物体识别检测和抓取检测支路进行抓取框检测，具体步骤如下：

同一尺寸的特征进入物体识别支路后，利用ResNet101的第五层网络进行更深层次特征的提取，对输入特征进一步进行下采样，最后对输出特征进行物体的类别检测和边框回归检测，根据预测框的分数高低利用非极大值抑制减少物体预测框中重叠度过高的部分。

抓取检测支路中，输入特征经过由三个瓶颈层和通道注意力模块组成的卷积网络进行更深层次的特征提取，将输出特征映射到初始特征图上，并在每个网格中设置6个大小与网格相同，角度相差30度的先验框(anchor)。

通过先验框和预测值编码得到预测框在输入图像中的位置，先验框与预测框的编码公式如下：

抓取检测支路预测物体抓取框在图像中的位置，旋转抓取框的RS损失函数公式如下：

对检测结果进行评估，当一个预测结果满足以下三个条件的时候则认为模型预测正确：

1)物体检测分支中物体的类别预测正确且真实框和预测框的IOU大于0.5；

2)预测框和真实框的角度差值小于30度；

3)预测框和真实框的IOU大于25％。

模型训练和测试均在Nvidia GeForce RTX 2080Ti上进行，在VMRD数据集上且输入图片宽度为600像素时，本发明的机器人抓取检测网络物体抓取精度(MAP)达到了75.3％，每一秒可以检测约16张图片，且在多物体堆积场景下识别精度较高。

本发明的优点在于在输入较低机器人抓取物体图像精度的条件下，不仅提高了网络的运行速度，通过改进抓取检测支路的网络结构和损失函数，使机器人抓取检测精度也有较大提升。

Claims

1.一种机器人抓取检测方法，其特征在于，该方法包括以下步骤：

步骤一：利用Kinect相机采集机器人抓取物体的图像信息，利用ResNet101网络对待抓取物体图像进行初步的语义特征提取，对初级特征利用区域候选网络进行检测获得物体在输入图像上的位置信息；

步骤二：根据步骤一中得到的物***置信息对不同大小和形状的区域进行同一池化操作使各物体特征尺寸相同，然后将特征送入物体识别支路进行物体识别检测和抓取检测支路进行抓取框检测，对两个支路属于同一区域的检测结果进行匹配，最终得到机器人抓取物体的类别信息和抓取位置信息；

所述步骤二中的抓取检测支路中的RS损失函数公式如下：

其中，L_gd表示抓取物体的分类损失和回归损失之和；表示正样本中抓取先验框的概率，/>表示负样本中抓取物体先验框的概率；tⁱ为表示预测抓取矩形框的向量，/>为与抓取先验框相关的真实框坐标；θⁱ为抓取预测框角度，/>为和抓取先验框匹配的真实框角度；N为匹配的抓取先验框数量，α表示损失函数中回归损失占的比重，β表示回归损失中旋转角度差值占的比重。

2.根据权利要求1所述的一种机器人抓取检测方法，其特征在于：所述步骤一中的区域候选网络包括首先对获取到的初级抓取物体特征图进行3×3的卷积操作进行降维，然后利用两个1×1的卷积对特征图进行分类和回归计算，选取得分较高的物体区域用于下一步检测。

3.根据权利要求1所述的一种机器人抓取检测方法，其特征在于：所述步骤二中的抓取检测支路首先是由三个瓶颈层组成的模块，并在每一个瓶颈层后加入通道注意力机制模块，该支路输入特征图尺寸与输出特征图尺寸相同。

4.根据权利要求1所述的一种机器人抓取检测方法，其特征在于：所述步骤二中的抓取检测支路将输出特征映射到步骤一中的初始特征图上，并在每个网格中设置6个大小与网格相同、角度相差30度的先验框，先验框与预测框的编码公式如下：

t_x＝(b_x-p_x)/c

t_y＝(b_y-p_y)/c

t_w＝log(b_w/p_w)

t_h＝log(b_h/p_h)

t_a＝(b_a-p_a)/n

其中，c表示网格单元的宽度，n表示每个网格单元中的先验框数量，(t_x,t_y,t_w,t_h,t_a)分别表示机器人物体编码后预测框的中心点坐标、宽高以及旋转角度；(b_x,b_y,b_w,b_h,b_a)分别表示机器人物体抓取先验框的中心点坐标、宽高以及旋转角度，(p_x,p_y,p_w,p_h,p_a)分别表示机器人物体抓取真实框的中心点坐标、宽高以及旋转角度。