CN111783772A

CN111783772A - 一种基于RP-ResNet网络的抓取检测方法

Info

Publication number: CN111783772A
Application number: CN202010535619.8A
Authority: CN
Inventors: 赵景波; 邱腾飞; 朱敬旭辉; 刘信潮; 张晓寒; 张文彬
Original assignee: Qingdao University of Technology
Current assignee: Qingdao University of Technology
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-10-16
Also published as: WO2021249255A1; US20230186056A1

Abstract

本发明属于计算机视觉领域，具体涉及机械臂抓取点的识别定位。基于PR‑ResNet网络的抓取检测方法，包括：目标物图像输入，数据预处理，RP‑ResNet网络模型进行数据处理，最终生成抓取目标的抓取框图。以模型ResNet‑50为基础,在网络的第30层使用区域建议网络，模糊定位抓取点位置，充分融合高低层的特征信息加强对底层次信息的利用，网络第40层加入SENet结构，进一步增加了抓取点检测的准确性。本发明的基于ResNet‑50的抓取检测框架，将残差网络、区域建议思想、SENet相结合，确保在实现目标快速检测的同时，进一步升目标检测的准确率。

Description

一种基于RP-ResNet网络的抓取检测方法

技术领域

本发明属于计算机视觉领域，具体涉及目标物抓取点的识别定位。

背景技术

机器人抓取包括感知、计划和控制。作为起点，准确而多样地检测机器人对目标的抓取候选对象，将有助于更好地规划抓取路径，提高基于抓取的操作任务的整体性能。

随着深度学习理论的发展，出现很多深层神经网络模型，每一种网络可通过设计不同的权重层数建立不同深度的网络模型。虽然更深的网络可能带来更高的精度，但会导致网络训练及检测的速度降低。由于残差结构并不增加模型参数，可有效地缓解深层网络训练的梯度消失和训练退化的问题，从而提升网络收敛性能。

发明内容

本发明的目的在于提供一种高精度目标检测识别框架，本发明的有益效果是具有充分融合深度神经网络高底层信息的特点，另外，它还在数据处理速度和检测精度上有明显的提高。

本发明所采用的技术方案是分阶段处理、融合ResNet-50网络数据。

第一阶，区域建议网络(RPN)的输入为一个卷积特征图，卷积响应图像按RPN的结果分割出感兴趣区域，对部分通道(每类的每个相对空间位置通道中)的感兴趣区域分成k×k个网格，每个网格平均池化，然后所有通道再平均池化。对1个大小为w×h的ROI，每个区域的大小为W/h×W/h，，最后1个卷积层为每类产生k2个分数图，ROI第(i,j)个子区域(0≤i,j≤k-1)：

其中，r_c(i,j)为第c类第(i,j)个bin的池化响应；z_i,j,c为k²(C+1)个分数图中的输出；(x₀,y₀)为ROI的左上角坐标；n为bin里的像素总数；Θ为网络参数。

第二阶段，SENet模块增强抓取检测任务中关键通道的注意力，以提升检测准确度：

s＝F_ex(z,W)＝σ(W₂δ(W₁,z)) (3)

其中，F_sq表示对特征图技能压缩，W×H表示二维特征图的大小，F_ex表示对特征图济宁特征提取操作，z为输入的二维特征图转化的压缩特征向量，W₁，W₂为全连接层的权重，σ为sigmoid激活函数，

为最终输出，并作为下一阶段的输入。

附图说明

图1是根据本发明实施例的RP-ResNet基本原理图。

图2是根据本发明实施例的区域建议网络原理图。

图3是根据本发明实施例的SENet增强模块原理图。

具体实施方式

下面结合附图和实施例对本发明的基于RP-ResNet网络抓取检测方法的原理步做出详细的阐述和介绍，以便本领域技术人员更好的理解本发明的技术思路和内涵，本领域的技术方案并不限于实施例所诉的具体内容。

本实施例的基于RP-ResNet网络的抓取检测方法，基本原理图如图1所示，具体包括：

1.首先使用Kinect深度相机获取目标物的深度信息和彩色图像信息。

2.将采集的目标物图像的像素大小调整为277*277，作为网络模型的输入，将处理后的图片输入到PR-ResNet网络中，提取图像特征。

在ResNet第30输入至区域建议网络(RPN)中，使用Ren S Q等人提出的为每个生成的框分配一个二进制标签，并使用该标签确定该框是否为目标。其中，在以下两种情况之一中具有正标记：1)具有特定框架或实际框架的最高交集和并集比率的框架。2)与实际框架的相交并集超过0.7个目标框架。联合比率小于0.3的真实框架标记是负面标签。多任务损失函数用于最小化目标函数。目标函数的组织如下：

其中i表示一个小批量样本索引，p_i表示小批量样本的索引i的目标概率；真是标签

为0时表示负标签；t_i表示预测边界的参数变化量；

表示正标签小批量样本的索引i对应的真实框的坐标向量；L_cls和L_reg分别表示损失和回归损失，N_cls和N_reg表示归一化参数；λ表示平衡权重。

本专利使用一个k×k滑动窗口(RP-ResNet中使用3×3)扫描整个特征图，如图2所示，然后使用大小为1×1的卷积核对其进行卷积运算，得到一个2k(类别)通道的分数图和一个4k(边界框)通道的分数图。试验中小窗口对包含目标的窗口位置进行预测，使区域提议更准确。

根据RPN的结果将卷积响应图像划分出关注区域，对某些通道(在每个类别的相对空间位置的每个通道中)的关注区域分成k×k个网格，并且对每一个网格采取平均池化操作，然后所有通道再平均池化。对1个大小为w×h的ROI，每个区域的大小为W/h×W/h，，最后1个卷积层为每类产生k2个分数图，ROI第(i,j)个子区域(0≤i,j≤k-1)，对于第C个类别的池化响应如式1所示。

我们将ROI中所有的抓取方案堆叠起来，然后将其递送到全连接层，送入下一级的残差网络中。

SENet网络如图3所示，ResNet网络第40层加入SENet网络采用挤压(Squeeze)、激励(Excitation)以及特征重标定(Scale)三个操作完成特征通道自适应校准。首先使用全局平均池化压缩每一个特征图，将C类特征图转换成1×1×C的实数数列，使每一个实数具有全局感受。然后通过两个卷积层完成降维与升维的操作，第一个卷积层将特征维度降低到原来的C/r后通过Relu激活函数增加非线性；第二个卷积层恢复原来的特征维度，经过Sigmoid函数得到归一化的权重，最后通过乘法逐通道加权到原来的特征通道上，对原始特征进行重标定。挤压、激励以及特征重标定如式2-4所示。

s＝F_ex(z,W)＝σ(W₂δ(W₁,z)) (3)

为最终输出，并作为下一阶段的输入。

最终RP-ResNet网络输出目标物的抓取点信息。

利用深度神经网络低层特征语义信息弱，语义信息弱，目标位置清晰，而高层语义信息强，目标位置模糊的特点；在ResNet第30输入至区域建议网络(RPN)中，网络模型如图2所示，使用一个k×k滑动窗口(RP-ResNet中使用3×3)扫描整个特征图，然后使用大小为1×1的卷积核对其进行卷积运算，得到一个2k(类别)通道的分数图和一个4k(边界框)通道的分数图。试验中小窗口对包含目标的窗口位置进行预测，使区域提议更准确。

另一方面，通过通道注意力SENet结构，通过挤压(Squeeze)、激励(Excitation)以及特征重标定(Scale)三个操作完成特征通道自适应校准，建立特征通道之间的相互依赖关系，提升对抓取检测任务起积极作用的特征并抑制用处不大的特征，从而进一步提高检测准确率。

Claims

1.基于RP-ResNet网络的抓取检测方法，其特征在于，包括：

分阶段处理、融合ResNet-50网络数据，使用区域建议网络(RPN)充分利用神经网络低层特征语义信息弱，目标位置清晰，而高层语义信息强，目标位置模糊的特点，使抓取建议更加准确；并通过通道注意力结构SENet结构，进一步提升建立特征通道之间的相互依赖关系，提升对抓取检测任务起积极作用的特征并抑制用处不大的特征，从而提高检测准确率进一步。

2.根据权利要求1所述的基于RP-ResNet网络的抓取检测方法，其特征在于：

第一阶，区域建议网络(RPN)的输入为一个卷积特征图，卷积响应图像按RPN的结果分割出感兴趣区域，对部分通道(每类的每个相对空间位置通道中)的感兴趣区域分成k×k个网格，每个网格平均池化，然后所有通道再平均池化；对1个大小为w×h的ROI，每个区域的大小为W/h×W/h，，最后1个卷积层为每类产生k2个分数图，ROI第(i,j)个子区域(0≤i,j≤k-1)：

其中，r_c(i,j)为第c类第(i,j)个bin的池化响应；z_i,j,c为k²(C+1)个分数图中的输出；(x₀,y₀)为ROI的左上角坐标；n为bin里的像素总数；Θ为网络参数；

s＝F_ex(z,W)＝σ(W₂δ(W₁,z)) (3)

为最终输出，并作为下一阶段的输入。